專利名稱:普通拼寫助記法的制作方法
技術領域:
本發(fā)明一般涉及聲音識別軟件應用程序,尤其涉及用于通過聲音識別應用程序處理短語的字符的方法。
背景技術:
語言可能是人類交流的最古老的形式,且許多科學家現(xiàn)在相信,通過語言來交流的能力是在人類大腦的生理機能中天生提供的。這樣,允許用戶同使用諸如語言的自然用戶界面(NUI)的計算機交流是長久追求的目標。事實上,在達到該目標方面最近有長足進展。例如,某些計算機現(xiàn)在包括允許用戶口頭輸入用于操作計算機的命令和要被轉化成文本的口述的語音識別應用程序。這些應用程序一般通過定時記錄通過麥克風的聲音樣本、分析樣本來識別用戶正在說出的音位以及識別由說出的音位組成的單詞來操作。
盡管語音識別越來越平凡,仍舊存在關于使用傾向于困擾有經驗的用戶并疏遠初學者用戶的常規(guī)語音識別應用程序的某些缺點。一個這樣的缺點涉及說話者和計算機之間的交互。例如,使用人類交互,人們傾向于基于他們察覺的聽眾的反應來控制他們的語言。同樣,在對話過程中,聽眾可以通過點頭或發(fā)出諸如“是”“嗯”的有聲反應來提供反饋,以指示他或她理解對他們說的內容。另外,如果聽眾不理解對他們說的內容,聽眾可以呈現(xiàn)有疑問的表情、探身過去或給出其它有聲或無聲的暗示。為了響應該反饋,說話者一般改變他或她說話的方式,且在某些情況中,說話者可能說得更慢、更響、停頓更頻繁或者不斷地重復語句,通常聽眾甚至沒有意識到說話者改變了他們與聽眾交互的方式。這樣,對話過程中的反饋是告知說話者關于他們是否被聽眾理解的十分重要的元素。然而不幸地,常規(guī)聲音識別應用程序尚未能夠提供這種類型的對于由人機界面推動的語音輸入/命令的“自然用戶界面(NUI)”反饋響應。
目前,聲音識別應用程序已經達到大致90%到98%的準確率。這意味著,當用戶使用一般聲音識別應用程序口授進入文檔時,他們的語音在大致90%到98%的時間中會被聲音識別應用程序準確地識別。這樣,在每一百個(100)由聲音識別應用程序記錄的字母中,大致有二個(2)到十個(100)字母必須被改正。具體地,現(xiàn)有的聲音識別應用程序傾向于對識別某些特定字母有困難,諸如“s”(例如,ess)和“f”(例如,eff)?,F(xiàn)有聲音識別應用程序用來解決這個問題的一種方法,涉及給用戶使用預先定義的助記法來解釋他們正在發(fā)音哪個字母的能力。例如,當口授時,用戶擁有說“apple中的a”或“boy中的b”的能力。
然而不幸地,該方法含有與之相關聯(lián)的傾向于限制用戶對聲音識別應用程序的友好的缺點。一個缺點涉及,為每一字母使用預先定義的助記法,這傾向于成為標準軍用字母表(例如,alpha,bravo,charlie,....)。這是因為,盡管當口授時,可以給定用戶去說的助記法列表(例如,“I as in igloo”),但是用戶傾向于構成他們自己的助記字母表(例如,“I as in India”),并且忽視預先定義的助記字母表。可以預期,因為聲音識別應用程序不識別沒有預先定義的助記法,字母識別錯誤變得常見。另一個缺點涉及盡管某些字母擁有與之關聯(lián)的占主導地位的助記法(即,>80%)的小的集合(Apple中的A、Adam中的A或者Dog中的D、David中的D或者Zebra中的Z、Zulu中的Z),然而其它字母不擁有與之相關聯(lián)的占主導地位的助記法(例如,L、P、R和S)。這使得合適的普通語言模型的創(chuàng)建不僅是非常困難的,而且事實上是不可能的。同樣,對語音識別軟件應用程序傳送語言仍舊產生相對大量的錯誤,且這些錯誤不僅傾向于在常用用戶中制造挫折,而且也傾向于使得初學者用戶氣餒,有可能導致用戶拒絕繼續(xù)使用聲音識別應用程序。
發(fā)明內容
提供了創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法,其中該方法包括,生成包含大量預先定義的例如字母、數字、符號等的字符的n字母組語言模型,其中n字母組語言模型包括來自大量預先定義的字符的至少一個字符。該方法還包括對該至少一個字符中的每一個構造新的語言模型(LM)標記,響應于預先定義的發(fā)音詞典并且為該至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示。另外,該方法包括響應于字符發(fā)音表示為該至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典,以及編譯供語音識別軟件應用程序使用的n元語言模型,其中編譯語言模型是響應于新的語言模型標記和備選發(fā)音詞典的。
提供了創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法,其中該方法包括,生成含有大量預先定義的字符的n字母組語言模型,其中n字母組語言模型包括來自大量預先定義的字符的至少一個字符。另外,該方法包括響應于預先定義的發(fā)音詞典為該至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示,以及響應于字符發(fā)音表示為該至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典。
提供了執(zhí)行用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法的系統(tǒng),其中該系統(tǒng)包括用于存儲該語音識別軟件應用程序和至少一個目標軟件應用程序的存儲設備。該系統(tǒng)還包括用于向系統(tǒng)口頭輸入數據和命令的輸入設備、顯示設備,其中顯示設備包括用于顯示輸入的數據的顯示屏,以及處理設備。處理設備與存儲設備、輸入設備和顯示設備通信,使得處理設備接收使得語音識別軟件應用程序來在顯示屏上顯示拼寫UI并且操作響應于輸入命令的輸入數據的指令。
提供了機器可讀計算機程序代碼,其中程序代碼包括用于使得處理設備執(zhí)行創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法的指令,其中處理設備和存儲設備和顯示設備通信,且其中存儲設備包括語音識別軟件應用程序。該方法包括生成包含大量預先定義的字符的n字母組語言模型,其中n字母組語言模型包括來自大量預先定義的字符的至少一個字符,并且對該至少一個字符中的每一個構造新的語言模型(LM)標記。該方法還包括,響應于預先定義的發(fā)音詞典為該至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示以及響應于字符發(fā)音表示為該至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典。而且,該發(fā)明包括,編譯供語音識別軟件應用程序使用的n字母語言模型,其中編譯語言模型是響應于新的語言模型標記和備選發(fā)音詞典的。
提供了使用機器可讀計算機程序代碼編碼的介質,其中程序代碼包括用于使得處理設備執(zhí)行創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法的指令,其中處理設備和存儲設備和顯示設備通信,且其中存儲設備包括語音識別軟件應用程序。該方法包括生成包含大量預先定義的字符的的n字母組語言模型,其中n字母組語言模型包括來自大量預先定義的字符中的至少一個字符,并且對該至少一個字符中的每一個構造新的語言模型(LM)標記。該方法還包括,響應于預先定義的發(fā)音詞典為該至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示以及響應于字符發(fā)音表示為該至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典。而且,該發(fā)明包括,編譯供語音識別軟件應用程序使用的n字母組語言模型,其中編譯語言模型是響應于新的語言模型標記和備選發(fā)音詞典的。
當結合附圖,附圖中同樣的元件在若干附圖中被以相同的標號標出,本發(fā)明的前述和其它特征會通過閱讀以下對說明性實施例的詳細描述而被更完全地理解,附圖中圖1是示出一般語音識別系統(tǒng)的框圖;圖2是根據示例性實施例,示出用于實現(xiàn)用來創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法的系統(tǒng)的示意性框圖;圖3是根據示例性實施例,示出用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法的框圖;以及圖4是美式英語發(fā)音表。
具體實施例方式
大多數語音識別應用程序使用典型的聲學模式和典型的字模式的模型以確定給定聲音話語的逐字的副本。這些字模式隨后被語音識別應用程序使用,且被共同稱為語言模型(LM)。同樣地,語言模型表示字序列以及在給定語境中該序列出現(xiàn)的概率。這樣,為了在語音識別應用程序中有效,語言模型必須從大量文本訓練數據中構造。也應該理解,當被用于使用臺式機語音識別軟件應用程序改正單詞的拼寫時,助記法可以被用起很大作用。例如,一種場景可以涉及用戶試圖不使用助記法來拼寫單詞,且現(xiàn)在處于語音識別軟件應用程序錯誤識別了傳送的字母中的一個(或更多的)情形。使用助記法來重新說出一個字母顯著地增加了當重新說出該字母時用戶成功的可能性。
參考圖1,顯示了示出典型的語音識別系統(tǒng)100的框圖,該框圖包括處理設備102、輸入設備104、存儲設備106和顯示設備108,其中在存儲設備106上存儲了聲學模型110和語言模型112。聲學模型110一般包含有助于解碼器確定說出的是什么單詞的信息。聲學模型110通過基于由輸入設備104提供的光譜參數假定一連串音位來完成這個任務,其中音位是語言中能夠傳達意義中區(qū)別且一般涉及詞典和隱馬爾科夫模型的使用的最小的語音單位。例如,聲學模型110可以包括單詞及其對應的語音發(fā)音的字典(詞典),其中這些發(fā)音包括給定音位序列會在一起出現(xiàn)來構成單詞的概率的指示。另外,聲學模型110也包括關于獨特音位在其它音位的語境中可能出現(xiàn)的似然率的信息。例如,“tri-phone”是使用在左邊有一個獨特的音位(在前添加)和在右邊有另一個獨特的音位(在后添加)的語境中的獨特音位。這樣,聲學模型110的內容被處理設備102使用來預測由計算出的光譜參數表示的單詞。
另外,語言模型(LM)112指定,單詞如何以及以何種頻率會在一起出現(xiàn)。例如,n字母組語言模型112估算一個單詞會跟隨單詞序列出現(xiàn)的概率。這些概率值共同構成了n字母組語言模型112。處理設備102隨后使用源于n字母組語言模型112的概率來在最佳單詞序列假定(使用聲學模型110識別的)中選擇來獲得由光譜參數表示的最有可能的單詞或單詞序列,其中最有可能的假定可以由顯示設備108顯示。
如此處所述的本發(fā)明是在獨立和/或集成的應用程序模塊的語境中描述的,這些模塊連同使用語音識別應用程序來接收并識別由用戶輸入的聲音命令的通用計算機執(zhí)行的系統(tǒng)使用。作為面向對象的應用程序,該應用程序模塊可以展示客戶機程序可以訪問來與該應用程序模塊通信的標準界面。應用程序模塊也可以允許諸如文字處理程序、桌面出版程序和應用程序等的眾多不同的客戶機程序來在本地地和/或在諸如WAN、LAN和/或基于互聯(lián)網的媒介的網絡上使用該應用程序模塊。例如,應用程序模塊可以被諸如電子郵件應用程序或Microsoft Word等的任何含有文本字段的應用程序和/或控制器本地地或經由因特網接入點來訪問和使用。然而,在描述本發(fā)明的各方面之前,在以下描述可以包含本發(fā)明并從中獲益的合適的計算環(huán)境的一個實施例。
參考圖2,顯示了示出用于實現(xiàn)用來創(chuàng)建供語音識別應用程序使用的助記語言模型112的方法的系統(tǒng)200的框圖,該框圖包括通用計算機系統(tǒng)200,通用計算機系統(tǒng)200包括處理設備204、系統(tǒng)存儲器206、以及系統(tǒng)總線208,其中系統(tǒng)總線208將系統(tǒng)存儲器206耦合至處理設備204。系統(tǒng)存儲器206可包括只讀存儲器(ROM)210和隨機讀取存儲器(RAM)212?;据斎?輸出系統(tǒng)214(BIOS)包含有助于諸如啟動時在通用計算機系統(tǒng)202中元件之間傳遞信息的基本例程,它通常存儲在ROM 210中。通用計算機系統(tǒng)202還包括存儲設備216,諸如硬盤驅動器218、磁盤驅動器220(例如,讀取或寫入可移動磁盤222)以及光盤驅動器224(例如用于讀取CD-ROM盤226或者讀取或寫入其它光學介質)。存儲設備216可以通過諸如硬盤驅動器接口230、磁盤驅動器接口232以及光學驅動器接口234的存儲設備接口連接至系統(tǒng)總線208。這些驅動器及其相關聯(lián)的計算機可讀介質向通用計算機系統(tǒng)202提供了非易失性存儲。盡管上述計算機可讀介質的描述參考了硬盤、可移動磁盤和CD-ROM盤,應該理解,可以使用可由計算機系統(tǒng)讀取的且適于所需最終目標的其它類型的介質,諸如磁帶盒、閃存卡、數字錄像盤、貝努利盒式磁帶等。
用戶可以通過常規(guī)輸入設備235向通用計算機系統(tǒng)202輸入命令和信息,輸入設備235包括鍵盤236、諸如鼠標28的定點設備以及麥克風240,其中麥克風240可以被用于向通用計算機系統(tǒng)202輸入諸如語音的聲頻輸入。另外,用戶可以通過使用輸入筆在書寫板242上繪制圖形信息來向通過計算機系統(tǒng)202輸入諸如繪制或手寫的圖形信息。通用計算機系統(tǒng)202也可以包括適于所需最終目的的另外的輸入設備,諸如操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等。麥克風240通過耦合至系統(tǒng)總線208的聲頻適配器244被連接至處理設備204。而且,其它輸入設備一般通過耦合至系統(tǒng)總線208的串行接口246連接至處理設備204,但是也可以由其它接口,諸如并行端口、游戲端口或通用串行總線(USB)連接。
諸如監(jiān)視器或其它類型顯示設備的顯示設備247包含顯示屏248,顯示屏248也通過諸如視頻適配器250的接口連接至系統(tǒng)總線208。除了顯示屏248,通用計算機系統(tǒng)202一般也可以包括其它外圍輸出設備,諸如揚聲器和/打印機。通用計算機系統(tǒng)202可使用至一個或多個遠程計算即系統(tǒng)252的邏輯連接在網絡化環(huán)境下操作。遠程計算機系統(tǒng)252可以是服務器、路由器、對等設備或其它常見網絡節(jié)點,且可以包括上文相對于通用計算機系統(tǒng)202描述的許多或所有元件,盡管在圖2中只示出遠程存儲器存儲設備254。圖2中所示邏輯連接包括局域網(LAN)256和廣域網(WAN)258。這樣的網絡環(huán)境在辦公室、企業(yè)范圍計算機網絡、內聯(lián)網和因特網中是常見的。
當在LAN網絡環(huán)境中使用時,通用計算機系統(tǒng)202通過網絡接口260連接至局域網256。當在WAN網絡環(huán)境中使用時,通用計算機系統(tǒng)202通常包括調制解調器262或用于通過諸如因特網等WAN258建立通信的其它裝置。調制解調器262可以是內置或外置的,它可以通過串行端口接口246連接至系統(tǒng)總線208。在網絡化環(huán)境中,相對于通用計算機系統(tǒng)202所描述的程序模塊或其部分可以存儲在遠程存儲器存儲設備254中。應該理解,所示的網絡連接是示例性的,且可以使用在計算機之間建立通信鏈路的其它手段。也應該理解,應用程序模塊可以等效地在除了通用計算機系統(tǒng)之外的主機或服務器計算機系統(tǒng)上執(zhí)行,且可以等效地通過除了CD-ROM之外的裝置被傳輸至主機計算機系統(tǒng),例如,通過網絡連接接口260。
而且,眾多程序模塊可以被存儲在通用計算機系統(tǒng)202的驅動器和RAM 212中。程序模塊控制通用計算機系統(tǒng)202如何作用以及同用戶、I/O設備或其它計算機交互。程序模塊包括例程、操作系統(tǒng)264、目標應用程序模塊266、數據結構、瀏覽器和其它軟件或固件組件。本發(fā)明的方法可以被包含在應用程序模塊中,且應用程序模塊可以方便地在諸如基于此處描述的方法的語音引擎糾正模塊270的一個或多個程序模塊中執(zhí)行。目標應用程序模塊226可以包括與本發(fā)明結合使用的多個應用程序,其中某些在圖3中示出。這些程序模塊中的某些程序模塊的目的及其之間的交互將在描述圖3的文字中更完全地討論。這些程序模塊包括含有文本字段的任何應用程序和/或控制器,例如電子郵件應用程序、文字處理軟件程序(諸如由華盛頓,雷德蒙的微軟公司生產的Microsoft Word)、手寫識別程序模塊、語音引擎糾正模塊270以及輸入方法編輯器(IME)。
應該理解,沒有描述用于執(zhí)行在詳細描述中描述的多個過程的特定編程語言,因為認為,在附圖中描述和示出的操作、步驟以及過程是充分揭示的,來允許本領域的普通技術人員來實現(xiàn)本發(fā)明的示例性的實施例。而且,存在可用于實現(xiàn)示例性實施例的眾多計算機和操作系統(tǒng),從而不可能提供適用于所有這些眾多不同的系統(tǒng)的詳細計算機程序。特定計算機的每一用戶將意識到對該用戶的需求和目的最有用的語言和工具。
參考圖3,顯示了示出用于創(chuàng)建供使用圖2的通用計算機系統(tǒng)202的語音識別軟件應用程序使用的助記法語言模型的方法300的框圖,其中通用計算機系統(tǒng)202包括與輸入設備235通信的處理設備204、存儲設備216以及顯示設備247,其中顯示設備247包括如圖2所示的顯示屏248。如上所述,輸入設備235可以是適于所需最終目的的任何設備,諸如麥克風。而且,語音識別軟件應用程序可以被存儲在存儲設備216上以允許處理設備204來訪問該語音識別軟件應用程序。而且,諸如Microsoft Windows的至少一個目標軟件應用程序266,可以被存儲在存儲設備216上以允許用戶通過傳輸至處理設備204的指令執(zhí)行該目標軟件應用程序。
如在操作性框302中所示,方法300包括為大量預先定義的字符和/或字符串中的每一字符和/或字符串生成n字母組語言模型112。如前簡要所述,這會給跟隨其它字符的特定字符的出現(xiàn)分配概率。例如,考慮在單詞“era”中字母“a”在字符串“er”之后的出現(xiàn)。生成n字母組語言模型112會引起將概率P(a|e,r)分配給該出現(xiàn)。換言之,概率P(a|e,r)可以表示在字母序列“er”之后該出現(xiàn)的可能性。應該理解,n字母組語言模型112可以以公眾標準APRA格式編寫為一文件,可以是大小寫敏感的,以允許將概率分配給大寫字母和小寫字母。如操作性框304所示,方法300還包括為大量預先定義的字符和/或字符串中的每一字符和/或字符串構造新的語言模型標記。例如,考慮字符“a”,其中已經存在語言模型標記。新的語言模型標記“a-AsIn”被構造來供助記法拼寫使用,而老的語言模型標記“a”保持供字符拼寫使用。這慮及在維持性能且不增加語言模型的大小的同時,為常規(guī)拼寫技術和助記拼寫技術構造n字母組語言模型112。
如在操作性框306中所示,方法300還包括,響應于語音識別軟件應用程序的預先定義的發(fā)音詞典,為每一字符和/或字符串提取發(fā)音來創(chuàng)建字符發(fā)音表示的備選發(fā)音詞典。例如,再次考慮字符“a”,其中以“a”打頭的單詞的發(fā)音是從用于臺式機口授的語音識別軟件應用程序的發(fā)音詞典中提取的。使用該詞典,單詞“ARON”被發(fā)現(xiàn)含有如圖4所示的“ae r ax n”字符發(fā)音表示。對預先定義發(fā)音詞典中的每一字符和/或字符串,可以通過使用其新的語言模型標記在前添加每一字符以及通過在后添加長時間的靜止“sil”來創(chuàng)建備選的發(fā)音。例如,考慮新的語言模型標記“a AsIn”和單詞“ARON”。給定上述關系,發(fā)音可以備選地表示為“ey AA1 ey ae z ih n ae r ax n sil”,其中“ey AA1 ey ae z ih n”是“a AsIn”的在前添加的發(fā)音,“ae r ax n”是“ARON”的發(fā)音,而“sil”是在后添加的長時間靜止。另外,以類似的方式對待大寫字母。例如,考慮短語“ARON中的大寫的a”。給定上述關系,發(fā)音可以備選地表示為“kae pih tax ley AA1 ey ae z ih n ae r ax nsil”,其中“k ae p ih t ax l”是capital(大寫)的發(fā)音,“ey AA1 ey ae z ih n”是“a AsIn”的在前添加發(fā)音,“ae r ax n”是“ARON”的發(fā)音,而“sil”是在后添加的長時間靜止。
如在操作性框310中所示,用于大型詞匯識別器的n字母組語言模型可以隨后使用標準編譯器編譯,其中對編譯器的輸入包括在操作性框302中構造的n字母組語言模型(ARPA格式)以及在操作性框304和操作性框306中構造的發(fā)音詞典(對每一字母編碼不同發(fā)音變化)。應該理解,n字母組語言模型112可以使用適合于所需最終產品的任何編譯設備編譯,諸如及時(JIT)編譯器。
應該理解,方法300促進了基于給用戶使用含有多于120,000個助記法的語言模型的能力的語音語言模型的三字母組的創(chuàng)建。這可以通過對用戶可以說出120,000個單詞中的一個的事實編碼,編碼單詞的發(fā)音以及編碼一個單詞在給定兩個先前單詞的語境中出現(xiàn)的三字母組概率來完成。例如,給定短語“this is”,下一個用戶所說的單詞可以是單詞“near”或“kneel”,然后因為在英語中短語“thisis near”比“this is kneel”遠更常見,所以選擇單詞“kneel”。以類似的方式,對拼寫語言模型,術語“單詞”實際指的是字符,其中字符包括26個小寫字母,26個大寫字母,數字和符號。這樣,此處所揭示的方法300使用平均每個字母5000個發(fā)音(Salmon中的S=S、Sugar中的S=S、Salamander中的S=S...),且事實上,在120,000個單詞口授模型中的每個單詞被用作為可能的助記。每一助記為每一字母或發(fā)音被分配一不同的權重,某些被給出比其它助記更重的權重。例如,助記短語“Tom中的T”相比“tertiary中的T”給出了更重的權重,由于助記短語“Tom中的T”有更經常被使用的概率。另外,助記序列也具有概率,例如Donkey中的“D”在Fun中的“F”之后出現(xiàn)的可能性小于Donkey中的“D”在Sun中的“S”之后出現(xiàn)的可能性。這些概率可以特地生成,或者它們可以從調查采樣的簡單助記法列表中獲得。也應該理解,此處揭示的方法300供系統(tǒng)200用來“學習”額外的字符和/或字符串。而且,盡管方法300在此處關于美式英語音位來揭示并討論,但是方法300可以使用任何語言,諸如漢語、俄語、西班牙語以及法語的音位來使用。
根據示例性實施例,可以由響應機器可讀計算機程序操作的控制器完全或部分地執(zhí)行圖3的處理。為了執(zhí)行指定的功能和所需的處理,以及計算(例如,執(zhí)行控制算法、此處指定的控制處理等),因此控制器可以包括,但不限于,處理器、計算機、內存、存儲器、寄存器、定時、中斷、通信接口以及輸入/輸出信號接口,以及包含前述中至少一個的結合。
而且,本發(fā)明可以具體化為被執(zhí)行處理的計算機或控制器的形式。本發(fā)明也可以具體化為包含具體化為諸如軟盤、CD-ROM、硬盤驅動器和/或其它計算機可讀介質的有形介質的指令的計算機程序代碼的形式,其中當計算機程序代碼被裝載至計算機或控制器并由其執(zhí)行時,計算機或控制器成為實現(xiàn)本發(fā)明的裝置。本發(fā)明也可以具體化為例如,存儲在存儲介質中、裝載至和/或由計算機或控制器執(zhí)行、或者再諸如電線或電纜、光導纖維、或者電磁輻射的某些傳輸介質上傳輸的計算機程序代碼形式,其中當計算機程序代碼被裝載至計算機或控制器并由其執(zhí)行時,計算機和控制器成為實現(xiàn)本發(fā)明的裝置。當在通用微處理器上執(zhí)行時,計算機程序代碼段可以配置該微處理器來創(chuàng)建專用集成電路。
盡管本發(fā)明是關于示例性實施例描述的,本領域的技術人員可以理解,可以進行多種修改、省略和/或添加,且其中的元素可以由等價物替代,而不背離本發(fā)明的精神和范圍。另外,可以進行眾多的修改來使特定的情景或材料適應本發(fā)明的原理,而不背離其范圍。從而,本發(fā)明旨在不限于作為預期為執(zhí)行本發(fā)明的最佳模式所揭示的特定實施例,而是,本發(fā)明可以包括落入所附權利要求范圍的所有實施例。而且,除非特別聲明,術語第一、第二等的使用不表示任何順序或重要性,而是術語第一、第二等被用于將一個元素同另一個元素區(qū)分。
權利要求
1.一種用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法,所述方法包括生成包含大量預先定義的字符的n字母組語言模型,其中,所述n字母組語言模型包括來自所述大量預先定義的字符中的至少一個字符;對所述至少一個字符中的每一個構造一新的語言模型(LM)標記;響應于預先定義的發(fā)音詞典為所述至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示;響應于所述字符發(fā)音表示為所述至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典;以及編譯供語音識別軟件應用程序使用的所述n字母組語言模型,其中,所述編譯所述語言模型是響應于所述新的語言模型標記和所述備選發(fā)音詞典的。
2.如權利要求1所述的方法,其特征在于,所述大量預先定義的字符包括小寫字母、大寫字母、數字和預先定義的圖形字符中的至少一個。
3.如權利要求2所述的方法,其特征在于,所述大量預先定義的字符、所述預先定義的發(fā)音詞典和所述備選發(fā)音詞典中的至少一個是響應于英語語言的。
4.如權利要求1所述的方法,其特征在于,所述構造包括響應于所述至少一個字符中的所述每一個的助記拼寫對所述至少一個字符中的每一個構造新的語言模型標記。
5.如權利要求1所述的方法,其特征在于,所述創(chuàng)建包括向所述字符發(fā)音表示在前添加所述新的語言模型標記以及在后添加長時間的靜止“sil”來形成所述備選發(fā)音。
6.如權利要求1所述的方法,其特征在于,如果所述至少一個字符是大寫字符,則所述創(chuàng)建還包括向所述新的語言模型在前添加“k ae p in t ax l”。
7.如權利要求1所述的方法,其特征在于,所述編譯n字母組語言模型是使用標準編譯工具來編譯的。
8.如權利要求7所述的方法,其特征在于,所述標準編譯工具是及時(JIT)編譯工具。
9.如權利要求1所述的方法,其特征在于,所述n字母組語言模型是使用預先定義的格式生成的。
10.如權利要求1所述的方法,其特征在于,所述預先定義的格式是ARPA格式。
11.一種用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法,所述方法包括生成包含大量預先定義的字符的n字母組語言模型,其中,所述n字母組語言模型包括來自所述大量預先定義的字符中的至少一個字符;響應于預先定義的發(fā)音詞典為所述至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示;以及響應于所述字符發(fā)音表示為所述至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典。
12.如權利要求11所述的方法,其特征在于,所述生成還包括響應于所述至少一個字符中所述的每一個的助記拼寫對所述至少一個字符中的每一個構造新的語言模型(LM)標記。
13.如權利要求11所述的方法,其特征在于,所述大量預先定義的字符包括小寫字母、大寫字母、數字和預先定義的圖形字符中的至少一個。
14.如權利要求11所述的方法,其特征在于,所述大量預先定義的字符的、所述預先定義的發(fā)音詞典和所述備選發(fā)音詞典中的至少一個是響應于英語語言的。
15.如權利要求11所述的方法,其特征在于,所述創(chuàng)建還包括向所述字符發(fā)音在前添加所述新的語言模型標記以及在后添加長時間的靜止“sil”來形成所述備選發(fā)音;以及編譯供語音識別軟件應用程序使用的所述n字母組語言模型,其中,所述編譯所述n字母組語言模型是響應于所述新的語言模型標記和所述備選發(fā)音詞典的。
16.如權利要求15所述的方法,其特征在于,如果所述至少一個字符是大寫字符,則所述創(chuàng)建還包括向所述新的語言模型在前添加“k ae p in t axl”。
17.如權利要求11所述的方法,其特征在于,還包括使用標準編譯工具來編譯所述n字母組語言模型。
18.如權利要求11所述的方法,其特征在于,所述標準編譯工具是及時(JIT)編譯工具。
19.如權利要求11所述的方法,其特征在于,所述n字母組語言模型示是使用預先定義的格式生成的。
20.如權利要求11所述的方法,其特征在于,所述預先定義的格式是ARPA格式。
21.一種實現(xiàn)用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法的系統(tǒng),所述系統(tǒng)包括存儲設備,用于存儲所述語音識別軟件應用程序和至少一個目標軟件應用程序;輸入設備,用于向系統(tǒng)口頭輸入數據和命令;顯示設備,其中,所述顯示設備包括用于顯示所輸入的數據的顯示屏;以及處理設備,其中,所述處理設備與所述存儲設備、所述輸入設備和所述顯示設備通信,使得所述處理設備接收使語音識別軟件應用程序在顯示屏上顯示輸入的數據并且響應于所輸入的命令操縱所輸入的數據的指令。
22.如權利要求21所述的系統(tǒng),其特征在于,還包括聲學模型軟件模塊和語言模型軟件模塊,其中,所述聲學模型軟件模塊和所述語言模型軟件模塊部署在所述存儲設備上。
23.如權利要求21所述的系統(tǒng),其特征在于,還包括編譯器,其中,所述編譯器是能夠編譯ARPA格式的標準編譯工具。
24.如權利要求21所述的系統(tǒng),其特征在于,所述存儲設備是光學介質設備和磁性介質設備、內部存儲設備、外部存儲設備、可移動存儲設備和不可移動存儲設備中的至少一種。
25.如權利要求21所述的系統(tǒng),其特征在于,所述輸入設備是麥克風。
26.如權利要求21所述的系統(tǒng),其特征在于,所述顯示設備是CRT、LCD和等離子顯示設備中的至少一種。
27.一種機器可讀計算機程序代碼,所述程序代碼包括使處理設備實現(xiàn)用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法,其中,所述處理設備與存儲設備和顯示設備通信,且其中,所述存儲設備包括語音識別軟件應用程序,所述方法包括生成包含大量預先定義的字符的n字母組語言模型,其中,所述n字母組語言模型包括來自所述大量預先定義的字符中的至少一個字符;對所述至少一個字符中的每一個構造新的語言模型(LM)標記;響應于預先定義的發(fā)音詞典為所述至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示;響應于所述字符發(fā)音表示為所述至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典;以及編譯供語音識別軟件應用程序使用的所述n字母組語言模型,其中,所述編譯所述語言模型是響應于所述新的語言模型標記和所述備選發(fā)音詞典的。
28.一種使用機器可讀計算機程序代碼編碼的介質,所述程序代碼包括使處理設備實現(xiàn)用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的方法,其中,所述處理設備與存儲設備和顯示設備通信,且其中,所述存儲設備包括語音識別軟件應用程序,所述方法包括生成包含大量預先定義的字符的n字母組語言模型,其中,所述n字母組語言模型包括來自所述大量預先定義的字符中的至少一個字符;對所述至少一個字符中的每一個構造新的語言模型(LM)標記;響應于預先定義的發(fā)音詞典為所述至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示;響應于所述字符發(fā)音表示為所述至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典;以及編譯供語音識別軟件應用程序使用的所述n字母組語言模型,其中,所述編譯所述語言模型是響應于所述新的語言模型標記和所述備選發(fā)音詞典的。
全文摘要
用于創(chuàng)建供語音識別軟件應用程序使用的助記法語言模型的系統(tǒng)和方法,其中該方法包括,生成包含大量預先定義的字符的n字母組語言模型(其中n字母組語言模型包括來自該大量預先定義的字符中的至少一個字符),對該至少一個字符中的每一個構造新的語言模型(LM)標記,響應于預先定義的發(fā)音詞典為該至少一個字符中的每一個提取發(fā)音來獲取字符發(fā)音表示,響應于該字符發(fā)音表示為該至少一個字符中的每一個創(chuàng)建至少一個備選發(fā)音來創(chuàng)建備選發(fā)音詞典,以及編譯該供語音識別軟件應用程序使用的n字母組語言模型(其中編譯語言模型是響應于新的語言模型標記和備選發(fā)音詞典的)。
文檔編號G10L15/00GK1779783SQ200510118600
公開日2006年5月31日 申請日期2005年10月26日 優(yōu)先權日2004年11月24日
發(fā)明者C·I·切爾巴, R·L·查姆伯斯, D·莫厄特, 吳強 申請人:微軟公司