使用外國單詞語法的語音識別的制作方法
【專利說明】使用外國單詞語法的語音識別
[0001] 背景
[0002] 外國語言對于對該口語言不流利的任何人來說通常難W理解。例如,英語被認為 是一口難學的語言,但是英語通常被認為是有理解價值的語言。例如,在中國,英語學習是 許多人的目標,因為它可帶來更好的機會和工作。如此,英-漢雙語詞典日益流行。運些詞典 可能是紙質(zhì)的或電子的,且用戶可通過將單詞鍵入或者通過在按照常用的字母次序排序的 詞典中查找單詞來查找單詞。取代將單詞鍵入或在紙質(zhì)詞典中查找單詞,具有可接收語音 輸入的詞典將是有用的。然而,在運些情形下的語音輸入的一個困難在于,用戶通常不知道 該單詞如何發(fā)音,從而使得語音識別更加有挑戰(zhàn)性。
[0003] 各實施例正是對于運些和其它一般考慮事項而做出的。而且,盡管討論了相對具 體的問題,但是應當理解,各實施例不應被限于解決本【背景技術(shù)】中所標識的具體問題。
[0004] 概述
[0005] 本技術(shù)設及用于利用外國單詞語法進行語音識別的系統(tǒng)和方法。使用用于識別部 分為外國語言的語音的系統(tǒng)和方法。例如,在用戶講出包括外國單詞的特定句子之際,將該 句子識別為句子輸入語法結(jié)構(gòu)。句子輸入語法結(jié)構(gòu)一般包括第一語言(通常是該用戶的本 國語言)的靜態(tài)文本W(wǎng)及針對外國單詞的占位符,其中所述外國單詞是不同于所述用戶的 本國語言的第二語言。為了識別取代占位符的用戶所講的外國單詞,利用外國單詞語法。外 國單詞語法包括與外國語言中的正統(tǒng)或值語術(shù)語相對應的規(guī)則。針對該外國單詞語法中的 每個外國單詞可包括兩個規(guī)則。第一規(guī)則對應于該外國單詞的所講形式,且第二規(guī)則對應 于該外國單詞的拼寫形式。因此,如果該用戶講出或拼寫該外國單詞,則可識別該外國單 詞。
[0006] 該外國語法還可利用概率和統(tǒng)計權(quán)重。所述概率和統(tǒng)計權(quán)重可基于外國單詞在該 外國語言中使用的頻率。統(tǒng)計權(quán)重和概率也可基于來自本技術(shù)的用戶的聚集結(jié)果。例如,所 識別的外國單詞的結(jié)果可在聚集結(jié)果數(shù)據(jù)庫中被記錄,且統(tǒng)計權(quán)重和概率可基于該單詞在 聚集結(jié)果數(shù)據(jù)庫中的頻率來調(diào)整。
[0007] 該外國單詞語法還可利用前綴樹來識別所講外國單詞。在各實施例中,前綴樹將 概率合并到過渡弧中而不是前綴樹的節(jié)點中。通過將概率合并到過渡弧,在解碼期間可實 現(xiàn)有效修剪和限制。概率可通過前綴樹中的節(jié)點的概率的分析而被分散到過渡弧。
[0008] -旦識別了外國單詞,外國單詞可被發(fā)送至應用。該應用可基于所檢測的句子輸 入語法結(jié)構(gòu)來選擇。例如,在用戶詢問"What does<word〉mean?("運個<訊〇'(1〉什么意思?" 的情況下,取代占位符〈word〉的所講外國單詞的結(jié)果可被發(fā)送至電子詞典應用來檢索該外 國單詞的定義。在該應用處理該請求之后,結(jié)果可被返回給用戶。
[0009] 提供本
【發(fā)明內(nèi)容】
W便W簡化的形式介紹將在W下的【具體實施方式】中進一步描述 的一些概念。本
【發(fā)明內(nèi)容】
并不旨在標識出所要求保護的主題的關(guān)鍵特征或必要特征,也不 旨在用于限定所要求保護的主題的范圍。
[0010] 附圖簡述
[0011] 參考W下附圖描述非限制性和非窮盡的實施例。
[0012] 圖I描繪了用于識別語音的系統(tǒng)。
[0013] 圖2A描繪了用于與外國單詞語法一起使用的句子輸入語法結(jié)構(gòu)或規(guī)則集合。
[0014] 圖2B描繪了對應于圖2A中描繪的一些規(guī)則的可能語法結(jié)構(gòu)的示例實施例。
[001引圖3描繪了用于識別外國單詞的外國單詞語法的規(guī)貝瞧。
[0016] 圖4A描繪了外國單詞語法中的示例規(guī)貝瞧。
[0017] 圖4B-E描繪了用于外國單詞的拼寫形式的統(tǒng)計權(quán)重的示例使用。
[0018] 圖5描繪了用于準確識別用戶講出的外國單詞的方法。
[0019] 圖6描繪了用于調(diào)整外國單詞語法中的統(tǒng)計權(quán)重的方法。
[0020] 圖7是示出可用來實施本發(fā)明的各實施例的計算設備的示例物理組件的框圖。
[0021] 圖8A和8B是可用來實施本發(fā)明的各實施例的移動計算設備的簡化框圖。
[0022] 圖9是可在其中實施本公開的各實施例的分布式計算系統(tǒng)的簡化框圖。
[0023] 圖10示出用于執(zhí)行本公開的一個或多個實施例的平板計算設備。
[0024] 詳細描述
[0025] 在下面的詳細描述中,參考構(gòu)成其一部分的附圖,在附圖中,通過例圖,示出了具 體的實施例或示例。可W將運些方面組合起來,也可W理由其他方面,并且可W作出結(jié)構(gòu)上 的改變而在不背離本公開的精神或范圍。因此,下面的【具體實施方式】不應W限制性的意義 來理解,而是本公開的范圍是由所附權(quán)利要求及其等效方案來定義的。
[0026] 本公開一般設及識別外國單詞,作為自動語音識別的一部分。所講的外國單詞的 識別通常可能是困難的,因為講話者通常對外國單詞發(fā)錯音,因為該外國單詞是他們所不 熟悉的語言的。因此,本申請?zhí)峁┝嗽试S用戶通過講出每個字母來拼寫外國單詞的方法和 系統(tǒng)。例如,用戶可W可能在閱讀時或在某種形式的媒體中看到外國單詞,且從而知道使他 們能正確拼寫出該外國單詞的每個字母。
[0027] 然而,所講的字母的識別通常是一項困難的任務,且過去的語音識別程序具有極 低的準確率。具體對英語來說,過去運種低準確率是可W理解的,因為即使是W英語為母語 的人也在識別英語字母表中的字母時有困難。具體而言,所有W V'長音結(jié)尾的字母,諸如 (B,C,D,E,G,P,T,V}的集合,導致由其相似聲音而帶來的附加問題。在英語中,說英語的人 通常必須利用"語音字母表(phonetic alphabet)"來準確地說明他們想要說哪個字母。 NATO語音字母表是將字母"A"等同為"alpha",字母"B"等同為"bravo",字母"C"等同于 化arlie等等的語音字母表的一個示例。因此,本申請公開了一種通過利用基于規(guī)則的語法 來更準確地識別所講的外國單詞和外國單詞的拼寫形式的系統(tǒng)和方法。
[0028] 圖1描繪了用于識別所講的外國單詞的系統(tǒng)100。如圖1中所描繪的,客戶端設備 101接收來自用戶的語音輸入。語音輸入可由語音捕捉設備104捕捉。語音捕捉設備104可W 是硬件和軟件組件的組合,諸如話筒和數(shù)字化軟件,W及其它公知的語音捕捉設備。在各實 施例中,特征向量也可由特征提取模塊116提取,且那些特征向量被發(fā)送給語音識別解碼器 102。特征向量可W是表示語音輸入的數(shù)字特征的n維向量集。用于提取特征向量的多種可 接受方法對本領(lǐng)域技術(shù)人員而言是公知的,包括Mel-頻率倒譜技術(shù)(Me 1-frequency C邱stral technique)、線性預測、W及感知線性預測等等。在運些實施例中,特征向量被從 語音捕捉設備104捕捉的語音輸入中提取。
[0029] 語音識別解碼器102確定與語音輸入和/或特征向量相匹配的最可能的單詞或字 母序列。語音識別解碼器102的確定是基于聲學模型106、語音模型108、W及語言模型110 的。語言模型110進一步基于外國單詞語法112,諸如基于規(guī)則的語法或上下文無關(guān)的語法。 聲學模型106、語音模型108、W及語言模型110均操作W約束語音識別的可能結(jié)果。所述約 束可W是統(tǒng)計分析或概率形式的。例如,聲學模型106和語音模型108被用于生成所捕捉語 音的語音可能性或概率。對于所講的字母,聲學模型106和語音模型108可被用于指定每個 所講字母的特定概率。本領(lǐng)域技術(shù)人員將意識到并理解用于確定運些語音可能性的許多適 當方法。
[0030] 使用聲學模型106和語音模型10如角定的語音可能性進一步受到語言模型110的約 束。語言模型合并了指示該用戶正嘗試說出或拼寫期望其定義、翻譯或定義的外國單詞的 短語。語言模型中的此類短語和規(guī)則下面結(jié)合圖3的描述更詳細地討論。指示用戶正嘗試說 出或拼寫外國單詞的短語使得外國單詞語法112被用來進一步將語音概率約束到特定單 詞。外國單詞語法112包括基于外語中的單詞的正統(tǒng)拼寫和發(fā)音的規(guī)則集。因此,通過利用 外國單詞語法112,字母串的語音概率可被約束到作為被并入到外國單詞語法112中的該外 語中的正統(tǒng)單詞或值語單詞的單詞。例如,約束所述概率可包括消除或減少外國單詞語法 112中不存在的字母序列的概率。通過將字母串的語音概率約束到僅在外國單詞語法112中 的單詞,針對該外國單詞的語音識別的結(jié)果將僅限于該外語中的正統(tǒng)或值語術(shù)語。
[0031] 外國單詞語法112還可包括每個單詞的統(tǒng)計權(quán)重。例如,該外語中最可能出現(xiàn)的單 詞可被給予更高的權(quán)重,如下面更詳細地討論的。運些統(tǒng)計權(quán)重可基于聚集的用戶輸入被 更新。例如,在許多用戶使用該系統(tǒng)時,某些外國單詞將比其它外國單詞更多地被請求?;?于聚集的請求信息的統(tǒng)計數(shù)據(jù)可被用于確定并調(diào)整被指派到外國單詞語法112中的每個單 詞的統(tǒng)計權(quán)重。在各實施例中,為了實現(xiàn)調(diào)整,外國單詞解碼的結(jié)果被聚集結(jié)果數(shù)據(jù)庫118 接收?;谛g(shù)語在聚集結(jié)果數(shù)據(jù)庫118中的頻率,可確定統(tǒng)計權(quán)重。例如,在第一單詞比第二 單詞在數(shù)據(jù)庫中更頻繁地出現(xiàn)的情況下,第一單詞可被給予更高的權(quán)重。所確定的統(tǒng)計權(quán) 重隨后可被用于調(diào)整外國單詞語法112所使用的統(tǒng)計權(quán)重。.
[0032] 由語音識別模型102確定的所得到的識別的單詞或字母序列隨后可被應用114接 收。應用114可W是諸如電子詞典或翻譯器W及其它類似應用等的應用。適當?shù)碾娮釉~典的 一個示例是可W從華盛頓州雷蒙德市的微軟公司得到的必應詞典(BING DICTIONARY)電子 詞典。應用114還可W是智能個人助理的一部分,諸如來自華盛頓州雷蒙德市的微軟公司的 CORTANA智能個人助理。
[0033] 上述系統(tǒng)的功能性可在單一設備上或跨多個設備執(zhí)行,諸如客戶端和服務器。例 如,當使用多個設備時,語音捕捉設備104可W在客戶端設備101