構(gòu)。一般而言,運些單詞將包括該外國語言中的正統(tǒng)單詞,諸如來自詞典的單 詞。外國單詞語法中的單詞還可包括在外國語言中使用的值語術(shù)語,即使該值語術(shù)語可不 出現(xiàn)在官方詞典中。通過在外國單詞語法中僅包括正統(tǒng)單詞和值語術(shù)語,則語音識別結(jié)果 將被約束到僅那些正統(tǒng)單詞和值語術(shù)語。使用外國單詞語法從而提供了比先前的基于n-元 (gram)的模型(諸如雙元或S元更高的準確度。然而,在一些實施例中,當針對結(jié)果確定了 特定闊值置信度等級時,結(jié)果將被約束到僅語法中的術(shù)語。例如,如果結(jié)果的準確度中的置 信度等級特別低,則外國單詞語法112可用標準到基于n-元的用于解碼輸入語音的方法或 其它類似方法來取代。運種情形可在其中用戶講出或拼寫沒有在外國單詞語法112中包括 的相應規(guī)則的稀有單詞的情況下發(fā)生。例如,英語單詞"mesial"在講英語者中極少使用,且 可能不被包括在外國單詞語法112中。如果說話者說出或拼寫單詞"mesial",則字母表n元 可被用來識別該單詞。字母表n元可與外國單詞語法112并行操作。
[0050] 此外,在語音識別解碼器112確定第一和第二外國單詞已被說出的概率相同或在 特定容差內(nèi)時,語音識別解碼器112可利用統(tǒng)計權(quán)重集。統(tǒng)計權(quán)重可被指派給外國單詞語法 中的每個單詞。權(quán)重可基于多個變量,包括該外國單詞在該外國語言中使用的頻率。在外國 語言中更頻繁地使用的單詞可被賦予比在該外國語言中傳統(tǒng)更少使用的單詞更高的權(quán)重。 例如,單詞"dur i ng (在......期間)"在英語中比單詞"pur r i ng (在......期間)"更頻繁地使用, 但是拼寫或發(fā)音聽起來有些類似。運些統(tǒng)計權(quán)重還可基于聚集的用戶輸入被更新或調(diào)整。 例如,在許多用戶使用該系統(tǒng)時,特定外國單詞將比其它外國單詞被用戶請求得更多。那些 聚集的統(tǒng)計數(shù)據(jù)可被用來確定或調(diào)整被指派給外國單詞語法112中的每個單詞的統(tǒng)計權(quán) 重。
[0051] 圖4A描繪了外國單詞語法112中的示例規(guī)則集。如圖4A中所示,上面結(jié)合圖3的描 述討論的S個假想的外國單詞已經(jīng)被解說性的外國單詞"book(書)"、"books(多本書r W 及"pot(壺r取代。盡管所述單詞是用英語描繪的,然而英語單詞對不說英語的講話人而言 是外國單詞。例如,所描繪的英語單詞將取代具有非英語靜態(tài)文本的句子輸入語法結(jié)構(gòu)中 的占位符<機'(1〉而被識別。如此,圖4A中的示例單詞將在非英語用戶饋如漢語用戶)的外 國語法詞典中。
[0052] 作為示例,來自圖3的外國單詞#1等同于圖4A中描繪的單詞"book"。存在單詞 "book"被識別的兩條并行路徑。從節(jié)點402開始,單詞book的第一語法結(jié)構(gòu)或規(guī)則404是單 詞"book"的所講形式。第二語法結(jié)構(gòu)或規(guī)則406是單詞"book"的拼寫形式,即"b-0-o-k"。任 一路徑可被語音識別解碼器102遍歷W識別出所講語音旨在為單詞"book",取決于用戶是 嘗試將該單詞發(fā)音還是拼寫該單詞。對于外國單詞語法112中包括的其它單詞,可存在其它 類似規(guī)則。如圖所示,針對單詞"books"的所講形式的規(guī)則408和針對單詞"books"的拼寫形 式的規(guī)則410可被包括在外國單詞語法112中。此外,作為英語中常用值語術(shù)語的示例,單詞 "pot"的兩個語法結(jié)構(gòu)或規(guī)則412、414可被包括在外國單詞語法112中。例如,規(guī)則412對應 于單詞"pot"的所講形式,而規(guī)則414對應于單詞"pot"的拼寫形式。在每個規(guī)則之后是結(jié)束 或終點節(jié)點416。在終點節(jié)點316處,語音識別解碼器可返回至上面結(jié)合圖2A-B的描述所討 論的相應句子語法結(jié)構(gòu),或輸出所識別的外國單詞的結(jié)果。
[0053] 如上面討論的,統(tǒng)計權(quán)重可被指派給每個單詞。在各實施例中,統(tǒng)計權(quán)重被指派給 該外國單詞的拼寫形式且另一統(tǒng)計權(quán)重被指派給該外國單詞的所講形式。
[0054] W下描述,連同圖4B-4E,解說并描述了外國單詞的拼寫形式的統(tǒng)計權(quán)重的示例使 用。
[0055] 圖4A中解說的拼寫路徑集合可通過將外國單詞語法112中的所有單詞的拼寫形式 編譯為基于字母的前綴樹401來進一步優(yōu)化,如圖4B中所示。前綴樹401將概率合并到過渡 弧,如下面更詳細地討論的。通過將概率合并到前綴樹401的過渡弧,在解碼期間可實現(xiàn)有 效修剪和限制。圖4B表示分別具有單元(unigram)概率{0.15,0.4,0.25,0.2}的四個單詞 (book,books ,pot ,and pod}的前綴樹401。
[0056] 為了更有效解碼,單元概率可被分散到前綴樹401中。用于分散單元概率的一個可 能算法被討論如下。前綴樹中的每個節(jié)點包含兩段信息:Usleaf ,maxprob}. isleaf值是當 該節(jié)點是終點或葉節(jié)點時為真的布爾值。maxprob值是指示最大概率的值。每個過渡弧還包 含兩段信息{letter ,prob}。在開始處,開始節(jié)點或根節(jié)點被創(chuàng)建,其中Usleaf ,maxprob} ={假,未知}。對于該語法中的每個單詞,向前綴樹添加拼寫。每個內(nèi)部非終點節(jié)點最初具 有未知maxprob值。例如,最初,每個內(nèi)部節(jié)點具有W下值Usleaf ,maxprob} = {假,未知}。 針對每個單詞添加終點節(jié)點或葉節(jié)點,且葉節(jié)點具有W下初始值:{ iS1 eaf,maxprob}= {真,單元概率}。到葉節(jié)點的過渡弧是epsi 1 on過渡,或空過渡,如由圖4B中的£所指示的。在 一些實施例中,葉節(jié)點還包含從根節(jié)點到該葉節(jié)點的路徑所指示的字母序列拼寫的單詞的 單詞標識符。
[0057] 對于前綴樹401中的每個內(nèi)部節(jié)點,計算ma邱rob值。例如,maxprob = max{其所有 子樹的maxprob}。運些計算的結(jié)果被顯示在圖4C中的內(nèi)部節(jié)點的上方或下方。例如,內(nèi)部節(jié) 點436的maxprob值等于0.25,因為任何子樹的最大maxprob為0.25。具體而言,包括節(jié)點438 的子樹具有0.25的maxprob,而包括節(jié)點442的另一子樹具有0.2的maxprob。因此,節(jié)點436 的maxprob等于0.25。類似地,節(jié)點426具有0.4的maxprob,因為其2個子樹分別具有0.4和 0.15的maxprob值。根節(jié)點402具有0.4的maxprob,因為前綴樹401中的所有子樹的最大 maxprob為0.4。為了確定內(nèi)部節(jié)點的maxprob值,可使用W下算法: FindiVlaxprob(rool); Floal FmdMaxprob(NC)DE ^nocle) { If (node二二NULL) rcuim 0; ir(nodo->islca〇 return node->prob; Float maxp=-inrinitc;;
[0058] For each (child C 0廣 node) f Float P 二 FindMaxprob(C); !r(p > maxp) maxp 二 p; } nodc->prob = maxp; Return maxp; }
[0059] 使用如在W上算法中的相同變量和值,每個過渡弧的概率也被確定。對于從節(jié)點 至Ijc的每個內(nèi)部過渡弧,計算概率W使得C .maxp;rob = ;root .maxprob n a強絶(root一c)±fi娜 (a.prob)。根據(jù)歸納,過渡弧的概率值arc .prob可通過計算C .maxp;rob/node-〉maxp;rob得 出。arc .prob值的示例在圖4D中示出。例如,從根節(jié)點402到內(nèi)部節(jié)點434的過渡弧等于 0.25/.4 = 0.625。具體而言,對于從根節(jié)點402到內(nèi)部節(jié)點434的過渡弧,該過渡弧的概率等 于前一節(jié)點的maxprobW上的子節(jié)點434(即,更靠近葉節(jié)點的節(jié)點)的maxprob值。作為另一 示例,根節(jié)點403和內(nèi)部節(jié)點420之間的過渡弧等于1,因為子節(jié)點420的maxprob值與前一節(jié) 點402的maxprob值相同。
[0060] 在所述過渡弧的概率已被確定之后,內(nèi)部節(jié)點的maxprob值可不再必要,除了根節(jié) 點之外。圖4E解說了前綴樹,其中僅過渡弧概率被表示而節(jié)點maxprob值被移除。在解碼運 行時,當語音識別解碼器102進入初始狀態(tài)時,其將root.maxprob應用到假想路徑的總得分 中。當其進入下一節(jié)點時,應用過渡弧概率,直到到達葉為止,在該點,整個字母序列的概率 確切為該路徑所拼寫的單詞的概率。通過在前綴樹的早期階段應用maxprob值,前綴樹可被 修剪為約束W使得僅類似路徑早期被留在捜索空間中。除了強大的修剪能力外,前綴樹還 通過消除重復部分路徑(諸如單詞的前綴)來保留計算能力。
[0061] 圖5描繪了用于準確識別用戶所講的外國單詞的方法500。盡管該方法被示出且被 描述為順序地執(zhí)行的一系列動作,但可W理解并意識到,該方法不受該順序的次序的限制。 例如,一些動作可按與本文描述的次序不同的次序進行,如本領(lǐng)域技術(shù)人員所領(lǐng)會的。另 夕h-些動作可W與另一動作同時發(fā)生。例如,統(tǒng)計權(quán)重的調(diào)整可與該應用對所識別單詞的 處理同時進行。此外,在一些實例中,實現(xiàn)本文描述的方法并不需要所有動作。
[0062] 此外,本文描述的動作可W是可由一個或多個處理器實現(xiàn)的和/或存儲在一個或 多個計算機可讀介質(zhì)上的計算機可執(zhí)行指令。計算機可執(zhí)行指令可包括例程、子例程、程 序、執(zhí)行的線程等。另外,該方法的動作的結(jié)果可W存儲在計算機可讀介質(zhì)中,顯示在顯示 設備上,等等。
[0063] 如圖所示,在操作502,捕捉來自用戶的語音。語音可從語音捕捉設備104捕捉。在 操作504,特征向量可被從所捕捉的語音提取。在操作506,確定所捕捉語音的語音概率。語 音概率可由語音識別解碼器102基于聲學模型106和語音模型108來確定。例如,聲學模型 106和語音模型108可被用來生成所捕捉的語音的可能性。對于所拼寫的字母,聲學模型106 和語音模型108可被用來指定每個所講字母的