本申請(qǐng)要求2014年10月6日提交的題為“SYSTEMANDMETHODOFAUTOMATICSPEECHRECOGNITIONUSINGON-THE-FLYWORDLATTICEGENERATIONWITHWORDHISTORIES(使用具有詞歷史的實(shí)時(shí)詞網(wǎng)格生成的自動(dòng)語(yǔ)音識(shí)別的系統(tǒng)和方法)”的美國(guó)專利申請(qǐng)No.14/506,844的權(quán)益。
背景技術(shù):
:隨著越來(lái)越多的基于計(jì)算機(jī)的設(shè)備使用語(yǔ)音識(shí)別來(lái)接收來(lái)自用戶的命令以便執(zhí)行某些動(dòng)作,以及將語(yǔ)音轉(zhuǎn)換為文本用于聽寫應(yīng)用或者甚至在一個(gè)或兩個(gè)方向上交換信息的情況下保持與用戶的對(duì)話,語(yǔ)音識(shí)別系統(tǒng)或自動(dòng)語(yǔ)音識(shí)別器(ASR)變得越來(lái)越重要。這樣的系統(tǒng)可以是取決于說(shuō)話者的,其中通過(guò)使用戶重復(fù)詞來(lái)訓(xùn)練系統(tǒng),或不取決于說(shuō)話者的,其中任何人都可以提供立即識(shí)別的詞。一些系統(tǒng)還可以經(jīng)配置理解一組固定的單個(gè)詞命令,例如用于操作理解術(shù)語(yǔ)呼叫或應(yīng)答的移動(dòng)電話,或者例如用于簡(jiǎn)單數(shù)據(jù)輸入電話呼叫。其他ASR使用自然語(yǔ)言理解(NLU)模塊,該自然語(yǔ)言理解(NLU)模塊理解語(yǔ)法和詞的定義以從話語(yǔ)(所說(shuō)的詞或句子)的上下文識(shí)別詞以用于更復(fù)雜的對(duì)話或信息交換。為了在對(duì)話系統(tǒng)中集成自動(dòng)語(yǔ)音識(shí)別器(ASR)與自然語(yǔ)言理解(NLU)模塊,通常需要置信度測(cè)量和/或替代結(jié)果。生成該數(shù)據(jù)的一種流行的方式是創(chuàng)建詞網(wǎng)格,即可能的詞假設(shè)的網(wǎng)絡(luò)。然而,詞網(wǎng)格的生成可能會(huì)減慢語(yǔ)音識(shí)別過(guò)程,導(dǎo)致相對(duì)低效的過(guò)程。另外,詞網(wǎng)格通常在第二步驟中從在語(yǔ)音解碼期間實(shí)時(shí)生成的狀態(tài)或音素網(wǎng)格中構(gòu)建。由于狀態(tài)和音素網(wǎng)格可以變得相對(duì)較大,并且通常顯著地大于詞網(wǎng)格,所以這種方法需要大量的RAM。更有效的系統(tǒng)是期望的。附圖說(shuō)明在附圖中通過(guò)示例而非限制的方式示出本文描述的材料。為了示出的簡(jiǎn)單和清楚,圖中所示的元件不一定按比例繪制。例如,為了清楚起見,一些元件的尺寸可以相對(duì)于其他元件被放大。進(jìn)一步地,在認(rèn)為適當(dāng)?shù)那闆r下,在圖中重復(fù)附圖標(biāo)記以指示對(duì)應(yīng)或類似的元件。在圖中:圖1是示出自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的示意圖;圖2是使用詞歷史生成詞網(wǎng)格的語(yǔ)音識(shí)別過(guò)程的流程圖;圖3A至圖3B是使用詞歷史生成詞網(wǎng)格的語(yǔ)音識(shí)別過(guò)程的詳細(xì)流程圖;圖4是用于語(yǔ)音解碼的示例加權(quán)有限狀態(tài)變換器(WFST)的圖示;圖5是包括使用來(lái)自圖4的WFST的中間詞網(wǎng)格的示例靜態(tài)和動(dòng)態(tài)搜索空間的圖示;圖6是示例靜態(tài)和動(dòng)態(tài)搜索空間的另一個(gè)圖示;圖7是示例靜態(tài)和動(dòng)態(tài)搜索空間的另一個(gè)圖示;圖8是示例靜態(tài)和動(dòng)態(tài)搜索空間的另一個(gè)圖示;圖9是示例詞網(wǎng)格的圖示;圖10是示例中間詞網(wǎng)格的圖示;圖11是圖10的示例中間詞網(wǎng)格的另一個(gè)圖示;圖12是圖10的示例中間詞網(wǎng)格的另一個(gè)圖示;圖13是示例系統(tǒng)的說(shuō)明圖;圖14是另一示例系統(tǒng)的說(shuō)明圖;以及圖15示出全部根據(jù)本公開的至少一些實(shí)施布置的另一示例設(shè)備。具體實(shí)施方式現(xiàn)在參照附圖描述一個(gè)或多個(gè)實(shí)施方式。雖然討論了特定的配置和布置,但是應(yīng)當(dāng)理解,這僅僅是為了說(shuō)明的目的。相關(guān)領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,在不脫離本描述的精神和保護(hù)范圍的情況下,可以采用其他配置和布置。對(duì)于相關(guān)領(lǐng)域的技術(shù)人員將顯而易見的是,本文所描述的技術(shù)和/或布置還可以在除了本文所描述的之外的各種其他系統(tǒng)和應(yīng)用中采用。雖然以下描述闡述了例如可以在諸如芯片上系統(tǒng)(SoC)架構(gòu)的架構(gòu)中表現(xiàn)的各種實(shí)施方式,但是本文所描述的技術(shù)和/或布置的實(shí)施方式不限于具體架構(gòu)和/或計(jì)算系統(tǒng),并且可以由用于類似目的的任何架構(gòu)和/或計(jì)算系統(tǒng)實(shí)施。例如,采用例如多個(gè)集成電路(IC)芯片和/或封裝、和/或各種計(jì)算設(shè)備和/或諸如膝上型或臺(tái)式計(jì)算機(jī)的消費(fèi)電子(CE)設(shè)備、諸如智能電話的移動(dòng)設(shè)備、視頻游戲面板或控制臺(tái)、電視機(jī)頂盒、車載車輛系統(tǒng)、聽寫機(jī)、建筑物的安全和環(huán)境控制系統(tǒng)等等的各種架構(gòu)可以實(shí)施本文所描述的技術(shù)和/或布置。進(jìn)一步地,雖然以下描述可以闡述諸如邏輯實(shí)施、系統(tǒng)部件的類型和相互關(guān)系、邏輯分區(qū)/集成選擇等許多特定細(xì)節(jié),但是可以在沒(méi)有這些特定細(xì)節(jié)的情況下實(shí)踐所要求保護(hù)的主題。在其他情況下,例如,可以不詳細(xì)地示出諸如控制結(jié)構(gòu)和完整軟件指令序列的一些材料,以免混淆本文所公開的材料。本文公開的材料可以在硬件、固件、軟件或其任何組合中實(shí)施。本文公開的材料還可以實(shí)施為存儲(chǔ)在機(jī)器可讀介質(zhì)或存儲(chǔ)器上的指令,其可以由一個(gè)或多個(gè)處理器讀取和執(zhí)行。機(jī)器可讀介質(zhì)可以包括用于以機(jī)器(例如,計(jì)算設(shè)備)可讀的形式存儲(chǔ)或傳輸信息的任何介質(zhì)和/或機(jī)制。例如,機(jī)器可讀介質(zhì)可以包括只讀存儲(chǔ)器(ROM);隨機(jī)存取存儲(chǔ)器(RAM);磁盤存儲(chǔ)介質(zhì);光存儲(chǔ)介質(zhì);閃存設(shè)備;電、光、聲或其它形式的傳播信號(hào)(例如,載波、紅外信號(hào)、數(shù)字信號(hào)等)等。在另一種形式中,諸如非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)的非暫時(shí)性制品可以與上述任何示例或其他示例一起使用,除了其不包括暫時(shí)信號(hào)本身。它包括除了可以以“暫時(shí)”方式臨時(shí)保持?jǐn)?shù)據(jù)的信號(hào)本身的那些元件,例如RAM等。在說(shuō)明書中提及“一個(gè)實(shí)施方式”、“實(shí)施方式”、“示例實(shí)施方式”等指示所描述的實(shí)施方式可以包括具體特征、結(jié)構(gòu)或特性,但是每個(gè)實(shí)施方式可以不一定包括具體特征、結(jié)構(gòu)或特性。此外,這樣的短語(yǔ)不一定指相同的實(shí)施方式。進(jìn)一步地,當(dāng)結(jié)合實(shí)施方式描述具體特征、結(jié)構(gòu)或特性時(shí),認(rèn)為無(wú)論本文是否明確描述,結(jié)合其他實(shí)施方式影響這樣的特征、結(jié)構(gòu)或特性是在本領(lǐng)域技術(shù)人員的知識(shí)范圍內(nèi)。使用具有詞歷史的實(shí)時(shí)詞網(wǎng)格生成的自動(dòng)語(yǔ)音識(shí)別的系統(tǒng)、制品以及方法。如上所述,為了在對(duì)話系統(tǒng)中將自動(dòng)語(yǔ)音識(shí)別器(ASR)與自然語(yǔ)言理解(NLU)模塊集成,通常需要置信度測(cè)量和/或替代結(jié)果。生成該數(shù)據(jù)的一種流行方式是創(chuàng)建詞網(wǎng)格,即可能的詞假設(shè)的網(wǎng)絡(luò)。詞網(wǎng)格通常在說(shuō)出話語(yǔ)之后在第二步驟中從動(dòng)態(tài)生成的狀態(tài)或音素網(wǎng)格中生成。由于狀態(tài)和音素網(wǎng)格可以變得相當(dāng)大,并且總是顯著大于詞網(wǎng)格,所以這種方法需要大量的RAM。例如,參見對(duì)于使用音位網(wǎng)格生成詞網(wǎng)格的方法的“EfficientGeneralLatticeGenerationandRescoring”(Ljolje等人,Proc.Eurospeech99),并且其全部并入本文。本文描述的ASR系統(tǒng)和方法解決了與第一最佳解碼相比較以更少的存儲(chǔ)器有效地生成詞網(wǎng)格,并且沒(méi)有減慢語(yǔ)音識(shí)別過(guò)程的問(wèn)題。為了實(shí)現(xiàn)這一點(diǎn),在解碼期間語(yǔ)音識(shí)別解碼器在單程中創(chuàng)建詞網(wǎng)格,而不需要構(gòu)建中間狀態(tài)或音素網(wǎng)格或詞邊界列表。相反,在解碼期間在單程中生成詞網(wǎng)格。該方法對(duì)解碼速度沒(méi)有顯著的負(fù)面影響。用于執(zhí)行所公開的方法的解碼器可以是基于加權(quán)有限狀態(tài)變換器(WFST)的語(yǔ)音解碼器,例如,如“Juicer:AWeightedFinite-StateTransducerSpeechDecoder”(Moore等人,3rdJointWorkshoponMultimodalInteractionandRelatedMachineLearningAlgorithmsMLMI'06)中所描述的一種解碼器。詞網(wǎng)格的產(chǎn)生與用于WFST解碼的方法無(wú)關(guān),例如,解碼器可以使用靜態(tài)或動(dòng)態(tài)WFST組成。假設(shè)詞序列或詞網(wǎng)格可以由加權(quán)有限狀態(tài)變換器(WFST)解碼器形成,所述加權(quán)有限狀態(tài)變換器(WFST)解碼器利用聲學(xué)分?jǐn)?shù)(基于GMM、DNN或正在分析的話語(yǔ)中的其它聲學(xué)模型的上下文相關(guān)音位的分?jǐn)?shù))并且通過(guò)利用令牌傳遞算法形成話語(yǔ)假設(shè)。單個(gè)令牌表示所說(shuō)的話語(yǔ)的一個(gè)假設(shè),包括表示根據(jù)該假設(shè)說(shuō)出的詞的詞歷史指定。在解碼期間,幾個(gè)令牌放置在WFST的狀態(tài)中,它們中的每一個(gè)表示直到該時(shí)間點(diǎn)可以已經(jīng)說(shuō)出的不同的可能話語(yǔ)。在解碼開始時(shí),單個(gè)令牌放置在WFST的初始狀態(tài)中。另外,利用引用網(wǎng)格的初始節(jié)點(diǎn)的令牌創(chuàng)建空的中間詞網(wǎng)格。在離散時(shí)間點(diǎn)(所謂的幀)期間,每個(gè)令牌沿著WFST的弧傳輸。因此,令牌被稱為沿著WFST的弧傳播。如果WFST狀態(tài)具有多于一個(gè)輸出弧,則復(fù)制令牌,為每個(gè)目的地狀態(tài)創(chuàng)建一個(gè)令牌。如果令牌沿著具有非ε輸出符號(hào)的WFST中的弧傳遞(即,輸出不為空,使得存在附加到該弧的詞假設(shè)),則用于該輸出符號(hào)的新節(jié)點(diǎn)在中間詞網(wǎng)格中創(chuàng)建并且附加到由該令牌引用的節(jié)點(diǎn)。然后,令牌引用新創(chuàng)建的節(jié)點(diǎn)。在單一最佳解碼環(huán)境中,僅考慮WFST的每個(gè)狀態(tài)中的最佳令牌就足夠了。如果多于一個(gè)令牌傳播到相同的狀態(tài),則除了一個(gè)令牌之外的所有令牌都會(huì)從活動(dòng)搜索空間中去除。因?yàn)閹讉€(gè)不同的話語(yǔ)假設(shè)重新組合成一個(gè),所以該過(guò)程被稱為重新組合。如果令牌由于重新組合而丟棄,則如果中間詞網(wǎng)格中的對(duì)應(yīng)節(jié)點(diǎn)沒(méi)有被任何其它令牌或網(wǎng)格中的任何其他節(jié)點(diǎn)引用,則也刪除中間詞網(wǎng)格中的對(duì)應(yīng)節(jié)點(diǎn)。如生成詞網(wǎng)格的情況,如果在解碼結(jié)束時(shí)應(yīng)考慮多于一個(gè)話語(yǔ)假設(shè),則該方法可丟棄重要信息。如果對(duì)于具有不同詞歷史的令牌(即,令牌表示不同的說(shuō)出的詞序列)發(fā)生重新組合,則一些話語(yǔ)假設(shè)在重新組合期間被丟棄,并且可不存在于最終解碼結(jié)果中,降低了詞網(wǎng)格的益處。為了解決重新組合的問(wèn)題,其他方法通常在解碼期間使用音素或狀態(tài)網(wǎng)格以便能夠創(chuàng)建詞網(wǎng)格,例如參見“EfficientGeneralLatticeGenerationandRescoring”(Ljolje等人,Proc.Eurospeech99)。本文描述的方法通過(guò)限制令牌的重新組合是可以的情況來(lái)消除對(duì)音素(或狀態(tài))網(wǎng)格的需要。這通過(guò)在結(jié)合每個(gè)令牌存儲(chǔ)的諸如散列值的詞指定中對(duì)每個(gè)令牌的詞歷史進(jìn)行編碼來(lái)實(shí)現(xiàn)。在重新組合期間,比較競(jìng)爭(zhēng)令牌的詞歷史指定以確定是否必要重新組合。只有當(dāng)指定相等時(shí),才發(fā)生重新組合。如果指定不同,并且繼而詞歷史不同,則兩個(gè)令牌都保持在WFST的相同狀態(tài)中,并且不發(fā)生重新組合。詞歷史是直到當(dāng)前解碼時(shí)間點(diǎn)建立的話語(yǔ)的假設(shè)整體或部分。令牌的詞歷史由WFST弧的輸出標(biāo)記組成,在解碼期間令牌沿著所述WFST弧傳遞。這里使用的詞歷史和詞序列是指以特定順序放置的特定詞。因此,“Iamhere”與“HereIam”不是相同的詞序列和詞歷史。具有相同詞歷史指定或散列值的令牌表示包括相同的詞和/或詞序列的相同的完整或部分話語(yǔ)。通過(guò)一個(gè)示例,詞歷史散列存儲(chǔ)在令牌中以能夠通過(guò)使用單個(gè)整數(shù)比較確定兩個(gè)令牌是否具有相同的詞歷史。具有相同詞歷史值的令牌可以重新組合,并且令牌中的一個(gè)被丟棄。具有在相同狀態(tài)下表示不同假設(shè)詞序列的不同詞歷史的令牌都維持在活動(dòng)搜索空間中。為了限制活動(dòng)令牌的數(shù)量,偶爾仍可以重新組合放置在相同狀態(tài)中但具有不同詞歷史的令牌,導(dǎo)致中間詞網(wǎng)格的更新。詞網(wǎng)格的該更新可以比規(guī)則令牌重新組合顯著地花費(fèi)更多的計(jì)算時(shí)間。因此,不對(duì)每個(gè)令牌重新組合執(zhí)行該更新,而是在規(guī)則的時(shí)間間隔(例如每100ms)上或者當(dāng)出現(xiàn)對(duì)這種更新的需求時(shí)(例如,因?yàn)榛顒?dòng)搜索空間變得太大)執(zhí)行該更新。下面更詳細(xì)地解釋這些方法,并且提供這些方法以在沒(méi)有大量的計(jì)算開銷的情況下避免在令牌重新組合期間丟失網(wǎng)格信息,從而與使用具有音素網(wǎng)格的第一級(jí)和具有詞網(wǎng)格的第二級(jí)的系統(tǒng)相比顯著地減少所使用的RAM。參照?qǐng)D1,諸如能使用語(yǔ)音的人機(jī)界面(HMI)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)10可以例如具有諸如麥克風(fēng)的音頻捕獲或接收裝置14,以從用戶12接收聲波,并且將波轉(zhuǎn)換成可以記錄在存儲(chǔ)器中的原始電聲學(xué)信號(hào)。系統(tǒng)10可以具有模擬/數(shù)字(A/D)轉(zhuǎn)換器16,以向聲學(xué)前端單元18提供數(shù)字聲學(xué)信號(hào)。聲學(xué)前端單元18可以執(zhí)行預(yù)處理和諸如權(quán)重函數(shù)、特征向量堆疊和變換、維數(shù)降低和歸一化的其他處理操作,所述預(yù)處理可以包括噪聲消除、使信號(hào)變平的預(yù)強(qiáng)調(diào)濾波、和/或辨認(rèn)話語(yǔ)的端點(diǎn)的話音激活檢測(cè)(VAD)以及線性預(yù)測(cè)、梅爾倒頻譜和/或附加的處理(additives),例如能量測(cè)量、以及增量和加速系數(shù)。通過(guò)一個(gè)示例,前端單元18還可以以10ms幀為單位將聲學(xué)信號(hào)劃分為幀,并且使用傅立葉變換等從聲學(xué)信號(hào)提取聲學(xué)特征或特征向量,以辨認(rèn)在信號(hào)中提供的音位。然后,聲學(xué)評(píng)分單元20確定要被辨認(rèn)的上下文相關(guān)音位的概率分?jǐn)?shù)。加權(quán)有限狀態(tài)變換器(WFST)單元或解碼器22使用聲學(xué)分?jǐn)?shù)以辨認(rèn)話語(yǔ)假設(shè)并計(jì)算它們的分?jǐn)?shù)。另外,WFST解碼器22在提供置信度測(cè)量和/或替代結(jié)果的解碼期間在單程中動(dòng)態(tài)地創(chuàng)建詞網(wǎng)格。WFST解碼器22使用可以表示為被稱為WFST的弧和狀態(tài)的網(wǎng)絡(luò)的計(jì)算。并且通過(guò)一個(gè)示例,通過(guò)使用散列函數(shù),WFST可以用于生成詞歷史指定。同樣如下面詳細(xì)描述的,詞歷史指定用于控制令牌組合(或重新組合)并限制活動(dòng)令牌的數(shù)量。WFST可以是可以包含或可以不包含ε弧的確定性或非確定性有限狀態(tài)變換器。WFST可以包含可以具有或可以不具有單獨(dú)權(quán)重的一個(gè)或多個(gè)最終狀態(tài)。WFST可以包含一個(gè)或多個(gè)起始狀態(tài)。WFST可以靜態(tài)地或動(dòng)態(tài)地由詞典WFST(L)和語(yǔ)言模型或語(yǔ)法WFST(G)組成。替代地,它可以在不需要附加的語(yǔ)法或語(yǔ)言模型的情況下由可以或不可以被實(shí)施為樹的詞典WFST(L)構(gòu)成。WFST可以用或可以不用上下文敏感性WFST(C)靜態(tài)地或動(dòng)態(tài)地組成。WFST可以用或可以不用HMMWFST(H)靜態(tài)地或動(dòng)態(tài)地組成,所述HMMWFST(H)可以具有HMM轉(zhuǎn)變、HMM狀態(tài)ID、GMM密度或DNN輸出狀態(tài)ID,作為輸入符號(hào)。WFST可以或可以不在用于解碼之前以任何順序被確定、最小化、權(quán)重或標(biāo)記推送或以其他方式變換(例如通過(guò)權(quán)重、輸入或輸出符號(hào)對(duì)弧進(jìn)行分類)。WFST解碼器22使用用于單一最佳語(yǔ)音解碼的已知的特定規(guī)則、構(gòu)造、操作和屬性,并且在這里不相關(guān)的這些的細(xì)節(jié)不進(jìn)一步解釋,以便提供本文描述的新特征的布置的清楚描述。使輸出詞網(wǎng)格可用于語(yǔ)言解釋器和執(zhí)行單元(或解釋引擎)24以確定用戶意圖。該意圖確定或所說(shuō)的話語(yǔ)分類可以基于決策樹,表單填充算法或統(tǒng)計(jì)分類(例如使用SVN或DNN)。一旦為話語(yǔ)確定了用戶意圖,解釋引擎24也可以輸出響應(yīng)或發(fā)起動(dòng)作。例如,可以通過(guò)揚(yáng)聲器部件26以音頻形式或者以如顯示部件28上的文本的視覺形式響應(yīng)。另外,可以發(fā)起動(dòng)作以控制另一終端設(shè)備30(無(wú)論是否被認(rèn)為是與語(yǔ)音識(shí)別系統(tǒng)10相同的設(shè)備的一部分或者在其內(nèi))。例如,用戶可以陳述“呼叫回家”以激活電話設(shè)備上的電話呼叫,用戶可以通過(guò)將詞陳述到車輛掛件(fob)啟動(dòng)車輛,或者智能電話上的話音模式可以在智能電話上執(zhí)行某些任務(wù)。終端設(shè)備30可以只是軟件而不是物理設(shè)備或硬件或其任何組合,并且不具體限于任何東西,除了具有理解由語(yǔ)音識(shí)別確定導(dǎo)致的命令或請(qǐng)求并根據(jù)該命令或請(qǐng)求執(zhí)行或發(fā)起動(dòng)作的能力。參照?qǐng)D2,提供了用于計(jì)算機(jī)實(shí)施的語(yǔ)音識(shí)別方法的示例過(guò)程200。在所示的實(shí)施方式中,過(guò)程200可以包括由按雙數(shù)編號(hào)的操作202至206中的一個(gè)或多個(gè)所示的一個(gè)或多個(gè)操作、功能或動(dòng)作。作為非限制性示例,本文中可以參考本文中利用圖1和圖4至圖13中的任何一個(gè)以及在相關(guān)的情況下描述的示例語(yǔ)音識(shí)別設(shè)備來(lái)描述過(guò)程200。過(guò)程200可以包括“通過(guò)加權(quán)有限狀態(tài)變換器(WFST)傳播令牌,并且包括將詞序列放置到詞網(wǎng)格中,所述加權(quán)有限狀態(tài)變換器(WFST)具有作為WFST的輸出標(biāo)記的弧和詞或詞標(biāo)識(shí)符”202。換句話說(shuō),該操作針對(duì)使用利用加權(quán)有限狀態(tài)變換器(WFST)的令牌傳遞算法來(lái)執(zhí)行語(yǔ)音解碼并生成詞網(wǎng)格。過(guò)程200還可以包括“當(dāng)在沿著具有輸出符號(hào)的弧中的一個(gè)傳播的令牌處建立詞時(shí)生成用于各個(gè)令牌的詞歷史指定,其中詞歷史指定指示詞序列”204。這包括當(dāng)具有非ε輸出標(biāo)記的弧通過(guò)令牌傳遞時(shí)生成詞歷史指定。如下所述,通過(guò)一個(gè)示例,指定可以是通過(guò)使用散列函數(shù)創(chuàng)建的散列值的整數(shù)或其他字母數(shù)字值。此外,每個(gè)指定指示處于某種順序的某些詞的序列,并且通過(guò)一個(gè)示例,指定與分配給詞(I=4,am=5等)的值相關(guān)聯(lián)。過(guò)程200還可以包括“通過(guò)至少部分地使用詞歷史指定確定是否應(yīng)當(dāng)在WFST的狀態(tài)中組合兩個(gè)或更多個(gè)令牌以形成單個(gè)令牌”206。如下面詳細(xì)解釋的,當(dāng)兩個(gè)令牌的詞歷史指定相同,指示它們都具有相同的詞歷史時(shí),可以執(zhí)行組合(也被稱為重新組合)。在下面描述在重新組合期間對(duì)令牌的處理,未組合但共享的狀態(tài)以及動(dòng)態(tài)詞網(wǎng)格更新。參照?qǐng)D3A至圖3B,提供了示例計(jì)算機(jī)實(shí)施的過(guò)程300,其用于使用具有詞歷史的實(shí)時(shí)詞網(wǎng)格生成的自動(dòng)語(yǔ)音識(shí)別。在所示的實(shí)施方式中,過(guò)程300可以包括由按雙數(shù)編號(hào)的操作302至332中的一個(gè)或多個(gè)所示的一個(gè)或多個(gè)操作、功能或動(dòng)作。作為非限制性示例,在本文中可以參考本文中利用圖1至圖2和圖4至圖13中的任一個(gè)以及在相關(guān)的情況下描述的示例語(yǔ)音識(shí)別設(shè)備來(lái)描述過(guò)程300。過(guò)程300可以包括獲得302聲學(xué)信號(hào)數(shù)據(jù)。如上所述,這可以包括聲音或音頻捕獲設(shè)備的使用,聲學(xué)信號(hào)的預(yù)處理和前端單元的特征提取,以及聲學(xué)評(píng)分單元的聲學(xué)評(píng)分。通過(guò)一種方法,特征提取和聲學(xué)評(píng)分在WFST解碼開始之前發(fā)生。通過(guò)另一個(gè)示例,聲學(xué)評(píng)分可以剛好及時(shí)發(fā)生。如果評(píng)分剛好及時(shí)進(jìn)行,則它可以根據(jù)需要進(jìn)行,即僅計(jì)算在WFST解碼期間需要的分?jǐn)?shù)。參照?qǐng)D4至圖9,為了幫助解釋過(guò)程300,在對(duì)應(yīng)于不同幀的不同時(shí)間段示出用于生成詞網(wǎng)格402的語(yǔ)音解碼WFST400。這里示出了WFST400,其中狀態(tài)A至J通過(guò)狀態(tài)之間的弧(箭頭)連接。關(guān)于弧,如果它們不是ε,僅示出輸出標(biāo)記。省略所有輸入標(biāo)記和權(quán)重以對(duì)圖進(jìn)行簡(jiǎn)化。本文通過(guò)標(biāo)記弧的源狀態(tài)然后標(biāo)記弧的目的地狀態(tài)(例如弧AB從狀態(tài)A延伸到狀態(tài)B)來(lái)參考弧。與過(guò)程300的描述一起解釋圖示的其它特征的解釋。圖4提供了適用于所有圖5至圖9的圖例。為開始構(gòu)造詞網(wǎng)格,過(guò)程300可以包括將起始令牌放入304當(dāng)前令牌緩沖器中。在一種形式中,令牌將放置在WFST的起始狀態(tài)中,該起始狀態(tài)對(duì)應(yīng)于在WFST400的示例中的狀態(tài)A。如圖5所示,在該操作中還包括:初始狀態(tài)A中的令牌包括表示空句子的初始詞歷史指定(999)和對(duì)空中間詞網(wǎng)格402的初始節(jié)點(diǎn)的引用。指定999僅用作示例,但可以是許多不同的值。通過(guò)下面詳細(xì)描述的一種方法,詞歷史指定是從散列函數(shù)確定的散列值,并且在一種形式中可以是通過(guò)使用整數(shù)形成的十六進(jìn)制值,所述整數(shù)分配給正在使用并存儲(chǔ)在ASR系統(tǒng)上的存儲(chǔ)器中的詞匯表中的不同的詞。諸如緩沖器1326(圖13)的令牌緩沖器可以保持用于要分析的幀的令牌。因此,可以存在多個(gè)令牌緩沖器,例如每個(gè)幀一個(gè)緩沖器。通過(guò)一種方法,這包括至少兩個(gè)令牌緩沖器,包括保持當(dāng)前幀的活動(dòng)令牌的當(dāng)前令牌緩沖器和保持要激活的下一個(gè)幀的令牌的下一個(gè)令牌緩沖器。在不同的方法中,可以僅存在一個(gè)令牌緩沖器,其可以被組織為保持用于當(dāng)前幀和下一個(gè)幀的兩個(gè)令牌的環(huán)。該緩沖器可以包括將當(dāng)前令牌與未來(lái)令牌分離的標(biāo)志。過(guò)程300可以包括計(jì)算306用于下一時(shí)間幀的聲學(xué)特征。因此,確定一個(gè)或多個(gè)可以提取的特征,并且在本示例中,基于WFST操作,確定存在三個(gè)不同的目的地狀態(tài)(B、C和D)。然后,狀態(tài)A處的令牌從令牌緩沖器取出308,并且使用聲學(xué)分?jǐn)?shù)通過(guò)每個(gè)弧,且在該情況下是弧AB、AC和AD來(lái)傳播310。因此,可以說(shuō)令牌同時(shí)從話語(yǔ)初始狀態(tài)沿著三個(gè)不同的可能路徑或序列傳播,這導(dǎo)致放置在用于下一幀的令牌緩沖器中的三個(gè)創(chuàng)建的令牌。更特定地,根據(jù)用于解碼的WFST的類型,弧的輸入標(biāo)記可以是可能上下文相關(guān)的音位、HMM、GMM密度、DNN狀態(tài)或其它聲學(xué)ID。輸入用于確定應(yīng)用于沿著弧傳播的令牌的聲學(xué)分?jǐn)?shù)?;〉妮敵鰳?biāo)記表示所說(shuō)的詞或其他句子片段。如果弧的輸出標(biāo)記不是ε(空),并且沿著所述弧傳遞令牌,則將相應(yīng)的詞或句子片段附加到令牌的話語(yǔ)假設(shè)。因此,例如,弧AB的輸出是詞“I”,意味著如果令牌沿著弧AB傳遞,則潛在的話語(yǔ)假設(shè)包含詞“I”。因此,對(duì)于過(guò)程300,下一操作可以是確定“弧具有輸出標(biāo)記嗎?”312。如果是,如在弧AB的情況下,則在中間詞網(wǎng)格中創(chuàng)建新節(jié)點(diǎn)314,并且對(duì)于一個(gè)示例,如圖6的第一幀600所示,更新316令牌的詞歷史散列。由于輸出了詞,所以詞歷史被提供有指定103,并且在詞網(wǎng)格402中放置詞“I”形成邊緣。詞網(wǎng)格中新創(chuàng)建的節(jié)點(diǎn)通過(guò)將邊緣從新節(jié)點(diǎn)放置到最初節(jié)點(diǎn)引用最初由令牌引用的網(wǎng)格中的節(jié)點(diǎn)。在圖6的示例中,該邊緣從用于“I”的新節(jié)點(diǎn)到句子初始節(jié)點(diǎn)。更新令牌引用以指向新創(chuàng)建的節(jié)點(diǎn)。例如,如圖6中的弧AC的情況,如果在令牌沿著其傳播的弧上沒(méi)有輸出標(biāo)記,則既不修改中間詞網(wǎng)格、從令牌到網(wǎng)格中的節(jié)點(diǎn)的應(yīng)用,也不修改詞歷史指定。因此,在圖6的示例中,狀態(tài)C中的令牌引用網(wǎng)格中的句子初始節(jié)點(diǎn)并保持詞歷史指定999?,F(xiàn)在跳過(guò)用于重新組合標(biāo)記(318-322)的操作,過(guò)程300檢查更多的弧324。在本示例中,過(guò)程300循環(huán),使得可以依次分析弧AC和AD,并且將建立狀態(tài)C和狀態(tài)D處的令牌以及建立用于兩個(gè)令牌中的每一個(gè)的初始詞歷史指定999(圖6)。當(dāng)沒(méi)有更多的弧以分析當(dāng)前活動(dòng)令牌時(shí),過(guò)程300檢查326以確定當(dāng)前令牌緩沖器中是否存在更多令牌。如果是,則過(guò)程300循環(huán)以從當(dāng)前令牌緩沖器取出308下一個(gè)令牌,并且過(guò)程300如前所述地進(jìn)行。一旦令牌緩沖器對(duì)于當(dāng)前幀為空326,則過(guò)程300用當(dāng)前令牌緩沖器交換328下一幀令牌緩沖器。如果未到達(dá)話語(yǔ)的結(jié)束330,則過(guò)程300環(huán)回以重復(fù)針對(duì)下一幀的網(wǎng)格構(gòu)建,其變?yōu)楫?dāng)前幀,并且再次計(jì)算306聲學(xué)特征。在該情況下,狀態(tài)B、C和D中的令牌變?yōu)閷?duì)于第一幀條件600的WFST400上的活動(dòng)令牌。該過(guò)程對(duì)于每個(gè)幀重復(fù),直到完全處理音頻輸入或者檢測(cè)到話語(yǔ)的結(jié)束。話語(yǔ)的結(jié)束檢測(cè)可以通過(guò)話音活動(dòng)檢測(cè)(VAD)、話語(yǔ)假設(shè)的穩(wěn)定時(shí)間、超時(shí)或適合于確定說(shuō)話者是否已完成講話的任何其它方法來(lái)完成。再次參照?qǐng)D6至圖7,其示出在第一幀(條件)600中的搜索空間,其中活動(dòng)令牌處于WFST400的狀態(tài)B、C和D中,當(dāng)沿著弧CF和DG傳遞令牌時(shí),用于詞“are”的節(jié)點(diǎn)放置在中間詞網(wǎng)格402中(如第二幀700中所示),它們的詞歷史指定被更新為378。然后,過(guò)程300可以如上所述繼續(xù)。當(dāng)過(guò)程300到達(dá)第三幀700(圖7)并且在狀態(tài)B和C中的令牌分別沿著WFST400中的弧BF和CF傳遞時(shí),因?yàn)閮蓚€(gè)令牌都處于相同的狀態(tài)F,所以存在可能的重新組合。根據(jù)檢查318在目的地狀態(tài)中是否存在相同的詞歷史散列的操作,避免了重新組合,因?yàn)榱钆品謩e具有詞歷史指定378和詞歷史指定103。因此,兩個(gè)令牌都保留在狀態(tài)F。更特定地,當(dāng)沒(méi)有形成新詞時(shí),詞歷史指定值與令牌一起傳播。因此,在本示例中,在幀條件600(圖6)處,沿著弧BF傳遞的令牌具有來(lái)自先前幀的詞歷史指定103,而沿著輸出詞“are”的弧CF傳遞的令牌具有更新的詞歷史指定378。為在常規(guī)系統(tǒng)中重新組合,如果兩個(gè)令牌傳播到相同的狀態(tài)F而不考慮先前的詞歷史,則具有較差聲學(xué)分?jǐn)?shù)的令牌將被丟棄。然而,在該情況下,因?yàn)楸槐容^的兩個(gè)令牌具有不同的詞歷史指定(103對(duì)378),所以維持兩個(gè)令牌。參照?qǐng)D8,其示出第四幀800,其中令牌傳播到狀態(tài)A、F、G、H、I和J中。這里,四個(gè)不同的令牌傳播到狀態(tài)I中。兩個(gè)令牌通過(guò)弧FI傳播,并且一個(gè)令牌通過(guò)弧EI傳播以及一個(gè)令牌通過(guò)弧GI傳播。因?yàn)樗兴膫€(gè)詞歷史指定都不同(816、103、78和378),所以沒(méi)有發(fā)生重新組合。在一種情況下,現(xiàn)在沿著弧DG傳播的令牌由于重新組合而被去除,因?yàn)檠刂窂紽G傳播的令牌具有相同的目的地狀態(tài),相同的詞指定(378),并且在我們的示例中具有更好的分?jǐn)?shù)。如上所述,在該情況下,具有較差分?jǐn)?shù)的令牌被丟棄。同樣在WFST400(幀條件800)上,從沿弧FI傳播的兩個(gè)令牌形成用于“am”的兩個(gè)詞網(wǎng)格節(jié)點(diǎn)。令牌中的一個(gè)具有先前幀中的詞指定103(表示“I”)。令牌的詞歷史指定更新為816(表示“Iam”)。另一個(gè)令牌具有詞歷史指定378(表示“are”),并且更新為78(表示“aream”)。一旦檢測(cè)到話語(yǔ)的結(jié)束330,則過(guò)程300可以包括“輸出最佳話語(yǔ)假設(shè)”332,并且具體地向解釋引擎提供完成的詞網(wǎng)格402以從由詞網(wǎng)格所呈現(xiàn)的詞序列確定最佳詞序列。參照?qǐng)D9,其示出所生成的和完成的詞網(wǎng)格402。通過(guò)把處于最終狀態(tài)(例如,在最終狀態(tài)I和J)的所有令牌作為可能的句末端假設(shè)來(lái)生成詞網(wǎng)格。此外,現(xiàn)在將邊緣的方向顛倒以示出從話語(yǔ)的開始到話語(yǔ)的結(jié)束的流動(dòng),其具有符號(hào)</s>。刪除未到達(dá)話語(yǔ)的結(jié)束的任何節(jié)點(diǎn)。因此,如圖所示,現(xiàn)在從詞網(wǎng)格402中刪除了由于重新組合而丟棄的第二個(gè)“are”。網(wǎng)格表示句子“are”、“aream”、“I”、“Iam”和“you”。參照?qǐng)D10至圖12,其提供用于生成詞網(wǎng)格1000的進(jìn)一步的細(xì)節(jié)。示出詞網(wǎng)格的生成的另一種方式是示出具有活動(dòng)令牌的詞網(wǎng)格,所述活動(dòng)令牌與生成的示出在令牌指向的節(jié)點(diǎn)處詞節(jié)點(diǎn)的插入的詞網(wǎng)格的圖示集成。由方法再次生成的詞網(wǎng)格是有向圖。圖示的節(jié)點(diǎn)表示單個(gè)詞的假設(shè),而圖示的邊緣表示“是其后繼”屬性,即,如上面對(duì)詞網(wǎng)格402所解釋的,該圖示從話語(yǔ)的結(jié)束指向話語(yǔ)的開始。在解碼期間,如圖10所示,每個(gè)令牌具有對(duì)詞網(wǎng)格1000中的節(jié)點(diǎn)的一個(gè)或多個(gè)引用,詞網(wǎng)格1000表示詞輸出假設(shè)的歷史。當(dāng)令牌更新導(dǎo)致新的輸出詞時(shí),將該詞插入具有該令牌所具有的相同邊緣的詞網(wǎng)格中。更新的令牌引用新節(jié)點(diǎn)。使用下面解釋的遞歸散列函數(shù)更新令牌的詞歷史散列。在圖10中示出了在解碼期間添加到詞網(wǎng)格1000的詞輸出“hi”的示例。如上所述,與不執(zhí)行實(shí)時(shí)詞網(wǎng)格生成的常規(guī)處理不同地對(duì)待令牌重新組合。通常,如果令牌僅僅對(duì)應(yīng)于相同的WFST狀態(tài),則重新組合令牌。如上所述,例如,如果令牌對(duì)應(yīng)于相同的WFST狀態(tài)并且還具有相同的詞歷史指定或散列,則這里僅重新組合令牌,或主要地或通常僅重新組合令牌。這樣,在不需要太多的計(jì)算開銷的情況下,在令牌重新組合期間最小化網(wǎng)格信息的丟失。參照?qǐng)D11,所公開的重新組合過(guò)程具有異常。為保持小的活動(dòng)令牌的數(shù)量,偶爾重新組合對(duì)應(yīng)于相同狀態(tài)但具有不同詞歷史(并且繼而具有不同的詞歷史指定)的令牌,導(dǎo)致網(wǎng)格更新。當(dāng)出于該目的重新組合具有不同詞歷史的令牌時(shí),將存在于兩個(gè)令牌中的任一個(gè)中的所有對(duì)網(wǎng)格節(jié)點(diǎn)的引用組合到新令牌中,以便保有詞網(wǎng)格信息。如果在兩個(gè)令牌中都存在對(duì)節(jié)點(diǎn)的引用,則拋棄具有較差分?jǐn)?shù)的引用。在圖11中例示這種更新,圖11示出以“there”、“this”和“hi”結(jié)束的詞序列組合成單個(gè)活動(dòng)令牌,盡管每個(gè)明顯具有不同的詞歷史指定。該更新不應(yīng)該太頻繁地執(zhí)行,因?yàn)榕c其他重新組合相比,這種網(wǎng)格更新可相對(duì)昂貴,這是因?yàn)楸仨毐容^對(duì)兩個(gè)令牌的網(wǎng)格節(jié)點(diǎn)的所有引用以便找到副本。這種動(dòng)態(tài)更新可以由時(shí)間間隔(例如每100ms大約一次)或者如果達(dá)到活動(dòng)令牌的目標(biāo)數(shù)量來(lái)限制。該異常更新對(duì)于詞網(wǎng)格生成是精確的不是必需的,并且如果僅識(shí)別單個(gè)句子則可以不需要。它可以僅在識(shí)別長(zhǎng)時(shí)間運(yùn)行(例如聽寫)時(shí)使用,以便減少活動(dòng)令牌的數(shù)量。參照?qǐng)D12,在話語(yǔ)結(jié)束時(shí),通常存在多于一個(gè)表示話語(yǔ)結(jié)束的活動(dòng)令牌。代替如在第一最佳解碼中執(zhí)行的取出最佳令牌,將對(duì)應(yīng)于WFST中的最終節(jié)點(diǎn)的所有活動(dòng)令牌組合成詞網(wǎng)格的一個(gè)話語(yǔ)結(jié)束節(jié)點(diǎn)。話語(yǔ)結(jié)束的處理可以在圖12中看到,其中“there”和“hi”令牌組合成單個(gè)最終節(jié)點(diǎn)。與僅考慮一個(gè)最佳最終詞的常規(guī)過(guò)程相反,這導(dǎo)致可以由解釋引擎考慮的詞網(wǎng)格上的替代詞序列(一些以“there”結(jié)束,另一些以“hi”結(jié)束)?,F(xiàn)在返回到詞歷史指定的生成,通過(guò)一種方法,指定是通過(guò)使用散列函數(shù)形成的散列值(或簡(jiǎn)單地散列)。通過(guò)一個(gè)示例,詞歷史指定的分配依賴于表示詞序列的整數(shù)值。使用散列以便生成那些整數(shù)。散列可以看作是從詞串到單個(gè)整數(shù)的函數(shù)h。對(duì)于網(wǎng)格生成,散列函數(shù)需要是遞歸的,使得對(duì)于空句子ε和每個(gè)詞序列(w1,w2,...,wn):h(ε)=h0(1)有幾種方法遞歸地構(gòu)建散列值。一個(gè)屬性是幾乎沒(méi)有沖突(換句話說(shuō),不同的輸入不太可能導(dǎo)致相同的輸出)。如上所述,詞歷史散列在解碼期間存儲(chǔ)在每個(gè)活動(dòng)令牌中,并且其用于避免與如上所述的具有不同詞歷史的那些令牌的令牌重新組合。因此,如果兩個(gè)不同的詞歷史導(dǎo)致相同的散列值,則由于令牌重新組合,信息可在網(wǎng)格中丟失??梢杂糜诖_定詞歷史指定的散列函數(shù)可以包括循環(huán)冗余校驗(yàn)(CRC)散列函數(shù)、稱為函數(shù)的和類型的校驗(yàn)和的散列函數(shù)、非密碼散列函數(shù)、密碼散列函數(shù)等。對(duì)于硬件實(shí)施,循環(huán)冗余校驗(yàn)(CRC)更好,因?yàn)槠浞浅8咝?。?duì)于軟件實(shí)施,非密碼散列函數(shù)通常是最適合的,因?yàn)樗鼈兺ǔS?jì)算速度快并且具有相當(dāng)好的密鑰分布。校驗(yàn)和可不如這些其他散列函數(shù)準(zhǔn)確,因?yàn)樗鼈兺ǔJ俏恢脽o(wú)關(guān)的,即句子“Iamhere”和“amIhere”導(dǎo)致相同的校驗(yàn)和。此外,密碼散列函數(shù)可在計(jì)算上是昂貴的,但是仍然可以是合適的。通過(guò)一個(gè)示例,散列函數(shù)可以是sdbm(ndbm(新數(shù)據(jù)庫(kù)管理器)的公共域重新實(shí)施)中的散列函數(shù)實(shí)施的32位版本,并且與sdbm數(shù)據(jù)庫(kù)程序庫(kù)一起使用。作為散列函數(shù),其在計(jì)算上是高效的,并且在密鑰分布方面看起來(lái)是足夠的。對(duì)于字符i處的字符串str,實(shí)際函數(shù)是h(i)=h(i-1)·65599+str[i]。隨機(jī)選取作為乘法值的常數(shù)65599(十六進(jìn)制的0x1003F),并發(fā)現(xiàn)是足夠的。sdbm散列標(biāo)簽函數(shù)的可能偽代碼如下(在下面?zhèn)未a中是在使用位移操作實(shí)施乘法的gawk中使用的快速版本):類似MurmurHash的其他散列函數(shù)可以給出一樣好或更好的結(jié)果。為創(chuàng)建用于話語(yǔ)的散列,例如可以為正使用的詞匯表建立并存儲(chǔ)詞到整數(shù)的1:1映射。yes1here2there3I4am5對(duì)于該示例,句子“Iamhere”由“452”表示。散列過(guò)程還可以使用具有值1-9和對(duì)應(yīng)于值10-15的A-F的常用十六進(jìn)制記數(shù)法。對(duì)于空話語(yǔ)和在話語(yǔ)開始處創(chuàng)建的起始令牌,可以使用散列值0xFFFFFFFF。許多其他值也可以起作用。只要在沿著網(wǎng)格中的弧傳播散列值(或詞歷史指定)的令牌創(chuàng)建期間也沒(méi)有詞被假設(shè),則從該令牌創(chuàng)建的所有令牌復(fù)制散列值。例如,當(dāng)假設(shè)第一個(gè)詞“I”時(shí),更新對(duì)應(yīng)令牌的詞歷史散列值:h(“I”)=modulo0xFFFFFFFF(wI+h(ε)·0x1003F)=modulo0xFFFFFFFF(0x4+0xFFFFFFFF·0x1003F)=modulo0xFFFFFFFF(0x1003EFFFEFFC5)=0xFFEFFC5當(dāng)對(duì)于具有散列值0xFFFEFFC5的令牌出現(xiàn)下一個(gè)詞“am”時(shí),再次更新散列值:h(“Iam”)=modulo0xFFFFFFFF(0x5+0xFFEFFC5·0x1003F)=0xFF85F180h(“Iamhere”)=modulo0xFFFFFFFF(0x2+0xFF85F180·0x1003F)=0xD3766E82即使兩個(gè)詞序列可以包括相同的詞,散列函數(shù)方程中的算子的組合根據(jù)序列中的詞的順序?qū)е虏煌闹付ㄖ?。如果在相同?jié)點(diǎn)中存在另一個(gè)令牌,但是其具有詞歷史“amIhere”而不是“Iamhere”,則它具有不同于0xD3766E82的詞歷史散列值0xD3F37DC4,并且在本過(guò)程中兩個(gè)令牌通常不組合。在該情況下,除非如上所述發(fā)生異常更新,否則兩個(gè)令牌和兩個(gè)詞歷史指定都維持在相同的狀態(tài)。上述過(guò)程不需要構(gòu)建比有效詞網(wǎng)格需要更多的RAM的中間音素或狀態(tài)網(wǎng)格。因此,本文描述的方法需要較少的存儲(chǔ)器以操作。此外,與單一最佳維特比解碼相比,性能測(cè)量沒(méi)有示出使用本文的方法的解碼速度的可測(cè)量的降低。由于單一最佳維特比解碼被認(rèn)為是解碼話語(yǔ)的最簡(jiǎn)單和最快速的方法之一,因此假定本方法不會(huì)比任何其它已知的生成詞網(wǎng)格的方法慢得多。應(yīng)當(dāng)理解,過(guò)程200和/或300可以由樣本ASR系統(tǒng)10和/或1300提供以操作本公開的至少一些實(shí)施方式。這包括語(yǔ)音識(shí)別處理系統(tǒng)1300(圖13)中的聲學(xué)前端單元1308、聲學(xué)評(píng)分單元1310、WFST解碼器1312和語(yǔ)言解釋器執(zhí)行單元1314以及其他的操作,以及類似地對(duì)于系統(tǒng)10(圖1)的操作。另外,可以響應(yīng)于由一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品提供的指令進(jìn)行圖2至圖3的操作中的任何一個(gè)或多個(gè)。這樣的程序產(chǎn)品可以包括提供指令的信號(hào)承載介質(zhì),例如,當(dāng)所述指令由處理器執(zhí)行時(shí),所述指令可以提供本文描述的功能。計(jì)算機(jī)程序產(chǎn)品可以以任何形式的一個(gè)或多個(gè)機(jī)器可讀介質(zhì)提供。因此,例如,響應(yīng)于通過(guò)一個(gè)或多個(gè)計(jì)算機(jī)或機(jī)器可讀介質(zhì)傳送到處理器的程序代碼和/或指令或指令集,包括一個(gè)或多個(gè)處理器核心的處理器可以進(jìn)行本文中的示例過(guò)程的操作中的一個(gè)或多個(gè)。一般來(lái)說(shuō),機(jī)器可讀介質(zhì)可以以程序代碼和/或指令或指令集的形式傳送可以使得任何設(shè)備和/或系統(tǒng)如本文所述執(zhí)行的軟件。機(jī)器或計(jì)算機(jī)可讀介質(zhì)可以是諸如非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)的非暫時(shí)性制品或介質(zhì),并且可以與上述的任何示例或其他示例一起使用,除了其不包括暫時(shí)信號(hào)本身。它包括除了可以以“暫時(shí)”方式臨時(shí)保持?jǐn)?shù)據(jù)的信號(hào)本身的那些元件,例如RAM等。如在本文描述的任何實(shí)施方式中使用的,術(shù)語(yǔ)“模塊”指經(jīng)配置提供本文所描述的功能的軟件邏輯、固件邏輯和/或硬件邏輯的任何組合。軟件可以體現(xiàn)為軟件包、代碼和/或指令集或指令,并且例如,如本文所描述的任何實(shí)施方式中使用的“硬件”可以包括單獨(dú)的或以任何組合的硬連線電路、可編程電路、狀態(tài)機(jī)電路和/或存儲(chǔ)由可編程電路執(zhí)行的指令的固件。模塊可以共同地或單獨(dú)地體現(xiàn)為形成較大系統(tǒng)(例如,集成電路(IC)、芯片上系統(tǒng)(SoC)等)的一部分的電路。例如,模塊可以體現(xiàn)在用于經(jīng)由本文所討論的編碼系統(tǒng)的軟件、固件或硬件實(shí)施的邏輯電路中。如在本文描述的任何實(shí)施方式中所使用的,術(shù)語(yǔ)“邏輯單元”指經(jīng)配置提供本文描述的功能的固件邏輯和/或硬件邏輯的任何組合。例如,在本文中描述的任何實(shí)施方式中使用的“硬件”可以包括單獨(dú)的或以任何組合的硬連線電路、可編程電路、狀態(tài)機(jī)電路和/或存儲(chǔ)由可編程電路執(zhí)行的指令的固件。邏輯單元可以共同地或單獨(dú)地體現(xiàn)為形成較大系統(tǒng)(例如,集成電路(IC)、芯片上系統(tǒng)(SoC)等)的一部分的電路。例如,邏輯單元可以體現(xiàn)在用于實(shí)施本文討論的編碼系統(tǒng)的固件或硬件的邏輯電路中。本領(lǐng)域的技術(shù)人員將理解,由硬件和/或固件執(zhí)行的操作可以替代地經(jīng)由軟件實(shí)施,軟件可以體現(xiàn)為軟件包、代碼和/或指令集或指令,并且還將理解,邏輯單元還可以利用軟件的一部分實(shí)施其功能。如在本文所描述的任何實(shí)施方式中使用的,術(shù)語(yǔ)“部件”可以指模塊或邏輯單元,正如在以上描述了這些術(shù)語(yǔ)。因此,術(shù)語(yǔ)“部件”可以指經(jīng)配置提供本文所描述的功能的軟件邏輯、固件邏輯和/或硬件邏輯的任何組合。例如,本領(lǐng)域技術(shù)人員將理解,由硬件和/或固件執(zhí)行的操作可以替代地經(jīng)由軟件模塊實(shí)施,軟件模塊可以體現(xiàn)為軟件包、代碼和/或指令集,并且還將理解,邏輯單元還可以利用軟件的一部分來(lái)實(shí)施其功能。參照?qǐng)D13,根據(jù)本公開的至少一些實(shí)施布置示例圖像處理系統(tǒng)1300。在各種實(shí)施方式中,示例語(yǔ)音識(shí)別處理系統(tǒng)1300可以具有音頻捕獲設(shè)備1302以形成或接收聲學(xué)信號(hào)數(shù)據(jù)。這可以以各種方式實(shí)施。因此,在一種形式中,語(yǔ)音識(shí)別處理系統(tǒng)1300可以是諸如麥克風(fēng)的音頻捕獲設(shè)備,并且在該情況下,音頻捕獲設(shè)備1302可以是麥克風(fēng)硬件和傳感器軟件、模塊或部件。在其他示例中,語(yǔ)音識(shí)別處理系統(tǒng)1300可以具有包括或可以是麥克風(fēng)的音頻捕獲設(shè)備1302,并且邏輯模塊1304可以與音頻捕獲設(shè)備1302遠(yuǎn)程通信或以其它方式可通信地耦合到音頻捕獲設(shè)備1302,用于進(jìn)一步處理聲學(xué)數(shù)據(jù)。在任一種情況下,這種技術(shù)可以包括電話、智能電話、聽寫機(jī)、其他錄音機(jī)、移動(dòng)設(shè)備或車載設(shè)備、或這些的任何組合。因此,在一種形式中,音頻捕獲設(shè)備1302可以包括音頻捕獲硬件,所述音頻捕獲硬件包括一個(gè)或多個(gè)傳感器以及致動(dòng)器控制機(jī)構(gòu)。這些控制機(jī)構(gòu)可以是用于操作傳感器的傳感器模塊或部件的一部分。傳感器部件可以是音頻捕獲設(shè)備1302的一部分,或者可以是邏輯模塊1304的一部分或兩者。這種傳感器部件可以用于將聲波轉(zhuǎn)換成電聲學(xué)信號(hào)。音頻捕獲設(shè)備1302還可以具有A/D轉(zhuǎn)換器、其他濾波器等,以提供用于語(yǔ)音識(shí)別處理的數(shù)字信號(hào)。在所示的示例中,邏輯模塊1304可以包括提供如結(jié)合單元18(圖1)描述的預(yù)處理并且辨認(rèn)聲學(xué)特征的聲學(xué)前端單元1308、提供用于聲學(xué)特征的聲學(xué)分?jǐn)?shù)的聲學(xué)分?jǐn)?shù)單元1310、提供如本文所描述的詞網(wǎng)格的WFST解碼器1312、以及確定最佳詞序列以匹配聲學(xué)信號(hào)的語(yǔ)言解釋器執(zhí)行單元1314。WFST解碼器單元1312可以由處理器1320操作,或者甚至完全或部分位于處理器1320,并且可以包括或連接到加速器1322,以至少執(zhí)行具有詞歷史敏感性或聲學(xué)評(píng)分或兩者的WFST解碼。邏輯模塊可以通信地耦合到音頻捕獲設(shè)備1302的部件,以便接收原始聲學(xué)數(shù)據(jù)。邏輯模塊1304可以被認(rèn)為或可以不被認(rèn)為是音頻捕獲設(shè)備的一部分。語(yǔ)音識(shí)別處理系統(tǒng)1300可以具有一個(gè)或多個(gè)處理器1320、存儲(chǔ)器存儲(chǔ)器件1324、至少一個(gè)揚(yáng)聲器單元1328、一個(gè)或多個(gè)顯示器1328、其他終端設(shè)備1332、以及天線1334,所述一個(gè)或多個(gè)處理器1320可以包括諸如IntelAtom的專用加速器1322,所述存儲(chǔ)器存儲(chǔ)器件1324可以保持或可以不保持令牌緩沖器1326以及本文提及的詞匯表、詞歷史表等,所述揚(yáng)聲器單元1328用于提供對(duì)輸入聲學(xué)信號(hào)的聽覺響應(yīng),所述顯示器1328用于提供文本的圖像1330作為對(duì)聲學(xué)信號(hào)的視覺響應(yīng),所述其他終端設(shè)備1332用于響應(yīng)于聲學(xué)信號(hào)而執(zhí)行動(dòng)作。在一個(gè)示例實(shí)施方式中,圖像處理系統(tǒng)1300可以具有顯示器1328、通信地耦合到顯示器的至少一個(gè)處理器1320、通信地耦合到處理器且通過(guò)一個(gè)示例具有用于存儲(chǔ)如上所述的令牌的令牌緩沖器1326的至少一個(gè)存儲(chǔ)器1324。天線1334可以被提供用于將與輸入聲學(xué)信號(hào)匹配的最佳詞序列或其他相關(guān)命令傳輸?shù)娇梢曰谶@樣的確定而動(dòng)作的其他設(shè)備。另外,語(yǔ)音識(shí)別過(guò)程的結(jié)果可以存儲(chǔ)在存儲(chǔ)器1324中。如所示出的,這些部件中的任一個(gè)可以能夠彼此通信和/或與邏輯模塊1304和/或音頻捕獲設(shè)備1302的部分通信。因此,處理器1320可以通信地耦合到音頻捕獲設(shè)備1302和用于操作那些部件的邏輯模塊1304兩者。如圖13所示,通過(guò)一種方法,雖然圖像處理系統(tǒng)1300可以包括與具體部件或模塊相關(guān)聯(lián)的一組具體塊或動(dòng)作,但是這些塊或動(dòng)作可以與不同于這里所示出的具體部件或模塊的部件或模塊相關(guān)聯(lián)。參照?qǐng)D14,根據(jù)本公開的示例系統(tǒng)1400操作本文所描述的圖像處理系統(tǒng)的一個(gè)或多個(gè)方面。從下面描述的系統(tǒng)部件的性質(zhì)將理解,這樣的部件可以與以上描述的圖像處理系統(tǒng)的某部分或某些部分相關(guān)聯(lián),或者可以用于操作以上描述的圖像處理系統(tǒng)的某部分或某些部分。在各種實(shí)施方式中,系統(tǒng)1400可以是媒體系統(tǒng),但系統(tǒng)1400不限于該上下文。例如,系統(tǒng)1400可以并入麥克風(fēng)、個(gè)人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)、超級(jí)膝上型計(jì)算機(jī)、平板、觸摸板、便攜式計(jì)算機(jī)、手持計(jì)算機(jī)、掌上計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、蜂窩電話、組合蜂窩電話/PDA、電視、智能設(shè)備(例如,智能電話、智能平板或智能電視)、移動(dòng)互聯(lián)網(wǎng)設(shè)備(MID)、消息傳遞設(shè)備、數(shù)據(jù)通信設(shè)備等。在各種實(shí)施方式中,系統(tǒng)1400包括耦合到顯示器1420的平臺(tái)1402。平臺(tái)1402可以從諸如內(nèi)容服務(wù)設(shè)備1430或內(nèi)容遞送設(shè)備1440的內(nèi)容設(shè)備或其它類似內(nèi)容源接收內(nèi)容。例如,包括一個(gè)或多個(gè)導(dǎo)航特征的導(dǎo)航控制器1450可以用于與平臺(tái)1402、揚(yáng)聲器1470、麥克風(fēng)1470和/或顯示器1420交互作用。這些部件中的每一個(gè)在下面更詳細(xì)地描述。在各種實(shí)施方式中,平臺(tái)1402可包括芯片組1405、處理器1410、存儲(chǔ)器1412、存儲(chǔ)裝置1414、音頻子系統(tǒng)1404、圖形子系統(tǒng)1415、應(yīng)用1416和/或無(wú)線電裝置1418的任何組合。芯片組1405可以提供處理器1410、存儲(chǔ)器1412、存儲(chǔ)裝置1414、音頻子系統(tǒng)1404、圖形子系統(tǒng)1415、應(yīng)用1416和/或無(wú)線電裝置1418間的相互通信。例如,芯片組1405可以包括能夠提供與存儲(chǔ)裝置1414相互通信的存儲(chǔ)裝置適配器(未示出)。處理器1410可以實(shí)施為復(fù)雜指令集計(jì)算機(jī)(CISC)或精簡(jiǎn)指令集計(jì)算機(jī)(RISC)處理器;x86指令集兼容處理器,多核或任何其它微處理器或中央處理單元(CPU)。在各種實(shí)施方式中,處理器1410可以是雙核處理器、雙核移動(dòng)處理器等。存儲(chǔ)器1412可以實(shí)施為易失性存儲(chǔ)器設(shè)備,例如但不限于隨機(jī)存取存儲(chǔ)器(RAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)或靜態(tài)RAM(SRAM)。存儲(chǔ)裝置1414可以實(shí)施為非易失性存儲(chǔ)設(shè)備,例如但不限于磁盤驅(qū)動(dòng)器、光盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器、內(nèi)部存儲(chǔ)設(shè)備、附加存儲(chǔ)設(shè)備、閃存存儲(chǔ)器、電池備份SDRAM(同步DRAM)和/或網(wǎng)絡(luò)可訪問(wèn)存儲(chǔ)設(shè)備。在各種實(shí)施方式中,例如,當(dāng)包括多個(gè)硬盤驅(qū)動(dòng)器時(shí),存儲(chǔ)裝置1414可以包括用于提高對(duì)有價(jià)值數(shù)字媒體的存儲(chǔ)性能增強(qiáng)保護(hù)的技術(shù)。音頻子系統(tǒng)1404可以執(zhí)行諸如聲學(xué)信號(hào)的音頻的處理,用于本文所述的語(yǔ)音識(shí)別和/或話音識(shí)別。音頻子系統(tǒng)1404可以包括一個(gè)或多個(gè)處理單元和加速器。這樣的音頻子系統(tǒng)可以集成到處理器1410或芯片組1405中。在一些實(shí)施方式中,音頻子系統(tǒng)1404可以是通信地耦合到芯片組1405的獨(dú)立卡。接口可以用于將音頻子系統(tǒng)1404通信地耦合到揚(yáng)聲器1460、麥克風(fēng)1470和/或顯示器1420。圖形子系統(tǒng)1415可以執(zhí)行諸如靜止或視頻的圖像的處理以用于顯示。例如,圖形子系統(tǒng)1415可以是圖形處理單元(GPU)或視覺處理單元(VPU)。模擬或數(shù)字接口可以用于通信地耦合圖形子系統(tǒng)1415和顯示器1420。例如,接口可以是高清晰度多媒體接口、顯示端口、無(wú)線HDMI和/或無(wú)線HD兼容技術(shù)中的任一種。圖形子系統(tǒng)1415可以集成到處理器1410或芯片組1405中。在一些實(shí)施方式中,圖形子系統(tǒng)1415可以是通信地耦合到芯片組1405的獨(dú)立卡。本文描述的音頻處理技術(shù)可以在各種硬件架構(gòu)中實(shí)施。例如,可以在芯片組內(nèi)集成音頻功能。替代地,可以使用離散的音頻處理器。作為又一實(shí)施,音頻功能可以由包括多核處理器的通用處理器提供。在另外的實(shí)施例中,功能可以在消費(fèi)電子設(shè)備中實(shí)施。無(wú)線電裝置1418可以包括能夠使用各種合適的無(wú)線通信技術(shù)傳輸和接收信號(hào)的一個(gè)或多個(gè)無(wú)線電裝置。這樣的技術(shù)可以涉及跨一個(gè)或多個(gè)無(wú)線網(wǎng)絡(luò)的通信。示例無(wú)線網(wǎng)絡(luò)包括(但不限于)無(wú)線局域網(wǎng)(WLAN)、無(wú)線個(gè)人局域網(wǎng)(WPAN)、無(wú)線城域網(wǎng)(WMAN)、蜂窩網(wǎng)絡(luò)和衛(wèi)星網(wǎng)絡(luò)。在跨這樣的網(wǎng)絡(luò)進(jìn)行通信時(shí),無(wú)線電裝置1418可以根據(jù)任何版本中的一個(gè)或多個(gè)適用的標(biāo)準(zhǔn)操作。在各種實(shí)施方式中,顯示器1420可以包括任何電視型監(jiān)視器或顯示器。例如,顯示器1420可以包括計(jì)算機(jī)顯示屏、觸摸屏顯示器、視頻監(jiān)視器、類電視設(shè)備和/或電視。顯示器1420可以是數(shù)字和/或模擬的。在各種實(shí)施方式中,顯示器1420可以是全息顯示器。此外,顯示器1420可以是可以接收視覺投影的透明表面。這樣的投影可以傳送各種形式的信息、圖像和/或?qū)ο?。例如,這樣的投影可以是用于移動(dòng)增強(qiáng)現(xiàn)實(shí)(MAR)應(yīng)用的視覺覆蓋。在一個(gè)或多個(gè)軟件應(yīng)用1416的控制下,平臺(tái)1402可以在顯示器1420上顯示用戶界面1422。在各種實(shí)施方式中,例如,內(nèi)容服務(wù)設(shè)備1430可以由任何國(guó)家、國(guó)際和/或獨(dú)立的服務(wù)托管,并且因此經(jīng)由因特網(wǎng)可由平臺(tái)1402訪問(wèn)。內(nèi)容服務(wù)設(shè)備1430可以耦合到平臺(tái)1402和/或耦合到顯示器1420、揚(yáng)聲器1460和麥克風(fēng)1470。平臺(tái)1402和/或內(nèi)容服務(wù)設(shè)備1430可以耦合到網(wǎng)絡(luò)1465以對(duì)到和來(lái)自網(wǎng)絡(luò)1465的媒體信息進(jìn)行通信(例如,發(fā)送和/或接收)。內(nèi)容遞送設(shè)備1440還可以耦合到平臺(tái)1402、揚(yáng)聲器1460、麥克風(fēng)1470和/或顯示器1420。在各種實(shí)施方式中,內(nèi)容服務(wù)設(shè)備1430可以包括麥克風(fēng)、有線電視盒、個(gè)人計(jì)算機(jī)、網(wǎng)絡(luò)、電話、能使用互聯(lián)網(wǎng)的設(shè)備或能夠遞送數(shù)字信息和/或內(nèi)容的器件、以及能夠經(jīng)由網(wǎng)絡(luò)1465或直接地在內(nèi)容提供商與平臺(tái)1402和揚(yáng)聲器子系統(tǒng)1460、麥克風(fēng)1470和/或顯示器1420之間單向或雙向地通信內(nèi)容的任何其他類似設(shè)備。應(yīng)當(dāng)理解,內(nèi)容可以經(jīng)由網(wǎng)絡(luò)1460單向和/或雙向地通信到以及經(jīng)由網(wǎng)絡(luò)1460單向和/或雙向地通信來(lái)自系統(tǒng)1400中的部件中的任何一個(gè)和內(nèi)容提供商。內(nèi)容的示例可以包括任何媒體信息,例如包括視頻、音樂(lè)、醫(yī)療和游戲信息等。內(nèi)容服務(wù)設(shè)備1430可以接收諸如包括媒體信息、數(shù)字信息和/或其它內(nèi)容的有線電視節(jié)目的內(nèi)容。內(nèi)容提供商的示例可以包括任何有線或衛(wèi)星電視或無(wú)線電或因特網(wǎng)內(nèi)容提供商。所提供的示例不意味著以任何方式限制根據(jù)本公開的實(shí)施。在各種實(shí)施方式中,平臺(tái)1402可以從具有一個(gè)或多個(gè)導(dǎo)航特征的導(dǎo)航控制器1450接收控制信號(hào)。例如,控制器1450的導(dǎo)航特征可以用于與用戶界面1422交互作用。在實(shí)施例中,導(dǎo)航控制器1450可以是定點(diǎn)設(shè)備,其可以是允許用戶將空間(例如,連續(xù)和多維的)數(shù)據(jù)輸入到計(jì)算機(jī)中的計(jì)算機(jī)硬件部件(特定地,人機(jī)接口設(shè)備)。諸如圖形用戶界面(GUI)以及電視和監(jiān)視器的許多系統(tǒng)允許用戶使用物理手勢(shì)控制并向計(jì)算機(jī)或電視提供數(shù)據(jù)。音頻子系統(tǒng)1404還可以用于控制制品的運(yùn)動(dòng)或在界面1422上的命令的選擇??刂破?450的導(dǎo)航特征的移動(dòng)可以通過(guò)顯示器上顯示的指針、光標(biāo)、焦點(diǎn)環(huán)或其它視覺指示符的移動(dòng)或通過(guò)音頻命令在顯示器(例如,顯示器1420)上復(fù)制。例如,在軟件應(yīng)用1416的控制下,例如,位于導(dǎo)航控制器1450上的導(dǎo)航特征可以被映射到在用戶界面1422上顯示的虛擬導(dǎo)航特征。在實(shí)施例中,控制器1450可以不是單獨(dú)的部件,而是可以集成到平臺(tái)1402、揚(yáng)聲器子系統(tǒng)1260、麥克風(fēng)1470和/或顯示器1420中。然而,本公開不限于本文所示或描述的元件或上下文。在各種實(shí)施方式中,驅(qū)動(dòng)器(未示出)可以包括技術(shù)以使得用戶能夠在起始啟動(dòng)之后(例如,當(dāng)啟用時(shí))通過(guò)觸摸按鈕來(lái)像電視一樣立即打開和關(guān)閉平臺(tái)1402,或通過(guò)聽覺命令打開和關(guān)閉平臺(tái)1402。即使當(dāng)平臺(tái)被“關(guān)閉”時(shí),程序邏輯可以允許平臺(tái)1402將內(nèi)容流式傳輸?shù)矫襟w適配器或其它內(nèi)容服務(wù)設(shè)備1430或內(nèi)容遞送設(shè)備1440。另外,例如,芯片組1405可以包括用于8.1環(huán)繞聲音頻和/或高清晰度(7.1)環(huán)繞聲音頻的硬件和/或軟件支持。驅(qū)動(dòng)器可以包括用于集成聽覺或圖形平臺(tái)的聽覺或圖形驅(qū)動(dòng)器。在實(shí)施例中,聽覺或圖形驅(qū)動(dòng)器可以包括外圍部件互連(PCI)快速圖形卡。在各種實(shí)施方式中,可以集成系統(tǒng)1400中所示的部件中的任何一個(gè)或多個(gè)。例如,可以集成平臺(tái)1402和內(nèi)容服務(wù)設(shè)備1430,或者可以集成平臺(tái)1402和內(nèi)容遞送設(shè)備1440,或者例如,可以集成平臺(tái)1402、內(nèi)容服務(wù)設(shè)備1430和內(nèi)容遞送設(shè)備1440。在各種實(shí)施例中,平臺(tái)1402、揚(yáng)聲器1460、麥克風(fēng)1470和/或顯示器1420可以是集成單元。例如,可以集成顯示器1420、揚(yáng)聲器1460和/或麥克風(fēng)1470以及內(nèi)容服務(wù)設(shè)備1430,或者可以集成顯示器1420、揚(yáng)聲器1460和/或麥克風(fēng)1470以及內(nèi)容遞送設(shè)備1440。這些示例不意味著限制本公開。在各種實(shí)施例中,系統(tǒng)1400可以實(shí)施為無(wú)線系統(tǒng)、有線系統(tǒng)或兩者的組合。當(dāng)系統(tǒng)1400實(shí)施為無(wú)線系統(tǒng)時(shí),系統(tǒng)1400可以包括適合于通過(guò)無(wú)線共享介質(zhì)進(jìn)行通信的部件和接口,例如一個(gè)或多個(gè)天線、發(fā)射機(jī)、接收機(jī)、收發(fā)機(jī)、放大器、濾波器、控制邏輯等。無(wú)線共享介質(zhì)的示例可以包括無(wú)線頻譜的部分,諸如RF頻譜等。當(dāng)系統(tǒng)1400實(shí)施為有線系統(tǒng)時(shí),系統(tǒng)1400可以包括適合于通過(guò)有線通信介質(zhì)進(jìn)行通信的部件和接口,例如輸入/輸出(I/O)適配器、用于將I/O適配器與對(duì)應(yīng)的有線通信介質(zhì)連接的物理連接器、網(wǎng)絡(luò)接口卡(NIC)、光盤控制器、視頻控制器、音頻控制器等。有線通信介質(zhì)的示例可以包括電線、電纜、金屬引線、印刷電路板(PCB)、背板、交換結(jié)構(gòu)、半導(dǎo)體材料、雙絞線、同軸電纜、光纖等。平臺(tái)1402可以建立一個(gè)或多個(gè)邏輯或物理信道以對(duì)信息進(jìn)行通信。信息可以包括媒體信息和控制信息。媒體信息可以指表示用于用戶的內(nèi)容的任何數(shù)據(jù)。例如,內(nèi)容的示例可以包括來(lái)自話音對(duì)話、視頻會(huì)議、流視頻和音頻、電子郵件(“email”)消息、話音郵件消息、字母數(shù)字符號(hào)、圖形、圖像、視頻、音頻、文本等的數(shù)據(jù)。例如,來(lái)自話音對(duì)話的數(shù)據(jù)可以是語(yǔ)音信息、靜默時(shí)段、背景噪聲、舒適噪聲、音調(diào)等??刂菩畔⒖梢灾副硎居糜谧詣?dòng)化系統(tǒng)的命令、指令或控制詞的任何數(shù)據(jù)。例如,控制信息可以用于通過(guò)系統(tǒng)路由媒體信息,或者指示節(jié)點(diǎn)以預(yù)定方式處理媒體信息。然而,實(shí)施方式不限于圖14中示出或描述的元件或上下文。參照?qǐng)D15,小形狀因子設(shè)備1500是其中可以體現(xiàn)系統(tǒng)1400的變化的物理樣式或形狀因子的一個(gè)示例。通過(guò)該方法,設(shè)備1500可以實(shí)施為具有無(wú)線能力的移動(dòng)計(jì)算設(shè)備。例如,移動(dòng)計(jì)算設(shè)備可以指具有處理系統(tǒng)和諸如一個(gè)或多個(gè)電池的移動(dòng)電源或移動(dòng)電力供應(yīng)的任何設(shè)備。如上所述,移動(dòng)計(jì)算設(shè)備的示例可以包括具有音頻子系統(tǒng)的任何設(shè)備,例如個(gè)人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)、超級(jí)膝上型計(jì)算機(jī)、平板、觸摸板、便攜式計(jì)算機(jī)、手持計(jì)算機(jī)、掌上計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、蜂窩電話、組合蜂窩電話/PDA、電視、智能設(shè)備(例如,智能電話、智能平板或智能電視)、移動(dòng)互聯(lián)網(wǎng)設(shè)備(MID)、消息傳遞設(shè)備、數(shù)據(jù)通信設(shè)備等,以及可以接受音頻命令的任何其他車載(例如在車輛上)計(jì)算機(jī)。移動(dòng)計(jì)算設(shè)備的示例還可以包括被布置成由人佩戴的計(jì)算機(jī),例如頭戴式電話、頭帶、聽力輔助設(shè)備、腕式計(jì)算機(jī)、手指計(jì)算機(jī)、環(huán)形計(jì)算機(jī)、眼鏡計(jì)算機(jī)、皮帶夾計(jì)算機(jī)、臂帶計(jì)算機(jī)、鞋計(jì)算機(jī)、服裝計(jì)算機(jī)和其他可佩戴計(jì)算機(jī)。在各種實(shí)施例中,例如,移動(dòng)計(jì)算設(shè)備可以實(shí)施為能夠執(zhí)行計(jì)算機(jī)應(yīng)用以及話音通信和/或數(shù)據(jù)通信的智能電話。盡管可以通過(guò)示例的方式利用實(shí)施為智能電話的移動(dòng)計(jì)算設(shè)備描述一些實(shí)施例,但是可以理解,也可以使用其他無(wú)線移動(dòng)計(jì)算設(shè)備實(shí)施其他實(shí)施例。實(shí)施例不限于該上下文。如圖15所示,設(shè)備1000可以包括外殼1502、包括屏幕1510的顯示器1504、輸入/輸出(I/O)設(shè)備1506和天線1508。設(shè)備1500還可以包括導(dǎo)航特征1015。顯示器1504可以包括用于顯示適合于移動(dòng)計(jì)算設(shè)備的信息的任何合適的顯示單元。I/O設(shè)備1506可以包括用于將信息輸入到移動(dòng)計(jì)算設(shè)備中的任何合適的I/O設(shè)備。I/O設(shè)備1506的示例可以包括字母數(shù)字鍵盤、數(shù)字小鍵盤、觸摸板、輸入鍵、按鈕、開關(guān)、搖臂開關(guān)、軟件等。還可以通過(guò)麥克風(fēng)1514將信息輸入到設(shè)備1500中。這樣的信息可以由如本文所述的語(yǔ)音識(shí)別設(shè)備以及話音識(shí)別設(shè)備來(lái)數(shù)字化,并作為設(shè)備1500的一部分,并且可以經(jīng)由揚(yáng)聲器1516提供音頻響應(yīng)或經(jīng)由屏幕1210提供視覺響應(yīng)。實(shí)施例不限于該上下文??梢允褂糜布④浖騼烧叩慕M合實(shí)施本文所描述的各種形式的設(shè)備和過(guò)程。硬件元件的示例可以包括處理器、微處理器、電路、電路元件(例如晶體管、電阻器、電容器、電感器等)、集成電路、專用集成電路(ASIC)、可編程邏輯設(shè)備(PLD)、數(shù)字信號(hào)處理器(DSP)、現(xiàn)場(chǎng)可編程門陣列(FPGA)、邏輯門、寄存器、半導(dǎo)體器件、芯片、微芯片、芯片組等。軟件的示例可以包括軟件部件、程序、應(yīng)用、計(jì)算機(jī)程序、應(yīng)用程序、系統(tǒng)程序、機(jī)器程序、操作系統(tǒng)軟件、中間件、固件、軟件模塊、例程、子例程、函數(shù)、方法、進(jìn)程、軟件接口、應(yīng)用程序接口(API)、指令集、計(jì)算代碼、計(jì)算機(jī)代碼、代碼段、計(jì)算機(jī)代碼段、詞、值、符號(hào)或其任何組合。確定實(shí)施是否使用硬件元件和/或軟件元件實(shí)施可以根據(jù)任何數(shù)量的因素而變化,這些因數(shù)諸如期望的計(jì)算速率、功率水平、耐熱性、處理周期預(yù)算、輸入數(shù)據(jù)速率、輸出數(shù)據(jù)速率、存儲(chǔ)器資源、數(shù)據(jù)總線速度和其他設(shè)計(jì)或性能約束。至少一個(gè)實(shí)施例的一個(gè)或多個(gè)方面可以通過(guò)存儲(chǔ)在機(jī)器可讀介質(zhì)上的代表性指令實(shí)施,所述代表性指令表示處理器內(nèi)的各種邏輯,當(dāng)由機(jī)器讀取時(shí),使得機(jī)器制造邏輯以執(zhí)行本文所描述的技術(shù)。稱作“IP核”的這樣的表示可以存儲(chǔ)在有形的機(jī)器可讀介質(zhì)上,并且供應(yīng)給各種客戶或制造設(shè)施以加載到實(shí)際制作邏輯或處理器的制造機(jī)器中。雖然已經(jīng)參考各種實(shí)施方式描述了本文所闡述的某些特征,但是該描述并不旨在以限制性意義來(lái)解釋。因此,對(duì)本公開所屬領(lǐng)域的技術(shù)人員顯而易見的本文所描述的實(shí)施方式的各種修改以及其他實(shí)施被認(rèn)為處于本公開的精神和保護(hù)范圍內(nèi)。以下示例涉及進(jìn)一步的實(shí)施方式。通過(guò)一個(gè)示例,計(jì)算機(jī)實(shí)施的語(yǔ)音識(shí)別方法包括通過(guò)加權(quán)有限狀態(tài)變換器(WFST)傳播令牌,并且包括將詞序列放置到詞網(wǎng)格中,所述加權(quán)有限狀態(tài)變換器(WFST)傳播令牌具有作為WFST的輸出標(biāo)記的弧和詞或詞標(biāo)識(shí)符。該方法還包括當(dāng)在沿著具有輸出符號(hào)的弧中的一個(gè)傳播的令牌處建立詞時(shí)生成用于各個(gè)令牌的詞歷史指定,其中詞歷史指定指示詞序列,以及通過(guò)至少部分地使用詞歷史指定確定是否應(yīng)當(dāng)在WFST的狀態(tài)中組合兩個(gè)或更多個(gè)令牌以形成單個(gè)令牌。通過(guò)另一實(shí)施方式,該方法還可以包括當(dāng)令牌的詞歷史指定相同時(shí),在WFST的相同節(jié)點(diǎn)中重新組合兩個(gè)或更多個(gè)令牌,并且當(dāng)兩個(gè)或更多令牌的詞歷史指定不相同時(shí)避免重新組合,以及當(dāng)令牌正在傳播時(shí)將在具有輸出標(biāo)記的WFST的弧處建立的詞放置到詞網(wǎng)格中,以及當(dāng)多個(gè)令牌的詞歷史指定是不同的時(shí),通過(guò)將多個(gè)令牌重新組合為單個(gè)新的活動(dòng)令牌執(zhí)行詞網(wǎng)格的異常更新。這可以包括當(dāng)多個(gè)令牌的詞網(wǎng)格節(jié)點(diǎn)引用對(duì)來(lái)自多個(gè)令牌中的其他令牌的其他引用是唯一的時(shí),將多個(gè)令牌的詞網(wǎng)格節(jié)點(diǎn)引用放置到新的活動(dòng)令牌中,以及當(dāng)引用在多個(gè)令牌中的一個(gè)以上的令牌中相同時(shí),對(duì)于新的活動(dòng)令牌維持具有最佳分?jǐn)?shù)的引用。該方法進(jìn)一步可以包括將不同的值分配給將用作WFST的輸出符號(hào)的可能詞的詞匯表中的各個(gè)詞,并且使用對(duì)應(yīng)于多個(gè)詞的多個(gè)值確定詞歷史指定,以及將多個(gè)最終結(jié)束令牌組合成單個(gè)話語(yǔ)結(jié)束令牌,其中指定是通過(guò)使用遞歸散列函數(shù)形成的散列標(biāo)簽,并且其中詞歷史指定根據(jù)詞序列內(nèi)的詞的順序而不同。通過(guò)又一個(gè)實(shí)施方式,計(jì)算機(jī)實(shí)施的語(yǔ)音識(shí)別系統(tǒng)包括至少一個(gè)聲學(xué)信號(hào)接收單元、通信地連接到聲學(xué)信號(hào)接收單元的至少一個(gè)處理器、通信地耦合到至少一個(gè)處理器的至少一個(gè)存儲(chǔ)器、以及加權(quán)有限狀態(tài)變換器(WFST)解碼器,所述加權(quán)有限狀態(tài)變換器(WFST)解碼器通信地耦合到處理器,并且通過(guò)加權(quán)有限狀態(tài)變換器(WFST)傳播令牌,所述加權(quán)有限狀態(tài)變換器(WFST)具有作為WFST的輸出標(biāo)記的詞或詞標(biāo)識(shí)符。這可以包括將詞序列放置到詞網(wǎng)格中。還可以提供WFST解碼器以當(dāng)在具有輸出符號(hào)的WFST的弧處建立詞時(shí)生成用于各個(gè)令牌的詞歷史指定,其中詞歷史指定指示詞序列,并且可以提供WFST解碼器以通過(guò)至少部分地使用詞歷史指定確定是否應(yīng)當(dāng)在WFST的狀態(tài)中組合兩個(gè)或更多個(gè)令牌以形成單個(gè)令牌。通過(guò)另一示例,系統(tǒng)提供了WFST解碼器,WFST解碼器在令牌的詞歷史指定相同時(shí)在WFST的相同狀態(tài)中重新組合兩個(gè)或更多個(gè)令牌,當(dāng)兩個(gè)或更多個(gè)令牌的詞歷史指定不相同時(shí)避免重新組合,當(dāng)令牌傳播時(shí),將在具有輸出標(biāo)記的WFST的弧處建立的詞放置在詞網(wǎng)格中,當(dāng)多個(gè)令牌的詞歷史指定不同時(shí),通過(guò)將多個(gè)令牌重新組合為單個(gè)新的活動(dòng)令牌執(zhí)行詞網(wǎng)格的異常更新。該最后操作可以包括當(dāng)多個(gè)令牌的詞網(wǎng)格節(jié)點(diǎn)引用對(duì)來(lái)自多個(gè)令牌中的其他令牌的其他引用是唯一的時(shí),使WFST解碼器將多個(gè)令牌的詞網(wǎng)格節(jié)點(diǎn)引用放置到新的活動(dòng)令牌中,以及當(dāng)引用在多個(gè)令牌中的一個(gè)以上的令牌中是相同的時(shí),對(duì)于新的活動(dòng)令牌維持具有最佳分?jǐn)?shù)的引用。另外,可以提供WFST解碼器以將不同的值分配給將用作WFST的輸出符號(hào)的可能詞的詞匯表中的各個(gè)詞,并使用對(duì)應(yīng)于多個(gè)詞的多個(gè)值確定詞歷史指定,以及將多個(gè)最終結(jié)束令牌組合成單個(gè)話語(yǔ)結(jié)束令牌,其中指定是通過(guò)使用遞歸散列函數(shù)形成的散列標(biāo)簽,并且其中詞歷史指定根據(jù)詞序列內(nèi)的詞的順序而不同。通過(guò)一種方法,至少一個(gè)計(jì)算機(jī)可讀介質(zhì)包括多個(gè)指令,所述多個(gè)指令響應(yīng)于在計(jì)算設(shè)備上執(zhí)行,使計(jì)算設(shè)備通過(guò)加權(quán)有限狀態(tài)變換器(WFST)傳播令牌,并且包括將詞序列放置到詞網(wǎng)格中,所述加權(quán)有限狀態(tài)變換器(WFST)具有作為WFST的輸出標(biāo)記的詞或詞標(biāo)識(shí)符。當(dāng)在沿著具有輸出符號(hào)的弧傳播的令牌處建立詞時(shí),計(jì)算設(shè)備被計(jì)算以生成用于各個(gè)令牌的詞歷史指定,其中詞歷史指定指示詞序列,以及通過(guò)至少部分地使用詞歷史指定確定是否應(yīng)當(dāng)在WFST的狀態(tài)中組合兩個(gè)或更多個(gè)令牌以形成單個(gè)令牌。通過(guò)另一方法,指令使計(jì)算設(shè)備在令牌的詞歷史指定相同時(shí),在WFST的相同狀態(tài)中重新組合兩個(gè)或更多個(gè)令牌,并且當(dāng)兩個(gè)或更多個(gè)令牌的詞歷史指定不相同時(shí)避免重新組合,在令牌傳播時(shí)將在具有輸出標(biāo)記的WFST的弧處建立的詞放置到詞網(wǎng)格中,在多個(gè)令牌的詞歷史指定不同時(shí),通過(guò)將多個(gè)令牌重新組合為單個(gè)新的活動(dòng)令牌執(zhí)行詞網(wǎng)格的異常更新,并且包括當(dāng)多個(gè)令牌的詞網(wǎng)格節(jié)點(diǎn)引用對(duì)來(lái)自多個(gè)令牌中的其他令牌的其他引用是唯一的時(shí),將多個(gè)令牌的詞網(wǎng)格節(jié)點(diǎn)引用放置到新的活動(dòng)令牌中,以及當(dāng)引用在多個(gè)令牌中的一個(gè)以上的令牌中是相同的時(shí),對(duì)于新的活動(dòng)令牌維持具有最佳分?jǐn)?shù)的引用。還可以提供WFST以將不同的值分配給將用作WFST的輸出符號(hào)的可能詞的詞匯表中的各個(gè)詞,并使用對(duì)應(yīng)于多個(gè)詞的多個(gè)值確定詞歷史指定,以及將多個(gè)最終結(jié)束令牌組合成單個(gè)話語(yǔ)結(jié)束令牌,其中指定是通過(guò)使用遞歸散列函數(shù)形成的散列標(biāo)簽,并且其中詞歷史指定根據(jù)詞序列內(nèi)的詞的順序而不同。在另一示例中,至少一個(gè)機(jī)器可讀介質(zhì)可以包括多個(gè)指令,所述多個(gè)指令響應(yīng)于在計(jì)算設(shè)備上執(zhí)行,使計(jì)算設(shè)備執(zhí)行根據(jù)以上示例中的任何一個(gè)的方法。在又一示例中,器件可以包括用于執(zhí)行根據(jù)以上示例中任何一個(gè)的方法的裝置。以上示例可以包括特征的特定組合。然而,以上示例在這方面不受限制,并且在各種實(shí)施方式中,以上示例可以包括僅承擔(dān)這些特征的子集,承擔(dān)這些特征的不同順序,承擔(dān)這些特征的不同組合,和/或承擔(dān)除了那些明確列出的特征之外的附加特征。例如,關(guān)于本文中的任何示例方法描述的所有特征可以關(guān)于任何示例器件、示例系統(tǒng)和/或示例制品實(shí)施,并且反之亦然。當(dāng)前第1頁(yè)1 2 3