專利名稱:利用快速語音識(shí)別搜索過程的采樣音頻內(nèi)容的處理的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及一種語音識(shí)別過程,并且更具體地涉及語音識(shí)別搜索過程。
背景技術(shù):
語音識(shí)別包括努力的已知領(lǐng)域。某些語音識(shí)別過程利用語音識(shí)別搜索處理諸如但不限于所謂的基于隱馬爾可夫模型的語音識(shí)別過程。這通常包括統(tǒng)計(jì)模型的使用,該統(tǒng)計(jì)模型輸出符號(hào)或數(shù)量的序列,其中語音實(shí)質(zhì)上被視為關(guān)于統(tǒng)稱為狀態(tài)的隨機(jī)過程的馬爾可夫模型。示
例性隱馬爾可夫模型可能輸出,例如,39-維實(shí)值向量的序列,大約每IO毫秒輸出這些向量中的一個(gè)。
這樣的向量可能包括,例如,通過采取采樣語音的短時(shí)窗的傅立葉變換和使用余弦變換對(duì)頻譜進(jìn)行解相關(guān)而獲得的倒譜系數(shù),然后為這些目的而取第一 (最重要的)系數(shù)。對(duì)于每個(gè)狀態(tài),隱馬爾可夫模型方法傾向于具有被稱為對(duì)角線或充分協(xié)方差高斯混合的統(tǒng)計(jì)分布,該統(tǒng)計(jì)分布將表征每個(gè)被觀察的向量的相應(yīng)似然性。
在許多現(xiàn)有技術(shù)方法中,常規(guī)的語音識(shí)別搜索需要在單詞、子詞和上述的狀態(tài)之間的邊界應(yīng)當(dāng)在一定規(guī)則基礎(chǔ)上(通常采樣音頻內(nèi)容的每一幀)被搜索。盡管實(shí)際上是最佳和最有力的方法,但是這種逐幀方法來搜索單詞、子詞和狀態(tài)邊界也需要相當(dāng)大的計(jì)算資源。這只需要增加所支持詞匯的深度和豐富度。結(jié)果,使用語音識(shí)別搜索過程的語音識(shí)別過程可能需要龐大的計(jì)算資源。
例如,考慮其中每個(gè)幀僅表示大約IO毫秒的音頻內(nèi)容的應(yīng)用裝置。對(duì)于支持識(shí)別例如50,000單詞的語音識(shí)別過程,然后必須針對(duì)每個(gè)這樣的幀搜索并比較與這50,000單詞的每個(gè)相對(duì)應(yīng)的識(shí)別數(shù)據(jù)。單獨(dú)這個(gè)就需要相當(dāng)大的計(jì)算量。這些需求只有當(dāng)考慮這樣的過程也需要針對(duì)帶有每個(gè)這樣的幀的子詞進(jìn)行相應(yīng)的搜索時(shí)才漸漸變得更嚴(yán)重。
結(jié)果,這樣的方法,雖然常常成功的執(zhí)行最佳的語音識(shí)別,但是也常常計(jì)算上太過于貧乏而不能在這樣的計(jì)算開銷完全不可用的應(yīng)用裝置中工作好。例如,諸如蜂窩電話等的小型便攜式無線通信設(shè)備代表這樣的應(yīng)用裝置??捎玫挠?jì)算能力以及相應(yīng)的功率容量限制都可能嚴(yán)重限制這樣的方法的實(shí)際使用。
特別當(dāng)結(jié)合附圖研究時(shí),通過提供涉及使用下面詳述中描述的語音識(shí)別搜索過程的采樣音頻內(nèi)容處理的方法和裝置至少部分地滿足了以上需要,在附圖中-
圖1包括如依照本發(fā)明的各種實(shí)施例配置的流程圖;圖2包括如依照本發(fā)明的各種實(shí)施例配置的流程圖;圖3包括如依照本發(fā)明的各種實(shí)施例配置的示意狀態(tài)表示圖;以
及
圖4包括如依照本發(fā)明的各種實(shí)施例配置的框圖。
本領(lǐng)域的技術(shù)人員將理解,圖中的元素出于簡單和清楚的目的而被圖示并且不一定按比例繪制。例如,圖中一些元素的尺寸和/或相對(duì)位置相對(duì)于其它要素可能被放大以幫助提髙對(duì)本發(fā)明的各種實(shí)施例的理解。而且,為了使本發(fā)明的這些不同實(shí)施例便于更順利地査看,常常并不圖示在商業(yè)上可行的實(shí)施例中有用或必需的常見但公知的元素。將進(jìn)一步理解,某些動(dòng)作和/或步驟可以以發(fā)生的特定順序來描述或圖示,而本領(lǐng)域的技術(shù)人員將理解關(guān)于序列這樣的特異性實(shí)際上并不是必需的。還將理解,除了在這里另外闡述特定含義之外,在這里使用的術(shù)語和表達(dá)具有與這樣的術(shù)語和表達(dá)關(guān)于它們查詢和研究的相應(yīng)的各自領(lǐng)域相一致的通常含義。
具體實(shí)施例方式
一般說來,按照這些不同實(shí)施例, 一個(gè)實(shí)施例提供了采樣音頻內(nèi)容的多個(gè)幀,并且然后使用語音識(shí)別搜索過程來處理所述多個(gè)幀,語音識(shí)別搜索過程包括至少部分地確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界。這與現(xiàn)有實(shí)踐對(duì)比鮮明,當(dāng)然,因?yàn)楝F(xiàn)有技術(shù)通常需要系統(tǒng)地搜索針對(duì)子詞邊界的每個(gè)幀,而沒有考慮實(shí)際上是
否應(yīng)當(dāng)進(jìn)行這樣的搜索。這些教導(dǎo)還將容易地提供(accommodate)確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)單詞邊界。
這些教導(dǎo)很容易結(jié)合針對(duì)每個(gè)這樣的幀的子詞隱馬爾可夫模型狀態(tài)信息的使用來應(yīng)用。通過一個(gè)方法,該過程可以包括在逐幀基礎(chǔ)上提供針對(duì)潛在的子詞隱馬爾可夫模型的每個(gè)狀態(tài)的似然值并且選擇這些值中的最大值。接著,可以作為帶有結(jié)果值的預(yù)定波束寬度值的函數(shù)來處理該最大值,然后,將結(jié)果值和與該潛在的子詞隱馬爾可夫模型的退出狀態(tài)相對(duì)應(yīng)的似然值相比較。接下來我們可以至少部分地作為該比較結(jié)果的函數(shù)來確定是否搜索包含在特定幀里的每個(gè)子詞邊界(或,如果需要,每個(gè)單詞邊界)。
如此配置,當(dāng)使用這樣的語音識(shí)別搜索過程而同時(shí)避免大量的計(jì)算行為時(shí),這些教導(dǎo)如我們通常所期待地允許相對(duì)精確和高質(zhì)量的語音識(shí)別處理。特別地,在很多情況下按照以上教導(dǎo)處理的給定幀看起來將不太可能事實(shí)上包含所感興趣的邊界,在這種情況下,這樣的幀在這點(diǎn)上可以簡單跳過。也就是說,語音識(shí)別搜索過程可以簡單跳過這樣的幀并且不搜索如包含在該幀中的每個(gè)子詞邊界(和/或單詞邊界)。這進(jìn)而允許僅僅具有適度的容量和/或能力的給定處理平臺(tái)仍常常成功地執(zhí)行具有成功結(jié)果的語音識(shí)別搜索過程。
在對(duì)下面的詳細(xì)描述進(jìn)行透徹回顧和研究之后,這些和其它益處可以變得更清楚?,F(xiàn)在參考附圖,并且特別參考圖1,與這些教導(dǎo)相一
致的示例性方法100首先提供101采樣音頻內(nèi)容的多個(gè)幀,并且然后提供用于使用語音識(shí)別搜索過程處理102那些幀,該語音識(shí)別搜索過程至少部分地包括確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界。有各種已知的過程,通過這些過程可以捕獲和提供這樣的幀,并且在這點(diǎn)上其他過程在未來有可能被開發(fā)。因?yàn)檫@些教導(dǎo)在這點(diǎn)上對(duì)于任何特定方法的選擇不是過度敏感,為簡潔和保持?jǐn)⑹鲋攸c(diǎn)起見,將不提供關(guān)于這樣的幀的提供的進(jìn)一步細(xì)節(jié),在這里保存以注意這樣的幀通常只對(duì)應(yīng)于相對(duì)短的時(shí)間段,諸如但不限于IO毫秒。
上面提到的語音識(shí)別搜索過程可以包括諸如可以適合于滿足給定的應(yīng)用裝置的需要的過程。為了提供說明性示例并且通過限制的方式的目的,這里將假定該語音識(shí)別搜索過程包括基于隱馬爾可夫模型的語音識(shí)別過程。因此,所描述的確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界的步驟將包括至少部分地作為每個(gè)幀的隱馬爾可夫模型狀態(tài)信息的函數(shù)來確定是否在逐幀基礎(chǔ)上搜索每個(gè)子詞邊界。這樣的隱馬爾可夫模型狀態(tài)信息可以包括,例如,每個(gè)幀的潛在的隱馬爾可夫模型的多個(gè)狀態(tài)中的每個(gè)狀態(tài)的似然信息。
這里存在可以滿足這樣的步驟的各種方法。如在這點(diǎn)上只是一個(gè)說明性示例而不是通過限制的方式,圖2表示過程200,過程200提供用于提供201潛在隱馬爾科夫模型的多個(gè)狀態(tài)中的每個(gè)狀態(tài)的似然值,并且然后選擇202狀態(tài)似然值的最大值以提供合成的選擇的似然值。然后,作為預(yù)定波束寬度值的函數(shù)來處理203該選擇的似然值(例如,通過從所選擇的似然值減去預(yù)定波束寬度值)以提供己處理的似然值,然后將己處理的似然值和與該潛在隱馬爾可夫模型的特定狀態(tài)(諸如退出狀態(tài))相對(duì)應(yīng)的似然值相比較204,從而提供合成比較結(jié)果。然后,過程200提供用于至少部分地作為該比較結(jié)果的函數(shù)來確定205是否搜索包含在該幀中的每個(gè)子詞邊界?,F(xiàn)在參考圖3,現(xiàn)在將提供一些具體的說明性示例。在該示例中,如對(duì)應(yīng)于采樣音頻內(nèi)容的給定的這樣的幀,在時(shí)間T有三個(gè)可能的狀態(tài)300。這三個(gè)可能的狀態(tài)這里被表示為開始狀態(tài)C 301、退出狀態(tài)A303和中間狀態(tài)B 302。每個(gè)這樣的狀態(tài)300具有相應(yīng)的似然值(例如,狀態(tài)A 303具有似然值X,而狀態(tài)C301具有似然值Z)。存在各種已知方法來確定這樣的似然值;因此,在這點(diǎn)上在這里將不提供另外的細(xì)節(jié)。為了這些示例的目的,將假定預(yù)定的波束寬度3。如可能表征給定應(yīng)用裝置,當(dāng)然可以采用其它值以適合各種需要和/或機(jī)會(huì)。
示例1
在該示例中,狀態(tài)A 303值為1,狀態(tài)B 302值為2,并且狀態(tài)C301值為6。依照這些教導(dǎo),選擇了最大狀態(tài)值(在該示例中,它是6),并且然后,從中減去預(yù)定的波束寬度值。在這種情況下,這將包括從6減去3,留下3作為已處理的似然值。然后,將該已處理的似然值與潛在的狀態(tài)300中的特定一個(gè)相比較;在這種情況下,在該示例中,退出狀態(tài)A 303值為1。在該示例中,該比較包括確定特定潛在狀態(tài)的值是否小于已處理的似然值。在該示例中,然后,查詢變成確定1小于3。當(dāng)然,后者實(shí)際上表示真命題。因此,針對(duì)這個(gè)幀很可能可以得出結(jié)論子詞轉(zhuǎn)換不太可能發(fā)生,并且可以合理地跳過針對(duì)該幀的子詞邊界的搜索。如果單詞邊界發(fā)生在該子詞邊界處,則隨后可以跳過單詞邊界的搜索。這進(jìn)而將導(dǎo)致大大減少計(jì)算需求。
示例2
在該示例中,三個(gè)狀態(tài)300中的每個(gè)值為4。因此,最大似然值是4并且減去預(yù)定波束寬度值3以產(chǎn)生已處理的似然值l。因此,在該示例中的比較表明,退出狀態(tài)A 303的似然值(在該示例中,值為4)大于已處理的似然值l。因此,可以得出合理的結(jié)論子詞轉(zhuǎn)換實(shí)際上可能發(fā)生。這進(jìn)而導(dǎo)致確定搜索包含在該特定幀中的每個(gè)子詞邊界。如果單詞邊界發(fā)生在該子詞邊界,則隨后可以進(jìn)行單詞邊界的搜索。本領(lǐng)域技術(shù)人員將認(rèn)識(shí)并理解,這些教導(dǎo)因此提供了一種高效、簡單的方法以關(guān)于給定幀是否值得在為了評(píng)估感興趣的子詞邊界的包括方面消耗計(jì)算資源作出合理的確定。支持這樣的決策過程的開銷計(jì)算需求相對(duì)適度并且通過這些過程的使用和實(shí)施來實(shí)現(xiàn)的可觀的節(jié)余更重要。
這些相同的教導(dǎo)也可以結(jié)合確定是否在逐幀基礎(chǔ)上(代替或結(jié)合諸如針對(duì)子詞邊界所描述的確定)搜索在每個(gè)幀中的每個(gè)單詞邊界(如相對(duì)于每個(gè)子詞邊界)而應(yīng)用。
本領(lǐng)域技術(shù)人員將理解,使用任何各種各樣的可用和/或容易配置的平臺(tái)很容易實(shí)現(xiàn)上述過程,包括如本領(lǐng)域已知的部分或完全可編程的平臺(tái)或如可以期望用于某些應(yīng)用的專用平臺(tái)?,F(xiàn)在參考圖4,現(xiàn)在將提供這樣的平臺(tái)的說明性方法。
在該示例中,實(shí)現(xiàn)裝置400包括可操作的耦合到處理器402的輸入401。輸入401可以被配置和布置成提供采樣音頻內(nèi)容的多個(gè)幀。再次,存在本領(lǐng)域技術(shù)人員將容易地知道并且可用的可以完成這個(gè)任務(wù)的各種已知途徑。處理器402進(jìn)而可以包括專用或者部分或完全可編程的平臺(tái),該平臺(tái)被配置和布置成(經(jīng)由,例如,相應(yīng)的編程)實(shí)現(xiàn)在此已闡述的選擇的教導(dǎo)。特別地,該處理器402可以被配置和布置成使用音頻識(shí)別搜索過程來處理輸入的多個(gè)幀,該音頻識(shí)別搜索過程至少部分地包含前述關(guān)于是否在逐幀基礎(chǔ)上搜索包含在多個(gè)幀的每個(gè)幀中每個(gè)子詞邊界的確定。
語音識(shí)別搜索過程可以包括處理器402的整體部分,或者,如果需要,可以包括例如存儲(chǔ)在可用存儲(chǔ)器等上的軟件程序403。在任何情況下,如上所述,如果需要,該語音識(shí)別搜索過程都可以容易地包括基于隱馬爾可夫模型的語音識(shí)別過程。本領(lǐng)域技術(shù)人員將認(rèn)識(shí)并理解,這樣的裝置400可以包括由圖4所示的圖示建議的多個(gè)物理上不同的元件。然而,也可以查看包括邏輯視圖的該圖示,其中一個(gè)或多個(gè)這些元件可以經(jīng)由共享平臺(tái)被啟用和實(shí)現(xiàn)。還將理解,這樣的共享平臺(tái)可以包括如本領(lǐng)域已知的完整或至少部分可編程的平臺(tái)。
如此配置,僅具有適度的處理能力的實(shí)現(xiàn)平臺(tái)(諸如蜂窩電話等)仍可以通過做出這些關(guān)于是否測試和采樣音頻內(nèi)容的哪個(gè)幀測試子詞和/或單詞邊界的這些選擇性確定來進(jìn)行強(qiáng)大的語音識(shí)別搜索過程的高度杠桿使用。描述的方法相對(duì)容易實(shí)現(xiàn)并且用以通常已經(jīng)可用的高度杠桿信息(例如,每個(gè)幀的各種可能狀態(tài)的似然值)。這些教導(dǎo)也容易縮放以滿足與給定應(yīng)用裝置相對(duì)應(yīng)的需要和/或機(jī)會(huì)。例如,這些教導(dǎo)可以很容易應(yīng)用于與提供超過三個(gè)可能狀態(tài)的語音識(shí)別搜索過程配套的使用中。
本領(lǐng)域熟練技術(shù)人員將認(rèn)識(shí)到,在不背離被發(fā)明的精神和范圍的情況下,可以對(duì)上述實(shí)施例做出各種修改、變化以及組合,并且這樣的修改、替代和組合應(yīng)當(dāng)被視為處于發(fā)明概念的范圍內(nèi)。
權(quán)利要求
1.一種方法,包括提供采樣音頻內(nèi)容的多個(gè)幀;使用語音識(shí)別搜索過程來處理所述多個(gè)幀,所述語音識(shí)別搜索過程至少部分地包括確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界。
2. 根據(jù)權(quán)利要求l所述的方法,其中,使用語音識(shí)別搜索過程包 括使用基于隱馬爾可夫模型的語音識(shí)別過程。
3. 根據(jù)權(quán)利要求2所述的方法,其中,確定是否在逐幀基礎(chǔ)上搜 索包含在每個(gè)幀中的每個(gè)子詞邊界包括至少部分地作為針對(duì)每個(gè)幀的隱馬爾可夫模型狀態(tài)信息的函數(shù),確定是否在逐幀基礎(chǔ)上搜索包含 在每個(gè)幀中的每個(gè)子詞邊界。
4. 根據(jù)權(quán)利要求3所述的方法,其中,所述隱馬爾可夫模型狀態(tài) 信息包括針對(duì)每個(gè)幀的潛在隱馬爾可夫模型的多個(gè)狀態(tài)中的每個(gè)狀態(tài) 的似然信息。
5. 根據(jù)權(quán)利要求4所述的方法,其中,至少部分地作為針對(duì)每個(gè)幀的隱馬爾可夫模型狀態(tài)信息的函數(shù)來確定是否在逐幀基礎(chǔ)上搜索包 含在每個(gè)幀中的每個(gè)子詞邊界包括至少部分地并且針對(duì)每個(gè)幀針對(duì)潛在隱馬爾可夫模型的多個(gè)狀態(tài)中的每個(gè)狀態(tài)提供似然值; 選擇所述似然值中的最大似然值,以提供選擇的似然值; 作為預(yù)定波束寬度值的函數(shù)來處理所選擇的似然值,以提供已處 理的似然值;將已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態(tài)相對(duì) 應(yīng)的似然值相比較,以提供比較結(jié)果;至少部分地作為所述比較結(jié)果的函數(shù),確定是否搜索包含在該幀中的每個(gè)子詞邊界。
6. 根據(jù)權(quán)利要求5所述的方法,其中,作為預(yù)定波束寬度值的函數(shù)來處理所選擇的似然值以提供已處理的似然值包括從所選擇的似 然值減去所述預(yù)定波束寬度值以提供所述已處理的似然值。
7. 根據(jù)權(quán)利要求l所述的方法,其中,使用語音識(shí)別搜索過程來 處理所述多個(gè)幀進(jìn)一步至少部分地包括基于是否已經(jīng)搜索了包括給 定單詞的最后的子詞的相應(yīng)子詞邊界的知識(shí),確定是否在逐幀基礎(chǔ)上 搜索包含在每個(gè)幀中的每個(gè)單詞邊界。
8. —種裝置,包括輸入,所述輸入被配置和布置成接收采樣音頻內(nèi)容的多個(gè)幀; 處理器裝置,所述處理器裝置可操作地耦合到所述輸入,用于使 用語音識(shí)別搜索過程來處理所述多個(gè)幀,所述語音識(shí)別搜索過程至少 部分地包括確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊 界。
9. 根據(jù)權(quán)利要求8所述的裝置,其中,所述處理器裝置通過使用基于隱馬爾可夫模型的語音識(shí)別過程來使用語音識(shí)別搜索過程。
10. 根據(jù)權(quán)利要求9所述的裝置,其中,通過至少部分地作為針 對(duì)每個(gè)幀的隱馬爾可夫模型狀態(tài)信息的函數(shù)來確定是否在逐幀基礎(chǔ)上 搜索包含在每個(gè)幀中的每個(gè)子詞邊界,所述處理器裝置確定是否在逐 幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界。
11. 根據(jù)權(quán)利要求IO所述的裝置,其中,所述隱馬爾可夫模型狀 態(tài)信息包括針對(duì)每個(gè)幀的潛在隱馬爾可夫模型的多個(gè)狀態(tài)中的每個(gè)狀 態(tài)的似然信息。
12. 根據(jù)權(quán)利要求ll所述的裝置,其中,所述處理器裝置通過至 少部分地并且針對(duì)每個(gè)幀的以下操作至少部分地作為針對(duì)每個(gè)幀的隱 馬爾可夫模型狀態(tài)信息的函數(shù)來確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界針對(duì)潛在隱馬爾可夫模型的多個(gè)狀態(tài)中的每個(gè)狀態(tài)提供似然值; 選擇所述似然值中的最大似然值,以提供選擇的似然值; 作為預(yù)定波束寬度值的函數(shù)來處理所選擇的似然值,以提供已處 理的似然值;將所述已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態(tài) 相對(duì)應(yīng)的似然值相比較,以提供比較結(jié)果;至少部分地作為所述比較結(jié)果的函數(shù),確定是否搜索包含在該幀 中的每個(gè)子詞邊界。
13. 根據(jù)權(quán)利要求12所述的裝置,其中,作為預(yù)定波束寬度值的 函數(shù)來處理所選擇的似然值以提供已處理的似然值包括從所選擇的 似然值減去所述預(yù)定波束寬度值以提供所述已處理的似然值。
14. 一種裝置,包括輸入,所述輸入被配置和布置成提供采樣音頻內(nèi)容的多個(gè)幀; 處理器,所述處理器可操作地耦合到所述輸入并且被配置和布置 成使用語音識(shí)別搜索過程來處理所述多個(gè)幀,所述語音識(shí)別搜索過程 至少部分地包括確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子 詞邊界。
15. 根據(jù)權(quán)利要求14所述的裝置,其中,所述處理器進(jìn)一步被配 置和布置成通過使用基于隱馬爾可夫模型的語音識(shí)別過程來使用語 音識(shí)別搜索過程。
16. 根據(jù)權(quán)利要求15所述的裝置,其中,所述處理器進(jìn)一步被配 置和布置成通過至少部分地作為針對(duì)每個(gè)幀的隱馬爾可夫模型狀態(tài)信息的函數(shù)來確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞 邊界,確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界。
17. 根據(jù)權(quán)利要求16所述的裝置,其中,所述隱馬爾可夫模型狀 態(tài)信息包括針對(duì)每個(gè)幀的潛在隱馬爾可夫模型的多個(gè)狀態(tài)中的每個(gè)狀 態(tài)的似然信息。
18. 根據(jù)權(quán)利要求17所述的裝置,其中,所述處理器進(jìn)一步被配 置和布置成通過至少部分地并且針對(duì)每個(gè)幀的以下操作至少部分地 作為針對(duì)每個(gè)幀的隱馬爾可夫模型狀態(tài)信息的函數(shù)來確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界針對(duì)潛在隱馬爾可夫模型的多個(gè)狀態(tài)中的每個(gè)狀態(tài)提供似然值; 選擇所述似然值中的最大似然值,以提供選擇的似然值; 作為預(yù)定波束寬度值的函數(shù)來處理所選擇的似然值,以提供已處 理的似然值;將所述已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態(tài) 相對(duì)應(yīng)的似然值相比較,以提供比較結(jié)果;至少部分地作為所述比較結(jié)果的函數(shù),確定是否搜索包含在該幀 中的每個(gè)子詞邊界。
19. 根據(jù)權(quán)利要求18所述的裝置,其中,作為預(yù)定波束寬度值的 函數(shù)來處理所選擇的似然值以提供已處理的似然值包括從所選擇的 似然值減去所述預(yù)定波束寬度值以提供所述已處理的似然值。
20. 根據(jù)權(quán)利要求14所述的裝置,其中,所述處理器進(jìn)一步被配 置和布置成基于是否已經(jīng)搜索了包括給定單詞的最后的子詞的相應(yīng) 子詞邊界的知識(shí),至少部分地通過確定是否在逐幀基礎(chǔ)上搜索包含在 每個(gè)幀中的每個(gè)單詞邊界,使用語音識(shí)別搜索過程來處理所述多個(gè)幀。
全文摘要
本發(fā)明提供(101)了采樣音頻內(nèi)容的多個(gè)幀,并且然后使用語音識(shí)別搜索過程來處理(102)所述多個(gè)幀,所述語音識(shí)別搜索過程至少部分地包括確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)子詞邊界。這些教導(dǎo)也將很容易提供確定是否在逐幀基礎(chǔ)上搜索包含在每個(gè)幀中的每個(gè)單詞邊界。
文檔編號(hào)G10L15/00GK101595522SQ200780048579
公開日2009年12月2日 申請(qǐng)日期2007年11月5日 優(yōu)先權(quán)日2006年12月29日
發(fā)明者程燕鳴 申請(qǐng)人:摩托羅拉公司