專利名稱:使用離散語言模型的語音識別方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別方法,它包括幾種語言模型的實現(xiàn)以獲得更好的識別。本發(fā)明也涉及用于實現(xiàn)這一方法的設(shè)備。
大量詞匯的語音識別依賴于隱藏的馬爾可夫(Marckov)模型,無論是聲學(xué)部分或語言部分。
因此,一個句子的識別相當(dāng)于尋找最可能的由話筒記錄的聲音數(shù)據(jù)給出的詞序。
通常Viterbi算法用于這一任務(wù)。
但是,對于實際問題,例如有幾千個詞的詞匯,甚至對bigram型簡單的語言模型,用來分析的Merkov網(wǎng)絡(luò)包含了太多的狀態(tài),使它不可能應(yīng)用Viterbi算法來完成任務(wù)。
簡化是必須的。
一種已知的簡化就是所謂的“最大有效范圍搜索”(“beam-search”)方法,它依據(jù)這樣一種簡單的思想在Viterbi運算過程中,網(wǎng)式結(jié)構(gòu)的某一狀態(tài),如果它獲得的分值低于某個門限值(網(wǎng)式結(jié)構(gòu)是這些狀態(tài)的瞬時代表,是Markov網(wǎng)絡(luò)的過渡)就被消除。這種切斷明顯地減少了為最可能的順序而進(jìn)行的搜索過程中用于比較的狀態(tài)的數(shù)目。一種方便的替換形式就是所謂的“N-最佳搜索”方法(對N個最佳解的搜索),它輸出表現(xiàn)為最高分的n個順序。
當(dāng)句子左右分析的分值處于中間值時,用在N-最佳搜索方法中的切斷有時就不適合于對最佳順序的搜索。有兩個主要問題一方面,如果使這一方法適合于n-gram型語言模型,其中關(guān)于最可能詞串的語言模型的所有信息局限于當(dāng)前分析的n個連續(xù)詞,那么它對于語法型語言模型很少有效,后者在詞組間接影響。于是,可能發(fā)生這樣的事情,即保持在該解碼的某一接合處的n最佳順序不再可能是該句子最后分析中的選擇,因為該句子的剩余部分,由于一開始的低分而無效成為該句子的候選,但問題是它與該語法所代表的語言模型比較一致。
另一方面,經(jīng)常發(fā)生的是用早先不同的語言模型開發(fā)了在模塊或幾種步驟中的應(yīng)用程序,每一模塊被分配到專門的界面設(shè)備。在n-最佳搜索方法中,這些不同的語言模型被混在了一起,并且由于這種混合,如果這種應(yīng)用的分部分表現(xiàn)出滿意的識別率,在加入新模型后,并不需要維持這些識別率,即使它的應(yīng)用的方面不同,結(jié)果是這兩種模型互相影響。
在這方面,
圖1表示基于語法的語言模型圖。黑色的圓代表決策步,黑色的圓之間的線模擬過渡,其中該語言模型把出現(xiàn)概率分配給這一過渡,白色的圓代表該詞匯的詞,根據(jù)它們可能的發(fā)音的語音學(xué)知識的構(gòu)造的Markov網(wǎng)絡(luò)與它們相關(guān)。
如果在應(yīng)用中有幾種語法有效,那么把每種語法的語言模型聯(lián)合起來,形成一個單一的網(wǎng)絡(luò),激活每個語法的最初概率常規(guī)上由語法之間相等地共用,如圖2所示,其中假設(shè)從初始節(jié)點分出來的兩個過渡具有同樣的概率。
因此,這就把我們帶回到單個語言模型的最初問題上,借助于切斷被認(rèn)為最小概率的搜索組,“最大有效長度搜索”方法可能找到表現(xiàn)為最高分的句子(或在n-最佳搜索中的n句)。
·用搜索引擎從候選的順序中確定最可能的詞順序。
根據(jù)一個特殊的實施例,在應(yīng)用語言模型其間,搜索引擎的這種確定依賴于未考慮的參數(shù)。
根據(jù)一個特殊的實施例,語言模型是基于語法的語言模型。
本發(fā)明的主題也是一種用于語音識別的設(shè)備,包括聲音處理器,用于收集聲音信號,語言學(xué)解碼器,用于確定相應(yīng)于音頻信號的詞的順序。其特征在于,語言學(xué)解碼器包括·一組離散應(yīng)用的語言模型,分析一個和相同的句子,用于確定一組候選的順序,·搜索引擎,用于從一組候選的順序中確定最可能的順序。
對每個這樣的模塊,鼓勵n-最佳搜索,而不考慮其它模塊的分值。因此,想到各別信息項的這些分析是獨立的并可平行的應(yīng)用,并用來開發(fā)多處理器結(jié)構(gòu)。
我們將討論本發(fā)明在應(yīng)用語法的語言模型中的情況,但是n種語法類型的一種語言模型也可利用本發(fā)明。
為了說明本實施例,我們考慮在廣大市場方面應(yīng)用的框架,即實現(xiàn)語言識別系統(tǒng)的電視機(jī)用戶界面。話筒位于遙控器內(nèi),而被收集的音頻數(shù)據(jù)被傳遞給電視接收機(jī),用于語音的適當(dāng)分析。接收機(jī)包括這方面的語音識別設(shè)備。
圖5是語音識別設(shè)備1示例的方塊圖,為清楚起見,語音識別需要的所有裝置都集成在設(shè)備1中,即使在設(shè)想的應(yīng)用框架內(nèi),在該鏈的起端上的某一元件被包括在在接收機(jī)的遙控器中。
這個設(shè)備包括音頻信號處理器2,執(zhí)行從話筒3由信號收集電路4收集來的音頻信號的數(shù)字化,處理器也把數(shù)字取樣信號轉(zhuǎn)換成從預(yù)先確定的字母中選擇的聲學(xué)符號。為此目的,它包括聲學(xué)一語音學(xué)的解碼器5。語言學(xué)解碼器6處理這些符號,以確定符號順序A的最可能的詞順序W。
語言學(xué)解碼器應(yīng)用聲學(xué)模型7和語言模型8,它們是由基于假設(shè)的搜索算法9來實現(xiàn)的。聲學(xué)模型,例如是一個所謂的“隱型Markov”模型(或HMM)。它被用來計算在解碼過程中考慮詞順序的聲學(xué)得分(概率)。本發(fā)明實施例中實現(xiàn)的語言模型是基于語法的模型,它由BackusNaur公式的句法規(guī)則相助來描述。語言模型用來引導(dǎo)該音頻數(shù)據(jù)訓(xùn)練的分析,并用來計算語言學(xué)分。在本實施例中,作為識別引擎的搜索算法是基于Viterbi型算法的搜索算法,并被稱為“n-最佳”。N-最佳型算法在分析的每一步確定一個句子由所收集的音頻數(shù)據(jù)給出的最可能的n個詞順序。在句子的末尾,最可能解決方案從該n個候選中選則。
上面一節(jié)提到的概念本身已為業(yè)內(nèi)人士所熟知,但是,特別與n-最佳算有關(guān)的附加信息在下面著作中給出“用于語言識別的統(tǒng)計方法”F.Jelinek,MIT press 1999 ISBV 0-262-1006605 pp.78-84。
其它算法也能實現(xiàn),特別是“最大有效長度搜索”類的其它算法,其中“n-最佳”算法是一種替代方法。
聲學(xué)-語音學(xué)解碼器和語言學(xué)解碼器可以用合適的軟件來實現(xiàn),軟件可在微處理器上執(zhí)行,微處理器可以訪問含有識別引擎算法和聲學(xué)和語言模型的存儲器。
根據(jù)本實施例,該設(shè)備實現(xiàn)幾種語言模型。設(shè)想的應(yīng)用是用于電子節(jié)目導(dǎo)視命令的聲控界面,使第一個語言模型適合于濾波建議的傳輸,其目的是應(yīng)用時間濾波器或主題濾波器于有效傳輸數(shù)據(jù)庫,而使第二語言模型適合于改變節(jié)目導(dǎo)視上下文以外的通道(“轉(zhuǎn)換頻道”)。實際上已證明,聲學(xué)上相同的句子,在兩種模型的上下文框架內(nèi)有十分不同的意義。
圖4是原理圖,表明相應(yīng)于兩種模型中的每一種樹。如在圖2和圖3中的情況一樣,黑色的圓代表決策步驟,線代表過渡,其中語言模型把出現(xiàn)概率分配給這些線,而白色的圓代表詞匯的詞,它與根據(jù)它們可能的發(fā)音的語言學(xué)知識構(gòu)建的Markov網(wǎng)絡(luò)相聯(lián)系。
把最大有效范圍搜索過程的不同情況分別應(yīng)用于每個模型,他們并不合并而是保持區(qū)別,并且處理的每種情況都提供對有關(guān)模型最可能的句子。
根據(jù)一個改變的實施例,把n-最佳型處理用于一個或多個或所有模型中。
常規(guī)上,當(dāng)完成對每一種模型的分析時,每個模型的最佳得分(或多個最佳得分與變化有關(guān))用來對一般可以理解的句子的選擇。
根據(jù)改變的實施例,一旦用每一模型進(jìn)行分析之后,從這一分析中分離出的各種候選句子用作第二次、精細(xì)的、用聲學(xué)參數(shù)的分析階段,這在以前的分析過程中未曾實現(xiàn)過。
所建議的處理要點不是形成全球語言模型,而是維持部分的語言模型。每一模型獨立地由最大有效長度搜索算法來處理,并且計算所獲得的最佳順序得分。
因此,如圖4所示,本發(fā)明依賴于一組離散的模型,每個得益于系統(tǒng)資源的部分,他們可能建議在優(yōu)先的多任務(wù)結(jié)構(gòu)中使用一個或多個處理器。
一個優(yōu)點是每種語言模型的困惑度低,并且n種語言模型出現(xiàn)的困惑度總和低于把它們合并成一個語言模型出現(xiàn)的困惑度。因此,計算機(jī)處理要求較少的計算能力。
此外,當(dāng)從各種搜索處理結(jié)果中選擇最佳句子時,原始句子的語言模型的知識已給出了關(guān)于它的場景和應(yīng)用方面的信息內(nèi)容。因此,有關(guān)的句法分析程序可用于這些方面,并因此更簡單、更有效。
在我們的發(fā)明中,一個模型表現(xiàn)出同樣的識別率,或更精確地說,提供相同的n個最佳句子組和對每一個n最佳句相同的分值,不論它是單獨的或與其它模型一起用。沒有因把這些模型合并成一個用而有性能的降低。
權(quán)利要求
1.一種語音識別方法,包括收集音學(xué)信號的步驟,聲學(xué)—語音學(xué)的解碼步驟和語言學(xué)解碼步驟,其特征在于語言學(xué)解碼步驟包括如下步驟·把一組語言模型離散應(yīng)用于聲音順序的分析,用來確定一組候選詞的順序;·用搜索引擎從候選的句子中確定最可能的詞的順序。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,搜索引擎的確定依賴于在語言模型應(yīng)用期間未考慮的參數(shù)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,語言模型是基于語法的語言模型。
4.一種語音識別設(shè)備,包括音頻處理器(2),用于收集音頻信號,語言學(xué)解碼器(6),用于確定相應(yīng)于音頻信號的詞順序,其特征在于,語言學(xué)解碼器包括·一組語言模型(8),離散應(yīng)用分析一個和相同的句子,用于確定一組候選的順序;·搜索引擎,用來從一組候選的順序中確定最可能的順序。
全文摘要
本發(fā)明的主題是一種語言識別方法,包括收集音頻信號的步驟,聲學(xué)—語言學(xué)解碼步驟和語言學(xué)解碼步驟。根據(jù)本發(fā)明、語言學(xué)解碼包括下列步驟把一組語言模型離散應(yīng)用于聲音順序的分析,用來確定一組候選詞的順序;用搜索引擎從該候選的順序確定最可能的詞的順序。本發(fā)明的主題也是一種為實現(xiàn)該方法設(shè)備。
文檔編號G10L15/18GK1402868SQ00816567
公開日2003年3月12日 申請日期2000年12月1日 優(yōu)先權(quán)日1999年12月2日
發(fā)明者努爾-埃迪·塔齊尼, 弗雷德里克·蘇夫萊 申請人:湯姆森許可貿(mào)易公司