專利名稱:語(yǔ)音識(shí)別裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音識(shí)別方法,其利用HMM(隱馬爾可夫模型)對(duì)聲音特征進(jìn)行建模,并且將其與語(yǔ)音特征矢量序列進(jìn)行對(duì)照。
背景技術(shù):
作為一種現(xiàn)有技術(shù)中的語(yǔ)音識(shí)別方法,廣泛地使用一種如Yukinori Takubo等人在2004年的文章“Science of languages 2”(Voice,Iwanami Shoten)(非專利文件1)中所描述的方法,其利用HMM對(duì)聲音特征進(jìn)行建模,并且將其與語(yǔ)音特征矢量序列進(jìn)行比較,所述語(yǔ)音特征矢量序列表示具有特定時(shí)間寬度的每個(gè)幀的語(yǔ)音特征。在該語(yǔ)音識(shí)別方法中,通過(guò)待識(shí)別的多種類型中的每一類型的HMM對(duì)聲音特征進(jìn)行建模,并且將其與語(yǔ)音特征矢量序列進(jìn)行對(duì)照以找到語(yǔ)音特征矢量序列的具有最高輸出概率的HMM,并且將分配給該HMM的類型作為識(shí)別結(jié)果輸出。
作為一種現(xiàn)有的有效地減少輸出概率的計(jì)算次數(shù)的方法,存在一種基于束搜索(beam search)的方法(例如,Masaki Ida,SeiichiNakagawa(1996),“Comparison between a beam search method and A*searching method in voice recognition”,The institute of Electronics,Information and Communication Engineers,Technical Report of“Voice”SP96-12)(非專利文件2),以及一種基于基準(zhǔn)幀的方法(例如,日本專利No.3251480)(專利文件1)。
然而,輸出概率的計(jì)算次數(shù)不能僅僅通過(guò)簡(jiǎn)單地組合基于束搜索來(lái)減少輸出概率的計(jì)算次數(shù)的方法以及基于基準(zhǔn)幀來(lái)減少輸出概率的計(jì)算次數(shù)的方法來(lái)有效地減少輸出概率的計(jì)算次數(shù)。
發(fā)明內(nèi)容
考慮到這一問(wèn)題,本發(fā)明的一個(gè)目的是提供一種語(yǔ)音識(shí)別裝置,其中,通過(guò)組合基于束搜索的方法以及基于基準(zhǔn)幀的方法,能夠有效地減少輸出概率的計(jì)算次數(shù),而不會(huì)對(duì)語(yǔ)音識(shí)別性能帶來(lái)不利影響。
根據(jù)本發(fā)明的實(shí)施例,提供了一種使用HMM(隱馬爾可夫模型)從所提供的語(yǔ)音信號(hào)中識(shí)別語(yǔ)音的裝置,包括聲音處理單元,用于從語(yǔ)音信號(hào)獲取具有恒定時(shí)間寬度的每個(gè)幀的語(yǔ)音特征矢量;基準(zhǔn)幀存儲(chǔ)單元,用于確定各個(gè)幀中之一作為基準(zhǔn)幀,并且存儲(chǔ)基準(zhǔn)幀的幀編號(hào);基準(zhǔn)幀更新單元,用于當(dāng)從基準(zhǔn)幀起已經(jīng)經(jīng)過(guò)了任意數(shù)量的幀時(shí),將基準(zhǔn)幀重置并且更新為基準(zhǔn)幀之后的所述任意數(shù)量的幀之后的幀,并且繼續(xù)更新直到序列中的最后一幀;第一搜索范圍選擇單元,用于根據(jù)對(duì)于基準(zhǔn)幀的束搜索來(lái)選擇HMM的第一搜索范圍;第一輸出概率計(jì)算單元,用于計(jì)算在第一搜索范圍內(nèi)的各個(gè)轉(zhuǎn)移路徑中的語(yǔ)音特征矢量的第一輸出概率;第一輸出概率存儲(chǔ)單元,用于與各個(gè)轉(zhuǎn)移路徑相結(jié)合地存儲(chǔ)第一輸出概率的計(jì)算結(jié)果;第一輸出概率刪除單元,用于當(dāng)基準(zhǔn)幀被更新時(shí),刪除與轉(zhuǎn)移路徑相結(jié)合而存儲(chǔ)的所有的第一輸出概率的計(jì)算結(jié)果;第二搜索范圍選擇單元,用于當(dāng)基準(zhǔn)幀未被更新時(shí),根據(jù)對(duì)于從基準(zhǔn)幀到將更新的新的基準(zhǔn)幀的時(shí)間間隔之內(nèi)的各個(gè)幀的束搜索,選擇各個(gè)幀中的HMM的第二搜索范圍;確定單元,用于確定在當(dāng)前幀的第二搜索范圍內(nèi)的各個(gè)轉(zhuǎn)移路徑中的第一輸出概率、或者與基準(zhǔn)幀和當(dāng)前幀之間存在的已經(jīng)過(guò)的幀有關(guān)的第二輸出概率是否與轉(zhuǎn)移路徑相結(jié)合;近似值設(shè)置單元,用于當(dāng)存儲(chǔ)了與基準(zhǔn)幀和當(dāng)前幀之間的已經(jīng)過(guò)的幀有關(guān)的第一輸出概率的計(jì)算結(jié)果或第二輸出概率的計(jì)算結(jié)果時(shí),將與基準(zhǔn)幀和當(dāng)前幀之間的已經(jīng)經(jīng)過(guò)的幀有關(guān)的第一輸出概率的計(jì)算結(jié)果或第二輸出概率的計(jì)算結(jié)果設(shè)置為轉(zhuǎn)移路徑的第二輸出概率的近似值;第二輸出概率計(jì)算單元,用于當(dāng)未存儲(chǔ)第一輸出概率的計(jì)算結(jié)果以及從基準(zhǔn)幀到當(dāng)前幀之前緊挨著的幀的時(shí)間間隔中的第二輸出概率的計(jì)算結(jié)果時(shí),計(jì)算轉(zhuǎn)移路徑的當(dāng)前幀或轉(zhuǎn)移路徑的基準(zhǔn)幀中的語(yǔ)音特征矢量的第二輸出概率;第二輸出概率存儲(chǔ)單元,用于與轉(zhuǎn)移路徑相結(jié)合地存儲(chǔ)第二輸出概率的計(jì)算結(jié)果;第二輸出概率刪除單元,用于當(dāng)基準(zhǔn)幀被更新時(shí),刪除與轉(zhuǎn)移路徑相結(jié)合而存儲(chǔ)的所有第二輸出概率的計(jì)算結(jié)果;前向概率計(jì)算單元,用于根據(jù)預(yù)先計(jì)算的前一幀的前向概率、當(dāng)前幀的所有近似值以及所有第二輸出概率來(lái)計(jì)算當(dāng)前幀的前向概率;以及語(yǔ)音識(shí)別單元,用于計(jì)算各個(gè)HMM的前向概率直到最后一幀,然后提供分配給對(duì)于最后一幀提供最大前向概率的HMM的類型作為語(yǔ)音識(shí)別的結(jié)果。
根據(jù)本發(fā)明的實(shí)施例,通過(guò)同時(shí)使用基于束搜索的方法和基于基準(zhǔn)幀的方法,可以在不對(duì)語(yǔ)音識(shí)別性能產(chǎn)生不利影響的情況下,有效地減少輸出概率的計(jì)算次數(shù)。
圖1是優(yōu)選用于現(xiàn)有技術(shù)的語(yǔ)音識(shí)別裝置1的框圖; 圖2說(shuō)明HMM的例子1; 圖3說(shuō)明HMM的例子2; 圖4是語(yǔ)音識(shí)別裝置1的流程圖; 圖5是語(yǔ)音識(shí)別裝置1的流程圖; 圖6是說(shuō)明在語(yǔ)音識(shí)別裝置1中的前向概率計(jì)算的示意圖; 圖7是優(yōu)選用于現(xiàn)有技術(shù)的語(yǔ)音識(shí)別裝置2的框圖; 圖8是在語(yǔ)音識(shí)別裝置2中的前向概率計(jì)算的示意圖; 圖9是優(yōu)選用于現(xiàn)有技術(shù)的語(yǔ)音識(shí)別裝置3的框圖; 圖10是說(shuō)明在語(yǔ)音識(shí)別裝置3中的前向概率計(jì)算的示意圖; 圖11是說(shuō)明前向概率計(jì)算的示意圖,用于說(shuō)明現(xiàn)有技術(shù)中的問(wèn)題; 圖12是說(shuō)明前向概率計(jì)算的示意圖,用于說(shuō)明現(xiàn)有技術(shù)中的問(wèn)題; 圖13是說(shuō)明前向概率計(jì)算的示意圖,用于說(shuō)明根據(jù)本發(fā)明的示例的解決方法; 圖14是根據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音識(shí)別裝置的框圖; 圖15是第一實(shí)施例的流程圖; 圖16是第一實(shí)施例的流程圖; 圖17是根據(jù)本發(fā)明的實(shí)施例的HMM的示例; 圖18是HMM的示例; 圖19是根據(jù)本發(fā)明第二實(shí)施例的語(yǔ)音識(shí)別裝置的框圖; 圖20是第二實(shí)施例的流程圖; 圖21是第二實(shí)施例的流程圖; 圖22是第二實(shí)施例的流程圖; 圖23是根據(jù)本發(fā)明第三實(shí)施例的語(yǔ)音識(shí)別裝置的框圖; 圖24是第三實(shí)施例的流程圖;以及 圖25是第三實(shí)施例的流程圖。
具體實(shí)施例方式 在描述本發(fā)明的實(shí)施例之前,將描述理解本發(fā)明的實(shí)施例所需的現(xiàn)有技術(shù)。
現(xiàn)有技術(shù) 參考圖1到圖13,將描述現(xiàn)有技術(shù)。
(1)語(yǔ)音識(shí)別裝置的結(jié)構(gòu) 圖1是顯示現(xiàn)有技術(shù)中的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的示例的框圖。
圖1中的語(yǔ)音識(shí)別裝置包括聲音處理單元001、語(yǔ)音區(qū)間檢測(cè)單元002、詞典單元003以及對(duì)照單元004。
(1-1)聲音處理單元001 聲音處理單元001根據(jù)輸入語(yǔ)音信號(hào)為具有特定時(shí)間寬度的每個(gè)幀生成語(yǔ)音特征矢量的時(shí)間序列X=(x(1)、x(2)、...x(T))。符號(hào)x(t)表示幀t中的語(yǔ)音特征矢量,其中,1=<t=<T,t=1對(duì)應(yīng)于由語(yǔ)音區(qū)間檢測(cè)單元002檢測(cè)到的語(yǔ)音的開(kāi)始,隨后描述,并且t=T對(duì)應(yīng)于語(yǔ)音的結(jié)束。語(yǔ)音特征矢量x(t)是具有比一維更高的要素的矢量,并且表示幀t中的語(yǔ)音的特征。術(shù)語(yǔ)“幀t”意味著編號(hào)為“t”的幀。
(1-2)語(yǔ)音區(qū)間檢測(cè)單元002 語(yǔ)音區(qū)間檢測(cè)單元002根據(jù)輸入語(yǔ)音信號(hào)檢測(cè)語(yǔ)音區(qū)間(語(yǔ)音的開(kāi)始和結(jié)束)。
(1-3)詞典單元003 詞典單元003存儲(chǔ)多個(gè)分配給不同種類的HMM。通過(guò)以下方式定義HMM一個(gè)或多個(gè)狀態(tài)Si(i=1、2、...、NS),一組起始狀態(tài)SS以及一組最終狀態(tài)SF,從某一狀態(tài)Sj到某一狀態(tài)Si的轉(zhuǎn)移概率Aji,概率密度的函數(shù)Bj(),用于給出在從某個(gè)狀態(tài)Sj到某個(gè)狀態(tài)Si的轉(zhuǎn)移路徑中語(yǔ)音特征矢量x的輸出概率Bji(x),以及各個(gè)狀態(tài)Si的初始概率Pi(i=1、2、...、NS),其中1=<i,j=NS,并且NS是構(gòu)成HMM的狀態(tài)的總數(shù)。
HMM的一個(gè)示例將在圖2中顯示。圖2說(shuō)明了具有多個(gè)狀態(tài)的HMM的示例,其中,NS=4。
省略了其中轉(zhuǎn)移概率和輸出概率無(wú)意義的轉(zhuǎn)移路徑的說(shuō)明,即,省略了其中相應(yīng)的概率總為零的轉(zhuǎn)移路徑的說(shuō)明。起始狀態(tài)的集合SS={S1},最終狀態(tài)的集合SF={S4}。圖2中的HMM是在語(yǔ)音識(shí)別中通常使用的HMM的示例,其具有稱為“從左到右類型”(left-to-right)的結(jié)構(gòu),其中,在起始狀態(tài)集合和最終狀態(tài)集合中的元素的數(shù)量分別為“1”,并且具有轉(zhuǎn)移概率Aji和輸出概率Bji(x),它們僅僅對(duì)于i=j(luò)或i=j(luò)+1的組合(j,i)是有意義的。以下將基于圖2所示的HMM繼續(xù)進(jìn)行說(shuō)明。然而,詞典單元003可以存儲(chǔ)任何種類的HMM,包括圖2的例子在內(nèi)。例如,它還可以存儲(chǔ)如圖3所示的具有多個(gè)轉(zhuǎn)移路徑的HMM。
(1-4)對(duì)照單元004 對(duì)照單元004將HMM與語(yǔ)音特征矢量序列進(jìn)行對(duì)照。也就是說(shuō),對(duì)從語(yǔ)音區(qū)間的開(kāi)始至結(jié)尾生成的語(yǔ)音特征矢量序列X(x(1),x(2),...,x(t))計(jì)算來(lái)自分配給某一類型c的HMM的輸出概率P(X|c)。
對(duì)照單元004計(jì)算來(lái)自所分類的每個(gè)類型的HMM的輸出概率P(X|c),1=<c=<c),并且將分配給給出最大輸出概率的HMM的類型輸出作為識(shí)別結(jié)果。當(dāng)將來(lái)自分配給某一類型c的HMM的輸出概率P(X|c)簡(jiǎn)單地表示為P(X)時(shí),通過(guò)表達(dá)式(1)、表達(dá)式(2)、表達(dá)式(3)獲取P(X)。
其中Si∈SF...(1) α(i,0)=Pi 其中 Si∈SS...(2) 對(duì)于所有j...(3) 其中,α(i,t)是幀t中的從起始狀態(tài)轉(zhuǎn)移并且到達(dá)狀態(tài)Si的HMM的前向概率(forward probability)。因?yàn)樵贖MM中,在幀t中,存在多個(gè)從起始狀態(tài)開(kāi)始并且到達(dá)狀態(tài)Si的轉(zhuǎn)移路徑,所以前向概率對(duì)應(yīng)于各個(gè)轉(zhuǎn)移路徑的前向概率的總和。然而,在表達(dá)式(3)中,僅僅從所述多個(gè)轉(zhuǎn)移路徑中選擇提供最大前向概率的一個(gè)轉(zhuǎn)移路徑并且使用所選擇的前向概率。該方法被稱為Viterbi方法。在語(yǔ)音識(shí)別的領(lǐng)域,Viterbi方法是一種較好的對(duì)于找到多個(gè)轉(zhuǎn)移路徑的前向概率的總和的方法的近似方法。
(2)對(duì)照單元004的處理 現(xiàn)在參考圖4,將描述對(duì)照單元004的處理。圖4是說(shuō)明圖1所示的語(yǔ)音識(shí)別裝置中的對(duì)照單元004中的處理的流程圖。
在步驟P011,幀編號(hào)t被初始化為1。也就是說(shuō),幀編號(hào)被設(shè)置為語(yǔ)音區(qū)間的開(kāi)始,并且處理從語(yǔ)音區(qū)間的開(kāi)始處啟動(dòng)。
在步驟P012,根據(jù)步驟P020中的過(guò)程,計(jì)算幀t中的HMM的狀態(tài)Si的前向概率α(i,t)。稍后將描述步驟P020的細(xì)節(jié)。
在步驟P013,幀編號(hào)t被增加1。也就是說(shuō),過(guò)程進(jìn)入具有t=t+1的下一個(gè)幀中的處理。
在步驟P014,將幀編號(hào)t與顯示語(yǔ)音區(qū)間的結(jié)束的幀編號(hào)T進(jìn)行比較。當(dāng)t>T時(shí),也就是說(shuō),當(dāng)結(jié)束對(duì)語(yǔ)音區(qū)間中的所有幀的處理時(shí),過(guò)程進(jìn)行步驟P016。當(dāng)t=<T時(shí),也就是說(shuō),當(dāng)幀t是語(yǔ)音區(qū)間中的一個(gè)幀時(shí),過(guò)程進(jìn)行步驟P015。
在步驟P015,根據(jù)步驟P020中的過(guò)程,計(jì)算幀t中的HMM的狀態(tài)Si的前向概率α(i,t)。稍后將描述步驟P020的細(xì)節(jié)。當(dāng)步驟P020結(jié)束時(shí),過(guò)程返回步驟P013。
在步驟P016,基于表達(dá)式(3),狀態(tài)Si(其中Si∈SF)的前向概率α(i,t)中的最大的前向概率被輸出作為該HMM的語(yǔ)音特征矢量序列的輸出概率P(X)。
(3)前向概率的計(jì)算 接下來(lái),將使用圖5中的流程圖描述在圖4中的步驟P012和步驟P015中,作為用于計(jì)算前向概率的過(guò)程的步驟P020。
在步驟P021,對(duì)所有的組合(j,i)(其中,1=<j,i=<NS)執(zhí)行步驟P022的循環(huán)執(zhí)行,并且當(dāng)循環(huán)執(zhí)行結(jié)束時(shí),過(guò)程進(jìn)行步驟P023。
在步驟P022,為某一組合(j,i)計(jì)算幀t中的輸出概率Bji(x(t))。
在步驟P023,基于表達(dá)式(2)和表達(dá)式(3),為所有的狀態(tài)Si(其中,1=<i=<NS)計(jì)算幀t中的前向概率α(i,t)。
圖1中的語(yǔ)音識(shí)別裝置在對(duì)照單元004中為多個(gè)HMM執(zhí)行圖4中的步驟P011至P016以及圖5中的步驟P020,并且輸出分配給提供最大輸出概率的HMM的類型作為識(shí)別結(jié)果。到此給出的說(shuō)明是關(guān)于圖1中的語(yǔ)音識(shí)別裝置。
(4)輸出概率Bji(x)的計(jì)算 在對(duì)照單元004中,需要為所有幀t(1=<t=<T)的對(duì)應(yīng)于組合(j,i)(其中,1=<j,i=<NS)的所有轉(zhuǎn)移路徑計(jì)算輸出概率Bji(x)。
計(jì)算的一般過(guò)程將在圖6中顯示。圖6中的垂直軸表示HMM的狀態(tài)序列,其與圖2中的HMM具有相同的轉(zhuǎn)移路徑。然而,省略了轉(zhuǎn)移路徑的圖。橫軸表示幀。在圖6中,通過(guò)安排每個(gè)幀的HMM的狀態(tài)序列并且將HMM的轉(zhuǎn)移路徑表示為用于連接相鄰幀之間的兩個(gè)狀態(tài)的箭頭來(lái)表示每個(gè)幀的HMM的狀態(tài)轉(zhuǎn)移。在圖6中,通過(guò)粗的箭頭來(lái)表示用于計(jì)算某一幀中的輸出概率的轉(zhuǎn)移路徑。如圖6所示,對(duì)照單元004計(jì)算所有幀中的所有轉(zhuǎn)移路徑中的輸出概率。
通常,在語(yǔ)音識(shí)別中,計(jì)算輸出概率的計(jì)算代價(jià)相對(duì)于語(yǔ)音識(shí)別處理的整個(gè)計(jì)算代價(jià)的比率是非常大的,其會(huì)提高整個(gè)語(yǔ)音識(shí)別處理的計(jì)算代價(jià)。因此,有效地減少輸出概率的計(jì)算次數(shù)對(duì)于減少語(yǔ)音識(shí)別處理的計(jì)算代價(jià)是十分有效地。
作為現(xiàn)有的有效減少輸出概率的計(jì)算次數(shù)的方法,存在一種如非專利文件2所述的基于束搜索的方法以及一種如專利文件1所述的基于基準(zhǔn)幀的方法。以下將描述這些方法。
(5)基于束搜索的方法 將描述基于束搜索的減少輸出概率的計(jì)算次數(shù)的方法。
(5-1)語(yǔ)音識(shí)別裝置的結(jié)構(gòu) 圖7是顯示優(yōu)選用于該方法的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的示例的框圖。
圖7中顯示的語(yǔ)音識(shí)別裝置與圖1中的語(yǔ)音識(shí)別裝置一樣包括聲音處理單元001、語(yǔ)音區(qū)間檢測(cè)單元002、詞典單元003以及對(duì)照單元004,此外,還包括搜索對(duì)象選擇單元005。
除了對(duì)照單元004與搜索對(duì)象選擇單元005協(xié)同操作以外,圖7中的語(yǔ)音識(shí)別裝置與圖1中的語(yǔ)音識(shí)別裝置執(zhí)行相同的處理。因此,在如下的說(shuō)明中,僅描述與圖1中的語(yǔ)音識(shí)別裝置不同的對(duì)照單元004和搜索對(duì)象選擇單元005的操作。
(5-2)搜索對(duì)象選擇單元005 搜索對(duì)象選擇單元005為每個(gè)幀執(zhí)行束搜索,并且選擇HMM的狀態(tài)集SA以及可以從狀態(tài)集SA轉(zhuǎn)移的HMM的狀態(tài)集SB。某一幀t中的狀態(tài)集SA是一組具有比如下所述的狀態(tài)Sj中的其它狀態(tài)更大的前向概率的、從高位起的NA個(gè)狀態(tài),在所述狀態(tài)Sj中,在幀t-1中不為零的有意義的前向概率α(j,t-1)不為零,其中1=<NA<NS。
當(dāng)其中α(j,t-1)不為零的所有狀態(tài)Sj的總數(shù)小于NA時(shí),選擇所有的其中α(j,t-1)不為零的狀態(tài)Sj并且將它們定義為狀態(tài)集SA。在某一幀t中的狀態(tài)集SB是可以從所有狀態(tài)Sj(其中Sj∈SA)轉(zhuǎn)移的所有狀態(tài)Si的集合。
(5-3)對(duì)照單元004 當(dāng)依據(jù)表達(dá)式(3)計(jì)算前向概率時(shí),對(duì)照單元004參考由搜索對(duì)象選擇單元005選擇的狀態(tài)集SA和狀態(tài)集SB,僅僅為滿足Sj∈SA和Si∈SB的所有組合(j,i)計(jì)算輸出概率,并且僅僅為滿足Si∈SB的狀態(tài)Si計(jì)算前向概率α(i,t)。更具體地說(shuō),使用如下顯示的表達(dá)式(4)來(lái)代替表達(dá)式(3)。
其中{jSj∈SA}且 {iSi∈SB}...(4) 在表達(dá)式(4)中,只有當(dāng)滿足Sj∈SA和Si∈SB時(shí),才必須簡(jiǎn)單地計(jì)算輸出概率Bji(x(t)),并且與表達(dá)式(3)相比可以減少輸出概率的計(jì)算次數(shù)。
這里,在表達(dá)式(4)中參考的前一幀的前向概率a(j,t-1)是從幀t-1中的高位起的NA個(gè)前向概率,并且預(yù)計(jì)可以從具有這些前向概率的狀態(tài)Sj轉(zhuǎn)移的狀態(tài)Si在后續(xù)的當(dāng)前幀t中也具有高位的前向概率。
因此,在各個(gè)幀中的通過(guò)具有高層的前向概率的狀態(tài)的轉(zhuǎn)移路徑可能大多數(shù)是提供由表達(dá)式(1)獲取的幀t中的前向概率α(i,t)的最大值的轉(zhuǎn)移路徑。該可能性隨著NA值的增大而增大,并且當(dāng)NA=NS時(shí),在表達(dá)式(3)和表達(dá)式(4)之間沒(méi)有差別。也就是說(shuō),通過(guò)將NA的值設(shè)置為適當(dāng)?shù)闹?,與圖1中的語(yǔ)音識(shí)別裝置的對(duì)照單元104相比,可以減少輸出概率的計(jì)算次數(shù),并且可以通過(guò)表達(dá)式(1)獲得輸出概率P(X)的期望的近似值。
(5-4)前向概率的計(jì)算 在圖8中顯示了通過(guò)圖7中的語(yǔ)音識(shí)別裝置中的對(duì)照單元004進(jìn)行的前向概率的計(jì)算的示意過(guò)程。
圖8與圖6相同,顯示了利用表達(dá)式(4)計(jì)算前向概率的結(jié)果。圖8是將在幀t-1中選擇的狀態(tài)的數(shù)量的例子。在圖8中,在幀t-1中,從具有有意義前向概率的狀態(tài)集中選擇具有最高和第二高的前向概率的狀態(tài),并且所選擇的狀態(tài)集被定義為狀態(tài)集SA。在幀t中,選擇可以從所述狀態(tài)集SA轉(zhuǎn)移的狀態(tài)集SB,并且僅為從SA到SB的轉(zhuǎn)移路徑計(jì)算輸出概率。在幀t+1,t+2...中重復(fù)該過(guò)程。當(dāng)比較圖8和圖6時(shí),很清楚,與圖1中的語(yǔ)音識(shí)別裝置相比,圖7中的語(yǔ)音識(shí)別裝置中的輸出概率的計(jì)算次數(shù)可以被減少。
通過(guò)這種方式,通過(guò)基于束搜索減少輸出概率的計(jì)算次數(shù),可以在對(duì)性能沒(méi)有不利影響的情況下減少輸出概率的計(jì)算次數(shù)。
(6)基于基準(zhǔn)幀的方法 接下來(lái),將描述基于基準(zhǔn)幀的減少輸出概率的計(jì)算次數(shù)的方法。
(6-1)語(yǔ)音識(shí)別裝置的結(jié)構(gòu) 圖9是顯示優(yōu)選用于該方法的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的例子的框圖。
與圖1中的語(yǔ)音識(shí)別裝置一樣,圖9中的語(yǔ)音識(shí)別裝置包括聲音處理單元001、語(yǔ)音區(qū)間檢測(cè)單元002、詞典單元003以及對(duì)照單元004,并且還包括存儲(chǔ)單元006。除了對(duì)照單元004與存儲(chǔ)單元006協(xié)同工作以外,圖9中的語(yǔ)音識(shí)別裝置與圖1中的語(yǔ)音識(shí)別裝置執(zhí)行相同的處理。
因此,在如下的說(shuō)明中,僅描述與圖1中的語(yǔ)音識(shí)別裝置不同的對(duì)照單元004和存儲(chǔ)單元006的操作。
(6-2)存儲(chǔ)單元006 存儲(chǔ)單元006存儲(chǔ)基準(zhǔn)幀q(1=<q=<T)以及輸出概率緩沖RSji。
基準(zhǔn)幀q存儲(chǔ)語(yǔ)音區(qū)間中的任意一個(gè)的幀編號(hào)。在隨后描述的對(duì)照單元004中的處理中,當(dāng)從特定基準(zhǔn)幀q開(kāi)始逐幀地進(jìn)行處理,并且當(dāng)前幀t和基準(zhǔn)幀q之間的差(t-q)超過(guò)閾值NQ時(shí),將當(dāng)前幀t定義為新的基準(zhǔn)幀q。也就是說(shuō),當(dāng)(t-q)>=NQ滿足時(shí),基準(zhǔn)幀q被確定為等于t;q=t,由此更新,其中,基準(zhǔn)幀q的初始值是1。
也就是說(shuō),語(yǔ)音區(qū)間的開(kāi)始(幀1)總是被用作第一基準(zhǔn)幀。輸出概率緩沖RSji為所有組合(j,i)(其中,1<j,i=<NS)存儲(chǔ)基準(zhǔn)幀q中的輸出概率Bji(x(q)),即RSji=Bji(x(q))。
當(dāng)基準(zhǔn)幀q更新時(shí),也更新輸出概率緩沖RSji。也就是說(shuō),更新的基準(zhǔn)幀q再次被定義為RSji=Bji(x(q)),并且每當(dāng)更新基準(zhǔn)幀時(shí)重復(fù)該過(guò)程。
(6-3)對(duì)照單元004 當(dāng)利用表達(dá)式(3)計(jì)算前向概率時(shí),對(duì)照單元004參考存儲(chǔ)在存儲(chǔ)單元006中的基準(zhǔn)幀q,并且當(dāng)當(dāng)前幀t與基準(zhǔn)幀q匹配(即,t=q)時(shí),為所有的組合(j,i)(其中,1=<j,i=<NS)計(jì)算輸出概率Bji(x(q)),將所計(jì)算的輸出概率存儲(chǔ)在存儲(chǔ)單元006的緩沖RSji中,然后計(jì)算前向概率。
當(dāng)當(dāng)前幀t是q<t<q+NQ時(shí),對(duì)照單元004不計(jì)算輸出概率Bji(x(t)),而是使用存儲(chǔ)在存儲(chǔ)單元006的輸出概率緩沖RSji中的輸出概率作為幀t中的輸出概率的近似值來(lái)計(jì)算前向概率。更具體地說(shuō),使用如下顯示的表達(dá)式(5)和表達(dá)式(6)來(lái)代替表達(dá)式(3)。
其中t=q...(5) 其中q<t<q+NQ...(6) 只有當(dāng)在表達(dá)式(5)和表達(dá)式(6)中滿足t=q時(shí),才必須簡(jiǎn)單地計(jì)算輸出概率Bji(x(q)),并且與表達(dá)式(3)相比可以減少輸出概率的計(jì)算次數(shù)。
這里,當(dāng)相對(duì)于輸入語(yǔ)音的時(shí)間改變的幀寬度足夠小時(shí),時(shí)間上彼此接近的語(yǔ)音特征矢量x(q)和x(t)((t-q)<NQ)之間的差足夠小,由此,輸出概率Bji(x(q))和Bji(x(t))之間的差足夠小。因此,預(yù)計(jì)通過(guò)將用于更新基準(zhǔn)幀的閾值NQ設(shè)置為一近似值,Bji(x(q)),即RSji將變?yōu)榭扇〉慕浦礏ji(x(t))。
(6-4)前向概率的計(jì)算 在圖10中顯示了由圖9中的語(yǔ)音識(shí)別裝置執(zhí)行的前向概率的計(jì)算的示意過(guò)程。
圖10對(duì)應(yīng)于圖6,顯示了利用表達(dá)式(5)和表達(dá)式(6)計(jì)算前向概率的結(jié)果。圖10是當(dāng)基準(zhǔn)幀的更新的閾值NQ為3時(shí)的例子,其中,在幀t+3中,基準(zhǔn)幀q=t被更新為q=t+3。
在圖10中,僅在基準(zhǔn)幀中執(zhí)行輸出概率的計(jì)算,并且使用在基準(zhǔn)幀中計(jì)算的輸出概率作為從基準(zhǔn)幀開(kāi)始的幀中的近似值。每當(dāng)基準(zhǔn)幀被更新時(shí)重復(fù)該過(guò)程。當(dāng)比較圖10和圖6時(shí),很清楚,與圖1中的語(yǔ)音識(shí)別裝置相比,使用圖9中的語(yǔ)音識(shí)別裝置可以減少輸出概率的計(jì)算次數(shù)。
通過(guò)這種方式,通過(guò)基于基準(zhǔn)幀減少輸出概率的計(jì)算次數(shù),可以在對(duì)性能沒(méi)有不利影響的情況下減少輸出概率的計(jì)算次數(shù)。
(7)各個(gè)方法中的特點(diǎn)和問(wèn)題 基于束搜索的減少輸出概率的計(jì)算次數(shù)的方法以及基于基準(zhǔn)幀的減少輸出概率的計(jì)算次數(shù)的方法彼此具有不同的特點(diǎn)。
也就是說(shuō),前者減少某一幀中的輸出概率的計(jì)算次數(shù),而后者減少包括多個(gè)幀的區(qū)間中的輸出概率的計(jì)算次數(shù)。因此,人們猜測(cè)與單獨(dú)使用這些方法的情況相比,同時(shí)使用這兩種方法可以更有效地減少輸出概率的計(jì)算次數(shù)。然而,同時(shí)使用這些方法存在問(wèn)題,并且不能通過(guò)簡(jiǎn)單地組合這些方法來(lái)有效地減少輸出概率的計(jì)算次數(shù)。以下將描述這些問(wèn)題。
如上所述,在基于束搜索的方法中,為每個(gè)幀選擇狀態(tài)集SA和狀態(tài)集SB,并且僅為同時(shí)滿足Sj∈SA和Si∈SB的組合(j,i)計(jì)算輸出概率Bji(x(t))。
另一方面,在基于基準(zhǔn)幀的方法中,在基準(zhǔn)幀q中,為滿足1=<j,i=<NS的所有組合(j,i)計(jì)算輸出概率Bji(x(q)),并且存儲(chǔ)在輸出概率緩沖RSji中,并且用作基準(zhǔn)幀之后的幀中的輸出概率的近似值。
(8)當(dāng)同時(shí)使用兩個(gè)方法時(shí)如何計(jì)算 當(dāng)同時(shí)使用基于束搜索的方法以及基于基準(zhǔn)幀的方法時(shí),計(jì)算基準(zhǔn)幀q中的輸出概率Bji(x(q))的方法出現(xiàn)問(wèn)題。簡(jiǎn)單地考慮,存在如下的兩種方法。
第一種方法是為基準(zhǔn)幀q中的所有組合(j,i)計(jì)算輸出概率Bji(x(q))。
第二種方法是僅為基準(zhǔn)幀q中的同時(shí)滿足Sj∈SA和Si∈SB的組合(j,i)計(jì)算輸出概率Bji(x(q))。
(9)當(dāng)同時(shí)使用這兩種方法時(shí)出現(xiàn)的計(jì)算方法的問(wèn)題 (9-1)第一種方法 第一種方法可以通過(guò)將圖7中的語(yǔ)音識(shí)別裝置的搜索對(duì)象選擇單元005組合到圖9中的語(yǔ)音識(shí)別裝置的對(duì)照單元004,并且修改對(duì)照單元004的部分操作來(lái)實(shí)現(xiàn)。
也就是說(shuō),對(duì)照單元004為基準(zhǔn)幀q中的所有組合(j,i)(其中,1<j,i=<NS)計(jì)算輸出概率Bji(x(q)),并且將結(jié)果存儲(chǔ)在輸出概率緩沖RSji中。在除了基準(zhǔn)幀以外的幀t(q<t<q+NQ)中,基于束搜索選擇狀態(tài)集SA和狀態(tài)集SB,并且不為同時(shí)滿足Sj∈SA和Si∈SB的組合(j,i)計(jì)算輸出概率Bji(x(t)),而是使用輸出概率的近似值RSji。
在圖11中顯示了對(duì)照單元004中的前向概率的計(jì)算的示意性的過(guò)程,其中,部分地修改了操作。圖11對(duì)應(yīng)于圖10,其中,通過(guò)如上所述修改操作來(lái)執(zhí)行基于束搜索的狀態(tài)集的選擇。然而,在這種情況下,輸出概率的計(jì)算次數(shù)與在單獨(dú)使用基于基準(zhǔn)幀的方法的情況(圖10)中相同,并且與同時(shí)使用基于束搜索的方法的情況相同(圖11)。因?yàn)樵趦蓚€(gè)情況中,僅在基準(zhǔn)幀q中執(zhí)行輸出概率的計(jì)算,并且在基準(zhǔn)幀q中,為所有組合(j,i)(其中,1=<j,i=<NS)計(jì)算輸出概率。因此,在該方法中,不能更進(jìn)一步有效地減少輸出概率的計(jì)算次數(shù). (9-2)第二種方法 第二種方法可以通過(guò)將圖9中的存儲(chǔ)單元006與圖7中的語(yǔ)音識(shí)別裝置的對(duì)照單元004進(jìn)行組合,并且修改對(duì)照單元004的部分操作來(lái)實(shí)現(xiàn)。
也就是說(shuō),對(duì)照單元004基于束搜索選擇狀態(tài)集SA和狀態(tài)集SB,僅為同時(shí)滿足Sj∈SA和Si∈SB的組合(j,i)計(jì)算輸出概率Bji(x(q)),并且將結(jié)果存儲(chǔ)在基準(zhǔn)幀q中的輸出概率緩沖RSji中。在除了基準(zhǔn)幀以外的幀t(q<t<q+NQ)中,選擇狀態(tài)集SA和狀態(tài)集SB,存儲(chǔ)在輸出概率緩沖RSji中的值被用作對(duì)于同時(shí)滿足Sj∈SA和Si∈SB的組合(j,i)的輸出概率Bji(x(t))的近似值。因?yàn)闋顟B(tài)包含在狀態(tài)集SA中并且狀態(tài)集SA和狀態(tài)集SB在幀與幀間不同,然而,可能有一種情況,其中,不在基準(zhǔn)幀q中計(jì)算用于在幀t中計(jì)算前向概率的輸出概率Bji(x(t))的近似值RSji=Bji(x(q))。在這種情況下,不能繼續(xù)在幀t中的前向概率的計(jì)算。因此,通過(guò)忽略其中不能使用輸出概率的近似值RSji的轉(zhuǎn)移路徑,與基于束搜索而選擇的從狀態(tài)集SA到狀態(tài)集SB的轉(zhuǎn)移路徑的集合相比,用于計(jì)算前向概率的轉(zhuǎn)移路徑的數(shù)量更小。
在圖12中顯示了在對(duì)照單元004中的前向概率的計(jì)算的示意性的過(guò)程,其中,通過(guò)這種方式部分地修改了操作。圖12對(duì)應(yīng)于圖8,其中,利用如上所述的操作的修改來(lái)執(zhí)行基于基準(zhǔn)幀以及近似值的使用的輸出概率的計(jì)算。在圖12中,僅在基準(zhǔn)幀中計(jì)算輸出概率,由此,與圖8相比可以減少輸出概率的計(jì)算次數(shù)。
然而,在圖12和圖8之間,為每個(gè)幀選擇的狀態(tài)集非常不同。在圖12中,因?yàn)榇嬖趯?duì)于其不能使用輸出概率的近似值的轉(zhuǎn)移路徑,具有在某一幀的前向計(jì)算中有意義的前向概率的狀態(tài)的數(shù)量小于在圖8中。這意味著提供α(l,T)的最大值的轉(zhuǎn)移路徑很可能不能在利用表達(dá)式(1)的前向概率α(l,T)的計(jì)算中使用。也就是說(shuō),不能利用表達(dá)式(3)獲得輸出概率P(X)的期望的近似值,由此,對(duì)語(yǔ)音識(shí)別裝置的性能會(huì)帶來(lái)不利的影響。因此,在該方法中,也不能更進(jìn)一步有效地減少輸出概率的計(jì)算次數(shù)。
第一實(shí)施例 根據(jù)第一實(shí)施例的語(yǔ)音識(shí)別裝置包括聲音處理單元、語(yǔ)音區(qū)間檢測(cè)單元、詞典單元、對(duì)照單元、搜索對(duì)象選擇單元、存儲(chǔ)單元以及確定單元。通過(guò)存儲(chǔ)在計(jì)算機(jī)中的程序來(lái)實(shí)現(xiàn)各個(gè)單元的功能。
基于以上顯示的現(xiàn)有技術(shù)的說(shuō)明,將描述在根據(jù)該實(shí)施例的語(yǔ)音識(shí)別裝置中的前向概率的計(jì)算。
首先,在基準(zhǔn)幀q中,搜索對(duì)象選擇單元選擇狀態(tài)集SA和狀態(tài)集SB,并且僅為同時(shí)滿足Sj∈Sa和Si∈SB的組合(j,i)計(jì)算輸出概率Bji(x(t)),并且存儲(chǔ)單元將所述結(jié)果存儲(chǔ)在輸出概率緩沖RSji中?,F(xiàn)在,確定單元存儲(chǔ)有關(guān)以下轉(zhuǎn)移路徑的信息,在基準(zhǔn)幀q中,未存儲(chǔ)所述轉(zhuǎn)移路徑的輸出概率的近似值RSji。
在除了基準(zhǔn)幀以外的幀t(q<t<q+NQ)中,搜索對(duì)象選擇單元選擇狀態(tài)集SA和狀態(tài)集SB。這時(shí),確定單元確定是否存在可以用于對(duì)應(yīng)于同時(shí)滿足Sj∈SA和Si∈SB的組合(j,i)的轉(zhuǎn)移路徑的輸出概率的近似值RSji。
對(duì)照單元參考確定的結(jié)果,并且不為具有近似值RSji的轉(zhuǎn)移路徑計(jì)算輸出概率Bji(x(t)),并且使用存儲(chǔ)在存儲(chǔ)單元中的近似值RSji。
對(duì)于不具有近似值RSji的轉(zhuǎn)移路徑,計(jì)算當(dāng)前幀t的輸出概率Bji(x(t)),并且將結(jié)果額外地存儲(chǔ)在輸出概率緩沖RSji中,并且用作后續(xù)幀中的近似值。因此,實(shí)現(xiàn)了下列效果。
首先,通過(guò)基于束搜索選擇狀態(tài)集,減少了在每個(gè)幀的前向概率的計(jì)算中所參考的轉(zhuǎn)移路徑的數(shù)量。也就是說(shuō),減少了需要參考輸出概率的轉(zhuǎn)移路徑的數(shù)量。
然后,通過(guò)存儲(chǔ)在基準(zhǔn)幀中計(jì)算的輸出概率并且將在基準(zhǔn)幀中計(jì)算的輸出概率用作后續(xù)幀的近似值,減少了輸出概率的計(jì)算次數(shù)。
此外,當(dāng)在從基準(zhǔn)幀開(kāi)始的幀中不能使用近似值時(shí),計(jì)算當(dāng)前幀中的輸出概率并且存儲(chǔ)其以用作后續(xù)幀中的輸出概率的近似值。
也就是說(shuō),從基準(zhǔn)幀到基準(zhǔn)幀被更新的幀,對(duì)于每個(gè)轉(zhuǎn)移路徑的輸出概率的計(jì)算次數(shù)被定義為僅僅一次。
因此,在通過(guò)對(duì)照單元的前向概率的計(jì)算中,減少了需要參考輸出概率的轉(zhuǎn)移路徑的數(shù)量,此外,對(duì)于從某一基準(zhǔn)幀到基準(zhǔn)幀被更新的幀的每個(gè)轉(zhuǎn)移路徑的輸出概率的計(jì)算次數(shù)被定義為一次,由此可以顯著地減少輸出概率的計(jì)算次數(shù)。圖13中顯示了前向概率的計(jì)算的示意性的過(guò)程。圖13對(duì)應(yīng)于圖8和圖10。
當(dāng)圖13與圖8相比時(shí),在圖13中,與在圖8中一樣來(lái)選擇狀態(tài)集,此外,僅僅為從基準(zhǔn)幀t到在更新后的基準(zhǔn)幀t+3之前的幀的每個(gè)轉(zhuǎn)移路徑計(jì)算一次輸出概率,從而,與圖8相比,減少了輸出概率的計(jì)算的總次數(shù)。這時(shí),在每個(gè)幀中具有有意義的前向概率的狀態(tài)的數(shù)量與圖8中相同,因此,預(yù)計(jì)它們是表達(dá)式(3)中的輸出概率P(X)中的可取的近似值。
當(dāng)圖13與圖10相比時(shí),在圖13中,與圖10中一樣設(shè)置并更新基準(zhǔn)幀,此外,狀態(tài)集的選擇,輸出概率的計(jì)算和存儲(chǔ)以及在從基準(zhǔn)幀t到更新之后的基準(zhǔn)幀t+3之前的幀的范圍內(nèi)使用相同的近似值,因此,與圖10相比較,可以減少輸出概率的計(jì)算的總次數(shù)。輸出概率的近似精度依賴于用于更新基準(zhǔn)幀的閾值NQ,因此,提供圖10中的優(yōu)選近似精度的閾值NQ預(yù)計(jì)在圖13中是可取的近似值。
第一實(shí)施例的詳細(xì)說(shuō)明 參考圖14到圖18,將詳細(xì)說(shuō)明根據(jù)第一實(shí)施例的語(yǔ)音識(shí)別裝置。
(1)語(yǔ)音識(shí)別裝置的結(jié)構(gòu) 圖14是顯示根據(jù)第一實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的例子的框圖。
圖14中的語(yǔ)音識(shí)別裝置包括聲音處理單元101、語(yǔ)音區(qū)間檢測(cè)單元102、詞典單元103、對(duì)照單元104、搜索對(duì)象選擇單元105、存儲(chǔ)單元106以及確定單元107??梢酝ㄟ^(guò)存儲(chǔ)在計(jì)算機(jī)中的程序來(lái)實(shí)現(xiàn)各個(gè)單元101至107的功能。
(1-1)聲音處理單元101 聲音處理單元101根據(jù)特定時(shí)間寬度的每個(gè)幀的輸入語(yǔ)音信號(hào)生成語(yǔ)音特征矢量的時(shí)間序列x=(x(1),x(2)...,x(T))。
這里,x(t)是幀t中的語(yǔ)音特征矢量,其中,1=<t=<T,t=1對(duì)應(yīng)于由稍后描述的語(yǔ)音區(qū)間檢測(cè)單元102檢測(cè)到的語(yǔ)音的開(kāi)始,t=T對(duì)應(yīng)于語(yǔ)音的結(jié)束。語(yǔ)音特征矢量x(t)是具有比一維更高的元素的矢量,并且表示幀t中的語(yǔ)音特征。作為如上所述的語(yǔ)音特征矢量,存在在非專利文件1中描述的MFCC。MFCC是一種獲取語(yǔ)音特征矢量的方法,其取得相對(duì)于幀t中的話音頻譜而輸出的Mel濾波器組的對(duì)數(shù)值,然后執(zhí)行倒譜分析以用于通過(guò)應(yīng)用DCT來(lái)提取低階分量。
(1-2)語(yǔ)音區(qū)間檢測(cè)單元102 語(yǔ)音區(qū)間檢測(cè)單元102從輸入的語(yǔ)音信號(hào)檢測(cè)語(yǔ)音區(qū)間(語(yǔ)音的開(kāi)始和結(jié)束)。
作為一種檢測(cè)語(yǔ)音區(qū)間的方法,存在一種方法,其計(jì)算輸入語(yǔ)音的功率相對(duì)于每個(gè)幀的噪聲區(qū)間中的估計(jì)噪聲功率的比率,并且檢測(cè)比率超過(guò)某一閾值的時(shí)間連續(xù)的區(qū)間作為語(yǔ)音區(qū)間。在這種情況下,如上所述的比率超過(guò)閾值的第一個(gè)幀被檢測(cè)為語(yǔ)音區(qū)間的開(kāi)始,如上所述的比率超過(guò)閾值的時(shí)間上連續(xù)的幀被檢測(cè)為語(yǔ)音區(qū)間,在如上所述的比率低于閾值的幀之前緊挨著的幀被檢測(cè)為語(yǔ)音區(qū)間的結(jié)束。
(1-3)詞典單元103 詞典單元103存儲(chǔ)分配給不同類型的多個(gè)HMM。
HMM由以下要素定義一個(gè)或多個(gè)狀態(tài)Si(i=1,2,,...,NS),起始狀態(tài)的集合SS以及最終狀態(tài)的集合SF,從某一狀態(tài)Sj到某一狀態(tài)Si的轉(zhuǎn)移概率Aji,提供從某一狀態(tài)Sj到某一狀態(tài)Si的轉(zhuǎn)移路徑中的語(yǔ)音特征矢量x的輸出概率Bji(x)的概率密度函數(shù)Bji(),以及各個(gè)狀態(tài)Si的初始概率Pi(i=1,2,...,NS),其中,1=<i,j=<NS,并且NS指示構(gòu)成HMM的狀態(tài)的總數(shù)。當(dāng)污染正態(tài)分布(contaminatednormal distribution)被用作概率密度函數(shù)Bji()時(shí),利用表達(dá)式(7)計(jì)算輸出概率Bji(x)。
其中,Wjim指示到構(gòu)成概率密度函數(shù)Bji()的第m個(gè)多維正態(tài)分布的分支概率(branch probability),Gjim()指示構(gòu)成概率密度函數(shù)Bji()的第m個(gè)多維正態(tài)分布,Gjim()指示由表達(dá)式(8)定義的多維正態(tài)分布。
Gjim()=N(μjim,∑jim2)...(8) 其中,μjim指示多維正態(tài)分布Gjim()的平均矢量,∑jim是多維正態(tài)分布Gjim()的協(xié)方差矩陣,1=<m=<M,并且M指示概率密度函數(shù)Bji()的混合數(shù)。
圖17中顯示了HMM的一個(gè)例子。圖17說(shuō)明了其狀態(tài)數(shù)是NS=4的HMM的例子。
省略了其轉(zhuǎn)移概率和輸出概率無(wú)意義的轉(zhuǎn)移路徑的說(shuō)明,即省略了相應(yīng)概率總是0的說(shuō)明。起始狀態(tài)的集合SS={S1},最終狀態(tài)的集合SF={S4}。圖15中的HMM是在語(yǔ)音識(shí)別中通常使用的HMM的例子,具有稱為從左到右類型的結(jié)構(gòu),在起始狀態(tài)的集合以及最終狀態(tài)的集合中的每一個(gè)具有一個(gè)元素,并且具有僅對(duì)于組合(j,i)(其中i=j(luò)或i=j(luò)+1)有意義的轉(zhuǎn)移概率Aji和輸出概率Bji(x)。以下將繼續(xù)說(shuō)明圖17中的HMM。然而,詞典單元103可以存儲(chǔ)任何HMM,包括圖17中的例子。例如,與圖18中一樣,它還可以存儲(chǔ)具有多個(gè)轉(zhuǎn)移路徑的HMM。
(1-4)對(duì)照單元104 對(duì)照單元104執(zhí)行HMM和語(yǔ)音特征矢量序列之間的對(duì)照。
也就是說(shuō),對(duì)從語(yǔ)音區(qū)間的開(kāi)始至結(jié)尾生成的語(yǔ)音特征矢量序列X(x(1),x(2),...,x(t))計(jì)算從分配給某一類型c的HMM的輸出概率P(X|c)。對(duì)照單元104為相應(yīng)的類型計(jì)算從分配給該類型的HMM的輸出概率P(X|c),(1=<c=<c),并且輸出分配給提供最大的輸出概率的HMM的類型,作為識(shí)別結(jié)果。當(dāng)將從分配給某一類型c的HMM的輸出概率P(X|c)簡(jiǎn)單地表示為P(X)時(shí),通常利用表達(dá)式(9)、表達(dá)式(10)和表達(dá)式(11)來(lái)獲得P(X)。
其中Si∈SF...(9) α(i,0)=Pi 其中Si∈SS...(10) 對(duì)于所有j...(11) 其中,α(i,t)是HMM的前向概率,其從起始狀態(tài)轉(zhuǎn)移并且在幀t到達(dá)狀態(tài)Si。
因?yàn)樵趲瑃中,HMM包括多個(gè)從起始狀態(tài)開(kāi)始并且到達(dá)狀態(tài)Si的轉(zhuǎn)移路徑,所以前向概率對(duì)應(yīng)于多個(gè)轉(zhuǎn)移路徑中的每一個(gè)的前向概率的總和。然而,在表達(dá)式(11)中,僅僅從所述多個(gè)轉(zhuǎn)移路徑中選擇提供最大前向概率的轉(zhuǎn)移路徑并且使用所選擇的前向概率。該方法被稱為“Viterbi方法”。
在語(yǔ)音識(shí)別的領(lǐng)域,Viterbi方法是一種較好的,對(duì)于找到多個(gè)轉(zhuǎn)移路徑的前向概率的總和的方法的接近。在實(shí)施例中的通過(guò)對(duì)照單元104的前向概率的計(jì)算中,通過(guò)組合隨后描述的搜索對(duì)象選擇單元105、存儲(chǔ)單元106和確定單元107的處理,可以有效地減少利用表達(dá)式(11)的輸出概率Bji(x(t))的計(jì)算次數(shù),而不會(huì)對(duì)語(yǔ)音識(shí)別性能產(chǎn)生不利影響。隨后描述其。
(1-5)搜索對(duì)象選擇單元105 搜索對(duì)象選擇單元105對(duì)每個(gè)幀執(zhí)行束搜索,并且選擇HMM的狀態(tài)集SA以及可以從狀態(tài)集SA轉(zhuǎn)移的HMM的狀態(tài)集SB。
某一幀t中的狀態(tài)集SA是一組具有比滿足如下條件的狀態(tài)Sj中的其它狀態(tài)更大的前向概率的、從高位起的NA個(gè)狀態(tài)的集合,在所述狀態(tài)Sj中,在幀t-1中不為零的有意義的前向概率α(j,t-1)不為零,其中1=<NA<NS。當(dāng)α(j,t-1)不為零的所有狀態(tài)Sj的總數(shù)小于NA時(shí),選擇所有的其中α(j,t-1)不為零的狀態(tài)Sj并且將它們定義為狀態(tài)集SA。在某一幀t中的狀態(tài)集SB是可以從所有狀態(tài)Sj(其中Sj∈SA)轉(zhuǎn)移的所有狀態(tài)Si的集合。
(1-6)存儲(chǔ)單元106 存儲(chǔ)單元006存儲(chǔ)基準(zhǔn)幀q(1=<q=<T)以及輸出概率緩沖RSji。
基準(zhǔn)幀q存儲(chǔ)語(yǔ)音區(qū)間中的任意一個(gè)的幀編號(hào)。在對(duì)照單元104中的處理中,當(dāng)逐幀的從特定基準(zhǔn)幀q開(kāi)始進(jìn)行處理,并且當(dāng)前幀t和基準(zhǔn)幀q之間的差(t-q)超過(guò)閾值NQ時(shí),將當(dāng)前幀t定義為新的基準(zhǔn)幀q。也就是說(shuō),當(dāng)(t-q)>=NQ滿足時(shí),基準(zhǔn)幀q被確定為等于t;q=t,由此更新,其中,基準(zhǔn)幀q的初始值是1。也就是說(shuō),語(yǔ)音區(qū)間的開(kāi)始(幀1)總是被用作第一基準(zhǔn)幀。輸出概率緩沖RSji存儲(chǔ)某一幀t中的輸出概率Bji(x(t))的計(jì)算結(jié)果。也就是說(shuō),使得RSji=Bji(x(t))。當(dāng)基準(zhǔn)幀q被更新時(shí),刪除輸出概率緩沖RSji中存儲(chǔ)的輸出概率的計(jì)算結(jié)果。
(1-7)確定單元107 確定單元107存儲(chǔ)標(biāo)志FSji。標(biāo)志FSji的各個(gè)元素是兩個(gè)值
中的任意一個(gè),并且當(dāng)輸出概率Bji(x(t))被存儲(chǔ)在存儲(chǔ)單元106中的輸出概率緩沖RSji中時(shí),被設(shè)置為1,如果沒(méi)有,則設(shè)置為0。
也就是說(shuō),通過(guò)參考標(biāo)志FSji,可以確定輸出概率是否存儲(chǔ)在存儲(chǔ)單元106的輸出概率緩沖RSji中。當(dāng)存儲(chǔ)在存儲(chǔ)單元106中的基準(zhǔn)幀q采取初始值1,或者當(dāng)基準(zhǔn)幀q被更新時(shí),標(biāo)志FSji的所有元素被初始化為0。
(2)輸出概率P(X)的計(jì)算 參考圖15和圖16中的流程圖,將描述在圖14中的語(yǔ)音識(shí)別裝置中計(jì)算分配給某一類型的HMM的語(yǔ)音特征矢量序列X的輸出概率P(X)的處理的流程。
首先,以下詳細(xì)地描述圖15的流程圖中的處理。流程圖顯示了計(jì)算各個(gè)幀中的前向概率α(i,t)的過(guò)程,以及獲取幀t中的語(yǔ)音特征矢量序列X的輸出概率P(X)的過(guò)程。
在步驟P101,對(duì)照單元104將幀編號(hào)t初始化為1。
在步驟P102,存儲(chǔ)單元106將基準(zhǔn)幀編號(hào)q初始化為1。
在步驟P103,確定單元107對(duì)所有的組合(j,i)(其中,1=<j,i=<NS)將標(biāo)志FSji初始化為0。
在步驟P104,對(duì)照單元104根據(jù)步驟P120中的過(guò)程計(jì)算當(dāng)前幀t=1中的前向概率α(i,t)。也就是說(shuō),獲得幀1中的前向概率。隨后詳細(xì)地描述步驟P120。
在步驟P105,對(duì)照單元104將幀編號(hào)t增加1。也就是說(shuō),過(guò)程進(jìn)入具有t=t+1的下一個(gè)幀的處理。
在步驟P106,對(duì)照單元104將當(dāng)前幀的幀編號(hào)t與指示語(yǔ)音結(jié)束的幀編號(hào)t進(jìn)行比較。當(dāng)t=<T時(shí),即,當(dāng)幀t是語(yǔ)音區(qū)間內(nèi)的幀時(shí),過(guò)程進(jìn)入步驟P107至步驟P111,以獲取當(dāng)前幀t的前向概率。當(dāng)t>T時(shí),即,當(dāng)對(duì)語(yǔ)音區(qū)間內(nèi)的所有幀結(jié)束處理時(shí),在步驟P112獲得語(yǔ)音特征矢量序列X的輸出概率P(X)。
在步驟P107,存儲(chǔ)單元106將當(dāng)前幀編號(hào)t和基準(zhǔn)幀編號(hào)q之間的差與閾值NQ進(jìn)行比較,并且確定基準(zhǔn)幀q是否應(yīng)被更新。當(dāng)從基準(zhǔn)幀q直到當(dāng)前幀t所經(jīng)過(guò)的幀的數(shù)量等于或大于NQ時(shí),即,當(dāng)滿足(t-q)>=NQ時(shí),過(guò)程進(jìn)入步驟P109至步驟P111以更新基準(zhǔn)幀q,然后獲取當(dāng)前幀t的前向概率。當(dāng)(t-q)<NQ時(shí),過(guò)程進(jìn)入步驟P108,其中,不更新基準(zhǔn)幀q,并且獲得當(dāng)前幀t的前向概率。
在步驟P108,對(duì)照單元104根據(jù)步驟P120中的過(guò)程計(jì)算當(dāng)前幀t中的前向概率α(i,t)。也就是說(shuō),對(duì)照單元104不更新基準(zhǔn)幀q,并且獲取當(dāng)前幀t的前向概率。隨后詳細(xì)地描述步驟P120。
在步驟P109,存儲(chǔ)單元106更新當(dāng)前幀t中的基準(zhǔn)幀q,即,q=t。
在步驟P110,確定單元107為所有的組合(j,i)(其中,1=<j,i=<NS)將標(biāo)志FSji初始化為0。
在步驟P111,對(duì)照單元104根據(jù)步驟P120中的過(guò)程計(jì)算當(dāng)前幀t中的前向概率α(i,t)。也就是說(shuō),對(duì)照單元104更新基準(zhǔn)幀q,然后獲取當(dāng)前幀t的前向概率。隨后詳細(xì)地描述步驟P120。
在步驟P112,利用表達(dá)式(9)獲得幀T中的狀態(tài)Si(其中Si∈SF)中的最大前向概率。也就是說(shuō),在步驟P80,結(jié)束分配給某一類型的HMM中的語(yǔ)音特征矢量序列X的輸出概率P(X)的計(jì)算。
(3)前向概率α(i,t)的計(jì)算 接下來(lái),以下詳細(xì)地描述圖16的流程圖中的處理。
該流程圖詳細(xì)的說(shuō)明了各個(gè)幀中的前向概率α(i,t)的計(jì)算。
在步驟P121,搜索對(duì)象選擇單元105參考已在幀t-1中計(jì)算的前向概率α(j,t-1),并且從α(j,t-1)不為0的所有狀態(tài)Sj中,從具有更大前向概率的高位開(kāi)始選擇NA個(gè)狀態(tài)作為狀態(tài)集SA。然而,當(dāng)α(j,t-1)不為零的狀態(tài)Sj的總數(shù)小于NA時(shí),選擇所有的其中α(j,t-1)不為零的狀態(tài)Sj并且將它們定義為狀態(tài)集SA。利用表達(dá)式(10)獲得t=1時(shí)的前向概率α(j,0)。
在步驟P122,搜索對(duì)象選擇單元105從所有狀態(tài)Sj(其中Sj∈SA)中選擇通過(guò)Aji不為0的轉(zhuǎn)移路徑可以轉(zhuǎn)移到的所有狀態(tài),作為狀態(tài)集SB。
在步驟P123,對(duì)同時(shí)滿足Sj∈SA和Si∈SB的所有組合(j,i)執(zhí)行下述步驟P124至步驟P128。當(dāng)對(duì)所有組合(j,i)結(jié)束處理時(shí),過(guò)程進(jìn)入步驟P129。
在步驟P124,確定單元107參考標(biāo)志FSji,當(dāng)FSji=1滿足時(shí),即,當(dāng)輸出概率存儲(chǔ)在存儲(chǔ)單元106的輸出概率緩沖RSji中時(shí),過(guò)程進(jìn)入步驟P128。當(dāng)FSji=1不滿足時(shí),即,當(dāng)所計(jì)算的輸出概率未存儲(chǔ)在輸出概率緩沖RSji中時(shí),過(guò)程進(jìn)入步驟P125至步驟P127,其中,計(jì)算并存儲(chǔ)輸出概率。
在步驟P125,對(duì)照單元104利用表達(dá)式(7)和表達(dá)式(8)計(jì)算當(dāng)前幀t中的語(yǔ)音特征矢量x(t)的輸出概率Bji(x(t))。
在步驟P126,存儲(chǔ)單元106將步驟P125中計(jì)算的輸出概率Bji(x(t))存儲(chǔ)在輸出概率緩沖RSji中。也就是說(shuō),使得RSji=Bji(x(t))。
在步驟P127,確定單元107將標(biāo)志FSji設(shè)置為數(shù)值1,其指示輸出概率的計(jì)算結(jié)果存儲(chǔ)在存儲(chǔ)單元106的輸出概率緩沖RSji中。也就是說(shuō),使得Fsji=1。
在步驟P128,對(duì)照單元104利用存儲(chǔ)在存儲(chǔ)單元106的輸出概率緩沖RSji中的輸出概率,對(duì)當(dāng)前幀t中的語(yǔ)音特征矢量x(t)的輸出概率Bji(x(t))進(jìn)行近似化。也就是說(shuō),使得Bji(x(t))=RSji。
在步驟P129,根據(jù)在如上所述的步驟P125中計(jì)算的輸出概率以及在如上所述的步驟P128中獲得的輸出概率的近似值來(lái)計(jì)算當(dāng)前幀t中的前向概率α(i,t)。當(dāng)考慮步驟P124至步驟P129時(shí),用于計(jì)算前向概率α(i,t)的表達(dá)式是以下所示的表達(dá)式(12)、(13)和(14)。這三個(gè)表達(dá)式用于替換現(xiàn)有技術(shù)中的語(yǔ)音識(shí)別方法中的表達(dá)式(11)。
對(duì)于滿足FSji=0和{jSj∈SA}以及{iSi∈SB}的(j,i) 對(duì)于滿足FSji=1和{jSj∈SA}以及{iSi∈SB}的(j,i) α(i,t)=max(α1(i,t),α2(i,t))...(14) 在表達(dá)式(12)、表達(dá)式(13)和表達(dá)式(14)中,僅僅為滿足所有的FSji=0、{jSj∈SA}和{iSi∈SB}的組合(j,i)計(jì)算輸出概率Bji(x(t)),因此,與表達(dá)式(11)相比,可以顯著地減少輸出概率Bji(x(t))的計(jì)算次數(shù)。
這時(shí),因?yàn)閷?duì)于幀t-1中的前向概率中的從高位起的NA個(gè)前向概率計(jì)算了當(dāng)前幀t的前向概率α(i,t),所以預(yù)計(jì)通過(guò)將NA設(shè)置為足夠的值,在幀t中,α(i,t)可以具有較高位的前向概率。
也就是說(shuō),預(yù)計(jì)獲取可取的近似值,用于計(jì)算幀t-1中的所有的前向概率α(j,t-1)(1=<j=<NS)。
當(dāng)幀寬度相對(duì)于輸入語(yǔ)音的時(shí)間改變足夠小時(shí),時(shí)間上彼此接近的語(yǔ)音特征矢量之間的差別也較小,因此,預(yù)計(jì)通過(guò)將NQ設(shè)置為對(duì)于同時(shí)滿足(t-q)<NQ和q=<t′<t的q,t,t′的足夠的值,輸出概率Bji(x(t′))和輸出概率Bji(x(t))之間的差將變得足夠小。也就是說(shuō),預(yù)計(jì)RSji=Bji(x(t′))變?yōu)锽ji(x(t))的可取的近似值。
(4)效果 在第一實(shí)施例所描述的語(yǔ)音識(shí)別裝置中,與利用現(xiàn)有技術(shù)中的表達(dá)式(11)計(jì)算前向概率相比,可以顯著地減少輸出概率的計(jì)算次數(shù),可以通過(guò)基于表達(dá)式(12)、表達(dá)式(13)和表達(dá)式(14)計(jì)算前向概率來(lái)獲得表達(dá)式(11)的可取的近似值。因此,在語(yǔ)音識(shí)別處理中,在不對(duì)識(shí)別性能產(chǎn)生不利影響的情況下,可以有效地減少輸出概率的計(jì)算次數(shù)。這對(duì)于有效地減少語(yǔ)音識(shí)別處理的計(jì)算代價(jià)是非常有效的。
(5)變形 本發(fā)明不局限于以上所示的實(shí)施例,在不脫離本發(fā)明的范圍的情況下可以做出各種修改。
(5-1)變形1 在第一實(shí)施例中,MFCC被用作聲音處理單元101中的語(yǔ)音特征矢量。
然而,該實(shí)施例不局限于特定的語(yǔ)音特征矢量,而是可以為任意的語(yǔ)音特征矢量(例如LPC或PLP)來(lái)實(shí)現(xiàn)。
(5-2)變形2 在第一實(shí)施例中,基于所估計(jì)的噪聲功率和輸入語(yǔ)音功率之間的比率的方法作為語(yǔ)音區(qū)間檢測(cè)單元102中的檢測(cè)語(yǔ)音區(qū)間的方法。
然而,該實(shí)施例不局限于特定的語(yǔ)音區(qū)間檢測(cè)方法,可以對(duì)任意的語(yǔ)音區(qū)間檢測(cè)方法來(lái)實(shí)現(xiàn),例如基于所估計(jì)的噪聲區(qū)間和所估計(jì)的語(yǔ)音區(qū)間之間的相似比的方法。
(5-3)變形3 在第一實(shí)施例中,在詞典單元103中使用具有圖17和圖18所示的結(jié)構(gòu)的HMM。
然而,該實(shí)施例不局限于具有特定結(jié)構(gòu)的HMM,而是可以為具有任意結(jié)構(gòu)的HMM實(shí)現(xiàn),例如具有各態(tài)歷經(jīng)結(jié)構(gòu)(ergodic structure)的HMM。
(5-4)變形4 在第一實(shí)施例中,在詞典單元103中使用作為輸出概率Bji(x)的如表達(dá)式(7)所示的污染正態(tài)分布的輸出概率的加權(quán)總和。
然而,從多個(gè)正態(tài)分布中選擇最大的輸出概率并且使用所選定的輸出概率作為輸出概率Bji(x)的方法也是可應(yīng)用的。
(5-5)變形5 在第一實(shí)施例中,在對(duì)照單元104中使用基于Viterbi方法的用于計(jì)算前向概率的表達(dá)式。
然而,實(shí)施例不局限于用于計(jì)算前向概率的特定的表達(dá)式,可以對(duì)于任意的用于計(jì)算前向概率的表達(dá)式來(lái)實(shí)現(xiàn),例如Trellis方法。
(5-6)變形6 在第一實(shí)施例中,在搜索對(duì)象選擇單元105中使用以下方法作為束搜索的方法,即,選擇具有從高位起的NA個(gè)前向概率的狀態(tài)。
然而,本發(fā)明不局限于特定的狀態(tài)選擇方法,可以對(duì)于任意的狀態(tài)選擇方法來(lái)實(shí)現(xiàn)。
(5-7)變形7 在第一實(shí)施例中,在存儲(chǔ)單元106中,固定的閾值NQ被用于確定從基準(zhǔn)幀至當(dāng)前幀經(jīng)過(guò)的幀數(shù)的閾值。
然而,本發(fā)明不局限于特定的更新基準(zhǔn)幀的方法,可以實(shí)現(xiàn)為任意的更新基準(zhǔn)幀的方法。
第二實(shí)施例 參考圖19至圖22,將描述根據(jù)第二實(shí)施例的語(yǔ)音識(shí)別裝置。
(1)語(yǔ)音識(shí)別裝置的結(jié)構(gòu) 圖19是顯示根據(jù)第二實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的框圖。
圖19中的語(yǔ)音識(shí)別裝置包括聲音處理單元101、語(yǔ)音區(qū)間檢測(cè)單元102、詞典單元203、對(duì)照單元204、搜索對(duì)象選擇單元105、存儲(chǔ)單元206和確定單元207。
與圖14中的根據(jù)第一實(shí)施例的部件具有相同參考標(biāo)記的聲音處理單元101、語(yǔ)音區(qū)間檢測(cè)單元102、搜索對(duì)象選擇單元105按照與第一實(shí)施例中相同的方式進(jìn)行工作,因此這里將省略其說(shuō)明。
(1-1)詞典單元203 與第一實(shí)施例中的詞典單元103一樣,詞典單元203存儲(chǔ)分配給不同類型的多個(gè)HMM。
與詞典單元103的不同點(diǎn)是一結(jié)構(gòu),其中,當(dāng)使用污染正態(tài)分布作為概率密度函數(shù)Bji()時(shí),某一正態(tài)分布被多個(gè)概率密度函數(shù)共同使用。
詞典單元203除了詞典單元103以外還包括表TNjim,其保存到正態(tài)分布的索引,其中,概率密度函數(shù)Bji()的第m個(gè)多維正態(tài)分布Gjim()構(gòu)成HMM,并且多維正態(tài)分布Gjim()用表達(dá)式(15)定義。
Gjim()=N(μm,∑n2) 其中n=TNjim...(15) 其中,μn指示HMM的第n個(gè)多維正態(tài)分布的平均矢量,并且∑n指示HMM的第n個(gè)多維正態(tài)分布的協(xié)方差矩陣。
滿足1=<n=<NM,并且NN指示由HMM擁有的唯一正態(tài)分布的數(shù)量。此外,當(dāng)j1不等于j2時(shí),并且同時(shí)i1不等于i2,對(duì)于(j1,i1,m1)和(j2,i2,m2)可以滿足n=TNj1i1m=TNj2i2m。在這種情況下,由兩個(gè)概率密度函數(shù)Bj1i1()和Bj2i2()共同使用正態(tài)分布N(μn,∑n)。
(1-2)對(duì)照單元204 對(duì)照單元204按照與第一實(shí)施例中的對(duì)照單元104相同的方式執(zhí)行HMM和語(yǔ)音特征矢量序列之間的對(duì)照。然而,對(duì)照單元204根據(jù)上述的詞典單元204、隨后描述的存儲(chǔ)單元206和確定單元207的操作,執(zhí)行部分不同于對(duì)照單元104的操作。這點(diǎn)將在隨后描述。
(1-3)存儲(chǔ)單元206 存儲(chǔ)單元206除第一實(shí)施例中的存儲(chǔ)單元106之外還存儲(chǔ)正態(tài)分布的輸出概率緩沖RNn(1=<n=NN)。
在對(duì)照單元204的處理中,當(dāng)在某一幀t中的輸出概率Bji(x(t))的計(jì)算中根據(jù)表達(dá)式(7)和表達(dá)式(15)計(jì)算第n正態(tài)分布的輸出概率N(μn,∑n)時(shí),存儲(chǔ)單元206存儲(chǔ)計(jì)算結(jié)果。也就是說(shuō),使得RNn=N(μn,∑n)。
(1-4)確定單元207 確定單元207除第一實(shí)施例中的確定單元107之外還存儲(chǔ)標(biāo)志FNn。標(biāo)志FNn的每個(gè)元素取兩個(gè)值
之一,并且當(dāng)正態(tài)分布的輸出概率N(μn,∑n)存儲(chǔ)在存儲(chǔ)單元206中的正態(tài)分布的輸出概率緩沖RNn中時(shí)被設(shè)置為1,如果不,則設(shè)置為0。
也就是說(shuō),通過(guò)參考標(biāo)志FNn,可以確定正態(tài)分布的輸出概率是否存儲(chǔ)在存儲(chǔ)單元206的正態(tài)分布的輸出概率緩沖RNn中。當(dāng)存儲(chǔ)在存儲(chǔ)單元206中的基準(zhǔn)幀q取初始值1時(shí),或者當(dāng)基準(zhǔn)幀q被更新時(shí),標(biāo)志FNn的所有元素被設(shè)置為0。
(2)輸出概率P(X)的計(jì)算 現(xiàn)在參考圖20、圖21和圖22中的流程圖,將描述在圖19中的語(yǔ)音識(shí)別裝置中,用于計(jì)算分配給某一類型的HMM中的語(yǔ)音特征矢量序列X的輸出概率P(X)的處理的流程。
然而,因?yàn)榕c第一實(shí)施例中的圖15和圖16中的步驟具有相同的參考標(biāo)記的圖20和圖21中的處理步驟未從第一實(shí)施例進(jìn)行修改,所以這里省略其描述。
與第一實(shí)施例中的詞典單元103、對(duì)照單元104、存儲(chǔ)單元106和確定單元107相關(guān)的處理步驟的描述可以被替換為與第二實(shí)施例中的詞典單元203、對(duì)照單元204、存儲(chǔ)單元206和確定單元207相關(guān)的處理步驟的描述。
以下詳細(xì)地描述圖20中的流程圖中的處理。流程圖說(shuō)明了計(jì)算各個(gè)幀中的前向概率α(i,t)的過(guò)程,以及獲取幀t中的語(yǔ)音特征矢量序列X的輸出概率P(X)的過(guò)程。
在步驟P203,確定單元207對(duì)于所有的組合(j,i)(其中,1=<j,i=<NS)將標(biāo)志FSji初始化為0,然后,對(duì)于所有的“n”(其中,1=<n=<NN),將標(biāo)志FNn初始化為0。
在步驟P204,對(duì)照單元204根據(jù)步驟P200中的過(guò)程計(jì)算當(dāng)前幀t=1中的前向概率α(i,t)。也就是說(shuō),對(duì)照單元204獲取幀1中的前向概率。隨后詳細(xì)地描述步驟P200。
在步驟P208,對(duì)照單元204根據(jù)步驟P220中的過(guò)程計(jì)算當(dāng)前幀t中的前向概率α(i,t)。也就是說(shuō),對(duì)照單元204獲取幀t的前向概率,而不更新基準(zhǔn)幀q。隨后詳細(xì)地描述步驟P220。
在步驟P210,確定單元207對(duì)于所有的組合(j,i)(其中,1=<j,i=<NS)將標(biāo)志FSji初始化為0。確定單元207更進(jìn)一步地對(duì)于所有的“n”(其中,1=<n=<NN),將標(biāo)志FNn初始化為0。
在步驟P211,對(duì)照單元204根據(jù)步驟P220中的過(guò)程計(jì)算當(dāng)前幀t中的前向概率α(i,t)。也就是說(shuō),對(duì)照單元204更新基準(zhǔn)幀q,然后獲取當(dāng)前幀t的前向概率。隨后詳細(xì)地描述步驟P220。
(3)前向概率α(i,t)的計(jì)算 以下詳細(xì)地描述圖21中的流程圖中的處理。該流程圖示意性地說(shuō)明了各個(gè)幀中的前向概率α(i,t)的計(jì)算。
在步驟P225,對(duì)照單元204根據(jù)步驟P225中的過(guò)程計(jì)算當(dāng)前幀t中的語(yǔ)音特征矢量x(t)的輸出概率Bji(x(t))。隨后詳細(xì)地描述步驟P225。
(4)輸出概率Bji(x(t))的詳細(xì)說(shuō)明 接下來(lái),以下詳細(xì)地描述圖22中的流程圖中的處理。該流程圖詳細(xì)地說(shuō)明了輸出概率Bji(x(t))。
在步驟P231,對(duì)照單元204為由Bji(x(t))的計(jì)算所參考的正態(tài)分布Gjim的所有m(1=<m=<M)執(zhí)行稍后描述的步驟P232至步驟P237。
在步驟P232,詞典單元203使用保存對(duì)正態(tài)分布的索引的表TNjim獲取多維正態(tài)分布的索引n。也就是說(shuō),使得n=TNjim。
在步驟P233,確定單元207根據(jù)在步驟P232所獲得的索引n參考標(biāo)志FNm,并且,當(dāng)FNn=1滿足時(shí),即,當(dāng)輸出概率存儲(chǔ)在存儲(chǔ)單元206的正態(tài)分布的輸出概率緩沖RNn中時(shí),過(guò)程進(jìn)入步驟P237。當(dāng)FNn=1不滿足時(shí),即,當(dāng)輸出概率未存儲(chǔ)在正態(tài)分布的輸出概率緩沖RNn中時(shí),過(guò)程進(jìn)入步驟P234至步驟P236,其中,計(jì)算正態(tài)分布的輸出概率并且存儲(chǔ)其。
在步驟P234,對(duì)照單元204為具有索引n的正態(tài)分布Gjim()=N(μn,∑n)計(jì)算當(dāng)前幀t中的語(yǔ)音特征矢量x(t)的輸出概率Gjim(x(t))。
在步驟P235,存儲(chǔ)單元206將在步驟P125中計(jì)算的正態(tài)分布的輸出概率Gjim(x(t))存儲(chǔ)在正態(tài)分布的輸出概率緩沖RNn中。也就是說(shuō),使得RNn=Gjim(x(t))。
在步驟P236,確定單元207將數(shù)值1設(shè)置給標(biāo)志FNn,其指示輸出概率存儲(chǔ)在存儲(chǔ)單元206中的正態(tài)分布的輸出概率緩沖RNn中。也就是說(shuō),使得FNn=1。
在步驟P237,對(duì)照單元204利用存儲(chǔ)在存儲(chǔ)單元106的輸出概率緩沖RNn中的輸出概率對(duì)正態(tài)分布的輸出概率Gjim(x(t))進(jìn)行粗略估計(jì)。也就是說(shuō),使得Gjim(x(t))=RNn。
在步驟P238,對(duì)照單元204根據(jù)在上述步驟P235中計(jì)算的正態(tài)分布的輸出概率以及在上述步驟P228中獲得的正態(tài)分布的近似值來(lái)計(jì)算當(dāng)前幀t的輸出概率Bji(x(t))。當(dāng)考慮步驟P231至步驟P237時(shí),用于計(jì)算輸出概率Bji(x(t))的表達(dá)式是如下所示的表達(dá)式(16)、表達(dá)式(17)和表達(dá)式(18)。這三個(gè)表達(dá)式是在第一實(shí)施例中將用表達(dá)式(7)替換的表達(dá)式。
對(duì)于滿足n=TNjim和FNn=1的(m,n) 其中Gjim()=N(μn,∑n2) ...(16) 對(duì)于滿足n=TNjim和FNn=0的(m,n) B ji(x(t))=B1ji(x(t))+B2ji(x(t))...(18) 因?yàn)樵诒磉_(dá)式(16)、表達(dá)式(17)和表達(dá)式(18)中,僅僅為同時(shí)滿足n=TNjim和FNn=1的(m,n)而執(zhí)行正態(tài)分布的輸出概率Gjim(x(t))的計(jì)算,因此,與表達(dá)式第二實(shí)施例中的表達(dá)式(7)相比,可以顯著地減少正態(tài)分布的輸出概率的計(jì)算次數(shù)。
這時(shí),當(dāng)相對(duì)于輸入語(yǔ)音的時(shí)間改變的幀寬度非常小時(shí),時(shí)間上彼此接近的語(yǔ)音特征矢量之間的差別也較小,因此,預(yù)計(jì)通過(guò)將NQ設(shè)置為對(duì)于q,t,t′來(lái)講足夠的值,其滿足(t-q)<NQ和=<t′<t,則正態(tài)分布的輸出概率Gjim(x(t′)和Gjim(x(t))之間的差將變得足夠小。
也就是說(shuō),預(yù)計(jì)RNn=Gjim(x(t′))變?yōu)镚jim(x(t))的可取的近似值,其中,n=TNjim。
(5)效果 也就是說(shuō),在第二實(shí)施例所描述的語(yǔ)音識(shí)別裝置中,與在第一實(shí)施例中利用表達(dá)式(7)計(jì)算輸出概率相比,通過(guò)基于表達(dá)式(16)、表達(dá)式(17)和表達(dá)式(18)來(lái)計(jì)算輸出概率,可以顯著地減少正態(tài)分布的計(jì)算次數(shù),并且可以獲得表達(dá)式(7)的可取的近似值。
因此,在語(yǔ)音識(shí)別處理中,可以減少正態(tài)分布的計(jì)算次數(shù),即,可以在對(duì)識(shí)別性能沒(méi)有不利影響的情況下有效地減少輸出概率的計(jì)算代價(jià)。這對(duì)于有效地減少語(yǔ)音識(shí)別處理的計(jì)算代價(jià)是非常有效的。
第三實(shí)施例 現(xiàn)在參考圖23至圖25描述根據(jù)第三實(shí)施例的語(yǔ)音識(shí)別裝置。
(1)語(yǔ)音識(shí)別裝置的結(jié)構(gòu) 圖23是顯示根據(jù)第三實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的例子的框圖。
圖23中所示的語(yǔ)音識(shí)別裝置包括聲音處理單元101、語(yǔ)音區(qū)間檢測(cè)單元102、詞典單元103、對(duì)照單元304、搜索對(duì)象選擇單元105、存儲(chǔ)單元106和確定單元107。
這里,因?yàn)榕c第一實(shí)施例的圖14中的相應(yīng)部件具有相同參考標(biāo)記的聲音處理單元101、語(yǔ)音區(qū)間檢測(cè)單元102、詞典單元103、搜索對(duì)象選擇單元105、存儲(chǔ)單元106以及確定單元107按照與第一實(shí)施例中相同的方式進(jìn)行工作,因此這里將省略其說(shuō)明。
對(duì)照單元304按照與第一實(shí)施例中的對(duì)照單元104相同的方式執(zhí)行HMM和語(yǔ)音特征矢量序列之間的對(duì)照。然而,部分操作與對(duì)照單元104不同。也就是說(shuō),在某一幀t的前向概率的計(jì)算中,當(dāng)需要計(jì)算語(yǔ)音特征矢量的輸出概率時(shí),存儲(chǔ)在存儲(chǔ)單元106中的基準(zhǔn)幀q的語(yǔ)音特征矢量x(q)的輸出概率Bji(x(q))被用作當(dāng)前幀t中的語(yǔ)音特征矢量x(t)的輸出概率Bji(x(t))的近似值。
(2)輸出概率P(X)的計(jì)算 現(xiàn)在參考圖24和圖25中的流程圖,將描述在圖23中的語(yǔ)音識(shí)別裝置中計(jì)算分配給某一類型的HMM中的語(yǔ)音特征矢量序列X的輸出概率P(X)的處理的流程。
然而,因?yàn)榕c第一實(shí)施例中的圖15和圖16中的步驟具有相同的參考標(biāo)記的圖24和圖25中的處理步驟未從第一實(shí)施例進(jìn)行修改,所以這里省略其描述。
然而,與第一實(shí)施例中的對(duì)照單元104有關(guān)的處理步驟的說(shuō)明可以被替換為與第四實(shí)施例中的對(duì)照單元304有關(guān)的操作的說(shuō)明。圖24中的流程圖中的處理與第一實(shí)施例中的圖15中的流程圖相同,所以省略其說(shuō)明。
以下詳細(xì)地描述圖25中的流程圖中的處理。在該流程圖中,用步驟P325和步驟P239替代第一實(shí)施例的圖16中的流程圖中的步驟P125和步驟P129。
在步驟P325中,對(duì)照單元304利用表達(dá)式(7)和表達(dá)式(8)計(jì)算對(duì)應(yīng)于存儲(chǔ)單元1 06的基準(zhǔn)幀編號(hào)q的語(yǔ)音特征矢量x(q)的輸出概率Bji(x(q)),并且使用所計(jì)算的結(jié)果作為當(dāng)前幀t中的語(yǔ)音特征矢量x(t)的輸出概率Bji(x(t))的代替。
在步驟P239,基于在如上所述的步驟P325中計(jì)算的輸出概率的近似值以及在步驟P128中獲得的輸出概率的近似值來(lái)計(jì)算當(dāng)前幀t中的前向概率α(i,t)。用于計(jì)算所述前向概率α(i,t)的表達(dá)式是如下顯示的表達(dá)式(19)、表達(dá)式(20)以及表達(dá)式(21)。
這三個(gè)表達(dá)式是在第二實(shí)施例中將用表達(dá)式(12)、表達(dá)式(13)以及表達(dá)式(14)替換的表達(dá)式。
對(duì)于滿足FSji=0和{jSj∈SA}以及{iSi∈SB}的(j,i) 對(duì)于滿足FSji=1和{jSj∈SA}以及{iSi∈SB}的(j,i) α(i,t)=max(α1(i,t),α2(i,t))...(21)。
權(quán)利要求
1.一種使用HMM(隱馬爾可夫模型)從所提供的語(yǔ)音信號(hào)中識(shí)別語(yǔ)音的裝置,包括
聲音處理單元,用于從語(yǔ)音信號(hào)獲取具有恒定時(shí)間寬度的每個(gè)幀的語(yǔ)音特征矢量;
基準(zhǔn)幀存儲(chǔ)單元,用于確定各個(gè)幀中之一作為基準(zhǔn)幀,并且存儲(chǔ)基準(zhǔn)幀的幀編號(hào);
基準(zhǔn)幀更新單元,用于當(dāng)從基準(zhǔn)幀起已經(jīng)經(jīng)過(guò)了任意數(shù)量的幀時(shí),將基準(zhǔn)幀重置并且更新為基準(zhǔn)幀之后的所述任意數(shù)量的幀之后的幀,并且繼續(xù)更新直到序列中的最后一幀;
第一搜索范圍選擇單元,用于根據(jù)對(duì)于基準(zhǔn)幀的束搜索來(lái)選擇HMM的第一搜索范圍;
第一輸出概率計(jì)算單元,用于計(jì)算在第一搜索范圍內(nèi)的各個(gè)轉(zhuǎn)移路徑中的語(yǔ)音特征矢量的第一輸出概率;
第一輸出概率存儲(chǔ)單元,用于與各個(gè)轉(zhuǎn)移路徑相結(jié)合地存儲(chǔ)第一輸出概率;
第一輸出概率刪除單元,用于當(dāng)基準(zhǔn)幀被更新時(shí),刪除與轉(zhuǎn)移路徑相結(jié)合而存儲(chǔ)的所有的第一輸出概率;
第二搜索范圍選擇單元,用于當(dāng)基準(zhǔn)幀未被更新時(shí),根據(jù)對(duì)于從基準(zhǔn)幀到將更新的新的基準(zhǔn)幀的時(shí)間間隔之內(nèi)的各個(gè)幀的束搜索,選擇各個(gè)幀中的HMM的第二搜索范圍;
第二輸出概率計(jì)算單元,用于當(dāng)未存儲(chǔ)第一輸出概率和從基準(zhǔn)幀到當(dāng)前幀之前緊挨著的幀的時(shí)間間隔中的輸出概率時(shí),計(jì)算轉(zhuǎn)移路徑的當(dāng)前幀或轉(zhuǎn)移路徑的基準(zhǔn)幀中的語(yǔ)音特征矢量的第二輸出概率;
確定單元,用于確定在當(dāng)前幀的第二搜索范圍內(nèi)的各個(gè)轉(zhuǎn)移路徑中的第一輸出概率、或者與基準(zhǔn)幀和當(dāng)前幀之間存在的已經(jīng)過(guò)的幀有關(guān)的第二輸出概率是否與轉(zhuǎn)移路徑相結(jié)合;
近似值設(shè)置單元,用于當(dāng)存儲(chǔ)了與基準(zhǔn)幀和當(dāng)前幀之間的已經(jīng)過(guò)的幀有關(guān)的第一輸出概率或第二輸出概率時(shí),將與基準(zhǔn)幀和當(dāng)前幀之間的已經(jīng)過(guò)的幀有關(guān)的第一輸出概率或第二輸出概率設(shè)置為轉(zhuǎn)移路徑的第二輸出概率的近似值;
第二輸出概率存儲(chǔ)單元,用于與轉(zhuǎn)移路徑相結(jié)合地存儲(chǔ)第二輸出概率;
第二輸出概率刪除單元,用于當(dāng)基準(zhǔn)幀被更新時(shí),刪除與轉(zhuǎn)移路徑相結(jié)合而存儲(chǔ)的所有第二輸出概率;
前向概率計(jì)算單元,用于根據(jù)預(yù)先計(jì)算的前一幀的前向概率、當(dāng)前幀的所有近似值以及所有第二輸出概率來(lái)計(jì)算當(dāng)前幀的前向概率;以及
語(yǔ)音識(shí)別單元,用于計(jì)算各個(gè)HMM的前向概率直到最后一幀,然后提供分配給對(duì)于最后一幀提供最大前向概率的HMM的類型作為語(yǔ)音識(shí)別的結(jié)果。
2.根據(jù)權(quán)利要求1所述的裝置,其中,第一輸出概率和第二輸出概率中的概率密度函數(shù)是污染正態(tài)分布,
其中,所述HMM具有一種結(jié)構(gòu),在該結(jié)構(gòu)中,由多個(gè)概率密度函數(shù)共同使用任意的正態(tài)分布,
其中,當(dāng)計(jì)算各個(gè)轉(zhuǎn)移路徑中的第一輸出概率時(shí),所述第一輸出概率計(jì)算單元為構(gòu)成概率密度函數(shù)的各個(gè)正態(tài)分布計(jì)算語(yǔ)音特征矢量的輸出概率,并且與對(duì)應(yīng)的正態(tài)分布相結(jié)合地存儲(chǔ)各個(gè)正態(tài)分布的計(jì)算結(jié)果,
其中,所述第一輸出概率刪除單元?jiǎng)h除所有第一輸出概率并且刪除所有與正態(tài)分布相結(jié)合而存儲(chǔ)的語(yǔ)音特征矢量的輸出概率;
其中,當(dāng)計(jì)算第二輸出概率時(shí),所述第二輸出概率計(jì)算單元
(1)當(dāng)存儲(chǔ)了與正態(tài)分布相結(jié)合的計(jì)算結(jié)果時(shí),提供所存儲(chǔ)的計(jì)算結(jié)果作為正態(tài)分布的輸出概率的近似值,以及
(2)當(dāng)未存儲(chǔ)與正態(tài)分布相結(jié)合的計(jì)算結(jié)果時(shí),進(jìn)一步為正態(tài)分布計(jì)算語(yǔ)音特征矢量的輸出概率,并且重新與正態(tài)分布相結(jié)合地存儲(chǔ)計(jì)算結(jié)果,
為構(gòu)成概率密度函數(shù)的各個(gè)正態(tài)分布考慮語(yǔ)音特征矢量的輸出概率。
3.根據(jù)權(quán)利要求1所述的裝置,其中,所述基準(zhǔn)幀存儲(chǔ)單元除了存儲(chǔ)新的基準(zhǔn)幀的幀編號(hào)之外還存儲(chǔ)新的基準(zhǔn)幀的語(yǔ)音特征矢量,
其中,所述基準(zhǔn)幀更新單元除了更新新的基準(zhǔn)幀的幀編號(hào)之外還更新新的基準(zhǔn)幀的語(yǔ)音特征矢量,以及
其中,所述第二輸出概率計(jì)算單元計(jì)算基準(zhǔn)幀的語(yǔ)音特征矢量的第二輸出概率。
4.一種使用HMM(隱馬爾可夫模型)從所提供的語(yǔ)音信號(hào)中識(shí)別語(yǔ)音的方法,包括
從語(yǔ)音信號(hào)獲取具有恒定時(shí)間寬度的每個(gè)幀的語(yǔ)音特征矢量;
確定各個(gè)幀中之一作為基準(zhǔn)幀,并且存儲(chǔ)基準(zhǔn)幀的編號(hào);
當(dāng)從基準(zhǔn)幀起已經(jīng)經(jīng)過(guò)了任意數(shù)量的幀時(shí),將基準(zhǔn)幀重置并且更新為基準(zhǔn)幀之后的所述任意數(shù)量的幀之后的幀,并且繼續(xù)更新直到序列中的最后一幀;
根據(jù)對(duì)于基準(zhǔn)幀的束搜索來(lái)選擇HMM的第一搜索范圍;
計(jì)算在第一搜索范圍內(nèi)的各個(gè)轉(zhuǎn)移路徑中的語(yǔ)音特征矢量的第一輸出概率;
與各個(gè)轉(zhuǎn)移路徑相結(jié)合地存儲(chǔ)第一輸出概率;
當(dāng)基準(zhǔn)幀被更新時(shí),刪除與轉(zhuǎn)移路徑相結(jié)合而存儲(chǔ)的所有第一輸出概率;
當(dāng)基準(zhǔn)幀未被更新時(shí),根據(jù)對(duì)于從基準(zhǔn)幀到將更新的新的基準(zhǔn)幀的時(shí)間間隔之內(nèi)的各個(gè)幀的束搜索,選擇所述各個(gè)幀中的HMM的第二搜索范圍;
當(dāng)未存儲(chǔ)第一輸出概率和從基準(zhǔn)幀到當(dāng)前幀之前緊挨著的幀的時(shí)間間隔中的輸出概率時(shí),計(jì)算轉(zhuǎn)移路徑的當(dāng)前幀或轉(zhuǎn)移路徑的基準(zhǔn)幀中的語(yǔ)音特征矢量的第二輸出概率;
確定在當(dāng)前幀的第二搜索范圍內(nèi)的各個(gè)轉(zhuǎn)移路徑中的第一輸出概率、或者與基準(zhǔn)幀和當(dāng)前幀之間存在的已經(jīng)經(jīng)過(guò)的幀有關(guān)的第二輸出概率是否與轉(zhuǎn)移路徑相結(jié)合;
當(dāng)存儲(chǔ)了與基準(zhǔn)幀和當(dāng)前幀之間的已經(jīng)經(jīng)過(guò)的幀有關(guān)的第一輸出概率或第二輸出概率時(shí),將與基準(zhǔn)幀和當(dāng)前幀之間的已經(jīng)經(jīng)過(guò)的幀有關(guān)的第一輸出概率或第二輸出概率設(shè)置為轉(zhuǎn)移路徑的第二輸出概率的近似值;
重新與轉(zhuǎn)移路徑相結(jié)合地存儲(chǔ)第二輸出概率;
當(dāng)基準(zhǔn)幀被更新時(shí),刪除與轉(zhuǎn)移路徑相結(jié)合而存儲(chǔ)的所有第二輸出概率;
根據(jù)預(yù)先計(jì)算的前一幀的前向概率、當(dāng)前幀的所有近似值以及所有第二輸出概率來(lái)計(jì)算當(dāng)前幀的前向概率;以及
計(jì)算各個(gè)HMM的前向概率直到最后一幀,然后提供分配給對(duì)于最后一幀提供最大前向概率的HMM的類型作為語(yǔ)音識(shí)別的結(jié)果。
5.根據(jù)權(quán)利要求4所述的方法,其中,第一輸出概率和第二輸出概率中的概率密度函數(shù)是污染正態(tài)分布,
其中,所述HMM具有一種結(jié)構(gòu),在該結(jié)構(gòu)中,由多個(gè)概率密度函數(shù)共同使用任意的正態(tài)分布,
其中,當(dāng)計(jì)算各個(gè)轉(zhuǎn)移路徑中的第一輸出概率時(shí),第一輸出概率計(jì)算步驟為構(gòu)成概率密度函數(shù)的各個(gè)正態(tài)分布計(jì)算語(yǔ)音特征矢量的輸出概率,并且與對(duì)應(yīng)的正態(tài)分布相結(jié)合地存儲(chǔ)各個(gè)正態(tài)分布的計(jì)算結(jié)果,
其中,第一輸出概率刪除步驟刪除所有第一輸出概率的計(jì)算結(jié)果并且刪除所有與正態(tài)分布相結(jié)合而存儲(chǔ)的語(yǔ)音特征矢量的輸出概率的計(jì)算結(jié)果;
其中,當(dāng)計(jì)算第二輸出概率時(shí),第二輸出概率計(jì)算步驟
(1)當(dāng)存儲(chǔ)了與正態(tài)分布相結(jié)合的計(jì)算結(jié)果時(shí),提供所存儲(chǔ)的計(jì)算結(jié)果作為正態(tài)分布的輸出概率的近似值,以及
(2)當(dāng)未存儲(chǔ)與正態(tài)分布相結(jié)合的計(jì)算結(jié)果時(shí),進(jìn)一步為正態(tài)分布計(jì)算語(yǔ)音特征矢量的輸出概率,并且重新與正態(tài)分布相結(jié)合地存儲(chǔ)計(jì)算結(jié)果,
為構(gòu)成概率密度函數(shù)的各個(gè)正態(tài)分布考慮語(yǔ)音特征矢量的輸出概率。
6.根據(jù)權(quán)利要求4所述的方法,包括
在存儲(chǔ)步驟中,除了存儲(chǔ)新的基準(zhǔn)幀的幀編號(hào)之外還存儲(chǔ)新的基準(zhǔn)幀的語(yǔ)音特征矢量,
在更新步驟中,除了更新新的基準(zhǔn)幀的幀編號(hào)之外還更新新的基準(zhǔn)幀的語(yǔ)音特征矢量,以及
在計(jì)算步驟中,計(jì)算基準(zhǔn)幀的語(yǔ)音特征矢量的第二輸出概率。
全文摘要
一種本發(fā)明的實(shí)施例包括聲音處理功能、語(yǔ)音區(qū)間檢測(cè)功能、詞典功能、對(duì)照功能、搜索對(duì)象選擇功能、存儲(chǔ)功能以及確定功能,并且包括以下處理基于束搜索選擇搜索范圍,設(shè)置并存儲(chǔ)基準(zhǔn)幀,存儲(chǔ)某一轉(zhuǎn)移路徑的輸出概率,確定是否存儲(chǔ)了某一路徑的輸出概率,從而通過(guò)以下操作減少了輸出概率的計(jì)算次數(shù)基于束搜索選擇搜索范圍,在從設(shè)置基準(zhǔn)幀到更新基準(zhǔn)幀的時(shí)間間隔中只計(jì)算一次某一轉(zhuǎn)移路徑的輸出概率,存儲(chǔ)所計(jì)算的值,并且當(dāng)轉(zhuǎn)移路徑的輸出概率存儲(chǔ)在后續(xù)的幀中時(shí),使用所存儲(chǔ)的值作為輸出概率的近似值。
文檔編號(hào)G10L15/14GK101101751SQ20071012719
公開(kāi)日2008年1月9日 申請(qǐng)日期2007年7月4日 優(yōu)先權(quán)日2006年7月4日
發(fā)明者酒井優(yōu), 田中信一 申請(qǐng)人:株式會(huì)社東芝