欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識別的置信度判決方法及裝置的制作方法

文檔序號:2822352閱讀:356來源:國知局
專利名稱:語音識別的置信度判決方法及裝置的制作方法
技術領域
本發(fā)明涉及語音識別技術領域,尤其涉及一種語音識別的置信度判決方法及裝置。

背景技術
當前的自動語音識別系統(tǒng)完成的任務是,在識別語法(語言模型)范圍內,找出輸入語音(輸入的待識別語音)最相似的識別結果(最相似的文本內容)。相對于范圍有限的識別語法,輸入語音是無限的,當輸入語音的實際內容不在識別語法范圍之內,稱此輸入為集外詞。基于這個原因,自動語音識別系統(tǒng)不僅能夠給出識別結果,還應該給出該識別結果是輸入語音真實內容的可信度,本文將可信度稱為置信度,從而對集外詞進行有效的判決拒識,這個過程稱為置信度判決。
在置信度判決方面,前人開展了很多有意義的研究工作。最直接的做法是將根據聲學模型和識別語法所計算得到的輸入語音相對于識別結果的似然值(定義為聲學似然度和先驗概率乘積)或者是它的某種變換作為置信度,進行置信度判決。由于似然值原本是用于比較同一輸入語音條件下與識別語法所包含的各個文本內容的相似程度,以便選擇出最為相似的文本內容作為識別結果。而置信度判決任務需要面對不同的輸入語音,以便區(qū)分哪些語音屬于集外詞,而哪些屬于集內詞。似然值的取值范圍會因為輸入語音的長短、說話人、背景環(huán)境等因素的不同而變化很大,將似然值直接用于置信度判決,性能并不理想。隨著語音識別技術的不斷進展,估計出識別結果針對輸入語音的后驗概率,以此作為識別結果的置信度表現出了良好的性能。這類方法通常基于下面給出的貝葉斯公式和全概率公式計算出識別結果的后驗概率 ............公式1 上式中W代表識別結果,X代表輸入語音,P(W|X)為識別結果W相對于輸入語音X的后驗概率,該后驗概率可基于貝葉斯公式通過所述識別結果的先驗概率P(W)、所述識別結果對應于所述輸入語音的聲學似然度P(X|W)以及概率P(X)計算得到。先驗概率P(W)和聲學似然度P(X|W)都可通過預置的聲學模型和語言模型計算得到,而概率P(X)通常無法直接建模獲取,但可根據公式1中所給出的全概率公式計算,其中Ω代表輔助解碼空間,該空間是一個全路徑集合,包含的元素為全部競爭路徑,Wi代表Ω空間所包含的某條競爭路徑,P(Wi)和P(X|Wi)分別為該競爭路徑的先驗概率以及其對應于所述輸入語音的聲學似然度。嚴格的全概率公式需要在Ω空間包含的全部競爭路徑范圍內對P(Wi)P(X|Wi)項求和以計算概率P(X),不具備可實現性。前人研究表明,在Ω空間包含的全部競爭路徑中,僅有很小的一部分路徑對應的求和項P(Wi)P(X|Wi)對概率P(X)產生主要貢獻,這部分路徑稱為有效競爭路徑,僅采用有效競爭路徑估計P(X)是嚴格的全概率公式下的一個良好近似。因此,確定一個輔助解碼空間Ω并且在Ω之上準確高效地獲取有效競爭路徑是基于后驗概率置信度判決這一大類方法所需要解決的關鍵問題。過去發(fā)表的研究成果和專利大致有以下三種 (1)定義Ω為給定識別語法的解碼空間。在該空間上解碼得到識別結果的同時獲取有效競爭路徑,估計置信度; (2)定義Ω為全音素解碼網絡(又稱全音素解碼空間),在該網絡上進行同步解碼獲取有效競爭路徑,估計置信度; (3)預先訓練一個或多個廢料模型(又稱垃圾模型),或者通過對語音識別系統(tǒng)所使用聲學模型中的高斯分布群進行聚類等方法來模擬廢料模型,估計置信度,此時可以理解為把Ω定義為一個簡單的廢料循環(huán)空間,這種方法的重點不在于獲取競爭路徑,而是如何獲得能夠聲學上表征合理競爭空間的廢料模型。
上述方法都存在各自的缺點,方法(1)和方法(2)都定義了輔助解碼空間并且在其上進行解碼獲取有效競爭路徑,但方法(1)的輔助解碼空間定義為給定的識別語法解碼空間,競爭路徑的有效性非常依賴于識別語法自身,普適性較差;方法(2)采用全音素解碼網絡進行解碼,在解碼獲取有效競爭路徑的時候兼顧了包括時序信息、語言模型等重要知識,因此能夠比較準確地獲取有效競爭路徑,但是算法復雜度較大,在很多場合下難以應用于實時的語音識別系統(tǒng);方法(3)采用廢料模型直接作為有效競爭路徑,研究重點在于廢料模型的聲學空間建模,無法深入挖掘時序信息、語言模型等知識,取得的性能較為有限。


發(fā)明內容
本發(fā)明提供一種語音識別置信度判決方法及裝置,通過合理確定輔助解碼空間,使得所述輸入語音在該空間上快速、準確地解碼以獲取有效競爭路徑以及各競爭路徑對應的聲學似然度和先驗概率,從而對置信度進行更為準確和高效的估計。
為此,本發(fā)明實施例采用如下技術方案 一種語音識別的置信度判決方法,包括接收輸入語音,并確定所述輸入語音相對于識別語法的識別結果,所述識別結果中包括文本內容、先驗概率以及其對應于所述輸入語音的聲學似然度;確定所述輸入語音相對于本征音素解碼空間的競爭結果,所述競爭結果包括一個競爭路徑集合以及每一條競爭路徑的先驗概率以及其對應于所述輸入語音的聲學似然度;利用所述識別結果和競爭結果計算所述識別結果的置信度;其中,所述本征音素解碼空間的構建過程為對預先訓練的聲學模型中所包含的各音素進行聚類,得到本征音素集;重新訓練表征各本征音素的聲學模型和語言模型;基于所述本征音素集以及重新訓練得到的聲學模型和語言模型,構建本征音素解碼空間。
所述對預先訓練的聲學模型中所包含的各音素進行聚類得到本征音素集的過程為初始化音素聚類二叉樹,所述二叉樹僅包含一個葉子節(jié)點,所述葉子節(jié)點包含所有音素;選取音素聚類二叉樹的一個葉子節(jié)點進行分裂;判斷是否所有葉子節(jié)點都已不能分裂,若是,選取所有葉子節(jié)點及其包含的音素構成所述本征音素集,否則,轉至所述選取音素聚類二叉樹的一個葉子節(jié)點進行分裂的步驟。
所述音素聚類二叉樹的葉子節(jié)點進行分裂的過程為從音素分類二叉樹葉子節(jié)點所包含的音素中依次選取兩個音素作為分裂質心,分別計算其他音素與該兩個質心音素的聲學模型之間的散度距離,根據散度距離較小原則,以該兩個音素為質心將葉子節(jié)點包含的音素劃分成兩類;將上述各種劃分方式中散度距離之和最小的劃分方式作為該音素分類二叉樹的備選分裂方式;判斷該備選分裂方式的散度距離之和是否大于分裂門限,若是,按照備選分裂方式將節(jié)點分裂為兩個新的葉子節(jié)點,否則,確定該節(jié)點無法繼續(xù)分裂。
所述利用所述識別結果和競爭結果計算所述置信度的過程包括將所述識別結果的聲學似然度和先驗概率以及所述本征音素解碼空間的競爭結果包含的各競爭路徑的聲學似然度和先驗概率代入改進的全概率公式和貝葉斯公式,計算所述識別結果相對于輸入語音的后驗概率;將所述識別結果相對于輸入語音的后驗概率作為所述識別結果的置信度。
一種語音識別的置信度判決裝置,包括識別結果確定單元,用于確定接收到的輸入語音相對于識別語法的識別結果,所述識別結果包括文本內容、先驗概率以及其對應于所述輸入語音的聲學似然度;本征音素解碼空間構建單元,用于構建本征音素解碼空間;競爭結果確定單元,用于確定所述輸入語音相對于本征音素解碼空間的競爭結果,所述競爭結果包括一個競爭路徑集合以及每一條競爭路徑的先驗概率以及其對應于所述輸入語音的聲學似然度;置信度計算單元,用于利用所述識別結果確定單元確定的識別結果、所述競爭結果確定單元確定的競爭結果計算所述識別結果的置信度;其中,所述本征音素解碼空間構建單元進一步包括音素聚類子單元,用于對預先訓練的聲學模型中所包含的各音素進行聚類,得到本征音素集;重新訓練子單元,用于重新訓練表征各本征音素的聲學模型和語言模型;構建子單元,用于基于所述本征音素集以及重新訓練得到的聲學模型和語言模型,構建本征音素解碼空間。
所述音素聚類子單元進一步包括初始化模塊,用于初始化音素聚類二叉樹,所述二叉樹僅包含一個葉子節(jié)點,所述葉子節(jié)點包含所有音素;分裂模塊,用于選取音素聚類二叉樹的一個葉子節(jié)點進行分裂;循環(huán)模塊,用于判斷是否所有葉子節(jié)點都已不能分裂,若是,選取所有葉子節(jié)點及其包含的音素構成所述本征音素集,否則,啟動分裂模塊。
所述分裂模塊進一步包括分類子模塊,用于從音素分類二叉樹葉子節(jié)點所包含的音素中依次選取兩個音素作為分裂質心,分別計算其他音素與該兩個質心音素的聲學模型之間的散度距離,根據散度距離較小原則,以該兩個音素為質心將葉子節(jié)點包含的音素劃分成兩類;備選分裂方式劃分子模塊,用于將上述各種劃分方式中散度距離之和最小的劃分方式作為該音素分類二叉樹的備選分裂方式;判斷子模塊,用于判斷該備選分裂方式的散度距離之和是否大于分裂門限,若是,按照備選分裂方式將節(jié)點分裂為兩個新的葉子節(jié)點,否則,確定該節(jié)點無法繼續(xù)分裂。
所述置信度計算單元包括后驗概率計算模塊,用于將所述識別結果的聲學似然度和先驗概率得分以及所述本征音素解碼空間的競爭結果的聲學似然度和先驗概率得分代入改進的全概率公式和貝葉斯公式,計算所述識別結果相對于輸入語音的后驗概率;置信度輸出模塊,用于將所述識別結果相對于輸入語音的后驗概率作為所述識別結果的置信度。
與現有技術相比,本發(fā)明采用獨立的本征音素解碼空間進行識別得到競爭結果,不依賴于特定的識別語法,普適性較強;同時得到競爭結果的解碼空間是高度壓縮和去冗余的,相比全音素解碼空間的方法在運算量方面具有極大的簡化,更易被實時語音識別系統(tǒng)采納;采用競爭結果估計置信度,競爭結果是兼顧了時序信息、語言模型等重要知識在本征音素解碼空間上解碼得到的,相比重點考慮聲學空間建模的廢料模型方法估計置信度更加準確。



圖1為本發(fā)明語音識別的置信度判決方法流程圖; 圖2為圖1中步驟101音素聚類的流程圖; 圖3為圖2中步驟202葉子節(jié)點分裂的流程圖; 圖4為本發(fā)明語音識別的置信度判決裝置結構示意圖。

具體實施例方式 概括而言,本發(fā)明提供的語音識別的置信度判決方法包括以下三個步驟 1)接收輸入語音,并確定所述輸入語音相對于識別語法的識別結果,所述識別結果中包括文本內容、先驗概率以及其對應于所述輸入語音的聲學似然度; 2)同時確定所述輸入語音相對于本征音素解碼空間的競爭結果,所述競爭結果包括一個競爭路徑集合以及每一條競爭路徑的先驗概率以及其對應于所述輸入語音的聲學似然度; 3)利用所述識別結果、競爭結果,計算所述識別結果的置信度; 其中,步驟1)為現有技術,且為語音識別系統(tǒng)的必要模塊,此處不作過多介紹,重點在于步驟2)、3)針對置信度判決方法和裝置的改進,其中,所述本征音素解碼空間的構建過程為 1]對預先訓練的聲學模型中所包含的各音素進行聚類,得到本征音素集; 2]重新訓練表征各本征音素的聲學模型和語言模型; 3]基于所述本征音素集以及重新訓練得到的聲學模型和語言模型,構建本征音素解碼空間。
下面結合附圖和優(yōu)選實例對本發(fā)明做進一步描述。
圖1是本發(fā)明提供的應用于語音識別系統(tǒng)的置信度判決方法的流程圖,如圖所示 步驟101對聲學模型中所包含的各音素進行聚類,得到本征音素集。
其中,產生本征音素集的原理和具體過程如下 首先根據已經訓練好的各音素的聲學模型,計算各音素兩兩之間的聲學距離。各音素兩兩之間的聲學距離可采用基于HMM模型的散度距離Kullback-Leibler Divergence作為測度(以下簡稱為KLD)。然后采用質心分裂法進行音素聚類,最終得到用于置信度判決的本征音素集。如圖2所示,步驟101的具體實現過程為 步驟201初始化音素聚類二叉樹,此時二叉樹只有一個節(jié)點,該節(jié)點包含所有音素。
步驟202依次對二叉樹的葉子節(jié)點進行分裂。分裂的實施過程如圖3所示,包含如下步驟 步驟301從二叉樹葉子節(jié)點所包含的音素中依次選取兩個音素作為分裂質心,分別計算葉子節(jié)點中其他音素與該兩個質心音素的KLD,根據KLD較小原則,以該兩個音素為質心將葉子節(jié)點包含的音素劃分成兩類;若葉子節(jié)點包含M個音素,則產生/M*(M-1)/2種劃分方式。
步驟302將步驟301的各劃分方式中KLD之和最小的劃分方式作為該音素分類二叉樹節(jié)點的備選分裂方式。
步驟303對該備選分裂方式進行判斷,檢查其KLD之和是否大于預先設定的分裂門限。
步驟304如果該備選分裂方式的KLD之和大于分裂門限,則按照備選分裂方式將節(jié)點分裂為兩個新的葉子節(jié)點(原節(jié)點不再是葉子節(jié)點),每個葉子節(jié)點包含的音素依據步驟302的備選分裂方式確定。
步驟305如果該備選分裂方式的KLD之和小于分裂門限,或者葉子節(jié)點只包括2個音素,則該節(jié)點無法進行分裂。
步驟203判斷是否所有葉子節(jié)點都無法進行分裂,如果仍有葉子節(jié)點可以分裂,則繼續(xù)分裂。
步驟204如果所有葉子節(jié)點均不再滿足步驟304的分裂條件,則選取此刻音素聚類二叉樹的所有葉子節(jié)點及其各自所包含的音素作為最終用于置信度判決的本征音素集,音素聚類步驟完成。
步驟102基于步驟101所得到的每個本征音素及其所包含的音素列表,將傳統(tǒng)聲學模型和語言模型訓練數據中的音素都替換為其所對應的本征音素標號,然后在替換為本征音素標記的數據上,按照傳統(tǒng)聲學模型和語言模型的訓練流程,訓練得到本征音素的聲學模型和語言模型。
步驟101和步驟102可預先離線完成,所得到的本征音素集及其聲學模型和語言模型可以資源的方式供步驟103、104直接使用,不需要在實際語音識別和置信度判決過程中在線運行,從而并沒有額外增加計算量。
步驟103將步驟101得到的本征音素集以及步驟102得到的各本征音素的聲學模型和語言模型組成本征音素解碼空間,對輸入語音X進行解碼,得到本征音素解碼空間下的最優(yōu)N個解碼結果,記為競爭結果{Vi}i=1N。
競爭結果{Vi}i=1N包含了N條競爭路徑,每一競爭路徑擁有自己的似然值得分,即該競爭路徑的先驗概率與該競爭路徑對應于輸入語音的聲學似然度的乘積,記為P(Vi)P(X|Vi)。
需要說明的是,在構建好的解碼空間上解碼獲取競爭結果(即步驟103)為現有技術,此處不作贅述。
步驟104綜合識別結果W,本征音素解碼空間的解碼結果{Vi}i=1N以及相關聲學似然度和先驗概率計算該識別結果W的后驗概率P(W|X),將此后驗概率作為識別結果相對于所述輸入語音的置信度,完成置信度判決。計算識別結果的后驗概率公式如下 ...............公式2 公式2為改進的全概率公式和貝葉斯公式,式中P(W)P(X|W)為識別結果的先驗概率與識別結果對應于輸入語音的聲學似然度的乘積,其他項含義如前所述。
從上面介紹可知,本發(fā)明可以理解為提出了一種新方法來確定輔助解碼空間以獲取有效競爭路徑,完成基于后驗概率的置信度估計和判決。
與上述方法相對應,本發(fā)明還提供一種語音識別的置信度判決裝置,該裝置可以由軟件、硬件或軟硬件結合的方式實現。
參見圖4,為本發(fā)明裝置內部結構示意圖。該裝置包括 識別結果確定單元401,用于確定接收到的輸入語音相對于識別語法的識別結果,所述識別結果包括文本內容、先驗概率以及其對應于所述輸入語音的聲學似然度; 本征音素解碼空間構建單元402,用于構建本征音素解碼空間; 競爭結果確定單元403,用于確定本征音素解碼空間構建單元402構建的本征音素解碼空間的識別結果作為識別結果確定單元401確定的識別結果的競爭結果,所述競爭結果包括一個競爭路徑集合以及每一條競爭路徑的先驗概率以及對應于所述輸入語音的聲學似然度; 置信度計算單元404,用于利用識別結果確定單元401確定的識別結果和競爭結果確定單元403確定的競爭結果計算所述識別結果的置信度; 其中,所述本征音素解碼空間構建單元402進一步包括 音素聚類子單元4021,用于對預先訓練的聲學模型中所包含的各音素進行聚類,得到本征音素集; 重新訓練子單元4022,用于重新訓練表征各本征音素的聲學模型和語言模型; 構建子單元4023,用于基于所述本征音素集以及重新訓練得到的聲學模型和語言模型,構建本征音素解碼空間。
所述音素聚類子單元4021進一步包括(圖中未示出) 初始化模塊,用于初始化音素聚類二叉樹,所述二叉樹僅包含一個葉子節(jié)點,所述葉子節(jié)點包含所有音素; 分裂模塊,用于選取音素聚類二叉樹的一個葉子節(jié)點進行分裂; 循環(huán)模塊,用于判斷是否所有葉子節(jié)點都已不能分裂,若是,選取所有葉子節(jié)點及其包含的音素構成所述本征音素集,否則,啟動分裂模塊。
所述分裂模塊進一步包括(圖中未示出) 分類子模塊,用于從音素分類二叉樹葉子節(jié)點所包含的音素中依次選取兩個音素作為分裂質心,分別計算其他音素與該兩個質心音素的聲學模型之間的散度距離,根據散度距離較小原則,以該兩個音素為質心將葉子節(jié)點包含的音素劃分成兩類; 備選分裂方式劃分子模塊,用于將上述各種劃分方式中散度距離之和最小的劃分方式作為該音素分類二叉樹的備選分裂方式; 判斷子模塊,用于判斷該備選分裂方式的散度距離之和是否大于分裂門限,若是,按照備選分裂方式將節(jié)點分裂為兩個新的葉子節(jié)點,否則,確定該節(jié)點無法繼續(xù)分裂。
所述置信度計算單元404包括(圖中未示出) 后驗概率計算模塊,用于將所述識別結果的聲學似然度和先驗概率得分以及所述本征音素解碼空間的競爭結果的聲學似然度和先驗概率得分代入改進的全概率公式和貝葉斯公式,計算所述識別結果相對于輸入語音的后驗概率; 置信度輸出模塊,用于將所述識別結果相對于輸入語音的后驗概率作為所述識別結果的置信度。。
可見,本發(fā)明提出了一種基于本征音素解碼空間的置信度判決方法,基于各音素之間的相似性,利用聚類算法將各相似的音素進行合并,得到本征音素集,在此基礎上訓練出各本征音素的聲學模型和語言模型,從而對全音素解碼空間進行有效的壓縮和去冗余,構成新的本征音素解碼空間,在壓縮全音素解碼空間的同時仍然保留了時序信息和語言模型等相關重要知識,克服了丟棄這些知識對置信度判決性能帶來的不利影響,同時使得整個置信度判決過程的運算量得到極大的簡化,更易被實時的語音識別系統(tǒng)所采納。由于采用了額外的本征音素解碼空間,而不是基于自身識別語法的解碼空間,即使在自身識別語法解碼空間無法產生足夠的有效競爭路徑的情況下仍然能夠獲取充分的競爭路徑用于置信度判決,因此在任意的識別語法上都能夠達到良好的置信度判決性能,具有較好的普適性。
本領域普通技術人員可以理解,實現上述實施例的方法的過程可以通過程序指令相關的硬件來完成,所述的程序可以存儲于可讀取存儲介質中,該程序在執(zhí)行時執(zhí)行上述方法中的對應步驟。所述的存儲介質可以如ROM/RAM、磁碟、光盤等。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
權利要求
1.一種語音識別的置信度判決方法,其特征在于,包括
接收輸入語音,并確定所述輸入語音相對于識別語法的識別結果,所述識別結果包括文本內容、先驗概率以及其對應于所述輸入語音的聲學似然度;
同時確定所述輸入語音相對于本征音素解碼空間的競爭結果,所述競爭結果包括一個競爭路徑集合以及每一條競爭路徑的先驗概率以及其對應于所述輸入語音的聲學似然度;
利用所述識別結果和競爭結果計算所述識別結果的置信度;
其中,所述本征音素解碼空間的構建過程為
對預先訓練的聲學模型中所包含的各音素進行聚類,得到本征音素集;
重新訓練表征各本征音素的聲學模型和語言模型;
基于所述本征音素集以及重新訓練得到的聲學模型和語言模型,構建本征音素解碼空間。
2.根據權利要求1所述方法,其特征在于,所述對預先訓練的聲學模型中所包含的各音素進行聚類得到本征音素集的過程為
初始化音素聚類二叉樹,所述二叉樹僅包含一個葉子節(jié)點,所述葉子節(jié)點包含所有音素;
選取音素聚類二叉樹的一個葉子節(jié)點進行分裂;
判斷是否所有葉子節(jié)點都已不能分裂,若是,選取所有葉子節(jié)點及其包含的音素構成所述本征音素集,否則,轉至所述選取音素聚類二叉樹的一個葉子節(jié)點進行分裂的步驟。
3.根據權利要求2所述方法,其特征在于,所述音素聚類二叉樹的葉子節(jié)點進行分裂的過程為
從音素分類二叉樹葉子節(jié)點所包含的音素中依次選取兩個音素作為分裂質心,分別計算其他音素與該兩個質心音素的聲學模型之間的散度距離,根據散度距離較小原則,以該兩個音素為質心將葉子節(jié)點包含的音素劃分成兩類;
將上述各種劃分方式中散度距離之和最小的劃分方式作為該音素分類二叉樹的備選分裂方式;
判斷該備選分裂方式的散度距離之和是否大于分裂門限,若是,按照備選分裂方式將節(jié)點分裂為兩個新的葉子節(jié)點,否則,確定該節(jié)點無法繼續(xù)分裂。
4.根據權利要求1、2或3所述方法,其特征在于,所述利用所述識別結果和競爭結果計算所述置信度的過程包括
將所述識別結果的聲學似然度和先驗概率以及所述本征音素解碼空間的競爭結果包含的各競爭路徑的聲學似然度和先驗概率代入改進的全概率公式和貝葉斯公式,計算所述識別結果相對于輸入語音的后驗概率;將所述識別結果相對于輸入語音的后驗概率作為所述識別結果的置信度。
5.一種語音識別的置信度判決裝置,其特征在于,包括
識別結果確定單元,用于確定接收到的輸入語音相對于識別語法的識別結果,所述識別結果包括文本內容、先驗概率以及其對應于所述輸入語音的聲學似然度;
本征音素解碼空間構建單元,用于構建本征音素解碼空間;
競爭結果確定單元,用于確定所述輸入語音相對于本征音素解碼空間的競爭結果,所述競爭結果包括一個競爭路徑集合以及每一條競爭路徑的先驗概率以及其對應于所述輸入語音的聲學似然度;
置信度計算單元,用于利用所述識別結果確定單元確定的識別結果、所述競爭結果確定單元確定的競爭結果計算所述識別結果的置信度;
其中,所述本征音素解碼空間構建單元進一步包括
音素聚類子單元,用于對預先訓練的聲學模型中所包含的各音素進行聚類,得到本征音素集;
重新訓練子單元,用于重新訓練表征各本征音素的聲學模型和語言模型;
構建子單元,用于基于所述本征音素集以及重新訓練得到的聲學模型和語言模型,構建本征音素解碼空間。
6.根據權利要求5所述裝置,其特征在于,所述音素聚類子單元進一步包括
初始化模塊,用于初始化音素聚類二叉樹,所述二叉樹僅包含一個葉子節(jié)點,所述葉子節(jié)點包含所有音素;
分裂模塊,用于選取音素聚類二叉樹的一個葉子節(jié)點進行分裂;
循環(huán)模塊,用于判斷是否所有葉子節(jié)點都已不能分裂,若是,選取所有葉子節(jié)點及其包含的音素構成所述本征音素集,否則,啟動分裂模塊。
7.根據權利要求6所述裝置,其特征在于,所述分裂模塊進一步包括
分類子模塊,用于從音素分類二叉樹葉子節(jié)點所包含的音素中依次選取兩個音素作為分裂質心,分別計算其他音素與該兩個質心音素的聲學模型之間的散度距離,根據散度距離較小原則,以該兩個音素為質心將葉子節(jié)點包含的音素劃分成兩類;
備選分裂方式劃分子模塊,用于將上述各種劃分方式中散度距離之和最小的劃分方式作為該音素分類二叉樹的備選分裂方式;
判斷子模塊,用于判斷該備選分裂方式的散度距離之和是否大于分裂門限,若是,按照備選分裂方式將節(jié)點分裂為兩個新的葉子節(jié)點,否則,確定該節(jié)點無法繼續(xù)分裂。
8.根據權利要求5、6或7所述裝置,其特征在于,所述置信度計算單元包括
后驗概率計算模塊,用于將所述識別結果的聲學似然度和先驗概率以及所述本征音素解碼空間的競爭結果的聲學似然度和先驗概率代入改進的全概率公式和貝葉斯公式,計算所述識別結果相對于輸入語音的后驗概率;
置信度輸出模塊,用于將所述識別結果相對于輸入語音的后驗概率作為所述識別結果的置信度。
全文摘要
本發(fā)明公開了一種語音識別的置信度判決方法及裝置,其中的方法包括接收輸入語音,并確定所述輸入語音相對于識別語法的識別結果;確定所述輸入語音相對于本征音素解碼空間的競爭結果;利用所述識別結果及競爭結果計算所述識別結果的置信度;其中,所述本征音素解碼空間的構建過程為對預先訓練的聲學模型中所包含的各音素進行聚類,得到本征音素集;重新訓練表征各本征音素的聲學模型和語言模型;基于所述本征音素集以及重新訓練得到的聲學模型和語言模型,構建本征音素解碼空間。本發(fā)明通過對各音素聚類構建出本征音素解碼空間,基于該空間進行解碼獲取競爭結果,可確保競爭結果獲取快速、有效、普適,從而對置信度進行更為準確和高效的估計。
文檔編號G10L15/10GK101763855SQ200910226110
公開日2010年6月30日 申請日期2009年11月20日 優(yōu)先權日2009年11月20日
發(fā)明者王智國, 王海坤, 胡國平, 魏思, 潘青華, 胡郁, 劉慶峰 申請人:安徽科大訊飛信息科技股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
图们市| 徐闻县| 阳高县| 普安县| 大名县| 简阳市| 昌图县| 那坡县| 乃东县| 商都县| 阿克陶县| 浦县| 上林县| 刚察县| 改则县| 宾川县| 绥阳县| 常德市| 桦川县| 台东市| 塘沽区| 会昌县| 安陆市| 新闻| 临沭县| 合川市| 集贤县| 台南县| 乐平市| 梁平县| 石渠县| 辉南县| 尚志市| 宁强县| 双桥区| 平乡县| 宜兴市| 杨浦区| 拉萨市| 凤山县| 理塘县|