本發(fā)明涉及語音識別,特別是涉及基于激勵ctc及子詞解碼的海南方言語音識別方法。
背景技術:
1、自動語音識別(asr)技術能夠將人類的語音轉換為文本,從而為語音搜索、語音助手等應用提供支持,目前asr技術已得到廣泛應用。asr技術在處理普通話等主流語言時已經取得了顯著的進展,但海南方言的語音數據資源較為稀缺,這限制了asr技術在這一領域的應用和發(fā)展。
2、海南方言語音識別技術可以為當地的旅游、醫(yī)療、養(yǎng)老等產業(yè)提供服務支持,提高服務質量和效率,該技術也可以促進海南地區(qū)的信息化建設和發(fā)展,但缺乏足夠的訓練數據導致語音識別系統(tǒng)的性能受限,對于海南方言的識別能力相對較弱。
3、相對于稀缺的海南方言音頻-文本配對數據,實際生產中獲取純文本數據的成本確實更低,且可獲取的純文本數據數量往往比音頻-文本配對數據多出數個甚至數十個數量級,因此,在缺乏音頻-文本配對數據的情況下,可以利用現有的大量純文本數據來輔助語音識別模型的訓練;
4、利用純文本數據提升語音識別準確率是端到端asr研究的關鍵,常用方法是融合外部語言模型(elm),通過淺融合(shallow?fusion)方式結合asr系統(tǒng)得分與elm得分,從而有效利用文本信息,提升識別性能,但是目前的語言模型融合通常都在解碼階段進行外部語言模型的融合,容易導致外部語言模型的輸出與聲學模型的輸出產生沖突,導致信息混淆,從而影響最終的語音識別結果。
技術實現思路
1、針對上述現有技術,本發(fā)明在于提供基于激勵ctc及子詞解碼的海南方言語音識別方法,主要解決上述背景技術中存在的技術問題。
2、為達到上述目的,本發(fā)明實施例的技術方案是這樣實現的:
3、基于激勵ctc及子詞解碼的海南方言語音識別方法,所述方法包括以下步驟:
4、步驟s1:獲取海南方言語音信號,將所述海南方言語音信號進行處理提取聲學特征;獲取文本數據,將所述文本數據進行處理提取語言特征;
5、步驟s2:構建語音識別模型,所述語音識別模型包含聲學模型、rnn語言模型、改進ctc損失函數以及解碼器,在訓練過程中,基于所述改進ctc損失函數對所述聲學模型、所述rnn語言模型進行參數優(yōu)化,最終得到訓練后的語音識別模型;
6、步驟s3:引入子詞模型,構建tslg解碼圖,基于所述tslg解碼圖采用所述訓練后的語音識別模型進行海南方言識別,得到海南方言識別結果。
7、可選地,在訓練過程中,基于所述改進ctc損失函數對所述聲學模型、所述rnn語言模型進行參數優(yōu)化,具體包括,將所述聲學特征、所述文本數據輸入聲學模型,將所述語言特征輸入所述rnn語言模型,基于所述改進ctc損失函數調整所述聲學模型和所述rnn語言模型的參數,使所述語音識別模型隱式地習得所述聲學特征與對應文本標簽的依賴關系。
8、可選地,所述引入子詞模型,構建tslg解碼圖,基于所述tslg解碼圖采用訓練后的所述語音識別模型進行海南方言識別,得到海南方言識別結果,具體包括,將海南方言語音信號輸入聲學模型,得到音素序列函數,引入子詞模型,構建tslg解碼圖,通過解碼器中的tslg解碼圖對所述音素序列函數進行子詞解碼得到n-best候選結果,并基于所述rnn語言模型進行重打分,基于打分結果得到海南方言識別結果。
9、可選地,所述改進ctc損失函數的表達式具體為:
10、
11、其中,表示標準ctc損失函數,表示rnn語言模型損失函數,表示激勵損失函數,α和β是權重因子。
12、可選地,所述rnn語言模型損失函數的具體公式為:
13、
14、其中,wk表示第k個標簽,k為標簽序列長度,被定義為rnn編碼的語言模型狀態(tài),該狀態(tài)綜合了直至第k-1個標簽為止的歷史信息。
15、可選地,所述激勵損失函數的具體公式為:
16、
17、其中,為隱藏狀態(tài),為標簽歷史信息,γt(k)為標簽wk與時間t對齊的概率,k為標簽序列長度,t為時間序列長度。
18、可選地,所述引入子詞模型的的具體表達式為:
19、s∈ψ(w)
20、
21、其中,w為基于n-gram語言模型得到的單詞序列,x為基于聲學模型得到的聲學特征序列,s為基于子詞模型得到的子詞序列,ψ是一個將單詞序列w轉換為一組可能的子詞序列s的函數,pr(s|x)是聲學模型概率,pr(w)是n-gram語言模型概率,α是聲學模型的比例因子,pr(s)是子詞模型概率,β是子詞模型的比例因子,pr(w|s)為給定子詞序列s時單詞序列w的后驗概率,pr(s|w)為單詞到子詞的轉換概率。
22、可選地,所述引入子詞模型,構建tslg解碼圖的步驟,包括:
23、引入子詞模型,外部n-gram語言模型和詞典,分別構建所述子詞模型、所述詞典和所述n-gram語言模型對應的wfst有向有環(huán)圖,將所述聲學模型、所述詞典、所述n-gram語言模型的wfst有向有環(huán)圖進行復合編譯,得到基于tlg的解碼圖;將所述子詞模型對應的wfst有向有環(huán)圖與所述基于tlg的解碼圖進行復合編譯,得到基于tslg的解碼圖。
24、可選地,所述構建tslg解碼圖的具體表達式為:
25、
26、
27、其中,tlg為基于tlg的解碼圖,g為n-gram語言模型,l為詞典,t為建模單元,tslg為基于tslg的解碼圖,β為比例因子,s為子詞模型。
28、本發(fā)明的有益效果在于:通過聲學模型對提取的聲學特征進行訓練,通過rnn語言模型對提取的語言特征與聲學特征進行訓練,基于改進ctc損失函數對聲學模型、rnn語言模型進行參數優(yōu)化,再基于構建的tslg解碼圖進行解碼得到n-best候選結果,利用訓練的rnn語言模型進行重打分,最后得到語音識別結果;通過在編碼階段,結合外部rnn語言模型,可以利用rnn語言模型輔助聲學模型,并通過改進ctc損失函數的統(tǒng)一優(yōu)化,避免了解碼階段引入外部語言模型造成信息混淆的問題;
29、在訓練階段,利用改進ctc損失函數實現聲學模型與rnn語言模型的結合,能夠有效的捕捉語音和語言之間的復雜關系;
30、在解碼階段,引入子詞模型構建的tslg解碼圖進行解碼得到n-best候選結果,利用訓練的rnn語言模型進行重打分,能夠得到準確的語音識別結果,能夠有效避免在解碼階段,聲學模型與語言模型融合易導致信息混淆的問題。
1.基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,在訓練過程中,基于所述改進ctc損失函數對所述聲學模型、所述rnn語言模型進行參數優(yōu)化,具體包括,將所述聲學特征、所述文本數據輸入聲學模型,將所述語言特征輸入所述rnn語言模型,基于所述改進ctc損失函數調整所述聲學模型的參數和所述rnn語言模型的參數,使所述語音識別模型隱式地習得所述聲學特征與對應文本標簽的依賴關系。
3.根據權利要求1所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述引入子詞模型,構建tslg解碼圖,基于所述tslg解碼圖采用訓練后的語音識別模型進行海南方言識別,得到海南方言識別結果,具體包括,將海南方言語音信號輸入聲學模型,得到音素序列函數,引入子詞模型,構建tslg解碼圖,通過解碼器中的tslg解碼圖對所述音素序列函數進行子詞解碼得到n-best候選結果,并基于所述rnn語言模型進行重打分,基于打分結果得到海南方言識別結果。
4.根據權利要求2所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述改進ctc損失函數的表達式具體為:
5.根據權利要求4所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述rnn語言模型損失函數的具體公式為:
6.根據權利要求4所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述激勵損失函數的具體公式為:
7.根據權利要求3所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述引入子詞模型的具體表達式為:
8.根據權利要求7所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述引入子詞模型,構建tslg解碼圖的步驟,包括:
9.根據權利要求8所述的基于激勵ctc及子詞解碼的海南方言語音識別方法,其特征在于,所述構建tslg解碼圖的具體表達式為: