本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種可以進(jìn)行在線領(lǐng)域擴(kuò)展的語音識(shí)別系統(tǒng)。
背景技術(shù):
漢語不是拼讀語言,如果沒有上下文信息難以直接從音斷定對(duì)應(yīng)的漢字。傳統(tǒng)的語音識(shí)別使用預(yù)先生成的靜態(tài)解碼網(wǎng)絡(luò)進(jìn)行解碼,并且該解碼網(wǎng)絡(luò)通常是從音素直接映射為詞語。該解碼網(wǎng)絡(luò)融合了要識(shí)別的音頻內(nèi)容的詞語的概率分布信息。這樣導(dǎo)致識(shí)別器從一個(gè)領(lǐng)域切換到另外一個(gè)領(lǐng)域時(shí),性能會(huì)急劇下降,另外一些術(shù)語和新詞可能總是無法正確識(shí)別。為了支持多個(gè)領(lǐng)域的識(shí)別,通常用一個(gè)模型來同時(shí)建模多個(gè)領(lǐng)域的詞語的概率分布信息。這導(dǎo)致該模型概率分布比較平均(這意味著識(shí)別性能通常也比較平均),并且模型比較龐大。為了支持新詞或者術(shù)語的識(shí)別,必須重新訓(xùn)練模型和構(gòu)造識(shí)別器。這是非常耗費(fèi)時(shí)間和資源的。
有鑒于上述的缺陷,本設(shè)計(jì)人,積極加以研究創(chuàng)新,以期創(chuàng)設(shè)一種可以進(jìn)行在線領(lǐng)域擴(kuò)展的語音識(shí)別系統(tǒng),使其更具有產(chǎn)業(yè)上的利用價(jià)值。
技術(shù)實(shí)現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明的目的是提供一種可以進(jìn)行在線領(lǐng)域擴(kuò)展,從而可快速提高特定領(lǐng)域的識(shí)別性能的語音識(shí)別系統(tǒng)。
本發(fā)明的語音識(shí)別系統(tǒng),包括
-基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器,用于將語音映射為由多個(gè)候選拼音序列組織成的網(wǎng)絡(luò);
-多個(gè)并列的針對(duì)不同應(yīng)用領(lǐng)域的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器,用于分別與由多個(gè)候選拼音序列組織成的網(wǎng)絡(luò)進(jìn)行組合,得到多個(gè)最佳詞序列及置信度;
-綜合決策單元,用于接收多個(gè)最佳詞序列及置信度,然后根據(jù)置信度再加上預(yù)先給定的先驗(yàn)知識(shí)和規(guī)則以及附加知識(shí),進(jìn)行決策,選擇最佳的詞序列輸出。
進(jìn)一步的,通過調(diào)整拼音到詞語映射網(wǎng)絡(luò),添加新的識(shí)別內(nèi)容到已有領(lǐng)域的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器中,更新已有領(lǐng)域的識(shí)別內(nèi)容;通過離線構(gòu)造對(duì)應(yīng)的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器,然后將擴(kuò)展內(nèi)容在線添加到基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器中,創(chuàng)建新的應(yīng)用領(lǐng)域的識(shí)別內(nèi)容。
進(jìn)一步的,所述基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器根據(jù)輸入的音頻特征動(dòng)態(tài)計(jì)算聲學(xué)得分,并在其網(wǎng)絡(luò)上保存有拼音序列的語言模型得分,采用動(dòng)態(tài)規(guī)劃算法結(jié)合聲學(xué)得分和語言模型得分,搜索得分最高的若干拼音序列輸出。
進(jìn)一步的,所述拼音序列的語言模型采用基于長短時(shí)記憶單元的遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。
進(jìn)一步的,所述綜合決策單元通過融合識(shí)別置信度、先驗(yàn)知識(shí)和預(yù)設(shè)規(guī)則以及附加信息來選擇最佳候選詞序列。
進(jìn)一步的,所述先驗(yàn)知識(shí)至少包括所述語音識(shí)別系統(tǒng)之外輸入的關(guān)于領(lǐng)域的標(biāo)識(shí)信息,或者根據(jù)識(shí)別結(jié)果歷史信息得到的領(lǐng)域標(biāo)識(shí)信息。
進(jìn)一步的,所述領(lǐng)域標(biāo)識(shí)信息為離散的0/1置,或連續(xù)的概率值。
進(jìn)一步的,所述預(yù)設(shè)規(guī)則至少包括根據(jù)音頻長度預(yù)估的詞數(shù)范圍。
進(jìn)一步的,所述附加信息包括根據(jù)超級(jí)語言模型得到的關(guān)于識(shí)別結(jié)果詞串符合語法規(guī)范的程度度量。
進(jìn)一步的,所述綜合決策單元將所述附加信息和預(yù)設(shè)規(guī)則通過分層加權(quán)的方式和置信度評(píng)分一起作為決策準(zhǔn)則來選擇候選詞序列作為最終識(shí)別結(jié)果輸出。
借由上述方案,本發(fā)明可以在線動(dòng)態(tài)地將針對(duì)不同領(lǐng)域的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器添加到識(shí)別系統(tǒng)中去,可快速提高特定領(lǐng)域的識(shí)別性能;可快速定制擴(kuò)展領(lǐng)域、添加熱詞/新詞、定制領(lǐng)域識(shí)別內(nèi)容;同時(shí)支持多個(gè)領(lǐng)域的識(shí)別,并保證其識(shí)別性能不下降。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。
附圖說明
圖1是本發(fā)明的語音識(shí)別系統(tǒng)框架圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
參見圖1,本發(fā)明一較佳實(shí)施例所述的一種語音識(shí)別系統(tǒng),由基本的基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器和任意多個(gè)針對(duì)不同應(yīng)用領(lǐng)域的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器以及一個(gè)綜合決策單元共同組成,其中基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器用于將語音映射為由多個(gè)候選拼音序列組織成的網(wǎng)絡(luò);各基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器用于分別與由多個(gè)候選拼音序列組織成的網(wǎng)絡(luò)進(jìn)行組合,得到多個(gè)最佳詞序列及置信度;綜合決策單元用于接收多個(gè)最佳詞序列及置信度,然后根據(jù)置信度再加上預(yù)先給定的先驗(yàn)知識(shí)和規(guī)則以及附加知識(shí),進(jìn)行決策,選擇最佳的詞序列輸出。
本發(fā)明的針對(duì)不同領(lǐng)域的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器可以在線動(dòng)態(tài)添加到識(shí)別系統(tǒng)中去,從而可快速提高特定領(lǐng)域的識(shí)別性能。本發(fā)明中,各基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器是并列的,可以快速擴(kuò)展。具體的,通過調(diào)整拼音到詞語映射網(wǎng)絡(luò),添加新的識(shí)別內(nèi)容到已有領(lǐng)域的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器中,更新已有領(lǐng)域的識(shí)別內(nèi)容;通過離線構(gòu)造對(duì)應(yīng)的基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器,然后將擴(kuò)展內(nèi)容在線添加到基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器中,創(chuàng)建新的應(yīng)用領(lǐng)域的識(shí)別內(nèi)容。具體應(yīng)用時(shí),對(duì)已有領(lǐng)域的識(shí)別內(nèi)容進(jìn)行更新,比如新詞/熱詞的添加,只需要調(diào)整拼音到詞語映射網(wǎng)絡(luò),無需涉及聲學(xué)模型和基本識(shí)別器的調(diào)整;新的應(yīng)用領(lǐng)域識(shí)別內(nèi)容的添加,比如:家居控制,車載導(dǎo)航等,只需要離線構(gòu)造對(duì)應(yīng)的拼音到詞語映射網(wǎng)絡(luò),然后可以在線添加到識(shí)別系統(tǒng)中,從而不影響已有領(lǐng)域的識(shí)別進(jìn)程。
本發(fā)明中基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器根據(jù)輸入的音頻特征動(dòng)態(tài)計(jì)算聲學(xué)得分,并在其網(wǎng)絡(luò)上保存有拼音序列的語言模型得分,采用動(dòng)態(tài)規(guī)劃算法結(jié)合聲學(xué)得分和語言模型得分,搜索得分最高的若干拼音序列輸出,且拼音序列的語言模型采用基于長短時(shí)記憶單元的遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。
本發(fā)明中的上述各網(wǎng)絡(luò)在系統(tǒng)中具體表現(xiàn)為一個(gè)加權(quán)有限狀態(tài)自動(dòng)機(jī)(WFST,Weighted Finite State Transducers)。通過該自動(dòng)機(jī)可以把輸入的序列映射為另外的序列。在基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器中,該網(wǎng)絡(luò)上保存了拼音序列的語言模型得分,在解碼過程中,根據(jù)輸入的音頻特征動(dòng)態(tài)計(jì)算聲學(xué)得分,采用動(dòng)態(tài)規(guī)劃算法在該WFST網(wǎng)絡(luò)中結(jié)合聲學(xué)得分和語言模型得分,搜索得分最高的若干拼音序列作為多候選結(jié)果輸出。
具體實(shí)施時(shí),拼音語言模型可以采用基于長短時(shí)記憶(LSTM,Long-short Term Memory)單元的遞歸神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)進(jìn)行建模,這樣加強(qiáng)了拼音上下文的關(guān)聯(lián),提高了拼音多候選識(shí)別結(jié)果的準(zhǔn)確性。
本發(fā)明中,基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器其輸入是表示多候選拼音序列的網(wǎng)絡(luò)和拼音到詞語的映射網(wǎng)絡(luò),輸出是最佳詞序列及其之置信度指標(biāo)。多候選拼音序列網(wǎng)絡(luò)可以表示為一個(gè)拼音到拼音映射的WFST,而拼音到詞語的映射網(wǎng)絡(luò)也表示成一個(gè)WFST,其路徑權(quán)重為拼音序列到詞序列的映射代價(jià)。識(shí)別過程首先是對(duì)兩個(gè)WFST進(jìn)行組合生成一個(gè)新的WFST,然后從該WFST中搜索得分最高的序列,輸出其詞序列和得分。
在本發(fā)明中,綜合決策單元接收來自多個(gè)基于拼音到詞語映射網(wǎng)絡(luò)的特定識(shí)別器的輸出,即詞序列及其置信度,然后根據(jù)其置信度再加上預(yù)先給定的先驗(yàn)知識(shí)和規(guī)則以及附加知識(shí),進(jìn)行決策,選擇最佳的詞序列輸出。特定的,所謂的先驗(yàn)知識(shí)至少包括:識(shí)別系統(tǒng)之外輸入的關(guān)于領(lǐng)域的標(biāo)識(shí)信息,或者根據(jù)識(shí)別結(jié)果歷史信息得到的領(lǐng)域標(biāo)識(shí)信息。所謂領(lǐng)域標(biāo)識(shí)信息可以是離散的0/1置,也可以是連續(xù)的概率值。特定的,所謂的規(guī)則至少包括:根據(jù)音頻長度預(yù)估的詞數(shù)范圍。根據(jù)詞數(shù)范圍,可以排除那些超長或者超短的識(shí)別結(jié)果。特定的,所謂附加信息可以包括根據(jù)超級(jí)語言模型得到的關(guān)于識(shí)別結(jié)果詞串符合語法規(guī)范的程度度量。上述信息和規(guī)則通過分層加權(quán)的方式和置信度評(píng)分一起作為決策準(zhǔn)則來選擇候選詞串作為最終識(shí)別結(jié)果輸出。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,并不用于限制本發(fā)明,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和變型,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。