語音識(shí)別方法和裝置與流程

文檔序號(hào)：12609202閱讀：327來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域，尤其涉及一種語音識(shí)別方法和裝置。

背景技術(shù)：

語音識(shí)別是將語音轉(zhuǎn)成文本的過程，近年來，隨著語音識(shí)別技術(shù)的成熟，該技術(shù)已逐漸成功應(yīng)用于各行各業(yè)中，尤其是針對(duì)特定領(lǐng)域的語音識(shí)別技術(shù)，如針對(duì)會(huì)議的錄音數(shù)據(jù)進(jìn)行語音識(shí)別，將接收的語音數(shù)據(jù)直接轉(zhuǎn)換為會(huì)議的文本內(nèi)容，大大方便了會(huì)議秘書整理會(huì)議紀(jì)要。

目前的技術(shù)中，一般直接采用通用的聲學(xué)模型及通用語言模型對(duì)待識(shí)別語音數(shù)據(jù)進(jìn)行語音識(shí)別，針對(duì)特定應(yīng)用場(chǎng)景的語音數(shù)據(jù)進(jìn)行語音識(shí)別時(shí)，由于經(jīng)常會(huì)存在專業(yè)詞匯、特定用法導(dǎo)致無法正確識(shí)別的問題，僅僅依靠通用語言模型往往無法滿足應(yīng)用需求，因此往往采用語言模型定制的方式，即預(yù)先獲取用戶提供的大量與該特定應(yīng)用場(chǎng)景相關(guān)的語料后，訓(xùn)練相應(yīng)的主題語言模型，利用該主題語言模型、通用的聲學(xué)模型及通用語言模型進(jìn)行語音識(shí)別。

然而，在實(shí)際應(yīng)用中，往往僅知道少量應(yīng)用場(chǎng)景信息，無法通過用戶直接獲取到足夠數(shù)量的主題相關(guān)的語料以訓(xùn)練主題相關(guān)語言模型，導(dǎo)致語音識(shí)別的準(zhǔn)確度比較低，識(shí)別效果較差，如待識(shí)別語音數(shù)據(jù)為會(huì)議錄音時(shí)，往往僅知道會(huì)議相關(guān)的演示文稿，數(shù)據(jù)量較少，不足以訓(xùn)練相應(yīng)的主題語言模型，導(dǎo)致語音識(shí)別效果較差。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明提供了一種語音識(shí)別方法和裝置，能夠提高識(shí)別特定應(yīng)用場(chǎng)景的語音數(shù)據(jù)的準(zhǔn)確度，識(shí)別效果較好。

為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：

第一方面，本發(fā)明實(shí)施例提供了一種語音識(shí)別方法，包括：

獲取與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料；

確定所述基礎(chǔ)資料的關(guān)鍵詞；

依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料；

通過所述目標(biāo)語料訓(xùn)練目標(biāo)主題語言模型，以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)。

可選的，所述確定所述基礎(chǔ)資料的關(guān)鍵詞，包括：

以第一確定方式確定所述關(guān)鍵詞，所述第一確定方式包括，依據(jù)預(yù)先訓(xùn)練得到的編碼-解碼模型計(jì)算所述基礎(chǔ)資料中每個(gè)詞作為所述關(guān)鍵詞的概率，將所述概率大于第一預(yù)設(shè)閾值的詞確定為所述關(guān)鍵詞；

或者以第二確定方式確定所述關(guān)鍵詞，所述第二確定方式包括，計(jì)算所述基礎(chǔ)資料中每個(gè)詞的詞頻和逆文檔頻率，將所述詞頻大于第二預(yù)設(shè)閾值且所述逆文檔頻率大于第三預(yù)設(shè)閾值的詞確定所述關(guān)鍵詞；

或者以第三確定方式確定所述關(guān)鍵詞，所述第三確定方式包括，計(jì)算所述基礎(chǔ)資料中每個(gè)詞的TextRank得分，將所述TextRank得分大于第四預(yù)設(shè)閾值的詞作為所述關(guān)鍵詞；

或者所述第一確定方式、所述第二確定方式和所述第三確定方式中，以任意兩種方式或三種方式相結(jié)合來確定候選關(guān)鍵詞，將經(jīng)過去重后的所述候選關(guān)鍵詞作為所述關(guān)鍵詞。

可選的，所述依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料，包括：

統(tǒng)計(jì)所述基礎(chǔ)資料的每個(gè)句子中包含的所述關(guān)鍵詞個(gè)數(shù)，將包含至少兩個(gè)關(guān)鍵詞的句子中的所有關(guān)鍵詞作為一個(gè)關(guān)鍵詞組，將不屬于任一所述關(guān)鍵詞組的所述關(guān)鍵詞作為獨(dú)立關(guān)鍵詞；

依據(jù)所述關(guān)鍵詞組和所述獨(dú)立關(guān)鍵詞確定所述搜索項(xiàng)，通過所述搜索項(xiàng)搜索所述目標(biāo)語料。

可選的，還包括：

獲取在識(shí)別所述待識(shí)別語音數(shù)據(jù)的過程中已經(jīng)得到的識(shí)別結(jié)果，將所述識(shí)別結(jié)果補(bǔ)充到所述基礎(chǔ)資料。

可選的，還包括：

依據(jù)所述基礎(chǔ)資料和與系統(tǒng)預(yù)先存儲(chǔ)的各目標(biāo)領(lǐng)域語言模型的領(lǐng)域類別相匹配的領(lǐng)域判定模型，確定所述待識(shí)別語音數(shù)據(jù)屬于每個(gè)所述領(lǐng)域類別的概率，按設(shè)定順序排序，生成概率向量；

以所述概率向量作為可信度判定模型的輸入，判斷所述概率向量是否可信；

若所述概率向量可信，對(duì)于每個(gè)所述領(lǐng)域類別，判斷所述待識(shí)別語音數(shù)據(jù)屬于所述領(lǐng)域類別的概率是否超過與所述領(lǐng)域類別相對(duì)應(yīng)的第五預(yù)設(shè)閾值；

若是，則以所述概率所對(duì)應(yīng)的所述領(lǐng)域類別的目標(biāo)領(lǐng)域語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)。

第二方面，本發(fā)明實(shí)施例提供了一種語音識(shí)別裝置，包括：

獲取模塊，用于獲取與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料；

第一確定模塊，用于確定所述基礎(chǔ)資料的關(guān)鍵詞；

搜索模塊，用于依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料；

第一識(shí)別模塊，用于通過所述目標(biāo)語料訓(xùn)練目標(biāo)主題語言模型，以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)。

可選的，所述第一確定模塊包括：

第一確定單元，用于以第一確定方式確定所述關(guān)鍵詞，所述第一確定方式包括，依據(jù)預(yù)先訓(xùn)練得到的編碼-解碼模型計(jì)算所述基礎(chǔ)資料中每個(gè)詞作為所述關(guān)鍵詞的概率，將所述概率大于第一預(yù)設(shè)閾值的詞確定為所述關(guān)鍵詞；

第二確定單元，用于以第二確定方式確定所述關(guān)鍵詞，所述第二確定方式包括，計(jì)算所述基礎(chǔ)資料中每個(gè)詞的詞頻和逆文檔頻率，將所述詞頻大于第二預(yù)設(shè)閾值且所述逆文檔頻率大于第三預(yù)設(shè)閾值的詞確定所述關(guān)鍵詞；

第三確定單元，用于以第三確定方式確定所述關(guān)鍵詞，所述第三確定方式包括，計(jì)算所述基礎(chǔ)資料中每個(gè)詞的TextRank得分，將所述TextRank得分大于第四預(yù)設(shè)閾值的詞作為所述關(guān)鍵詞；

第四確定單元，用于所述第一確定方式、所述第二確定方式和所述第三確定方式中，以任意兩種方式或三種方式相結(jié)合來確定候選關(guān)鍵詞，將經(jīng)過去重后的所述候選關(guān)鍵詞作為所述關(guān)鍵詞。

可選的，所述搜索模塊包括：

統(tǒng)計(jì)單元，用于統(tǒng)計(jì)所述基礎(chǔ)資料的每個(gè)句子中包含的所述關(guān)鍵詞個(gè)數(shù)，將包含至少兩個(gè)關(guān)鍵詞的句子中的所有關(guān)鍵詞作為一個(gè)關(guān)鍵詞組，將不屬于任一所述關(guān)鍵詞組的所述關(guān)鍵詞作為獨(dú)立關(guān)鍵詞；

搜索單元，用于依據(jù)所述關(guān)鍵詞組和所述獨(dú)立關(guān)鍵詞確定所述搜索項(xiàng)，通過所述搜索項(xiàng)搜索所述目標(biāo)語料。

可選的，還包括：

更新模塊，用于獲取在識(shí)別所述待識(shí)別語音數(shù)據(jù)的過程中已經(jīng)得到的識(shí)別結(jié)果，將所述識(shí)別結(jié)果補(bǔ)充到所述基礎(chǔ)資料。

可選的，還包括：

第二確定模塊，用于依據(jù)所述基礎(chǔ)資料和與系統(tǒng)預(yù)先存儲(chǔ)的各目標(biāo)領(lǐng)域語言模型的領(lǐng)域類別相匹配的領(lǐng)域判定模型，確定所述待識(shí)別語音數(shù)據(jù)屬于每個(gè)所述領(lǐng)域類別的概率，按設(shè)定順序排序，生成概率向量；

第一判斷模塊，用于以所述概率向量作為可信度判定模型的輸入，判斷所述概率向量是否可信，所述可信度判定模型與所述領(lǐng)域類別相匹配；

第二判斷模塊，用于若所述概率向量可信，對(duì)于每個(gè)所述領(lǐng)域類別，判斷所述待識(shí)別語音數(shù)據(jù)屬于所述領(lǐng)域類別的概率是否超過與所述領(lǐng)域類別相對(duì)應(yīng)的第五預(yù)設(shè)閾值；

第二識(shí)別模塊，用于若是，則以所述概率所對(duì)應(yīng)的所述領(lǐng)域類別的目標(biāo)領(lǐng)域語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)。

經(jīng)由上述的技術(shù)方案可知，與現(xiàn)有技術(shù)相比，本發(fā)明提供了一種語音識(shí)別方法和裝置。本發(fā)明提供的技術(shù)方案，在用戶提供的與待識(shí)別語音數(shù)據(jù)的主題相關(guān)的語料不夠充分，即這些語料僅僅是一些基礎(chǔ)資料時(shí)，通過確定所述基礎(chǔ)資料的關(guān)鍵詞，然后依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料，從而有效擴(kuò)充與待識(shí)別語音數(shù)據(jù)的主題相關(guān)的語料，能夠較大程度上彌補(bǔ)用戶提供的語料不足的缺陷，然后通過搜索到的所述目標(biāo)語料來訓(xùn)練目標(biāo)主題語言模型，從而得到與待識(shí)別語音數(shù)據(jù)的主題相匹配的目標(biāo)主題語言模型，最后以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)，相對(duì)于現(xiàn)有技術(shù)，能夠有效提高語音識(shí)別的準(zhǔn)確度。因此，應(yīng)用本發(fā)明提供的技術(shù)方案，能夠提高識(shí)別特定應(yīng)用場(chǎng)景的語音數(shù)據(jù)的準(zhǔn)確度，識(shí)別效果較好。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)提供的附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的一種語音識(shí)別方法的流程圖；

圖2為本發(fā)明實(shí)施例提供的Encoder-Decoder方法的示意圖；

圖3為本發(fā)明實(shí)施例提供的另外一種語音識(shí)別方法的流程圖；

圖4為本發(fā)明實(shí)施例提供的一種語音識(shí)別裝置的結(jié)構(gòu)圖；

圖5為本發(fā)明實(shí)施例提供的另外一種語音識(shí)別裝置的結(jié)構(gòu)圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。

實(shí)施例

本發(fā)明實(shí)施例提供的語音識(shí)別方法，可以應(yīng)用于計(jì)算機(jī)信息系統(tǒng)。請(qǐng)參閱圖1，圖1為本發(fā)明實(shí)施例提供的一種語音識(shí)別方法的流程圖。如圖1所示，該方法包括：

步驟S101，獲取與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料；

具體的，所述與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料由用戶預(yù)先提供，所述基礎(chǔ)資料與所述待識(shí)別語音數(shù)據(jù)的內(nèi)容相關(guān)性較高，可以包括與所述待識(shí)別語音數(shù)據(jù)相關(guān)的圖片、文本數(shù)據(jù)等，如果所述基礎(chǔ)資料為圖片，則需要通過圖像識(shí)別相關(guān)技術(shù)將圖片轉(zhuǎn)換為文本數(shù)據(jù)，也就是說，該步驟最終得到的是文本數(shù)據(jù)。其中，可選的，所述圖像識(shí)別相關(guān)技術(shù)可以采用OCR(Optical Character Recognition，光學(xué)字符識(shí)別)技術(shù)。以所述待識(shí)別語音數(shù)據(jù)為會(huì)議錄音為例，所述基礎(chǔ)資料可以包含會(huì)議的演示文稿、演講人信息、會(huì)議主題、主辦方或用戶根據(jù)會(huì)議需求自己添加的會(huì)議關(guān)鍵信息等。

步驟S102，確定所述基礎(chǔ)資料的關(guān)鍵詞；

具體的，經(jīng)所述步驟S101，系統(tǒng)得到的所述基礎(chǔ)資料都是文本數(shù)據(jù)，可以根據(jù)所述文本數(shù)據(jù)確定關(guān)鍵詞，具體確定方法可以包括：

方法1：以第一確定方式確定所述關(guān)鍵詞，所述第一確定方式包括，依據(jù)預(yù)先訓(xùn)練得到的編碼-解碼模型計(jì)算所述基礎(chǔ)資料中每個(gè)詞作為所述關(guān)鍵詞的概率，將所述概率大于第一預(yù)設(shè)閾值的詞確定為所述關(guān)鍵詞；

具體的，計(jì)算所述基礎(chǔ)資料中每個(gè)詞作為關(guān)鍵詞的概率時(shí)，可以使用基于神經(jīng)網(wǎng)絡(luò)的Encoder(編碼)-Decoder(解碼)方法。具體的，通過預(yù)先收集大量文本數(shù)據(jù)訓(xùn)練Encoder-Decoder模型參數(shù)后，利用所述Encoder-Decoder模型確定待識(shí)別語音數(shù)據(jù)的基礎(chǔ)資料中每個(gè)詞作為關(guān)鍵詞的概率，將所述概率大于第一預(yù)設(shè)閾值的詞確定為關(guān)鍵詞。

請(qǐng)參閱圖2，如圖2為本發(fā)明實(shí)施例提供的Encoder-Decoder方法的示意圖，輸入為所述基礎(chǔ)資料中每個(gè)詞的詞向量，經(jīng)過Encoder層對(duì)輸入特征(即所述詞向量)進(jìn)行編碼，將編碼后的特征作為Decoder層的輸入，Decoder層對(duì)編碼后的特征進(jìn)行解碼，將解碼后的特征作為輸出層的輸入，輸出層為每個(gè)詞作為關(guān)鍵詞的概率，具體過程如下所述:

輸入層(Input)：輸入基礎(chǔ)資料中每個(gè)詞的詞向量，所述詞向量可以使用基于神經(jīng)網(wǎng)絡(luò)的方法訓(xùn)練得到，或使用Word2Vec(文本深度表示模型)的方法得到，如圖2所示，輸入層每個(gè)圓圈代表一個(gè)詞向量，受圖形大小限制，輸入層僅以3個(gè)句子(sent1、sent2、sent3)做示例，每句包含3個(gè)詞向量，第一個(gè)句子sent1中第一個(gè)節(jié)點(diǎn)表示開始節(jié)點(diǎn)，無實(shí)際意義。

詞編碼層(Word Enc)：對(duì)輸入層輸入的詞向量進(jìn)行編碼，具體的，可以使用單向LSTM(Long-Short Term Memory，長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò))從左到右對(duì)詞向量進(jìn)行編碼；

詞解碼層(Word Dec)：對(duì)編碼后的特征進(jìn)行解碼，如可以使用單向LSTM從右到左對(duì)編碼后的特征進(jìn)行解碼；

輸出層(Output)：將解碼后的特征作為輸出層的輸入，輸出為每個(gè)詞作為關(guān)鍵詞的概率，如圖2所示，輸出層每個(gè)圓圈代表所對(duì)應(yīng)的輸入層的詞向量作為關(guān)鍵詞的概率。

或者方法2：以第二確定方式確定所述關(guān)鍵詞，所述第二確定方式包括，計(jì)算所述基礎(chǔ)資料中每個(gè)詞的詞頻和逆文檔頻率，將所述詞頻大于第二預(yù)設(shè)閾值且所述逆文檔頻率大于第三預(yù)設(shè)閾值的詞確定所述關(guān)鍵詞；

具體的，首先對(duì)基礎(chǔ)資料的文本數(shù)據(jù)進(jìn)行分詞；然后計(jì)算分詞后文本數(shù)據(jù)中每個(gè)詞的詞頻及逆文檔頻率，所述詞頻即每個(gè)詞在基礎(chǔ)資料中出現(xiàn)的頻率，可以通過每個(gè)詞在基礎(chǔ)資料中的出現(xiàn)次數(shù)與所有詞在基礎(chǔ)資料中出現(xiàn)次數(shù)之和的比值得到；所述逆文檔頻率是詞的重性度量，可以由基礎(chǔ)資料的總文件數(shù)除以包含每個(gè)詞的文件數(shù)后，再取對(duì)數(shù)得到，具體計(jì)算方法與現(xiàn)有技術(shù)相同，在此不再詳述；最后可以根據(jù)每個(gè)詞的詞頻及逆文檔頻率對(duì)基礎(chǔ)資料中所有詞進(jìn)行排序，選擇所述詞頻大于第二預(yù)設(shè)閾值且所述逆文檔頻率大于第三預(yù)設(shè)閾值的詞確定所述關(guān)鍵詞。

或者方法3：以第三確定方式確定所述關(guān)鍵詞，所述第三確定方式包括，計(jì)算所述基礎(chǔ)資料中每個(gè)詞的TextRank得分，將所述TextRank得分大于第四預(yù)設(shè)閾值的詞作為所述關(guān)鍵詞；

具體的，所述TextRank得分用以描述每個(gè)詞的重要度。在計(jì)算每個(gè)詞的TextRank得分時(shí)，通過構(gòu)建候選關(guān)鍵詞圖的方法，將相關(guān)資料中每個(gè)詞作為圖中每個(gè)節(jié)點(diǎn)，通過計(jì)算每個(gè)節(jié)點(diǎn)的鏈入邊數(shù)，計(jì)算每個(gè)節(jié)點(diǎn)的重要度，將所述節(jié)點(diǎn)的重要度作為每個(gè)詞的重要度，即TextRank得分，選擇TextRank得分大于閾值的詞作為候選關(guān)鍵詞；所述TextRank得分的計(jì)算方法與現(xiàn)有技術(shù)相同，在此不再詳述。

或者方法4：所述第一確定方式、所述第二確定方式和所述第三確定方式中，以任意兩種方式或三種方式相結(jié)合來確定候選關(guān)鍵詞，將經(jīng)過去重后的所述候選關(guān)鍵詞作為所述關(guān)鍵詞。

具體的，所述方法1～方法3任意一種都可以確定所述基礎(chǔ)資料的關(guān)鍵詞，為了對(duì)所述關(guān)鍵詞進(jìn)行更加全面和精確地統(tǒng)計(jì)，可以考慮將方法1、方法2和方法3進(jìn)行任意組合使用。

由于將方法1、方法2和方法3進(jìn)行任意組合使用可能會(huì)得到重復(fù)的關(guān)鍵詞，因此，若選擇組合使用，需要將重復(fù)的關(guān)鍵詞去掉。

步驟S103，依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料；

具體的，首先統(tǒng)計(jì)所述基礎(chǔ)資料的每個(gè)句子中包含的所述關(guān)鍵詞個(gè)數(shù)，將包含至少兩個(gè)關(guān)鍵詞的句子中的所有關(guān)鍵詞作為一個(gè)關(guān)鍵詞組，將不屬于任一所述關(guān)鍵詞組的所述關(guān)鍵詞作為獨(dú)立關(guān)鍵詞；

然后依據(jù)所述關(guān)鍵詞組和所述獨(dú)立關(guān)鍵詞確定所述搜索項(xiàng)，通過所述搜索項(xiàng)搜索所述目標(biāo)語料。

具體的，所述搜索項(xiàng)可以為所述關(guān)鍵詞組和/或所述獨(dú)立關(guān)鍵詞，也可以為所述關(guān)鍵詞組與一個(gè)或多個(gè)獨(dú)立關(guān)鍵詞組合的形式，或者多個(gè)所述獨(dú)立關(guān)鍵詞的任意組合，本發(fā)明并不限制所述搜索項(xiàng)的具體形式。

步驟S104，通過所述目標(biāo)語料訓(xùn)練目標(biāo)主題語言模型，以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)；

具體的，將搜索到的所述目標(biāo)語料作為所述目標(biāo)主題語言模型的訓(xùn)練語料，來訓(xùn)練所述目標(biāo)主題語言模型，具體訓(xùn)練方法與現(xiàn)有技術(shù)相同，在此不再贅述。

本發(fā)明實(shí)施例提供的技術(shù)方案，在用戶提供的與待識(shí)別語音數(shù)據(jù)的主題相關(guān)的語料不夠充分，即這些語料僅僅是一些基礎(chǔ)資料時(shí)，通過確定所述基礎(chǔ)資料的關(guān)鍵詞，然后依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料，從而有效擴(kuò)充與待識(shí)別語音數(shù)據(jù)的主題相關(guān)的語料，能夠較大程度上彌補(bǔ)用戶提供的語料不足的缺陷，然后通過搜索到的所述目標(biāo)語料來訓(xùn)練目標(biāo)主題語言模型，從而得到與待識(shí)別語音數(shù)據(jù)的主題相匹配的目標(biāo)主題語言模型，最后以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)，相對(duì)于現(xiàn)有技術(shù)，能夠有效提高語音識(shí)別的準(zhǔn)確度。因此，應(yīng)用本發(fā)明實(shí)施例提供的技術(shù)方案，能夠提高識(shí)別特定應(yīng)用場(chǎng)景的語音數(shù)據(jù)的準(zhǔn)確度，識(shí)別效果較好。

需要說明的是，如果用戶提供了與待識(shí)別語音數(shù)據(jù)中的說話人相關(guān)性較高的資料，則可選的，本發(fā)明另外一個(gè)實(shí)施例提供的技術(shù)方案，可以將該資料與提取后的關(guān)鍵詞或關(guān)鍵詞組給合作為搜索項(xiàng)，搜索相關(guān)語料，以進(jìn)一步提高搜索語料與主題的相關(guān)性；以待識(shí)別語音數(shù)據(jù)為會(huì)議錄音為例，所述與待識(shí)別語音數(shù)據(jù)中的說話人相關(guān)性較高的資料，可以為會(huì)議說話人的姓名、單位、演講主題等。

可選的，本發(fā)明另外一個(gè)實(shí)施例提供的技術(shù)方案，還包括：

可以理解的是，在具體場(chǎng)景中，如談話、報(bào)告或開會(huì)時(shí)，討論的主題可能會(huì)切換，或者會(huì)插入新的話題，為此，本實(shí)施例提供的技術(shù)方案，能夠在具體場(chǎng)景中獲取在識(shí)別所述待識(shí)別語音數(shù)據(jù)的過程中已經(jīng)得到的識(shí)別結(jié)果，從而及時(shí)將所述識(shí)別結(jié)果補(bǔ)充到所述基礎(chǔ)資料，然后確定更新后的基礎(chǔ)資料的關(guān)鍵詞，方便后續(xù)搜索新的目標(biāo)語料和訓(xùn)練新的目標(biāo)主題語言模型，以適應(yīng)具體場(chǎng)景討論內(nèi)容的變更，提高現(xiàn)場(chǎng)語音識(shí)別的準(zhǔn)確度。

具體的，在具體場(chǎng)景現(xiàn)場(chǎng)識(shí)別所述待識(shí)別語音數(shù)據(jù)時(shí)，可以適當(dāng)提高輸出所述識(shí)別結(jié)果的頻率，比如5分鐘，以方便及時(shí)獲取到現(xiàn)場(chǎng)已產(chǎn)生的新語料，從而能夠更好的豐富所述基礎(chǔ)語料。

可選的，請(qǐng)參閱圖3，圖3為本發(fā)明實(shí)施例提供的另外一種語音識(shí)別方法的流程圖。如圖3所示，該方法包括：

步驟S301，獲取與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料；

步驟S302，確定所述基礎(chǔ)資料的關(guān)鍵詞；

步驟S303，依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料；

步驟S304，通過所述目標(biāo)語料訓(xùn)練目標(biāo)主題語言模型，以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)；

步驟S305，依據(jù)所述基礎(chǔ)資料和與系統(tǒng)預(yù)先存儲(chǔ)的各目標(biāo)領(lǐng)域語言模型的領(lǐng)域類別相匹配的領(lǐng)域判定模型，確定所述待識(shí)別語音數(shù)據(jù)屬于每個(gè)所述領(lǐng)域類別的概率，按設(shè)定順序排序，生成概率向量；

具體的，所述目標(biāo)領(lǐng)域語言模型是指將訓(xùn)練模型的文本數(shù)據(jù)按照應(yīng)用領(lǐng)域進(jìn)行劃分，如劃分為新聞、體育、娛樂、科技等具體的領(lǐng)域，使用每個(gè)領(lǐng)域相應(yīng)文本數(shù)據(jù)訓(xùn)練模型，得到目標(biāo)領(lǐng)域語言模型。所述目標(biāo)領(lǐng)域語言模型可以由系統(tǒng)預(yù)先收集各領(lǐng)域文本數(shù)據(jù)訓(xùn)練得到；在進(jìn)行語音識(shí)別時(shí)，根據(jù)與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料確定與待識(shí)別語音數(shù)據(jù)領(lǐng)域相同的目標(biāo)領(lǐng)域語言模型即可。

具體的，所述領(lǐng)域判定模型為預(yù)先構(gòu)建的模型，關(guān)于構(gòu)建所述領(lǐng)域判定模型的過程如下：

首先收集系統(tǒng)內(nèi)存儲(chǔ)的各領(lǐng)域類別的大量文本數(shù)據(jù)，如系統(tǒng)中只有“人工智能”和“醫(yī)學(xué)”兩個(gè)領(lǐng)域，則只需要收集這兩個(gè)領(lǐng)域的文本數(shù)據(jù)，標(biāo)注出文本數(shù)據(jù)所屬的領(lǐng)域標(biāo)簽后，將文本數(shù)據(jù)向量化，訓(xùn)練所述領(lǐng)域判定模型，將文本數(shù)據(jù)的句子向量作為所述領(lǐng)域判定模型的輸入特征，輸出為文本數(shù)據(jù)屬于每個(gè)領(lǐng)域類別的概率，根據(jù)文本數(shù)據(jù)所屬的領(lǐng)域標(biāo)簽對(duì)模型參數(shù)進(jìn)行更新，更新結(jié)束后，得到領(lǐng)域判定模型，所述領(lǐng)域判定模型使用模式識(shí)別中常用模型描述，如支持向量機(jī)、深度神經(jīng)網(wǎng)絡(luò)等。

具體的，所述步驟S305可以包括：將與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料中的文本數(shù)據(jù)向量化，得到文本數(shù)據(jù)的句子向量，具體向量化過程與現(xiàn)有技術(shù)相同，如使用Sec2Vec技術(shù)；將所述基礎(chǔ)資料中的文本數(shù)據(jù)的句子向量作為領(lǐng)域判定模型的輸入，對(duì)待識(shí)別語音數(shù)據(jù)進(jìn)行領(lǐng)域判定，得到待識(shí)別語音數(shù)據(jù)屬于每個(gè)領(lǐng)域的概率，對(duì)所述概率進(jìn)行排序后，得到待識(shí)別語音數(shù)據(jù)屬于每個(gè)領(lǐng)域的概率向量，所述排序方法可以為從大到小排序，也可為從小到大排序，不發(fā)明不作限定。比如待識(shí)別語音數(shù)據(jù)屬于A、B、C、D、E、F和G領(lǐng)域的概率向量分別為{0.01，0.01，0.01，0.01，0.01，0.08，0.87}。

步驟S306，以所述概率向量作為可信度判定模型的輸入，判斷所述概率向量是否可信；

具體的，所述判斷所述概率向量是否可信便是對(duì)待識(shí)別語音數(shù)據(jù)屬于系統(tǒng)預(yù)先存儲(chǔ)的各所述領(lǐng)域類別的可信度進(jìn)行判定。

具體的，所述可信度判定模型為預(yù)先構(gòu)建的模型，關(guān)于構(gòu)建所述可信度判定模型的過程如下：

首先預(yù)先收集大量集內(nèi)、集外文本數(shù)據(jù)，標(biāo)注出所述文本數(shù)據(jù)屬于集內(nèi)數(shù)據(jù)還是集外數(shù)據(jù)，得到所述文本數(shù)據(jù)的集內(nèi)或集外標(biāo)簽，如標(biāo)注時(shí)使用1表示文本數(shù)據(jù)的集內(nèi)標(biāo)簽，標(biāo)注時(shí)使用0表示文本數(shù)據(jù)的集外標(biāo)簽，所述集內(nèi)數(shù)據(jù)是指系統(tǒng)包含的各所述領(lǐng)域類別的數(shù)據(jù)，所述集外數(shù)據(jù)是指非系統(tǒng)包含的各所述領(lǐng)域類別的數(shù)據(jù)；然后利用領(lǐng)域判定模型對(duì)收集的文本數(shù)據(jù)進(jìn)行領(lǐng)域判定，得到文本數(shù)據(jù)屬于系統(tǒng)內(nèi)包含的每個(gè)領(lǐng)域類別的概率，對(duì)所述概率進(jìn)行排序后，得到文本數(shù)據(jù)屬于系統(tǒng)內(nèi)包含的每個(gè)領(lǐng)域類別的概率向量；將所述概率向量及文本數(shù)據(jù)的集內(nèi)或集外標(biāo)簽作為訓(xùn)練數(shù)據(jù)，如a1文本數(shù)據(jù)屬于系統(tǒng)內(nèi)包含的每個(gè)領(lǐng)域類別的概率向量{0.01，0.01，0.01，0.01，0.01，0.08，0.87}以及a1文本數(shù)據(jù)的集內(nèi)標(biāo)簽1，便是一組訓(xùn)練數(shù)據(jù)，通過大量訓(xùn)練數(shù)據(jù)訓(xùn)練所述可信度判定模型，所述可信度判定模型的輸入為概率向量，輸出為集內(nèi)或集外標(biāo)簽，所述可信度判定模型為模式識(shí)別中常用分類模型，如支持向量機(jī)模型、深度神經(jīng)網(wǎng)絡(luò)模型等。

需要說明的是，待識(shí)別語音數(shù)據(jù)屬于系統(tǒng)內(nèi)包含的每個(gè)領(lǐng)域的概率向量的排序方法必須與所述可信度判定模型構(gòu)建時(shí)，文本數(shù)據(jù)屬于系統(tǒng)內(nèi)包含的每個(gè)領(lǐng)域的概率向量的排序方法一致，如都使用從大到小的排序方法或者從小到大的排序方法。

具體的，所述步驟S306具體包括：將所述待識(shí)別語音數(shù)據(jù)屬于系統(tǒng)內(nèi)包含的每個(gè)領(lǐng)域的概率向量作為可信度判定模型的輸入，依據(jù)對(duì)應(yīng)的可信度判定模型的輸出對(duì)待識(shí)別語音數(shù)據(jù)進(jìn)行可信度判定。

具體的，對(duì)待識(shí)別語音數(shù)據(jù)進(jìn)行可信度判定時(shí)，直接利用預(yù)先訓(xùn)練好的可信度判定模型對(duì)待識(shí)別語音數(shù)據(jù)屬于每個(gè)領(lǐng)域的概率向量進(jìn)行可信度預(yù)測(cè)，所述可信度判定模型的輸入為待識(shí)別語音數(shù)據(jù)屬于系統(tǒng)內(nèi)包含的每個(gè)所述領(lǐng)域類別的概率向量，輸出表征該概率向量是否可信，如果使用1表示可信，使用0表示不可信，則可信度判定模型的輸出為0或1，那么若所述可信度判定模型的輸出為1，表示輸入的概率向量可信，若所述可信度判定模型的輸出為0，表示輸入的概率向量不可信。

步驟S307，若所述概率向量可信，對(duì)于每個(gè)所述領(lǐng)域類別，判斷所述待識(shí)別語音數(shù)據(jù)屬于所述領(lǐng)域類別的概率是否超過與所述領(lǐng)域類別相對(duì)應(yīng)的第五預(yù)設(shè)閾值；

具體的，如果輸入的所述概率向量可信，則說明待識(shí)別語音數(shù)據(jù)屬于集內(nèi)數(shù)據(jù)，從而可以根據(jù)所述概率向量確定待識(shí)別語音數(shù)據(jù)屬于系統(tǒng)內(nèi)的哪個(gè)或哪些領(lǐng)域類別，即可以使用系統(tǒng)預(yù)先訓(xùn)練得到的目標(biāo)領(lǐng)域語言模型；如果輸入的所述概率向量不可信，則說明待識(shí)別語音數(shù)據(jù)屬于集外數(shù)據(jù)，因此可以確定待識(shí)別語音數(shù)據(jù)不屬于系統(tǒng)內(nèi)包含的領(lǐng)域類別，也就無法使用所述目標(biāo)領(lǐng)域語言模型。

步驟S308，若是，則以所述概率所對(duì)應(yīng)的所述領(lǐng)域類別的目標(biāo)領(lǐng)域語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)；

具體的，如果所述概率超過所述第五預(yù)設(shè)閾值，則使用所述概率對(duì)應(yīng)領(lǐng)域類別的目標(biāo)領(lǐng)域語言模型，如果有多個(gè)所述概率超過所述第五預(yù)設(shè)閾值，則可以選擇多個(gè)目標(biāo)領(lǐng)域語言模型；當(dāng)然，如果待識(shí)別語音數(shù)據(jù)屬于每個(gè)領(lǐng)域的概率都沒有超過所述第五預(yù)設(shè)閾值，則不使用所述目標(biāo)領(lǐng)域語言模型。

本實(shí)施例提供的技術(shù)方案，通過添加預(yù)先訓(xùn)練得到的目標(biāo)領(lǐng)域語言模型，在獲取到用戶提供的與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料后，根據(jù)所述基礎(chǔ)資料確定目標(biāo)領(lǐng)域語言模型，經(jīng)確定的所述目標(biāo)領(lǐng)域語言模型是與待識(shí)別語音數(shù)據(jù)的領(lǐng)域相同或相近的語言模型，以此語言模型來識(shí)別所述待識(shí)別語音數(shù)據(jù)，相對(duì)于現(xiàn)有技術(shù)僅是依靠通用語言模型來識(shí)別的方式，能夠提高語音識(shí)別的準(zhǔn)確性，加強(qiáng)識(shí)別效果。

可選的，本發(fā)明任一實(shí)施例提供的技術(shù)方案，所述收集大量數(shù)據(jù)時(shí)可以從網(wǎng)絡(luò)上或用戶歷史數(shù)據(jù)來收集，對(duì)此，本發(fā)明不做限制。

可以理解的是，在現(xiàn)場(chǎng)進(jìn)行語音識(shí)別時(shí)，本發(fā)明實(shí)施例提供的技術(shù)方案可以結(jié)合現(xiàn)有技術(shù)中的通用語言模型來實(shí)施，所述通用語言模型即語音識(shí)別時(shí)使用的通用語言模型，訓(xùn)練通用語言模型的語料不局限于單個(gè)領(lǐng)域或單個(gè)主題，所述通用語言模型可以通過預(yù)先收集多領(lǐng)域多主題的文本數(shù)據(jù)訓(xùn)練得到。

具體的，使用目標(biāo)領(lǐng)域語言模型、目標(biāo)主題語言模型及通用語言模型對(duì)待識(shí)別語音數(shù)據(jù)進(jìn)行語音識(shí)別時(shí)，可以直接將目標(biāo)領(lǐng)域語言模型、目標(biāo)主題語言模型及通用語言模型進(jìn)行融合后再使用，所述融合方法如插值方法，具體過程與現(xiàn)有技術(shù)相同，在此不再詳述；對(duì)待識(shí)別語音數(shù)據(jù)進(jìn)行語音識(shí)別，需要提取語音數(shù)據(jù)的聲學(xué)特征，利用預(yù)先訓(xùn)練的聲學(xué)模型及融合后的語言模型根據(jù)提取的聲學(xué)特征進(jìn)行語音識(shí)別，具體過程與現(xiàn)有技術(shù)相同，在此不再詳述。

當(dāng)然，對(duì)待識(shí)別語音數(shù)據(jù)進(jìn)行語音識(shí)別時(shí)，也可以先使用通用語言模型進(jìn)行語音識(shí)別后，再使用目標(biāo)領(lǐng)域語言模型或目標(biāo)主題語言模型對(duì)識(shí)別結(jié)果進(jìn)行二遍解碼，得到最終識(shí)別結(jié)果，所述語言模型的使用方法本發(fā)明不作限定。

為了更加全面地闡述本發(fā)明提供的技術(shù)方案，對(duì)應(yīng)于本發(fā)明實(shí)施例提供的語音識(shí)別方法，本發(fā)明公開一種語音識(shí)別裝置。

請(qǐng)參閱圖4，圖4為本發(fā)明實(shí)施例提供的一種語音識(shí)別裝置的結(jié)構(gòu)圖。如圖4所示，該裝置包括：

獲取模塊401，用于獲取與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料；

第一確定模塊402，用于確定所述基礎(chǔ)資料的關(guān)鍵詞；

搜索模塊403，用于依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料；

第一識(shí)別模塊404，用于通過所述目標(biāo)語料訓(xùn)練目標(biāo)主題語言模型，以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)。

應(yīng)用本發(fā)明實(shí)施例提供的語音識(shí)別裝置，能夠提高識(shí)別特定應(yīng)用場(chǎng)景的語音數(shù)據(jù)的準(zhǔn)確度，識(shí)別效果較好。

可選的，本發(fā)明實(shí)施例提供的語音識(shí)別裝置，所述第一確定模塊402包括：

可選的，本發(fā)明實(shí)施例提供的語音識(shí)別裝置，所述搜索模塊403包括：

搜索單元，用于依據(jù)所述關(guān)鍵詞組和所述獨(dú)立關(guān)鍵詞確定所述搜索項(xiàng)，通過所述搜索項(xiàng)搜索所述目標(biāo)語料。

可選的，本發(fā)明另外一個(gè)實(shí)施例提供的語音識(shí)別裝置，還包括：

可選的，請(qǐng)參閱圖5，圖5為本發(fā)明實(shí)施例提供的另外一種語音識(shí)別裝置的結(jié)構(gòu)圖。如圖5所示，該裝置包括：

獲取模塊501，用于獲取與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料；

第一確定模塊502，用于確定所述基礎(chǔ)資料的關(guān)鍵詞；

搜索模塊503，用于依據(jù)所述關(guān)鍵詞確定搜索項(xiàng)，通過所述搜索項(xiàng)搜索目標(biāo)語料；

第一識(shí)別模塊504，用于通過所述目標(biāo)語料訓(xùn)練目標(biāo)主題語言模型，以所述目標(biāo)主題語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)；

第二確定模塊505，用于依據(jù)所述基礎(chǔ)資料和與系統(tǒng)預(yù)先存儲(chǔ)的各目標(biāo)領(lǐng)域語言模型的領(lǐng)域類別相匹配的領(lǐng)域判定模型，確定所述待識(shí)別語音數(shù)據(jù)屬于每個(gè)所述領(lǐng)域類別的概率，按設(shè)定順序排序，生成概率向量；

第一判斷模塊506，用于以所述概率向量作為可信度判定模型的輸入，判斷所述概率向量是否可信，所述可信度判定模型與所述領(lǐng)域類別相匹配；

第二判斷模塊507，用于若所述概率向量可信，對(duì)于每個(gè)所述領(lǐng)域類別，判斷所述待識(shí)別語音數(shù)據(jù)屬于所述領(lǐng)域類別的概率是否超過與所述領(lǐng)域類別相對(duì)應(yīng)的第五預(yù)設(shè)閾值；

第二識(shí)別模塊508，用于若是，則以所述概率所對(duì)應(yīng)的所述領(lǐng)域類別的目標(biāo)領(lǐng)域語言模型識(shí)別所述待識(shí)別語音數(shù)據(jù)。

本實(shí)施例提供的語音識(shí)別裝置，系統(tǒng)添加了預(yù)先訓(xùn)練得到的目標(biāo)領(lǐng)域語言模型，根據(jù)與待識(shí)別語音數(shù)據(jù)相關(guān)的基礎(chǔ)資料確定目標(biāo)領(lǐng)域語言模型，經(jīng)確定的所述目標(biāo)領(lǐng)域語言模型是與待識(shí)別語音數(shù)據(jù)的領(lǐng)域相同或相近的語言模型，以此語言模型來識(shí)別所述待識(shí)別語音數(shù)據(jù)，相對(duì)于現(xiàn)有技術(shù)僅是依靠通用語言模型來識(shí)別的方式，能夠提高語音識(shí)別的準(zhǔn)確性，加強(qiáng)識(shí)別效果。

最后，還需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的裝置而言，由于其與實(shí)施例公開的方法相對(duì)應(yīng)，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法部分說明即可。

結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊，或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(RAM)、內(nèi)存、只讀存儲(chǔ)器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動(dòng)磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。

對(duì)所公開的實(shí)施例的上述說明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的，本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例，而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3