語音識別后處理方法及系統(tǒng)的制作方法

文檔序號：9490330閱讀：682來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別后處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域，具體涉及一種語音識別后處理方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著人機(jī)交互的廣泛應(yīng)用，人們對人機(jī)交互的準(zhǔn)確度要求越來越高。語音識別作為人機(jī)交互中的重要環(huán)節(jié)，直接影響人機(jī)交互的體驗(yàn)。然而，現(xiàn)有的語音識別系統(tǒng)經(jīng)常會由于語音數(shù)據(jù)的不理想、聲學(xué)模型或語言模型的不完美而出現(xiàn)識別錯誤的結(jié)果，增加了語義理解的難度，并降低了用戶體驗(yàn)度。因此，需要對語音識別結(jié)果進(jìn)行后處理，即對錯誤的識別結(jié)果修正，將修正后的識別結(jié)果反饋給用戶。
[0003] 現(xiàn)有的語音識別后處理方法主要是首先通過領(lǐng)域?qū)＜覙?gòu)建語義知識庫，給出具體的詞法規(guī)則、句法規(guī)則及語義規(guī)則，構(gòu)建語義模板；然后將語音識別結(jié)果同語義知識庫中的模板進(jìn)行匹配，發(fā)現(xiàn)識別錯誤的詞；最后根據(jù)語義知識庫模板將識別錯誤的詞進(jìn)行修正，得到修正后結(jié)果。這種方法需要大量領(lǐng)域?qū)＜覍χR庫中詞法規(guī)則、句法規(guī)則及語義規(guī)則進(jìn) 行歸納和整理構(gòu)建語義知識庫模板，如果語義知識庫構(gòu)建的不完整或冗余較多時(shí)，后處理效果較差。此外，這種方法需要大量的領(lǐng)域?qū)＜疫M(jìn)行標(biāo)注，成本較高，花費(fèi)時(shí)間較長。因此，如何提高語音識別結(jié)果進(jìn)行后處理的效果，準(zhǔn)確修正語音識別結(jié)果中錯誤詞具有重大的意義。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供一種語音識別后處理方法及系統(tǒng)，以提高語音識別結(jié)果后處理的效果，準(zhǔn)確的修正語音識別結(jié)果中錯誤詞。
[0005] 為此，本發(fā)明提供如下技術(shù)方案：
[0006] 一種語音識別后處理方法，包括：
[0007] 預(yù)先利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型；
[0008] 在接收到待識別語音數(shù)據(jù)后，對所述語音數(shù)據(jù)進(jìn)行語音識別，得到識別結(jié)果；
[0009] 依次將所述識別結(jié)果中的各詞與通用詞典中的每個(gè)詞組成詞對，并提取詞對中所述識別結(jié)果中各詞的語義特征及聲學(xué)特征，以及詞典詞的聲學(xué)特征；
[0010] 利用所述詞對的語義特征和聲學(xué)特征、以及所述錯詞檢測模型，依次檢測所述識別結(jié)果中的各詞，并且如果檢測得到的對應(yīng)當(dāng)前詞的詞對為正確詞對的概率大于設(shè)定閾值，則將所述詞對中的詞典詞替換所述當(dāng)前詞；
[0011] 檢測完成后，輸出修正后的識別結(jié)果。
[0012] 優(yōu)選地，所述利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型包括：
[0013] 通過聚類方式確定語音識別容易出錯的詞對，得到錯詞對集合；
[0014] 利用所述錯詞對集合構(gòu)建錯詞檢測模型。
[0015] 優(yōu)選地，所述通過聚類方式確定語音識別容易出錯的詞對，得到錯詞對集合包括：
[0016] 獲取訓(xùn)練語音數(shù)據(jù)；
[0017] 對所述訓(xùn)練語音數(shù)據(jù)進(jìn)行語音識別，得到識別文本；
[0018] 獲取包含所述識別文本中各詞的通用文本；
[0019] 利用所述識別文本訓(xùn)練得到所述識別文本中各詞的詞向量，并將其作為所述詞的識別詞向量，并利用所述通用文本訓(xùn)練得到所述通用文本中各詞的詞向量，并將其作為所述詞的通用詞向量；
[0020] 對所述識別文本中各詞的識別詞向量進(jìn)行聚類，得到各詞的類別；
[0021] 根據(jù)所述通用詞向量計(jì)算每個(gè)類別中兩個(gè)詞之間的通用語義相似度；
[0022] 計(jì)算每個(gè)類別中兩個(gè)詞之間的聲學(xué)相似度；
[0023] 如果計(jì)算得到的兩個(gè)詞的通用語義相似度低于設(shè)定的第一閾值，并且聲學(xué)相似度高于設(shè)定的第二閾值，則將所述兩個(gè)詞作為錯詞對加入到錯詞對集合中。
[0024] 優(yōu)選地，所述利用所述識別文本訓(xùn)練得到所述識別文本中各詞的詞向量包括：
[0025] 對所述識別文本中的各詞進(jìn)行向量初始化，得到各詞的初始詞向量；
[0026] 利用神經(jīng)網(wǎng)絡(luò)對各詞的初始詞向量進(jìn)行訓(xùn)練，得到所述識別文本中各詞的詞向量。
[0027] 優(yōu)選地，所述根據(jù)所述通用詞向量計(jì)算每個(gè)類別中兩個(gè)詞之間的通用語義相似度包括：
[0028] 計(jì)算每個(gè)類別中兩個(gè)詞的通用詞向量之間的距離；
[0029] 根據(jù)計(jì)算得到的兩個(gè)詞的通用詞向量之間的距離確定所述兩個(gè)詞之間的通用語義相似度。
[0030] 優(yōu)選地，所述計(jì)算每個(gè)類別中兩個(gè)詞之間的聲學(xué)相似度包括：
[0031] 計(jì)算每個(gè)類別中兩個(gè)詞的聲學(xué)距離；
[0032] 根據(jù)計(jì)算得到的兩個(gè)詞的聲學(xué)距離確定所述兩個(gè)詞之間的聲學(xué)相似度。
[0033] 優(yōu)選地，所述利用所述錯詞對集合構(gòu)建錯詞檢測模型包括：
[0034] 提取所述錯詞對集合中每個(gè)錯詞對的標(biāo)注信息，所述標(biāo)注信息用于表示所述錯詞對中其中一個(gè)詞是否應(yīng)該識別為其中另一個(gè)詞；
[0035] 提取所述錯詞對集合中識別錯誤詞的語義特征，所述語義特征包括；錯詞的上下文相關(guān)環(huán)境特征、錯詞的識別詞向量、錯詞的通用詞向量；
[0036] 提取所述錯詞對集合中每個(gè)詞所對應(yīng)語音數(shù)據(jù)的聲學(xué)特征；
[0037] 利用提取的錯詞對的標(biāo)注信息、語義特征及聲學(xué)特征，構(gòu)建錯詞檢測模型。
[0038] 一種語音識別后處理系統(tǒng)，包括：
[0039] 檢測模型構(gòu)建模塊，用于預(yù)先利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型；
[0040] 接收模塊，用于接收待識別語音數(shù)據(jù)；
[0041] 語音識別模塊，用于對所述接收模塊接收的語音數(shù)據(jù)進(jìn)行語音識別，得到識別結(jié) 果；
[0042] 特征提取模塊，用于依次將所述識別結(jié)果中的各詞與通用詞典中的每個(gè)詞組成詞對，并提取詞對中所述識別結(jié)果中各詞的語義特征及聲學(xué)特征，以及詞典詞的聲學(xué)特征；[0043] 修正模塊，用于利用所述詞對的語義特征和聲學(xué)特征、以及所述錯詞檢測模型，依次檢測所述識別結(jié)果中的各詞，并且如果檢測得到的對應(yīng)當(dāng)前詞的詞對為正確詞對的概率大于設(shè)定閾值，則將所述詞對中的詞典詞替換所述當(dāng)前詞；
[0044] 輸出模塊，用于在所述修正模塊對所述識別結(jié)果中的各詞檢測完成后，輸出修正后的識別結(jié)果。
[0045] 優(yōu)選地，所述檢測模型構(gòu)建模塊包括：
[0046] 錯詞對集合生成模塊，用于通過聚類方式確定語音識別容易出錯的詞對，得到錯詞對集合；
[0047] 模型構(gòu)建模塊，用于利用所述錯詞對集合構(gòu)建錯詞檢測模型。
[0048] 優(yōu)選地，所述錯詞對集合生成模塊包括：
[0049] 訓(xùn)練數(shù)據(jù)獲取單元，用于獲取訓(xùn)練語音數(shù)據(jù)；
[0050] 識別文本獲取單元，用于調(diào)用所述語音識別模塊對所述訓(xùn)練語音數(shù)據(jù)進(jìn)行語音識另IJ，得到識別文本；
[0051] 通用文本獲取單元，用于獲取包含所述識別文本中各詞的通用文本；
[0052] 詞向量訓(xùn)練單元，用于利用所述識別文本訓(xùn)練得到所述識別文本中各詞的詞向量，并將其作為所述詞的識別詞向量，并利用所述通用文本訓(xùn)練得到所述通用文本中各詞的詞向量，并將其作為所述詞的通用詞向量；
[0053] 聚類單元，用于對所述識別文本中各詞的識別詞向量進(jìn)行聚類，得到各詞的類別；
[0054] 通用語義相似度計(jì)算單元，用于根據(jù)所述通用詞向量計(jì)算每個(gè)類別中兩個(gè)詞之間的通用語義相似度；
[0055] 聲學(xué)相似度計(jì)算單元，用于計(jì)算每個(gè)類別中兩個(gè)詞之間的聲學(xué)相似度；
[0056] 判斷單元，用于判斷每個(gè)類別中兩個(gè)詞的通用語義相似度是否低于設(shè)定的第一閾值，并且所述兩個(gè)詞的聲學(xué)相似度是否高于設(shè)定的第二閾值，如果是，則將所述兩個(gè)詞作為錯詞對加入到錯詞對集合中。
[0057] 優(yōu)選地，所述通用語義相似度計(jì)算單元，具體用于計(jì)算每個(gè)類別中兩個(gè)詞的通用詞向量之間的距離，并根據(jù)計(jì)算得到兩個(gè)詞的通用詞向量之間的距離確定所述兩個(gè)詞之間的通用語義相似度。
[0058] 優(yōu)選地，所述聲學(xué)相似度計(jì)算單元，具體用于計(jì)算每個(gè)類別中兩個(gè)詞的聲學(xué)距離，并根據(jù)計(jì)算得到的兩個(gè)詞的聲學(xué)距離確定所述兩個(gè)詞之間的聲學(xué)相似度。
[0059] 優(yōu)選地，所述模型構(gòu)建模塊包括：
[0060] 標(biāo)注信息提取單元，用于提取所述錯詞對集合中每個(gè)錯詞對的標(biāo)注信息，所述標(biāo) 注信息用于表示所述錯詞對中其中一個(gè)詞是否應(yīng)該識別為其中另一個(gè)詞；
[0061] 語義特征提取單元，用于提取所述錯詞對集合中識別錯誤詞的語義特征，所述語義特征包括；錯詞的上下文相關(guān)環(huán)境特征、錯詞的識別詞向量、錯詞的通用詞向量；
[0062] 聲學(xué)特征提取單元，用于提取所述錯詞對集合中每個(gè)詞所對應(yīng)語音數(shù)據(jù)的聲學(xué)特征；
[0063] 模型生成單元，用于利用提取的錯詞對的標(biāo)注信息、語義特征及聲學(xué)特征，構(gòu)建錯詞檢測模型。
[0064] 本發(fā)明實(shí)施例提供的語音識別后處理方法及系統(tǒng)，預(yù)先利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型，在對待識別語音數(shù)據(jù)進(jìn)行語音識別后，將得到的識別結(jié)果利用該錯詞檢測模型對其進(jìn)行修正，從而可以提高語音識別結(jié)果后處理效果，準(zhǔn)確修正語音識別結(jié)果中的錯誤詞，提升用戶體驗(yàn)度。
[0065] 進(jìn)一步地，由于錯詞檢測模型的構(gòu)建是通過預(yù)先收集大量語音數(shù)據(jù)，并進(jìn)行語音識別，根據(jù)識別文本發(fā)現(xiàn)語音識別容易出錯的詞，得到錯詞對集合，然后根據(jù)該錯詞對集合中的各詞與語音識別相關(guān)的一些特征來構(gòu)建的，從而使后續(xù)對語音識別結(jié)果進(jìn)行后處理的過程不依賴于由專家構(gòu)建的語義知識庫，有效地避免了語音識別后處理過程受人為因素的影響，進(jìn)一步提高了處理效果。
【附圖說明】
[0066] 為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實(shí)施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，還可以根據(jù)這些附圖獲得其他的附圖。
[0067]圖1

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4