語音識別后處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域,具體涉及一種語音識別后處理方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著人機(jī)交互的廣泛應(yīng)用,人們對人機(jī)交互的準(zhǔn)確度要求越來越高。語音識別作 為人機(jī)交互中的重要環(huán)節(jié),直接影響人機(jī)交互的體驗(yàn)。然而,現(xiàn)有的語音識別系統(tǒng)經(jīng)常會由 于語音數(shù)據(jù)的不理想、聲學(xué)模型或語言模型的不完美而出現(xiàn)識別錯誤的結(jié)果,增加了語義 理解的難度,并降低了用戶體驗(yàn)度。因此,需要對語音識別結(jié)果進(jìn)行后處理,即對錯誤的識 別結(jié)果修正,將修正后的識別結(jié)果反饋給用戶。
[0003] 現(xiàn)有的語音識別后處理方法主要是首先通過領(lǐng)域?qū)<覙?gòu)建語義知識庫,給出具體 的詞法規(guī)則、句法規(guī)則及語義規(guī)則,構(gòu)建語義模板;然后將語音識別結(jié)果同語義知識庫中的 模板進(jìn)行匹配,發(fā)現(xiàn)識別錯誤的詞;最后根據(jù)語義知識庫模板將識別錯誤的詞進(jìn)行修正,得 到修正后結(jié)果。這種方法需要大量領(lǐng)域?qū)<覍χR庫中詞法規(guī)則、句法規(guī)則及語義規(guī)則進(jìn) 行歸納和整理構(gòu)建語義知識庫模板,如果語義知識庫構(gòu)建的不完整或冗余較多時(shí),后處理 效果較差。此外,這種方法需要大量的領(lǐng)域?qū)<疫M(jìn)行標(biāo)注,成本較高,花費(fèi)時(shí)間較長。因此, 如何提高語音識別結(jié)果進(jìn)行后處理的效果,準(zhǔn)確修正語音識別結(jié)果中錯誤詞具有重大的意 義。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種語音識別后處理方法及系統(tǒng),以提高語音識別結(jié)果后處理的效 果,準(zhǔn)確的修正語音識別結(jié)果中錯誤詞。
[0005] 為此,本發(fā)明提供如下技術(shù)方案:
[0006] 一種語音識別后處理方法,包括:
[0007] 預(yù)先利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型;
[0008] 在接收到待識別語音數(shù)據(jù)后,對所述語音數(shù)據(jù)進(jìn)行語音識別,得到識別結(jié)果;
[0009] 依次將所述識別結(jié)果中的各詞與通用詞典中的每個(gè)詞組成詞對,并提取詞對中所 述識別結(jié)果中各詞的語義特征及聲學(xué)特征,以及詞典詞的聲學(xué)特征;
[0010] 利用所述詞對的語義特征和聲學(xué)特征、以及所述錯詞檢測模型,依次檢測所述識 別結(jié)果中的各詞,并且如果檢測得到的對應(yīng)當(dāng)前詞的詞對為正確詞對的概率大于設(shè)定閾 值,則將所述詞對中的詞典詞替換所述當(dāng)前詞;
[0011] 檢測完成后,輸出修正后的識別結(jié)果。
[0012] 優(yōu)選地,所述利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型包括:
[0013] 通過聚類方式確定語音識別容易出錯的詞對,得到錯詞對集合;
[0014] 利用所述錯詞對集合構(gòu)建錯詞檢測模型。
[0015] 優(yōu)選地,所述通過聚類方式確定語音識別容易出錯的詞對,得到錯詞對集合包 括:
[0016] 獲取訓(xùn)練語音數(shù)據(jù);
[0017] 對所述訓(xùn)練語音數(shù)據(jù)進(jìn)行語音識別,得到識別文本;
[0018] 獲取包含所述識別文本中各詞的通用文本;
[0019] 利用所述識別文本訓(xùn)練得到所述識別文本中各詞的詞向量,并將其作為所述詞的 識別詞向量,并利用所述通用文本訓(xùn)練得到所述通用文本中各詞的詞向量,并將其作為所 述詞的通用詞向量;
[0020] 對所述識別文本中各詞的識別詞向量進(jìn)行聚類,得到各詞的類別;
[0021] 根據(jù)所述通用詞向量計(jì)算每個(gè)類別中兩個(gè)詞之間的通用語義相似度;
[0022] 計(jì)算每個(gè)類別中兩個(gè)詞之間的聲學(xué)相似度;
[0023] 如果計(jì)算得到的兩個(gè)詞的通用語義相似度低于設(shè)定的第一閾值,并且聲學(xué)相似度 高于設(shè)定的第二閾值,則將所述兩個(gè)詞作為錯詞對加入到錯詞對集合中。
[0024] 優(yōu)選地,所述利用所述識別文本訓(xùn)練得到所述識別文本中各詞的詞向量包括:
[0025] 對所述識別文本中的各詞進(jìn)行向量初始化,得到各詞的初始詞向量;
[0026] 利用神經(jīng)網(wǎng)絡(luò)對各詞的初始詞向量進(jìn)行訓(xùn)練,得到所述識別文本中各詞的詞向 量。
[0027] 優(yōu)選地,所述根據(jù)所述通用詞向量計(jì)算每個(gè)類別中兩個(gè)詞之間的通用語義相似度 包括:
[0028] 計(jì)算每個(gè)類別中兩個(gè)詞的通用詞向量之間的距離;
[0029] 根據(jù)計(jì)算得到的兩個(gè)詞的通用詞向量之間的距離確定所述兩個(gè)詞之間的通用語 義相似度。
[0030] 優(yōu)選地,所述計(jì)算每個(gè)類別中兩個(gè)詞之間的聲學(xué)相似度包括:
[0031] 計(jì)算每個(gè)類別中兩個(gè)詞的聲學(xué)距離;
[0032] 根據(jù)計(jì)算得到的兩個(gè)詞的聲學(xué)距離確定所述兩個(gè)詞之間的聲學(xué)相似度。
[0033] 優(yōu)選地,所述利用所述錯詞對集合構(gòu)建錯詞檢測模型包括:
[0034] 提取所述錯詞對集合中每個(gè)錯詞對的標(biāo)注信息,所述標(biāo)注信息用于表示所述錯詞 對中其中一個(gè)詞是否應(yīng)該識別為其中另一個(gè)詞;
[0035] 提取所述錯詞對集合中識別錯誤詞的語義特征,所述語義特征包括;錯詞的上下 文相關(guān)環(huán)境特征、錯詞的識別詞向量、錯詞的通用詞向量;
[0036] 提取所述錯詞對集合中每個(gè)詞所對應(yīng)語音數(shù)據(jù)的聲學(xué)特征;
[0037] 利用提取的錯詞對的標(biāo)注信息、語義特征及聲學(xué)特征,構(gòu)建錯詞檢測模型。
[0038] 一種語音識別后處理系統(tǒng),包括:
[0039] 檢測模型構(gòu)建模塊,用于預(yù)先利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型;
[0040] 接收模塊,用于接收待識別語音數(shù)據(jù);
[0041] 語音識別模塊,用于對所述接收模塊接收的語音數(shù)據(jù)進(jìn)行語音識別,得到識別結(jié) 果;
[0042] 特征提取模塊,用于依次將所述識別結(jié)果中的各詞與通用詞典中的每個(gè)詞組成詞 對,并提取詞對中所述識別結(jié)果中各詞的語義特征及聲學(xué)特征,以及詞典詞的聲學(xué)特征;[0043] 修正模塊,用于利用所述詞對的語義特征和聲學(xué)特征、以及所述錯詞檢測模型,依 次檢測所述識別結(jié)果中的各詞,并且如果檢測得到的對應(yīng)當(dāng)前詞的詞對為正確詞對的概率 大于設(shè)定閾值,則將所述詞對中的詞典詞替換所述當(dāng)前詞;
[0044] 輸出模塊,用于在所述修正模塊對所述識別結(jié)果中的各詞檢測完成后,輸出修正 后的識別結(jié)果。
[0045] 優(yōu)選地,所述檢測模型構(gòu)建模塊包括:
[0046] 錯詞對集合生成模塊,用于通過聚類方式確定語音識別容易出錯的詞對,得到錯 詞對集合;
[0047] 模型構(gòu)建模塊,用于利用所述錯詞對集合構(gòu)建錯詞檢測模型。
[0048] 優(yōu)選地,所述錯詞對集合生成模塊包括:
[0049] 訓(xùn)練數(shù)據(jù)獲取單元,用于獲取訓(xùn)練語音數(shù)據(jù);
[0050] 識別文本獲取單元,用于調(diào)用所述語音識別模塊對所述訓(xùn)練語音數(shù)據(jù)進(jìn)行語音識 另IJ,得到識別文本;
[0051] 通用文本獲取單元,用于獲取包含所述識別文本中各詞的通用文本;
[0052] 詞向量訓(xùn)練單元,用于利用所述識別文本訓(xùn)練得到所述識別文本中各詞的詞向 量,并將其作為所述詞的識別詞向量,并利用所述通用文本訓(xùn)練得到所述通用文本中各詞 的詞向量,并將其作為所述詞的通用詞向量;
[0053] 聚類單元,用于對所述識別文本中各詞的識別詞向量進(jìn)行聚類,得到各詞的類 別;
[0054] 通用語義相似度計(jì)算單元,用于根據(jù)所述通用詞向量計(jì)算每個(gè)類別中兩個(gè)詞之間 的通用語義相似度;
[0055] 聲學(xué)相似度計(jì)算單元,用于計(jì)算每個(gè)類別中兩個(gè)詞之間的聲學(xué)相似度;
[0056] 判斷單元,用于判斷每個(gè)類別中兩個(gè)詞的通用語義相似度是否低于設(shè)定的第一閾 值,并且所述兩個(gè)詞的聲學(xué)相似度是否高于設(shè)定的第二閾值,如果是,則將所述兩個(gè)詞作為 錯詞對加入到錯詞對集合中。
[0057] 優(yōu)選地,所述通用語義相似度計(jì)算單元,具體用于計(jì)算每個(gè)類別中兩個(gè)詞的通用 詞向量之間的距離,并根據(jù)計(jì)算得到兩個(gè)詞的通用詞向量之間的距離確定所述兩個(gè)詞之間 的通用語義相似度。
[0058] 優(yōu)選地,所述聲學(xué)相似度計(jì)算單元,具體用于計(jì)算每個(gè)類別中兩個(gè)詞的聲學(xué)距離, 并根據(jù)計(jì)算得到的兩個(gè)詞的聲學(xué)距離確定所述兩個(gè)詞之間的聲學(xué)相似度。
[0059] 優(yōu)選地,所述模型構(gòu)建模塊包括:
[0060] 標(biāo)注信息提取單元,用于提取所述錯詞對集合中每個(gè)錯詞對的標(biāo)注信息,所述標(biāo) 注信息用于表示所述錯詞對中其中一個(gè)詞是否應(yīng)該識別為其中另一個(gè)詞;
[0061] 語義特征提取單元,用于提取所述錯詞對集合中識別錯誤詞的語義特征,所述語 義特征包括;錯詞的上下文相關(guān)環(huán)境特征、錯詞的識別詞向量、錯詞的通用詞向量;
[0062] 聲學(xué)特征提取單元,用于提取所述錯詞對集合中每個(gè)詞所對應(yīng)語音數(shù)據(jù)的聲學(xué)特 征;
[0063] 模型生成單元,用于利用提取的錯詞對的標(biāo)注信息、語義特征及聲學(xué)特征,構(gòu)建錯 詞檢測模型。
[0064] 本發(fā)明實(shí)施例提供的語音識別后處理方法及系統(tǒng),預(yù)先利用語音識別容易出錯的 詞對構(gòu)建錯詞檢測模型,在對待識別語音數(shù)據(jù)進(jìn)行語音識別后,將得到的識別結(jié)果利用該 錯詞檢測模型對其進(jìn)行修正,從而可以提高語音識別結(jié)果后處理效果,準(zhǔn)確修正語音識別 結(jié)果中的錯誤詞,提升用戶體驗(yàn)度。
[0065] 進(jìn)一步地,由于錯詞檢測模型的構(gòu)建是通過預(yù)先收集大量語音數(shù)據(jù),并進(jìn)行語音 識別,根據(jù)識別文本發(fā)現(xiàn)語音識別容易出錯的詞,得到錯詞對集合,然后根據(jù)該錯詞對集合 中的各詞與語音識別相關(guān)的一些特征來構(gòu)建的,從而使后續(xù)對語音識別結(jié)果進(jìn)行后處理的 過程不依賴于由專家構(gòu)建的語義知識庫,有效地避免了語音識別后處理過程受人為因素的 影響,進(jìn)一步提高了處理效果。
【附圖說明】
[0066] 為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一 些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0067]圖1