語音識別文本的糾錯方法和裝置制造方法

文檔序號：2828119閱讀：296來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別文本的糾錯方法和裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種語音識別文本的糾錯方法和裝置。所述語音識別文本的糾錯方法包括：根據(jù)語音識別的結(jié)果文本的多層次K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本，確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣，根據(jù)確定的模糊音編輯距離矩陣獲取所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界，根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本，并根據(jù)所述糾錯文本所對應(yīng)的候選糾錯邊界對所述結(jié)果文本進行糾錯。本發(fā)明實施例提供的語音識別文本的糾錯方法和裝置實現(xiàn)了對語音識別結(jié)果文本的準(zhǔn)確糾錯。
【專利說明】語音識別文本的糾錯方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施例涉及語音識別【技術(shù)領(lǐng)域】，尤其涉及一種語音識別文本的糾錯方法和裝置。

【背景技術(shù)】
[0002] 隨著語音識別技術(shù)的日臻成熟，語音識別的應(yīng)用領(lǐng)域也越來越廣泛。相對于其他的文本輸入方式，語音識別所實現(xiàn)的語音輸入方式更為符合人們的日常習(xí)慣，也使得輸入過程更為高效。可以預(yù)計，語音識別技術(shù)將廣泛應(yīng)用于工業(yè)生產(chǎn)、通信、醫(yī)療、家政服務(wù)等多個領(lǐng)域。
[0003] 在語音識別技術(shù)的實際應(yīng)用中，由于周圍噪音、方言等因素的影響，語音識別的識別結(jié)果往往與用戶的輸入不一致。尤其在日?？谡Z場景下，語音識別的識別錯誤更為普遍。而現(xiàn)有技術(shù)中缺乏對識別錯誤的糾錯手段，因而影響了語音識別技術(shù)的進一步推廣。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明實施例提出一種語音識別文本的糾錯方法和裝置，以對語音識別的結(jié)果文本進行準(zhǔn)確的糾錯。
[0005] 第一方面，本發(fā)明實施例提供了一種語音識別文本的糾錯方法，所述方法包括：
[0006] 根據(jù)語音識別的結(jié)果文本的多層次K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本；
[0007] 確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣；
[0008] 根據(jù)確定的模糊音編輯距離矩陣獲取所述至少一個候選糾錯文本分別與所述結(jié) 果文本之間的模糊音編輯距離及候選糾錯邊界；
[0009] 根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本，并根據(jù)所述糾錯文本所對應(yīng)的候選糾錯邊界對所述結(jié)果文本進行糾錯。
[0010] 第二方面，本發(fā)明實施例還提供了一種語音識別文本的糾錯裝置，所述裝置包括：
[0011] 糾錯文本拉取模塊，用于根據(jù)語音識別的結(jié)果文本的多層次K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本；
[0012] 編輯距離矩陣計算模塊，用于確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣；
[0013] 路徑回溯模塊，用于根據(jù)確定的模糊音編輯距離矩陣獲取所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界；
[0014] 糾錯模塊，用于根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本，并根據(jù)所述糾錯文本所對應(yīng)的候選糾錯邊界對所述結(jié)果文本進行糾錯。
[0015] 本發(fā)明實施例提供的語音識別文本的糾錯方法和裝置，通過根據(jù)語音識別的結(jié)果文本的多層次K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本，確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣，根據(jù)確定的模糊音編輯距離矩陣獲取所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界，根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本，并根據(jù)所述糾錯文本所對應(yīng)的候選糾錯邊界對所述結(jié)果文本進行糾錯，從而實現(xiàn)了對語音識別的結(jié)果文本的準(zhǔn)確糾錯。

【專利附圖】

【附圖說明】
[0016] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述，本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯：
[0017] 圖1是本發(fā)明第一實施例提供的語音識別文本的糾錯方法的流程圖；
[0018] 圖2是本發(fā)明第二實施例提供的語音識別文本的糾錯方法的流程圖；
[0019] 圖3是本發(fā)明第二實施例提供的語音識別文本的糾錯方法中編輯距離矩陣計算的流程圖；
[0020] 圖4是本發(fā)明第二實施例提供的語音識別文本的糾錯方法中路徑回溯的流程圖；
[0021] 圖5是本發(fā)明第三實施例提供的語音識別文本的糾錯方法的流程圖；
[0022] 圖6是本發(fā)明第三實施例提供的語音識別文本的糾錯方法中糾錯文本拉取的流程圖；
[0023] 圖7是本發(fā)明第三實施例提供的語音識別文本的糾錯方法中編輯距離矩陣計算的流程圖；
[0024] 圖8是本發(fā)明第三實施例提供的語音識別文本的糾錯方法中路徑回溯的流程圖；
[0025] 圖9是本發(fā)明第四實施例提供的語音識別文本的糾錯方法的流程圖；
[0026] 圖10是本發(fā)明第五實施例提供的語音識別文本的糾錯方法中糾錯的流程圖；
[0027] 圖11是本發(fā)明第六實施例提供的語音識別文本的糾錯裝置的結(jié)構(gòu)圖。

【具體實施方式】
[0028] 下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細(xì)說明?？梢岳斫獾氖?，此處所描述的具體實施例僅用于解釋本發(fā)明，而非對本發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0029] 第一實施例
[0030] 圖1是本發(fā)明第一實施例提供的語音識別文本的糾錯方法的流程圖。參見圖1，所述語音識別文本的糾錯方法包括：
[0031] S110,根據(jù)語音識別的結(jié)果文本的多層次K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本。
[0032] 在對所述語音識別的結(jié)果文本進行糾錯之前，首先建立所述結(jié)果文本的多層次 K-Gram索引。在建立所述結(jié)果文本的多層次K-Gram索引之后，根據(jù)所述多層次K-Gram索弓丨，從預(yù)置的語料庫中拉取與所述結(jié)果文本最為相似的候選糾錯文本。
[0033] 具體的，所述多層次K-Gram索引包括漢字層次的K-Gram索引、拼音音節(jié)層次的 K-Gram索引、全拼或簡拼層次的K-Gram索引、聲母韻母層次的K-Gram索引中的任意一個。
[0034] 所述漢字層次的K-Gram索引是以所述結(jié)果文本中的漢字為組成K-Gram索引的元素而建立的K-Gram索引。所述拼音音節(jié)層次的K-Gram索引是以所述結(jié)果文本中漢字對應(yīng) 的拼音音節(jié)組成K-Gram索引的元素而建立的K-Gram索引。所述全拼或簡拼層次的K-Gram 索引是獲取所述結(jié)果文本中漢字對應(yīng)的全拼或簡拼，并以所述全拼或簡拼為組成K-Gram 索引的元素而建立的K-Gram索引。所述聲母韻母層次的K-Gram索引是從所述結(jié)果文本中漢字對應(yīng)的全拼中區(qū)分出聲母和韻母，并以區(qū)分出的聲母和韻母為組成K-Gram索引的元素而建立的K-Gram索引。
[0035] 拉取的候選糾錯文本是用于從中選取對所述結(jié)果文本進行糾錯的糾錯文本的備選文本。為了能夠更為準(zhǔn)確的對所述結(jié)果文本進行糾錯，在拉取候選糾錯文本時，拉取的候選糾錯文本的數(shù)量應(yīng)該為至少一個。
[0036] S120,確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣。
[0037] 確定了至少一個候選糾錯文本之后，確定每個候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離矩陣。
[0038] 編輯距離是指兩個字符串之間，由一個字符串轉(zhuǎn)換成另外一個字符串所需的最少的編輯操作次數(shù)。其中，所述編輯操作包括替換操作、插入操作以及刪除操作。所述替換操作是指利用一個字符替換另一個字符；所述插入操作是指在字符串中插入一個原來沒有的字符；所述刪除操作是指從字符串中刪掉一個原有的字符。
[0039] 編輯距離矩陣是一種用于計算兩個字符串之間的編輯距離的矩陣。表1示出了字符串"kitten"與字符串"sitting"之間的編輯距離矩陣。
[0040] 表 1

【權(quán)利要求】
1. 一種語音識別文本的糾錯方法，其特征在于，包括：根據(jù)語音識別的結(jié)果文本的多層次K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本. 確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣；根據(jù)確定的模糊音編輯距離矩陣獲取所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界；根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本，并根據(jù)所述糾錯文本所對應(yīng)的候選糾錯邊界對所述結(jié)果文本進行糾錯。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)語音識別的結(jié)果文本的多層次 K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本包括：根據(jù)漢字層次、拼音音節(jié)層次、全拼或簡拼層次或者聲母韻母層次的K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個非模板候選糾錯文本。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣包括：對于拉取到的每個非模板候選糾錯文本，將初始化的模糊音編輯距離矩陣中替換操作對應(yīng)元素的取值，設(shè)置為所述元素所對應(yīng)的當(dāng)前非模板候選糾錯文本中的字符與所述元素所對應(yīng)的結(jié)果文本中的字符之間的模糊音相似度；根據(jù)動態(tài)規(guī)劃算法確定所述模糊音編輯距離矩陣中的非替換操作對應(yīng)元素的取值，得到當(dāng)前非模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離矩陣。
4. 根據(jù)權(quán)利要求2所述的方法，其特征在于，獲取所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界包括：對于確定的每個模糊音編輯距離矩陣，通過路徑回溯獲取當(dāng)前模糊音編輯距離矩陣的模糊音編輯距離及對應(yīng)的候選糾錯邊界；將當(dāng)前模糊音編輯距離矩陣的模糊音編輯距離及對應(yīng)的候選糾錯邊界，作為當(dāng)前模糊音編輯距離矩陣對應(yīng)的非模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)語音識別的結(jié)果文本的多層次 K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本包括：根據(jù)漢字層次、拼音音節(jié)層次、全拼或簡拼層次或者聲母韻母層次的K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本；識別每個候選糾錯文本中包含的專有名詞，并使用通配符替換所述專有名詞，W得到至少一個模板候選糾錯文本。
6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣包括：對于拉取到的每個模板候選糾錯文本，將初始化的模糊音編輯距離矩陣中替換操作對應(yīng)元素的取值，設(shè)置為所述元素所對應(yīng)的當(dāng)前模板候選糾錯文本中的字符與所述元素所對應(yīng)的結(jié)果文本中的字符之間的模糊音相似度；根據(jù)動態(tài)規(guī)劃算法確定所述模糊音編輯距離矩陣中的非替換操作對應(yīng)元素的取值，得到當(dāng)前模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離矩陣。
7. 根據(jù)權(quán)利要求5所述的方法，其特征在于，獲取所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界包括：對于確定的每個模糊音編輯距離矩陣，通過路徑回溯獲取當(dāng)前模糊音編輯距離矩陣的模糊音編輯距離及對應(yīng)的候選糾錯邊界；確定當(dāng)前模糊音編輯距離矩陣的模糊音編輯距離，與當(dāng)前模糊音編輯距離矩陣對應(yīng)的模板候選糾錯文本中的通配符所對應(yīng)的編輯距離之間的差值；將所述差值作為當(dāng)前模糊音編輯距離矩陣對應(yīng)的模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離。
8. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本之后，確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣之前，還包括：根據(jù)用戶的所在地點或者經(jīng)常經(jīng)過地點，對所述至少一個候選糾錯文本進行篩選，W 篩選出與用戶相關(guān)的至少一個地名性候選糾錯文本。
9. 根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本包括：若所述至少一個候選糾錯文本的個數(shù)大于一個，則選擇所述至少一個候選糾錯文本中模糊音編輯距離最小的一個作為糾錯文本；若所述至少一個候選糾錯文本的個數(shù)為一個，則依據(jù)預(yù)先設(shè)定的模糊音編輯距離闊值和該候選糾錯文本的模糊音編輯距離的大小關(guān)系，判斷是否將所述候選糾錯文本作為糾錯文本。
10. -種語音識別文本的糾錯裝置，其特征在于，包括：糾錯文本拉取模塊，用于根據(jù)語音識別的結(jié)果文本的多層次K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本；編輯距離矩陣計算模塊，用于確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣；路徑回溯模塊，用于根據(jù)確定的模糊音編輯距離矩陣獲取所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界；糾錯模塊，用于根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本，并根據(jù)所述糾錯文本所對應(yīng)的候選糾錯邊界對所述結(jié)果文本進行糾錯。
11. 根據(jù)權(quán)利要求10所述的裝置，其特征在于，所述糾錯文本拉取模塊包括：第一多層次拉取單元，用于根據(jù)漢字層次、拼音音節(jié)層次、全拼或簡拼層次或者聲母韻母層次的K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個非模板候選糾錯文本。
12. 根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述編輯距離矩陣計算模塊包括：第一矩陣元素設(shè)置單元，用于對于拉取到的每個非模板候選糾錯文本，將初始化的模糊音編輯距離矩陣中替換操作對應(yīng)元素的取值，設(shè)置為所述元素所對應(yīng)的當(dāng)前非模板候選糾錯文本中的字符與所述元素所對應(yīng)的結(jié)果文本中的字符之間的模糊音相似度；第一矩陣計算單元，用于根據(jù)動態(tài)規(guī)劃算法確定所述模糊音編輯距離矩陣中的非替換操作對應(yīng)元素的取值，得到當(dāng)前非模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離矩陣。
13. 根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述路徑回溯模塊包括：第一路徑回溯單元，用于對于確定的每個模糊音編輯距離矩陣，通過路徑回溯獲取當(dāng) 前模糊音編輯距離矩陣的模糊音編輯距離及對應(yīng)的候選糾錯邊界；第一編輯距離計算單元，用于將當(dāng)前模糊音編輯距離矩陣的模糊音編輯距離及對應(yīng)的候選糾錯邊界，作為當(dāng)前模糊音編輯距離矩陣對應(yīng)的非模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離及候選糾錯邊界。
14. 根據(jù)權(quán)利要求10所述的裝置，其特征在于，所述糾錯文本拉取模塊包括：第二多層次拉取單元，用于根據(jù)漢字層次、拼音音節(jié)層次、全拼或簡拼層次或者聲母韻母層次的K-Gram索引，拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本；通配符替換單元，用于識別每個候選糾錯文本中包含的專有名詞，并使用通配符替換所述專有名詞，W得到至少一個模板候選糾錯文本。
15. 根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述編輯距離矩陣計算模塊包括：第二矩陣元素設(shè)置單元，用于對于拉取到的每個模板候選糾錯文本，將初始化的模糊音編輯距離矩陣中替換操作對應(yīng)元素的取值，設(shè)置為所述元素所對應(yīng)的當(dāng)前模板候選糾錯文本中的字符與所述元素所對應(yīng)的結(jié)果文本中的字符之間的模糊音相似度. 第二矩陣計算單元，用于根據(jù)動態(tài)規(guī)劃算法確定所述模糊音編輯距離矩陣中的非替換操作對應(yīng)元素的取值，得到當(dāng)前模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離矩陣。
16. 根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述路徑回溯模塊包括：第二路徑回溯單元，用于對于確定的每個模糊音編輯距離矩陣，通過路徑回溯獲取當(dāng) 前模糊音編輯距離矩陣的模糊音編輯距離及對應(yīng)的候選糾錯邊界；差值獲取單元，用于確定當(dāng)前模糊音編輯距離矩陣的模糊音編輯距離，與當(dāng)前模糊音編輯距離矩陣對應(yīng)的模板候選糾錯文本中的通配符對應(yīng)的編輯距離之間的差值；第二編輯距離計算單元，用于將所述差值作為當(dāng)前模糊音編輯距離矩陣對應(yīng)的模板候選糾錯文本與所述結(jié)果文本之間的模糊音編輯距離。
17. 根據(jù)權(quán)利要求10所述的裝置，其特征在于，還包括：地名文本替換模塊，用于在拉取用于對所述結(jié)果文本進行糾錯的至少一個候選糾錯文本之后，確定所述至少一個候選糾錯文本分別與所述結(jié)果文本之間的模糊音編輯距離矩陣之前，根據(jù)用戶的所在地點或者經(jīng)常經(jīng)過地點，對所述至少一個候選糾錯文本進行篩選，W 篩選出與用戶相關(guān)的至少一個地名性候選糾錯文本。
18. 根據(jù)權(quán)利要求10所述的裝置，其特征在于，根據(jù)所述至少一個候選糾錯文本分別對應(yīng)的模糊音編輯距離選取糾錯文本包括：在所述至少一個候選糾錯文本的個數(shù)大于一個之時，選擇所述至少一個候選糾錯文本中模糊音編輯距離最小的一個作為糾錯文本；在所述至少一個候選糾錯文本的個數(shù)為一個之時，依據(jù)預(yù)先設(shè)定的模糊音編輯距離闊值和該候選糾錯文本的模糊音編輯距離的大小關(guān)系，判斷是否將所述候選糾錯文本作為糾錯文本。
【文檔編號】G10L15/26GK104464736SQ201410778108
【公開日】2015年3月25日申請日期:2014年12月15日優(yōu)先權(quán)日:2014年12月15日
【發(fā)明者】時迎超, 周曉, 張海雷申請人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：時迎超;周曉;張海雷;
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司;
我是此專利的發(fā)明人

上一篇：語音端點檢測方法和裝置制造方法
上一篇：敏感詞的語音識別方法和裝置制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別文本相關(guān)技術(shù)

文本糾錯相關(guān)技術(shù)

語音識別相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識別文本的糾錯方法和裝置制造方法