欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置制造方法

文檔序號:2825551閱讀:190來源:國知局
一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置制造方法
【專利摘要】本發(fā)明提供了一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置,其中訓(xùn)練方法包括:對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料,N為大于1的正整數(shù);對分塊得到的N組訓(xùn)練語料并行執(zhí)行:進(jìn)行遞歸的后綴樹排序,分別得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果,基于排序結(jié)果,將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立n元詞序樹,n為預(yù)設(shè)的一個(gè)或多個(gè)大于1的正整數(shù);對得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后,得到存放前向概率信息的Trie樹,該Trie樹中從根到葉的詞序順序?yàn)椋壕渥又械箶?shù)第二個(gè)詞、最后一個(gè)詞、其他詞語按照倒序排列。通過本發(fā)明能夠?qū)崿F(xiàn)語言模型的快速更新。
【專利說明】一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用中的語音識(shí)別【技術(shù)領(lǐng)域】,特別涉及一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置。
【【背景技術(shù)】】
[0002]語音識(shí)別是指讓機(jī)器能夠在不同的情況下準(zhǔn)確地識(shí)別出語音的內(nèi)容,從而根據(jù)識(shí)別出的信息來執(zhí)行人的各種意圖,例如執(zhí)行語音搜索。目前,隨著語音識(shí)別技術(shù)的不斷發(fā)展,統(tǒng)計(jì)語言模型已經(jīng)廣泛地應(yīng)用于各個(gè)不同領(lǐng)域,如語音識(shí)別、信息檢索、口語理解等。對于大詞匯連續(xù)語音識(shí)別來說,語言模型是整個(gè)識(shí)別系統(tǒng)中非常關(guān)鍵的一個(gè)環(huán)節(jié),直接影響到整個(gè)識(shí)別系統(tǒng)的性能和識(shí)別效果。
[0003]在語音搜索等技術(shù)應(yīng)用場合,語言模型信息需要根據(jù)時(shí)間順序,經(jīng)常性地進(jìn)行更新,以反映最近發(fā)生的焦點(diǎn)事件和信息。傳統(tǒng)的語言模型訓(xùn)練方法采用正序文法,即文法中的詞按照時(shí)間發(fā)生的先后順序組織訓(xùn)練語言模型。例如,先訓(xùn)練巧⑴的文法,再訓(xùn)練巧⑴W2 (t+Ι),然后是W1 (t) W2 (t+1) W3 (t+2),以此類推,其中Wx (y)表示詞語Wx按照時(shí)間順序排在第y個(gè)。但是這種訓(xùn)練語言模型的方式只能按照串行的方式依據(jù)訓(xùn)練語料進(jìn)行語言模型的訓(xùn)練,會(huì)造成訓(xùn)練語料較多或者是語言模型體積過大時(shí),訓(xùn)練速度緩慢,影響語音搜索系統(tǒng)的語言模型快速更新。

【發(fā)明內(nèi)容】

[0004]有鑒于此,本發(fā)明提供了一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置,以便于實(shí)現(xiàn)語言模型的快速更新。
[0005]具體技術(shù)方案如下:`
[0006]一種語言模型的訓(xùn)練方法,該訓(xùn)練方法包括:
[0007]S1、對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料,N為大于I的正整數(shù);
[0008]S2、對分塊得到的N組訓(xùn)練語料并行執(zhí)行步驟S21和步驟S22 ;
[0009]S21、進(jìn)行遞歸的后綴樹排序,分別得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果;
[0010]S22、基于步驟S21的排序結(jié)果,將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹,η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù);
[0011]S3、對得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后,得到存放前向概率信息的Trie樹,該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞語按照倒序排列。
[0012]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S21具體包括:
[0013]Al、將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序,并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組,所述詞號數(shù)組中為各詞語的詞號,再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組,所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號;[0014]A2、依據(jù)詞號數(shù)組,將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序;
[0015]A3、將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引,按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序;
[0016]A4、判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求,如果是,結(jié)束遞歸的后綴樹排序流程;否則,轉(zhuǎn)至所述步驟A3進(jìn)行下一次排序。
[0017]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,η為2時(shí)采用的所述第一詞序結(jié)構(gòu)為=Wi(OWa-1),Wi (t)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞,w(t-l)表示訓(xùn)練語料的句子中位于Wi (t)前面一位的任一詞;
[0018]η為3時(shí)采用的所述第一詞序結(jié)構(gòu)為Aawa+Dwa-1),W(t+1)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞;
[0019]η為4時(shí)采用的所述第一詞序結(jié)構(gòu)為%α)?α-1)?α+1)?α-2),ff(t-2)為在訓(xùn)練語料的句子中位于Wi(t)前面兩位的任一詞。
[0020]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
[0021]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S3具體包括:
[0022]S31、將由各組訓(xùn)練語料得到的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并;
[0023]S32、將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹;
[0024]S33、將合并得到的Trie樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu),得到存放前向概率信息的Trie樹;
[0025]所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
[0026]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述語言模型除了包含所述存放前向概率信息的Trie樹之外,還包括:依據(jù)所述存放前向概率信息的Trie樹生成的存放回退概率信息的Trie樹。
[0027]一種語言模型的訓(xùn)練裝置,該訓(xùn)練裝置包括:分塊處理單元、N個(gè)遞歸處理單元、N個(gè)詞序樹建立單元以及合并處理單元;
[0028]分塊處理單元,用于對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料,將N組訓(xùn)練語料分別提供給各遞歸處理單元,N為大于I的正整數(shù);
[0029]遞歸處理單元,用于對接收到的訓(xùn)練語料進(jìn)行遞歸的后綴樹排序,得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果,并提供給對應(yīng)的詞序樹建立單元;
[0030]詞序樹建立單元,用于基于接收到的排序結(jié)果,將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹,η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù);
[0031]合并處理單元,用于對各詞序樹建立單元得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后,得到存放前向概率信息的Trie樹,該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列。
[0032]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述遞歸處理單元具體包括: [0033]數(shù)組建立子單元,用于將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序,并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組,所述詞號數(shù)組中為各詞語的詞號,再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組,所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號;
[0034]初始排序子單元,用于依據(jù)詞號數(shù)組,將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序,觸發(fā)遞歸排序子單元;
[0035]遞歸排序子單元,用于受到觸發(fā)后,將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引,按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序,觸發(fā)次數(shù)控制子單元;
[0036]次數(shù)控制子單元,用于受到觸發(fā)后,判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求,如果是,將排序結(jié)果提供給對應(yīng)的詞序樹建立單元;否則,觸發(fā)遞歸排序子單元。
[0037]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,η為2時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為:Wi(OWa-1), Wi (t)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞,ff(t-l)表示訓(xùn)練語料的句子中位于WiU)前面一位的任一詞;
[0038]η為3時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為MJOWU+DWU-1),w(t+l)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞;
[0039]η為4時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為jJOWU-DWU+l)ff(t-2),ff(t-2)為在訓(xùn)練語料的句子中位于Wi (t)前面兩位的任一詞。
[0040]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
[0041]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述合并處理單元具體包括:
[0042]第一合并子單元,用于將各詞序樹建立單元提供的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并;
[0043]第二合并子單元,用于基于所述第一合并子單元的合并結(jié)果,將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹;
[0044]詞序轉(zhuǎn)換子單元,用于將所述第二合并子單元合并得到的Trie樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu),得到存放前向概率信息的Trie樹;
[0045]所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
[0046]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該訓(xùn)練裝置還包括:回退樹建立單元,用于依據(jù)所述存放前向概率信息的Trie樹生成存放回退概率信息的Trie樹。
[0047]一種語言模型的查詢方法,該查詢方法包括:
[0048]Ρ1、獲取待查詢的詞序列,將待查詢的詞序列作為當(dāng)前輸入的詞序列執(zhí)行步驟Ρ2 ;
[0049]Ρ2、將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu),調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列;
[0050]Ρ3、將調(diào)整后的詞序列在上述訓(xùn)練方法訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
[0051]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,如果所述步驟Ρ3中沒有查詢到出現(xiàn)概率,則執(zhí)行回退處理;
[0052]所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為新的當(dāng)前輸入的詞序列,轉(zhuǎn)至所述步驟P2。
[0053]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,如果所述步驟P3中沒有查詢到出現(xiàn)概率,則進(jìn)一步執(zhí)行回退系數(shù)查詢;
[0054]所述回退系數(shù)查詢?yōu)?將步驟P2中所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序,將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù);
[0055]如果對回退處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率,則將查詢得到的出現(xiàn)概率與回退系數(shù)查詢得到的回退系數(shù)相乘,得到所述待查詢的詞序列的出現(xiàn)概率。
[0056]一種語言模型的查詢裝置,該查詢裝置包括:
[0057]序列獲取單元,用于獲取待查詢的詞序列,將待查詢的詞序列作為詞序調(diào)整單元當(dāng)前輸入的詞序列;
[0058]詞序調(diào)整單元,用于將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu),調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列;
[0059]前向查詢單元,用于將所述詞序調(diào)整單元得到的詞序列在上述訓(xùn)練裝置訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
[0060]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:回退控制單元,用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí), 執(zhí)行回退處理,所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為所述詞序調(diào)整單元新的當(dāng)前輸入的詞序列。
[0061]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:回退查詢單元,用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí),執(zhí)行回退系數(shù)查詢,所述回退系數(shù)查詢?yōu)?將所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序,將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù);
[0062]如果所述前向查詢單元對回退處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率,則將查詢得到的出現(xiàn)概率與所述回退查詢單元得到的回退系數(shù)相乘,得到所述待查詢的詞序列的出現(xiàn)概率。
[0063]由以上技術(shù)方案可以看出,本發(fā)明提供了一種新的詞序樹結(jié)構(gòu),使得對訓(xùn)練語料進(jìn)行分塊并行的處理(并行的后綴樹遞歸排序和詞序樹建立)成為可能,并對并行處理后得到的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后,得到易于查詢的存放前向概率信息的Trie樹。由于引入了并行的處理,因此語言模型的訓(xùn)練更加快速,方便語言模型進(jìn)行快速更新,這在訓(xùn)練語料較多時(shí)效果尤其顯著。
【【專利附圖】

【附圖說明】】
[0064]圖1為本發(fā)明實(shí)施例一提供的語言模型的訓(xùn)練方法流程圖;
[0065]圖2為本發(fā)明實(shí)施例一提供的遞歸的后綴樹排序方法流程圖;
[0066]圖3為本發(fā)明實(shí)施例二提供的語言模型的查詢方法流程圖;
[0067]圖4為本發(fā)明實(shí)施例三提供的語言模型的訓(xùn)練裝置結(jié)構(gòu)圖;
[0068]圖5為本發(fā)明實(shí)施例三提供的遞歸處理單元的具體結(jié)構(gòu)圖;
[0069]圖6為本發(fā)明實(shí)施例四提供的語言模型的查詢裝置結(jié)構(gòu)圖?!尽揪唧w實(shí)施方式】】
[0070]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。
[0071]實(shí)施例一、
[0072]圖1為本發(fā)明實(shí)施例一提供的語言模型的訓(xùn)練方法流程圖,如圖1所示,該方法包括以下步驟:
[0073]步驟101:對訓(xùn)練語料進(jìn)行分塊分別得到N組訓(xùn)練語料,N為大于I的正整數(shù)。
[0074]為了提高語言模型的更新速度,本發(fā)明實(shí)施例中將原來對訓(xùn)練語料串行處理的方式變?yōu)椴⑿刑幚?,因此首先對?xùn)練語料進(jìn)行分塊后得到多組訓(xùn)練語料,以便后續(xù)對該多組訓(xùn)練語料進(jìn)行并行處理。
[0075]在此對訓(xùn)練語料進(jìn)行的分塊可以按照任意的策略進(jìn)行,只要能夠?qū)⒂?xùn)練語料分成N組即可。另外,本步驟中采用的訓(xùn)練語料在初始訓(xùn)練時(shí),可以是搜索文本中所有時(shí)間段的用戶輸入信息,也可以是搜索文本中設(shè)定時(shí)間段的用戶輸入信息;如果是在后續(xù)的更新過程中,可以是搜索文本中距離當(dāng)前時(shí)間點(diǎn)最近的時(shí)間段的用戶輸入信息。
[0076]步驟102:對分塊得到的N組訓(xùn)練語料并行進(jìn)行遞歸的后綴樹排序,得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果。 [0077]本步驟實(shí)際上是采用遞歸的后綴樹排序方式來實(shí)現(xiàn)倒序文法的精確定位。所謂倒序指的是詞序中相對于正序的一種排序方式,詞序指的是語料中按照一個(gè)文法各詞的時(shí)間發(fā)生順序,正序是按照一個(gè)文法中時(shí)間遞增的順序排列,即W (t) W (t+1) W (t+2)…,倒
[0078]序是按照一個(gè)文法中時(shí)間遞減的順序排列,即W(t)W(t-l)W(t_2)...,需要說明的是,在一個(gè)文法中的時(shí)間順序?qū)嶋H上是各詞先后排列的順序,該時(shí)間是一個(gè)相對概念。
[0079]本步驟中遞歸的后綴樹排序的具體實(shí)現(xiàn)方法可以如圖2所示,主要包括步驟201至步驟204,這里執(zhí)行的各操作是針對分塊得到的N組訓(xùn)練語料分別執(zhí)行的,下面的描述以其中一組訓(xùn)練語料為例,各組訓(xùn)練語料的處理方式相同。
[0080]步驟201:將該組訓(xùn)練語料中的所有句子進(jìn)行倒序,并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組,該詞號數(shù)組中的各詞號為各詞語的詞號,再構(gòu)建一個(gè)和詞號數(shù)組一樣大的索引數(shù)組,該索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號。
[0081]在本步驟中構(gòu)建的詞號數(shù)組用于標(biāo)識(shí)原始語料中各詞語的詞號,通常相同詞語的具有相同的詞號。構(gòu)建的索引數(shù)組用于標(biāo)識(shí)各詞語在詞號數(shù)組中的序號,即初始索引數(shù)組表征了各詞語在詞號數(shù)組中的位置狀況。
[0082]步驟202:依據(jù)詞號數(shù)組,將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序,執(zhí)行步驟203。
[0083]本步驟為第一次遞歸排序,進(jìn)行第一次遞歸排序后,詞號數(shù)組中各詞號保持不變,索引數(shù)組中的索引將被排列成反映詞號從小到大的順序,此時(shí),對應(yīng)相同詞號的索引在索引數(shù)組中被排在一起,這些排在一起且對應(yīng)相同詞號的索引稱為同組索引。同組索引內(nèi)部的索引之間順序是可以隨意調(diào)整的,不會(huì)對第一次遞歸排序結(jié)果造成影響。
[0084]步驟203:將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引,按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序。[0085]在進(jìn)行后續(xù)次數(shù)的排序時(shí),不再是索引數(shù)組的整體排序,而是在索引數(shù)組當(dāng)前排序結(jié)果中的同組索引內(nèi)部進(jìn)行排序,排序依據(jù)是其在詞號數(shù)組中下一個(gè)位置的詞語的詞號,也就是說,在原始的訓(xùn)練語料中該索引所對應(yīng)詞語的前一個(gè)詞語的詞號。
[0086]步驟204:判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求,如果否,轉(zhuǎn)至步驟203進(jìn)行下一次排序;如果是,結(jié)束遞歸的后綴樹排序流程。
[0087]在本步驟中,遞歸排序一輪一輪執(zhí)行,即進(jìn)行第一次排序、第二次排序、第三次排序,等等,直到排序次數(shù)達(dá)到預(yù)設(shè)的文法階數(shù)要求,最終得到的索引數(shù)組中各索引反映了對應(yīng)詞語在訓(xùn)練語料中各句子的倒序位置狀況,處于相同位置的詞語所對應(yīng)的索引排列在一起。
[0088]繼續(xù)參見圖1,步驟103:基于步驟102的排序結(jié)果,將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹,η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù)。
[0089]在按照圖2所示流程分別并行的對各組訓(xùn)練語料進(jìn)行遞歸的后綴樹排序后,就可以準(zhǔn)確定位出各句子中倒數(shù)第二個(gè)詞的任意一個(gè)η元文法串的位置和發(fā)生次數(shù),基于這些信息就能夠?qū)崿F(xiàn)η元詞序樹的建立,該η元詞序樹是以句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)的,下面對采用的第一詞序結(jié)構(gòu)進(jìn)行重點(diǎn)描述。
[0090]采用二元文法時(shí)對應(yīng)的第一詞序結(jié)構(gòu)為=Wi(OWa-1),其中,Wi (t)為一個(gè)特定詞,在本發(fā)明中為訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞,ff(t-l)為在訓(xùn)練語料的句子中位于Wi (t)前面一位的任一詞。
[0091]建立的二元詞序樹`為:
【權(quán)利要求】
1.一種語言模型的訓(xùn)練方法,其特征在于,該訓(xùn)練方法包括: 51、對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料,N為大于I的正整數(shù); 52、對分塊得到的N組訓(xùn)練語料并行執(zhí)行步驟S21和步驟S22; 521、進(jìn)行遞歸的后綴樹排序,分別得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果; 522、基于步驟S21的排序結(jié)果,將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹,η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù); 53、對得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后,得到存放前向概率信息的Trie樹,該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞語按照倒序排列。
2.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述步驟S21具體包括: Al、將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序,并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組,所述詞號數(shù)組中為各詞語的詞號,再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組,所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號; Α2、依據(jù)詞號數(shù)組,將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序; A3、將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引,按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序; Α4、判斷排序次數(shù)是否滿`足預(yù)設(shè)的文法階數(shù)要求,如果是,結(jié)束遞歸的后綴樹排序流程;否則,轉(zhuǎn)至所述步驟A3進(jìn)行下一次排序。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,η為2時(shí)采用的所述第一詞序結(jié)構(gòu)為:Wi(OWa-1), Wi (t)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞,ff(t-l)表示訓(xùn)練語料的句子中位于Wi(t)前面一位的任一詞; η為3時(shí)采用的所述第一詞序結(jié)構(gòu)為Aawa+Dwa-1),wa+i)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞; η為4時(shí)采用的所述第一詞序結(jié)構(gòu)為Aawa-Dwa+Dwa^,wa-2)為在訓(xùn)練語料的句子中位于Wi (t)前面兩位的任一詞。
4.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
5.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述步驟S3具體包括: 531、將由各組訓(xùn)練語料得到的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并; 532、將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹; S 3 3、將合并得到的T r i e樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu),得到存放前向概率信息的Trie 樹; 所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
6.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述語言模型除了包含所述存放前向概率信息的Trie樹之外,還包括:依據(jù)所述存放前向概率信息的Trie樹生成的存放回退概率信息的Trie樹。
7.一種語言模型的訓(xùn)練裝置,其特征在于,該訓(xùn)練裝置包括:分塊處理單元、N個(gè)遞歸處理單元、N個(gè)詞序樹建立單元以及合并處理單元; 分塊處理單元,用于對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料,將N組訓(xùn)練語料分別提供給各遞歸處理單元,N為大于I的正整數(shù); 遞歸處理單元,用于對接收到的訓(xùn)練語料進(jìn)行遞歸的后綴樹排序,得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果,并提供給對應(yīng)的詞序樹建立單元;詞序樹建立單元,用于基于接收到的排序結(jié)果,將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹,η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù);合并處理單元,用于對各詞序樹建立單元得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后,得到存放前向概率信息的Trie樹,該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列。
8.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置,其特征在于,所述遞歸處理單元具體包括: 數(shù)組建立子單元,用于將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序,并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組,所述詞號數(shù)組中為各詞語的詞號,再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組,所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號; 初始排序子單元,用于依據(jù)詞號數(shù)組,將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序,觸發(fā)遞歸排序子單元; 遞歸排序子單元,用于受到觸發(fā)后,將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引,按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序,觸發(fā)次數(shù)控制子單兀; 次數(shù)控制子單元,用于受到觸發(fā)后,判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求,如果是,將排序結(jié)果提 供給對應(yīng)的詞序樹建立單元;否則,觸發(fā)遞歸排序子單元。
9.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置,其特征在于,η為2時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為=Wi (Owa-1)Ut)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞,w(t-l)表示訓(xùn)練語料的句子中位于Wi (t)前面一位的任一詞; η為3時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為Aawa+Dwa-1),w(t+i)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞; η為4時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為Aawa-Dwa+Dwa-〗),ff(t-2)為在訓(xùn)練語料的句子中位于Wi (t)前面兩位的任一詞。
10.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置,其特征在于,所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
11.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置,其特征在于,所述合并處理單元具體包括: 第一合并子單元,用于將各詞序樹建立單元提供的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并; 第二合并子單元,用于基于所述第一合并子單元的合并結(jié)果,將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹; 詞序轉(zhuǎn)換子單元,用于將所述第二合并子單元合并得到的Trie樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu),得到存放前向概率信息的Trie樹; 所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
12.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置,其特征在于,該訓(xùn)練裝置還包括:回退樹建立單兀,用于依據(jù)所述存放前向概率信息的Trie樹生成存放回退概率信息的Trie樹。
13.一種語言模型的查詢方法,其特征在于,該查詢方法包括: P1、獲取待查詢的詞序列,將待查詢的詞序列作為當(dāng)前輸入的詞序列執(zhí)行步驟P2 ; P2、將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu),調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列; P3、將調(diào)整后的詞序列在權(quán)利要求1至6任一權(quán)項(xiàng)所述的訓(xùn)練方法訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
14.根據(jù)權(quán)利要求13所述的查詢方法,其特征在于,如果所述步驟P3中沒有查詢到出現(xiàn)概率,則執(zhí)行回退處理; 所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為新的當(dāng)前輸入的詞序列,轉(zhuǎn)至所述步驟P2。
15.根據(jù)權(quán)利要求14所述的查詢方法,其特征在于,如果所述步驟P3中采用權(quán)利要求6所述訓(xùn)練方法訓(xùn)練得到的存放前向概率信息的Trie樹,則如果所述步驟P3中沒有查詢到出現(xiàn)概率,則進(jìn)一步執(zhí)行回退系數(shù)查詢; 所述回退系數(shù)查詢?yōu)?將步驟P2中所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序,將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù); 如果對回退處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率,則將查詢得到的出現(xiàn)概率與回退系數(shù)查詢得到的回退系數(shù)相乘,得到所述待查詢的詞序列的出現(xiàn)概率。
16.一種語言模型的查詢裝置,其特征在于,該查詢裝置包括: 序列獲取單元,用于獲取待查詢的詞序列,將待查詢的詞序列作為詞序調(diào)整單元當(dāng)前輸入的詞序列; 詞序調(diào)整單元,用于將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu),調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列; 前向查詢單元,用于將所述詞序調(diào)整單元得到的詞序列在權(quán)利要求7至12任一權(quán)項(xiàng)所述的訓(xùn)練裝置訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
17.根據(jù)權(quán)利要求16所述的查詢裝置,其特征在于,該裝置還包括:回退控制單元,用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí),執(zhí)行回退處理,所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為所述詞序調(diào)整單元新的當(dāng)前輸入的詞序列。
18.根據(jù)權(quán)利要求17所述的查詢裝置,其特征在于,如果所述前向查詢單元采用權(quán)利要求12所述訓(xùn)練裝置訓(xùn)練得到的存放前向概率信息的Trie樹,則 該裝置還包括:回退查詢單元,用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí),執(zhí)行回退系數(shù)查詢,所述回退系數(shù)查詢?yōu)?將所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序,將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢,得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù); 如果所述前向查詢單元對回退 處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率,則將查詢得到的出現(xiàn)概率與所述回退查詢單元得到的回退系數(shù)相乘,得到所述待查詢的詞序列的出現(xiàn)概率。`
【文檔編號】G10L15/06GK103871404SQ201210539598
【公開日】2014年6月18日 申請日期:2012年12月13日 優(yōu)先權(quán)日:2012年12月13日
【發(fā)明者】賈磊, 萬廣魯 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
平度市| 北宁市| 千阳县| 丰宁| 余姚市| 武陟县| 安溪县| 乌拉特前旗| 石林| 河源市| 台山市| 乌拉特前旗| 兴国县| 柯坪县| 丰镇市| 洞头县| 丰县| 工布江达县| 大田县| 北流市| 通河县| 肃宁县| 会宁县| 永和县| 金湖县| 武宣县| 龙胜| 霸州市| 大名县| 德保县| 兴宁市| 闻喜县| 锡林浩特市| 东方市| 太康县| 昭觉县| 信丰县| 利辛县| 富顺县| 庆城县| 铜川市|