一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置制造方法

文檔序號：2825551閱讀：190來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置制造方法
【專利摘要】本發(fā)明提供了一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置，其中訓(xùn)練方法包括：對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料，N為大于1的正整數(shù)；對分塊得到的N組訓(xùn)練語料并行執(zhí)行：進(jìn)行遞歸的后綴樹排序，分別得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果，基于排序結(jié)果，將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立n元詞序樹，n為預(yù)設(shè)的一個(gè)或多個(gè)大于1的正整數(shù)；對得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后，得到存放前向概率信息的Trie樹，該Trie樹中從根到葉的詞序順序?yàn)椋壕渥又械箶?shù)第二個(gè)詞、最后一個(gè)詞、其他詞語按照倒序排列。通過本發(fā)明能夠?qū)崿F(xiàn)語言模型的快速更新。
【專利說明】一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用中的語音識(shí)別【技術(shù)領(lǐng)域】，特別涉及一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置。
【【背景技術(shù)】】
[0002]語音識(shí)別是指讓機(jī)器能夠在不同的情況下準(zhǔn)確地識(shí)別出語音的內(nèi)容，從而根據(jù)識(shí)別出的信息來執(zhí)行人的各種意圖，例如執(zhí)行語音搜索。目前，隨著語音識(shí)別技術(shù)的不斷發(fā)展，統(tǒng)計(jì)語言模型已經(jīng)廣泛地應(yīng)用于各個(gè)不同領(lǐng)域，如語音識(shí)別、信息檢索、口語理解等。對于大詞匯連續(xù)語音識(shí)別來說，語言模型是整個(gè)識(shí)別系統(tǒng)中非常關(guān)鍵的一個(gè)環(huán)節(jié)，直接影響到整個(gè)識(shí)別系統(tǒng)的性能和識(shí)別效果。
[0003]在語音搜索等技術(shù)應(yīng)用場合，語言模型信息需要根據(jù)時(shí)間順序，經(jīng)常性地進(jìn)行更新，以反映最近發(fā)生的焦點(diǎn)事件和信息。傳統(tǒng)的語言模型訓(xùn)練方法采用正序文法，即文法中的詞按照時(shí)間發(fā)生的先后順序組織訓(xùn)練語言模型。例如，先訓(xùn)練巧⑴的文法，再訓(xùn)練巧⑴W2 (t+Ι)，然后是W1 (t) W2 (t+1) W3 (t+2)，以此類推，其中Wx (y)表示詞語Wx按照時(shí)間順序排在第y個(gè)。但是這種訓(xùn)練語言模型的方式只能按照串行的方式依據(jù)訓(xùn)練語料進(jìn)行語言模型的訓(xùn)練，會(huì)造成訓(xùn)練語料較多或者是語言模型體積過大時(shí)，訓(xùn)練速度緩慢，影響語音搜索系統(tǒng)的語言模型快速更新。
【
【發(fā)明內(nèi)容】
】
[0004]有鑒于此，本發(fā)明提供了一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置，以便于實(shí)現(xiàn)語言模型的快速更新。
[0005]具體技術(shù)方案如下:`
[0006]一種語言模型的訓(xùn)練方法，該訓(xùn)練方法包括:
[0007]S1、對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料，N為大于I的正整數(shù)；
[0008]S2、對分塊得到的N組訓(xùn)練語料并行執(zhí)行步驟S21和步驟S22 ；
[0009]S21、進(jìn)行遞歸的后綴樹排序，分別得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果；
[0010]S22、基于步驟S21的排序結(jié)果，將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹，η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù)；
[0011]S3、對得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后，得到存放前向概率信息的Trie樹，該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞語按照倒序排列。
[0012]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述步驟S21具體包括:
[0013]Al、將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序，并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組，所述詞號數(shù)組中為各詞語的詞號，再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組，所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號；[0014]A2、依據(jù)詞號數(shù)組，將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序;
[0015]A3、將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引，按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序；
[0016]A4、判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求，如果是，結(jié)束遞歸的后綴樹排序流程；否則，轉(zhuǎn)至所述步驟A3進(jìn)行下一次排序。
[0017]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，η為2時(shí)采用的所述第一詞序結(jié)構(gòu)為=Wi(OWa-1),Wi (t)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞，w(t-l)表示訓(xùn)練語料的句子中位于Wi (t)前面一位的任一詞；
[0018]η為3時(shí)采用的所述第一詞序結(jié)構(gòu)為Aawa+Dwa-1)，W(t+1)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞；
[0019]η為4時(shí)采用的所述第一詞序結(jié)構(gòu)為％α)?α-1)?α+1)?α-2)，ff(t-2)為在訓(xùn)練語料的句子中位于Wi(t)前面兩位的任一詞。
[0020]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
[0021]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述步驟S3具體包括:
[0022]S31、將由各組訓(xùn)練語料得到的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并；
[0023]S32、將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹；
[0024]S33、將合并得到的Trie樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu)，得到存放前向概率信息的Trie樹；
[0025]所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
[0026]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述語言模型除了包含所述存放前向概率信息的Trie樹之外，還包括:依據(jù)所述存放前向概率信息的Trie樹生成的存放回退概率信息的Trie樹。
[0027]一種語言模型的訓(xùn)練裝置，該訓(xùn)練裝置包括:分塊處理單元、N個(gè)遞歸處理單元、N個(gè)詞序樹建立單元以及合并處理單元；
[0028]分塊處理單元，用于對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料，將N組訓(xùn)練語料分別提供給各遞歸處理單元，N為大于I的正整數(shù)；
[0029]遞歸處理單元，用于對接收到的訓(xùn)練語料進(jìn)行遞歸的后綴樹排序，得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果，并提供給對應(yīng)的詞序樹建立單元；
[0030]詞序樹建立單元，用于基于接收到的排序結(jié)果，將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹，η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù)；
[0031]合并處理單元，用于對各詞序樹建立單元得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后，得到存放前向概率信息的Trie樹，該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列。
[0032]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述遞歸處理單元具體包括: [0033]數(shù)組建立子單元，用于將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序，并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組，所述詞號數(shù)組中為各詞語的詞號，再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組，所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號；
[0034]初始排序子單元，用于依據(jù)詞號數(shù)組，將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序，觸發(fā)遞歸排序子單元；
[0035]遞歸排序子單元，用于受到觸發(fā)后，將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引，按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序，觸發(fā)次數(shù)控制子單元；
[0036]次數(shù)控制子單元，用于受到觸發(fā)后，判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求，如果是，將排序結(jié)果提供給對應(yīng)的詞序樹建立單元；否則，觸發(fā)遞歸排序子單元。
[0037]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，η為2時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為:Wi(OWa-1), Wi (t)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞，ff(t-l)表示訓(xùn)練語料的句子中位于WiU)前面一位的任一詞；
[0038]η為3時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為MJOWU+DWU-1)，w(t+l)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞；
[0039]η為4時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為jJOWU-DWU+l)ff(t-2),ff(t-2)為在訓(xùn)練語料的句子中位于Wi (t)前面兩位的任一詞。
[0040]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
[0041]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述合并處理單元具體包括:
[0042]第一合并子單元，用于將各詞序樹建立單元提供的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并；
[0043]第二合并子單元，用于基于所述第一合并子單元的合并結(jié)果，將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹；
[0044]詞序轉(zhuǎn)換子單元，用于將所述第二合并子單元合并得到的Trie樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu)，得到存放前向概率信息的Trie樹；
[0045]所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
[0046]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該訓(xùn)練裝置還包括:回退樹建立單元，用于依據(jù)所述存放前向概率信息的Trie樹生成存放回退概率信息的Trie樹。
[0047]一種語言模型的查詢方法，該查詢方法包括:
[0048]Ρ1、獲取待查詢的詞序列，將待查詢的詞序列作為當(dāng)前輸入的詞序列執(zhí)行步驟Ρ2 ；
[0049]Ρ2、將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu)，調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列；
[0050]Ρ3、將調(diào)整后的詞序列在上述訓(xùn)練方法訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
[0051]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，如果所述步驟Ρ3中沒有查詢到出現(xiàn)概率，則執(zhí)行回退處理；
[0052]所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為新的當(dāng)前輸入的詞序列，轉(zhuǎn)至所述步驟P2。
[0053]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，如果所述步驟P3中沒有查詢到出現(xiàn)概率，則進(jìn)一步執(zhí)行回退系數(shù)查詢；
[0054]所述回退系數(shù)查詢?yōu)?將步驟P2中所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序，將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù)；
[0055]如果對回退處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率，則將查詢得到的出現(xiàn)概率與回退系數(shù)查詢得到的回退系數(shù)相乘，得到所述待查詢的詞序列的出現(xiàn)概率。
[0056]一種語言模型的查詢裝置，該查詢裝置包括:
[0057]序列獲取單元，用于獲取待查詢的詞序列，將待查詢的詞序列作為詞序調(diào)整單元當(dāng)前輸入的詞序列；
[0058]詞序調(diào)整單元，用于將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu)，調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列；
[0059]前向查詢單元，用于將所述詞序調(diào)整單元得到的詞序列在上述訓(xùn)練裝置訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
[0060]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該裝置還包括:回退控制單元，用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí)，執(zhí)行回退處理，所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為所述詞序調(diào)整單元新的當(dāng)前輸入的詞序列。
[0061]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該裝置還包括:回退查詢單元，用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí)，執(zhí)行回退系數(shù)查詢，所述回退系數(shù)查詢?yōu)?將所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序，將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù)；
[0062]如果所述前向查詢單元對回退處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率，則將查詢得到的出現(xiàn)概率與所述回退查詢單元得到的回退系數(shù)相乘，得到所述待查詢的詞序列的出現(xiàn)概率。
[0063]由以上技術(shù)方案可以看出，本發(fā)明提供了一種新的詞序樹結(jié)構(gòu)，使得對訓(xùn)練語料進(jìn)行分塊并行的處理(并行的后綴樹遞歸排序和詞序樹建立)成為可能，并對并行處理后得到的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后，得到易于查詢的存放前向概率信息的Trie樹。由于引入了并行的處理，因此語言模型的訓(xùn)練更加快速，方便語言模型進(jìn)行快速更新，這在訓(xùn)練語料較多時(shí)效果尤其顯著。
【【專利附圖】

【附圖說明】】
[0064]圖1為本發(fā)明實(shí)施例一提供的語言模型的訓(xùn)練方法流程圖；
[0065]圖2為本發(fā)明實(shí)施例一提供的遞歸的后綴樹排序方法流程圖；
[0066]圖3為本發(fā)明實(shí)施例二提供的語言模型的查詢方法流程圖；
[0067]圖4為本發(fā)明實(shí)施例三提供的語言模型的訓(xùn)練裝置結(jié)構(gòu)圖；
[0068]圖5為本發(fā)明實(shí)施例三提供的遞歸處理單元的具體結(jié)構(gòu)圖；
[0069]圖6為本發(fā)明實(shí)施例四提供的語言模型的查詢裝置結(jié)構(gòu)圖?！尽揪唧w實(shí)施方式】】
[0070]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。
[0071]實(shí)施例一、
[0072]圖1為本發(fā)明實(shí)施例一提供的語言模型的訓(xùn)練方法流程圖，如圖1所示，該方法包括以下步驟:
[0073]步驟101:對訓(xùn)練語料進(jìn)行分塊分別得到N組訓(xùn)練語料，N為大于I的正整數(shù)。
[0074]為了提高語言模型的更新速度，本發(fā)明實(shí)施例中將原來對訓(xùn)練語料串行處理的方式變?yōu)椴⑿刑幚?，因此首先對?xùn)練語料進(jìn)行分塊后得到多組訓(xùn)練語料，以便后續(xù)對該多組訓(xùn)練語料進(jìn)行并行處理。
[0075]在此對訓(xùn)練語料進(jìn)行的分塊可以按照任意的策略進(jìn)行，只要能夠?qū)⒂?xùn)練語料分成N組即可。另外，本步驟中采用的訓(xùn)練語料在初始訓(xùn)練時(shí)，可以是搜索文本中所有時(shí)間段的用戶輸入信息，也可以是搜索文本中設(shè)定時(shí)間段的用戶輸入信息；如果是在后續(xù)的更新過程中，可以是搜索文本中距離當(dāng)前時(shí)間點(diǎn)最近的時(shí)間段的用戶輸入信息。
[0076]步驟102:對分塊得到的N組訓(xùn)練語料并行進(jìn)行遞歸的后綴樹排序，得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果。 [0077]本步驟實(shí)際上是采用遞歸的后綴樹排序方式來實(shí)現(xiàn)倒序文法的精確定位。所謂倒序指的是詞序中相對于正序的一種排序方式，詞序指的是語料中按照一個(gè)文法各詞的時(shí)間發(fā)生順序，正序是按照一個(gè)文法中時(shí)間遞增的順序排列，即W (t) W (t+1) W (t+2)…，倒
[0078]序是按照一個(gè)文法中時(shí)間遞減的順序排列，即W(t)W(t-l)W(t_2)...，需要說明的是，在一個(gè)文法中的時(shí)間順序?qū)嶋H上是各詞先后排列的順序，該時(shí)間是一個(gè)相對概念。
[0079]本步驟中遞歸的后綴樹排序的具體實(shí)現(xiàn)方法可以如圖2所示，主要包括步驟201至步驟204，這里執(zhí)行的各操作是針對分塊得到的N組訓(xùn)練語料分別執(zhí)行的，下面的描述以其中一組訓(xùn)練語料為例，各組訓(xùn)練語料的處理方式相同。
[0080]步驟201:將該組訓(xùn)練語料中的所有句子進(jìn)行倒序，并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組，該詞號數(shù)組中的各詞號為各詞語的詞號，再構(gòu)建一個(gè)和詞號數(shù)組一樣大的索引數(shù)組，該索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號。
[0081]在本步驟中構(gòu)建的詞號數(shù)組用于標(biāo)識(shí)原始語料中各詞語的詞號，通常相同詞語的具有相同的詞號。構(gòu)建的索引數(shù)組用于標(biāo)識(shí)各詞語在詞號數(shù)組中的序號，即初始索引數(shù)組表征了各詞語在詞號數(shù)組中的位置狀況。
[0082]步驟202:依據(jù)詞號數(shù)組，將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序，執(zhí)行步驟203。
[0083]本步驟為第一次遞歸排序，進(jìn)行第一次遞歸排序后，詞號數(shù)組中各詞號保持不變，索引數(shù)組中的索引將被排列成反映詞號從小到大的順序，此時(shí)，對應(yīng)相同詞號的索引在索引數(shù)組中被排在一起，這些排在一起且對應(yīng)相同詞號的索引稱為同組索引。同組索引內(nèi)部的索引之間順序是可以隨意調(diào)整的，不會(huì)對第一次遞歸排序結(jié)果造成影響。
[0084]步驟203:將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引，按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序。[0085]在進(jìn)行后續(xù)次數(shù)的排序時(shí)，不再是索引數(shù)組的整體排序，而是在索引數(shù)組當(dāng)前排序結(jié)果中的同組索引內(nèi)部進(jìn)行排序，排序依據(jù)是其在詞號數(shù)組中下一個(gè)位置的詞語的詞號，也就是說，在原始的訓(xùn)練語料中該索引所對應(yīng)詞語的前一個(gè)詞語的詞號。
[0086]步驟204:判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求，如果否，轉(zhuǎn)至步驟203進(jìn)行下一次排序；如果是，結(jié)束遞歸的后綴樹排序流程。
[0087]在本步驟中，遞歸排序一輪一輪執(zhí)行，即進(jìn)行第一次排序、第二次排序、第三次排序，等等，直到排序次數(shù)達(dá)到預(yù)設(shè)的文法階數(shù)要求，最終得到的索引數(shù)組中各索引反映了對應(yīng)詞語在訓(xùn)練語料中各句子的倒序位置狀況，處于相同位置的詞語所對應(yīng)的索引排列在一起。
[0088]繼續(xù)參見圖1，步驟103:基于步驟102的排序結(jié)果，將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹，η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù)。
[0089]在按照圖2所示流程分別并行的對各組訓(xùn)練語料進(jìn)行遞歸的后綴樹排序后，就可以準(zhǔn)確定位出各句子中倒數(shù)第二個(gè)詞的任意一個(gè)η元文法串的位置和發(fā)生次數(shù)，基于這些信息就能夠?qū)崿F(xiàn)η元詞序樹的建立，該η元詞序樹是以句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)的，下面對采用的第一詞序結(jié)構(gòu)進(jìn)行重點(diǎn)描述。
[0090]采用二元文法時(shí)對應(yīng)的第一詞序結(jié)構(gòu)為=Wi(OWa-1),其中，Wi (t)為一個(gè)特定詞，在本發(fā)明中為訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞，ff(t-l)為在訓(xùn)練語料的句子中位于Wi (t)前面一位的任一詞。
[0091]建立的二元詞序樹`為:
【權(quán)利要求】
1.一種語言模型的訓(xùn)練方法，其特征在于，該訓(xùn)練方法包括: 51、對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料，N為大于I的正整數(shù)； 52、對分塊得到的N組訓(xùn)練語料并行執(zhí)行步驟S21和步驟S22； 521、進(jìn)行遞歸的后綴樹排序，分別得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果; 522、基于步驟S21的排序結(jié)果，將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹，η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù)； 53、對得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后，得到存放前向概率信息的Trie樹，該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞語按照倒序排列。
2.根據(jù)權(quán)利要求1所述的訓(xùn)練方法，其特征在于，所述步驟S21具體包括: Al、將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序，并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組，所述詞號數(shù)組中為各詞語的詞號，再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組，所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號； Α2、依據(jù)詞號數(shù)組，將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序； A3、將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引，按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序； Α4、判斷排序次數(shù)是否滿`足預(yù)設(shè)的文法階數(shù)要求，如果是，結(jié)束遞歸的后綴樹排序流程；否則，轉(zhuǎn)至所述步驟A3進(jìn)行下一次排序。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，η為2時(shí)采用的所述第一詞序結(jié)構(gòu)為:Wi(OWa-1), Wi (t)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞，ff(t-l)表示訓(xùn)練語料的句子中位于Wi(t)前面一位的任一詞； η為3時(shí)采用的所述第一詞序結(jié)構(gòu)為Aawa+Dwa-1)，wa+i)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞； η為4時(shí)采用的所述第一詞序結(jié)構(gòu)為Aawa-Dwa+Dwa^，wa-2)為在訓(xùn)練語料的句子中位于Wi (t)前面兩位的任一詞。
4.根據(jù)權(quán)利要求1所述的訓(xùn)練方法，其特征在于，所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
5.根據(jù)權(quán)利要求1所述的訓(xùn)練方法，其特征在于，所述步驟S3具體包括: 531、將由各組訓(xùn)練語料得到的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并； 532、將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹； S 3 3、將合并得到的T r i e樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu)，得到存放前向概率信息的Trie 樹；所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
6.根據(jù)權(quán)利要求1所述的訓(xùn)練方法，其特征在于，所述語言模型除了包含所述存放前向概率信息的Trie樹之外，還包括:依據(jù)所述存放前向概率信息的Trie樹生成的存放回退概率信息的Trie樹。
7.一種語言模型的訓(xùn)練裝置，其特征在于，該訓(xùn)練裝置包括:分塊處理單元、N個(gè)遞歸處理單元、N個(gè)詞序樹建立單元以及合并處理單元；分塊處理單元，用于對訓(xùn)練語料進(jìn)行分塊得到N組訓(xùn)練語料，將N組訓(xùn)練語料分別提供給各遞歸處理單元，N為大于I的正整數(shù)；遞歸處理單元，用于對接收到的訓(xùn)練語料進(jìn)行遞歸的后綴樹排序，得到反映各詞語在各句子中倒序位置狀況的排序結(jié)果，并提供給對應(yīng)的詞序樹建立單元；詞序樹建立單元，用于基于接收到的排序結(jié)果，將各句子中倒數(shù)第二個(gè)詞作為根節(jié)點(diǎn)按照預(yù)設(shè)的第一詞序結(jié)構(gòu)分別建立η元詞序樹，η為預(yù)設(shè)的一個(gè)或多個(gè)大于I的正整數(shù)；合并處理單元，用于對各詞序樹建立單元得到的相同根節(jié)點(diǎn)的詞序樹進(jìn)行合并和詞序轉(zhuǎn)換后，得到存放前向概率信息的Trie樹，該Trie樹中從根到葉的詞序順序?yàn)?句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列。
8.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置，其特征在于，所述遞歸處理單元具體包括: 數(shù)組建立子單元，用于將當(dāng)前組訓(xùn)練語料中的所有句子進(jìn)行倒序，并將倒序后的句子拼在一起構(gòu)建一個(gè)詞號數(shù)組，所述詞號數(shù)組中為各詞語的詞號，再依據(jù)詞號數(shù)組構(gòu)建一個(gè)索引數(shù)組，所述索引數(shù)組中的各索引記錄了各詞語在詞號數(shù)組中的序號；初始排序子單元，用于依據(jù)詞號數(shù)組，將索引數(shù)組中的序號按照對應(yīng)詞語的詞號從小到大進(jìn)行排序，觸發(fā)遞歸排序子單元；遞歸排序子單元，用于受到觸發(fā)后，將索引數(shù)組當(dāng)前排序結(jié)果中的同組索引，按照每一個(gè)索引所對應(yīng)詞語在詞號數(shù)組中下一個(gè)位置的詞語的詞號從小到大進(jìn)行排序，觸發(fā)次數(shù)控制子單兀；次數(shù)控制子單元，用于受到觸發(fā)后，判斷排序次數(shù)是否滿足預(yù)設(shè)的文法階數(shù)要求，如果是，將排序結(jié)果提供給對應(yīng)的詞序樹建立單元；否則，觸發(fā)遞歸排序子單元。
9.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置，其特征在于，η為2時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為=Wi (Owa-1)Ut)表示訓(xùn)練語料的句子中倒數(shù)第二個(gè)詞，w(t-l)表示訓(xùn)練語料的句子中位于Wi (t)前面一位的任一詞； η為3時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為Aawa+Dwa-1)，w(t+i)為在訓(xùn)練語料的句子中位于Wi (t)后面一位的任一詞； η為4時(shí)所述詞序樹建立單元采用的第一詞序結(jié)構(gòu)為Aawa-Dwa+Dwa-〗)，ff(t-2)為在訓(xùn)練語料的句子中位于Wi (t)前面兩位的任一詞。
10.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置，其特征在于，所述η元詞序樹的葉節(jié)點(diǎn)包括指示從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑上所有詞語按照先后順序連接在一起組成一個(gè)文法的發(fā)生次數(shù)。
11.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置，其特征在于，所述合并處理單元具體包括: 第一合并子單元，用于將各詞序樹建立單元提供的相同根節(jié)點(diǎn)的相同元的詞序樹進(jìn)行合并；第二合并子單元，用于基于所述第一合并子單元的合并結(jié)果，將相同根節(jié)點(diǎn)的不同元的詞序樹合并成一棵Trie樹；詞序轉(zhuǎn)換子單元，用于將所述第二合并子單元合并得到的Trie樹轉(zhuǎn)換為預(yù)設(shè)的第二詞序結(jié)構(gòu)，得到存放前向概率信息的Trie樹；所述預(yù)設(shè)的第二詞序結(jié)構(gòu)為:從根到葉按照句子中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列的順序。
12.根據(jù)權(quán)利要求7所述的訓(xùn)練裝置，其特征在于，該訓(xùn)練裝置還包括:回退樹建立單兀，用于依據(jù)所述存放前向概率信息的Trie樹生成存放回退概率信息的Trie樹。
13.一種語言模型的查詢方法，其特征在于，該查詢方法包括: P1、獲取待查詢的詞序列，將待查詢的詞序列作為當(dāng)前輸入的詞序列執(zhí)行步驟P2 ； P2、將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu)，調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列； P3、將調(diào)整后的詞序列在權(quán)利要求1至6任一權(quán)項(xiàng)所述的訓(xùn)練方法訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
14.根據(jù)權(quán)利要求13所述的查詢方法，其特征在于，如果所述步驟P3中沒有查詢到出現(xiàn)概率，則執(zhí)行回退處理；所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為新的當(dāng)前輸入的詞序列，轉(zhuǎn)至所述步驟P2。
15.根據(jù)權(quán)利要求14所述的查詢方法，其特征在于，如果所述步驟P3中采用權(quán)利要求6所述訓(xùn)練方法訓(xùn)練得到的存放前向概率信息的Trie樹，則如果所述步驟P3中沒有查詢到出現(xiàn)概率，則進(jìn)一步執(zhí)行回退系數(shù)查詢；所述回退系數(shù)查詢?yōu)?將步驟P2中所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序，將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù)；如果對回退處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率，則將查詢得到的出現(xiàn)概率與回退系數(shù)查詢得到的回退系數(shù)相乘，得到所述待查詢的詞序列的出現(xiàn)概率。
16.一種語言模型的查詢裝置，其特征在于，該查詢裝置包括: 序列獲取單元，用于獲取待查詢的詞序列，將待查詢的詞序列作為詞序調(diào)整單元當(dāng)前輸入的詞序列；詞序調(diào)整單元，用于將當(dāng)前輸入的詞序列調(diào)整成預(yù)設(shè)的詞序結(jié)構(gòu)，調(diào)整后得到的詞序列按照如下順序:當(dāng)前輸入的詞序列中倒數(shù)第二個(gè)詞、最后一個(gè)詞、其他詞按照倒序排列；前向查詢單元，用于將所述詞序調(diào)整單元得到的詞序列在權(quán)利要求7至12任一權(quán)項(xiàng)所述的訓(xùn)練裝置訓(xùn)練得到的存放前向概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列的出現(xiàn)概率。
17.根據(jù)權(quán)利要求16所述的查詢裝置，其特征在于，該裝置還包括:回退控制單元，用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí)，執(zhí)行回退處理，所述回退處理為:將所述當(dāng)前輸入的詞序列去掉開頭詞語后的詞序列作為所述詞序調(diào)整單元新的當(dāng)前輸入的詞序列。
18.根據(jù)權(quán)利要求17所述的查詢裝置，其特征在于，如果所述前向查詢單元采用權(quán)利要求12所述訓(xùn)練裝置訓(xùn)練得到的存放前向概率信息的Trie樹，則該裝置還包括:回退查詢單元，用于在所述前向查詢單元未查詢到出現(xiàn)概率時(shí)，執(zhí)行回退系數(shù)查詢，所述回退系數(shù)查詢?yōu)?將所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列進(jìn)行倒序，將倒序后得到的詞序列在存放回退概率信息的Trie樹上進(jìn)行查詢，得到所述當(dāng)前輸入的詞序列去掉結(jié)尾詞語后的詞序列的回退系數(shù)；如果所述前向查詢單元對回退處理得到的新的當(dāng)前輸入的詞序列查詢得到出現(xiàn)概率，則將查詢得到的出現(xiàn)概率與所述回退查詢單元得到的回退系數(shù)相乘，得到所述待查詢的詞序列的出現(xiàn)概率。`
【文檔編號】G10L15/06GK103871404SQ201210539598
【公開日】2014年6月18日申請日期:2012年12月13日優(yōu)先權(quán)日:2012年12月13日
【發(fā)明者】賈磊, 萬廣魯申請人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈磊;萬廣魯
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語言模型訓(xùn)練相關(guān)技術(shù)

語言模型相關(guān)技術(shù)

統(tǒng)計(jì)語言模型相關(guān)技術(shù)

神經(jīng)網(wǎng)絡(luò)語言模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置制造方法

一種語言模型的訓(xùn)練方法、查詢方法和對應(yīng)裝置制造方法