一種語言模型計(jì)算處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言建模技術(shù)領(lǐng)域,更為具體而言,涉及一種語言模型計(jì)算處理方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著信息智能技術(shù)的普遍應(yīng)用,各類語言輸入法不斷更新。然而,在傳統(tǒng)輸入法中常用的模型為npos模型和ngram模型,ngram模型對(duì)于變換結(jié)果比較好,npos模型對(duì)于詞條拓展比較方便.兩者各具優(yōu)勢(shì)。傳統(tǒng)的ngram模型對(duì)于新詞熱詞不具備整句變換能力。因此,急需一種能夠使npos模型和ngram模型融合的語言模型計(jì)算處理及系統(tǒng)。
【發(fā)明內(nèi)容】
[0003]為了解決傳統(tǒng)的ngram模型對(duì)于新詞熱詞不具備整句變換能力的問題,本發(fā)明實(shí)施方式提供了一種語言模型計(jì)算處理方法及系統(tǒng)。
[0004]—方面,本發(fā)明實(shí)施方式提供了一種語言模型計(jì)算處理方法,所述方法包括:
[0005]根據(jù)輸入發(fā)音,對(duì)訓(xùn)練語料數(shù)據(jù)進(jìn)行查詢,得到所述發(fā)音對(duì)應(yīng)的詞條;
[0006]通過ngram模型結(jié)合npos模型來計(jì)算所述詞條的cost值;以及
[0007]選取所述計(jì)算出的cost值最小詞條作為候選結(jié)果。
[0008]相應(yīng)的,本發(fā)明實(shí)施方式還提供了一種語言模型計(jì)算處理系統(tǒng),所述系統(tǒng)包括:
[0009]查詢模塊,用于根據(jù)輸入發(fā)音,對(duì)訓(xùn)練語料數(shù)據(jù)進(jìn)行查詢,得到所述發(fā)音對(duì)應(yīng)的詞條;
[0010]計(jì)算模塊,用于通過ngram模型結(jié)合npos模型來計(jì)算所述詞條的cost值;
[0011]選取模塊,用于選取所述計(jì)算出的cost值最小詞條作為候選結(jié)果。
[0012]實(shí)施本發(fā)明的各種實(shí)施方式可使傳統(tǒng)ngram模型具有npos模型的拓展性,有效其改善對(duì)于新詞、熱詞的整句變換能力。
【附圖說明】
[0013]圖1是根據(jù)本發(fā)明實(shí)施方式的一種語言模型計(jì)算處理方法的流程圖;
[0014]圖2是根據(jù)本發(fā)明實(shí)施方式的一種語言模型計(jì)算處理系統(tǒng)的架構(gòu)圖;
[0015]圖3示出了圖2所示的查詢模塊100的框圖;
[0016]圖4示出了圖2所示的選取模塊300的框圖。
【具體實(shí)施方式】
[0017]以下結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明的各個(gè)方面進(jìn)行詳細(xì)闡述。其中,眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細(xì)說明。并且,所描述的特征、架構(gòu)或功能可在一個(gè)或一個(gè)以上實(shí)施方式中以任何方式組合。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,下述的各種實(shí)施方式只用于舉例說明,而非用于限制本發(fā)明的保護(hù)范圍。還可以容易理解,本文所述和附圖所示的各實(shí)施方式中的模塊或單元或處理方式可以按各種不同配置進(jìn)行組合和設(shè)計(jì)。
[0018]圖1是根據(jù)本發(fā)明實(shí)施方式的一種語言模型計(jì)算處理方法的流程圖,參見圖1,所述方法包括如下步驟:
[0019]步驟SI,根據(jù)輸入發(fā)音,對(duì)訓(xùn)練語料數(shù)據(jù)進(jìn)行查詢,得到所述發(fā)音對(duì)應(yīng)的詞條;其中,具體包括:對(duì)所述發(fā)音進(jìn)行逐字符組合(例如,輸入發(fā)音為ABC,按字節(jié)切分后可能的組合為:A+B+C,AB+C, A+BC, ABC),獲取所有可能的發(fā)音片段,并根據(jù)所述發(fā)音片段查詢對(duì)應(yīng)的詞條。例如:當(dāng)輸入發(fā)音xian (拼音字符),進(jìn)行逐字符組合,即可出現(xiàn)兩種發(fā)音片段:Xi ’ an和xian,獲取這兩種發(fā)音片段,并查詢到對(duì)應(yīng)的詞條“西安”和“先”等多個(gè)同音詞條。
[0020]步驟S2,通過ngram模型結(jié)合npos模型來計(jì)算所述詞條的cost值,其中,當(dāng)?shù)贜+1個(gè)詞條與前N個(gè)詞條不存在共現(xiàn)信息時(shí),則通過所述npos模型計(jì)算所述詞條的cost值,其中,N為不小于I的整數(shù),具體而言,計(jì)算cost值包括:計(jì)算所述前N個(gè)詞條的詞性共現(xiàn)頻次以及各個(gè)詞性到詞的cost值。其中,傳統(tǒng)的ngram模型計(jì)算cost值c的方法是:
[0021]c = cost (wordl, word2, word3,…,wordn)
[0022]本發(fā)明中,結(jié)合npos模型計(jì)算cost值c的方法是:
[0023]c = trans_cost(classl, class2, class3,…,classn)+cost(classl, wordl)+gen_cost (class2, word2)+gen_cost(class3, word3) +...+gen_cost(classn, wordn)
[0024]其中,trans_cost是由語料中各詞條的詞性的共現(xiàn)頻次來計(jì)算的,gen_cost是由語料中各詞性包含各詞條的頻次來計(jì)算的.具體計(jì)算公式為:
[0025]trans_cost = _1000*log (freq (classl, class2, class3,…,classn) /freq(classl, class2, class3,...,classn-1))
[0026]gen_cost = -1000*log (freq (word, class)/freq (class))
[0027]式中freq表示頻次,可通過統(tǒng)計(jì)語料獲得.語料來源為網(wǎng)絡(luò)文本信息。
[0028]步驟S3,選取所述計(jì)算出的cost值最小詞條作為候選結(jié)果,其中,可包括:按照所述cost值由小至大排列所述詞條,選取前K個(gè)詞條作為候選結(jié)果,可根據(jù)需要自行設(shè)置選取個(gè)數(shù)K,例如:cost值最小的一個(gè)詞條,或排為cost值最小的前三名詞條。
[0029]通過采用上述方法,可使傳統(tǒng)ngram模型具有npos模型的拓展性,有效其改善對(duì)于新詞、熱詞的整句變換能力。
[0030]圖2是根據(jù)本發(fā)明實(shí)施方式的一種語言模型計(jì)算處理系統(tǒng)的架構(gòu)圖,參見圖2,所述裝置包括:
[0031]查詢模塊100,用于根據(jù)輸入發(fā)音,對(duì)訓(xùn)練語料數(shù)據(jù)進(jìn)行查詢,得到所述發(fā)音對(duì)應(yīng)的詞條;
[0032]計(jì)算模塊200,用于通過ngram模型結(jié)合npos模型來計(jì)算所述詞條的cost值,其中,當(dāng)?shù)贜+1個(gè)詞條與前N個(gè)詞條不存在共現(xiàn)信息時(shí),則通過所述npos模型計(jì)算所述詞條的cost值,其中,N為不小于I的整數(shù),具體而言,計(jì)算cost值包括:計(jì)算所述前N個(gè)詞條的詞性共現(xiàn)頻次以及各個(gè)詞性到詞的cost值。其中,傳統(tǒng)的ngram模型計(jì)算cost值c的方法是:
[0033]c = cost (wordl, word2, word3,…,wordn)
[0034]本發(fā)明中,結(jié)合npos模型計(jì)算cost值c的方法是:
[0035]c = trans_cost(c