一種分詞方法及裝置制造方法

文檔序號：6535133閱讀：259來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種分詞方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種分詞方法及裝置，屬于信息處理領(lǐng)域。該方法包括：利用n階馬爾科夫模型n-gram模型，將待分詞文本進(jìn)行分詞，得到第一文本；當(dāng)該第一文本中包括目標(biāo)詞串時，將該目標(biāo)詞串添加至詞典，得到更新后的詞典，該目標(biāo)詞串為未存儲在該詞典中的詞串，該詞典用于存儲所有的詞串以及對應(yīng)的估計概率；根據(jù)該更新后的詞典，利用前向最大匹配分詞方法以及后向最大匹配分詞方法對該第一文本按預(yù)設(shè)算法進(jìn)行分詞，分別得到第二文本和第三文本；從該第二本文以及該第三文本中選取詞長期望和詞長方差符合預(yù)設(shè)規(guī)則的文本作為分詞結(jié)果。本發(fā)明通過僅將新詞添加至現(xiàn)有詞典中，對現(xiàn)有詞典進(jìn)行更新，使得在不增加分詞歧義的前提下，靈活地添加新詞。
【專利說明】一種分詞方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理領(lǐng)域，特別涉及一種分詞方法及裝置。
【背景技術(shù)】
[0002]中文分詞指將一個漢字序列切分成一個一個單獨(dú)的詞。中文分詞在信息檢索、機(jī)器翻譯和語音識別等領(lǐng)域起重要作用，是中文語音處理過程中必不可少的一個環(huán)節(jié)。一般地，由于存在分詞歧義的問題，傳統(tǒng)的基于詞典的機(jī)械分詞方法的準(zhǔn)確度達(dá)不到100%。例如，“南京市長江大橋”可以分成“南京市長江大橋”，也可以分成“南京市長江大橋”。如果不依賴其他知識，兩種分詞方式似乎都是合理的。
[0003]為了解決上述分詞歧義的問題，現(xiàn)有技術(shù)中，采用n-gram語言模型進(jìn)行中文分詞。該n-gram語言模型指利用上下文中相鄰詞間的搭配信息，在需要把連續(xù)無空格的拼音、筆劃，或代表字母或筆劃的數(shù)字，轉(zhuǎn)換成漢字串(即句子)時，可以計算出具有最大概率的句子，從而實(shí)現(xiàn)中文分詞。例如，P(南京市長江大橋)的概率一般會低于P(南京市長江大橋)，因此上述兩種分詞中，后者是更合理的。
[0004]在實(shí)現(xiàn)本發(fā)明的過程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005]如果要在n-gram語言模型中添加新詞，需要為新詞估計概率，導(dǎo)致需要收集包含新詞的語料，重新構(gòu)建n-gram語言模型，存在一定的局限性。

【發(fā)明內(nèi)容】

[0006]為了解決現(xiàn)有技術(shù)的問題，本發(fā)明實(shí)施例提供了一種分詞方法及裝置。所述技術(shù)方案如下:
[0007]—方面，提供了一種分詞方法，所述方法包括:
[0008]利用η階馬爾科夫模型n-gram模型，將待分詞文本進(jìn)行分詞，得到第一文本，所述n-gram模型用于消除分詞歧義，所述第一文本包括以空格為間隔的詞串；
[0009]當(dāng)所述第一文本中包括目標(biāo)詞串時，將所述目標(biāo)詞串添加至詞典，得到更新后的詞典，所述目標(biāo)詞串為未存儲在所述詞典中的詞串，所述詞典用于存儲所有的詞串以及對應(yīng)的估計概率；
[0010]根據(jù)所述更新后的詞典，利用前向最大匹配分詞方法以及后向最大匹配分詞方法對所述第一文本按預(yù)設(shè)算法進(jìn)行分詞，分別得到第二文本和第三文本，所述前向最大匹配分詞方法以及后向最大匹配分詞方法用于按照預(yù)設(shè)策略將第一文本的漢字串與所述更新后的詞典中的詞條進(jìn)行匹配；
[0011]從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預(yù)設(shè)規(guī)則的文本作為分詞結(jié)果。
[0012]可選地，從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預(yù)設(shè)規(guī)則的文本作為分詞結(jié)果包括:
[0013]當(dāng)所述第二本文以及所述第三文本中選取詞長期望不相同時，從所述第二本文以及所述第三文本中選取詞長期望大的文本作為分詞結(jié)果；或，
[0014]當(dāng)所述第二本文以及所述第三文本中選取詞長期望相同時，從所述第二本文以及所述第三文本中選取詞長方差小的文本作為分詞結(jié)果。
[0015]可選地，利用n-gram模型，將待分詞文本進(jìn)行分詞，得到第一文本包括:
[0016]通過對語料庫進(jìn)行分析和計算，生成單字同時出現(xiàn)的頻度庫，并由所述頻度庫生成分詞詞典；
[0017]利用Viterbi算法，從所述分詞詞典中所有可能的字符串的分割情況中，選擇各個詞頻率乘積最高的路徑，作為所述第一文本。
[0018]可選地，所述方法還包括:
[0019]當(dāng)所述第一文本中未包括所述目標(biāo)詞串，將所述第一文本作為分詞結(jié)果。
[0020]另一方面，提供了一種分詞裝置，所述裝置包括:
[0021]第一分詞模塊，用于利用η階馬爾科夫模型n-gram模型，將待分詞文本進(jìn)行分詞，得到第一文本，所述n-gram模型用于消除分詞歧義，所述第一文本包括以空格為間隔的詞串;
[0022]詞典更新模塊，用于當(dāng)所述第一文本中包括目標(biāo)詞串時，將所述目標(biāo)詞串添加至詞典，得到更新后的詞典，所述目標(biāo)詞串為未存儲在所述詞典中的詞串，所述詞典用于存儲所有的詞串以及對應(yīng)的估計概率；
[0023]第二分詞模塊，用于根據(jù)所述更新后的詞典，利用前向最大匹配分詞方法以及后向最大匹配分詞方法對所述第一文本按預(yù)設(shè)算法進(jìn)行分詞，分別得到第二文本和第三文本，所述前向最大匹配分詞方法以及后向最大匹配分詞方法用于按照預(yù)設(shè)策略將第一文本的漢字串與所述更新后的詞典中的詞條進(jìn)行匹配；
[0024]分詞結(jié)果選取模塊，用于從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預(yù)設(shè)規(guī)則的文本作為分詞結(jié)果。
[0025]可選地，所述分詞結(jié)果選取模塊包括:
[0026]第一分詞結(jié)果選取單元，用于當(dāng)所述第二本文以及所述第三文本中選取詞長期望不相同時，從所述第二本文以及所述第三文本中選取詞長期望大的文本作為分詞結(jié)果；或，
[0027]第二分詞結(jié)果選取單元，用于當(dāng)所述第二本文以及所述第三文本中選取詞長期望相同時，從所述第二本文以及所述第三文本中選取詞長方差小的文本作為分詞結(jié)果。
[0028]可選地，所述第一分詞模塊包括:
[0029]分詞詞典生成單元，用于通過對語料庫進(jìn)行分析和計算，生成單字同時出現(xiàn)的頻度庫，并由所述頻度庫生成分詞詞典；
[0030]第一文本選取單元，用于利用Viterbi算法，從所述分詞詞典中所有可能的字符串的分割情況中，選擇各個詞頻率乘積最高的路徑，作為所述第一文本。
[0031]可選地，所述分詞結(jié)果選取模塊還用于當(dāng)所述第一文本中未包括所述目標(biāo)詞串，將所述第一文本作為分詞結(jié)果。
[0032]本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
[0033]通過僅將新詞添加至現(xiàn)有詞典中，對現(xiàn)有詞典進(jìn)行更新，使得在不增加分詞歧義的前提下，靈活地添加新詞?！緦＠綀D】

【附圖說明】[0034]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案，下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0035]圖1是本發(fā)明實(shí)施例提供的分詞方法流程圖；
[0036]圖2是本發(fā)明實(shí)施例提供的分詞裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0038]圖1是本發(fā)明實(shí)施例提供的分詞方法流程圖。參見圖1，該實(shí)施例包括:
[0039]101、利用n-gram模型,將待分詞文本進(jìn)行分詞,得到第一文本,該n-gram模型用于消除分詞歧義，該第一文本包括以空格為間隔的詞串；
[0040]在本發(fā)明實(shí)施例中，n-gram模型指將語言中字符的發(fā)生近似為(n_l)階markov模型，也即是，設(shè)有I個字符的漢字字符串cl，c2，…，ci，在其上下文關(guān)系中，只有前n-1個字符對下一個字符即第η個字符出現(xiàn)的概率有影響，用概率表示就是:
[0041 ] P (C11 C1,…，Ch) ^ P (C1 c卜η+1,...，C1^1)
[0042]根據(jù)概率乘法定理和n-gram模型，漢字字符串cl，c2,…，ci的概率可表示為組成該字符串的字符的概率的乘積:
【權(quán)利要求】
1.一種分詞方法,其特征在于,所述方法包括: 利用η階馬爾科夫模型n-gram模型，將待分詞文本進(jìn)行分詞，得到第一文本，所述n-gram模型用于消除分詞歧義，所述第一文本包括以空格為間隔的詞串；當(dāng)所述第一文本中包括目標(biāo)詞串時，將所述目標(biāo)詞串添加至詞典，得到更新后的詞典，所述目標(biāo)詞串為未存儲在所述詞典中的詞串，所述詞典用于存儲所有的詞串以及對應(yīng)的估計概率；根據(jù)所述更新后的詞典，利用前向最大匹配分詞方法以及后向最大匹配分詞方法對所述第一文本按預(yù)設(shè)算法進(jìn)行分詞，分別得到第二文本和第三文本，所述前向最大匹配分詞方法以及后向最大匹配分詞方法用于按照預(yù)設(shè)策略將第一文本的漢字串與所述更新后的詞典中的詞條進(jìn)行匹配；從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預(yù)設(shè)規(guī)則的文本作為分詞結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預(yù)設(shè)規(guī)則的文本作為分詞結(jié)果包括: 當(dāng)所述第二本文以及所述第三文本中選取詞長期望不相同時，從所述第二本文以及所述第三文本中選取詞長期望大的文本作為分詞結(jié)果；或，當(dāng)所述第二本文以及所述第三文本中選取詞長期望相同時，從所述第二本文以及所述第三文本中選取詞長方差小的文本作為分詞結(jié)果。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，利用n-gram模型，將待分詞文本進(jìn)行分詞，得到第一文本包括: 通過對語料庫進(jìn)行分析和計算，生成單字同時出現(xiàn)的頻度庫，并由所述頻度庫生成分詞詞典；利用Viterbi算法，從所述分詞詞典中所有可能的字符串的分割情況中，選擇各個詞頻率乘積最高的路徑，作為所述第一文本。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括: 當(dāng)所述第一文本中未包括所述目標(biāo)詞串，將所述第一文本作為分詞結(jié)果。
5.一種分詞裝置，其特征在于，所述裝置包括: 第一分詞模塊，用于利用η階馬爾科夫模型n-gram模型，將待分詞文本進(jìn)行分詞，得到第一文本，所述n-gram模型用于消除分詞歧義，所述第一文本包括以空格為間隔的詞串；詞典更新模塊，用于當(dāng)所述第一文本中包括目標(biāo)詞串時，將所述目標(biāo)詞串添加至詞典，得到更新后的詞典，所述目標(biāo)詞串為未存儲在所述詞典中的詞串，所述詞典用于存儲所有的詞串以及對應(yīng)的估計概率；第二分詞模塊，用于根據(jù)所述更新后的詞典，利用前向最大匹配分詞方法以及后向最大匹配分詞方法對所述第一文本按預(yù)設(shè)算法進(jìn)行分詞，分別得到第二文本和第三文本，所述前向最大匹配分詞方法以及后向最大匹配分詞方法用于按照預(yù)設(shè)策略將第一文本的漢字串與所述更新后的詞典中的詞條進(jìn)行匹配；分詞結(jié)果選取模塊，用于從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預(yù)設(shè)規(guī)則的文本作為分詞結(jié)果。
6.根據(jù)權(quán)利要求5所述的裝置，其特征在于，所述分詞結(jié)果選取模塊包括:第一分詞結(jié)果選取單元，用于當(dāng)所述第二本文以及所述第三文本中選取詞長期望不相同時，從所述第二本文以及所述第三文本中選取詞長期望大的文本作為分詞結(jié)果；或，第二分詞結(jié)果選取單元，用于當(dāng)所述第二本文以及所述第三文本中選取詞長期望相同時，從所述第二本文以及所述第三文本中選取詞長方差小的文本作為分詞結(jié)果。
7.根據(jù)權(quán)利要求5所述的裝置，其特征在于，所述第一分詞模塊包括: 分詞詞典生成單元，用于通過對語料庫進(jìn)行分析和計算，生成單字同時出現(xiàn)的頻度庫，并由所述頻度庫生成分詞詞典；第一文本選取單元，用于利用Viterbi算法，從所述分詞詞典中所有可能的字符串的分割情況中，選擇各個詞頻率乘積最高的路徑，作為所述第一文本。
8.根據(jù)權(quán)利要求5所述的裝置，其特征在于，所述分詞結(jié)果選取模塊還用于當(dāng)所述第一文本中未包括所述目標(biāo)詞串，將`所述第一文本作為分詞結(jié)果。
【文檔編號】G06F17/27GK103678282SQ201410006570
【公開日】2014年3月26日申請日期:2014年1月7日優(yōu)先權(quán)日:2014年1月7日
【發(fā)明者】王歡良, 薛峰, 惠寅華, 趙鵬程, 俞凱申請人:蘇州思必馳信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王歡良;薛峰;惠寅華;趙鵬程;俞凱;
技術(shù)所有人：蘇州思必馳信息科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

基于統(tǒng)計的分詞方法相關(guān)技術(shù)

中文分詞方法相關(guān)技術(shù)

基于詞典的分詞方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分詞方法及裝置制造方法