基于關(guān)鍵詞抽取的多文本對照方法
【專利摘要】本發(fā)明公開一種基于關(guān)鍵詞抽取的多文本對照方法。該多文本對照方法包括步驟:A、把自然語言中的每一句話當(dāng)作是一個隱馬爾科夫鏈,求出詞性標(biāo)注和分詞;B、在隱馬爾科夫鏈模型中加入自定義詞庫,把自定義詞庫中的詞設(shè)置為強相關(guān),在標(biāo)記詞性序列的時候,優(yōu)先將自定義詞庫中的詞結(jié)合為一個詞;C、根據(jù)給定的詞性列表對分詞結(jié)果進行過濾,去掉停用詞;D、根據(jù)最終的詞性標(biāo)注和分詞進行多文本對照。本發(fā)明不僅完成了單文本的關(guān)鍵詞提取,且為多文本的快速對比對照提供了一種可行的方案。對于主題類似、不同側(cè)重點的文本,本發(fā)明可以識別出它們共同探討的主題以及每篇文本的側(cè)重點。
【專利說明】基于關(guān)鍵詞抽取的多文本對照方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本識別領(lǐng)域,更具體的說,涉及一種基于關(guān)鍵詞抽取的多文本對照方法。
【背景技術(shù)】
[0002]統(tǒng)計和分析大量文本信息的一種常用技術(shù)就是關(guān)鍵詞提取。通常情況下,受制于人力和時間資源,人們無法逐字閱讀海量的文本庫。關(guān)鍵詞抽取技術(shù)的目標(biāo),就是找出文本里最能體現(xiàn)文本主旨的詞匯,方便快速瀏覽,甄選信息。
[0003]專利文獻CN101216825公開了一種預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,該方法包括:獲取訓(xùn)練數(shù)據(jù)集,根據(jù)所獲取的訓(xùn)練數(shù)據(jù)集訓(xùn)練決策樹;利用訓(xùn)練得到的決策樹生成標(biāo)引關(guān)鍵詞的過濾器;利用訓(xùn)練得到的決策樹和所生成的過濾器,預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞。該思路是從文本中過濾、剪除非核心詞匯,保留下來的作為關(guān)鍵詞。這種方法較適用于目標(biāo)關(guān)鍵詞集很小的應(yīng)用。
[0004]專利文獻CN103399901A描述了一種基本的關(guān)鍵詞抽取方法。先對文本進行預(yù)處理;基于預(yù)處理后的文本,統(tǒng)計詞頻和詞對的共現(xiàn)信息;將詞頻大于或等于預(yù)設(shè)閾值的詞作為候選關(guān)鍵詞;根據(jù)詞對的共現(xiàn)信息,計算各候選關(guān)鍵詞對文本的重要性;根據(jù)計算結(jié)果,對候選關(guān)鍵詞進行排序,將前N個候選關(guān)鍵詞作為文本的關(guān)鍵詞。這種方法在傳統(tǒng)關(guān)鍵詞提取方法的基礎(chǔ)上,添加詞對共現(xiàn)信息作為關(guān)鍵詞對于文本的重要程度的衡量標(biāo)準(zhǔn),可提聞關(guān)鍵詞抽取的精度。
[0005]專利文獻CN101196904提供了一種基于詞頻和多元文法的新聞關(guān)鍵詞抽取方法。通過挖掘文本中潛在關(guān)鍵詞的多元文法的詞性模式,將其作為關(guān)鍵詞抽取算法的依據(jù)。在進行新聞關(guān)鍵詞抽取時,首先根據(jù)潛在詞性模式挖掘文本中的多元詞組,抽取關(guān)鍵詞的候選詞集,然后從標(biāo)題中挖掘未登錄的潛在關(guān)鍵詞,將潛在關(guān)鍵詞也加入候選關(guān)鍵詞集中。這種方法可以抽取符合詞性模式的多元詞組,通常這樣的詞組表述是連貫的、有意義的。
[0006]實際應(yīng)用中,人們往往需要對比討論相同或相近主題的不同文本彼此間有何異同,從對照中發(fā)現(xiàn)變化、分析潛在規(guī)律。常用關(guān)鍵詞提取方法無法滿足這一需求。關(guān)鍵詞是被定義為最能體現(xiàn)文本主旨的少量核心詞匯,因而從相同或相近主題的文本中提取的關(guān)鍵詞也必定是相同或相似的,所以我們無法單從提取出的關(guān)鍵詞集中區(qū)分相近主題的文本的不同側(cè)重點。
[0007]CN101216825公開的剔除非核心詞匯的過程,一方面需要事先準(zhǔn)備相當(dāng)數(shù)量的訓(xùn)練數(shù)據(jù)集,這提高了應(yīng)用該方法的復(fù)雜度,還需要格外注意待處理的文本與訓(xùn)練數(shù)據(jù)集中的文本的相似程度。另一方面,該方法過濾排除非目標(biāo)關(guān)鍵詞的執(zhí)行過程,實際上也是削弱文本差異的顯著性的過程。
[0008]CN103399901A和CN101196904所述的技術(shù)方案先從單個文本中找出候選詞匯表,再從中選取最有可能表述文本主旨的詞匯作為關(guān)鍵詞輸出。CN103399901A以詞匯出現(xiàn)的頻率和詞對共現(xiàn)作為依據(jù),CN101196904以詞頻和詞性模式作為依據(jù),這兩種方法針對單文本提取關(guān)鍵字,無法顧及到多文本的異同對照。
【發(fā)明內(nèi)容】
[0009]本發(fā)明的目的就是提出一種不需要額外語料庫的,可供快速對比多文本異同的基于關(guān)鍵詞抽取的多文本對照方法。
[0010]本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:
一種基于關(guān)鍵詞抽取的多文本對照方法,包括步驟:
A、把自然語言中的每一句話當(dāng)作是一個隱馬爾科夫鏈,求出詞性標(biāo)注和分詞;
B、在隱馬爾科夫鏈模型中,依用戶需要定制并加入自定義詞庫,通過把自定義詞庫中的詞設(shè)置為強相關(guān),在標(biāo)記詞性序列的時候,優(yōu)先將自定義詞庫中的詞結(jié)合為一個詞;
C、根據(jù)給定的詞性列表對分詞結(jié)果進行過濾,去掉停用詞;
D、根據(jù)最終的詞性標(biāo)注和分詞進行多文本對照。
[0011]進一步的,所述步驟D包括:
D1、將每個文本設(shè)為一組,以組為單位統(tǒng)計對應(yīng)文本的關(guān)鍵詞的詞頻和權(quán)重;將同時出現(xiàn)在兩組或兩組以上文本的關(guān)鍵詞列入中間組;
D2、采用去重計算減少每組的重復(fù)詞匯;
D3、采用保中運算,強制降低中間組中的關(guān)鍵詞在其他組出現(xiàn)的頻率。
[0012]進一步的,所述步驟Dl中,如果關(guān)鍵詞同時出現(xiàn)在兩組或兩組以上文本時,其權(quán)重以詞頻最小的文本為準(zhǔn)。
[0013]進一步的,所述步驟D2中,用一組預(yù)設(shè)的規(guī)則重新依組別判定組內(nèi)的每個關(guān)鍵詞是否能夠繼續(xù)出現(xiàn)在該組內(nèi):
組內(nèi)頻率:是指關(guān)鍵詞在特定組里的詞頻;
組間頻率:是指關(guān)鍵詞在所有組里邊出現(xiàn)的平均頻率;
只有關(guān)鍵詞A組內(nèi)詞頻與該組內(nèi)各詞的平均詞頻之比值 > 關(guān)鍵詞A在所有組別內(nèi)的平均詞頻與各詞在所有組別內(nèi)的平均詞頻之比值時,我們才會保留關(guān)鍵詞A繼續(xù)留在特定組內(nèi),否則將從某特定組內(nèi),刪去關(guān)鍵詞A。
[0014]假設(shè)有兩個文本,分別為組I和組2。兩個文本共有η個不同的詞匯。對詞匯表中的每一個詞,下文中稱之為A。a)當(dāng)關(guān)鍵詞A出現(xiàn)在文本I時,則關(guān)鍵詞A為組I中的詞,權(quán)重為A在組I的詞頻;
組 I 的詞頻向量
【權(quán)利要求】
1.一種基于關(guān)鍵詞抽取的多文本對照方法,包括步驟: A、把自然語言中的每一句話當(dāng)作是一個隱馬爾科夫鏈,求出詞性標(biāo)注和分詞; B、在隱馬爾科夫鏈模型中,依用戶需要定制并加入自定義詞庫,通過把自定義詞庫中的詞設(shè)置為強相關(guān),在標(biāo)記詞性序列的時候,優(yōu)先將自定義詞庫中的詞結(jié)合為一個詞; C、根據(jù)給定的詞性列表對分詞結(jié)果進行過濾,去掉停用詞; D、根據(jù)最終的詞性標(biāo)注和分詞進行多文本對照。
2.如權(quán)利要求1所述的一種基于關(guān)鍵詞抽取的多文本對照方法,其特征在于,所述步驟D包括: D1、將每個文本設(shè)為一組,以組為單位統(tǒng)計對應(yīng)文本的關(guān)鍵詞的詞頻和權(quán)重;將同時出現(xiàn)在兩組或兩組以上文本的關(guān)鍵詞列入中間組; D2、采用去重計算減少每組的重復(fù)詞匯; D3、采用保中運算,強制降低中間組中的關(guān)鍵詞在其他組出現(xiàn)的頻率。
3.如權(quán)利要求2所述的一種基于關(guān)鍵詞抽取的多文本對照方法,其特征在于,所述步驟Dl中,如果關(guān)鍵詞同時出現(xiàn)在兩組或兩組以上文本時,其權(quán)重以詞頻最小的文本為準(zhǔn)。
4.如權(quán)利要求2所述的一種基于關(guān)鍵詞抽取的多文本對照方法,其特征在于,所述步驟D2中,用一組預(yù)設(shè)的規(guī)則重新依組別判定組內(nèi)的每個關(guān)鍵詞是否能夠繼續(xù)出現(xiàn)在特定組內(nèi):只有關(guān)鍵詞A組內(nèi)詞頻與該組內(nèi)各詞的平均詞頻之比值 > 關(guān)鍵詞A在所有組別內(nèi)的平均詞頻與各詞在所有組別內(nèi)的平均詞頻之比值時,保留關(guān)鍵詞A繼續(xù)留在特定組內(nèi),否則將從特定組內(nèi)刪去關(guān)鍵詞A ;關(guān)鍵詞A為各組中任意一個關(guān)鍵詞。
5.如權(quán)利要求2所述的一種基于關(guān)鍵詞抽取的多文本對照方法,其特征在于,所述步驟D3中,根據(jù)“關(guān)鍵詞A在組I?N中的最終頻率=關(guān)鍵詞A在組I中的原始頻率-關(guān)鍵詞A在中間組的頻率”計算規(guī)則,強制降低關(guān)鍵詞A在組I?N任意一組出現(xiàn)的頻率,從而保持關(guān)鍵詞A在中間組中顯示的優(yōu)勢地位;所述N為大于I的自然數(shù)。
【文檔編號】G06F17/27GK103744837SQ201410031338
【公開日】2014年4月23日 申請日期:2014年1月23日 優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】陳里波, 胡子揚, 祁點點 申請人:北京優(yōu)捷信達信息科技有限公司