專利名稱:矯正基于向量空間模型文本相似度計算的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種矯正基于向量空間模型的文本相似度的計算方法,尤其是一種通過相似度的精確度信息矯正基于向量空間模型的文本相似度的計算方法,屬于計算機技術(shù)領(lǐng)域。
但是,對于在文本中出現(xiàn)的文本內(nèi)容局部相似和短文本相似的情況,現(xiàn)有的向量空間模型的相似度計算的結(jié)果往往會出現(xiàn)偏差。其原因在于在待分析文本中包含的特征詞數(shù)較少但特征詞的權(quán)重較高,這種情況造成局部的高度相似影響了相似度的實際判斷。因此,通過傳統(tǒng)的向量空間模型相似度計算所獲得的結(jié)果由于其高權(quán)值的干擾而不自然,基本不能作為文本過濾的依據(jù);因此,為了糾正相似度計算結(jié)果的偏差,有必要對傳統(tǒng)的方法進行矯正。
本發(fā)明的又一目的在于提供一種矯正基于向量空間模型文本相似度計算的方法,它能夠不會因為包含標準向量Vj中部分高權(quán)重詞而得到比較高的相似度,而將待分析文本歸屬于類別Vj,避免在待分析文本中包含的特征詞數(shù)較少但權(quán)重較高,而進行類別歸屬的現(xiàn)象。
本發(fā)明的目的是這樣實現(xiàn)的一種矯正基于向量空間模型文本相似度計算的方法,它至少包括依據(jù)待分析文本標準向量,得到待分析文本準確地歸屬于標準類的程度值數(shù)據(jù)精確度,使用精確度矯正基于向量空間模型文本相似度計算結(jié)果的步驟。
所述的矯正方法為Sim(wi,vj)×Pi,其中Pi為精確度矯正系數(shù)。
精確度矯正系數(shù)的得到方法為Pi=BΣ(σkvjk)2Σ(vjk)2]]>其中,B≥1,且 B為表示對精確度信息重視程度的經(jīng)驗值。
根據(jù)上述技術(shù)方案分析可知,經(jīng)過精確度矯正,這種局部相似造成的相似度被降低了,結(jié)果更自然了。這種方法尤其在相似度判斷的閾值附近會起到較大影響,使一些相似度略微高出閾值的文本被降低到閾值之下。
基于向量空間模型文本相似度的標準計算公式Sim(wi,vj)=Cosθ=Σk=1nwik.vjkΣk=1nwik2·Σk=1nvjk2]]>公式中Wi,Vi分別為待分析文本向量和標準向量,wik,vjk是向量的分量。以上公式的作用是計算Wi與Vj相似的程度。
在實際應(yīng)用中,此公式存在這樣的問題不歸屬于類別Vj的待分析文本,可能因為包含標準向量Vj中部分高權(quán)重詞而得到比較高的相似度。這是不符合常規(guī)的,也是該算法的缺陷。這種情況在待分析文本中包含的特征詞數(shù)較少但權(quán)重較高的時候尤為突出。
在智能分類過程中,不會因為待分析文本只包含某些高權(quán)重詞就將其歸類為Vj,而是會自動降低這種文本的相似度。
為此,一基于相似度精確度信息進行矯正的方法,使得相似度計算的結(jié)果更加有效和自然。該方法可以表示為待分析文本i與標準文本的相關(guān)程度=Sim(wi,vj)×Pi其中Pi為精確度矯正系數(shù)。
精確度概念Pi是一個表示待分析文本準確地歸屬于標準類的程度值數(shù)據(jù),稱之為(相似度)的精確度。其計算公式如下Pi=BΣ(σkvjk)2Σ(vjk)2]]>其中,B≥1,且 B為經(jīng)驗值,表示對精確度信息的重視程度。當Pi>1則強化特征向量相似度值;反之則弱化特征向量相似度值。
具體實施例為某一類文本T可以由特征詞向量空間模型T={(t1,100),(t2,100),(t3,50),(t4,50),(t5,10),…,(t20,10)}來表示,(其中,ti是特征詞)。
一個待分析文本M經(jīng)處理,得到其特征向量模型為M={(ti,100),(t2,100)}根據(jù)待分析向量M調(diào)整類文本向量T,用向量空間模型文本相似度的計算得到Sim(T,M)=0.87
從計算結(jié)果表面上看文本M和T類高度很高,而實際上文本M只反映了T類的局部,只是局部高度相似。向量空間模型計算文本相似度值時,不能解決局部相似和短文本相似問題。但這種少量高權(quán)值詞造成的相似度是不自然的。
加入精確度矯正,取B=1,則Pi=0.8,相似度被進一步降低了。
經(jīng)過上述的精確度矯正,所述的局部相似造成的相似度被降低了,結(jié)果更自然了。這種方法尤其在類別歸屬判斷的閾值附近會起到較大影響,使一些相似度略微高出閾值的文本被降低到閾值之下。
權(quán)利要求
1.一種矯正基于向量空間模型文本相似度計算的方法,其特征在于它至少包括依據(jù)待分析文本標準向量,得到待分析文本準確地歸屬于標準類的程度值數(shù)據(jù)精確度,使用精確度矯正基于向量空間模型文本相似度計算結(jié)果的步驟。
2.根據(jù)利要求1所述的矯正基于向量空間模型文本相似度計算的方法,其特征在于所述的矯正方法為Sim(wi,vj)×Pi其中,Pi為精確度矯正系數(shù)。
3.根據(jù)權(quán)利要求1所述的矯正基于向量空間模型文本相似度計算的方法,其特征在于精確度矯正系數(shù)的得到方法為Pi=BΣ(σkvjk)2Σ(vjk)2]]>其中,B≥1,且 B為表示對精確度信息重視程度的經(jīng)驗值。
全文摘要
一種矯正基于向量空間模型文本相似度計算的方法,它至少包括依據(jù)待分析文本標準向量,得到待分析文本準確地歸屬于標準類的程度值數(shù)據(jù)精確度,使用精確度矯正基于向量空間模型文本相似度計算結(jié)果的步驟;經(jīng)過精確度矯正,這種局部相似造成的相似度被降低了,結(jié)果更自然,本發(fā)明尤其在相似度判斷的閾值附近會起到較大影響,使一些相似度略微高出閾值的文本被降低到閾值之下。
文檔編號G06F17/21GK1403958SQ01131418
公開日2003年3月19日 申請日期2001年9月7日 優(yōu)先權(quán)日2001年9月7日
發(fā)明者肖航, 高建忠, 王江, 諸光, 王楠 申請人:聯(lián)想(北京)有限公司