專利名稱:基于向量空間模型的文本相似性匹配方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計算機(jī)技術(shù),具體說,涉及一種基于向量空間模型的文本相似性匹配方法。
背景技術(shù):
現(xiàn)在一些常用的文本檢索模型,包括基于文字的檢索模型和基于結(jié)構(gòu)的檢索模型?;谖谋镜臋z索模型又包括向量空間模型、近似模型、概率模型和統(tǒng)計語言檢索模型;基于結(jié)構(gòu)的文本檢索模型又包括內(nèi)部結(jié)構(gòu)檢索模型、外部結(jié)構(gòu)檢索模型。文本的相似度,即兩篇文本之間相似程度的數(shù)值度量,取兩篇文本D1、D2,若(Dl H D2)/ (Dl U D2)越接近I表示兩篇文本的相似度越高,反之相反。在文本檢索技術(shù)中,相似度計算主要用于衡量文本對象之間的相似程度,在數(shù)據(jù)挖掘、自然語言處理中是一個基礎(chǔ)性計算。其中的關(guān)鍵技術(shù)主要是兩個部分,對象的特征表示和特征集合之間的相似關(guān)系。在信息檢索、網(wǎng)頁判重、推薦系統(tǒng)等,都涉及到對象之間或者對象和對象集合的相似性的計算。針對不同的應(yīng)用場景,受限于數(shù)據(jù)規(guī)模、時空開銷等的限制,相似度計算方法的選擇又會有所區(qū)別和不同。通常使用的計算相似度的方法是VSM (向量空間模型)。這種模型通過對文本提取關(guān)鍵詞,然后進(jìn)行權(quán)值賦值,將文本表示成由權(quán)重不同的關(guān)鍵詞構(gòu)成的向量,通過計算兩個文本的向量距離從而得到文本的相似度。由于關(guān)鍵詞很可能存在同義詞、一詞多義等現(xiàn)象,所以用傳統(tǒng)的向量空間模型方法得到的相似度計算結(jié)果精度不高,結(jié)果往往并不令人滿意;關(guān)鍵詞加權(quán)算法僅僅是尋求文本和關(guān)鍵詞之間的關(guān)系,不能橫向地聯(lián)系不同文本間關(guān)鍵詞之間的關(guān)系,給文本檢索帶來了如下問題(I)關(guān)鍵詞不能準(zhǔn)確表達(dá)用戶需求。用戶很難選擇準(zhǔn)確的關(guān)鍵詞來進(jìn)行搜索,因為其中涉及到查詢和概念之間的語義映射問題。用戶給出的查詢關(guān)鍵詞不能很好地反映用戶的意圖。(2)關(guān)鍵詞不能反映文本內(nèi)容。如果關(guān)鍵詞外延太大,就很難或者無法檢索到相關(guān)文本。(3) —詞多義現(xiàn)象。由于關(guān)鍵詞匹配技術(shù)很難解決一詞多義現(xiàn)象,往往會檢索出大量無關(guān)信息。(4)關(guān)鍵詞以同義方式在文中出現(xiàn)。用戶的查詢關(guān)鍵詞有時并不在文中直接出現(xiàn),而是以同義詞、近義詞或者關(guān)鍵詞的其他構(gòu)詞方式出現(xiàn),這樣,文本就不能檢索到。當(dāng)查詢關(guān)鍵詞與文本主題詞構(gòu)成概念上下位關(guān)系時,則更加難以檢索到。
發(fā)明內(nèi)容
本發(fā)明所解決的技術(shù)問題是提供一種基于向量空間模型的文本相似性匹配方法,相對準(zhǔn)確反映了文本之間的聯(lián)系,這樣可以更加充分地反映文本的相似度。技術(shù)方案如下一種基于向量空間模型的文本相似性匹配方法,包括提取文本的關(guān)鍵詞,對所有關(guān)鍵詞進(jìn)行聚類,生成關(guān)鍵詞概念樹;根據(jù)構(gòu)建的待翻譯文本中關(guān)鍵詞的關(guān)鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻(xiàn)庫中匹配的文本。進(jìn)一步,所述生成關(guān)鍵詞概念樹的步驟包括提取待分類文檔和參考庫中的所有關(guān)鍵詞,得到關(guān)鍵詞集合;對關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行聚類,把相同概念的關(guān)鍵詞聚合為一個概念類集合,根據(jù)所述概念類集合生成所述關(guān)鍵詞概念樹。進(jìn)一步,若關(guān)鍵詞Ici出現(xiàn)的概率P (ki)>Pl ;且有,在出現(xiàn)匕的該文本中也出現(xiàn)關(guān)鍵詞kj的條件概率P Ckj I Iii) >P2,則認(rèn)為關(guān)鍵詞kj和Iii表達(dá)相同概念,Pl和P2為設(shè)定概
率閥值。進(jìn)一步,生成所述關(guān)鍵詞概念樹的過程具體步驟包括提取待分類文檔和參考庫中的所有關(guān)鍵詞,得到關(guān)鍵詞集合C= {kl,k2,…,kn},計算C中每個關(guān)鍵詞k在參考庫中出現(xiàn)的概率p(k),即出現(xiàn)關(guān)鍵詞k的文本數(shù)和集合中文本總數(shù)之比; 根據(jù)設(shè)定閥值過濾關(guān)鍵詞,取pmin〈p(k)〈pmax的關(guān)鍵詞,將其作為待合并的集合項,設(shè)符合條件的關(guān)鍵詞個數(shù)為m個,其中pmax和pmin為設(shè)定好的高低限閥值;對過濾后得到的關(guān)鍵詞按P (k)進(jìn)行降序排序,并將每一個關(guān)鍵詞作為一個集合,這樣得到初始的m個待合并集合,記為{kj, {k2},….,{kj ;在這m個關(guān)鍵詞中,計算在關(guān)鍵詞Ici出現(xiàn)的文本中關(guān)鍵詞kj也出現(xiàn)的概率,記為P(IijIki),共計P I個條件概率,(I 彡 i,j 彡 m ;i 關(guān) j);p (IijIki)=P (^ki)/p Cki),p (Iijki)為h和Iii同時出現(xiàn)在同一篇文本中的概率;合并待合并集合,生成根節(jié)點為關(guān)鍵詞集合C的關(guān)鍵詞概念樹。進(jìn)一步,對于待合并的兩個關(guān)鍵詞集合Cl和C2,合并條件為存在Ici屬于Cl,kj屬于C2,且P Cki) >Pl,p (kj I Iii) >P2,當(dāng)P (IiiWPp (k」| Iii)大于所述設(shè)定閥值時,關(guān)鍵詞h和h表達(dá)相同概念,滿足其所在的集合的合并條件之一;在合并后的集合中任給一個關(guān)鍵詞ki;其與集合中一半以上關(guān)鍵詞都滿足條件P α」1^)>Ρ2 ;若兩個集合滿足以上兩個條件,則概念具有很大相似性,屬于可合并的集合,合并后生成上一層概念類集合。進(jìn)一步,在參考庫中查找匹配的文本的過程包括提取參考庫內(nèi)所有文檔的關(guān)鍵詞,組成關(guān)鍵詞集合;根據(jù)所述關(guān)鍵詞概念樹的結(jié)構(gòu),通過改進(jìn)的文本相似度計算公式,計算待分類文本與參考庫中每個文本的相似性,按照相似度降序返回結(jié)果文本。進(jìn)一步,在翻譯參考文獻(xiàn)庫中查找匹配的文本的過程具體步驟包括定義H為生成的概念樹的高度,定義cbpth (k)為節(jié)點k在樹中的深度,即為從根節(jié)點到該節(jié)點所經(jīng)歷的邊數(shù);定義com (ki; kj)為離節(jié)點Iii和kj最近的共同父節(jié)點,任兩個節(jié)點必有一個共同的父節(jié)點即根節(jié)點;任兩個關(guān)鍵詞的積的計算公式IciXkj=Clepth (com Cki, kj)) /H ;
設(shè)向量A=^a2, ---,aj ,B= {b1 b2,…,bn},定義向量計算:
權(quán)利要求
1.一種基于向量空間模型的文本相似性匹配方法,包括 提取文本的關(guān)鍵詞,對所有關(guān)鍵詞進(jìn)行聚類,生成關(guān)鍵詞概念樹; 根據(jù)構(gòu)建的待翻譯文本中關(guān)鍵詞的關(guān)鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻(xiàn)庫中匹配的文本。
2.如權(quán)利要求1所述的基于向量空間模型的文本相似性匹配方法,其特征在于,所述生成關(guān)鍵詞概念樹的步驟包括 提取待分類文檔和參考庫中的所有關(guān)鍵詞,得到關(guān)鍵詞集合; 對關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行聚類,把相同概念的關(guān)鍵詞聚合為ー個概念類集合,根據(jù)所述概念類集合生成所述關(guān)鍵詞概念樹。
3.如權(quán)利要求2所述的基于向量空間模型的文本相似性匹配方法,其特征在于,若關(guān)鍵詞も出現(xiàn)的概率p Cki) >P1 ;且有,在出現(xiàn)ん的該文本中也出現(xiàn)關(guān)鍵詞Icj的條件概率pCkj I kj >P2,則認(rèn)為關(guān)鍵詞も和Ici表達(dá)相同概念,Pl和P2為設(shè)定概率閥值。
4.如權(quán)利要求3所述的基于向量空間模型的文本相似性匹配方法,其特征在于,生成所述關(guān)鍵詞概念樹的過程具體步驟包括 提取待分類文檔和參考庫中的所有關(guān)鍵詞,得到關(guān)鍵詞集合C= {kl,k2,…,kn},計算C中每個關(guān)鍵詞k在出現(xiàn)的概率,出現(xiàn)關(guān)鍵詞k的文本數(shù)和文本總數(shù)之比記為p (k); 根據(jù)設(shè)定閥值過濾關(guān)鍵詞,取Pmin〈P (k) <pfflax的關(guān)鍵詞,將其作為待合并的集合項,設(shè)符合條件的關(guān)鍵詞個數(shù)為m個,其中Pmax和Pmin為設(shè)定好的高低限閥值; 對過濾后得到的關(guān)鍵詞按P (k)進(jìn)行降序排序,并將每ー個關(guān)鍵詞作為ー個集合,這樣得到初始的m個待合并集合,記為{kj,{k2},…,{kj ; 在這m個關(guān)鍵詞中,計算在關(guān)鍵詞h出現(xiàn)的文本中關(guān)鍵詞Icj出現(xiàn)的概率,記為p(kjlh),共計P t個條件概率,(I 彡 i,j 彡 m ;i 關(guān) j);p (IcjIki)=P (^ki)/p Cki)^ (^ki)為も和Ici同時出現(xiàn)在同一篇文本中的概率; 合并待合并集合,生成根節(jié)點為關(guān)鍵詞集合C的關(guān)鍵詞概念樹。
5.如權(quán)利要求4所述的基于向量空間模型的文本相似性匹配方法,其特征在于,對于待合并的兩個關(guān)鍵詞集合Cl和C2,合并條件為存在Ici屬于Cl,、屬于C2,且p (ki)>Pl,P (kj I Ici) >P2,當(dāng)p (Ici)和p (kj Iki)大于所述設(shè)定閥值時,關(guān)鍵詞Ici和kj表達(dá)相同概念,滿足其所在的集合的合并條件之一;在合并后的集合中任給ー個關(guān)鍵詞h,其與集合中一半以上關(guān)鍵詞都滿足條件P (1^|1^)汗2 ;若兩個集合滿足以上兩個條件,則概念具有很大相似性,屬于可合并的集合,合并后生成上ー層概念類集合。
6.如權(quán)利要求1所述的基于向量空間模型的文本相似性匹配方法,其特征在于,在翻譯參考文獻(xiàn)庫中查找匹配的文本的過程包括提取翻譯參考文獻(xiàn)庫內(nèi)所有文檔的關(guān)鍵詞,組成關(guān)鍵詞集合;根據(jù)所述關(guān)鍵詞概念樹的結(jié)構(gòu),通過改進(jìn)的文本相似度計算公式,計算待分類文本與參考庫合中每個文本的相似性,按照相似度降序返回結(jié)果文本。
7.如權(quán)利要求6所述的基于向量空間模型的文本相似性匹配方法,其特征在于,在翻譯參考文獻(xiàn)庫中查找匹配的文本的過程具體步驟包括 定義H為生成的概念樹的高度,定義cbpth (k)為節(jié)點k在樹中的深度,即為從根節(jié)點到該節(jié)點所經(jīng)歷的邊數(shù); 定義com Cki, kj)為離節(jié)點Ici和kj最近的共同父節(jié)點,任兩個節(jié)點必有ー個共同的父節(jié)點即根節(jié)點; 任兩個關(guān)鍵詞的積的計算公式
全文摘要
本發(fā)明公開了一種基于向量空間模型的文本相似性匹配方法,包括提取文本的關(guān)鍵詞,對所有關(guān)鍵詞進(jìn)行聚類,生成關(guān)鍵詞概念樹;根據(jù)構(gòu)建的待翻譯文本中關(guān)鍵詞的關(guān)鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻(xiàn)庫中匹配的文本。本發(fā)明技術(shù)方案相對準(zhǔn)確反映了文本之間的聯(lián)系,這樣可以更加充分地反映文本的相似度。
文檔編號G06F17/30GK103049569SQ201210593148
公開日2013年4月17日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者江潮 申請人:武漢傳神信息技術(shù)有限公司