本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種改進(jìn)的本體概念詞匯語(yǔ)義相似度求解方法。
背景技術(shù):
目前,語(yǔ)義相似度計(jì)算被廣泛應(yīng)用于信息檢索、語(yǔ)義web、自然語(yǔ)言處理等領(lǐng)域。前人主要從概念的名稱(chēng)、屬性、結(jié)構(gòu)等方面來(lái)綜合考慮概念的相似度。之前有先將概念相似度計(jì)算分為兩層:“初始相似度”和“通過(guò)非上下位關(guān)系體現(xiàn)的相似度”,前者主要利用概念之間的距離計(jì)算得到,后者則是在前人計(jì)算的基礎(chǔ)上,通過(guò)概念的非上下位關(guān)系計(jì)算得到;再綜合二者就可得到領(lǐng)域本體內(nèi)概念的實(shí)際相似度。除此之外,還有主要通過(guò)概念間的上下位關(guān)系以及其它因素來(lái)計(jì)算領(lǐng)域內(nèi)部概念之間的語(yǔ)義相似度。例如,有人提出了一種綜合的相似度計(jì)算方法,即先根據(jù)兩個(gè)概念名稱(chēng)的相似性過(guò)濾出最相關(guān)的概念,再分別基于概念實(shí)例、概念屬性和概念關(guān)系計(jì)算概念相似度,并進(jìn)行綜合。由于本體能夠?qū)㈩I(lǐng)域中的各種概念和關(guān)系進(jìn)行顯示地、形式地表達(dá),因此本體在概念語(yǔ)義相似度計(jì)算中發(fā)揮重要作用,針對(duì)于概念在本體樹(shù)中的層次深度、距離以及待比較詞間的詞形相似度等影響因子,綜合考慮以上因子,本發(fā)明提出了一種改進(jìn)的本體概念詞匯語(yǔ)義相似度求解方法。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)如何更精準(zhǔn)獲得每一個(gè)術(shù)語(yǔ)的相似術(shù)語(yǔ)問(wèn)題以及考慮詞形、本體概念等影響因子,本發(fā)明提供了一種改進(jìn)的本體概念詞匯語(yǔ)義相似度求解方法。
為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:初始化統(tǒng)計(jì)方法模塊。
步驟2:將待比較詞(c1,c2)輸入初始化統(tǒng)計(jì)方法模塊中。
步驟3:將待比較詞(c1,c2)映射到本體概念模塊中。
步驟4:分別選取待比較詞(c1,c2)對(duì)應(yīng)深度最大的本體概念g1、g2。
步驟5:計(jì)算待比較詞(c1,c2)對(duì)應(yīng)深度最大的兩本體概念間距離dis(g1,g2)。
步驟6:待比較詞(c1,c2)之間的詞形相似度xingsim(c1,c2)。
步驟7:綜合上述步驟,計(jì)算兩待比較詞(c1,c2)的相似度sim(c1,c2)。
本發(fā)明有益效果是:
1、此計(jì)算詞匯相似度方法在量化概念上更接近專(zhuān)家的經(jīng)驗(yàn)值。
2、此方法更充分、更綜合考慮了待比較詞(c1,c2)對(duì)應(yīng)深度最大的本體概念間的距離等因素,大大的提高了語(yǔ)義相似度結(jié)果的準(zhǔn)確度。
3、更好的提高了本體推理的效果。
4、又考慮了詞語(yǔ)本身具有的詞形相似度、語(yǔ)義相似度結(jié)果的準(zhǔn)確度得到了更好提高。
5、更符合實(shí)際應(yīng)用效果。
附圖說(shuō)明
圖1一種改進(jìn)的本體概念詞匯語(yǔ)義相似度求解方法結(jié)構(gòu)流程圖
具體實(shí)施方式
為解決更精準(zhǔn)的獲得每一個(gè)術(shù)語(yǔ)的相似術(shù)語(yǔ)問(wèn)題以及考慮詞形、本體概念等影響因子,結(jié)合圖1對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:
步驟1:初始化統(tǒng)計(jì)方法模塊。
步驟2:將待比較詞(c1,c2)輸入初始化統(tǒng)計(jì)方法模塊中。
步驟3:將待比較詞(c1,c2)映射到本體概念模塊中。
步驟4:分別選取待比較詞(c1,c2)對(duì)應(yīng)深度最大的本體概念g1、g2,其具體描述如下:
待比較詞(c1,c2)與概念之間是一對(duì)多的關(guān)系,當(dāng)選取的概念深度越深,則待比較詞(c1,c2)則越具體,更方便計(jì)算待比較詞(c1,c2)的語(yǔ)義相似度。這個(gè)深度在統(tǒng)計(jì)模塊塊中很容易找到,例如在《知網(wǎng)》中找到詞語(yǔ)對(duì)應(yīng)的本體概念。
步驟5:計(jì)算待比較詞(c1,c2)對(duì)應(yīng)深度最大的兩本體概念間距離dis(g1,g2),需先求兩本體概念間義原項(xiàng)的相似度sim(g1,g2),再計(jì)算兩本體概念間相對(duì)深度deepth(g1,g2),具體計(jì)算過(guò)程如下:
5.1)兩本體概念間義原項(xiàng)的相似度sim(g1,g2)
設(shè)c1對(duì)應(yīng)深度最大的本體概念g1中含有n個(gè)義原,即g1∈(y1,y2,…,yn),c2對(duì)應(yīng)深度最大的本體概念g2中含有m個(gè)義原,即g2∈(y1′,y2′,…,ym′)。
分別兩兩計(jì)算g1與g2中義原的相似度,即sim(yi,yj′),i∈(1,2,…,n)、
j∈(1,2,…,m),可以得g1與g2中義原項(xiàng)相似度矩陣J(g1,g2),如下:
根據(jù)上述矩陣找出每個(gè)行向量中義原平均相似度averageSi,即
最后得到兩本體概念間義原項(xiàng)的相似度sim(g1,g2),如下:
由于兩本體概念間距離dis(g1,g2)與義原項(xiàng)的相似度sim(g1,g2)成反比,所以對(duì)sim(g1,g2)進(jìn)行歸一化處理,即得
α為光滑系數(shù),具體由用戶(hù)指定。
5.2)計(jì)算兩本體概念間相對(duì)深度deepth(g1,g2)
deepth(g1,g2)=d1-d2
上式d1為c1對(duì)應(yīng)深度最大的本體概念g1在模塊中的深度值,同理d2為c2對(duì)應(yīng)深度最大的本體概念g2在模塊中的深度值,這個(gè)根據(jù)模塊可以很容易得出。
5.3)計(jì)算待比較詞(c1,c2)對(duì)應(yīng)深度最大的兩本體概念間距離dis(g1,g2)
上式A+B=1,A、B分別為sim(g1,g2)、deepth(g1,g2)的權(quán)重比例,這個(gè)由專(zhuān)家給出。
對(duì)dis(g1,g2)進(jìn)行歸一化處理,即
上式β可以通過(guò)非線性回歸迭代估計(jì)確定。
步驟6:待比較詞(c1,c2)之間的詞形相似度xingsim(c1,c2),需先知詞長(zhǎng)相似率與詞性相似率,其具體計(jì)算過(guò)程如下:
6.1)詞長(zhǎng)相似率rateword(c1,c2)
6.2)詞性相似率wordsim(c1,c2)
上式n為待比較詞(c1,c2)中詞性相似個(gè)數(shù),len(c1)為詞c1的長(zhǎng)度,len(c2)為c2的長(zhǎng)度。
6.3)待比較詞(c1,c2)之間的詞形相似度xingsim(c1,c2)
步驟7:綜合上述步驟,計(jì)算兩待比較詞C∈(c1,c2)的相似度sim(c1,c2),其具體計(jì)算過(guò)程如下:
sim(c1,c2)=A′dis(g1,g2)歸一化+B′xingsim(c1,c2)
上式A′、B′為權(quán)重因子,當(dāng)A′>0.5時(shí),兩本體概念間距離dis(g1,g2)對(duì)相似度sim(c1,c2)的影響較大,否則,詞形相似度wordsim(c1,c2)對(duì)相似度sim(c1,c2的影響較大。根據(jù)經(jīng)驗(yàn)可得,前者對(duì)sim(c1,c2)影響更大。
一種改進(jìn)的本體概念詞匯語(yǔ)義相似度求解方法,其偽代碼計(jì)算過(guò)程:
輸入:初始化模塊,待比較詞(c1,c2)
輸出:待比較詞(c1,c2)相似度sim(c1,c2)。