本發(fā)明屬于自然語言處理,尤其涉及一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。
背景技術:
1、知識圖譜通常來源于多個異構數(shù)據(jù)源,不同數(shù)據(jù)源可能包含關于同一實體的不同片段信息,因此,不同知識圖譜對同一實體的信息介紹是相互補充的,通過實體對齊,可以將這些片段整合,形成一個更完整、更全面的實體表示。此外,在多個知識圖譜中,相同的實體可能存在重復信息,實體對齊能夠識別并合并這些重復實體,消除冗余,確保知識圖譜的一致性和準確性。然而,現(xiàn)有的實體對齊方法存在如下問題:
2、(1)未能充分考慮知識圖譜之間的結構信息差異。例如,圖1中的兩個待對齊知識圖譜展現(xiàn)出結構異質的特性,由于這兩個知識圖譜的關系不對稱,很容易誤認為kg1中的實體“劉禪”與kg2中的實體“劉瑤”等價,這種誤判的原因之一是它們共享相同的鄰居實體“甘夫人”和“劉備”。
3、(2)忽視關系和描述信息對實體對齊的重要作用。在學習實體的向量表示時,沒有考慮關系語義且未充分挖掘實體的描述信息,并且忽視了關系約束在學習實體描述嵌入過程中的影響。
4、(3)未能識別不匹配實體。假設所有待對齊的實體都能找到相應的匹配項,導致實體對齊結果中可能出現(xiàn)錯誤的對應關系,影響了實體對齊準確性。
5、曾維新等人的論文:面向開放世界的實體對齊:一種無監(jiān)督的方法。該技術方案的步驟如下:首先從語義和字符串兩個層面挖掘實體名稱所蘊含的信息;然后,過濾出不匹配的實體,并產(chǎn)生初步的對齊結果,這些初步結果被視為偽標記數(shù)據(jù),并傳遞到漸進式學習框架生成結構表示;最后,漸進式學習框架通過利用上一輪的對齊結果豐富偽標記數(shù)據(jù)。然而,該方法仍存在著一些局限性:不能有效應對結構非對稱的知識圖譜實體對齊;未考慮關系信息在區(qū)分錯誤對齊實體中的重要作用;在學習文本向量表示的時候,未考慮實體描述信息,也忽視了關系約束對實體描述嵌入的影響。
技術實現(xiàn)思路
1、本發(fā)明是為了解決現(xiàn)有技術所存在的上述問題,提供一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。
2、本發(fā)明的技術解決方案是:一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法,將待對齊的知識圖譜作為輸入,按照如下步驟進行:
3、步驟1.關系補全
4、步驟1.1利用關聯(lián)規(guī)則挖掘算法amie+從知識圖譜中挖掘霍爾規(guī)則;
5、步驟1.2利用逆推理規(guī)則和逆規(guī)則來增強規(guī)則,基于部分完整性假設過濾規(guī)則,進而補全知識圖譜中缺失的關系;
6、步驟2.向量編碼
7、步驟2.1利用圖卷積網(wǎng)絡學習知識圖譜的結構向量hs;
8、步驟2.2利用全連接層學習知識圖譜的關系向量hr;
9、步驟2.3利用關系感知的注意力聚合層學習實體的文本向量ht;
10、步驟2.4將所得到的結構向量hs、關系向量hr及文本向量ht進行向量拼接,得到實體聯(lián)合向量hj;
11、步驟3.實體對齊
12、步驟3.1基于實體聯(lián)合向量hj和歐氏距離,計算基于嵌入的實體相似性,并將測試源實體和所有目標實體之間的相似性進行排序,排在最前面的實體視為對齊實體,得到初步的實體對齊結果;
13、步驟3.2預測不可匹配的實體;
14、步驟3.3過濾掉初步實體對齊結果中的不可匹配的實體,得到最終的實體對齊結果。
15、所述步驟2.1是通過圖卷積網(wǎng)絡的逐層的卷積操作聚合鄰居節(jié)點的信息,第l層輸出的結構向量表示為:
16、
17、其中,是鄰接矩陣,i是單位矩陣;是的對角節(jié)點度矩陣;σ(·)是relu函數(shù);w(l)是權重矩陣;
18、所述步驟2.2的關系向量表示為:
19、
20、其中,是relu函數(shù);wr是權重參數(shù);xr代表關系特征;br是偏置參數(shù);
21、所述步驟2.3首先將實體名稱和實體描述拼接成一個詞序列,然后利用fasttext將該詞序列轉換為詞嵌入序列,實體的文本向量計算公式如下:
22、
23、其中,k是詞序列的長度;v是用于計算注意力分數(shù)的參數(shù);δ(·)是tanh函數(shù);w1是權重參數(shù);zr是與關系相關的注意參數(shù);we,i是實體e的描述中第i個詞的嵌入;[;]是向量拼接操作;b1是偏置參數(shù);
24、所述步驟3.1基于實體聯(lián)合向量hj和歐氏距離,計算基于嵌入的實體相似性,是使用歐氏距離來計算兩個實體在向量空間中的距離,從而計算基于嵌入的相似性;在n維空間中,歐氏距離的計算公式如下:
25、
26、其中,p和q是兩個實體的n維特征向量;
27、所述步驟3.2是將基于嵌入的實體相似性和基于字符串的實體相似性進行融合,融合后的實體相似性高于設定的閾值,為能夠完成匹配的實體,否則為不可匹配的實體;所述基于字符串的實體相似性是使用jaro-winkler距離來衡量實體名稱字符串之間的相似性。
28、進一步的還包括使用基于邊距的損失函數(shù)對模型進行訓練,所述損失函數(shù)如下:
29、
30、其中,γ是邊距參數(shù),代表正例和負例之間的邊距;l'代表l的負例集合,采用最近鄰居負采樣。
31、本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點:
32、(1)通過補全知識圖譜中缺失的關系,減小知識圖譜結構差異的負面影響,使知識圖譜的結構更加完整和一致,從而提高實體對齊的準確性。
33、(2)綜合了結構表示、關系表示和基于關系特定約束的文本表示,能夠提升實體嵌入的質量。
34、(3)考慮了開放世界場景的實體對齊,通過識別和處理不可匹配的實體,避免強制對齊可能導致的誤匹配,從而提高對齊結果的準確性和可靠性。
1.一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法,將待對齊的知識圖譜作為輸入,其特征在于按照如下步驟進行:
2.根據(jù)權利要求1所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:
3.根據(jù)權利要求2所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:所述步驟3.1基于實體聯(lián)合向量hj和歐氏距離,計算基于嵌入的實體相似性,是使用歐氏距離來計算兩個實體在向量空間中的距離,從而計算基于嵌入的相似性;在n維空間中,歐氏距離的計算公式如下:
4.根據(jù)權利要求3所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:所述步驟3.2是將基于嵌入的實體相似性和基于字符串的實體相似性進行融合,融合后的實體相似性高于設定的閾值,為能夠完成匹配的實體,否則為不可匹配的實體;所述基于字符串的實體相似性是使用jaro-winkler距離來衡量實體名稱字符串之間的相似性。
5.根據(jù)權利要求4所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:還包括使用基于邊距的損失函數(shù)對模型進行訓練,所述損失函數(shù)如下: