一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法

文檔序號：40629888發(fā)布日期：2025-01-10 18:35閱讀：2來源：國知局

本發(fā)明屬于自然語言處理，尤其涉及一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。

背景技術：

1、知識圖譜通常來源于多個異構數(shù)據(jù)源，不同數(shù)據(jù)源可能包含關于同一實體的不同片段信息，因此，不同知識圖譜對同一實體的信息介紹是相互補充的，通過實體對齊，可以將這些片段整合，形成一個更完整、更全面的實體表示。此外，在多個知識圖譜中，相同的實體可能存在重復信息，實體對齊能夠識別并合并這些重復實體，消除冗余，確保知識圖譜的一致性和準確性。然而，現(xiàn)有的實體對齊方法存在如下問題：

2、(1)未能充分考慮知識圖譜之間的結構信息差異。例如，圖1中的兩個待對齊知識圖譜展現(xiàn)出結構異質的特性，由于這兩個知識圖譜的關系不對稱，很容易誤認為kg1中的實體“劉禪”與kg2中的實體“劉瑤”等價，這種誤判的原因之一是它們共享相同的鄰居實體“甘夫人”和“劉備”。

3、(2)忽視關系和描述信息對實體對齊的重要作用。在學習實體的向量表示時，沒有考慮關系語義且未充分挖掘實體的描述信息，并且忽視了關系約束在學習實體描述嵌入過程中的影響。

4、(3)未能識別不匹配實體。假設所有待對齊的實體都能找到相應的匹配項，導致實體對齊結果中可能出現(xiàn)錯誤的對應關系，影響了實體對齊準確性。

5、曾維新等人的論文：面向開放世界的實體對齊：一種無監(jiān)督的方法。該技術方案的步驟如下：首先從語義和字符串兩個層面挖掘實體名稱所蘊含的信息；然后，過濾出不匹配的實體，并產(chǎn)生初步的對齊結果，這些初步結果被視為偽標記數(shù)據(jù)，并傳遞到漸進式學習框架生成結構表示；最后，漸進式學習框架通過利用上一輪的對齊結果豐富偽標記數(shù)據(jù)。然而，該方法仍存在著一些局限性：不能有效應對結構非對稱的知識圖譜實體對齊；未考慮關系信息在區(qū)分錯誤對齊實體中的重要作用；在學習文本向量表示的時候，未考慮實體描述信息，也忽視了關系約束對實體描述嵌入的影響。

技術實現(xiàn)思路

1、本發(fā)明是為了解決現(xiàn)有技術所存在的上述問題，提供一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。

2、本發(fā)明的技術解決方案是：一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法，將待對齊的知識圖譜作為輸入，按照如下步驟進行：

3、步驟1.關系補全

4、步驟1.1利用關聯(lián)規(guī)則挖掘算法amie+從知識圖譜中挖掘霍爾規(guī)則；

5、步驟1.2利用逆推理規(guī)則和逆規(guī)則來增強規(guī)則，基于部分完整性假設過濾規(guī)則，進而補全知識圖譜中缺失的關系；

6、步驟2.向量編碼

7、步驟2.1利用圖卷積網(wǎng)絡學習知識圖譜的結構向量hs；

8、步驟2.2利用全連接層學習知識圖譜的關系向量hr；

9、步驟2.3利用關系感知的注意力聚合層學習實體的文本向量ht；

10、步驟2.4將所得到的結構向量hs、關系向量hr及文本向量ht進行向量拼接，得到實體聯(lián)合向量hj；

11、步驟3.實體對齊

12、步驟3.1基于實體聯(lián)合向量hj和歐氏距離，計算基于嵌入的實體相似性，并將測試源實體和所有目標實體之間的相似性進行排序，排在最前面的實體視為對齊實體，得到初步的實體對齊結果；

13、步驟3.2預測不可匹配的實體；

14、步驟3.3過濾掉初步實體對齊結果中的不可匹配的實體，得到最終的實體對齊結果。

15、所述步驟2.1是通過圖卷積網(wǎng)絡的逐層的卷積操作聚合鄰居節(jié)點的信息，第l層輸出的結構向量表示為：

16、

17、其中，是鄰接矩陣，i是單位矩陣；是的對角節(jié)點度矩陣；σ(·)是relu函數(shù)；w(l)是權重矩陣；

18、所述步驟2.2的關系向量表示為：

19、

20、其中，是relu函數(shù)；wr是權重參數(shù)；xr代表關系特征；br是偏置參數(shù)；

21、所述步驟2.3首先將實體名稱和實體描述拼接成一個詞序列，然后利用fasttext將該詞序列轉換為詞嵌入序列，實體的文本向量計算公式如下：

22、

23、其中，k是詞序列的長度；v是用于計算注意力分數(shù)的參數(shù)；δ(·)是tanh函數(shù)；w1是權重參數(shù)；zr是與關系相關的注意參數(shù)；we,i是實體e的描述中第i個詞的嵌入；[；]是向量拼接操作；b1是偏置參數(shù)；

24、所述步驟3.1基于實體聯(lián)合向量hj和歐氏距離，計算基于嵌入的實體相似性，是使用歐氏距離來計算兩個實體在向量空間中的距離，從而計算基于嵌入的相似性；在n維空間中，歐氏距離的計算公式如下：

25、

26、其中，p和q是兩個實體的n維特征向量；

27、所述步驟3.2是將基于嵌入的實體相似性和基于字符串的實體相似性進行融合，融合后的實體相似性高于設定的閾值，為能夠完成匹配的實體，否則為不可匹配的實體；所述基于字符串的實體相似性是使用jaro-winkler距離來衡量實體名稱字符串之間的相似性。

28、進一步的還包括使用基于邊距的損失函數(shù)對模型進行訓練，所述損失函數(shù)如下：

29、

30、其中，γ是邊距參數(shù)，代表正例和負例之間的邊距；l'代表l的負例集合，采用最近鄰居負采樣。

31、本發(fā)明與現(xiàn)有技術相比，具有如下優(yōu)點：

32、(1)通過補全知識圖譜中缺失的關系，減小知識圖譜結構差異的負面影響，使知識圖譜的結構更加完整和一致，從而提高實體對齊的準確性。

33、(2)綜合了結構表示、關系表示和基于關系特定約束的文本表示，能夠提升實體嵌入的質量。

34、(3)考慮了開放世界場景的實體對齊，通過識別和處理不可匹配的實體，避免強制對齊可能導致的誤匹配，從而提高對齊結果的準確性和可靠性。

技術特征：

1.一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法，將待對齊的知識圖譜作為輸入，其特征在于按照如下步驟進行：

2.根據(jù)權利要求1所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法，其特征在于：

3.根據(jù)權利要求2所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法，其特征在于：所述步驟3.1基于實體聯(lián)合向量hj和歐氏距離，計算基于嵌入的實體相似性，是使用歐氏距離來計算兩個實體在向量空間中的距離，從而計算基于嵌入的相似性；在n維空間中，歐氏距離的計算公式如下：

4.根據(jù)權利要求3所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法，其特征在于：所述步驟3.2是將基于嵌入的實體相似性和基于字符串的實體相似性進行融合，融合后的實體相似性高于設定的閾值，為能夠完成匹配的實體，否則為不可匹配的實體；所述基于字符串的實體相似性是使用jaro-winkler距離來衡量實體名稱字符串之間的相似性。

5.根據(jù)權利要求4所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法，其特征在于：還包括使用基于邊距的損失函數(shù)對模型進行訓練，所述損失函數(shù)如下：

技術總結
本發(fā)明公開一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。將待對齊的知識圖譜作為輸入，首先，對知識圖譜中缺失的關系進行補全，旨在使兩個知識圖譜的結構對稱，從而提供更全面和準確的數(shù)據(jù)基礎，減少結構信息差異的負面影響；其次，將結構、關系和文本信息編碼為向量表示，并將這些信息融合，生成實體的聯(lián)合向量，能夠學習關系和實體描述信息，從而提升實體嵌入的質量和后續(xù)實體對齊結果的準確性；最后，進行不可匹配的實體預測及基于實體聯(lián)合向量和歐氏距離計算基于嵌入的實體相似性，得到初步的實體對齊結果，再將初步實體對齊結果中的不可匹配的實體過濾掉，得到最終的實體對齊結果。

技術研發(fā)人員：朱蓓蓓,傅博,冀芒來,田瑞杰,楊燕
受保護的技術使用者：遼寧師范大學
技術研發(fā)日：
技術公布日：2025/1/9

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：朱蓓蓓,傅博,冀芒來,田瑞杰,楊燕
技術所有人：遼寧師范大學
我是此專利的發(fā)明人

上一篇：一種電磁繼電器開關結構的制作方法
上一篇：一種錦綸與粘膠混紡面料的染整低溫練漂設備的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法