欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法

文檔序號:40629888發(fā)布日期:2025-01-10 18:35閱讀:2來源:國知局
一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法

本發(fā)明屬于自然語言處理,尤其涉及一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。


背景技術:

1、知識圖譜通常來源于多個異構數(shù)據(jù)源,不同數(shù)據(jù)源可能包含關于同一實體的不同片段信息,因此,不同知識圖譜對同一實體的信息介紹是相互補充的,通過實體對齊,可以將這些片段整合,形成一個更完整、更全面的實體表示。此外,在多個知識圖譜中,相同的實體可能存在重復信息,實體對齊能夠識別并合并這些重復實體,消除冗余,確保知識圖譜的一致性和準確性。然而,現(xiàn)有的實體對齊方法存在如下問題:

2、(1)未能充分考慮知識圖譜之間的結構信息差異。例如,圖1中的兩個待對齊知識圖譜展現(xiàn)出結構異質的特性,由于這兩個知識圖譜的關系不對稱,很容易誤認為kg1中的實體“劉禪”與kg2中的實體“劉瑤”等價,這種誤判的原因之一是它們共享相同的鄰居實體“甘夫人”和“劉備”。

3、(2)忽視關系和描述信息對實體對齊的重要作用。在學習實體的向量表示時,沒有考慮關系語義且未充分挖掘實體的描述信息,并且忽視了關系約束在學習實體描述嵌入過程中的影響。

4、(3)未能識別不匹配實體。假設所有待對齊的實體都能找到相應的匹配項,導致實體對齊結果中可能出現(xiàn)錯誤的對應關系,影響了實體對齊準確性。

5、曾維新等人的論文:面向開放世界的實體對齊:一種無監(jiān)督的方法。該技術方案的步驟如下:首先從語義和字符串兩個層面挖掘實體名稱所蘊含的信息;然后,過濾出不匹配的實體,并產(chǎn)生初步的對齊結果,這些初步結果被視為偽標記數(shù)據(jù),并傳遞到漸進式學習框架生成結構表示;最后,漸進式學習框架通過利用上一輪的對齊結果豐富偽標記數(shù)據(jù)。然而,該方法仍存在著一些局限性:不能有效應對結構非對稱的知識圖譜實體對齊;未考慮關系信息在區(qū)分錯誤對齊實體中的重要作用;在學習文本向量表示的時候,未考慮實體描述信息,也忽視了關系約束對實體描述嵌入的影響。


技術實現(xiàn)思路

1、本發(fā)明是為了解決現(xiàn)有技術所存在的上述問題,提供一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。

2、本發(fā)明的技術解決方案是:一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法,將待對齊的知識圖譜作為輸入,按照如下步驟進行:

3、步驟1.關系補全

4、步驟1.1利用關聯(lián)規(guī)則挖掘算法amie+從知識圖譜中挖掘霍爾規(guī)則;

5、步驟1.2利用逆推理規(guī)則和逆規(guī)則來增強規(guī)則,基于部分完整性假設過濾規(guī)則,進而補全知識圖譜中缺失的關系;

6、步驟2.向量編碼

7、步驟2.1利用圖卷積網(wǎng)絡學習知識圖譜的結構向量hs;

8、步驟2.2利用全連接層學習知識圖譜的關系向量hr;

9、步驟2.3利用關系感知的注意力聚合層學習實體的文本向量ht;

10、步驟2.4將所得到的結構向量hs、關系向量hr及文本向量ht進行向量拼接,得到實體聯(lián)合向量hj;

11、步驟3.實體對齊

12、步驟3.1基于實體聯(lián)合向量hj和歐氏距離,計算基于嵌入的實體相似性,并將測試源實體和所有目標實體之間的相似性進行排序,排在最前面的實體視為對齊實體,得到初步的實體對齊結果;

13、步驟3.2預測不可匹配的實體;

14、步驟3.3過濾掉初步實體對齊結果中的不可匹配的實體,得到最終的實體對齊結果。

15、所述步驟2.1是通過圖卷積網(wǎng)絡的逐層的卷積操作聚合鄰居節(jié)點的信息,第l層輸出的結構向量表示為:

16、

17、其中,是鄰接矩陣,i是單位矩陣;是的對角節(jié)點度矩陣;σ(·)是relu函數(shù);w(l)是權重矩陣;

18、所述步驟2.2的關系向量表示為:

19、

20、其中,是relu函數(shù);wr是權重參數(shù);xr代表關系特征;br是偏置參數(shù);

21、所述步驟2.3首先將實體名稱和實體描述拼接成一個詞序列,然后利用fasttext將該詞序列轉換為詞嵌入序列,實體的文本向量計算公式如下:

22、

23、其中,k是詞序列的長度;v是用于計算注意力分數(shù)的參數(shù);δ(·)是tanh函數(shù);w1是權重參數(shù);zr是與關系相關的注意參數(shù);we,i是實體e的描述中第i個詞的嵌入;[;]是向量拼接操作;b1是偏置參數(shù);

24、所述步驟3.1基于實體聯(lián)合向量hj和歐氏距離,計算基于嵌入的實體相似性,是使用歐氏距離來計算兩個實體在向量空間中的距離,從而計算基于嵌入的相似性;在n維空間中,歐氏距離的計算公式如下:

25、

26、其中,p和q是兩個實體的n維特征向量;

27、所述步驟3.2是將基于嵌入的實體相似性和基于字符串的實體相似性進行融合,融合后的實體相似性高于設定的閾值,為能夠完成匹配的實體,否則為不可匹配的實體;所述基于字符串的實體相似性是使用jaro-winkler距離來衡量實體名稱字符串之間的相似性。

28、進一步的還包括使用基于邊距的損失函數(shù)對模型進行訓練,所述損失函數(shù)如下:

29、

30、其中,γ是邊距參數(shù),代表正例和負例之間的邊距;l'代表l的負例集合,采用最近鄰居負采樣。

31、本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點:

32、(1)通過補全知識圖譜中缺失的關系,減小知識圖譜結構差異的負面影響,使知識圖譜的結構更加完整和一致,從而提高實體對齊的準確性。

33、(2)綜合了結構表示、關系表示和基于關系特定約束的文本表示,能夠提升實體嵌入的質量。

34、(3)考慮了開放世界場景的實體對齊,通過識別和處理不可匹配的實體,避免強制對齊可能導致的誤匹配,從而提高對齊結果的準確性和可靠性。



技術特征:

1.一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法,將待對齊的知識圖譜作為輸入,其特征在于按照如下步驟進行:

2.根據(jù)權利要求1所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:

3.根據(jù)權利要求2所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:所述步驟3.1基于實體聯(lián)合向量hj和歐氏距離,計算基于嵌入的實體相似性,是使用歐氏距離來計算兩個實體在向量空間中的距離,從而計算基于嵌入的相似性;在n維空間中,歐氏距離的計算公式如下:

4.根據(jù)權利要求3所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:所述步驟3.2是將基于嵌入的實體相似性和基于字符串的實體相似性進行融合,融合后的實體相似性高于設定的閾值,為能夠完成匹配的實體,否則為不可匹配的實體;所述基于字符串的實體相似性是使用jaro-winkler距離來衡量實體名稱字符串之間的相似性。

5.根據(jù)權利要求4所述的融合關系補全與不匹配檢測的知識圖譜實體對齊方法,其特征在于:還包括使用基于邊距的損失函數(shù)對模型進行訓練,所述損失函數(shù)如下:


技術總結
本發(fā)明公開一種融合關系補全與不匹配檢測的知識圖譜實體對齊方法。將待對齊的知識圖譜作為輸入,首先,對知識圖譜中缺失的關系進行補全,旨在使兩個知識圖譜的結構對稱,從而提供更全面和準確的數(shù)據(jù)基礎,減少結構信息差異的負面影響;其次,將結構、關系和文本信息編碼為向量表示,并將這些信息融合,生成實體的聯(lián)合向量,能夠學習關系和實體描述信息,從而提升實體嵌入的質量和后續(xù)實體對齊結果的準確性;最后,進行不可匹配的實體預測及基于實體聯(lián)合向量和歐氏距離計算基于嵌入的實體相似性,得到初步的實體對齊結果,再將初步實體對齊結果中的不可匹配的實體過濾掉,得到最終的實體對齊結果。

技術研發(fā)人員:朱蓓蓓,傅博,冀芒來,田瑞杰,楊燕
受保護的技術使用者:遼寧師范大學
技術研發(fā)日:
技術公布日:2025/1/9
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大冶市| 合肥市| 巴塘县| 定远县| 广南县| 商河县| 滦南县| 光山县| 彭山县| 东兰县| 双峰县| 商丘市| 黎城县| 布拖县| 清涧县| 图们市| 天台县| 博湖县| 西宁市| 铜山县| 界首市| 安平县| 抚州市| 临桂县| 清丰县| 廉江市| 寿阳县| 普洱| 柯坪县| 桂平市| 望奎县| 恩平市| 大方县| 辽阳县| 四会市| 宕昌县| 岳阳县| 库尔勒市| 嘉峪关市| 益阳市| 如东县|