本發(fā)明涉及時序知識圖譜推理,具體涉及一種基于雙視圖自適應(yīng)對比學(xué)習(xí)的知識圖譜推理方法。
背景技術(shù):
1、時間知識圖(tkg)將動態(tài)事實表示為(主題、關(guān)系、客體、時間)形式的四元組,實際上是具有各自時間戳的kg快照序列。tkg推理旨在通過對歷史kg快照進行建模來預(yù)測未知事實,其中涉及兩種推理設(shè)置:插值和外推。插值設(shè)置側(cè)重于補全歷史上缺失的事實,而外推設(shè)置旨在預(yù)測未來發(fā)生的事實。近年來,隨著tkg推理的研究不斷深入,外推任務(wù)因其在預(yù)測未來事實方面的優(yōu)越性能以及在事件預(yù)測、風(fēng)險評估、交通流預(yù)測等方面的廣泛應(yīng)用價值而引起了巨大的意義。
2、進一步的,對未來事實的準(zhǔn)確預(yù)測需要全面了解歷史事實的發(fā)展規(guī)律。根據(jù)人類對歷史事實發(fā)展的認(rèn)知,現(xiàn)有對tkg外推的研究許多努力都是為了通過全局歷史信息來學(xué)習(xí)事實的重復(fù)和循環(huán)模式,并通過局部歷史信息來建模相鄰事實的演化模式。然而,以上研究僅關(guān)注直接相關(guān)歷史,它們忽視時間戳內(nèi)的交互和周期性語義,無法有效探索歷史影響與全球知識中包含的潛在未來事件之間的適應(yīng)性平衡。因此,本專利提出了一種基于雙視圖自適應(yīng)對比學(xué)習(xí)的知識圖譜推理方法,能夠在時序知識圖譜推理任務(wù)中融合局部和全局歷史信息,并通過自適應(yīng)負(fù)樣本權(quán)重感知對比學(xué)習(xí)提升模型的抗噪能力,以提供更加魯棒的推理結(jié)果。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有時序知識圖譜推理方法在處理噪聲和捕獲關(guān)鍵歷史信息方面的不足,無法有效探索歷史影響與全球知識中包含的潛在未來事件之間的適應(yīng)性平衡的問題。為此,本發(fā)明提出了一種基于雙視圖自適應(yīng)對比學(xué)習(xí)的知識圖譜推理方法,該方法包括局部和全局兩種編碼器:局部編碼器通過關(guān)系圖卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)建模近鄰時間片段的歷史信息,生成局部歷史表示;全局編碼器通過采樣歷史查詢子圖并使用關(guān)系圖卷積網(wǎng)絡(luò)進行全局信息建模,生成全局歷史表示。為增強模型的抗干擾能力,本發(fā)明設(shè)計了局部-全局困難負(fù)樣本感知對比學(xué)習(xí)模塊,通過挖掘不同負(fù)樣本梯度貢獻度信息加入訓(xùn)練以最大化局部和全局表示之間的相似性,優(yōu)化模型對噪聲的魯棒性。通過融合局部和全局表示進行實體預(yù)測,并通過打分函數(shù)選擇得分最高的實體作為預(yù)測結(jié)果。
2、本發(fā)明能夠有效提升時序知識圖譜推理模型在復(fù)雜場景下的預(yù)測性能,在歷史數(shù)據(jù)含有噪聲或缺乏直接關(guān)聯(lián)信息時依然能保持較高的推理準(zhǔn)確度,從而解決了上述背景技術(shù)中提到的問題。
3、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
4、一種基于雙視圖自適應(yīng)對比學(xué)習(xí)的知識圖譜推理方法,包括以下步驟:
5、步驟s1?0:數(shù)據(jù)集中獲取四元組集合,構(gòu)建動態(tài)知識圖譜數(shù)據(jù)集,并進行時間分割,形成時間序列快照集合,生成時間知識圖譜快照及查詢樣本;
6、步驟s20:創(chuàng)建局部歷史信息編碼器,生成局部歷史的實體和關(guān)系表示;
7、步驟s30:創(chuàng)建全局歷史信息編碼器,構(gòu)建跨時間戳歷史周期查詢子圖,生成全局歷史的實體和關(guān)系表示;
8、步驟s40:將步驟s20和步驟s30得到的本地歷史信息表示和全局歷史信息表示進行對比學(xué)習(xí);
9、步驟s50:利用步驟s20和步驟s30中得到的全局實體嵌入表示和本地實體嵌入表示,通過打分函數(shù)進行實體預(yù)測;
10、上述方案中,步驟10包括以下步驟:
11、步驟s101,從數(shù)據(jù)集中獲取包含時間戳的四元組集合(主體,關(guān)系,客體,時間),構(gòu)建原始的動態(tài)知識圖譜數(shù)據(jù)集tkgset;
12、步驟s102,根據(jù)時間戳對tkgset進行分割,將每個時間點的四元組提取出來,生成對應(yīng)的時間快照gt,形成時間序列快照集合snapshotset={g1,g2,...,g|t|},每個快照表示該時間點下的知識圖譜結(jié)構(gòu);
13、步驟s103,針對每個時間快照gt,為每個四元組生成對應(yīng)的反向三元組(客體,關(guān)系的逆,主體),從歷史子圖中抽取出的三元組,作為正向的查詢樣本,通過將正向三元組中的主體和客體交換位置,并將關(guān)系的編號加上關(guān)系總數(shù)來表示反向關(guān)系,生成反向的查詢樣本。
14、得到更完整的查詢樣本集合;
15、步驟s104,在模型訓(xùn)練過程中采用兩階段的前向傳播策略:首先對原始快照集合snapshotset進行前向傳播,預(yù)測正向查詢的實體關(guān)系;然后在第二階段對反向快照集合inverse?snapshotset進行前向傳播,得到的歷史子圖快照列表包含了原始時間順序下的多個擴展快照集合。
16、上述方案中,步驟20包括以下步驟:
17、步驟s201,已知每個kg快照g={g1,g2,...,g|t|}為有向多關(guān)系圖,是t時刻有效事實的集合,事實或事件表示為四元組(s,r,o,t),其中主實體s∈e,客體實體i∈e,在時間t∈t處通過關(guān)系r∈r連接,其中e表示實體集合,r表示關(guān)系集合,t表示時間戳集合;
18、步驟s202,對于每個時間戳上的k快照通過捕獲并發(fā)事實之間的空間結(jié)構(gòu)語義信息來更新實體的表示對時間數(shù)值信息進行編碼獲得時刻動態(tài)實體嵌入表示為其中w0是線性變換矩陣,其中d表示實體的特征向量,wt表示權(quán)重矩陣,bt表示偏置項,表示時間戳t處所有實體的動態(tài)嵌入矩陣,ht表示時間戳t處實體的動態(tài)嵌入向量,的含義是通過周期性激活函數(shù)計算出的時間編碼,表示將ht和連接成一個更長的向量,符號“||”表示向量的拼接操作;
19、步驟s203,基于rgcn的實體聚合器捕獲并發(fā)事實之間的結(jié)構(gòu)依賴關(guān)系,得到實體o和關(guān)系r在消息傳遞框架下第l層的嵌入表示為:
20、
21、其中co是歸一化常數(shù),和是第l層聚合特征和自循環(huán)的參數(shù),σ1(·)是rrelu激活函數(shù);表示時間戳t處主實體s在rgcn局部實體聚合器第l層的嵌入向量,r(l)表示關(guān)系r在第l層的嵌入向量,表示時間戳t處客體實體o在rgcn局部實體聚合器第l層的嵌入向量,rgcnlocal(*)表示局部關(guān)系圖卷積網(wǎng)絡(luò),表示存在,es表示源實體,r表示關(guān)系,eo表示目標(biāo)實體,et表示在時間步t的邊集合;
22、步驟s204,基于門控循環(huán)單元逐步更新實體的表示,對最近m個時間戳的kg快照序列中實體和關(guān)系的順序依賴關(guān)系進行建模:
23、
24、其中為t時刻kg快照聚合后的實體嵌入矩陣,gruent(*)表示門控循環(huán)單元的實體聚合器,用于更新實體的表示,ht+1表示表示時間戳t+1時的知識圖譜快照的實體嵌入矩陣,ht表示時間戳t時的知識圖譜快照的原始實體嵌入矩陣;
25、對于實體間關(guān)系采用時間門單元來更新t時刻的關(guān)系嵌入表示為:
26、rt+1=ut·r′t+(1-ut)·rt
27、rt+1表示時間戳t+1時的時間門單元更新后的關(guān)系嵌入;
28、ut表示時間門單元的門控向量,它在時間戳t時更新;
29、r′t表示時間戳t時的時間門單元更新后的關(guān)系嵌入;
30、rt表示時間戳t時的原始關(guān)系嵌入;
31、步驟s205,為了充分利用與kg快照中的查詢相關(guān)的歷史事實對預(yù)測查詢的相關(guān)信息,通過實體感知注意力機制來區(qū)分不同kg快照對于查詢的重要性αi:
32、
33、其中σ2表示sigmoid激活函數(shù),w5表示表示一個線性變換矩陣,用于處理輸入,表示歷史時間步tq-m+i對所有相關(guān)實體和關(guān)系表示的聚合,tq表示一個特定的時間步,表示在時間步tq的與事件eq相關(guān)的隱藏狀態(tài);
34、對最近個時間戳的查詢相關(guān)的kg快照信息進行建模,表示為:
35、
36、其中通過實體感知注意力機制的本地實體表示,其中表示在時間步tq的原始隱藏狀態(tài),表示在時間步tq-m+i的原始隱藏狀態(tài),為最終生成的本地實體表示,rt+1為最終生成的本地關(guān)系表示。
37、上述方案中,步驟30包括以下步驟:
38、步驟s301,對于首先對給定查詢中包含查詢主題實體s的單跳歷史事實進行采樣,隨后提取與查詢實體-關(guān)系對關(guān)聯(lián)的一跳目標(biāo)對象實體,繼續(xù)對包含一跳目標(biāo)對象實體的一跳事實進行采樣,通過整合兩個收集的歷史事實集,以獲得與查詢最相關(guān)的歷史靜態(tài)子圖表示為
39、步驟s302,對時間相關(guān)全局歷史圖進行建模進行表示得到時間圖gtcg={etcg,rtcg},etcg表示時間節(jié)點,rtcg表示時間節(jié)點之間的關(guān)系,在數(shù)據(jù)集上獲取查詢相關(guān)四種時間粒度的關(guān)系,通過另一個rgcn進行更新t″t:
40、t″t=σ(wrt′t+bt)
41、其中σ是cos激活函數(shù),為可學(xué)習(xí)的權(quán)重,t′t是時間圖在時間節(jié)點上的傳播結(jié)果,bt為偏置,t″t為時間信息嵌入;
42、步驟s303,通過對全局歷史查詢子圖的結(jié)構(gòu)語義和時間信息表示進行建模來更新全局實體表示
43、
44、其中表示融合靜態(tài)結(jié)構(gòu)信息和時間嵌入信息中rgcn第l層實體的輸出嵌入,rgcnglobal(*)表示全局關(guān)系的圖卷積網(wǎng)絡(luò),表示在圖g中,源實體es在第l層的隱藏狀態(tài),rl表示在第l層的關(guān)系r的表示,表示在圖g中,源實體eo在第l層的隱藏狀態(tài);
45、步驟s304,對于全局歷史信息,通過實體感知注意力機制來學(xué)習(xí)與查詢相關(guān)的歷史事實表示
46、
47、其中表示通過全局實體感知注意力編碼器得到的實體的最終全局表示,σ表示softmax激活函數(shù),w6表示一個權(quán)重矩陣,表示在圖g中的聚合隱藏狀態(tài),σ是門控機制輸出的權(quán)重,r是原始的關(guān)系嵌入,h表示當(dāng)前的隱藏狀態(tài)。
48、上述方案中,步驟40包括以下步驟:
49、步驟s401,將步驟s205和步驟s304得到的最終本地實體表示和最終全局表示經(jīng)過mlp歸一化投影表示為zt:t
50、
51、其中mlp表示多層感知機,rt表示在時間步t的關(guān)系的表示,zt是時間戳t處本地查詢的嵌入,zg是全局查詢的嵌入,同一查詢的局部和全局表示在時間戳t處用作正對,表示為(zt,i,zg,i),不同查詢的局部和全局表示用作負(fù)對,表示為(zt,i,zg,k);
52、步驟s402,對于每個負(fù)樣本zq,k,通過權(quán)重的自適應(yīng)學(xué)習(xí)函數(shù)區(qū)分困難負(fù)樣本:
53、
54、其中w(1)和w(2)是兩層mlp的可學(xué)習(xí)參數(shù)矩陣,σ(1)是tanh激活函數(shù),σ(1)是sigmoid激活函數(shù),用于將權(quán)重限制在0到1之間,b(1)和b(2)表示偏置項,zg,i表示正樣本,zg,k表示負(fù)樣本,||表示向量的拼接操作;
55、步驟s403,基于余弦相似度來評估樣本對之間的相似性,自適應(yīng)調(diào)整負(fù)樣本梯度貢獻度對比學(xué)習(xí)的損失函數(shù)如下:
56、
57、其中τ是人為定義的超參數(shù),用來調(diào)節(jié)數(shù)據(jù)表示在向量空間中分布的均勻性,其中和分別表示即查詢集和時間戳t的查詢數(shù)量;exp表示以e為底的指數(shù)函數(shù);
58、步驟s404,llg的目標(biāo)是使同一類別的表示更加接近,增強預(yù)測查詢所需的局部和全局編碼器的共同本質(zhì)特征,從而減輕噪聲的影響并提高模型的魯棒性;
59、通過使用全局編碼器生成的表示作為錨來獲得監(jiān)督損失lgl,最終的監(jiān)督對比損失計算為:
60、lcl=(llg+lgl)/2。
61、上述方案中,步驟50包括以下步驟:
62、步驟s501,采用convtranse在時間戳tq執(zhí)行實體預(yù)測任務(wù),實體預(yù)測分?jǐn)?shù)函數(shù)表示為:
63、
64、其中λ是設(shè)置為[0,1]的可變因子,用于權(quán)衡實體的全局和局部表示,表示表示在時間步tq的關(guān)系r的表示,eq表示查詢中的目標(biāo)實體,rq表示與目標(biāo)實體相關(guān)聯(lián)的關(guān)系,e表示候選實體,q表示給定的關(guān)系和時間戳下,預(yù)測與實體關(guān)聯(lián)的目標(biāo)實體;
65、步驟s502,實體預(yù)測任務(wù)可以被視為多標(biāo)簽學(xué)習(xí)問題,實體預(yù)測損失與對比損失同步訓(xùn)練,最終損失函數(shù)計算為:
66、
67、其中φ(es,r,e,t)是實體預(yù)測概率分?jǐn)?shù),es表示查詢中已知的實體,r表示與已知實體關(guān)系,e表示候選實體,t表示時間戳,為事件真實判別標(biāo)簽,|e|是圖中所有節(jié)點的集合,如果事實發(fā)生為1,否則為0。
68、本發(fā)明的有益效果是:
69、本發(fā)明的目的在于解決現(xiàn)有的研究在對歷史事實進行編碼的過程中,忽略了與查詢相關(guān)的歷史信息的重要性,缺乏捕獲與kg快照中的查詢相關(guān)的重要歷史事實的基本模式,未重視模型的魯棒性,從而導(dǎo)致模型學(xué)習(xí)無法充分利用時間戳間周期信息數(shù)據(jù)且易受輸入噪聲干擾,進而導(dǎo)致模型泛化性不佳。
70、因此本發(fā)明根據(jù)沖突早期預(yù)警綜合系統(tǒng)事件數(shù)據(jù)庫,創(chuàng)建局部歷史信息編碼器和全局歷史信息編碼器,生成局部歷史和全局歷史雙視圖實體表示捕獲與查詢相關(guān)的關(guān)鍵歷史信息。通過自適應(yīng)負(fù)樣本加權(quán)對比學(xué)習(xí),更好地指導(dǎo)局部和全局歷史信息的融合并增強抗干擾能力。從而解決了上述背景技術(shù)中提到的問題。