本發(fā)明屬于圖卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域,特別涉及一種混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法及系統(tǒng)。
背景技術(shù):
1、在引文網(wǎng)絡(luò)的分析中,圖神經(jīng)網(wǎng)絡(luò)(gnn)已經(jīng)顯著推動(dòng)了節(jié)點(diǎn)分類技術(shù)的發(fā)展。特別是在處理具有同配性的引文網(wǎng)絡(luò)數(shù)據(jù)時(shí),圖神經(jīng)網(wǎng)絡(luò)表現(xiàn)出色,其中文獻(xiàn)傾向于與主題或領(lǐng)域相似的其他文獻(xiàn)引用或被引用。然而,面對(duì)含有異配性的引文網(wǎng)絡(luò),即網(wǎng)絡(luò)中的節(jié)點(diǎn)(文獻(xiàn))代表不同學(xué)科或研究領(lǐng)域時(shí),傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)的性能常常受到限制。這主要是因?yàn)樵谛畔⒕酆线^(guò)程中,傳統(tǒng)模型難以有效區(qū)分和利用來(lái)自不同學(xué)科的文獻(xiàn)特征。
2、在處理具有復(fù)雜連接模式的引文網(wǎng)絡(luò)時(shí),文獻(xiàn)間多樣化的關(guān)聯(lián)模式加大了分類任務(wù)的挑戰(zhàn)。例如,在某些引文網(wǎng)絡(luò)中,可能存在大量跨學(xué)科引用,這不僅增加了信息聚合的難度,也可能影響模型在分類過(guò)程中的精確度。此外,現(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)模型通常假設(shè)網(wǎng)絡(luò)中的連接具有高度同配性,這在處理異配性強(qiáng)的引文網(wǎng)絡(luò)時(shí)顯然不適用。傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)一個(gè)關(guān)鍵假設(shè):網(wǎng)絡(luò)中直接相連的節(jié)點(diǎn)在特征或類別上具有相似性,即同配性假設(shè)。在這種框架下,節(jié)點(diǎn)的特征更新通過(guò)聚合其直接鄰居的信息來(lái)實(shí)現(xiàn),旨在通過(guò)同配的鄰居特征傳播增強(qiáng)目標(biāo)節(jié)點(diǎn)的特征表示。然而,當(dāng)面對(duì)異配圖時(shí),這一假設(shè)變得不再適用。異配圖中的節(jié)點(diǎn),即使是相互連接的,也可能展現(xiàn)出截然不同的特征和類別標(biāo)簽。在這種情況下,關(guān)鍵信息往往來(lái)源于中心節(jié)點(diǎn)的二階或更高階鄰居,直接應(yīng)用傳統(tǒng)的圖卷積網(wǎng)絡(luò)可能會(huì)導(dǎo)致大量非相關(guān)信息的干擾。
3、在本發(fā)明作出之前,引文網(wǎng)絡(luò)的處理主要依賴于傳統(tǒng)的圖神經(jīng)網(wǎng)絡(luò)方法,例如簡(jiǎn)單的圖卷積網(wǎng)絡(luò)和其他基本的圖處理技術(shù)。這些方法通常假設(shè)網(wǎng)絡(luò)中相連接的文獻(xiàn)傾向于具有相似的研究主題或?qū)儆谙嗤膶W(xué)科領(lǐng)域。因此,傳統(tǒng)方法主要是通過(guò)平均或加權(quán)平均鄰居節(jié)點(diǎn)的特征來(lái)更新中心節(jié)點(diǎn)(文獻(xiàn))的特征表示,往往導(dǎo)致文獻(xiàn)表示的過(guò)度平滑化,從而削弱了模型在處理異配性強(qiáng)的引文網(wǎng)絡(luò)中對(duì)文獻(xiàn)間差異的捕捉能力,限制了圖神經(jīng)網(wǎng)絡(luò)在復(fù)雜學(xué)術(shù)網(wǎng)絡(luò)和其他異配性強(qiáng)的引文數(shù)據(jù)中的應(yīng)用效果。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的在于提供一種混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法及系統(tǒng),提高節(jié)點(diǎn)分類的準(zhǔn)確性。
2、技術(shù)方案:為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:
3、一種混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,包括如下步驟:
4、(1)獲取網(wǎng)絡(luò)圖數(shù)據(jù)集,網(wǎng)絡(luò)圖為無(wú)向圖,節(jié)點(diǎn)具有不同屬性,表現(xiàn)為節(jié)點(diǎn)特征矩陣x。
5、(2)依混合函數(shù)自適應(yīng)地結(jié)合一階到k階鄰居信息學(xué)習(xí)新的鄰接矩陣
6、(3)利用多層感知機(jī)mlp生成節(jié)點(diǎn)的軟標(biāo)簽矩陣b,并據(jù)此計(jì)算節(jié)點(diǎn)間的類相似度矩陣s。
7、(4)利用混合多階鄰居的圖鄰接矩陣和節(jié)點(diǎn)類相似度矩陣s對(duì)節(jié)點(diǎn)特征進(jìn)行迭代更新,得到節(jié)點(diǎn)嵌入其中n為節(jié)點(diǎn)的數(shù)量,c為節(jié)點(diǎn)的分類數(shù)。
8、(5)對(duì)生成的節(jié)點(diǎn)嵌入進(jìn)行節(jié)點(diǎn)的類別預(yù)測(cè)。
9、進(jìn)一步地,所述步驟(2)求新的鄰接矩陣通過(guò)以下公式實(shí)現(xiàn):
10、
11、其中是重新學(xué)習(xí)得到的圖鄰接矩陣,表示可學(xué)習(xí)參數(shù)矩陣,θit是指θi的轉(zhuǎn)置,ai表示i階鄰居信息矩陣,i=0時(shí),a0表示單位矩陣,k表示最長(zhǎng)鄰居階級(jí),i!是指i的階乘,f表示混合函數(shù)。
12、進(jìn)一步地,所述步驟(3)中計(jì)算節(jié)點(diǎn)間類相似度矩陣的工作流程包括:
13、將圖的節(jié)點(diǎn)特征矩陣x輸入到一個(gè)預(yù)先訓(xùn)練的多層感知機(jī)mlp中,用softmax函數(shù)進(jìn)行歸一化處理,確保了每個(gè)節(jié)點(diǎn)的軟標(biāo)簽在所有類別上的概率和為1,以生成節(jié)點(diǎn)的預(yù)測(cè)類別概率,得到最終的軟標(biāo)簽矩陣?yán)玫玫降能洏?biāo)簽矩陣b,進(jìn)一步計(jì)算節(jié)點(diǎn)之間的類相似度矩陣
14、進(jìn)一步地,所述步驟(4)中節(jié)點(diǎn)嵌入z通過(guò)以下公式實(shí)現(xiàn):
15、
16、其中,z(l)是第l層的節(jié)點(diǎn)特征表示,其中z(0)=x,和是第l-1層的權(quán)重矩陣,表示的度矩陣。
17、進(jìn)一步地,所述步驟(5)在模型最終生成節(jié)點(diǎn)嵌入后,利用softmax函數(shù)進(jìn)行節(jié)點(diǎn)的類別預(yù)測(cè)。
18、進(jìn)一步地,通過(guò)最小化損失函數(shù)訓(xùn)練得到節(jié)點(diǎn)分類方法中的參數(shù),其中γ是用于平衡兩個(gè)損失項(xiàng)的超參數(shù),是節(jié)點(diǎn)vi的預(yù)測(cè)標(biāo)簽,yi∈{0,1}1×c是真實(shí)標(biāo)簽,是節(jié)點(diǎn)vi的特征向量,是訓(xùn)練集,loss(·)是交叉熵?fù)p失函數(shù)。
19、本發(fā)明還提供一種混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類系統(tǒng),包括:
20、數(shù)據(jù)采集模塊,用于獲取引文網(wǎng)絡(luò)圖數(shù)據(jù)集,引文網(wǎng)絡(luò)圖為無(wú)向圖,節(jié)點(diǎn)具有不同屬性,表現(xiàn)為節(jié)點(diǎn)特征矩陣x;
21、矩陣更新與卷積模塊,使用混合函數(shù)自適應(yīng)地結(jié)合一階到k階鄰居信息學(xué)習(xí)新的鄰接矩陣?yán)枚鄬痈兄獧C(jī)mlp生成節(jié)點(diǎn)的軟標(biāo)簽矩陣,并計(jì)算節(jié)點(diǎn)間的類相似度矩陣s;利用混合多階鄰居的圖鄰接矩陣和節(jié)點(diǎn)類相似度矩陣s對(duì)節(jié)點(diǎn)特征進(jìn)行迭代更新得到節(jié)點(diǎn)嵌入其中n為節(jié)點(diǎn)的數(shù)量,c為節(jié)點(diǎn)的分類數(shù);
22、預(yù)測(cè)模塊,對(duì)生成的節(jié)點(diǎn)嵌入進(jìn)行節(jié)點(diǎn)的類別預(yù)測(cè)。
23、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法的步驟。
24、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)和效果在于彌補(bǔ)了進(jìn)行消息傳遞帶來(lái)大量噪聲數(shù)據(jù),影響下游任務(wù)性能的不足,通過(guò)引入自適應(yīng)新鄰接矩陣以及利用mlp模型得到的類相似度矩陣。具體優(yōu)勢(shì)表現(xiàn)在:
25、(1)在異配圖中,直接相連的節(jié)點(diǎn)往往不屬于同一類別,同類節(jié)點(diǎn)一般存在于二階或者更高階,傳統(tǒng)的圖卷積神經(jīng)網(wǎng)絡(luò)使用原始鄰接矩陣進(jìn)行特征更新是聚合一階鄰居的信息,會(huì)引入噪聲數(shù)據(jù),影響節(jié)點(diǎn)分類的準(zhǔn)確性。因此,使用混合函數(shù)f自適應(yīng)構(gòu)圖模塊路徑通過(guò)考慮節(jié)點(diǎn)的一階到k階鄰居信息,以及節(jié)點(diǎn)間的潛在關(guān)系,動(dòng)態(tài)地構(gòu)建和更新鄰接矩陣;有效地整合和更新圖中的節(jié)點(diǎn)特征,以提高模型的分類性能。
26、(2)節(jié)點(diǎn)相似度計(jì)算模塊專門(mén)用于評(píng)估圖中節(jié)點(diǎn)間的相似性,幫助模型理解和處理圖中的復(fù)雜節(jié)點(diǎn)關(guān)系,尤其是在異配圖的環(huán)境中。傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)模型只關(guān)注節(jié)點(diǎn)自身的特征信息而忽視了節(jié)點(diǎn)間的豐富連接關(guān)系。混合異配圖高階鄰居卷積網(wǎng)絡(luò)模塊實(shí)現(xiàn)了節(jié)點(diǎn)特征信息與節(jié)點(diǎn)間相互關(guān)系的有效整合,提供了一種全面的節(jié)點(diǎn)分析途徑。
27、本發(fā)明針對(duì)傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)方法噪聲數(shù)據(jù)的問(wèn)題,提出一種混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類系統(tǒng)。通過(guò)兩個(gè)策略重新構(gòu)造圖的鄰接矩陣以適應(yīng)異配圖的特性:一是使用混合函數(shù)f自適應(yīng)構(gòu)圖模塊路徑通過(guò)考慮節(jié)點(diǎn)的一階到k階鄰居信息學(xué)習(xí)新的鄰接矩陣;二是利用mlp模型生成節(jié)點(diǎn)的軟標(biāo)簽矩陣,并據(jù)此計(jì)算節(jié)點(diǎn)間的類相似度矩陣。利用這兩種學(xué)習(xí)到的鄰接矩陣和類相似度矩陣進(jìn)行節(jié)點(diǎn)特征更新,以更好地適應(yīng)異配圖的特性。
1.一種混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,其特征在于,所述步驟(2)中求新的鄰接矩陣通過(guò)以下公式實(shí)現(xiàn):
3.根據(jù)權(quán)利要求1所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,其特征在于,所述步驟(3)中計(jì)算節(jié)點(diǎn)間類相似度矩陣的工作流程包括:
4.根據(jù)權(quán)利要求1所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,其特征在于,所述步驟(4)中節(jié)點(diǎn)嵌入z通過(guò)以下公式實(shí)現(xiàn):
5.根據(jù)權(quán)利要求1所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,其特征在于,所述步驟(5)中對(duì)生成的節(jié)點(diǎn)嵌入利用softmax函數(shù)進(jìn)行節(jié)點(diǎn)的類別預(yù)測(cè)。
6.根據(jù)權(quán)利要求1所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,其特征在于,通過(guò)最小化損失函數(shù)訓(xùn)練得到節(jié)點(diǎn)分類方法中的參數(shù),其中γ是用于平衡兩個(gè)損失項(xiàng)的超參數(shù),是節(jié)點(diǎn)vi的預(yù)測(cè)標(biāo)簽,yi∈{0,1}1×c是真實(shí)標(biāo)簽,是節(jié)點(diǎn)vi的特征向量,是訓(xùn)練集,loss(·)是交叉熵?fù)p失函數(shù)。
7.一種混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類系統(tǒng),其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類系統(tǒng),其特征在于,所述矩陣更新和卷積模塊中,新的鄰接矩陣通過(guò)以下公式實(shí)現(xiàn):
9.根據(jù)權(quán)利要求7所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類系統(tǒng),其特征在于,所述矩陣更新和卷積模塊中,節(jié)點(diǎn)嵌入z通過(guò)以下公式實(shí)現(xiàn):
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-6任一項(xiàng)所述的混合異配圖高階鄰居卷積網(wǎng)絡(luò)的引文網(wǎng)絡(luò)節(jié)點(diǎn)分類方法的步驟。