本發(fā)明涉及圖對(duì)比學(xué)習(xí),具體而言,涉及一種基于宏微觀消息傳遞進(jìn)行圖對(duì)比學(xué)習(xí)的同異配網(wǎng)絡(luò)節(jié)點(diǎn)分類方法、系統(tǒng)及介質(zhì)。
背景技術(shù):
1、圖對(duì)比學(xué)習(xí)作為一種面向圖數(shù)據(jù)的自監(jiān)督表示學(xué)習(xí)方法,近年來在降低對(duì)昂貴且耗時(shí)的標(biāo)注數(shù)據(jù)依賴方面取得了顯著進(jìn)展。該技術(shù)的核心思想是通過最大化正樣本對(duì)的相似性與負(fù)樣本對(duì)的差異性,構(gòu)建對(duì)比損失函數(shù),從而學(xué)習(xí)到有效的節(jié)點(diǎn)或圖的表示。通常,圖對(duì)比學(xué)習(xí)包括三個(gè)主要步驟:視圖增強(qiáng)、視圖編碼和對(duì)比訓(xùn)練。已有研究通過開發(fā)新的數(shù)據(jù)增強(qiáng)或模型增強(qiáng)策略,以及優(yōu)化對(duì)比目標(biāo),顯著提升了圖對(duì)比學(xué)習(xí)在節(jié)點(diǎn)分類等下游圖任務(wù)中的表現(xiàn)。
2、盡管現(xiàn)有的圖對(duì)比學(xué)習(xí)方法在同配網(wǎng)絡(luò)上表現(xiàn)優(yōu)異,但由于其在視圖編碼過程中普遍依賴圖神經(jīng)網(wǎng)絡(luò)(gnn)編碼器,而這些編碼器通常基于同質(zhì)性假設(shè),導(dǎo)致這些方法在處理異配網(wǎng)絡(luò)時(shí)效果較差。所謂同質(zhì)性假設(shè),指的是具有相同標(biāo)簽的節(jié)點(diǎn)往往會(huì)緊密相連,而在異配網(wǎng)絡(luò)中這一假設(shè)往往不成立,導(dǎo)致現(xiàn)有方法難以適應(yīng)異配網(wǎng)絡(luò)的特性。例如,社交網(wǎng)絡(luò)通常具有同質(zhì)性,個(gè)人往往基于相同的興趣或背景建立聯(lián)系;而在蛋白質(zhì)結(jié)構(gòu)圖中,不同類型的氨基酸往往會(huì)連接在一起,表現(xiàn)出異質(zhì)性。這一假設(shè)在一定程度上限制了消息傳遞的方向(宏觀層面)和方式(微觀層面),削弱了圖對(duì)比學(xué)習(xí)處理異配圖的性能。
3、具體來說,在宏觀層面,同配網(wǎng)絡(luò)主要依賴結(jié)構(gòu)鄰居進(jìn)行消息傳遞,而異配網(wǎng)絡(luò)則更依賴基于節(jié)點(diǎn)特征相似性的特征鄰居。然而,大多數(shù)現(xiàn)有方法未能充分認(rèn)識(shí)到這一差異,仍然使用結(jié)構(gòu)鄰居來處理異配網(wǎng)絡(luò),導(dǎo)致效果不佳。微觀層面上,傳統(tǒng)gnn將節(jié)點(diǎn)自身作為鄰居進(jìn)行特征傳播,但這種將節(jié)點(diǎn)自身與鄰居等同處理的方式難以適應(yīng)異配網(wǎng)絡(luò)的特性,因?yàn)樵诋惻渚W(wǎng)絡(luò)中,節(jié)點(diǎn)與鄰居之間的特征差異往往較大。盡管一些研究嘗試通過多樣化高階鄰居聚合策略來解決這一問題,但這些方法通常會(huì)增加算法復(fù)雜性,并可能削弱對(duì)同配網(wǎng)絡(luò)的處理能力。
4、綜上所述,盡管已有工作致力于提升圖對(duì)比學(xué)習(xí)在同異配網(wǎng)絡(luò)中的表現(xiàn),但由于對(duì)這兩類網(wǎng)絡(luò)在消息傳遞的宏觀方向和微觀方式上的差異認(rèn)識(shí)不足,現(xiàn)有方法在計(jì)算成本和實(shí)際效果方面仍存在局限。因此,開發(fā)一種更加高效的圖對(duì)比學(xué)習(xí)方法,鼓勵(lì)模型充分學(xué)習(xí)同異配網(wǎng)絡(luò)的重要特征,提高圖對(duì)比學(xué)習(xí)在圖下游任務(wù)例如節(jié)點(diǎn)分類上的性能,已成為當(dāng)前領(lǐng)域中亟待解決的問題之一。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對(duì)同質(zhì)性假設(shè)對(duì)同異配網(wǎng)絡(luò)節(jié)點(diǎn)分類任務(wù)的影響,提出了一種基于宏微觀消息傳遞進(jìn)行圖對(duì)比學(xué)習(xí)的同異配網(wǎng)絡(luò)節(jié)點(diǎn)分類方法、系統(tǒng)及介質(zhì)。
2、本發(fā)明的目的是通過下述技術(shù)方案實(shí)現(xiàn)的:
3、第一方面,提供了一種基于宏微觀消息傳遞進(jìn)行圖對(duì)比學(xué)習(xí)的同異配網(wǎng)絡(luò)節(jié)點(diǎn)分類方法,包括以下步驟:
4、s1:基于原始圖其中a是鄰接矩陣,x是節(jié)點(diǎn)特征矩陣,計(jì)算節(jié)點(diǎn)特征之間的余弦距離,構(gòu)建基于節(jié)點(diǎn)特征相似度的k近鄰圖;
5、s2:對(duì)原始圖和k近鄰圖分別進(jìn)行隨機(jī)連邊去除的視圖增強(qiáng)操作,生成相應(yīng)的結(jié)構(gòu)視圖vstr和特征視圖vatt;
6、s3:根據(jù)原始圖的邊同質(zhì)性比率hedge確定網(wǎng)絡(luò)同異配類型,然后定義同配網(wǎng)絡(luò)的優(yōu)先視圖vp是結(jié)構(gòu)視圖vstr,輔助視圖vs是特征視圖vatt;異配網(wǎng)絡(luò)的優(yōu)先視圖vp是特征視圖vatt,輔助視圖vs是結(jié)構(gòu)視圖vstr;
7、s4:使用兩個(gè)獨(dú)立的asp-sgc編碼器分別對(duì)優(yōu)先視圖vp和輔助視圖vs進(jìn)行優(yōu)輔視圖對(duì)齊編碼,得到優(yōu)先視圖編碼后的節(jié)點(diǎn)表示hp和輔助視圖對(duì)齊編碼后的節(jié)點(diǎn)表示hsa;
8、s5:基于節(jié)點(diǎn)表示hp和hsa,定義錨節(jié)點(diǎn)vi的正負(fù)樣本對(duì),構(gòu)造infonce對(duì)比損失函數(shù),通過該損失函數(shù)對(duì)模型的節(jié)點(diǎn)嵌入表示進(jìn)行優(yōu)化訓(xùn)練。
9、s6:將優(yōu)化后的節(jié)點(diǎn)嵌入表示輸入邏輯回歸節(jié)點(diǎn)分類器,進(jìn)行訓(xùn)練和評(píng)估。
10、作為優(yōu)選,s1中,節(jié)點(diǎn)特征之間的余弦距離計(jì)算公式為:
11、
12、其中xi和xj分別為節(jié)點(diǎn)vi和vj之間的特征向量,根據(jù)余弦距離計(jì)算結(jié)果,為每個(gè)節(jié)點(diǎn)選取k個(gè)最近鄰節(jié)點(diǎn)并添加相應(yīng)的連邊,構(gòu)建基于節(jié)點(diǎn)特征相似度的k近鄰圖。
13、作為優(yōu)選,s3中,衡量網(wǎng)絡(luò)同質(zhì)性水平的邊同質(zhì)性比率hedge計(jì)算公式為:
14、
15、若則為異配網(wǎng)絡(luò),若則為同配網(wǎng)絡(luò)。
16、作為優(yōu)選,s4中,asp-sgc編碼器利用適應(yīng)性自傳播策略,將節(jié)點(diǎn)自環(huán)特征傳播分解為鄰居同化傳播和自獨(dú)立傳播:
17、
18、其中第一項(xiàng)(1-ω)h(k)表示自獨(dú)立傳播部分,它強(qiáng)調(diào)自環(huán)特征傳播的獨(dú)立性而不依賴于鄰居節(jié)點(diǎn)特征;第二項(xiàng)表示鄰居同化傳播部分,此時(shí)自環(huán)充當(dāng)鄰居角色進(jìn)行特征傳播;k表示第k層的節(jié)點(diǎn)表示h(k),ω是自獨(dú)立傳播的權(quán)重系數(shù),θ是可訓(xùn)練的權(quán)重矩陣。
19、作為優(yōu)選,s4中,首先使用優(yōu)先視圖vp和輔助視圖vs各自的asp-sgc編碼器編碼相應(yīng)的視圖,得到節(jié)點(diǎn)表示hp和hs;然后利用輔助視圖的asp-sgc編碼器從全局角度編碼優(yōu)先視圖vp,并將其與輔助視圖的初始節(jié)點(diǎn)表示vs相加,生成對(duì)齊后的輔助視圖最終節(jié)點(diǎn)表示hsa:
20、
21、作為優(yōu)選,s5中,定義錨節(jié)點(diǎn)vi的正樣本對(duì)為負(fù)樣本對(duì)包括以及構(gòu)建infonce對(duì)比損失為:
22、
23、其中τ是溫度參數(shù),s(·)是余弦相似度。
24、第二方面,提供了一種基于宏微觀消息傳遞進(jìn)行圖對(duì)比學(xué)習(xí)的同異配網(wǎng)絡(luò)節(jié)點(diǎn)分類系統(tǒng),用于執(zhí)行第一方面任一所述的基于宏微觀消息傳遞提升同異配網(wǎng)絡(luò)節(jié)點(diǎn)分類性能的圖對(duì)比學(xué)習(xí)方法,包括以下模塊:
25、鄰域擴(kuò)展模塊,用于生成k近鄰圖,豐富節(jié)點(diǎn)之間消息傳遞的方向;
26、增強(qiáng)視圖生成模塊,用于生成對(duì)比學(xué)習(xí)所需的增強(qiáng)視圖;
27、視圖角色定義模塊,用于根據(jù)網(wǎng)絡(luò)的同異配性質(zhì)確定結(jié)構(gòu)視圖和特征視圖的優(yōu)先或輔助角色;
28、優(yōu)輔視圖對(duì)齊編碼模塊,用于對(duì)優(yōu)先視圖和輔助視圖分別進(jìn)行編碼并對(duì)齊,獲取節(jié)點(diǎn)在不同視圖下的嵌入表示;
29、對(duì)比訓(xùn)練模塊,用于利用對(duì)比損失函數(shù)對(duì)節(jié)點(diǎn)嵌入表示進(jìn)行優(yōu)化;
30、節(jié)點(diǎn)分類模塊,用于利用優(yōu)化后的節(jié)點(diǎn)嵌入表示進(jìn)行節(jié)點(diǎn)分類任務(wù)的訓(xùn)練與評(píng)估。
31、第三方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序;所述計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行第一方面任一所述的基于宏微觀消息傳遞提升同異配網(wǎng)絡(luò)節(jié)點(diǎn)分類性能的圖對(duì)比學(xué)習(xí)方法。
32、本發(fā)明與現(xiàn)有技術(shù)相比,具有以下有益效果:
33、(1)本發(fā)明通過集成宏觀與微觀消息傳遞策略,提出了一種新的圖對(duì)比學(xué)習(xí)框架,顯著提升了圖對(duì)比學(xué)習(xí)在同配與異配網(wǎng)絡(luò)中的表現(xiàn),增強(qiáng)了模型在節(jié)點(diǎn)分類任務(wù)中的性能和泛化能力;
34、(2)本發(fā)明在宏觀層面上,通過采用結(jié)構(gòu)視圖和特征視圖相結(jié)合的優(yōu)輔視圖對(duì)齊編碼策略,有效克服了現(xiàn)有技術(shù)在異配網(wǎng)絡(luò)中消息傳遞不充分的問題,增強(qiáng)了模型對(duì)不同同質(zhì)性水平網(wǎng)絡(luò)的適應(yīng)能力;
35、(3)本發(fā)明在微觀層面上,通過適應(yīng)性自傳播策略優(yōu)化了編碼器設(shè)計(jì),靈活處理節(jié)點(diǎn)自環(huán)在特征傳播中的角色,使節(jié)點(diǎn)特征在傳播過程中更加細(xì)致準(zhǔn)確;
36、(4)本發(fā)明在減少計(jì)算復(fù)雜度的同時(shí),提升了節(jié)點(diǎn)表示的質(zhì)量,尤其在處理異配網(wǎng)絡(luò)時(shí)表現(xiàn)優(yōu)異。