本發(fā)明屬于圖數(shù)據(jù)挖掘,尤其涉及一種基于上下文的多重金融關(guān)系圖欺詐節(jié)點(diǎn)檢測方法。
背景技術(shù):
1、隨著銀行業(yè)務(wù)向互聯(lián)網(wǎng)轉(zhuǎn)型的加速,線上金融服務(wù)變得日益普及,但這也為欺詐者提供了更多的機(jī)會。特別是在當(dāng)前金融欺詐呈現(xiàn)出組織化、團(tuán)伙化、隱蔽化的新趨勢下,欺詐者通過構(gòu)建復(fù)雜的金融關(guān)系網(wǎng)絡(luò),利用信息不對稱和監(jiān)管漏洞,進(jìn)行非法活動。具體來說,欺詐者可能通過控制多個賬戶或身份,在信貸、支付等金融服務(wù)中實(shí)施欺詐。他們利用關(guān)聯(lián)關(guān)系圖譜中的漏洞,建立多個緊密聯(lián)系的節(jié)點(diǎn),以隱藏真實(shí)身份和欺詐目的。例如,一些團(tuán)伙欺詐案例中,欺詐者會共享一部分信息或設(shè)備以降低成本,如使用相同的手機(jī)、ip地址或公司電話等信息,這使得他們更難以被檢測和追蹤。為了應(yīng)對這一問題,金融機(jī)構(gòu)和監(jiān)管部門需要借助先進(jìn)的技術(shù)手段,如關(guān)聯(lián)關(guān)系圖譜和智能反欺詐模型,來識別和防范欺詐風(fēng)險。通過構(gòu)建全面的風(fēng)險管理體系和高效的反欺詐機(jī)制,可以及時發(fā)現(xiàn)并處理可疑的欺詐行為,保護(hù)消費(fèi)者的合法權(quán)益和金融市場的穩(wěn)定。
2、基于圖神經(jīng)網(wǎng)絡(luò)的欺詐檢測被廣泛運(yùn)用于欺詐貸款檢測,誤導(dǎo)性評論檢測等領(lǐng)域。例如,利用基于圖神經(jīng)網(wǎng)絡(luò)的模型在淘寶平臺上識別影響商品評分的欺詐行為、識別電商借貸平臺中信用評分較低的用戶、識別評論網(wǎng)站中的虛假評論。又例如,在公司之間通過多種關(guān)聯(lián)關(guān)系建立多重金融關(guān)系圖中,檢測出現(xiàn)財務(wù)欺詐等不法現(xiàn)象的公司。在多重金融關(guān)系圖欺詐節(jié)點(diǎn)檢測問題中,一個金融機(jī)構(gòu)被看做一個節(jié)點(diǎn),機(jī)構(gòu)之間的交易關(guān)系被當(dāng)做邊,不合法的機(jī)構(gòu)屬于正類節(jié)點(diǎn),合法的機(jī)構(gòu)屬于負(fù)類節(jié)點(diǎn)。當(dāng)任意兩個滿足某種關(guān)系的節(jié)點(diǎn)之間建立連邊時,一個該關(guān)系下的關(guān)系圖就形成了。當(dāng)關(guān)系的數(shù)量超過一,就形成了多關(guān)系圖。近年來,多關(guān)系圖上的欺詐檢測吸引了廣泛的關(guān)注。
3、半監(jiān)督學(xué)習(xí)是一種介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間的機(jī)器學(xué)習(xí)方法。它利用少量的有標(biāo)簽數(shù)據(jù)和大量的無標(biāo)簽數(shù)據(jù)共同訓(xùn)練模型,旨在充分挖掘未標(biāo)注數(shù)據(jù)中潛在的信息和模式,以提高模型的性能和準(zhǔn)確性。這種方法特別適用于標(biāo)注數(shù)據(jù)有限的情況,通過結(jié)合有限的標(biāo)注資源和未標(biāo)注數(shù)據(jù)的潛力,可以在數(shù)據(jù)標(biāo)注成本較高時提高模型性能,挖掘未標(biāo)注數(shù)據(jù)中的潛在價值。半監(jiān)督學(xué)習(xí)的研究可以追溯到20世紀(jì)70年代,并隨著自然語言處理、文本分類和計算機(jī)視覺等領(lǐng)域的發(fā)展而逐漸受到重視。在欺詐檢測任務(wù)中,因?yàn)槠墼p樣本本身數(shù)量較少,并且難以發(fā)現(xiàn)并標(biāo)注,所以需要結(jié)合半監(jiān)督學(xué)習(xí)訓(xùn)練更具有泛化能力的模型。
4、目前在電商領(lǐng)域與數(shù)字貨幣交易等金融場景上雖然也出現(xiàn)了一些基于圖結(jié)構(gòu)的半監(jiān)督金融欺詐模型,這些模型卻存在著許多局限之處。對真實(shí)數(shù)據(jù)分布不符合實(shí)際情況的假設(shè),以及有待提升的運(yùn)行速度與分類性能,這些都是值得我們改進(jìn)的方向。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于提供一種基于上下文的多重金融關(guān)系圖欺詐節(jié)點(diǎn)檢測方法,以解決現(xiàn)有技術(shù)中金融欺詐模型存在的局限性及數(shù)據(jù)分析不合理,分析速度慢的技術(shù)問題。
2、為解決上述技術(shù)問題,本發(fā)明的具體技術(shù)方案如下:
3、一種基于上下文的多重金融關(guān)系圖欺詐節(jié)點(diǎn)檢測方法,包括如下步驟:
4、步驟s1:基于金融領(lǐng)域數(shù)據(jù)構(gòu)建的圖結(jié)構(gòu)數(shù)據(jù)集預(yù)處理:在每個關(guān)系圖內(nèi),將節(jié)點(diǎn)在此關(guān)系圖下的鄰居劃分為5個集合,分別為:一階已知標(biāo)簽的正類節(jié)點(diǎn)集,一階已知標(biāo)簽的負(fù)類節(jié)點(diǎn)集,二階已知標(biāo)簽的正類節(jié)點(diǎn)集,二階已知標(biāo)簽的負(fù)類節(jié)點(diǎn)集,二階未知標(biāo)簽的節(jié)點(diǎn)集;對每個鄰域節(jié)點(diǎn)集合進(jìn)行特征池化后,組合得到該節(jié)點(diǎn)的鄰域池化特征矩陣;
5、步驟s2:為每個節(jié)點(diǎn)計算全局上下文特征:利用鄰域平均特征矩陣和注意力機(jī)制為每個節(jié)點(diǎn)生成全局上下文特征;
6、步驟s3:在每個關(guān)系圖內(nèi),利用全局上下文特征計算邊的權(quán)重,過濾掉噪聲邊:利用連邊兩側(cè)節(jié)點(diǎn)的原始特征與全局上下文特征,計算連邊的權(quán)重;
7、步驟s4:在每個關(guān)系圖內(nèi),在過濾噪聲邊之后,為每個節(jié)點(diǎn)計算該關(guān)系圖下的語義特征;
8、步驟s5:將節(jié)點(diǎn)自身特征,節(jié)點(diǎn)的全局上下文特征,節(jié)點(diǎn)在任意關(guān)系圖下的語義特征橫向拼接,通過多層感知機(jī)得到節(jié)點(diǎn)的最終特征表示;
9、步驟s6:利用交叉熵?fù)p失反向傳播,更新所有可訓(xùn)練參數(shù)來訓(xùn)練模型:預(yù)測節(jié)點(diǎn)是正類節(jié)點(diǎn)或負(fù)類節(jié)點(diǎn)的概率;結(jié)合概率與真實(shí)標(biāo)簽計算損失函數(shù),通過梯度反向傳播更新參數(shù)訓(xùn)練模型;
10、步驟s7:使用訓(xùn)練的模型檢測欺詐節(jié)點(diǎn)。
11、進(jìn)一步地,步驟s1中,
12、數(shù)據(jù)集為圖結(jié)構(gòu)數(shù)據(jù)其中為節(jié)點(diǎn)集合,為所有節(jié)點(diǎn)的原始特征組成的矩陣,n表示節(jié)點(diǎn)數(shù)量,s表示原始特征的維度數(shù)量。為邊集,εr是在指定關(guān)系類型為r下的連邊集合,是所有節(jié)點(diǎn)的標(biāo)簽集合。通常用表示圖中第i個節(jié)點(diǎn),為此節(jié)點(diǎn)的標(biāo)簽;在圖結(jié)構(gòu)g中,節(jié)點(diǎn)的類型一致,邊的類型多樣,并且節(jié)點(diǎn)的類別為兩類,兩類節(jié)點(diǎn)的數(shù)量存在嚴(yán)重的不平衡。對于節(jié)點(diǎn)vi,在關(guān)系r的圖中鄰居可以劃分為:一階已知標(biāo)簽的正類節(jié)點(diǎn)集一階已知標(biāo)簽的負(fù)類節(jié)點(diǎn)集二階已知標(biāo)簽的正類節(jié)點(diǎn)集二階已知標(biāo)簽的負(fù)類節(jié)點(diǎn)集二階未知標(biāo)簽的節(jié)點(diǎn)集對節(jié)點(diǎn)vi所有關(guān)系圖下所有鄰居節(jié)點(diǎn)集合內(nèi)節(jié)點(diǎn)特征進(jìn)行平均池化,組合后得到第i個節(jié)點(diǎn)vi的鄰域池化特征矩陣r表示關(guān)系圖的種類總數(shù)。
13、進(jìn)一步地,步驟s2中全局上下文特征通過以下方式計算:
14、
15、其中表示第i個節(jié)點(diǎn)的全局上下文特征;atti,j表示第i個節(jié)點(diǎn)和第j個鄰域之間的權(quán)重。exp(·)是應(yīng)用到數(shù)值e上的指數(shù)函數(shù);表示第i個節(jié)點(diǎn)的鄰域池化特征矩陣,e表示標(biāo)準(zhǔn)正態(tài)分布權(quán)重矩陣,用于區(qū)分不同類型的鄰域節(jié)點(diǎn)集合;與si相加后得到表示鄰域被區(qū)分后的第i個節(jié)點(diǎn)的鄰域池化特征矩陣;是經(jīng)過e區(qū)分后,第i個節(jié)點(diǎn)在第j個鄰域得到的鄰域池化特征矩陣,由中截取指定維度特征得到;xi是第i個節(jié)點(diǎn)的原始特征,wq,wk,wv都是可訓(xùn)練權(quán)重矩陣,qi是xi在wq映射空間下的特征,ki,j是在wk映射空間下的特征,vi,j是在wv映射空間下的特征。
16、進(jìn)一步地,步驟s3中連邊的權(quán)重通過以下方式計算:
17、
18、其中ww是可訓(xùn)練權(quán)重矩陣,xi是第i個節(jié)點(diǎn)vi的原始特征,是節(jié)點(diǎn)vi的全局上下文特征,xj是第j個節(jié)點(diǎn)vj的原始特征,是節(jié)點(diǎn)vj的全局上下文特征。convat(·)是拼接函數(shù),表示將xi,xj,這四個向量橫向拼接。sigmoid(·)是激活函數(shù),計算公式為wi,j是節(jié)點(diǎn)vi和節(jié)點(diǎn)vj之間的權(quán)重,取值范圍在0到1之間。
19、進(jìn)一步地,步驟s4中語義特征通過以下方式計算:
20、
21、其中是節(jié)點(diǎn)vi在關(guān)系為r的圖上提取到的語義特征。nr(vi)表示節(jié)點(diǎn)vi在關(guān)系為r的圖上的鄰居集合,nr(vj)表示節(jié)點(diǎn)vj在關(guān)系為r的圖上的鄰居集合,wi,j是節(jié)點(diǎn)vi和節(jié)點(diǎn)vj之間的權(quán)重,wi,k表示節(jié)點(diǎn)vi和節(jié)點(diǎn)vk之間的權(quán)重,wj,k表示節(jié)點(diǎn)vj和節(jié)點(diǎn)vk之間的權(quán)重,xj表示第j個節(jié)點(diǎn)的原始特征,wr是可訓(xùn)練的權(quán)重矩陣。用于表示節(jié)點(diǎn)vi的重要性程度,用于表示節(jié)點(diǎn)vj的重要性程度。
22、進(jìn)一步地,步驟s5中最終特征表示通過以下方式計算:
23、
24、其中wc是權(quán)重矩陣,zi是第i個節(jié)點(diǎn)的最終特征表示。
25、進(jìn)一步地,步驟s6中,將節(jié)點(diǎn)的最終特征表示經(jīng)過特征映射后預(yù)測節(jié)點(diǎn)是正類節(jié)點(diǎn)或負(fù)類節(jié)點(diǎn)的概率,通過以下方式計算:
26、
27、其中是第i個節(jié)點(diǎn)的預(yù)測概率分布,w1,w2是權(quán)重矩陣,b1,b2是偏置,w1,w2,b1,b2都屬于可訓(xùn)練參數(shù)。σ(·)是激活函數(shù),選擇relu激活函數(shù)。relu(x)=max(x,0);
28、結(jié)合概率與真實(shí)標(biāo)簽計算損失函數(shù),通過梯度反向傳播更新參數(shù)訓(xùn)練模型,分類任務(wù)的損失函數(shù)通過如下公式計算:
29、
30、vtrain代表訓(xùn)練集中所有節(jié)點(diǎn)的集合,yi是第i個節(jié)點(diǎn)的真實(shí)標(biāo)簽,是第i個節(jié)點(diǎn)的預(yù)測概率分布,是模型中所有涉及的可訓(xùn)練參數(shù)的l2范數(shù)之和,用于約束模型防止過度訓(xùn)練導(dǎo)致過擬合。α是一個超參數(shù),取值范圍正數(shù);
31、通過損失函數(shù)對模型中的可訓(xùn)練參數(shù)求導(dǎo),經(jīng)過多次梯度更新得到有效的模型。
32、相對于現(xiàn)有技術(shù),本發(fā)明具有以下有益技術(shù)效果:
33、1.相較于現(xiàn)有方法,本發(fā)明在數(shù)據(jù)預(yù)處理階段對所有節(jié)點(diǎn)的鄰域特征分類并池化處理,這種處理方式使得模型在針對正負(fù)樣本特征分布空間接近的特殊情況,也能通過全局上下文特征有效學(xué)習(xí)兩類節(jié)點(diǎn)特征的差異。相較于現(xiàn)有的基于節(jié)點(diǎn)原有特征區(qū)分兩類節(jié)點(diǎn)的方法,本發(fā)明在使用了少量的參數(shù)的情況下有效的學(xué)習(xí)到了全新的具有區(qū)分性的特征,利用全局上下文特征,可以提升在某些數(shù)據(jù)集上的欺詐節(jié)點(diǎn)識別效果。
34、2.相較于現(xiàn)有方法,本發(fā)明利用不同關(guān)系圖的共同之處來指導(dǎo)在不同關(guān)系圖下的特征學(xué)習(xí),計算任意邊的權(quán)重。針對不同關(guān)系圖內(nèi)不同的噪聲邊比例,以往的方法試圖利用節(jié)點(diǎn)特征差異來區(qū)分噪聲邊,然而這種方法僅僅適用于假設(shè)——不同類別節(jié)點(diǎn)的特征差異大的情況。本發(fā)明利用學(xué)習(xí)得到的全局上下文特征,可以有效的區(qū)分并識別噪聲邊,實(shí)現(xiàn)更優(yōu)秀的噪聲邊過濾效果。
35、3.相較于現(xiàn)有方法,本發(fā)明具有較高的運(yùn)算效率和分類性能,在多個數(shù)據(jù)集中均表現(xiàn)出比基線模型更好的性能和更快的運(yùn)行速度。