欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種突發(fā)事件識別模型訓(xùn)練方法、識別方法及裝置

文檔序號:40612010發(fā)布日期:2025-01-07 20:56閱讀:8來源:國知局
一種突發(fā)事件識別模型訓(xùn)練方法、識別方法及裝置

本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種突發(fā)事件識別模型訓(xùn)練方法、識別方法及裝置。


背景技術(shù):

1、深度學(xué)習(xí)模型的效果與數(shù)據(jù)的質(zhì)與量是高度相關(guān)的。模型可以從高質(zhì)量有代表性的數(shù)據(jù)中心學(xué)習(xí)有用的知識。但是,高質(zhì)量的數(shù)據(jù)通常掌握在眾多公司、組織與設(shè)備中,由于隱私、法規(guī)與利益等因素,這些數(shù)據(jù)不能在各方自由流動,難以集中起來訓(xùn)練模型。

2、近年來,圖神經(jīng)網(wǎng)絡(luò)(gnns)由于其強大復(fù)雜圖結(jié)構(gòu)數(shù)據(jù)的建模能力,以及被廣泛地應(yīng)用于社交網(wǎng)絡(luò)、交通建模、推薦系統(tǒng)和藥物發(fā)現(xiàn)等領(lǐng)域。與其他領(lǐng)域的機(jī)器學(xué)習(xí)任務(wù)類似,訓(xùn)練性能良好的圖神經(jīng)網(wǎng)絡(luò)模型不僅要求其訓(xùn)練數(shù)據(jù)足夠,而且要求這些數(shù)據(jù)滿足獨立同分布。而在現(xiàn)實中,數(shù)據(jù)所有者局限于自身領(lǐng)域,無法觀察到全局分布,通常收集的有限和有偏差的圖。為了提高模型的泛化性能,需要多方的協(xié)同訓(xùn)練。但數(shù)據(jù)存儲在本地數(shù)據(jù)所有者中,且由于數(shù)據(jù)隱私問題,無法通過客戶端間直接傳遞數(shù)據(jù)進(jìn)行集中式訓(xùn)練。聯(lián)邦學(xué)習(xí)(fl)旨在訓(xùn)練數(shù)據(jù)分布在多個局部系統(tǒng)中的機(jī)器學(xué)習(xí)模型,以解決信息孤島問題。聯(lián)邦學(xué)習(xí)在不需要共享任何原始數(shù)據(jù)的情況下提高協(xié)同訓(xùn)練模型的性能和泛化能力方面顯示出其優(yōu)勢。例如,在計算機(jī)視覺(cv)和自然語言處理(nlp)中設(shè)計了fl,允許在單獨存儲的圖像和文本數(shù)據(jù)集上聯(lián)合訓(xùn)練強大且可泛化的深度卷積神經(jīng)網(wǎng)絡(luò)和語言模型。

3、現(xiàn)有技術(shù)中,針對社交平臺中突發(fā)事件的識別是基于圖神經(jīng)網(wǎng)絡(luò)對社交平臺中產(chǎn)生的圖數(shù)據(jù)節(jié)點進(jìn)行語義表達(dá)并進(jìn)一步做分類識別實現(xiàn)的,但是社交平臺存在圖數(shù)據(jù)異質(zhì)問題?,F(xiàn)有圖聯(lián)邦學(xué)習(xí)算法提出了大量關(guān)于圖數(shù)據(jù)異質(zhì)問題的解決方案,主要包括基于模型插值、對局部損失添加正則項約束、元學(xué)習(xí)等方法提高局部模型的自適應(yīng)能力或者學(xué)習(xí)一個強大的全局聯(lián)邦模型。而這些聯(lián)邦圖學(xué)習(xí)方法大多只考慮了節(jié)點特征的偏差,對于圖數(shù)據(jù)特有的圖結(jié)構(gòu)差異缺乏深入研究?,F(xiàn)有圖神經(jīng)網(wǎng)絡(luò)通常依賴于假設(shè)原始圖結(jié)構(gòu)是高質(zhì)量的,然而,在實現(xiàn)數(shù)據(jù)中的圖結(jié)構(gòu)不可避免地存在噪聲,并且會對下游任務(wù)存在負(fù)面影響,因此,繼續(xù)一種新的方案以解決在社交平臺突發(fā)事件識別時圖數(shù)據(jù)異質(zhì)以及圖結(jié)構(gòu)存在噪音產(chǎn)生的影響。


技術(shù)實現(xiàn)思路

1、鑒于此,本發(fā)明實施例提供了一種突發(fā)事件識別模型訓(xùn)練方法、識別方法及裝置,以消除或改善現(xiàn)有技術(shù)中存在的一個或更多個缺陷,消除現(xiàn)有技術(shù)識別突發(fā)事件時由于圖數(shù)據(jù)異質(zhì)和圖結(jié)構(gòu)噪音產(chǎn)生的影響。

2、本發(fā)明的一個方面提供了一種基于聯(lián)邦圖結(jié)構(gòu)學(xué)習(xí)的突發(fā)事件識別模型訓(xùn)練方法,所述方法基于一個全局服務(wù)器和多個客戶端執(zhí)行,該方法包括以下步驟:

3、由各客戶端通過設(shè)定社交平臺獲取本地的突發(fā)事件文本數(shù)據(jù),所述突發(fā)事件文本數(shù)據(jù)的關(guān)鍵詞包括用戶信息、用戶發(fā)布的文本、事件類型、話題標(biāo)識、點贊轉(zhuǎn)發(fā)關(guān)系、時間地點要素和所述關(guān)鍵詞之間的共現(xiàn)關(guān)系,根據(jù)所述突發(fā)事件文本數(shù)據(jù)構(gòu)建事件異質(zhì)圖,根據(jù)所述事件異質(zhì)圖中的元路徑,將所述事件異質(zhì)圖轉(zhuǎn)化為基于文本的同質(zhì)圖,得到各客戶端的孤立子圖;

4、各客戶端利用本地的所述孤立子圖獨立訓(xùn)練基于圖神經(jīng)網(wǎng)絡(luò)的本地分類器,并由所述全局服務(wù)器根據(jù)各客戶端的本地分類器進(jìn)行聚合,最小化聚合風(fēng)險進(jìn)行參數(shù)優(yōu)化得到全局分類器;

5、利用隨機(jī)塊模型抽取各客戶端的所述孤立子圖的局部圖結(jié)構(gòu)信息,并進(jìn)行聚合;在客戶端重建帶有全局信息的重建局部圖;

6、基于知識蒸餾的方式,最小化各客戶端對應(yīng)所述孤立子圖和所述重建局部圖通過所述全局分類器的表征差異,對所述全局分類器進(jìn)行去偏參數(shù)優(yōu)化;以及,將所述重建局部圖作為增強視圖,基于對比學(xué)習(xí)的方式,以各客戶端中所述孤立子圖和所述增強視圖中對應(yīng)節(jié)點的表征為正樣本,非對應(yīng)節(jié)點間的表征為負(fù)樣本,通過約束正負(fù)樣本表示距離,對所述全局分類器進(jìn)行參數(shù)優(yōu)化,得到所述突發(fā)事件識別模型。

7、在一些實施例中,所述同質(zhì)圖采用文本嵌入模型bert進(jìn)行初始表示。

8、在一些實施例中,最小化聚合風(fēng)險進(jìn)行參數(shù)優(yōu)化得到全局分類器,包括:

9、將問題形式轉(zhuǎn)化為尋找最小化聚合風(fēng)險的所述全局分類器參數(shù)θ*,表達(dá)式為:

10、

11、其中,f表示所述全局分類器,r表示所述聚合風(fēng)險,m表示所述客戶端的數(shù)量,fi(θ)表示第i個客戶端的所述本地分類器在參數(shù)θ下的分類結(jié)果;為第i個客戶端的經(jīng)驗損失函數(shù),表達(dá)式為:

12、

13、其中,l表示合頁損失函數(shù),|vi|表示第i個客戶端的所述孤立子圖的節(jié)點數(shù)量,表示第i個客戶端的所述本地分類器在參數(shù)θ下,對其孤立子圖中第v個節(jié)點的分類結(jié)果;yv表示孤立子圖中第v個節(jié)點的事件類型。

14、在一些實施例中,利用隨機(jī)塊模型抽取各客戶端的所述孤立子圖的局部圖結(jié)構(gòu)信息,并進(jìn)行聚合;在客戶端重建帶有全局信息的重建局部圖,包括:

15、假設(shè)所述客戶端中原始孤立子圖的n個節(jié)點可以分為k個社區(qū),每個節(jié)點i屬于一個社區(qū)zi;

16、定義一個k×k的矩陣ω,ωab表示社區(qū)a和社區(qū)b的連接概率;

17、設(shè)社區(qū)ci的節(jié)點vi和社區(qū)cj的節(jié)點vj之間存在一條邊的概率為并基于決定節(jié)點vi與節(jié)點vj是否有連接,給定ω、預(yù)測結(jié)果z和標(biāo)簽y,生成所述重建局部圖a的概率形式化為:

18、

19、其中,p(a|ω,z,y)表示邊的概率,aij表示節(jié)點vi和節(jié)點vj的連接概率;表示標(biāo)注集,yi為節(jié)點vi標(biāo)注的事件分類,zi為對節(jié)點vi預(yù)測的事件分類;ci表示對節(jié)點vi重建過程中確定的事件分類;

20、在一些實施例中,所述方法還包括:

21、將原始的所述孤立子圖與節(jié)點特征輸入至預(yù)訓(xùn)練的所述全局分類器的圖神經(jīng)網(wǎng)絡(luò)中,利用第i層節(jié)點hi構(gòu)造k近鄰圖作為觀測值oi,并形成觀測集o={a,o0,…,ol};

22、將所述觀測集o、節(jié)點的分類識別結(jié)果z和標(biāo)簽y放入圖估計器中,計算所述觀測集o的觀測概率,表達(dá)式為:

23、

24、式中,eij表示觀測集中節(jié)點i和j間邊出現(xiàn)的次數(shù),m表示觀測樣本的總數(shù);α表示真陽概率,即一個邊同時出現(xiàn)在觀測集和實際最優(yōu)圖結(jié)構(gòu)g*中的概率;β表示假陽概率,即一個邊不在最優(yōu)圖結(jié)構(gòu)但被觀測到的概率;

25、基于貝葉斯公式的最優(yōu)圖結(jié)構(gòu)g*概率表示為:

26、

27、其中,p(ω)表示社區(qū)矩陣概率;p(g*|ω,z,yl)表示圖生成概率分布,p(o,z,yl)表示觀測數(shù)據(jù)的概率,p(α)表示變量α的概率,p(β)表示變量β的概率;

28、通過期望最大化算法估計社區(qū)鄰接矩陣q,通過對各客戶端q的加權(quán)實現(xiàn)結(jié)構(gòu)信息的聚合,最后通過公式估計客戶端圖節(jié)點的鏈接概率,通過設(shè)置閾值∈估計全局視角下的局部圖結(jié)構(gòu)s。

29、在一些實施例中,最小化各客戶端對應(yīng)所述孤立子圖和所述重建局部圖通過所述全局分類器的表征差異,對所述全局分類器進(jìn)行去偏參數(shù)優(yōu)化中,所述表征差異采用均方誤差或kl散度。

30、在一些實施例中,通過約束正負(fù)樣本表示距離,對所述全局分類器進(jìn)行參數(shù)優(yōu)化,包括:

31、構(gòu)建對比損失對所述全局分類器進(jìn)行參數(shù)優(yōu)化,所述對比損失表達(dá)式為:

32、

33、其中,zl,i表示所述客戶端原始孤立子圖中第i個節(jié)點信息,zg,i表示所述客戶端的增強視圖中第i個節(jié)點信息,zg,j表示所述客戶端的增強視圖中第j個節(jié)點信息;τ表示溫度系數(shù),sim表示余弦相似度。

34、另一方面,本發(fā)明還提供一種基于聯(lián)邦圖結(jié)構(gòu)學(xué)習(xí)的突發(fā)事件識別方法,所述方法包括如下步驟:

35、通過設(shè)定社交平臺獲取待處理突發(fā)事件文本數(shù)據(jù),所述待處理突發(fā)事件文本數(shù)據(jù)的關(guān)鍵詞包括用戶信息、用戶發(fā)布的文本、事件類型、話題標(biāo)識、點贊轉(zhuǎn)發(fā)關(guān)系和時間地點要素;根據(jù)所述關(guān)鍵詞之間的共現(xiàn)關(guān)系構(gòu)建待處理事件異質(zhì)圖,根據(jù)所述待處理事件異質(zhì)圖中的元路徑,將所述待處理事件異質(zhì)圖轉(zhuǎn)化為基于文本的待處理同質(zhì)圖;

36、將所述待處理同質(zhì)圖輸入上述基于聯(lián)邦圖結(jié)構(gòu)學(xué)習(xí)的突發(fā)事件識別模型訓(xùn)練方法中的突發(fā)事件識別模型,并輸出所述待處理同質(zhì)圖中各節(jié)點的突發(fā)事件識別結(jié)果;其中,所述突發(fā)事件識別模型通過圖神經(jīng)網(wǎng)絡(luò)對各節(jié)點進(jìn)行語義表示后,采用k-mean聚類算法進(jìn)行聚類和識別突發(fā)事件類型。

37、另一方面,本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序/指令,該計算機(jī)程序/指令被處理器執(zhí)行時實現(xiàn)上述方法的步驟。

38、另一方面,本發(fā)明還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序/指令,該計算機(jī)程序/指令被處理器執(zhí)行時實現(xiàn)上述方法的步驟。

39、本發(fā)明的有益效果至少是:

40、本發(fā)明所述突發(fā)事件識別模型訓(xùn)練方法、識別方法及裝置,基于聯(lián)邦學(xué)習(xí)的架構(gòu)預(yù)訓(xùn)練全局分類器,通過隨機(jī)塊模型對各客戶端的局部圖抽取對局部結(jié)構(gòu)信息并聚合,重建帶有全局信息的局部視圖,通過知識蒸餾的方式,利用帶有全局信息的局部視圖指導(dǎo)局部視角下的模型優(yōu)化訓(xùn)練,最小化兩個圖結(jié)構(gòu)下的表示差異;利用對比學(xué)習(xí)方法,通過對圖數(shù)據(jù)進(jìn)行擾動和擴(kuò)充,構(gòu)建增強視圖,并選取原圖和增強試圖中對應(yīng)節(jié)點的表示作為正樣本,不同節(jié)點的表示作為負(fù)樣本,約束正負(fù)樣本的表示距離,提升模型的表示學(xué)習(xí)能力和魯棒性。

41、本發(fā)明的附加優(yōu)點、目的,以及特征將在下面的描述中將部分地加以闡述,且將對于本領(lǐng)域普通技術(shù)人員在研究下文后部分地變得明顯,或者可以根據(jù)本發(fā)明的實踐而獲知。本發(fā)明的目的和其它優(yōu)點可以通過在說明書以及附圖中具體指出的結(jié)構(gòu)實現(xiàn)到并獲得。

42、本領(lǐng)域技術(shù)人員將會理解的是,能夠用本發(fā)明實現(xiàn)的目的和優(yōu)點不限于以上具體所述,并且根據(jù)以下詳細(xì)說明將更清楚地理解本發(fā)明能夠?qū)崿F(xiàn)的上述和其他目的。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阜南县| 钟祥市| 泾源县| 武夷山市| 宕昌县| 台湾省| 聂拉木县| 马公市| 苍南县| 久治县| 连城县| 邢台县| 武义县| 肇州县| 博野县| 九寨沟县| 靖远县| 天津市| 阿图什市| 三河市| 康平县| 耒阳市| 方正县| 滨州市| 景洪市| 临猗县| 保定市| 华阴市| 晋城| 德昌县| 石台县| 昌图县| 伊宁县| 西畴县| 常德市| 新化县| 西乌珠穆沁旗| 仲巴县| 元江| 沙田区| 原阳县|