本發(fā)明涉及信息處理的,尤其涉及一種基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,以及基于多維度異構(gòu)圖表示與匹配的新聞事件檢測裝置。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)和多種新聞媒體平臺的飛速進(jìn)步,人們接觸信息的途徑日益多樣化。人們可以隨時(shí)隨地通過智能手機(jī)、平板電腦獲取到來自世界各地的最新新聞與信息,不論是國際政治動態(tài)、經(jīng)濟(jì)發(fā)展情況、科技創(chuàng)新突破還是流行文化趨勢。這些平臺提供的海量新聞資源,極大地豐富和方便了人們的日常生活。然而,在為人們的生活帶來便捷的同時(shí),也伴隨著諸多挑戰(zhàn)。最突出的挑戰(zhàn)是信息過載現(xiàn)象日益嚴(yán)重,人們在龐雜的信息洪流中往往難以迅速鑒別出其中有價(jià)值的內(nèi)容,這種信息過載不僅消耗了用戶大量的時(shí)間和精力,還可能導(dǎo)致信息的誤讀和誤解,使得辨別真?zhèn)?、把握重點(diǎn)變得更加困難,這已經(jīng)成為了用戶普遍關(guān)注的一個(gè)難題。新聞事件檢測是一種有效解決該問題的方法,它利用先進(jìn)的計(jì)算機(jī)算法和大數(shù)據(jù)分析技術(shù),能夠自動識別、分類和追蹤新聞事件的發(fā)生和發(fā)展。通過對大量新聞數(shù)據(jù)的實(shí)時(shí)監(jiān)控和智能分析,這種技術(shù)可以幫助監(jiān)管部門、媒體機(jī)構(gòu)乃至普通用戶迅速識別出熱點(diǎn)事件,從而有效緩解信息過載帶來的壓力。新聞事件檢測技術(shù)不僅可以提高信息處理的效率,還可以幫助構(gòu)建更加健康、有序的網(wǎng)絡(luò)信息環(huán)境。
2、目前,針對新聞事件檢測領(lǐng)域的研究有基于傳統(tǒng)特征的方法、基于主題模型的方法、基于圖的方法。其中基于圖的方法是當(dāng)前最為流行的新聞事件檢測方法。然而,由于基于圖的事件檢測方法大多嚴(yán)重依賴語言學(xué)知識以及新聞內(nèi)容的語義特征,帶來信息丟失、語義稀疏、事件檢測不準(zhǔn)確等問題。且該類方法需要使用社區(qū)檢測算法對圖進(jìn)行劃分,但由于社區(qū)檢測算法時(shí)間復(fù)雜度較高,因此在大規(guī)模數(shù)據(jù)下,基于圖的事件檢測方法具有較大的時(shí)間開銷,導(dǎo)致其應(yīng)用范圍受限。
技術(shù)實(shí)現(xiàn)思路
1、為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明要解決的技術(shù)問題是提供了一種基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,其解決了新聞數(shù)據(jù)的多種屬性統(tǒng)一建模和嵌入問題,解決了圖結(jié)構(gòu)之間難以匹配以及新聞的相似度計(jì)算問題,解決了基于圖的新聞事件檢測無法建模事件隨時(shí)間動態(tài)變化,以及無法識別關(guān)聯(lián)事件的問題,解決了基于圖的新聞事件檢測效率低的問題,可以在不同領(lǐng)域準(zhǔn)確地檢測新聞事件,并有效提高新聞事件檢測效率。
2、本發(fā)明的技術(shù)方案是:這種基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,包括以下步驟:
3、(1)抽取新聞數(shù)據(jù)的主要特征,其包括主題特征、時(shí)間特征、地理位置特征,并將其視為節(jié)點(diǎn)信息,構(gòu)建新聞多維度異構(gòu)圖,輸入部分為訓(xùn)練數(shù)據(jù)集;
4、(2)對所建立的新聞多維度異構(gòu)圖進(jìn)行嵌入值的學(xué)習(xí),通過逐步迭代訓(xùn)練,最終生成最優(yōu)模型參數(shù);
5、(3)使用圖神經(jīng)網(wǎng)絡(luò),對所構(gòu)建的新聞多維度異構(gòu)圖進(jìn)行匹配,計(jì)算新聞之間的匹配分?jǐn)?shù);
6、(4)對新聞事件進(jìn)行動態(tài)檢測,首先為新聞數(shù)據(jù)創(chuàng)建動態(tài)圖模
7、型,然后用滑動時(shí)間窗口覆蓋的時(shí)間間隔內(nèi)的子圖,獨(dú)立地檢測事件。
8、本發(fā)明兼顧了新聞的主題、時(shí)間、地理位置等多種信息,充分利用了新聞中的關(guān)鍵信息,并建立了多種關(guān)鍵信息之間的關(guān)聯(lián)關(guān)系,比傳統(tǒng)方法具有更強(qiáng)的新聞表示能力。所提出的新聞多維度異構(gòu)圖表示匹配方法,使用異構(gòu)圖嵌入技術(shù)獲得異構(gòu)圖節(jié)點(diǎn)的嵌入值,在此基礎(chǔ)上通過匹配網(wǎng)絡(luò)分別對圖中的節(jié)點(diǎn)對進(jìn)行編碼得到匹配向量,然后使用圖卷積網(wǎng)絡(luò)將局部匹配向量聚合成兩篇新聞最終的匹配分?jǐn)?shù),解決了圖模型在非歐幾里得空間中難以匹配的問題,更準(zhǔn)確的比較新聞之間的相似度。所提出的基于動態(tài)圖模型的新聞事件檢測方法,使用滑動時(shí)間窗口δt對新聞多維度異構(gòu)圖序列進(jìn)行劃分,并對每個(gè)時(shí)間窗口內(nèi)的異構(gòu)圖序列獨(dú)立地進(jìn)行事件檢測,能夠更準(zhǔn)確地檢測新聞事件,并識別事件間的關(guān)聯(lián)關(guān)系。能夠有效提高新聞事件檢測效率。本發(fā)明所提出的方法可以用于新聞事件檢測和演化,使監(jiān)管部門對事件的發(fā)展規(guī)律、演變模式有更加清晰的認(rèn)識,進(jìn)而能夠更準(zhǔn)確地預(yù)測事件發(fā)展的趨勢。對于當(dāng)今社會海量數(shù)據(jù)背景下,監(jiān)控焦點(diǎn)新聞、輿情管理等方面具有重要的意義。
9、還提供了基于多維度異構(gòu)圖表示與匹配的新聞事件檢測裝置,其包括:
10、新聞多維度異構(gòu)圖建模模塊,其配置來抽取新聞數(shù)據(jù)的主要特征,其包括主題特征、時(shí)間特征、地理位置特征,并將其視為節(jié)點(diǎn)信
11、息,構(gòu)建新聞多維度異構(gòu)圖,輸入部分為訓(xùn)練數(shù)據(jù)集;
12、新聞多維度異構(gòu)圖嵌入訓(xùn)練模塊,其配置來對所建立的新聞多維度異構(gòu)圖進(jìn)行嵌入值的學(xué)習(xí),通過逐步迭代訓(xùn)練,最終生成最優(yōu)模型參數(shù);
13、新聞多維度異構(gòu)圖表示匹配模塊,其配置來使用圖神經(jīng)網(wǎng)絡(luò),對所構(gòu)建的新聞多維度異構(gòu)圖進(jìn)行匹配,計(jì)算新聞之間的匹配分?jǐn)?shù);
14、基于動態(tài)圖模型的新聞事件檢測模塊,其配置來對新聞事件進(jìn)行動態(tài)檢測,首先為新聞數(shù)據(jù)創(chuàng)建動態(tài)圖模型,然后用滑動時(shí)間窗口覆蓋的時(shí)間間隔內(nèi)的子圖,獨(dú)立地檢測事件。
1.基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,其特征在于:該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,其特征在于:所述步驟(1)包括以下分步驟:
3.根據(jù)權(quán)利要求2所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,其特征在于:所述步驟(2)包括以下分步驟:
4.根據(jù)權(quán)利要求3所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,其特征在于:所述步驟(3)包括以下分步驟:
5.根據(jù)權(quán)利要求4所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測方法,其特征在于:所述步驟(4)包括以下分步驟:
6.基于多維度異構(gòu)圖表示與匹配的新聞事件檢測裝置,其特征在于:其包括:
7.根據(jù)權(quán)利要求6所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測裝置,其特征在于:所述新聞多維度異構(gòu)圖建模模塊包括:
8.根據(jù)權(quán)利要求7所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測裝置,其特征在于:所述新聞多維度異構(gòu)圖嵌入訓(xùn)練模塊包括:
9.根據(jù)權(quán)利要求8所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測裝置,其特征在于:所述新聞多維度異構(gòu)圖表示匹配模塊包括:
10.根據(jù)權(quán)利要求9所述的基于多維度異構(gòu)圖表示與匹配的新聞事件檢測裝置,其特征在于:所述基于動態(tài)圖模型的新聞事件檢測模塊包括: