一種面向多實(shí)體稀疏關(guān)系的聯(lián)合挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于智能信息處理領(lǐng)域,具體涉及一種利用計(jì)算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能 分析和處理的面向多實(shí)體稀疏關(guān)系的聯(lián)合挖掘方法。
【背景技術(shù)】
[0002] 隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,社交網(wǎng)絡(luò)、學(xué)術(shù)網(wǎng)絡(luò)等網(wǎng)絡(luò)應(yīng)用越來越豐富,產(chǎn)生了 大量的信息網(wǎng)絡(luò)。信息網(wǎng)絡(luò)中通常包括多類實(shí)體,實(shí)體間通過交互行為構(gòu)建起復(fù)雜的交互 關(guān)系網(wǎng)絡(luò)。例如微博網(wǎng)絡(luò)中,用戶在不同的位置發(fā)布、轉(zhuǎn)發(fā)、評(píng)論消息,消息中可以包括多個(gè) 標(biāo)簽、圖片等。這些交互行為產(chǎn)生的數(shù)據(jù)中包括用戶、消息、圖片、標(biāo)簽、位置等多類實(shí)體,實(shí) 體間存在多種交互關(guān)系。這些交互關(guān)系主要包括兩類:同質(zhì)關(guān)系和異質(zhì)關(guān)系。傳統(tǒng)的信息 網(wǎng)絡(luò)挖掘主要針對同質(zhì)關(guān)系進(jìn)行挖掘,例如社區(qū)發(fā)現(xiàn)等。但是,信息網(wǎng)絡(luò)中通常包括多類實(shí) 體,并且不同實(shí)體間存在大量的異質(zhì)關(guān)系。通過對信息網(wǎng)絡(luò)中的異質(zhì)關(guān)系數(shù)據(jù)分析,更能挖 掘出不同類實(shí)體間的潛在結(jié)構(gòu)。如何通過異質(zhì)關(guān)系數(shù)據(jù)挖掘多類實(shí)體的潛在結(jié)構(gòu)已經(jīng)成為 當(dāng)前異質(zhì)信息網(wǎng)絡(luò)挖掘領(lǐng)域中研宄的熱點(diǎn)問題。
[0003] 在異構(gòu)信息網(wǎng)絡(luò)挖掘領(lǐng)域中,傳統(tǒng)的聚類方法只能針對一類實(shí)體進(jìn)行處理,但是 異質(zhì)關(guān)系數(shù)據(jù)中包含多類實(shí)體。目前處理多類實(shí)體的方法主要包括多視圖聚類和高階聯(lián)合 聚類,這些算法都能對多類實(shí)體進(jìn)行同時(shí)分析。多視圖聚類通常以星型結(jié)構(gòu)進(jìn)行建模,而真 實(shí)的異質(zhì)關(guān)系數(shù)據(jù)并不一定存在星型結(jié)構(gòu)。因此,本發(fā)明通過高階聯(lián)合聚類算法挖掘異質(zhì) 關(guān)系數(shù)據(jù)中實(shí)體的潛在關(guān)系。
[0004] 高階聯(lián)合聚類算法在處理小規(guī)模數(shù)據(jù)時(shí)具有較好的效果,但是在大規(guī)模信息網(wǎng)絡(luò) 挖掘時(shí)仍然存在一些問題。首先,從原始數(shù)據(jù)中可抽取的實(shí)體類型較多,但是不同類實(shí)體之 間的異質(zhì)關(guān)系非常有限,導(dǎo)致構(gòu)建的異質(zhì)關(guān)系矩陣異常稀疏。其次,在分析大規(guī)模微博異質(zhì) 關(guān)系數(shù)據(jù)時(shí),不同實(shí)體之間的規(guī)模存在不平衡問題。本發(fā)明試圖同時(shí)解決上述兩個(gè)問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提出一種針對多類實(shí)體間存在的稀疏異質(zhì)關(guān)系進(jìn)行聯(lián)合挖掘 的面向多實(shí)體稀疏關(guān)系的聯(lián)合挖掘方法。
[0006] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0007] (1)從異構(gòu)數(shù)據(jù)中抽取實(shí)體、異質(zhì)關(guān)系,兩類實(shí)體之間的異質(zhì)關(guān)系采用異質(zhì)關(guān)系矩 陣表示,進(jìn)而構(gòu)建異質(zhì)關(guān)系矩陣集合R :
[0008] (I. 1)實(shí)體抽?。簭漠悩?gòu)數(shù)據(jù)中抽取待分析的實(shí)體,并統(tǒng)計(jì)實(shí)體在異構(gòu)數(shù)據(jù)中的 出現(xiàn)頻次,剔除頻次小于或等于2次的實(shí)體,選擇剩余的實(shí)體作為待分析實(shí)體集合;
[0009] (1. 2)異構(gòu)關(guān)系抽?。簭拇治龅膶?shí)體集合中抽取任意兩個(gè)實(shí)體之間存在的異質(zhì) 交互關(guān)系;
[0010] (1. 3)異質(zhì)關(guān)系形式化建模:任意兩類實(shí)體之間的異質(zhì)關(guān)系通過二部圖進(jìn)行建 模,兩個(gè)實(shí)體之間交互的頻次作為異質(zhì)關(guān)系的強(qiáng)度,二部圖進(jìn)一步可通過異質(zhì)關(guān)系矩陣進(jìn) 行表示;
[0011] (2)對于每一個(gè)異質(zhì)關(guān)系矩陣Ri進(jìn)行非負(fù)矩陣分解:
[0012] (2. 1)關(guān)聯(lián)矩陣構(gòu)造:從異質(zhì)關(guān)系矩陣中選擇規(guī)模較小一類實(shí)體,依據(jù)同類實(shí)體 之間的關(guān)聯(lián)關(guān)系構(gòu)建關(guān)聯(lián)矩陣;
[0013] (2. 2)基于稀疏約束的關(guān)聯(lián)矩陣稀疏對稱分解:針對關(guān)聯(lián)矩陣,采用魯棒的稀疏 約束的對稱分解方法;
[0014] (2. 3)異質(zhì)關(guān)系矩陣三分解:以關(guān)聯(lián)矩陣分解得到的結(jié)果作為輸入,采用迭代的 三分解方法進(jìn)行求解;
[0015] (3)針對每一類實(shí)體對應(yīng)的矩陣分解結(jié)果進(jìn)行融合,得到最終的聚類指示矩陣:
[0016] (3. 1)聚類指示矩陣二元化:根據(jù)關(guān)聯(lián)矩陣對稱分解的結(jié)果進(jìn)行二元化;
[0017] (3. 2)針對每一類實(shí)體對應(yīng)的聚類指示矩陣進(jìn)行融合,得到最終的聚類指示矩陣, 分解得到的指示矩陣中只有一個(gè)元素為1,其余為〇,指示矩陣中為1的表示實(shí)體屬于對應(yīng) 的類別。
[0018] 本發(fā)明的有益效果在于:
[0019] 本發(fā)明提出了一種面向多類實(shí)體間稀疏異質(zhì)關(guān)系的聯(lián)合挖掘方法,該方法能夠同 時(shí)解決大規(guī)模信息網(wǎng)絡(luò)異質(zhì)關(guān)系挖掘中的稀疏問題和不平衡問題,特別是針對極端稀疏情 況下的異質(zhì)關(guān)系數(shù)據(jù)。該方法無需將異質(zhì)關(guān)系數(shù)據(jù)建模成星型結(jié)構(gòu),能夠處理更為復(fù)雜的 異質(zhì)關(guān)系數(shù)據(jù)。在稀疏約束下的非負(fù)矩陣分解過程中,本發(fā)明提出了一種貪婪的塊坐標(biāo)下 降優(yōu)化方法,能夠提高稀疏矩陣分解的收斂速度。本發(fā)明在真實(shí)數(shù)據(jù)集上與最近的幾種方 法進(jìn)行了對比分析,可知本方法在準(zhǔn)確率、純度、匪I和ARI四個(gè)度量指標(biāo)下都整體優(yōu)于其 他算法。本方法只與規(guī)模較小一類的實(shí)體相關(guān),因此在大規(guī)模數(shù)據(jù)上具有較好的可擴(kuò)展性。
【附圖說明】
[0020] 圖1方法對應(yīng)的整體框架圖。
[0021] 圖2整體流程圖。
[0022] 圖3異質(zhì)關(guān)系矩陣分解流程圖。
【具體實(shí)施方式】
[0023] 下面結(jié)合附圖對本發(fā)明做進(jìn)一步描述。
[0024] 本發(fā)明公開了一種面向多實(shí)體稀疏關(guān)系的聯(lián)合挖掘方法。所述方法包括:異質(zhì)關(guān) 系抽取及建模,抽取不同實(shí)體間的異質(zhì)關(guān)系,并通過異質(zhì)關(guān)系矩陣進(jìn)行表示;異質(zhì)關(guān)系矩陣 分解,選擇較小規(guī)模實(shí)體對應(yīng)的關(guān)聯(lián)關(guān)系構(gòu)建關(guān)聯(lián)矩陣,并才用稀疏約束的對稱非負(fù)矩陣 分解方法進(jìn)行分解,分解結(jié)果作為異質(zhì)關(guān)系矩陣三分解的輸入,進(jìn)而快速有效的求解異質(zhì) 關(guān)系矩陣對應(yīng)的分解矩陣;最后,針對實(shí)體的多個(gè)異質(zhì)關(guān)系矩陣分解得到的結(jié)果進(jìn)行融合, 進(jìn)而得到每一類實(shí)體對應(yīng)的聚類指示矩陣。
[0025] 從異質(zhì)數(shù)據(jù)中抽取的異質(zhì)關(guān)系矩陣異常稀疏,直接進(jìn)行非負(fù)矩陣分解,得到的效 果較差。對于高階數(shù)據(jù)聯(lián)合聚類分析中,傳統(tǒng)的非負(fù)矩陣三分解算法中針對每一個(gè)關(guān)系矩 陣進(jìn)行分解,但是針對特別稀疏的數(shù)據(jù)進(jìn)行聯(lián)合聚類時(shí),分解得到的劃分指示矩陣很難保 證數(shù)據(jù)的稀疏特征,而且在實(shí)際的數(shù)據(jù)中,中心節(jié)點(diǎn)的劃分矩陣在不同的視圖中對應(yīng)的劃 分很難在一個(gè)尺度中進(jìn)行度量。傳統(tǒng)的高階聯(lián)合聚類算法或多視圖聚類都將異質(zhì)關(guān)系數(shù)據(jù) 建模成星型結(jié)構(gòu),但是很多關(guān)系數(shù)據(jù)并不一定存在星型結(jié)構(gòu)關(guān)系。因此,本發(fā)明提出了一種 針對多類實(shí)體間存在的稀疏異質(zhì)關(guān)系進(jìn)行聯(lián)合挖掘的方法,方法整體框架如圖1所示。
[0026] (一)異質(zhì)關(guān)系抽取及建模。
[0027] 首先從異構(gòu)數(shù)據(jù)中抽取待分析的實(shí)體以及實(shí)體之間的關(guān)系,在本發(fā)明中只考慮任 意兩類不同實(shí)體之間的異質(zhì)關(guān)系。通過對異質(zhì)關(guān)系的聯(lián)合聚類分析,就能挖掘出不同實(shí)體 間的潛在關(guān)系。
[0028] 在本發(fā)明中,將任意兩類實(shí)體間的異質(zhì)關(guān)系Rfcti建模成二部圖Gfet)= (Vs, Vt, E)。 二部圖Gfct)可采用關(guān)系矩陣R fet)表示,可得到異質(zhì)關(guān)系數(shù)據(jù)集對應(yīng)的M個(gè)關(guān)系矩陣集合 R = {Ra2),R(U,. . .,Rfet),...丨。將挖掘異質(zhì)關(guān)系數(shù)據(jù)D中N類實(shí)體間的潛在結(jié)構(gòu)轉(zhuǎn)換成 通過高階聯(lián)合聚類算法同時(shí)對M個(gè)關(guān)系矩陣集合R的劃分問題,進(jìn)而得到N類實(shí)體的聚類 指示矩陣集合P = {P1,...,PN}。
[0029] (二)異質(zhì)關(guān)系矩陣分解。
[0030] 異質(zhì)關(guān)系矩陣分解主要包括三步核心步驟,分別對應(yīng)關(guān)聯(lián)矩陣構(gòu)建、基于稀疏約 束的關(guān)聯(lián)矩陣分解和異質(zhì)關(guān)系矩陣三分解。下面將給出對應(yīng)的詳細(xì)實(shí)現(xiàn)過程。
[0031] 1)關(guān)聯(lián)矩陣構(gòu)建。互信息是衡量兩個(gè)隨機(jī)變量之間的相關(guān)性的有效度量之一, 為了能夠快速的度量同類實(shí)體之間的相關(guān)關(guān)系,本發(fā)明在矩陣互信息的基礎(chǔ)上構(gòu)建關(guān)聯(lián)矩 陣。
[0032] 對于任意一個(gè)異質(zhì)關(guān)系矩陣Rfe,選擇規(guī)模較小一類實(shí)體s構(gòu)建關(guān)聯(lián)矩陣。對于s 中任意兩個(gè)實(shí)體i,j,可基于異質(zhì)關(guān)系矩陣Rfct)計(jì)算其之間的共現(xiàn)概率,計(jì)算公式如式(1) 所示。
[0033] ⑴
[0034] 關(guān)聯(lián)矩陣iff}的計(jì)算公式如下:
[0035]
(2)
[0036] 進(jìn)一步可通過Cos計(jì)算相似度。對于s類實(shí)體的第i個(gè)關(guān)聯(lián)矩陣對應(yīng)的計(jì)算 公式如下:
[0037]
(3)
[0038] 2)基于稀疏約束的關(guān)聯(lián)矩陣分解?;诋愘|(zhì)關(guān)系矩陣Rfcti構(gòu)建的實(shí)體s對應(yīng)的第 i個(gè)關(guān)聯(lián)矩陣Cw。關(guān)聯(lián)矩陣為對稱矩陣,雖然能夠大大降低了矩陣的稀疏度,但 是其仍然屬于稀疏矩陣,因此,