一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)結(jié)構(gòu)分析技術(shù)領(lǐng)域;特別是涉及多模態(tài)網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002] 無線通信技術(shù)的快速發(fā)展與智能便攜設(shè)備的廣泛普及,使得人類進(jìn)入移動互聯(lián)時(shí) 代。移動社交空間中普遍存在的感知設(shè)備,能夠獲取豐富的實(shí)體交互數(shù)據(jù)與實(shí)體屬性數(shù)據(jù), 形成多模態(tài)多屬性的移動社交網(wǎng)絡(luò)。隨之而來的問題之一是如何構(gòu)建面向多模態(tài)多屬性社 交網(wǎng)絡(luò)的有效社區(qū)發(fā)現(xiàn)方法,該問題所面臨的挑戰(zhàn)表現(xiàn)在兩個(gè)方面:其一,網(wǎng)絡(luò)中存在多種 模態(tài)的實(shí)體,如用戶、地點(diǎn)等,每一類實(shí)體皆具有豐富的屬性信息;其二,既存在同一模態(tài)實(shí) 體之間的交互數(shù)據(jù),又存在不同模態(tài)實(shí)體之間的交互信息。因此,傳統(tǒng)基于結(jié)構(gòu)特征的社區(qū) 發(fā)現(xiàn)方法不能適用于多模態(tài)多屬性社交網(wǎng)絡(luò)。
[0003] -方面,傳統(tǒng)基于結(jié)構(gòu)特征的社區(qū)發(fā)現(xiàn)方法所發(fā)現(xiàn)的社區(qū)不易解釋。具體而言,雖 然知道社區(qū)成員之間的鏈接關(guān)系緊密,但是卻無法直觀地刻畫并呈現(xiàn)社區(qū)具有的特征。導(dǎo) 致這一問題的原因主要有二:其一,結(jié)構(gòu)特征本身不蘊(yùn)含可用于詮釋與刻畫社區(qū)特征的信 息;其二,傳統(tǒng)條件下較難大規(guī)模地獲取可用于社區(qū)特征詮釋的元數(shù)據(jù),如社交實(shí)體的屬性 信息等。
[0004] 另一方面,傳統(tǒng)基于結(jié)構(gòu)特征的社區(qū)發(fā)現(xiàn)方法所發(fā)現(xiàn)社區(qū)的重疊度較低,一般只 有很小一部分用戶隸屬于多個(gè)社區(qū)。然而,現(xiàn)實(shí)生活中用戶的生活模式往往呈現(xiàn)多樣性的 特點(diǎn),使其傾向于隸屬多個(gè)社區(qū),例如一個(gè)學(xué)生可同時(shí)隸屬于"文學(xué)社"、"體育愛好者"及 "游戲愛好者"等多個(gè)社區(qū)。因此,傳統(tǒng)基于結(jié)構(gòu)特征的社區(qū)發(fā)現(xiàn)方法不適合面向多模態(tài)多 屬性移動社交網(wǎng)絡(luò)的重疊式社區(qū)發(fā)現(xiàn)。
【發(fā)明內(nèi)容】
[0005] 綜合以上,需要提出新的方法以解決多模態(tài)多屬性社交網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)問題。本 發(fā)明提供一種構(gòu)建準(zhǔn)確、相似度特征以實(shí)現(xiàn)高質(zhì)量的社區(qū)發(fā)現(xiàn)方法。
[0006] 本發(fā)明一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的技術(shù)方案為:
[0007] -種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法,采用以跨模態(tài)節(jié)點(diǎn)鏈接為聚類對 象的重疊式社區(qū)發(fā)現(xiàn)體系,融合跨模態(tài)特征與模態(tài)內(nèi)特征兩類相似性度量特征的節(jié)點(diǎn)鏈接 相似度量化方法,刻畫移動社交空間所蘊(yùn)含的多模態(tài)實(shí)體屬性及交互信息,將相似度高的 跨模態(tài)節(jié)點(diǎn)鏈接劃分至同一社區(qū)。
[0008] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的跨模態(tài)特征主要利用不 同模態(tài)節(jié)點(diǎn)之間的交互信息,用一個(gè)模態(tài)實(shí)體的信息描述另一個(gè)模態(tài)實(shí)體的特征。
[0009] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的模態(tài)內(nèi)特征兼顧同一模 態(tài)節(jié)點(diǎn)之間的交互信息與屬性信息,利用與目標(biāo)實(shí)體隸屬同一模態(tài)的信息對其進(jìn)行描述的 特征。
[0010] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的跨模態(tài)特征包括用戶- 地點(diǎn)相似度,利用地點(diǎn)類型向量刻畫用戶特征。
[0011] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的跨模態(tài)特征包括地點(diǎn)-用戶相似度,利用用戶向量刻畫地點(diǎn)類型特征。
[0012] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的模態(tài)內(nèi)特征包括用戶社 會相似度,利用朋友關(guān)系描述用戶特征。
[0013] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的模態(tài)內(nèi)特征包括用戶空 域相似度,利用空間活動半徑描述用戶特征。
[0014] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法的模態(tài)內(nèi)特征包括地點(diǎn)時(shí) 域相似度,利用時(shí)域熱度向量刻畫地點(diǎn)類型特征。
[0015] 優(yōu)選地,一種基于跨模態(tài)節(jié)點(diǎn)鏈接聚類的社區(qū)發(fā)現(xiàn)方法還包括基于元數(shù)據(jù)的社區(qū) 詮釋機(jī)制,通過計(jì)算社區(qū)中每一用戶成員與地點(diǎn)成員的隸屬度,然后基于社區(qū)中重要成員 的元數(shù)據(jù)對社區(qū)特征進(jìn)行刻畫與詮釋。
[0016] 以基于位置的社交網(wǎng)絡(luò)為例,用戶的每一次簽到皆體現(xiàn)了其某一方面的偏好或興 趣,這一觀察啟發(fā)我們以節(jié)點(diǎn)鏈接取代節(jié)點(diǎn)作為社區(qū)聚類的對象,即同時(shí)將結(jié)構(gòu)特征和屬 性特征作為社區(qū)發(fā)現(xiàn)的依據(jù),聚類的目標(biāo)是將相似度高的跨模態(tài)節(jié)點(diǎn)鏈接劃分至同一社 區(qū)。由于每一節(jié)點(diǎn)與多條節(jié)點(diǎn)鏈接相關(guān)聯(lián),故而構(gòu)造的節(jié)點(diǎn)鏈接社區(qū)將使得節(jié)點(diǎn)被自然地 分配至多個(gè)重疊式社區(qū)之中。這說明本發(fā)明是一種構(gòu)建準(zhǔn)確、相似度特征以實(shí)現(xiàn)高質(zhì)量的 社區(qū)發(fā)現(xiàn)方法。
【附圖說明】
[0017] 圖1為基于位置的多模態(tài)多屬性移動社交網(wǎng)絡(luò)示意
【具體實(shí)施方式】
[0018] 下面結(jié)合實(shí)施例和附圖來對本發(fā)明進(jìn)行詳細(xì)說明。
[0019] M2Clustering 算法不意:
[0020]
[0021]
[0022]該方法中跨模態(tài)特征與模態(tài)內(nèi)特征的定義如下:
[0023]定義1:跨模態(tài)特征是指利用一個(gè)模態(tài)實(shí)體的信息描述另一個(gè)模態(tài)實(shí)體的特征。例 如,基于位置的社交網(wǎng)絡(luò)中用戶的偏好特征可以通過其歷史簽到地點(diǎn)的類型向量刻畫,而 地點(diǎn)的類型特征則可以基于在其之上進(jìn)行簽到的用戶向量描述。顯然,跨模態(tài)特征主要利 用了不同模態(tài)節(jié)點(diǎn)之間的交互信息。
[0024] 定義2:模態(tài)內(nèi)特征是指利用與目標(biāo)實(shí)體隸屬同一模態(tài)的信息對其進(jìn)行描述的特 征。例如,一個(gè)用戶的社交特征可以通過其朋友關(guān)系進(jìn)行刻畫,一個(gè)地點(diǎn)的訪客數(shù)量與簽到 數(shù)量則可以直觀反映其熱度特征。因此,模態(tài)內(nèi)特征兼顧了同一模態(tài)節(jié)點(diǎn)之間的交互信息 與屬性信息。
[0025] 依據(jù)上述定義可知,跨模態(tài)特征主要刻畫不同模態(tài)節(jié)點(diǎn)之間的交互關(guān)系,而模態(tài) 內(nèi)特征則描述同一模態(tài)內(nèi)的節(jié)點(diǎn)交互信息與節(jié)點(diǎn)屬性信息,二者共同涵蓋了多模態(tài)多屬性 移動社交網(wǎng)絡(luò)所蘊(yùn)含的各類信息。
[0026] 不失一般性地,本發(fā)明著重關(guān)注基于位置的社交網(wǎng)絡(luò),即屬性二分網(wǎng)絡(luò),提出兩個(gè) 跨模態(tài)特征與三個(gè)模態(tài)內(nèi)特征。其中跨模態(tài)特征包括:
[0027] ,用戶-地點(diǎn)相似度,即利用地點(diǎn)類型向量刻畫用戶特征;
[0028] ,地點(diǎn)-用戶相似度,即利用用戶向量刻畫地點(diǎn)類型特征。
[0029]模態(tài)內(nèi)特征包括:
[0030],用戶社會相似度,即利用朋友關(guān)系描述用戶特征;
[0031] ,用戶空域相似度,即利用空間活動半徑描述用戶特征;
[0032] ,地點(diǎn)時(shí)域相似度,即利用時(shí)域熱度向量刻畫地點(diǎn)類型特征。
[0033] 基于上述特征,本發(fā)明進(jìn)一步提出跨模態(tài)相似度特征的融合機(jī)制。由于作為聚類 對象的跨模態(tài)節(jié)點(diǎn)鏈接同時(shí)關(guān)聯(lián)于用戶與地點(diǎn)兩個(gè)模態(tài)上的節(jié)點(diǎn),所以分別定義用戶相似 度與地點(diǎn)相似度如下:
[0034] (1)
[0035] (2)
[0036]其中| fu |與| fv |分別表不用戶模態(tài)與地點(diǎn)模態(tài)的特征數(shù)量,而sin/ u*與sin/ v*則表 示歸一化后的相似度特征。進(jìn)一步地,跨模態(tài)節(jié)點(diǎn)鏈接相似度定義為:
[0037]
(3)
[0038] 在準(zhǔn)確度量跨模態(tài)節(jié)點(diǎn)鏈接相似性的基礎(chǔ)上,本發(fā)明提出適合多模態(tài)多屬性移動 社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的M2Clustering(Multi_Mode Multi-Attribute Edge Clustering)算 法。具體而言,結(jié)合跨模態(tài)節(jié)點(diǎn)鏈接的特點(diǎn),該方法對經(jīng)典k-means算法進(jìn)行三方面的改進(jìn):
[0039] 1經(jīng)典k-means算法將簇的質(zhì)心定義為簇中聚類對象的幾何中心。然而,當(dāng)跨模態(tài) 節(jié)點(diǎn)鏈接作為聚類對象時(shí),如果將一組跨模態(tài)節(jié)點(diǎn)鏈接表示為一個(gè)單獨(dú)的向量,則使得相 應(yīng)的相似度結(jié)果顯著不同。因此,我們將跨模態(tài)節(jié)點(diǎn)鏈接簇的質(zhì)心定義為其全體成員的集 合,即一個(gè)矩陣。
[0040] ,經(jīng)典k-means算法中聚類對象之間的相似度一般依據(jù)某種距離函數(shù)直接計(jì)算。 然而,由于跨模態(tài)節(jié)點(diǎn)鏈接關(guān)聯(lián)于兩個(gè)不同模態(tài)的節(jié)點(diǎn)且每一節(jié)點(diǎn)具有多個(gè)屬性,導(dǎo)致其 相似度特征由長度不同的多個(gè)向量組成,所以無法采用統(tǒng)一的距離函數(shù)計(jì)算跨模態(tài)節(jié)點(diǎn)鏈 接之間的相似度,而需通過融合用戶模態(tài)與地點(diǎn)模態(tài)的相似度間接獲得。
[0041] ,雖然質(zhì)心定義的變化保證了計(jì)算精度,卻使得算法完成一次迭代的時(shí)間復(fù)雜度 由O(kXN)上升為0(N2)。為了提升算法的時(shí)間效率,將任意一個(gè)聚類對象形成的簇Cj表示為 包含如下四個(gè)組成部分的結(jié)構(gòu)體的成員列表E(Q),上次迭代中新加入Q的成員列表Ea (Cj),上次迭代中從Q中移除的成員列表ER(CJ,以及上次迭代中Q的成員EP(CJ與全體聚 類對象的相似度數(shù)組sim(E P(Cj),E)。通過引入該結(jié)構(gòu)體,算法一次迭代的計(jì)算復(fù)雜度變?yōu)? (Σ ( |EA(Cj) | + |ER(Cj) |) XN),其中 Σ (|EA(Cj) | + |ER(Cj) |)可能的最大值為N,隨著迭代的進(jìn) 行其取值將急速降低。
[0042] 進(jìn)一步地,為了便于向社區(qū)提供自適應(yīng)服務(wù),本發(fā)明提出了基于元數(shù)據(jù)的社區(qū)詮 釋機(jī)制,其基本思想是:首先,計(jì)算社區(qū)中每一用戶成員與地點(diǎn)成員的隸屬度;之后,基于社 區(qū)中重要成員的元數(shù)據(jù)對社區(qū)特征進(jìn)行刻畫與詮釋。對于社區(qū)Q,其包含的節(jié)點(diǎn)鏈接集合 為,若uxSCj的用戶成員,而且關(guān)聯(lián)于1^的跨模態(tài)節(jié)點(diǎn)鏈接集合為£^,則將ujiCj的隸屬 度bu(ux,Cj)定義為:
[0043]
C4)
[0044] 類似地,若vy是Q的地點(diǎn)類型成員,C沖關(guān)聯(lián)于vy的節(jié)點(diǎn)鏈接集合為%(士),則Vy 對Cj的隸屬度bv(Vy,Cj)定義為:
[0045]
(5)
[0046] 用戶ux或者地點(diǎn)類型vy是社區(qū)Q的重要成員的條件是:隸屬度bu(u x,Q)或bv(Vy, Cj)取值大于給定的隸屬度閾值Θ。
[0047] 對任意社區(qū)Q,皆可計(jì)算其重要用戶成員集合UKEY(Cj)以及重要地點(diǎn)成員集合VKEY (Cj ),并進(jìn)而將該社區(qū)量化詮釋為:
[0048] (6)
[0049] 其中任意二元組ιΜ?Η%χ)或(f eamreY )表示一組用戶或地點(diǎn) 模態(tài)的特征及其取值。一方面,社區(qū)的用戶模態(tài)特征的取值基于其重要用戶成員UKEY(Cj)的 元數(shù)據(jù)計(jì)算,例如,(^的活動半徑即為UKEY(Cj)中用戶活動半徑的算術(shù)平均值;另一方面,地 點(diǎn)模態(tài)特征則依賴社區(qū)的重要地點(diǎn)成員V KEY(Cj),若地點(diǎn)類型vy隸屬于VKEY(Cj),則vy即為一 個(gè)地點(diǎn)模態(tài)特征相應(yīng)的取值為bv(vy,Cj)。
[0050]本發(fā)明提出以跨模態(tài)節(jié)點(diǎn)鏈接為聚類對象的重疊式社區(qū)發(fā)現(xiàn)體系,設(shè)計(jì)了融合跨 模態(tài)與模態(tài)內(nèi)兩類相似性度量特征的節(jié)點(diǎn)鏈接相似度量化方法。下面結(jié)合典型基于位置的 社交服務(wù)Foursqure數(shù)據(jù)實(shí)例,對跨模態(tài)與模態(tài)內(nèi)相似度特征做出進(jìn)一步闡述。
[00511 (1)用戶-地點(diǎn)相似度
[0052] Foursquar