一種基于信息瓶頸理論的社區(qū)探測(cè)方法
【專(zhuān)利摘要】本申請(qǐng)?zhí)岢鲆环N基于信息瓶頸理論的社區(qū)探測(cè)方法,在聚類(lèi)過(guò)程中,信息損失變化的趨勢(shì)非常明顯,但模塊化曲線(xiàn)的變化趨勢(shì)相對(duì)平緩,有時(shí)模塊化曲線(xiàn)的最大值也不突出。但是,當(dāng)簇?cái)?shù)目較小時(shí),信息損失曲線(xiàn)較快上升。通過(guò)分析信息損失曲線(xiàn)的拐點(diǎn),可以確定最優(yōu)的k值。由于采用信息瓶頸理論進(jìn)行相似度的計(jì)算,避免了在傳統(tǒng)聚類(lèi)中隨意選擇相似度算法產(chǎn)生的主觀(guān)誤差,同時(shí)降低了時(shí)間復(fù)雜度,聚類(lèi)的效率和準(zhǔn)確率得到提高,且可以避免層次聚類(lèi)容易導(dǎo)致的局部最優(yōu)解,更適合處理目前的大規(guī)模數(shù)據(jù)集。
【專(zhuān)利說(shuō)明】一種基于信息瓶頸理論的社區(qū)探測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)屬于計(jì)算機(jī)科學(xué)數(shù)據(jù)挖掘領(lǐng)域。
【背景技術(shù)】
[0002] 目前,Web搜索引擎已經(jīng)成為人們從Internet獲取信息的首要工具。然而,即使 最成功的Web搜索引擎仍在致力于提供高質(zhì)量的檢索結(jié)果,因?yàn)橛写蠹s50%的Web檢索會(huì) 話(huà)不能為用戶(hù)找到滿(mǎn)意的信息,所以如何快速、準(zhǔn)確的找到用戶(hù)需要的信息仍然是信息檢 索研究中的熱點(diǎn)內(nèi)容。
[0003] 在相似的Web檢索上下文中,總是存在著不同的用戶(hù)群體,每個(gè)群體中的用戶(hù)擁 有相同的興趣、需求、期望和動(dòng)機(jī)去選擇相似的信息。從這個(gè)角度出發(fā),Web檢索的過(guò)程不 但是一種個(gè)人的活動(dòng),而且是一種集體協(xié)同的活動(dòng)。社區(qū)中的用戶(hù)根據(jù)自己的檢索經(jīng)驗(yàn)向 別人進(jìn)行推薦,提高用戶(hù)檢索的效率和準(zhǔn)確率。
[0004] 社區(qū)探測(cè)是圖和網(wǎng)絡(luò)研究中非常重要的內(nèi)容。將網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行分組,分組后 組內(nèi)的節(jié)點(diǎn)連接緊密,而組間的節(jié)點(diǎn)連接松散,借此有效揭示網(wǎng)絡(luò)的功能和結(jié)構(gòu)間的關(guān)系。 從這個(gè)角度講,社區(qū)探測(cè)和數(shù)據(jù)挖掘中的文本聚類(lèi)技術(shù)非常相似。實(shí)際上,文本聚類(lèi)算法已 廣泛應(yīng)用于社區(qū)探測(cè)。
[0005] 層次聚類(lèi)是社區(qū)探測(cè)研究中最常用的聚類(lèi)算法,其結(jié)果是一個(gè)樹(shù)狀圖,用以表示 簇及簇間關(guān)系。層次聚類(lèi)對(duì)相似度算法十分依賴(lài),因此對(duì)于文檔相似度度量方法的選擇至 關(guān)重要,因?yàn)椴煌姆椒ê芸赡軐?dǎo)致最終的聚類(lèi)結(jié)果存在較大差別。但實(shí)際上,用于文檔相 似度計(jì)算的方法種類(lèi)繁多,而對(duì)于如何選擇合適的相似度算法進(jìn)行聚類(lèi),并沒(méi)有一個(gè)統(tǒng)一 的規(guī)范。為避免因隨意選擇相似度算法而存在的主觀(guān)誤差,信息瓶頸理論在聚類(lèi)研究中扮 演了重要角色。但是,基于信息瓶頸理論的層次聚類(lèi)算法存在兩個(gè)缺點(diǎn):⑴時(shí)間復(fù)雜度較 高;⑵層次聚類(lèi)的貪婪策略容易使之陷入局部最優(yōu)解。
【發(fā)明內(nèi)容】
[0006] 基于以上缺陷,本申請(qǐng)?zhí)岢鲆环N基于信息瓶頸理論的社區(qū)探測(cè)方法,該方法采用 劃分式聚類(lèi),將網(wǎng)絡(luò)中的n個(gè)節(jié)點(diǎn)分為k個(gè)簇,簇也叫社區(qū),其中n,k為自然數(shù),且2 < k < n,具體步驟如下:
[0007] (1)給定一個(gè)無(wú)向圖G= (V,E),將該圖轉(zhuǎn)換成二部圖B,轉(zhuǎn)換規(guī)則為:①圖G中的 節(jié)點(diǎn)a對(duì)應(yīng)圖B中的兩個(gè)節(jié)點(diǎn)Ua和Va ;②圖G中的邊(a,b)對(duì)應(yīng)圖B中的兩條邊(ua,vb) 和(ub,va),且這兩條邊的權(quán)重等于圖G中邊(a, b)的權(quán)重,即wab,其中G = (V,E)表示一個(gè) n個(gè)節(jié)點(diǎn)和m條邊的無(wú)向圖,m為自然數(shù),V表示節(jié)點(diǎn)集合,E表示邊集合,V = {1,2,…,n}, E = {(a, b) I a, b G V},wab表示邊(a, b)的權(quán)重,a, b為自然數(shù),1彡&彡11,1彡13彡11;轉(zhuǎn) 換后,得到關(guān)于該二部圖的矩陣M,矩陣M的行對(duì)應(yīng)節(jié)點(diǎn)(U1, U2,…,un),矩陣M的列對(duì)應(yīng)節(jié) 點(diǎn)(V1, V2,…,vn),矩陣M的元素 mab對(duì)應(yīng)邊(ua, vb)的權(quán)重,即mab = Wab,再對(duì)矩陣M的元素 執(zhí)行標(biāo)準(zhǔn)化,即mab = mab/w,其中w為矩陣M中所有元素之和;
[0008] (2)給定一個(gè)網(wǎng)絡(luò),劃分為k個(gè)簇,其集合為C = {Ci, C2,…,CJ,每個(gè)簇和所有節(jié)點(diǎn)
【權(quán)利要求】
1. 一種基于信息瓶頸理論的社區(qū)探測(cè)方法,其特征在于,該方法采用劃分式聚類(lèi),將網(wǎng) 絡(luò)中的n個(gè)節(jié)點(diǎn)分為k個(gè)簇,簇也叫社區(qū),其中n,k為自然數(shù),且2<k<n,具體步驟如下: (1) 給定一個(gè)無(wú)向圖G= (V,E),將該圖轉(zhuǎn)換成二部圖B,轉(zhuǎn)換規(guī)則為: ① 圖G中的節(jié)點(diǎn)a對(duì)應(yīng)圖B中的兩個(gè)節(jié)點(diǎn)ua和va ; ② 圖G中的邊(a,b)對(duì)應(yīng)圖B中的兩條邊(ua,vb)和(ub,va),且這兩條邊的權(quán)重等于 圖G中邊(a,b)的權(quán)重,即wab,其中G= (V,E)表示一個(gè)n個(gè)節(jié)點(diǎn)和m條邊的無(wú)向圖,m為 自然數(shù),V表示節(jié)點(diǎn)集合,E表示邊集合,V= {1,2,…,n},E= {(a,b) |a,bGV},wab表示 邊(a,b)的權(quán)重,a,b為自然數(shù),l<a<n,l<b<n; 轉(zhuǎn)換后,得到關(guān)于該二部圖的矩陣M,矩陣M的行對(duì)應(yīng)節(jié)點(diǎn)(Ul,u2,…,un),矩陣M的列 對(duì)應(yīng)節(jié)點(diǎn)(Vpv2,…,vn),矩陣M的元素mab對(duì)應(yīng)邊(ua,vb)的權(quán)重,S卩mab =wab,再對(duì)矩陣M 的元素執(zhí)行標(biāo)準(zhǔn)化,即mab =mab/w,其中w為矩陣M中所有元素之和。 (2) 給定一個(gè)網(wǎng)絡(luò),劃分為k個(gè)簇,其集合為C= ,…,Ck},每個(gè)簇和所有節(jié)點(diǎn) 組成的簇P間信息損失為
,令簇Q質(zhì)心的特征向量為(Wn,Wi2,…,Win), 其中Wn,Wi2,…,Win為質(zhì)心向量的特征值;令簇P質(zhì)心的特征向量為,…,Wn),當(dāng) 簇(;和簇P合并時(shí)產(chǎn)生的信息損失
,其中
:再給定一個(gè)網(wǎng)絡(luò),被劃分為k個(gè)簇,其集合為C=IA,(^,… ,CJ,每個(gè)簇Q和該簇內(nèi)每個(gè)節(jié)點(diǎn)組成的簇3jivhmmexw間的簇內(nèi)信息損失為
, E和I的交點(diǎn)為k。 (3) 網(wǎng)絡(luò)被隨機(jī)劃分為k個(gè)簇,表示為C=IA,C2,…,Ck},依次選擇每個(gè)節(jié)點(diǎn)d,將其從 現(xiàn)有歸屬簇中選出,形成一個(gè)臨時(shí)簇3jivhmmexw,計(jì)算3jivhmmexw與現(xiàn)有每個(gè)簇的信息損失dis({(!},(;); 將節(jié)點(diǎn)d合并到簇C'中,其中C' =argminvec;dis(3jivhmmexw,v),執(zhí)行該重新分配過(guò)程1次,1 為自然數(shù); 以上步驟共執(zhí)行z次,每次選取不同的k個(gè)初始簇,評(píng)分函數(shù)S等于在聚類(lèi)過(guò)程中所有 信息損失之和,當(dāng)S值最小時(shí),選擇此時(shí)對(duì)應(yīng)的方案為最佳方案。
【文檔編號(hào)】G06F17/30GK104408096SQ201410650940
【公開(kāi)日】2015年3月11日 申請(qǐng)日期:2014年11月17日 優(yōu)先權(quán)日:2014年11月17日
【發(fā)明者】劉永利, 侯占偉, 喬應(yīng)旭, 孫江峰, 王東 申請(qǐng)人:河南理工大學(xué)