欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于動態(tài)社區(qū)挖掘進(jìn)行專家檢索的方法

文檔序號:6485925閱讀:187來源:國知局
一種基于動態(tài)社區(qū)挖掘進(jìn)行專家檢索的方法
【專利摘要】本發(fā)明提供一種基于動態(tài)社區(qū)挖掘進(jìn)行專家檢索的方法,針對動態(tài)網(wǎng)絡(luò)環(huán)境,同時(shí)利用鏈接結(jié)構(gòu)和內(nèi)容信息挖掘社區(qū),將鏈接結(jié)構(gòu)和內(nèi)容表達(dá)為矩陣形式,綜合歷史社區(qū)劃分結(jié)果,使用非負(fù)矩陣分解方法進(jìn)行社區(qū)劃分,并對社區(qū)劃分代價(jià)進(jìn)行迭代處理,使其結(jié)果局部最優(yōu)化,以使社區(qū)結(jié)果在反映網(wǎng)絡(luò)的鏈接特征的同時(shí),還反映話題、興趣等語義層面的特征,通過利用社區(qū)劃分結(jié)果和社區(qū)話題,進(jìn)行專家搜索,從而實(shí)現(xiàn)不同時(shí)刻的專家檢索。本發(fā)明的方法不僅能反映社區(qū)成員、規(guī)模的變化,還能反映社區(qū)的話題分布及其隨時(shí)間的變化,從而可以將社區(qū)挖掘結(jié)果直接專家搜索。
【專利說明】一種基于動態(tài)社區(qū)挖掘進(jìn)行專家檢索的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息處理【技術(shù)領(lǐng)域】,具體是在動態(tài)網(wǎng)絡(luò)環(huán)境下進(jìn)行社區(qū)挖掘,進(jìn)而利用社區(qū)劃分結(jié)果檢索專家。
【背景技術(shù)】
[0002]專家檢索是指找出一組具有與特定查詢條件相關(guān)的專業(yè)知識的人。現(xiàn)有方法可大致分為三類:第一類是基于候選人的方法,通過將與候選人相關(guān)的文檔進(jìn)行組合,形成候選人的專業(yè)描述,針對特定查詢,專業(yè)描述越與查詢相關(guān),候選人排名越高。第二類是基于文檔的方法。通過比較每一個(gè)文檔與查詢的相關(guān)性,對文檔相應(yīng)的候選人進(jìn)行排名。第三類是利用社會網(wǎng)絡(luò)進(jìn)行專家檢索。
[0003]本發(fā)明屬于第三類,思路是利用社區(qū)劃分結(jié)果和社區(qū)話題,進(jìn)行專家搜索。與現(xiàn)有工作不同的是,本發(fā)明通過利用動態(tài)社區(qū)挖掘結(jié)果,可以在不同時(shí)刻進(jìn)行專家檢索。下面介紹動態(tài)社區(qū)挖掘的相關(guān)工作?,F(xiàn)實(shí)中或互聯(lián)網(wǎng)上的個(gè)體有不同形式的交互關(guān)系,從而形成了各種社會網(wǎng)絡(luò),如引文網(wǎng)絡(luò)、朋友網(wǎng)絡(luò)、郵件互動網(wǎng)絡(luò)等。對這些社會網(wǎng)絡(luò)進(jìn)行分析目的是對社會網(wǎng)絡(luò)中的個(gè)體按照其相似程度進(jìn)行劃分,從而發(fā)現(xiàn)在特定方面相似性很高的個(gè)體所組成的社區(qū),在社區(qū)內(nèi)部個(gè)體的相似性很高,社區(qū)間的個(gè)體相似性很低。
[0004]社會網(wǎng)絡(luò)隨時(shí)間在變化,例如,在合作關(guān)系網(wǎng)絡(luò)中,合作關(guān)系隨時(shí)間在變化;在線社交網(wǎng)絡(luò)中,朋友關(guān)系和瀏覽關(guān)系隨時(shí)間在變化;微博平臺中由關(guān)注與被關(guān)注、轉(zhuǎn)發(fā)與評論所形成的弱關(guān)系網(wǎng)絡(luò)也在不斷更新。因此,社區(qū)挖掘方法應(yīng)該能適應(yīng)動態(tài)網(wǎng)絡(luò)環(huán)境。針對動態(tài)網(wǎng)絡(luò)環(huán)境的社區(qū)挖掘不僅能夠揭示社區(qū)的演化規(guī)律,還能預(yù)測未來的演化趨勢,因此具有極強(qiáng)的應(yīng)用價(jià)值。目前,針對動態(tài)網(wǎng)絡(luò)的社區(qū)挖掘方法(簡稱動態(tài)社區(qū)挖掘)又分為兩類。第一類方法是對動態(tài)網(wǎng)絡(luò)的每一個(gè)快照分別進(jìn)行社區(qū)挖掘,再對比不同時(shí)間的社區(qū)挖掘結(jié)果(J.Hopcroft, 0.Khan, B.Kulis, and B.Selman, " Tracking evolving communitiesin large linked networks, " presented at the Proc.Natl.Acad.Sc1.,2004.X 第二類方法則假設(shè)相鄰時(shí)間的社區(qū)挖掘結(jié)果應(yīng)該相似,因此,對每一個(gè)快照挖掘社區(qū)時(shí),不僅依據(jù)當(dāng)前快照的網(wǎng)絡(luò)結(jié)構(gòu),還依據(jù)前一時(shí)間的社區(qū)挖掘結(jié)果(D.Chakrabarti, Kumar, R.,&Tomkins, A., " Evolutionary clustering, " presented at the In Proceedingsof the 12th ACM SIGKDD conference, 2006.)> (Y.C.Y.Lin, S.Zhu, H.Sundaram, B.Tseng, " FacetNet:A Framework for Analyzing Communities and Their Evolutionsin Dynamic Networks, " presented at the Wffff 2008.)
[0005]無論是第一類方法還是第二類方法都只依據(jù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),而忽視了網(wǎng)絡(luò)中豐富的內(nèi)容信息。社區(qū)挖掘結(jié)果也只揭示網(wǎng)絡(luò)的鏈接密集情況及其演變,從而限制了應(yīng)用范圍。由于內(nèi)容信息,比如博客、論文、評論等等,表現(xiàn)了社會網(wǎng)絡(luò)的語義層面的特征,如個(gè)體的興趣、角色、觀點(diǎn)等,在社區(qū)挖掘方法中考慮內(nèi)容因素能夠揭示出社區(qū)在語義層面的特征,如不同的社區(qū)側(cè)重不同的話題。而動態(tài)社會網(wǎng)絡(luò)中,不僅有節(jié)點(diǎn)和鏈接的變化,內(nèi)容也在變化。例如,在合作網(wǎng)絡(luò)中,一個(gè)研究者會從一個(gè)研究方向轉(zhuǎn)移到另一個(gè)研究方向,在線社會網(wǎng)絡(luò)中發(fā)布的日志內(nèi)容在變化,郵件網(wǎng)絡(luò)中兩個(gè)人的來往郵件在不同時(shí)刻所討論的內(nèi)容會不斷變化。因此,在動態(tài)網(wǎng)絡(luò)環(huán)境中,如果同時(shí)利用鏈接結(jié)構(gòu)和內(nèi)容信息挖掘社區(qū),不僅能夠揭示社區(qū)本身隨時(shí)間的演化過程,還能揭示社區(qū)與哪些話題相關(guān)聯(lián),以及社區(qū)的話題隨時(shí)間的變化過程。

【發(fā)明內(nèi)容】

[0006]本發(fā)明針對專家檢索給出了針對性的社區(qū)劃分方法。由于社區(qū)本身具有成員分布和話題分布,本發(fā)明在專家檢索時(shí),利用社區(qū)的這兩個(gè)分布對社區(qū)成員進(jìn)行排名,通過利用社區(qū)劃分結(jié)果和社區(qū)話題,進(jìn)行專家搜索,從而實(shí)現(xiàn)不同時(shí)刻的專家檢索。
[0007]本發(fā)明針對動態(tài)網(wǎng)絡(luò),在挖掘動態(tài)社區(qū)的同時(shí),找出與社區(qū)相關(guān)的話題。由于社區(qū)劃分采用的是軟分類(以概率形式表示社區(qū)劃分結(jié)果以及社區(qū)的話題分布),使得社區(qū)劃分結(jié)果可以直接應(yīng)用于專家檢索。因此,本發(fā)明的關(guān)鍵點(diǎn)在于挖掘動態(tài)社區(qū)。針對動態(tài)網(wǎng)絡(luò)環(huán)境,利用鏈接結(jié)構(gòu)和內(nèi)容信息挖掘社區(qū),計(jì)算拓?fù)浣Y(jié)構(gòu)代價(jià)和內(nèi)容信息代價(jià),使得結(jié)果不僅反映社區(qū)規(guī)模的變化,還能反映社區(qū)的話題分布及其隨時(shí)間的變化,從而可以將社區(qū)挖掘結(jié)果直接專家搜索。
[0008]本發(fā)明提供一種利用動態(tài)社區(qū)挖掘結(jié)果進(jìn)行專家檢索的方法,其步驟包括:
[0009]( I)從目標(biāo)網(wǎng)絡(luò)獲取數(shù)據(jù)集,按時(shí)間段劃分成多個(gè)子數(shù)據(jù)集,每個(gè)子數(shù)據(jù)集包括一系列網(wǎng)絡(luò)快照(G1, G2,…,GT)。時(shí)間跨度依具體網(wǎng)絡(luò)而定,對于更新周期較慢的網(wǎng)絡(luò)如論文合作網(wǎng)絡(luò),由于論文的發(fā)表按年份進(jìn)行統(tǒng)計(jì),因此,時(shí)間跨度以年份為單位。而對于更新很快的網(wǎng)絡(luò),如微博系統(tǒng),由于網(wǎng)絡(luò)每天都有更新,時(shí)間跨度應(yīng)以天為單位;
[0010](2)對每個(gè)子數(shù)據(jù)集使用矩陣分解方法進(jìn)行社區(qū)劃分,所述矩陣分解方法的步驟包括:
[0011 ] a)針對每一個(gè)網(wǎng)絡(luò)快照Gt,`根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)間的轉(zhuǎn)移概率建立節(jié)點(diǎn)相似矩陣W,根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)和文本中的單詞間的轉(zhuǎn)移概率建立內(nèi)容信息矩陣C。節(jié)點(diǎn)間的相似性依據(jù)特定問題來確定,如節(jié)點(diǎn)間的鏈接次數(shù)、鄰域的重疊度等等。內(nèi)容信息矩陣C的構(gòu)建過程是,對網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn),將與其相關(guān)的文本內(nèi)容合并為一個(gè)文本,并表示為詞頻向量。網(wǎng)絡(luò)中的所有個(gè)體對應(yīng)的詞頻向量組成了矩陣C,行和列分別對應(yīng)網(wǎng)絡(luò)節(jié)點(diǎn)集合和單詞集合;
[0012]b)根據(jù)節(jié)點(diǎn)相似矩陣W計(jì)算拓?fù)浣Y(jié)構(gòu)代價(jià)Costw ;
[0013]c)根據(jù)內(nèi)容信息矩陣C計(jì)算內(nèi)容信息代價(jià)cost。;
[0014]d)根據(jù)Costw和cost。計(jì)算社區(qū)劃分代價(jià)costt(rtal ;
[0015]e)將社區(qū)劃分代價(jià)近似的網(wǎng)絡(luò)節(jié)點(diǎn)的集合作為一個(gè)社區(qū);讓Fl = XU, Σ,#=1,F(xiàn)S就是社區(qū)劃分結(jié)果。由于在分解時(shí)要求Σ iXi^l,即每一個(gè)節(jié)點(diǎn)的社區(qū)成員身份用概率表示,因此一個(gè)節(jié)點(diǎn)可以屬于多個(gè)社區(qū);Fe=VU,Σ/; =1,F(xiàn)e正是話題在社區(qū)上的概率分布,一個(gè)話題可以與多個(gè)社區(qū)有關(guān)聯(lián),只是關(guān)聯(lián)程度不同;?/eit1-則對應(yīng)于社區(qū)規(guī)模;通過匹配相鄰時(shí)間的社區(qū)劃分結(jié)果,可以找出一個(gè)社區(qū)在不同時(shí)間的成員分布、話題分布,進(jìn)而分析社區(qū)規(guī)模、社區(qū)的話題隨時(shí)間的演變情況。匹配社區(qū)有多種方法,如歐幾里德距離、標(biāo)準(zhǔn)化互信息、相對重疊度等。對于一個(gè)社區(qū)r,將其成員按Xt排序,可以找出該社區(qū)的核心成員。按話題概率&排序,則可以分析社區(qū)相關(guān)聯(lián)的話題。
[0016](3)利用社區(qū)劃分結(jié)果進(jìn)行專家排名。[0017]下面具體分析動態(tài)社區(qū)挖掘中的拓?fù)浣Y(jié)構(gòu)代價(jià)、內(nèi)容信息代價(jià)和社區(qū)劃分代價(jià)。
[0018]1、拓?fù)浣Y(jié)構(gòu)代價(jià)
[0019]對于節(jié)點(diǎn)相似矩陣W,W、lCm,如果將Wij看做節(jié)點(diǎn)i到節(jié)點(diǎn)j的轉(zhuǎn)移概率,那么 % G Yh' Pr P_i,.,其中,Pr是第r個(gè)社區(qū)的先驗(yàn)概率,pir是節(jié)點(diǎn)i屬于第r個(gè)社區(qū)的概率, P#是節(jié)點(diǎn)j屬于第r個(gè)社區(qū)的概率。由于這個(gè)混合模型中節(jié)點(diǎn)與社區(qū)的關(guān)系用概率表示,因 此,一個(gè)節(jié)點(diǎn)可以屬于多個(gè)社區(qū)。這個(gè)模型表達(dá)為矩陣形式,則是W?XUXT,其中,XeR", k是社區(qū)個(gè)數(shù),E ixir=l,xir=pir ; Ug,是對角矩陣;urr=pr, E rurr=lo因此,通過對矩陣W 進(jìn)行分解,可以求得利用矩陣分解結(jié)果表達(dá)的社區(qū)劃分結(jié)果Fl = XU,/是第i個(gè) 成員屬于社區(qū)r的可能性。W與分解結(jié)果XUXT的距離為D(W||XUXt)。D(A||B)是矩陣A、B
的 KL 距離(Kullback-Leibler Divergence),計(jì)算公式是 D(J||5) = ^^.(atf logf-。
°V
[0020]假設(shè)t_l時(shí)刻的分解結(jié)果是L 二XA—X—a。那么鏈接結(jié)構(gòu)代價(jià)可用矩陣的分解形 式表示為:
[0021 ] costw =r D(J,F ; XUXJ) + (I - <') ? D(/. XUX' } I ;
[0022]其中3為時(shí)間平滑參數(shù)。
[0023]2、內(nèi)容信息代價(jià)
[0024]社會網(wǎng)絡(luò)的內(nèi)容信息在本發(fā)明中指文本信息,例如博客文本、郵件文本、Web網(wǎng)頁 文本等。實(shí)際的動態(tài)社會網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)是相對穩(wěn)定的,即在短時(shí)間內(nèi)一般不會劇烈變化, 而動態(tài)網(wǎng)絡(luò)中的內(nèi)容則隨著時(shí)間在不斷變化,有些網(wǎng)絡(luò)如在線社交網(wǎng)絡(luò)或微博網(wǎng)絡(luò)中的內(nèi) 容更新會更快,所以,用一個(gè)時(shí)間的內(nèi)容限制另一個(gè)時(shí)間的內(nèi)容不符合真實(shí)的網(wǎng)絡(luò)情況,因 此我們不考慮歷史的內(nèi)容信息代價(jià)。
[0025]對于一個(gè)網(wǎng)絡(luò)快照Gt,網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)都與某些文本相關(guān)聯(lián),例如郵件網(wǎng)絡(luò)中 用戶發(fā)送、接收的郵件、引文網(wǎng)絡(luò)中研究者所發(fā)表或引用的文章等,為了使用矩陣分解方法 進(jìn)行社區(qū)劃分,我們將內(nèi)容信息表達(dá)為矩陣形式。具體方法是,對于快照Gt中的每一個(gè)節(jié) 點(diǎn),將與該節(jié)點(diǎn)關(guān)聯(lián)的所有文本合并,并表示為詞頻向量,所有用戶對應(yīng)的詞頻向量組成內(nèi) 容信息矩陣Ct,行和列分別對應(yīng)節(jié)點(diǎn)集合和單詞集合。因此可將Gt表示為(Wt,Ct)。在沒有 混淆的情況下,下面的篇幅中用(W,C)表示(Wt,Ct)。
[0026]對于內(nèi)容信息矩陣(' e ,m和n分別是網(wǎng)絡(luò)節(jié)點(diǎn)個(gè)數(shù)和單詞個(gè)數(shù),如果將單詞 視為另一種節(jié)點(diǎn),可以采用類似于在拓?fù)浣Y(jié)構(gòu)代價(jià)中對W的分解思想,將cid看做節(jié)點(diǎn)i(網(wǎng) 絡(luò)個(gè)體)到節(jié)點(diǎn)d (單詞)的轉(zhuǎn)移概率,CiA ~Y!r=lPr -Pir'Pdr,其中,Pr是第I"個(gè)社區(qū)的先驗(yàn)概 率,Pir是節(jié)點(diǎn)i屬于第r個(gè)社區(qū)的概率,pdr是單詞d和社區(qū)r的關(guān)聯(lián)概率。用矩陣形式表 達(dá),則為C?XUVT,其中,是對W和C分解的共同因子。讓Fe=VU,K=l,其 中是是社區(qū)r與第i個(gè)話題的關(guān)聯(lián)概率,因此,F(xiàn)c正是話題在社區(qū)上的概率分布。
[0027]所以,對C分解的內(nèi)容信息代價(jià)是
[0028]costc=D(C || XUVT) (2)
[0029]其中,D(C11 XUVT)是 KL 距離,VeRf 0
[0030]3、社區(qū)劃分代價(jià)
[0031]將鏈接結(jié)構(gòu)代價(jià)和內(nèi)容信息代價(jià)合并,總代價(jià)即為社區(qū)劃分代價(jià),公式為:[0032]
【權(quán)利要求】
1.一種利用動態(tài)社區(qū)挖掘結(jié)果進(jìn)行專家檢索的方法,其步驟包括: (1)從目標(biāo)網(wǎng)絡(luò)獲取數(shù)據(jù)集,按時(shí)間段劃分成多個(gè)子數(shù)據(jù)集,每個(gè)子數(shù)據(jù)集包括一系列網(wǎng)絡(luò)快照,對每個(gè)子數(shù)據(jù)集使用矩陣分解方法進(jìn)行社區(qū)劃分,所述矩陣分解方法的步驟包括: Ca)對每一網(wǎng)絡(luò)快照,根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)間的轉(zhuǎn)移概率建立節(jié)點(diǎn)相似矩陣W,根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)和文本中的單詞間的轉(zhuǎn)移概率建立內(nèi)容信息矩陣C ; (b)根據(jù)節(jié)點(diǎn)相似矩陣W計(jì)算拓?fù)浣Y(jié)構(gòu)代價(jià)Costw;
2.如權(quán)利要求1所述的方法,其特征在于,所述節(jié)點(diǎn)間的相似性依據(jù)特定問題來確定,包括節(jié)點(diǎn)間的鏈接次數(shù)、鄰域的重疊度。
3.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容信息包括博客文本、郵件文本、Web網(wǎng)頁文本在內(nèi)的文本信息。
4.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容代價(jià)不考慮歷史的內(nèi)容信息代價(jià)。
5.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容信息矩陣C的構(gòu)建過程是對網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn),將與其相關(guān)的文本內(nèi)容合并為一個(gè)文本,并表示為詞頻向量;網(wǎng)絡(luò)中的所有個(gè)體對應(yīng)的詞頻向量組成矩陣C,行和列分別對應(yīng)網(wǎng)絡(luò)節(jié)點(diǎn)集合和單詞集合。
6.如權(quán)利要求1所述的方法,其特征在于,所述節(jié)點(diǎn)相似矩陣為轉(zhuǎn)移概率矩陣,為節(jié)點(diǎn)i到節(jié)點(diǎn)j的轉(zhuǎn)移概率
7.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容信息矩陣為轉(zhuǎn)移概率矩陣,Cid為網(wǎng)絡(luò)個(gè)體i到單詞d的轉(zhuǎn)移概率,
8.如權(quán)利要求1所述的方法,其特征在于,所述匹配結(jié)果按成員概率排序,得到該社區(qū)的核心成員;按話題概率排序,得到與社區(qū)相關(guān)聯(lián)的話題。
9.如權(quán)利要求1所述的方法,其特征在于,所述匹配社區(qū)的方法包括根據(jù)歐幾里德距離或標(biāo)準(zhǔn)化互信息或相對重疊度進(jìn)行匹配。
10.如權(quán)利要求1所述的方法,其特征在于,步驟(d)對X、U、V進(jìn)行迭代計(jì)算;
【文檔編號】G06F17/30GK103488637SQ201210191968
【公開日】2014年1月1日 申請日期:2012年6月11日 優(yōu)先權(quán)日:2012年6月11日
【發(fā)明者】閆秋玲, 陳薇, 王騰蛟, 楊冬青 申請人:北京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
汾阳市| 宜黄县| 库车县| 冕宁县| 宝坻区| 衡阳市| 绥宁县| 嘉义市| 专栏| 崇礼县| 揭阳市| 奉化市| 洪洞县| 盐城市| 沛县| 什邡市| 金塔县| 阜平县| 莱西市| 三门峡市| 顺昌县| 邹平县| 达日县| 宁化县| 桦南县| 资源县| 瑞丽市| 太仓市| 郸城县| 库伦旗| 淳化县| 兴宁市| 贺州市| 东至县| 绥阳县| 澎湖县| 驻马店市| 馆陶县| 灌云县| 吴桥县| 鄂温|