一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法
【專利摘要】本發(fā)明公開了一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法,屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。所述排序方法中,給定一個(gè)時(shí)間窗口,在學(xué)術(shù)社交網(wǎng)絡(luò)中發(fā)現(xiàn)魔力研究社區(qū);所述的魔力研究社區(qū)是那些逐漸開始流行的有吸引力的研究社區(qū)。具體包括研究社區(qū)內(nèi)部特征計(jì)算、外部特征FE計(jì)算和排序的步驟。本發(fā)明可幫助研究人員更好地了解和把握當(dāng)前的研究趨勢(shì)和熱點(diǎn);突破了現(xiàn)有研究中的假設(shè),即一個(gè)人在一個(gè)時(shí)刻只處于一個(gè)社區(qū);抽取了魔力研究社區(qū)的特征,并設(shè)計(jì)了統(tǒng)一的算法對(duì)研究社區(qū)的潛在流行程度進(jìn)行排序。
【專利說明】
一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明應(yīng)用于發(fā)現(xiàn)學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū),屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 近幾年來,社交網(wǎng)絡(luò)平臺(tái)(例如:Facebook和Twitter)發(fā)展迅速。同時(shí),社交網(wǎng)絡(luò)分 析也受到了學(xué)術(shù)界的廣泛關(guān)注。學(xué)術(shù)網(wǎng)絡(luò)作為社交網(wǎng)絡(luò)中非常重要的組成部分,也成為了 研究人員的研究重點(diǎn),參見參考文獻(xiàn)[l]J.Tang,J.Zhang,L.Yao,J.Li,L.Zhang,and Z.Su, "Arnetminer: extraction and mining of academic social networks,',in Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and (1&七3 111;[11;[邱.六0\1,2008,卩卩.990-998.參考文獻(xiàn)[2]<1.1&邱,1?. <1;[11,&11(1<1.211&邱,1如卩;[。 modeling approach and its integration into the random walk framework for academic search,',in Data Mining Eighth IEEE International Conference on. IEEE, 2008,pp.1055-10600
[0003] 參考文獻(xiàn)[3](G.Wang,Y. Zhao, X. Shi,and P.S.Yu,"Magnet communi ty identification on social networks,"in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2012, pp.588-596.)提出了魔力社區(qū)的概念并把它應(yīng)用于IT公司和金融企業(yè)吸引力的排序。該參 考文獻(xiàn)[3]旨在找到某種流行的社區(qū),同時(shí)假設(shè)社區(qū)間是彼此獨(dú)立的,一個(gè)人在某一時(shí)刻只 能處于一個(gè)社區(qū)中。然而在很多現(xiàn)實(shí)場(chǎng)景中(如學(xué)術(shù)社交網(wǎng)絡(luò)),如果把研究相同內(nèi)容的研 究人員看做一個(gè)社區(qū),那么找到那些目前很新、未來會(huì)流行的社區(qū)而不是那些已經(jīng)非常流 行的社區(qū)更有價(jià)值。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于幫助研究人員,尤其是沒有經(jīng)驗(yàn)的研究人員,從宏觀的角度對(duì) 現(xiàn)有研究社區(qū)的發(fā)展有所認(rèn)識(shí),幫助研究人員更好地選擇自己的研究課題。本發(fā)明提供一 種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法,所述排序方法中,給定一個(gè)時(shí)間窗口,在學(xué)術(shù) 社交網(wǎng)絡(luò)中發(fā)現(xiàn)魔力研究社區(qū)。所述的魔力研究社區(qū)不是指那些已經(jīng)非常流行的社區(qū),而 是那些逐漸開始流行的有吸引力的研究社區(qū)。本發(fā)明適用于針對(duì)信息檢索和社區(qū)推薦等應(yīng) 用。
[0005] 本發(fā)明提供的學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法,具體包括如下步驟:
[0006] 第一步,研究社區(qū)內(nèi)部特征計(jì)算;
[0007] 選擇新穎度作為研究社區(qū)內(nèi)部特征Fc,第j個(gè)研究社區(qū)Cj的新穎度化是指社區(qū)主題 的單詞從時(shí)間窗口 s到s+1的頻率變化,用表示;研究社區(qū)&的新穎度%相當(dāng)于主題下 每個(gè)單詞新穎度的和;
[0008] 研究社區(qū)&的新穎度%通過以下方式計(jì)算:
Cl)
[0010] 其中,l表示包含單詞wv的研究社區(qū)的數(shù)目,碲>和※+u分別表示單詞Wv在時(shí) 間窗口 s和s+l中出現(xiàn)的次數(shù);|W|是單詞Wv的數(shù)量,v=l,2,…,|W| ; |C|是研究社區(qū)網(wǎng)絡(luò)中 研究社區(qū)的數(shù)量;
[0011] 第二步,研究社區(qū)外部特征Fe計(jì)算;
[0012] 給定研究人員心在時(shí)間窗口 s和s+l的社區(qū)分布分別為和/?(:'廣\計(jì)算研究人 員心總的轉(zhuǎn)移量、計(jì)算研究人員心從研究社區(qū)Cy到研究社區(qū)Q的轉(zhuǎn)移量以轉(zhuǎn)移量為矩 陣元素得到轉(zhuǎn)移矩陣對(duì)每個(gè)研究人員心的轉(zhuǎn)移矩陣;r(~相加,得到最終的轉(zhuǎn)移矩陣T; [0013] 第三步,排序;
[0014]給定研究社區(qū)網(wǎng)絡(luò)的帶權(quán)有向圖G = (C,E,F(xiàn)c,F(xiàn)e),對(duì)任意的Cj G c,定義研究社區(qū) C撒引其他研究社區(qū)Cf的研究人員注意力的能力Ujy :
(2)
[0016]其中,a是權(quán)重參數(shù),$是研究社區(qū)Q到研究社區(qū)以的轉(zhuǎn)移矩陣Ty的轉(zhuǎn)置,(^是研 究社區(qū)Cj的大??;
[0017]對(duì)于任意的研究社區(qū)QGC,它傳播注意力到其他研究社區(qū)Cy的能力定義為:
(3)
[0019]基于公式(2)和公式(3),為每個(gè)研究社區(qū)定義兩個(gè)得分:正面得分PS和負(fù)面得分 NS;正面得分從吸引注意力的角度衡量研究社區(qū)的吸引力,負(fù)面得分從傳播注意力的角度 衡量研究社區(qū)的吸引力,對(duì)于研究社區(qū)Q的正面得分PS」和負(fù)面得分峪的定義如下:
(4) 是標(biāo)準(zhǔn)化因子;
[0022] 基于這兩個(gè)得分,研究社區(qū)的吸引力等級(jí)心通過下面的公式來計(jì)算:
[0023] Aj = PSj-NSj (5)。
[0024]本發(fā)明的優(yōu)點(diǎn)在于:
[0025] (1)本發(fā)明第一次提出了,如何在學(xué)術(shù)社交網(wǎng)絡(luò)中發(fā)現(xiàn)潛在有吸引力的研究社區(qū), 也就是魔力研究社區(qū)的問題,本發(fā)明可幫助研究人員更好地了解和把握當(dāng)前的研究趨勢(shì)和 執(zhí)占.
[0026] (2)本發(fā)明突破了現(xiàn)有研究中的假設(shè),即一個(gè)人在一個(gè)時(shí)刻只處于一個(gè)社區(qū);
[0027] (3)本發(fā)明抽取了魔力研究社區(qū)的特征,并設(shè)計(jì)了統(tǒng)一的算法對(duì)研究社區(qū)的潛在 流行程度進(jìn)行排序。
【附圖說明】
[0028] 圖1A和圖1B是本發(fā)明方法與現(xiàn)有算法Indegree,PageRank和MIM分別在兩個(gè)不同 數(shù)據(jù)集上的比較示意圖。
[0029] 圖2A和圖2B為相關(guān)算法與HotRank、TrandRank分別在兩個(gè)不同數(shù)據(jù)集上的對(duì)比示 意圖。
[0030]圖3為實(shí)施例中給定的一個(gè)社區(qū)網(wǎng)絡(luò)6=((:3,&^£)示意圖。
【具體實(shí)施方式】
[0031]下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0032]本發(fā)明提供一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法,是一種發(fā)現(xiàn)有吸引力 研究社區(qū)的方法(Attractive Research Community Ranking,簡(jiǎn)稱ARTRank)。所述的有吸 引力研究社區(qū)也稱魔力研究社區(qū),本發(fā)明用心表示所述的魔力研究社區(qū)的吸引力等級(jí), A,A為所有魔力研究社區(qū)的吸引力等級(jí)集合。給定一個(gè)研究社區(qū)網(wǎng)絡(luò)6=((:3^(:^£),則魔 力研究社區(qū)的吸引力等級(jí)集合A定義為△=^&及)4是研究社區(qū)網(wǎng)絡(luò)的內(nèi)部特征價(jià)和外部 特征Fe的聯(lián)合函數(shù)。定義研究社區(qū)Q和研究社區(qū)C/的吸引力等級(jí)分別為、和針,則研究社 區(qū)Q比研究社區(qū)Cy更有吸引力當(dāng)且僅當(dāng)、>、,。所以找到魔力研究社區(qū)的問題是一個(gè)排序 問題。
[0033] 本發(fā)明將研究社區(qū)網(wǎng)絡(luò)定義為帶權(quán)有向圖6=((:3^^?〇,其中(:表示研究社區(qū)(^ 的集合,每個(gè)研究社區(qū)Q是一組聚合的研究人員,E表示研究社區(qū)間鏈接的集合,表示研究 人員在研究社區(qū)間的轉(zhuǎn)移。F C表示每個(gè)研究社區(qū)的內(nèi)部特征,F(xiàn)e為表示研究社區(qū)間鏈接的外 部特征。
[0034] 本發(fā)明用Ri表示第i個(gè)研究人員,使用Latent Dirichlet Allocation(LDA)(參考 文南犬[4] :D.M.Blei,A. Y.Ng,and M? I ? Jordan,"Latent dirichlet allocation," the Journal of machine Learning research,vol.3,pp.993-1022,2003?參考文獻(xiàn)[5]: T.L.Griffiths and M.Steyvers,"Finding scientific topics/'Proceedings of the National Academy ofSciences,vol. 101,no. suppl l,pp.5228-5235,2004.)模型對(duì)研究 人員進(jìn)行聚類。通過聚類,每個(gè)研究人員可以表示為一個(gè)在主題(研究社區(qū))上的概率分布。 LDA模型的結(jié)果可以表示為兩個(gè)矩陣,分別為矩陣RC和矩陣CW:
[0035]矩陣RC為|R| X |C|的矩陣,|R|是研究社區(qū)網(wǎng)絡(luò)內(nèi)的研究人員的數(shù)量,|C|是研究 社區(qū)網(wǎng)絡(luò)中研究社區(qū)的數(shù)量,也是研究社區(qū)集合內(nèi)的研究社區(qū)總數(shù)。RC^是研究人員心屬于 研究社區(qū)Cj的概率。i = l,2,…,|R|,j = l,2,…,|C|。
[0036] 矩陣CW為|C| X |W|的矩陣,|W|是單詞Wv的數(shù)量,v=l,2,…,|W| <XWjv是單詞Wv指 派給研究社區(qū)Q的概率。
[0037]基于上述的定義,本發(fā)明提供了一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法, 包括研究社區(qū)內(nèi)部特征計(jì)算、外部特征計(jì)算和等級(jí)吸引力排序,具體步驟如下:
[0038] 第一步,研究社區(qū)內(nèi)部特征計(jì)算。
[0039] 本發(fā)明選擇新穎度作為研究社區(qū)內(nèi)部特征Fc。第j個(gè)研究社區(qū)Q的新穎度化是指社 區(qū)主題的單詞從時(shí)間窗口 s到s+1的頻率變化,用表示。研究社區(qū)的新穎度的概念來源 于社交網(wǎng)絡(luò)事件檢測(cè)中突發(fā)主題檢測(cè)的概念。在事件檢測(cè)中,當(dāng)某個(gè)事件主題的單詞比往 常更頻繁地出現(xiàn)時(shí),那么這個(gè)事件被定義為突發(fā)事件(參見參考文獻(xiàn)[6] :Q.Diao,J. Jiang, F.Zhu,and E.-P.Lim, "Finding bursty topics from microblogs,''in Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1.Association for Computational Linguistics,2012,pp.536-544.)〇 一個(gè)擁有新穎主題的研究社區(qū)能更多地吸引研究人員的注意力。根據(jù)研究社區(qū)的新穎度的 定義,研究社區(qū)q的新穎度化相當(dāng)于主題下每個(gè)單詞新穎度的和。
[0040] 首先,單詞Wv應(yīng)該能很好地表示研究社區(qū)Q的主題。使用單詞Wv指派給研究社區(qū)Cj 的概率,也就是CWjv,來表示單詞Wv對(duì)研究社區(qū)Cj的重要性。其中CWjv由LDA模型得至lj。但這個(gè) 單一的標(biāo)準(zhǔn)是不夠的,比如單詞"network"在多個(gè)研究社區(qū)中出現(xiàn),而單詞"social"僅在其 中的某一個(gè)研究社區(qū)出現(xiàn),顯然"social"比"network"能更好地表示這個(gè)研究社區(qū)。所以, 本發(fā)明使用IDF(inverse document frequency)值作為補(bǔ)充來衡量單詞Wv對(duì)研究社區(qū)Cj的 重要程度。另外根據(jù)研究社區(qū)的新穎度的定義,單詞W v的頻率變化能夠反映研究社區(qū)(^的新 穎度。通過以上分析,研究社區(qū)Q的新穎度化可通過以下方式計(jì)算:
(1)
[0042]其中,%表示包含單詞Wv的研究社區(qū)的數(shù)目,_和<+1>分別表示單詞 Wv在時(shí) 間窗口 s和s+1中出現(xiàn)的次數(shù)。
[0043]第二步,研究社區(qū)外部特征Fe計(jì)算。
[0044] 研究人員在研究社區(qū)間的轉(zhuǎn)移反映了研究社區(qū)的發(fā)展趨勢(shì),本發(fā)明把研究人員的 社區(qū)分布中從研究社區(qū)Cy到研究社區(qū)Q的變化定義為研究人員從研究社區(qū)Cy到研究社區(qū) Cj的轉(zhuǎn)移。給定研究人員Ri在時(shí)間窗口 s和s+1的社區(qū)分布分別為和說;(i+l),通常研究 人員h的注意力會(huì)從一些研究社區(qū)轉(zhuǎn)移到另外一些研究社區(qū)。假設(shè)對(duì)于研究人員h,研究社 區(qū)得到的轉(zhuǎn)移量按比例來自于那些失去關(guān)注的研究社區(qū)。在計(jì)算了每個(gè)研究人員的轉(zhuǎn)移矩 陣后,把所有研究人員的轉(zhuǎn)移矩陣相加,就得到最終的研究社區(qū)間的轉(zhuǎn)移矩陣,即為研究社 區(qū)外部特征Fe。
[0045] 所述轉(zhuǎn)移矩陣的生成方法包括:(1)計(jì)算研究人員h總的轉(zhuǎn)移量、(2)計(jì)算研究人 員心從研究社區(qū)到研究社區(qū)q的轉(zhuǎn)移量ft,以轉(zhuǎn)移量為矩陣元素得到轉(zhuǎn)移矩陣,以 及(3)對(duì)每個(gè)研究人員心的轉(zhuǎn)移矩陣相加,得到最終的轉(zhuǎn)移矩陣T。具體實(shí)現(xiàn)方法如下:
[0047] 第三步,排序。
[0048] 給定研究社區(qū)網(wǎng)絡(luò)的帶權(quán)有向圖G = (C,E,F(xiàn)c,F(xiàn)e),對(duì)任意的Cj G C,定義研究社區(qū) C撒引其他研究社區(qū)Cf的研究人員注意力的能力
(2)
[0050]其中,a是權(quán)重參數(shù),g是研究社區(qū)Q到研究社區(qū)Cy的轉(zhuǎn)移矩陣Tf的轉(zhuǎn)置,(^是研 究社區(qū)Q的大小,也就是說本發(fā)明的排序方法是對(duì)研究社區(qū)大小敏感的。這樣一個(gè)流行的 研究社區(qū)將從其他研究社區(qū)得到很少的貢獻(xiàn),而有吸引力的研究社區(qū)從其他研究社區(qū)得到 的貢獻(xiàn)卻很多,因?yàn)榱餍械难芯可鐓^(qū)往往很大,而有吸引力的研究社區(qū)往往很新也相對(duì)較 小。同樣的,在計(jì)算研究社區(qū)傳播注意力的能力時(shí),也考慮了研究社區(qū)大小,以避免找到那 些太小的研究社區(qū)。也就是說,對(duì)于任意的研究社區(qū)QGC,它傳播注意力到其他研究社區(qū) Or的能力可以定義為:
(3)
[0052]基于公式(2)和公式(3),為每個(gè)研究社區(qū)定義兩個(gè)得分:正面得分PS和負(fù)面得分 NS。正面得分從吸引注意力的角度衡量研究社區(qū)的吸引力,負(fù)面得分從傳播注意力的角度 衡量研究社區(qū)的吸引力。對(duì)于研究社區(qū)G的正面得分PS」和負(fù)面得分峪的定義如下: (4) 是標(biāo)準(zhǔn)化因子。一個(gè)研究社區(qū)擁有高正面得分PS意味著它從其他
研究社區(qū)得到了很多的貢獻(xiàn),相反擁有高的負(fù)面得分NS意味著它為其他研究社區(qū)做了很多 的貢獻(xiàn)。一個(gè)流行的研究社區(qū)會(huì)同時(shí)有高的正面得分PS和高的負(fù)面得分NS,而有吸引力的 研究社區(qū)有高的正面得分PS和低的負(fù)面得分NS?;谶@兩個(gè)得分,研究社區(qū)Q的吸引力等 級(jí)、可以通過下面的公式來計(jì)算:
[0055] Aj = PSj-NSj (5)
[0056] 根據(jù)公式(4)和公式(5),所述的研究社區(qū)吸引力等級(jí)排序方法的詳細(xì)步驟如下:
[0058] 實(shí)施例:
[0059]本實(shí)施例中使用的數(shù)據(jù)集來自ArnetMiner(參考文獻(xiàn)[1]、[2])。
[0060]計(jì)算機(jī)科學(xué)數(shù)據(jù)集:該數(shù)據(jù)集包含和計(jì)算機(jī)科學(xué)相關(guān)的2,084,055篇論文,每篇論 文包含題目、作者、發(fā)表年份和摘要等等。從2005年到2010年的數(shù)據(jù)中抽取作者、題目和摘 要信息,于是得到和2005-2006,2007-2008兩個(gè)時(shí)間窗口相關(guān)的數(shù)據(jù),其中各包含了47565 個(gè)作者的相關(guān)信息。
[0061 ]數(shù)據(jù)領(lǐng)域會(huì)議數(shù)據(jù)集:該數(shù)據(jù)集是計(jì)算機(jī)科學(xué)數(shù)據(jù)集的子集,該數(shù)據(jù)取自九個(gè)頂 級(jí)會(huì)議(SIGM0D,KDD,VLDB,SIGIR,ICDE,CIKM,WWW,ICDM and WSDM),通過預(yù)處理,在2005-2006和2007-2008兩個(gè)時(shí)間窗口中分別保留了2399個(gè)作者的信息。
[0062]本實(shí)施例使用LDA模型進(jìn)行社區(qū)檢測(cè)。在計(jì)算機(jī)科學(xué)數(shù)據(jù)集上,設(shè)主題數(shù)|C|為 300,也就是說要找到300個(gè)研究社區(qū)。在數(shù)據(jù)領(lǐng)域會(huì)議數(shù)據(jù)集上,設(shè)主題數(shù)| C |為50,也就是 要找到50個(gè)研究社區(qū)。把LDA模型中兩個(gè)Dirichlet超參數(shù)分別設(shè)為
和0.01。
[0063]本發(fā)明提出的排序方法同以下四個(gè)方法進(jìn)行了比較。
[0064] 對(duì)比方法1:入度(Indegree): Indegree僅僅通過研究人員的轉(zhuǎn)入量來衡量研究社 區(qū)的吸引力。
[0065] 對(duì)比方法2 : PageRank(參見參考文獻(xiàn)[7] :L.Page,S.Brin,R. Motwani,and T ? Winograd,"The pagerank citation ranking: Bringing order to the web 1999 ?): PageRank把研究人員在社區(qū)間的轉(zhuǎn)移看做一種投票,在衡量社區(qū)吸引力時(shí),它不僅考慮了 轉(zhuǎn)移的數(shù)量,還考慮了轉(zhuǎn)移的質(zhì)量。
[0066] 對(duì)比方法3:魔力社區(qū)發(fā)現(xiàn)模型(MIM)(參見參考文獻(xiàn)[3]):該模型使用一個(gè)基于 PageRank的優(yōu)化框架來衡量社區(qū)的吸引力,在實(shí)驗(yàn)中,把社區(qū)新穎度因素加入到的該模型 中。
[0067] 對(duì)比方法4:趨勢(shì)排序(TrendRank) :TrendRank使用線性回歸方法,利用主題關(guān)鍵 字在每年所占的比例來生成主題流行度變化的趨勢(shì)線(參考文獻(xiàn)[8]: A.Hoonlor, B.K. Szymanski ,and M.J.Zaki,"Trends in computer science research,', Communications of the 六0\1,¥〇1.56,11〇.10,卩卩.74-83,2013.)。用與時(shí)間窗口2007-2008, 2009,2010相關(guān)的數(shù)據(jù)進(jìn)行趨勢(shì)排序。直覺上,越有吸引力的社區(qū)越應(yīng)該在不遠(yuǎn)的將來有一 個(gè)很好的發(fā)展趨勢(shì)。本實(shí)施例中把TrendRank作為實(shí)驗(yàn)的標(biāo)準(zhǔn)。
[0068] 本實(shí)施例使用推薦強(qiáng)度(recommendation intensity)(參見參考文獻(xiàn)[9]: R.Hampel and M?Hauck,"Towards an effective use of audio conferencing in distance language courses,',Language Learning&Technology ,vol. 8 ,no. 1 ,pp. 66-82, 2004.)作為估計(jì)標(biāo)準(zhǔn),定義如下:
(6:)
[0070] 在公式(6)中,L是某種排序方法生成的前k個(gè)研究社區(qū)的排序列表。Or是1^在1中的 排序位置,〇g是Li在TrendRank中的排序位置。這也就意味著,如果Li出現(xiàn)在TrendRank的前k 的列表中,并且它的排序位置盡可能的準(zhǔn)確,那么Li將得到一個(gè)很高的recommendation intensity值。所以L的前k個(gè)排序的recommendation intensity可以定義為:
[0071] RI(L)(cvk = ^ /?/(/, )(ci:k (7)
[0072] 表1展示了由PageRank、MIM、ARTRank和Trendrank排序的前15個(gè)研究社區(qū)。根據(jù)主 題中的單詞關(guān)鍵字為這些主題貼了標(biāo)簽,加粗斜體的社區(qū)是出現(xiàn)在Trendrank排序前15的 社區(qū)。由于Indegree和PageRank的結(jié)果非常相似,所以表1中略去了 Indegree的結(jié)果。
[0073]從表1中可以看到,本發(fā)明提供的ARTRank方法比相關(guān)的方法有很大的優(yōu)勢(shì), ARTRank排序列表的前15有9個(gè)出現(xiàn)在Trendrank中,而MIM和PageRank分別只有5個(gè)和3個(gè)。 比如研究社區(qū)"c 1 oud"在TrendRank中是最有吸引力的社區(qū),僅僅出現(xiàn)在ARTRank前15的排 序結(jié)果中,而在PageRank和MM前15的排序結(jié)果中并沒有出現(xiàn)。在數(shù)據(jù)領(lǐng)域會(huì)議數(shù)據(jù)集上, 也得到了類似的結(jié)果,由于空間限制,此處省略。
[0074] 除了準(zhǔn)確性,本發(fā)明中也比較了這些方法在recommendation intensity下的量化 結(jié)果,如圖1A和圖1B所示。ARTRank明顯優(yōu)于其他方法,因?yàn)镮nDegree只考慮了轉(zhuǎn)移的數(shù)量, 這樣它會(huì)傾向于找到那些很流行的社區(qū)。盡管PageRank考慮網(wǎng)絡(luò)的結(jié)構(gòu)特征,它同樣還是 會(huì)找到那些流行的社區(qū)。M頂?shù)慕Y(jié)果和本發(fā)明的方法的結(jié)果有些類似,這是因?yàn)楸景l(fā)明都確 保每個(gè)社區(qū)的轉(zhuǎn)入量要多余轉(zhuǎn)出量。然而,ARTRank的效果仍舊比MM要好,因?yàn)镸M是基于 PageRank的,它的目的是找到某一類很流行的社區(qū),這個(gè)目標(biāo)顯然與本發(fā)明要找到新的逐 漸流行的研究社區(qū)的目標(biāo)不同。
[0075] 表1計(jì)算機(jī)科學(xué)數(shù)據(jù)集前15研究社區(qū)排序
[0078]本發(fā)明的目標(biāo)是找到那些有吸引力的研究社區(qū),而不是那些很流行的社區(qū)。于是, 本發(fā)明把相關(guān)算法和社區(qū)熱度排序算法(HotRank)進(jìn)行了比較,HotRank是依據(jù)社區(qū)主題的 時(shí)間強(qiáng)度對(duì)社區(qū)進(jìn)行排序的(參見參考文獻(xiàn)[10] :X. Wang,C.Zhai,and D. Roth, "Understanding evolution of research themes:a probabilistic generative model for citations,''in Proceedings of thel9th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2013,pp. 1115-1123?參考文獻(xiàn)[11]: D.Zhou,X.Ji,H.Zha,and C.L.Giles,"Topic evolution and social interactions:how authors effect researchin Proceedings of the 15th ACM international conference on Information and knowledge management.ACM,2006,pp?248-257?)〇 [0079]圖2A和圖2B給出了比較的結(jié)果,其中HotRank的數(shù)據(jù)取自2009年。可以看到, Indegree和PageRank的排序結(jié)果與HotRank更接近,而和TrendRank的排序結(jié)果差很遠(yuǎn),也 就是說這兩個(gè)算法更傾向于發(fā)現(xiàn)很流行的社區(qū)。然而對(duì)社區(qū)熱度的排序,并不能反映社區(qū) 發(fā)展的趨勢(shì),因?yàn)橐粋€(gè)很熱但是開始走下坡路的社區(qū)仍然會(huì)在熱度排序中排名很高。 ARTRank的排序結(jié)果則與TrendRank更為一致,也就是說ARTRank的排序結(jié)果更能反映社區(qū) 發(fā)展的趨勢(shì)。
[0080]本發(fā)明可以應(yīng)用于學(xué)術(shù)社交網(wǎng)絡(luò)中,利用研究人員在不同研究社區(qū)之間的轉(zhuǎn)移, 以及研究社區(qū)的主題新穎度,來對(duì)研究社區(qū)的吸引力等級(jí)進(jìn)行排序。ARTRank算法以研究人 員的在不同年份的文章作為輸入,以研究社區(qū)的吸引力等級(jí)排名為輸出。例如,圖3給出了 一個(gè)實(shí)施例。圖3中的社區(qū)網(wǎng)絡(luò)是由研究人員在不同年份的文章內(nèi)容,依據(jù)新穎度和社區(qū)轉(zhuǎn) 移矩陣算法生成的,圓的大小代表社區(qū)的大小,方框的值代表社區(qū)的新穎度,邊上的值代表 研究人員的轉(zhuǎn)移量。通過本發(fā)明的排序方法,得到研究社區(qū)的吸引力排名:4,1,2,3。顯然研 究社區(qū)4擁有新穎的主題,吸引很多研究人員的同時(shí),又有很少的人離開,同時(shí)社區(qū)的規(guī)模 也較小,顯然是本實(shí)施例中要找的新的并逐漸流行的研究社區(qū)。
【主權(quán)項(xiàng)】
1. 一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法,其特征在于,包括如下步驟: 第一步,研究社區(qū)內(nèi)部特征計(jì)算; 選擇新穎度作為研究社區(qū)內(nèi)部特征FC,第j個(gè)研究社區(qū)Cj的新穎度Nj是指社區(qū)主題的單 詞從時(shí)間窗口 s到s+1的頻率變化,用NfFc表示;研究社區(qū)(^的新穎度Nj相當(dāng)于主題下每個(gè) 單詞新穎度的和; 研究社區(qū)(^的新穎度%通過以下方式計(jì)算:其中,I表示包含單詞Wv的研究社區(qū)&的數(shù)目,和_+1)分別表示單詞Wv在時(shí)間窗 口 s和s+1中出現(xiàn)的次數(shù);|W|是單詞Wv的數(shù)量,v=l,2,…,|W| ; |C|是研究社區(qū)網(wǎng)絡(luò)中研究 社區(qū)的數(shù)量; 第二步,研究社區(qū)外部特征Fe計(jì)算; 給定研究人員R1在時(shí)間窗口 s和s+1的社區(qū)分布分別為ACf和計(jì)算研究人員R1 總的轉(zhuǎn)移量、計(jì)算研究人員心從研究社區(qū)Cr到研究社區(qū)Q的轉(zhuǎn)移量:,以轉(zhuǎn)移量為矩陣 元素得到轉(zhuǎn)移矩陣:Γ(?,對(duì)每個(gè)研究人員心的轉(zhuǎn)移矩陣Γ(~相加,得到最終的轉(zhuǎn)移矩陣T; 第三步,排序; 給定研究社區(qū)網(wǎng)絡(luò)的帶權(quán)有向圖6=((:3^^?〇,對(duì)任意的(:」£(:,定義研究社區(qū)(:」吸引 其他研究社區(qū)Cj1的研究人員注意力的能力Ujj1:其中,α是權(quán)重參數(shù),是研究社區(qū)Cj到研究社區(qū)Cy的轉(zhuǎn)移矩陣的轉(zhuǎn)置,(^是研究社 區(qū)Cj的大??; 對(duì)于任意的研究社區(qū)C」ec,它傳播注意力到其他研究社區(qū)Cr的能力定義為:基于公式(2)和公式(3),為每個(gè)研究社區(qū)定義兩個(gè)得分:正面得分PS和負(fù)面得分NS;正 面得分從吸引注意力的角度衡量研究社區(qū)的吸引力,負(fù)面得分從傳播注意力的角度衡量研 究社區(qū)的吸引力,對(duì)于研究社區(qū)Cj的正面得分PS j和負(fù)面得分NSj的定義如下:基于這兩個(gè)得分,研究社區(qū)Cj的吸引力等級(jí)、通過下面的公式來計(jì)算: Aj = PSj-NSj (5) 〇2. 根據(jù)權(quán)利要求1所述的一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法,其特征在于, 第二步中最終的轉(zhuǎn)移矩陣T的具體計(jì)算步驟如下: 步驟1、每個(gè)研究人員吣,1 = 1,2,~,|1?|,執(zhí)行步驟2-11; 步驟2、令研究人員Ri的總轉(zhuǎn)移量Q=O, 步驟3、對(duì)于每個(gè)研究社區(qū)Cj e C,執(zhí)行步驟4; 步驟4、給定研究人員R1在時(shí)間窗口 s和s + 1的社區(qū)分布分別為和如果 "C:1,' h-執(zhí)行步驟5; 步驟5、更新總轉(zhuǎn)移量0 = δ + I; 步驟6、對(duì)于每個(gè)研究社區(qū)Cj e C,執(zhí)行步驟7-10; 步驟7、如果/??_' h-/^T>0,執(zhí)行步驟8; 步驟8、對(duì)于每個(gè)研究社區(qū)Cj,e C,執(zhí)行步驟9; 步驟9、如果-,執(zhí)行步驟10; 步驟10、研究人員Ri從研究社區(qū)C/到Cj的轉(zhuǎn)移量:步驟11、對(duì)每個(gè)研究人員Ri的轉(zhuǎn)移量作為轉(zhuǎn)移矩陣Γ(~的元素,并將所有的轉(zhuǎn)移矩陣 Γ(~加和,得到最終轉(zhuǎn)移矩陣T。3. 根據(jù)權(quán)利要求1所述的一種學(xué)術(shù)社交網(wǎng)絡(luò)中魔力研究社區(qū)的排序方法,其特征在于, 第三步中研究社區(qū)吸引力等級(jí)排序方法的詳細(xì)步驟如下: 步驟1、給定一個(gè)正數(shù)ξ>〇,對(duì)于每一個(gè)研究社區(qū)的正面得分和負(fù)面得分分別賦初值PSo 和 NSo; 步驟2、( I,I,I,I) G RIe I賦值給PSo; R1 e 1表示數(shù)值維度為I CI的向量空間; 步驟3、(1,1,1,1) GRleI賦值給NS0; 步驟4、重復(fù)執(zhí)行步驟5到步驟9; 步驟5、用NSk-1更新PSk;公式(4); 步驟6、用PSk-1更新NSk;公式(4); 步驟7、標(biāo)準(zhǔn)化PSk; 步驟8、標(biāo)準(zhǔn)化NSk; 步驟9、k增加1; 步驟 10、直到滿足條件 |PSk-PSk-11 <ξ,并且 |NSk-NSk-11 <ξ。
【文檔編號(hào)】G06Q50/00GK105931122SQ201610224907
【公開日】2016年9月7日
【申請(qǐng)日】2016年4月12日
【發(fā)明人】張忠寶, 蘇森, 王亞坤, 徐嘉帥
【申請(qǐng)人】北京郵電大學(xué)