欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法

文檔序號:6550945閱讀:231來源:國知局
科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法
【專利摘要】本發(fā)明公布了科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點(論文、作者、期刊/會議)的學(xué)術(shù)影響力協(xié)同排序方法,由于科技文獻網(wǎng)絡(luò)的異構(gòu)性,本發(fā)明采用兩個級別的隨機游走計算科技文獻中節(jié)點的學(xué)術(shù)影響力并排序,分別是在科技文獻異構(gòu)網(wǎng)絡(luò)上的節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走和在科技文獻網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式上的學(xué)術(shù)類型驅(qū)動下的隨機游走,在科技文獻異構(gòu)網(wǎng)絡(luò)中計算各條邊權(quán)重以配置節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走,根據(jù)科技文獻異構(gòu)網(wǎng)絡(luò)的最小網(wǎng)絡(luò)模式,統(tǒng)計不同領(lǐng)域的各種關(guān)系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學(xué)術(shù)類型驅(qū)動下的隨機游走,此方法不僅克服了異構(gòu)網(wǎng)絡(luò)的異構(gòu)性帶來的難題以及避免了節(jié)點影響力與入度正相關(guān)的現(xiàn)象,從而使得排序結(jié)果相對準確。
【專利說明】科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明提供了一種科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點(論文、作者、期刊/會議)的學(xué)術(shù)影響力協(xié)同排序方法,屬于信息檢索領(lǐng)域。

【背景技術(shù)】
[0002]科技文獻網(wǎng)絡(luò)通常包含三種不同類型的學(xué)術(shù)節(jié)點:作者、論文和期刊/會議,不同類型學(xué)術(shù)節(jié)點之間還具有不同關(guān)系的連接邊,比如:作者-論文間撰寫和被撰寫關(guān)系、論文-論文間的引用和被引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系、作者-作者間的合作和引用等關(guān)系。
[0003]一般情況下,一個信息網(wǎng)絡(luò)可以用一個有向圖G= (V, E)以及節(jié)點類型函數(shù)τ: V —A和連接邊類型函數(shù)Φ:Ε —R加以表征。其中,每個節(jié)點V e V的節(jié)點類型τ (V) e A ;每條邊e e E的邊類型Φ (e) e R。當|A|>1或者|R|>1時,該網(wǎng)絡(luò)為異構(gòu)型信息網(wǎng)絡(luò),否則為同構(gòu)型信息網(wǎng)絡(luò),因此科技文獻網(wǎng)絡(luò)是一種典型異構(gòu)信息網(wǎng)絡(luò)。
[0004]異構(gòu)信息網(wǎng)絡(luò)的節(jié)點影響力排序方法主要分成同構(gòu)方式和異構(gòu)方式的方法,同構(gòu)方式抽取一種類型節(jié)點生成同構(gòu)網(wǎng)絡(luò),然后計算該類型節(jié)點的影響力并排序;異構(gòu)方式同時考慮多種類型節(jié)點生成異構(gòu)網(wǎng)絡(luò),然后計算多種類型節(jié)點的影響力并排序。同樣對科技文獻網(wǎng)絡(luò)中的學(xué)術(shù)節(jié)點的排序方法也存在著兩種方式,目前為止,對科技文獻網(wǎng)絡(luò)的現(xiàn)有排序方法包括:
[0005]1.提取科技文獻網(wǎng)絡(luò)中一種節(jié)點生成同構(gòu)網(wǎng)絡(luò),然后應(yīng)用pagerank算法對該種類型的節(jié)點進行排序。Bol 了 n J, Rodriquez M A等人應(yīng)用pagerank于期刊-期刊引用網(wǎng)絡(luò)中,對期刊進行排序;Ding Y應(yīng)用pagerank于作者-作者引用網(wǎng)絡(luò)中,對作者進行排序;Ma N, Guan J等人應(yīng)用pagerank于論文-論文引用網(wǎng)絡(luò)中,對論文進行排序,這些方法無法利用文獻網(wǎng)絡(luò)中的所有語義信息,并只對一種類型的節(jié)點排序。
[0006]2.將科技文獻網(wǎng)絡(luò)看成異構(gòu)網(wǎng)絡(luò),對科技文獻網(wǎng)絡(luò)中三種類型的節(jié)點同時進行排序,Deng, Z.H, Lai B Y等人提出PAV模型對三種類型的節(jié)點同時進行排序,此方法中的文獻網(wǎng)絡(luò)包括了間接關(guān)系作者-作者合作關(guān)系,可以由作者-論文的撰寫關(guān)系和被撰寫關(guān)系復(fù)合而成,不足在于其在處理網(wǎng)絡(luò)異構(gòu)性的方法僅僅是對不同類型的邊定義不同的權(quán)重,但是此權(quán)重在定義時潛意識地是比較同類型邊的之間的關(guān)系強弱,并沒有很好處理不同類型邊之間的關(guān)系,并且會出現(xiàn)節(jié)點影響力與入度相關(guān)的現(xiàn)象,即發(fā)表論文數(shù)量越多的作者和期刊會排的越靠前面。


【發(fā)明內(nèi)容】

[0007]本發(fā)明針對目前科研文獻網(wǎng)絡(luò)排序方法存在的問題,提出了科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點(論文、作者、期刊/會議)的學(xué)術(shù)影響力協(xié)同排序方法。
[0008]本發(fā)明的具體技術(shù)方案如下:
[0009]一種科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法,其特征在于:步驟包括如下:
[0010]A.獲取科技文獻異構(gòu)網(wǎng)絡(luò),抽取出科技文獻異構(gòu)網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式;
[0011]B.在科技文獻異構(gòu)網(wǎng)絡(luò)中計算各條邊權(quán)重以配置節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走;
[0012]C.根據(jù)科技文獻異構(gòu)網(wǎng)絡(luò)的最小網(wǎng)絡(luò)模式,統(tǒng)計不同領(lǐng)域的各種關(guān)系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學(xué)術(shù)類型驅(qū)動下的隨機游走;
[0013]D.結(jié)合節(jié)點的網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走和學(xué)術(shù)類型驅(qū)動下的隨機游走的兩級隨機游走計算科技文獻異構(gòu)網(wǎng)絡(luò)中的論文、作者、期刊/會議三種不同類型的學(xué)術(shù)節(jié)點的影響力排序。
[0014]在本發(fā)明一實施例中,步驟A中,文獻網(wǎng)絡(luò)的網(wǎng)絡(luò)模式中,節(jié)點對應(yīng)文獻網(wǎng)絡(luò)的三種學(xué)術(shù)對象,分別為作者、論文、期刊/會議、邊代表學(xué)術(shù)對象之間的關(guān)系;學(xué)術(shù)對象之間可能的關(guān)系包括:作者-論文間撰寫和被撰寫關(guān)系、論文-論文間的引用和被引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系、作者-作者間的合作和引用關(guān)系;上述關(guān)系可以劃分為直接關(guān)系和間接關(guān)系,直接關(guān)系為語義上無法由其它關(guān)系復(fù)合而成的關(guān)系,間接關(guān)系為語義上可以由直接關(guān)系復(fù)合而成的關(guān)系;文獻網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式是一個極小化網(wǎng)絡(luò)元模板,僅保留學(xué)術(shù)對象間的直接關(guān)系,去掉其中的間接關(guān)系,包括5種直接關(guān)系:作者-論文間撰寫和被撰寫關(guān)系、論文間的引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系。
[0015]在本發(fā)明一實施例中,步驟B中,基于科技文獻異構(gòu)網(wǎng)絡(luò)設(shè)計其中學(xué)術(shù)節(jié)點在網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走行為,并配置各權(quán)重量化計算,具體計算如下:


C
[0016]I)撰寫關(guān)系邊的權(quán)重計算公式》=V一.其中cP表示作者a對論文P




2^ip2cP(a) P2-a



I
的貢獻,計算公式為C =! ’ sp,a表示作者a是論文P的第幾作者,P (a)是作


Lu a2eA(P ) ^
者a的所有撰寫的論文集合,A(p)是論文P的作者列表;




I1.—ιηρ氺廣
[0017]2)被撰寫關(guān)系邊的權(quán)重計算公式:' =[Hinfn P Hinp是論文在引用關(guān)系





V/?z'eP(a)
中的入度;





I
[0018]3)引用關(guān)系邊的權(quán)重計算公式:= Ν--?η{[Λ P) ’其中Num(pl,P)是論文pi在引用關(guān)系中的出度;


_ Hinp
[0019]4)被發(fā)表關(guān)系邊的權(quán)重計算公式u = V // ’其中P (V)是期刊/會議V發(fā)



/ jinpi




VpieP(v\
表的論文列表;
[0020]5)發(fā)表關(guān)系邊的權(quán)重計算公式:、=N二p)其中Num(v,P)是期刊/會議V在發(fā)表關(guān)系中的出度。
[0021]在本發(fā)明一實施例中,步驟C中,基于科技文獻異構(gòu)網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式設(shè)計學(xué)術(shù)節(jié)點的學(xué)術(shù)類型驅(qū)動的隨機游走行為,并配置科技文獻異構(gòu)網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式中五種不同類型邊的傳播因子(PF)量化,PF包括λρρ) λρν) Aap, λ νρ,分別代表撰寫關(guān)系、被撰寫關(guān)系、引用關(guān)系、發(fā)表關(guān)系、被發(fā)表關(guān)系上的傳播因子,PF的設(shè)置方法如下:
[0022]Cl.獲取η個領(lǐng)域的強連通圖,η>3 ;
[0023]C2.統(tǒng)計η個領(lǐng)域強連通圖中被撰寫關(guān)系邊、引用關(guān)系邊、被發(fā)表關(guān)系邊的平均邊介數(shù),并得到相近的λ; λρρ: λρν比值,取η組比值的平均值為這三個傳播因子的比值;
[0024]C3.最后根據(jù)λ pa+ λ ρρ+ λ ρν = I算出二個傳播因子,而Xap= IXvp = I ο
[0025]在本發(fā)明一實施例中,步驟D中,結(jié)合節(jié)點的網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走和學(xué)術(shù)類型驅(qū)動下的隨機游走的兩級隨機游走計算科技文獻異構(gòu)網(wǎng)絡(luò)中的作者、論文、期刊/會議三種不同類型的學(xué)術(shù)節(jié)點的影響力排序,按照以下方法實現(xiàn):
[0026]Dl.定義從學(xué)術(shù)節(jié)點i到學(xué)術(shù)節(jié)點j的轉(zhuǎn)移概率為:TPMi j = (1-6')* TPM.reI(i J) + ^ ,其中 TPM 是轉(zhuǎn)移概率矩陣,TPMi;J 為 TPM 的第
i行第j列的轉(zhuǎn)移概率,TPMlevel為網(wǎng)絡(luò)拓撲驅(qū)動下和學(xué)術(shù)類型驅(qū)動下隨機游走行為合成轉(zhuǎn)移概率,TPMleveiaj0為TPMlevel第i行第j列的轉(zhuǎn)移概率,計算公式為
2* W
T7DSzT_tvpeijvpe} IiJ
_)= Σ Xnwuhwk *wuk ’ e是全圖隨機跳轉(zhuǎn)的概率,是i節(jié)點類型到j(luò)

e(i^k)eE
節(jié)點類型的傳播因子,是節(jié)點i到節(jié)點j邊的權(quán)重,N是整張網(wǎng)絡(luò)節(jié)點總個數(shù),計算得到
TPMlevel ;
[0027]D2.設(shè)定兩個長度為N的向量Vec_C,Vec_R, Vec_R中的值為文獻網(wǎng)絡(luò)中每個節(jié)點的影響力值,Vec_C 初始為[&_]、x、,通Aik—i? = Vec_C * ΓΡΜ,ν,.,., + P [ j]、x、公式計算Vec_R ;
[0028]D3.通過以下兩個公式計算Vec_C和Vec_R
[0029]Vec_C = Vec_R
[0030]Vec R = Vec_C * TPMlnvi +ε*[丄]s,xs,

N
[0031]當I |VeC_R-VeC_C| |彡ξ時繼續(xù)以上兩個公式的計算,否則得到Vec_R,ξ為事先設(shè)定的誤差閾值;
[0032]D4.分別對Vec_R中作者、論文、期刊/會議的值進行排序,得到作者、論文、期刊/會議排序結(jié)果序列。
[0033]本發(fā)明的有益成果是:本發(fā)明提出了科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點(論文、作者、會議)的學(xué)術(shù)影響力協(xié)同排序方法,建立在包含更豐富的語義信息的異構(gòu)文獻網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合了節(jié)點學(xué)術(shù)類型驅(qū)動下的隨機游走和節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走的兩級隨機游走來克服異構(gòu)網(wǎng)絡(luò)的異構(gòu)性帶來的難題以及避免了節(jié)點影響力與入度正相關(guān)的現(xiàn)象,從而具有更好排序結(jié)果。

【專利附圖】

【附圖說明】
[0034]圖1是本發(fā)明向科技文獻的論文、作者、期刊會議的協(xié)同排序方法的一個實施例的流程圖
[0035]圖2是異構(gòu)文獻網(wǎng)絡(luò)的網(wǎng)絡(luò)模式。
[0036]圖3是異構(gòu)文獻網(wǎng)絡(luò)的一個實例。

【具體實施方式】
[0037]下面通過實例對本發(fā)明做進一步的說明,但是需要注意的是,公布實施例的目的在于幫助進一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實施例所公開的內(nèi)容,本發(fā)明要求保護的范圍以權(quán)利要求書界定的范圍為準。
[0038]參見圖1,為本發(fā)明科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點(論文、作者、期刊/會議)的學(xué)術(shù)影響力協(xié)同排序方法的一個實施例的流程圖,該方法包括如下步驟:
[0039]A.從網(wǎng)址(http://arnetminer.0rg/DBLP_Citat1n)獲取 DBLP科技文獻,處理文獻數(shù)據(jù),提取科技文獻實體,包括作者(A),論文(P),會議(V)三種實體,此數(shù)據(jù)中的這些實體間存在關(guān)系有:作者-論文間撰寫和被撰寫關(guān)系、論文間的引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系、作者間的合作關(guān)系,最終生成科技文獻異構(gòu)網(wǎng)絡(luò)。
[0040]科技文獻網(wǎng)絡(luò)模式中節(jié)點為作者(A),論文(P),會議(V),邊代表點之間的關(guān)系,分別為作者-論文間撰寫和被撰寫關(guān)系、論文間的引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系、作者間的合作關(guān)系。由于作者間的合作關(guān)系可以由作者-論文間撰寫和被撰寫關(guān)系復(fù)合而成(簡寫成A-P-A),所以從網(wǎng)絡(luò)模式中去除作者間的合作關(guān)系,最終抽取的極小的文獻網(wǎng)絡(luò)網(wǎng)絡(luò)模式如圖2所示,包括3種節(jié)點,分別為作者(A),論文(P),會議(V)和5種關(guān)系,分別為作者-論文間撰寫和被撰寫關(guān)系、論文間的引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系??萍嘉墨I網(wǎng)絡(luò)的一個例子如圖3所示。
[0041]B.在科技文獻異構(gòu)網(wǎng)絡(luò)中計算各條邊權(quán)重以配置節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走,這些權(quán)重計算公式定義如下:



Cpa
[0042]I)撰寫關(guān)系邊的權(quán)重計算公式:^其中Cp,a表示作者a對論文P





p2^P\a.)



I
的貢獻,計算公式為= ~' sp,a表示作者a是論文P的第幾作者,P (a)是作


Lu alsAip) C




P.a 2
者a的所有撰寫的論文集合,A(p)是論文P的作者列表。


Hitll, ^
[0043]2)被撰寫關(guān)系邊的權(quán)重計算公式:'=J; Hinpi Hinp是論文在引用關(guān)系中





V/?ieP(a)
的入度。





I
[0044]3)引用關(guān)系邊的權(quán)重計算公式:wpi,p2 = Nimi(p\ i5),其中Num(p1,P)是論文Pi在引用關(guān)系中的出度。





I I

_ιηρ
[0045]4)被發(fā)表關(guān)系邊的權(quán)重計算公式.U = V //..’其中P (V)是期刊/會議V發(fā)



/ j ιηρι


Vpi^P(v)
表的論文列表
[0046]5)發(fā)表關(guān)系邊的權(quán)重計算公式:u’v.p = NlJ(v尸)其中Num(v,P)是期刊/會議V
在發(fā)表關(guān)系中的出度。
[0047]C.根據(jù)科技文獻異構(gòu)網(wǎng)絡(luò)的最小網(wǎng)絡(luò)模式,統(tǒng)計不同領(lǐng)域的各種關(guān)系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學(xué)術(shù)類型驅(qū)動下的隨機游走。PF包括^ pa, λ ρρ, λ ρν, λ ap, λ νρ,分別代表撰與關(guān)系、被撰與關(guān)系、引用關(guān)系、發(fā)表關(guān)系、被發(fā)表關(guān)系上的傳播因子,PF的設(shè)置方法如下:
[0048]Cl.首先得到如下5個領(lǐng)域的強連通圖:1.數(shù)據(jù)庫/數(shù)據(jù)挖掘/信息檢索領(lǐng)域強連通圖2.人工智能/模式識別領(lǐng)域強連通圖,3.網(wǎng)絡(luò)信息安全領(lǐng)域強連通圖,4.計算機圖形和多媒體領(lǐng)域強連通圖,5.模型軟件/軟件工程/程序設(shè)計語言領(lǐng)域連通圖;得到某個領(lǐng)域強連通圖的方法是:首先選取該領(lǐng)域的大多數(shù)期刊會議,以這些期刊會議為節(jié)點種子,得到這些期刊會議發(fā)表的論文,和這些論文的作者,然后再添加這些節(jié)點之間的邊。
[0049]C2.然后統(tǒng)計這5個領(lǐng)域強連通圖中被撰寫關(guān)系邊、引用關(guān)系邊、被發(fā)表關(guān)系邊的平均邊介數(shù),并得到相近的λ; λρρ: λρν比值,取5組比值的平均值為這三個傳播因子的比值;
[0050]C3.最后根據(jù)入pa+入ρρ+入ρν = I算出二個傳播因子結(jié)果為[Xpa,Xpp, Xpv]=[0.181,0.178,0.641],而 Xap = 1λνρ = I。
[0051]此實施例的傳播因子的結(jié)果如表I所示,表I是本發(fā)明實施例的五個領(lǐng)域邊介數(shù)比值。
[0052]
強連通圖名稱I邊介數(shù)比值(λ ηη:人ηη: P'
數(shù)據(jù)庫&數(shù)據(jù)挖掘&信息檢索_1:0.90:3.69_
人工智能&模式識別_1:1.18:3.75_
網(wǎng)絡(luò)信息安全_1:0.96:3.17
計算機圖形&多媒體_ 1:0.97:3.41
系統(tǒng)軟件&軟件工程&程序設(shè)計語言11:0.93:3.71
[0053]表I
[0054]D.結(jié)合節(jié)點學(xué)術(shù)類型驅(qū)動下的隨機游走和節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走的兩級隨機游走計算文獻網(wǎng)絡(luò)中的作者、文獻、期刊/會議三種類型的學(xué)術(shù)節(jié)點的影響力并進行排序,排序?qū)崿F(xiàn)方法流程如下:
[0055]Dl.定義從i到j(luò)的轉(zhuǎn)移概率為:TPMi j = TPMlevehin +專,其中TPM是轉(zhuǎn)移概率矩陣,TPMi; j為TPM的第i行第j列的轉(zhuǎn)移概率,TPMlevel為節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走和節(jié)點學(xué)術(shù)類型驅(qū)動下的隨機游走合成轉(zhuǎn)移概率,計算公式為
TPM— \'pei,typej ^1.j
—-Σ “H,,/ ε是全圖隨機跳轉(zhuǎn)的概率,xtypei,tmj是i節(jié)點類型到j(luò)

e(i,k)GE
節(jié)點類型的傳播因子,是節(jié)點i到節(jié)點j邊的權(quán)重,N是整張網(wǎng)絡(luò)節(jié)點總個數(shù),計算得到
TPMlevel。
[0056]D2.設(shè)定兩個長度為N的向量Vec_C,Vec_R, Vec_R中的值為文獻網(wǎng)絡(luò)中每個節(jié)點的影響力值,Vec_C初始為[j]w、,通過Re —= k —C * TPMlnvl _f 麟公式計算Vec_R。
[0057]D3.通過以下兩個公式計算Vec_C和Vec_R
[0058]Vec_C = Vec_R
[0059]Vec_R = Vec_C * TPMhri,, + f*[—]VxV

N
[0060]當I I Vec_R-Vec_CI |彡ξ時繼續(xù)以上兩個公式的計算,否則得到Vec_R。
[0061]D4.分別對Vec_R中作者、論文、期刊/會議的值進行排序,得到作者、論文、期刊/會議排序結(jié)果序列。
[0062]上述實例的數(shù)據(jù)領(lǐng)域的排在前五的作者如表2所示,表2是本發(fā)明實施例的數(shù)據(jù)領(lǐng)域作者排序示例??梢钥闯雠旁谇懊娴淖髡叨际菙?shù)據(jù)領(lǐng)域方面的權(quán)威作者。
[0063]


Author


Rakesh Agrawal

Hector Garcia—Molina

Η.V.Jagadish

Jiawei Han

Surajit Chaudhuri
[0064]表2
[0065]上述實例的數(shù)據(jù)領(lǐng)域的論文排序結(jié)果如表3所示,表3是本發(fā)明實施例的數(shù)據(jù)領(lǐng)域論文排序示例。大部分數(shù)據(jù)領(lǐng)域高質(zhì)量的高引用論文被排在前面,并且可以挖掘出低引用高質(zhì)量的論文,如 B Sarwar 發(fā)表在 www 上的 ‘Item-based collaborative filtering’。
[0066]
論文題目被引次數(shù)第一作者論文的會議
The R^-Tree: An Efficient and Robust...365N Beckmann ACM SiGMQD Record
BIRCH: An Efficient Data Clustering...169T ZhangSi GMOD

Fast Algorithms for Mining Associat1n,..493R AgrawalVLDB
Mining Associat1n Ra 了 s between Sets… 405RAgrawalSiGMOD
A language Modeling Approach...185JM PonteSlGiR
Scatter/Gather: A Cluster-based...88DR Cutting SiGlR
[0067]
Improved Algorithms for Topic...84K BharatSIGiR
Imp T meriting data cubes efficiently165V Harinarayan SIGMOD
Item-based collaborative filtering...D3B SarwarWWW
Data Cube: A ReJatianal Aggregat1n...123J GraySpringer Data Mining and





Know J dge Discovery
[0068]表 3
[0069]上述實例的數(shù)據(jù)領(lǐng)域的會議排序結(jié)果如表4所示,表4是本發(fā)明實施例的數(shù)據(jù)領(lǐng)域會議排序示例??梢钥闯霰景l(fā)明的科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點(論文、作者、會議)的學(xué)術(shù)影響力協(xié)同排序方法在此實施例對數(shù)據(jù)領(lǐng)域會議的排序結(jié)果與現(xiàn)有排序系統(tǒng),微軟學(xué)術(shù)(MAS)XSRankXiteSeer排序基本是一致的,說明本發(fā)明的方法是可行的,并且克服了影響力與入度相關(guān)的現(xiàn)象,在異構(gòu)文獻網(wǎng)絡(luò)中,作者的入度為作者撰寫的論文數(shù)量vpum,由表4很容易看到本發(fā)明的方法得到的數(shù)據(jù)領(lǐng)域的會議的排序與入度并不成正相關(guān)。
[0070]

會議 |CSRank [CiteSeer (2007) I MAS lVpnum

SIGM0D~ rank I 0.122 396
VLDB 一rankl 0.1I 153
PODS —rankl 0.124 95
ICDE — rankl 0.063 668
CIKM — rankl 0.057 714
DEXA — rank2 0.0118 269
SSDBtT" rank2 Null19 128
ICDT —rankl 0.0711 57
DASFAA~ rank2 0.0528 260
WAIM !others |nu!1丨75 丨96
[0071]表4
[0072]以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等變化與修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。
【權(quán)利要求】
1.一種科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法,其特征在于:步驟包括如下: A.獲取科技文獻異構(gòu)網(wǎng)絡(luò),抽取出科技文獻異構(gòu)網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式; B.在科技文獻異構(gòu)網(wǎng)絡(luò)中計算各條邊權(quán)重以配置節(jié)點網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走; C.根據(jù)科技文獻異構(gòu)網(wǎng)絡(luò)的最小網(wǎng)絡(luò)模式,統(tǒng)計不同領(lǐng)域的各種關(guān)系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學(xué)術(shù)類型驅(qū)動下的隨機游走; D.結(jié)合節(jié)點的網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走和學(xué)術(shù)類型驅(qū)動下的隨機游走的兩級隨機游走計算科技文獻異構(gòu)網(wǎng)絡(luò)中的論文、作者、期刊/會議三種不同類型的學(xué)術(shù)節(jié)點的影響力排序。
2.根據(jù)權(quán)利要求1所述的科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法,其特征在于:步驟A中,文獻網(wǎng)絡(luò)的網(wǎng)絡(luò)模式中,節(jié)點對應(yīng)文獻網(wǎng)絡(luò)的三種學(xué)術(shù)對象,分別為作者、論文、期刊/會議、邊代表學(xué)術(shù)對象之間的關(guān)系;學(xué)術(shù)對象之間可能的關(guān)系包括:作者-論文間撰寫和被撰寫關(guān)系、論文-論文間的引用和被引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系、作者-作者間的合作和引用關(guān)系;上述關(guān)系可以劃分為直接關(guān)系和間接關(guān)系,直接關(guān)系為語義上無法由其它關(guān)系復(fù)合而成的關(guān)系,間接關(guān)系為語義上可以由直接關(guān)系復(fù)合而成的關(guān)系;文獻網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式是一個極小化網(wǎng)絡(luò)元模板,僅保留學(xué)術(shù)對象間的直接關(guān)系,去掉其中的間接關(guān)系,包括5種直接關(guān)系:作者-論文間撰寫和被撰寫關(guān)系、論文間的引用關(guān)系、會議-論文間的發(fā)表和被發(fā)表關(guān)系。
3.根據(jù)權(quán)利要求1所述的科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法,其特征在于:步驟B中,基于科技文獻異構(gòu)網(wǎng)絡(luò)設(shè)計其中學(xué)術(shù)節(jié)點在網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走行為,并配置各權(quán)重量化計算,具體計算如下:

?.1)撰寫關(guān)系邊的權(quán)重計算公式:'P= Y-^其中Cp,a表示作者a對論文P的



Δ^ρ2^Ρ{?) P2,a



I貢獻,計算公式為^7!^ = —-—~i一 sp,a表示作者a是論文P的第幾作者,P (a)是作者

Lu a2ed(P I O


° p.a2a的所有撰寫的論文集合,A(p)是論文P的作者列表;



II
…— mP 2)被撰寫關(guān)系邊的權(quán)重計算公式—[Hmpi Hinp是論文在引用關(guān)系中的



ypi^P(a)入度; 3)引用關(guān)系邊的權(quán)重計算公式:仏,p2= N,milp\ p),其中Num(pl, P)是論文pi在引用關(guān)系中的出度; 4)被發(fā)表關(guān)系邊的權(quán)重計算公式:?=VII ’其中P(V)是期刊/會議V發(fā)表


/ jιηρι的論文列表; 5)發(fā)表關(guān)系邊的權(quán)重計算公式> =NlJ(v尸)其中Num(v,P)是期刊1會議V在發(fā)表關(guān)系中的出度。
4.根據(jù)權(quán)利要求1所述的科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法,其特征在于:步驟C中,基于科技文獻異構(gòu)網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式設(shè)計學(xué)術(shù)節(jié)點的學(xué)術(shù)類型驅(qū)動的隨機游走行為,并配置科技文獻異構(gòu)網(wǎng)絡(luò)的極小網(wǎng)絡(luò)模式中五種不同類型邊的傳播因子(PF)量化,PF包括λρρ) λρν) Aap, Xvp,分別代表撰寫關(guān)系、被撰寫關(guān)系、引用關(guān)系、發(fā)表關(guān)系、被發(fā)表關(guān)系上的傳播因子,PF的設(shè)置方法如下: Cl.獲取η個領(lǐng)域的強連通圖,η>3; C2.統(tǒng)計η個領(lǐng)域強連通圖中被撰寫關(guān)系邊、引用關(guān)系邊、被發(fā)表關(guān)系邊的平均邊介數(shù),并得到相近的Apa: λρρ: λρν比值,取η組比值的平均值為這三個傳播因子的比值; C3.最后根據(jù)λ pa+ λ ρρ+ λ ρν = I算出二個傳播因子,而Xfip=IXvp= I。
5.根據(jù)權(quán)利要求1所述的科技文獻異構(gòu)網(wǎng)絡(luò)中節(jié)點的學(xué)術(shù)影響力協(xié)同排序方法,其特征在于:步驟D中,結(jié)合節(jié)點的網(wǎng)絡(luò)拓撲驅(qū)動下的隨機游走和學(xué)術(shù)類型驅(qū)動下的隨機游走的兩級隨機游走計算科技文獻異構(gòu)網(wǎng)絡(luò)中的作者、論文、期刊/會議三種不同類型的學(xué)術(shù)節(jié)點的影響力排序,按照以下方法實現(xiàn): Dl.定義從學(xué)術(shù)節(jié)點i到學(xué)術(shù)節(jié)點j的轉(zhuǎn)移概率為:TPMu - (1-£)*TPMleivlii n ,其中TPM是轉(zhuǎn)移概率矩陣,TPMy為TPM的第i行第j列的轉(zhuǎn)移概率,TPMlevel為網(wǎng)絡(luò)拓撲驅(qū)動下和學(xué)術(shù)類型驅(qū)動下隨機游走行為合成轉(zhuǎn)移概率,TPMleveiaj0為TPMlevel第i行第j列的轉(zhuǎn)

2傘 ?Λ;
rTOHzf_ [ypei,lypeJ Uj移概率,計算公式為7 —^£是全圖隨機跳轉(zhuǎn)的概率,是i節(jié)點類型到j(luò)節(jié)點類型的傳播因子,Wiij是節(jié)點i到節(jié)點j邊的權(quán)重,N是整張網(wǎng)絡(luò)節(jié)點總個數(shù),計算得到TPMlevel ; D2.設(shè)定兩個長度為N的向量Vec_C,Vec_R, Vec_R中的值為文獻網(wǎng)絡(luò)中每個節(jié)點的影響力值,Vec_C 初始為[+]、x、,通過仏_/? = Fee: —C *+ 6'*[^]NxN 公式計算 Vec_R; D3.通過以下兩個公式計算Vec—C和Vec—R Vec_C = Vec—R
Vec_R = Vec_ C * TPM:evel+
N 當I |VeC_R-VeC_C| I彡ξ時繼續(xù)以上兩個公式的計算,否則得到Vec_R,ξ為事先設(shè)定誤差閾值; D4.分別對Vec_R中作者、論文、期刊/會議的值進行排序,得到作者、論文、期刊/會議排序結(jié)果序列。
【文檔編號】G06F17/30GK104133843SQ201410292725
【公開日】2014年11月5日 申請日期:2014年6月25日 優(yōu)先權(quán)日:2014年6月25日
【發(fā)明者】余春艷, 吳志強, 葉東毅, 何振峰 申請人:福州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平度市| 卢氏县| 荃湾区| 辽阳县| 凉城县| 蓬安县| 迁西县| 扬州市| 余江县| 衡南县| 枣阳市| 两当县| 玛沁县| 镇远县| 百色市| 都江堰市| 吴旗县| 咸丰县| 香河县| 永定县| 方城县| 分宜县| 玉环县| 鄱阳县| 六枝特区| 靖边县| 孝感市| 迁安市| 新蔡县| 东城区| 深圳市| 英德市| 五寨县| 丹棱县| 库伦旗| 浦东新区| 剑阁县| 从化市| 外汇| 六盘水市| 余干县|