欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)與流程

文檔序號(hào):12470215閱讀:413來源:國知局
基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)與流程
本發(fā)明涉及推薦
技術(shù)領(lǐng)域
,具體地,涉及一種基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)。
背景技術(shù)
:科研活動(dòng)是提高社會(huì)生產(chǎn)力和綜合國力的戰(zhàn)略支撐。世界各國都非常重視對(duì)于科研活動(dòng)的投入。我國已經(jīng)將科技研發(fā)擺在國家發(fā)展全局的核心位置,國家財(cái)政對(duì)科研的支出穩(wěn)步增加。2012年,中國的研究與試驗(yàn)發(fā)展投入經(jīng)費(fèi)(包括工業(yè)界和學(xué)術(shù)界)已經(jīng)超過萬億,為10298.4億元,達(dá)到中等發(fā)達(dá)國家水平??蒲谢顒?dòng)最直接的產(chǎn)出結(jié)果之一是學(xué)術(shù)論文。據(jù)統(tǒng)計(jì),從2004年至2014年,我國科研人員在國際上共發(fā)表科技論文136.98萬篇,位居世界第二。論文共被引用1037.01萬次,位居世界第四??蒲袑?shí)踐表明,學(xué)術(shù)論文是科研人員開展科研活動(dòng)或繼續(xù)進(jìn)行深入研究的非常重要的信息資源。然而,面對(duì)信息化時(shí)代浩如煙海的文獻(xiàn)資料,如何快速而準(zhǔn)確地檢索到自己所需要的學(xué)術(shù)資源,對(duì)于科研人員來說確實(shí)是一項(xiàng)非常重要而且具有挑戰(zhàn)性的工作。科學(xué)文獻(xiàn)的有效排序有助于研究人員尋找高質(zhì)量的論文,并且發(fā)現(xiàn)有潛在前景的研究方向。與此同時(shí),論文排序在學(xué)術(shù)獎(jiǎng)勵(lì)系統(tǒng)中上也起著重要的作用。傳統(tǒng)的方法往往使用引用數(shù)作為度量的標(biāo)準(zhǔn)。然而,此標(biāo)準(zhǔn)過于單一化,將每個(gè)引用的重要性平等看待,忽略了優(yōu)質(zhì)引用與普通引用之間的差異性。許多研究者將論文引用網(wǎng)絡(luò)看做與網(wǎng)頁鏈接系統(tǒng)相似,借用PageRank和HITS算法給出每篇論文的分?jǐn)?shù)以用來排序。然而在生活中,動(dòng)態(tài)的引文網(wǎng)絡(luò)不同于日常的計(jì)算機(jī)網(wǎng)絡(luò),因?yàn)樾掳l(fā)表的論文只能夠引用在其之前發(fā)表的論文,而之前發(fā)表的論文無法引用后來發(fā)表的論文。因?yàn)檫@個(gè)引文網(wǎng)絡(luò)天生具有的不同特點(diǎn),使得較早發(fā)表的論文在引用方面將更加有優(yōu)勢(shì),這也將對(duì)普通算法的準(zhǔn)確性產(chǎn)生巨大的影響。人們已經(jīng)作出了許多努力來解決這個(gè)問題,但是更多的關(guān)注于文本分析,考察整個(gè)引用網(wǎng)絡(luò),新發(fā)表的論文往往沒有被其他論文引用過,這導(dǎo)致新論文在現(xiàn)有算法中的得分偏低。但是,新論文所代表的方向一般較之前的論文更加前沿,對(duì)研究者來說也更加值得關(guān)注。所以一個(gè)全新的排序算法,對(duì)于科研人員獲取所需資源、及時(shí)掌握學(xué)科發(fā)展動(dòng)態(tài)、提高自身科研能力,進(jìn)而增強(qiáng)國家的科研實(shí)力,都具有相當(dāng)重要的意義。這在大數(shù)據(jù)時(shí)代尤為重要,不僅意味著更加便于找到前沿方向,也意味著效率的大幅提升。從2000年開始,有關(guān)論文排序和推薦系統(tǒng)的論文數(shù)量呈逐年上升的趨勢(shì)。據(jù)不完全統(tǒng)計(jì),僅2013年的相關(guān)論文數(shù)量就達(dá)到了30余篇。但是,在面對(duì)新發(fā)表論文的排序研究仍然處于初始階段。每年數(shù)以萬計(jì)的新論文發(fā)表,這個(gè)領(lǐng)域缺乏準(zhǔn)確的排序算法使得研究者們無法迅速從海量的數(shù)據(jù)中找到符合自己需要的信息。這也催使我們尋找一種全新的算法,對(duì)這些新發(fā)表的論文進(jìn)行有效的排序,以此來預(yù)測(cè)在未來的五到十年內(nèi),何種論文將更有可能成為未來的熱點(diǎn)與前沿方向?;诖宋覀儼l(fā)明了ZeroRank算法。將作者,會(huì)議,機(jī)構(gòu)作為評(píng)估的指標(biāo),經(jīng)過對(duì)過去十余年的數(shù)據(jù)進(jìn)行分析檢測(cè),最終實(shí)現(xiàn)了對(duì)論文熱點(diǎn)的有效預(yù)測(cè),極大的彌補(bǔ)了現(xiàn)有算法在對(duì)新發(fā)表論文評(píng)估方面的不足。技術(shù)實(shí)現(xiàn)要素:針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)。根據(jù)本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦方法,包括如下步驟:步驟1:構(gòu)建學(xué)術(shù)網(wǎng)絡(luò)模型,通過隨機(jī)游走法獲得每篇論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值;步驟2:建立排序模型,并選取經(jīng)步驟1處理后的論文數(shù)據(jù)構(gòu)建訓(xùn)練集;步驟3:通過弱分類器對(duì)訓(xùn)練集進(jìn)行排序,所述弱分類器是指僅考慮單個(gè)特征值進(jìn)行排序的分類器;步驟4:判斷弱分類器的排序結(jié)果是否與訓(xùn)練集的真實(shí)排序結(jié)果相匹配,若不匹配,則根據(jù)弱分類器的排序結(jié)果和真實(shí)排序結(jié)果的差異調(diào)整排序模型中與該弱分類器所對(duì)應(yīng)特征值的權(quán)重,并調(diào)整訓(xùn)練集中各個(gè)片段的權(quán)重值后,返回執(zhí)行步驟3;若匹配,則判斷是否已經(jīng)對(duì)所有特征值對(duì)應(yīng)的弱分類器進(jìn)行排序,若否,則改變?nèi)醴诸惼魉紤]的特征值種類,返回執(zhí)行步驟3;若是,則得到最優(yōu)排序模型;步驟5:通過最優(yōu)排序模型推薦用戶所需零引用文獻(xiàn)。優(yōu)選地,所述步驟1包括:步驟1.1:使用微軟提供的學(xué)術(shù)圖譜數(shù)據(jù)資源獲取自1800年至今發(fā)表的所有論文資源;步驟1.2:通過對(duì)論文關(guān)鍵信息提取,建立包含四類點(diǎn)集以及四類邊集的學(xué)術(shù)網(wǎng)絡(luò)模型;其中的論文關(guān)鍵信息是包括:論文標(biāo)題、作者、論文收錄期刊或收錄的會(huì)議、論文發(fā)表機(jī)構(gòu)、論文發(fā)表年份;步驟1.3:選擇論文所屬領(lǐng)域,以某一年的論文作為零引用論文集合,以設(shè)定時(shí)間段內(nèi)的論文作為訓(xùn)練集,通過隨機(jī)游走法分析學(xué)術(shù)網(wǎng)絡(luò)模型,得到論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值評(píng)分以及該論文的評(píng)分。優(yōu)選地,所述步驟1.2包括:步驟1.2.1:建立學(xué)術(shù)網(wǎng)絡(luò)模型,用G來表示該學(xué)術(shù)網(wǎng)絡(luò):G=(P∪A∪V∪F,EPP∪EPA∪EPV∪EPF)邊(pv,pu)∈EPP表示論文v引用一次論文u;邊(pv,au)∈EPA表示論文v的第一作者是u;邊(pv,vu)∈EPV表示論文v被發(fā)表在會(huì)議或期刊u上;邊(pv,fu)∈EPF表示論文v的來自機(jī)構(gòu)u;其中:P,A,V,F(xiàn)分別表示論文、作者、會(huì)議及期刊、機(jī)構(gòu)所構(gòu)成的四類點(diǎn)集,pv表示論文v,pu表示論文u,au表示作者u,vu表示會(huì)議及期刊u,fu表示機(jī)構(gòu)u,EPP、EPA、EPV、EPF分別表示論文間、論文與作者、論文與會(huì)議及期刊、論文與機(jī)構(gòu)的連線;步驟1.2.2:建立學(xué)術(shù)網(wǎng)絡(luò)模型中的論文、時(shí)間對(duì)應(yīng)關(guān)系:學(xué)術(shù)網(wǎng)絡(luò)G中論文發(fā)表年份表示為t0<t1<…<tcrt,其中t0表示網(wǎng)絡(luò)中最早發(fā)表的論文的年份1800年,tcrt表示當(dāng)前年份;步驟1.2.3:建立零引用論文數(shù)據(jù)集Z:Z={pz∈P|t(pz)=tcrt}式中:pz表示在集合Z中的論文;t(pz)表示論文的發(fā)表年份。優(yōu)選地,所述步驟1.3包括:步驟1.3.1:設(shè)定參數(shù):ω1,ω2,ω3,ω4,ω5,ρ,tcrt,其中,參數(shù)ω1表示其余論文對(duì)得分的貢獻(xiàn)權(quán)重,ω2表示作者對(duì)論文得分的貢獻(xiàn)權(quán)重,ω3表示收錄該論文的會(huì)議及期刊對(duì)該論文得分的貢獻(xiàn)權(quán)重,ω4表示發(fā)表該論文的機(jī)構(gòu)對(duì)論文得分的貢獻(xiàn)權(quán)重,ω5表示論文發(fā)表年份對(duì)論文得分的貢獻(xiàn)權(quán)重,ρ表示論文發(fā)表時(shí)間的重要性參數(shù),tcrt表示當(dāng)前年份;步驟1.3.2:初始化論文分值,計(jì)算公式如下:式中:pi表示任意一篇論文,N表示領(lǐng)域數(shù),i表示第i篇文章,i取值范圍為0~N;步驟1.3.3:通過論文分值分別計(jì)算作者、會(huì)議或期刊、機(jī)構(gòu)的得分,計(jì)算公式如下:式中:ai表示作者i得分,vi表示會(huì)議及期刊i得分,fi表示機(jī)構(gòu)i得分,Ai表示作者i,pj表示論文j,AVG(·)為平均得分計(jì)算函數(shù);步驟1.3.4:計(jì)算論文的得分,計(jì)算公式如下:pi′=ω1ΣPj∈in(Pi)pj|out(Pj)|+ω21ZAAVGAj∈neigh(Pi)(aj)+ω31ZVAVGVj∈neigh(Pi)(vj)+ω41ZFAVGFj∈neigh(Pi)(fj)+ω51ZTexp(-ρ(ti-tcrt));]]>式中:pi'表示任意一篇論文i,pj表示被論文i引用的論文j,aj表示論文i的作者得分,vj表示論文i的收錄期刊或會(huì)議得分,fj表示論文i的發(fā)表機(jī)構(gòu)得分,ti表示論文i的發(fā)表年份,ZA,ZV,ZF,ZT為歸一化變量,ρ為時(shí)間衰減因子。優(yōu)選地,所述步驟2包括:步驟2.1:選定t為從t0到tcrt-1時(shí)刻的各個(gè)時(shí)間節(jié)點(diǎn),將t時(shí)刻已經(jīng)發(fā)生的論文引用關(guān)系構(gòu)建成t片段,全部共tcrt-t0個(gè)片段構(gòu)建成零引用論文集;步驟2.2:針對(duì)步驟2.1構(gòu)建的零引用論文集得到包含tcrt-t0個(gè)片段數(shù)據(jù)特征值的訓(xùn)練集。優(yōu)選地,步驟1中采用并行化方法執(zhí)行隨機(jī)游走法,包括如下步驟:步驟A1:基于相鄰論文的特征值分別更新后繼論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)的特征值;步驟A2:判斷由第一作者、會(huì)議或期刊、機(jī)構(gòu)信息構(gòu)成的論文引用關(guān)系網(wǎng)絡(luò)中的所有論文節(jié)點(diǎn)的特征值是否均被更新且更新后的特征值均收斂,若否,則將后繼論文作為相鄰論文,返回執(zhí)行步驟A1;若是,則進(jìn)入步驟2繼續(xù)執(zhí)行。根據(jù)本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦系統(tǒng),包括:學(xué)術(shù)網(wǎng)絡(luò)模型建立模塊:用于構(gòu)建學(xué)術(shù)網(wǎng)絡(luò)模型,并通過隨機(jī)游走法獲得每篇論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值;訓(xùn)練集構(gòu)建模塊:建立排序模型,并選取經(jīng)學(xué)術(shù)網(wǎng)絡(luò)模型建立模塊處理后的論文數(shù)據(jù)構(gòu)建訓(xùn)練集;弱分類器排序模塊:通過弱分類器對(duì)訓(xùn)練集進(jìn)行排序,所述弱分類器是指僅考慮單個(gè)特征值進(jìn)行排序的分類器;排序模型構(gòu)建模塊:判斷弱分類器的排序結(jié)果是否與訓(xùn)練集的真實(shí)排序結(jié)果相匹配,得到最優(yōu)排序模型。優(yōu)選地,所述學(xué)術(shù)網(wǎng)絡(luò)模型建立模塊包括:檢索模塊:用于通過微軟提供的學(xué)術(shù)圖譜數(shù)據(jù)資源獲取自1800年至今發(fā)表的所有論文資源;模型建立模塊:通過對(duì)論文關(guān)鍵信息提取,建立包含四類點(diǎn)集以及四類邊集的學(xué)術(shù)網(wǎng)絡(luò)模型;其中的論文關(guān)鍵信息是包括:論文標(biāo)題、作者、論文收錄期刊或收錄的會(huì)議、論文發(fā)表機(jī)構(gòu)、論文發(fā)表年份;模型分析模塊:選擇論文所屬領(lǐng)域,以某一年的論文作為零引用論文集合,以設(shè)定時(shí)間段內(nèi)的論文作為訓(xùn)練集,通過隨機(jī)游走法分析學(xué)術(shù)網(wǎng)絡(luò)模型,得到論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值評(píng)分以及該論文的評(píng)分。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:1、本發(fā)明基于現(xiàn)有數(shù)據(jù)迭代處理構(gòu)建算法中的基本參數(shù),根據(jù)算法模型的表現(xiàn)實(shí)現(xiàn)自動(dòng)訓(xùn)練進(jìn)化,在面對(duì)大數(shù)據(jù)情況下實(shí)現(xiàn)算法的并行處理,使用了全新的論文排序思想,從而使得新發(fā)表的論文得到更加有效地推薦,滿足廣大科研工作者的檢索需求。2、本發(fā)明有效解決了零引用文章排序問題,通過結(jié)合隨機(jī)游走模型及自適應(yīng)算法,分析傳統(tǒng)排序算法沒有考慮到的信息,尤其適用于新發(fā)表的論文的未來影響力及重要程度的分析,得到其優(yōu)先排序結(jié)果。附圖說明通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:圖1為本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦方法的流程圖;圖2為導(dǎo)出時(shí)間衰減因子的數(shù)據(jù)信息示意圖;圖3為學(xué)術(shù)網(wǎng)絡(luò)模型示意圖;圖4為訓(xùn)練集的選取示意圖;圖5為并行算法的運(yùn)行時(shí)間示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變化和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。根據(jù)本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦方法,包括如下步驟:步驟S1:構(gòu)建學(xué)術(shù)網(wǎng)絡(luò)模型,并采用隨機(jī)游走的方法,求取撰寫每篇論文的第一作者,接納該篇論文的會(huì)議或期刊以及發(fā)表該篇論文的機(jī)構(gòu)這三個(gè)特征值的評(píng)分及論文評(píng)分;現(xiàn)對(duì)實(shí)施步驟中涉及使用的符號(hào)做說明,說明情況見表1。表1.符號(hào)定義說明由于互聯(lián)網(wǎng)上的論文資源分布十分分散,并且每年的數(shù)據(jù)量更新都十分巨大,所以對(duì)于學(xué)術(shù)網(wǎng)絡(luò)模型的構(gòu)建主要分為兩個(gè)步驟,由步驟S1.1和步驟S1.2組成,包括數(shù)據(jù)的獲取與整合;此后在對(duì)該模型的分析主要采用了隨機(jī)游走的辦法,此算法的具體展開由步驟S1.3完成。以下是步驟一所涉及的詳細(xì)步驟:步驟S1.1:使用微軟提供的學(xué)術(shù)圖譜數(shù)據(jù)資源,獲取自1800年至今發(fā)表的所有論文資源,步驟S1.2:采用優(yōu)化的文本分析工具,通過對(duì)論文關(guān)鍵信息的提取,建立包含四類點(diǎn)集以及四類邊集的學(xué)術(shù)網(wǎng)絡(luò)模型。(模型見附圖3)步驟A1:建立學(xué)術(shù)網(wǎng)絡(luò)模型,用G來表示該學(xué)術(shù)網(wǎng)絡(luò):G=(P∪A∪V∪F,EPP∪EPA∪EPV∪EPF)邊(pv,pu)∈EPP表示論文v引用一次論文u;邊(pv,au)∈EPA表示論文v的第一作者是u;邊(pv,vu)∈EPV表示論文v被發(fā)表在會(huì)議或期刊u上;邊(pv,fu)∈EPF表示論文v的來自機(jī)構(gòu)u。其中:P,A,V,F(xiàn)分別表示論文、作者、會(huì)議及期刊、機(jī)構(gòu)所構(gòu)成的四類點(diǎn)集,pv表示論文v,pu表示論文u,au表示作者u,vu表示會(huì)議及期刊u,fu表示機(jī)構(gòu)u,EPP、EPA、EPV、EPF分別表示論文間、論文與作者、論文與會(huì)議及期刊、論文與機(jī)構(gòu)的連線。步驟A2:建立學(xué)術(shù)網(wǎng)絡(luò)模型中的論文、時(shí)間對(duì)應(yīng)關(guān)系:學(xué)術(shù)網(wǎng)絡(luò)G中論文發(fā)表年份表示為t0<t1<…<tcrt,其中t0表示網(wǎng)絡(luò)中最早發(fā)表的論文的年份1800年,tcrt表示當(dāng)前年份。步驟A3:建立零引用論文數(shù)據(jù)集Z:Z={pz∈P|t(pz)=tcrt}式中:pz表示在集合Z中的論文;t(pz)表示論文的發(fā)表年份;tcrt表示當(dāng)前年份。步驟S1.3:在各領(lǐng)域下,以2011年的論文作為零引用論文集合,通過特征值評(píng)分及論文評(píng)分。由于論文、作者、會(huì)議及期刊、機(jī)構(gòu)的評(píng)分是互相關(guān)聯(lián)的,所以我們?cè)O(shè)計(jì)了優(yōu)化隨機(jī)游走方法進(jìn)行特征值提取。特征值評(píng)分及論文評(píng)分的步驟如下:步驟B1:設(shè)定參數(shù):ω1,ω2,ω3,ω4,ω5,ρ,tcrt,其中,參數(shù)ω1表示其余論文對(duì)得分的貢獻(xiàn)權(quán)重,ω2表示作者對(duì)論文得分的貢獻(xiàn)權(quán)重,ω3表示收錄該論文的會(huì)議及期刊對(duì)該論文得分的貢獻(xiàn)權(quán)重,ω4表示發(fā)表該論文的機(jī)構(gòu)對(duì)論文得分的貢獻(xiàn)權(quán)重,ω5表示論文發(fā)表年份對(duì)論文得分的貢獻(xiàn)權(quán)重,ρ表示論文發(fā)表時(shí)間的重要性參數(shù),tcrt表示當(dāng)前年份。步驟B2:初始化論文分值,計(jì)算公式如下:式中:pi表示任意一篇論文,N表示領(lǐng)域內(nèi)論文數(shù),i表示第i篇論文,取值范圍為0-N;步驟B3:通過論文分值分別計(jì)算作者、會(huì)議或期刊、機(jī)構(gòu)的得分,計(jì)算公式如下:式中:ai表示作者i得分,vi表示會(huì)議及期刊i得分,fi表示機(jī)構(gòu)i得分,Ai表示作者i,pj表示論文j,AVG(·)為平均得分計(jì)算函數(shù);步驟B4:計(jì)算論文的得分,計(jì)算公式如下:式中:pi'表示任意一篇論文i,pj表示被論文i引用的論文j,aj表示論文i的作者得分,vj表示論文i的收錄期刊或會(huì)議得分,fj表示論文i的發(fā)表機(jī)構(gòu)得分,ti表示論文i的發(fā)表年份,ZA,ZV,ZF,ZT為歸一化變量,ρ為時(shí)間衰減因子。衰減因子ρ的計(jì)算:選取計(jì)算機(jī)科學(xué)領(lǐng)域的論文,共8884763篇。根據(jù)每篇論文發(fā)表后的年份以及至該年份為止論文的引用次數(shù)的平均值,作出被引用數(shù)-時(shí)間曲線,如附圖2所示。忽略前兩個(gè)點(diǎn),使用指數(shù)函數(shù)擬合該曲線得到最佳的結(jié)果:ce-0.124t因此,采用ρ=-0.124作為時(shí)間衰減因子。對(duì)信息不完全點(diǎn)的處理由于在數(shù)據(jù)集中,作者、會(huì)議及期刊、機(jī)構(gòu)的信息不總是完整的,所以為了解決這個(gè)問題,采用了虛擬節(jié)點(diǎn)的辦法,譬如如果論文u沒有作者信息,則假設(shè)一位虛擬作者,且假設(shè)該作者僅發(fā)表了這一篇論文u。平均得分函數(shù)的具體實(shí)施過程:參考PageRank算法實(shí)現(xiàn)的思想,計(jì)算論文得分建立圖GP=(P,EPP),GA=(P∪A,EPA),GV=(P∪V,EPV),GF=(P∪F,EPF),各自包含了相應(yīng)的點(diǎn)集和邊集;GP表示論文圖,GA表示作者圖,GV表示期刊及會(huì)議圖,GF表示機(jī)構(gòu)圖;首先計(jì)算作者、會(huì)議及期刊、機(jī)構(gòu)的得分,初始論文得分均為a=AAp{計(jì)算作者得分矩陣a}v=AVp{計(jì)算會(huì)議或期刊得分矩陣v}f=AFp{計(jì)算機(jī)構(gòu)得分矩陣f}AA,AV,AF為歸一化的鄰接矩陣,分別記錄了作者與論文,會(huì)議及期刊與論文,機(jī)構(gòu)與論文的關(guān)系,然后重復(fù)計(jì)算論文的得分:為AA,AV,AF的轉(zhuǎn)置矩陣,分別記錄了論文與作者,論文與會(huì)議及期刊,論文與機(jī)構(gòu)的關(guān)系,最終當(dāng)p收斂,即|pk-pk+1|<10-9時(shí)結(jié)束計(jì)算。步驟B5:設(shè)置零引用論文集合(如圖4所示),將2011年作為當(dāng)前年份,隱藏當(dāng)前年份之后年份的信息,得到零引用論文集合。步驟B6:特征值提取,將1800年至2010年的論文設(shè)定為訓(xùn)練集,并采用優(yōu)化隨機(jī)游走方法對(duì)訓(xùn)練集進(jìn)行特征值提取。步驟S2:采用排序?qū)W習(xí)算法,選取數(shù)據(jù)構(gòu)建訓(xùn)練集,選取弱分類器并根據(jù)單個(gè)弱分類器修改現(xiàn)有排序模型,不斷重復(fù)上述操作直到得到最優(yōu)模型;為解決結(jié)合步驟S1中不同特征值訓(xùn)練排序模型的問題,傳統(tǒng)方法是選擇線性回歸或K近鄰算法,然而此類方法對(duì)于上述問題并不適用。因?yàn)閷?duì)兩篇來自不同時(shí)間段的論文,論文被引用數(shù)量受到年份和歷史因素的影響,因此對(duì)這兩篇論文進(jìn)行排序是不合理的。因此采用排序?qū)W習(xí)算法,針對(duì)來自不同時(shí)間段的論文分別進(jìn)行分析,具體實(shí)施步驟如下:步驟S2.1:選定t為從t0到tcrt-1時(shí)刻的各個(gè)時(shí)間節(jié)點(diǎn),將t時(shí)刻已經(jīng)發(fā)生的論文引用關(guān)系構(gòu)建成t片段,全部共tcrt-t0個(gè)片段構(gòu)建成“零引用論文集”,實(shí)驗(yàn)中由于t0非關(guān)鍵作用,將t0賦值為tcrt-10;步驟S2.2:采用步驟S1的特征值提取算法,針對(duì)步驟S2.1構(gòu)建的“零引用論文集”,得到包含tcrt-t0個(gè)片段數(shù)據(jù)特征值的訓(xùn)練集其中分別代表t片段中的“作者”,“會(huì)議”,“機(jī)構(gòu)”特征值,yt代表t片段的實(shí)際引用排名;步驟S2.3,針對(duì)步驟S2.2中所產(chǎn)生的訓(xùn)練集S,采用AdaRank算法進(jìn)行迭代,迭代中每一輪加入新的弱分類器kn,調(diào)整新分類器的權(quán)重αn,加入當(dāng)前排序模型得到新模型rn,當(dāng)分類器表現(xiàn)不再提升時(shí),迭代結(jié)束,得到最優(yōu)排序模型,r表示最初加入的排序模型,由“作者”,“會(huì)議”,“機(jī)構(gòu)”三部分特征值的權(quán)重組成。步驟S3:并行隨機(jī)游走部分,是在步驟S1的隨機(jī)游走部分的基礎(chǔ)上發(fā)明并行化解決方案,節(jié)省算法運(yùn)行時(shí)間,減少空間需求;由于步驟S1的隨機(jī)游走部分有著O(M)的時(shí)間復(fù)雜度和O(M+N)的空間復(fù)雜度,其中M代表學(xué)術(shù)網(wǎng)絡(luò)模型中邊的數(shù)量,N代表訓(xùn)練集中論文的總數(shù)量,使得讓其在單個(gè)機(jī)器上運(yùn)行變得不現(xiàn)實(shí),所以提出了一個(gè)隨機(jī)游走的并行化解決方案。步驟S3.1:RankAVF主要針對(duì)學(xué)術(shù)網(wǎng)絡(luò)模型中的作者,會(huì)議以及機(jī)構(gòu)三個(gè)對(duì)于論文評(píng)分有主要影響的三個(gè)因素進(jìn)行評(píng)分。其過程就是,采取步驟一中的特征值提取算法,在學(xué)術(shù)網(wǎng)絡(luò)模型中分別提取作者、會(huì)議、機(jī)構(gòu)節(jié)點(diǎn)相鄰論文節(jié)點(diǎn)的特征值,將其取平均計(jì)算出其特征值,以計(jì)算出的新特征值代替節(jié)點(diǎn)上原有的特征值,實(shí)現(xiàn)網(wǎng)絡(luò)的更新,再把計(jì)算得的新特征值傳遞給相鄰論文節(jié)點(diǎn),完成一次AVF的迭代。計(jì)算公式如下:{通過論文分值p計(jì)算作者得分a}{通過論文分值p計(jì)算會(huì)議得分v}{通過論文分值p計(jì)算機(jī)構(gòu)得分f}式中:AVG代表平均值函數(shù)。步驟S3.2:RankP過程就是基于上一次迭代得到的論文節(jié)點(diǎn)特征值以及相鄰作者、會(huì)議、機(jī)構(gòu)節(jié)點(diǎn)的特征值計(jì)算新的論文節(jié)點(diǎn)的特征值并更新,把計(jì)算得的新特征值傳遞給該論文節(jié)點(diǎn)的后繼論文節(jié)點(diǎn)和相鄰的作者、會(huì)議、機(jī)構(gòu)節(jié)點(diǎn)。計(jì)算公式如下:式中:AVG代表平均值函數(shù),exp代表指數(shù)函數(shù)。步驟S3.3:以上兩個(gè)針對(duì)學(xué)術(shù)網(wǎng)絡(luò)模型里單個(gè)節(jié)點(diǎn)的算法,不斷并行的迭代,如果所有論文節(jié)點(diǎn)計(jì)算得的特征值均收斂,算法便停止迭代,即得到對(duì)于新發(fā)表學(xué)術(shù)論文的評(píng)分。以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。在不沖突的情況下,本申請(qǐng)的實(shí)施例和實(shí)施例中的特征可以任意相互組合。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
临漳县| 和田县| 宁陵县| 唐山市| 连州市| 惠来县| 津市市| 化隆| 天峨县| 乌拉特中旗| 临湘市| 陕西省| 黄陵县| 绥棱县| 津市市| 东至县| 新化县| 京山县| 普格县| 汉阴县| 关岭| 巨野县| 井陉县| 枞阳县| 永济市| 绥中县| 浮梁县| 武平县| 清远市| 靖州| 涪陵区| 莱州市| 南漳县| 阿克陶县| 扶绥县| 阿坝县| 广平县| 西乌| 溧阳市| 无锡市| 台北县|