科研信息演化的分析方法和裝置制造方法
【專利摘要】提供了一種科研信息演化的分析方法和裝置,方法包括:通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn);通過(guò)預(yù)處理單元對(duì)科研文獻(xiàn)的進(jìn)行預(yù)處理,并構(gòu)建二篇以上科研文獻(xiàn)的作者主題演化模型;通過(guò)獲取單元設(shè)定科研信息估算參數(shù),利用演化運(yùn)算公式運(yùn)算科研估算參數(shù),以獲取科研信息演化結(jié)果。在本發(fā)明提供的實(shí)施例中,采集預(yù)設(shè)領(lǐng)域的科研文獻(xiàn),對(duì)科研文獻(xiàn)進(jìn)行預(yù)處理,并構(gòu)建科研文獻(xiàn)的作者主題演化模型,利用演化運(yùn)算公式獲取科研信息演化結(jié)果,科研信息演化結(jié)果在揭示科研文獻(xiàn)的主題、科研人員的研究興趣的同時(shí),也能揭示挖掘預(yù)設(shè)科研領(lǐng)域科研的主題、科研人員的研究興趣等隨時(shí)間變化的規(guī)律,有助于把握預(yù)設(shè)領(lǐng)域內(nèi)科研主題的演化脈絡(luò)。
【專利說(shuō)明】科研信息演化的分析方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及科研信息分析的【技術(shù)領(lǐng)域】,尤其是涉及科研信息演化的分析方法和裝置。
【背景技術(shù)】
[0002]科研文獻(xiàn)作為學(xué)術(shù)成果的主要載體,凝聚了科研人員的大量汗水和智慧,是人類社會(huì)中傳播知識(shí)、進(jìn)行學(xué)術(shù)交流的重要手段,任何科學(xué)研究的成果都是建立在之前的科學(xué)研究的基礎(chǔ)之上的。普賴斯科研文獻(xiàn)指數(shù)增長(zhǎng)定律和邏輯曲線增長(zhǎng)模型表明:科研文獻(xiàn)的數(shù)量正呈指數(shù)級(jí)增長(zhǎng)。為了準(zhǔn)確把握科技發(fā)展現(xiàn)狀,可以結(jié)合科研文獻(xiàn)的特征信息,從海量的科研文獻(xiàn)中找出科技主題及其內(nèi)部的發(fā)展脈絡(luò)。其中,科研文獻(xiàn)資源包含大量的特征信息,例如單詞與單詞之間的潛在語(yǔ)義關(guān)系、科研文獻(xiàn)主題與作者的關(guān)系(作者的研究興趣)、研究熱點(diǎn)的興起、成熟到衰退的過(guò)程等。
[0003]在現(xiàn)有技術(shù)中,Rosen-Zvi等人在LDA模型中引入作者隱變量,用作者-主題(Author-Topic,AT)分布取代LDA模型中的科研文獻(xiàn)-主題分布。AT模型可以有效地挖掘科研文獻(xiàn)的作者與科研文獻(xiàn)的主題之間的聯(lián)系,找出科研人員的研究興趣。然而,AT模型隱式地假設(shè)每個(gè)科研人員只有ー個(gè)研究興趣,為克服這ー限制條件,Mimno等人在AT模型的基礎(chǔ)上構(gòu)建了作者-身份-主題(Author-Persona-Topic,APT)模型。該模型將科研人員的“身份”(Persona)與研究興趣相對(duì)應(yīng),并給出了一種估計(jì)研究興趣個(gè)數(shù)的啟發(fā)式方法。然而,AT和APT模型在挖掘科研人員的研究興趣吋,都是只考慮了其撰寫的科研文獻(xiàn),而均未直接考慮時(shí)間因素的影響,所以無(wú)法掲示科研文獻(xiàn)的主題、科研人員的研究興趣隨時(shí)間變化的規(guī)律。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供一種科研信息演化的分析方法和裝置,用于解決現(xiàn)有技術(shù)中不能掲示科研文獻(xiàn)的主題、科研人員的研究興趣隨時(shí)間變化的規(guī)律的問(wèn)題。
[0005]為解決現(xiàn)有技術(shù)中的上述問(wèn)題,本發(fā)明提供了一種科研信息演化的分析方法,其中,包括:
[0006]通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的ニ篇以上科研文獻(xiàn);
[0007]通過(guò)預(yù)處理單元對(duì)所述科研文獻(xiàn)進(jìn)行預(yù)處理,并構(gòu)建所述ニ篇以上科研文獻(xiàn)的作者主題演化模型;
[0008]通過(guò)獲取単元設(shè)定科研信息估算參數(shù),利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù),以獲取科研信息演化結(jié)果。
[0009]本發(fā)明還提供了一種科研信息演化的分析裝置,其中包括:采集單元、預(yù)處理単元和獲取單元;
[0010]所述采集単元用于采集預(yù)設(shè)領(lǐng)域的ニ篇以上科研文獻(xiàn);
[0011]所述預(yù)處理單元用于對(duì)所述科研文獻(xiàn)的進(jìn)行預(yù)處理,并構(gòu)建所述ニ篇以上科研文獻(xiàn)的作者主題演化模型;
[0012]所述獲取単元用于設(shè)定科研信息估算參數(shù),利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù),以獲取科研信息演化結(jié)果。
[0013]本發(fā)明提供的實(shí)施例的有益效果:
[0014]在本實(shí)施例中,采集預(yù)設(shè)領(lǐng)域的ニ篇以上科研文獻(xiàn),對(duì)科研文獻(xiàn)進(jìn)行預(yù)處理,并構(gòu)建ニ篇以上科研文獻(xiàn)的作者主題演化模型,設(shè)定科研信息估算參數(shù),利用演化運(yùn)算公式運(yùn)算科研估算參數(shù),以獲取科研信息演化結(jié)果,科研信息演化結(jié)果在掲示科研文獻(xiàn)的主題、科研人員的研究興趣的同時(shí),也能掲示挖掘預(yù)設(shè)科研領(lǐng)域科研的主題、科研人員的研究興趣等隨時(shí)間變化的規(guī)律,有助于把握預(yù)設(shè)領(lǐng)域內(nèi)科研主題的演化脈絡(luò)。
【專利附圖】
【附圖說(shuō)明】
[0015]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0016]圖1為本發(fā)明科研信息演化的分析方法第一實(shí)施例的流程圖;
[0017]圖2為本發(fā)明科研信息演化的分析方法第二實(shí)施例的流程圖;
[0018]圖3為本實(shí)施例中AToT模型的概率圖;
[0019]圖4為本實(shí)施例中主題“增強(qiáng)學(xué)習(xí)”隨時(shí)間變化的趨勢(shì)圖;
[0020]圖5為本實(shí)施例中主題“EM和混合模型”隨時(shí)間變化的趨勢(shì)圖;
[0021]圖6為本實(shí)施例中主題“眼睛識(shí)別及因子分析”隨時(shí)間變化的趨勢(shì)圖;
[0022]圖7為本實(shí)施例中主題“數(shù)據(jù)模型及學(xué)習(xí)算法”隨時(shí)間變化的趨勢(shì)圖;
[0023]圖8為本實(shí)施例中主題“支持向量機(jī)和核方法”隨時(shí)間變化的趨勢(shì)圖;
[0024]圖9為本實(shí)施例中主題“神經(jīng)網(wǎng)絡(luò)”隨時(shí)間變化的趨勢(shì)圖;
[0025]圖10為本實(shí)施例中主題“語(yǔ)音識(shí)別”隨時(shí)間變化的趨勢(shì)圖;
[0026]圖11為本實(shí)施例中主題“貝葉斯學(xué)習(xí)”隨時(shí)間變化的趨勢(shì)圖;
[0027]圖12為本實(shí)施例中科研文獻(xiàn)的時(shí)間分布圖;
[0028]圖13為本實(shí)施例中科研人員研究主題的時(shí)間演化模型圖;
[0029]圖14為本實(shí)施例中AT模型和AToT模型的困惑度比較示意圖;
[0030]圖15為本發(fā)明科研信息演化的分析裝置第一實(shí)施例的結(jié)構(gòu)示意圖;
[0031]圖16為本發(fā)明科研信息演化的分析裝置第二實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0032]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0033]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,除非特意聲明,這里使用的単數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一歩理解的是,本發(fā)明的說(shuō)明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加ー個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件吋,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無(wú)線連接或耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的任一単元和全部組合。
[0034]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里ー樣定義,不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。
[0035]圖1為本發(fā)明科研信息演化的分析方法第一實(shí)施例的流程圖。如圖1所示,本實(shí)施例科研信息演化的分析方法的工作流程包括如下步驟:
[0036]步驟101、通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)。
[0037]在本實(shí)施例中,可以通過(guò)電腦來(lái)執(zhí)行采集單元、預(yù)處理單元和獲取單元的功能。在本步驟中,通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn),例如,可以通過(guò)采集單元采集某個(gè)科研領(lǐng)域的1000篇科研文獻(xiàn)。通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)之后,進(jìn)入步驟102。
[0038]步驟102、通過(guò)預(yù)處理單元對(duì)科研文獻(xiàn)進(jìn)行預(yù)處理,并構(gòu)建二篇以上科研文獻(xiàn)的作者主題演化模型。
[0039]在本步驟中,通過(guò)預(yù)處理單元對(duì)采集到的所有科研文獻(xiàn)進(jìn)行預(yù)處理,包括過(guò)濾停用單詞、數(shù)字和低于預(yù)設(shè)頻率的單詞等,并對(duì)科研文獻(xiàn)的作者姓名進(jìn)行消歧操作,姓名消歧方法包括:人工消歧法、半自動(dòng)消歧法、自動(dòng)消歧法以及混合消歧法等,預(yù)處理完成后可以整理得到由V個(gè)詞項(xiàng)構(gòu)成的詞典以及A個(gè)作者組成的科技工作者集合,并將科研文獻(xiàn)的發(fā)表時(shí)間進(jìn)行歸ー化處理 到區(qū)間(0,1)。構(gòu)建采集到各科研文獻(xiàn)的作者主題演化模型(Author-Topic over Time, AToT),具體包括:采用吉布斯采樣算法公式計(jì)算主題詞項(xiàng)參數(shù)
O、作者主題參數(shù)?、科研文獻(xiàn)m中第n個(gè)單詞的主題分配zm,n和科研文獻(xiàn)m中第n個(gè)單詞的作者分配xm,n。其中,吉布斯采樣算法公式如下所示:
【權(quán)利要求】
1.一種科研信息演化的分析方法,其特征在于,包括: 通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn); 通過(guò)預(yù)處理單元對(duì)所述科研文獻(xiàn)進(jìn)行預(yù)處理,并構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型; 通過(guò)獲取単元設(shè)定科研信息估算參數(shù),利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù),以獲取科研信息演化結(jié)果。
2.根據(jù)權(quán)利要求1所述的科研信息演化的分析方法,其特征在于,還包括: 通過(guò)顯示単元將所述科研信息演化結(jié)果顯示給用戶,顯示方式包括采用折線圖和/或辛頓Hinton圖。
3.根據(jù)權(quán)利要求1所述的科研信息演化的分析方法,其特征在于,通過(guò)預(yù)處理單元對(duì)所述科研文獻(xiàn)的進(jìn)行預(yù)處理,具體包括: 過(guò)濾所述科研文獻(xiàn)中的停用單詞、數(shù)字和低于預(yù)設(shè)頻率的單詞,對(duì)所述科研文獻(xiàn)的作者姓名進(jìn)行消歧; 獲取所述二篇以上科研文獻(xiàn)的A個(gè)作者和V個(gè)詞項(xiàng),以及對(duì)所述二篇以上科研文獻(xiàn)的發(fā)表時(shí)間進(jìn)行歸一化處理。
4.根據(jù)權(quán)利要求1所述的科研信息演化的分析方法,其特征在于,構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型,具體包括: 采用吉布斯采樣算法公式計(jì)算主題詞項(xiàng)參數(shù)の、作者主題參數(shù)?、科研文獻(xiàn)m中第n個(gè)單詞的主題分配zm,n和科研文獻(xiàn)m中第n個(gè)單詞的作者分配Xm,n ; 吉布斯采樣算法公式如下所示:
5.根據(jù)權(quán)利要求4所述的科研信息演化的分析方法,其特征在干,設(shè)定科研信息估算參數(shù),具體包括: 采用狄利克雷分布的期望估計(jì)主題k的詞項(xiàng)概率分布參數(shù)9た和作者a的主題概率分布參數(shù)Sa的計(jì)算公式如下所示:.= 心’)+凡
6.根據(jù)權(quán)利要求4或5所述的科研信息演化的分析方法,其特征在于,利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù),以獲取科研信息演化結(jié)果中,所述演化計(jì)算公式如下所示:
7.一種科研信息演化的分析裝置,其特征在于,包括:采集單元、預(yù)處理単元和獲取單元; 所述采集単元用于采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn); 所述預(yù)處理單元用于對(duì)所述科研文獻(xiàn)進(jìn)行預(yù)處理,并構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型; 所述獲取単元用于設(shè)定科研信息估算參數(shù),利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù),以獲取科研信息演化結(jié)果。
8.根據(jù)權(quán)利要求7所述的科研信息演化的分析裝置,其特征在于,還包括: 顯示單元,用于將所述科研信息演化結(jié)果顯示給用戶,所述顯示単元的顯示方式包括采用折線圖和/或辛頓Hinton圖。
9.根據(jù)權(quán)利要求7所述的科研信息演化的分析裝置,其特征在干,所述預(yù)處理單元構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型,具體包括: 采用吉布斯采樣算法公式計(jì)算主題詞項(xiàng)參數(shù)の、作者主題參數(shù)?、科研文獻(xiàn)m中第n個(gè)單詞的主題分配zm,n和科研文獻(xiàn)m中第n個(gè)單詞的作者分配Xm,n ; 吉布斯采樣算法公式如下所示:
10.根據(jù)權(quán)利要求9所述的科研信息演化的分析裝置,其特征在于,所述獲取単元設(shè)定科研信息估算參數(shù),具體包括: 采用狄利克雷分布的期望估計(jì)主題k的詞項(xiàng)概率分布參數(shù)恥和作者a的主題概率分布參數(shù)咎
11.根據(jù)權(quán)利要求9或10所述的科研信息演化的分析裝置,其特征在于,所述獲取単元利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù),以獲取科研信息演化結(jié)果中,所述演化計(jì)算公式如下所示:
【文檔編號(hào)】G06F17/30GK103605671SQ201310522710
【公開(kāi)日】2014年2月26日 申請(qǐng)日期:2013年10月29日 優(yōu)先權(quán)日:2013年10月29日
【發(fā)明者】徐碩, 史慶偉, 喬曉東, 朱禮軍 申請(qǐng)人:中國(guó)科學(xué)技術(shù)信息研究所