科研信息演化的分析方法和裝置制造方法

文檔序號(hào)：6517005閱讀：463來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

科研信息演化的分析方法和裝置制造方法
【專利摘要】提供了一種科研信息演化的分析方法和裝置，方法包括：通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)；通過(guò)預(yù)處理單元對(duì)科研文獻(xiàn)的進(jìn)行預(yù)處理，并構(gòu)建二篇以上科研文獻(xiàn)的作者主題演化模型；通過(guò)獲取單元設(shè)定科研信息估算參數(shù)，利用演化運(yùn)算公式運(yùn)算科研估算參數(shù)，以獲取科研信息演化結(jié)果。在本發(fā)明提供的實(shí)施例中，采集預(yù)設(shè)領(lǐng)域的科研文獻(xiàn)，對(duì)科研文獻(xiàn)進(jìn)行預(yù)處理，并構(gòu)建科研文獻(xiàn)的作者主題演化模型，利用演化運(yùn)算公式獲取科研信息演化結(jié)果，科研信息演化結(jié)果在揭示科研文獻(xiàn)的主題、科研人員的研究興趣的同時(shí)，也能揭示挖掘預(yù)設(shè)科研領(lǐng)域科研的主題、科研人員的研究興趣等隨時(shí)間變化的規(guī)律，有助于把握預(yù)設(shè)領(lǐng)域內(nèi)科研主題的演化脈絡(luò)。
【專利說(shuō)明】科研信息演化的分析方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及科研信息分析的【技術(shù)領(lǐng)域】，尤其是涉及科研信息演化的分析方法和裝置。
【背景技術(shù)】
[0002]科研文獻(xiàn)作為學(xué)術(shù)成果的主要載體，凝聚了科研人員的大量汗水和智慧，是人類社會(huì)中傳播知識(shí)、進(jìn)行學(xué)術(shù)交流的重要手段，任何科學(xué)研究的成果都是建立在之前的科學(xué)研究的基礎(chǔ)之上的。普賴斯科研文獻(xiàn)指數(shù)增長(zhǎng)定律和邏輯曲線增長(zhǎng)模型表明:科研文獻(xiàn)的數(shù)量正呈指數(shù)級(jí)增長(zhǎng)。為了準(zhǔn)確把握科技發(fā)展現(xiàn)狀，可以結(jié)合科研文獻(xiàn)的特征信息，從海量的科研文獻(xiàn)中找出科技主題及其內(nèi)部的發(fā)展脈絡(luò)。其中，科研文獻(xiàn)資源包含大量的特征信息，例如單詞與單詞之間的潛在語(yǔ)義關(guān)系、科研文獻(xiàn)主題與作者的關(guān)系(作者的研究興趣)、研究熱點(diǎn)的興起、成熟到衰退的過(guò)程等。
[0003]在現(xiàn)有技術(shù)中，Rosen-Zvi等人在LDA模型中引入作者隱變量，用作者-主題(Author-Topic，AT)分布取代LDA模型中的科研文獻(xiàn)-主題分布。AT模型可以有效地挖掘科研文獻(xiàn)的作者與科研文獻(xiàn)的主題之間的聯(lián)系，找出科研人員的研究興趣。然而，AT模型隱式地假設(shè)每個(gè)科研人員只有ー個(gè)研究興趣，為克服這ー限制條件，Mimno等人在AT模型的基礎(chǔ)上構(gòu)建了作者-身份-主題(Author-Persona-Topic，APT)模型。該模型將科研人員的“身份”(Persona)與研究興趣相對(duì)應(yīng)，并給出了一種估計(jì)研究興趣個(gè)數(shù)的啟發(fā)式方法。然而，AT和APT模型在挖掘科研人員的研究興趣吋，都是只考慮了其撰寫的科研文獻(xiàn)，而均未直接考慮時(shí)間因素的影響，所以無(wú)法掲示科研文獻(xiàn)的主題、科研人員的研究興趣隨時(shí)間變化的規(guī)律。

【發(fā)明內(nèi)容】

[0004]本發(fā)明提供一種科研信息演化的分析方法和裝置，用于解決現(xiàn)有技術(shù)中不能掲示科研文獻(xiàn)的主題、科研人員的研究興趣隨時(shí)間變化的規(guī)律的問(wèn)題。
[0005]為解決現(xiàn)有技術(shù)中的上述問(wèn)題，本發(fā)明提供了一種科研信息演化的分析方法，其中，包括:
[0006]通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的ニ篇以上科研文獻(xiàn)；
[0007]通過(guò)預(yù)處理單元對(duì)所述科研文獻(xiàn)進(jìn)行預(yù)處理，并構(gòu)建所述ニ篇以上科研文獻(xiàn)的作者主題演化模型；
[0008]通過(guò)獲取単元設(shè)定科研信息估算參數(shù)，利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù)，以獲取科研信息演化結(jié)果。
[0009]本發(fā)明還提供了一種科研信息演化的分析裝置，其中包括:采集單元、預(yù)處理単元和獲取單元；
[0010]所述采集単元用于采集預(yù)設(shè)領(lǐng)域的ニ篇以上科研文獻(xiàn)；
[0011]所述預(yù)處理單元用于對(duì)所述科研文獻(xiàn)的進(jìn)行預(yù)處理，并構(gòu)建所述ニ篇以上科研文獻(xiàn)的作者主題演化模型；
[0012]所述獲取単元用于設(shè)定科研信息估算參數(shù)，利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù)，以獲取科研信息演化結(jié)果。
[0013]本發(fā)明提供的實(shí)施例的有益效果:
[0014]在本實(shí)施例中，采集預(yù)設(shè)領(lǐng)域的ニ篇以上科研文獻(xiàn)，對(duì)科研文獻(xiàn)進(jìn)行預(yù)處理，并構(gòu)建ニ篇以上科研文獻(xiàn)的作者主題演化模型，設(shè)定科研信息估算參數(shù)，利用演化運(yùn)算公式運(yùn)算科研估算參數(shù)，以獲取科研信息演化結(jié)果，科研信息演化結(jié)果在掲示科研文獻(xiàn)的主題、科研人員的研究興趣的同時(shí)，也能掲示挖掘預(yù)設(shè)科研領(lǐng)域科研的主題、科研人員的研究興趣等隨時(shí)間變化的規(guī)律，有助于把握預(yù)設(shè)領(lǐng)域內(nèi)科研主題的演化脈絡(luò)。
【專利附圖】

【附圖說(shuō)明】
[0015]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中:
[0016]圖1為本發(fā)明科研信息演化的分析方法第一實(shí)施例的流程圖；
[0017]圖2為本發(fā)明科研信息演化的分析方法第二實(shí)施例的流程圖；
[0018]圖3為本實(shí)施例中AToT模型的概率圖；
[0019]圖4為本實(shí)施例中主題“增強(qiáng)學(xué)習(xí)”隨時(shí)間變化的趨勢(shì)圖；
[0020]圖5為本實(shí)施例中主題“EM和混合模型”隨時(shí)間變化的趨勢(shì)圖；
[0021]圖6為本實(shí)施例中主題“眼睛識(shí)別及因子分析”隨時(shí)間變化的趨勢(shì)圖；
[0022]圖7為本實(shí)施例中主題“數(shù)據(jù)模型及學(xué)習(xí)算法”隨時(shí)間變化的趨勢(shì)圖；
[0023]圖8為本實(shí)施例中主題“支持向量機(jī)和核方法”隨時(shí)間變化的趨勢(shì)圖；
[0024]圖9為本實(shí)施例中主題“神經(jīng)網(wǎng)絡(luò)”隨時(shí)間變化的趨勢(shì)圖；
[0025]圖10為本實(shí)施例中主題“語(yǔ)音識(shí)別”隨時(shí)間變化的趨勢(shì)圖；
[0026]圖11為本實(shí)施例中主題“貝葉斯學(xué)習(xí)”隨時(shí)間變化的趨勢(shì)圖；
[0027]圖12為本實(shí)施例中科研文獻(xiàn)的時(shí)間分布圖；
[0028]圖13為本實(shí)施例中科研人員研究主題的時(shí)間演化模型圖；
[0029]圖14為本實(shí)施例中AT模型和AToT模型的困惑度比較示意圖；
[0030]圖15為本發(fā)明科研信息演化的分析裝置第一實(shí)施例的結(jié)構(gòu)示意圖；
[0031]圖16為本發(fā)明科研信息演化的分析裝置第二實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0032]下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能解釋為對(duì)本發(fā)明的限制。
[0033]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解，除非特意聲明，這里使用的単數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一歩理解的是，本發(fā)明的說(shuō)明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加ー個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解，當(dāng)我們稱元件被“連接”或“耦接”到另一元件吋，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的“連接”或“耦接”可以包括無(wú)線連接或耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的任一単元和全部組合。
[0034]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解，除非另外定義，這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里ー樣定義，不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。
[0035]圖1為本發(fā)明科研信息演化的分析方法第一實(shí)施例的流程圖。如圖1所示，本實(shí)施例科研信息演化的分析方法的工作流程包括如下步驟:
[0036]步驟101、通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)。
[0037]在本實(shí)施例中，可以通過(guò)電腦來(lái)執(zhí)行采集單元、預(yù)處理單元和獲取單元的功能。在本步驟中，通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)，例如，可以通過(guò)采集單元采集某個(gè)科研領(lǐng)域的1000篇科研文獻(xiàn)。通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)之后，進(jìn)入步驟102。
[0038]步驟102、通過(guò)預(yù)處理單元對(duì)科研文獻(xiàn)進(jìn)行預(yù)處理，并構(gòu)建二篇以上科研文獻(xiàn)的作者主題演化模型。
[0039]在本步驟中，通過(guò)預(yù)處理單元對(duì)采集到的所有科研文獻(xiàn)進(jìn)行預(yù)處理，包括過(guò)濾停用單詞、數(shù)字和低于預(yù)設(shè)頻率的單詞等，并對(duì)科研文獻(xiàn)的作者姓名進(jìn)行消歧操作，姓名消歧方法包括:人工消歧法、半自動(dòng)消歧法、自動(dòng)消歧法以及混合消歧法等，預(yù)處理完成后可以整理得到由V個(gè)詞項(xiàng)構(gòu)成的詞典以及A個(gè)作者組成的科技工作者集合，并將科研文獻(xiàn)的發(fā)表時(shí)間進(jìn)行歸ー化處理到區(qū)間(0，1)。構(gòu)建采集到各科研文獻(xiàn)的作者主題演化模型(Author-Topic over Time, AToT),具體包括:采用吉布斯采樣算法公式計(jì)算主題詞項(xiàng)參數(shù)
O、作者主題參數(shù)?、科研文獻(xiàn)m中第n個(gè)單詞的主題分配zm，n和科研文獻(xiàn)m中第n個(gè)單詞的作者分配xm，n。其中，吉布斯采樣算法公式如下所示:
【權(quán)利要求】
1.一種科研信息演化的分析方法，其特征在于，包括: 通過(guò)采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)；通過(guò)預(yù)處理單元對(duì)所述科研文獻(xiàn)進(jìn)行預(yù)處理，并構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型；通過(guò)獲取単元設(shè)定科研信息估算參數(shù)，利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù)，以獲取科研信息演化結(jié)果。
2.根據(jù)權(quán)利要求1所述的科研信息演化的分析方法，其特征在于，還包括: 通過(guò)顯示単元將所述科研信息演化結(jié)果顯示給用戶，顯示方式包括采用折線圖和/或辛頓Hinton圖。
3.根據(jù)權(quán)利要求1所述的科研信息演化的分析方法，其特征在于，通過(guò)預(yù)處理單元對(duì)所述科研文獻(xiàn)的進(jìn)行預(yù)處理，具體包括: 過(guò)濾所述科研文獻(xiàn)中的停用單詞、數(shù)字和低于預(yù)設(shè)頻率的單詞，對(duì)所述科研文獻(xiàn)的作者姓名進(jìn)行消歧；獲取所述二篇以上科研文獻(xiàn)的A個(gè)作者和V個(gè)詞項(xiàng)，以及對(duì)所述二篇以上科研文獻(xiàn)的發(fā)表時(shí)間進(jìn)行歸一化處理。
4.根據(jù)權(quán)利要求1所述的科研信息演化的分析方法，其特征在于，構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型，具體包括: 采用吉布斯采樣算法公式計(jì)算主題詞項(xiàng)參數(shù)の、作者主題參數(shù)?、科研文獻(xiàn)m中第n個(gè)單詞的主題分配zm，n和科研文獻(xiàn)m中第n個(gè)單詞的作者分配Xm，n ；吉布斯采樣算法公式如下所示:
5.根據(jù)權(quán)利要求4所述的科研信息演化的分析方法，其特征在干，設(shè)定科研信息估算參數(shù)，具體包括: 采用狄利克雷分布的期望估計(jì)主題k的詞項(xiàng)概率分布參數(shù)9た和作者a的主題概率分布參數(shù)Sa的計(jì)算公式如下所示:.= 心’)+凡
6.根據(jù)權(quán)利要求4或5所述的科研信息演化的分析方法，其特征在于，利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù)，以獲取科研信息演化結(jié)果中，所述演化計(jì)算公式如下所示:
7.一種科研信息演化的分析裝置，其特征在于，包括:采集單元、預(yù)處理単元和獲取單元; 所述采集単元用于采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn)；所述預(yù)處理單元用于對(duì)所述科研文獻(xiàn)進(jìn)行預(yù)處理，并構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型；所述獲取単元用于設(shè)定科研信息估算參數(shù)，利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù)，以獲取科研信息演化結(jié)果。
8.根據(jù)權(quán)利要求7所述的科研信息演化的分析裝置，其特征在于，還包括: 顯示單元，用于將所述科研信息演化結(jié)果顯示給用戶，所述顯示単元的顯示方式包括采用折線圖和/或辛頓Hinton圖。
9.根據(jù)權(quán)利要求7所述的科研信息演化的分析裝置，其特征在干，所述預(yù)處理單元構(gòu)建所述二篇以上科研文獻(xiàn)的作者主題演化模型，具體包括: 采用吉布斯采樣算法公式計(jì)算主題詞項(xiàng)參數(shù)の、作者主題參數(shù)?、科研文獻(xiàn)m中第n個(gè)單詞的主題分配zm，n和科研文獻(xiàn)m中第n個(gè)單詞的作者分配Xm，n ；吉布斯采樣算法公式如下所示:
10.根據(jù)權(quán)利要求9所述的科研信息演化的分析裝置，其特征在于，所述獲取単元設(shè)定科研信息估算參數(shù)，具體包括: 采用狄利克雷分布的期望估計(jì)主題k的詞項(xiàng)概率分布參數(shù)恥和作者a的主題概率分布參數(shù)咎
11.根據(jù)權(quán)利要求9或10所述的科研信息演化的分析裝置，其特征在于，所述獲取単元利用演化運(yùn)算公式運(yùn)算所述科研估算參數(shù)，以獲取科研信息演化結(jié)果中，所述演化計(jì)算公式如下所示:
【文檔編號(hào)】G06F17/30GK103605671SQ201310522710
【公開(kāi)日】2014年2月26日申請(qǐng)日期:2013年10月29日優(yōu)先權(quán)日:2013年10月29日
【發(fā)明者】徐碩, 史慶偉, 喬曉東, 朱禮軍申請(qǐng)人:中國(guó)科學(xué)技術(shù)信息研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐碩;史慶偉;喬曉東;朱禮軍
技術(shù)所有人：中國(guó)科學(xué)技術(shù)信息研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

質(zhì)檢科研管理信息系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

科研信息演化的分析方法和裝置制造方法