基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法

文檔序號(hào)：9417370閱讀：434來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法，屬于文本挖掘 (Text Mining)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來(lái)，主題發(fā)現(xiàn)作為文本挖掘領(lǐng)域的熱門(mén)研究方向，受到越來(lái)越多的研究者的重視。主題發(fā)現(xiàn)可以從海量的非結(jié)構(gòu)化文本中挖掘到關(guān)鍵的主題信息，可以更加高效的理解文本的主要內(nèi)容，獲取文本的深層語(yǔ)義信息。同時(shí)，主題發(fā)現(xiàn)還可以對(duì)主題進(jìn)行更深層次的分析，發(fā)現(xiàn)文本中更多的潛在知識(shí)。
[0003] 現(xiàn)有的主題發(fā)現(xiàn)方法主要有主題模型以及詞頻統(tǒng)計(jì)的兩種。主題模型是一種概率生成模型，在主題模型中主題作為隱變量，文檔以及詞項(xiàng)作為觀測(cè)值。通過(guò)對(duì)模型的訓(xùn)練可以得到詞項(xiàng)概率分布、以及主題概率分布。經(jīng)過(guò)訓(xùn)練后的模型就可以將詞項(xiàng)空間中的文檔變換到主題空間，從而實(shí)現(xiàn)文檔處理的降維，最終得到具有語(yǔ)義信息的主題集合。常用的主題模型主要有LSI [1，2]、PLSI [3, 4]、LDA[5]等。詞頻統(tǒng)計(jì)的方法則是通過(guò)對(duì)詞在文檔中以及文檔集中的頻率的計(jì)算來(lái)進(jìn)行主題抽取，常用的方法有TF_IDF (term frequency -inverse document frequency)、互信息（Mutual Information)、信息增益、x2 統(tǒng)計(jì)量等。
[0004] 上述的主題發(fā)現(xiàn)方法具有很強(qiáng)的理論基礎(chǔ)，在眾多主題發(fā)現(xiàn)任務(wù)中均取得較好的效果。然而這些方法對(duì)于跨學(xué)科領(lǐng)域中的共現(xiàn)主題信息無(wú)法很好的抽取，因?yàn)閷?duì)于評(píng)價(jià)類(lèi) 跨學(xué)科領(lǐng)域的文本，有時(shí)主題可能是由低頻主題詞而非高頻詞體現(xiàn)?，F(xiàn)有的主題發(fā)現(xiàn)方法大多傾向于獲取高頻詞，因而無(wú)法用來(lái)抽取具有低頻特征的共現(xiàn)主題詞，即低頻主題詞。此外，跨學(xué)科領(lǐng)域的共現(xiàn)主題發(fā)現(xiàn)研究具有重要的研究意義，因?yàn)橥ㄟ^(guò)這些共現(xiàn)主題可以從更宏觀的角度來(lái)分析文本集，并且獲得更多有意義的主題信息的規(guī)律。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)存在的不足，提供一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法，為主題發(fā)現(xiàn)的相關(guān)研究提供新思路，可應(yīng)用到評(píng)價(jià)類(lèi)文檔集的主題發(fā)現(xiàn)，從而實(shí)現(xiàn)不同學(xué)科領(lǐng)域文檔集中得共現(xiàn)主題提取。
[0006] 為達(dá)到上述目的，本發(fā)明采用下述技術(shù)方案：一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn) 主題發(fā)現(xiàn)方法，其特征在于操作步驟包括：
[0007] (1)、數(shù)據(jù)收集：收集高引文獻(xiàn)作者關(guān)于其科研成功的自評(píng)文檔集；
[0008] (2)、數(shù)據(jù)處理：提取和數(shù)字化自評(píng)中的正文部分；
[0009] (3)、抽取候選低頻主題詞；
[0010] (4)、計(jì)算低頻主題評(píng)價(jià)系數(shù)；
[0011] (5)、設(shè)定低頻主題詞評(píng)價(jià)系數(shù)的閾值；
[0012] (6)、過(guò)濾低頻主題詞。
[0013] 上述步驟（1)所述為數(shù)據(jù)收集。從引文數(shù)據(jù)庫(kù)SCI (Science Citation Index)的創(chuàng)始人加菲爾德所征集的高引經(jīng)典文獻(xiàn)的作者關(guān)于其科研研究工作取得成功的自評(píng)中收集到3790篇高引經(jīng)典文獻(xiàn)的作者自評(píng)文檔集。
[0014] 上述步驟（2)所述為數(shù)據(jù)處理。對(duì)文檔集中自評(píng)的正文部分進(jìn)行了提取和數(shù)字化。此外，還提取了 3類(lèi)信息，自評(píng)的正文內(nèi)容、自評(píng)的相關(guān)信息以及原高引文獻(xiàn)的相關(guān)信息。
[0015] 本發(fā)明定義了低頻主題詞是能夠充分體現(xiàn)主題信息，均勻出現(xiàn)且詞頻較低的非專(zhuān) 業(yè)詞。低頻主題詞的詞頻應(yīng)當(dāng)符合如下公式：
[0016]
[0017] 文檔集D(D= W1Hi = [l，m]))中，文檔Cl1中的詞Wlj在D中出現(xiàn)的次數(shù)c' ^與它在文檔Cl1中出現(xiàn)的次數(shù)c u之比應(yīng)當(dāng)?shù)扔谂c文檔集D中的文檔數(shù)目m相關(guān)的數(shù)值。當(dāng)w ^ 不出現(xiàn)在文檔di中，則值為零。
[0018] 上述步驟（3)所述為抽取候選低頻主題詞。通過(guò)定義的標(biāo)記模式進(jìn)行候選低頻主題詞。具體步驟是首先利用"自然語(yǔ)言工具集" NLTK (Natural Language Toolkit)作為工具處理自評(píng)的征文部分，然后結(jié)合1^^116731'；[11;03；[11，(：；[11(17]^.對(duì)高引經(jīng)典文獻(xiàn)作者自評(píng) 的研究的結(jié)果定義標(biāo)記模式，最后通過(guò)定義的標(biāo)記模式進(jìn)行抽取候選低頻主題詞。
[0019] 本發(fā)明定義低頻主題詞評(píng)價(jià)系數(shù)，是用于評(píng)估一個(gè)詞均勻出現(xiàn)的程度的統(tǒng)計(jì)指標(biāo)。在信息論中，信息被認(rèn)為是可以量化的。在抽象含義上，認(rèn)為發(fā)生概率低的事件所包含的信息量大。如果詞W lj的信息量大，則它更加確定，對(duì)于文檔或文檔集而言確定性越高的詞則越重要。
[0020] 上訴步驟（4)所訴為計(jì)算所有候選低頻主題詞的低頻主題評(píng)價(jià)系數(shù)。具體步驟如下：
[0021] (41)、計(jì)算低頻詞對(duì)文檔的信息量：~表示詞Wl]對(duì)文檔di的信息量。詞在文檔中出現(xiàn)的詞頻 Cl]與文檔中總詞數(shù)C i的比值近似的被看作為詞在文檔中出現(xiàn)的概率。
[0022]
[0023] (42)、計(jì)算低頻詞對(duì)文檔集的信息量表示每個(gè)詞對(duì)應(yīng)的文檔集信息量，詞在文檔集中出現(xiàn)的詞頻c'、,與文檔中總詞數(shù)
的比值近似的被看作為詞在文檔集中出現(xiàn) 的概率。
[0024]
[0025] (43)、計(jì)算低頻主題詞評(píng)價(jià)系數(shù)：直接用詞的文檔信息量和文檔集信息量的差值來(lái)計(jì)算低頻主題詞評(píng)價(jià)系數(shù)％,, ° 越接近〇時(shí)所對(duì)應(yīng)的',越可能是低頻主題詞。 LlN 丄Λ rVJ Ij ?/? }J\
[0026]
[0027] 上述步驟（5)所述為設(shè)定低頻主題詞評(píng)價(jià)系數(shù)閾值。設(shè)定的閾值要確保低頻主題詞的提取時(shí)的查全率和查準(zhǔn)率。即盡可能多的得到低頻主題詞而不引入過(guò)多的非低頻主題 1·^] 〇
[0028] 上述步驟（6)所述為過(guò)濾低頻主題詞。自評(píng)篇幅較小，高頻詞是專(zhuān)業(yè)詞的可能性較大，所以去除大部分專(zhuān)業(yè)詞，從而提高查準(zhǔn)率。再通過(guò)人工標(biāo)記的方式去除未明顯指向主題的詞組，從而對(duì)結(jié)果進(jìn)行優(yōu)化。
[0029] 本發(fā)明與現(xiàn)有技術(shù)相比較，具有如下顯而易見(jiàn)的突出實(shí)質(zhì)性特點(diǎn)和顯著技術(shù)進(jìn) 步：（1)該方法可以用來(lái)分析跨多個(gè)學(xué)科領(lǐng)域的文本中的共現(xiàn)主題，不需要對(duì)任何領(lǐng)域的測(cè)試集進(jìn)行特殊的預(yù)處理。（2)該方法通過(guò)對(duì)詞以及詞組關(guān)于自信息的計(jì)算分析來(lái)發(fā)現(xiàn)主題。算法的復(fù)雜度低，能夠更加直接的獲取跨學(xué)科領(lǐng)域文本集中的共現(xiàn)主題信息。（3)該方法可用來(lái)處理任何語(yǔ)言的文本，具有極強(qiáng)的可移植性、以及可擴(kuò)展性。（4)與以往的文本信息抽取中以高頻信息為主不同，該方法主要用來(lái)抽取詞頻相對(duì)偏低但是均勻出現(xiàn)，有重要研究?jī)r(jià)值的信息。
【附圖說(shuō)明】
[0030] 圖1為本發(fā)明的基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法的操作程序框圖
【具體實(shí)施方式】
[0031] 下面結(jié)合說(shuō)明書(shū)附圖和優(yōu)選實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
[0032] 實(shí)施例一：
[0033] 參考圖1，本基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)，其特征在于：操作步驟包括：
[0034] (1)、數(shù)據(jù)收集：收集高引文獻(xiàn)作者關(guān)于其科研成功的自評(píng)文檔集；
[0035] (2)、數(shù)據(jù)處理：提取和數(shù)字化自評(píng)中的正文部分；
[0036] (3)、抽取候選低頻主題詞；
[0037] (4)、計(jì)算低頻主題評(píng)價(jià)系數(shù)；
[0038] (5)、設(shè)定低頻主題詞評(píng)價(jià)系數(shù)的閾值；
[0039] (6)、過(guò)濾低頻主題詞。
[0040] 實(shí)施例二：本實(shí)施例與實(shí)施例一基本相同，特別之處如下：
[0041] 所述步驟（1)數(shù)據(jù)收集的具體操作是：從引文數(shù)據(jù)庫(kù)SCI的創(chuàng)始人加菲爾德所征集的高引經(jīng)典文獻(xiàn)的作者關(guān)于其科研研究工作取得成功的自評(píng)中收集到3790篇高引經(jīng)典文獻(xiàn)的作者自評(píng)文檔集。
[0042] 所述步驟（2)數(shù)據(jù)處理的具體操作是：對(duì)文檔集中文本進(jìn)行了數(shù)字化和提?。淮?外，還提取了 3類(lèi)信息：自評(píng)的正文內(nèi)容、自評(píng)的相關(guān)信息以及原高引文獻(xiàn)的相關(guān)信息。
[0043] 所述步驟（3)抽取候選低頻主題詞的具體操作是：首先利用"自然語(yǔ)言工具集" NLTK文獻(xiàn)作為工具處理自評(píng)的正文部分，然后結(jié)合Leahey, Erin ;Cain, Cindy L.對(duì)高引經(jīng)典文獻(xiàn)作者自評(píng)的研究的結(jié)果定義標(biāo)記模式，最后通過(guò)定義的標(biāo)記模式進(jìn)行抽取候選低頻主題詞。
[0044] 所述步驟（4)計(jì)算低頻主題評(píng)價(jià)系數(shù)的具體操作如下：
[0045] (41)首先計(jì)算低頻詞對(duì)文檔的信息量：表示詞Wu對(duì)文檔di的信息量，c ^表示詞在文檔中出現(xiàn)的詞頻

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏晴;周文;張亞軍;劉孟;
技術(shù)所有人：上海大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法