基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法,屬于文本挖掘 (Text Mining)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來(lái),主題發(fā)現(xiàn)作為文本挖掘領(lǐng)域的熱門(mén)研究方向,受到越來(lái)越多的研究者的 重視。主題發(fā)現(xiàn)可以從海量的非結(jié)構(gòu)化文本中挖掘到關(guān)鍵的主題信息,可以更加高效的理 解文本的主要內(nèi)容,獲取文本的深層語(yǔ)義信息。同時(shí),主題發(fā)現(xiàn)還可以對(duì)主題進(jìn)行更深層次 的分析,發(fā)現(xiàn)文本中更多的潛在知識(shí)。
[0003] 現(xiàn)有的主題發(fā)現(xiàn)方法主要有主題模型以及詞頻統(tǒng)計(jì)的兩種。主題模型是一種概率 生成模型,在主題模型中主題作為隱變量,文檔以及詞項(xiàng)作為觀測(cè)值。通過(guò)對(duì)模型的訓(xùn)練可 以得到詞項(xiàng)概率分布、以及主題概率分布。經(jīng)過(guò)訓(xùn)練后的模型就可以將詞項(xiàng)空間中的文檔 變換到主題空間,從而實(shí)現(xiàn)文檔處理的降維,最終得到具有語(yǔ)義信息的主題集合。常用的 主題模型主要有LSI [1,2]、PLSI [3, 4]、LDA[5]等。詞頻統(tǒng)計(jì)的方法則是通過(guò)對(duì)詞在文檔 中以及文檔集中的頻率的計(jì)算來(lái)進(jìn)行主題抽取,常用的方法有TF_IDF (term frequency -inverse document frequency)、互信息(Mutual Information)、信息增益、x2 統(tǒng)計(jì)量等。
[0004] 上述的主題發(fā)現(xiàn)方法具有很強(qiáng)的理論基礎(chǔ),在眾多主題發(fā)現(xiàn)任務(wù)中均取得較好的 效果。然而這些方法對(duì)于跨學(xué)科領(lǐng)域中的共現(xiàn)主題信息無(wú)法很好的抽取,因?yàn)閷?duì)于評(píng)價(jià)類(lèi) 跨學(xué)科領(lǐng)域的文本,有時(shí)主題可能是由低頻主題詞而非高頻詞體現(xiàn)?,F(xiàn)有的主題發(fā)現(xiàn)方法 大多傾向于獲取高頻詞,因而無(wú)法用來(lái)抽取具有低頻特征的共現(xiàn)主題詞,即低頻主題詞。此 外,跨學(xué)科領(lǐng)域的共現(xiàn)主題發(fā)現(xiàn)研究具有重要的研究意義,因?yàn)橥ㄟ^(guò)這些共現(xiàn)主題可以從 更宏觀的角度來(lái)分析文本集,并且獲得更多有意義的主題信息的規(guī)律。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)存在的不足,提供一種基于自信息的跨學(xué)科領(lǐng)域共 現(xiàn)主題發(fā)現(xiàn)方法,為主題發(fā)現(xiàn)的相關(guān)研究提供新思路,可應(yīng)用到評(píng)價(jià)類(lèi)文檔集的主題發(fā)現(xiàn), 從而實(shí)現(xiàn)不同學(xué)科領(lǐng)域文檔集中得共現(xiàn)主題提取。
[0006] 為達(dá)到上述目的,本發(fā)明采用下述技術(shù)方案:一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn) 主題發(fā)現(xiàn)方法,其特征在于操作步驟包括:
[0007] (1)、數(shù)據(jù)收集:收集高引文獻(xiàn)作者關(guān)于其科研成功的自評(píng)文檔集;
[0008] (2)、數(shù)據(jù)處理:提取和數(shù)字化自評(píng)中的正文部分;
[0009] (3)、抽取候選低頻主題詞;
[0010] (4)、計(jì)算低頻主題評(píng)價(jià)系數(shù);
[0011] (5)、設(shè)定低頻主題詞評(píng)價(jià)系數(shù)的閾值;
[0012] (6)、過(guò)濾低頻主題詞。
[0013] 上述步驟(1)所述為數(shù)據(jù)收集。從引文數(shù)據(jù)庫(kù)SCI (Science Citation Index)的 創(chuàng)始人加菲爾德所征集的高引經(jīng)典文獻(xiàn)的作者關(guān)于其科研研究工作取得成功的自評(píng)中收 集到3790篇高引經(jīng)典文獻(xiàn)的作者自評(píng)文檔集。
[0014] 上述步驟(2)所述為數(shù)據(jù)處理。對(duì)文檔集中自評(píng)的正文部分進(jìn)行了提取和數(shù)字 化。此外,還提取了 3類(lèi)信息,自評(píng)的正文內(nèi)容、自評(píng)的相關(guān)信息以及原高引文獻(xiàn)的相關(guān)信 息。
[0015] 本發(fā)明定義了低頻主題詞是能夠充分體現(xiàn)主題信息,均勻出現(xiàn)且詞頻較低的非專(zhuān) 業(yè)詞。低頻主題詞的詞頻應(yīng)當(dāng)符合如下公式:
[0016]
[0017] 文檔集D(D= W1Hi = [l,m]))中,文檔Cl1中的詞Wlj在D中出現(xiàn)的次數(shù)c' ^與 它在文檔Cl1中出現(xiàn)的次數(shù)c u之比應(yīng)當(dāng)?shù)扔谂c文檔集D中的文檔數(shù)目m相關(guān)的數(shù)值。當(dāng)w ^ 不出現(xiàn)在文檔di中,則值為零。
[0018] 上述步驟(3)所述為抽取候選低頻主題詞。通過(guò)定義的標(biāo)記模式進(jìn)行候選低頻主 題詞。具體步驟是首先利用"自然語(yǔ)言工具集" NLTK (Natural Language Toolkit)作為工 具處理自評(píng)的征文部分,然后結(jié)合1^^116731';[11;03;[11,(:;[11(17]^.對(duì)高引經(jīng)典文獻(xiàn)作者自評(píng) 的研究的結(jié)果定義標(biāo)記模式,最后通過(guò)定義的標(biāo)記模式進(jìn)行抽取候選低頻主題詞。
[0019] 本發(fā)明定義低頻主題詞評(píng)價(jià)系數(shù),是用于評(píng)估一個(gè)詞均勻出現(xiàn)的程度的統(tǒng)計(jì)指 標(biāo)。在信息論中,信息被認(rèn)為是可以量化的。在抽象含義上,認(rèn)為發(fā)生概率低的事件所包含 的信息量大。如果詞W lj的信息量大,則它更加確定,對(duì)于文檔或文檔集而言確定性越高的 詞則越重要。
[0020] 上訴步驟(4)所訴為計(jì)算所有候選低頻主題詞的低頻主題評(píng)價(jià)系數(shù)。具體步驟如 下:
[0021] (41)、計(jì)算低頻詞對(duì)文檔的信息量:~表示詞Wl]對(duì)文檔di的信息量。詞在文檔 中出現(xiàn)的詞頻 Cl]與文檔中總詞數(shù)C i的比值近似的被看作為詞在文檔中出現(xiàn)的概率。
[0022]
[0023] (42)、計(jì)算低頻詞對(duì)文檔集的信息量表示每個(gè)詞對(duì)應(yīng)的文檔集信息量,詞在 文檔集中出現(xiàn)的詞頻c'、,與文檔中總詞數(shù)
的比值近似的被看作為詞在文檔集中出現(xiàn) 的概率。
[0024]
[0025] (43)、計(jì)算低頻主題詞評(píng)價(jià)系數(shù):直接用詞的文檔信息量和文檔集信息量的差值 來(lái)計(jì)算低頻主題詞評(píng)價(jià)系數(shù)%,, ° 越接近〇時(shí)所對(duì)應(yīng)的',越可能是低頻主題詞。 LlN 丄Λ rVJ Ij ?/? }J\
[0026]
[0027] 上述步驟(5)所述為設(shè)定低頻主題詞評(píng)價(jià)系數(shù)閾值。設(shè)定的閾值要確保低頻主題 詞的提取時(shí)的查全率和查準(zhǔn)率。即盡可能多的得到低頻主題詞而不引入過(guò)多的非低頻主題 1·^] 〇
[0028] 上述步驟(6)所述為過(guò)濾低頻主題詞。自評(píng)篇幅較小,高頻詞是專(zhuān)業(yè)詞的可能性 較大,所以去除大部分專(zhuān)業(yè)詞,從而提高查準(zhǔn)率。再通過(guò)人工標(biāo)記的方式去除未明顯指向主 題的詞組,從而對(duì)結(jié)果進(jìn)行優(yōu)化。
[0029] 本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見(jiàn)的突出實(shí)質(zhì)性特點(diǎn)和顯著技術(shù)進(jìn) 步:(1)該方法可以用來(lái)分析跨多個(gè)學(xué)科領(lǐng)域的文本中的共現(xiàn)主題,不需要對(duì)任何領(lǐng)域的 測(cè)試集進(jìn)行特殊的預(yù)處理。(2)該方法通過(guò)對(duì)詞以及詞組關(guān)于自信息的計(jì)算分析來(lái)發(fā)現(xiàn)主 題。算法的復(fù)雜度低,能夠更加直接的獲取跨學(xué)科領(lǐng)域文本集中的共現(xiàn)主題信息。(3)該方 法可用來(lái)處理任何語(yǔ)言的文本,具有極強(qiáng)的可移植性、以及可擴(kuò)展性。(4)與以往的文本信 息抽取中以高頻信息為主不同,該方法主要用來(lái)抽取詞頻相對(duì)偏低但是均勻出現(xiàn),有重要 研究?jī)r(jià)值的信息。
【附圖說(shuō)明】
[0030] 圖1為本發(fā)明的基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法的操作程序框圖
【具體實(shí)施方式】
[0031] 下面結(jié)合說(shuō)明書(shū)附圖和優(yōu)選實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
[0032] 實(shí)施例一:
[0033] 參考圖1,本基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn),其特征在于:操作步驟包 括:
[0034] (1)、數(shù)據(jù)收集:收集高引文獻(xiàn)作者關(guān)于其科研成功的自評(píng)文檔集;
[0035] (2)、數(shù)據(jù)處理:提取和數(shù)字化自評(píng)中的正文部分;
[0036] (3)、抽取候選低頻主題詞;
[0037] (4)、計(jì)算低頻主題評(píng)價(jià)系數(shù);
[0038] (5)、設(shè)定低頻主題詞評(píng)價(jià)系數(shù)的閾值;
[0039] (6)、過(guò)濾低頻主題詞。
[0040] 實(shí)施例二:本實(shí)施例與實(shí)施例一基本相同,特別之處如下:
[0041] 所述步驟(1)數(shù)據(jù)收集的具體操作是:從引文數(shù)據(jù)庫(kù)SCI的創(chuàng)始人加菲爾德所征 集的高引經(jīng)典文獻(xiàn)的作者關(guān)于其科研研究工作取得成功的自評(píng)中收集到3790篇高引經(jīng)典 文獻(xiàn)的作者自評(píng)文檔集。
[0042] 所述步驟(2)數(shù)據(jù)處理的具體操作是:對(duì)文檔集中文本進(jìn)行了數(shù)字化和提?。淮?外,還提取了 3類(lèi)信息:自評(píng)的正文內(nèi)容、自評(píng)的相關(guān)信息以及原高引文獻(xiàn)的相關(guān)信息。
[0043] 所述步驟(3)抽取候選低頻主題詞的具體操作是:首先利用"自然語(yǔ)言工具 集" NLTK文獻(xiàn)作為工具處理自評(píng)的正文部分,然后結(jié)合Leahey, Erin ;Cain, Cindy L.對(duì)高 引經(jīng)典文獻(xiàn)作者自評(píng)的研究的結(jié)果定義標(biāo)記模式,最后通過(guò)定義的標(biāo)記模式進(jìn)行抽取候選 低頻主題詞。
[0044] 所述步驟(4)計(jì)算低頻主題評(píng)價(jià)系數(shù)的具體操作如下:
[0045] (41)首先計(jì)算低頻詞對(duì)文檔的信息量:表示詞Wu對(duì)文檔di的信息量,c ^表 示詞在文檔中出現(xiàn)的詞頻