面積過小,該扇區(qū)的文字云就不再顯示。
[0081]文檔聚類區(qū)域S203展示了文檔的主題聚類的結(jié)果。其中包含文檔簇S204和主題分布文檔簇S205。
[0082]文檔簇S204以圓形表示聚類的結(jié)果。圓形的半徑表達(dá)了一個(gè)文檔簇中文檔的數(shù)量。半徑越大,該文檔簇包含的文檔數(shù)量越多。文檔簇在文檔聚類區(qū)域S203的范圍內(nèi)以螺旋型降序排列,表現(xiàn)文檔簇的可比較性。
[0083]本實(shí)施例中,可視化結(jié)構(gòu)示意圖中如主題區(qū)域S201、文檔聚類區(qū)域S203、文檔簇S204所示的顯示部分均為功能區(qū)域,在使用過程中可以通過點(diǎn)擊的方式進(jìn)行數(shù)據(jù)更新和圖像重繪。
[0084]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,該系統(tǒng)包括互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊、語料庫模塊、主題分析模塊、主題聚類模塊、數(shù)據(jù)可視化模塊; 互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊用于從互聯(lián)網(wǎng)采集網(wǎng)頁文本數(shù)據(jù),并對所采集到的各篇文本數(shù)據(jù)進(jìn)行清洗; 語料庫模塊用于存儲互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊清洗后的文本數(shù)據(jù),并對存儲的網(wǎng)頁文本數(shù)據(jù)進(jìn)行中文分詞和詞頻統(tǒng)計(jì),生成包含單詞與所存儲的網(wǎng)頁文本數(shù)據(jù)之間的映射關(guān)系和詞頻統(tǒng)計(jì)數(shù)據(jù)的詞頻數(shù)據(jù); 主題分析模塊用于依據(jù)語料庫模塊生成的詞頻數(shù)據(jù)建立主題模型,利用Gibbs抽樣方法對所建立主題模型進(jìn)行計(jì)算,存儲并輸出計(jì)算得到的文檔-主題向量集和主題-單詞向量集; 主題聚類模塊對主題分析模塊輸出的文檔-主題向量集進(jìn)行聚類分析,存儲并輸出聚類數(shù)據(jù); 數(shù)據(jù)可視化模塊將主題分析模塊和主題聚類模塊輸出的數(shù)據(jù)以圖形的顯示出來;數(shù)據(jù)可視化模塊還用于顯示和調(diào)整語料庫模塊、主題分析模塊、主題聚類模塊中可變參數(shù)。2.如權(quán)利要求1所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊包括網(wǎng)頁抓取單元和數(shù)據(jù)清洗單元; 網(wǎng)頁抓取單元用于從互聯(lián)網(wǎng)上采集網(wǎng)頁中的文本數(shù)據(jù);該單元使用網(wǎng)絡(luò)爬蟲技術(shù),給出種子網(wǎng)站后,通過種子網(wǎng)站的鏈接跳轉(zhuǎn)到其他網(wǎng)站,實(shí)現(xiàn)自動(dòng)網(wǎng)頁爬行; 數(shù)據(jù)清洗單元用于將網(wǎng)頁抓取單元采集的文本數(shù)據(jù)進(jìn)行清洗,去除與網(wǎng)頁內(nèi)容無關(guān)的數(shù)據(jù),保留的數(shù)據(jù)包括網(wǎng)頁的標(biāo)題、作者、時(shí)間、出處、以及正文內(nèi)容。3.如權(quán)利要求2所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的語料庫模塊包含語料庫構(gòu)建單元、語料庫、中文分詞單元、詞頻數(shù)據(jù)管理單元、詞頻庫; 語料庫構(gòu)建單元用于將清洗過的文本數(shù)據(jù)存儲在基于關(guān)系型數(shù)據(jù)庫的語料庫中; 中文分詞單元用于將語料庫中的數(shù)據(jù)進(jìn)行中文分詞,并根據(jù)在該單元中定義的停用詞表去除與正文內(nèi)容無關(guān)的停用詞; 詞頻數(shù)據(jù)管理單元用將中文分詞單元得到的分詞結(jié)果進(jìn)行詞頻統(tǒng)計(jì),將得到的統(tǒng)計(jì)數(shù)據(jù)存入詞頻庫;詞頻庫中所存儲的詞頻數(shù)據(jù)包括分詞結(jié)果中各單詞與語料庫中的文本數(shù)據(jù)之間的映射關(guān)系和詞頻數(shù)據(jù)管理單的統(tǒng)計(jì)數(shù)據(jù);所述的統(tǒng)計(jì)數(shù)據(jù)包括分詞結(jié)果中各單詞在對應(yīng)各篇文本數(shù)據(jù)中出現(xiàn)的次數(shù)、各篇文本數(shù)據(jù)中所包含的每個(gè)單詞的出現(xiàn)次數(shù)。4.如權(quán)利要求3所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的主題分析模塊包含LDA主題模型構(gòu)建單元、Gibbs抽樣計(jì)算單元、結(jié)果向量集管理單元、向量集數(shù)據(jù)庫; LDA主題模型構(gòu)建單元用于根據(jù)詞頻數(shù)據(jù)構(gòu)建LDA主題模型; Gibbs抽樣計(jì)算單元用于利用Gibbs抽樣方法對LDA模型進(jìn)行計(jì)算,得到用于描述描述每篇文本數(shù)據(jù)中包含主題的文檔-主題向量集和用于描述每個(gè)主題中包含關(guān)鍵詞的主題-單詞向量集。 結(jié)果向量集管理單元用于將Gibbs抽樣計(jì)算單元得到的向量集保存到基于關(guān)系型數(shù)據(jù)庫的向量集數(shù)據(jù)庫中。5.如權(quán)利要求4中所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的主題聚類模塊包括聚類分析單元、主題聚類數(shù)據(jù)集管理單元、文檔聚類庫; 聚類分析單元用于對文檔-主題向量集進(jìn)行聚類分析得到文本聚類數(shù)據(jù),文本聚類數(shù)據(jù)包括每個(gè)文檔簇中所包含的文本、每篇文本所屬的文檔簇; 主題聚類數(shù)據(jù)集管理單元用于將文本聚類數(shù)據(jù)保存在基于關(guān)系型數(shù)據(jù)庫的文檔聚類庫中。6.如權(quán)利要求5中所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的數(shù)據(jù)可視化模塊包括數(shù)據(jù)整合單元、可視化單元、人機(jī)交互單元; 數(shù)據(jù)整合單元用于從向量集數(shù)據(jù)庫中讀取文檔-主題向量集數(shù)據(jù)和主題-單詞向量集數(shù)據(jù)、從文檔聚類庫中讀取文本聚類數(shù)據(jù),并將讀取到的數(shù)據(jù)按照可視化單元定義的數(shù)據(jù)模式進(jìn)行格式轉(zhuǎn)換; 可視化單元主要用于將整合好的數(shù)據(jù)以圖形方式展現(xiàn)給終端用戶; 人機(jī)交互單元用于調(diào)整語料庫模塊、主題分析模塊、主題聚類模塊中各具有運(yùn)算和篩選功能的單元的可變參數(shù)。7.如權(quán)利要求6所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的具有運(yùn)算和篩選功能的單元包括語料庫構(gòu)建單元、中文分詞單元、LDA主題模型構(gòu)建單元、Gibbs抽樣計(jì)算單元、聚類分析單元、主題聚類數(shù)據(jù)集管理單元。8.如權(quán)利要求1-7中任一項(xiàng)所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述結(jié)果向量集管理單元還具有主題熱度子單元,該子單元用于計(jì)算主題熱度,并將結(jié)果存入向量集數(shù)據(jù)庫。9.如權(quán)利要求8所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的數(shù)據(jù)可視化模塊生成可視化圖像的方法為: 步驟I,從向量集數(shù)據(jù)庫中取得主題的熱度數(shù)據(jù)集 11={111,112,113廠_,1^},其中1^為第1個(gè)主題的熱度值; 步驟2,在顯示屏幕繪制主題區(qū)域,具體為: 步驟21,繪制兩個(gè)同心圓; 步驟22,對熱度值數(shù)據(jù)集H中的主題熱度值進(jìn)行歸一化計(jì)算,得到歸一化數(shù)據(jù)集H’={hi’,h2’,-shkl,其中hi’是歸一化之后的主題i的熱度值; 步驟23,根據(jù)每個(gè)主題熱度值hi的比例值,將步驟21中所繪制的同心圓中外圈與內(nèi)圈之間的區(qū)域劃分為k個(gè)扇區(qū),每個(gè)扇區(qū)代表一個(gè)主題,主題i的扇區(qū)弧度= 2*PI*hi’; 步驟3,在每個(gè)扇區(qū)繪制文字75Γ,具體為: 步驟31,對于主題i,訪問向量集數(shù)據(jù)庫,取得主題i所包含的文字向量Wi = {{wil,vl},{wi2,v2} ,..., {win,vn}},其中wip是主題i包含的第p個(gè)單詞的內(nèi)容,vp表示wip的數(shù)值,也就就是該單詞的對于主題i的重要性。 步驟32,對Wi中的V進(jìn)行歸一化計(jì)算,得到Wi ’ = {{wil,vl ’},{wi2, v2’},…,{win,vn’}},其中vp’為vp的歸一化值。 步驟33,在主題i對應(yīng)的扇區(qū)內(nèi)生成文字云,文字云的第p個(gè)單詞的字體尺寸=設(shè)定原始尺寸*vi ’ *hk’。如果字體尺寸小于2號字,則不顯示該文字; 步驟34,將文字云中各個(gè)單詞水平放置; 步驟4,繪制文檔簇,具體為: 步驟41,從文檔聚類庫中取得文檔簇的尺寸信息: SC= {scl,sc2,...,scy},其中sci為第i個(gè)文檔簇所包含的文檔的數(shù)量; 步驟42,對SC進(jìn)行歸一化,得到SC’ = {scl',sc2’,...,scy’},其中sci ’為第i個(gè)文檔簇所包含的文檔的數(shù)量的歸一化值; 步驟43,在步驟21中所繪制的同心圓的內(nèi)圈中,每個(gè)文檔簇繪制一個(gè)圓形,圓形的半徑與歸一化值sci ’成正比,圓形以半徑降序方式,由外向內(nèi)螺旋排列。10.如權(quán)利要求9所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的可視化圖像中,主題區(qū)域的扇區(qū)具有觸發(fā)功能,具體為:當(dāng)主題i所對應(yīng)的扇區(qū)被觸發(fā)后,數(shù)據(jù)可視化模塊從文檔聚類庫中獲取包含主題i的文檔在所屬文檔簇中的比例TC= {tel,tc2,...,tcy},其中,tcs是包含主題i的文檔在文檔簇s中的比例數(shù)值,在對應(yīng)文檔簇內(nèi)繪制扇區(qū),扇區(qū)的弧度Ai = 2*PI*tcs。11.如權(quán)利要求10所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,所述的可視化圖像中,文檔簇的圓形區(qū)域具有觸發(fā)功能,具體為:當(dāng)文檔簇所對應(yīng)的圓形區(qū)域被觸發(fā)后,數(shù)據(jù)可視化模塊從文檔聚類庫中讀取文檔簇所包含主題的比例信息CT= {ctl,ct2,…,ctk},其中cti為主題i在所選文檔簇所包含的全部主題中所占的比例數(shù)值,依據(jù)CT在主題區(qū)域重新劃分扇區(qū),并在各主題對應(yīng)的扇區(qū)內(nèi)生成文字云。12.如權(quán)利要求11所述的一種基于文本主題模型的可視化分析系統(tǒng),其特征在于,步驟34中將文字云中各個(gè)單詞水平放置的方法具體為:將文字云各個(gè)單詞根據(jù)其中心點(diǎn)對應(yīng)圓心的旋轉(zhuǎn)角度,將文字云的單詞做相應(yīng)的旋轉(zhuǎn),保證不管扇區(qū)k的角度如何,其中的單詞能夠水平的顯示。
【專利摘要】本發(fā)明公開了一種基于文本主題模型的可視化分析系統(tǒng),包括從互聯(lián)網(wǎng)采集網(wǎng)頁文本數(shù)據(jù)并進(jìn)行清洗的互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊、網(wǎng)頁文本數(shù)據(jù)進(jìn)行中文分詞和詞頻統(tǒng)計(jì)的語料庫模塊、生成文檔-主題向量集和主題-單詞向量集主題分析模塊、對文檔-主題向量集進(jìn)行聚類分析的主題聚類模塊、數(shù)據(jù)顯示及可變參數(shù)調(diào)整的數(shù)據(jù)可視化模塊。本發(fā)明實(shí)現(xiàn)了分析效果的優(yōu)化、分析過程中可變參數(shù)的動(dòng)態(tài)調(diào)整,提高了分析效率。
【IPC分類】G06F17/27, G06F17/30
【公開號】CN105550365
【申請?zhí)枴緾N201610028107
【發(fā)明人】王健, 張桂剛, 楊頤, 黃衛(wèi)星
【申請人】中國科學(xué)院自動(dòng)化研究所
【公開日】2016年5月4日
【申請日】2016年1月15日