一種基于文本主題模型的可視化分析系統(tǒng)的制作方法

文檔序號：9787572閱讀：722來源：國知局

一種基于文本主題模型的可視化分析系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)文本主題分析領域，特別是涉及一種基于文本主題模型的可視化分析系統(tǒng)。
[0002]背景
[0003]互聯(lián)網(wǎng)上存在著海量的文本信息，比如大量的新聞報道、文學評論、知識普及，形式也是多種多樣，比如新聞網(wǎng)頁、博客、微博等。對于文本信息進行主題分析能夠找到當前網(wǎng)絡討論的熱點話題。對于熱點話題，可以有各種有用的應用，比如，進行行業(yè)發(fā)展趨勢預測、熱點商品推薦、網(wǎng)絡輿論分析等。
[0004]數(shù)據(jù)可視化是一種結合了計算機圖形學、心理學以及人機交互等學科的交叉學科。數(shù)據(jù)可視化通過可視化算法，實現(xiàn)圖形化的可視化模型，用來展示多維或者高維數(shù)據(jù)。結合了人機交互的可視化模型可以進行動態(tài)的多角度分析。數(shù)據(jù)可視化的最大用途在通過圖形化的數(shù)據(jù)展示方法，促進用戶對于復雜數(shù)據(jù)的理解，提高數(shù)據(jù)分析效率。
[0005]對結果數(shù)據(jù)的直觀易懂的可視化，會大大促進用戶對分析結果的理解，提高分析效率。由于分析結果是可以從不同角度來理解的，比如站在某個特定主題的角度來理解其在文檔中的分布情況、或者站在某個特定文檔簇的角度來分析所描述的主題。一個靜態(tài)的可視化方法很難做到將所有的情況同時都表現(xiàn)出來。因此，靜態(tài)的可視化模型要結合人機交互技術，來動態(tài)展現(xiàn)用戶想要的分析角度。另外，由于各個分析階段都會涉及到相對獨立的數(shù)據(jù)處理分析，子分析模塊的參數(shù)設置會直接影響整體分析的結果。因此，在主題分析和聚類的時候，用戶會調整參數(shù)，以達到整體分析效果最優(yōu)的目標。交互式的可視化模型可以允許用戶在圖形界面上對參數(shù)進行動態(tài)調整，并且實時的看到調整后的分析結果。

【發(fā)明內(nèi)容】

[0006]基于上述問題，本發(fā)明的目的在于提出一種基于文本主題模型的可視化分析系統(tǒng)，實現(xiàn)了分析效果的優(yōu)化、分析過程中可變參數(shù)的動態(tài)調整，提高了分析效率。
[0007]為了實現(xiàn)上述目的，本發(fā)明公開了一種基于文本主題模型的可視化分析系統(tǒng)，該系統(tǒng)包括互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊、語料庫模塊、主題分析模塊、主題聚類模塊、數(shù)據(jù)可視化模塊；
[0008]互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊用于從互聯(lián)網(wǎng)采集網(wǎng)頁文本數(shù)據(jù)，并對所采集到的各篇文本數(shù)據(jù)進行清洗；
[0009]語料庫模塊用于存儲互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊清洗后的文本數(shù)據(jù)，并對存儲的網(wǎng)頁文本數(shù)據(jù)進行中文分詞和詞頻統(tǒng)計，生成包含單詞與所存儲的網(wǎng)頁文本數(shù)據(jù)之間的映射關系和詞頻統(tǒng)計數(shù)據(jù)的詞頻數(shù)據(jù)；
[0010]主題分析模塊用于依據(jù)語料庫模塊生成的詞頻數(shù)據(jù)建立主題模型，利用Gibbs抽樣方法對所建立主題模型進行計算，存儲并輸出計算得到的文檔-主題向量集和主題-單詞向量集；
[0011]主題聚類模塊對主題分析模塊輸出的文檔-主題向量集進行聚類分析，存儲并輸出聚類數(shù)據(jù)；
[0012]數(shù)據(jù)可視化模塊將主題分析模塊和主題聚類模塊輸出的數(shù)據(jù)以圖形的顯示出來；數(shù)據(jù)可視化模塊還用于顯示和調整語料庫模塊、主題分析模塊、主題聚類模塊中可變參數(shù)。
[0013]優(yōu)選的，所述的互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊包括網(wǎng)頁抓取單元和數(shù)據(jù)清洗單元；
[0014]網(wǎng)頁抓取單元用于從互聯(lián)網(wǎng)上采集網(wǎng)頁中的文本數(shù)據(jù)；該單元使用網(wǎng)絡爬蟲技術，給出種子網(wǎng)站后，通過種子網(wǎng)站的鏈接跳轉到其他網(wǎng)站，實現(xiàn)自動網(wǎng)頁爬行；
[0015]數(shù)據(jù)清洗單元用于將網(wǎng)頁抓取單元采集的文本數(shù)據(jù)進行清洗，去除與網(wǎng)頁內(nèi)容無關的數(shù)據(jù)，保留的數(shù)據(jù)包括網(wǎng)頁的標題、作者、時間、出處、以及正文內(nèi)容。
[0016]優(yōu)選的，所述的語料庫模塊包含語料庫構建單元、語料庫、中文分詞單元、詞頻數(shù)據(jù)管理單元、詞頻庫；
[0017]語料庫構建單元用于將清洗過的文本數(shù)據(jù)存儲在基于關系型數(shù)據(jù)庫的語料庫中；
[0018]中文分詞單元用于將語料庫中的數(shù)據(jù)進行中文分詞，并根據(jù)在該單元中定義的停用詞表去除與正文內(nèi)容無關的停用詞；
[0019]詞頻數(shù)據(jù)管理單元用將中文分詞單元得到的分詞結果進行詞頻統(tǒng)計，將得到的統(tǒng)計數(shù)據(jù)存入詞頻庫;詞頻庫中所存儲的詞頻數(shù)據(jù)包括分詞結果中各單詞與語料庫中的文本數(shù)據(jù)之間的映射關系和詞頻數(shù)據(jù)管理單的統(tǒng)計數(shù)據(jù);所述的統(tǒng)計數(shù)據(jù)包括分詞結果中各單詞在對應各篇文本數(shù)據(jù)中出現(xiàn)的次數(shù)、各篇文本數(shù)據(jù)中所包含的每個單詞的出現(xiàn)次數(shù)。
[0020]優(yōu)選的，所述的主題分析模塊包含LDA主題模型構建單元、Gibbs抽樣計算單元、結果向量集管理單元、向量集數(shù)據(jù)庫；
[0021 ] LDA主題模型構建單元用于根據(jù)詞頻數(shù)據(jù)構建LDA主題模型；i0022] Gibbs抽樣計算單元用于利用Gibbs抽樣方法對LDA模型進行計算，得到用于描述描述每篇文本數(shù)據(jù)中包含主題的文檔-主題向量集和用于描述每個主題中包含關鍵詞的主題-單詞向量集。
[0023]結果向量集管理單元用于將Gibbs抽樣計算單元得到的向量集保存到基于關系型數(shù)據(jù)庫的向量集數(shù)據(jù)庫中。
[0024]優(yōu)選的，所述的主題聚類模塊包括聚類分析單元、主題聚類數(shù)據(jù)集管理單元、文檔聚類庫；
[0025]聚類分析單元用于對文檔-主題向量集進行聚類分析得到文本聚類數(shù)據(jù)，文本聚類數(shù)據(jù)包括每個文檔簇中所包含的文本、每篇文本所屬的文檔簇；
[0026]主題聚類數(shù)據(jù)集管理單元用于將文本聚類數(shù)據(jù)保存在基于關系型數(shù)據(jù)庫的文檔聚類庫中。
[0027]優(yōu)選的，所述的數(shù)據(jù)可視化模塊包括數(shù)據(jù)整合單元、可視化單元、人機交互單元；
[0028]數(shù)據(jù)整合單元用于從向量集數(shù)據(jù)庫中讀取文檔-主題向量集數(shù)據(jù)和主題-單詞向量集數(shù)據(jù)、從文檔聚類庫中讀取文本聚類數(shù)據(jù)，并將讀取到的數(shù)據(jù)按照可視化單元定義的數(shù)據(jù)模式進行格式轉換；
[0029]可視化單元主要用于將整合好的數(shù)據(jù)以圖形方式展現(xiàn)給終端用戶；
[0030]人機交互單元用于調整語料庫模塊、主題分析模塊、主題聚類模塊中各具有運算和篩選功能的單元的可變參數(shù)。
[0031]優(yōu)選的，所述的具有運算和篩選功能的單元包括語料庫構建單元、中文分詞單元、LDA主題模型構建單元、Gibbs抽樣計算單元、聚類分析單元、主題聚類數(shù)據(jù)集管理單元。
[0032]優(yōu)選的，所述結果向量集管理單元還具有主題熱度子單元，該子單元用于計算主題熱度，并將結果存入向量集數(shù)據(jù)庫。
[0033]優(yōu)選的，所述的數(shù)據(jù)可視化模塊生成可視化圖像的方法為:
[0034]步驟1，從向量集數(shù)據(jù)庫中取得主題的熱度數(shù)據(jù)集H={hl，h2，h3，‘"，hk}，其中hi為第i個主題的熱度值；
[0035]步驟2，在顯示屏幕繪制主題區(qū)域，具體為:
[0036]步驟21，繪制兩個同心圓；
[0037]步驟22，對熱度值數(shù)據(jù)集H中的主題熱度值進行歸一化計算，得到歸一化數(shù)據(jù)集H’={hi’，h2’，-shkl，其中hi’是歸一化之后的主題i的熱度值；
[0038]步驟23，根據(jù)每個主題熱度值hi的比例值，將步驟21中所繪制的同心圓中外圈與內(nèi)圈之間的區(qū)域劃分為k個扇區(qū)，每個扇區(qū)代表一個主題，主題i的扇區(qū)弧度= 2*PI*hi’；
[0039]步驟3，在每個扇區(qū)繪制文字云，具體為:
[0040]步驟31，對于主題i，訪問向量集數(shù)據(jù)庫，取得主題i所包含的文字向量Wi= {{wil,vl}, {wi2,v2},..., {win，vn}}，其中wip是主題i包含的第p個單詞的內(nèi)容，vp表示wip的數(shù)值，也就就是該單詞的對于主題i的重要性。
[0041 ]步驟 32，對Wi 中的 V進行歸一化計算，得到 Wi，= {{wil，vl，}，{wi2，v2，}，…，{win,vn’}}，其中vp’為vp的歸一化值。
[0042]步驟33，在主題i對應的扇區(qū)內(nèi)生成文字云，文字云的第p個單詞的字體尺寸=設定原始尺寸*vi ’ *hk’。如果字體尺寸小于2號字，則不顯示該文字；
[0043]步驟34，將文字云中各個單詞水平放置；
[0044]步驟4，繪制文檔簇，具體為:
[0045]步驟41，從文檔聚類庫中取得文檔簇的尺寸信息:SC={scl，sc2,…，scy}，其中sci為第i個文檔簇所包含的文檔的數(shù)量；
[0046]步驟42，對SC進行歸一化，得到SC’= {scl’，sc2’，…，scy ’}，其中sci ’為第i個文檔簇所包含的文檔的數(shù)量的歸一化值；
[0047]步驟43，在步驟21中所繪制的同心圓的內(nèi)圈中，每個文檔簇繪制一個圓形，圓形的半徑與歸一化值sci ’成正比，圓形以半徑降序方式，由外向內(nèi)螺旋排列。
[0048]優(yōu)選的，所述的可視化圖像中，主題區(qū)域的扇區(qū)具有觸發(fā)功能，具體為:當主題i所對應的扇區(qū)被觸發(fā)后，數(shù)據(jù)可視化模塊從文檔聚類庫中獲取包含主題i的文檔在所屬文檔簇中的比例TC= {tel，tc2，...，tcy}，其中，tcs是包含主題i的文檔在文檔簇s中的比例數(shù)值，在對應文檔簇內(nèi)繪制扇區(qū)，扇區(qū)的弧度Ai = 2*PI*tcs。
[0049]優(yōu)選的，所述的可視化圖像中，文檔簇的圓形區(qū)域具有觸發(fā)功能，具體為:當文檔簇所對應的圓形區(qū)域被觸發(fā)后，數(shù)據(jù)可視化模塊從文檔聚類庫中讀取文檔簇所包含主題的比例信息CT= {ctl，ct2,…，ctk}，其中Cti為主題i在所選文檔簇所包含的全部主題中所占的比例數(shù)

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：王健;張桂剛;楊頤;黃衛(wèi)星;
技術所有人：中國科學院自動化研究所;
我是此專利的發(fā)明人

上一篇：庫存信息處理方法和裝置的制造方法
上一篇：一種無車道線路口駛入駛出車道連接配對的算法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于文本主題模型的可視化分析系統(tǒng)的制作方法