欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于文本主題模型的可視化分析系統(tǒng)的制作方法

文檔序號:9787572閱讀:722來源:國知局
一種基于文本主題模型的可視化分析系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)文本主題分析領域,特別是涉及一種基于文本主題模型的可視化分析系統(tǒng)。
[0002]背景
[0003]互聯(lián)網(wǎng)上存在著海量的文本信息,比如大量的新聞報道、文學評論、知識普及,形式也是多種多樣,比如新聞網(wǎng)頁、博客、微博等。對于文本信息進行主題分析能夠找到當前網(wǎng)絡討論的熱點話題。對于熱點話題,可以有各種有用的應用,比如,進行行業(yè)發(fā)展趨勢預測、熱點商品推薦、網(wǎng)絡輿論分析等。
[0004]數(shù)據(jù)可視化是一種結合了計算機圖形學、心理學以及人機交互等學科的交叉學科。數(shù)據(jù)可視化通過可視化算法,實現(xiàn)圖形化的可視化模型,用來展示多維或者高維數(shù)據(jù)。結合了人機交互的可視化模型可以進行動態(tài)的多角度分析。數(shù)據(jù)可視化的最大用途在通過圖形化的數(shù)據(jù)展示方法,促進用戶對于復雜數(shù)據(jù)的理解,提高數(shù)據(jù)分析效率。
[0005]對結果數(shù)據(jù)的直觀易懂的可視化,會大大促進用戶對分析結果的理解,提高分析效率。由于分析結果是可以從不同角度來理解的,比如站在某個特定主題的角度來理解其在文檔中的分布情況、或者站在某個特定文檔簇的角度來分析所描述的主題。一個靜態(tài)的可視化方法很難做到將所有的情況同時都表現(xiàn)出來。因此,靜態(tài)的可視化模型要結合人機交互技術,來動態(tài)展現(xiàn)用戶想要的分析角度。另外,由于各個分析階段都會涉及到相對獨立的數(shù)據(jù)處理分析,子分析模塊的參數(shù)設置會直接影響整體分析的結果。因此,在主題分析和聚類的時候,用戶會調整參數(shù),以達到整體分析效果最優(yōu)的目標。交互式的可視化模型可以允許用戶在圖形界面上對參數(shù)進行動態(tài)調整,并且實時的看到調整后的分析結果。

【發(fā)明內(nèi)容】

[0006]基于上述問題,本發(fā)明的目的在于提出一種基于文本主題模型的可視化分析系統(tǒng),實現(xiàn)了分析效果的優(yōu)化、分析過程中可變參數(shù)的動態(tài)調整,提高了分析效率。
[0007]為了實現(xiàn)上述目的,本發(fā)明公開了一種基于文本主題模型的可視化分析系統(tǒng),該系統(tǒng)包括互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊、語料庫模塊、主題分析模塊、主題聚類模塊、數(shù)據(jù)可視化模塊;
[0008]互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊用于從互聯(lián)網(wǎng)采集網(wǎng)頁文本數(shù)據(jù),并對所采集到的各篇文本數(shù)據(jù)進行清洗;
[0009]語料庫模塊用于存儲互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊清洗后的文本數(shù)據(jù),并對存儲的網(wǎng)頁文本數(shù)據(jù)進行中文分詞和詞頻統(tǒng)計,生成包含單詞與所存儲的網(wǎng)頁文本數(shù)據(jù)之間的映射關系和詞頻統(tǒng)計數(shù)據(jù)的詞頻數(shù)據(jù);
[0010]主題分析模塊用于依據(jù)語料庫模塊生成的詞頻數(shù)據(jù)建立主題模型,利用Gibbs抽樣方法對所建立主題模型進行計算,存儲并輸出計算得到的文檔-主題向量集和主題-單詞向量集;
[0011]主題聚類模塊對主題分析模塊輸出的文檔-主題向量集進行聚類分析,存儲并輸出聚類數(shù)據(jù);
[0012]數(shù)據(jù)可視化模塊將主題分析模塊和主題聚類模塊輸出的數(shù)據(jù)以圖形的顯示出來;數(shù)據(jù)可視化模塊還用于顯示和調整語料庫模塊、主題分析模塊、主題聚類模塊中可變參數(shù)。
[0013]優(yōu)選的,所述的互聯(lián)網(wǎng)文本數(shù)據(jù)采集模塊包括網(wǎng)頁抓取單元和數(shù)據(jù)清洗單元;
[0014]網(wǎng)頁抓取單元用于從互聯(lián)網(wǎng)上采集網(wǎng)頁中的文本數(shù)據(jù);該單元使用網(wǎng)絡爬蟲技術,給出種子網(wǎng)站后,通過種子網(wǎng)站的鏈接跳轉到其他網(wǎng)站,實現(xiàn)自動網(wǎng)頁爬行;
[0015]數(shù)據(jù)清洗單元用于將網(wǎng)頁抓取單元采集的文本數(shù)據(jù)進行清洗,去除與網(wǎng)頁內(nèi)容無關的數(shù)據(jù),保留的數(shù)據(jù)包括網(wǎng)頁的標題、作者、時間、出處、以及正文內(nèi)容。
[0016]優(yōu)選的,所述的語料庫模塊包含語料庫構建單元、語料庫、中文分詞單元、詞頻數(shù)據(jù)管理單元、詞頻庫;
[0017]語料庫構建單元用于將清洗過的文本數(shù)據(jù)存儲在基于關系型數(shù)據(jù)庫的語料庫中;
[0018]中文分詞單元用于將語料庫中的數(shù)據(jù)進行中文分詞,并根據(jù)在該單元中定義的停用詞表去除與正文內(nèi)容無關的停用詞;
[0019]詞頻數(shù)據(jù)管理單元用將中文分詞單元得到的分詞結果進行詞頻統(tǒng)計,將得到的統(tǒng)計數(shù)據(jù)存入詞頻庫;詞頻庫中所存儲的詞頻數(shù)據(jù)包括分詞結果中各單詞與語料庫中的文本數(shù)據(jù)之間的映射關系和詞頻數(shù)據(jù)管理單的統(tǒng)計數(shù)據(jù);所述的統(tǒng)計數(shù)據(jù)包括分詞結果中各單詞在對應各篇文本數(shù)據(jù)中出現(xiàn)的次數(shù)、各篇文本數(shù)據(jù)中所包含的每個單詞的出現(xiàn)次數(shù)。
[0020]優(yōu)選的,所述的主題分析模塊包含LDA主題模型構建單元、Gibbs抽樣計算單元、結果向量集管理單元、向量集數(shù)據(jù)庫;
[0021 ] LDA主題模型構建單元用于根據(jù)詞頻數(shù)據(jù)構建LDA主題模型;i0022] Gibbs抽樣計算單元用于利用Gibbs抽樣方法對LDA模型進行計算,得到用于描述描述每篇文本數(shù)據(jù)中包含主題的文檔-主題向量集和用于描述每個主題中包含關鍵詞的主題-單詞向量集。
[0023]結果向量集管理單元用于將Gibbs抽樣計算單元得到的向量集保存到基于關系型數(shù)據(jù)庫的向量集數(shù)據(jù)庫中。
[0024]優(yōu)選的,所述的主題聚類模塊包括聚類分析單元、主題聚類數(shù)據(jù)集管理單元、文檔聚類庫;
[0025]聚類分析單元用于對文檔-主題向量集進行聚類分析得到文本聚類數(shù)據(jù),文本聚類數(shù)據(jù)包括每個文檔簇中所包含的文本、每篇文本所屬的文檔簇;
[0026]主題聚類數(shù)據(jù)集管理單元用于將文本聚類數(shù)據(jù)保存在基于關系型數(shù)據(jù)庫的文檔聚類庫中。
[0027]優(yōu)選的,所述的數(shù)據(jù)可視化模塊包括數(shù)據(jù)整合單元、可視化單元、人機交互單元;
[0028]數(shù)據(jù)整合單元用于從向量集數(shù)據(jù)庫中讀取文檔-主題向量集數(shù)據(jù)和主題-單詞向量集數(shù)據(jù)、從文檔聚類庫中讀取文本聚類數(shù)據(jù),并將讀取到的數(shù)據(jù)按照可視化單元定義的數(shù)據(jù)模式進行格式轉換;
[0029]可視化單元主要用于將整合好的數(shù)據(jù)以圖形方式展現(xiàn)給終端用戶;
[0030]人機交互單元用于調整語料庫模塊、主題分析模塊、主題聚類模塊中各具有運算和篩選功能的單元的可變參數(shù)。
[0031]優(yōu)選的,所述的具有運算和篩選功能的單元包括語料庫構建單元、中文分詞單元、LDA主題模型構建單元、Gibbs抽樣計算單元、聚類分析單元、主題聚類數(shù)據(jù)集管理單元。
[0032]優(yōu)選的,所述結果向量集管理單元還具有主題熱度子單元,該子單元用于計算主題熱度,并將結果存入向量集數(shù)據(jù)庫。
[0033]優(yōu)選的,所述的數(shù)據(jù)可視化模塊生成可視化圖像的方法為:
[0034]步驟1,從向量集數(shù)據(jù)庫中取得主題的熱度數(shù)據(jù)集H={hl,h2,h3,‘",hk},其中hi為第i個主題的熱度值;
[0035]步驟2,在顯示屏幕繪制主題區(qū)域,具體為:
[0036]步驟21,繪制兩個同心圓;
[0037]步驟22,對熱度值數(shù)據(jù)集H中的主題熱度值進行歸一化計算,得到歸一化數(shù)據(jù)集H’={hi’,h2’,-shkl,其中hi’是歸一化之后的主題i的熱度值;
[0038]步驟23,根據(jù)每個主題熱度值hi的比例值,將步驟21中所繪制的同心圓中外圈與內(nèi)圈之間的區(qū)域劃分為k個扇區(qū),每個扇區(qū)代表一個主題,主題i的扇區(qū)弧度= 2*PI*hi’;
[0039]步驟3,在每個扇區(qū)繪制文字云,具體為:
[0040]步驟31,對于主題i,訪問向量集數(shù)據(jù)庫,取得主題i所包含的文字向量Wi= {{wil,vl}, {wi2,v2},..., {win,vn}},其中wip是主題i包含的第p個單詞的內(nèi)容,vp表示wip的數(shù)值,也就就是該單詞的對于主題i的重要性。
[0041 ]步驟 32,對Wi 中的 V進行歸一化計算,得到 Wi,= {{wil,vl,},{wi2,v2,},…,{win,vn’}},其中vp’為vp的歸一化值。
[0042]步驟33,在主題i對應的扇區(qū)內(nèi)生成文字云,文字云的第p個單詞的字體尺寸=設定原始尺寸*vi ’ *hk’。如果字體尺寸小于2號字,則不顯示該文字;
[0043]步驟34,將文字云中各個單詞水平放置;
[0044]步驟4,繪制文檔簇,具體為:
[0045]步驟41,從文檔聚類庫中取得文檔簇的尺寸信息:SC={scl,sc2,…,scy},其中sci為第i個文檔簇所包含的文檔的數(shù)量;
[0046]步驟42,對SC進行歸一化,得到SC’= {scl’,sc2’,…,scy ’},其中sci ’為第i個文檔簇所包含的文檔的數(shù)量的歸一化值;
[0047]步驟43,在步驟21中所繪制的同心圓的內(nèi)圈中,每個文檔簇繪制一個圓形,圓形的半徑與歸一化值sci ’成正比,圓形以半徑降序方式,由外向內(nèi)螺旋排列。
[0048]優(yōu)選的,所述的可視化圖像中,主題區(qū)域的扇區(qū)具有觸發(fā)功能,具體為:當主題i所對應的扇區(qū)被觸發(fā)后,數(shù)據(jù)可視化模塊從文檔聚類庫中獲取包含主題i的文檔在所屬文檔簇中的比例TC= {tel,tc2,...,tcy},其中,tcs是包含主題i的文檔在文檔簇s中的比例數(shù)值,在對應文檔簇內(nèi)繪制扇區(qū),扇區(qū)的弧度Ai = 2*PI*tcs。
[0049]優(yōu)選的,所述的可視化圖像中,文檔簇的圓形區(qū)域具有觸發(fā)功能,具體為:當文檔簇所對應的圓形區(qū)域被觸發(fā)后,數(shù)據(jù)可視化模塊從文檔聚類庫中讀取文檔簇所包含主題的比例信息CT= {ctl,ct2,…,ctk},其中Cti為主題i在所選文檔簇所包含的全部主題中所占的比例數(shù)
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宁津县| 城固县| 右玉县| 新绛县| 米泉市| 紫云| 德阳市| 甘孜| 彝良县| 屏边| 白沙| 翁源县| 黄骅市| 荔浦县| 遂溪县| 通道| 嘉定区| 九龙县| 锦州市| 水富县| 平凉市| 岫岩| 邵武市| 哈巴河县| 温州市| 铜山县| 吉木乃县| 越西县| 杭锦后旗| 河北省| 靖江市| 庄浪县| 体育| 侯马市| 伊春市| 彰武县| 宁蒗| 新兴县| 滕州市| 寿宁县| 毕节市|