欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于tf-idf特征的短文本聚類以及熱點(diǎn)主題提取方法

文檔序號(hào):6622351閱讀:4065來源:國(guó)知局
基于tf-idf特征的短文本聚類以及熱點(diǎn)主題提取方法
【專利摘要】本發(fā)明公開了一種基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,該方法包括以下步驟:首先,對(duì)短文本樣本進(jìn)行中文分詞,并篩選出高頻詞匯;接著,基于篩選出的高頻詞匯自動(dòng)地對(duì)每一個(gè)短文本樣本進(jìn)行TF-IDF特征提取和生成,建立整個(gè)樣本特征向量空間模型;然后,運(yùn)用SVD奇異值分解進(jìn)行樣本空間維度的約減;最后,結(jié)合余弦定理和k-means方法對(duì)短文本樣本進(jìn)行聚類,并通過可視化的分析手段找出每一個(gè)類簇中潛在的熱點(diǎn)主題。本發(fā)明能夠很好的處理短文本的特征選擇問題、樣本控件維度約減問題以及聚類問題,與此同時(shí)本方法還借助可視化技術(shù)來對(duì)聚類結(jié)果進(jìn)行可視化分析,最后進(jìn)行熱點(diǎn)主題的提取和分析。
【專利說明】基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字文本挖掘技術(shù),特別是涉及文本的聚類以及相應(yīng)的熱點(diǎn)主題提取 的方法。

【背景技術(shù)】
[0002] 文本聚類多年來一直是研究學(xué)者致力于研究、探索和解決的熱點(diǎn)問題之一,時(shí)至 今日,仍有諸多難題亟需解決,例如在進(jìn)行聚類時(shí),樣本不均衡,樣本特征維度過高,聚類算 法復(fù)雜度太大等都帶來了極大的挑戰(zhàn)。與此同時(shí),伴隨著計(jì)算機(jī)的快速發(fā)展,每天都有海量 的文本數(shù)據(jù)生成,隨著數(shù)據(jù)的激增我們進(jìn)入了大數(shù)據(jù)的時(shí)代,伴隨而來的是更多更復(fù)雜,更 難解決的問題。


【發(fā)明內(nèi)容】

[0003] 為了克服上述現(xiàn)有技術(shù)存在的問題,本發(fā)明提出一種基于TF-IDF特征的短文本 聚類以及熱點(diǎn)主題提取方法,針對(duì)短文本樣本,通過提取TF-IDF特征能夠有效的進(jìn)行短文 本樣本聚類以及相關(guān)熱點(diǎn)主題的提取,結(jié)合并使用了 TF-IDF特征、SVD奇異值分解、余弦定 理、k-means聚類等技術(shù),能夠有效地進(jìn)行短文本聚類、熱點(diǎn)主題提取和數(shù)據(jù)挖掘與分析。
[0004] 本發(fā)明提出了一種基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,該方 法包括以下步驟:
[0005] 首先,對(duì)短文本樣本進(jìn)行中文分詞,并篩選出高頻詞匯;接著,基于篩選出的高 頻詞匯自動(dòng)地對(duì)每一個(gè)短文本樣本進(jìn)行TF-IDF特征提取和生成,建立整個(gè)樣本特征向量 空間模型;然后,運(yùn)用SVD奇異值分解進(jìn)行樣本空間維度的約減;最后,結(jié)合余弦定理和 k-means方法對(duì)短文本樣本進(jìn)行聚類,并通過可視化的分析手段找出每一個(gè)類簇中潛在的 熱點(diǎn)主題。
[0006] 所述對(duì)短文本樣本進(jìn)行中文分詞,并篩選出高頻詞匯的步驟,具體包括以下操 作:
[0007] 對(duì)所有樣本進(jìn)行中文分詞,依照其出現(xiàn)的頻率從大到小排列,然后從大到小逐個(gè) 選擇高頻詞匯,,直到已經(jīng)選擇詞的詞頻和與總詞頻的比例達(dá)到9比10。
[0008] 所述對(duì)每一個(gè)短文本樣本進(jìn)行TF-IDF特征提取和生成的步驟,具體包括以下操 作:
[0009] TF代表這一個(gè)詞在一個(gè)樣本中出現(xiàn)的次數(shù),IDF代表這一個(gè)詞在所有樣本中出現(xiàn) 的次數(shù),由TF和IDF兩部分相乘,得到一個(gè)具體的詞對(duì)于一個(gè)樣本的重要程度;對(duì)每一個(gè)樣 本的所有維度進(jìn)行該樣本的重要程度的計(jì)算,生成每一個(gè)樣本的TF-IDF特征向量,
[0010] FeatureVector = {f^ f2, f3, ···, fj ; (1)
[0011] 公式1中,樣本的TF-IDF特征計(jì)算公式為:
[0012] fn = tf-idf (tn, d, D) = tf (tn, d) *idf (tn, D) ; (2)
[0013] 公式2中,tf值計(jì)算公式為:
[0014] tf (tn, d = NumberofTimes (tn), (3)
[0015] 公式3中,idf值計(jì)算公式為:
[0016]

【權(quán)利要求】
1. 一種基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,其特征在于,該方法包 括以下步驟: 首先,對(duì)短文本樣本進(jìn)行中文分詞,并篩選出高頻詞匯;接著,基于篩選出的高頻詞匯 自動(dòng)地對(duì)每一個(gè)短文本樣本進(jìn)行TF-IDF特征提取和生成,建立整個(gè)樣本特征向量空間模 型;然后,運(yùn)用SVD奇異值分解進(jìn)行樣本空間維度的約減;最后,結(jié)合余弦定理和k-means 方法對(duì)短文本樣本進(jìn)行聚類,并通過可視化的分析手段找出每一個(gè)類簇中潛在的熱點(diǎn)主 題。
2. 如權(quán)利要求1所述的基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,其特征 在于,所述對(duì)短文本樣本進(jìn)行中文分詞,并篩選出高頻詞匯的步驟,具體包括以下操作: 對(duì)所有樣本進(jìn)行中文分詞,依照其出現(xiàn)的頻率從大到小排列,然后從大到小逐個(gè)選擇 高頻詞匯,,直到已經(jīng)選擇詞的詞頻和與總詞頻的比例達(dá)到9比10。
3. 如權(quán)利要求1所述的基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,其特征 在于,所述對(duì)每一個(gè)短文本樣本進(jìn)行TF-IDF特征提取和生成的步驟,具體包括以下操作: TF代表這一個(gè)詞在一個(gè)樣本中出現(xiàn)的次數(shù),IDF代表這一個(gè)詞在所有樣本中出現(xiàn)的次 數(shù),由TF和IDF兩部分相乘,得到一個(gè)具體的詞對(duì)于一個(gè)樣本的重要程度;對(duì)每一個(gè)樣本的 所有維度進(jìn)行該樣本的重要程度的計(jì)算,生成每一個(gè)樣本的TF-IDF特征向量: FeatureVector = {f1; f2, f3, ···, fn} ; (1) 公式(1)中,樣本的TF-IDF特征計(jì)算公式為: fn = tf-idf (tn, d, D) = tf (tn, d) *idf (tn, D) ; (2) 公式(2)中,tf值計(jì)算公式為: tf (tn, d = NumberofTimes (tn), (3) 公式(2)中,idf值計(jì)算公式為:
(4) 其中,公式(2)、(3)、(4)中,D為所有文本樣本集合,d為具體的某一個(gè)樣本,tn為第η 個(gè)高頻詞匯,即一個(gè)特征; 上述所有樣本的TF-IDF特征向量組成矩陣,該矩陣即為樣本特征向量空間模型。
4. 如權(quán)利要求1所述的基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,其特征 在于,所述運(yùn)用SVD奇異值分解進(jìn)行樣本空間維度的約減的步驟,具體包括以下操作: 通過計(jì)算樣本空間矩陣的奇異值并按大小從大到小排列,取前r個(gè)奇異值使得r個(gè)奇 異值的奇異值之和占總奇異值之和的90%,將特征向量樣本空間的高維度約減到r維:
5. 如權(quán)利要求1所述的基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,其特征 在于,結(jié)合余弦定理對(duì)短文本樣本進(jìn)行聚類的步驟,具體包括以下操作: 計(jì)算兩個(gè)樣本的特征向量之間的余弦值,如果兩個(gè)向量之間的余弦值越接近1說明兩 個(gè)樣本越相似,應(yīng)該被分為一類,如果余弦值越接近〇說明兩個(gè)樣本越無關(guān)。
6. 如權(quán)利要求5所述的基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,其特征 在于,在結(jié)合余弦定理對(duì)短文本樣本進(jìn)行聚類的步驟的聚類結(jié)果上,采用k-means方法對(duì) 短文本樣本進(jìn)行聚類,具體包括以下步驟: 首先用戶輸入一個(gè)閾值,即類簇內(nèi)所有樣本間距離的平均值;采用k-means方法先對(duì) 樣本空間進(jìn)行粗粒的聚類,緊接著對(duì)每一個(gè)類簇進(jìn)行判斷,判斷類簇內(nèi)的樣本間相互的平 均余弦距離是否大于閾值,如果大于則會(huì)進(jìn)一步進(jìn)行分割聚類,反之對(duì)于這個(gè)類的進(jìn)一步 分割則會(huì)停止;得到了所有樣本的一個(gè)分類結(jié)果。
7.如權(quán)利要求1所述的基于TF-IDF特征的短文本聚類以及熱點(diǎn)主題提取方法,其特 征在于,所述通過可視化的分析手段找出每一個(gè)類簇中潛在的熱點(diǎn)主題,具體包括以下操 作: 采用d3. js可視分析技術(shù),對(duì)每一個(gè)類簇間的特征之間的關(guān)系進(jìn)行可視化顯示與分 析,以此對(duì)每一類簇內(nèi)的熱點(diǎn)主題進(jìn)行提取。
【文檔編號(hào)】G06F17/27GK104142918SQ201410378785
【公開日】2014年11月12日 申請(qǐng)日期:2014年7月31日 優(yōu)先權(quán)日:2014年7月31日
【發(fā)明者】鄭巖, 孟昭鵬, 徐超, 張亞男 申請(qǐng)人:天津大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阜康市| 滨海县| 三门县| 西峡县| 赣州市| 湖南省| 敦化市| 竹山县| 隆德县| 临汾市| 麻城市| 濮阳市| 尼木县| 成武县| 淳化县| 新竹市| 白朗县| 鹤庆县| 上蔡县| 保康县| 六安市| 贺兰县| 新龙县| 文水县| 怀集县| 滕州市| 资兴市| 札达县| 吴旗县| 卢湾区| 东乡县| 石狮市| 如皋市| 定结县| 阆中市| 邛崃市| 高尔夫| 北辰区| 黄骅市| 阿坝县| 建宁县|