一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法

文檔序號：6437697閱讀：213來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法。
背景技術(shù)：
在網(wǎng)絡(luò)內(nèi)容安全管理應(yīng)用領(lǐng)域重點包括文本分類、文本聚類技術(shù)研究，這兩類技術(shù)的目的都是將大規(guī)模的文本數(shù)據(jù)對象分組形成多個類別。其中文本聚類作為一種無監(jiān)督的機器學(xué)習(xí)方法，技術(shù)實現(xiàn)過程無需預(yù)設(shè)文檔分類、類別手工標注等更多的人為因素參與，是針對海量文本信息進行有效組織、摘要和導(dǎo)航的主要技術(shù)解決手段，已經(jīng)成為海量文本信息融合方向的重要研究專題，對于網(wǎng)絡(luò)輿情信息監(jiān)管、趨勢研判等信息內(nèi)容安全管理重要應(yīng)用領(lǐng)域具有顯著的技術(shù)支撐作用、實際應(yīng)用價值。傳統(tǒng)的信息聚類方法，主要可分為平面劃分法(partitioning method)、層次方法 (hierarchical method ) ^ ^- ;] ' (density-based method )、· 1 白勺力夕去 (grid-based method)和基于模型的方法(model-based method)共計五大類，下面就當前文本聚類的主要代表算法做說明，分析其優(yōu)劣點，同時在此基礎(chǔ)上提出改造后的算法。平面劃分法首先人為地給出一個初始的分組方法，以后通過反復(fù)迭代的方法改變分組，直到滿足某種收斂準則為止，該算法迭代速度快，能有效地處理海量數(shù)據(jù)，但無法解決初始聚類中心的選取問題，聚類個數(shù)也無法精確確定。它不能發(fā)現(xiàn)任意形狀的簇，其初始聚類中心的選取對聚類結(jié)果有很大的影響。層次法對給定的數(shù)據(jù)集進行類似層次似的分解，直到滿足某種收斂準則為止，該聚類方法較簡單，但是它經(jīng)常遇到合并或分裂點選擇的困難，算法復(fù)雜度比較小，但是如果沒有很好地選擇合并和分裂點，則可能會導(dǎo)致低質(zhì)量的聚類結(jié)果。并且該算法定需要檢查和估算大量的對象或簇，不適合海量數(shù)據(jù)的聚類?；诿芏鹊姆椒ň褪侵灰粋€區(qū)域中的點的密度打過某個閥值就把它加到與之相近的聚類中去，這樣可以過濾“噪聲”孤立點數(shù)據(jù)，發(fā)現(xiàn)任何形狀的簇，但是它對用戶定義的參數(shù)非常敏感，不同的eps (鄰域)和MinPts (對象最小數(shù)目個數(shù))將對聚類的最終結(jié)果產(chǎn)生很大的影響，以至于導(dǎo)致差別巨大的聚類結(jié)果?；诰W(wǎng)格的方法將數(shù)據(jù)空間劃分成為有限個單元的網(wǎng)格結(jié)構(gòu)，聚類操作都在這個網(wǎng)格結(jié)構(gòu)(即量化的空間)上進行，處理速度很快，其處理時間獨立于數(shù)據(jù)對象的數(shù)目，只與量化空間中每一維的單元數(shù)目有關(guān)，它的聚類質(zhì)量取決于網(wǎng)格結(jié)構(gòu)最底層的粒度，如果粒度比較細，處理的代價會顯著的增加，但如果最底層的粒度太粗將會降低文本聚類分析的質(zhì)量?；谀Ｐ偷姆椒ㄔ噲D優(yōu)化給定的數(shù)據(jù)和某數(shù)學(xué)模型之間的擬合，為每個簇假定一個模型，尋找數(shù)據(jù)對給定模型的最佳擬合，實踐中，它收斂很快，但是可能達不到全局最優(yōu)。對于某些給定形式的優(yōu)化參數(shù)，收斂性可以保證。它的計算復(fù)雜度線性取決于d(輸入特征數(shù))、n (對象數(shù))和t (迭代次數(shù))。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能保證聚類的全面性，避免過多人為因素對聚類結(jié)果的影響，同時又能得到相對更高的聚類準度與效率的用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法。為了便于說明問題，先了解兩個定義定義1 兩個向量之間的距離采用歐式距離
其中X=(xil，xi2，…，xip)和Y=(yil，yi2，- ,yip)是兩個P維的文本向量。
定義2 計算樣本之間的平均距離
η為樣本總數(shù)，g是η個點中取兩個點的組合數(shù)，d(xi, xj)是數(shù)據(jù)對象之間的距離。本發(fā)明的一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法，具體步驟是
1、將文檔集D={dl，d2，*"，dn}中的每一個文檔di作為一個具有單個成員的簇類 Ci= {di}，這些簇類構(gòu)成0的聚類0={01，(32，···^!!}；
2、采用定義1的方式計算兩兩簇對之間的歐式距離，形成文本向量之間的距離矩陣；
3、根據(jù)得到的距離矩陣，采用定義2計算出所有簇對之間的平均距離，記為R，同時 Φ=2*Ι ；
4、對每個簇類Ci={di}為中心，以R為半徑作球，落在球內(nèi)的點的個數(shù)為密度，計算每個點的密度；
5、根據(jù)每個點的樣本密度進行排序，找到最大密度的簇類記為Cl；
6、以簇Cl為第一個聚類中心點，找出滿足距離大于Φ的點，S卩|C2-C1|>0記為第2 個聚類中心點，找到第3個點|C3-Cl|>c5記為第3個聚類中心點，如此循環(huán)直到找完整個文檔集D= {dl, d2,…，dn}為止，依此找到第k個聚類中心點，這樣即可確定k的數(shù)目以及中心點 Z1，Z2，···, Zk ；
7、把得到的K以及K個聚類中心Z1，Z2，…，Zk作為K-means算法的初始中心，采用聚類k-means算法迭代，直到K個聚類中心不再發(fā)生變化為止，這樣得到K個聚類。這樣結(jié)合傳統(tǒng)的K-means方法加上改進的聚類初始中心的選擇，使得每個文本向量根據(jù)與聚類中心距離的相似程度，形成K個互不相交的聚類，較為相似的向量都聚在同一個類中。本發(fā)明的用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法，通過基于密度的聚類思想來自動確定聚類數(shù)與聚類初始中心點，同時優(yōu)化聚類數(shù)的收斂準則，降低聚類算法的復(fù)雜度，這樣即可在整體樣本庫上確定聚類數(shù)與初始中心點，保證了聚類的全面性，避免了過多人為因素對聚類結(jié)果的影響，同時具有迭代速度快，能有效處理大數(shù)據(jù)集的特點，在對海量數(shù)據(jù)集聚類的檢測中，準確率和召回率都有較好的提升。

圖1是本發(fā)明的實施例結(jié)構(gòu)圖。
權(quán)利要求
1. 一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法，其特征在于它包括以下步驟(1)、將文檔集D={dl，d2，*"，dn}中的每一個文檔di作為一個具有單個成員的簇類 Ci= {di}，這些簇類構(gòu)成0的聚類0={01，(32，···^!!}；(2)、采用下述方式計算兩兩簇對之間的歐式距離，形成文本向量之間的距離矩陣，兩個向量之間的距離采用歐式距離其中 X=(xil,xi2, ...，xip)和 Y=(yil，yi2，- ,yip)是兩個 P 維的文本向量； (3)、根據(jù)得到的距離矩陣，采用下述方式計算出所有簇對之間的平均距離，記為R，同時。=2*R，計算樣本之間的平均距離η為樣本總數(shù),Cj是η個點中取兩個點的組合數(shù)，& ..、是數(shù)據(jù)對象之間的距離；(4)、對每個簇類Ci={di}為中心，以R為半徑作球，落在球內(nèi)的點的個數(shù)為密度，計算每個點的密度；(5)、根據(jù)每個點的樣本密度進行排序，找到最大密度的簇類記為Cl；(6)、以簇Cl為第一個聚類中心點，找出滿足距離大于Φ的點，即IC2-C11 >Φ記為第 2個聚類中心點，找到第3個點|C3-Cl|>c5記為第3個聚類中心點，如此循環(huán)直到找完整個文檔集D= {dl, d2,…，dn}為止，依此找到第k個聚類中心點，這樣即可確定k的數(shù)目以及中心點 Z1，Z2，···, Zk ；(7)、把得到的K以及K個聚類中心Z1，Z2，…，Zk作為K-means算法的初始中心，采用聚類k-means算法迭代，直到K個聚類中心不再發(fā)生變化為止，這樣得到K個聚類。
全文摘要
本發(fā)明涉及一種全新的基于網(wǎng)絡(luò)內(nèi)容分析的文本聚類方法，通過基于密度的聚類思想來自動確定聚類數(shù)與聚類初始中心點，同時優(yōu)化聚類數(shù)的收斂準則，降低聚類算法的復(fù)雜度，這樣即可在整體樣本庫上確定聚類數(shù)與初始中心點，保證了聚類的全面性，避免了過多人為因素對聚類結(jié)果的影響，同時又能得到相對更高的聚類準度與效率。
文檔編號G06F17/30GK102426598SQ201110350120
公開日2012年4月25日申請日期2011年11月8日優(yōu)先權(quán)日2011年11月8日
發(fā)明者楊更申請人:軍工思波信息科技產(chǎn)業(yè)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊更
技術(shù)所有人：軍工思波信息科技產(chǎn)業(yè)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本內(nèi)容安全分析方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法