專利名稱:一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法。
背景技術(shù):
在網(wǎng)絡(luò)內(nèi)容安全管理應(yīng)用領(lǐng)域重點包括文本分類、文本聚類技術(shù)研究,這兩類技術(shù)的目的都是將大規(guī)模的文本數(shù)據(jù)對象分組形成多個類別。其中文本聚類作為一種無監(jiān)督的機器學(xué)習(xí)方法,技術(shù)實現(xiàn)過程無需預(yù)設(shè)文檔分類、類別手工標注等更多的人為因素參與, 是針對海量文本信息進行有效組織、摘要和導(dǎo)航的主要技術(shù)解決手段,已經(jīng)成為海量文本信息融合方向的重要研究專題,對于網(wǎng)絡(luò)輿情信息監(jiān)管、趨勢研判等信息內(nèi)容安全管理重要應(yīng)用領(lǐng)域具有顯著的技術(shù)支撐作用、實際應(yīng)用價值。傳統(tǒng)的信息聚類方法,主要可分為平面劃分法(partitioning method)、層次方法 (hierarchical method ) ^ ^- ;] ' (density-based method )、· 1 白勺力夕去 (grid-based method)和基于模型的方法(model-based method)共計五大類,下面就當前文本聚類的主要代表算法做說明,分析其優(yōu)劣點,同時在此基礎(chǔ)上提出改造后的算法。平面劃分法首先人為地給出一個初始的分組方法,以后通過反復(fù)迭代的方法改變分組,直到滿足某種收斂準則為止,該算法迭代速度快,能有效地處理海量數(shù)據(jù),但無法解決初始聚類中心的選取問題,聚類個數(shù)也無法精確確定。它不能發(fā)現(xiàn)任意形狀的簇,其初始聚類中心的選取對聚類結(jié)果有很大的影響。層次法對給定的數(shù)據(jù)集進行類似層次似的分解,直到滿足某種收斂準則為止,該聚類方法較簡單,但是它經(jīng)常遇到合并或分裂點選擇的困難,算法復(fù)雜度比較小,但是如果沒有很好地選擇合并和分裂點,則可能會導(dǎo)致低質(zhì)量的聚類結(jié)果。并且該算法定需要檢查和估算大量的對象或簇,不適合海量數(shù)據(jù)的聚類?;诿芏鹊姆椒ň褪侵灰粋€區(qū)域中的點的密度打過某個閥值就把它加到與之相近的聚類中去,這樣可以過濾“噪聲”孤立點數(shù)據(jù),發(fā)現(xiàn)任何形狀的簇,但是它對用戶定義的參數(shù)非常敏感,不同的eps (鄰域)和MinPts (對象最小數(shù)目個數(shù))將對聚類的最終結(jié)果產(chǎn)生很大的影響,以至于導(dǎo)致差別巨大的聚類結(jié)果?;诰W(wǎng)格的方法將數(shù)據(jù)空間劃分成為有限個單元的網(wǎng)格結(jié)構(gòu),聚類操作都在這個網(wǎng)格結(jié)構(gòu)(即量化的空間)上進行,處理速度很快,其處理時間獨立于數(shù)據(jù)對象的數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān),它的聚類質(zhì)量取決于網(wǎng)格結(jié)構(gòu)最底層的粒度,如果粒度比較細,處理的代價會顯著的增加,但如果最底層的粒度太粗將會降低文本聚類分析的質(zhì)量?;谀P偷姆椒ㄔ噲D優(yōu)化給定的數(shù)據(jù)和某數(shù)學(xué)模型之間的擬合,為每個簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合,實踐中,它收斂很快,但是可能達不到全局最優(yōu)。 對于某些給定形式的優(yōu)化參數(shù),收斂性可以保證。它的計算復(fù)雜度線性取決于d(輸入特征數(shù))、n (對象數(shù))和t (迭代次數(shù))。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能保證聚類的全面性,避免過多人為因素對聚類結(jié)果的影響,同時又能得到相對更高的聚類準度與效率的用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法。為了便于說明問題,先了解兩個定義 定義1 兩個向量之間的距離采用歐式距離
其中X=(xil,xi2,…,xip)和Y=(yil,yi2,- ,yip)是兩個P維的文本向量。
定義2 計算樣本之間的平均距離
η為樣本總數(shù),g是η個點中取兩個點的組合數(shù),d(xi, xj)是數(shù)據(jù)對象之間的距離。本發(fā)明的一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法,具體步驟是
1、將文檔集D={dl,d2,*",dn}中的每一個文檔di作為一個具有單個成員的簇類 Ci= {di},這些簇類構(gòu)成0的聚類0={01,(32,···^!!};
2、采用定義1的方式計算兩兩簇對之間的歐式距離,形成文本向量之間的距離矩陣;
3、根據(jù)得到的距離矩陣,采用定義2計算出所有簇對之間的平均距離,記為R,同時 Φ=2*Ι ;
4、對每個簇類Ci={di}為中心,以R為半徑作球,落在球內(nèi)的點的個數(shù)為密度,計算每個點的密度;
5、根據(jù)每個點的樣本密度進行排序,找到最大密度的簇類記為Cl;
6、以簇Cl為第一個聚類中心點,找出滿足距離大于Φ的點,S卩|C2-C1|>0記為第2 個聚類中心點,找到第3個點|C3-Cl|>c5記為第3個聚類中心點,如此循環(huán)直到找完整個文檔集D= {dl, d2,…,dn}為止,依此找到第k個聚類中心點,這樣即可確定k的數(shù)目以及中心點 Z1,Z2,···, Zk ;
7、把得到的K以及K個聚類中心Z1,Z2,…,Zk作為K-means算法的初始中心,采用聚類k-means算法迭代,直到K個聚類中心不再發(fā)生變化為止,這樣得到K個聚類。這樣結(jié)合傳統(tǒng)的K-means方法加上改進的聚類初始中心的選擇,使得每個文本向量根據(jù)與聚類中心距離的相似程度,形成K個互不相交的聚類,較為相似的向量都聚在同一個類中。本發(fā)明的用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法,通過基于密度的聚類思想來自動確定聚類數(shù)與聚類初始中心點,同時優(yōu)化聚類數(shù)的收斂準則,降低聚類算法的復(fù)雜度,這樣即可在整體樣本庫上確定聚類數(shù)與初始中心點,保證了聚類的全面性,避免了過多人為因素對聚類結(jié)果的影響,同時具有迭代速度快,能有效處理大數(shù)據(jù)集的特點,在對海量數(shù)據(jù)集聚類的檢測中,準確率和召回率都有較好的提升。
圖1是本發(fā)明的實施例結(jié)構(gòu)圖。
權(quán)利要求
1. 一種用于網(wǎng)絡(luò)內(nèi)容安全管理的中文文本聚類的方法,其特征在于它包括以下步驟(1)、將文檔集D={dl,d2,*",dn}中的每一個文檔di作為一個具有單個成員的簇類 Ci= {di},這些簇類構(gòu)成0的聚類0={01,(32,···^!!};(2)、采用下述方式計算兩兩簇對之間的歐式距離,形成文本向量之間的距離矩陣, 兩個向量之間的距離采用歐式距離其中 X=(xil,xi2, ...,xip)和 Y=(yil,yi2,- ,yip)是兩個 P 維的文本向量; (3)、根據(jù)得到的距離矩陣,采用下述方式計算出所有簇對之間的平均距離,記為R,同時。=2*R,計算樣本之間的平均距離η為樣本總數(shù),Cj是η個點中取兩個點的組合數(shù),& ..、是數(shù)據(jù)對象之間的距離;(4)、對每個簇類Ci={di}為中心,以R為半徑作球,落在球內(nèi)的點的個數(shù)為密度,計算每個點的密度;(5)、根據(jù)每個點的樣本密度進行排序,找到最大密度的簇類記為Cl;(6)、以簇Cl為第一個聚類中心點,找出滿足距離大于Φ的點,即IC2-C11 >Φ記為第 2個聚類中心點,找到第3個點|C3-Cl|>c5記為第3個聚類中心點,如此循環(huán)直到找完整個文檔集D= {dl, d2,…,dn}為止,依此找到第k個聚類中心點,這樣即可確定k的數(shù)目以及中心點 Z1,Z2,···, Zk ;(7)、把得到的K以及K個聚類中心Z1,Z2,…,Zk作為K-means算法的初始中心,采用聚類k-means算法迭代,直到K個聚類中心不再發(fā)生變化為止,這樣得到K個聚類。
全文摘要
本發(fā)明涉及一種全新的基于網(wǎng)絡(luò)內(nèi)容分析的文本聚類方法,通過基于密度的聚類思想來自動確定聚類數(shù)與聚類初始中心點,同時優(yōu)化聚類數(shù)的收斂準則,降低聚類算法的復(fù)雜度,這樣即可在整體樣本庫上確定聚類數(shù)與初始中心點,保證了聚類的全面性,避免了過多人為因素對聚類結(jié)果的影響,同時又能得到相對更高的聚類準度與效率。
文檔編號G06F17/30GK102426598SQ201110350120
公開日2012年4月25日 申請日期2011年11月8日 優(yōu)先權(quán)日2011年11月8日
發(fā)明者楊更 申請人:軍工思波信息科技產(chǎn)業(yè)有限公司