一種基于詞分布和文檔特征的垃圾評論自動分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計算機應用領(lǐng)域,特別是一種在海量因特網(wǎng)評論中輔助識別垃圾評論 的自動分類方法。 技術(shù)背景
[0002] 隨著因特網(wǎng)技術(shù)的飛速發(fā)展,促生了多種新興的網(wǎng)絡通訊和交流方式。網(wǎng)絡用戶 可W方便快捷的發(fā)表各種評論。網(wǎng)絡交流W其良好的自由性、實時性和便捷性正在逐漸改 變?nèi)藗兊臏贤ǚ绞健?br>[0003] 網(wǎng)絡技術(shù)的發(fā)展具有兩面性,用戶發(fā)表評論的自由性和因特網(wǎng)強大的傳播能力往 往會被一些用戶利用,將各種商業(yè)廣告或惡意信息發(fā)布到網(wǎng)絡評論中。近年來,垃圾評論在 因特網(wǎng)中的蔓延趨勢愈演愈烈,W垃圾評論為載體的各種商業(yè)廣告,虛假宣傳更是屢見不 鮮。大量存在的垃圾評論不僅極大浪費了網(wǎng)絡資源,而且惡意評論會虛造聲勢、傳播負面消 息,進而對社會產(chǎn)生負面影響。
[0004] 因特網(wǎng)中巨大的用戶數(shù)量和評論發(fā)表量對垃圾評論分類和識別帶來挑戰(zhàn)。目前針 對網(wǎng)絡中垃圾評論自動識別的分類研究還存在局限性:1)可擴展性不強,大多數(shù)分類方法 只能針對特定的應用場景,很難進行擴展;2)抽取的特征單一,現(xiàn)有的分類方法只度量評 論的相似性,沒有綜合考慮詞分布特征和文檔特征;3)對數(shù)據(jù)集的依賴性強,需要大量的 評論標注;不能滿足對因特網(wǎng)中垃圾評論自動分類的需求。 陽0化]本發(fā)明方法應用到分詞技術(shù)和Bayes分類器:單詞是最小的具有獨立意義的語法 單元,漢語句子中的詞之間沒有明顯的區(qū)分標記,需要采用分詞技術(shù)將輸入的漢語評論切 分為具有獨立意義的單詞。Bayes分類器基于先驗概率,采用貝葉斯公式計算目標評論屬于 正常評論和垃圾評論的分類概率,其分類結(jié)果是選擇最大概率所對應的類別。本發(fā)明中設(shè) 及到自學習策略,自學習策略是一種半監(jiān)督迭代式訓練方法,適用于有標注的網(wǎng)絡評論比 例較少的情形;將前一輪迭代中得到的分類結(jié)果應用到下一輪迭代中,補充有標注的評論 集合,從而提高分類結(jié)果的準確性。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所要解決的技術(shù)問題是提供一種基于詞分布和文檔特征的垃圾評論自動 分類方法,該方法計算簡單,通用性和擴展性強,只需要少量具有標注的網(wǎng)絡評論即可對大 量的評論進行實時分類。
[0007] 為實現(xiàn)上述目的,本發(fā)明采用如下的步驟:
[0008] 1)收集網(wǎng)絡評論,對評論分詞,得到關(guān)鍵詞集合;
[0009] 2)建立關(guān)鍵詞分布矩陣,訓練語言模型,計算未標注網(wǎng)絡評論屬于正常評論和垃 圾評論的分類概率;
[0010] 3)提取網(wǎng)絡評論的文檔特征,訓練基于概率的Bayes分類器,計算未標注網(wǎng)絡評 論的分類概率;
[0011] 4)對步驟2)和步驟3)中的分類概率計算加權(quán)平均,最后采用自學習策略重復上 述步驟,直到前后兩次計算的分類概率相同或達到給定的迭代次數(shù)。
[0012] 上述步驟1)中收集網(wǎng)絡評論并得到關(guān)鍵詞集合的處理流程是:首先整合網(wǎng)絡評 論,得到網(wǎng)絡評論集合:D=出1,R2…R。},其中Ri表示D中的一條評論(1《i《n),n為評 論總數(shù);根據(jù)評論Ri是否帶有標注(正常評論=0,垃圾評論=1),將集合D劃分為標注集 和目標集,前者包含有標注的網(wǎng)絡評論,后者包含沒有標注的網(wǎng)絡評論;標注集又分為正常 評論集合N和垃圾評論集合S;
[0013] 然后利用分詞技術(shù),對每一個網(wǎng)絡評論分詞;對分詞后的網(wǎng)絡評論,刪除W下內(nèi) 容:
[0014] ?!]化鏈接;
[0015] ?手機或座機號碼;
[0016] ?數(shù)字;
[0017] ?表情符號和其他特殊的網(wǎng)絡符號;
[0018] ?停用詞,包括語氣助詞、副詞、介詞、連接詞和標點符號;
[0019] 匯總所有的網(wǎng)絡評論分詞結(jié)果后,得到的關(guān)鍵詞集合記為W={Wi,W2…W,},其中S 是網(wǎng)絡評論集合D中所有不同的關(guān)鍵詞的數(shù)量,wi,聽…wj旨各個關(guān)鍵詞。
[0020]上述步驟2)中訓練語言模型計算網(wǎng)絡評論分類概率的處理流程是:首先建 立詞分布矩陣和H"xs,其中n指網(wǎng)絡評論的總數(shù),S指全部網(wǎng)絡評論中不同的關(guān) 鍵詞的數(shù)量;矩陣元素1^、>表示評論Ri中關(guān)鍵詞Wy在標注集中正常評論下的計算值 (1《i《n, 1《X《S),表示評論Ri中關(guān)鍵詞WX在標注集中垃圾評論下的計算值, 和H 的計算公式如下:
[OOWm(i,x)=tf(i,x)xtdf(n:x) (1) 陽02引H(i,x)=TF(i,x)XTDF(s:x)似 陽023] 其中表示關(guān)鍵詞Wy在評論Ri中出現(xiàn)的頻率,計算方法是:統(tǒng)計Wy在評論Ri 中出現(xiàn)的次數(shù),記為g(Ri,w、),則Ri中所有關(guān)鍵詞出現(xiàn)的總次數(shù)為化,,V*)5 種算 公式如下:
巧)
[0024] 陽0巧]TDFw:xi表示關(guān)鍵詞Wx在正常評論與垃圾評論中的分布比,TDF 表示W(wǎng)x在垃 圾評論與正常評論中的分布比,令N表示正常評論集合,S表示垃圾評論集合,了0!^^:、>和TDF&y,的計算公式分別為:
[0028]其中,f(N,Wy)表示在正常評論集合N中包含Wy的文檔數(shù)與不包含Wy的文檔數(shù) 的比值;^S,Wy)表示在垃圾評論集合S中包含Wy的文檔數(shù)與不包含Wy的文檔數(shù)的比值, f(N,Wx)和f(S,Wx)的計算公式分別為:
[0029]
[0030]
[0031] 其中常數(shù)C用來保證分子分母都不為0,C=0. 05 ;
[0032] 然后根據(jù)詞分布矩陣,計算關(guān)鍵詞的平均權(quán)重;給定關(guān)鍵詞心令U(WyJ和U(w、。) 分別表示在標注集中,Wy在垃圾評論中的算術(shù)平均值和在正常評論中的算數(shù)平均值; U(w,,i)和U(w、。)的計算公式分別為:
[003引其中%,沖是詞分布矩陣中的元素;將U(w,,i)和U(w,,。)歸一化,得到關(guān)鍵 詞Wx的相對權(quán)重V(WX, 1)和V(W、。):
[0038] 最后訓練一元語言模型,計算網(wǎng)絡評論的分類概率;對沒有標注的網(wǎng)絡評論所構(gòu) 成的目標集T=出1,R2…Rm},m代表集合T中評論的數(shù)量;對T中的每一個評論而,統(tǒng)計每 個關(guān)鍵詞Wy在R1中出現(xiàn)的次數(shù)g巧1,Wy),再根據(jù)關(guān)鍵詞Wy的相對權(quán)重,分別計算R1屬于垃 圾評論的概率化W--從和屬于正常評論的概率化化戶〇>,其中URi)指對評論Ri的標注:
[0041] 上述步驟3)中訓練Bayes分類器計算網(wǎng)絡評論分類概率的處理流程是:首先提取 每一個網(wǎng)絡評論的文檔特征,對評論Ri,統(tǒng)計W下8個文檔特征,構(gòu)成評論Ri的文檔特征向 量ni= (ni,n2...ns}: 陽0創(chuàng) ni:是否含有URL,若是ni= 1否則n1= 0 ;
[0043]n2:是否含手機號碼或座機號碼,右是n2二1否則n2二0 ; W44]ru:英文字符占總字數(shù)的比例; W45] n4:數(shù)字字符占總字數(shù)的比例;
[0046] ne:表情符號和其他網(wǎng)絡符號占總字數(shù)的比例;
[0047] ne:該評論對應的用戶發(fā)布正常評論與垃圾評論個數(shù)的比值;
[0048] n7:該評論對應的用戶的平均評論間隔(單位為秒);
[0049] n?:該評論對應的用戶的平均單日評論量;
[0050] 然后輸入標注集中所有網(wǎng)絡評論的文檔特征向量及其對應標注,訓練Bayes分類 器;接下來,對目標集T=出i,R2…Rm}中的每一個評論Ri,將其文檔特征向量提交給訓練好 的Bayes分類器,計算評論Ri是垃圾評論的概率P化町W及正常評論的概率P任郵-W。
[0051] 上述步驟4)中采用自學習策略完成網(wǎng)絡評論分類的處理流程是:首先采用加權(quán) 平均法,整合步驟2)和步驟3)計算的分類概率;計算評論Ri屬于垃圾評論的概率Pii和屬 于正常評論的概率Pe\計算公式如下:
W54] 其中A是權(quán)重,設(shè)置為A= 0. 3 ;尸化俯。蛛和所:腳咱.分別