專利名稱:基于語義相似度的垃圾評(píng)論過濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種垃圾評(píng)論過濾方法,具體是一種基于語義相似度的垃圾評(píng)論過濾方法。
背景技術(shù):
互聯(lián)網(wǎng)的發(fā)展與普及深刻地改變了人們的生活和思維方式,網(wǎng)絡(luò)已經(jīng)成為當(dāng)今人們獲取知識(shí)、發(fā)布信息、交流溝通的主要工具。對(duì)于當(dāng)今視頻網(wǎng)站、博客、微博、電子商務(wù)等互動(dòng)式模式的發(fā)展,使得學(xué)術(shù)界和互聯(lián)網(wǎng)企業(yè)界對(duì)于評(píng)論中信息的挖掘越來越關(guān)注。評(píng)論中蘊(yùn)含有很大的信息量,商品評(píng)論可以分析得出評(píng)論者對(duì)商品的購買表示值得還是不值得,視頻的評(píng)論可以反映觀看者對(duì)于視頻的態(tài)度或者情感表達(dá),博文的評(píng)論可以反映評(píng)論者對(duì)博文的觀點(diǎn)以及對(duì)博主的情感表達(dá)。每天大量的垃圾評(píng)論被網(wǎng)友、商家、不良分子發(fā)表,嚴(yán)重影響用戶對(duì)于評(píng)論信息的瀏覽,阻礙評(píng)論信息的挖掘,有效的評(píng)論分類可以幫助提高挖掘的正確性和準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于語義相似度的評(píng)論分類方法。
本發(fā)明方法具體包括以下步驟:
(O網(wǎng)絡(luò)爬蟲抓取視頻的標(biāo)題、標(biāo)簽、評(píng)論等文字信息。(2)對(duì)文字信息進(jìn)行中文分詞并過濾停用詞。(3)使用規(guī)則簡(jiǎn)單過濾垃圾評(píng)論。(4)以HowNet詞語相似度來擴(kuò)展文本相似度并自適應(yīng)更新主題特征向量來識(shí)別正常評(píng)論。所述的網(wǎng)絡(luò)爬蟲抓取視頻的標(biāo)題、標(biāo)簽、評(píng)論等文字信息,包括如下步驟:
A)在數(shù)據(jù)庫中建立一張表VideoInf,包含Infld、Url、Title、Tag這4個(gè)字段,其中InfId為主鍵;建立另一張表VideoCom,包含Comld, Infld, Comment這3個(gè)字段,ComId為主鍵,InfId為外鍵。B)分析視頻網(wǎng)站新聞?lì)l道首頁的源代碼,利用正則表達(dá)式獲取URL保存到隊(duì)列中。C)隊(duì)列中獲取一個(gè)URL,如果是視頻播放地址,則將源碼中對(duì)應(yīng)的標(biāo)題、標(biāo)簽存入VIdeoInf表中,將評(píng)論內(nèi)容及相應(yīng)視頻的InfId存入VideoCom表中。如果是普通頁面,重復(fù)B。所述的對(duì)文字信息進(jìn)行中文分詞并過濾停用詞,包括如下步驟:
D)用戶從VIdeoInf表中獲取一個(gè)視頻,將其的標(biāo)題、標(biāo)簽、評(píng)論使用中科院ICTCLAS進(jìn)行分詞。E)對(duì)分完詞的序列過濾停用詞。所述的使用規(guī)則簡(jiǎn)單過濾垃圾評(píng)論,包括如下步驟:F)首先對(duì)于評(píng)論中的鏈接、電話、QQ、郵箱等信息分別用WEBSITE、TELEPHONE、QQNUM、EMAIL等專有詞替換。G)分析評(píng)論語料,定義一個(gè)垃圾關(guān)鍵詞庫。計(jì)算評(píng)論中中英文字符與非規(guī)則字符
的比率B。H)若評(píng)論中多個(gè)詞在垃圾關(guān)鍵詞庫中或者比率B大于設(shè)定閾值,則認(rèn)為是垃圾評(píng)論。所述的以HowNet詞語相似度來擴(kuò)展文本相似度并自適應(yīng)更新主題特征向量來識(shí)別正常評(píng)論,包括如下步驟:
I)根據(jù)視頻的標(biāo)題、標(biāo)簽建立視頻的主題特征向量。J)根據(jù)評(píng)論建立該條評(píng)論的特征向量。K)根據(jù)HowNet詞語相似度計(jì)算主題特征向量與評(píng)論特征向量的文本相似度,如果大于設(shè)定閾值則為正常評(píng)論,加入正常評(píng)論集合N中。L)對(duì)集合N的詞語進(jìn)行統(tǒng)計(jì)詞頻,分別對(duì)每個(gè)詞進(jìn)行分析并更新主題特征詞權(quán)重,可以分為四類,分別是主題特征詞、主題特征詞的語義相關(guān)詞、高頻詞、無關(guān)詞。
M)重復(fù)執(zhí)行步驟K、L,直到步驟K)沒有正常評(píng)論可以識(shí)別則結(jié)束,而將未識(shí)別的評(píng)論定義為垃圾評(píng)論。本發(fā)明的有益效果:
第一,由于本發(fā)明設(shè)計(jì)了 k輪識(shí)別正常評(píng)論,所以能有效提高識(shí)別正常評(píng)論的正確率。第二,由于本發(fā)明設(shè)計(jì)了詞語語義相似度來計(jì)算文本相似度,所以能更有效地提高評(píng)論與主題的相似度,識(shí)別更多的正常評(píng)論。
圖1為系統(tǒng)流程 圖2為評(píng)論分類流程 圖3為主題特征詞權(quán)重更新流程具體實(shí)施例方式下面結(jié)合附圖,對(duì)本發(fā)明實(shí)現(xiàn)評(píng)論分類所采取的技術(shù)方案做進(jìn)一步說明:
1、在數(shù)據(jù)庫中建立一張表Videolnf,包含Infld、Url、Title、Tag這4個(gè)字段,其中InfId為主鍵,Url為視頻的播放地址,Title為視頻的標(biāo)題,Tag為視頻的標(biāo)簽;建立另一張表 VideoCom,包含 Comld, Infld, Comment 這 3 個(gè)字段,ComId 為主鍵,InfId 為外鍵。ComId為評(píng)論的ID, Comment為視頻的內(nèi)容。2、下面以優(yōu)酷為例,獲取優(yōu)酷視頻網(wǎng)站的新聞?lì)愐曨l信息。I)獲取抓取種子URL的源代碼,將普通頁面的URL保存到普通頁面隊(duì)列,視頻播放URL保存到文件下載隊(duì)列;
2)從普通頁面隊(duì)列中獲取一個(gè)URL,并重復(fù)I) ;3)從文件下載隊(duì)列中獲取一個(gè)URL,并獲取該頁面的源代碼,通過正則表達(dá)式獲取視頻的標(biāo)題、標(biāo)簽、評(píng)論信息,并存入Videolnf、VideoCom數(shù)據(jù)庫表中。
3、根據(jù)圖1所示,用戶從Videolnf表中獲取一個(gè)視頻,將其標(biāo)題、標(biāo)簽、評(píng)論使用中科院ICTCLAS進(jìn)行分詞并過濾停用詞,使用TF*IDF計(jì)算標(biāo)題、標(biāo)簽、評(píng)論中特征詞的權(quán)重,標(biāo)題、標(biāo)簽建立主題特征向量,評(píng)論建立評(píng)論特征向量。4、對(duì)評(píng)論中的鏈接、電話、QQ、郵箱信息分別用WEBSITE、TELEPHONE、QQNUM、EMAIL專有詞替換;分析評(píng)論語料,定義一個(gè)垃圾關(guān)鍵詞庫;計(jì)算評(píng)論中中英文字符與非規(guī)則字
符的比率η ;若評(píng)論中多個(gè)詞屬于垃圾關(guān)鍵詞庫,則認(rèn)為該條評(píng)論屬于垃圾評(píng)論。若比率α
大于設(shè)定閾值,則認(rèn)為該評(píng)論屬于垃圾評(píng)論。否則屬于未知評(píng)論。5、根據(jù)圖2、3所示,I)將步驟3中分析得到的主題特征向量、評(píng)論特征向量計(jì)算評(píng)論與主題的文本相似度。若該相似度大于設(shè)定閾值,則認(rèn)為屬于正常評(píng)論并將其放入正常評(píng)論集合,否則將該評(píng)論放入未知評(píng)論集合。2)統(tǒng)計(jì)正常評(píng)論集中特征詞的詞頻,并分析特征詞。3)特征詞分為四類,分別是主題特征詞、主題特征詞的近義詞、高頻詞、無關(guān)詞。若是主題特征詞、主題特征詞近義詞、高頻詞,則更新主題特征詞及其權(quán)重。4)重復(fù)1)、2)、
3),直到該輪沒有正常評(píng)論 可以識(shí)別則停止過濾。將未識(shí)別的評(píng)論定義為垃圾評(píng)論。
權(quán)利要求
1.基于語義相似度的垃圾評(píng)論過濾方法,通過對(duì)評(píng)論特征詞與主題特征詞的語義相似度計(jì)算擴(kuò)充評(píng)論與主題的文本相似度,來提高有效評(píng)論的識(shí)別率,其特征在于包括如下步驟: (1)網(wǎng)絡(luò)爬蟲抓取視頻的文字信息,所述的文字信息包括標(biāo)題、標(biāo)簽和評(píng)論; (2)對(duì)文字信息進(jìn)行中文分詞并過濾停用詞; (3)使用規(guī)則簡(jiǎn)單過濾垃圾評(píng)論; (4)以HowNet詞語相似度來擴(kuò)展文本相似度并自適應(yīng)更新主題特征向量來識(shí)別正常評(píng)論。
2.根據(jù)權(quán)利要求1所述的基于語義相似度的垃圾評(píng)論過濾方法,其特征是:網(wǎng)絡(luò)爬蟲抓取視頻的文字信息,包括如下步驟: A)在數(shù)據(jù)庫中建立一張表VideoInf,包含Infld、Url、Title、Tag這4個(gè)字段,其中InfId為主鍵;建立另一張表VideoCom,包含Comld, Infld, Comment這3個(gè)字段,ComId為主鍵,InfId為外鍵; B)分析視頻網(wǎng)站新聞?lì)l道首頁的源代碼,利用正則表達(dá)式獲取URL保存到隊(duì)列中; C )隊(duì)列中獲取一個(gè)U RL,如果是視頻播放地址,則將源碼中對(duì)應(yīng)的標(biāo)題、標(biāo)簽存入VIdeoInf表中,將評(píng)論內(nèi)容及相應(yīng)視頻的InfId存入VideoCom表中;如果是普通頁面,重復(fù)B)。
3.根據(jù)權(quán)利要求1所述的基于語義相似度的垃圾評(píng)論過濾方法,其特征是:對(duì)文字信息進(jìn)行中文分詞并過濾停用詞,包括如下步驟: D)用戶從VIdeoInf表中獲取一個(gè)視頻,將其標(biāo)題、標(biāo)簽、評(píng)論使用中科院ICTCLAS進(jìn)行分詞; E)對(duì)分完詞的序列過濾停用詞。
4.根據(jù)權(quán)利要求1所述的基于語義相似度的垃圾評(píng)論過濾方法,其特征是:使用規(guī)則簡(jiǎn)單過濾垃圾評(píng)論,包括如下步驟: F)首先對(duì)于評(píng)論中的鏈接、電話、QQ、郵箱信息分別用WEBSITE、TELEPHONE、QQNUM、EMAIL專有詞替換; G)分析評(píng)論語料,定義一個(gè)垃圾關(guān)鍵詞庫;計(jì)算評(píng)論中中英文字符與非規(guī)則字符的比率Cf ; H)若評(píng)論中多個(gè)詞在垃圾關(guān)鍵詞庫中或者比率α大于設(shè)定閾值,則認(rèn)為是垃圾評(píng)論。
5.根據(jù)權(quán)利要求1所述的基于語義相似度的垃圾評(píng)論過濾方法,其特征是:以HowNet詞語相似度來擴(kuò)展文本相似度并自適應(yīng)更新主題特征向量來識(shí)別正常評(píng)論,包括如下步驟: I)根據(jù)視頻的標(biāo)題、標(biāo)簽建立視頻的主題特征向量; J)根據(jù)評(píng)論建立該條評(píng)論的特征向量; K)根據(jù)HowNet詞語相似度計(jì)算主題特征向量與評(píng)論特征向量的文本相似度,如果大于某個(gè)閾值則為正常評(píng)論,加入正常評(píng)論集合N中; L)對(duì)集合N的詞語進(jìn)行統(tǒng)計(jì)詞頻,分別對(duì)每個(gè)詞進(jìn)行分析并更新主題特征詞權(quán)重,可以分為四類,分別是:主題特征詞、主題特征詞的語義相關(guān)詞、高頻詞、無關(guān)詞; M)重復(fù)執(zhí)行步驟K)、L),直 到k輪識(shí)別結(jié)束。
全文摘要
本發(fā)明涉及一種基于語義相似度的垃圾評(píng)論過濾方法?,F(xiàn)行的垃圾評(píng)論過濾都是基于規(guī)則、垃圾詞庫的匹配進(jìn)行過濾。本發(fā)明首先本發(fā)明涉及一種基于語義相似度的垃圾評(píng)論過濾方法。現(xiàn)行的垃圾評(píng)論過濾都是基于規(guī)則、垃圾詞庫的匹配進(jìn)行過濾。本發(fā)明首先使用規(guī)則簡(jiǎn)單過濾垃圾評(píng)論。其次,以HowNet詞語相似度來擴(kuò)展文本相似度并自適應(yīng)更新主題特征向量來識(shí)別正常評(píng)論。最后,以褒貶詞匯相似度計(jì)算評(píng)論情感傾向性來識(shí)別情感評(píng)論。由于本發(fā)明設(shè)計(jì)了k輪語義相似度識(shí)別正常評(píng)論,所以能更容易識(shí)別有效評(píng)論,提高識(shí)別的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK103226576SQ20131011061
公開日2013年7月31日 申請(qǐng)日期2013年4月1日 優(yōu)先權(quán)日2013年4月1日
發(fā)明者姜明, 沈幸峰, 陳嬋, 王興起, 湯景凡, 張旻 申請(qǐng)人:杭州電子科技大學(xué)