基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子商務網(wǎng)站中用戶評論文本的垃圾評論過濾技術(shù)領(lǐng)域,尤其涉及一 種基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及和電子商務應用的迅猛發(fā)展,網(wǎng)絡中用戶評論數(shù)據(jù)呈指數(shù)級增 長。這些海量的用戶評論數(shù)據(jù)中蘊藏著大量有價值的信息,能夠帶來巨大的商業(yè)價值。
[0003] 但是,與此同時,網(wǎng)絡欺詐、刷鉆炒信等現(xiàn)象也隨之產(chǎn)生,評論數(shù)據(jù)中往往存在大 量的垃圾評論,如商家廣告、炒信評論、惡意評價等,使得用戶無法獲得商品和賣家的真實 評價,也嚴重的阻礙了信息的挖掘,甚至會導致錯誤的挖掘結(jié)果。因此,垃圾評論過濾十分 必要。
[0004] 現(xiàn)有的垃圾評論過濾技術(shù),通常是使用簡單的規(guī)則,或是利用預先定義的垃圾關(guān) 鍵詞庫來進行垃圾評論過濾的。這類方法的準確率受限于所制定的規(guī)則和所定義的垃圾關(guān) 鍵詞庫。此外,由于互聯(lián)網(wǎng)上新的評論特征詞不斷地涌現(xiàn),規(guī)則和垃圾關(guān)鍵詞庫的維護也非 常耗時。
[0005] 另外一種典型的垃圾評論過濾方法,通過分析用戶的行為,識別出撰寫垃圾評論 的用戶,進而實現(xiàn)對垃圾評論的過濾。
[0006] 但是,很多撰寫垃圾評論的用戶刻意不發(fā)表重復評論,從而避免被系統(tǒng)所識別,導 致這些用戶所發(fā)表的垃圾評論也無法被過濾出來。
[0007] 此外還有一些學者提出了基于語義相似度的垃圾評論過濾方法,即先利用規(guī)則 過濾出垃圾評論,再利用HowNet詞語相似度來擴展文本相似度,并以此識別正常評論,來 提高有效評論的識別率。但是該方法也依賴規(guī)則過濾出的垃圾評論的準確率,并且受限于 HowNet的詞語相似度計算結(jié)果。
【發(fā)明內(nèi)容】
[0008] 針對現(xiàn)有垃圾評論過濾技術(shù)的不足,本發(fā)明提出了一種基于雙向迭代和自動構(gòu)建 更新語料庫的垃圾評論過濾方法,采用非監(jiān)督式的方法,無需人工標注,因此大大降低了人 工成本,也易于擴展到新的應用領(lǐng)域。
[0009] -種基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法,包括如下步驟:
[0010] (1)獲取產(chǎn)品的評論文本以構(gòu)建語料庫,并對語料庫進行初始劃分形成垃圾評論 文本集和正常評論文本集;
[0011] (2)利用貝葉斯過濾器對所述垃圾評論文本集和正常評論文本集中的評論文本進 行垃圾評論判別,并根據(jù)垃圾評論判別結(jié)果更新垃圾評論文本集和正常評論文本集;
[0012] (3)迭代執(zhí)行步驟(2),直至相鄰兩次迭代得到的垃圾評論文本集和正常評論文 本集不再變化為止,并判定最后一次迭代得到的垃圾評論文本集中的評論文本為垃圾評論 文本。
[0013] 本發(fā)明的垃圾評論過濾方法實現(xiàn)了垃圾評論文本集和正常評論文本集的自動構(gòu) 建,對語料庫形成一個初始劃分,從而大大降低了人工標注的成本I本發(fā)明利用貝葉斯過濾 器能夠提取出之前未知的、新的垃圾評論關(guān)鍵詞,并根據(jù)少量已知的垃圾評論文本識別出 未知的、新的垃圾評論,適應當前新表達方式和網(wǎng)絡用語層出不窮的現(xiàn)狀。本發(fā)明通過迭代 的方式進行垃圾評論文本集和正常評論文本集的自動更新,使得垃圾評論的判別更加準確 尚效。
[0014] 作為優(yōu)選,所述步驟(1)中利用正則表達式對語料庫中的評論文本進行垃圾評論 判別以完成初始劃分。
[0015] 利用有限的幾條規(guī)則,實現(xiàn)了垃圾評論文本集和正常評論文本集的自動構(gòu)建,對 語料庫形成一個初始劃分,從而大大降低了人工標注的成本。
[0016] 所述步驟(2)中對正常評論文本集和垃圾評論文本集中每一條評論文本進行垃 圾評論判別時進行如下操作:
[0017] 分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗概率:
[0018] 若屬于垃圾評論文本集的類后驗概率大于或等于屬于正常評論文本集的類后驗 概率,則判定該評論文本為垃圾評論文本;
[0019] 否則,判定為正常評論文本。
[0020] 作為優(yōu)選,通過如下步驟分別計算該評論文本屬于正常評論文本集和垃圾評論文 本集的類后驗概率:
[0021] (2-1)對垃圾評論文本集進行垃圾評論關(guān)鍵詞抽取,形成垃圾評論關(guān)鍵詞詞集:
[0022] (2-21)根據(jù)垃圾評論文本集中所有評論文本構(gòu)建相應的實詞詞集;
[0023] (2-22)計算垃圾評論文本集和正常評論文本集的類先驗概率,并根據(jù)計算結(jié)果采 用信息增益方法計算實詞詞集中各個實詞的權(quán)值,并提取權(quán)值大于預設(shè)閾值的實詞作為垃 圾評論關(guān)鍵詞形成垃圾評論關(guān)鍵詞詞集。
[0024] 本發(fā)明利用如下公式計算實詞詞集中第i個實詞W1的權(quán)值n (w J :
[0026] 其中,1彡i彡nWOTd,nWOTd表示實詞詞集中實詞的總個數(shù),
[0027] j = 0或1,當j = 0時,評論文本集Cj表示垃圾評論文本集,當j = 1時,評論文 本集(^表示正常評論文本集,
[0028] 0 = 〇或1,且:
[0029] 當〇 = 0時,wf表示實詞~不出現(xiàn),表示評論文本集Cj中不出現(xiàn)實詞w ; 的評論文本條數(shù)與語料庫中評論文本條數(shù)的比值,表示語料庫中不出現(xiàn)實詞W1的評 論文本的條數(shù)與語料庫中評論文本條數(shù)的比值,
[0030] 當〇 = 1時,g表示實詞Wi出現(xiàn),)表示評論文本集Cj中出現(xiàn)實詞w ;的 評論文本條數(shù)與語料庫中評論文本條數(shù)的比值,門>_,1表示語料庫中出現(xiàn)實詞^的評論文 本條數(shù)與語料庫中評論文本條數(shù)的比值;
[0031] P(G)為評論文本集C,的類先驗概率,利用下面的公式進行計算:
[0033] 其中,|'|表示評論文本集Cj中評論文本的條數(shù),|De|表示語料庫S中評論文本 的條數(shù)。
[0034] 根據(jù)所有實詞的權(quán)值計算結(jié)果,設(shè)定合適的閾值,篩選出部分實詞作為垃圾評論 關(guān)鍵詞。作為優(yōu)選,本發(fā)明中預設(shè)閾值為〇. 04~0. 05,優(yōu)選為0. 045。
[0035] (2-2)根據(jù)垃圾評論關(guān)鍵詞詞集抽取該評論文本的特征詞,并生成相應的特征詞 序列;
[0036] (2-3)利用相應的特征詞序列分別計算該評論文本屬于垃圾評論文本集和正常評 論文本集的類后驗概率。
[0037] 所述步驟(2-3)中針對當前評論文本dx分別進行如下操作:
[0038] (2-31)利用相應的特征詞序列利用如下公式分別計算當前評論文本djl于正常 評論文本集和垃圾評論文本集的類條件概率P (dx I Cj):
[0040] 其中,j = 0或1,當j = 0時,評論文本集Cj表示垃圾評論文本集,當j = 1時, 評論文本集(^表示正常評論文本集,
[0041] n = 1,2……,N,N為特征詞序列中特征詞的個數(shù),
[0042] P (wn I Cj)表示相應的特征詞序列中關(guān)鍵詞\在垃圾評論文本集中的類條件概率, 利用如下公式進行計算:
[0044] 其中,< 表示評論文本集Cj中出現(xiàn)關(guān)鍵詞w n的評論文本條數(shù),
[0045] j' I表示評論文本集Cj中評論文本的總條數(shù);
[0046] (2-32)利用如下公式分別計算當前評論文本dx屬于垃圾評論文本集和正常評論 文本集的類后驗概率:
[0048] 其中,P (Cj I dx)表示當前評論文本4屬于評論文本集C郝類后驗概率,
[0049] P (dx)表示評論文本4的全概率,對于所有類均為常數(shù)。對于同一條評論文本d x, P(dx)不變,可以忽略不計。
[0050] 本發(fā)明中P(dx)利用如下公式進行計算:
[0052] 其中,j = 0或1,當j = 0時,評論文本集Cj表示垃圾評論文本集,當j = 1時, 評論文本集(^表示正常評論文本集,
[0053] P (Cj)為評論文本集Cj的類先驗概率:
[0055] 其中,表示評論文本集Cj中評論文本的條數(shù),|De|表示語料庫S中評論文本 的條數(shù)(即總條數(shù))。
[0056] 本方法首先人工建立若干條規(guī)則,利用正則表達式自動識別出部分垃圾評論文 本,構(gòu)建垃圾評論文本集和正常評論文本集,對語料庫形成一個初始劃分;然后采用信息增 益方法對垃圾評論文本集進行垃圾評論關(guān)鍵詞抽取,構(gòu)建垃圾評論關(guān)鍵詞詞集;接下來再 利用貝葉斯過濾器對垃圾評論文本集和正常評論文本集中的評論文本重新進行垃圾評論 判別,將垃圾評論文本集中判別為正常評論的文本加入到正常評論文本集中,將正常評論 文本集中判別為垃圾評論的文本加入到垃圾評論文本集中,不斷迭代直到垃圾評論文本集 和正常評論文本集不再變化為止;最后將得到的垃圾評論文本集中的評論判別為垃圾評 論。
[0057] 與現(xiàn)有技術(shù)相比,本發(fā)明的垃圾評論過濾方法具有如下優(yōu)點:
[0058] 利用有限的幾條規(guī)則,自動構(gòu)建出垃圾評論文本集和正常評論文本集,對語料庫 形成一個初始的劃分,從而大大降低了人工標注