本發(fā)明涉及一種特征選擇方法,具體是一種面向詞和組合詞的垃圾短信文本特征選擇方法,屬于基于文本內(nèi)容的垃圾短信識(shí)別技術(shù)領(lǐng)域。
背景技術(shù):
常用的文本表示模型主要有兩個(gè)特點(diǎn),分別為高維度和高稀疏性。如果直接使用文本表示模型將原始文本數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),不僅會(huì)增加分類器的學(xué)習(xí)和預(yù)測的計(jì)算量,降低分類模型的訓(xùn)練和測試效率,而且會(huì)導(dǎo)致分類模型過擬合,模型方差較大,泛化能力較差,對(duì)測試樣本的預(yù)測準(zhǔn)確率不高。因此,研究人員越來越關(guān)注在不降低預(yù)測準(zhǔn)確率的前提下降低特征維度,從而提高分類模型預(yù)測性能的研究。常用特征降維方法主要有兩種:一種是特征選擇,另一種是特征提取。特征選擇方法是從原始的特征集中選取一定數(shù)目的子集,而特征提取是對(duì)原始特征集中的特征進(jìn)行組合和變換。
文檔頻率是一種簡單而又高效的特征選擇方法。yang和pedersen經(jīng)過研究發(fā)現(xiàn),文檔頻率能夠在不降低分類器分類準(zhǔn)確率的情況下,將文本表示模型的維度降低到到原來的十分之一,進(jìn)一步,即使維度降低到原來的百分之一,分類器的分類準(zhǔn)確率也不會(huì)降低很多。
除了文檔頻率之外,還有許多基于信息論或統(tǒng)計(jì)學(xué)的特征選擇方法。最為常用的主要有:信息增益(informationgain)、卡方檢驗(yàn)(chi-square)、互信息(mutualinformation)、幾率比(oddsratio)、基于模糊度量的特征選擇(ambiguitymeasure,am)、改進(jìn)的基尼指數(shù)(improvedginiindex)、基于泊松分布的度量(measureusingpoissondistribution)、基于二項(xiàng)假設(shè)檢驗(yàn)的特征選擇(bi-test)等。
文本特征選擇與擴(kuò)展是研究和建立分類模型的前提,精簡的、有區(qū)分性的特征有助于提高分類算法的性能,是分類算法性能上限的決定性因素。在文本分類中,統(tǒng)計(jì)閾值、信息增益和幾率比是常用的特征選擇方法。簡單的基于統(tǒng)計(jì)閾值的方法選擇的特征不具有區(qū)分性;由于中文文本的復(fù)雜性,簡單的基于分詞結(jié)果選擇特征可能并不可靠;組合詞特征往往能更準(zhǔn)確地描述垃圾短信所特有的信息;短信文本長度具有一定的區(qū)分性;傳統(tǒng)的基于幾率比的方法沒有考慮某種類別下特征詞的0概率現(xiàn)象所帶來的幾率比不可計(jì)算問題;基于統(tǒng)計(jì)閾值、信息增益和幾率比的方法在閾值設(shè)定上比較困難。本發(fā)明針對(duì)這些問題提出解決方法和改進(jìn),并提出基于rf和lr的特征選擇算法。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:短信文本預(yù)處理是選擇短信文本特征項(xiàng)的基礎(chǔ),預(yù)處理結(jié)果的好壞將直接影響特征選擇與擴(kuò)展的有效性和準(zhǔn)確性,本發(fā)明針對(duì)現(xiàn)有的垃圾短信分類問題中短信文本預(yù)處理的不足,使用一種較為完善的預(yù)處理方法。
技術(shù)方案:一種面向詞和組合詞的垃圾短信文本特征選擇方法,包括以下六個(gè)方面:
(1)短信文本預(yù)處理,主要的預(yù)處理內(nèi)容包括:分詞、短信文本統(tǒng)一轉(zhuǎn)簡體表述、號(hào)碼等脫敏字符串轉(zhuǎn)單字符、去除停用詞;
(2)基于統(tǒng)計(jì)閾值和平均信息增益的頻繁詞特征選擇,其中統(tǒng)計(jì)閾值衡量特征詞在垃圾短信中出現(xiàn)的高頻性,信息增益體現(xiàn)特征詞對(duì)短信的區(qū)分能力。閾值是可調(diào)參數(shù),根據(jù)閾值選擇頻繁詞作為特征詞集,根據(jù)特征詞集的平均信息增益變化情況決定是否繼續(xù)調(diào)整閾值;
(3)基于n-gram算法的雙字詞和組合詞特征選擇,基于n-gram算法產(chǎn)生文字片斷序列,根據(jù)步驟(2)得到的最優(yōu)統(tǒng)計(jì)閾值過濾掉非頻繁序列,將剩余的序列構(gòu)建關(guān)聯(lián)矩陣,矩陣元素為對(duì)應(yīng)行列組合序列在垃圾短信文本中的出現(xiàn)頻度,根據(jù)一定的標(biāo)準(zhǔn)篩選組合文字序列;
(4)非修飾性實(shí)詞組合成元組特征,遍歷所有的垃圾短信文本尋找名詞+動(dòng)詞\形容詞組合,根據(jù)一定的標(biāo)準(zhǔn)對(duì)所得元組特征進(jìn)行篩選;
(5)基于累積信息增益的特征選擇,對(duì)由以上步驟得到的詞和組合詞特征的合并結(jié)果,選擇累積信息增益達(dá)到原始特征詞信息增益總和的95%的特征詞,進(jìn)而構(gòu)建特征詞向量;
(6)基于垃圾短信分類評(píng)價(jià)指標(biāo)的特征工程優(yōu)化,提出一種面向垃圾短息分類的評(píng)價(jià)指標(biāo),基于評(píng)價(jià)指標(biāo)對(duì)特征工程進(jìn)行優(yōu)化,主要包括加入信息量特征、基于改進(jìn)幾率比的特征選擇、基于隨機(jī)森林和邏輯回歸的特征選擇。
所述內(nèi)容(1)短信文本預(yù)處理,主要的預(yù)處理內(nèi)容包括:分詞、短信文本統(tǒng)一轉(zhuǎn)簡體表述、號(hào)碼等脫敏字符串轉(zhuǎn)單字符、去除停用詞,具體為:
(1.1)使用ansj對(duì)短信文本分詞,保留詞性標(biāo)注;
(1.2)短信文本統(tǒng)一轉(zhuǎn)簡體表述、號(hào)碼等脫敏字符串轉(zhuǎn)單字符;
(1.3)根據(jù)停用詞表去除停用詞。
所述內(nèi)容(2)基于統(tǒng)計(jì)閾值和平均信息增益的頻繁詞特征選擇,其中統(tǒng)計(jì)閾值衡量特征詞在垃圾短信中出現(xiàn)的高頻性,信息增益體現(xiàn)特征詞對(duì)短信的區(qū)分能力。閾值是可調(diào)參數(shù),根據(jù)閾值選擇頻繁詞作為特征詞集,根據(jù)特征詞集的平均信息增益變化情況決定是否繼續(xù)調(diào)整閾值,具體為:
(2.1)初始化閾值為150;
(2.2)掃面垃圾短信文本分詞結(jié)果集,統(tǒng)計(jì)每條短信中每個(gè)詞在垃圾短信文本中出現(xiàn)的次數(shù),刪掉那些次數(shù)小于當(dāng)前閾值的詞語,得到頻繁詞作為當(dāng)前特征詞集;
(2.3)計(jì)算當(dāng)前特征詞集中特征詞的平均信息增益;
(2.4)以步長50增大閾值,重復(fù)(2.2)和(2.3),直到平均信息增益增長趨緩或者下降甚至為負(fù)為止。
所述內(nèi)容(3)基于n-gram算法的雙字詞和組合詞特征選擇,基于n-gram算法產(chǎn)生文字片斷序列,根據(jù)步驟(2)得到的最優(yōu)統(tǒng)計(jì)閾值過濾掉非頻繁序列,將剩余的序列構(gòu)建關(guān)聯(lián)矩陣,矩陣元素為對(duì)應(yīng)行列組合序列在垃圾短信文本中的出現(xiàn)頻度,根據(jù)一定的標(biāo)準(zhǔn)篩選組合文字序列,具體為:
(3.1)在原始垃圾短信文本上運(yùn)行4-gram算法,產(chǎn)生所有長度為2的文字片斷序列;
(3.2)預(yù)過濾,統(tǒng)計(jì)所有文字片斷序列的頻度,根據(jù)頻度閾值400刪除頻度小于該閾值的文字片斷序列;
(3.3)將剩余的文字片斷序列構(gòu)建關(guān)聯(lián)矩陣,矩陣中每個(gè)元素是對(duì)應(yīng)行列組合文字序列的頻度;
(3.4)根據(jù)關(guān)聯(lián)矩陣中元素的值篩選組合文字序列,如果大于0.6×max(countofgramrow,countofgramcol)(countofgramrow和countofgramcol分別為行列文字片斷序列的頻度),則保留該組合文字序列。
(3.5)最后,刪除參與合并的文字片斷序列。
所述內(nèi)容(4)非修飾性實(shí)詞組合成元組特征,遍歷所有的垃圾短信文本尋找名詞+動(dòng)詞\形容詞組合,根據(jù)一定的標(biāo)準(zhǔn)對(duì)所得元組特征進(jìn)行篩選,具體為:在使用ansj進(jìn)行分詞時(shí),保留了詞性標(biāo)注,遍歷所有的垃圾短信文本尋找滿足上述條件的元組特征,根據(jù)0.6×max(名詞,動(dòng)詞或者形容詞)的閾值進(jìn)行篩選。
所述內(nèi)容(5)基于累積信息增益的特征選擇,對(duì)由以上步驟得到的詞和組合詞特征的合并結(jié)果,選擇累積信息增益達(dá)到原始特征詞信息增益總和的95%的特征詞,進(jìn)而構(gòu)建特征詞向量,具體為:
(5.1)計(jì)算所有特征的信息增益g(d,ai),i=1,2,3,…m,共m個(gè)特征,d為訓(xùn)練集,ai為第i個(gè)特征詞,如果某個(gè)特征的信息增益為負(fù),則刪除該特征,并且不參與累加求和,否則累加到信息增益和sumofig中;
(5.2)將剩余特征按照信息增益倒序排列,從大到小累加當(dāng)前特征的信息增益直至和達(dá)到0.95×sumofig為止;
(5.3)選取參與累加的特征為最終的特征選擇結(jié)果。
所述內(nèi)容(6)基于垃圾短信分類評(píng)價(jià)指標(biāo)的特征工程優(yōu)化,提出一種面向垃圾短息分類的評(píng)價(jià)指標(biāo),基于評(píng)價(jià)指標(biāo)對(duì)特征工程進(jìn)行優(yōu)化,包括加入信息量特征、基于改進(jìn)幾率比的特征選擇、基于隨機(jī)森林和邏輯回歸的特征選擇,具體為:
(6.1)提出面向垃圾短信分類的評(píng)價(jià)指標(biāo),包括準(zhǔn)確率accuracy、正確率
(6.2)加入基于文本長度的信息量特征
(6.3)基于改進(jìn)幾率比做特征選擇,幾率比計(jì)算公式為:
(6.4)基于隨機(jī)森林和邏輯回歸做特征選擇,分別基于隨機(jī)森林和邏輯回歸做特征選擇,使用增量式學(xué)習(xí)算法online-lr作分類,分析比較各項(xiàng)指標(biāo),決定采用何種特征選擇方法。
本發(fā)明采用上述技術(shù)方案,具有以下有益效果:
1.文本預(yù)處理一方面提高了特征選擇的準(zhǔn)確性和有效性,另一方面,避免了重要信息的丟失;
2.基于統(tǒng)計(jì)閾值和平均信息增益的特征選擇方法所選擇的特征較簡單基于統(tǒng)計(jì)閾值的方法更具有區(qū)分性;
3.使用基于n-gram算法的雙字詞和組合詞特征選擇以及把非修飾性實(shí)詞組合成元組特征的方法,有效避免了僅僅基于分詞結(jié)果進(jìn)行特征選擇的信息損失,并且所選擇的組合詞特征更準(zhǔn)確地描述了垃圾短信所特有的信息;
4.平均信息增益不能代表所有的特征詞,提出基于累計(jì)信息增益對(duì)以上所選特征詞的合并結(jié)果做進(jìn)一步選擇,該方法克服了基于信息增益閾值設(shè)定較為困難的問題;
5.加入基于文本長度的信息量特征,提高了分類性能,提出改進(jìn)幾率比的特征選擇算法,解決了幾率比在特征0概率情況下的不可計(jì)算問題,提出基于rf和lr的特征選擇算法,實(shí)現(xiàn)了對(duì)特征的有效降維。
附圖說明
圖1為特征詞平均信息增益和維度關(guān)于頻度閾值結(jié)果圖,(a)為特征詞維度關(guān)于頻度閾值折現(xiàn)圖,(b)平均信息增益大于頻度閾值折線圖;
圖2為非修飾性實(shí)詞組合成元組特征示例;
圖3為原始特征的信息增益和刪除負(fù)信息增益后信息增益降序排列圖,(a)為原始所有特征信息增益圖,(b)為刪除負(fù)信息增益特征后信息增益降序排列圖;
圖4為online-lr信息量特征權(quán)重關(guān)于迭代次數(shù)變化折線圖;
圖5為原始特征詞幾率比分析圖,(a)為原始特征詞幾率比圖,(b)原始特征詞絕對(duì)幾率比圖,(c)原始特征詞絕對(duì)幾率比降序排列圖;
圖6為基于rf的特征重要性分布圖,(a)基于rf的特征重要性分布圖,(b)基于rf的特征重要性降序排列圖;
圖7為online-lr的絕對(duì)特征權(quán)重和rf的特征重要性對(duì)比圖,(a)基于rf的特征重要性圖,(b)基于online-lr的絕對(duì)特征權(quán)重圖,(c)基于rf的特征重要性降序排列圖,(d)基于online-lr的絕對(duì)特征權(quán)重降序排列圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
(1)短信文本預(yù)處理
對(duì)于文本分類問題,文本預(yù)處理是分類的基礎(chǔ),預(yù)處理是否完善將直接影響分類的性能。文本預(yù)處理主要包括的內(nèi)容有:文本分詞、詞性標(biāo)注、特殊符號(hào)的處理、去除停用詞等。對(duì)于中文文本,由于詞語與詞語之間沒有空格等明顯的切分標(biāo)識(shí),直到句子這個(gè)語言單位才有標(biāo)點(diǎn)符號(hào)作為分隔,因此需要分詞。
本發(fā)明所采用的分詞工具是ansj分詞器,使用該分詞器的原因是ansj中文分詞是一個(gè)主要應(yīng)用于自然語言處理、高精度的中文分詞工具,支持用戶自定義詞典的補(bǔ)充和詞性標(biāo)注,本發(fā)明獲取的詞特征和組合詞特征都會(huì)加入到自定義詞典中以使得對(duì)未來短信文本的分詞有更好的針對(duì)性和準(zhǔn)確性,并且本發(fā)明采用的字節(jié)級(jí)n元文法特征選擇需要詞性標(biāo)注結(jié)果。使用ansj對(duì)短信文本分詞示例如表1所示:
表1短信文本分詞結(jié)果示例
分析表1中短信原文和分詞結(jié)果可知:分詞結(jié)果和詞性標(biāo)注都較為準(zhǔn)確,這個(gè)短信之所以為垃圾短信,是因?yàn)榇嬖趶V告信息,主要體現(xiàn)在“開始火熱招生”和“歡迎前來報(bào)名”這些詞匯上。“火熱”、“招生”、“前來”、“報(bào)名”這些詞語單獨(dú)出現(xiàn)不具有垃圾短信的代表性,但是組合詞“火熱招生”、“前來報(bào)名”卻攜帶了垃圾短信所特有的重要信息。將這些組合詞加入詞典用于分詞,可以提高詞特征選擇的準(zhǔn)確性和有效性,挖掘這些詞和組合詞特征就是接下來特征選擇及擴(kuò)展所要研究的工作。
同時(shí),從分詞結(jié)果可見有許多停用詞,這些詞所包含的信息很少,對(duì)短信不具有區(qū)分性,例如“的”、“里”、“開始”等等,需要對(duì)停用詞進(jìn)行過濾。除了停用詞,短信文本還包含中文和英文,簡體和繁體形式,以及特殊字符等??紤]到短信特定的不規(guī)則表達(dá)在很大程度上是識(shí)別垃圾短信一個(gè)重要的特征,所以勿過分清洗,草率地清洗數(shù)據(jù)很可能導(dǎo)致重要信息的丟失,因此本發(fā)明主要的預(yù)處理內(nèi)容包括:短信文本統(tǒng)一轉(zhuǎn)簡體表述、號(hào)碼等脫敏字符串轉(zhuǎn)單字符、去除停用詞。短信文本清洗示例如表2所示:
表2短信文本清洗示例
分析表2可知:原始短信實(shí)例的文本中存在英文字母(如數(shù)字表示中將“0”寫成“o”)、繁體字、特殊字符(如“x”的含義為“某”)、停用詞,其中需要注意的是:“·”是特殊字符,夾雜在詞語中間,會(huì)對(duì)分詞產(chǎn)生影響,在分詞時(shí)可以先將其去除,但是它作為特殊字符含有垃圾短信識(shí)別的重要信息,所以不能清洗,應(yīng)將其追加到文本字符中(只追加一次)。
(2)基于統(tǒng)計(jì)閾值和平均信息增益的頻繁詞特征選擇
針對(duì)簡單的基于統(tǒng)計(jì)閾值的方法選擇的特征不具有區(qū)分性提出基于統(tǒng)計(jì)閾值和平均信息增益的頻繁詞特征選擇方法,在該方法中,閾值是可調(diào)參數(shù),如何設(shè)置該參數(shù)是需要解決的問題,閾值設(shè)置得太大,挖掘的特征詞過少,會(huì)損失很重要的信息,進(jìn)而會(huì)降低分類準(zhǔn)確率,閾值設(shè)置得太小,又會(huì)導(dǎo)致特征維度過大,分類模型容易過擬合并且增加模型訓(xùn)練的時(shí)空開銷,本發(fā)明提出的解決方案是基于統(tǒng)計(jì)閾值和平均信息增益相結(jié)合的方法。具體步驟為:
(2.1)初始化閾值為150;
(2.2)掃描垃圾短信文本分詞結(jié)果集,統(tǒng)計(jì)每條短信中每個(gè)詞在垃圾短信文本中出現(xiàn)的次數(shù),刪掉那些次數(shù)小于當(dāng)前閾值的詞語,得到頻繁詞作為當(dāng)前特征詞集;
(2.3)計(jì)算當(dāng)前特征詞集中特征詞的平均信息增益;
(2.4)以步長50增大閾值,重復(fù)(2.2)和(2.3),直到平均信息增益增長趨緩或者下降甚至為負(fù)為止。
使用該方法選擇頻繁詞特征,平均信息增益和特征詞數(shù)目關(guān)于閾值的圖表如圖1和表3所示:
表3特征詞平均信息增益和維度關(guān)于頻度閾值結(jié)果表
分析表3和圖1可知:當(dāng)頻度閾值較小時(shí),特征詞維度很大(1365),此時(shí)平均信息增益為正,并且在頻度閾值小于等于400的時(shí)候,隨著頻度閾值的增大平均信息增益也在增大,但是當(dāng)頻度閾值達(dá)到450開始,平均信息增益變成了負(fù)值。這說明基于閾值的垃圾短信特征詞挖掘在閾值為400時(shí),所選取的特征詞對(duì)短信識(shí)別能力最強(qiáng),這些特征詞在正常短信中出現(xiàn),但總體還是有作用于短信分類的。但是當(dāng)頻度閾值達(dá)到450時(shí),平均情況下,所選擇的特征詞反而起“副作用”,即基于這些詞對(duì)短信文本進(jìn)行劃分之后數(shù)據(jù)集的不確定性反而有所增大,這是因?yàn)殡m然這些詞在垃圾短信中頻繁出現(xiàn),但其中的一部分在正常短信中也以較高的頻率出現(xiàn),事實(shí)上,這些詞語屬于通用詞匯,沒有攜帶垃圾短信的特有信息。頻度閾值設(shè)置得越大,所選擇的特征詞中這些通用詞語的占比越大,因?yàn)橛行┰~語總是以較高的頻率同時(shí)出現(xiàn)在垃圾短信和正常短信中的。同時(shí),在頻度閾值設(shè)置為400時(shí),特征詞數(shù)目為615,這樣的特征維度是較好的。另外,從圖1中第一幅圖可見特征詞數(shù)目隨著頻度閾值的增大下降趨緩,這說明總有幾乎確定數(shù)目的詞語頻繁的出現(xiàn)在垃圾短信中,這些詞語,要么是極大攜帶垃圾短信色彩的詞語,要么是通用詞語。從頻度閾值為700的特征詞中,可以發(fā)現(xiàn)這個(gè)事實(shí)。從以上的分析可見,僅僅基于分詞和信息增益挖掘頻繁詞是不夠的,還需要使用其他特征選擇方法,挖掘更有區(qū)分性的詞和組合詞特征。
(3)基于n-gram算法的雙字詞和組合詞特征選擇
使用ansj分詞結(jié)果進(jìn)行頻繁詞特征選擇。但是由于中文文本中字詞分隔不明顯,詞序和語序的自由度比較高,并且歧義較多,因此分詞技術(shù)存在一定的誤差,而基于統(tǒng)計(jì)學(xué)的n-gram算法就繞過了分詞的障礙,具有很高的實(shí)用性,再則,為更準(zhǔn)確地描述垃圾短信文本特征,還需要合并特征詞。因此本發(fā)明使用基于n-gram算法的雙字詞特征與組合詞特征選擇方法作為補(bǔ)充。
n-gram算法的基本思想是:n-gram是將文本按字節(jié)流進(jìn)行大小為n的滑動(dòng)窗口操作,產(chǎn)生長度為n的字節(jié)片段序列,每個(gè)字節(jié)片斷序列成為gram,然后對(duì)全部gram統(tǒng)計(jì)出現(xiàn)頻度,并設(shè)定閾值進(jìn)行過濾,形成頻繁gram列表,該列表中的所有g(shù)ram即可作為原始文本數(shù)據(jù)的特征向量空間。n-gram算法的優(yōu)點(diǎn)有:(1)與語種無關(guān),可以同時(shí)處理中英文和簡繁體;(2)不需要對(duì)文本內(nèi)容做語言學(xué)處理。
根據(jù)語言學(xué)統(tǒng)計(jì),約70%的中文詞語是雙字詞,并且雙字詞具有更好的區(qū)分性,因此在進(jìn)行中文文本分解中,大多采用雙字詞,由于中文一個(gè)漢字兩個(gè)字節(jié),因此取n=4。
在垃圾短信文本中,往往多字詞才是短信文本的核心特征,選擇這些組合詞特征有助于較大程度地提高分類性能。因此,本發(fā)明基于n-gram算法選擇雙字詞特征和組合雙字詞特征,具體步驟如下:
(3.1)在原始垃圾短信文本上運(yùn)行4-gram算法,產(chǎn)生所有長度為2的文字片斷序列;
(3.2)預(yù)過濾,統(tǒng)計(jì)所有文字片斷序列的頻度,受到步驟2的啟發(fā),根據(jù)頻度閾值400刪除頻度小于該閾值的文字片斷序列;
(3.3)將剩余的文字片斷序列構(gòu)建關(guān)聯(lián)矩陣,矩陣中每個(gè)元素是對(duì)應(yīng)行列組合文字序列的頻度;
(3.4)根據(jù)關(guān)聯(lián)矩陣中元素的值篩選組合文字序列,如果大于0.6×max(countofgramrow,countofgramcol)(countofgramrow和countofgramcol分別為行列文字片斷序列的頻度),則保留該組合文字序列。
(3.5)最后,刪除參與合并的文字片斷序列。
基于該方法得到雙字詞和組合詞特征,組合前后雙字詞和組合詞特征分布及特征平均信息增益如表4所示:
表4基于n-gram算法選擇雙字詞和組合詞特征結(jié)果表
從實(shí)驗(yàn)結(jié)果來看,該方法通過合并雙字特征詞所產(chǎn)生的組合詞特征很好描述了垃圾短信所特有的信息,最終構(gòu)建的特征詞集的平均信息增益相對(duì)于組合之前明顯提高,可見基于該方法的特征選擇能夠在一定程度上提高特征對(duì)垃圾短信的區(qū)分能力。將步驟2和3的詞特征進(jìn)行合并,最終維度為:1368,平均信息增益為:2.3521×10-3,加入基于分詞的頻繁詞特征反而使得平均信息增益有所提高,既不損失信息量,又加入組合詞特征增強(qiáng)了特征對(duì)數(shù)據(jù)的區(qū)分性,這就證明兩者的互補(bǔ)關(guān)系。
(4)非修飾性實(shí)詞組合成元組特征
詞組合特征能夠有效地過濾掉垃圾短信文本中的冗余信息,從中提取穩(wěn)定的組合詞,這些組合詞能夠更為準(zhǔn)確的描述文本特征,并且使用詞組合特征可以有效地降低特征詞向量的維度。分詞和n-gram只能得到連續(xù)的文字片斷序列,經(jīng)研究發(fā)現(xiàn)非修飾性實(shí)詞組合成元組特征有時(shí)也具有較好的區(qū)分性,如圖2,使用這些元組特征可以避免中間詞語的干擾,這也是垃圾短信的慣用手段。
step1:非修飾性實(shí)詞組合成元組特征(名詞+動(dòng)詞\形容詞);
step2:轉(zhuǎn)換成正則表達(dá)式模板,用于特征匹配。
在使用ansj進(jìn)行分詞時(shí),保留了詞性標(biāo)注,遍歷所有的垃圾短信文本尋找滿足上述條件的元組特征,根據(jù)0.6×max(名詞,動(dòng)詞或者形容詞)的閾值進(jìn)行篩選,共64個(gè),將這些特征加入到由以上兩節(jié)得到的特征詞集中計(jì)算平均信息增益,分別為:2.3521×10-3和2.4017×10-3??梢?,平均信息增益有所提高,進(jìn)而證明該類元組特征的有效性。
(5)基于累積信息增益的特征選擇
對(duì)由以上步驟得到的詞和組合詞特征的合并結(jié)果進(jìn)行基于累積信息增益的特征選擇,進(jìn)而構(gòu)建特征詞向量。
以上步驟得到的特征詞的數(shù)目有1432個(gè),由于只是根據(jù)統(tǒng)計(jì)閾值和平均信息增益得到的,是否都對(duì)垃圾短信分類有貢獻(xiàn)取決于每個(gè)特征詞各自的信息增益。首先需要?jiǎng)h除的就是那些信息增益為負(fù)的特征,經(jīng)過篩選,共有388個(gè)特征詞的信息增益為負(fù)值,這里選取信息增益為負(fù)且最小的10個(gè)非特殊符號(hào)特征詞列表如表5所示:
表5信息增益為負(fù)且最小的10個(gè)非特殊符號(hào)特征詞列表
分析表5可知,這些詞語是非常通用的詞匯,使用這些特征詞對(duì)數(shù)據(jù)集進(jìn)行劃分,結(jié)果集的不確定性有增無減。這些詞語反而會(huì)干擾分類器的正確分類,所以應(yīng)該刪除。刪除之后還剩1044個(gè)特征,按照累計(jì)信息增益做特征選擇的思想,所有特征的信息增益圖和刪除負(fù)信息增益后信息增益降序排列圖如圖3所示。分析圖3的第一幅圖可知:特征詞中有一定數(shù)量的特征詞信息增益很大,大部分特征詞的信息增益在0~0.05之間均勻分布,這說明基于以上幾節(jié)所選擇特征詞的合理性。其次,從第二幅圖可見,信息增益下降的還是比較快的,下降到第300個(gè)特征時(shí),信息增益幾近于0,由此可見,需要做特征降維,一方面幾乎不會(huì)損失有用信息,另一方面可以提高分類算法的執(zhí)行速度。下面給出最終特征詞集中信息增益排名前10的非特殊符號(hào)特征詞表:
表6信息增益排名前10的非特殊符號(hào)特征詞表
顯然,這些詞語準(zhǔn)確的描述了一些垃圾短信所特有的信息,廣告和推廣等等。最后,通過累計(jì)信息增益選擇特征之后特征詞數(shù)目為827,有效的實(shí)現(xiàn)了降維,并且保留了原始特征信息增益總量的95%。
(6)基于垃圾短信分類評(píng)價(jià)指標(biāo)的特征工程優(yōu)化
(6.1)加入信息量特征
正常短信通常位于一定長度范圍內(nèi),既不會(huì)太長也不會(huì)太短:
其中,l代表文本長度,k為調(diào)節(jié)因子,b為信息量平衡滑子。為了避免過長短信和過短短信的文本越短的影響,k取所有短信文本的平均長度,隨機(jī)選擇訓(xùn)練子集,使用交叉驗(yàn)證的方法得到參數(shù)b的最優(yōu)值為0.3。模糊性越大,特征缺失嚴(yán)重,文本長度特征相對(duì)重要。
由于文本長度信息量為新加入的特征,如果直接初始化權(quán)重為1,而其他特征的權(quán)重經(jīng)過若干次迭代學(xué)習(xí)之后已經(jīng)趨于穩(wěn)定和具備區(qū)分性,相當(dāng)于在未知的情況下,就直接認(rèn)為該特征很重要,是不合理的,應(yīng)該初始化為0,相當(dāng)于從無到有增量式學(xué)習(xí)該特征的系數(shù)。實(shí)驗(yàn)表明,如果直接賦初值為1,迭代一次之后對(duì)測試數(shù)據(jù)集的準(zhǔn)確率僅為14.29%。
表7online-lr加入信息量特征分類結(jié)果
由表7可見,加入這個(gè)特征之后,accuracy提高了約0.1%,對(duì)于14w條測試數(shù)據(jù)集來說,分類器分類正確的實(shí)例數(shù)目增加了140條左右。再則增加的是precision這項(xiàng)指標(biāo),對(duì)于垃圾短信分類的場景,即識(shí)別為垃圾短信的短信中真正為垃圾短信的比例提高了。由于recall在減小,因此可以得出產(chǎn)生上述結(jié)果的原因正是越來越多的垃圾短信被識(shí)別為正常短信。信息量特征權(quán)值變化曲線如圖4所示。分析圖4可知,文本長度特征的系數(shù)絕對(duì)值在不斷變大。使用rf計(jì)算該特征的重要性為:0.1066,排名第2。
(6.2)基于改進(jìn)幾率比做特征選擇
在幾率比公式中:
若p(tk|pos)或者p(tk|neg)其中有一個(gè)等于0,該式不可計(jì)算。針對(duì)此問題,本文提出的改進(jìn)方法是在計(jì)算概率的時(shí)分子加1,即:
當(dāng)wordi在垃圾短信和正常短信中以接近的頻率出現(xiàn)時(shí),wordi的幾率比近似為0,wordi對(duì)短信不具有區(qū)分性,而那些只在某一類短信中頻繁出現(xiàn)的詞語,它們的絕對(duì)幾率比較大,這些詞語對(duì)短信分類的貢獻(xiàn)才較大,因此本文使用改進(jìn)的絕對(duì)幾率比對(duì)特征進(jìn)行選擇,絕對(duì)幾率比越大,區(qū)分性越好,絕對(duì)值越趨近于0,該特征詞越應(yīng)該舍棄。當(dāng)前特征詞幾率比分布如圖5所示。
由于所選特征詞最初是基于垃圾短信文本的頻繁詞挖掘,所以幾率比中負(fù)的值較少,分析第一幅圖可知,大部分幾率比值均勻地分布在0~10之間,說明所選特征詞大都具備區(qū)分能力,最后一幅圖降序排列之后,也是緩慢的趨近于0,又充分說明了這一點(diǎn)。當(dāng)然,存在一部分特征的幾率比在接近于0,本文并沒有尋則一個(gè)閾值去過濾特征,而是通過對(duì)絕對(duì)幾率比求和,然后選擇特征并累積它們的絕對(duì)幾率比和直到達(dá)到原始總和的95%。
基于改進(jìn)幾率比進(jìn)行特征選擇之后,特征的維度為784,其中,按照絕對(duì)幾率比排名前十的特征詞如表8所示:
表8絕對(duì)幾率比最大的10個(gè)非特殊符號(hào)特征詞列表
在上述特征詞集的基礎(chǔ)上構(gòu)造特征詞向量,用于將原始數(shù)據(jù)文本集向量化表示,再使用online-lr增量式迭代學(xué)習(xí),得到識(shí)別結(jié)果如表9所示:
表9online-lr基于改進(jìn)幾率比特征選擇之后的分類結(jié)果
分析表9可知,使用基于絕對(duì)幾率比做特征選擇之后,模型充分訓(xùn)練之后,識(shí)別結(jié)果中準(zhǔn)確率accuracy等指標(biāo)較于之前又有所提高,說明模型的泛化能力增強(qiáng),并且,在精度提高的同時(shí),模型平均訓(xùn)練時(shí)間也較少了約20秒,平均測試時(shí)間也有所較少,在實(shí)時(shí)預(yù)測中,面對(duì)大規(guī)模數(shù)據(jù)集,這意味著時(shí)間性能的提高,因?yàn)楫吘褂?jì)算量減小了。
(6.3)基于隨機(jī)森林和邏輯回歸做特征選擇
隨機(jī)森林是一種集成學(xué)習(xí)算法,它使用隨機(jī)重采樣技術(shù)和節(jié)點(diǎn)隨機(jī)分裂技術(shù)構(gòu)造多棵決策樹,預(yù)測時(shí)采用多數(shù)表決的方式綜合每一棵決策樹的預(yù)測結(jié)果。隨機(jī)森林能夠分析具有復(fù)雜相互作用的特征,對(duì)特征噪聲數(shù)據(jù)和缺失值不敏感,同時(shí)訓(xùn)練時(shí)間復(fù)雜度較低。隨機(jī)森林最終的分類模型中還包含特征重要性值features_importances,可以用于做特征選擇,近來,基于rf的特征選擇方法廣泛用于各種分類、預(yù)測當(dāng)中。
在加入信息量特征和基于改進(jìn)幾率比做特征選擇之后重構(gòu)數(shù)據(jù)集,訓(xùn)練rf分類器,對(duì)測試集進(jìn)行預(yù)測,結(jié)果如表10所示:
表10rf分類結(jié)果
對(duì)feature_importances作圖,觀察各個(gè)特征的重要性分布,然后對(duì)feature_importances降序排列,作圖如6所示。
分析圖6可知,特征詞向量中絕大部分的特征的重要性在處于區(qū)間[0,0.05]內(nèi),其中還有一定量的特征重要性值為0,這些特征可以刪除。當(dāng)然,有些特征的重要性很大,這些特征詞或特征量對(duì)短信識(shí)別的作用也較大。
對(duì)feature_importances降序排列,選擇前10個(gè)非特殊符號(hào)特征詞及其重要性值列表11:
表11基于rf的重要性最大的10個(gè)非特殊符號(hào)特征詞表
易見這些特征詞均為垃圾短信中最頻繁出現(xiàn)的詞語。本文提出基于隨機(jī)森林的特征選擇算法,該算法的基本思想是:把隨機(jī)森林的分類準(zhǔn)確率作為特征可分性的判斷依據(jù),基于隨機(jī)森林分類模型中特征重要性值對(duì)特征進(jìn)行降序排列,每次刪除特征重要性最小的特征,逐次迭代,直到分類準(zhǔn)確率不再提高為止。本文在計(jì)算分類準(zhǔn)確率時(shí)采用n折交叉驗(yàn)證,即隨機(jī)地把數(shù)據(jù)平均分成n等份,每個(gè)數(shù)據(jù)子集互不相交,把其中n-1份作為訓(xùn)練集,剩余一份作為測試集,計(jì)算n個(gè)測試集的平均分類準(zhǔn)確率,如果平均分類準(zhǔn)確率下降或者提高小于一定的閾值,就停止迭代。
lr在訓(xùn)練過程中對(duì)特征系數(shù)的求解本身就是一種對(duì)特征的選擇過程,即只有對(duì)目標(biāo)變量的貢獻(xiàn)率達(dá)到一定程度的特征才會(huì)對(duì)回歸模型具有較大的影響,對(duì)目標(biāo)變量貢獻(xiàn)很小或者沒有貢獻(xiàn)的特征可以直接刪除。對(duì)online-lr模型訓(xùn)練所得到的當(dāng)前最優(yōu)特征權(quán)重系數(shù)進(jìn)行分析,圖7是與rf特征重要性的對(duì)比圖。
分析圖7可知,特征權(quán)重和重要性分布的非常相似,也是在0附近呈現(xiàn)帶狀分布,主要集中在區(qū)間[0,1]中,幾乎相同的特征具有較大的絕對(duì)權(quán)重和重要性。特征絕對(duì)權(quán)重經(jīng)過降序排列之后,下降的較為緩慢一些,說明增量式學(xué)習(xí)算法online-lr模型學(xué)習(xí)得比離線rf模型更為充分,結(jié)果更可靠。對(duì)絕對(duì)權(quán)重降序排列,選擇前18個(gè)非特殊符號(hào)特征詞及其權(quán)值列表12:
表12基于lr的絕對(duì)權(quán)值最大的18個(gè)非特殊符號(hào)特征詞表
排名前18的權(quán)重系數(shù)全部為正值,針對(duì)的應(yīng)該是一類短信區(qū)分性較大,根據(jù)詞語語義分析,推斷為垃圾短信。
lr模型偏差衡量模型對(duì)訓(xùn)練數(shù)據(jù)集的擬合程度,刪除一個(gè)特征,偏差值減小,表明模型擬合程度變好,當(dāng)前特征越不重要。本文提出基于邏輯回歸的特征選擇算法,其基本思想是:對(duì)于所有特征,比較刪除該特征前后模型訓(xùn)練結(jié)果的偏差值,如果減小,則刪除該特征并且重構(gòu)數(shù)據(jù)集。
使用基于隨機(jī)森林的特征選擇算法作特征選擇,經(jīng)實(shí)驗(yàn)得,剩余特征維度為524,可見基于rf可以有效地對(duì)原始特征集進(jìn)行降維。使用基于lr的特征選擇算法作為特征選擇,經(jīng)實(shí)驗(yàn)得,剩余特征維度為711,相對(duì)于原始的784,降低了73維,可見基于lr的特征選擇結(jié)果可能更加可靠。下面使用這兩種方法得到的特征詞集重新構(gòu)造數(shù)據(jù)集,迭代訓(xùn)練online-lr分類模型相同次數(shù),預(yù)測結(jié)果如表13所示:
表13rf和lr特征選擇預(yù)測實(shí)驗(yàn)結(jié)果對(duì)比
分析表13可知,相同的迭代次數(shù),使用基于邏輯回歸的特征選擇算法所得到的特征使得分類器的分類性能又有所提高,然而,基于rf的特征選擇反而降低了各項(xiàng)指標(biāo)值。表明在垃圾短信分類場景下,基于本文所提出的lr特征選擇算法有助于提高識(shí)別性能。