專利名稱::基于Logistic回歸的中文垃圾郵件過濾方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及垃圾郵件過濾方法,尤其涉及一種基于Logistic回歸的中文垃圾郵件過濾方法。技術(shù)背景隨著垃圾郵件的泛濫,各種垃圾郵件過濾技術(shù)應(yīng)運(yùn)而生。當(dāng)前,基于內(nèi)容的智能郵件過濾方法已成為主流技術(shù),其中,支持向量機(jī)(SVM)、動態(tài)馬爾可夫建模(DMM)、Winnow等機(jī)器學(xué)習(xí)方法都已成功應(yīng)用于郵件分類領(lǐng)域。這些方法的基本思路是,將垃圾郵件過濾看成一個兩類問題,研究從樣本郵件出發(fā)尋找分類器,利用分類器對未知郵件進(jìn)行預(yù)測。通常,可將機(jī)器學(xué)習(xí)技術(shù)劃分為區(qū)分模型(DiscriminativeModel,如Logistic回歸、SVM)和生成模型(GenerativeModel,如NaYveBayes)兩類。實(shí)踐證明,在PU-1垃圾郵件語料庫上,區(qū)分模型的郵件分類效果要好于生成模型。然而,對于不同的區(qū)分模型,其性能也有差異。例如,國際上有人(Hsu、Chang和Lin)將Logistic回歸應(yīng)用于文本分類,在大數(shù)據(jù)集上取得了較線性C-SVM更優(yōu)的精確率;國外學(xué)者(Lynam和Cormack、Goodman和Yih)將Logistic回歸應(yīng)用于英文垃圾郵件分類,在TREC(TextRetrievalConference)垃圾郵件語料庫上進(jìn)行了驗(yàn)證,效果較好。經(jīng)專利査新統(tǒng)計(jì),國內(nèi)外有不少與中文垃圾郵件過濾相關(guān)的專利,例如,基于貝葉斯分類的中文垃圾郵件內(nèi)容分類鑒別算法(200510135603.3)、用于阻止垃圾郵件的源/目的地的特征和列表(200410063953.9)、社會網(wǎng)絡(luò)電子郵件過濾(200510070053.1)、垃圾電子郵件過濾方法和系統(tǒng)(200510087762.0)、增量反垃圾郵件査找與更新服務(wù)(200510082282.5)、外發(fā)垃圾郵件的阻止(200410063149.0)、在系統(tǒng)中為緊急或重要情況使用成批電子郵件過濾器用于分類消息(200410063950.5),等等。以上專利中所采用的垃圾郵件過濾技術(shù),均未涉及基于Logistic回歸的中文垃圾郵件過濾方法。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種基于Logistic回歸的中文垃圾郵件過濾方法?;贚ogistic回歸的中文垃圾郵件過濾方法包括如下步驟1)利用JavaMail和HTMLParser的應(yīng)用程序接口對郵件進(jìn)行解析,提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息;2)對提取的文本信息進(jìn)行分詞;3)統(tǒng)計(jì)文本信息中的詞條的詞頻,利用TF-IDF公式計(jì)算詞的權(quán)重,將郵件文本信息表示成加權(quán)特征向量,重復(fù)步驟1)步驟3)得到加權(quán)特征向量集;4)利用LIBLINEAR工具包對郵件樣本的加權(quán)特征向量集進(jìn)行訓(xùn)練得到Logistic回歸模型;5)禾偶得到的Logistic回歸模型對郵件進(jìn)行分類,得到郵件是否為垃圾郵件的概率值。所述的對郵件進(jìn)行解析,提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息利用RFC2822,RFC2045,RFC2046郵件標(biāo)準(zhǔn)和MIME格式標(biāo)準(zhǔn),對郵件進(jìn)行解碼、解析,提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息,若提取的文本信息已通過Base64和QuotedPrintable編碼方式進(jìn)行過編碼,則采用與其對應(yīng)的解碼方式進(jìn)行解碼,對html格式的郵件主體進(jìn)行解析。所述的對提取的文本信息進(jìn)行分詞對解碼后的郵件文本信息進(jìn)行分詞,以得到經(jīng)過分詞后的文本信息。所述的統(tǒng)計(jì)文本信息中的詞條的詞頻,利用TF-IDF公式計(jì)算詞的權(quán)重,將郵件文本信息表示成加權(quán)特征向量,重復(fù)步驟l)步驟3)得到加權(quán)特征向量集對于經(jīng)過分詞后的文本信息,首先統(tǒng)計(jì)其中每個詞的詞頻和郵件樣本集中該詞出現(xiàn)的詞頻,使用TF-IDF公式計(jì)算詞的權(quán)重,將郵件樣本集中所有的詞組成一個特征空間,每封郵件可以映射成該特征空間的一個加權(quán)特征向量,重復(fù)步驟l)步驟3),得到加權(quán)特征向量集。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果1)Logistic回歸模型具有較少的調(diào)節(jié)參數(shù),能夠在中文垃圾郵件過濾應(yīng)用中取得很好的分類效果。與SVM方法相比,無論是在ROC(ReceiverOperatingCharacteristics)分類指標(biāo)上,還是在運(yùn)行效率上,Logistic回歸模型都要優(yōu)于后者。2)提出一種中文、非中文混合文本的分詞方法,避免了直接采用第三方分詞系統(tǒng)引起的效率低下問題。3)提出一種改進(jìn)的特征值計(jì)算方法,引入了權(quán)重因子,通過改變一些特殊詞(如用戶自定義的詞、參與構(gòu)建郵件主題的詞、黃色或暴力等敏感詞)的權(quán)重因子,可以獲得更好的分類效果。4)提出一種以詞頻為特征選擇依據(jù)實(shí)施維數(shù)約簡的方法,有效減小了特征空間的大小,提高了運(yùn)行效率和分類效果。5)提出一種以ROC選擇模型訓(xùn)練參數(shù)的方法,避免了用單一的正常郵件誤判率或垃圾郵件誤判率進(jìn)行衡量的局限性。圖1是基于Logistic回歸的中文垃圾郵件過濾方法的流程圖;圖2是本發(fā)明的郵件解析流程圖;圖3是本發(fā)明的分詞流程圖;圖4是Logistic分類器的訓(xùn)練流程圖;圖5是Logistic分類器的分類流程圖。具體實(shí)施方式本發(fā)明的主要原理如下1)在郵件的預(yù)處理階段,包括郵件解析和分詞過程。利用JavaMail將郵件的標(biāo)題、正文文本內(nèi)容,以及所包含的附件、圖片、音頻、視頻等信息抽取出來;依據(jù)標(biāo)點(diǎn)、空格等自然切分標(biāo)志對非中文文本進(jìn)行切分,采用最大匹配法對中文文本進(jìn)行切分。2)在特征層面,將郵件樣本集中所有的詞組成一個特征空間,每封郵件可以映射成該特征空間的一個向量;采用改善的特征值計(jì)算方法,引入了權(quán)重因子,體現(xiàn)了郵件的文本特征;以詞頻為特征選擇依據(jù)實(shí)施維數(shù)約簡,減小了特征空間的大小。3)在模型層面,利用Logistic進(jìn)行訓(xùn)練和分類,通過訓(xùn)練得到一個Logistic分類模型,即估算出Logistic回歸模型的權(quán)向量,對用向量表示的郵件進(jìn)行分類預(yù)測的過程就是求出該郵件屬于某一類的后驗(yàn)概率。4)ROC是評價模型分類性能的重要指標(biāo),將其運(yùn)用于Logistic回歸模型訓(xùn)練參數(shù)的選擇,避免了用單一的正常郵件誤判率或垃圾郵件誤判率進(jìn)行衡量的局限性。5)Hash表數(shù)據(jù)結(jié)構(gòu)能夠提供高效的訪問,將其運(yùn)用于中文分詞字典、詞一詞頻索引表,提高了數(shù)據(jù)搜索的效率。基于Logistic回歸的中文垃圾郵件過濾方法包括如下步驟1)利用JavaMail和HTMLParser的應(yīng)用程序接口(API)對郵件進(jìn)行解析,提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息;利用RPC2822,RFC2045,RFC2046郵件標(biāo)準(zhǔn)和MIME格式標(biāo)準(zhǔn),利用JavaMail和HTMLParser的應(yīng)用程序接口對郵件進(jìn)行解碼、解析,提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息,若提取的文本信息已通過Base64和QuotedPrintable編碼方式進(jìn)行過編碼,則采用與其對應(yīng)的解碼方式進(jìn)行解碼,對html格式的郵件主體進(jìn)行解析。郵件文本報(bào)文的格式由RFC822、RFC2045、RFC2046和RFC2047定義,可根據(jù)郵件編碼方式對郵件進(jìn)行解碼,提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息。本發(fā)明使用JavaMail和HTMLParser的API對郵件進(jìn)行解析,具體步驟如下a)將郵件實(shí)例化MimeMessage類的對象,通過getSubject()方法提取郵件的主題;用getContent()方法返回一個MuMPartEncryped對象,對該對象使用tostring()方法得到ASCII或IS08859格式的文本主體,使用getContentO、getFileName()方法得到MimeMultipart等類型的文本主體和圖像(Image)、應(yīng)用程序(Application)的文件名。b)對html格式的郵件文本主體,需將此郵件文本主體實(shí)例化Parser類的對象,通過visitAUNodesWith()方法調(diào)用一個StringBean類的對象,實(shí)現(xiàn)html郵件文本主體的解析,純文本內(nèi)容的郵件文本主體可使用StringBean類的getStringsO方法得到。詳細(xì)的郵件預(yù)處理流程如圖2所示。2)對提取的文本信息進(jìn)行分詞;對于解碼后的郵件文本信息進(jìn)行分詞,以得到經(jīng)過分詞后的文本信息。使用標(biāo)點(diǎn)、空格等自然切分標(biāo)志對郵件進(jìn)行預(yù)處理,實(shí)現(xiàn)英文等非中文字符的切分,同時將郵件切分為更小的單位——句子,然后采用最大匹配法對預(yù)處理后的句子進(jìn)行切分。為提高分詞效率,字典的加載使用了Hash表。本發(fā)明采用北大天網(wǎng)分詞字典。詳細(xì)的分詞流程如圖3所示。3)統(tǒng)計(jì)文本信息中的詞條的詞頻,利用TF-IDF公式計(jì)算詞的權(quán)重,將郵件文本信息表示成加權(quán)特征向量,重復(fù)步驟1)步驟3)得到加權(quán)特征向量集;對于經(jīng)過分詞后的文本信息,首先統(tǒng)計(jì)其中每個詞的詞頻和郵件樣本集中該詞出現(xiàn)的詞頻,使用TF-IDF公式計(jì)算詞的權(quán)重,將郵件樣本集中所有的詞組成一個特征空間,每封郵件可以映射成該特征空間的一個加權(quán)特征向量,重復(fù)步驟l)步驟3),得到加權(quán)特征向量集。得到加權(quán)特征向量集的具體步驟如下a)統(tǒng)計(jì)郵件樣本集的文本信息中所有的詞及其出現(xiàn)的頻率,以此為基礎(chǔ)建立一個詞一詞頻索引表。郵件樣本集的文本信息中所有的詞構(gòu)成一個特征空間,每一個郵件映射為該特征空間中的一個向量。b)建立詞一詞頻索引表之后,分別掃描每封郵件的文本信息,并統(tǒng)計(jì)每封郵件文本信息中詞的詞頻,使用TF-IDF公式計(jì)算詞的權(quán)重。每封郵件文本信息映射成一個特征向量,其特征值的計(jì)算公式如下<formula>formulaseeoriginaldocumentpage7</formula>訂W其中,存&,^為詞^在郵件^中出現(xiàn)的次數(shù);弁Z^)為訓(xùn)練集Ts出現(xiàn)詞"的郵件個數(shù),ITsl為訓(xùn)練集Ts中郵件的個數(shù),氣,為權(quán)重因子。c)權(quán)重因子氣體現(xiàn)了郵件的文本特征。通過改變一些特殊詞(如用戶自定義的詞、參與構(gòu)建郵件主題的詞、黃色或暴力等敏感詞)的權(quán)重因子,可以獲得更好的分類效果。實(shí)驗(yàn)結(jié)果表明,當(dāng)這些特殊詞的權(quán)重因子氣,等于3時,可獲得最好的分類效果。d)維數(shù)約簡可以減小特征空間的大小,減少計(jì)算量,提高運(yùn)行效率。本發(fā)明通過移除在詞一詞頻索引表中詞頻為1和2的詞來進(jìn)行降維,大大提高了分類的準(zhǔn)確性。4)利用LIBLINEAR工具包對郵件樣本的加權(quán)特征向量集進(jìn)行訓(xùn)練得到Logistic回歸模型,訓(xùn)練方法如下train[options]training—set—file[model—file]其中,training—set—file為向量表示的訓(xùn)練集,[options]為訓(xùn)練參數(shù)選項(xiàng)。本發(fā)明使用到的訓(xùn)練參數(shù)選項(xiàng)如下-stype:設(shè)置slover類型',-ccost:設(shè)置平衡參數(shù)C;-wiweight:設(shè)置類間權(quán)重因子w,。訓(xùn)練得到Logistic回歸模型的具體步驟如下a)設(shè)置train子程序的slover類型為L2-regularizedLogistic回歸。b)調(diào)整train子程序的平衡參數(shù)C和類間權(quán)重因子w,,得到不同的Logistic回歸模型,本發(fā)明通過ROC曲線,選擇使Logistic模型分類效果相對最優(yōu)時的平衡參數(shù)C和類間權(quán)重因子w,。Logistic分類器的訓(xùn)練流程如圖4所示。5)禾U用得到的Logistic回歸模型對郵件進(jìn)行分類,得到郵件是否為垃圾郵件的概率值。利用LIBLINEAR工具包中的predict子程序,把新的郵件向量和步驟4)中獲得的Logistic分類器模型作為參數(shù)輸入,并選擇支持概率估計(jì)的選項(xiàng)進(jìn)行預(yù)測,即可獲得該郵件是否為垃圾郵件的概率值。Logistic分類器的分類流程如圖5所示。Logistic回歸模型的也可采用TrustRegionNewtonmethod方法求解,具體步驟如下對步驟3)得到的加權(quán)特征向量Xj求解,使?jié)M足<formula>formulaseeoriginaldocumentpage8</formula>其中,力代表第i封郵件是否垃圾郵件,yi取值為1或-1;Xi是第i封郵件經(jīng)過前3步之后所得到的加權(quán)特征向量;C是一個用來調(diào)節(jié)等式前后兩項(xiàng)平衡的參數(shù);w即為所求結(jié)果。TrustRegionNewtonmethod方法的具體步驟如下a)初始化WQ;b)若^的梯度,(^)=0,則結(jié)束;c)求解子問題<formula>formulaseeoriginaldocumentpage8</formula>其中,q"s)為二次方程式,s為迭代方向(direction),T表示矩陣轉(zhuǎn)置,|「||表示矢量長度,為信任區(qū)域(trustregion),V"/(y)為赫森(Hessian)矩陣。d)計(jì)算Ae)更新w<formula>formulaseeoriginaldocumentpage8</formula>頁其中,CVC72,0"3均為常數(shù),且<formula>formulaseeoriginaldocumentpage9</formula>,772均為常數(shù),且<formula>formulaseeoriginaldocumentpage9</formula>。返回步驟b),反復(fù)迭代,從而收斂到一個全局最優(yōu)解。Logistic模型預(yù)測對新的待判定郵件,首先,重復(fù)步驟l)歩驟3),把需要分類的郵件映射成文本向量x,判定是否為垃圾郵件的概率計(jì)算公式如下-<formula>formulaseeoriginaldocumentpage9</formula>其中,p為概率值,y取值為l(表示正常郵件)或-1(表示垃圾郵件),x為郵件文本向量,w為利用TrustRegionNewtonmethod方法求解的結(jié)果,T表示矩陣轉(zhuǎn)置。權(quán)利要求1.一種基于Logistic回歸的中文垃圾郵件過濾方法,包括如下步驟1)利用JavaMail和HTMLParser的應(yīng)用程序接口對郵件進(jìn)行解析,提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息;2)對提取的文本信息進(jìn)行分詞;3)統(tǒng)計(jì)文本信息中的詞條的詞頻,利用TF-IDF公式計(jì)算詞的權(quán)重,將郵件文本信息表示成加權(quán)特征向量,重復(fù)步驟1)~步驟3)得到加權(quán)特征向量集;4)利用LIBLINEAR工具包對郵件樣本的加權(quán)特征向量集進(jìn)行訓(xùn)練得到Logistic回歸模型;5)利用得到的Logistic回歸模型對郵件進(jìn)行分類,得到郵件是否為垃圾郵件的概率值。2.根據(jù)權(quán)利要求1所述的-種基于Logistic回歸的中文垃圾郵件過濾方法,其特征在于所述的對郵件進(jìn)行解析,提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息利用RFC2822,RFC2045,RFC2046郵件標(biāo)準(zhǔn)和MIME格式標(biāo)準(zhǔn),對郵件進(jìn)行解碼、解析,提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息,若提取的文本信息己通過Base64和QuotedPrintable編碼方式進(jìn)行過編碼,則采用與其對應(yīng)的解碼方式進(jìn)行解碼,對html格式的郵件主體進(jìn)行解析。3.根據(jù)權(quán)利要求1所述的一種基于Logistic回歸的中文垃圾郵件過濾方法,其特征在于所述的對提取的文本信息進(jìn)行分詞對于解碼后的文本信息進(jìn)行分詞,以得到經(jīng)過分詞后的文本信息。4.根據(jù)權(quán)利要求1所述的一種基于Logistic回歸的中文垃圾郵件過濾方法,其特征在于所述的統(tǒng)計(jì)文本信息中的詞條的詞頻,利用TF-IDF公式計(jì)算詞的權(quán)重,將郵件文本信息表示成加權(quán)特征向量,重復(fù)步驟l)步驟3)得到加權(quán)特征向量集對于經(jīng)過分詞后的文本信息,首先統(tǒng)計(jì)其中每個詞的詞頻和郵件樣本集中該詞出現(xiàn)的詞頻,使用TF-IDF公式計(jì)算詞的權(quán)重,將郵件樣本集中所有的詞組成一個特征空間,每封郵件可以映射成該特征空間的一個加權(quán)特征向量,重復(fù)步驟l)步驟3),得到加權(quán)特征向量集。全文摘要本發(fā)明公開了一種基于Logistic回歸的中文垃圾郵件過濾方法。其步驟如下1)對郵件進(jìn)行解析,提取郵件標(biāo)題、郵件主體及附件相關(guān)信息;2)對提取的文本信息內(nèi)容進(jìn)行分詞;3)統(tǒng)計(jì)郵件中詞條的詞頻,利用TF-IDF公式計(jì)算詞的權(quán)重,將郵件表示成加權(quán)的特征向量;4)利用LIBLINEAR工具包對郵件樣本進(jìn)行訓(xùn)練得到Logistic回歸模型;5)利用Logistic回歸模型對新的郵件進(jìn)行分類,得到郵件是否為垃圾郵件的概率值。本發(fā)明利用了Logistic回歸模型具有模型簡單、參數(shù)數(shù)量少,以及在樣本數(shù)目和特征數(shù)目都很巨大的數(shù)據(jù)集中具有分類準(zhǔn)確度高的優(yōu)點(diǎn),通過維數(shù)約簡和改進(jìn)的特征值計(jì)算方法,提高了垃圾郵件過濾的準(zhǔn)確率和效率,同時,還有效解決了垃圾郵件過濾中所面臨的模型訓(xùn)練參數(shù)選擇問題。文檔編號H04L12/58GK101227435SQ20081005960公開日2008年7月23日申請日期2008年1月28日優(yōu)先權(quán)日2008年1月28日發(fā)明者鵬彭,徐從富,王慶幸申請人:浙江大學(xué)