基于Logistic回歸的中文垃圾郵件過濾方法

文檔序號：7687369閱讀：248來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：：基于Logistic回歸的中文垃圾郵件過濾方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及垃圾郵件過濾方法，尤其涉及一種基于Logistic回歸的中文垃圾郵件過濾方法。技術(shù)背景隨著垃圾郵件的泛濫，各種垃圾郵件過濾技術(shù)應(yīng)運(yùn)而生。當(dāng)前，基于內(nèi)容的智能郵件過濾方法已成為主流技術(shù)，其中，支持向量機(jī)(SVM)、動態(tài)馬爾可夫建模(DMM)、Winnow等機(jī)器學(xué)習(xí)方法都已成功應(yīng)用于郵件分類領(lǐng)域。這些方法的基本思路是，將垃圾郵件過濾看成一個兩類問題，研究從樣本郵件出發(fā)尋找分類器，利用分類器對未知郵件進(jìn)行預(yù)測。通常，可將機(jī)器學(xué)習(xí)技術(shù)劃分為區(qū)分模型(DiscriminativeModel，如Logistic回歸、SVM)和生成模型(GenerativeModel,如NaYveBayes)兩類。實(shí)踐證明，在PU-1垃圾郵件語料庫上，區(qū)分模型的郵件分類效果要好于生成模型。然而，對于不同的區(qū)分模型，其性能也有差異。例如，國際上有人(Hsu、Chang和Lin)將Logistic回歸應(yīng)用于文本分類，在大數(shù)據(jù)集上取得了較線性C-SVM更優(yōu)的精確率；國外學(xué)者(Lynam和Cormack、Goodman和Yih)將Logistic回歸應(yīng)用于英文垃圾郵件分類，在TREC(TextRetrievalConference)垃圾郵件語料庫上進(jìn)行了驗(yàn)證，效果較好。經(jīng)專利査新統(tǒng)計(jì)，國內(nèi)外有不少與中文垃圾郵件過濾相關(guān)的專利，例如，基于貝葉斯分類的中文垃圾郵件內(nèi)容分類鑒別算法(200510135603.3)、用于阻止垃圾郵件的源/目的地的特征和列表(200410063953.9)、社會網(wǎng)絡(luò)電子郵件過濾(200510070053.1)、垃圾電子郵件過濾方法和系統(tǒng)(200510087762.0)、增量反垃圾郵件査找與更新服務(wù)(200510082282.5)、外發(fā)垃圾郵件的阻止(200410063149.0)、在系統(tǒng)中為緊急或重要情況使用成批電子郵件過濾器用于分類消息(200410063950.5)，等等。以上專利中所采用的垃圾郵件過濾技術(shù)，均未涉及基于Logistic回歸的中文垃圾郵件過濾方法。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種基于Logistic回歸的中文垃圾郵件過濾方法?；贚ogistic回歸的中文垃圾郵件過濾方法包括如下步驟1)利用JavaMail和HTMLParser的應(yīng)用程序接口對郵件進(jìn)行解析，提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息；2)對提取的文本信息進(jìn)行分詞；3)統(tǒng)計(jì)文本信息中的詞條的詞頻，利用TF-IDF公式計(jì)算詞的權(quán)重，將郵件文本信息表示成加權(quán)特征向量，重復(fù)步驟1)步驟3)得到加權(quán)特征向量集;4)利用LIBLINEAR工具包對郵件樣本的加權(quán)特征向量集進(jìn)行訓(xùn)練得到Logistic回歸模型；5)禾偶得到的Logistic回歸模型對郵件進(jìn)行分類，得到郵件是否為垃圾郵件的概率值。所述的對郵件進(jìn)行解析，提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息利用RFC2822,RFC2045,RFC2046郵件標(biāo)準(zhǔn)和MIME格式標(biāo)準(zhǔn)，對郵件進(jìn)行解碼、解析，提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息，若提取的文本信息已通過Base64和QuotedPrintable編碼方式進(jìn)行過編碼，則采用與其對應(yīng)的解碼方式進(jìn)行解碼，對html格式的郵件主體進(jìn)行解析。所述的對提取的文本信息進(jìn)行分詞對解碼后的郵件文本信息進(jìn)行分詞，以得到經(jīng)過分詞后的文本信息。所述的統(tǒng)計(jì)文本信息中的詞條的詞頻，利用TF-IDF公式計(jì)算詞的權(quán)重，將郵件文本信息表示成加權(quán)特征向量，重復(fù)步驟l)步驟3)得到加權(quán)特征向量集對于經(jīng)過分詞后的文本信息，首先統(tǒng)計(jì)其中每個詞的詞頻和郵件樣本集中該詞出現(xiàn)的詞頻，使用TF-IDF公式計(jì)算詞的權(quán)重，將郵件樣本集中所有的詞組成一個特征空間，每封郵件可以映射成該特征空間的一個加權(quán)特征向量，重復(fù)步驟l)步驟3)，得到加權(quán)特征向量集。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果1)Logistic回歸模型具有較少的調(diào)節(jié)參數(shù)，能夠在中文垃圾郵件過濾應(yīng)用中取得很好的分類效果。與SVM方法相比，無論是在ROC(ReceiverOperatingCharacteristics)分類指標(biāo)上，還是在運(yùn)行效率上，Logistic回歸模型都要優(yōu)于后者。2)提出一種中文、非中文混合文本的分詞方法，避免了直接采用第三方分詞系統(tǒng)引起的效率低下問題。3)提出一種改進(jìn)的特征值計(jì)算方法，引入了權(quán)重因子，通過改變一些特殊詞(如用戶自定義的詞、參與構(gòu)建郵件主題的詞、黃色或暴力等敏感詞)的權(quán)重因子，可以獲得更好的分類效果。4)提出一種以詞頻為特征選擇依據(jù)實(shí)施維數(shù)約簡的方法，有效減小了特征空間的大小，提高了運(yùn)行效率和分類效果。5)提出一種以ROC選擇模型訓(xùn)練參數(shù)的方法，避免了用單一的正常郵件誤判率或垃圾郵件誤判率進(jìn)行衡量的局限性。圖1是基于Logistic回歸的中文垃圾郵件過濾方法的流程圖；圖2是本發(fā)明的郵件解析流程圖；圖3是本發(fā)明的分詞流程圖；圖4是Logistic分類器的訓(xùn)練流程圖；圖5是Logistic分類器的分類流程圖。具體實(shí)施方式本發(fā)明的主要原理如下1)在郵件的預(yù)處理階段，包括郵件解析和分詞過程。利用JavaMail將郵件的標(biāo)題、正文文本內(nèi)容，以及所包含的附件、圖片、音頻、視頻等信息抽取出來；依據(jù)標(biāo)點(diǎn)、空格等自然切分標(biāo)志對非中文文本進(jìn)行切分，采用最大匹配法對中文文本進(jìn)行切分。2)在特征層面，將郵件樣本集中所有的詞組成一個特征空間，每封郵件可以映射成該特征空間的一個向量；采用改善的特征值計(jì)算方法，引入了權(quán)重因子，體現(xiàn)了郵件的文本特征；以詞頻為特征選擇依據(jù)實(shí)施維數(shù)約簡，減小了特征空間的大小。3)在模型層面，利用Logistic進(jìn)行訓(xùn)練和分類，通過訓(xùn)練得到一個Logistic分類模型，即估算出Logistic回歸模型的權(quán)向量，對用向量表示的郵件進(jìn)行分類預(yù)測的過程就是求出該郵件屬于某一類的后驗(yàn)概率。4)ROC是評價模型分類性能的重要指標(biāo)，將其運(yùn)用于Logistic回歸模型訓(xùn)練參數(shù)的選擇，避免了用單一的正常郵件誤判率或垃圾郵件誤判率進(jìn)行衡量的局限性。5)Hash表數(shù)據(jù)結(jié)構(gòu)能夠提供高效的訪問，將其運(yùn)用于中文分詞字典、詞一詞頻索引表，提高了數(shù)據(jù)搜索的效率。基于Logistic回歸的中文垃圾郵件過濾方法包括如下步驟1)利用JavaMail和HTMLParser的應(yīng)用程序接口(API)對郵件進(jìn)行解析，提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息；利用RPC2822,RFC2045,RFC2046郵件標(biāo)準(zhǔn)和MIME格式標(biāo)準(zhǔn)，利用JavaMail和HTMLParser的應(yīng)用程序接口對郵件進(jìn)行解碼、解析，提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息，若提取的文本信息已通過Base64和QuotedPrintable編碼方式進(jìn)行過編碼，則采用與其對應(yīng)的解碼方式進(jìn)行解碼，對html格式的郵件主體進(jìn)行解析。郵件文本報(bào)文的格式由RFC822、RFC2045、RFC2046和RFC2047定義，可根據(jù)郵件編碼方式對郵件進(jìn)行解碼，提取郵件標(biāo)題、郵件文本、郵件附件標(biāo)題的文本信息。本發(fā)明使用JavaMail和HTMLParser的API對郵件進(jìn)行解析，具體步驟如下a)將郵件實(shí)例化MimeMessage類的對象，通過getSubject()方法提取郵件的主題；用getContent()方法返回一個MuMPartEncryped對象，對該對象使用tostring()方法得到ASCII或IS08859格式的文本主體，使用getContentO、getFileName()方法得到MimeMultipart等類型的文本主體和圖像(Image)、應(yīng)用程序(Application)的文件名。b)對html格式的郵件文本主體，需將此郵件文本主體實(shí)例化Parser類的對象，通過visitAUNodesWith()方法調(diào)用一個StringBean類的對象，實(shí)現(xiàn)html郵件文本主體的解析，純文本內(nèi)容的郵件文本主體可使用StringBean類的getStringsO方法得到。詳細(xì)的郵件預(yù)處理流程如圖2所示。2)對提取的文本信息進(jìn)行分詞；對于解碼后的郵件文本信息進(jìn)行分詞，以得到經(jīng)過分詞后的文本信息。使用標(biāo)點(diǎn)、空格等自然切分標(biāo)志對郵件進(jìn)行預(yù)處理，實(shí)現(xiàn)英文等非中文字符的切分，同時將郵件切分為更小的單位——句子，然后采用最大匹配法對預(yù)處理后的句子進(jìn)行切分。為提高分詞效率，字典的加載使用了Hash表。本發(fā)明采用北大天網(wǎng)分詞字典。詳細(xì)的分詞流程如圖3所示。3)統(tǒng)計(jì)文本信息中的詞條的詞頻，利用TF-IDF公式計(jì)算詞的權(quán)重，將郵件文本信息表示成加權(quán)特征向量，重復(fù)步驟1)步驟3)得到加權(quán)特征向量集；對于經(jīng)過分詞后的文本信息，首先統(tǒng)計(jì)其中每個詞的詞頻和郵件樣本集中該詞出現(xiàn)的詞頻，使用TF-IDF公式計(jì)算詞的權(quán)重，將郵件樣本集中所有的詞組成一個特征空間，每封郵件可以映射成該特征空間的一個加權(quán)特征向量，重復(fù)步驟l)步驟3)，得到加權(quán)特征向量集。得到加權(quán)特征向量集的具體步驟如下a)統(tǒng)計(jì)郵件樣本集的文本信息中所有的詞及其出現(xiàn)的頻率，以此為基礎(chǔ)建立一個詞一詞頻索引表。郵件樣本集的文本信息中所有的詞構(gòu)成一個特征空間，每一個郵件映射為該特征空間中的一個向量。b)建立詞一詞頻索引表之后，分別掃描每封郵件的文本信息，并統(tǒng)計(jì)每封郵件文本信息中詞的詞頻，使用TF-IDF公式計(jì)算詞的權(quán)重。每封郵件文本信息映射成一個特征向量，其特征值的計(jì)算公式如下<formula>formulaseeoriginaldocumentpage7</formula>訂W其中，存&，^為詞^在郵件^中出現(xiàn)的次數(shù)；弁Z^)為訓(xùn)練集Ts出現(xiàn)詞"的郵件個數(shù)，ITsl為訓(xùn)練集Ts中郵件的個數(shù)，氣,為權(quán)重因子。c)權(quán)重因子氣體現(xiàn)了郵件的文本特征。通過改變一些特殊詞(如用戶自定義的詞、參與構(gòu)建郵件主題的詞、黃色或暴力等敏感詞)的權(quán)重因子，可以獲得更好的分類效果。實(shí)驗(yàn)結(jié)果表明，當(dāng)這些特殊詞的權(quán)重因子氣,等于3時，可獲得最好的分類效果。d)維數(shù)約簡可以減小特征空間的大小，減少計(jì)算量，提高運(yùn)行效率。本發(fā)明通過移除在詞一詞頻索引表中詞頻為1和2的詞來進(jìn)行降維，大大提高了分類的準(zhǔn)確性。4)利用LIBLINEAR工具包對郵件樣本的加權(quán)特征向量集進(jìn)行訓(xùn)練得到Logistic回歸模型，訓(xùn)練方法如下train[options]training—set—file[model—file]其中，training—set—file為向量表示的訓(xùn)練集，[options]為訓(xùn)練參數(shù)選項(xiàng)。本發(fā)明使用到的訓(xùn)練參數(shù)選項(xiàng)如下-stype:設(shè)置slover類型'，-ccost:設(shè)置平衡參數(shù)C;-wiweight:設(shè)置類間權(quán)重因子w,。訓(xùn)練得到Logistic回歸模型的具體步驟如下a)設(shè)置train子程序的slover類型為L2-regularizedLogistic回歸。b)調(diào)整train子程序的平衡參數(shù)C和類間權(quán)重因子w,，得到不同的Logistic回歸模型，本發(fā)明通過ROC曲線，選擇使Logistic模型分類效果相對最優(yōu)時的平衡參數(shù)C和類間權(quán)重因子w,。Logistic分類器的訓(xùn)練流程如圖4所示。5)禾U用得到的Logistic回歸模型對郵件進(jìn)行分類，得到郵件是否為垃圾郵件的概率值。利用LIBLINEAR工具包中的predict子程序，把新的郵件向量和步驟4)中獲得的Logistic分類器模型作為參數(shù)輸入，并選擇支持概率估計(jì)的選項(xiàng)進(jìn)行預(yù)測，即可獲得該郵件是否為垃圾郵件的概率值。Logistic分類器的分類流程如圖5所示。Logistic回歸模型的也可采用TrustRegionNewtonmethod方法求解，具體步驟如下對步驟3)得到的加權(quán)特征向量Xj求解，使?jié)M足<formula>formulaseeoriginaldocumentpage8</formula>其中，力代表第i封郵件是否垃圾郵件，yi取值為1或-1;Xi是第i封郵件經(jīng)過前3步之后所得到的加權(quán)特征向量；C是一個用來調(diào)節(jié)等式前后兩項(xiàng)平衡的參數(shù)；w即為所求結(jié)果。TrustRegionNewtonmethod方法的具體步驟如下a)初始化WQ;b)若^的梯度，(^)=0，則結(jié)束；c)求解子問題<formula>formulaseeoriginaldocumentpage8</formula>其中，q"s)為二次方程式，s為迭代方向(direction),T表示矩陣轉(zhuǎn)置，|「||表示矢量長度，為信任區(qū)域(trustregion),V"/(y)為赫森(Hessian)矩陣。d)計(jì)算Ae)更新w<formula>formulaseeoriginaldocumentpage8</formula>頁其中，CVC72，0"3均為常數(shù)，且<formula>formulaseeoriginaldocumentpage9</formula>，772均為常數(shù)，且<formula>formulaseeoriginaldocumentpage9</formula>。返回步驟b)，反復(fù)迭代，從而收斂到一個全局最優(yōu)解。Logistic模型預(yù)測對新的待判定郵件，首先，重復(fù)步驟l)歩驟3)，把需要分類的郵件映射成文本向量x，判定是否為垃圾郵件的概率計(jì)算公式如下-<formula>formulaseeoriginaldocumentpage9</formula>其中，p為概率值，y取值為l(表示正常郵件)或-1(表示垃圾郵件)，x為郵件文本向量，w為利用TrustRegionNewtonmethod方法求解的結(jié)果，T表示矩陣轉(zhuǎn)置。權(quán)利要求1.一種基于Logistic回歸的中文垃圾郵件過濾方法，包括如下步驟1)利用JavaMail和HTMLParser的應(yīng)用程序接口對郵件進(jìn)行解析，提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息；2)對提取的文本信息進(jìn)行分詞；3)統(tǒng)計(jì)文本信息中的詞條的詞頻，利用TF-IDF公式計(jì)算詞的權(quán)重，將郵件文本信息表示成加權(quán)特征向量，重復(fù)步驟1)～步驟3)得到加權(quán)特征向量集；4)利用LIBLINEAR工具包對郵件樣本的加權(quán)特征向量集進(jìn)行訓(xùn)練得到Logistic回歸模型；5)利用得到的Logistic回歸模型對郵件進(jìn)行分類，得到郵件是否為垃圾郵件的概率值。2.根據(jù)權(quán)利要求1所述的-種基于Logistic回歸的中文垃圾郵件過濾方法，其特征在于所述的對郵件進(jìn)行解析，提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息利用RFC2822，RFC2045，RFC2046郵件標(biāo)準(zhǔn)和MIME格式標(biāo)準(zhǔn)，對郵件進(jìn)行解碼、解析，提取郵件標(biāo)題、郵件文本、郵件字符集、郵件附件標(biāo)題的文本信息，若提取的文本信息己通過Base64和QuotedPrintable編碼方式進(jìn)行過編碼，則采用與其對應(yīng)的解碼方式進(jìn)行解碼，對html格式的郵件主體進(jìn)行解析。3.根據(jù)權(quán)利要求1所述的一種基于Logistic回歸的中文垃圾郵件過濾方法，其特征在于所述的對提取的文本信息進(jìn)行分詞對于解碼后的文本信息進(jìn)行分詞，以得到經(jīng)過分詞后的文本信息。4.根據(jù)權(quán)利要求1所述的一種基于Logistic回歸的中文垃圾郵件過濾方法，其特征在于所述的統(tǒng)計(jì)文本信息中的詞條的詞頻，利用TF-IDF公式計(jì)算詞的權(quán)重，將郵件文本信息表示成加權(quán)特征向量，重復(fù)步驟l)步驟3)得到加權(quán)特征向量集對于經(jīng)過分詞后的文本信息，首先統(tǒng)計(jì)其中每個詞的詞頻和郵件樣本集中該詞出現(xiàn)的詞頻，使用TF-IDF公式計(jì)算詞的權(quán)重，將郵件樣本集中所有的詞組成一個特征空間，每封郵件可以映射成該特征空間的一個加權(quán)特征向量，重復(fù)步驟l)步驟3)，得到加權(quán)特征向量集。全文摘要本發(fā)明公開了一種基于Logistic回歸的中文垃圾郵件過濾方法。其步驟如下1)對郵件進(jìn)行解析，提取郵件標(biāo)題、郵件主體及附件相關(guān)信息；2)對提取的文本信息內(nèi)容進(jìn)行分詞；3)統(tǒng)計(jì)郵件中詞條的詞頻，利用TF-IDF公式計(jì)算詞的權(quán)重，將郵件表示成加權(quán)的特征向量；4)利用LIBLINEAR工具包對郵件樣本進(jìn)行訓(xùn)練得到Logistic回歸模型；5)利用Logistic回歸模型對新的郵件進(jìn)行分類，得到郵件是否為垃圾郵件的概率值。本發(fā)明利用了Logistic回歸模型具有模型簡單、參數(shù)數(shù)量少，以及在樣本數(shù)目和特征數(shù)目都很巨大的數(shù)據(jù)集中具有分類準(zhǔn)確度高的優(yōu)點(diǎn)，通過維數(shù)約簡和改進(jìn)的特征值計(jì)算方法，提高了垃圾郵件過濾的準(zhǔn)確率和效率，同時，還有效解決了垃圾郵件過濾中所面臨的模型訓(xùn)練參數(shù)選擇問題。文檔編號H04L12/58GK101227435SQ20081005960公開日2008年7月23日申請日期2008年1月28日優(yōu)先權(quán)日2008年1月28日發(fā)明者鵬彭,徐從富,王慶幸申請人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐從富;王慶幸;彭鵬
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

垃圾郵件過濾方法相關(guān)技術(shù)

垃圾郵件過濾相關(guān)技術(shù)

貝葉斯垃圾郵件過濾相關(guān)技術(shù)

垃圾郵件過濾系統(tǒng)相關(guān)技術(shù)

exchange垃圾郵件過濾相關(guān)技術(shù)

垃圾郵件過濾器相關(guān)技術(shù)

垃圾郵件過濾技術(shù)相關(guān)技術(shù)

垃圾郵件過濾算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于Logistic回歸的中文垃圾郵件過濾方法