欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于部分匹配預測的垃圾郵件分類方法

文檔序號:6464907閱讀:278來源:國知局
專利名稱:基于部分匹配預測的垃圾郵件分類方法
技術(shù)領(lǐng)域
本發(fā)明涉及垃圾郵件過濾方法,尤其涉及一種基于部分匹配預測的垃圾郵 件分類方法。
背景技術(shù)
電子郵件的盛行,主要原因是其方便、快捷及低成本;隨著互聯(lián)網(wǎng)普及, 電子郵件逐漸成為人們生活中便利的通訊手段之一。然而,近年來,隨著大型 傳統(tǒng)行業(yè)電子信息化的大力推進,信息系統(tǒng)領(lǐng)域里的垃圾郵件不可避免地隨指 數(shù)增長。垃圾郵件具有以下特點數(shù)量多,具有反復性,強制性,欺騙性,不健 康性及傳播速度快。所以它嚴重干擾了人們的正常生活且對信息網(wǎng)絡(luò)構(gòu)成了嚴 重威脅。由于垃圾郵件類型越來越復雜,多樣。因此,研究垃圾郵件分類成為 最近幾年來的重要的9F究課題。
垃圾郵件(SPAM Email)可以簡單地定義為大量發(fā)送的未征得收信人同意的 電子郵件,其盛行于網(wǎng)絡(luò)也基于同樣的理由。從垃圾郵件發(fā)送者的角度考慮, 必會選擇費用效益比最低的方式發(fā)送垃圾郵件。主要通過下述的幾種方式發(fā)送: 自建SMTP服務(wù)器大量發(fā)送垃圾郵件;通過病毒利用操作系統(tǒng)或者應(yīng)用系統(tǒng)的 漏洞發(fā)送(多數(shù)為含帶病毒的)垃圾郵件;郵件服務(wù)器Openrelay漏洞被利用進 行垃圾郵件的轉(zhuǎn)發(fā)送;利用免費郵件供應(yīng)商提供的郵件服務(wù),以正常用戶的方 式進行垃圾郵件的發(fā)送。垃圾郵件的預處理,分類和過濾都是在郵箱對應(yīng)服務(wù) 器上進行,當server端程序員默認發(fā)送郵件給客戶時,客戶端遵守一定的協(xié)議 (例如POP3或者是IMAP協(xié)議),正常接收郵件。
垃圾郵件的分類可以用多種方法,例如,被廣泛應(yīng)用的樸素貝葉斯方法, 以及己經(jīng)提出的羅切斯特回歸法,SVM支持向量機方法。
樸素貝葉斯方法在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是 決策樹模型(Decision Tree Model)和樸素貝葉斯模型 (NaYve Bayesian Model, NBC)。樸素貝葉斯分類假定一個屬性值對給定類的影響?yīng)毩⑵渌麑傩缘闹?。?gòu) 造一個樸素貝葉斯分類器的過程其實主要是計算各個先驗概率P (X)和后驗概 率P (X|H)的過程,以通過貝葉斯定理P (H|X) =P (X|H)P(H) / P(X) 得到后驗概率P (H|X),即給定觀測樣本X,假定H成立的概率。
SVM支持向量機方法朱永運用TFIDF公式將郵件文本映射成向量。然后 用LibSVM對郵件樣本進行訓練得到模型。用模型對新的郵件進行分類。
Logistic回歸方法除了用logistic回歸模型對郵件進行分類之外,其他都 和SVM支持向量機方法一致。
但是這三種方法在速度,效率方面都存在問題,并且都不是增量學習方法, 在準確率方面都存在疑問。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于部分匹配預測的垃圾郵件過濾方法。 基于部分匹配預測的垃圾郵件過濾方法包括如下步驟
1) 將新郵件變換成為ASCII值在032-127范圍內(nèi)ASCII字符表對應(yīng)的字符, 如果原郵件中的字不在ASCII碼字符表032 127ASCII值對應(yīng)字符范圍內(nèi),則 這些字全部轉(zhuǎn)換成為ASCII碼字符表中OOl 031 ASC II值中的任意一 個對應(yīng)的 字符,變換后得到由一個001 127ASCII值對應(yīng)字符組成的字符串;
2) 取出以往垃圾郵件訓練集、正常郵件訓練集、垃圾郵件預測集和正常郵 件預測集;
3) 將正常郵件訓練集經(jīng)過部分匹配預測算法,訓練成正常郵件模型,將垃 圾郵件訓練集經(jīng)過部分匹配預測算法,訓練成垃圾郵件模型;
4) 將新郵件變換后得到的字符串和垃圾郵件模型進行交叉熵運算,將新郵 件變換后得到的字符串和正常郵件模型進行交叉熵運算;
5) 獲得最小交叉熵的模型決定了新郵件是否是垃圾郵件或者正常郵件的分 類結(jié)果;
6) 新郵件分類完成之后,將新郵件加入預測集,進行分類預測后,重新訓 練集,使模型再繼續(xù)學習,得到新的模型。
所述的將新郵件變換成為ASCII值在032-127范圍內(nèi)ASCII字符表對應(yīng)的 字符,如果原郵件中的字不在ASC II碼字符表032 127 ASC II值對應(yīng)字符范圍 內(nèi),則這些字全部轉(zhuǎn)換成為ASCII碼字符表中001 031 ASCII值中的任意一個 對應(yīng)的字符,變換后得到由一個001 127ASCII值對應(yīng)字符組成的字符串步驟: 合并標題和正文,并合并連續(xù)的空白符,新郵件中的每個英文字,數(shù)字,常見 的符號,按照ASCII碼字符表轉(zhuǎn)換成相應(yīng)的字符,如果郵件中的字不在ASCII 碼字符表中的032 127ASCII值所對應(yīng)的字符范圍內(nèi),則全部用ASCII碼字符 表中任意一個001 031 ASCII值對應(yīng)字符代替,規(guī)定郵件字數(shù)應(yīng)不超過3000 字,如果超過3000字,則截去3000字以后的部分,保留前3000個字變換后組 成的字符串,這就是新郵件轉(zhuǎn)換后的字符串。
所述的將正常郵件訓練集經(jīng)過部分匹配預測算法,訓練成正常郵件模型,
將垃圾郵件訓練集經(jīng)過部分匹配預測算法,訓練成垃圾郵件模型步驟利用部 分匹配預測方法,在垃圾郵件訓練集和正常郵件訓練中,建立上下文字典樹, 對垃圾郵件訓練集和正常郵件訓練集進行訓練,得到垃圾郵件模型和正常郵件 模型。
所述的將新郵件變換后得到的字符串和垃圾郵件模型進行交叉熵運算,將 新郵件變換后得到的字符串和正常郵件模型進行交叉熵運算步驟交叉熵公式 為//d,M)s丄丄(;clM),當lxl變大時,這個估計值將越來越接近實際值,其中 丄OclM)表示在^M模型下理想的X的代碼長度,且丄(x)--1og/(x), /W是X的概 率密度函數(shù)。文件d上估計的交叉熵以H(Z,M,rf)表示,利用上述公式,得到字 符串和垃圾郵件的交叉熵,字符串和正常郵件的交叉熵。。
所述的獲得最小交叉熵的模型決定了新郵件是否是垃圾郵件或者正常郵件 的分類結(jié)果步驟根據(jù)字符串和垃圾郵件的交叉墑,以及字符串和正常郵件的
交叉墑,對新郵件是否是正常郵件和垃圾郵件按如下方法分類
C(d) = arg min H( M, af)
>—^—7
其中,M代表在C訓練集中的所有例子。由于C(力的范圍為[O, l],設(shè)定 值b-0.5,當CW)^時,郵件為垃圾郵件,當C(力4時,郵件為正常郵件。
所述的新郵件分類完成之后,可以將新郵件加入預測集,進行分類預測后, 重新訓練集,使模型再繼續(xù)學習,得到新的模型步驟將已經(jīng)完成分類的郵件, 加入到相應(yīng)預測集中,判斷分類是否錯誤,如果正確,將新郵件加入到相應(yīng)訓 練集中再次訓練,得到新的垃圾郵件和正常郵件模型。 本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果
1) 本發(fā)明可以充分利用部分匹配預測以及針對不同郵件系統(tǒng),部分匹配預 測的改進方法,例如部分匹配預測C,部分匹配預測D來對垃圾郵件進行分類。 可以提高垃圾郵件分類的準確率;
2) 基于部分匹配預測的垃圾郵件分類方法,建立訓練模型的過程,速度比 較快;
3) 本發(fā)明與其他需要解碼的分類器比較,其預測速度比較快;
4) 本發(fā)明用部分匹配預測判斷垃圾郵件的方法是個增量學習過程,在增加 一個新郵件以更新模型時,不需要重新訓練以前的模型而得到一個準確性更好 的模型。


圖1是基于部分匹配預測的垃圾郵件過濾方法的流程圖;圖2是新郵件預處理的流程圖; 圖3是基于部分匹配預測分類器的訓練流程圖; 圖4是基于部分匹配預測分類器的增量學習流程圖。
具體實施例方式
基于部分匹配預測的垃圾郵件過濾方法包括如下步驟
1) 將新郵件變換成為ASCII值在032-127范圍內(nèi)ASCII字符表對應(yīng)的字符, 如果原郵件中的字不在ASC II碼字符表032 127 ASCII值對應(yīng)字符范圍內(nèi),則 這些字全部轉(zhuǎn)換成為ASCII碼字符表中OOl 031 ASC II值中的任意一個對應(yīng)的 字符,變換后得到由一個OOl 127 ASC II值對應(yīng)字符組成的字符串;
2) 取出以往垃圾郵件訓練集、正常郵件訓練集、垃圾郵件預測集和正常郵
a將正常郵件訓練集經(jīng)過部分匹配預測算法,訓練成正常郵件模型,將垃 圾郵件訓練集經(jīng)過
分匹配預測算法,訓練成垃圾郵件模型;
4) 將新郵件變換后得到的字符串和垃圾郵件模型進行交叉熵運算,將新郵 件變換后得到的字符串和正常郵件模型進行交叉熵運算;
5) 獲得最小交叉熵的模型決定了新郵件是否是垃圾郵件或者正常郵件的分 類結(jié)果;
6) 新郵件分類完成之后,將新郵件加入預測集,進行分類預測后,重新訓 練集,使模型再繼續(xù)學習,得到新的模型。
所述的將新郵件變換成為ASCII值在032-127范圍內(nèi)ASCII字符表對應(yīng)的 字符,如果原郵件中的字不在ASC II碼字符表032 127 ASC II值對應(yīng)字符范圍 內(nèi),則這些字全部轉(zhuǎn)換成為ASCII碼字符表中001 031 ASCII值中的任意一個 對應(yīng)的字符,變換后得到由一個001 127ASCII值對應(yīng)字符組成的字符串步驟: 合并標題和正文,并合并連續(xù)的空白符,例如'\r','\t','\n',郵件中的每個英文 字,數(shù)字,常見的符號,例如26個英文字母,空格鍵,"!"等按照ASCII碼 字符表轉(zhuǎn)換成相應(yīng)的字符,如果郵件中的字不在ASCII碼字符表中的032 127
Ascn值所對應(yīng)的字符范圍內(nèi),例如中文,法語字母等,則全部用Ascn碼
字符表中任意一個001 031 Ascn值對應(yīng)字符代替,規(guī)定郵件字數(shù)應(yīng)不超過
3000字,如果超過3000字,則截去3000字以后的部分,保留前3000個字變換 后組成的字符串,這就是新郵件轉(zhuǎn)換后的字符串,當一封郵件長度過大的時候會 影響部分匹配預測分類器的訓練速度但是并不會對整個分類器的效果產(chǎn)生顯著
的提升,這主要是由于郵件中的附件和包含的圖片會大幅度正大郵件的長度。 但是這些信息對于提升部分匹配預測這類分類器的性能并沒有效果,而且根據(jù)
實驗結(jié)果分析,當截取字符長度在3000的時候就可以取得不錯的效果。
所述的將正常郵件訓練集經(jīng)過部分匹配預測算法,訓練成正常郵件模型, 將垃圾郵件訓練集經(jīng)過部分匹配預測算法,訓練成垃圾郵件模型步驟新郵件
預處理結(jié)束之后,需要對不同郵件訓練集進行建模,在垃圾郵件訓練集和正常
郵件訓練中,我們?nèi)∽顑?yōu)預測文本長度為1^5。分別從第一封郵件開始,利用部 分匹配預測方法初始化上下字典數(shù),進行不斷地節(jié)點修改,加入第二封郵件, 直至第N封郵件,這樣建立起上下字典樹。這兩顆字典樹,就是垃圾郵件模型 和正常郵件模型,其中,需要考慮模型建立后所產(chǎn)生的內(nèi)存需要,即所對應(yīng)的空 間復雜度。
詳細的基于部分匹配預測分類器的訓練流程如圖3所示。
所述的將新郵件變換后得到的字符串和垃圾郵件模型進行交叉熵運算,將 新郵件變換后得到的字符串和正常郵件模型進行交叉熵運算步驟根據(jù)不同系
統(tǒng),交叉熵計算公式也有所不同,各個部分權(quán)重設(shè)置也不同,這里取交叉熵公式
為//(Z,A/)a^丄(;clM),當lxl變大時,這個估計值將越來越接近實際值,其中
丄(xlM)表示在1vl模型下理想的x的代碼長度,且";0 = -108/(力,/(;c)是x的概
率密度函數(shù)。文件d上估計的交叉熵以i/(X,M,力表示,利用上述公式,得到字
符串和垃圾郵件的交叉熵,字符串和正常郵件的交叉熵。。
所述的獲得最小交叉熵的模型決定了新郵件是否是垃圾郵件或者正常郵件
的分類結(jié)果步驟根據(jù)字符串和垃圾郵件的交叉熵,以及字符串和正常郵件的
交叉熵,對新郵件是否是正常郵件和垃圾郵件按如下方法分類 C(d) = arg min(義M, c/)
*-v-1
其中,M代表在C訓練集中的所有例子。由于C(力的范圍為[O, l],設(shè)定 值bi.5,當C(^W時,郵件為垃圾郵件,當C(力"時,郵件為正常郵件。
所述的新郵件分類完成之后,可以將新郵件加入預測集,進行分類預測后, 重新訓練集,使模型再繼續(xù)學習,得到新的模型步驟將已經(jīng)完成分類的郵件, 加入到相應(yīng)預測集中,判斷分類是否錯誤,如果正確,將新郵件加入到相應(yīng)訓 練集中再次訓練,得到新的垃圾郵件和正常郵件模型。 詳細的增量學習流程如圖4所示。
權(quán)利要求
1.一種基于部分匹配預測的垃圾郵件過濾方法,其特征在于包括如下步驟1)將新郵件變換成為ASCII值在032-127范圍內(nèi)ASCII字符表對應(yīng)的字符,如果原郵件中的字不在ASC II碼字符表032~127ASC II值對應(yīng)字符范圍內(nèi),則這些字全部轉(zhuǎn)換成為ASC II碼字符表中001~031ASC II值中的任意一個對應(yīng)的字符,變換后得到由一個001~127ASC II值對應(yīng)字符組成的字符串;2)取出以往垃圾郵件訓練集、正常郵件訓練集、垃圾郵件預測集和正常郵件預測集;3)將正常郵件訓練集經(jīng)過部分匹配預測算法,訓練成正常郵件模型,將垃圾郵件訓練集經(jīng)過部分匹配預測算法,訓練成垃圾郵件模型;4)將新郵件變換后得到的字符串和垃圾郵件模型進行交叉熵運算,將新郵件變換后得到的字符串和正常郵件模型進行交叉熵運算;5)獲得最小交叉熵的模型決定了新郵件是否是垃圾郵件或者正常郵件的分類結(jié)果;6)新郵件分類完成之后,將新郵件加入預測集,進行分類預測后,重新訓練集,使模型再繼續(xù)學習,得到新的模型。
2. 根據(jù)權(quán)利要求1所述的一種基于部分匹配預測的垃圾郵件分類方法,其特 征在于所述的將新郵件變換成為ASCII值在032-127范圍內(nèi)ASCII字符表對應(yīng) 的字符,如果原郵件中的字不在ASC II碼字符表032 127 ASC II值對應(yīng)字符范 圍內(nèi),則這些字全部轉(zhuǎn)換成為ASC II碼字符表中001 031 ASC II值中的任意一 個對應(yīng)的字符,變換后得到由一個001 127ASCII值對應(yīng)字符組成的字符串步 驟合并標題和正文,并合并連續(xù)的空白符,新郵件中的每個英文字,數(shù)字, 常見的符號,按照ASCII碼字符表轉(zhuǎn)換成相應(yīng)的字符,如果郵件中的字不在 ASCII碼字符表中的032 127ASCII值所對應(yīng)的字符范圍內(nèi),則全部用ASCII 碼字符表中任意一個001 031 ASCII值對應(yīng)字符代替,規(guī)定郵件字數(shù)應(yīng)不超過 3000字,如果超過3000字,則截去3000字以后的部分,保留前3000個字變換 后組成的字符串,這就是新郵件轉(zhuǎn)換后的字符串。
3. 根據(jù)權(quán)利要求1所述的一種基于部分匹配預測的垃圾郵件分類方法,其特 征在于所述的將正常郵件訓練集經(jīng)過部分匹配預測算法,訓練成正常郵件模型, 將垃圾郵件訓練集經(jīng)過部分匹配預測算法,訓練成垃圾郵件模型步驟利用部 分匹配預測方法,在垃圾郵件訓練集和正常郵件訓練中,建立上下文字典樹, 對垃圾郵件訓練集和正常郵件訓練集進行訓練,得到垃圾郵件模型和正常郵件模型。
4. 根據(jù)權(quán)利要求l所述的一種基于部分匹配預測的垃圾郵件分類方法,其 特征在于所述的將新郵件變換后得到的的字符串和垃圾郵件模型進行交叉熵運算,將新郵件變換后得到的字符串和正常郵件模型進行交叉熵運算步驟交叉 熵公式為<formula>see original document page 3</formula>,當|x|變大時,這個估計值將越來越接近實際值, 其中L(xlM)表示在M模型下理想的X的代碼長度,L(x) = -logf(x), f(x)是X 的概率密度函數(shù)。文件d上估計的交叉熵以H(X,M,d)表示,利用上述公式,得 到字符串和垃圾郵件的交叉熵,字符串和正常郵件的交叉熵。
5. 根據(jù)權(quán)利要求1所述的一種基于垃圾郵件的分類方法,其特征在于所述的獲得最小交叉熵的模型決定了新郵件是否是垃圾郵件或者正常郵件的分類結(jié)果步驟根據(jù)字符串和垃圾郵件的交叉墑,以及字符串和正常郵件的交叉墑,對新郵件是否是正常郵件和垃圾郵件按如下方法分類 <formula>see original document page 3</formula>其中,M代表在C訓練集中的所有例子。由于C(c/)的范圍為
,設(shè)定 值b=0.5,當C(d)≥b時,郵件為垃圾郵件,當C(d)<b時,郵件為正常郵件。
6.根據(jù)權(quán)利要求1所述的一種基于垃圾郵件的分類方法,其特征在于所述 的新郵件分類完成之后,可以將新郵件加入預測集,進行分類預測后,重新訓 練集,使模型再繼續(xù)學習,得到新的模型步驟將已經(jīng)完成分類的郵件,加入 到相應(yīng)預測集中,判斷分類是否錯誤,如果正確,將新郵件加入到相應(yīng)訓練集 中再次訓練,得到新的垃圾郵件和正常郵件模型。
全文摘要
本發(fā)明公開了一種基于部分匹配預測的垃圾郵件過濾方法。包括如下步驟1)將新郵件變換成為一個001~127ASC II值對應(yīng)字符組成的字符串;2)取出以往垃圾郵件訓練集、正常郵件訓練集、垃圾郵件預測集和正常郵件預測集;3)將正常郵件訓練集和垃圾郵件訓練集分別經(jīng)過部分匹配預測算法,訓練成垃圾郵件模型和正常郵件模型;4)將新郵件變換后的字符串分別和垃圾郵件模型以及正常郵件進行交叉熵運算,得到兩個交叉熵值;5)獲得最小交叉熵的模型決定了新郵件是否是垃圾郵件或者正常郵件的分類結(jié)果;6)新郵件分類之后,將新郵件加入預測集,進行增量學習,得到新的模型。本發(fā)明有效避免將正常郵件誤作垃圾郵件的情況發(fā)生。
文檔編號G06K9/66GK101345720SQ20081012028
公開日2009年1月14日 申請日期2008年8月15日 優(yōu)先權(quán)日2008年8月15日
發(fā)明者任沁清, 鵬 彭, 徐從富, 陸冠中 申請人:浙江大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
林西县| 南京市| 明水县| 阜城县| 陇川县| 富民县| 阿城市| 柏乡县| 阆中市| 临沭县| 新化县| 乌拉特前旗| 金山区| 闵行区| 安庆市| 阜南县| 巴东县| 嘉禾县| 新安县| 灵石县| 合山市| 株洲县| 香港| 乌兰浩特市| 临漳县| 田林县| 金秀| 赣榆县| 丹巴县| 黔南| 监利县| 子洲县| 万山特区| 策勒县| 洛浦县| 梁河县| 鄂托克前旗| 泊头市| 林甸县| 黄陵县| 台东市|