專利名稱:一種基于高階自相關(guān)特征的垃圾郵件圖像識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理與模式識別技術(shù),具體涉及一種垃圾郵件圖像的特征提取、識別技 術(shù)及裝置。
背景技術(shù):
經(jīng)過30多年的發(fā)展,電子郵件已成為互連網(wǎng)不可缺少的組成部分,越來越多的人使用電 子郵件作為其交流和通信的工具。然而,垃圾郵件的泛濫使得這一便捷的通信手段受到巨大 挑戰(zhàn)。目前,我國已成為垃圾郵件的重災(zāi)區(qū)之一。據(jù)中國互聯(lián)網(wǎng)協(xié)會反垃圾郵件中心于2008 年1月發(fā)布的調(diào)査報告顯示,我國用戶收到的郵件中一半以上的郵件是垃圾郵件。垃圾郵件 問題已經(jīng)引起了社會各界的關(guān)注,并出現(xiàn)了大量的垃圾郵件檢測算法,例如IP黑名單、基于 行為的過濾方式、基于規(guī)則的垃圾郵件檢測算法、基于文本內(nèi)容的檢測算法等。其中以基于 文本內(nèi)容的檢測算法研究得最多,其性能也最好。
然而,垃圾郵件制造者自身技術(shù)也在不斷提高。為逃避高效的基于文本內(nèi)容的反垃圾郵 件系統(tǒng)的檢測,垃圾郵件制造者將文字信息嵌入到圖像中,以圖像為載體來傳播垃圾信息。 該類型的垃圾郵件被稱為圖像型垃圾郵件,由于其文本內(nèi)容被嵌入在圖像中,導(dǎo)致基于文本 內(nèi)容的反垃圾郵件系統(tǒng)全部失效。其體積是文本型垃圾郵件的10-20倍,它們一方面消耗大 量的網(wǎng)絡(luò)資源,導(dǎo)致網(wǎng)絡(luò)堵塞;另一方面浪費大量的存儲資源給社會造成重大經(jīng)濟損失。圖 像型垃圾郵件蔓延,已給社會帶來極大的負面影響。
為遏制圖像型垃圾郵件的傳播,彌補基于文本內(nèi)容的垃圾郵件檢測系統(tǒng)的不足,許多學(xué) 者對圖像型垃圾郵件作了較深入的研究。有學(xué)者提出利用光學(xué)文字識別技術(shù)(OCR)來提取 圖像中嵌入的文字,然后利用傳統(tǒng)的基于文本內(nèi)容的垃圾郵件檢測手段識別圖像型垃圾郵件。 但是垃圾郵件中所嵌入的圖像通常含有大量人為干擾,使得文字識別正確率較低,效率也不 高。另外一些學(xué)者則提出利用垃圾郵件中所含圖像的屬性作為特征來識別圖像型垃圾郵件, 例如大小、寬、高、面積等。該方法雖然識別速度較快,但僅能識別出較少的圖像型垃圾郵 件。還有一些學(xué)者主張利用圖像的顏色、邊緣、文本區(qū)域等特征識別圖像型垃圾郵件。該類 方法兼顧了識別效率和正確率,取得了令人鼓舞的成績。圖像型垃圾郵件已經(jīng)爆發(fā)將近兩年, 如今,其在垃圾郵件中的比例依然相當(dāng)高,約為8%。因此,反垃圾郵件領(lǐng)域仍在尋找一種快 速高效的圖像型垃圾郵件識別算法以徹底解決圖像型垃圾郵件問題。
發(fā)明內(nèi)容
本發(fā)明主要提出一種垃圾郵件圖像識別方法及裝置。通過提取郵件中所含圖像的高階自 相關(guān)特征,結(jié)合支持向量機實現(xiàn)垃圾郵件圖像的自動檢測與識別。本發(fā)明的主要內(nèi)容包括垃 圾郵件圖像的高階自相關(guān)特征及其提取技術(shù)、特征的歸一化方式、基于支持向量機的垃圾郵 件圖像自動識別裝置。
1、 垃圾郵件圖像的高階自相關(guān)特征及其提取技術(shù)
垃圾郵件制造者為逃避基于文本內(nèi)容的反垃圾郵件工具的檢測,將大量的文字嵌入到圖 像中,借助圖像的表現(xiàn)能力來散布垃圾信息。為防止圖像中的文字被光學(xué)文字識別工具提取 出來,垃圾郵件制造者常常加入大量的人為干擾,使得垃圾郵件圖像檢測難度較大。然而, 由于垃圾郵件中含有大量文字,因此圖像之間存在相似性。高階自相關(guān)函數(shù)能夠很好的描述 這些特征,并且具有旋轉(zhuǎn)、平移、縮放不變性。N階自相關(guān)函數(shù)定義如式(1)所示
<formula>formula see original document page 4</formula> 式(l)中f(r)代表點r處的值,a、…、 代表N個偏移。二值化邊緣圖像對顏色細微
變化不敏感,且能很好的反映圖像的形狀信息。因此,本發(fā)明基于二值化邊緣圖像來提取圖 像的自相關(guān)特征。用P表示二值邊緣圖像的一個局部平面,f(r)為平面上的點,其取值為0 或l。因為二值邊緣圖像取值為離散型,則可以將N階自相關(guān)函數(shù)定義如式(2):
式(2)中rGP,由于N階自相關(guān)函數(shù)較多,所以本發(fā)明將N限定在二階,即N的取值 為0, 1, 2。并且將平面P設(shè)定為一個3X3的窗口。由此,可以形成25個高階自相關(guān)特征 提取模板,并獲得25維高階自相關(guān)特征。
2、 特征向量歸一化
特征向量歸一化是模式識別中很重要的一個步驟,對分類效果有很大的影響。對特征 數(shù)據(jù)歸一化處理后,可以使得所有特征數(shù)據(jù)均在一個取值范圍之類,如0和1之間。特征數(shù) 據(jù)歸一化不僅可以加速訓(xùn)練中核函數(shù)的收斂,并且可以減少單個特征對分類效果的影響,提 高分類精確度。特征數(shù)據(jù)歸一化方式有很多種,本發(fā)明采用式(3)來實現(xiàn)特征數(shù)據(jù)歸一化。<formula>formula see original document page 4</formula>式(3)中《為歸一化之前的特征數(shù)據(jù),y;為歸一化之后的特征數(shù)據(jù)。即每一維特征向 量歸一化為該維特征在該向量中的比例,這樣每一維特征向量都被歸一化到o和i之間。3、基于支持向量機的垃圾郵件圖像自動識別裝置
支持向量機(SVM, S叩port Vector Machine)是一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)方法。 統(tǒng)計學(xué)習(xí)理論針對小樣本統(tǒng)計問題建立了一套新的理論體系,最近IO多年間發(fā)展迅速,成為 各界研究的熱點。支持向量機也隨之發(fā)展,它通過構(gòu)造最優(yōu)分類平面來實現(xiàn)分類。在傳統(tǒng)的 基于文本內(nèi)容的垃圾郵件過濾算法中,支持向量機就表現(xiàn)出了很好的性能。因此本發(fā)明利用 支持向量機作為分類算法,對郵件圖像進行分類以識別出垃圾郵件圖像。
構(gòu)建一個基于支持向量機的分類器,需要大量的郵件圖像樣本,包括正常郵件圖像樣本 和垃圾郵件圖像樣本。提取這些圖像的高階自相關(guān)特征,并對特征進行歸一化,然后利用網(wǎng) 格法搜索支持向量機的最佳參數(shù)。找到最佳參數(shù)后便可以利用歸一化后的特征數(shù)據(jù)及參數(shù)對 支持向量機進行訓(xùn)練以生成一個基于高階自相關(guān)特征和支持向量機的郵件圖像分類器。當(dāng)出 現(xiàn)未知的郵件圖像時,提取其高階自相關(guān)特征并歸一化,然后將歸一化后的特征向量輸入到 該分類器即可判定該郵件圖像是否是垃圾郵件圖像。
最后,實施本發(fā)明具有以下有益效果
從本發(fā)明提供的以上技術(shù)方案可以看出,本發(fā)明利用圖像的高階自相關(guān)特征,并結(jié)合支 持向量機實現(xiàn)垃圾郵件圖像的自動識別。其中,高階自相關(guān)特征對平移、旋轉(zhuǎn)、縮放有較好 的魯棒性,因此其抗干擾能力強,能應(yīng)對絕大多數(shù)垃圾郵件圖像中的人為干擾。另外,支持 向量機的引入,使得整個裝置更加智能化、自動化。并且通過利用新的樣本郵件圖像對分類 器的訓(xùn)練,可以快速識別新類型的垃圾郵件圖像。
圖1為本發(fā)明用于圖像高階自相關(guān)特征提取的模板示意圖; 圖2為本發(fā)明中圖像高階自相關(guān)特征提取的具體流程圖; 圖3為本發(fā)明中圖像高階自相關(guān)特征歸一化算法的具體流程圖; 圖4為本發(fā)明構(gòu)建基于支持向量機的分類器的具體流程圖; 圖5為本發(fā)明對郵件圖像屬性判定的具體流程圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案、及優(yōu)點更加清楚明白,以下參照附圖對本發(fā)明進一步詳 細說明。圖1為本發(fā)明為提取圖像的高階自相關(guān)特征,根據(jù)自相關(guān)函數(shù)而設(shè)計的模板。
在本發(fā)明中需要提取0階、l階和2階自相關(guān)特征。由于一些特征可以通過旋轉(zhuǎn)另一個 特征得到,為此,對高階自相關(guān)特征篩選后,獲得25個3X3的模板。圖l所示模板中,標(biāo) 志為"*"的點表示不用關(guān)注的點,標(biāo)志為"1"的點表示需要關(guān)注的點。只要二值邊緣圖像 中的一個3X3的局部區(qū)域內(nèi)與某個模板中所有標(biāo)志為"1"的對應(yīng)位置均為邊緣點,即像素 值均為"1"則表示存在該特征。
圖2為本發(fā)明提取圖像高階自相關(guān)特征的流程示意圖,下面結(jié)合圖2對高階自相關(guān)特征 的提取過程作詳盡說明。
步驟201、讀入圖像
從網(wǎng)絡(luò)上截獲郵件后,對郵件進行分析,如果郵件中含有圖像,則對圖像格式分析并對 其解碼。另外,輸入的圖像邏輯大小必須大于3X3。
步驟202、邊緣檢測
邊緣檢測是圖像處理領(lǐng)域中一種極為重要的手段,邊緣可以很好的反映圖像所含對象的 形狀信息。邊緣檢測算子眾多,大致可以分成兩類基于灰度圖像的邊緣檢測算子和基于彩 色空間的邊緣檢測算子。大多數(shù)邊緣檢測算子均能很好的提取出圖像的邊緣,如sobel、 roberts等??梢匀我膺x取一種邊緣檢測算子作為本發(fā)明的邊緣檢測算子以提取郵件圖像的 邊緣。如果提取出的邊緣不是二值化的圖像,則需要進行二值化處理以獲得二值邊緣圖像。
步驟203、讀入一個像素點
為提取出圖像中的高階自相關(guān)特征,需要遍歷整幅圖像。 步驟204、判斷該像素點是否為邊緣點
顯然,僅需要對邊緣點做處理。因為非邊緣點肯定不滿足25個高階自相關(guān)特征提取模板 中的任何一個。如果是邊緣點,則繼續(xù)執(zhí)行步驟205,否則執(zhí)行步驟207。
步驟205、獲得該點周圍3X3鄰域的像素分布
本發(fā)明中,將自相關(guān)特征限定在一個3X3的局部區(qū)域內(nèi),所獲得的自相關(guān)特征提取模板 均為3X3的小窗口。當(dāng)該點是邊緣像素點時,應(yīng)該獲取其周圍3X3鄰域內(nèi)的像素分布,以 便于與模板比較并確定存在哪些特征。
步驟206、逐個匹配特征模板,并對匹配的模板進行統(tǒng)計
步驟205中已獲得一個3X3區(qū)域的像素分布情況,與圖1中的每一個模板比較,如果與數(shù)值加l。圖1中共25個模板,因此需要比較25次。 步驟207、是否遍歷完圖像所有像素點
當(dāng)整幅圖像遍歷完成時,該幅圖像的25個特征值就是這幅圖像中包含的與圖1中對應(yīng)的 25個模板相匹配的次數(shù)。如果還有未遍歷的點則回到步驟203繼續(xù)讀取下一個像素點,直到
遍歷完整幅圖像。
如圖3為本發(fā)明中圖像高階自相關(guān)特征歸一化算法的具體流程圖
步驟301、定義一個臨時變量sum用于記錄25維特征的總和,定義一個臨時變量i用于 循環(huán)控制,并均初始化為O;
步驟302、數(shù)組X中存放的是原始的特征數(shù)據(jù),將第i個特征數(shù)據(jù)的值與sura相加并賦 值給sum,并對循環(huán)控制變量加l;
步驟303、判斷循環(huán)控制變量的值是否小于25,即判斷是否所有的數(shù)據(jù)值均累加到sum 中。如果已經(jīng)計算完畢所有特征向量的和,則轉(zhuǎn)入步驟204,否則回到步驟302繼續(xù)求和;
步驟304、定義循環(huán)控制變量j和存放最終結(jié)果的特征向量數(shù)組Y;
步驟305、將第j維特征數(shù)據(jù)X(j)與所有特征數(shù)據(jù)之和sum之商作為最終的第j維特征 Y(j),循環(huán)控制變量j加1以便于求取下一個特征數(shù)據(jù);
步驟306、判斷循環(huán)控制變量j是否小于25,如果是則說明尚有數(shù)據(jù)未歸一化,則回到 步驟305繼續(xù)歸一化下一個特征。否則歸一化過程結(jié)束,則數(shù)組Y中為最終的歸一化特征數(shù) 據(jù)。
圖4描述了本發(fā)明構(gòu)建基于支持向量機的分類器的具體過程-步驟401、手工標(biāo)記兩類郵件圖像樣本
樣本圖像包括正常郵件圖像和垃圾郵件圖像。為構(gòu)建一個較好的分類器,首先需要大量 樣本對分類器進行訓(xùn)練,其中正常郵件樣本最好與垃圾郵件樣本數(shù)量相當(dāng)。
步驟402、提取樣本集中各幅圖像的高階自相關(guān)特征
對每幅圖像進行處理,每幅圖像可獲得一個25維的特征向量,采用圖2所示方式提取這 些特征。
步驟403、歸一化特征
對步驟402所提取的特征進行歸一化處理。特征歸一化有助于提高分類器的性能,歸一 化步驟如圖3所示步驟404、網(wǎng)格法搜索分類器的最佳參數(shù)
采用不同的參數(shù),訓(xùn)練所獲得的分類器性能差別非常大。為了尋找一組最佳的參數(shù),采 用網(wǎng)格法在一個2維平面中搜索最佳參數(shù)包括懲罰因子C和參數(shù)gama。
步驟405、訓(xùn)練支持向量機分類器
利用步驟403獲得的大量訓(xùn)練樣本的特征數(shù)據(jù)和步驟404獲得的最佳參數(shù),對支持向量 機進行訓(xùn)練。訓(xùn)練后生成一模型文件,其中包含各種參數(shù)和選取的支撐矢量。這樣便完成了 一個分類器的構(gòu)建。
圖5描述了本發(fā)明未知郵件圖像屬性的典型判定過程
步驟501、讀入郵件圖像
如果成功載入圖像則繼續(xù)步驟502以提取圖像的特征,否則執(zhí)行步驟508返回判定失敗 消息。
步驟502、圖像特征提取
采用圖2所示的方式提取圖像的高階自相關(guān)特征。 步驟503、特征歸一化
采用圖3所示過程,對步驟502所提取的特征進行歸一化處理。 步驟504、載入訓(xùn)練階段所生成的模型文件
圖4描述了支持向量機分類器的構(gòu)建過程,其最終生成了一個模型文件。該文件中包含 了支持向量機的參數(shù)和選擇的支撐矢量。將這些信息讀入,構(gòu)建一個分類器;如果文件讀入 失敗則執(zhí)行步驟508以返回判定失敗消息。
步驟505、判定郵件圖像屬性
將步驟503所獲得的歸一化特征作為步驟504所生成的分類器的輸入,利用分類器判定 圖像的屬性。如果為正常郵件圖像則執(zhí)行步驟506,返回圖像為正常郵件圖像消息;否則執(zhí) 行步驟507,返回該圖像為垃圾郵件圖像消息。
步驟506、返回圖像為正常郵件圖像消息 當(dāng)系統(tǒng)將判斷為正常郵件圖像時,則返回正常郵件圖像標(biāo)志。 步驟507、返回圖像為垃圾郵件圖像消息 當(dāng)系統(tǒng)將判斷為垃圾郵件圖像時,則返回垃圾郵件圖像標(biāo)志。 步驟508、返回判定失敗消息
8當(dāng)系統(tǒng)出現(xiàn)異常時,如圖像文件載入失敗,則返回判定失敗消息。
以上對本發(fā)明中利用圖像高階自相關(guān)特征,結(jié)合支持向量機對垃圾郵件圖像的自動識別 算法及裝置進行了詳細介紹,以上的說明只是用于幫助理解本發(fā)明的方法及其思想;同時, 對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變 之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1一種利用圖像高階自相關(guān)特征,結(jié)合支持向量機自動識別垃圾郵件圖像的方法及裝置。首先提取出圖像的邊緣信息,獲得圖像的二值化邊緣圖像;其次利用從高階自相關(guān)函數(shù)轉(zhuǎn)化而來的25個用于提取高階自相關(guān)特征的模板獲取圖像的高階自相關(guān)特征;再次對所提取的特征進行規(guī)一化處理,獲得特征值都在0和1之間的特征向量;最后利用支持向量機分類器對圖像進行分類,以判定圖像是垃圾郵件圖像還是正常郵件圖像。
2 如權(quán)利要求1所述,首先需要提取圖像的二值化邊緣。圖像的邊緣特征可以很好的反映圖像中所含對象的形狀信息。垃圾郵件圖像與正常郵件圖像不同,它們通常含有大量的文字,這些文字形成了特殊的邊緣特征。利用高階自相關(guān)特征可以很好的表達這些特征并反映垃圾郵件圖像之間的相似性。
3 如權(quán)利要求1所述,通過對高階自相關(guān)函數(shù)的轉(zhuǎn)化和一些精簡,設(shè)計出25個3X3的模板來提取圖像的高階自相關(guān)特征,由此,每一幅圖像可以獲得25維高階自相關(guān)特征用以區(qū)分該圖像的屬性。
4 如權(quán)利要求l所述,對所提取的25維圖像特征做歸一化處理,用每維特征與特征向量中所有特征值之和的商作為該維特征的值。這樣,可以保證每個特征值處于O和l之間,并且消弱了個別特征對最后判定結(jié)果的影響。通過歸一化處理可以大幅度改善分類的效果,提高分類精度。
5 如權(quán)利要求1所述,利用權(quán)利要求4的歸一化后的特征并結(jié)合所構(gòu)造的支持向量機分類器對未知圖像進行自動分類,返回結(jié)果為正常郵件圖像或者垃圾郵件圖像。
6 權(quán)利要求5中的支持向量機分類器的構(gòu)造方式如下首先,獲取大量的垃圾郵件圖像和正常郵件圖像樣本集,當(dāng)正常圖像樣本數(shù)量與垃圾郵件圖像樣本數(shù)量相當(dāng)時,效果最佳;其次,提取以上樣本集中各幅圖像的高階自相關(guān)特征,并對這些特征歸一化處理。然后對每一個特征向量手工加上正常郵件圖像或者垃圾郵件圖像標(biāo)簽;再次,將這些特征向量作為訓(xùn)練樣本,利用網(wǎng)格法選取支持向量機的最佳參數(shù);最后,利用上一步選取的參數(shù)和所獲得的訓(xùn)練樣本作為支持向量機的輸入,訓(xùn)練生成模型文件,其中包含最佳參數(shù)和所選取的支持向量。
全文摘要
本發(fā)明涉及圖像處理技術(shù)和模式識別領(lǐng)域的相關(guān)技術(shù),公開了一種利用垃圾郵件圖像自動識別的方法及裝置。利用圖像的高階自相關(guān)特征并結(jié)合支持向量機實現(xiàn)對正常郵件圖像和垃圾郵件圖像的自動分類。首先,利用邊緣檢測算子提取出圖像的二值化邊緣;其次,根據(jù)高階自相關(guān)函數(shù)設(shè)計出25個3×3高階自相關(guān)特征提取模板,并利用這些模板獲取圖像的25維高階自相關(guān)特征;再次,對獲取到的25維高階自相關(guān)特征作歸一化處理,使得所有特征值位于0到1之間;最后,利用支持向量機分類器對圖像進行自動識別。本發(fā)明中,由于高階自相關(guān)特征具有平移、旋轉(zhuǎn)不變性,使得該裝置具有較好的抗干擾性能。
文檔編號H04L12/58GK101594314SQ20081004449
公開日2009年12月2日 申請日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者萬明成, 偉 劉, 嶠 劉, 程紅蓉, 蔚 鄧, 佳 陳 申請人:電子科技大學(xué)