專(zhuān)利名稱(chēng):一種反圖像型垃圾郵件的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理與模式識(shí)別技術(shù),具體涉及一種垃圾郵件圖像的特征提取、 識(shí)別技術(shù)及裝置。
背景技術(shù):
經(jīng)過(guò)30多年的發(fā)展,電子郵件已成為互連網(wǎng)非常重要的的組成部分,電子郵件在 人們交流和通信中扮演越來(lái)越重要的角色。然而,垃圾郵件的泛濫使得電子郵件受到巨大 挑戰(zhàn)。目前,我國(guó)已成為垃圾郵件的受害者。據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的《中國(guó) 互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,2004年1月中國(guó)網(wǎng)民平均每周收到垃圾郵件7. 9封,但是 2009年1月中國(guó)網(wǎng)民平均每周收到的垃圾郵件數(shù)量達(dá)到17. 55封,隨著網(wǎng)民數(shù)量的增加垃 圾郵件的數(shù)量也不斷的在增加。普通用戶(hù)收到的垃圾郵件主要有三種純文本格式,純圖片 格式和圖片加文本格式。其中只有30%是純文本格式,這也說(shuō)明圖像垃圾郵件所占比例接 近70%。垃圾郵件問(wèn)題從出現(xiàn)之初就引起了社會(huì)各界的關(guān)注,并出現(xiàn)了大量的垃圾郵件檢 測(cè)算法,例如IP黑名單、基于規(guī)則的垃圾郵件檢測(cè)算法、基于文本內(nèi)容的檢測(cè)算法等、基于 行為的過(guò)濾方式。其中以基于文本內(nèi)容的檢測(cè)算法研究得最多,其性能也最好。然而,就像在病毒與反病毒的斗爭(zhēng)中一樣,隨著反垃圾郵件技術(shù)的不斷發(fā)展,垃圾 郵件制造者自身技術(shù)也在不斷提高。由于基于文本內(nèi)容的反垃圾郵件系統(tǒng)在檢測(cè)文本信息 方面已經(jīng)具有很高的效率,為了逃避此種系統(tǒng)的檢測(cè),垃圾郵件制造者將文字信息嵌入到 圖像中,以圖像為載體來(lái)傳播垃圾信息。這種以圖像為載體的垃圾郵件被稱(chēng)為圖像型垃圾 郵件,由于其文本內(nèi)容被嵌入在圖像中,使得基于文本內(nèi)容的反垃圾郵件系統(tǒng)完全失效。并 且圖像型垃圾郵件的體積是文本型垃圾郵件的10-20倍,圖片型垃圾郵件一方面消耗大量 的網(wǎng)絡(luò)資源,導(dǎo)致網(wǎng)絡(luò)堵塞;另一方面浪費(fèi)大量的存儲(chǔ)資源,導(dǎo)致社會(huì)經(jīng)濟(jì)的重大損失。圖 像型垃圾郵件的蔓延,已給社會(huì)帶來(lái)極大的負(fù)面影響。為遏制圖像型垃圾郵件的蔓延,彌補(bǔ)基于文本內(nèi)容的垃圾郵件檢測(cè)系統(tǒng)的不足, 已經(jīng)有許多學(xué)者對(duì)圖像型垃圾郵件作了較深入的研究。當(dāng)前主流的商業(yè)系統(tǒng)采用該技術(shù)利 用光學(xué)文字識(shí)別技術(shù)(OCR)來(lái)提取圖像中嵌入的文字,然后利用傳統(tǒng)的基于文本內(nèi)容的垃 圾郵件檢測(cè)手段識(shí)別圖像型垃圾郵件。但是垃圾郵件中所嵌入的圖像通常含有大量人為干 擾,使得文字識(shí)別正確率較低,效率也不高。另外一些學(xué)者則提出利用垃圾郵件中所含圖像 的屬性作為特征來(lái)識(shí)別圖像型垃圾郵件,例如大小、寬、高、面積等。該方法雖然識(shí)別速度較 快,但僅能識(shí)別出較少的圖像型垃圾郵件。反垃圾郵件領(lǐng)域仍在尋找一種快速高效的圖像 型垃圾郵件識(shí)別算法以解決圖像型垃圾郵件問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明主要提出一種垃圾郵件圖像識(shí)別方法及裝置。通過(guò)提取郵件中所含圖像的 元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,結(jié)合支持向量機(jī)實(shí)現(xiàn)垃圾郵件圖像的自動(dòng)檢測(cè)與 識(shí)別。本發(fā)明的主要內(nèi)容包括提取郵件圖像的元數(shù)據(jù)特征、提取圖像的顏色特征、提取圖像的紋理特征和形狀特征的技術(shù),基于支持向量機(jī)的垃圾郵件圖像自動(dòng)識(shí)別裝置。為了實(shí)現(xiàn)上述目的,采取的技術(shù)方案是1.提取待測(cè)圖像郵件中圖像的元數(shù)據(jù)特征。元數(shù)據(jù)特征包括高度、寬度、高寬比、文件類(lèi)型、文件大小、文件面積、壓縮率、周 長(zhǎng)復(fù)雜度、文字區(qū)域占總區(qū)域的面積比率等。2.提取待測(cè)圖像郵件中圖像的顏色特征。顏色特征包括灰度直方圖、顏色直方圖、平均色、顏色集、顏色聚合向量、平均亮 度、顏色空間等。3.提取待測(cè)圖像郵件中圖像的紋理特征。紋理特征包括共生矩陣、邊緣頻率、小波變換等。4.提取待測(cè)圖像郵件中圖像的形狀特征。形狀特征包括幾何矩、偏心率、骨架等。5.基于支持向量機(jī)的垃圾郵件圖像自動(dòng)識(shí)別裝置支持向量機(jī)(SVM,Support Vector Machine)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué) 習(xí)方法。統(tǒng)計(jì)學(xué)習(xí)理論針對(duì)小樣本統(tǒng)計(jì)問(wèn)題建立了一套新的理論體系,最近10多年間發(fā)展 迅速,成為各界研究的熱點(diǎn)。支持向量機(jī)也隨之發(fā)展,它通過(guò)構(gòu)造最優(yōu)分類(lèi)平面來(lái)實(shí)現(xiàn)分 類(lèi)。在傳統(tǒng)的基于文本內(nèi)容的垃圾郵件過(guò)濾算法中,支持向量機(jī)就表現(xiàn)出了很好的性能。因 此本發(fā)明利用支持向量機(jī)作為分類(lèi)算法,對(duì)郵件圖像進(jìn)行分類(lèi)以識(shí)別出垃圾郵件圖像。構(gòu)建一個(gè)基于支持向量機(jī)的分類(lèi)器,需要大量的郵件圖像樣本,包括正常郵件圖 像樣本和垃圾郵件圖像樣本。提取這些圖像的元數(shù)據(jù)、顏色和紋理特征,并對(duì)特征進(jìn)行歸一 化,然后利用網(wǎng)格法搜索支持向量機(jī)的最佳參數(shù)。找到最佳參數(shù)后便可以利用提取的圖像 特征數(shù)據(jù)及參數(shù)對(duì)支持向量機(jī)進(jìn)行訓(xùn)練以生成一個(gè)基于元數(shù)據(jù)、顏色、紋理、形狀特征和支 持向量機(jī)的郵件圖像分類(lèi)器。當(dāng)出現(xiàn)未知的郵件圖像時(shí),提取其元數(shù)據(jù)、顏色、紋理和形狀 特征,然后將特征向量輸入到該分類(lèi)器即可判定該郵件圖像是否是垃圾郵件圖像。最后,實(shí)施本發(fā)明具有以下有益效果從本發(fā)明提供的以上技術(shù)方案可以看出,本發(fā)明提取郵件圖像的元數(shù)據(jù)、顏色、紋 理和形狀特征,并結(jié)合支持向量機(jī)實(shí)現(xiàn)垃圾郵件圖像的自動(dòng)識(shí)別。其中,顏色和直方圖的矩 對(duì)平移、旋轉(zhuǎn)、縮放有較好的魯棒性,因此其抗干擾能力強(qiáng),能應(yīng)對(duì)絕大多數(shù)垃圾郵件圖像 中的人為干擾。由于提取的是圖像的元數(shù)據(jù)特征,以及圖像的顏色和紋理特征,而不是提 取、分析和區(qū)別圖像中文字特征,采用直接視覺(jué)特征的好處是僅需要對(duì)圖像文件進(jìn)行一次 線(xiàn)性?huà)呙?,避免了文字識(shí)別所需的反復(fù)掃描,降低了計(jì)算復(fù)雜度。同時(shí),采用直接視覺(jué)特征 能夠有效克服文字扭曲技術(shù)對(duì)OCR字符識(shí)別軟件的影響,提高分類(lèi)器的抗干擾能力。因此 本發(fā)明速度較快、效率高。另外,支持向量機(jī)的引入,使得整個(gè)裝置更加智能化、自動(dòng)化。并 且通過(guò)利用新的樣本郵件圖像對(duì)分類(lèi)器的訓(xùn)練,可以快速識(shí)別新類(lèi)型的垃圾郵件圖像。
圖1為本發(fā)明構(gòu)建基于支持向量機(jī)的分類(lèi)器的具體流程圖;圖2為本發(fā)明對(duì)未知郵件圖像屬性的典型判定流程圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案、及優(yōu)點(diǎn)更加清楚明白,以下參照附圖對(duì)本發(fā)明進(jìn)一 步詳細(xì)說(shuō)明。圖1描述了本發(fā)明構(gòu)建基于支持向量機(jī)的分類(lèi)器的具體過(guò)程步驟101、手工標(biāo)記正常圖像和垃圾圖像為構(gòu)建一個(gè)較好的分類(lèi)器,首先需要大量樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練,其中正常郵件 樣本最好與垃圾郵件樣本數(shù)量相當(dāng)。步驟102、提取樣本集中各幅圖像的元數(shù)據(jù)特征、顏色特征、紋理特征和形狀特征步驟103、尋找分類(lèi)器的最佳參數(shù)采用不同的參數(shù),訓(xùn)練所獲得的分類(lèi)器性能差別非常大。為了尋找一組最佳的參 數(shù),可以采用的一種方法是用網(wǎng)格法在一個(gè)2維平面中搜索最佳參數(shù)包括懲罰因子C和參 數(shù) gama。步驟104、訓(xùn)練支持向量機(jī)分類(lèi)器利用步驟102獲得的大量訓(xùn)練樣本的特征數(shù)據(jù)和步驟103獲得的最佳參數(shù),對(duì)支 持向量機(jī)進(jìn)行訓(xùn)練。訓(xùn)練后生成一模型文件,其中包含各種參數(shù)和選取的支撐矢量。這樣 便完成了一個(gè)分類(lèi)器的構(gòu)建。圖2描述了本發(fā)明對(duì)未知郵件圖像的典型判定過(guò)程步驟201、讀入郵件圖像如果成功載入圖像則繼續(xù)步驟202以提取圖像的特征,否則執(zhí)行步驟208返回判 定失敗消息。步驟202、圖像特征提取提取未知圖像的元數(shù)據(jù)特征、顏色特征、紋理特征和形狀特征。步驟203、載入訓(xùn)練階段所生成的模型文件圖1描述了支持向量機(jī)分類(lèi)器的構(gòu)建過(guò)程,其最終生成了一個(gè)模型文件。該文件 中包含了支持向量機(jī)的參數(shù)和選擇的支撐矢量。將這些信息讀入,構(gòu)建一個(gè)分類(lèi)器;如果文 件讀入失敗則執(zhí)行步驟208以返回判定失敗消息。步驟204、判定郵件圖像屬性將步驟203所獲得的郵件圖像特征作為步驟203所生成的分類(lèi)器的輸入,利用分 類(lèi)器判定圖像的屬性。如果為正常郵件圖像則執(zhí)行步驟205,返回圖像為正常郵件圖像消 息;否則執(zhí)行步驟206,返回該圖像為垃圾郵件圖像消息。步驟205、返回圖像為正常郵件圖像消息當(dāng)系統(tǒng)將判斷為正常郵件圖像時(shí),則返回正常郵件圖像標(biāo)志。步驟206、返回圖像為垃圾郵件圖像消息當(dāng)系統(tǒng)將判斷為垃圾郵件圖像時(shí),則返回垃圾郵件圖像標(biāo)志。步驟207、返回判定失敗消息當(dāng)系統(tǒng)出現(xiàn)異常時(shí),如圖像文件載入失敗,則返回判定失敗消息。以上對(duì)本發(fā)明中利用圖像元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,結(jié)合支持向量 機(jī)對(duì)垃圾郵件圖像的自動(dòng)識(shí)別算法及裝置進(jìn)行了詳細(xì)介紹,以上的說(shuō)明只是用于幫助理解 本發(fā)明的方法及其思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限 制。
權(quán)利要求
一種利用圖像元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,結(jié)合支持向量機(jī)自動(dòng)識(shí)別垃圾郵件圖像的方法及裝置;首先提取出圖像的元數(shù)據(jù);其次提取出圖像的顏色特征;再次提取出圖像的紋理特征和形狀特征;最后利用支持向量機(jī)分類(lèi)器對(duì)圖像進(jìn)行分類(lèi),以判定圖像是垃圾郵件圖像還是正常郵件圖像。
2.如權(quán)利要求1所述,提取圖像的元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,圖像的這 些特征可以很好的反映圖像中所含對(duì)象的形狀信息;垃圾郵件圖像與正常郵件圖像不同, 通常它們的大小比較正常圖片小,顏色較正常圖片單一,紋理沒(méi)有正常圖片豐富;利用元數(shù) 據(jù)、顏色特征、紋理特征和形狀特征可以很好的表達(dá)這些特征并區(qū)分垃圾郵件圖像和正常 圖像。
3.如權(quán)利要求1所述,利用權(quán)力要求2提取的特征并結(jié)合所構(gòu)造的支持向量機(jī)分類(lèi)器 對(duì)未知圖像進(jìn)行自動(dòng)分類(lèi),返回結(jié)果為正常郵件圖像或者垃圾郵件圖像。
4.權(quán)力要求3中的支持向量機(jī)分類(lèi)器的構(gòu)造方式如下首先,獲取大量的垃圾郵件圖像和正常郵件圖像樣本集,當(dāng)正常圖像樣本數(shù)量與垃圾 郵件圖像樣本數(shù)量相當(dāng)時(shí),效果最佳;其次,提取以上圖像集中各幅圖像的元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,并對(duì)這 些特征歸一化處理。然后對(duì)每一個(gè)特征向量手工加上正常郵件圖像或者垃圾郵件圖像標(biāo) 簽;再次,將這些特征向量作為訓(xùn)練樣本,利用網(wǎng)格法選取支持向量機(jī)的最佳參數(shù);最后,利用上一步選取的參數(shù)和所獲得的訓(xùn)練樣本作為支持向量機(jī)的輸入,訓(xùn)練生成 模型文件,其中包含最佳參數(shù)和所選取的支持向量。
全文摘要
本發(fā)明涉及圖像處理技術(shù)和模式識(shí)別領(lǐng)域的相關(guān)技術(shù),公開(kāi)了一種利用垃圾郵件圖像自動(dòng)識(shí)別的方法及裝置。利用圖像的元數(shù)據(jù)、顏色特征和紋理特征并結(jié)合支持向量機(jī)實(shí)現(xiàn)對(duì)正常郵件圖像和垃圾郵件圖像的自動(dòng)分類(lèi)。首先提取出圖像的元數(shù)據(jù);其次提取出圖像的顏色特征;再次提取出圖像的紋理特征和形狀特征;最后,利用支持向量機(jī)分類(lèi)器對(duì)圖像進(jìn)行自動(dòng)識(shí)別。本發(fā)明中,由于提取的是圖像的元數(shù)據(jù)特征,以及圖像的顏色、紋理和形狀特征,因此本發(fā)明速度較快、效率高。
文檔編號(hào)G06K9/66GK101877066SQ20101017996
公開(kāi)日2010年11月3日 申請(qǐng)日期2010年5月21日 優(yōu)先權(quán)日2010年5月21日
發(fā)明者劉嶠, 王超, 羅緒成, 鄧蔚 申請(qǐng)人:電子科技大學(xué)