垃圾郵件過濾方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例屬于信息過濾領(lǐng)域,尤其涉及一種垃圾郵件過濾方法及裝置。
【背景技術(shù)】
[0002]文本聚類是將語義相近的文本聚在一起,傳統(tǒng)的數(shù)據(jù)挖掘方法在處理文本數(shù)據(jù)之前,首先必須把文本表示成計(jì)算機(jī)能夠處理的、可體現(xiàn)文本本質(zhì)特征的形式,然后用詞頻逆向文件頻率(Term Frequency Inverse Document Frequency,TFIDF)將文檔轉(zhuǎn)化為向量形式,最后在向量空間模型中通過文本聚類方法計(jì)算文本相似度。在基于TFIDF的向量空間模型中,由于沒有考慮詞之間存在的概念相似情況,因此影響了數(shù)據(jù)聚類的準(zhǔn)確性。并且,現(xiàn)有方法也難以識(shí)別出垃圾郵件發(fā)送者在郵件內(nèi)容中融入的正常郵件信息或者關(guān)鍵詞語,從而難以準(zhǔn)確過濾出垃圾郵件。
【發(fā)明內(nèi)容】
[0003]本發(fā)明實(shí)施例提供了一種垃圾郵件過濾方法及裝置,旨在解決現(xiàn)有方法難以準(zhǔn)確過濾出垃圾郵件的問題。
[0004]本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種垃圾郵件過濾方法,所述方法包括:
[0005]接收到新郵件后,獲取所述新郵件的郵件內(nèi)容;
[0006]將獲取的郵件內(nèi)容處理為預(yù)設(shè)類別的字符串;
[0007]根據(jù)預(yù)設(shè)的空格懲罰值、字符相似度值及預(yù)設(shè)的初始簇中心的數(shù)據(jù)確定所述郵件內(nèi)容與所述預(yù)設(shè)初始簇中心的文本相似度;
[0008]根據(jù)確定的文本相似度與預(yù)設(shè)的閾值判斷所述新郵件是否為垃圾郵件,以根據(jù)判斷結(jié)果判斷是否過濾所述新郵件。
[0009]本發(fā)明實(shí)施例的另一目的在于提供一種垃圾郵件過濾裝置,所述裝置包括:
[0010]郵件內(nèi)容獲取單元,用于接收到新郵件后,獲取所述新郵件的郵件內(nèi)容;
[0011]郵件內(nèi)容預(yù)處理單元,用于將獲取的郵件內(nèi)容處理為預(yù)設(shè)類別的字符串;
[0012]文本相似度確定單元,用于根據(jù)預(yù)設(shè)的空格懲罰值、字符相似度值及預(yù)設(shè)的初始簇中心的數(shù)據(jù)確定所述郵件內(nèi)容與所述預(yù)設(shè)初始簇中心的文本相似度;
[0013]垃圾郵件判斷單元,用于根據(jù)確定的文本相似度與預(yù)設(shè)的閾值判斷所述新郵件是否為垃圾郵件,以根據(jù)判斷結(jié)果判斷是否過濾所述新郵件。
[0014]在本發(fā)明實(shí)施例中,由于將獲取的郵件內(nèi)容處理為預(yù)設(shè)類別的字符串,因此縮短了郵件內(nèi)容的長度,減少了郵件內(nèi)容的比較次數(shù),從而提高了過濾郵件的速度。并且,由于保留了完整的郵件內(nèi)容,因此保證了聚類指令,從而提高了過濾垃圾郵件的準(zhǔn)確度。
【附圖說明】
[0015]圖1是本發(fā)明第一實(shí)施例提供的一種垃圾郵件過濾方法的流程圖;
[0016]圖2是本發(fā)明第二實(shí)施例提供的一種垃圾郵件過濾裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0017]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0018]本發(fā)明實(shí)施例中,接收到新郵件后,獲取所述新郵件的郵件內(nèi)容,將獲取的郵件內(nèi)容處理為預(yù)設(shè)類別的字符串,根據(jù)預(yù)設(shè)的空格懲罰值、字符相似度值及預(yù)設(shè)的初始簇中心的數(shù)據(jù)確定所述郵件內(nèi)容與所述預(yù)設(shè)初始簇中心的文本相似度,根據(jù)確定的文本相似度與預(yù)設(shè)的閾值判斷所述新郵件是否為垃圾郵件,以根據(jù)判斷結(jié)果判斷是否過濾所述新郵件。
[0019]為了說明本發(fā)明所述的技術(shù)方案,下面通過具體實(shí)施例來進(jìn)行說明。
[0020]實(shí)施例一:
[0021]圖1示出了本發(fā)明第一實(shí)施例提供的一種垃圾郵件過濾方法的流程圖,詳述如下:
[0022]步驟S11,接收到新郵件后,獲取所述新郵件的郵件內(nèi)容。
[0023]該步驟中,當(dāng)接收到一個(gè)新郵件時(shí),解碼該新郵件,使之成為正常的文本內(nèi)容,再從解碼后的新郵件中獲取該新郵件的郵件內(nèi)容,該郵件內(nèi)容包括正文、關(guān)鍵字和附件等。
[0024]步驟S12,將獲取的郵件內(nèi)容處理為預(yù)設(shè)類別的字符串。
[0025]其中,預(yù)設(shè)類別的字符串包括中文字符、英文字符串和其他字符的字符串。需要指出的是,當(dāng)郵件內(nèi)容包括數(shù)字時(shí),該數(shù)字劃分為“英文字符串” 一類。
[0026]該步驟中,假設(shè)郵件內(nèi)容為“Θ復(fù):55如有打擾請(qǐng)見諒! 2”,則該郵件內(nèi)容經(jīng)過處理后變?yōu)?“Θ,,、“復(fù),,、“:”、“55”、“如”、“有”、“打”、“擾”、“請(qǐng)”、“見”、“諒”、“! ”、“2””,其中,“Θ”、“: ”、“! ”劃分為“其他字符”這一類,“復(fù)”、“如”、“有”、“打”、“擾”、“請(qǐng)”、“見”、“諒”劃分為“中文字符”這一類,“55”、“2”劃分為“英文字符”這一類。
[0027]步驟S13,根據(jù)預(yù)設(shè)的空格懲罰值、字符相似度值及預(yù)設(shè)的初始簇中心的數(shù)據(jù)確定所述郵件內(nèi)容與所述預(yù)設(shè)初始簇中心的文本相似度。
[0028]其中,預(yù)設(shè)的空格懲罰值為負(fù)數(shù),其具體數(shù)值根據(jù)需要進(jìn)行設(shè)定,可以設(shè)定為-1,-2等,當(dāng)然,也可以設(shè)定為其他數(shù)值,此處不作限定。
[0029]其中,初始簇中心的數(shù)據(jù)包括字符串及長度,具體地,所述根據(jù)預(yù)設(shè)的空格懲罰值、字符相似度值及預(yù)設(shè)的初始簇中心的數(shù)據(jù)確定所述郵件內(nèi)容與所述預(yù)設(shè)初始簇中心的文本相似度包括:
[0030]Α1、根據(jù)預(yù)設(shè)的空格懲罰值及字符相似度值確定處理得到的字符串與預(yù)設(shè)的初始簇中心的字符串的最高得分。具體地,All、根據(jù)下式初始化回溯矩陣的第一行和第一列:F0iJ= dX j,其中,d為預(yù)設(shè)的空格懲罰值,0彡j彡(郵件內(nèi)容的長度-1),或者,0彡j彡(預(yù)設(shè)的初始簇中心的長度-1) ;Fli0= dXi,其中,0彡i彡(郵件內(nèi)容的長度-1),或者,Ο^?^Ξ (預(yù)設(shè)的初始簇中心的長度-1)。需要指出的是,如果j小于(預(yù)設(shè)的初始簇中心的長度-1),則i小于(郵件內(nèi)容的長度-1)。這里預(yù)設(shè)的初始簇中心的字符串為人工選取的作為垃圾郵件的字符串。A12、根據(jù)下式確定回溯矩陣的其他行列:F^=^si
i+d, Fx ^+山’其中—址⑴,Pj)為1\與P」的字符相似度值,并將最大的F “ s作為處理得到的字符串與預(yù)設(shè)的初始簇中心的字符串的最高得分。需要指出的是,^與^為可能屬于同一類別的字符,也可能屬于不同類別的字符,當(dāng)!\與P ]為都屬于同一類別的字符,若兩者匹配,則可定義sirnd P,)為1 (或者為大于0的其他數(shù)值),若兩者不匹配,則可定義simd Pj)為0(或者為小于0的其他數(shù)值)。當(dāng)然,當(dāng)1\與P j分別屬于不同類別的字符時(shí),兩者肯定不匹配。在該步驟中,最大的Fy為回溯矩陣最右下角單元格的值,為了節(jié)省工作量,可在計(jì)算出回溯矩陣最右下角單元格的值時(shí),直接將該值作為處理得到的字符串與預(yù)設(shè)的初始簇中心的字符串的最高得分。
[0031]A2、根據(jù)確定的最高得分、郵件內(nèi)容的長度、預(yù)設(shè)的初始簇中心的長度計(jì)算所述郵件內(nèi)容和預(yù)設(shè)的初始簇中心的文本相似度。具體地,A21、確定郵件內(nèi)容的長度和預(yù)設(shè)的初始簇中心的長度中的較大值;A22、根據(jù)確定的最高得分和確定的較大值計(jì)算所述郵件內(nèi)容和預(yù)設(shè)的初始簇中心的文本相似度。具體地,當(dāng)定義!\與P.j匹配時(shí),sim(T Pj)為1,兩者不匹配,sim^P,)為0,則根據(jù)下式計(jì)算所述郵件內(nèi)容和預(yù)設(shè)的初始簇中心的文本相似度:S頂=確定的最高得分/確定的較大值,以歸一化郵件內(nèi)容和預(yù)設(shè)的初始簇中心的文本相似度(即S頂),使該S頂?shù)闹翟赱0,1]之間,當(dāng)S頂越接近1,表明郵件內(nèi)容和預(yù)設(shè)的初始簇中心越相似,否則,表明郵件內(nèi)容和預(yù)設(shè)的初始簇中心越不相似。當(dāng)然,當(dāng)定義^與!3 j匹配時(shí),simO^Pj)為非1的數(shù)值,則確定該simO^Pj)與1的倍數(shù),假設(shè)為“M”,則S頂=確定的最高得分/(M*確定的較大值),以保證該S頂?shù)闹翟赱0,1]之間。
[0032]步驟S14,根據(jù)確定的文本相似度與預(yù)設(shè)的閾值判斷所述新郵件是否為垃圾郵件,以根據(jù)判斷結(jié)果判斷是否過濾所述新郵件。
[0033]具體地,所述根據(jù)確定的文本相似度與預(yù)設(shè)的閾值判斷所述新郵件是否為垃圾郵件,以根據(jù)判斷結(jié)果判斷是否過濾所述新郵件,包括:
[0034]B1、判斷確定的文本相似度是否大于預(yù)設(shè)的閾值。假設(shè)預(yù)設(shè)的閾值為M,則判斷S頂是否大于M。
[0035]B2、在確定的文本相似度大于預(yù)設(shè)的閾值時(shí),判定所述新郵件為垃圾郵件,并過濾所述新郵件。具體地,過濾新郵件是指拒絕該新郵件存放在“收件箱”里,可以直接刪掉該新郵件,也可以將該新郵件存放在垃圾郵件的文件夾,以使得郵件被錯(cuò)判時(shí),用戶也還可以瀏覽該郵件,減少用戶損失。
[0036]B3、在確定的文本相似度小于或等于