一種行為模式識(shí)別技術(shù)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種行為模式識(shí)別技術(shù),屬于互聯(lián)網(wǎng)數(shù)據(jù)安全處理領(lǐng)域。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的規(guī)模不斷擴(kuò)大以及上網(wǎng)用戶的增加,電子郵件因?yàn)槠浞奖?、快捷、便宜等特點(diǎn),成為人們的社會(huì)生活中越來越重要的一種通信方式,但是,我們的電子郵箱會(huì)經(jīng)常收到一些不認(rèn)識(shí)的人或地址發(fā)來的郵件,甚至這些郵件占了所收到郵件的大多數(shù),這些郵件甚至還會(huì)帶來病毒,是計(jì)算機(jī)中毒甚至癱瘓。所以垃圾郵件已經(jīng)成為我們面臨的安全問題。
[0003]正常的郵件發(fā)送都要遵循標(biāo)準(zhǔn)SMPT協(xié)議,按照協(xié)議規(guī)定的模式發(fā)送郵件。STMP協(xié)議的工作過程比較簡單,易于模擬,同時(shí)也存在安全缺陷,通過偽造合法的服務(wù)器身份、合法的發(fā)件人地址等手段來欺騙郵件服務(wù)器。由垃圾郵件和正常郵件的通信行為對(duì)比得知,正確判別垃圾郵件的關(guān)鍵問題在于對(duì)郵件發(fā)生過程中的通信信息進(jìn)行正確的識(shí)別。
[0004]反垃圾郵件占據(jù)相對(duì)較多的系統(tǒng)資源,所以一臺(tái)平時(shí)負(fù)荷不大可以完全滿足應(yīng)用的郵件安全產(chǎn)品可能在郵件病毒爆發(fā)或垃圾郵件嫉妒泛濫時(shí)系統(tǒng)資源被占滿這將導(dǎo)致自身防護(hù)不好的郵件安全產(chǎn)品甚至可能導(dǎo)致自身崩潰。
[0005]行為模式是指程序執(zhí)行或用戶操作過程中體現(xiàn)出的某種規(guī)律性,它通常反映了用戶的身份和習(xí)慣。通過大量的實(shí)驗(yàn)指出,無論是程序的執(zhí)行還是用戶的行為,在系統(tǒng)特性上都呈現(xiàn)出緊密的相關(guān)性。行為模式識(shí)別能夠在郵件傳輸代理通信階段,針對(duì)垃圾郵件在傳遞過程中顯示出來的如“發(fā)送頻率頻繁、在短時(shí)間內(nèi)不斷地進(jìn)行發(fā)送、動(dòng)態(tài)IP等”明顯一系列帶有垃圾郵件典型行為特征的郵件放入郵件隊(duì)列之前實(shí)時(shí)判斷并處理,這樣的話他不需要對(duì)郵件的全部進(jìn)行掃描,不僅提高了網(wǎng)關(guān)過濾垃圾郵件的速度,而且減少了網(wǎng)絡(luò)資源的負(fù)荷和網(wǎng)絡(luò)流量,可以提高垃圾郵件計(jì)算處理能力的同時(shí)也不會(huì)出現(xiàn)侵犯隱私權(quán)的法律風(fēng)險(xiǎn)。
[0006]之前,反垃圾郵件領(lǐng)域提出了用“行為識(shí)別技術(shù)”來過濾垃圾郵件,行為識(shí)別的主要優(yōu)勢有(I)處理效率高。不會(huì)考慮正文內(nèi)容,主要針對(duì)郵件頭信息,故處理速度很快,提高了處理效率;(2)識(shí)別效果持久。頭信息有固定的格式,不會(huì)頻繁改變,保證了識(shí)別效果的持久性;(3)節(jié)省帶寬。行為識(shí)別技術(shù)可以在會(huì)話連接階段進(jìn)行識(shí)別和攔截,有效的減少資源消耗;(4)安全性和保密性高。內(nèi)容過濾對(duì)郵件正文分析,其安全性和保密性無任何保障。行為模式識(shí)別技術(shù)著重于郵件頭信息,保護(hù)了用戶隱私。此外,行為模式識(shí)別模型技術(shù)還可以基于大量的垃圾郵件日志和存檔數(shù)據(jù)進(jìn)行離線的統(tǒng)計(jì)、分析和計(jì)算。行為模式識(shí)別技術(shù)有較大的發(fā)展?jié)摿?,是反垃圾郵件技術(shù)的發(fā)展方向之一。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是為了實(shí)現(xiàn)行為模式識(shí)別技術(shù)。是對(duì)垃圾郵件在實(shí)時(shí)通信過程中就可以判斷出是否為垃圾郵件
[0008]本發(fā)明的技術(shù)方案是這么實(shí)現(xiàn)的,一種行為模式識(shí)別技術(shù),所述的方法包括下述步驟:
[0009]首先模式識(shí)別分類通常要包括以下幾個(gè)步驟:數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘。郵件的行為采集是指從正常郵件和垃圾郵件中收集對(duì)象的相關(guān)數(shù)據(jù)信息的過程,數(shù)據(jù)采集是否采集到足夠多有代表性的樣本數(shù)據(jù)關(guān)系到模式的最后性能。
[0010]其次行為特征數(shù)據(jù)預(yù)處理,首先進(jìn)行數(shù)據(jù)清理即填寫空缺的值,識(shí)別、刪除孤立點(diǎn),垃圾數(shù)據(jù)能使行為模式陷入混亂,導(dǎo)致不可靠的輸出。其次進(jìn)行數(shù)據(jù)集成即將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。最后進(jìn)行數(shù)據(jù)的變換將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的數(shù)據(jù)形式。即從原始郵件數(shù)據(jù)中提取郵件頭信息,選取具有垃圾郵件可區(qū)分性的行為特征以及對(duì)特征數(shù)據(jù)的向量化處理。
[0011]最后采用數(shù)據(jù)挖掘的方法對(duì)提取出來的行為特征向量集合進(jìn)行模式挖掘。
【附圖說明】
[0012]附圖為行為模式識(shí)別技術(shù)基本原理圖。
【具體實(shí)施方式】
[0013]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。
[0014]本發(fā)明提出了一種行為模式識(shí)別技術(shù),對(duì)郵件行為進(jìn)行分析,提取郵件行為特征,最后對(duì)垃圾郵件在實(shí)時(shí)通信過程中可以判斷出是否為垃圾郵件。
[0015]如圖,首先要對(duì)郵件進(jìn)行數(shù)據(jù)采集,收集郵件數(shù)據(jù)集合。其次是數(shù)據(jù)預(yù)處理,從原始郵件數(shù)據(jù)中提取郵件頭信息,選取具有垃圾郵件行為特征以及對(duì)特征數(shù)據(jù)的向量化處理,然后采用數(shù)據(jù)挖掘的方法對(duì)提取出來的行為特征向量集合進(jìn)行預(yù)測。
【主權(quán)項(xiàng)】
1.一種行為模式識(shí)別技術(shù),所述的方法包括下述步驟: 首先,對(duì)郵件進(jìn)行行為采集即從正常郵件和垃圾郵件中收集相關(guān)數(shù)據(jù)信息的過程。其次,進(jìn)行行為特征數(shù)據(jù)的預(yù)處理,首先進(jìn)行數(shù)據(jù)清理即填寫空缺的值、識(shí)別并刪除孤立的點(diǎn)。 最后,采用數(shù)據(jù)挖掘的方法對(duì)提取出來的行為特征向量集合進(jìn)行模式挖掘。
2.如權(quán)利要求1中所述的郵件的行為采集指的是對(duì)郵件進(jìn)行數(shù)據(jù)采集,收集郵件數(shù)據(jù)隹A 口 O
3.如權(quán)利要求1中所述的行為特征數(shù)據(jù)的預(yù)處理是指從原始郵件數(shù)據(jù)中提取郵件頭信息,選取具有垃圾郵件行為特征以及對(duì)特征數(shù)據(jù)的向量化處理。
【專利摘要】本發(fā)明提供了一種垃圾郵件行為模式識(shí)別技術(shù),該方法是基于垃圾郵件和正常郵件的通信行為對(duì)比得知,首先對(duì)郵件進(jìn)行數(shù)據(jù)的收集,數(shù)據(jù)的收集是否采集到足夠的有代表性的數(shù)據(jù)關(guān)系到最后的識(shí)別性能。其次,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,從原始郵件中提取郵件頭信息,選取具有垃圾郵件可區(qū)分性的行為特征并進(jìn)行處理。最后,采用數(shù)據(jù)挖掘的方法對(duì)提取出來的行為特征向量集合進(jìn)行模式挖掘并預(yù)測。
【IPC分類】G06F17-30, H04L29-06, H04L12-58
【公開號(hào)】CN104796318
【申請(qǐng)?zhí)枴緾N201410366978
【發(fā)明人】鄔玉良
【申請(qǐng)人】北京中科同向信息技術(shù)有限公司
【公開日】2015年7月22日
【申請(qǐng)日】2014年7月30日