欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

異常郵件識(shí)別方法及裝置與流程

文檔序號(hào):11292071閱讀:209來(lái)源:國(guó)知局
異常郵件識(shí)別方法及裝置與流程
本申請(qǐng)涉及網(wǎng)絡(luò)管理
技術(shù)領(lǐng)域
,尤其涉及一種異常郵件識(shí)別方法及裝置。
背景技術(shù)
:電子郵件以其使用便利、應(yīng)用快捷、通訊及時(shí)、費(fèi)用經(jīng)濟(jì)和信息量大等優(yōu)點(diǎn),已經(jīng)成為當(dāng)前商務(wù)和個(gè)人重要的通信工具。電子郵件中通常包含很多有價(jià)值的信息,為避免機(jī)密信息或包含敏感信息的文件泄露,很多企業(yè)都需要對(duì)員工發(fā)送或接收的電子郵件進(jìn)行管理,具體管理方式有很多,例如:當(dāng)電子郵件的收件人、發(fā)件人、主題、附件名或郵件大小等屬性中包含敏感信息時(shí),禁止發(fā)送該電子郵件,限定只能使用企業(yè)規(guī)定的郵箱發(fā)送電子郵件,以及郵件必須抄送給特定人員(如部門主管)才能成功發(fā)送等?,F(xiàn)有技術(shù)對(duì)電子郵件的管理方式都具有一定的局限性。例如,上述基于敏感信息來(lái)檢查并禁止異常郵件的管理方式,很難覆蓋所有的敏感信息及所有可能包含敏感信息的屬性,導(dǎo)致檢查策略存在漏洞,部分異常電子郵件無(wú)法被檢測(cè)到;又如上述需要抄送給特定人員的管理方式,則需要該特定人員人工檢測(cè)是否為合法郵件,增加了工作量。因此,亟需一種可以自動(dòng)并準(zhǔn)確地識(shí)別異常郵件的方案,以在不增加相關(guān)人員工作量的前提下,降低異常郵件的輸出。技術(shù)實(shí)現(xiàn)要素:本申請(qǐng)?zhí)峁┝艘环N異常郵件識(shí)別方法及相關(guān)裝置,以在不增加相關(guān)人員工作量的前提下,自動(dòng)并準(zhǔn)確地識(shí)別異常郵件,降低異常郵件的輸出。為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例公開(kāi)了如下技術(shù)方案:本申請(qǐng)實(shí)施例的第一方面,提供一種異常郵件識(shí)別方法,包括:獲取歷史郵件數(shù)據(jù)及所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息;所述標(biāo)注信息用于標(biāo)記所述歷史郵件數(shù)據(jù)為正常郵件數(shù)據(jù)或異常郵件數(shù)據(jù);對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,得到所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的特征值集合;根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型;當(dāng)檢測(cè)到郵件發(fā)送事件時(shí),利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,以確定所述目標(biāo)郵件是否為異常郵件??蛇x的,對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,包括:從所述歷史郵件數(shù)據(jù)中分別提取每個(gè)特征對(duì)應(yīng)的獨(dú)立特征值;和/或,從所述歷史郵件數(shù)據(jù)中提取相互關(guān)聯(lián)的多個(gè)特征對(duì)應(yīng)的關(guān)聯(lián)特征值??蛇x的,根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型,包括:根據(jù)所述標(biāo)注信息將所述特征值集合分為正常郵件樣本集合或異常郵件樣本集合;所述正常郵件樣本集合至少包括相互無(wú)交集的第一正常子集合和第二正常子集合,所述異常郵件樣本集合至少包括相互無(wú)交集的第一異常子集合和第二異常子集合;根據(jù)所述第一正常子集合和/或第一異常子集合進(jìn)行數(shù)據(jù)訓(xùn)練,得到初始模型;根據(jù)所述第二正常子集合和/或第二異常子集合,對(duì)所述初始模型進(jìn)行校驗(yàn),得到所述郵件識(shí)別模型。可選的,根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型,包括:根據(jù)所述特征值集合中的第一子集合進(jìn)行數(shù)據(jù)訓(xùn)練,得到初始模型;根據(jù)所述特征值集合中的第二子集合,對(duì)所述初始模型進(jìn)行校驗(yàn),得到所述郵件識(shí)別模型??蛇x的,根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型,包括:根據(jù)所述標(biāo)注信息和特征值集合,通過(guò)二項(xiàng)邏輯回歸算法建立所述郵件識(shí)別模型??蛇x的,利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,包括:根據(jù)所述郵件識(shí)別模型中記錄的各個(gè)特征對(duì)應(yīng)的特征值范圍,對(duì)所述目標(biāo)郵件的各個(gè)特征值進(jìn)行匹配,得到相應(yīng)的匹配值;根據(jù)所述郵件識(shí)別模型中記錄的各個(gè)特征對(duì)應(yīng)的權(quán)重,對(duì)所述匹配值進(jìn)行加權(quán)求和;根據(jù)所述加權(quán)求和結(jié)果確定所述目標(biāo)郵件是否為異常郵件。可選的,所述方法還包括:在利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別之后,對(duì)識(shí)別結(jié)果進(jìn)行驗(yàn)證;當(dāng)驗(yàn)證得到所述識(shí)別結(jié)果錯(cuò)誤時(shí),將所述目標(biāo)郵件對(duì)應(yīng)的郵件數(shù)據(jù)添加至所述歷史郵件數(shù)據(jù),并重新建立所述郵件識(shí)別模型。可選的,在根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型之前,所述方法還包括:對(duì)所述特征值集合進(jìn)行數(shù)據(jù)清洗操作;和/或,將所述特征值集合中非數(shù)值型的特征值轉(zhuǎn)換為數(shù)值型的特征值。本申請(qǐng)實(shí)施例的第二方面,提供一種異常郵件識(shí)別裝置,包括:數(shù)據(jù)采集單元,用于獲取歷史郵件數(shù)據(jù)及所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息;所述標(biāo)注信息用于標(biāo)記所述歷史郵件數(shù)據(jù)為正常郵件數(shù)據(jù)或異常郵件數(shù)據(jù);數(shù)據(jù)處理單元,用于對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,得到所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的特征值集合;建模單元,用于根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型;識(shí)別單元,用于當(dāng)檢測(cè)到郵件發(fā)送事件時(shí),利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,以確定所述目標(biāo)郵件是否為異常郵件??蛇x的,所述裝置還包括:驗(yàn)證單元,用于對(duì)識(shí)別單元得到的識(shí)別結(jié)果進(jìn)行驗(yàn)證,并在驗(yàn)證得到所述識(shí)別結(jié)果錯(cuò)誤時(shí),重新觸發(fā)所述數(shù)據(jù)采集單元、數(shù)據(jù)處理單元和建模單元,以將所述目標(biāo)郵件對(duì)應(yīng)的郵件數(shù)據(jù)添加至所述歷史郵件數(shù)據(jù),并重新建立所述郵件識(shí)別模型??蛇x的,所述裝置還包括:數(shù)據(jù)清洗單元,用于對(duì)所述特征值集合進(jìn)行數(shù)據(jù)清洗操作;和/或,數(shù)據(jù)轉(zhuǎn)換單元,用于將所述特征值集合中非數(shù)值型的特征值轉(zhuǎn)換為數(shù)值型的特征值。由以上技術(shù)方案可知,本申請(qǐng)實(shí)施例通過(guò)對(duì)大量歷史郵件數(shù)據(jù)進(jìn)行特征提取及數(shù)據(jù)訓(xùn)練,得到郵件識(shí)別模型,通過(guò)該郵件識(shí)別模型自動(dòng)識(shí)別目標(biāo)郵件是否異常。相對(duì)于現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例的識(shí)別過(guò)程完全由模型自動(dòng)執(zhí)行,且由于該模型以大量歷史郵件數(shù)據(jù)為基礎(chǔ)訓(xùn)練得到的,識(shí)別范圍更全面,可以避免因敏感信息檢查策略存在漏洞導(dǎo)致部分異常郵件無(wú)法被識(shí)別出來(lái),從而提高識(shí)別準(zhǔn)確率。應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。圖1為本申請(qǐng)實(shí)施例提供的一種異常郵件識(shí)別方法的流程圖;圖2為本申請(qǐng)實(shí)施例提供的另一種異常郵件識(shí)別方法的流程圖;圖3為本申請(qǐng)實(shí)施例提供的又一種異常郵件識(shí)別方法的流程圖;圖4為本申請(qǐng)實(shí)施例提供的一種異常郵件識(shí)別裝置的結(jié)構(gòu)示意圖;圖5為本申請(qǐng)實(shí)施例提供的另一種異常郵件識(shí)別裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式為了使本領(lǐng)域的技術(shù)人員更好地理解本申請(qǐng)實(shí)施例中的技術(shù)方案,并使本申請(qǐng)實(shí)施例的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例中技術(shù)方案作進(jìn)一步詳細(xì)的說(shuō)明。圖1為本申請(qǐng)實(shí)施例提供的一種異常郵件識(shí)別方法的流程圖。參照?qǐng)D1,該異常郵件識(shí)別方法包括以下步驟:s11、獲取歷史郵件數(shù)據(jù)及所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息。所述標(biāo)注信息用于標(biāo)記所述歷史郵件數(shù)據(jù)為正常郵件數(shù)據(jù)或異常郵件數(shù)據(jù)。本申請(qǐng)實(shí)施例中,所述歷史郵件數(shù)據(jù)可以從現(xiàn)有郵件管理數(shù)據(jù)庫(kù)、客戶端中提取得到,可以是所有的歷史郵件,也可以是一段時(shí)間(如兩年、一年等)內(nèi)的歷史郵件;當(dāng)然,為保證異常郵件識(shí)別準(zhǔn)確率,應(yīng)當(dāng)獲取盡可能多的歷史郵件數(shù)據(jù)。其中,該歷史郵件數(shù)據(jù)可以包括各個(gè)歷史郵件相關(guān)的各種特征數(shù)據(jù),如下表1中所示的郵件發(fā)送時(shí)間、發(fā)件人、發(fā)送ip地址、發(fā)件人郵箱網(wǎng)址,以及收件人郵箱網(wǎng)址、發(fā)送內(nèi)容、發(fā)送附件、發(fā)送郵件的客戶端信息等。表1歷史郵件數(shù)據(jù)統(tǒng)計(jì)表郵件發(fā)送時(shí)間發(fā)件人發(fā)送ip地址發(fā)件人郵箱網(wǎng)址2016/6/18:30user1192.168.10.1mail.163.com2016/6/18:33user2192.168.10.1mail.163.com2016/6/28:35user3192.168.10.1mail.126.com2016/6/28:32user4192.168.10.1mail.qq.com2016/6/38:32user5192.168.10.2mail.qq.com2016/6/19:32user6192.168.10.2mail.qq.com本申請(qǐng)實(shí)施例中,上述標(biāo)注信息可以是分別表征每個(gè)歷史郵件相關(guān)的每種數(shù)據(jù)是否為異常數(shù)據(jù)的信息,也可以是表征每個(gè)歷史郵件整體是否為異常郵件的信息??蛇x的,上述標(biāo)注信息可以是根據(jù)預(yù)設(shè)規(guī)則,對(duì)所述歷史郵件數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注得到的。例如,通過(guò)遍歷并判斷歷史郵件數(shù)據(jù)中發(fā)件人郵箱網(wǎng)址是否在預(yù)設(shè)黑名單內(nèi),來(lái)對(duì)各個(gè)歷史郵件的發(fā)件人郵箱網(wǎng)址進(jìn)行標(biāo)注,對(duì)在該預(yù)設(shè)黑名單內(nèi)的郵箱網(wǎng)址添加第一標(biāo)注信息(第一標(biāo)注信息表示相應(yīng)數(shù)據(jù)為異常數(shù)據(jù)),對(duì)不在該預(yù)設(shè)黑名單內(nèi)的郵箱網(wǎng)址不添加標(biāo)注信息,或者添加第二標(biāo)識(shí)信息(第二標(biāo)注信息表示相應(yīng)數(shù)據(jù)為正常數(shù)據(jù))??蛇x的,上述標(biāo)注信息也可以是根據(jù)用戶的輸入信息得到的。例如,可以通過(guò)請(qǐng)求用戶判斷歷史郵件的正文內(nèi)容是否合法(如,是否無(wú)敏感信息等),并接收用戶輸入的判斷結(jié)果信息,根據(jù)該判斷結(jié)果信息生成相應(yīng)的標(biāo)注信息,對(duì)于判斷結(jié)果信息表征正文內(nèi)容包含敏感信息的,添加上述第一標(biāo)識(shí)信息,對(duì)于判斷結(jié)果信息表征正文內(nèi)容不包含敏感信息的,不添加標(biāo)注信息,或添加上述第二標(biāo)識(shí)信息。s12、對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,得到所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的特征值集合。s13、根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型。由于對(duì)于不同的應(yīng)用場(chǎng)景對(duì)應(yīng)的不同應(yīng)用需求及不同異常郵件特性,電子郵件的各項(xiàng)特征都可能作為判斷該電子郵件是否為異常郵件的依據(jù),包括上述郵件發(fā)送時(shí)間、發(fā)件人、發(fā)送ip地址、發(fā)件人郵箱網(wǎng)址、收件人郵箱網(wǎng)址、發(fā)送內(nèi)容、發(fā)送附件、發(fā)送郵件的客戶端信息等特征;因此,本申請(qǐng)實(shí)施例中,通過(guò)對(duì)大量歷史郵件數(shù)據(jù)執(zhí)行特征提取操作,得到大量歷史郵件的各項(xiàng)特征的特征值,組成特征值集合,也即樣本數(shù)據(jù)集合,從而可以通過(guò)數(shù)據(jù)訓(xùn)練得到郵件識(shí)別模型,如步驟s13所述??蛇x的,本申請(qǐng)實(shí)施例所述的數(shù)據(jù)訓(xùn)練過(guò)程具體采用以標(biāo)注信息為標(biāo)簽的有監(jiān)督學(xué)習(xí)過(guò)程。s14、當(dāng)檢測(cè)到郵件發(fā)送事件時(shí),利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,以確定所述目標(biāo)郵件是否為異常郵件。在本申請(qǐng)一個(gè)可行的實(shí)施例中,步驟s13中可以僅采用正常郵件特征值進(jìn)行訓(xùn)練,得到郵件識(shí)別模型,此過(guò)程中,上述標(biāo)注信息可以用于剔除特征值集合中的異常郵件特征值。在本申請(qǐng)另一個(gè)可行的實(shí)施例中,步驟s13中也可以同時(shí)采用正常郵件特征值和異常郵件特征值進(jìn)行訓(xùn)練,此過(guò)程中,可以先根據(jù)所述標(biāo)注信息將所述特征值集合分為正常郵件樣本集合或異常郵件樣本集合(即將所述特征值集合中,表征異常數(shù)據(jù)的標(biāo)注信息所對(duì)應(yīng)的特征值記入異常郵件樣本集合,表征正常數(shù)據(jù)的標(biāo)注信息所對(duì)應(yīng)的特征值記入正常郵件樣本集合),分別作為正樣本和負(fù)樣本進(jìn)行訓(xùn)練。由以上技術(shù)方案可知,本申請(qǐng)實(shí)施例通過(guò)對(duì)大量歷史郵件數(shù)據(jù)進(jìn)行特征提取及數(shù)據(jù)訓(xùn)練,得到郵件識(shí)別模型,通過(guò)該郵件識(shí)別模型自動(dòng)識(shí)別目標(biāo)郵件是否異常。相對(duì)于現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例的識(shí)別過(guò)程完全由模型自動(dòng)執(zhí)行,且由于該模型以大量歷史郵件數(shù)據(jù)為基礎(chǔ)訓(xùn)練得到的,識(shí)別范圍更全面,可以避免因敏感信息檢查策略存在漏洞導(dǎo)致部分異常郵件無(wú)法被識(shí)別出來(lái),從而提高識(shí)別準(zhǔn)確率??蛇x的,本申請(qǐng)實(shí)施例中,步驟s12所述的對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,具體可以為:從所述歷史郵件數(shù)據(jù)中分別提取每個(gè)特征對(duì)應(yīng)的獨(dú)立特征值;還可以為:從所述歷史郵件數(shù)據(jù)中提取相互關(guān)聯(lián)的多個(gè)特征對(duì)應(yīng)的關(guān)聯(lián)特征值。例如,前文所述的郵件發(fā)送時(shí)間、發(fā)件人郵箱網(wǎng)址、收件人郵箱網(wǎng)址等特征是相對(duì)獨(dú)立的,其正常與否與其他特征沒(méi)有必然的聯(lián)系,故對(duì)這些特征可以單獨(dú)提取其特征值,記為獨(dú)立特征值。而對(duì)于多個(gè)特征對(duì)應(yīng)的關(guān)聯(lián)特征,可能出現(xiàn)這樣的郵件:該關(guān)聯(lián)特征對(duì)應(yīng)的每個(gè)特征都是正常的,但其對(duì)應(yīng)關(guān)系不是常見(jiàn)的對(duì)應(yīng)關(guān)系。以發(fā)件人和發(fā)送ip地址這一關(guān)聯(lián)特征為例,在禁止他人代發(fā)郵件的應(yīng)用需求下,發(fā)件人b在自己的ip地址下用發(fā)件人a的郵箱地址發(fā)送的電子郵件,發(fā)件人是正常的,發(fā)送ip地址也是正常的,但二者的對(duì)應(yīng)關(guān)系是異常的,如果只單獨(dú)識(shí)別發(fā)件人和發(fā)送ip地址的正常性,忽略二者的對(duì)應(yīng)關(guān)系,則上述代發(fā)郵件將無(wú)法被正確識(shí)別出來(lái)。因此,本申請(qǐng)實(shí)施例除了提取獨(dú)立特征值外,還提取關(guān)聯(lián)特征對(duì)應(yīng)的關(guān)聯(lián)特征值,可以提高異常郵件識(shí)別正確率,滿足更復(fù)雜郵件管理需求。基于上述獨(dú)立特征值和關(guān)聯(lián)特征值,在步驟s13的過(guò)程中,具體可以通過(guò)分別統(tǒng)計(jì)每一特征(包括上述獨(dú)立特征和關(guān)聯(lián)特征)對(duì)應(yīng)的所有特征值,確定該特征對(duì)應(yīng)的特征值范圍,用于與目標(biāo)郵件的相應(yīng)特征值進(jìn)行匹配。例如,對(duì)于提取到的所有郵件發(fā)送時(shí)間進(jìn)行匯總統(tǒng)計(jì),得到其中的最早時(shí)間為8:30,最晚時(shí)間為17:30,從而確定郵件發(fā)送時(shí)間這一特征對(duì)應(yīng)的特征值范圍為8:30~17:30,從而在對(duì)目標(biāo)郵件進(jìn)行異常識(shí)別時(shí),如果目標(biāo)郵件的發(fā)送時(shí)間不在該時(shí)間范圍8:30~17:30內(nèi),說(shuō)明目標(biāo)郵件的發(fā)送時(shí)間異常,目標(biāo)郵件可能為異常郵件,故根據(jù)該匹配結(jié)果可以生成一個(gè)表示該項(xiàng)特征異常的匹配值,以提高目標(biāo)郵件被識(shí)別為異常郵件的概率。又如,對(duì)于提取到的發(fā)件人和發(fā)送ip地址的關(guān)聯(lián)特征值進(jìn)行匯總統(tǒng)計(jì),得到正常郵件中發(fā)件人與發(fā)送ip地址的對(duì)應(yīng)關(guān)系集合,從而在對(duì)目標(biāo)郵件進(jìn)行異常識(shí)別時(shí),判斷該目標(biāo)郵件中發(fā)件人和發(fā)送ip地址的對(duì)應(yīng)關(guān)系(如,“user1”:“192.168.10.2”)是否在該對(duì)應(yīng)關(guān)系集合內(nèi),如果不在,說(shuō)明目標(biāo)郵件的發(fā)件人或發(fā)送ip地址異常,目標(biāo)郵件可能為異常郵件,故根據(jù)該匹配結(jié)果同樣可以生成一個(gè)表示該項(xiàng)特征異常的匹配值,以提高目標(biāo)郵件被識(shí)別為異常郵件的概率。在本申請(qǐng)一個(gè)可行的實(shí)施例中,步驟s14所述的利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,具體可以包括以下步驟:根據(jù)所述郵件識(shí)別模型中記錄的各個(gè)特征對(duì)應(yīng)的特征值范圍,對(duì)所述目標(biāo)郵件的各個(gè)特征值進(jìn)行匹配,得到相應(yīng)的匹配值;根據(jù)所述郵件識(shí)別模型中記錄的各個(gè)特征對(duì)應(yīng)的權(quán)重,對(duì)所述匹配值進(jìn)行加權(quán)求和;根據(jù)所述加權(quán)求和結(jié)果確定所述目標(biāo)郵件是否為異常郵件。可選的,如果步驟s13中僅采用正常郵件特征值進(jìn)行訓(xùn)練,則最終得到的郵件識(shí)別模型,可以記錄正常郵件所具備的所有特征的取值范圍,及每個(gè)特征對(duì)郵件正常性影響的權(quán)重。相應(yīng)的,在步驟s14中對(duì)新郵件(即目標(biāo)郵件)進(jìn)行異常識(shí)別時(shí),該郵件識(shí)別模型可以將目標(biāo)郵件的各項(xiàng)特征值與模型中記錄的相應(yīng)特征值范圍進(jìn)行匹配,并根據(jù)匹配結(jié)果生成一個(gè)匹配值,再根據(jù)模型中記錄的各項(xiàng)特征對(duì)應(yīng)的權(quán)重對(duì)各項(xiàng)特征對(duì)應(yīng)的匹配值進(jìn)行加權(quán)求和,根據(jù)該加權(quán)求和結(jié)果的大小即可判定目標(biāo)郵件是否為異常郵件??蛇x的,如果步驟s13中同時(shí)采用正常郵件特征值和異常郵件特征值進(jìn)行訓(xùn)練,則最終得到的郵件識(shí)別模型中,同時(shí)記錄了正常郵件的特征值范圍、異常郵件的特征值范圍及每個(gè)特征對(duì)應(yīng)的權(quán)重。相應(yīng)的,在步驟s14中對(duì)目標(biāo)郵件進(jìn)行異常識(shí)別時(shí),該郵件識(shí)別模型可以將目標(biāo)郵件的各項(xiàng)特征值分別與正常郵件的特征值范圍及異常郵件的特征值范圍進(jìn)行匹配,相應(yīng)得到兩組匹配值,即相對(duì)于正常郵件的匹配值和相對(duì)于異常郵件的匹配值,再根據(jù)各項(xiàng)特征對(duì)應(yīng)的權(quán)重對(duì)每組匹配值進(jìn)行加權(quán)求和,通過(guò)比較兩個(gè)加權(quán)求和結(jié)果的大小即可判定目標(biāo)郵件是否為異常郵件。具體判定條件可以根據(jù)實(shí)際應(yīng)用需求而定,例如,可以在相對(duì)于正常郵件的第一加權(quán)求和結(jié)果小于相對(duì)于異常郵件的第二加權(quán)求和結(jié)果時(shí),判定目標(biāo)郵件為異常郵件,也可以在所述第一加權(quán)求和結(jié)果和第二加權(quán)求和結(jié)果的比值小于一個(gè)預(yù)設(shè)閾值時(shí),判定目標(biāo)郵件為異常郵件??梢?jiàn),本申請(qǐng)實(shí)施例基于各個(gè)特征的匹配值和權(quán)重,綜合判定目標(biāo)郵件的合法性,可以提高郵件識(shí)別的準(zhǔn)確度。在本申請(qǐng)一個(gè)可行的實(shí)施例中,步驟s13所述的郵件識(shí)別模型建立過(guò)程具體可以包括兩個(gè)步驟,即:s131、根據(jù)所述特征值集合中的第一子集合進(jìn)行數(shù)據(jù)訓(xùn)練,得到初始模型;s132、根據(jù)所述特征值集合中的第二子集合,對(duì)所述初始模型進(jìn)行校驗(yàn),得到上述郵件識(shí)別模型。本申請(qǐng)實(shí)施例中,將提取到的特征值集合分為至少兩個(gè)子集合,第一子集合用于數(shù)據(jù)訓(xùn)練,建立初始模型,第二子集合用于對(duì)該初始模型的校驗(yàn)(調(diào)優(yōu))。為避免模型過(guò)度擬合,應(yīng)保證兩個(gè)子集合無(wú)交集。例如,可以將特征值集合中60%的特征值劃入第一子集合,剩余40%的特征值劃入第二子集合。本申請(qǐng)實(shí)施例在基于歷史郵件數(shù)據(jù)完成模型建立后,進(jìn)一步利用歷史郵件數(shù)據(jù)對(duì)該模型進(jìn)行校驗(yàn)、調(diào)優(yōu),可以提高郵件識(shí)別模型的識(shí)別準(zhǔn)確度。可選的,上述第一子集合可以包括第一正常子集合和第一異常子集合,上述第二子集合可以包括第二正常子集合和第二異常子集合。其中,第一正常子集合和第二正常子集合均屬于前文所述的正常郵件樣本集合,且第一正常子集合和第二正常子集合之間無(wú)交集;第一異常子集合和第二異常子集合均屬于前文所述的異常郵件樣本集合,且第一異常子集合和第二異常子集合之間無(wú)交集。即,本申請(qǐng)實(shí)施例中,無(wú)論數(shù)據(jù)訓(xùn)練過(guò)程,還是初始模型校驗(yàn)過(guò)程,都同時(shí)采用正樣本和負(fù)樣本,可以避免對(duì)單一樣本(單一正樣本或單一負(fù)樣本)過(guò)度擬合,提高郵件識(shí)別模型的識(shí)別準(zhǔn)確度。在本申請(qǐng)一個(gè)可行的實(shí)施例中,步驟s13所述的郵件識(shí)別模型建立過(guò)程(或者步驟s131所述的初始模型建立過(guò)程),具體可以采用二項(xiàng)邏輯回歸算法。由于本實(shí)施例所述的異常郵件識(shí)別結(jié)果只存在兩種情況,即目標(biāo)郵件是異常郵件,和目標(biāo)郵件是正常郵件(不是異常郵件),故可以采用二項(xiàng)邏輯回歸算法進(jìn)行建模。該二項(xiàng)邏輯回歸算法可以表示為如下的條件概率分布:其中,χ為自變量,即模型的輸入數(shù)據(jù),其取值范圍為n維實(shí)數(shù)集rn;y為因變量,即模型的輸出數(shù)據(jù),其取值范圍為{0,1}。參數(shù)ω為權(quán)值向量,ω∈rn;參數(shù)b為偏置,b∈r(r為實(shí)數(shù)集)。為簡(jiǎn)化處理過(guò)程,可以將權(quán)值向量ω和輸入χ加以擴(kuò)充,即:ω=ω(1),ω(2),...,ω(n),b)t;χ=(χ(1),χ(2),...,χ(n),1)t。此時(shí),上述公式一和公式二可以等價(jià)為:結(jié)合事件對(duì)數(shù)幾率公式(logit函數(shù))(p為該事件發(fā)生的概率),上述公式三和公式四可以轉(zhuǎn)換為:根據(jù)公式五可知,在二項(xiàng)邏輯回歸算法中,輸出y=1的對(duì)數(shù)幾率是輸入χ的線性函數(shù);或者說(shuō),線性函數(shù)ω·χ的值越大,輸出y=1的概率越大(輸出y=0的概率越小),反之,線性函數(shù)ω·χ的值越小,輸出y=1的概率越小(輸出y=0的概率越大)。因此,對(duì)于給定的輸入χ,可以利用上述公式五判斷其輸出y=1或y=0的概率大小。應(yīng)用于本申請(qǐng)實(shí)施例,χ即為由歷史郵件數(shù)據(jù)提取出的特征值,y為目標(biāo)郵件的判定結(jié)果(如:y=1可以表示目標(biāo)郵件為異常郵件,y=0可以表示目標(biāo)郵件為正常郵件);在權(quán)值向量ω確定的情況下,將任一目標(biāo)郵件作為輸入χ,利用上述二項(xiàng)邏輯回歸算法,就可以確定該目標(biāo)郵件是否為異常郵件的概率。例如,分別通過(guò)公式三和公式四可以計(jì)算得到該目標(biāo)郵件為異常郵件的概率p(y=1|χ)和正常郵件的概率p(y=0|χ),當(dāng)p(y=1|χ)>p(y=0|χ)時(shí),輸出識(shí)別結(jié)果為:目標(biāo)郵件是異常郵件(y=1);或者通過(guò)公式五計(jì)算目標(biāo)郵件為異常郵件的對(duì)數(shù)幾率,當(dāng)該對(duì)數(shù)幾率大于預(yù)設(shè)閾值時(shí),輸出識(shí)別結(jié)果為:目標(biāo)郵件是異常郵件(y=1)??梢?jiàn),基于二項(xiàng)邏輯回歸算法建立郵件識(shí)別模型,關(guān)鍵在于確定權(quán)值向量ω。本申請(qǐng)實(shí)施例中,利用樣本數(shù)據(jù)進(jìn)行訓(xùn)練,目的即在于確定權(quán)值向量ω,具體可以采用極大似然估計(jì)法。通過(guò)極大似然估計(jì)法訓(xùn)練確定權(quán)值向量ω的原理如下:對(duì)于給定的樣本數(shù)據(jù)集合t={(x1,y1),(x2,y2),...,(xn,yn)},假設(shè)p(y=1|χ)=π(χ),p(y=0|χ)=1-π(χ),則似然函數(shù)為:將其表示為對(duì)數(shù)似然函數(shù)為:對(duì)l(ω)求極大值,即得到ω的估計(jì)值。由以上技術(shù)方案可知,本申請(qǐng)實(shí)施例基于二項(xiàng)邏輯回歸算法來(lái)建立郵件識(shí)別模型,同時(shí)基于極大似然估計(jì)法確定二項(xiàng)邏輯回歸算法所需的關(guān)鍵參數(shù),保證最終識(shí)別結(jié)果符合概率分布原理,避免人為因素對(duì)識(shí)別結(jié)果的影響,從而可以保證識(shí)別結(jié)果的準(zhǔn)確度。圖2為本申請(qǐng)實(shí)施例提供的另一種異常郵件識(shí)別方法的流程圖。參照?qǐng)D2,該方法包括以下步驟:s21、獲取歷史郵件數(shù)據(jù)及所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息;s22、對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,得到所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的特征值集合;s23、根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型;s24、當(dāng)檢測(cè)到郵件發(fā)送事件時(shí),利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,以確定所述目標(biāo)郵件是否為異常郵件;s25、對(duì)識(shí)別結(jié)果進(jìn)行驗(yàn)證,當(dāng)驗(yàn)證得到所述識(shí)別結(jié)果錯(cuò)誤時(shí),將所述目標(biāo)郵件對(duì)應(yīng)的郵件數(shù)據(jù)添加至所述歷史郵件數(shù)據(jù),并返回所述步驟s21。相對(duì)于圖1所示實(shí)施例,圖2所示實(shí)施例在完成對(duì)目標(biāo)郵件的識(shí)別步驟后,進(jìn)一步對(duì)識(shí)別結(jié)果進(jìn)行驗(yàn)證,如果驗(yàn)證得到該識(shí)別結(jié)果錯(cuò)誤,說(shuō)明郵件識(shí)別模型存在缺陷(過(guò)擬合或欠擬合),故通過(guò)將目標(biāo)郵件對(duì)應(yīng)的郵件數(shù)據(jù)也作為歷史郵件數(shù)據(jù),重新建立郵件識(shí)別模型,消除其缺陷,隨著模型重建次數(shù)的增加,郵件識(shí)別模型也越完善,其識(shí)別準(zhǔn)確度也越高??蛇x的,步驟s25所述的對(duì)識(shí)別結(jié)果進(jìn)行驗(yàn)證,具體可以采用基于人機(jī)交互的驗(yàn)證方法,即將目標(biāo)郵件及識(shí)別結(jié)果展示給用戶,并接收用戶輸入的驗(yàn)證結(jié)果;隨著基于人機(jī)交互的驗(yàn)證結(jié)果的積累,可以轉(zhuǎn)換為全自動(dòng)的智能驗(yàn)證。圖3為本申請(qǐng)實(shí)施例提供的另一種異常郵件識(shí)別方法的流程圖。參照?qǐng)D3,該方法包括以下步驟:s31、獲取歷史郵件數(shù)據(jù)及所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息;s32、對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,得到所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的特征值集合;s33、對(duì)所述特征值集合進(jìn)行數(shù)據(jù)清洗操作,和/或,將所述特征值集合中非數(shù)值型的特征值轉(zhuǎn)換為數(shù)值型的特征值;上述數(shù)據(jù)清洗,即對(duì)特征值集合中的大量特征值進(jìn)行去重、過(guò)濾、補(bǔ)全、關(guān)聯(lián)等操作,以提高樣本數(shù)據(jù)的質(zhì)量。由于各項(xiàng)特征值的數(shù)據(jù)類型可能不同,有的是數(shù)值型,有的是布爾型,有的是字符串;而本申請(qǐng)實(shí)施例的訓(xùn)練過(guò)程是基于數(shù)值的,非數(shù)值型的特征值無(wú)法直接用于訓(xùn)練,因此可以預(yù)先通過(guò)數(shù)據(jù)轉(zhuǎn)換,將非數(shù)值型的特征值轉(zhuǎn)換為數(shù)值型的特征值。s34、根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型;s35、當(dāng)檢測(cè)到郵件發(fā)送事件時(shí),利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,以確定所述目標(biāo)郵件是否為異常郵件。本申請(qǐng)實(shí)施例通過(guò)數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換,可以提高特征值集合中的數(shù)據(jù)質(zhì)量,從而可以提高模型建立和識(shí)別結(jié)果的準(zhǔn)確性。相應(yīng)的,本申請(qǐng)實(shí)施例還提供一種異常郵件識(shí)別裝置。參照?qǐng)D4所示結(jié)構(gòu)示意圖,上述異常郵件識(shí)別裝置至少包括:數(shù)據(jù)采集單元100,用于獲取歷史郵件數(shù)據(jù)及所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息;所述標(biāo)注信息用于標(biāo)記所述歷史郵件數(shù)據(jù)為正常郵件數(shù)據(jù)或異常郵件數(shù)據(jù);數(shù)據(jù)處理單元200,用于對(duì)所述歷史郵件數(shù)據(jù)執(zhí)行特征提取,得到所述歷史郵件數(shù)據(jù)對(duì)應(yīng)的特征值集合;建模單元300,用于根據(jù)所述標(biāo)注信息和特征值集合,建立郵件識(shí)別模型;識(shí)別單元400,用于當(dāng)檢測(cè)到郵件發(fā)送事件時(shí),利用所述郵件識(shí)別模型對(duì)目標(biāo)郵件進(jìn)行識(shí)別,以確定所述目標(biāo)郵件是否為異常郵件。由以上技術(shù)方案可知,本申請(qǐng)實(shí)施例通過(guò)對(duì)大量歷史郵件數(shù)據(jù)進(jìn)行特征提取及數(shù)據(jù)訓(xùn)練,得到郵件識(shí)別模型,通過(guò)該郵件識(shí)別模型自動(dòng)識(shí)別目標(biāo)郵件是否異常。相對(duì)于現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例的識(shí)別過(guò)程完全由模型自動(dòng)執(zhí)行,且由于該模型以大量歷史郵件數(shù)據(jù)為基礎(chǔ)訓(xùn)練得到的,識(shí)別范圍更全面,可以避免因敏感信息檢查策略存在漏洞導(dǎo)致部分異常郵件無(wú)法被識(shí)別出來(lái),從而提高識(shí)別準(zhǔn)確率??蛇x的,所述數(shù)據(jù)處理單元200具體可以被配置為:從所述歷史郵件數(shù)據(jù)中分別提取每個(gè)特征對(duì)應(yīng)的獨(dú)立特征值;和/或,從所述歷史郵件數(shù)據(jù)中提取相互關(guān)聯(lián)的多個(gè)特征對(duì)應(yīng)的關(guān)聯(lián)特征值??蛇x的,所述建模單元300具體可以被配置為:根據(jù)所述標(biāo)注信息將所述特征值集合分為正常郵件樣本集合或異常郵件樣本集合;根據(jù)所述正常郵件樣本集合和異常郵件樣本集合,建立郵件識(shí)別模型??蛇x的,所述建模單元300具體可以被配置為:根據(jù)所述標(biāo)注信息和特征值集合,通過(guò)二項(xiàng)邏輯回歸算法建立所述郵件識(shí)別模型??蛇x的,所述建模單元300具體包括:初始模型建立單元,根據(jù)所述特征值集合中的第一子集合進(jìn)行數(shù)據(jù)訓(xùn)練,得到初始模型;模型校驗(yàn)單元,用于根據(jù)所述特征值集合中的第二子集合,對(duì)所述初始模型進(jìn)行校驗(yàn),得到所述郵件識(shí)別模型。本申請(qǐng)實(shí)施例在基于歷史郵件數(shù)據(jù)完成模型建立后,進(jìn)一步利用歷史郵件數(shù)據(jù)對(duì)該模型進(jìn)行校驗(yàn)、調(diào)優(yōu),可以提高郵件識(shí)別模型的識(shí)別準(zhǔn)確度。可選的,所述識(shí)別單元400具體可以被配置為:根據(jù)所述郵件識(shí)別模型中記錄的各個(gè)特征對(duì)應(yīng)的特征值范圍,對(duì)所述目標(biāo)郵件的各個(gè)特征值進(jìn)行匹配,得到相應(yīng)的匹配值;根據(jù)所述郵件識(shí)別模型中記錄的各個(gè)特征對(duì)應(yīng)的權(quán)重,對(duì)所述匹配值進(jìn)行加權(quán)求和;根據(jù)所述加權(quán)求和結(jié)果確定所述目標(biāo)郵件是否為異常郵件。參照?qǐng)D5所示另一實(shí)施例提供的異常郵件識(shí)別裝置的結(jié)構(gòu)示意圖,上述異常郵件識(shí)別裝置還包括以下至少一項(xiàng):驗(yàn)證單元500,用于對(duì)識(shí)別單元得到的識(shí)別結(jié)果進(jìn)行驗(yàn)證,并在驗(yàn)證得到所述識(shí)別結(jié)果錯(cuò)誤時(shí),重新觸發(fā)所述數(shù)據(jù)采集單元、數(shù)據(jù)處理單元和建模單元,以將所述目標(biāo)郵件對(duì)應(yīng)的郵件數(shù)據(jù)添加至所述歷史郵件數(shù)據(jù),并重新建立所述郵件識(shí)別模型。數(shù)據(jù)優(yōu)化單元600,用于對(duì)所述特征值集合進(jìn)行數(shù)據(jù)清洗操作,和/或,將所述特征值集合中非數(shù)值型的特征值轉(zhuǎn)換為數(shù)值型的特征值。本申請(qǐng)實(shí)施例在完成對(duì)目標(biāo)郵件的識(shí)別步驟后,進(jìn)一步對(duì)識(shí)別結(jié)果進(jìn)行驗(yàn)證,如果驗(yàn)證得到該識(shí)別結(jié)果錯(cuò)誤,說(shuō)明郵件識(shí)別模型存在缺陷(過(guò)擬合或欠擬合),故通過(guò)將目標(biāo)郵件對(duì)應(yīng)的郵件數(shù)據(jù)也作為歷史郵件數(shù)據(jù),重新建立郵件識(shí)別模型,消除其缺陷,隨著模型重建次數(shù)的增加,郵件識(shí)別模型也越完善,其識(shí)別準(zhǔn)確度也越高。另外,本申請(qǐng)實(shí)施例通過(guò)數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換,可以提高特征值集合中的數(shù)據(jù)質(zhì)量,從而可以提高模型建立和識(shí)別結(jié)果的準(zhǔn)確性。關(guān)于上述實(shí)施例中的裝置,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說(shuō)明。本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其它實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來(lái)限制。當(dāng)前第1頁(yè)12
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
醴陵市| 营山县| 沾益县| 宽城| 阿坝县| 曲水县| 益阳市| 财经| 彰化县| 寿阳县| 含山县| 罗甸县| 武义县| 武义县| 舞钢市| 巴南区| 昌乐县| 太仆寺旗| 淳化县| 信阳市| 永城市| 富阳市| 沁水县| 长岛县| 五大连池市| 旺苍县| 天祝| 峨眉山市| 博客| 唐河县| 禹城市| 高台县| 柳州市| 辽中县| 惠州市| 平乡县| 正蓝旗| 乌兰察布市| 高尔夫| 哈巴河县| 巍山|