本發(fā)明涉及郵件數(shù)據(jù)管理,具體是一種基于數(shù)據(jù)分析的郵件數(shù)據(jù)管理系統(tǒng)及方法。
背景技術(shù):
1、在信息化時代,電子郵件已成為企業(yè)溝通的重要工具。然而,隨著郵安全攻擊手段的不斷升級,郵件攻擊手段已經(jīng)從在互聯(lián)網(wǎng)上廣泛發(fā)送成千上萬的釣魚郵件,發(fā)展到綜合其他網(wǎng)絡(luò)攻擊發(fā)送針對特定個人的釣魚郵件在當(dāng)今的企業(yè)環(huán)境中,郵件是員工日常溝通和業(yè)務(wù)交流的重要渠道。員工通常通過web瀏覽器、手機app、pc客戶端、平板電腦等各種方式登錄企業(yè)郵件系統(tǒng),以及發(fā)送和接收郵件;現(xiàn)有對郵件收發(fā)的安全保證是通過設(shè)定電子郵件協(xié)議,增加密鑰與簽名的結(jié)合來驗證郵件在傳輸過程中的安全性,但是對于郵件的簽名部位并沒有很好的衡量方式來作出不同郵件場景下的位置推薦,使得在保證資源消耗量較小的情況下又能保證足夠的安全性和可靠性,所以對于發(fā)件人基于電子郵件協(xié)議中簽名部位的選擇是值得進一步研究的。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于數(shù)據(jù)分析的郵件數(shù)據(jù)管理系統(tǒng)及方法,以解決現(xiàn)有技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于數(shù)據(jù)分析的郵件數(shù)據(jù)管理方法,其特征在于:管理方法包括以下具體步驟:
3、步驟s1:匯集郵件服務(wù)器歷史存儲每一收件人基于電子認證協(xié)議在內(nèi)部郵件傳輸系統(tǒng)和外部郵件傳輸系統(tǒng)記錄的若干安全郵件收發(fā)事件,讀取并解析每一收件人記錄每一安全郵件收發(fā)事件的郵件內(nèi)容關(guān)鍵詞,并生成對應(yīng)收件人于內(nèi)部郵件傳輸系統(tǒng)的第一郵件特征集合和外部郵件傳輸系統(tǒng)的第二郵件特征集合;
4、步驟s2:提取安全郵件收發(fā)事件記錄的郵件數(shù)據(jù),基于郵件數(shù)據(jù)標(biāo)記同一收件人在不同安全郵件收發(fā)事件中發(fā)件人利用電子認證協(xié)議在郵件中的簽名部位;并分析相同收件人于各郵件特征集合的每一類特征元素對應(yīng)所有安全郵件收發(fā)事件中簽名部位的差異指數(shù);
5、步驟s3:設(shè)置差異指數(shù)閾值,對差異指數(shù)大于差異指數(shù)閾值的特征元素標(biāo)記為目標(biāo)郵件特征,目標(biāo)郵件特征所處的集合為對應(yīng)收件人的目標(biāo)特征集合;提取相同收件人記錄目標(biāo)郵件特征的所有安全郵件收發(fā)事件以及對應(yīng)記錄的所有簽名部位,并從關(guān)鍵性、安全性和性能角度分析各簽名部位的選擇優(yōu)先級;
6、步驟s4:基于選擇優(yōu)先級,構(gòu)建每一收件人于各郵件特征集合中存在差異簽名部位對應(yīng)郵件內(nèi)容關(guān)鍵詞的關(guān)聯(lián)輸出模型,并在發(fā)件人確定收件人和郵件內(nèi)容關(guān)鍵詞時進行關(guān)聯(lián)輸出模型的預(yù)警提醒。
7、進一步的,步驟s1中第一郵件特征集合和第二郵件特征集合的生成過程包括如下步驟:
8、步驟s11:內(nèi)部郵件傳輸系統(tǒng)是指郵件發(fā)送和接收過程中不經(jīng)過網(wǎng)絡(luò)傳輸只流轉(zhuǎn)郵箱服務(wù)器的系統(tǒng),外部郵件傳輸系統(tǒng)是指經(jīng)過網(wǎng)絡(luò)傳輸郵件的載體系統(tǒng);安全郵件收發(fā)事件是指郵件經(jīng)過安全驗證合格且在預(yù)設(shè)周期內(nèi)未對用戶端造成攻擊的郵件;
9、步驟s12:提取每一安全郵件收發(fā)事件記錄的收件人郵件地址、發(fā)件人郵件地址、主題、正文和附件作為關(guān)鍵詞分析對象,利用自然語言處理算法提取同一安全郵件收發(fā)事件中每一類關(guān)鍵詞分析對象的輸出關(guān)鍵詞;
10、計算每一輸出關(guān)鍵詞在安全郵件收發(fā)事件中的影響系數(shù)p,p=m1/m,其中m1表示每一輸出關(guān)鍵詞記錄于關(guān)鍵詞分析對象中時關(guān)鍵詞分析對象的類別數(shù),m表示同一安全郵件收發(fā)事件中關(guān)鍵詞分析對象的種類總數(shù);
11、步驟s13:計算同一安全郵件收發(fā)事件中輸出關(guān)鍵詞的平均影響系數(shù)p0,p0=(1/n1)∑p,n1表示輸出關(guān)鍵詞的總個數(shù);將p>p0對應(yīng)的輸出關(guān)鍵詞作為對應(yīng)安全郵件收發(fā)事件記錄的郵件內(nèi)容關(guān)鍵詞;
12、步驟s14:對同一收件人記錄的所有安全郵件收發(fā)事件分析得到對應(yīng)的郵件內(nèi)容關(guān)鍵詞,將各安全郵件收發(fā)事件的郵件內(nèi)容關(guān)鍵詞進行關(guān)聯(lián)對應(yīng)生成內(nèi)部郵件傳輸系統(tǒng)的第一郵件特征集合和外部郵件傳輸系統(tǒng)的第二郵件特征集合。
13、構(gòu)建郵件特征集合可以有效的從接收方角度確定出收件內(nèi)容的大致方向,因為郵件對于接收方來說是為了讀取信息是信息內(nèi)容確定的影響者,所以從接收方角度可以有效的劃分出不同郵件的內(nèi)容類別。
14、進一步的,差異指數(shù)包括以下具體分析步驟:
15、步驟s21:郵件數(shù)據(jù)包括接收結(jié)果和協(xié)議郵件數(shù)據(jù),接收結(jié)果是指收件人對郵件的處理結(jié)果,處理結(jié)果包括接收、隔離和拒絕;協(xié)議郵件數(shù)據(jù)是指發(fā)件人使用私鑰對郵件簽名的部位;
16、步驟s22:每一類特征元素是指在各郵件特征集合中對應(yīng)同一安全郵件收發(fā)事件記錄的所有郵件內(nèi)容關(guān)鍵詞作為一類特征元素;提取每一類特征元素所處所有安全郵件收發(fā)事件中記錄簽名部位的種類數(shù)目d1,一件安全郵件收發(fā)事件的所有簽名部位作為一類簽名部位,計算相同收件人于各郵件特征集合的每一類特征元素對應(yīng)所有安全郵件收發(fā)事件中簽名部位的差異指數(shù)g,g=d1/k,其中k表示每一類特征元素作為安全郵件收發(fā)事件的郵件內(nèi)容關(guān)鍵詞時安全郵件收發(fā)事件的總件數(shù)。
17、差異指數(shù)越大,說明對應(yīng)一類特征元素下記錄的所有安全郵件收發(fā)事件中被發(fā)件人標(biāo)記的簽名部位差異程度越大,需要分析各類簽名部位對郵件接收結(jié)果影響的必要性越大。
18、進一步的,步驟s3包括以下具體步驟:
19、步驟s31:提取各目標(biāo)郵件特征對應(yīng)所有安全郵件收發(fā)事件記錄的所有類簽名部位,并剔除與在接收結(jié)果為隔離和拒絕時對應(yīng)郵件收發(fā)事件中記錄頻次最高時相同的簽名部位;構(gòu)成目標(biāo)郵件特征對應(yīng)的簽名部位集合c,獲取簽名部位集合c中每一類簽名部位在對應(yīng)安全郵件收發(fā)事件中性能波動參數(shù),性能波動參數(shù)包括計算資源消耗量e、存儲資源消耗量f和網(wǎng)絡(luò)帶寬消耗量b;剔除與在接收結(jié)果為隔離和拒絕時對應(yīng)郵件收發(fā)事件中記錄頻次最高時相同的簽名部位,可有效提高簽名部位分析的精確性,避免對一些風(fēng)險較高的簽名部位進行數(shù)據(jù)處理帶來的損失;
20、步驟s32:將性能波動參數(shù)進行歸一化后計算性能波動指數(shù)u1,u1=r1×e0+r2×f0+r3×b0,其中e0、f0、b0分別表示歸一化后的資源消耗量、存儲資源消耗量和網(wǎng)絡(luò)帶寬消耗量,r1、r2、r3表示對應(yīng)參考系數(shù),r1+r2+r3=1,且參考系數(shù)均大于零;將簽名部位集合c中的各類簽名部位按照u1的數(shù)值進行由小到大的順序排序生成集合c1;
21、步驟s33:預(yù)設(shè)基于郵件服務(wù)器關(guān)于內(nèi)部郵件傳輸系統(tǒng)和外部郵件傳輸系統(tǒng)的關(guān)鍵性郵件部位集合h1和安全性郵件部位集合v1,關(guān)鍵性郵件部位集合是指對郵件真實性驗證必要存在的郵件部位構(gòu)成的部位集合,安全性郵件部位集合是指被惡意篡改而不會影響郵件真實性驗證的郵件部位構(gòu)成的部位集合;
22、步驟s34:對簽名部位集合c中每類簽名部位基于集合h1和集合v1進行對照賦值,遍歷每類簽名部位中的獨立簽名部位與集合h1的交集不為空集時,輸出獨立簽名部位對應(yīng)的特征值為1,反之輸出特征值為0,當(dāng)每類簽名部位中的獨立簽名部位與集合v1的交集為空集時,輸出獨立簽名部位對應(yīng)的特征值為1,反之輸出特征值為0;利用公式:
23、u2=∑(t1+t2);
24、計算每類簽名部位基于關(guān)鍵性和安全性的評估指數(shù)u2,t1表示基于關(guān)鍵性郵件部位集合h1輸出的特征值,t2表示基于安全性郵件部位集合v1輸出的特征值;∑(t1+t2)表示對每類簽名部位中所有簽名部位的特征值之和再求和;
25、步驟s35:將簽名部位集合c中的各類簽名部位按照u2的數(shù)值進行由大到小的順序排序生成集合c2;
26、步驟s36:對集合c1和集合c2中每類簽名部位進行序號賦值,計算每類簽名部位的序號特征值j,j=j(luò)1+j2,j1表示簽名部位在集合c1中的序號賦值,j2表示簽名部位在集合c2中的序號賦值,基于序號特征值將各類簽名部位按照從小到大的順序排序生成各簽名部位的選擇優(yōu)先級。
27、排序在前選擇優(yōu)先級越高,選擇優(yōu)先級越高說明對應(yīng)類別的簽名部位在收件人基于郵件服務(wù)器進行收件驗證后所需消耗的資源越小的同時保證安全性和關(guān)鍵性較高,故可以有效的作為對應(yīng)分析收件人在目標(biāo)郵件特征下的郵件簽名部位,以便提高郵件的安全性和可信度,使得系統(tǒng)可以基于數(shù)據(jù)分析自適應(yīng)的匹配分析在向不同收件人發(fā)送基于不同關(guān)鍵詞特征的郵件時,有效地對發(fā)件人作出郵件簽名部位的提醒,既降低了簽名帶來的資源壓力又保證了一定的郵件安全性和可信度。
28、進一步的,步驟s4包括以下:
29、將收件人作為模型第一輸入項、目標(biāo)郵件特征對應(yīng)的郵件內(nèi)容關(guān)鍵詞作為第二輸入項,對應(yīng)目標(biāo)郵件特征分析得到的各簽名部位的選擇優(yōu)先級作為模型的輸出項;由第一輸入項、第二輸入項和輸出項構(gòu)成每一收件人的關(guān)聯(lián)輸出模型;
30、當(dāng)?shù)谝惠斎腠椇偷诙斎腠椘ヅ湎嗤瑫r,基于關(guān)聯(lián)輸出模型輸出對應(yīng)簽名部位的選擇優(yōu)先級,并預(yù)警提醒;當(dāng)輸入項匹配不相同時,選擇對應(yīng)收件人在記錄所有選擇優(yōu)先級位于最高優(yōu)先級時對應(yīng)頻次最大的簽名部位類型進行預(yù)警。
31、一種基于數(shù)據(jù)分析的郵件數(shù)據(jù)管理系統(tǒng),包括郵件收發(fā)事件匯集模塊、郵件特征集合生成模塊、差異指數(shù)分析模塊、選擇優(yōu)先級分析模塊和關(guān)聯(lián)輸出模型匹配預(yù)警模塊;
32、郵件收發(fā)事件匯集模塊用于匯集郵件服務(wù)器歷史存儲每一收件人基于電子認證協(xié)議在內(nèi)部郵件傳輸系統(tǒng)和外部郵件傳輸系統(tǒng)記錄的若干安全郵件收發(fā)事件;
33、郵件特征集合生成模塊用于生成對應(yīng)收件人于內(nèi)部郵件傳輸系統(tǒng)的第一郵件特征集合和外部郵件傳輸系統(tǒng)的第二郵件特征集合;
34、差異指數(shù)分析模塊用于分析相同收件人于各郵件特征集合的每一類特征元素對應(yīng)所有安全郵件收發(fā)事件中簽名部位的差異指數(shù);
35、選擇優(yōu)先級分析模塊用于從關(guān)鍵性、安全性和性能角度分析各簽名部位的選擇優(yōu)先級;
36、關(guān)聯(lián)輸出模型匹配預(yù)警模塊用于構(gòu)建每一收件人于各郵件特征集合中存在差異簽名部位對應(yīng)郵件內(nèi)容關(guān)鍵詞的關(guān)聯(lián)輸出模型,并在發(fā)件人確定收件人和郵件內(nèi)容關(guān)鍵詞時進行關(guān)聯(lián)輸出模型的預(yù)警提醒。
37、進一步的,郵件特征集合生成模塊包括簽名部位標(biāo)記單元、影響系數(shù)計算單元;
38、簽名部位標(biāo)記單元用于標(biāo)記同一收件人在不同安全郵件收發(fā)事件中發(fā)件人利用電子認證協(xié)議在郵件中的簽名部位;
39、影響系數(shù)計算單元用于計算每一輸出關(guān)鍵詞在安全郵件收發(fā)事件中的影響系數(shù),并計算同一安全郵件收發(fā)事件中輸出關(guān)鍵詞的平均影響系數(shù),基于平均影響系數(shù)輸出構(gòu)建郵件特征集合。
40、進一步的,差異指數(shù)分析模塊包括特征元素確定單元、差異指數(shù)計算單元;
41、特征元素確定單元用于在各郵件特征集合中對應(yīng)同一安全郵件收發(fā)事件記錄的所有郵件內(nèi)容關(guān)鍵詞作為一類特征元素;
42、差異指數(shù)計算單元用于計算相同收件人于各郵件特征集合的每一類特征元素對應(yīng)所有安全郵件收發(fā)事件中簽名部位的差異指數(shù)。
43、進一步的,選擇優(yōu)先級分析模塊包括性能波動指數(shù)分析單元、排序集合生成單元、評估指數(shù)計算單元和序號特征值分析單元;
44、性能波動指數(shù)分析單元用于獲取簽名部位集合中每一類簽名部位在對應(yīng)安全郵件收發(fā)事件中性能波動參數(shù);并將性能波動參數(shù)進行歸一化后計算性能波動指數(shù);
45、排序集合生成單元用于將簽名部位集合中的各類簽名部位按照性能波動指數(shù)進行由小到大的順序排序生成集合和按照評估指數(shù)進行由大到小的排序生成集合;
46、評估指數(shù)計算單元用于計算每類簽名部位基于關(guān)鍵性和安全性的評估指數(shù);
47、序號特征值分析單元用于對兩個集合中每類簽名部位進行序號賦值,計算每類簽名部位的序號特征值,基于序號特征值將各類簽名部位按照從小到大的順序排序生成各簽名部位的選擇優(yōu)先級。
48、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過對郵件服務(wù)器中存儲的郵件數(shù)據(jù)進行分析,篩選可以作為郵件特征的關(guān)鍵詞數(shù)據(jù),基于關(guān)鍵詞查找相同關(guān)鍵詞記錄不同郵件收發(fā)事件中存在不同簽名部位的郵件進行分析,確定不同簽名部位對收件人郵件處理和驗證時的資源消耗影響,以便提高郵件的安全性和可信度,使得系統(tǒng)可以基于數(shù)據(jù)分析自適應(yīng)的匹配分析在向不同收件人發(fā)送基于不同關(guān)鍵詞特征的郵件時,有效地對發(fā)件人作出郵件簽名部位的提醒,既降低了簽名帶來的資源壓力又保證了一定的郵件安全性和可信度。