欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于社會網(wǎng)絡行為特征的郵件分類方法

文檔序號:6590534閱讀:262來源:國知局
專利名稱:基于社會網(wǎng)絡行為特征的郵件分類方法
技術領域
本發(fā)明屬于郵件分類技術領域,具體涉及基于社會網(wǎng)絡行為特征的郵件分類方法。
背景技術
垃圾郵件的泛濫嚴重影響人們的工作和生活。郵件分類是通過一定的技術分辨垃圾郵件和正常郵件,輔助郵件過濾,盡可能減少垃圾郵件的危害,因此,一直吸引著國內(nèi)外眾多學者的研究興趣。目前,通過研究郵件發(fā)信人的發(fā)送行為來推測是否為垃圾郵件的分類過濾技術由于具有不需要對信件的全部內(nèi)容進行掃描,大大提高網(wǎng)關分類過濾垃圾郵件的速度,降低網(wǎng)絡資源的負荷和網(wǎng)絡流量,而且不會出現(xiàn)侵犯隱私權的法律風險等優(yōu)點,因此受到研究人員的重視。盡管國內(nèi)外眾多學者已針對郵件分類做了大量的研究工作,但由于垃圾郵件傳播方式多變,內(nèi)容形式多樣,數(shù)量急劇膨脹,郵件分類的準確率仍然是一個巨大的挑戰(zhàn)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能具有較好擴展性和伸縮性的基于社會網(wǎng)絡行為特征的郵件分類方法。本發(fā)明的技術解決方案是:為了進一步深入研究基于社會網(wǎng)絡的郵件分類,我們給出如下形式化定義:定義1:郵件收發(fā)社會網(wǎng)絡。它是由發(fā)件人電子郵件地址集合、收件人電子郵件地址集合和郵件收發(fā)關系構成的有向加權圖,用G’(V’,E’ )表示,其中V代表所有收發(fā)郵件的電子郵件地址的集合,E代表收發(fā)關系。如果郵件地址A向郵件地址B發(fā)送了郵件,郵件社會網(wǎng)絡中就會有一條從A指向B的邊,A向B發(fā)送的所有郵件的數(shù)量代表邊的權重。定義2:發(fā)件人電子郵件地址-發(fā)送郵件時使用的設備的IP地址關系網(wǎng)絡(簡稱發(fā)件人郵件地址-1P地址關系網(wǎng)絡)。它是由發(fā)件人電子郵件地址(V1)和發(fā)送郵件時使用的設備的IP地址(V2)構成的二部網(wǎng)絡,用G(V,E)表示,其中V=V1 U V2,
權利要求
1.一種基于社會網(wǎng)絡行為特征的郵件分類方法,其特征是:包括下列步驟: (I)預處理郵件收發(fā)日志,抽取郵件收發(fā)關系網(wǎng)絡,使用發(fā)件人電子郵件地址-收件人電子郵件地址的元組將郵件收發(fā)關系網(wǎng)絡以文件的形式進行存儲; (2)預處理郵件收發(fā)日志,抽取發(fā)件人郵件地址-1P地址關系網(wǎng)絡,使用發(fā)件人電子郵件地址-發(fā)送郵件時使用的設備的IP地址的元組將發(fā)件人郵件地址-1P地址關系網(wǎng)絡以文件的形式進行存儲; (3)以步驟(1)、(2)產(chǎn)生的兩個元組文件作為輸入,并行計算每個電子郵件地址發(fā)送的電子郵件數(shù)量,接受的電子郵件數(shù)量,郵件的回復比例,電子郵件所用的IP地址最大出度,并分別以電子郵件地址-出度-入度-郵件回復比例-1P地址最大出度元組形式儲存為中間結果文件; (4)以步驟(3)得到的中間結果元組作為特征,學習分類器最佳的分類面,作為決策信息,分類正常電子郵件用戶和垃圾郵件制造者,并由此分類郵件。
2.根據(jù)權利要求1所述的基于社會網(wǎng)絡行為特征的郵件分類方法,其特征是:所述郵件收發(fā)關系網(wǎng)絡,其構建和處理步驟如下: (I)通過分析郵件收發(fā)記錄,發(fā)現(xiàn)電子郵件收件人和發(fā)件人的表達模式,設計針對收件人和發(fā)件人電子郵件地址的高效正則表達式; (2)利用所設計的正則表達式匹配并識別郵件收發(fā)記錄中的發(fā)件人電子郵件地址、收件人電子郵件地址和收發(fā)關系; (3)將數(shù)據(jù)存入到發(fā)件人電子郵件地址-收件人電子郵件地址元組列表文件中,作為中間文件進行存儲。在文件中,將同一個發(fā)件人向同一收件人發(fā)送的所有郵件存放在一行。
3.根據(jù)權利要求1或2所述的基于社會網(wǎng)絡行為特征的郵件分類方法,其特征是:所述的發(fā)件人郵件地址-1P地址關系網(wǎng)絡,其構建和處理步驟如下: (1)通過分析郵件收發(fā)記錄,發(fā)現(xiàn)電子郵件發(fā)件人和發(fā)送郵件時所使用的終端設備的IP地址的表達模式,設計針對收件人電子郵件地址和相應IP地址的高效正則表達式; (2)利用所設計的正則表達式匹配并識別郵件收發(fā)記錄中的發(fā)件人電子郵件地址、發(fā)送郵件時所使用的終端設備的IP地址; (3)將數(shù)據(jù)記錄到發(fā)件人電子郵件地址-1P地址-發(fā)件人在對應IP地址上發(fā)送的郵件數(shù)量元組列表文件中,作為中間文件進行存儲。在文件中,同一個發(fā)件人在一個IP地址上發(fā)送的郵件匯總后存放在一行。
4.根據(jù)權利要求1或2所述的基于社會網(wǎng)絡行為特征的郵件分類方法,其特征是:所述的基于社會網(wǎng)絡的行為特征計算的具體步驟如下: (1)在計算各個電子郵件地址的出度時,以發(fā)件人電子郵箱地址作為鍵,建立出度哈希表,然后逐行掃描記錄在郵件社會網(wǎng)絡中的發(fā)件人電子郵件地址-收件人電子郵件地址元組,每次向元組中發(fā)件人電子郵件地址對應的哈希項中的值加1,且初始值是O,在所有的元組都處理完后,出度哈希表中每一個哈希項的值就是對應電子郵件地址的出度,將其保存在中間文件中; (2)在計算各個電子郵件地址的入度時,以收件人電子郵箱地址作為鍵,建立入度哈希表,然后逐行掃描記錄在郵件社會網(wǎng)絡中的發(fā)件人電子郵件地址-收件人電子郵件地址元組,每次讀取元組中收件人電子郵件地址,并向?qū)墓m椫械闹导?,且初始值是O,在所有的元組都處理過后,入度哈希表中每一個哈希項的值就是相應電子郵件地址的入度,將其保存在中間文件中; (3)在計算各個電子郵件地址的郵件回復比例時,每個發(fā)件人的入度和出度的比值作為回復比例,將其保存在中間文件中; (4)在計算各個電子郵件所用的IP地址最大出度時,以IP地址作為鍵,建立IP地址出度哈希表,然后逐行讀取記錄在發(fā)件人地址-1P地址關系網(wǎng)絡中的發(fā)件人電子郵件地址-1P地址-發(fā)件人在對應IP地址上發(fā)送的郵件數(shù)量元組,將元組中發(fā)送的郵件數(shù)量累加到IP地址對應的哈希項的值上,得到每個IP地址的出度;然后以發(fā)件人電子郵件地址為鍵,建立IP地址最大出度哈希表,再次讀取發(fā)件人地址-1P地址關系網(wǎng)絡中的元組,根據(jù)每個元組中的IP地址,在IP地址出度哈希表中得到相應的出度,并與IP地址最大出度哈希表中對應的當前最大出度比較,取較大的出度存回IP地址最大出度哈希表。在所有的元組都處理過后,IP地址最大出度哈希表中每一個哈希項的值就是相應電子郵件地址的所使用的IP地址的最大出度,將其保存在中間文件中; (5)聯(lián)合上述步驟(I)、(2)、(3)、(4)中得到的行為特征,以發(fā)件人電子郵件地址為鍵,按照電子郵件地址-出度-入度-郵件回復比例-1P地址最大出度元組形式儲存為中間結果文件。
5.根據(jù)權利要求1或2所述的基于社會網(wǎng)絡行為特征的郵件分類方法,其特征是:所述的分類郵件的具體步驟如下: (1)讀取記錄電子郵件地址-出度-入度-郵件回復比例-1P地址最大出度元組的中間結果文件,每個元組作為一行組成一個矩陣,矩陣的每一行作為SVM的一個樣本,矩陣的每一列對應一個特征; (2)將得到的樣本一部分作為訓練樣本、一部分作為測試樣本,訓練和測試分類器,獲得最優(yōu)分類面; (3)以最優(yōu)分類面作為決策信息分類電子郵件,得到每一個郵件對應的類別標簽。
全文摘要
本發(fā)明公開了一種基于社會網(wǎng)絡行為特征的郵件分類方法,首先是利用實體和關系抽取技術構建郵件收發(fā)社會關系網(wǎng)絡和“發(fā)件人電子郵件地址-發(fā)送郵件時使用的設備的IP地址”關系網(wǎng)絡,再根據(jù)不同類型的發(fā)件人的特點,計算反映各自行為特點的特征,最后,利用樣本訓練分類器,得到郵件分類的決策信息。本發(fā)明具有較好擴展性和伸縮性,并且該方法能夠進一步應用于在線社交網(wǎng)絡中信息的分類。
文檔編號G06Q10/10GK103198396SQ201310105350
公開日2013年7月10日 申請日期2013年3月28日 優(yōu)先權日2013年3月28日
發(fā)明者施佺, 邵葉秦, 丁衛(wèi)澤, 施振佺, 陳益均, 陳巧, 李曉麗, 張靜 申請人:南通大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阿瓦提县| 潜山县| 大化| 莆田市| 张家界市| 怀化市| 鄯善县| 玛沁县| 翁牛特旗| 新津县| 汉阴县| 崇义县| 祁连县| 清流县| 河北省| 邛崃市| 呼伦贝尔市| 西乡县| 麻栗坡县| 承德县| 昌乐县| 孟村| 肇东市| 垦利县| 民乐县| 黔江区| 区。| 道孚县| 广南县| 泰顺县| 玛沁县| 宝坻区| 阿城市| 泰州市| 延长县| 平江县| 阆中市| 荔波县| 梁平县| 湖北省| 义马市|