基于lda模型及中心度算法的郵件網(wǎng)絡取證分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于LDA模型及中心度算法的郵件網(wǎng)絡取證分析方法。
【背景技術(shù)】
[0002] 如今,電子郵件的應用已遍及社會各行各業(yè),它使得人們之間的溝通變得更加方 便快捷,但同時也為犯罪分子提供了犯罪的新途徑。一些違法犯罪分子利用電子郵件組織 并策劃一系列犯罪活動,甚至是利用電子郵件的形式進行走私貨物的販賣。電子郵件犯罪 已經(jīng)對人們的財產(chǎn)安全造成嚴重的影響,作為數(shù)字取證的一個重要分支,電子郵件取證的 技術(shù)應用問題已成為當前研究和討論的熱點。電子郵件數(shù)據(jù)不但記錄了通訊雙方的聯(lián)系, 還包含了通信的時間、頻率和內(nèi)容等信息,這些為數(shù)字取證調(diào)查提供了重要的數(shù)據(jù)來源。
[0003] 目前,關(guān)于郵件網(wǎng)絡結(jié)構(gòu)的分析,一些學者從社交網(wǎng)絡角度對郵件網(wǎng)絡開展了廣 泛的研究,如社團劃分、重要節(jié)點的發(fā)現(xiàn)、社會關(guān)系與地位的推斷等.但是大部分社交網(wǎng)絡 層面的研究工作重點在于構(gòu)建社交網(wǎng)絡層面的普適性算法,考慮的因素較少,挖掘的結(jié)果 比較宏觀.
[0004] 如Zhang Lixiao等采用基于多級貪婪策略的重疊社區(qū)發(fā)現(xiàn)算法MSG-O⑶來檢測 初始社區(qū)結(jié)構(gòu),并分析重疊社區(qū)結(jié)構(gòu)。胡天天等將社會網(wǎng)絡分析方法應用于郵件網(wǎng)絡分 析,提出了基于CN-M(CoreNode - Module)的郵件網(wǎng)絡核心社團挖掘算法。Henderson等 提出了結(jié)構(gòu)角色的概念,用于對復雜網(wǎng)絡的節(jié)點進行劃分及節(jié)點行為的分析預測。隨后, Rossir等通過考察節(jié)點結(jié)構(gòu)角色的變化構(gòu)建了一種分析網(wǎng)絡及節(jié)點結(jié)構(gòu)變化模式的方法。
[0005] 綜上,關(guān)于電子郵件的網(wǎng)絡結(jié)構(gòu)分析研究已經(jīng)出現(xiàn)了較完善的技術(shù)和方法,但這 些方法大多只考慮了網(wǎng)絡的邏輯結(jié)構(gòu),并沒有進一步考慮郵件的特有屬性。郵件網(wǎng)絡除去 社交網(wǎng)絡中共有的結(jié)構(gòu)特征之外,還有許多特有的屬性,如時間、抄送關(guān)系、主題內(nèi)容等,這 些特征在郵件通信網(wǎng)絡的分析中同樣具有重要的價值。
[0006] 本發(fā)明基于LDA模型和中心度算法,提出了一種基于郵件內(nèi)容的郵件網(wǎng)絡取證分 析方法。在郵件內(nèi)容相似度計算中,文中采用LDA模型對每條通信邊上郵件基于某一犯罪 主題的內(nèi)容關(guān)聯(lián)性進行計算。再結(jié)合中心度算法,對郵件通信網(wǎng)絡進行基于內(nèi)容和結(jié)構(gòu)的 綜合分析,從而協(xié)助取證人員查找可疑人群,為計算機犯罪案件取證提供一定輔助和支持。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種基于LDA模型及中心度算法的郵件網(wǎng)絡取證分析方 法,協(xié)助調(diào)查取證人員查找可疑人群及分析核心成員角色,為計算機犯罪案件取證提供輔 助和支持。
[0008] 為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:一種基于LDA模型及中心度算法的 郵件網(wǎng)絡取證分析方法,其特征在于包括以下步驟:
[0009] 步驟Sl :讀取郵件數(shù)據(jù),利用Lucene全文檢索技術(shù),通過一查詢語句Q對所述郵 件數(shù)據(jù)進行基于一犯罪主題的查詢,得到查詢結(jié)果;
[0010] 步驟S2 :根據(jù)所述查詢結(jié)果,構(gòu)造以郵件用戶為節(jié)點,以用戶通信關(guān)系為邊的郵 件網(wǎng)絡圖;
[0011] 步驟S3 :對所述查詢結(jié)果中的每一封郵件,基于LDA模型計算其主題分布;
[0012] 步驟S4 :根據(jù)所述查詢結(jié)果,計算所述查詢結(jié)果中的每一封郵件基于所述犯罪主 題的關(guān)聯(lián)值;
[0013] 步驟S5 :根據(jù)所述郵件網(wǎng)絡圖,計算每條邊基于所述犯罪主題的關(guān)聯(lián)值;
[0014] 步驟S6 :根據(jù)所述郵件網(wǎng)絡圖中每條邊的關(guān)聯(lián)值,計算每個節(jié)點的中心值;
[0015] 步驟S7:根據(jù)步驟S6得到的所有節(jié)點的中心值求節(jié)點的影響因子,所述影響因子 大于一閾值a的即為基于所述犯罪主題的可疑對象。
[0016] 進一步的,所述步驟S3的具體內(nèi)容如下:
[0017] 步驟S31 :對郵件m的正文內(nèi)容進行分詞,得到郵件m對應的詞集合(W1, W2,… ,Wi,…,wn},其中,詞Wi屬于第k個主題的概率計算如下:
[0018]
[0019] 其中,變量Z1表示詞^的主題,K表示主題的個數(shù),Zni, i表示在郵件m中除了詞W1 的主題外的其他所有詞的主題集合;n (m,k)表示郵件m中屬于第k個主題的詞的數(shù)量;變 量α ,表示郵件m中主題k先驗分布的參數(shù),#表示第k個主題中詞W1的分布概率;
[0020] 步驟S32 :歸一化所述步驟S31中所述的詞W1屬于第k個主題的概率,得到wtk, wtk為詞w i的主題分布WT i中的分量:
[0021]
[0022] WTi= (wt !,wt2,…,wtK)
[0023] 步驟S33 :詞化的主題從WT i中抽樣得到,從而得出郵件m中屬于第k個主題的詞 的數(shù)量n (m, k),則郵件m的主題分布計算如下:
[0024]
[0025] 其中#為郵件m中屬于第k個主題的概率,所述郵件m的主題分布為
[0026] 進一步的,所述步驟S4的具體內(nèi)容如下:
[0027] 步驟S41 :給定一主題概率閾值ρτ,將郵件m中的主題分布概率大于等于ρτ的所有 主題篩選出作為郵件m的高概率主題;
[0028] 步驟S42 :給定一詞概率閾值pw,將所述犯罪主題中詞概率大于等于?¥的所有詞作 為所述犯罪主題的高頻詞;
[0029] 步驟S43 :將所述郵件m中的所有高概率主題中的高頻詞的集合作為所述郵件m 的特征關(guān)鍵詞集Keym;
[0030] 步驟S44 :根據(jù)所述查詢語句Q和郵件m的特征關(guān)鍵詞集Keym,計算所述郵件m基 于Q的關(guān)聯(lián)值:
[0031]
[0032] 其中,0 = |//1也^4"|表示對所述查詢語句9進行分詞后的詞集合,集合長度為 nq,n (Q (? Keym)為集合Q和集合Keym的交集的元素個數(shù)。
[0033] 講一步的,所沭步驟S5的具體內(nèi)容如下:
[0034]
[0035] 其中,eAB表示郵件用戶A到郵件用戶B的一條有向通信邊,通信方向指向用戶Β, nAB表示查詢結(jié)果中用戶A發(fā)送給用戶B的所有郵件的個數(shù)。
[0036] 進一步的,所述步驟S6的具體內(nèi)容如下:
[0037] 步驟S61 :根據(jù)所述郵件網(wǎng)絡圖中每條邊的關(guān)聯(lián)值,計算每個節(jié)點的親近值:
[0038]
[0039]
[0040] 其中,Vj表示郵件網(wǎng)絡圖中節(jié)點V i的可達節(jié)點,g表示郵件網(wǎng)絡圖中節(jié)點V i的可 達節(jié)點個數(shù),(!(Vi, Vj)表示節(jié)點Vi到節(jié)點V 的距離,Am〇11+1)表示節(jié)點Vm到節(jié)點Vm+1的有向 邊上基于所述犯罪主題的關(guān)聯(lián)值,節(jié)點V ni和節(jié)點Vlri表示節(jié)點V i到節(jié)點V ,的最短路徑上的 兩個相鄰節(jié)點;
[0041] 步驟S62 :根據(jù)所述郵件網(wǎng)絡圖中每條邊的關(guān)聯(lián)值,計算每個節(jié)點的中介值:
[0042]
[0043] 其中,njk表示節(jié)點j到節(jié)點k的最短路徑個數(shù),n _jk (Vi)表示節(jié)點j到節(jié)點k的最 短路徑上經(jīng)過節(jié)點Vi的個數(shù),計算上述節(jié)點j到節(jié)點k之間的最短路徑時,采用d (V Vk)作 為它們之間的距離;
[0044] 步驟S63 :根據(jù)所述郵件網(wǎng)絡圖中每條邊的關(guān)聯(lián)值,計算每個節(jié)點的程度值:
[0045]
[0046] 其中,Au表示節(jié)點V i到節(jié)點V ,的有向邊上基于所述犯罪主題的關(guān)聯(lián)值。
[0047] 進一步的,所述步驟S7的具體內(nèi)容如下:
[0048] 步驟S711 :找出所述郵件網(wǎng)絡圖的所有節(jié)點中親近值最大的節(jié)點Vtopl和親近值第 二大的節(jié)點Vtop2;
[0049] 步驟S712 :計算節(jié)點V^1的影響因子I (V topl):
[0050]
[0051] 其中,Valuetopl、Valuetopj別表示節(jié)點V _和V _2對應的親近值;
[0052] 步驟S713 :對于一給定的影響因子閾值a,若I (Vtopl) > a,則將節(jié)點乂咖輸出并刪 除,更新郵件網(wǎng)絡圖,并返回步驟S71 ;否則進行步驟S74 ;
[0053] 步驟S714 :將輸出的全部節(jié)點按輸出順序排列成一節(jié)點序列,所述節(jié)點序列中的 所有節(jié)點即為基于所述犯罪主題的重要可疑對象,所述節(jié)點對應的郵件用戶為郵件網(wǎng)絡中 基于所述犯罪主題通信關(guān)系最密切子網(wǎng)的核心用戶。
[0054] 進一步的,所述步驟S7的具體內(nèi)容如下:
[0055] 步驟S721 :找出所述郵件網(wǎng)絡圖的所有節(jié)點中中介值最大的節(jié)點Vtopl和中介值第 二大的節(jié)點Vtop2;
[0056] 步驟S722 :計算節(jié)點V^1的影響因子I (V topl):
[0057]
[0058] 其中,Valuetopl、Valuetopj別表示節(jié)點V _和V _2對應的中介值;
[0059] 步驟S723 :對于一給定的影響因子閾值a,若I (Vtopl) > a,則將節(jié)點乂咖輸出并刪 除,更新郵件網(wǎng)絡圖,并返回步驟S71 ;否則進行步驟S74 ;
[0060] 步驟S724 :將輸出的全部節(jié)點按輸出順序排列成一節(jié)點序列,所述節(jié)點序列中的 所有節(jié)點即為基于所述犯