本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于信息交互網(wǎng)絡(luò)的犯罪個體識別方法。
背景技術(shù):
隨著信息科技、數(shù)據(jù)庫的迅猛發(fā)展,數(shù)據(jù)量呈現(xiàn)指數(shù)趨勢爆炸式的增長,但由于缺乏對分析、決策、預(yù)測等功能的支持機(jī)制,從而導(dǎo)致了―數(shù)據(jù)爆炸、知識貧乏”。面對這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并越來越彰顯其強(qiáng)大的生命力,經(jīng)過多年來不斷的研究和實(shí)踐,數(shù)據(jù)挖掘技術(shù)已集成了人工智能、信息檢索、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)可視化、面向?qū)ο蠓椒?、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等各不同領(lǐng)域的最新研究成果,進(jìn)而逐步形成了一個獨(dú)具特色的研究分支。與此同時,犯罪行為的智能化、高科技化、動態(tài)化,犯罪人員的組織化和職業(yè)化趨勢也越來越明顯,具有時代特征的新型犯罪形式和新型犯罪手段不斷出現(xiàn),現(xiàn)代違法犯罪正處在一個案件高發(fā)期和提速期。犯罪行為的變化層出不窮,對相關(guān)執(zhí)法部門提出了更為嚴(yán)峻的挑戰(zhàn),亟待需要將數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘技術(shù)等應(yīng)用到警務(wù)改革中來,以提高執(zhí)法效率、增強(qiáng)犯罪控制和防范策略等。所以,目前很多國家和城市都加大了對犯罪大數(shù)據(jù)的研究投入和自動化分析工具的開發(fā)。
現(xiàn)有的利用數(shù)據(jù)挖掘的方法對犯罪行為的分析主要集中在以下幾個方面:(1)利用關(guān)聯(lián)規(guī)則挖掘?qū)Ψ缸镄袨檫M(jìn)行特征分析,發(fā)現(xiàn)行為屬性之間存在的依賴關(guān)系,獲取并分析犯罪行為所在的不同區(qū)域、各個目標(biāo)、不同行為意圖之間的規(guī)律和聯(lián)系;(2)利用分類和預(yù)測算法對大量的犯罪行為記錄進(jìn)行分析,發(fā)現(xiàn)共同的行為模式,可以得出犯罪模式、犯罪區(qū)域、犯罪行為等基本特征,挖掘犯罪行為之間的潛在聯(lián)系和規(guī)律,并結(jié)合這些分析結(jié)果來對新的犯罪行為進(jìn)行歸類,從而進(jìn)行有效的預(yù)測和防范;(3)利用聚類分析對具有相同特征的犯罪個體進(jìn)行分類,發(fā)現(xiàn)預(yù)先未知的犯罪類型,主要用于發(fā)現(xiàn)具有相同作案手段的嫌疑犯或區(qū)分不同的犯罪團(tuán)伙;(4)利用異常點(diǎn)檢測,用特定的度量方法研究和發(fā)現(xiàn)與一般的行為模式不一樣的數(shù)據(jù)對象;(5)利用社會網(wǎng)絡(luò)分析,通過數(shù)據(jù)對象之間的某種特殊聯(lián)系構(gòu)建犯罪網(wǎng)絡(luò),主要用來挖掘犯罪團(tuán)伙的核心成員,以達(dá)到迅速搗毀犯罪窩點(diǎn)的目的。
與本發(fā)明最接近的研究是利用社會網(wǎng)絡(luò)分析的方法研究犯罪數(shù)據(jù),也稱之為犯罪網(wǎng)絡(luò)分析,作為社會網(wǎng)絡(luò)分析(Social Network Analysis,SNA)一個分支,犯罪網(wǎng)絡(luò)分析的研究和應(yīng)用在國外已有較好的開展,在國內(nèi)則處于起步階段[1]。文獻(xiàn)[2]指出社會網(wǎng)絡(luò)分析是指通過分析行動者之間的關(guān)聯(lián)和交互的模式來發(fā)現(xiàn)潛在的社會結(jié)構(gòu)的一種社會學(xué)研究方法,作者將社會網(wǎng)絡(luò)分析的關(guān)系分析和位置分析方法引入到犯罪網(wǎng)絡(luò)的分析中,設(shè)計(jì)出了一個犯罪網(wǎng)絡(luò)知識發(fā)現(xiàn)體系CrimeNetExplorer,該體系采用一種概念間隔方法來建立犯罪網(wǎng)絡(luò),應(yīng)用層次聚類方法來進(jìn)行子網(wǎng)分析,根據(jù)強(qiáng)度、度、中介數(shù)等度量參數(shù)和Dijkstra最短路徑算法來進(jìn)行犯罪網(wǎng)絡(luò)結(jié)構(gòu)分析,利用MDS和SVD算法來進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的可視化。根據(jù)上述基本思路,亞利桑那大學(xué)的人工智能實(shí)驗(yàn)室的COLINK科研項(xiàng)目,不但研制出了專門的犯罪網(wǎng)絡(luò)分析產(chǎn)品COLINK,還出產(chǎn)了大量的論文,如文獻(xiàn)[3]論述了應(yīng)對國家和運(yùn)輸安全的跨區(qū)域犯罪活動網(wǎng)絡(luò)分析方法,文獻(xiàn)[4]論述了數(shù)據(jù)挖掘技術(shù)在犯罪網(wǎng)絡(luò)分析中的應(yīng)用,而文獻(xiàn)[5,6]則是通過幾個應(yīng)用架構(gòu)來說明犯罪網(wǎng)絡(luò)分析在反恐斗爭中的運(yùn)用。文獻(xiàn)[7]對雙曲線樹和層次列表兩種犯罪網(wǎng)絡(luò)可視化方法進(jìn)行了比較。上述文獻(xiàn)所提出的犯罪網(wǎng)絡(luò)分析技術(shù)與方法所依托的數(shù)據(jù)是綜合性的,包括犯罪信息、電話記錄、監(jiān)視日志、資金流動記錄等,這對分析犯罪網(wǎng)絡(luò)結(jié)構(gòu)很有幫助,如果在僅有通信數(shù)據(jù)的條件下進(jìn)行犯罪網(wǎng)絡(luò)分析。文獻(xiàn)[8]設(shè)計(jì)了一個隊(duì)恐怖組織網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行估計(jì)的工具NETEST,該工具綜合應(yīng)用了層次貝葉斯的推論模型、偏好網(wǎng)絡(luò)理論[9]和多代理系統(tǒng)等技術(shù),為犯罪網(wǎng)絡(luò)分析提供了有一種參考文獻(xiàn)。而文獻(xiàn)[11]介紹了數(shù)據(jù)融合和數(shù)據(jù)挖掘技術(shù)在犯罪分子抓捕輔助系統(tǒng)ReCAP中的應(yīng)用。ReCAP是較早應(yīng)用計(jì)算機(jī)程序進(jìn)行數(shù)據(jù)分析輔助司法部門抓捕犯罪嫌疑人的智能警用系統(tǒng)。對于網(wǎng)絡(luò)核心成員的挖掘問題,文獻(xiàn)[10]提出了一種新的思想。該文獻(xiàn)首先定義了特殊的網(wǎng)絡(luò)核心人員挖掘問題(KPP-Neg,KPP-Pos),然后提出了對應(yīng)的挖掘方法。該挖掘方法為:如果刪除某個節(jié)點(diǎn)后能使網(wǎng)絡(luò)分成兩個或多個大小相似的子網(wǎng)絡(luò)的話,那么刪除的節(jié)點(diǎn)是網(wǎng)絡(luò)核心成員之一,如此下去找到K個核心成員,并采用貪心算法來實(shí)現(xiàn)。上述兩個緊密繼承于社會網(wǎng)絡(luò)分析技術(shù)的犯罪網(wǎng)絡(luò)分析方法,尤其對如何在通信數(shù)據(jù)上進(jìn)行犯罪網(wǎng)絡(luò)分析有很強(qiáng)的指導(dǎo)意義。四川大學(xué)計(jì)算機(jī)學(xué)院對犯罪網(wǎng)絡(luò)分析進(jìn)行了一些研究,提出了基于六度分割理論的最短路徑算法SPLINE[12],在此基礎(chǔ)上提出了犯罪網(wǎng)絡(luò)核心挖掘算法(KEY Member Ming KMM)[12]。在犯罪網(wǎng)絡(luò)建立和子網(wǎng)絡(luò)分析方面他們分別提出了BSN(Building Social Network)算法[12]和SGM(Sub-Group Mining)算法[12]。他們還提出了一種基于GEP(Gene Expression Programming)[3]的恐怖分子分類算法和基于屬性篩選支持向量機(jī)的挖掘社團(tuán)結(jié)構(gòu)(可用于犯罪網(wǎng)絡(luò)結(jié)構(gòu))的方法ASRA(Attribute Selected and Rule Abstracted)[14]?,F(xiàn)有的技術(shù)只基于從數(shù)據(jù)中抽象出來的人員通信的拓?fù)浣Y(jié)構(gòu)進(jìn)行簡單的網(wǎng)絡(luò)分析,或者只基于獲取的通信內(nèi)容進(jìn)行一般的數(shù)據(jù)挖掘分析,很少有將二者結(jié)合起來進(jìn)行研究。但是一般而言,一個人是否具備犯罪的嫌疑,既和這個人的談?wù)撛掝}相關(guān),也和這個人和誰有過交流有關(guān),即一個個體的犯罪嫌疑度既取決于其通信內(nèi)容,也取決于其所在的信息交互網(wǎng)絡(luò)中的位置。
人們每天都在通信,犯罪分子也不例外,隨著社交媒體的普及,這些通信記錄都在被無時無刻的記錄著,如何從這些海量的通信記錄中準(zhǔn)確的發(fā)現(xiàn)并識別出其中最有可能參與犯罪的嫌疑分子,從而幫助相關(guān)部門迅速定點(diǎn)出擊,將犯罪團(tuán)伙一網(wǎng)打盡,在如今的大數(shù)據(jù)時代,無疑具有重大的現(xiàn)實(shí)意義。
技術(shù)實(shí)現(xiàn)要素:
針對上述技術(shù)問題,本發(fā)明旨在解決如何從人員通信網(wǎng)絡(luò)中識別出犯罪個體的問題,具體技術(shù)方案如下:
一種基于信息交互網(wǎng)絡(luò)的犯罪個體識別方法,主要包括以下步驟:
(1)獲取包含犯罪活動內(nèi)容的數(shù)據(jù)集,對數(shù)據(jù)集進(jìn)行預(yù)處理:
若數(shù)據(jù)集為英文,則按照提取正文、去除停用詞、將所有單詞變成小寫、提取詞干的順序進(jìn)行處理,最后提取名詞,并將屬于人名的名詞刪除;
若數(shù)據(jù)集為中文,則先提取正文,然后分詞、去除停用詞、命名實(shí)體識別,最后提取名詞,并將屬于人名的名詞刪除;
在實(shí)施過程中,若數(shù)據(jù)集為非英文、非中文,可以翻譯成英文或者英文再進(jìn)行對應(yīng)處理。
(2)提取犯罪話題的關(guān)鍵詞描述
人工確定若干個與犯罪話題相關(guān)的關(guān)鍵詞(一般而言分析數(shù)據(jù)之前,對于犯罪活動的內(nèi)容一般有個大概的了解,因此此處為人工選取關(guān)鍵詞提供了可能,這也體現(xiàn)了該專利是一種人機(jī)交互模型,既借鑒了人的經(jīng)驗(yàn),又發(fā)揮了數(shù)學(xué)模型的精確性特點(diǎn)),計(jì)算各關(guān)鍵詞的TFIDF值(Term Frequency Inverse Document Frequency,簡稱TFIDF),取前10個值最高的關(guān)鍵詞作為犯罪話題的描述。
(3)基于困惑度確定主題模型LDA(Latent Dirichlet Analysis,簡稱LDA)的交互主題個數(shù)K:定義困惑度表示為perplexity,困惑度是用于評價(jià)衡量訓(xùn)練出的語言模型的好壞的指標(biāo),其中定義為各篇文檔合理性的幾何平均值:
其中M表示數(shù)據(jù)集進(jìn)行預(yù)處理后的文檔數(shù),K表示交互主題數(shù),dm表示第m篇文檔,zk表示第k個交互主題,wt表示第t個字符,表示第m篇文檔中字符wt出現(xiàn)的次數(shù),N表示文檔中字符的總數(shù),即步驟(2)中處理后的數(shù)據(jù)集中的字符總數(shù);使得困惑度值取最小的K值便是交互主題個數(shù);
(4)基于主題模型LDA對步驟(1)預(yù)處理后的數(shù)據(jù)集提取個體間交互內(nèi)容的交互主題:分別為交互主題與關(guān)鍵詞的關(guān)聯(lián)概率矩陣φk(交互主題k對應(yīng)的單詞分布)、交互邊與交互主題的關(guān)聯(lián)概率矩陣θij(交互邊(vi,vj)對應(yīng)的交互主題分布);
(5)根據(jù)交互邊與交互主題的關(guān)聯(lián)概率矩陣和交互主題與關(guān)鍵詞的關(guān)聯(lián)概率矩陣,計(jì)算交互邊的權(quán)重;
設(shè)個體vi和個體vj之間的交互邊為eij,假設(shè)得到的K個交互主題z1,z2,...,zK在交互邊(vi,vj)上的分布為p(z1),p(z2),...,p(zK),犯罪話題描述為:crime_content={c1,c2,...,cH},H表示犯罪話題的個數(shù),Ch表示第h個犯罪話題,交互主題與關(guān)鍵詞的關(guān)聯(lián)矩陣φk=p(ch|zk),k取值為1,2,3,…,K;h取值為1,2,3,…,H,則交互邊(vi,vj)對應(yīng)的內(nèi)容和犯罪話題crime_content的語義相似度,即作為交互邊eij的權(quán)重ψij:
(6)基于加權(quán)信息交互網(wǎng)絡(luò)的結(jié)構(gòu)計(jì)算個體的局部犯罪嫌疑度
信息交互網(wǎng)絡(luò)G(V,E,W),其中V是個體節(jié)點(diǎn)集合,E是個體之間的交互關(guān)系集合,W是個體之間的交互邊的權(quán)重;從犯罪行為的邏輯分析角度,提出的四點(diǎn)假設(shè)的基礎(chǔ):1)一個人的犯罪嫌疑度由其所參與的交互主題和交流的對象是否是犯罪嫌疑人決定;2)如果一個人談?wù)摰膬?nèi)容完全與犯罪話題無關(guān),并且和他交流的對象也都是已知無辜的人,那么該人就肯定不是犯罪分子(至少從現(xiàn)有的數(shù)據(jù)無法判斷其有犯罪嫌疑);3)如果一個人討論越多的犯罪話題,并且和越多的犯罪分子有過交流,那么該人的犯罪嫌疑度越大;4)在計(jì)算一個人的犯罪嫌疑度時,其所談?wù)撝黝}的犯罪嫌疑度對結(jié)果的影響要大于其所交談對象的犯罪嫌疑度的影響。
在上述四點(diǎn)假設(shè)的基礎(chǔ)上,構(gòu)造基于網(wǎng)絡(luò)結(jié)構(gòu)的個體局部犯罪嫌疑度的迭代計(jì)算公式:
其中ki是節(jié)點(diǎn)vi的度數(shù),i,j均表示節(jié)點(diǎn)vi,vj,Q表示網(wǎng)絡(luò)中的節(jié)點(diǎn)個數(shù),Si(q)表示第q步迭代計(jì)算中節(jié)點(diǎn)vi的局部犯罪嫌疑度值;并基于該式計(jì)算所有個體的局部犯罪嫌疑度;個體的局部犯罪嫌疑度在迭代過程中會收斂。(此處節(jié)點(diǎn)即代表信息交互網(wǎng)絡(luò)中的個體,個體的初始局部犯罪嫌疑度Si(0)隨機(jī)賦值)。
(7)基于模糊K均值聚類和距離-密度聚類相結(jié)合的方法計(jì)算個體的全局犯罪嫌疑度,并根據(jù)全局犯罪嫌疑度對犯罪個體進(jìn)行識別。
以步驟(6)中得到的個體局部犯罪嫌疑度值作為特征值,將所有個體角色劃分為兩類:犯罪類和無辜類,從而將該問題轉(zhuǎn)化為一個聚類問題;利用模糊K均值聚類方法(k-means)計(jì)算所有個體到犯罪類的隸屬度,作為該個體的全局犯罪嫌疑度;利用距離-密度(Distance-Density,簡稱DD)聚類方法將所有個體分別明確的聚為犯罪類、無辜類和無法辨別的噪音類中的一種。
采用本發(fā)明獲得的有益效果:本發(fā)明提出的基于聚類算法的個體全局犯罪嫌疑度計(jì)算方法可以很好的利用全局的信息,并且模糊K均值聚類和距離-密度聚類相結(jié)合的方法可以給出更為明確細(xì)致的結(jié)果,得到的結(jié)果具有很好的可解釋性。
本發(fā)明綜合了網(wǎng)絡(luò)分析和語義分析;本發(fā)明的計(jì)算結(jié)果不依賴先驗(yàn)信息,即不需要事先知道有哪些犯罪分子,只要獲取他們的通信內(nèi)容,便可準(zhǔn)確的分析出其中最有可能的嫌疑分子;原理簡單、流程清晰、易于實(shí)現(xiàn),可以為相關(guān)部門的偵查提供輔助決策,提高辦案效率。
說明書附圖
圖1為本發(fā)明的流程圖;
圖2為犯罪話題的詞云圖;
圖3為實(shí)施例中犯罪話題關(guān)鍵詞TFIDF的雷達(dá)圖;
圖4為實(shí)施例中各交互主題的犯罪嫌疑度;
圖5為實(shí)施例中83名員工的局部嫌疑度;
圖6為基于FCM(fuzzy C-means)聚類算法的83名員工的全局嫌疑度;
圖7為DD算法的決策圖及類中心點(diǎn)選擇圖;
圖8為基于DD算法的83名員工的犯罪角色判別;
圖9為基于FCM聚類的結(jié)果和基于DD聚類的結(jié)果比較圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步說明。
本發(fā)明的流程如圖1所示,實(shí)施例選用的ICM-C82數(shù)據(jù)集是一家公司內(nèi)容員工的郵件數(shù)據(jù)集,因?yàn)楸Wo(hù)隱私的原因,并未公開郵件的全部內(nèi)容,公開的是經(jīng)人工提煉后的交互主題內(nèi)容。該數(shù)據(jù)集是在公司發(fā)生一起內(nèi)部員工通過網(wǎng)絡(luò)詐騙手段合伙欺騙公司股東資金的犯罪案件后,有關(guān)部門為了找到其中的犯罪分子,調(diào)出公司內(nèi)部員工在案發(fā)一段時間內(nèi)的郵件通信數(shù)據(jù),并經(jīng)過一些前期的分析處理,放在網(wǎng)上供相關(guān)學(xué)者進(jìn)行研究。
數(shù)據(jù)集包含83個公司員工之間超過400多次的交互,交互的內(nèi)容超過21000個有效單詞(去除停用詞),經(jīng)過對原始內(nèi)容的分析,提煉出15個交互主題,并描述了每個交互主題的具體內(nèi)容,以及每條交互涉及的最相關(guān)的主題信息。
根據(jù)事后的調(diào)查,發(fā)現(xiàn)已知的犯罪嫌疑人有Jean,Alex,Elsie,Paul,Ulf,Yao和Harvey等7人,已知的無辜的人有Darlene,Jia,Tran,Ellin,Gard,Chris,Paige和Este等8人。
調(diào)查局發(fā)現(xiàn)實(shí)際參與犯罪的還有其他員工,而且就隱藏在其中,下面基于本發(fā)明給出所有潛在罪犯的一個預(yù)測。
因?yàn)閷?shí)驗(yàn)所用數(shù)據(jù)已經(jīng)經(jīng)過了人工分析處理,提取了15個人員的交互主題,并詳細(xì)描述了交互主題的內(nèi)容,則下面僅需計(jì)算交互主題與犯罪話題的語義關(guān)聯(lián)度,計(jì)算個體的局部嫌疑度,計(jì)算個體的全局嫌疑度并進(jìn)行犯罪角色的分析。
分析實(shí)驗(yàn)所提供的交互主題的描述信息,大致了解原始數(shù)據(jù)中公司內(nèi)的83名員工都在交流什么內(nèi)容,有在談?wù)摴竟善钡?,有抱怨公司的?shù)據(jù)庫加密太嚴(yán)格導(dǎo)致權(quán)限受阻的,有討論誰會被提升的,有討論公司組織足球活動的,當(dāng)然也有討論,或者可以說是密謀對公司利益有害的犯罪活動的。因?yàn)楂@取的不是原始數(shù)據(jù)集,可能在詞匯層面不能―原汁原味”的還原出原來的特色,但對于分析要解決的問題而言沒有什么影響,我們關(guān)心的是交互主題與犯罪話題的語義關(guān)聯(lián)度。
(1)提取犯罪話題(因?yàn)榫W(wǎng)上公開的該數(shù)據(jù)集已經(jīng)提取了各人之間的交互主題,因此在實(shí)施例中沒有進(jìn)行發(fā)明內(nèi)容部分步驟(3)、(4),該步驟同時包含了本發(fā)明的步驟(1)至步驟(4))。
首先看一下提供的犯罪話題描述數(shù)據(jù)中的詞匯分布(去掉如“is,am,are,I,you,the of”等對語義分析無關(guān)的停用詞:stop word),是根據(jù)各單詞出現(xiàn)的頻率繪制的詞云圖,單詞出現(xiàn)頻率越大,相應(yīng)的詞云形狀越大,如圖2(1)所示,分析發(fā)現(xiàn),對這15個交互主題的描述所用的單詞中,出現(xiàn)頻率較多的有discuss,message,company等詞,這也符合描述公司談?wù)摰闹黝}的一般的用語表達(dá)。
根據(jù)已知的信息,交互主題7,11,13很有可能是犯罪話題,交互主題7在交流什么時候去某個人家里召開隱秘的會議,交互主題11在討論公司的財(cái)務(wù)、審計(jì)及可能的系統(tǒng)漏洞的,交互主題13在討論高管何時會下線、公司內(nèi)網(wǎng)何時會出現(xiàn)監(jiān)管盲區(qū),可見這三個交互主題內(nèi)容確實(shí)很令人起疑心。這3個交互主題的內(nèi)容描述數(shù)據(jù)的單詞分布見圖2(2)??梢?,頻率較高的單詞有discuss,conspiratory,particular等詞。為了找到最適合描述犯罪話題的關(guān)鍵詞,下面計(jì)算這三個交互主題中每個單詞的TF-IDF值,圖3以雷達(dá)圖的形式呈現(xiàn)結(jié)果。
可以發(fā)現(xiàn),TFIDF值較高的詞有―account,audit,capabl,card,code,credit,discreet,flaw,network,privat,system,plan,spanish”,因此可以選作為該犯罪話題的描述。
(2)計(jì)算交互邊的權(quán)重(因?yàn)樘囟▽?shí)驗(yàn)數(shù)據(jù)集已經(jīng)確定了交互主題,不需要再按照步驟(4)方法在主題模型的前提下進(jìn)行計(jì)算)
計(jì)算其他交互主題和犯罪話題的關(guān)聯(lián)度可轉(zhuǎn)化為計(jì)算其他交互主題中這些關(guān)鍵詞的TFIDF值的和。計(jì)算出各交互主題的嫌疑度如圖4所示:
如圖4所示,發(fā)現(xiàn)除了交互主題7,11,13三個已知的犯罪話題嫌疑度很高之外,交互主題2,8,12也都有一定的嫌疑度,而回到原始數(shù)據(jù),分析交互主題2,8,12的內(nèi)容,可以看到,這幾個交互主題要么用Spanish語交流,要么交流公司網(wǎng)絡(luò)安全的內(nèi)容,而實(shí)際的犯罪活動中,犯罪成員用Spanish語作暗語,利用公司內(nèi)網(wǎng)的漏洞進(jìn)行信用詐騙,確實(shí)有一定可疑。
(3)基于加權(quán)信息交互網(wǎng)絡(luò)的結(jié)構(gòu)計(jì)算個體局部嫌疑度
原始數(shù)據(jù)提供了各交互邊包含的交互主題信息,(1)計(jì)算了各交互主題的嫌疑度,則通過求和的方式計(jì)算交互邊的犯罪嫌疑度,即邊的權(quán)重。設(shè)邊eij包含交互主題z1,z2,...,zK,每個犯罪話題的犯罪嫌疑度為p(z1),p(z2),...,p(zK),則交互邊eij的權(quán)重:
應(yīng)用本發(fā)明構(gòu)造的個體局部犯罪嫌疑度計(jì)算公式計(jì)算每個員工的局部嫌疑度。如圖5所示,為83名員工的局部嫌疑度值。分析發(fā)現(xiàn),根據(jù)局部嫌疑度值已經(jīng)可以對員工的角色進(jìn)行初步判斷,例如對于已知是罪犯的22號員工Alex,55號員工Ulf,68號員工Yao等,他們的局部嫌疑度值已經(jīng)很高。然而僅用個體的局部嫌疑度值進(jìn)行犯罪分子識別存在兩個問題,一是因?yàn)榫植肯右啥戎迪鄬^集中,難以有比較明確的數(shù)值界限;二是也沒有充分利用全局的信息,必定會因?yàn)檫z漏信息而導(dǎo)致漏判或者誤判。
(4)基于模糊K均值聚類和距離-密度聚類的方法計(jì)算個體全局嫌疑度。
將83名員工當(dāng)做83個數(shù)據(jù)點(diǎn),以各員工的局部嫌疑度值作為各數(shù)據(jù)點(diǎn)的屬性值,計(jì)算各員工的全局嫌疑度值。
首先利用模糊K均值聚類計(jì)算83名員工的全局嫌疑度,計(jì)算結(jié)果如圖6所示,并與圖5進(jìn)行比較,可以看到,和圖5相比,基于FCM算法的個體全局嫌疑度值的區(qū)分結(jié)果更加明確(FCM的計(jì)算結(jié)果兩極化更明顯)。
其次基于DD算法計(jì)算員工的全局嫌疑度值(結(jié)果非1即0),首先得到?jīng)Q策圖,并基于決策圖選擇類中心點(diǎn),見圖7;
可以發(fā)現(xiàn),決策圖中的右上角有很明顯的兩個點(diǎn),基于DD算法的原理,知道這兩個數(shù)據(jù)點(diǎn)是兩個類的中心,同時得到這堆數(shù)據(jù)可以聚為兩個類,一個是犯罪類,一個是無辜類。這兩個點(diǎn)對應(yīng)到數(shù)據(jù)集中是55號節(jié)點(diǎn)和72號節(jié)點(diǎn),其中55號對應(yīng)已知的罪犯Ulf,因此55號是犯罪類中心,72號是無辜類中心,聚類結(jié)果如圖8所示,類別1是犯罪類,類別2是無辜類,類別0是噪音類(即DD算法也不能判別的類)
結(jié)果分析,根據(jù)全局犯罪嫌疑度對犯罪個體進(jìn)行識別;表1是15位已知角色的人員的FCM嫌疑度及DD判別結(jié)果(1是罪犯,2是無辜人員,0是不能判斷的角色),可以看到,對于已經(jīng)確定是犯罪分子的Elsie等人,計(jì)算得到FCM嫌疑度值都很高,排名也都很靠前,因此基于FCM的模型,即使不知道他們是犯罪分子,也可以將其識別出來,而且在這種情況下,其他還沒發(fā)現(xiàn)的犯罪分子可以通過定位那些嫌疑度值高的人來進(jìn)行偵查分析識別;基于DD的模型同樣也將這些人歸為犯罪類,識別效果較好。對于事先知道是無辜的人,同樣可以看到不僅是基于FCM的算法還是基于DD的算法也同樣可以區(qū)分的很好。當(dāng)然也可以看出,標(biāo)號為66的員工,無論是FCM算法還是DD算法,都容易誤將其歸為犯罪類,而回到原數(shù)據(jù)集中,發(fā)現(xiàn)66號員工Jia參與討論了交互主題2,7,11,而這些交互主題都具有一定的嫌疑度,而且他還與Paul等已知罪犯有過交流,因此至少從所提供的數(shù)據(jù)來看,Jia具有較高的嫌疑度,因此算法的結(jié)果是符合實(shí)際的。
表1已知角色的員工的模型結(jié)果
基于模型結(jié)果的犯罪分子預(yù)測,上述結(jié)果表明本文的模型可以有效的識別組織中的犯罪分子,那么,按照―理解-量化-預(yù)測-控制”的科學(xué)研究步驟,下一步就是預(yù)測組織中其他的犯罪分子,這也是本發(fā)明的最終價(jià)值所在。在給出預(yù)測結(jié)果之前,首先對比一下FCM聚類的結(jié)果和DD聚類的結(jié)果,如表2所示。
表2基于FCM聚類的結(jié)果和基于DD聚類的結(jié)果的比較
圖9按照全局嫌疑度值從高至低進(jìn)行排序,且根據(jù)不同數(shù)據(jù)點(diǎn)在DD算法中的類判別結(jié)果賦予不同的形狀,“○”表示判別為犯罪類,“*”表示判別為噪音類(即不能判斷是犯罪還是無辜),“◆”表示判別為無辜類。
表2可以得到,基于兩種不同的聚類算法得到的結(jié)果在犯罪角色的識別上是一致的,即在FCM聚類的結(jié)果中計(jì)算出較高嫌疑度值的員工在DD聚類中也會被歸為犯罪類,在FCM聚類結(jié)果中計(jì)算出較低嫌疑度值的員工在DD聚類中也會被歸為無辜類,在FCM聚類結(jié)果中計(jì)算的嫌疑度值處于中間值的員工在DD聚類中也會被歸為噪音點(diǎn)。這正好互為印證兩種方法結(jié)果的合理性,其次還可以互為彌補(bǔ)兩種方法的不足:FCM聚類方法的不足在于很難有一個明確的方法確定犯罪類的邊界,到底嫌疑度值高于多少才能認(rèn)為是罪犯,這給偵查機(jī)構(gòu)在最終下定決心該逮捕誰帶來了問題;DD聚類方法的不足在于對類內(nèi)員工的嫌疑程度可解釋性不強(qiáng),它認(rèn)為歸為犯罪類的員工的嫌疑度都一樣,其實(shí)不盡然,即便一個犯罪團(tuán)伙里還分犯罪主犯和從犯呢,這給偵查機(jī)構(gòu)的偵查精力分配帶來了困擾。如果結(jié)合兩種方法,認(rèn)為在DD聚類中被歸為犯罪類且在FCM聚類中犯罪嫌疑度值較大的員工是偵查機(jī)構(gòu)最應(yīng)該去調(diào)查的嫌疑分子,則既解決了邊界的問題也解決了嫌疑度量化的問題。
從表2中都可以看到,犯罪角色劃分的邊界點(diǎn)在11號員工(最后一個劃為犯罪類的66號員工已經(jīng)知道是無辜的),嫌疑度值為0.7954。據(jù)此,可以對該公司涉及到這次犯罪活動的罪犯進(jìn)行預(yù)測(將表2中66號以上的員工都列為犯罪嫌疑人,并按照嫌疑程度高低進(jìn)行有重點(diǎn)的排查),結(jié)果如表3所示。
表3該公司可能參與這次犯罪活動的犯罪分子
參考文獻(xiàn):
[1]唐常杰、劉威、溫粉蓮等,社會網(wǎng)絡(luò)分析和社團(tuán)信息挖掘的三項(xiàng)探索——挖掘虛擬社團(tuán)的結(jié)構(gòu),核心和通信行為[J],計(jì)算機(jī)應(yīng)用,2006,9(2)123~125.
[2]Jennifer J.XU and Hsinchun Chen.CrimeNet Explorer:A Framework for Criminal Network Knowledge Discovery.ACM Transactions on Information Systems,Vol.23 No.2,April 2005,Pages 201-226.
[3]Marshall,B.,et al.Cross-Jurisdictional Criminal Activity Networks to Support Border and Transportation Security.in 7th International IEEE Conference on Intelligent Transportation Systems.2004.Washington D.C.
[4]Hsinchun Chen,et al.Crime Data Mining:A General Framework and Some Examples.Computer,April 2004
[5]Xu,J.,Chen,H.,Untangling Criminal Networks:A Case Study.Proceedings of the 1st NSF/NIJ Symposium on Intelligence and Security Informatics(ISI'03),Tucson,AZ(2003).
[6]Jialun Qin,et al.Analyzing Terrorist Networks:A Case Study of the Global Salafi Jihad Network.P.Kantor et al.(Eds.):ISI 2005,LNCS 3495,pp.287-304,2005.
[7]Y.Xianga,*,M.Chaub,H.Atabakhsha,H.Chen,Visualizing criminal relationships:comparison of a hyperbolic tree and a hierarchical list.Decision Support Systems 41(2005),Pages 69–83
[8]Matthew J.Dombroski,Kathleen M.Carley.NETEST:Estimating a Terrorist Network’s Structure.Graduate Student Best Paper Award,CASOS2002 Conference.
[9]劉軍,社會網(wǎng)絡(luò)模型研究論析,社會學(xué)研究,2004年第1期
[10]Borgatti,S.P.2006.Identifying sets of key players in a network.Computational,Mathematical and Organizational Theory.12(1):21-34.
[11]Brown,D.E.,The Regional Crime Analysis Program(ReCAP):a framework for mining.Data to catch criminals,Proc.of IEEE International Conference on Systems,Man,and.Cybernetics,2848–2853,1998
[12]溫粉蓮、唐常杰、喬少杰等,挖掘被監(jiān)控社團(tuán)核心的最短路徑方法.中國科技論文在線(教育部)http://www.paper.edu.cn No,200607-42.
[13]Shaojie Qiao,et al.VCCM Mining:Mining Virtual Community Core Members Based on Gene Expression Programming[C].H.Chen et al.(Eds.):WISI 2006,LNCS 3917,pp.133-138,2006.
[14]喬少杰、唐常杰,基于屬性篩選支持向量機(jī)挖掘虛擬社團(tuán)結(jié)構(gòu),計(jì)算機(jī)科學(xué)(增刊A),第23卷第7期,2005.8.