專利名稱:基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種釣魚網(wǎng)站檢測(cè)的方法,主要從網(wǎng)站的相似性檢測(cè)角度利用網(wǎng)絡(luò)群挖掘可疑網(wǎng)站的相關(guān)網(wǎng)站,對(duì)釣魚網(wǎng)站進(jìn)行分析識(shí)別。屬于信息安全與數(shù)據(jù)挖掘的交叉領(lǐng)域。
背景技術(shù):
“釣魚網(wǎng)站”是伴隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上購(gòu)物的日益成熟而出現(xiàn)的一種網(wǎng)絡(luò)詐騙行為。犯罪分子模仿合法網(wǎng)站做出與之視覺上幾乎一樣的“釣魚網(wǎng)站”,用戶一旦登陸該“釣魚網(wǎng)站”就會(huì)泄露自己的敏感信息(如用戶名、口令、帳號(hào)ID、ATM PIN碼或信用卡詳細(xì)信息等)。因?yàn)椤搬烎~網(wǎng)站”通常模仿的是銀行或其他知名網(wǎng)站,用戶一旦受到釣魚攻擊,就會(huì)遭受經(jīng)濟(jì)損失。釣魚攻擊一般分為三個(gè)階段首先,向潛在的受害者發(fā)送釣魚郵件,將郵件接受者弓丨誘到一個(gè)精心設(shè)計(jì)的“釣魚網(wǎng)站”;然后,獲取用戶的個(gè)人敏感信息,如銀行賬號(hào)、密碼等;最后,犯罪分子用這些敏感信息進(jìn)行謀利。利用被盜取的個(gè)人信息,罪犯可能盜取銀行證書,直接謀利;也有可能偷取如在線游戲或社交網(wǎng)絡(luò)的證書,將受害人用戶的虛擬金幣轉(zhuǎn)移到他們的合伙人賬戶,然后轉(zhuǎn)賣給其他玩家,間接謀利。由于大多數(shù)人在不同網(wǎng)站會(huì)使用同樣的用戶名和密碼,一旦受到某個(gè)釣魚攻擊,有可能遭受一系列的經(jīng)濟(jì)損失。防止釣魚網(wǎng)頁(yè)攻擊,從終端用戶的角度,首先要讓所有東西不可見。阻止釣魚攻擊觸及到終端用戶是第一道防線,包括過濾釣魚郵件信息,阻止假冒的網(wǎng)站,以及關(guān)閉假冒網(wǎng)站。其次是為用戶提供更好的界面,即要么給用戶更好的環(huán)境要么提供更好的保護(hù),如瀏覽器會(huì)在用戶瀏覽釣魚網(wǎng)頁(yè)時(shí)彈出警告窗口。最后,還可以訓(xùn)練用戶主動(dòng)識(shí)別和避免釣魚攻擊。目前釣魚網(wǎng)頁(yè)的識(shí)別主要分為人工識(shí)別和機(jī)器識(shí)別。人工識(shí)別主要是用黑名單機(jī)制,將可疑網(wǎng)頁(yè)與黑名單庫(kù)中的網(wǎng)頁(yè)比較,若找到相同的則為釣魚網(wǎng)頁(yè),否則為合法網(wǎng)頁(yè)。機(jī)器識(shí)別主要是基于相似性計(jì)算,抽取可疑網(wǎng)頁(yè)的視覺特征,計(jì)算其與合法網(wǎng)頁(yè)的相似度,進(jìn)而判斷其是否為釣魚網(wǎng)頁(yè)。K Komiyama等人分析了造成檢測(cè)釣魚網(wǎng)頁(yè)錯(cuò)誤的原因,以及對(duì)于非英文網(wǎng)站CBD方法的效率,如日語(yǔ),中文等語(yǔ)言的網(wǎng)頁(yè)。CBD方法是按照一定的標(biāo)準(zhǔn)從可疑網(wǎng)頁(yè)中抽取n關(guān)鍵字,按照抽取的關(guān)鍵字在搜索引擎中搜索,并假設(shè)合法網(wǎng)頁(yè)包含在返回的前m個(gè)搜索結(jié)果中,如果可疑網(wǎng)頁(yè)與前m個(gè)結(jié)果中的任一個(gè)匹配,就認(rèn)為是合法網(wǎng)頁(yè),否則為釣魚。Maher等人采用模糊數(shù)據(jù)挖掘?qū)﹄娮鱼y行釣魚進(jìn)行智能檢測(cè)。他們提出了一種克服電子銀行釣魚網(wǎng)頁(yè)評(píng)估的“模糊”方法,從而構(gòu)建了一個(gè)檢測(cè)電子銀行釣魚檢測(cè)模型?;谀:壿?、數(shù)據(jù)挖掘算法,來(lái)描繪電子銀行釣魚網(wǎng)頁(yè)因素,通過釣魚方法的分類調(diào)查技術(shù),用一種層結(jié)構(gòu)定義了六種電子銀行釣魚網(wǎng)頁(yè)攻擊標(biāo)準(zhǔn)。Crain J等人針對(duì)新一代的魚叉式釣魚,用郵件用戶插件結(jié)合自動(dòng)和透明郵件的簽名方法檢測(cè)釣魚。要求每個(gè)用戶用給定的代理系統(tǒng)重定向郵件用戶。主要思想是金融機(jī)構(gòu)給用戶發(fā)送一個(gè)公共鑰匙,那么今后該機(jī)構(gòu)收到的郵件都會(huì)用這個(gè)私人鑰匙標(biāo)記。
現(xiàn)有的方法主要是針對(duì)釣魚網(wǎng)頁(yè)的檢測(cè),且無(wú)論特征庫(kù)是黑名單還是白名單,每次檢測(cè)都要計(jì)算很多與可疑網(wǎng)頁(yè)關(guān)聯(lián)性不大的網(wǎng)頁(yè)之間的相似性,浪費(fèi)很多資源,導(dǎo)致檢測(cè)效率低。因此,我們提出了基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法。本方法通過挖掘可疑網(wǎng)頁(yè)相關(guān)的網(wǎng)頁(yè),找到其可能的目標(biāo)網(wǎng)站,從而減少相似度計(jì)算的比較對(duì)象。抽取網(wǎng)站的特征簽名,計(jì)算可疑網(wǎng)站與其可能的目標(biāo)網(wǎng)站之間的相似性,最終找到可疑網(wǎng)站的目標(biāo)網(wǎng)站。
發(fā)明內(nèi)容
發(fā)明目的本發(fā)明的目的是提供一種基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法。該方法能夠挖掘與可疑網(wǎng)頁(yè)相關(guān)的關(guān)聯(lián)網(wǎng)頁(yè),從而找到可疑網(wǎng)站潛在的目標(biāo)網(wǎng)站,縮小目標(biāo)網(wǎng)站的比較范圍,提高釣魚網(wǎng)站的檢測(cè)效率,并且最終找到釣魚網(wǎng)站的目標(biāo)網(wǎng)站。技術(shù)方案本發(fā)明基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法實(shí)現(xiàn)方法,其特征在于該方法所包含的步驟為
步驟I)獲取可疑網(wǎng)頁(yè)的潛在目標(biāo)網(wǎng)站
步驟1.1)輸入可疑網(wǎng)頁(yè);
步驟1. 2)獲取可疑網(wǎng)頁(yè)所在的網(wǎng)站;
步驟1. 3)獲取可疑網(wǎng)頁(yè)的相關(guān)網(wǎng)頁(yè)群
步驟1. 3.1)輸入可疑網(wǎng)頁(yè)中的所有鏈接;
步驟1. 3. 2)生成種子網(wǎng)頁(yè)集;
步驟1. 3. 3)初始化迭代次數(shù)為0 ;
步驟1. 3. 4)生成有向圖,迭代次數(shù)加1:
步驟1.3. 4.1)根據(jù)種子網(wǎng)頁(yè)集,生成初始有向 步驟1. 3. 4. 2)獲取種子網(wǎng)頁(yè)集中所有網(wǎng)頁(yè)的后向鏈接網(wǎng)頁(yè);
步驟1.3. 4. 3)把步驟1.3. 4.2)中找到的新網(wǎng)頁(yè)加入有向圖,更新有向 步驟1. 3. 4. 4)獲取新網(wǎng)頁(yè)的前向鏈接網(wǎng)頁(yè);
步驟1.3. 4. 5)把步驟1.3. 4.4)中找到的新網(wǎng)頁(yè)加入有向圖,更新有向 步驟1. 3. 5)判斷有向圖中是否包含可疑網(wǎng)頁(yè),如果包含,轉(zhuǎn)步驟4.1),否則,轉(zhuǎn)步驟1.3. 6);
步驟1. 3. 6)用最大流最小切算法切割有向 步驟1. 3. 7)獲取可疑網(wǎng)頁(yè)的相關(guān)網(wǎng)頁(yè)群;
步驟1. 3. 8)判斷迭代次數(shù)是否小于N次,N是常數(shù),如果不小于,轉(zhuǎn)步驟1. 3. 9),否則,轉(zhuǎn)步驟1. 4);
步驟1. 3. 9)更新種子網(wǎng)頁(yè)集
步驟1. 3. 9.1)將屬于相關(guān)網(wǎng)頁(yè)群,但是不屬于種子網(wǎng)頁(yè)集,且到它的出度或入度最高的網(wǎng)頁(yè)加入集合種子網(wǎng)頁(yè)集;
步驟1. 3. 9. 2)將屬于種子網(wǎng)頁(yè)集,但是不屬于相關(guān)網(wǎng)頁(yè)群,且到它的出度與入度之和小于m的網(wǎng)頁(yè)從種子網(wǎng)頁(yè)集中去除;
步驟1. 3. 10)判斷種子網(wǎng)頁(yè)集是否有改變,如果有改變,則轉(zhuǎn)步驟1. 3. 4),否則,轉(zhuǎn)步驟1. 4);
步驟1. 4)獲取可疑網(wǎng)頁(yè)的潛在目標(biāo)網(wǎng)頁(yè)群 步驟1. 4.1)獲取相關(guān)網(wǎng)頁(yè)群的鄰接矩陣;
步驟1. 4. 2)計(jì)算鄰接矩陣的轉(zhuǎn)置與鄰接矩陣的乘積矩陣;
步驟1. 4. 3)計(jì)算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣;
步驟1. 4. 4)計(jì)算乘積矩陣的特征值;
步驟1. 4. 5)計(jì)算乘積矩陣的特征向量;
步驟1. 4. 6)歸一化特征值、特征向量;
步驟1. 4. 7)獲取歸一化絕對(duì)值最大的元素;
步驟1. 4. 8)計(jì)算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣;
步驟1. 5)獲取潛在目標(biāo)網(wǎng)頁(yè)群;
步驟2)獲取網(wǎng)站的網(wǎng)站特征簽名
步驟2.1)將網(wǎng)站內(nèi)的網(wǎng)頁(yè)以圖片的形式保存下來(lái);
步驟2. 2)提取網(wǎng)頁(yè)全局特征,內(nèi)容形式是六維向量〈網(wǎng)頁(yè)標(biāo)題,網(wǎng)頁(yè)文件的大小,網(wǎng)頁(yè)中包含的圖片個(gè)數(shù),網(wǎng)頁(yè)全局圖片的面積,網(wǎng)頁(yè)全局圖片的顏色直方圖,網(wǎng)頁(yè)全局圖片的二維哈爾小波變換>
步驟2. 3)計(jì)算網(wǎng)頁(yè)的感知哈希特征,內(nèi)容形式是三維向量〈離散余弦變換,馬爾算子,徑向方差〉;
步驟2. 4)獲取網(wǎng)站的網(wǎng)站特征簽名;
步驟3)網(wǎng)站特征簽名的相似性計(jì)算
步驟3.1)輸入兩個(gè)網(wǎng)站的特征簽名;
步驟3. 2)獲取兩個(gè)簽名的第一對(duì)節(jié)點(diǎn);
步驟3. 3)利用節(jié)點(diǎn)間相似性計(jì)算方法計(jì)算兩節(jié)點(diǎn)之間的相似度;
步驟3. 4)判斷相似度是否大于O,如果不大于,轉(zhuǎn)步驟3. 7),否則,轉(zhuǎn)步驟3. 5);
步驟3. 5)在節(jié)點(diǎn)之間添加一條權(quán)值為相似度的邊;
步驟3. 6)判斷簽名的節(jié)點(diǎn)是否遍歷全部遍歷,如果全部遍歷,轉(zhuǎn)步驟3. 8),否則,轉(zhuǎn)步驟 3. 7);
步驟3. 7)獲取特征簽名的下一對(duì)節(jié)點(diǎn);
步驟3. 8)獲取網(wǎng)站特征簽名的二分 步驟3. 9)判斷兩個(gè)網(wǎng)站的特征簽名的長(zhǎng)度是否相等,如果相等,則轉(zhuǎn)步驟3. 11),否則,轉(zhuǎn)步驟3. 10);
步驟3. 10)獲取二分圖的擴(kuò)展二分完全 步驟3. 11)利用二分圖的最佳匹配算法獲取二分圖的最佳匹配;
步驟3. 12)計(jì)算二分圖最佳匹配中的邊的加權(quán)平均值;
步驟3. 13)獲取網(wǎng)站簽名的相似度;
步驟4)輸出釣魚檢測(cè)的結(jié)果
步驟4.1)判斷相似度是否大于閾值,如果大于,則可疑網(wǎng)站為釣魚網(wǎng)站,并輸出其目標(biāo)網(wǎng)站,否則,輸出“可疑網(wǎng)站是合法網(wǎng)站”。有益效果本發(fā)明的基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法對(duì)比已有技術(shù)具有以下創(chuàng)新點(diǎn)
(I)本發(fā)明的方法不需要建立作為黑名單或者白名單的特征庫(kù),通過網(wǎng)絡(luò)群的挖掘,找到可疑網(wǎng)站的潛在目標(biāo)網(wǎng)站,只需要計(jì)算可疑網(wǎng)站與它的潛在目標(biāo)網(wǎng)站的相似度,而不需要計(jì)算與之完全無(wú)關(guān)的網(wǎng)站之間的相似度,提高了釣魚檢測(cè)的效率,節(jié)約了資源。(2)傳統(tǒng)的釣魚檢測(cè)是基于網(wǎng)頁(yè)特征之間的相似度比較,而本發(fā)明是基于網(wǎng)站特征簽名之間的相似度計(jì)算,把網(wǎng)頁(yè)作為網(wǎng)站簽名匹配的比較對(duì)象,從一個(gè)可疑網(wǎng)頁(yè)可以檢測(cè)出它所在的網(wǎng)站是否為釣魚網(wǎng)站,并且最終找到其模仿的目標(biāo)網(wǎng)站。
圖1 :檢測(cè)釣魚網(wǎng)站流程 圖2 獲取可疑網(wǎng)頁(yè)的相關(guān)網(wǎng)頁(yè)群的流程 圖3:構(gòu)造有向圖的流程 圖4:獲取潛在目標(biāo)網(wǎng)頁(yè)群的流程圖;
圖5:計(jì)算網(wǎng)站簽名相似度的流程圖。
具體實(shí)施例方式本發(fā)明的基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法,是通過抓取可疑網(wǎng)頁(yè)的相關(guān)網(wǎng)頁(yè)群,從而找到可疑網(wǎng)站的潛在目標(biāo)網(wǎng)站,再分別計(jì)算可疑網(wǎng)站和潛在目標(biāo)網(wǎng)站的網(wǎng)站特征簽名,最后根據(jù)可疑網(wǎng)站與目標(biāo)網(wǎng)站簽名的相似度判斷可疑網(wǎng)站是否為釣魚網(wǎng)站,并最終找到釣魚網(wǎng)站的目標(biāo)網(wǎng)站,如圖1,實(shí)現(xiàn)步驟為
步驟I)建立網(wǎng)絡(luò)關(guān)聯(lián)圖,獲取可疑網(wǎng)頁(yè)的潛在目標(biāo)網(wǎng)站
步驟1. D獲取可疑網(wǎng)頁(yè)的所有鏈接構(gòu)成種子網(wǎng)頁(yè)集;
步驟1. 2)通過爬蟲算法爬取種子網(wǎng)頁(yè)集的相關(guān)網(wǎng)頁(yè)群,構(gòu)造相關(guān)網(wǎng)頁(yè)群的有向圖,如圖3 ;
步驟1. 3)利用最大流最小切算法切割有向 步驟1. 4)通過向種子網(wǎng)頁(yè)集中,加入屬于相關(guān)網(wǎng)頁(yè)群,但是不屬于種子網(wǎng)頁(yè)集的網(wǎng)頁(yè);從種子網(wǎng)頁(yè)集中,去掉屬于種子網(wǎng)頁(yè)集,但是不屬于相關(guān)網(wǎng)頁(yè)群的網(wǎng)頁(yè),從而更新種子網(wǎng)頁(yè)集;
步驟1. 5)迭代步驟1. 2)到步驟1. 4),滿足以下三個(gè)條件之一停止迭代可疑網(wǎng)頁(yè)在有向圖中,迭代次數(shù)大于迭代最大次數(shù),迭代后種子網(wǎng)頁(yè)集沒有改變,如圖1,得到可疑網(wǎng)頁(yè)的相關(guān)網(wǎng)頁(yè)群;
步驟1. 6)獲取相關(guān)網(wǎng)頁(yè)群的鄰接矩陣A,計(jì)算AtA的最大特征值,特征向量,歸一化,選取絕對(duì)值最大的元素;計(jì)算AAt的最大特征值,特征向量,歸一化,選取絕對(duì)值最大的元素,得到可疑網(wǎng)頁(yè)的潛在目標(biāo)網(wǎng)頁(yè),進(jìn)而找到潛在目標(biāo)網(wǎng)站,如圖4 ;
步驟2)獲取可疑網(wǎng)站和其潛在目標(biāo)網(wǎng)站的網(wǎng)站特征簽名
步驟2.1)將網(wǎng)站內(nèi)的網(wǎng)頁(yè)以圖片形式保存下來(lái),提取顏色直方圖和二維哈爾小波變
換;
步驟 2. 2)獲取網(wǎng)頁(yè)的全局特征〈01; O2,…,on(ojSite)>, Oi=Coil, oi2, oi3, oi4, oi5, oi6>,其中Oil為網(wǎng)頁(yè)標(biāo)題,Oi2為網(wǎng)頁(yè)文件大小,Oi3為網(wǎng)頁(yè)中包含圖片的個(gè)數(shù),Oi4為整體網(wǎng)頁(yè)圖片的面積,Qi5為顏色直方圖,Oi6為二維哈爾小波變換,n (O,site)為網(wǎng)站中網(wǎng)頁(yè)特征的數(shù)量;步驟2. 3)計(jì)算網(wǎng)頁(yè)的感知哈希特征〈php ph2,…,phn(ph,site;)> ,phi=<phil, phi2, phi3> 其中Phil為離散余弦變換,phi2為馬爾算子,phi3為徑向方差R, n(ph,site)為網(wǎng)站中網(wǎng)頁(yè)特征的數(shù)量;
步驟2. 4)網(wǎng)頁(yè)的全局特征和感知哈希特征共同組成網(wǎng)站的特征簽名S=〈〈0l,o2,…,
〇n(o,site)
>,<ph1; ph2,…,phn(ph,site)>> ;
步驟3)不同網(wǎng)站特征簽名的長(zhǎng)度可能不相等,利用二分圖的最佳匹配算法計(jì)算其相似性,即將網(wǎng)站簽名特征的匹配問題建模成為求二分圖的最佳匹配問題,如圖5
步驟3.1)給定兩個(gè)網(wǎng)站的特征簽名;
步驟3. 2)利用節(jié)點(diǎn)相似性計(jì)算方法計(jì)算兩兩特征簽名節(jié)點(diǎn)之間的相似性,如果相似性 大于0,則在兩節(jié)點(diǎn)之間加一條邊,邊的權(quán)值為兩節(jié)點(diǎn)的相似度;
步驟3. 3)如果兩個(gè)網(wǎng)站特征簽名的長(zhǎng)度不同,就生成二分圖的擴(kuò)展二分完全圖,再用二分圖最佳匹配算法得到二分圖的最佳匹配;
步驟3. 4)計(jì)算二分圖最佳匹配中邊的權(quán)值的加權(quán)平均值,即為兩個(gè)網(wǎng)站特征簽名的相似度。步驟4)如果可疑網(wǎng)站與目標(biāo)網(wǎng)站的簽名相似度大于閾值,則可疑網(wǎng)站為釣魚網(wǎng)站,并返回其模仿的目標(biāo)網(wǎng)站;否則,可疑網(wǎng)站為合法網(wǎng)站。
權(quán)利要求
1.一種基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法,其特征在于該檢測(cè)方法所包含的步驟為 步驟I)獲取可疑網(wǎng)頁(yè)的潛在目標(biāo)網(wǎng)站 步驟1.1)輸入可疑網(wǎng)頁(yè); 步驟1. 2)獲取可疑網(wǎng)頁(yè)所在的網(wǎng)站; 步驟1. 3)獲取可疑網(wǎng)頁(yè)的相關(guān)網(wǎng)頁(yè)群 步驟1. 3.1)輸入可疑網(wǎng)頁(yè)中的所有鏈接; 步驟1. 3. 2)生成種子網(wǎng)頁(yè)集; 步驟1. 3. 3)初始化迭代次數(shù)為O ; 步驟1. 3. 4)生成有向圖,迭代次數(shù)加1: 步驟1. 3. 4.1)根據(jù)種子網(wǎng)頁(yè)集,生成初始有向圖; 步驟1. 3. 4. 2)獲取種子網(wǎng)頁(yè)集中所有網(wǎng)頁(yè)的后向鏈接網(wǎng)頁(yè); 步驟1. 3. 4.3)把步驟1. 3. 4.2)中找到的新網(wǎng)頁(yè)加入有向圖,更新有向圖; 步驟1. 3. 4. 4)獲取新網(wǎng)頁(yè)的前向鏈接網(wǎng)頁(yè); 步驟1. 3. 4.5)把步驟1. 3. 4.4)中找到的新網(wǎng)頁(yè)加入有向圖,更新有向圖; 步驟1. 3. 5)判斷有向圖中是否包含可疑網(wǎng)頁(yè),如果包含,轉(zhuǎn)步驟4.1),否則,轉(zhuǎn)步驟1.3. 6); 步驟1. 3. 6)用最大流最小切算法切割有向圖; 步驟1. 3. 7)獲取可疑網(wǎng)頁(yè)的相關(guān)網(wǎng)頁(yè)群; 步驟1. 3. 8)判斷迭代次數(shù)是否小于N次,N是設(shè)定的常數(shù),如果不小于,轉(zhuǎn)步驟1. 3. 9),否則,轉(zhuǎn)步驟1. 4); 步驟1. 3. 9)更新種子網(wǎng)頁(yè)集 步驟1. 3. 9.1)將屬于相關(guān)網(wǎng)頁(yè)群,但是不屬于種子網(wǎng)頁(yè)集,且到它的出度或入度最高的網(wǎng)頁(yè)加入集合種子網(wǎng)頁(yè)集; 步驟1. 3. 9. 2)將屬于種子網(wǎng)頁(yè)集,但是不屬于相關(guān)網(wǎng)頁(yè)群,且到它的出度與入度之和小于m的網(wǎng)頁(yè)從種子網(wǎng)頁(yè)集中去除; 步驟1. 3. 10)判斷種子網(wǎng)頁(yè)集是否有改變,如果有改變,則轉(zhuǎn)步驟1. 3. 4),否則,轉(zhuǎn)步驟1. 4); 步驟1. 4)獲取可疑網(wǎng)頁(yè)的潛在目標(biāo)網(wǎng)頁(yè)群 步驟1. 4.1)獲取相關(guān)網(wǎng)頁(yè)群的鄰接矩陣; 步驟1. 4. 2)計(jì)算鄰接矩陣的轉(zhuǎn)置與鄰接矩陣的乘積矩陣; 步驟1. 4. 3)計(jì)算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣; 步驟1. 4. 4)計(jì)算乘積矩陣的特征值; 步驟1. 4. 5)計(jì)算乘積矩陣的特征向量; 步驟1. 4. 6)歸一化特征值、特征向量; 步驟1. 4. 7)獲取歸一化絕對(duì)值最大的元素; 步驟1. 4. 8)計(jì)算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣; 步驟1. 5)獲取潛在目標(biāo)網(wǎng)頁(yè)群; 步驟2)獲取網(wǎng)站的網(wǎng)站特征簽名步驟2.1)將網(wǎng)站內(nèi)的網(wǎng)頁(yè)以圖片的形式保存下來(lái); 步驟2. 2)提取網(wǎng)頁(yè)全局特征,內(nèi)容形式是六維向量〈網(wǎng)頁(yè)標(biāo)題,網(wǎng)頁(yè)文件的大小,網(wǎng)頁(yè)中包含的圖片個(gè)數(shù),網(wǎng)頁(yè)全局圖片的面積,網(wǎng)頁(yè)全局圖片的顏色直方圖,網(wǎng)頁(yè)全局圖片的二維哈爾小波變換> ; 步驟2. 3)計(jì)算網(wǎng)頁(yè)的感知哈希特征,內(nèi)容形式是三維向量〈離散余弦變換,馬爾算子,徑向方差〉; 步驟2. 4)獲取網(wǎng)站的網(wǎng)站特征簽名; 步驟3)網(wǎng)站特征簽名的相似性計(jì)算 步驟3.1)輸入兩個(gè)網(wǎng)站的特征簽名; 步驟3. 2)獲取兩個(gè)簽名的第一對(duì)節(jié)點(diǎn); 步驟3. 3)利用節(jié)點(diǎn)間相似性計(jì)算方法計(jì)算兩節(jié)點(diǎn)之間的相似度; 步驟3. 4)判斷相似度是否大于O,如果不大于,轉(zhuǎn)步驟3. 7),否則,轉(zhuǎn)步驟3. 5); 步驟3. 5)在節(jié)點(diǎn)之間添加一條權(quán)值為相似度的邊; 步驟3. 6)判斷簽名的節(jié)點(diǎn)是否遍歷全部遍歷,如果全部遍歷,轉(zhuǎn)步驟3. 8),否則,轉(zhuǎn)步驟 3. 7); 步驟3. 7)獲取特征簽名的下一對(duì)節(jié)點(diǎn); 步驟3. 8)獲取網(wǎng)站特征簽名的二分圖; 步驟3. 9)判斷兩個(gè)網(wǎng)站的特征簽名的長(zhǎng)度是否相等,如果相等,則轉(zhuǎn)步驟3. 11),否則,轉(zhuǎn)步驟3. 10); 步驟3. 10)獲取二分圖的擴(kuò)展二分完全圖; 步驟3. 11)利用二分圖的最佳匹配算法獲取二分圖的最佳匹配; 步驟3. 12)計(jì)算二分圖最佳匹配中的邊的加權(quán)平均值; 步驟3. 13)獲取網(wǎng)站簽名的相似度; 步驟4)輸出釣魚檢測(cè)的結(jié)果 步驟4.1)判斷相似度是否大于閾值,如果大于,則可疑網(wǎng)站為釣魚網(wǎng)站,并輸出其目標(biāo)網(wǎng)站,否則,輸出“可疑網(wǎng)站是合法網(wǎng)站”。
全文摘要
本發(fā)明是一種基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測(cè)方法。對(duì)于一個(gè)給定的可疑網(wǎng)頁(yè),利用爬蟲構(gòu)造與其相關(guān)的相關(guān)網(wǎng)頁(yè)集,進(jìn)而獲取可疑網(wǎng)站和它的潛在目標(biāo)網(wǎng)站,再計(jì)算網(wǎng)站的特征簽名,通過網(wǎng)站特征簽名的相似度計(jì)算,判斷可疑網(wǎng)站是否為釣魚網(wǎng)站,如果是,則返回它的目標(biāo)網(wǎng)站。本發(fā)明的目的就是通過檢測(cè)可疑網(wǎng)頁(yè)所在的網(wǎng)站是否為釣魚,檢測(cè)結(jié)束的同時(shí)也找到了釣魚網(wǎng)站的目標(biāo)網(wǎng)站。釣魚檢測(cè)的過程即是目標(biāo)發(fā)現(xiàn)的過程,可疑網(wǎng)站只和與它相關(guān)的潛在目標(biāo)網(wǎng)站做相似性計(jì)算,減少了和因特網(wǎng)中與它無(wú)關(guān)的合法網(wǎng)站之間的比較,提高了釣魚檢測(cè)的效率,有效地節(jié)約了資源,提高了工作效率。
文檔編號(hào)G06F17/30GK102999638SQ20131000081
公開日2013年3月27日 申請(qǐng)日期2013年1月5日 優(yōu)先權(quán)日2013年1月5日
發(fā)明者張衛(wèi)豐, 滕雯靜, 張迎周, 周國(guó)強(qiáng), 王子元, 周國(guó)富, 錢小燕, 許碧歡, 陸柳敏 申請(qǐng)人:南京郵電大學(xué)