一種由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法
【專利摘要】本發(fā)明提供了一種由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法,包括以下步驟:S1、查找給定釣魚網(wǎng)頁的相關(guān)網(wǎng)頁集合;S2、提取和建模所述釣魚網(wǎng)頁和所述相關(guān)網(wǎng)頁集合的網(wǎng)頁特征信息;S3、利用DBSCAN算法聚類分析所述網(wǎng)頁特征信息的相似度,得到同一類相似網(wǎng)頁;S4、通過域名相似關(guān)系,定位出所述同一類相似網(wǎng)頁中的目標網(wǎng)頁。本發(fā)明通過已知的釣魚網(wǎng)頁,根據(jù)多種網(wǎng)頁特征進行相關(guān)網(wǎng)頁查找以及聚類分析,將相關(guān)網(wǎng)頁集合進行篩選識別,從而能夠更好地應(yīng)對釣魚網(wǎng)頁的欺騙手段,且大范圍,高準確率地找出釣魚網(wǎng)站模仿的目標網(wǎng)頁。
【專利說明】
-種由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息安全領(lǐng)域,更具體地說,設(shè)及一種由釣魚網(wǎng)頁定位目標網(wǎng)頁的方 法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的廣泛使用與電子商務(wù)的日益發(fā)展和普及,越來越多的用戶在進行網(wǎng) 上交易的時候都是通過輸入個人信息進行鑒定。與此同時,伴隨著電子交易的進行,在最近 幾年非法業(yè)界的網(wǎng)絡(luò)釣魚現(xiàn)象層出不窮,不法分子模仿真實網(wǎng)站的消息格式,誘導(dǎo)用戶登 入一個假冒的網(wǎng)頁,從而竊取用戶個人信息如銀行或者信用卡賬號,密碼等。由于運些虛假 網(wǎng)頁越來越逼真,所W很多粗屯、的用戶很容易上當受騙,導(dǎo)致敏感信息的曝光W及個人財 務(wù)損失。
[0003] 目前,中國專利號CN102629261A公開了由釣魚網(wǎng)頁查找目標網(wǎng)頁的方法,其主要 是從視覺相似的角度出發(fā),通過感知哈希方法定位目標網(wǎng)頁,即達到了 "形似"。然而,當前 的釣魚網(wǎng)頁在模仿目標網(wǎng)頁時,很多通過配色一致,或者整體風格一致來達到和目標網(wǎng)頁 "神似"的效果而欺騙用戶,此時,該方法無法解決運種"神似"而非"形似"情況。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問題在于,針對現(xiàn)有的由釣魚網(wǎng)頁查找目標網(wǎng)頁的缺陷,提 供一種由釣魚網(wǎng)頁定位目標網(wǎng)頁的方法。 陽〇化]本發(fā)明解決上述問題的技術(shù)方案是提供了一種由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的 方法,其特征在于,包括W下步驟:
[0006] S1、查找給定釣魚網(wǎng)頁的相關(guān)網(wǎng)頁集合;
[0007] S2、提取和建模所述釣魚網(wǎng)頁和所述相關(guān)網(wǎng)頁集合的網(wǎng)頁特征信息;
[0008] S3、利用DBSCAN算法聚類分析所述網(wǎng)頁特征信息的相似度,得到同一類相似網(wǎng) 頁;
[0009] S4、通過域名相似關(guān)系,定位出所述同一類相似網(wǎng)頁中的目標網(wǎng)頁。
[0010] 在上述由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法中,所述步驟S1包括: W11] S101、抽取所述釣魚網(wǎng)頁的HTML源碼的U化超鏈接,獲得直接關(guān)聯(lián)網(wǎng)頁的網(wǎng)址;
[0012] S102、提取所述釣魚網(wǎng)頁的關(guān)鍵詞,并通過捜索引擎進行捜索,獲得非直接關(guān)聯(lián)的 網(wǎng)頁的網(wǎng)址;
[0013] S103、根據(jù)所述直接關(guān)聯(lián)網(wǎng)頁和非直接關(guān)聯(lián)網(wǎng)頁的網(wǎng)址,使用爬蟲進行爬取,獲得 相關(guān)網(wǎng)頁集合。
[0014] 在上述由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法中,在所述步驟S2中,還包括計算所 述釣魚網(wǎng)頁和所述相關(guān)網(wǎng)頁集合中的每一網(wǎng)頁的相似距離,該相似距離為Vi (Li,Ri,USi,TS 1,LSi),其中,Li是鏈接關(guān)系相似度,Ri是等級關(guān)系相似度,US 1是域名相似關(guān)系相似度,TS 1 是文本相似關(guān)系相似度,LSi是視覺相似關(guān)系相似度。
[0015] 在上述由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法中,在所述步驟S2中,所述網(wǎng)頁特征 信息包括鏈接關(guān)系、等級關(guān)系、域名相似關(guān)系、文本相似關(guān)系及視覺相似關(guān)系。
[0016] 在上述由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法中,在所述步驟S2中,進一步包括計 算相似關(guān)系到所述釣魚網(wǎng)頁的建模長度,其中,所述相似關(guān)系包括域名相似關(guān)系,文本相似 關(guān)系及視覺相似關(guān)系。
[0017] 在上述由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法中,在所述步驟S3中,還包括利用所 述建模長度進行聚類分析。
[0018] 本發(fā)明提供的方法通過已知的釣魚網(wǎng)頁,根據(jù)多種網(wǎng)頁特征進行相關(guān)網(wǎng)頁查找W 及聚類分析,將相關(guān)網(wǎng)頁集合進行篩選識別,能夠更好地應(yīng)對釣魚網(wǎng)頁的欺騙手段,且大范 圍,高準確率地找出釣魚網(wǎng)站模仿的目標網(wǎng)頁。
【附圖說明】
[0019] 圖1是本發(fā)明實施例的由釣魚網(wǎng)頁定位目標網(wǎng)頁的方法的流程示意圖。
[0020] 圖2是執(zhí)行圖1中步驟S1的細化流程圖。
【具體實施方式】
[0021] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,W下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅用W解釋本發(fā)明,并不 用于限定本發(fā)明。
[00巧如圖1所示,是本發(fā)明實施例的由釣魚網(wǎng)頁定位目標網(wǎng)頁的方法流程圖。在本實 施例中,該方法包括W下步驟:
[0023] S1、查找給定釣魚網(wǎng)頁的相關(guān)網(wǎng)頁集合;
[0024] 在此步驟中,釣魚網(wǎng)頁是仿冒真實網(wǎng)站的U化地址W及頁面內(nèi)容,假設(shè)給定釣魚 網(wǎng)頁標記為P,其相關(guān)網(wǎng)頁集合標記為Wp,如圖2所示,該步驟進一步包括:
[0025] S101、抽取釣魚網(wǎng)頁P的HTML源碼的U化超鏈接,獲得直接關(guān)聯(lián)網(wǎng)頁的網(wǎng)址;其 中,U化超鏈接包含在BODY標簽內(nèi)。
[00%] S102、提取釣魚網(wǎng)頁P的關(guān)鍵詞,并通過捜索引擎進行捜索,獲得非直接關(guān)聯(lián)的網(wǎng) 頁的網(wǎng)址;
[0027] 在此步驟中,關(guān)鍵詞包括title、meta tag及body中的key word等,捜索引擎是 GOOGLE,但并不限于此,也可W是百度等。
[0028] S103、根據(jù)上述直接關(guān)聯(lián)網(wǎng)頁和非直接關(guān)聯(lián)網(wǎng)頁的網(wǎng)址,使用爬蟲進行爬取,獲得 相關(guān)網(wǎng)頁集合。其中,釣魚網(wǎng)頁P的相關(guān)網(wǎng)頁集合Wp的形式化定義為:Wp= {Wi,W2,...,W。}, η為釣魚網(wǎng)頁P的相關(guān)網(wǎng)頁集合包含的網(wǎng)頁數(shù)目,。
[0029] S2、提取和建模所述釣魚網(wǎng)頁和所述相關(guān)網(wǎng)頁集合的網(wǎng)頁特征信息;
[0030] 在此步驟中,通過五種關(guān)系對網(wǎng)頁進行建模,將每一個網(wǎng)頁關(guān)系表示為一個特征 向量:Vp= {f 1,fz,fs,f4, fs},其中,fl,fz,fs,f4, fs分別表示鏈接關(guān)系,等級關(guān)系,域名相似關(guān) 系,文本相似關(guān)系W及視覺相似關(guān)系,其中,每種網(wǎng)頁關(guān)系表示。
[00川鏈接關(guān)系k,表示釣魚網(wǎng)頁鏈接指向目標網(wǎng)頁的概率值,其計算公式如下: 陽的2] Li,j=M/YNi, 陽03引其中,化U是網(wǎng)頁i中所有指向網(wǎng)頁j所在網(wǎng)站的任一網(wǎng)頁的鏈接的數(shù)量;Ni是網(wǎng) 頁i包含的鏈接數(shù)量。
[0034] 等級關(guān)系Rii為基于網(wǎng)頁j在W網(wǎng)頁i的代表性關(guān)鍵詞作為查詢得到的結(jié)果列表 中的等級,即定義從網(wǎng)頁i到網(wǎng)頁j的等級關(guān)聯(lián)關(guān)系,其計算公式如下:
[0035]
[0036] 其中,Nf是查詢所返回的結(jié)果列表長度,可W作為參數(shù)調(diào)節(jié)。Rg是網(wǎng)頁j在返回列 表中的等級。如果網(wǎng)頁j不在返回列表中,則氏設(shè)為0。
[0037] 域名相似關(guān)系USi,,用于計算兩個域名(字符串)之間的相似度,利用編輯距離算 法對疑似網(wǎng)站進行域名相似度分析,其中編輯距離指兩個字符串之間,由一個轉(zhuǎn)成另一個 所需的最少編輯操作次數(shù),如果該距離越大,說明兩個字符串越不同。
[003引文本相似關(guān)系TSi,用于衡量網(wǎng)頁i到網(wǎng)頁j的文本相似度,通過如下步驟進行計 算:
[0039] S201、利用TF-IDF算法提取關(guān)鍵詞及詞頻,并構(gòu)造詞頻向量;
[0040] S202、利用余弦相似算法度量兩個詞頻向量的距離。其中,余弦值越接近1,表明夾 角越接近0,則兩個詞頻向量越相似。
[0041] 視覺相似關(guān)系LSi,,用于衡量網(wǎng)頁i到網(wǎng)頁j布局相似度,通過感知哈希算法 任ere巧化al hash algorithm)建立視覺相似關(guān)系,其中,該感知哈希算法包括W下步驟: 縮小尺寸;簡化色彩;計算平均值;比較像素灰度;計算哈希值進行比較。
[0042] 在本實施例中,此步驟還包括計算釣魚網(wǎng)頁P和相關(guān)網(wǎng)頁集合Wp中的每一網(wǎng)頁的 相似距離,該相似距離為Vi (Li,Ri,USi,TSi,LSi),其中,i表示相關(guān)網(wǎng)頁集合Wp中任一網(wǎng)頁 i,i = 1,2, ...n,Li是鏈接關(guān)系相似度,Ri是等級關(guān)系相似度,US i是域名相似關(guān)系相似度, TSi是文本相似關(guān)系相似度,LS 1是視覺相似關(guān)系相似度。對于釣魚網(wǎng)頁P,其與本身的相似 距罔記為:Vp二(1, 1, 1, 1, 1}。
[0043] 在本實施例中,此步驟進一步包括計算每個相似關(guān)系到釣魚網(wǎng)頁P的建模長度。
[0044] S3、利用DBSCAN算法聚類分析所述網(wǎng)頁特征信息的相似度,得到同一類相似網(wǎng) 頁;
[0045] 在此步驟中,將釣魚網(wǎng)頁P的相似距離Vp與相似距離V 1進行組合,構(gòu)成一個新的 集合,根據(jù)釣魚網(wǎng)頁的坐標點,并利用每個相似關(guān)系到釣魚網(wǎng)頁P的建模長度,得到相關(guān)網(wǎng) 頁集合中各個相關(guān)網(wǎng)頁間的距離,再結(jié)合DBSCAN值ensity-Based Spatial Clustering of Applications with Noise,聚類算法)算法進行聚類分析,可形成任意形狀的聚類簇,其 中,通過調(diào)整關(guān)鍵參數(shù)化S (掃描半徑)與MinPts (最小包含點數(shù)),將相關(guān)網(wǎng)頁集合中的 網(wǎng)頁與釣魚網(wǎng)頁的聚類距離控制在合適范圍,當邱S與MinPts的取值增大時,相關(guān)網(wǎng)頁更 容易聚類,同時釣魚網(wǎng)頁的正確識別率也相應(yīng)增加。在本實施例中,Eps的取值約為0. 1~ 0. 2,MinPts的取值為4或者大于4。經(jīng)過分析之后,分析的結(jié)果會顯示Vp是否會和某些V 1 聚到一類,即同一類相似網(wǎng)頁。
[0046] S4、通過域名相似關(guān)系,定位出所述同一類相似網(wǎng)頁中的目標網(wǎng)頁。
[0047] 在此步驟中,和釣魚網(wǎng)頁P聚類在同一類別中的其他網(wǎng)頁即是釣魚網(wǎng)頁會模仿的 目標網(wǎng)頁。
[0048] 因此,本發(fā)明根據(jù)多種網(wǎng)頁特征進行查找相似網(wǎng)頁,并根據(jù)多種網(wǎng)頁相似關(guān)系進 行建模,其中,引用了編輯距離算法、TF-IDF算法和感知哈希算法,從域名到文本到圖像, 對不同類型的網(wǎng)頁特征信息進行提取,保證了信息的全面性。對于已提取的特征信息,采 用DBSCAN聚類算法將多種相似關(guān)系模型進行整合聚類,通過調(diào)節(jié)參數(shù)化S (掃描半徑)與 MinPts (最小包含點數(shù))控制各個相似關(guān)系模型的合適距離范圍,找到合適的聚類簇,從而 高效地得到聚類結(jié)果,從真假識別率綜合分析,得到較高的識別準確率。
[0049] W上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明掲露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)該W權(quán)利要求的保護范圍 為準。
【主權(quán)項】
1. 一種由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法,其特征在于,包括以下步驟: 51、 查找給定釣魚網(wǎng)頁的相關(guān)網(wǎng)頁集合; 52、 提取和建模所述釣魚網(wǎng)頁和所述相關(guān)網(wǎng)頁集合的網(wǎng)頁特征信息; 53、 利用DBSCAN算法聚類分析所述網(wǎng)頁特征信息的相似度,得到同一類相似網(wǎng)頁; 54、 通過域名相似關(guān)系,定位出所述同一類相似網(wǎng)頁中的目標網(wǎng)頁。2. 根據(jù)權(quán)利要求1所述的由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法,其特征在于,所述步 驟S1包括: 5101、 抽取所述釣魚網(wǎng)頁的HTML源碼的URL超鏈接,獲得直接關(guān)聯(lián)網(wǎng)頁的網(wǎng)址; 5102、 提取所述釣魚網(wǎng)頁的關(guān)鍵詞,并通過搜索引擎進行搜索,獲得非直接關(guān)聯(lián)的網(wǎng)頁 的網(wǎng)址; 5103、 根據(jù)所述直接關(guān)聯(lián)網(wǎng)頁和非直接關(guān)聯(lián)網(wǎng)頁的網(wǎng)址,使用爬蟲進行爬取,獲得相關(guān) 網(wǎng)頁集合。3. 根據(jù)權(quán)利要求1所述的由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法,其特征在于,在所述 步驟S2中,還包括計算所述釣魚網(wǎng)頁和所述相關(guān)網(wǎng)頁集合中的每一網(wǎng)頁的相似距離,該相 似距離為Vi (Q,民,USd TSd IA),其中,Q是鏈接關(guān)系相似度,R i是等級關(guān)系相似度,US 1是 域名相似關(guān)系相似度,TSi是文本相似關(guān)系相似度,LS i是視覺相似關(guān)系相似度。4. 根據(jù)權(quán)利要求3所述的由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法,其特征在于,在所述 步驟S2中,所述網(wǎng)頁特征信息包括鏈接關(guān)系、等級關(guān)系、域名相似關(guān)系、文本相似關(guān)系及視 覺相似關(guān)系。5. 根據(jù)權(quán)利要求4所述的由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法,其特征在于,在所述 步驟S2中,進一步包括計算相似關(guān)系到所述釣魚網(wǎng)頁的建模長度,其中,所述相似關(guān)系包 括域名相似關(guān)系,文本相似關(guān)系及視覺相似關(guān)系。6. 根據(jù)權(quán)利要求5所述的由釣魚網(wǎng)頁聚類定位目標網(wǎng)頁的方法,其特征在于,在所述 步驟S3中,還包括利用所述建模長度進行聚類分析。
【文檔編號】G06F17/30GK105824822SQ201510003979
【公開日】2016年8月3日
【申請日】2015年1月5日
【發(fā)明人】唐新民, 景曉軍, 沈智杰
【申請人】任子行網(wǎng)絡(luò)技術(shù)股份有限公司