一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,包括以下步驟:1:接收多個(gè)網(wǎng)站地址;2:將一個(gè)網(wǎng)站地址與白名單相匹配,判斷是否匹配,如匹配,允許訪問(wèn)并添加白名單標(biāo)記,跳轉(zhuǎn)至步驟6;否則,繼續(xù);3:將網(wǎng)站地址與黑名單相匹配,判斷是否匹配,如匹配,則禁止訪問(wèn)并添加黑名單標(biāo)記,跳轉(zhuǎn)至步驟6;否則,繼續(xù);4:將當(dāng)前網(wǎng)頁(yè)內(nèi)容與所有白名單網(wǎng)站的專屬標(biāo)識(shí)進(jìn)行匹配,計(jì)算相似度,得到最大相似度值;5:判斷最大相似度值是否大于預(yù)設(shè)的閾值,如是,為疑似仿冒網(wǎng)站;否則,為非疑似仿冒網(wǎng)站;步驟6:判斷是否存在未添加標(biāo)記的網(wǎng)站地址,如有,進(jìn)行步驟2;否則,結(jié)束。本發(fā)明可在用戶利益受到侵害之前檢測(cè)出疑似仿冒網(wǎng)站,降低用戶損失。
【專利說(shuō)明】—種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法及系統(tǒng)。
【背景技術(shù)】
[0002]仿冒網(wǎng)站,是網(wǎng)絡(luò)在線欺騙活動(dòng)的一種方式,主要用來(lái)竊取用戶的私密信息,如信用卡賬號(hào)密碼、電子商務(wù)網(wǎng)站帳號(hào)密碼等。仿冒網(wǎng)站的欺騙形式包括:
[0003]1.社交網(wǎng)絡(luò)中利用社交群體散布仿冒網(wǎng)站信息;
[0004]2.即時(shí)通訊(IM)工具中利用在線交易或電子商務(wù)來(lái)引導(dǎo)用戶進(jìn)入不法仿冒網(wǎng)站;
[0005]3.郵件鏈接導(dǎo)入不法仿冒網(wǎng)站;
[0006]4.論壇或虛擬社區(qū)中張貼仿冒網(wǎng)站鏈接。
[0007]這些網(wǎng)站通常是對(duì)真實(shí)網(wǎng)站域名進(jìn)行細(xì)微篡改,或其網(wǎng)頁(yè)在視覺(jué)上與被仿冒網(wǎng)頁(yè)具有高仿真度,進(jìn)而騙取用戶信任,獲取用戶信息,損害用戶利益。
[0008]目前,業(yè)界通常有如下共識(shí):
[0009]仿冒網(wǎng)站:指網(wǎng)站地址的名稱或網(wǎng)頁(yè)在視覺(jué)上非常類似于正規(guī)的商業(yè)網(wǎng)站,且意圖在于損害用戶利益的網(wǎng)站。
[0010]白名單:指待保護(hù)的正規(guī)網(wǎng)站列表,一般來(lái)說(shuō)這類需要保護(hù)的網(wǎng)站地址,是網(wǎng)絡(luò)交易或者電子商務(wù)中高頻度出現(xiàn)的網(wǎng)站,比如淘寶、Ebay、京東等電子商務(wù)網(wǎng)站,工商銀行、中國(guó)銀行等銀行交易系統(tǒng),“中國(guó)好聲音”、“中國(guó)最強(qiáng)音”等大眾娛樂(lè)網(wǎng)頁(yè),這些都是仿冒者攻擊的目標(biāo)。
[0011]黑名單:指已驗(yàn)證的仿冒網(wǎng)站列表,這類列表中的網(wǎng)站都是通過(guò)用戶投訴、網(wǎng)上舉報(bào)或者人工篩查獲得,并經(jīng)過(guò)相關(guān)管理部門確認(rèn)的仿冒網(wǎng)站,這類列表中的網(wǎng)站通常已經(jīng)對(duì)用戶利益造成了損害。
[0012]現(xiàn)有的仿冒網(wǎng)站檢測(cè)識(shí)別技術(shù)通常都是基于黑名單和白名單機(jī)制。給定待檢測(cè)網(wǎng)站地址,通過(guò)查詢白名單或者黑名單來(lái)判斷所述待檢測(cè)網(wǎng)站地址是否在名單之列,來(lái)識(shí)別正規(guī)網(wǎng)站或仿冒網(wǎng)站。但是,現(xiàn)有的黑白名單檢測(cè)識(shí)別技術(shù)僅僅可以識(shí)別出黑名單中已有的仿冒網(wǎng)站,如果某仿冒網(wǎng)站不在黑名單內(nèi),則無(wú)法識(shí)別。然而,網(wǎng)絡(luò)的變化性很大,不法分子可以通過(guò)重新申請(qǐng)新的網(wǎng)站地址的方式繼續(xù)行騙,而現(xiàn)有的識(shí)別技術(shù)需要在收到舉報(bào)或者事發(fā)后才能更新黑名單的數(shù)據(jù)庫(kù),無(wú)法做到事前檢測(cè)識(shí)別,風(fēng)險(xiǎn)警示。
【發(fā)明內(nèi)容】
[0013]本發(fā)明所要解決的技術(shù)問(wèn)題是,針對(duì)現(xiàn)有技術(shù)無(wú)法事先識(shí)別仿冒網(wǎng)站的現(xiàn)狀,提供一種達(dá)到事前識(shí)別,降低訪問(wèn)仿冒網(wǎng)站概率的目的的自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法。
[0014]本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案如下:一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,具體包括以下步驟:
[0015]步驟1:接收到多個(gè)網(wǎng)站地址,并將多個(gè)網(wǎng)站地址排列成網(wǎng)站地址列表;[0016]步驟2:按照列表順序?qū)⒕W(wǎng)站地址列表中的一個(gè)網(wǎng)站地址與預(yù)設(shè)的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加白名單標(biāo)記,跳轉(zhuǎn)至步驟6 ;否則,繼續(xù)步驟3 ;
[0017]步驟3:將當(dāng)前網(wǎng)站地址與預(yù)設(shè)的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加黑名單標(biāo)記,跳轉(zhuǎn)至步驟6 ;否則,繼續(xù)步驟4 ;
[0018]步驟4:將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容與所有白名單網(wǎng)站中內(nèi)設(shè)的專屬標(biāo)識(shí)LOGO圖片進(jìn)行匹配,并計(jì)算相似度,得到最大相似度值;
[0019]步驟5:判斷最大相似度值是否大于預(yù)設(shè)的閾值,如果是,則判定當(dāng)前網(wǎng)站地址為疑似仿冒網(wǎng)站并對(duì)該網(wǎng)站地址添加疑似仿冒標(biāo)記;否則,判定當(dāng)前網(wǎng)站地址為非疑似仿冒網(wǎng)站添加非疑似仿冒標(biāo)記;
[0020]步驟6:判斷網(wǎng)站地址列表中是否存在未添加標(biāo)記的網(wǎng)站地址,如果有,進(jìn)行步驟2 ;否則,結(jié)束。
[0021]本發(fā)明的有益效果是:本發(fā)明所述一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,可以在用戶個(gè)人利益受到侵害之前檢測(cè)出疑似仿冒網(wǎng)站,降低用戶損失。與已公開(kāi)的相關(guān)技術(shù)相比,本發(fā)明采用基于局部特征點(diǎn)的目標(biāo)網(wǎng)站LOGO圖片與待檢測(cè)網(wǎng)站整體圖片的匹配方法,在保證能夠檢測(cè)出視覺(jué)相似的仿冒網(wǎng)站的前提下,有效檢測(cè)出與仿冒目標(biāo)網(wǎng)站有視覺(jué)差異的仿冒網(wǎng)站。
[0022]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0023]進(jìn)一步,所述步驟4具體包括以下步驟:
[0024]步驟4.1:獲取所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片;
[0025]步驟4.2:采集當(dāng)前網(wǎng)站地址的URL統(tǒng)一資源定位符,并通過(guò)網(wǎng)絡(luò)下載得到當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像;
[0026]步驟4.3:將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像與所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次進(jìn)行對(duì)比,并計(jì)算相似度得到多個(gè)相似度值;
[0027]步驟4.4:將多個(gè)相似度值按從大到小進(jìn)行排序,得到最大相似度值。
[0028]進(jìn)一步,所述步驟4.3具體包括以下步驟:
[0029]步驟4.3.1:對(duì)當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像提取特征點(diǎn),構(gòu)成待測(cè)特征點(diǎn)集;
[0030]步驟4.3.2:對(duì)所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片分別提取特征點(diǎn),分別構(gòu)成多個(gè)對(duì)應(yīng)的白名單特征點(diǎn)集;
[0031]步驟4.3.3:對(duì)待測(cè)特征點(diǎn)集計(jì)算SURF (Speeded Up Robust Features)待測(cè)局部特征描述子;對(duì)多個(gè)白名單特征點(diǎn)集分別計(jì)算SURF (Speeded Up Robust Features)白名單局部特征描述子;
[0032]步驟4.3.4:利用近鄰檢測(cè)快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對(duì)待測(cè)局部特征描述子與多個(gè)白名單局部特征描述子間的快速匹配;
[0033]步驟4.3.5:將多個(gè)匹配結(jié)果換算為數(shù)值,得到多個(gè)相似度值。
[0034]所述步驟5中的閾值獲取包括以下步驟:
[0035]步驟a:根據(jù)國(guó)家互聯(lián)網(wǎng)權(quán)威管理部門提供的黑名單中仿冒網(wǎng)站(URL)統(tǒng)一資源定位符的集合,利用網(wǎng)絡(luò)下載獲得黑名單對(duì)應(yīng)的整體圖像,得到黑名單圖像合集;[0036]步驟b:將白名單中的一個(gè)白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次與黑名單圖像集合中的圖像進(jìn)行相似度計(jì)算,得到多個(gè)相似度值;
[0037]步驟c:對(duì)多個(gè)相似度值取平均值得到相似度均值;
[0038]步驟d:判斷是否白名單中所有的白名單網(wǎng)站都已進(jìn)行相似度計(jì)算,如果是,進(jìn)行步驟e;否則,跳轉(zhuǎn)至步驟b;
[0039]步驟e:將所有白名單網(wǎng)站計(jì)算得到的相似度均值按數(shù)值大小排序,得到最小相似度均值為閾值。
[0040]本發(fā)明所要解決的技術(shù)問(wèn)題是,針對(duì)現(xiàn)有技術(shù)無(wú)法事先識(shí)別仿冒網(wǎng)站的現(xiàn)狀,提供一種達(dá)到事前識(shí)別,降低訪問(wèn)仿冒網(wǎng)站概率的目的的自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng)。
[0041]本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案如下:一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),包括接收模塊、白名單匹配模塊、黑名單匹配模塊、相似度計(jì)算模塊和判斷模塊;
[0042]所述接收模塊接收到多個(gè)網(wǎng)站地址,并將多個(gè)網(wǎng)站地址排列成網(wǎng)站地址列表;
[0043]所述白名單匹配模塊按照列表順序?qū)⒕W(wǎng)站地址列表中的一個(gè)網(wǎng)站地址與預(yù)設(shè)的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加白名單標(biāo)記;否則,將當(dāng)前網(wǎng)站地址發(fā)送到黑名單匹配模塊;
[0044]所述黑名單匹配模塊將當(dāng)前網(wǎng)站地址與預(yù)設(shè)的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加黑名單標(biāo)記;否則,將當(dāng)前網(wǎng)站地址發(fā)送到相似度計(jì)算模塊;
[0045]所述相似度計(jì)算模塊將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容與所有白名單網(wǎng)站中內(nèi)設(shè)的專屬標(biāo)識(shí)LOGO圖片進(jìn)行匹配,`并計(jì)算相似度,得到最大相似度值;
[0046]所述判斷模塊判斷最大相似度值是否大于預(yù)設(shè)的閾值,如果是,則判定當(dāng)前網(wǎng)站地址為疑似仿冒網(wǎng)站并對(duì)該網(wǎng)站地址添加疑似仿冒標(biāo)記;否則,判定當(dāng)前網(wǎng)站地址為非疑似仿冒網(wǎng)站。
[0047]本發(fā)明的有益效果是:本發(fā)明所述一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),可以在用戶個(gè)人利益受到侵害之前檢測(cè)出疑似仿冒網(wǎng)站,降低用戶損失。與已公開(kāi)的相關(guān)技術(shù)相比,本發(fā)明采用基于局部特征點(diǎn)的目標(biāo)網(wǎng)站LOGO圖片與待檢測(cè)網(wǎng)站整體圖片的匹配方法,在保證能夠檢測(cè)出視覺(jué)相似的仿冒網(wǎng)站的前提下,有效檢測(cè)出與仿冒目標(biāo)網(wǎng)站有視覺(jué)差異的仿冒網(wǎng)站。
[0048]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0049]進(jìn)一步,所述相似度計(jì)算模塊包括提取標(biāo)識(shí)模塊、采集圖像模塊、相似度比對(duì)模塊和排序1?塊;
[0050]所述提取標(biāo)識(shí)模塊獲取所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片;
[0051]所述采集圖像模塊采集當(dāng)前網(wǎng)站地址的URL統(tǒng)一資源定位符,并通過(guò)網(wǎng)絡(luò)下載得到當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像;
[0052]所述相似度比對(duì)模塊將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像與所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次進(jìn)行對(duì)比,并計(jì)算相似度得到多個(gè)相似度值;
[0053]所述排序模塊將多個(gè)相似度值按從大到小進(jìn)行排序,得到最大相似度值。
[0054]進(jìn)一步,所述相似度比對(duì)模塊包括特征點(diǎn)提取模塊、計(jì)算描述子模塊、匹配模塊和數(shù)值轉(zhuǎn)換模塊;[0055]所述特征點(diǎn)提取模塊對(duì)當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像提取特征點(diǎn),構(gòu)成待測(cè)特征點(diǎn)集;所述特征點(diǎn)提取模塊對(duì)所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片分別提取特征點(diǎn),分別構(gòu)成多個(gè)對(duì)應(yīng)的白名單特征點(diǎn)集;
[0056]所述計(jì)算描述子模塊對(duì)待測(cè)特征點(diǎn)集計(jì)算SURF (Speeded Up Robust Features)待測(cè)局部特征描述子;并對(duì)多個(gè)白名單特征點(diǎn)集分別計(jì)算SURF (Speeded Up RobustFeatures)白名單局部特征描述子;
[0057]所述匹配模塊利用近鄰檢測(cè)快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對(duì)待測(cè)局部特征描述子與多個(gè)白名單局部特征描述子間的快速匹配;
[0058]所述數(shù)值轉(zhuǎn)換模塊將多個(gè)匹配結(jié)果換算為數(shù)值,得到多個(gè)相似度值。
[0059]進(jìn)一步,還包括閾值獲取模塊,所述閾值獲取模塊與判斷模塊相連接,并將計(jì)算得到的閾值發(fā)送到判斷模塊。
[0060]進(jìn)一步,所述閾值獲取模塊包括黑名單圖像獲取模塊、白黑對(duì)比模塊、均值計(jì)算模塊和均值排序模塊;
[0061]所述黑名單圖像獲取模塊根據(jù)國(guó)家互聯(lián)網(wǎng)權(quán)威管理部門提供的黑名單中仿冒網(wǎng)站(URL)統(tǒng)一資源定位符的集合,利用網(wǎng)絡(luò)下載獲得黑名單對(duì)應(yīng)的整體圖像,得到黑名單圖像合集;
[0062]所述白黑對(duì)比模塊將白名單中的一個(gè)白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次與黑名單圖像集合中的圖像進(jìn)行相似度計(jì)算,得到多個(gè)相似度值;
[0063]所述均值計(jì)算模塊對(duì)多個(gè)相似度值取平均值得到相似度均值;
[0064]所述均值排序模塊將所有白名單網(wǎng)站計(jì)算得到的相似度均值按數(shù)值大小排序,得到最小相似度均值為閾值。
【專利附圖】
【附圖說(shuō)明】
[0065]圖1為本發(fā)明具體實(shí)施例1所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法流程圖;
[0066]圖2為本發(fā)明具體實(shí)施例2所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法流程圖;
[0067]圖3為本發(fā)明具體實(shí)施例2所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法流程圖;
[0068]圖4為本發(fā)明具體實(shí)施例1、2、3所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法中閾值獲取流程圖;
[0069]圖5為本發(fā)明具體實(shí)施例1所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng)框圖;
[0070]圖6為本發(fā)明具體實(shí)施例2所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng)框圖;
[0071]圖7為本發(fā)明具體實(shí)施例2所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng)框圖;
[0072]圖8為本發(fā)明具體實(shí)施例4所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng)中閾值獲取模塊結(jié)構(gòu)框圖;
[0073]圖9為本發(fā)明具體實(shí)施例5所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法流程圖;
[0074]圖10為本發(fā)明具體實(shí)施例5所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法中與白名單對(duì)比流程圖;
[0075]圖11為本發(fā)明具體實(shí)施例5所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法中相似度計(jì)算流程圖;
[0076]圖12為本發(fā)明具體實(shí)施例5所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法中閾值獲取流程圖。
[0077]附圖中,各標(biāo)號(hào)所代表的部件列表如下:
[0078]1、接收模塊,2、白名單匹配模塊,3、黑名單匹配模塊,4、相似度計(jì)算模塊,5、判斷模塊,6、閾值獲取模塊,41、提取標(biāo)識(shí)模塊,42、采集圖像模塊,43、相似度比對(duì)模塊,44、排序模塊,431、特征點(diǎn)提取模塊,432、計(jì)算描述子模塊,433、匹配模塊,434、數(shù)值轉(zhuǎn)換模塊,61、黑名單圖像獲取模塊,62、白黑對(duì)比模塊,63、均值計(jì)算模塊,64、均值排序模塊。
【具體實(shí)施方式】
[0079]以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0080]如圖1所示,為本發(fā)明具體實(shí)施例1所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,具體包括以下步驟:
[0081]步驟1:接收到多個(gè)網(wǎng)站地址,并將多個(gè)網(wǎng)站地址排列成網(wǎng)站地址列表;
[0082]步驟2:按照列表順序?qū)⒕W(wǎng)站地址列表中的一個(gè)網(wǎng)站地址與預(yù)設(shè)的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加白名單標(biāo)記,跳轉(zhuǎn)至步驟6 ;否則,繼續(xù)步驟3 ;
[0083]步驟3:將當(dāng)前網(wǎng)站地址與預(yù)設(shè)的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加黑名單標(biāo)記,跳轉(zhuǎn)至步驟6 ;否則,繼續(xù)步驟4 ;
[0084]步驟4:將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容與所有白名單網(wǎng)站中內(nèi)設(shè)的專屬標(biāo)識(shí)LOGO圖片進(jìn)行匹配,并計(jì)算相似度,得到最大相似度值;
[0085]步驟5:判斷最大相似度值是否大于預(yù)設(shè)的閾值,如果是,則判定當(dāng)前網(wǎng)站地址為疑似仿冒網(wǎng)站并對(duì)該網(wǎng)站地址添加疑似仿冒標(biāo)記;否則,判定當(dāng)前網(wǎng)站地址為非疑似仿冒網(wǎng)站添加非疑似仿冒標(biāo)記;
[0086]步驟6:判斷網(wǎng)站地址列表中是否存在未添加標(biāo)記的網(wǎng)站地址,如果有,進(jìn)行步驟2 ;否則,結(jié)束。
[0087]如圖2所示,為本發(fā)明具體實(shí)施例2所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,實(shí)施例2在實(shí)施例1的基礎(chǔ)上進(jìn)一步細(xì)化,所述步驟4具體包括以下步驟:
[0088]步驟4.1:獲取所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片;
[0089]步驟4.2:采集當(dāng)前網(wǎng)站地址的URL統(tǒng)一資源定位符,并通過(guò)網(wǎng)絡(luò)下載得到當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像;
[0090]步驟4.3:將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像與所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次進(jìn)行對(duì)比,并計(jì)算相似度得到多個(gè)相似度值;
[0091]步驟4.4:將多個(gè)相似度值按從大到小進(jìn)行排序,得到最大相似度值。
[0092]如圖3所示,為本發(fā)明具體實(shí)施例3所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,實(shí)施例3在實(shí)施例2的基礎(chǔ)上進(jìn)一步細(xì)化,所述步驟4.3具體包括以下步驟:
[0093]步驟4.3.1:對(duì)當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像提取特征點(diǎn),構(gòu)成待測(cè)特征點(diǎn)集;
[0094]步驟4.3.2:對(duì)所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片分別提取特征點(diǎn),分別構(gòu)成多個(gè)對(duì)應(yīng)的白名單特征點(diǎn)集;[0095]步驟4.3.3:對(duì)待測(cè)特征點(diǎn)集計(jì)算SURF (Speeded Up Robust Features)待測(cè)局部特征描述子;對(duì)多個(gè)白名單特征點(diǎn)集分別計(jì)算SURF (Speeded Up Robust Features)白名單局部特征描述子;
[0096]步驟4.3.4:利用近鄰檢測(cè)快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對(duì)待測(cè)局部特征描述子與多個(gè)白名單局部特征描述子間的快速匹配;
[0097]步驟4.3.5:將多個(gè)匹配結(jié)果換算為數(shù)值,得到多個(gè)相似度值。
[0098]如圖4所示,為本發(fā)明具體實(shí)施例1、2或3中的閾值獲取的具體方法,閾值獲取包括以下步驟:
[0099]步驟a:根據(jù)國(guó)家互聯(lián)網(wǎng)權(quán)威管理部門提供的黑名單中仿冒網(wǎng)站(URL)統(tǒng)一資源定位符的集合,利用網(wǎng)絡(luò)下載獲得黑名單對(duì)應(yīng)的整體圖像,得到黑名單圖像合集;
[0100]步驟b:將白名單中的一個(gè)白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次與黑名單圖像集合中的圖像進(jìn)行相似度計(jì)算,得到多個(gè)相似度值;
[0101]步驟C:對(duì)多個(gè)相似度值取平均值得到相似度均值;
[0102]步驟d:判斷是否白名單中所有的白名單網(wǎng)站都已進(jìn)行相似度計(jì)算,如果是,進(jìn)行步驟e;否則,跳轉(zhuǎn)至步驟b;
[0103]步驟e:將所有白名單網(wǎng)站計(jì)算得到的相似度均值按數(shù)值大小排序,得到最小相似度均值為閾值。
[0104]如圖5所示,為本發(fā)明具體實(shí)施例1所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),包括接收模塊1、白名單匹配模塊2、黑名單匹配模塊3、相似度計(jì)算模塊4和判斷模塊5 ;
[0105]所述接收模塊I接收到多個(gè)網(wǎng)站地址,并將多個(gè)網(wǎng)站地址排列成網(wǎng)站地址列表;
[0106]所述白名單匹配模塊2按照列表順序?qū)⒕W(wǎng)站地址列表中的一個(gè)網(wǎng)站地址與預(yù)設(shè)的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加白名單標(biāo)記;否則,將當(dāng)前網(wǎng)站地址發(fā)送到黑名單匹配模塊;
[0107]所述黑名單匹配模塊3將當(dāng)前網(wǎng)站地址與預(yù)設(shè)的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加黑名單標(biāo)記;否則,將當(dāng)前網(wǎng)站地址發(fā)送到相似度計(jì)算模塊;
[0108]所述相似度計(jì)算模塊4將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容與所有白名單網(wǎng)站中內(nèi)設(shè)的專屬標(biāo)識(shí)LOGO圖片進(jìn)行匹配,并計(jì)算相似度,得到最大相似度值;
[0109]所述判斷模塊5判斷最大相似度值是否大于預(yù)設(shè)的閾值,如果是,則判定當(dāng)前網(wǎng)站地址為疑似仿冒網(wǎng)站并對(duì)該網(wǎng)站地址添加疑似仿冒標(biāo)記;否則,判定當(dāng)前網(wǎng)站地址為非疑似仿冒網(wǎng)站。
[0110]如圖6所示,為本發(fā)明具體實(shí)施例2所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),實(shí)施例2在實(shí)施例1的基礎(chǔ)上進(jìn)一步細(xì)化,所述相似度計(jì)算模塊4包括提取標(biāo)識(shí)模塊41、采集圖像模塊42、相似度比對(duì)模塊43和排序模塊44 ;
[0111]所述提取標(biāo)識(shí)模塊41獲取所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片;
[0112]所述采集圖像模塊42采集當(dāng)前網(wǎng)站地址的URL統(tǒng)一資源定位符,并通過(guò)網(wǎng)絡(luò)下載得到當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像;
[0113]所述相似度比對(duì)模塊43將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像與所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次進(jìn)行對(duì)比,并計(jì)算相似度得到多個(gè)相似度值;[0114]所述排序模塊44將多個(gè)相似度值按從大到小進(jìn)行排序,得到最大相似度值。
[0115]如圖7所示,為本發(fā)明具體實(shí)施例3所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),實(shí)施例3在實(shí)施例2的基礎(chǔ)上進(jìn)一步細(xì)化,所述相似度比對(duì)模塊43包括特征點(diǎn)提取模塊431、計(jì)算描述子模塊432、匹配模塊433和數(shù)值轉(zhuǎn)換模塊434 ;
[0116]所述特征點(diǎn)提取模塊431對(duì)當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像提取特征點(diǎn),構(gòu)成待測(cè)特征點(diǎn)集;所述特征點(diǎn)提取模塊對(duì)所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片分別提取特征點(diǎn),分別構(gòu)成多個(gè)對(duì)應(yīng)的白名單特征點(diǎn)集;
[0117]所述計(jì)算描述子模塊432對(duì)待測(cè)特征點(diǎn)集計(jì)算SURF (Speeded Up RobustFeatures)待測(cè)局部特征描述子;并對(duì)多個(gè)白名單特征點(diǎn)集分別計(jì)算SURF (Speeded UpRobust Features)白名單局部特征描述子;
[0118]所述匹配模塊433利用近鄰檢測(cè)快速工具包(FLANN, Fast Library forApproximate Nearest Neighbors)對(duì)待測(cè)局部特征描述子與多個(gè)白名單局部特征描述子間的快速匹配;
[0119]所述數(shù)值轉(zhuǎn)換模塊434將多個(gè)匹配結(jié)果換算為數(shù)值,得到多個(gè)相似度值。
[0120]如圖8所示,為本發(fā)明具體實(shí)施例4所述一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),實(shí)施例4是實(shí)施例1、2或3所述的自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng)還包括閾值獲取模塊6,所述閾值獲取模塊6與判斷模塊5相連接,并將計(jì)算得到的閾值發(fā)送到判斷模塊5。
[0121]所述閾值獲取模塊6包括黑名單圖像獲取模塊61、白黑對(duì)比模塊62、均值計(jì)算模塊63和均值排序模塊64 ;
[0122]所述黑名單圖像獲取模塊61根據(jù)國(guó)家互聯(lián)網(wǎng)權(quán)威管理部門提供的黑名單中仿冒網(wǎng)站(URL)統(tǒng)一資源定位符的集合,利用網(wǎng)絡(luò)下載獲得黑名單對(duì)應(yīng)的整體圖像,得到黑名單圖像合集;
[0123]所述白黑對(duì)比模塊62將白名單中的一個(gè)白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次與黑名單圖像集合中的圖像進(jìn)行相似度計(jì)算,得到多個(gè)相似度值;
[0124]所述均值計(jì)算模塊63對(duì)多個(gè)相似度值取平均值得到相似度均值;
[0125]所述均值排序模塊64將所有白名單網(wǎng)站計(jì)算得到的相似度均值按數(shù)值大小排序,得到最小相似度均值為閾值。
[0126]參見(jiàn)圖9,其是根據(jù)本申請(qǐng)實(shí)施例的一種檢測(cè)疑似仿冒網(wǎng)站的方法流程圖,本申請(qǐng)實(shí)施例既可以在用戶終端側(cè)執(zhí)行,也可以在網(wǎng)絡(luò)側(cè)執(zhí)行。
[0127]下面應(yīng)用實(shí)例具體說(shuō)明各個(gè)步驟的操作:
[0128]步驟101,獲取待檢測(cè)的網(wǎng)站地址;
[0129]本步驟主要是獲得能夠唯一表征網(wǎng)頁(yè)地址的形式,本專利中選擇的是URL地址。
[0130]仿冒網(wǎng)站往往通過(guò)4種方式傳播:通過(guò)社交網(wǎng)絡(luò)(微博、人人等)、垃圾郵件、即時(shí)通信(如QQ、MSN、阿里旺旺等)軟件和網(wǎng)絡(luò)社區(qū)等發(fā)送給用戶。通過(guò)對(duì)4中傳播方式進(jìn)行分析可獲得待檢測(cè)的網(wǎng)絡(luò)地址。
[0131]步驟102,判斷所述網(wǎng)站地址是否在白名單內(nèi);
[0132]即判斷所述待檢測(cè)的網(wǎng)站地址是否在預(yù)設(shè)的待保護(hù)網(wǎng)站列表(即白名單)中,若不存在,則所述獲取的待檢測(cè)網(wǎng)站地址不屬于正規(guī)網(wǎng)站;
[0133]步驟103,判斷所述網(wǎng)站地址是否在黑名單內(nèi);[0134]即判斷所述待檢測(cè)的網(wǎng)站地址是否在預(yù)設(shè)的仿冒網(wǎng)站列表(即黑名單)中,若不存在,則所述獲取的待識(shí)別網(wǎng)站地址不屬于仿冒網(wǎng)站。
[0135]其中,步驟102、步驟103主要是對(duì)待檢測(cè)的網(wǎng)站地址的分類識(shí)別的預(yù)處理過(guò)程,以減少算法的復(fù)雜度,且兩個(gè)步驟是并列關(guān)系,即處理的先后順序不影響分類結(jié)果。白名單的構(gòu)造形式主要是為應(yīng)用對(duì)象服務(wù)的,即應(yīng)用對(duì)象為銀行系統(tǒng)時(shí),那么本專利中的白名單中可以加入工商銀行官方網(wǎng)址“http://www.1cbc.com.cn/icbc/”,中國(guó)銀行官方網(wǎng)址“http://www.boc.cn/”等;應(yīng)用對(duì)象為大眾娛樂(lè)網(wǎng)站時(shí),那么本專利中的白名單中可以加入中國(guó)好聲音官方網(wǎng)站“http://www.zjstv.com/voice/”,中國(guó)最強(qiáng)音官方網(wǎng)站“http://www.hunantv.com/v/2013/zgzqy/”。黑名單的構(gòu)造形式主要根據(jù)白名單中列出正規(guī)網(wǎng)站所對(duì)應(yīng)的多個(gè)已知仿冒網(wǎng)站,通常這些仿冒網(wǎng)站是由網(wǎng)絡(luò)用戶舉報(bào)并經(jīng)相關(guān)管理部門確認(rèn)后產(chǎn)生的。
[0136]步驟104,利用所述待檢測(cè)的網(wǎng)址、白名單對(duì)應(yīng)網(wǎng)站特有標(biāo)志L0G0,和疑似仿冒網(wǎng)站規(guī)則進(jìn)行相似度計(jì)算;若相似度大于某一閾值,則判定所述待識(shí)別網(wǎng)站地址為疑似仿冒網(wǎng)站。
[0137]下面首先對(duì)網(wǎng)站LOGO的選擇形式和標(biāo)準(zhǔn)作出解釋:
[0138]其中,白名單對(duì)應(yīng)網(wǎng)站特有的標(biāo)志LOGO指的是,本專利中應(yīng)用對(duì)象特有的標(biāo)志:如工商銀行的標(biāo)志為一個(gè)隱性的方孔圓幣,那么所述LOGO的個(gè)數(shù)即為白名單中應(yīng)用對(duì)象網(wǎng)絡(luò)地址的數(shù)量。
[0139]其中,仿冒網(wǎng)站的仿冒特性中最重要的一點(diǎn)是網(wǎng)站頁(yè)面的視覺(jué)性欺騙,即頁(yè)面中的大部分內(nèi)容與真實(shí)正規(guī)網(wǎng)頁(yè)中的內(nèi)容相似性很高,有的可以達(dá)到以假亂真的程度。但是,統(tǒng)計(jì)多個(gè)仿冒網(wǎng)站后可以發(fā)現(xiàn),網(wǎng)站地址的拼寫(xiě)形式,以及網(wǎng)站頁(yè)面中標(biāo)題欄或LOGO的形式是影響用戶對(duì)網(wǎng)站真實(shí)性判斷的最主要的依據(jù)。因此,選用正規(guī)網(wǎng)站和仿冒網(wǎng)站中相關(guān)性最大的標(biāo)志LOGO作為相似度判斷的標(biāo)準(zhǔn)是合理的。
[0140]該步驟具體的算法流程見(jiàn)圖10。
[0141]I)步驟201,從所獲得的待檢測(cè)網(wǎng)站地址中提取主機(jī)統(tǒng)一資源定位符URL信息;
[0142]2)步驟202,根據(jù)提取的URL信息,利用Internet網(wǎng)絡(luò)下載得到對(duì)應(yīng)網(wǎng)頁(yè)的整體圖像;
[0143]3)步驟203,利用白名單對(duì)應(yīng)網(wǎng)站特有的標(biāo)志L0G0,依次與待檢測(cè)網(wǎng)站的整體圖像進(jìn)行相似度計(jì)算;
[0144]4)步驟204,對(duì)得到的相似度序列按從大到小排序后取最大值。若最大相似度大于等于某一給定閾值T,則判定所述待識(shí)別網(wǎng)站地址為疑似仿冒網(wǎng)站;若最大相似度小于某一給定閾值T,則判定所述待識(shí)別網(wǎng)站地址為非疑似仿冒網(wǎng)站。
[0145]對(duì)于所述步驟203中的相似度計(jì)算方法,本專利中選取的是SURF特征匹配法,這樣的可以有效的解決因正規(guī)網(wǎng)頁(yè)與仿冒網(wǎng)頁(yè)中LOGO位置、大小不同而產(chǎn)生的算法失效的問(wèn)題。
[0146]上述步驟203中具體的算法流程見(jiàn)圖11。
[0147]I)步驟2031,從白名單對(duì)應(yīng)網(wǎng)站特有的某個(gè)標(biāo)志LOGO和待檢測(cè)網(wǎng)站的整體圖像中分別提取特征點(diǎn);
[0148]2)步驟2032,對(duì)提取的特征點(diǎn)集計(jì)算SURF局部特征描述子;[0149]3)步驟2033,利用Flann方法進(jìn)行特征描述子間的快速匹配。
[0150]對(duì)于所述步驟104中的閾值T的計(jì)算方法,本專利中選取的是統(tǒng)計(jì)方法,即統(tǒng)計(jì)多個(gè)相關(guān)樣本的最大相似度,計(jì)算其中的最大相似度序列的最小值作為閾值,這種最大最小方法在統(tǒng)計(jì)學(xué)中的應(yīng)用合理,可以保證待測(cè)試的網(wǎng)站網(wǎng)址所得的相似度可以得到很好的分類效果。但是,統(tǒng)計(jì)學(xué)中的方法通常要求樣本足夠多,這樣才能滿足算法的精度。
[0151]上述步驟104中具體的算法流程見(jiàn)圖12。
[0152]I)步驟401,判斷白名單對(duì)應(yīng)網(wǎng)站的標(biāo)志LOGO集合是否為空;
[0153]2)步驟402,找到所述LOGO對(duì)應(yīng)黑名單中仿冒網(wǎng)站URL集合,利用Internet網(wǎng)絡(luò)批量下載得到網(wǎng)頁(yè)對(duì)應(yīng)的整體圖像的集合S ;
[0154]3)步驟403,利用所述標(biāo)志依次與集合S中的圖像進(jìn)行相似度計(jì)算,對(duì)獲取的相似度序列取平均值;
[0155]4)步驟404,對(duì)上述所得的平均相似度序列排序后,取最小值,則令相似度閾值T為該最小平均相似度。
[0156]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,其特征在于,具體包括以下步驟: 步驟1:接收到多個(gè)網(wǎng)站地址,并將多個(gè)網(wǎng)站地址排列成網(wǎng)站地址列表; 步驟2:按照列表順序?qū)⒕W(wǎng)站地址列表中的一個(gè)網(wǎng)站地址與預(yù)設(shè)的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加白名單標(biāo)記,跳轉(zhuǎn)至步驟6 ;否則,繼續(xù)步驟3 ; 步驟3:將當(dāng)前網(wǎng)站地址與預(yù)設(shè)的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加黑名單標(biāo)記,跳轉(zhuǎn)至步驟6 ;否則,繼續(xù)步驟4 ; 步驟4:將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容與所有白名單網(wǎng)站中內(nèi)設(shè)的專屬標(biāo)識(shí)LOGO圖片進(jìn)行匹配,并計(jì)算相似度,得到最大相似度值; 步驟5:判斷最大相似度值是否大于預(yù)設(shè)的閾值,如果是,則判定當(dāng)前網(wǎng)站地址為疑似仿冒網(wǎng)站并對(duì)該網(wǎng)站地址添加疑似仿冒標(biāo)記;否則,判定當(dāng)前網(wǎng)站地址為非疑似仿冒網(wǎng)站添加非疑似仿冒標(biāo)記; 步驟6:判斷網(wǎng)站地址列表中是否存在未添加標(biāo)記的網(wǎng)站地址,如果有,進(jìn)行步驟2 ;否貝IJ,結(jié)束。
2.根據(jù)權(quán)利要求1所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,其特征在于,所述步驟4具體包括以下步驟: 步驟4.1:獲取所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片; 步驟4.2:采集當(dāng)前網(wǎng)站地址的URL統(tǒng)一資源定位符,并通過(guò)網(wǎng)絡(luò)下載得到當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像; 步驟4.3:將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像與所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次進(jìn)行對(duì)比,并計(jì)算相似度得到多個(gè)相似度值; 步驟4.4:將多個(gè)相似度值按從大到小進(jìn)行排序,得到最大相似度值。
3.根據(jù)權(quán)利要求2所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的方法,其特征在于,所述步驟4.3具體包括以下步驟: 步驟4.3.1:對(duì)當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像提取特征點(diǎn),構(gòu)成待測(cè)特征點(diǎn)集;步驟4.3.2:對(duì)所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片分別提取特征點(diǎn),分別構(gòu)成多個(gè)對(duì)應(yīng)的白名單特征點(diǎn)集; 步驟4.3.3:對(duì)待測(cè)特征點(diǎn)集計(jì)算SURF (Speeded Up Robust Features)待測(cè)局部特征描述子;對(duì)多個(gè)白名單特征點(diǎn)集分別計(jì)算SURF (Speeded Up Robust Features)白名單局部特征描述子; 步驟4.3.4:利用近鄰檢測(cè)快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對(duì)待測(cè)局部特征描述子與多個(gè)白名單局部特征描述子間的快速匹配;步驟4.3.5:將多個(gè)匹配結(jié)果換算為數(shù)值,得到多個(gè)相似度值。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),其特征在于,所述步驟5中的閾值獲取包括以下步驟: 步驟a:根據(jù)國(guó)家互聯(lián)網(wǎng)權(quán)威管理部門提供的黑名單中仿冒網(wǎng)站(URL)統(tǒng)一資源定位符的集合,利用網(wǎng)絡(luò)下載獲得黑名單對(duì)應(yīng)的整體圖像,得到黑名單圖像合集; 步驟b:將白名單中的一個(gè)白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次與黑名單圖像集合中的圖像進(jìn)行相似度計(jì)算,得到多個(gè)相似度值;步驟C:對(duì)多個(gè)相似度值取平均值得到相似度均值; 步驟d:判斷是否白名單中所有的白名單網(wǎng)站都已進(jìn)行相似度計(jì)算,如果是,進(jìn)行步驟e ;否則,跳轉(zhuǎn)至步驟b ; 步驟e:將所有白名單網(wǎng)站計(jì)算得到的相似度均值按數(shù)值大小排序,得到最小相似度均值為閾值。
5.一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),其特征在于,包括接收模塊、白名單匹配模塊、黑名單匹配模塊、相似度計(jì)算模塊和判斷模塊; 所述接收模塊接收到多個(gè)網(wǎng)站地址,并將多個(gè)網(wǎng)站地址排列成網(wǎng)站地址列表; 所述白名單匹配模塊按照列表順序?qū)⒕W(wǎng)站地址列表中的一個(gè)網(wǎng)站地址與預(yù)設(shè)的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加白名單標(biāo)記;否則,將當(dāng)前網(wǎng)站地址發(fā)送到黑名單匹配模塊; 所述黑名單匹配模塊將當(dāng)前網(wǎng)站地址與預(yù)設(shè)的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問(wèn)該網(wǎng)站地址并對(duì)該網(wǎng)站地址添加黑名單標(biāo)記;否則,將當(dāng)前網(wǎng)站地址發(fā)送到相似度計(jì)算模塊; 所述相似度計(jì)算模塊將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容與所有白名單網(wǎng)站中內(nèi)設(shè)的專屬標(biāo)識(shí)LOGO圖片進(jìn)行匹配,并計(jì)算相似度,得到最大相似度值; 所述判斷模塊判斷最大相似度值是否大于預(yù)設(shè)的閾值,如果是,則判定當(dāng)前網(wǎng)站地址為疑似仿冒網(wǎng)站并對(duì) 該網(wǎng)站地址添加疑似仿冒標(biāo)記;否則,判定當(dāng)前網(wǎng)站地址為非疑似仿冒網(wǎng)站。
6.根據(jù)權(quán)利要求5所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),其特征在于,所述相似度計(jì)算模塊包括提取標(biāo)識(shí)模塊、采集圖像模塊、相似度比對(duì)模塊和排序模塊; 所述提取標(biāo)識(shí)模塊獲取所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片; 所述采集圖像模塊采集當(dāng)前網(wǎng)站地址的URL統(tǒng)一資源定位符,并通過(guò)網(wǎng)絡(luò)下載得到當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像; 所述相似度比對(duì)模塊將當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像與所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次進(jìn)行對(duì)比,并計(jì)算相似度得到多個(gè)相似度值; 所述排序模塊將多個(gè)相似度值按從大到小進(jìn)行排序,得到最大相似度值。
7.根據(jù)權(quán)利要求6所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),其特征在于,所述相似度比對(duì)模塊包括特征點(diǎn)提取模塊、計(jì)算描述子模塊、匹配模塊和數(shù)值轉(zhuǎn)換模塊; 所述特征點(diǎn)提取模塊對(duì)當(dāng)前網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁(yè)整體圖像提取特征點(diǎn),構(gòu)成待測(cè)特征點(diǎn)集;所述特征點(diǎn)提取模塊對(duì)所有白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片分別提取特征點(diǎn),分別構(gòu)成多個(gè)對(duì)應(yīng)的白名單特征點(diǎn)集; 所述計(jì)算描述子模塊對(duì)待測(cè)特征點(diǎn)集計(jì)算SURF (Speeded Up Robust Features)待測(cè)局部特征描述子;并對(duì)多個(gè)白名單特征點(diǎn)集分別計(jì)算SURF(Speeded Up Robust Features)白名單局部特征描述子; 所述匹配模塊利用近鄰檢測(cè)快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對(duì)待測(cè)局部特征描述子與多個(gè)白名單局部特征描述子間的快速匹配;所述數(shù)值轉(zhuǎn)換模塊將多個(gè)匹配結(jié)果換算為數(shù)值,得到多個(gè)相似度值。
8.根據(jù)權(quán)利要求5-7任一項(xiàng)所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),其特征在于,還包括閾值獲取模塊,所述閾值獲取模塊與判斷模塊相連接,并將計(jì)算得到的閾值發(fā)送到判斷模塊。
9.根據(jù)權(quán)利要求8所述的一種自動(dòng)檢測(cè)疑似仿冒網(wǎng)站的系統(tǒng),其特征在于,所述閾值獲取模塊包括黑名單圖像獲取模塊、白黑對(duì)比模塊、均值計(jì)算模塊和均值排序模塊; 所述黑名單圖像獲取模塊根據(jù)國(guó)家互聯(lián)網(wǎng)權(quán)威管理部門提供的黑名單中仿冒網(wǎng)站(URL)統(tǒng)一資源定位符的集合,利用網(wǎng)絡(luò)下載獲得黑名單對(duì)應(yīng)的整體圖像,得到黑名單圖像合集; 所述白黑對(duì)比模塊將白名單中的一個(gè)白名單網(wǎng)站的專屬標(biāo)識(shí)LOGO圖片依次與黑名單圖像集合中的圖像進(jìn)行相似度計(jì)算,得到多個(gè)相似度值; 所述均值計(jì)算模塊對(duì)多個(gè)相似度值取平均值得到相似度均值; 所述均值排序模塊將所有白名單網(wǎng)站計(jì)算得到的相似度均值按數(shù)值大小排序,得到最小相似度均值為閾值。`
【文檔編號(hào)】H04L29/06GK103442014SQ201310395429
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年9月3日 優(yōu)先權(quán)日:2013年9月3日
【發(fā)明者】云曉春, 張永錚, 周宇, 肖軍, 王一鵬, 李書(shū)豪 申請(qǐng)人:中國(guó)科學(xué)院信息工程研究所