欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于頁面特征匹配的釣魚網(wǎng)站目標(biāo)域名識別方法

文檔序號:9417753閱讀:323來源:國知局
基于頁面特征匹配的釣魚網(wǎng)站目標(biāo)域名識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于網(wǎng)絡(luò)安全領(lǐng)域,涉及一種基于頁面特征匹配的釣魚網(wǎng)站目標(biāo)域名識別 方法。
【背景技術(shù)】
[0002] 釣魚網(wǎng)站的大量涌現(xiàn),不僅給互聯(lián)網(wǎng)用戶的財產(chǎn)安全帶來威脅,而且會影響被釣 魚攻擊的公司的名譽(yù)并削弱其可信度。就商業(yè)而言,商標(biāo)是每個公司最重要的資產(chǎn),公司需 要幾年甚至更長的時間才可以建立起讓消費(fèi)者信任的商標(biāo)。釣魚攻擊的受害者將會發(fā)現(xiàn)很 難與那些似乎不能保護(hù)其資產(chǎn)和私密安全性的公司進(jìn)行交易合作??蛻舻男湃问且环N難以 估量的資產(chǎn),但失去它對任何公司來說都是一個壞消息。在這樣的網(wǎng)絡(luò)釣魚環(huán)境中,如何 有效識別釣魚網(wǎng)站的目標(biāo)域名將有著重大意義,這將為各大商業(yè)公司提前做好防御通知工 作。
[0003] 近幾年,在釣魚網(wǎng)站目標(biāo)識別方面,從識別方法來看,一般分為兩步,先確定釣魚 目標(biāo)的范圍,然后依據(jù)相關(guān)特征的相似性作為釣魚網(wǎng)站與目標(biāo)之間的相似性的定量指標(biāo), 從中確定相似性最大的目標(biāo)。
[0004] 國內(nèi)外很多研究學(xué)者針對釣魚網(wǎng)站的檢測方法進(jìn)行了大量實(shí)驗(yàn),但是在識別釣魚 網(wǎng)站目標(biāo)方面仍有不足:首先是方法本身大都只考慮從釣魚網(wǎng)站的鏈接地址出發(fā),根據(jù)釣 魚網(wǎng)站和目標(biāo)網(wǎng)站之間的單向鏈接關(guān)系來尋找目標(biāo)網(wǎng)站,當(dāng)釣魚網(wǎng)站和目標(biāo)網(wǎng)站之間的鏈 接關(guān)系不是那么明顯的時候就會識別不正確;其次是目標(biāo)范圍選取上沒有考慮URL地址中 的嵌套域名;第三是現(xiàn)有方法大部分采用頁面上超鏈接所占比重來進(jìn)行域名識別,但如果 釣魚網(wǎng)站的目標(biāo)網(wǎng)站使用了 CDN緩存加速服務(wù),則對該釣魚網(wǎng)站進(jìn)行識別時,頁面鏈接中 所有對目標(biāo)網(wǎng)站靜態(tài)資源的鏈接地址都將自動轉(zhuǎn)換成CDN緩存加速服務(wù)器的域名,這在一 定程度上會影響識別方法的準(zhǔn)確率;第四是現(xiàn)有釣魚網(wǎng)站已經(jīng)開始利用希臘字母與拉丁字 母之間的相似性來逃避檢測程序的檢測。
[0005] 因此,針對上述問題,有必要設(shè)計一種基于頁面特征匹配的釣魚網(wǎng)站目標(biāo)域名識 別方法。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明所要解決的技術(shù)問題是提供一種基于頁面特征匹配的釣魚網(wǎng)站目標(biāo)域名 識別方法,該基于頁面特征匹配的釣魚網(wǎng)站目標(biāo)域名識別方法具有識別準(zhǔn)確率高的優(yōu)點(diǎn)。
[0007] 發(fā)明的技術(shù)解決方案如下:
[0008] -種基于頁面特征匹配的釣魚網(wǎng)站目標(biāo)域名識別方法,包括以下步驟:
[0009] 步驟1 :獲取一個待識別的釣魚網(wǎng)站的URL,URL是網(wǎng)絡(luò)資源統(tǒng)一定位符;將該URL 地址中嵌套的域名、頁面源代碼中超鏈接所包含的域名、搜索引擎搜索結(jié)果【按頁面關(guān)鍵詞 搜索得到的域名】中的域名和常用的被釣魚目標(biāo)域名都加入到目標(biāo)域名識別范圍;
[0010] 步驟2 :從目標(biāo)域名識別范圍去除CDN緩存加速服務(wù)器的域名,形成可疑目標(biāo)范圍 集合D ;CDN為內(nèi)容分發(fā)網(wǎng)絡(luò);
[0011] 步驟3 :目標(biāo)識別算法的特征相似性計算:
[0012] 對可疑目標(biāo)范圍集合D中的每個域名Clj e D (j = 1,2, ...,N)計算基于URL地址 特征、搜索特征和頁面內(nèi)容特征的六種特征值MiQ = 1,...,6),并計算每種特征的權(quán)重Wi, 然后計算其特征相似性S :
[0013]
[0014] N為可疑目標(biāo)范圍集合D中的域名總數(shù);
[0015] 步驟4 :將目標(biāo)域名識別范圍D中的每個域名的特征相似性S按照從大到小的順 序進(jìn)行排列,選取相似度最大的域名作為最終的釣魚網(wǎng)站目標(biāo)域名,目標(biāo)檢測結(jié)束。
[0016] 所述的步驟1中,在獲取釣魚網(wǎng)站頁面代碼的時候增加預(yù)處理操作,參考希臘字 母簡表,將代碼中所有的希臘字母轉(zhuǎn)換成拉丁字母。
[0017] 在步驟2中,計算PR值,PR為網(wǎng)頁排名,將PR值為0的域名從目標(biāo)范圍中刪除, 以去除CDN緩存加速服務(wù)器對檢測方法的干擾。
[0018] 在步驟3中,URL地址中嵌套的域名、頁面源代碼中超鏈接所包含的域名、搜索引 擎搜索結(jié)果這三個方面提取出以下六種特征,(I)URL地址是否包含可疑目標(biāo)網(wǎng)站頂級域 名、(2) URL地址是否包含可疑目標(biāo)網(wǎng)站二級域名、(3)網(wǎng)頁標(biāo)題是否包含可疑目標(biāo)網(wǎng)站二 級域名、(4)頁面超鏈接包含可疑目標(biāo)網(wǎng)站頂級域名的次數(shù)、(5)提取的頁面7個關(guān)鍵詞是 否包含可疑目標(biāo)網(wǎng)站二級域名和(6)搜索結(jié)果中包含可疑目標(biāo)網(wǎng)站頂級域名的次數(shù);
[0019] 對于i = 1,2, 3, 5, Mi= 0表示特征匹配不成功,或者M(jìn) ;= 1表示特征匹配成功; 另外,]?4和M6為第4個和第6個特征匹配成功的次數(shù)。
[0020] 在步驟3中,權(quán)值1和W 2采用訓(xùn)練樣本統(tǒng)計的方式獲得,選取Phishtank上K個 釣魚網(wǎng)站樣例作為特征權(quán)值計算樣本;對于特征1,假設(shè)樣本中URL嵌套可疑目標(biāo)網(wǎng)站頂級 域名的數(shù)目共有Kl個,嵌套的域名是真實(shí)目標(biāo)網(wǎng)站的樣本數(shù)為Xl,則W 1 = X 于特征 2,假設(shè)樣本中URL嵌套可疑目標(biāo)網(wǎng)站二級域名的數(shù)目共有1(2個,嵌套的域名是真實(shí)目標(biāo)網(wǎng) 站的樣本數(shù)為X 2,則W2= X 2/K2。K取值要求大于等于300。
[0021] 在步驟3中,權(quán)值WjPW 5采用訓(xùn)練樣本統(tǒng)計的方式獲得,選取Phishtank上K個 釣魚網(wǎng)站樣例作為特征權(quán)值計算樣本。對于特征3,假設(shè)樣本中網(wǎng)頁標(biāo)題包含真實(shí)目標(biāo)網(wǎng)頁 的二級域名的有&個,則W 3= X 3/Κ。同樣,對于特征5,假設(shè)樣本中頁面關(guān)鍵詞包含真實(shí)目 標(biāo)網(wǎng)站二級域名的數(shù)目是X5,則W 5= X 5/κ。
[0022] 在步驟3的流程執(zhí)行過程中,權(quán)值^和W6的計算加入鏈接中域名匹配的次數(shù) 因子k4和k6,其步驟為:同樣選取Phishtank上K個釣魚網(wǎng)站樣例作為特征權(quán)值計算樣 本,對于特征4,假設(shè)樣本集中第i個樣本的頁面超鏈接包含真實(shí)目標(biāo)網(wǎng)站頂級域名的次 數(shù)為y4l,則次數(shù)因子
,對于特征6,假設(shè)樣本集中第i個樣本依據(jù)頁面關(guān)鍵 詞搜索結(jié)果中包含真實(shí)目標(biāo)網(wǎng)站頂級域名的次數(shù)為y6l,則次數(shù)因子(即樣本平均包含次 數(shù))
[0023] 特征4和特征6的權(quán)值計算公式分別為W4= X 4/ (K *k4)和W6= X 6/ (K ^k6),其中, 乂4為樣本集(即樣本集合)中頁面超鏈接包含真實(shí)目標(biāo)網(wǎng)站頂級域名的樣本數(shù),X 6為樣本 集中依據(jù)頁面關(guān)鍵詞搜索結(jié)果中包含真實(shí)目標(biāo)網(wǎng)站頂級域名的樣本數(shù)。
[0024] 步驟1中,將常用的被釣魚目標(biāo)域名加入到目標(biāo)域名識別范圍,常用的被釣魚目 標(biāo)域名從Phishtank網(wǎng)站獲取,獲取的方法是:
[0025] 在phishtank上采樣600個釣魚網(wǎng)站樣本,對其偽造目標(biāo)域名進(jìn)行統(tǒng)計,將被偽造 頻率最高的前12個域名添加到目標(biāo)域名范圍中。
[0026] 目標(biāo)域名是釣魚網(wǎng)站的偽造對象域名。例如某個釣魚網(wǎng)站企圖偽造支付寶頁面, 該釣魚網(wǎng)站的目標(biāo)域名就是支付寶頁面的域名。目標(biāo)識別是指當(dāng)給定某釣魚網(wǎng)站的頁面域 名,能夠自動識別出該釣魚頁面所偽造的頁面的域名。
[0027] 對本發(fā)明的一些名詞作說明:
[0028] CDN :Content Delivery/Distribution Network,中文稱為內(nèi)容分發(fā)網(wǎng)絡(luò);
[0029] PR :PageRank,中文稱為網(wǎng)頁排名。
[0030] 本發(fā)明的特點(diǎn)有:
[0031] (1)在獲取釣魚網(wǎng)站頁面代碼的時候增加預(yù)處理,將代碼中所有的希臘字母轉(zhuǎn)換 成拉丁字母。
[0032] (2)解決⑶N緩存加速服務(wù)器所帶來的影響
[0033] 因?yàn)閱螐挠蛎蠠o法直接識別域名是否屬于CDN緩存加速服務(wù)器,但通過實(shí)驗(yàn)發(fā) 現(xiàn)CDN緩存加速服務(wù)器域名的PR值為0。因此為了解決CDN緩存加速服務(wù)器所帶來的影 響,將
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
宁远县| 黑山县| 安福县| 南川市| 赤城县| 涡阳县| 白玉县| 子洲县| 伊春市| 公主岭市| 清丰县| 通榆县| 榆林市| 讷河市| 娱乐| 竹溪县| 承德市| 思茅市| 神农架林区| 邻水| 长沙县| 江川县| 桂林市| 青河县| 鄯善县| 利辛县| 青州市| 平度市| 句容市| 疏勒县| 怀化市| 江华| 阿拉善盟| 榆中县| 中西区| 万载县| 连平县| 灌云县| 长宁县| 容城县| 扬州市|