欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

仿冒域名檢測方法及設備的制作方法

文檔序號:8003926閱讀:346來源:國知局
仿冒域名檢測方法及設備的制作方法
【專利摘要】本發(fā)明提供一種仿冒域名檢測方法及設備。該仿冒域名檢測方法包括:獲取待檢測域名;將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對;根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值;根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值;若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大于等于預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。本發(fā)明提供的仿冒域名檢測方法及設備能夠實現仿冒中文域名的有效檢測。
【專利說明】仿冒域名檢測方法及設備
【技術領域】
[0001]本發(fā)明涉及信息處理技術,尤其涉及一種仿冒域名檢測方法及設備,屬于網絡安全【技術領域】。
【背景技術】
[0002]隨著科技的普及化,網絡通訊技術以不可取代的地位深入各個領域,而網絡安全問題也日益嚴峻,其中以網絡釣魚問題尤為突出。
[0003]網絡釣魚,是指通過發(fā)送垃圾電子郵件等方式,將收信用戶引誘到一個通過精心設計與目標組織的網站非常相似的釣魚網站上,并獲取收信人在此網站上輸入的個人敏感信息的網絡犯罪行為。隨著電子商務和互聯網應用的普及和發(fā)展,網絡釣魚造成的損失日益嚴重。由于域名是網站面向終端用戶的入口,網絡釣魚者行為常常要采用和目標域名相似的域名,來使得用戶誤以為釣魚網站為正規(guī)的目標網站。因此,域名仿冒行為是釣魚攻擊的一個重要特征,所以在進行釣魚網站和郵件的檢測時,需要進行URL的域名部分的相似性分析,即仿冒域名檢測。
[0004]目前的仿冒域名檢測,主要是通過計算兩個英文域名的字符串的編輯距離來實現的。但隨著國際化域名(International Domain Names, IDN)的興起,域名注冊字符集進一步擴大,不可避免地將出現大量的相似性字符。中文域名是國際化域名的重要組成部分。漢字較大的字庫空間以及象形、形聲的造字規(guī)則產生了大量的相似字符,而網絡釣魚常常會利用這些相似字符來構造仿冒域名,對網絡用戶進行欺騙。目前針對英文域名的相似性檢測方法無法有效檢測出中文域名的仿冒域名。

【發(fā)明內容】

[0005]針對現有技術中的缺陷,本發(fā)明提供一種仿冒域名檢測方法及設備,用以實現仿冒中文域名的有效檢測。
[0006]根據本發(fā)明實施例的一方面,提供一種仿冒域名檢測方法,包括:
[0007]獲取待檢測域名;
[0008]將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對;
[0009]根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值;
[0010]根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值;
[0011 ] 若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大于等于預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。
[0012]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據各匹配對內兩個中文字符的語音相似度和/或字形相似度,確定所述各匹配對的相似度值,包括對所述各匹配對分別執(zhí)行以下操作:
[0013]根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值;
[0014]若所述語音相似度值大于等于預設語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值;
[0015]若所述語音相似度值小于所述預設語音相似度閾值,則根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,并將所述字形相似度值確定為所述匹配對的相似度值。
[0016]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值,包括:
[0017]獲取所述兩個中文字符的拼音序列字符串;
[0018]計算所述兩個中文字符的拼音序列字符串的編輯距離;
[0019]根據所述編輯距離確定所述兩個中文字符的語音相似度值。
[0020]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,包括:
[0021]獲取所述兩個中文字符的Unicode編碼;
[0022]根據所述Unicode編碼,從點陣字庫中獲取分別與所述兩個中文字符對應的0_1矩陣;
[0023]根據所述0-1矩陣確定所述兩個中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C為所述中文字符的連通域,特征值E為所述中文字符的端點個數,特征值Cp為所述中文字符的交點個數,特征值G為所述中文字符的虧格數,特征值S為所述中文字符的筆劃數;
[0024]根據所述兩個中文字符的特征向量中相同特征值的差值,確定所述兩個中文字符的字形相似度值。
[0025]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,包括:
[0026]初始化編輯距離矩陣:
[0027]
【權利要求】
1.一種仿冒域名檢測方法,其特征在于,包括: 獲取待檢測域名; 將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對; 根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值;根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值; 若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大于等于預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。
2.根據權利要求1所述的仿冒域名檢測方法,其特征在于,所述根據各匹配對內兩個中文字符的語音相似度和/或字形相似度,確定所述各匹配對的相似度值,包括對所述各匹配對分別執(zhí)行以 下操作: 根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值; 若所述語音相似度值大于等于預設語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值; 若所述語音相似度值小于所述預設語音相似度閾值,則根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,并將所述字形相似度值確定為所述匹配對的相似度值。
3.根據權利要求2所述的仿冒域名檢測方法,其特征在于,所述根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值,包括: 獲取所述兩個中文字符的拼首序列字符串; 計算所述兩個中文字符的拼音序列字符串的編輯距離; 根據所述編輯距離確定所述兩個中文字符的語音相似度值。
4.根據權利要求2所述的仿冒域名檢測方法,其特征在于,所述根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,包括: 獲取所述兩個中文字符的Unicode編碼; 根據所述Unicode編碼,從點陣字庫中獲取分別與所述兩個中文字符對應的0-1矩陣; 根據所述0-1矩陣確定所述兩個中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C為所述中文字符的連通域,特征值E為所述中文字符的端點個數,特征值Cp為所述中文字符的交點個數,特征值G為所述中文字符的虧格數,特征值S為所述中文字符的筆劃數; 根據所述兩個中文字符的特征向量中相同特征值的差值,確定所述兩個中文字符的字形相似度值。
5.根據權利要求1-4任一所述的仿冒域名檢測方法,其特征在于,所述根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,包括: 初始化編輯距離矩陣:, ^0.1,..*,"0',i,...,e^tln -1 I
"Ul,iA.!,…,iA",.?.? + 1 D=…
—(.U”(*1.1 1.“ i^mUJ i"%^*+l,w+t J 其中,m為所述待檢測域名的關鍵詞的字符長度,η為所述目標域名的關鍵詞的字符長度,i,j,m,n均為正整數,且滿足0〈i彡m+l,0〈j彡n+1 ; 按照以下公式對所述編輯距離矩陣的各元素進行賦值: d0,0=0,di;0=i, d0;J=j, d ^ Imm(d,^ , , )+bsim(i, j),如丨4#,U

L/ —I ’ ‘i,卜 I y h,j X 其匕 其中,sim(i,j)為所述待檢測域名的關鍵詞中第i個中文字符和所述目標域名的關鍵詞的第j個中文字符組成的匹配對的相似度值; 將dm+1,n+1的值確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的編輯距離,并根據所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的編輯距離,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,其中所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的編輯距離與相似度值呈反比關系。
6.一種仿冒域名檢測設備,其特征在于,包括: 獲取模塊,用于獲取待 檢測域名; 預處理模塊,用于將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對; 第一相似度計算模塊,用于根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值; 第二相似度計算模塊,用于根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值; 判定模塊,用于若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大于等于預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。
7.根據權利要求6所述的仿冒域名檢測設備,其特征在于,所述第一相似度計算模塊具體包括: 語音相似度計算單元,用于計算所述匹配對內兩個中文字符的語音相似度值; 確定單元,用于若所述語音相似度值大于等于預設語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值; 字形相似度計算單元,用于若所述語音相似度值小于所述預設語音相似度閾值,則根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值; 所述確定單元還用于將所述字形相似度值確定為所述匹配對的相似度值。
8.根據權利要求7所述的仿冒域名檢測設備,其特征在于,所述語音相似度計算單元具體用于: 獲取所述兩個中文字符的拼首序列字符串; 計算所述兩個中文字符的拼音序列字符串的編輯距離; 根據所述編輯距離確定所述兩個中文字符的語音相似度值。
9.根據權利要求7所述的仿冒域名檢測設備,其特征在于,所述字形相似度計算單元具體用于: 獲取所述兩個中文字符的Unicode編碼; 根據所述Unicode編碼,從點陣字庫中獲取分別與所述兩個中文字符對應的0-1矩陣; 根據所述0-1矩陣確定所述兩個中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C為所述中文字符的連通域,特征值E為所述中文字符的端點個數,特征值Cp為所述中文字符的交點個數,特征值G為所述中文字符的虧格數,特征值S為所述中文字符的筆劃數; 根據所述兩個中文字符的特征向量中相同特征值的差值,確定所述兩個中文字符的字形相似度值。
10.根據權利要求6-9任一所述的仿冒域名檢測設備,其特征在于,所述第二相似度計算模塊具體用于: 初始化編輯距離矩陣:
【文檔編號】H04L29/06GK103428307SQ201310346713
【公開日】2013年12月4日 申請日期:2013年8月9日 優(yōu)先權日:2013年8月9日
【發(fā)明者】李海靈, 洪博, 王利明 申請人:中國科學院計算機網絡信息中心
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
临邑县| 定安县| 宜兴市| 新田县| 松潘县| 海淀区| 阿勒泰市| 阿瓦提县| 如皋市| 弥勒县| 文山县| 唐山市| 鹰潭市| 若羌县| 应城市| 洪雅县| 碌曲县| 满洲里市| 东丰县| 南开区| 平山县| 晋宁县| 汝阳县| 长岭县| 廊坊市| 抚宁县| 莱州市| 绥江县| 隆德县| 乌拉特前旗| 九寨沟县| 敖汉旗| 桐乡市| 中牟县| 密山市| 定西市| 梅河口市| 卢氏县| 内黄县| 正镶白旗| 晋中市|