一種中文域名仿冒攻擊的檢測(cè)方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種中文域名仿冒攻擊的檢測(cè)方法。針對(duì)利用形近字進(jìn)行仿冒攻擊的方式,首先將待檢測(cè)中文域名詞組中的單個(gè)中文字符表示為點(diǎn)陣的矩陣,并將該矩陣轉(zhuǎn)化為相應(yīng)的多維向量,通過(guò)多維向量之間的相似性檢測(cè)單個(gè)中文字符之間的相似性;然后基于單個(gè)中文字符之間的相似性計(jì)算整個(gè)中文域名詞組之間的相似性,根據(jù)整個(gè)中文域名詞組之間的相似性的值檢測(cè)是否存在中文域名仿冒攻擊,該檢測(cè)方法能夠有效的檢測(cè)有仿冒傾向的中文域名。
【專(zhuān)利說(shuō)明】一種中文域名仿冒攻擊的檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】,涉及一種信息處理技術(shù),具體涉及一種中文域名仿冒攻擊的檢測(cè)方法。
【背景技術(shù)】
[0002]域名系統(tǒng)(Domain Name System,縮寫(xiě)DNS)是因特網(wǎng)的一項(xiàng)核心服務(wù),它作為將域名和IP地址相互映射的一個(gè)分布式數(shù)據(jù)庫(kù),是用戶(hù)訪問(wèn)網(wǎng)絡(luò)資源的入口。由于其直觀性和便利性,方便了人們對(duì)于網(wǎng)絡(luò)資源的訪問(wèn),但是也由此誘發(fā)了大量利用域名進(jìn)行犯罪的網(wǎng)絡(luò)攻擊行為。利用相似的域名對(duì)目標(biāo)域名進(jìn)行仿冒攻擊,即所謂的同形異義字攻擊(Homograph Attack),被大量的用于網(wǎng)絡(luò)釣魚(yú)、垃圾郵件以及網(wǎng)站身份竊取等網(wǎng)絡(luò)惡意應(yīng)用之中。最初的域名系統(tǒng)只能使用63個(gè)ASCII字符(〃a-z〃,〃A_Z〃,〃0_9〃,〃-〃)注冊(cè),因此相似字符數(shù)量還相對(duì)較少。隨著國(guó)際化域名(International Domain Names, IDN)的興起,域名注冊(cè)字符集進(jìn)一步擴(kuò)大,多語(yǔ)種字符集合進(jìn)入域名注冊(cè)字符集,不可避免地涌現(xiàn)出較多的相似字符。比如英語(yǔ)的“microsoft.com”和西里爾語(yǔ)的“microsoft.com”,在視覺(jué)上毫無(wú)區(qū)別,卻是不同的兩個(gè)域名。
[0003]盡管針對(duì)英文域名仿冒攻擊已經(jīng)有一些相關(guān)的檢測(cè)技術(shù),但由于英文字符體系較為簡(jiǎn)單,因此相關(guān)技術(shù)并不能適用于字符庫(kù)龐大的國(guó)際化域名。中文域名是國(guó)際化域名的重要組成部分,漢字較大的字庫(kù)空間以及象形、形聲的造字規(guī)則產(chǎn)生出了大量的中文形似字,因此中文域名的仿冒情況更加復(fù)雜,類(lèi)似于網(wǎng)絡(luò)釣魚(yú)的網(wǎng)絡(luò)犯罪行為,常常利用域名的相似性構(gòu)造仿冒域名,從而對(duì)網(wǎng)絡(luò)用戶(hù)進(jìn)行欺詐活動(dòng),造成了互聯(lián)網(wǎng)環(huán)境的惡化。而目前對(duì)于中文域名的仿冒攻擊檢測(cè)的技術(shù)還幾乎處于空白,亟需解決。
【發(fā)明內(nèi)容】
[0004]為了解決上述問(wèn)題,本發(fā)明針對(duì)利用形近字進(jìn)行仿冒攻擊的方式,提出了一種從單個(gè)中文字符的相似測(cè)算到中文域名詞組的整體仿冒的有效檢測(cè)方法。
[0005]本發(fā)明基于字符在計(jì)算機(jī)中的點(diǎn)陣表示特征,發(fā)明了一種有效檢測(cè)中文域名仿冒攻擊的方法,該方法包括以下步驟:
[0006]I)將待檢測(cè)中文域名詞組中的單個(gè)中文字符表示為點(diǎn)陣的矩陣,并將該矩陣轉(zhuǎn)化為相應(yīng)的多維向量,通過(guò)多維向量之間的相似性檢測(cè)單個(gè)中文字符之間的相似性;
[0007]2)基于單個(gè)中文字符之間的相似性計(jì)算整個(gè)中文域名詞組之間的相似性,根據(jù)整個(gè)中文域名詞組之間的相似性的值檢測(cè)是否存在中文域名仿冒攻擊。
[0008]進(jìn)一步地,步驟I)具體包括如下步驟:
[0009]i)將單個(gè)中文字符統(tǒng)一表示為FXF字符點(diǎn)陣的矩陣;
[0010]ii)將FXF字符點(diǎn)陣通過(guò)(0,I)矩陣的形式表示,然后轉(zhuǎn)化為相應(yīng)的多維向量;
[0011]iii)通過(guò)計(jì)算多維向量之間的相似性來(lái)檢測(cè)兩個(gè)中文字符之間的相似性。
[0012]進(jìn)一步地,步驟i)中,F(xiàn)取值越大,相似性的計(jì)算結(jié)果越精確,但是計(jì)算效率也更低,因此該值的取值取決于具體處理環(huán)境的計(jì)算能力和精度要求。
[0013]進(jìn)一步地,步驟ii)中,轉(zhuǎn)化過(guò)程采用“Z”形賦值方式,即矩陣每一行賦值完畢后,從最后一個(gè)賦值的位置下方的數(shù)值開(kāi)始反方向橫向賦值。該方法主要是為了考慮相鄰的點(diǎn)對(duì)于字形的印象更直接。
[0014]進(jìn)一步地,步驟iii)中,計(jì)算多維向量之間的相似性的具體方法是計(jì)算兩個(gè)向量夾角的余弦值,通過(guò)其[0.1]的結(jié)果來(lái)判定兩個(gè)中文字符的相似性,即:
【權(quán)利要求】
1.一種中文域名仿冒攻擊的檢測(cè)方法,包括以下步驟: 1)將待檢測(cè)中文域名詞組中的單個(gè)中文字符表示為點(diǎn)陣的矩陣,并將該矩陣轉(zhuǎn)化為相應(yīng)的多維向量,通過(guò)多維向量之間的相似性檢測(cè)單個(gè)中文字符之間的相似性; 2)基于單個(gè)中文字符之間的相似性計(jì)算整個(gè)中文域名詞組之間的相似性,根據(jù)整個(gè)中文域名詞組之間的相似性的值檢測(cè)是否存在中文域名仿冒攻擊。
2.如權(quán)利要求1所述的檢測(cè)方法,其特征在于,步驟I)具體包括以下步驟: i)將單個(gè)中文字符統(tǒng)一表示為FXF字符點(diǎn)陣的矩陣; ?)將FXF字符點(diǎn)陣通過(guò)(O,I)矩陣的形式表示,然后轉(zhuǎn)化為相應(yīng)的多維向量; ii i)通過(guò)計(jì)算多維向量之間的相似性來(lái)檢測(cè)單個(gè)中文字符之間的相似性。
3.如權(quán)利要求2所述的檢測(cè)方法,其特征在于,步驟ii)中,所述轉(zhuǎn)化過(guò)程采用“Z”形賦值方式,即矩陣每一行賦值完畢后,從最后一個(gè)賦值的位置下方的數(shù)值開(kāi)始反方向橫向賦值。
4.如權(quán)利要求2所述的檢測(cè)方法,其特征在于,步驟iii)中,計(jì)算多維向量之間的相似性的具體方法是計(jì)算兩個(gè)向量夾角的余弦值,通過(guò)其[0.1]的結(jié)果來(lái)判定兩個(gè)中文字符之間的相似性,即
5.如權(quán)利要求4所述的檢測(cè)方法,其特征在于,所述余弦值越大,兩個(gè)中文字符之間的相似性越大。
6.如權(quán)利要求1所述的檢測(cè)方法,其特征在于,步驟2)中,整個(gè)中文域名詞組之間的相似性通過(guò)以下公式計(jì)算:
7.如權(quán)利要求1-6任一所述的檢測(cè)方法,其特征在于,步驟2)中為整個(gè)中文域名詞組之間的相似性設(shè)定閾值,根據(jù)該閾值檢測(cè)是否存在中文域名仿冒攻擊。
【文檔編號(hào)】H04L29/06GK103957191SQ201410134029
【公開(kāi)日】2014年7月30日 申請(qǐng)日期:2014年4月3日 優(yōu)先權(quán)日:2014年4月3日
【發(fā)明者】洪博, 耿光剛, 王利明, 胡安磊 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心