專利名稱:一種釣魚網(wǎng)站識(shí)別系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,特別涉及一種釣魚網(wǎng)站識(shí)別系統(tǒng)及方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)民數(shù)量逐年增加。在上網(wǎng)時(shí),除了傳統(tǒng)的木馬、病毒的威脅,近兩年釣魚網(wǎng)站的數(shù)量大幅增加。當(dāng)前主要的釣魚網(wǎng)站識(shí)別技術(shù)是通過收集常見的釣魚網(wǎng)站,制作成知識(shí)庫,再計(jì)算新發(fā)現(xiàn)的網(wǎng)頁與知識(shí)庫中的釣魚網(wǎng)站的相似度,從而判斷是否是釣魚網(wǎng)站。上述通過釣魚網(wǎng)站知識(shí)庫識(shí)別釣魚網(wǎng)站的方法,通常只能識(shí)別已知類別的釣魚網(wǎng) 站,對(duì)于新類型的釣魚網(wǎng)站則無法識(shí)別,比如釣魚網(wǎng)站知識(shí)庫內(nèi)只有中國銀行相關(guān)的釣魚網(wǎng)站時(shí),對(duì)于仿冒工商銀行的釣魚網(wǎng)站就無法識(shí)別。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是如何提供一種釣魚網(wǎng)站識(shí)別系統(tǒng)及方法,以有效識(shí)別新類型的釣魚網(wǎng)站。為解決上述技術(shù)問題,本發(fā)明提供一種釣魚網(wǎng)站識(shí)別系統(tǒng),其包括域名獲取單元、域名統(tǒng)計(jì)單元和網(wǎng)站識(shí)別單元;所述域名獲取單元,適于收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名; 所述域名統(tǒng)計(jì)單元,適于統(tǒng)計(jì)所述域名在所述待識(shí)別網(wǎng)站中出現(xiàn)的次數(shù),找到出現(xiàn)次數(shù)最多的域名,記作目標(biāo)域名;所述網(wǎng)站識(shí)別單元,適于根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。其中,所述網(wǎng)站識(shí)別單元包括比較子單元和識(shí)別子單元; 所述比較子單元,適于比較所述目標(biāo)域名與所述自身域名,并在比較結(jié)果顯示所述目標(biāo)域名與所述自身域名相同時(shí),判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站;所述識(shí)別子單元,適于在所述目標(biāo)域名與所述自身域名不同時(shí),計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度,進(jìn)而根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。其中,所述識(shí)別子單元包括比例計(jì)算模塊、相似度計(jì)算模塊和判斷模塊;所述比例計(jì)算模塊,適于計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例;所述相似度計(jì)算模塊,適于計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度;所述判斷模塊,適于判斷所述比例和所述相似度是否滿足條件所述比例大于預(yù)定比例,并且所述相似度大于預(yù)定閾值;如果滿足,判定所述待識(shí)別網(wǎng)站是釣魚網(wǎng)站;否則,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站。其中,所述相似度計(jì)算模塊包括字符串對(duì)比子模塊、初值計(jì)算子模塊和終值計(jì)算子模塊;所述字符串對(duì)比子模塊,適于構(gòu)建所述目標(biāo)域名的字符串與所述自身域名的字符串的對(duì)比陣列,將所述目標(biāo)域名的字符串設(shè)置在所述對(duì)比陣列的第一行并保持位置固定,將所述自身域名的字符串設(shè)置在所述對(duì)比陣列的第二行并自左向右移動(dòng),對(duì)兩行字符串中重疊的字符進(jìn)行對(duì)比;所述初值計(jì)算子模塊,適于當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1 ;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì) 算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Qm ^1=Km=IiAn2-Ln1表示所述目標(biāo)域名的字符串長度,n2表示所述自身域名的字符串長度;所述終值計(jì)算子模塊,適于根據(jù)下述公式計(jì)算得到所述目標(biāo)域名與所述自身域名之間的相似度Qmax Q^maxtQp Q2, Q3, ......Qj。其中,所述初值計(jì)算子模塊中,利用如下公式計(jì)算第i相似度計(jì)算值Qi :Qi=Mi2 X Li ;其中,i為自然數(shù),并且,l^i^m ;并且,Mi=SiAiniax ;Li=IVnniax ;其中,ri表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊的字符個(gè)數(shù);n_表示所述自身域名的字符串與所述目標(biāo)域名的字符串中較長字符串的字符個(gè)數(shù)山表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的重疊率;Si表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊并且相同的字符個(gè)數(shù)鷓表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的匹配率。其中,所述初值計(jì)算子模塊中,利用如下方式計(jì)算第i相似度計(jì)算值Qi :在第i次對(duì)比時(shí),計(jì)算所述目標(biāo)域名的字符串與所述自身域名的字符串中重疊并且相同的字符個(gè)數(shù),將所述重疊并且相同的字符個(gè)數(shù)作為第i相似度計(jì)算值Qi。其中,所述系統(tǒng)還包括補(bǔ)充識(shí)別單元;所述補(bǔ)充識(shí)別單元,適于將判斷結(jié)果顯示為釣魚網(wǎng)站的待識(shí)別網(wǎng)站記作可疑網(wǎng)站,并對(duì)所述可疑網(wǎng)站進(jìn)行補(bǔ)充識(shí)別,在識(shí)別結(jié)果顯示所述可疑網(wǎng)站仍為釣魚網(wǎng)站的情況下,將所述可疑網(wǎng)站送入釣魚網(wǎng)站庫。其中,所述鏈接對(duì)應(yīng)的域名為所述鏈接的絕對(duì)地址。其中,所述系統(tǒng)還包括網(wǎng)站獲取單元;所述網(wǎng)站獲取單元,適于查找新建網(wǎng)站以作為待識(shí)別網(wǎng)站。本發(fā)明還提供一種釣魚網(wǎng)站識(shí)別方法,其包括步驟收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名;
統(tǒng)計(jì)所述域名在所述待識(shí)別網(wǎng)站中出現(xiàn)的次數(shù),找到出現(xiàn)次數(shù)最多的域名,記作目標(biāo)域名;根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。其中,所述根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站,進(jìn)一步包括步驟判斷所述目標(biāo)域名與所述自身域名是否相同,如果是,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站,結(jié)束流程;否則,執(zhí)行下一步; 計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及所述目標(biāo)域名與所述自身域名之間的相似度,根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。 其中,所述計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及所述目標(biāo)域名與所述自身域名之間的相似度,根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站,進(jìn)一步包括步驟計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例;計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度;判斷是否滿足以下條件所述比例大于預(yù)定比例,并且所述相似度大于預(yù)定閾值;如果是,判定所述待識(shí)別網(wǎng)站是釣魚網(wǎng)站;否則,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站。其中,所述計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度,進(jìn)一步包括步驟構(gòu)建所述目標(biāo)域名的字符串與所述自身域名的字符串的對(duì)比陣列,將所述目標(biāo)域名的字符串設(shè)置在所述對(duì)比陣列的第一行并保持位置固定,將所述自身域名的字符串設(shè)置在所述對(duì)比陣列的第二行并自左向右移動(dòng),對(duì)兩行字符串中重疊的字符進(jìn)行對(duì)比;當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1 ;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Qm ;其中,m=ni+n2-l, H1表示所述目標(biāo)域名的字符串長度,n2表示所述自身域名的字符串長度;根據(jù)下述公式計(jì)算得到所述目標(biāo)域名與所述自身域名之間的相似度Qmax Q^maxtQp Q2, Q3, ......Qj。其中,所述當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2 ;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Q111中,第i相似度計(jì)算值Qi的計(jì)算公式如下Qi=Mi2 X Li ;其中,i為自然數(shù),并且,l^i^m ;并且,Mi=SiAiniax ;Li=IVnniax ;
其中,ri表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊的字符個(gè)數(shù);n_表示所述自身域名的字符串與所述目標(biāo)域名的字符串中較長字符串的字符個(gè)數(shù)山表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的重疊率;Si表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊并且相同的字符個(gè)數(shù)鷓表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的匹配率。其中,所述當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2 ;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Qm中,利用如下方式計(jì)算第i相似度計(jì)算值Qi 在第i次對(duì)比時(shí),計(jì)算所述目標(biāo)域名的字符串與所述自身域名的字符串中重疊并且相同的字符個(gè)數(shù),將所述重疊并且相同的字符個(gè)數(shù)作為第i相似度計(jì)算值Qi。
其中,在所述根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站之后還包括步驟將判斷結(jié)果顯示為釣魚網(wǎng)站的待識(shí)別網(wǎng)站記作可疑網(wǎng)站,并對(duì)所述可疑網(wǎng)站進(jìn)行補(bǔ)充識(shí)別,在識(shí)別結(jié)果顯示所述可疑網(wǎng)站仍為釣魚網(wǎng)站的情況下,將所述可疑網(wǎng)站送入釣魚網(wǎng)站庫。其中,所述鏈接對(duì)應(yīng)的域名為所述鏈接的絕對(duì)地址。其中,在所述收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名之前還包括步驟查找新建網(wǎng)站以作為待識(shí)別網(wǎng)站。本發(fā)明的所述釣魚網(wǎng)站識(shí)別系統(tǒng)及方法,基于網(wǎng)站中的鏈接關(guān)系進(jìn)行釣魚網(wǎng)站的識(shí)別,可以有效識(shí)別新類型的釣魚網(wǎng)站;同時(shí),有利于豐富釣魚網(wǎng)站庫中釣魚網(wǎng)站的數(shù)量和類型,便于進(jìn)一步的釣魚網(wǎng)站識(shí)別和查找,在網(wǎng)絡(luò)安全領(lǐng)域具有廣泛的應(yīng)用前景。
圖I是本發(fā)明實(shí)施例一所述釣魚網(wǎng)站識(shí)別系統(tǒng)的模塊結(jié)構(gòu)示意圖;圖2是所述網(wǎng)站識(shí)別單元的模塊結(jié)構(gòu)示意圖;圖3是所述識(shí)別子單元的模塊結(jié)構(gòu)示意圖;圖4是所述相似度計(jì)算模塊的模塊結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例二所述釣魚網(wǎng)站識(shí)別系統(tǒng)的模塊結(jié)構(gòu)示意圖;圖6是本發(fā)明實(shí)施例三所述釣魚網(wǎng)站識(shí)別方法的流程圖;圖7是本發(fā)明實(shí)施例四所述釣魚網(wǎng)站識(shí)別方法的流程圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。圖I是本發(fā)明實(shí)施例一所述釣魚網(wǎng)站識(shí)別系統(tǒng)的模塊結(jié)構(gòu)示意圖,如圖I所示,所述系統(tǒng)包括域名獲取單元100、域名統(tǒng)計(jì)單元200和網(wǎng)站識(shí)別單元300。所述域名獲取單元100,適于收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名。這里所述鏈接對(duì)應(yīng)的域名為所述鏈接的絕對(duì)地址,如果所述待識(shí)別網(wǎng)站中出現(xiàn)的鏈接采用相對(duì)地址,需要將其轉(zhuǎn)換為絕對(duì)地址。所述域名統(tǒng)計(jì)單元200,適于統(tǒng)計(jì)所述域名在所述待識(shí)別網(wǎng)站中出現(xiàn)的次數(shù),找到出現(xiàn)次數(shù)最多的域名,記作目標(biāo)域名。所述域名統(tǒng)計(jì)單元200會(huì)以域名為key,以出現(xiàn)次數(shù)為value,生成一個(gè)key-value表格,然后根據(jù)表格中value的數(shù)值,對(duì)域名進(jìn)行排序,得到出現(xiàn)次數(shù)最多的域名。所述網(wǎng)站識(shí)別單元300,適于根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。圖2是所述網(wǎng)站識(shí)別單元的模塊結(jié)構(gòu)示意圖,如圖2所示,所述網(wǎng)站識(shí)別單元300進(jìn)一步包括比較子單元310和識(shí)別子單元320。所述比較子單元310,適于比較所述目標(biāo)域名與所述自身域名,并在比較結(jié)果顯示所述目標(biāo)域名與所述自身域名相同時(shí),判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站。 所述識(shí)別子單元320,適于在所述目標(biāo)域名與所述自身域名不同時(shí),計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度,進(jìn)而根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。圖3是所述識(shí)別子單元的模塊結(jié)構(gòu)示意圖,如圖3所示,所述識(shí)別子單元320進(jìn)一步包括比例計(jì)算模塊321、相似度計(jì)算模塊322和判斷模塊323。所述比例計(jì)算模塊321,適于計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例。所述相似度計(jì)算模塊322,適于計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度。圖4是所述相似度計(jì)算模塊的模塊結(jié)構(gòu)示意圖,如圖4所示,所述相似度計(jì)算模塊322進(jìn)一步包括字符串對(duì)比子模塊322a、初值計(jì)算子模塊322b和終值計(jì)算子模塊322c。所述字符串對(duì)比子模塊322a,適于構(gòu)建所述目標(biāo)域名的字符串與所述自身域名的字符串的對(duì)比陣列,將所述目標(biāo)域名的字符串設(shè)置在所述對(duì)比陣列的第一行并保持位置固定,將所述自身域名的字符串設(shè)置在所述對(duì)比陣列的第二行并自左向右移動(dòng),對(duì)兩行字符串中重疊的字符進(jìn)行對(duì)比。所述初值計(jì)算子模塊322b,適于當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1 ;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2 ;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Qm;其中,nFni+r^-l, Ii1表示所述目標(biāo)域名的字符串長度,n2表示所述自身域名的字符串長度。其中,所述初值計(jì)算子模塊322b中,利用如下公式計(jì)算第i相似度計(jì)算值Qi Qi=Mi2 X Li ;其中,i為自然數(shù),并且,l^i^m ;并且,Mi=SiAi隨;Li=IVnniax ;其中,ri表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊的字符個(gè)數(shù);n_表示所述自身域名的字符串與所述目標(biāo)域名的字符串中較長字符串的字符個(gè)數(shù)山表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的重疊率;Si表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊并且相同的字符個(gè)數(shù)鷓表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的匹配率。舉例來講,假設(shè)自身域名為boc. cn自左向右移動(dòng),目標(biāo)域名為cocc. cn保持位置固定。在第I次對(duì)比時(shí),只有字符n與字符c重疊,相應(yīng)地巧^,S1=O ;在第2次對(duì)比時(shí),字符n與字符O重疊,字符c與字符c重疊,相應(yīng)地r2=2, S2=I。另外,所述初值計(jì)算子模塊中,還可以利用如下方式計(jì)算第i相似度計(jì)算值Qi :在第i次對(duì)比時(shí),計(jì)算所述目標(biāo)域名的字符串與所述自身域名的字符串中重疊并且相同的字符個(gè)數(shù),將所述重疊并且相同的字符個(gè)數(shù)作為第i相似度計(jì)算值Qi。 對(duì)于第i相似度計(jì)算值Qi的計(jì)算方式,還可以采用一些公知現(xiàn)有方法,由于其非本發(fā)明重點(diǎn),在此不再贅述。所述終值計(jì)算子模塊322c,適于根據(jù)下述公式計(jì)算得到所述目標(biāo)域名與所述自身域名之間的相似度Qmax Q^maxtQp Q2, Q3, ......Qj。所述判斷模塊323,適于判斷所述比例和所述相似度是否滿足條件所述比例大于預(yù)定比例,并且所述相似度大于預(yù)定閾值;如果滿足,判定所述待識(shí)別網(wǎng)站是釣魚網(wǎng)站;否則,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站。所述預(yù)定比例和所述預(yù)定閾值可以根據(jù)實(shí)際使用情況進(jìn)行設(shè)置和調(diào)整,本實(shí)施例,所述預(yù)定比例優(yōu)選為I. 0,所述預(yù)定閾值優(yōu)選為80%。圖5是本發(fā)明實(shí)施例二所述釣魚網(wǎng)站識(shí)別系統(tǒng)的模塊結(jié)構(gòu)示意圖,如圖5所示,本實(shí)施例所述系統(tǒng)與實(shí)施例一所述系統(tǒng)基本相同,其不同之處僅在于,本實(shí)施例所述系統(tǒng)還包括網(wǎng)站獲取單元000和補(bǔ)充識(shí)別單元400。所述網(wǎng)站獲取單元000,適于查找新建網(wǎng)站以作為待識(shí)別網(wǎng)站。一般情況下,釣魚網(wǎng)站多是新建網(wǎng)站,因此,通過設(shè)置所述網(wǎng)站獲取單元000,只將新建網(wǎng)站作為待識(shí)別網(wǎng)站,可以縮小釣魚網(wǎng)站的識(shí)別范圍,提高識(shí)別的準(zhǔn)確度和速度。對(duì)于新建網(wǎng)站的查找可以采用如下方法通過特定關(guān)鍵詞監(jiān)控搜索引擎結(jié)果頁;或者,通過客戶端發(fā)現(xiàn)網(wǎng)民訪問量極少的網(wǎng)站。所述補(bǔ)充識(shí)別單元000,適于將判斷結(jié)果顯示為釣魚網(wǎng)站的待識(shí)別網(wǎng)站記作可疑網(wǎng)站,并對(duì)所述可疑網(wǎng)站進(jìn)行補(bǔ)充識(shí)別,在識(shí)別結(jié)果顯示所述可疑網(wǎng)站仍為釣魚網(wǎng)站的情況下,將所述可疑網(wǎng)站送入釣魚網(wǎng)站庫。所述補(bǔ)充識(shí)別可以采用人工審查的方式。通過設(shè)置所述補(bǔ)充識(shí)別單元000,可以進(jìn)一步提高釣魚網(wǎng)站識(shí)別的準(zhǔn)確度。圖6是本發(fā)明實(shí)施例三所述釣魚網(wǎng)站識(shí)別方法的流程圖,如圖6所示,所述方法包括步驟A :收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名。所述鏈接對(duì)應(yīng)的域名為所述鏈接的絕對(duì)地址。B :統(tǒng)計(jì)所述域名在所述待識(shí)別網(wǎng)站中出現(xiàn)的次數(shù),找到出現(xiàn)次數(shù)最多的域名,記作目標(biāo)域名。C :根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。所述步驟C進(jìn)一步包括步驟Cl :判斷所述目標(biāo)域名與所述自身域名是否相同,如果是,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站,結(jié)束流程;否則,執(zhí)行步驟C2 ;C2 :計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及所述目標(biāo)域名與所述自身域名之間的相似度,根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。所述步驟C2進(jìn)一步包括步驟C21 :計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例。C22 :計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度。
·
所述步驟C22進(jìn)一步包括步驟C221 :構(gòu)建所述目標(biāo)域名的字符串與所述自身域名的字符串的對(duì)比陣列,將所述目標(biāo)域名的字符串設(shè)置在所述對(duì)比陣列的第一行并保持位置固定,將所述自身域名的字符串設(shè)置在所述對(duì)比陣列的第二行并自左向右移動(dòng),對(duì)兩行字符串中重疊的字符進(jìn)行對(duì)比。C222 當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1 ;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2 ;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Qm;其中,Hi=Iidn2-Ln1表示所述目標(biāo)域名的字符串長度,n2表示所述自身域名的字符串長度。所述步驟C222中,第i相似度計(jì)算值Qi的計(jì)算公式如下Qi=Mi2 X Li ;其中,i為自然數(shù),并且,l^i^m ;并且,Mi=SiAiniax;Li=I^n眶;其中,r,表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊的字符個(gè)數(shù);n_表示所述自身域名的字符串與所述目標(biāo)域名的字符串中較長字符串的字符個(gè)數(shù)山表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的重疊率;Si表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊并且相同的字符個(gè)數(shù)鷓表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的匹配率。另外,所述步驟C222中,也可以利用如下方式計(jì)算第i相似度計(jì)算值Qi 在第i次對(duì)比時(shí),計(jì)算所述目標(biāo)域名的字符串與所述自身域名的字符串中重疊并且相同的字符個(gè)數(shù),將所述重疊并且相同的字符個(gè)數(shù)作為第i相似度計(jì)算值Qi。C223 :根據(jù)下述公式計(jì)算得到所述目標(biāo)域名與所述自身域名之間的相似度Qmax Qmax=max (Q1, Q2, Q3, ......Qj。C23 :判斷是否滿足以下條件所述比例大于預(yù)定比例,并且所述相似度大于預(yù)定閾值;如果是,判定所述待識(shí)別網(wǎng)站是釣魚網(wǎng)站;否則,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站。
圖7是本發(fā)明實(shí)施例四所述釣魚網(wǎng)站識(shí)別方法的流程圖,如圖7所示,本實(shí)施例所述方法與實(shí)施例三所述方法基本相同,其不同之處僅在于在所述步驟A之前還包括步驟A’ 查找新建網(wǎng)站以作為待識(shí)別網(wǎng)站。對(duì)于新建網(wǎng)站的查找可以采用如下方法通過特定關(guān)鍵詞監(jiān)控搜索引擎結(jié)果頁;或者,通過客戶端發(fā)現(xiàn)網(wǎng)民訪問量極少的網(wǎng)站。在所述步驟C之后還包括步驟D :將判斷結(jié)果顯示為釣魚網(wǎng)站的待識(shí)別網(wǎng)站記作可疑網(wǎng)站,并對(duì)所述可疑網(wǎng)站進(jìn)行補(bǔ)充識(shí)別,在識(shí)別結(jié)果顯示所述可疑網(wǎng)站仍為釣魚網(wǎng)站的情況下,將所述可疑網(wǎng)站送入釣魚網(wǎng)站庫。所述補(bǔ)充識(shí)別可以采用人工審查的方式。
本發(fā)明實(shí)施例所述釣魚網(wǎng)站識(shí)別系統(tǒng)及方法,基于網(wǎng)站中的鏈接關(guān)系進(jìn)行釣魚網(wǎng)站的識(shí)別,可以有效識(shí)別新類型的釣魚網(wǎng)站;同時(shí),有利于豐富釣魚網(wǎng)站庫中釣魚網(wǎng)站的數(shù)量和類型,便于進(jìn)一步的釣魚網(wǎng)站識(shí)別和查找,在網(wǎng)絡(luò)安全領(lǐng)域具有廣泛的應(yīng)用前景。以上實(shí)施方式僅用于說明本發(fā)明,而并非對(duì)本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
權(quán)利要求
1.一種釣魚網(wǎng)站識(shí)別系統(tǒng),其包括域名獲取單元、域名統(tǒng)計(jì)單元和網(wǎng)站識(shí)別單元; 所述域名獲取單元,適于收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名; 所述域名統(tǒng)計(jì)單元,適于統(tǒng)計(jì)所述域名在所述待識(shí)別網(wǎng)站中出現(xiàn)的次數(shù),找到出現(xiàn)次數(shù)最多的域名,記作目標(biāo)域名; 所述網(wǎng)站識(shí)別單元,適于根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。
2.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述網(wǎng)站識(shí)別單元包括比較子單元和識(shí)別子單元; 所述比較子單元,適于比較所述目標(biāo)域名與所述自身域名,并在比較結(jié)果顯示所述目標(biāo)域名與所述自身域名相同時(shí),判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站; 所述識(shí)別子單元,適于在所述目標(biāo)域名與所述自身域名不同時(shí),計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度,進(jìn)而根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述識(shí)別子單元包括比例計(jì)算模塊、相似度計(jì)算模塊和判斷模塊; 所述比例計(jì)算模塊,適于計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例; 所述相似度計(jì)算模塊,適于計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度; 所述判斷模塊,適于判斷所述比例和所述相似度是否滿足條件所述比例大于預(yù)定比例,并且所述相似度大于預(yù)定閾值;如果滿足,判定所述待識(shí)別網(wǎng)站是釣魚網(wǎng)站;否則,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站。
4.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述相似度計(jì)算模塊包括字符串對(duì)比子模塊、初值計(jì)算子模塊和終值計(jì)算子模塊; 所述字符串對(duì)比子模塊,適于構(gòu)建所述目標(biāo)域名的字符串與所述自身域名的字符串的對(duì)比陣列,將所述目標(biāo)域名的字符串設(shè)置在所述對(duì)比陣列的第一行并保持位置固定,將所述自身域名的字符串設(shè)置在所述對(duì)比陣列的第二行并自左向右移動(dòng),對(duì)兩行字符串中重疊的字符進(jìn)行對(duì)比; 所述初值計(jì)算子模塊,適于當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1 ;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2 ;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Qm;其中,Hi=IiAn2-Ln1表示所述目標(biāo)域名的字符串長度,n2表示所述自身域名的字符串長度; 所述終值計(jì)算子模塊,適于根據(jù)下述公式計(jì)算得到所述目標(biāo)域名與所述自身域名之間的相似度Qmax Qmax_maX{Ql,卩3,......QnJ。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述初值計(jì)算子模塊中,利用如下公式計(jì)算第i相似度計(jì)算值Qi Qi=Mi2XLi ; 其中,i為自然數(shù),并且,I ≤ i≤m;并且, Mi=SiAimax ; Li=ITiAlmax ; 其中,r,表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊的字符個(gè)數(shù);n_表示所述自身域名的字符串與所述目標(biāo)域名的字符串中較長字符串的字符個(gè)數(shù)A表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的重疊率A表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊并且相同的字符個(gè)數(shù)鷓表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的匹配率。
6.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述初值計(jì)算子模塊中,利用如下方式計(jì)算第i相似度計(jì)算值Qi 在第i次對(duì)比時(shí),計(jì)算所述目標(biāo)域名的字符串與所述自身域名的字符串中重疊并且相同的字符個(gè)數(shù),將所述重疊并且相同的字符個(gè)數(shù)作為第i相似度計(jì)算值Qi。
7.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括補(bǔ)充識(shí)別單元; 所述補(bǔ)充識(shí)別單元,適于將判斷結(jié)果顯示為釣魚網(wǎng)站的待識(shí)別網(wǎng)站記作可疑網(wǎng)站,并對(duì)所述可疑網(wǎng)站進(jìn)行補(bǔ)充識(shí)別,在識(shí)別結(jié)果顯示所述可疑網(wǎng)站仍為釣魚網(wǎng)站的情況下,將所述可疑網(wǎng)站送入釣魚網(wǎng)站庫。
8.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述鏈接對(duì)應(yīng)的域名為所述鏈接的絕對(duì)地址。
9.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括網(wǎng)站獲取單元; 所述網(wǎng)站獲取單元,適于查找新建網(wǎng)站以作為待識(shí)別網(wǎng)站。
10.一種釣魚網(wǎng)站識(shí)別方法,其包括步驟 收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名; 統(tǒng)計(jì)所述域名在所述待識(shí)別網(wǎng)站中出現(xiàn)的次數(shù),找到出現(xiàn)次數(shù)最多的域名,記作目標(biāo)域名; 根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。
11.如權(quán)利要求10所述的方法,其特征在于,所述根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站,進(jìn)一步包括步驟 判斷所述目標(biāo)域名與所述自身域名是否相同,如果是,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站,結(jié)束流程;否則,執(zhí)行下一步; 計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及所述目標(biāo)域名與所述自身域名之間的相似度,根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。
12.如權(quán)利要求11所述的方法,其特征在于,所述計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例,以及所述目標(biāo)域名與所述自身域名之間的相似度,根據(jù)所述比例和所述相似度判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站,進(jìn)一步包括步驟 計(jì)算所述目標(biāo)域名的出現(xiàn)次數(shù)與所述自身域名的出現(xiàn)次數(shù)之間的比例;計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度; 判斷是否滿足以下條件所述比例大于預(yù)定比例,并且所述相似度大于預(yù)定閾值;如果是,判定所述待識(shí)別網(wǎng)站是釣魚網(wǎng)站;否則,判定所述待識(shí)別網(wǎng)站不是釣魚網(wǎng)站。
13.如權(quán)利要求12所述的方法,其特征在于,所述計(jì)算所述目標(biāo)域名與所述自身域名之間的相似度,進(jìn)一步包括步驟 構(gòu)建所述目標(biāo)域名的字符串與所述自身域名的字符串的對(duì)比陣列,將所述目標(biāo)域名的字符串設(shè)置在所述對(duì)比陣列的第一行并保持位置固定,將所述自身域名的字符串設(shè)置在所述對(duì)比陣列的第二行并自左向右移動(dòng),對(duì)兩行字符串中重疊的字符進(jìn)行對(duì)比; 當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1 ;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2 ;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名 之間的第m相似度計(jì)算值Qm ;其中,m=ni+n2-l,H1表示所述目標(biāo)域名的字符串長度,n2表示所述自身域名的字符串長度; 根據(jù)下述公式計(jì)算得到所述目標(biāo)域名與所述自身域名之間的相似度Qmax Qmax_maX{Ql,卩3,......QnJ。
14.如權(quán)利要求13所述的方法,其特征在于,所述當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1 ;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Q111中,第i相似度計(jì)算值Qi的計(jì)算公式如下Qi=Mi2XLi ; 其中,i為自然數(shù),并且,I ( i≤m;并且, Mi=SiAimax ; Li=ITiAlmax ; 其中,r,表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊的字符個(gè)數(shù);n_表示所述自身域名的字符串與所述目標(biāo)域名的字符串中較長字符串的字符個(gè)數(shù)A表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的重疊率A表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串中,重疊并且相同的字符個(gè)數(shù)鷓表示在第i次對(duì)比時(shí),所述自身域名的字符串與所述目標(biāo)域名的字符串的匹配率。
15.如權(quán)利要求13所述的方法,其特征在于,所述當(dāng)所述目標(biāo)域名的首字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第一相似度計(jì)算值Q1;當(dāng)所述目標(biāo)域名的第二字符與所述自身域名的尾字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第二相似度計(jì)算值Q2;依次類推,當(dāng)所述目標(biāo)域名的尾字符與所述自身域名的首字符對(duì)齊時(shí),計(jì)算所述目標(biāo)域名與所述自身域名之間的第m相似度計(jì)算值Qm中,利用如下方式計(jì)算第i相似度計(jì)算值Qi 在第i次對(duì)比時(shí),計(jì)算所述目標(biāo)域名的字符串與所述自身域名的字符串中重疊并且相同的字符個(gè)數(shù),將所述重疊并且相同的字符個(gè)數(shù)作為第i相似度計(jì)算值Qi。
16.如權(quán)利要求10所述的方法,其特征在于,在所述根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站之后還包括步驟將判斷結(jié)果顯示為釣魚網(wǎng)站的待識(shí)別網(wǎng)站記作可疑網(wǎng)站,并對(duì)所述可疑網(wǎng)站進(jìn)行補(bǔ)充識(shí)別,在識(shí)別結(jié)果顯示所述可疑網(wǎng)站仍為釣魚網(wǎng)站的情況下,將所述可疑網(wǎng)站送入釣魚網(wǎng)站庫。
17.如權(quán)利要求10所述的方法,其特征在于,所述鏈接對(duì)應(yīng)的域名為所述鏈接的絕對(duì)地址。
18.如權(quán)利要求10所述的方法,其特征在于,在所述收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名之前還包括步驟查找新建網(wǎng)站以作為待識(shí)別網(wǎng)站。
全文摘要
本發(fā)明公開了一種釣魚網(wǎng)站識(shí)別系統(tǒng)及方法,涉及網(wǎng)絡(luò)安全領(lǐng)域。所述系統(tǒng)包括域名獲取單元、域名統(tǒng)計(jì)單元和網(wǎng)站識(shí)別單元;所述域名獲取單元,適于收集待識(shí)別網(wǎng)站中出現(xiàn)的所有鏈接,得到所述鏈接對(duì)應(yīng)的域名;所述域名統(tǒng)計(jì)單元,適于統(tǒng)計(jì)所述域名在所述待識(shí)別網(wǎng)站中出現(xiàn)的次數(shù),找到出現(xiàn)次數(shù)最多的域名,記作目標(biāo)域名;所述網(wǎng)站識(shí)別單元,適于根據(jù)所述目標(biāo)域名與所述待識(shí)別網(wǎng)站的自身域名判斷所述待識(shí)別網(wǎng)站是否是釣魚網(wǎng)站。所述系統(tǒng)及方法,基于網(wǎng)站中的鏈接關(guān)系進(jìn)行釣魚網(wǎng)站的識(shí)別,可以有效識(shí)別新類型的釣魚網(wǎng)站;同時(shí),有利于豐富釣魚網(wǎng)站庫中釣魚網(wǎng)站的數(shù)量和類型,便于進(jìn)一步的釣魚網(wǎng)站識(shí)別和查找,在網(wǎng)絡(luò)安全領(lǐng)域具有廣泛的應(yīng)用前景。
文檔編號(hào)G06F21/00GK102801709SQ20121022448
公開日2012年11月28日 申請(qǐng)日期2012年6月28日 優(yōu)先權(quán)日2012年6月28日
發(fā)明者陳營營 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司