欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法

文檔序號(hào):6556113閱讀:466來源:國(guó)知局
專利名稱:基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法。
背景技術(shù)
掛馬攻擊是指攻擊者在已經(jīng)獲得控制權(quán)的網(wǎng)站網(wǎng)頁(yè)中嵌入惡意代碼(通常是通過IFramejcript引用來實(shí)現(xiàn)),當(dāng)用戶訪問該網(wǎng)頁(yè)時(shí),嵌入的惡意代碼將利用瀏覽器本身的漏洞、第三方ActiveX漏洞或者其它插件(如Flash、PDF插件等)漏洞,在用戶不知情的情況下下載并執(zhí)行惡意木馬。目前,在廣域網(wǎng)上主動(dòng)檢測(cè)掛馬網(wǎng)頁(yè)的方法主要基于網(wǎng)絡(luò)爬行技術(shù),即設(shè)置若干入口點(diǎn),使用網(wǎng)絡(luò)爬蟲程序獲取大量相關(guān)鏈接,再逐一進(jìn)行后續(xù)判斷。雖然該方法的檢測(cè)范圍較大,全面性好,但由于檢測(cè)目標(biāo)過于發(fā)散,所以需要消耗大量的服務(wù)器資源和網(wǎng)絡(luò)資源,并且發(fā)現(xiàn)掛馬網(wǎng)頁(yè)的效率不高。

發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明的目的在于提供一種能夠明顯提高檢測(cè)效率的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法。為了達(dá)到上述目的,本發(fā)明提供的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法包括按順序進(jìn)行的下列步驟1)對(duì)已知惡意網(wǎng)頁(yè)URL樣本進(jìn)行分析并提取特征的Sl階段在此階段中,從已知的惡意網(wǎng)頁(yè)URL庫(kù)中提取出已知惡意網(wǎng)頁(yè)地址和域名,然后對(duì)其進(jìn)行分析,并提取其特征, 從而生成已知樣本特征池;2)根據(jù)特征對(duì)樣本進(jìn)行聚類的S2階段在此階段中,對(duì)從Sl階段獲得的已知樣本特征池中的已知惡意網(wǎng)頁(yè)URL樣本進(jìn)行聚類,從而求得各樣本之間的匹配率;3)獲得每一類樣本的構(gòu)造規(guī)則的S3階段在此階段中,先應(yīng)用相同構(gòu)造判斷規(guī)則對(duì)經(jīng)過聚類的已知樣本逐一進(jìn)行分類,然后分別確定能代表該類樣本的構(gòu)造規(guī)則,從而生成構(gòu)造規(guī)則池;4)通過構(gòu)造規(guī)則生成衍生集合的S4階段在此階段中,通過對(duì)構(gòu)造規(guī)則池中的規(guī)則進(jìn)行衍生,由此獲得衍生集合;5)用衍生集合樣本判別惡意網(wǎng)頁(yè)的S5階段在此階段中,針對(duì)衍生集合中的URL 樣本,使用掛馬網(wǎng)頁(yè)主動(dòng)檢測(cè)系統(tǒng)逐一進(jìn)行驗(yàn)證,如果從中發(fā)現(xiàn)惡意網(wǎng)頁(yè),達(dá)到預(yù)期目標(biāo); 如果未能發(fā)現(xiàn),則返回到Si階段的入口處。在S2階段中,所述的對(duì)已知樣本特征池中的樣本進(jìn)行聚類的方法包括按順序進(jìn)行的下列步驟a)從已知樣本特征池中任意取兩個(gè)掛馬網(wǎng)頁(yè)地址,截取其域名字符串domain” domain”然后分別計(jì)算兩域名字符串長(zhǎng)度差d ;
b)計(jì)算上述兩個(gè)域名的相似度序列Q1, Q2, Q3...;c)獲得兩個(gè)域名字符串的匹配率Q—,,—,);d)重復(fù)上述步驟a)-C),直至完成對(duì)已知樣本特征池中所有樣本的聚類。在步驟a)中,所述的計(jì)算兩域名字符串長(zhǎng)度差d所采用的具體做法是對(duì)于任意 2個(gè)掛馬網(wǎng)頁(yè)地址addivadc^ e Ui,截取其域名字符串分別Cbmairvdomain2 e Ai,然后計(jì)算兩域名字符串的長(zhǎng)度差d = I Len (Clomain1)-Len (domain2) |。在步驟b)中,所述的計(jì)算上述兩個(gè)域名的相似度序列Q1, Q2, Q3...所采用的具體做法是將Clomain2相對(duì)于Cbmain1做從左至右的移動(dòng)匹配計(jì)算,長(zhǎng)度不足部分用空格補(bǔ)齊, 每移動(dòng)匹配一次,就計(jì)算一次匹配率M、重疊率L,進(jìn)而得到相似度Q,其中,將字符串的長(zhǎng)度記為n,相同字母的個(gè)數(shù)記為m,兩字符串重疊的個(gè)數(shù)記為r,則有重疊率L 重疊字符串的個(gè)數(shù)與字符串的長(zhǎng)度之比率,即L=r/n;匹配率Μ:對(duì)應(yīng)位置字符相同或視覺相似的個(gè)數(shù)與字符串長(zhǎng)度之比率,即M=m/n;相似度Q 域名相似度
權(quán)利要求
1.一種基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法包括按順序進(jìn)行的下列步驟1)對(duì)已知惡意網(wǎng)頁(yè)URL樣本進(jìn)行分析并提取特征的Sl階段在此階段中,從已知的惡意網(wǎng)頁(yè)URL庫(kù)(Dl)中提取出已知惡意網(wǎng)頁(yè)地址和域名,然后對(duì)其進(jìn)行分析,并提取其特征, 從而生成已知樣本特征池(D2);2)根據(jù)特征對(duì)樣本進(jìn)行聚類的S2階段在此階段中,對(duì)從Sl階段獲得的已知樣本特征池(擬)中的已知惡意網(wǎng)頁(yè)URL樣本進(jìn)行聚類,從而求得各樣本之間的匹配率;3)獲得每一類樣本的構(gòu)造規(guī)則的S3階段在此階段中,先應(yīng)用相同構(gòu)造判斷規(guī)則對(duì)經(jīng)過聚類的已知樣本逐一進(jìn)行分類,然后分別確定能代表該類樣本的構(gòu)造規(guī)則,從而生成構(gòu)造規(guī)則池(D3);4)通過構(gòu)造規(guī)則生成衍生集合的S4階段在此階段中,通過對(duì)構(gòu)造規(guī)則池(D3)中的規(guī)則進(jìn)行衍生,由此獲得衍生集合(D4);5)用衍生集合樣本判別惡意網(wǎng)頁(yè)的S5階段在此階段中,針對(duì)衍生集合(D4)中的URL 樣本,使用掛馬網(wǎng)頁(yè)主動(dòng)檢測(cè)系統(tǒng)逐一進(jìn)行驗(yàn)證,如果從中發(fā)現(xiàn)惡意網(wǎng)頁(yè),達(dá)到預(yù)期目標(biāo); 如果未能發(fā)現(xiàn),則返回到Sl階段的入口處。
2.根據(jù)權(quán)利要求1所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于在S2 階段中,所述的對(duì)已知樣本特征池(擬)中的樣本進(jìn)行聚類的方法包括按順序進(jìn)行的下列步驟a)從已知樣本特征池(D2)中任意取兩個(gè)掛馬網(wǎng)頁(yè)地址,截取其域名字符串domain” domain”然后分別計(jì)算兩域名字符串長(zhǎng)度差d ;b)計(jì)算上述兩個(gè)域名的相似度序列Q1,Q2, Q3...;c)獲得兩個(gè)域名字符串的匹配率0—,,—,);d)重復(fù)上述步驟a)-c),直至完成對(duì)已知樣本特征池(擬)中所有樣本的聚類。
3.根據(jù)權(quán)利要求2所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于在步驟a)中,所述的計(jì)算兩域名字符串長(zhǎng)度差d所采用的具體做法是對(duì)于任意2個(gè)掛馬網(wǎng)頁(yè)地址addiv addr2 e Ui,截取其域名字符串分別Cbmain1, domain2 e Ai,然后計(jì)算兩域名字符串的長(zhǎng)度差 d = I Len (Clomain1)-Len (domain2) |。
4.根據(jù)權(quán)利要求2所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于在步驟b)中,所述的計(jì)算上述兩個(gè)域名的相似度序列Q1, Q2, Q3...所采用的具體做法是將 Cbmain2相對(duì)于Cbmain1做從左至右的移動(dòng)匹配計(jì)算,長(zhǎng)度不足部分用空格補(bǔ)齊,每移動(dòng)匹配一次,就計(jì)算一次匹配率M、重疊率L,進(jìn)而得到相似度Q,其中,將字符串的長(zhǎng)度記為n,相同字母的個(gè)數(shù)記為m,兩字符串重疊的個(gè)數(shù)記為r,則有重疊率L 重疊字符串的個(gè)數(shù)與字符串的長(zhǎng)度之比率,S卩:L丄;
5.根據(jù)權(quán)利要求2所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于在步驟c)中,所述的獲得兩個(gè)域名字符串的匹配率Qifomi^ifom,)所采用的具體做法是在步驟 b)所得到的相似度序列Q1, Q2, Q3-.. Q2lri中取最大值,作為最終兩個(gè)域名字符串的匹配率
6.根據(jù)權(quán)利要求1所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于在S3 階段中,所述的相同構(gòu)造判斷規(guī)則所采用的具體判斷方法是當(dāng)domain” domain2的相似度込辦臓內(nèi)’辦臓叫!滿足如下條件時(shí),
7.根據(jù)權(quán)利要求1所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于在S3 階段中,所述的構(gòu)造規(guī)則P使用PERL正則表達(dá)式形式進(jìn)行描述,如Clomain1 =,baidu-opopl. cn'domain2 =,baidu-opop2. cn'則有ρ = baidu-0p0p[d+].ptype+],其中[Dtype+]是自定義的變量,主要代表常見的域名類型,如 “· cn”,“· com”,“· org”。
8.根據(jù)權(quán)利要求1所述的基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法,其特征在于在S4 階段中,所述的對(duì)構(gòu)造規(guī)則池(D!3)中的規(guī)則進(jìn)行衍生的方法包括按順序進(jìn)行的下列步驟e)從構(gòu)造規(guī)則池(D3)中取一規(guī)則,分析其通配符數(shù)量,即統(tǒng)計(jì)[d+]、[w+]、[Dtype+] 的數(shù)量;f)根據(jù)通配符類型,對(duì)通配符進(jìn)行賦值,[d+]的取值為W,20]范圍內(nèi)的正整數(shù);[w+] 的取值為字母{a, b,c,…,ζ} ; [Dtype+]取值范圍為常見域名{. cn, .com, .org,…,· net};g)通過步驟f)獲得與規(guī)則對(duì)應(yīng)的衍生URL;h)重復(fù)上述步驟e)_g),直至完成對(duì)構(gòu)造規(guī)則池(D3)中所有規(guī)則的衍生,獲得衍生集合(D4)。
全文摘要
本發(fā)明公開了一種基于域名構(gòu)造特征的掛馬網(wǎng)頁(yè)檢測(cè)方法。該方法是通過已捕獲的少量已知或可疑掛馬網(wǎng)頁(yè)URL,通過樣本聚類獲得構(gòu)造規(guī)則,再通過構(gòu)造規(guī)則進(jìn)行衍生,最后通過對(duì)衍生出的可疑URL進(jìn)行驗(yàn)證來發(fā)現(xiàn)未知掛馬網(wǎng)站,從而可以在投入較少的情況下獲得比較好的檢測(cè)效果和明顯提高檢測(cè)效率,而且還可以得到大量的線索和數(shù)據(jù)。另外,由于本方法對(duì)檢測(cè)目標(biāo)范圍進(jìn)行了優(yōu)化,因此可以優(yōu)先檢測(cè)可疑度高的目標(biāo),所以能夠明顯提高檢測(cè)效率。此外,本方法還可以與傳統(tǒng)的掛馬網(wǎng)頁(yè)檢測(cè)方法相結(jié)合,并且在應(yīng)用中可以前置,從而為傳統(tǒng)的掛馬網(wǎng)頁(yè)檢測(cè)方法縮小檢測(cè)范圍,并且仍能保持較好的召回率。
文檔編號(hào)G06F21/00GK102222187SQ20111014696
公開日2011年10月19日 申請(qǐng)日期2011年6月2日 優(yōu)先權(quán)日2011年6月2日
發(fā)明者劉威, 張健, 張津弟, 杜振華, 梁宏, 舒心, 馬勇 申請(qǐng)人:國(guó)家計(jì)算機(jī)病毒應(yīng)急處理中心
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
松潘县| 宜黄县| 青神县| 平利县| 来凤县| 崇礼县| 嘉兴市| 盐边县| 吴川市| 淮安市| 余干县| 湾仔区| 安多县| 炎陵县| 金阳县| 吉安市| 崇仁县| 开阳县| 江达县| 茂名市| 汶上县| 安阳县| 永新县| 长垣县| 丹寨县| 三河市| 新沂市| 小金县| 大姚县| 六盘水市| 武义县| 西藏| 温州市| 枝江市| 靖边县| 昭平县| 获嘉县| 武鸣县| 满城县| 阿鲁科尔沁旗| 乌什县|