專(zhuān)利名稱(chēng):惡意url的形式化檢測(cè)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤其涉及一種惡意URL的形式化檢測(cè)方法和系統(tǒng)。
背景技術(shù):
根據(jù)RFC 規(guī)范,URL (Uniform Resource Locator)的語(yǔ)法格式如下“scheme://username:password@domain:port/path query_string#fragment_id,,(參看RFC1738 標(biāo)準(zhǔn)http://www. ietf. org/rfc/rfcl738. txt),所有的URL都必須遵循這條規(guī)則,其中協(xié)議(scheme)部分如果省略默認(rèn)就是HTTP協(xié)議,用戶(hù)名密碼(username:password)部分是可以 省略的,在HTTP協(xié)議中端口號(hào)(port)默認(rèn)是80,這項(xiàng)也是可以省略的,其中fragment_id部分在檢測(cè)是否為惡意URL中是沒(méi)有實(shí)際價(jià)值。根據(jù)URL格式的如上特征,可以認(rèn)為URL的格式存在多變性,多條不完全相同的URL可能指向相同的鏈接地址,例如www. xxxx. com和http://www. xxxx. com:80是同一個(gè)鏈接地址,在ftp協(xié)議的URL鏈接中,可以有多對(duì)相同訪(fǎng)問(wèn)權(quán)限的用戶(hù)名和密碼,這樣即使用戶(hù)名密碼不同的ftp連接中,指向的訪(fǎng)問(wèn)文件也是一致的,例如ftp://username:password@ftp. xxx. xxx/file,替換其他有訪(fǎng)問(wèn)權(quán)限的用戶(hù)名和密碼不會(huì)影響該URL指向的文件。目前惡意URL的檢測(cè)方式都是基于字符串匹配的方法,安全廠商收集大量惡意URL,將其保存在特征庫(kù)中,在URL檢測(cè)時(shí),僅僅進(jìn)行字符串的比較,目前的這種方式可以解決大部分的惡意URL檢測(cè)問(wèn)題,但是由于前面提到的URL格式的多變性,一條惡意URL —個(gè)簡(jiǎn)單的變化,在沒(méi)有改變其惡意鏈接本質(zhì)的情況下,其內(nèi)容已經(jīng)和待匹配的病毒庫(kù)中的特征已經(jīng)不完全一致了,這樣就造成了殺毒軟件的漏報(bào),許多黑客利用了這樣的漏洞,經(jīng)常變換其掛馬網(wǎng)站的URL地址的格式,用來(lái)逃避殺軟的攔截,有些惡意代碼在通過(guò)網(wǎng)絡(luò)傳播自身時(shí),往往會(huì)修改其掛馬URL地址中的query部分內(nèi)的值,而且其值有可能是隨機(jī)產(chǎn)生的,通過(guò)這樣的辦法確保其惡意URL鏈接有更長(zhǎng)的時(shí)效性。
發(fā)明內(nèi)容
本發(fā)明針對(duì)URL格式多變性的特點(diǎn),自定義一套形式化規(guī)則將一條URL字符串轉(zhuǎn)換成統(tǒng)一的待檢測(cè)形式數(shù)據(jù),用來(lái)和特征庫(kù)進(jìn)行匹配,判定該URL是否為惡意鏈接。形式化的規(guī)則的出發(fā)點(diǎn)就是消除掉URL字符串格式的多變性,拋棄對(duì)檢測(cè)無(wú)實(shí)際意義的冗余信息,并補(bǔ)充URL字符串中不存在的默認(rèn)信息,形成格式為“scheme://domain:port/path”的待檢測(cè)URL字符串。為了解決上述問(wèn)題,本發(fā)明提出了一種惡意URL的形式化檢測(cè)方法,包括
步驟a、根據(jù)RFC規(guī)范,按照URL語(yǔ)法結(jié)構(gòu)將待檢測(cè)URL拆分為語(yǔ)法元素字符串;
步驟b、從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號(hào)、和路徑; 步驟c、判斷協(xié)議字符串和端口號(hào)字符串是否存在,對(duì)不存在的字符串部分進(jìn)行補(bǔ)全處
理;步驟d、將補(bǔ)全處理后得到的字符串重新排序得到新URL,計(jì)算新URL的哈希值,作為與待檢測(cè)URL對(duì)應(yīng)的哈希值;
步驟e、遍歷惡意URL特征庫(kù),用惡意URL特征庫(kù)中的特征數(shù)據(jù)與待檢測(cè)URL對(duì)應(yīng)的哈希值進(jìn)行對(duì)比檢測(cè)。進(jìn)一步的,對(duì)不存在的協(xié)議字符串或者不存在的端口號(hào)字符串進(jìn)行補(bǔ)全處理包括步驟
判斷協(xié)議字符串是否存在,如果不存在則補(bǔ)充HTTP作為默認(rèn)協(xié)議;
判斷端口號(hào)字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口號(hào)。進(jìn)一步的,根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口包括如果所述協(xié)議類(lèi)型為HTTP協(xié)議則補(bǔ)充80作為默認(rèn)端口號(hào);如果所述協(xié)議類(lèi)型為FTP協(xié)議則補(bǔ)充21作為默認(rèn)端口號(hào);其他協(xié)議統(tǒng)一處理,不用補(bǔ)充端口號(hào),添加空字符串作為端口號(hào)。所述惡意URL特征庫(kù)是預(yù)先將反病毒廠商捕獲的每個(gè)惡意URL作為待檢測(cè)URL,經(jīng)過(guò)所述的步驟a至步驟d得到與每個(gè)惡意URL對(duì)應(yīng)的哈希值組成的哈希值列表。本發(fā)明針對(duì)惡意URL鏈接地址字符串格式存在多變性的特點(diǎn),進(jìn)行字符串格式的規(guī)則化處理,拋棄了多變的并且對(duì)檢測(cè)無(wú)意義的部分,補(bǔ)充了被默認(rèn)省略的部分,組成了含有足夠信息量的待檢測(cè)數(shù)據(jù)。規(guī)則化的URL地址的字符串格式為“ scheme: //domain: port/path”,保留了協(xié)議,域名,端口,和路徑,這些數(shù)據(jù)完全可以確定一條URL所指向的地址信息,所以對(duì)上述格式的數(shù)據(jù)進(jìn)行檢測(cè)和對(duì)源URL數(shù)據(jù)進(jìn)行檢測(cè)應(yīng)該是等效的。對(duì)于形成格式為“scheme://domain:port/path”的待檢測(cè)URL字符串,其中協(xié)議“scheme”部分如果被省略,就加上默認(rèn)的http協(xié)議,端口 “port”部分如果被省略,如果是HTTP協(xié)議就加上默認(rèn)的80,如果是FTP協(xié)議就加上21,刪除URL的RFC規(guī)范中username, password,query_string, fragment_id部分,到此待檢測(cè)的URL字符串就完成了,例如URL鏈接地址為“www. test, com/main/index, html”,經(jīng)過(guò)上述規(guī)則的形式化后轉(zhuǎn)變?yōu)?“http://www. test,com:80/main/index, html”。為了方便檢測(cè)和控制特征庫(kù)的規(guī)模,還要將待檢測(cè)的URL字符串計(jì)算哈希后作為檢測(cè)數(shù)據(jù)。相應(yīng)的,本發(fā)明還提供了一種惡意URL的形式化檢測(cè)系統(tǒng),包括
拆分單元,用于根據(jù)RFC規(guī)范,按照URL語(yǔ)法結(jié)構(gòu)將待檢測(cè)URL拆分為語(yǔ)法元素字符
串;
提取單元,用于從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號(hào)、和路徑;
整理單元,用于判斷協(xié)議字符串和端口號(hào)字符串是否存在,對(duì)不存在的字符串部分進(jìn)行補(bǔ)全處理;
計(jì)算單元,用于將補(bǔ)全處理后得到的字符串重新排序得到新URL,計(jì)算新URL的哈希值,作為與待檢測(cè)URL對(duì)應(yīng)的哈希值
匹配單元,用于遍歷惡意URL特征庫(kù),用惡意URL特征庫(kù)中的特征數(shù)據(jù)與待檢測(cè)URL對(duì)應(yīng)的哈希值進(jìn)行對(duì)比檢測(cè)。進(jìn)一步的,整理單元具體還用于
判斷協(xié)議字符串是否存在,如果不存在則補(bǔ)充HTTP作為默認(rèn)協(xié)議;判斷端口號(hào)字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口號(hào)。進(jìn)一步的,根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口具體包括如果所述協(xié)議類(lèi)型為HTTP協(xié)議則補(bǔ)充80作為默認(rèn)端口號(hào);如果所述協(xié)議類(lèi)型為FTP協(xié)議則補(bǔ)充21作為默認(rèn)端口號(hào);其他協(xié)議統(tǒng)一處理,不用補(bǔ)充端口號(hào),添加空字符串作為端口號(hào)。所述惡意URL特征庫(kù)是預(yù)先將反病毒廠商捕獲的每個(gè)惡意URL作為待檢測(cè)URL,經(jīng)過(guò)所述的拆分單元、提取單元、整理單元、計(jì)算單元之后得到與每個(gè)惡意URL對(duì)應(yīng)的哈希值組成的哈希值列表。
本發(fā)明的有益效果是
本發(fā)明提出的惡意URL的檢測(cè)辦法可以有效對(duì)抗URL格式的多變性,相對(duì)傳統(tǒng)的URL檢測(cè)方法可以對(duì)經(jīng)常變化格式的惡意URL有更高的檢出率,由于下載者類(lèi)木馬經(jīng)常自動(dòng)變換下載惡意代碼的URL地址格式,或者在下載惡意代碼URL的Query域中添加沒(méi)有實(shí)際意義的隨機(jī)值來(lái)逃避殺毒軟件的攔截,本檢測(cè)方法對(duì)這類(lèi)病毒木馬有非常好的檢出率。本檢測(cè)方法可以采用單條特征對(duì)應(yīng)多條惡意URL的格式變體,所以該檢測(cè)方法所需要的病毒特征庫(kù)體積更小,更加節(jié)省內(nèi)存和磁盤(pán)空間。
為了更清楚地說(shuō)明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明惡意URL的形式化檢測(cè)方法流程 圖2為本發(fā)明惡意URL的形式化檢測(cè)方法具體實(shí)施例流程 圖3為本發(fā)明惡意URL的形式化檢測(cè)系統(tǒng)框圖。
具體實(shí)施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例中的技術(shù)方案,并使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明中技術(shù)方案作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明針對(duì)惡意URL鏈接地址字符串格式存在多變性的特點(diǎn),進(jìn)行字符串格式的規(guī)則化處理,拋棄了多變的并且對(duì)檢測(cè)無(wú)意義的部分,補(bǔ)充了被默認(rèn)省略的部分,組成了含有足夠信息量的待檢測(cè)數(shù)據(jù)。規(guī)則化的URL地址的字符串格式為“ scheme: //domain: port/path”,保留了協(xié)議,域名,端口,和路徑,這些數(shù)據(jù)完全可以確定一條URL所指向的地址信息,所以對(duì)上述格式的數(shù)據(jù)進(jìn)行檢測(cè)和對(duì)源URL數(shù)據(jù)進(jìn)行檢測(cè)應(yīng)該是等效的。如圖I所示,是本發(fā)明惡意URL的形式化檢測(cè)方法流程圖,包括步驟
5101、根據(jù)RFC規(guī)范,按照URL語(yǔ)法結(jié)構(gòu)將待檢測(cè)URL拆分為語(yǔ)法元素字符串;
5102、從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號(hào)、和路徑;
5103、判斷協(xié)議字符串和端口號(hào)字符串是否存在,對(duì)不存在的字符串部分進(jìn)行補(bǔ)全處
理;其中,對(duì)不存在的協(xié)議字符串或者不存在的端口號(hào)字符串進(jìn)行補(bǔ)全處理包括步驟 判斷協(xié)議字符串是否存在,如果不存在則補(bǔ)充HTTP作為默認(rèn)協(xié)議;
判斷端口號(hào)字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口號(hào)。根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口包括如果所述協(xié)議類(lèi)型為HTTP協(xié)議則補(bǔ)充80作為默認(rèn)端口號(hào);如果所述協(xié)議類(lèi)型為FTP協(xié)議則補(bǔ)充21作為默認(rèn)端口號(hào);其他協(xié)議統(tǒng)一處理,不用補(bǔ)充端口號(hào),添加空字符串作為端口號(hào)。S104、將補(bǔ)全處理后得到的字符串重新排序得到新URL,計(jì)算新URL的哈希值,作為與待檢測(cè)URL對(duì)應(yīng)的哈希值; S105、遍歷惡意URL特征庫(kù),用惡意URL特征庫(kù)中的特征數(shù)據(jù)與待檢測(cè)URL對(duì)應(yīng)的哈希值進(jìn)行對(duì)比檢測(cè)。所述惡意URL特征庫(kù)是預(yù)先將反病毒廠商捕獲的每個(gè)惡意URL作為待檢測(cè)URL,經(jīng)過(guò)所述的步驟SlOl至步驟S104得到與每個(gè)惡意URL對(duì)應(yīng)的哈希值組成的哈希值列表。下面給出本發(fā)明惡意URL的形式化檢測(cè)方法的具體實(shí)施例,如圖2所示,包括步驟
S201、拆分URL字符串為數(shù)個(gè)語(yǔ)法元素域塊的字符串。自行編寫(xiě)程序代碼,根據(jù)RFC規(guī)范將待檢測(cè)的URL字符串拆解為數(shù)個(gè)字符串,分別得到(scheme)協(xié)議部分,(username:password)用戶(hù)名密碼部分,(domain)域名或IP地址部分,(port)端口部分,(path)路徑部分,(query_string)查詢(xún)字符串部分,和(fragment_id)片段部分。S202、提取其中的協(xié)議,域名,端口,和路徑部分。S203、判斷是否存在協(xié)議部分,如果不存在進(jìn)行步驟S204,否則進(jìn)行步驟S205 ; S204、補(bǔ)充HTTP作為默認(rèn)協(xié)議。S205、判斷是否存在端口部分,如果不存在進(jìn)行步驟S206,否則進(jìn)行步驟S211 ;
5206、判斷協(xié)議類(lèi)型是否為HTTP協(xié)議,如果是進(jìn)行步驟S207,否則進(jìn)行步驟S208;
5207、補(bǔ)充80作為默認(rèn)端口號(hào);
5208、判斷協(xié)議類(lèi)型是否為FTP協(xié)議,如果是進(jìn)行步驟S209,否則進(jìn)行步驟S210;
5209、補(bǔ)充21作為默認(rèn)端口號(hào);
5210、其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號(hào),然后進(jìn)行步驟S211;
5211、重新組合各個(gè)URL字符串作為待檢測(cè)的URL字符串;
按照“ scheme: //domain: port/path ”格式重新組合URL字符串。S212、計(jì)算上步得到的待檢測(cè)URL字符串的哈希值,例如可以是MD5值。S213、遍歷惡意URL特征庫(kù),匹配上步得到的哈希值,如MD5值。惡意URL特征庫(kù)是反病毒廠商捕獲的惡意URL鏈接地址,經(jīng)過(guò)上面同樣的算法得到的哈希值列表。下面介紹本發(fā)明提供的惡意URL的形式化檢測(cè)系統(tǒng),如圖3所示,包括
拆分單元301,用于根據(jù)RFC規(guī)范,按照URL語(yǔ)法結(jié)構(gòu)將待檢測(cè)URL拆分為語(yǔ)法元素字符串;
提取單元302,用于從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號(hào)、和路徑;
整理單元303,用于判斷協(xié)議字符串和端口號(hào)字符串是否存在,對(duì)不存在的字符串部分進(jìn)行補(bǔ)全處理;
計(jì)算單元304,用于將補(bǔ)全處理后得到的字符串重新排序得到新URL,計(jì)算新URL的哈希值,作為與待檢測(cè)URL對(duì)應(yīng)的哈希值
匹配單元305,用于遍歷惡意URL特征庫(kù),用惡意URL特征庫(kù)中的特征數(shù)據(jù)與待檢測(cè)URL對(duì)應(yīng)的哈希值進(jìn)行對(duì)比檢測(cè)。整理單元303具體還用于
判斷協(xié)議字符串是否存在,如果不存在則補(bǔ)充HTTP作為默認(rèn)協(xié)議; 判斷端口號(hào)字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口號(hào)。其中,根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口具體包括如果所述協(xié)議類(lèi)型為HTTP協(xié)議則補(bǔ)充80作為默認(rèn)端口號(hào);如果所述協(xié)議類(lèi)型為FTP協(xié)議則補(bǔ)充21作為默認(rèn)端口號(hào);其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號(hào)。所述系統(tǒng)還包括惡意URL特征庫(kù)300,是預(yù)先將反病毒廠商捕獲的每個(gè)惡意URL作為待檢測(cè)URL,經(jīng)過(guò)所述的拆分單元301、提取單元302、整理單元303、計(jì)算單元304之后得到與每個(gè)惡意URL對(duì)應(yīng)的哈希值組成的哈希值列表。本說(shuō)明書(shū)中方法的實(shí)施例采用遞進(jìn)的方式描述,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。雖然通過(guò)實(shí)施例描繪了本發(fā)明,本領(lǐng)域普通技術(shù)人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,希望所附的權(quán)利要求包括這些變形和變化而不脫離本發(fā)明的精神。
權(quán)利要求
1.惡意URL的形式化檢測(cè)方法,其特征在于,包括 步驟a、根據(jù)RFC規(guī)范,按照URL語(yǔ)法結(jié)構(gòu)將待檢測(cè)URL拆分為語(yǔ)法元素字符串; 步驟b、從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號(hào)、和路徑; 步驟c、判斷協(xié)議字符串和端口號(hào)字符串是否存在,對(duì)不存在的字符串部分進(jìn)行補(bǔ)全處理; 步驟d、將補(bǔ)全處理后得到的字符串重新排序得到新URL,計(jì)算新URL的哈希值,作為與待檢測(cè)URL對(duì)應(yīng)的哈希值; 步驟e、遍歷惡意URL特征庫(kù),用惡意URL特征庫(kù)中的特征數(shù)據(jù)與待檢測(cè)URL對(duì)應(yīng)的哈希值進(jìn)行對(duì)比檢測(cè)。
2.如權(quán)利要求I所述的惡意URL的形式化檢測(cè)方法,其特征在于,對(duì)不存在的協(xié)議字符串或者不存在的端口號(hào)字符串進(jìn)行補(bǔ)全處理包括步驟 判斷協(xié)議字符串是否存在,如果不存在則補(bǔ)充HTTP作為默認(rèn)協(xié)議; 判斷端口號(hào)字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口號(hào)。
3.如權(quán)利要求2所述的惡意URL的形式化檢測(cè)方法,其特征在于,根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口包括如果所述協(xié)議類(lèi)型為HTTP協(xié)議則補(bǔ)充80作為默認(rèn)端口號(hào);如果所述協(xié)議類(lèi)型為FTP協(xié)議則補(bǔ)充21作為默認(rèn)端口號(hào);其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號(hào)。
4.如權(quán)利要求I所述的惡意URL的形式化檢測(cè)方法,其特征在于,所述惡意URL特征庫(kù)是預(yù)先將反病毒廠商捕獲的每個(gè)惡意URL作為待檢測(cè)URL,經(jīng)過(guò)所述的步驟a至步驟d得到與每個(gè)惡意URL對(duì)應(yīng)的哈希值組成的哈希值列表。
5.惡意URL的形式化檢測(cè)系統(tǒng),其特征在于,包括 拆分單元,用于根據(jù)RFC規(guī)范,按照URL語(yǔ)法結(jié)構(gòu)將待檢測(cè)URL拆分為語(yǔ)法元素字符串; 提取單元,用于從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號(hào)、和路徑; 整理單元,用于判斷協(xié)議字符串和端口號(hào)字符串是否存在,對(duì)不存在的字符串部分進(jìn)行補(bǔ)全處理; 計(jì)算單元,用于將補(bǔ)全處理后得到的字符串重新排序得到新URL,計(jì)算新URL的哈希值,作為與待檢測(cè)URL對(duì)應(yīng)的哈希值 匹配單元,用于遍歷惡意URL特征庫(kù),用惡意URL特征庫(kù)中的特征數(shù)據(jù)與待檢測(cè)URL對(duì)應(yīng)的哈希值進(jìn)行對(duì)比檢測(cè)。
6.如權(quán)利要求5所述的惡意URL的形式化檢測(cè)系統(tǒng),其特征在于,整理單元具體還用于 判斷協(xié)議字符串是否存在,如果不存在則補(bǔ)充HTTP作為默認(rèn)協(xié)議; 判斷端口號(hào)字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口號(hào)。
7.如權(quán)利要求6所述的惡意URL的形式化檢測(cè)系統(tǒng),其特征在于,其特征在于,根據(jù)所述協(xié)議字符串中的協(xié)議類(lèi)型補(bǔ)充默認(rèn)端口具體包括如果所述協(xié)議類(lèi)型為HTTP協(xié)議則補(bǔ)充80作為默認(rèn)端口號(hào);如果所述協(xié)議類(lèi)型為FTP協(xié)議則補(bǔ)充21作為默認(rèn)端口號(hào);其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號(hào)。
8.如權(quán)利要求5所述的惡意URL的形式化檢測(cè)系統(tǒng),其特征在于,所述惡意URL特征庫(kù)是預(yù)先將反病毒廠商捕獲的每個(gè)惡意URL作為待檢測(cè)URL,經(jīng)過(guò)所述的拆分單元、提取單元、整理單元、計(jì)算單元之后得到與每個(gè)惡意URL對(duì)應(yīng)的哈希值組成的哈希值列表。
全文摘要
本發(fā)明公開(kāi)了一種惡意URL的形式化檢測(cè)方法,包括根據(jù)RFC規(guī)范,按照URL語(yǔ)法結(jié)構(gòu)將待檢測(cè)URL拆分為語(yǔ)法元素字符串;從拆分得到的字符串中提取指定的字符串;補(bǔ)全處理不存在的字符串;將補(bǔ)全處理后得到的字符串重新排序得到新URL,計(jì)算新URL的哈希值;遍歷惡意URL特征庫(kù),用惡意URL特征庫(kù)中的特征數(shù)據(jù)與待檢測(cè)URL的哈希值進(jìn)行對(duì)比檢測(cè)。本發(fā)明還公開(kāi)了一種惡意URL的形式化檢測(cè)系統(tǒng)。本發(fā)明提出的技術(shù)方案可以有效對(duì)抗URL格式的多變性,相對(duì)傳統(tǒng)的URL檢測(cè)方法可以對(duì)經(jīng)常變化格式的惡意URL有更高的檢出率,也可以采用單條特征對(duì)應(yīng)多條惡意URL的格式變體,所以該檢測(cè)方法所需要的病毒特征庫(kù)體積更小,更加節(jié)省內(nèi)存和磁盤(pán)空間。
文檔編號(hào)H04L12/26GK102843271SQ20111035801
公開(kāi)日2012年12月26日 申請(qǐng)日期2011年11月14日 優(yōu)先權(quán)日2011年11月14日
發(fā)明者蘇培旺, 李石磊, 張栗偉 申請(qǐng)人:哈爾濱安天科技股份有限公司