欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)址檢測(cè)方法及裝置與流程

文檔序號(hào):12624145閱讀:345來(lái)源:國(guó)知局
一種網(wǎng)址檢測(cè)方法及裝置與流程
本發(fā)明屬于互聯(lián)網(wǎng)檢測(cè)
技術(shù)領(lǐng)域
,更具體地說(shuō),尤其涉及一種網(wǎng)址檢測(cè)方法及裝置。
背景技術(shù)
:據(jù)不完全統(tǒng)計(jì)2014年上半年新增的釣魚(yú)網(wǎng)址有559萬(wàn)個(gè),使得釣魚(yú)網(wǎng)址引發(fā)的安全問(wèn)題也日益增多,因此網(wǎng)址安全檢測(cè)越來(lái)越受?chē)?guó)內(nèi)外眾多安全公司和研究機(jī)構(gòu)的重視。目前網(wǎng)址安全檢測(cè)方法主要包括:高交互蜜罐方法,基于靜態(tài)檢查算法的超文本標(biāo)記語(yǔ)言(HyperTextMarkupLanguage,HTML)代碼的特征碼方法以及機(jī)器學(xué)習(xí)方法,綜合考慮時(shí)間復(fù)雜度、運(yùn)行速度和準(zhǔn)確率,這三種方法中機(jī)器學(xué)習(xí)方法最優(yōu)。其中機(jī)器學(xué)習(xí)方法的檢測(cè)過(guò)程是:首先通過(guò)樣本訓(xùn)練出分類(lèi)器,然后在獲取到任意一個(gè)待檢測(cè)網(wǎng)址后,提取待檢測(cè)網(wǎng)址中的特征信息,基于特征信息和分類(lèi)器得到待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型。雖然上述機(jī)器學(xué)習(xí)方法可以得到待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型,當(dāng)待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型指示待檢測(cè)網(wǎng)址為惡意網(wǎng)址時(shí),可以對(duì)待檢測(cè)網(wǎng)址進(jìn)行過(guò)濾,以保證網(wǎng)絡(luò)的安全性,但是目前網(wǎng)址安全檢測(cè)方法的準(zhǔn)確度不高。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明的目的在于提供一種網(wǎng)址檢測(cè)方法及裝置,用于提高網(wǎng)址檢測(cè)的準(zhǔn)確度。技術(shù)方案如下:本發(fā)明提供一種網(wǎng)址檢測(cè)方法,所述方法包括:獲得待檢測(cè)網(wǎng)址中的特征值,所述特征值至少包括:統(tǒng)一資源定位符相關(guān)特征值,所述統(tǒng)一資源定位符相關(guān)特征值用于指示所述待檢測(cè)網(wǎng)址與預(yù)先建立的合法網(wǎng)絡(luò)庫(kù)中易受攻擊的合法網(wǎng)址之間的相關(guān)程度;基于所述待檢測(cè)網(wǎng)址中的特征值,對(duì)所述待檢測(cè)網(wǎng)址進(jìn)行初始分類(lèi),得到所述待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果;基于所述待檢測(cè)網(wǎng)址中的特征值和所述待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果,對(duì)所述待檢測(cè)網(wǎng)址進(jìn)行最終分類(lèi),得到所述待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果,所述待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果用于指示所述待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型。優(yōu)選地,所述獲得待檢測(cè)網(wǎng)址中的特征值,包括:從所述待檢測(cè)網(wǎng)址中提取詞匯特征值和主機(jī)信息相關(guān)特征值;計(jì)算所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符和合法網(wǎng)址庫(kù)中每個(gè)所述合法網(wǎng)址的統(tǒng)一資源定位符之間的相同距離比值和相異距離比值;基于每個(gè)所述相同距離比值和每個(gè)所述相異距離比值,得到所述待檢測(cè)網(wǎng)址的唯一的所述統(tǒng)一資源定位符相關(guān)特征值。優(yōu)選地,所述計(jì)算所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符和合法網(wǎng)址庫(kù)中每個(gè)所述合法網(wǎng)址的統(tǒng)一資源定位符之間的相同距離比值和相異距離比值,包括:將所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符和合法網(wǎng)址庫(kù)中每個(gè)所述合法網(wǎng)址的統(tǒng)一資源定位符進(jìn)行對(duì)比,得出所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符轉(zhuǎn)變?yōu)閷?duì)應(yīng)的所述合法網(wǎng)址的統(tǒng)一資源定位符所需的轉(zhuǎn)變次數(shù)以及得出所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符與對(duì)應(yīng)的所述合法網(wǎng)址的統(tǒng)一資源定位符之間相匹配的字符數(shù);將所述轉(zhuǎn)變次數(shù)與所述合法網(wǎng)址的統(tǒng)一資源定位符的字符總數(shù)的比值作為所述待檢測(cè)網(wǎng)址與對(duì)應(yīng)的所述合法網(wǎng)址的所述相異距離比值;將所述相匹配的字符數(shù)與所述合法網(wǎng)址的統(tǒng)一資源定位符的字符總數(shù)的比值作為所述待檢測(cè)網(wǎng)址與對(duì)應(yīng)的所述合法網(wǎng)址的所述相同距離比值。優(yōu)選地,所述基于每個(gè)所述相同距離比值和每個(gè)所述相異距離比值,得到待檢測(cè)網(wǎng)址的唯一的所述統(tǒng)一資源定位符相關(guān)特征值,包括:計(jì)算每個(gè)所述相同距離比值的第一加權(quán)值和計(jì)算每個(gè)所述相異距離比值的第二加權(quán)值;對(duì)每個(gè)所述合法網(wǎng)址,計(jì)算同一個(gè)所述合法網(wǎng)址的所述第一加權(quán)值和所述第二加權(quán)值的差值;從每個(gè)所述合法網(wǎng)址的差值中選取取值最小的差值作為所述待檢測(cè)網(wǎng)址的唯一的所述統(tǒng)一資源定位符相關(guān)特征值。優(yōu)選地,所述基于所述待檢測(cè)網(wǎng)址中的特征值,對(duì)所述待檢測(cè)網(wǎng)址進(jìn)行初始分類(lèi),得到所述待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果,包括:對(duì)所述待檢測(cè)網(wǎng)址的特征值進(jìn)行降維處理,得到處理后的特征值;當(dāng)處理后的特征值滿(mǎn)足預(yù)設(shè)條件時(shí),基于所述處理后的特征值確定初始分類(lèi)個(gè)數(shù);當(dāng)處理后的特征值不滿(mǎn)足預(yù)設(shè)條件時(shí),隨機(jī)確定初始分類(lèi)個(gè)數(shù);在確定所述初始分類(lèi)個(gè)數(shù)后,隨機(jī)選取每個(gè)分類(lèi)的初始聚類(lèi)中心;周期性地計(jì)算每個(gè)所述初始聚類(lèi)中心的取值,在已計(jì)算出相鄰兩個(gè)周期下的初始聚類(lèi)中心后計(jì)算聚類(lèi)誤差并將所述ci(k)替換為所述ci(k+1),判斷聚類(lèi)誤差是否小于預(yù)設(shè)誤差,若是則結(jié)束剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算,若否則繼續(xù)剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算,其中ci(k)和ci(k+1)為相鄰兩個(gè)周期計(jì)算得到的初始聚類(lèi)中心的取值,ci(k)為第k個(gè)周期得到的第i個(gè)分類(lèi)下所述初始聚類(lèi)中心的取值,ci(k+1)為第k+1個(gè)周期得到的第i個(gè)分類(lèi)下所述初始聚類(lèi)中心的取值,i=1,2,…,c,c為初始分類(lèi)個(gè)數(shù);對(duì)所述第q個(gè)待檢測(cè)網(wǎng)址的特征值構(gòu)成的特征點(diǎn)xq,若則將特征點(diǎn)xq劃分至第i個(gè)分類(lèi)下,z=1,2,...,c,z≠i,q=1,2,…,n,n為所述待檢測(cè)網(wǎng)址的總數(shù),所述待檢測(cè)網(wǎng)址的分類(lèi)結(jié)果為每個(gè)特征點(diǎn)的分類(lèi)結(jié)果的集合。本發(fā)明還提供一種網(wǎng)址檢測(cè)裝置,所述裝置包括:獲得單元,用于獲得待檢測(cè)網(wǎng)址中的特征值,所述特征值至少包括:統(tǒng)一資源定位符相關(guān)特征值,所述統(tǒng)一資源定位符相關(guān)特征值用于指示所述待檢測(cè)網(wǎng)址與預(yù)先建立的合法網(wǎng)絡(luò)庫(kù)中易受攻擊的合法網(wǎng)址之間的相關(guān)程度;第一分類(lèi)單元,用于基于所述待檢測(cè)網(wǎng)址中的特征值,對(duì)所述待檢測(cè)網(wǎng)址進(jìn)行初始分類(lèi),得到所述待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果;第二分類(lèi)單元,用于基于所述待檢測(cè)網(wǎng)址中的特征值和所述待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果,對(duì)所述待檢測(cè)網(wǎng)址進(jìn)行最終分類(lèi),得到所述待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果,所述待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果用于指示所述待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型。優(yōu)選地,所述獲得單元,包括:提取子單元,用于從所述待檢測(cè)網(wǎng)址中提取詞匯特征值和主機(jī)信息相關(guān)特征值;計(jì)算子單元,用于計(jì)算所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符和合法網(wǎng)址庫(kù)中每個(gè)所述合法網(wǎng)址的統(tǒng)一資源定位符之間的相同距離比值和相異距離比值;獲得子單元,用于基于每個(gè)所述相同距離比值和每個(gè)所述相異距離比值,得到所述待檢測(cè)網(wǎng)址的唯一的所述統(tǒng)一資源定位符相關(guān)特征值。優(yōu)選地,所述計(jì)算子單元,包括:對(duì)比子單元,用于將所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符和合法網(wǎng)址庫(kù)中每個(gè)所述合法網(wǎng)址的統(tǒng)一資源定位符進(jìn)行對(duì)比,得出所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符轉(zhuǎn)變?yōu)閷?duì)應(yīng)的所述合法網(wǎng)址的統(tǒng)一資源定位符所需的轉(zhuǎn)變次數(shù)以及得出所述待檢測(cè)網(wǎng)址的統(tǒng)一資源定位符與對(duì)應(yīng)的所述合法網(wǎng)址的統(tǒng)一資源定位符之間相匹配的字符數(shù);第一計(jì)算子單元,用于將所述轉(zhuǎn)變次數(shù)與所述合法網(wǎng)址的統(tǒng)一資源定位符的字符總數(shù)的比值作為所述待檢測(cè)網(wǎng)址與對(duì)應(yīng)的所述合法網(wǎng)址的所述相異距離比值;第二計(jì)算子單元,用于將所述相匹配的字符數(shù)與所述合法網(wǎng)址的統(tǒng)一資源定位符的字符總數(shù)的比值作為所述待檢測(cè)網(wǎng)址與對(duì)應(yīng)的所述合法網(wǎng)址的所述相同距離比值。優(yōu)選地,所述獲得子單元,用于計(jì)算每個(gè)所述相同距離比值的第一加權(quán)值和計(jì)算每個(gè)所述相異距離比值的第二加權(quán)值,對(duì)每個(gè)所述合法網(wǎng)址,計(jì)算同一個(gè)所述合法網(wǎng)址的所述第一加權(quán)值和所述第二加權(quán)值的差值,并從每個(gè)所述合法網(wǎng)址的差值中選取取值最小的差值作為所述待檢測(cè)網(wǎng)址的唯一的所述統(tǒng)一資源定位符相關(guān)特征值。優(yōu)選地,所述第一分類(lèi)單元,包括:降維處理子單元,用于對(duì)所述待檢測(cè)網(wǎng)址的特征值進(jìn)行降維處理,得到處理后的特征值;確定子單元,用于當(dāng)處理后的特征值滿(mǎn)足預(yù)設(shè)條件時(shí),基于所述處理后的特征值確定初始分類(lèi)個(gè)數(shù);當(dāng)處理后的特征值不滿(mǎn)足預(yù)設(shè)條件時(shí),隨機(jī)確定初始分類(lèi)個(gè)數(shù);以及用于在確定所述初始分類(lèi)個(gè)數(shù)后,隨機(jī)選取每個(gè)分類(lèi)的初始聚類(lèi)中心;取值計(jì)算子單元,用于周期性地計(jì)算每個(gè)所述初始聚類(lèi)中心的取值,在已計(jì)算出相鄰兩個(gè)周期下的初始聚類(lèi)中心后計(jì)算聚類(lèi)誤差并將所述ci(k)替換為所述ci(k+1),判斷聚類(lèi)誤差是否小于預(yù)設(shè)誤差,若是則結(jié)束剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算,若否則繼續(xù)剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算,其中ci(k)和ci(k+1)為相鄰兩個(gè)周期計(jì)算得到的初始聚類(lèi)中心的取值,ci(k)為第k個(gè)周期得到的第i個(gè)分類(lèi)下所述初始聚類(lèi)中心的取值,ci(k+1)為第k+1個(gè)周期得到的第i個(gè)分類(lèi)下所述初始聚類(lèi)中心的取值,i=1,2,…,c,c為初始分類(lèi)個(gè)數(shù);劃分子單元,用于對(duì)所述第q個(gè)待檢測(cè)網(wǎng)址的特征值構(gòu)成的特征點(diǎn)xq,若則將特征點(diǎn)xq劃分至第i個(gè)分類(lèi)下,z=1,2,...,c,z≠i,q=1,2,…,n,n為所述待檢測(cè)網(wǎng)址的總數(shù),所述待檢測(cè)網(wǎng)址的分類(lèi)結(jié)果為每個(gè)特征點(diǎn)的分類(lèi)結(jié)果的集合。與現(xiàn)有技術(shù)相比,本發(fā)明提供的上述技術(shù)方案具有如下優(yōu)點(diǎn):從上述技術(shù)方案可知,本發(fā)明在檢測(cè)待檢測(cè)網(wǎng)址所屬類(lèi)型時(shí),在基于的檢測(cè)基礎(chǔ)——特征值中加入統(tǒng)一資源定位符相關(guān)特征值,統(tǒng)一資源定位符相關(guān)特征值用于指示待檢測(cè)網(wǎng)址與易受攻擊的合法網(wǎng)址之間的相關(guān)程度,并且發(fā)明人發(fā)現(xiàn)非法網(wǎng)址(如惡意的釣魚(yú)網(wǎng)站)均與易受攻擊的合法網(wǎng)址相關(guān),因此在基于加入有統(tǒng)一資源定位符相關(guān)特征值的檢測(cè)基礎(chǔ)檢測(cè)待檢測(cè)網(wǎng)址所屬類(lèi)型時(shí),可以提高網(wǎng)址檢測(cè)的準(zhǔn)確度。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)方法的流程圖;圖2是本發(fā)明實(shí)施例獲得待檢測(cè)網(wǎng)址中特征值的流程圖;圖3是本發(fā)明實(shí)施例提供的待檢測(cè)網(wǎng)址到合法網(wǎng)址的轉(zhuǎn)變示意圖;圖4是本發(fā)明實(shí)施例提供的URL間相同距離比值和相異距離比值的示意圖;圖5是本發(fā)明實(shí)施例提供的初始分類(lèi)的流程圖;圖6是本發(fā)明實(shí)施例提供的降維結(jié)果可視化的示意圖;圖7是本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)裝置的結(jié)構(gòu)示意圖;圖8是本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)裝置中獲得單元的結(jié)構(gòu)示意圖;圖9是本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)裝置中第一分類(lèi)單元的結(jié)構(gòu)示意圖。具體實(shí)施方式發(fā)明人通過(guò)對(duì)現(xiàn)有非法網(wǎng)址,如惡意的釣魚(yú)網(wǎng)址分析發(fā)現(xiàn),釣魚(yú)網(wǎng)址的統(tǒng)一資源定位符(UniformResourceLocator,URL)是采用增加和刪除等修改方式來(lái)改變合法網(wǎng)址的URL中的部分字符形成的,并使用釣魚(yú)網(wǎng)址來(lái)混淆普通用戶(hù)。比如將合法網(wǎng)址的URLwww.ebay.com修改為www.ibay.com,www.bay.com,www.ebay.net等,雖然釣魚(yú)網(wǎng)址的URL改變了合法網(wǎng)址的URL,但是釣魚(yú)網(wǎng)址的URL仍保持合法網(wǎng)址的URL的原有域名的有序性,這就意味著目前的惡意網(wǎng)址通過(guò)URL與易受攻擊的合法網(wǎng)址具有相關(guān)性,因此本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)方法中在特征值中加入U(xiǎn)RL相關(guān)特征值對(duì)待檢測(cè)網(wǎng)址進(jìn)行檢測(cè),以提高網(wǎng)址檢測(cè)的準(zhǔn)確度。為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。請(qǐng)參閱圖1,其示出了本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)方法的一種流程圖,所述網(wǎng)址檢測(cè)方法的思想是:在特征值中加入U(xiǎn)RL相關(guān)特征值,對(duì)待檢測(cè)網(wǎng)址進(jìn)行二次分類(lèi),以提高網(wǎng)址檢測(cè)的準(zhǔn)確度,其對(duì)應(yīng)的流程可以包括以下步驟:101:獲得待檢測(cè)網(wǎng)址中的特征值,其中特征值至少包括:URL相關(guān)特征值,所述URL相關(guān)特征值用于指示待檢測(cè)網(wǎng)址與預(yù)先建立的合法網(wǎng)絡(luò)庫(kù)中易受攻擊的合法網(wǎng)址之間的相關(guān)程度。發(fā)明人對(duì)非法網(wǎng)站進(jìn)行研究發(fā)現(xiàn),目前的非法網(wǎng)站只與少部分排名靠前且有利可圖的網(wǎng)址即易受攻擊的合法網(wǎng)址相關(guān),因此在獲取待檢測(cè)網(wǎng)址的特征值時(shí)需要獲取到指示待檢測(cè)網(wǎng)址與合法網(wǎng)址的相關(guān)程度的URL相關(guān)特征值,以確定待檢測(cè)網(wǎng)址和合法網(wǎng)址是否相關(guān),進(jìn)一步至少基于URL相關(guān)特征值對(duì)待檢測(cè)網(wǎng)址進(jìn)行檢測(cè)。而經(jīng)檢測(cè)目前易受攻擊的合法網(wǎng)址,在中國(guó)排名前六的合法網(wǎng)址(淘寶網(wǎng)、阿里巴巴、新浪、騰訊、中央電視臺(tái)和中國(guó)工商銀行)的舉報(bào)量占到總舉報(bào)量的95.1%。在世界范圍內(nèi)同樣集中攻擊少部分受歡迎的網(wǎng)址,比如PayPAL(全球最大的在線(xiàn)支付平臺(tái))和Tibia(一款網(wǎng)游)等。為此本發(fā)明實(shí)施例通過(guò)爬取各大搜索引擎提供的排名在前預(yù)設(shè)條數(shù)(比如500條,具體取值不限)的URL,并對(duì)常受攻擊的URL進(jìn)行收集,建立合法網(wǎng)址庫(kù),所述合法網(wǎng)址庫(kù)中存儲(chǔ)有易受攻擊的合法網(wǎng)址的URL。對(duì)于如何獲得待檢測(cè)網(wǎng)址中的特征值,如URL相關(guān)特征值則會(huì)在后續(xù)部分進(jìn)行介紹。102:基于待檢測(cè)網(wǎng)址中的特征值,對(duì)待檢測(cè)網(wǎng)址進(jìn)行初始分類(lèi),得到待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果。103:基于待檢測(cè)網(wǎng)址中的特征值和待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果,對(duì)待檢測(cè)網(wǎng)址進(jìn)行最終分類(lèi),得到待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果,其中待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果用于指示待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型。也就是說(shuō),在本發(fā)明實(shí)施例中,對(duì)待檢測(cè)網(wǎng)址進(jìn)行兩次分類(lèi),其中第一次分類(lèi)是基于待檢測(cè)網(wǎng)址中的特征值對(duì)待檢測(cè)網(wǎng)址進(jìn)行粗分類(lèi),得到的初始分類(lèi)結(jié)果連同待檢測(cè)網(wǎng)址的特征值作為第二次檢測(cè)的檢測(cè)基礎(chǔ),通過(guò)第二次檢測(cè)得到待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果,即最終分類(lèi)結(jié)果指示出待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型,如待檢測(cè)網(wǎng)址是非法網(wǎng)址還是合法網(wǎng)址。從上述技術(shù)方案可知,本發(fā)明實(shí)施例在檢測(cè)待檢測(cè)網(wǎng)址所屬類(lèi)型時(shí),在基于的檢測(cè)基礎(chǔ)——特征值中加入統(tǒng)一資源定位符相關(guān)特征值,統(tǒng)一資源定位符相關(guān)特征值用于指示待檢測(cè)網(wǎng)址與易受攻擊的合法網(wǎng)址之間的相關(guān)程度,并且發(fā)明人發(fā)現(xiàn)非法網(wǎng)址(如惡意的釣魚(yú)網(wǎng)站)均與易受攻擊的合法網(wǎng)址相關(guān),因此在基于加入有統(tǒng)一資源定位符相關(guān)特征值的檢測(cè)基礎(chǔ)檢測(cè)待檢測(cè)網(wǎng)址所屬類(lèi)型時(shí),可以提高網(wǎng)址檢測(cè)的準(zhǔn)確度。在本發(fā)明實(shí)施例中獲得待檢測(cè)網(wǎng)址中的特征值的過(guò)程如圖2所示,可以包括以下步驟:201:從待檢測(cè)網(wǎng)址中提取詞匯特征值和主機(jī)信息相關(guān)特征值。其中詞匯特征值和主機(jī)信息相關(guān)特征值是檢測(cè)待檢測(cè)網(wǎng)址中,除URL相關(guān)特征值之外的另兩個(gè)主要特征值,對(duì)于這兩個(gè)主要特征值所關(guān)聯(lián)的特征介紹如下:詞匯特征:非法網(wǎng)址和合法網(wǎng)址并不是很相似,非法網(wǎng)址會(huì)在合法網(wǎng)址的基礎(chǔ)上增加一些信息對(duì)用戶(hù)進(jìn)行混淆。經(jīng)分析發(fā)現(xiàn),非法網(wǎng)址可通過(guò)增加點(diǎn)的個(gè)數(shù)來(lái)混淆用戶(hù),比如http://ebay.com.register.online-service.bank.login/...。和/或增加一些特殊的字符,比如“/”,”&”,”~”等在合法網(wǎng)址中出現(xiàn)很少的字符,和/或通過(guò)更改大小寫(xiě)字母和添加數(shù)字等信息欺騙用戶(hù),因此詞匯特征值可以是URL中點(diǎn)的個(gè)數(shù)(dot)、URL的長(zhǎng)度(len)、URL中特殊符號(hào)個(gè)數(shù)(symbol)、URL中大寫(xiě)字母?jìng)€(gè)數(shù)(cap)、URL中數(shù)字個(gè)數(shù)(num)等。主機(jī)信息相關(guān)特征:經(jīng)分析發(fā)現(xiàn),非法網(wǎng)址是建立在不良的服務(wù)器上,且非法網(wǎng)址的域名經(jīng)常會(huì)被黑名單收錄,因此非法網(wǎng)址經(jīng)常會(huì)更換域名,使得非法網(wǎng)址存在注冊(cè)時(shí)間短,很少更新等特點(diǎn),為此本發(fā)明實(shí)施例可以引入time1,time2和time3三個(gè)變量,分別定義為域名過(guò)期時(shí)間與當(dāng)前時(shí)間的差值,過(guò)期時(shí)間與域名建立時(shí)間的差值,更新日期與注冊(cè)日期差值,將這三個(gè)變量作為主機(jī)信息相關(guān)特征值。202:計(jì)算待檢測(cè)網(wǎng)址的URL和合法網(wǎng)址庫(kù)中每個(gè)合法網(wǎng)址的URL之間的相同距離比值和相異距離比值。假設(shè)從待檢測(cè)網(wǎng)址的URL中提取的域名為U=U1U2,…,Up,合法網(wǎng)址的URL中目標(biāo)域名為V=V1V2,…,Vq,長(zhǎng)度分別為p和q,本發(fā)明中引入Levenshtein距離(編輯距離)來(lái)定義URL間相異距離,并將URL間相異距離來(lái)作為URL相關(guān)特征值,其中URL間相異距離的定義如下:表1URL間相異距離的定義但是僅僅只用Levenshtein距離,并不能對(duì)待檢測(cè)網(wǎng)址和合法網(wǎng)址的相關(guān)性做一個(gè)很好的評(píng)估,為此本發(fā)明實(shí)施例對(duì)URL相關(guān)特征值的取值進(jìn)行更改。在本發(fā)明實(shí)施例中。URL的相關(guān)性,包括URL間的相同距離比值與相異距離比值。目標(biāo)字符串的長(zhǎng)度定義為len,len=length(V),目標(biāo)字符串為與待檢測(cè)網(wǎng)址進(jìn)行比對(duì)的合法網(wǎng)址的URL的字符串,URL間的相同距離定義為same,所占的比值為same_rate,URL間的不同距離定義為diff,所占比率為diff_rate,則same_rate和diff_rate的計(jì)算公式如下:same_rate=same/len,diff_rate=diff/len。而對(duì)于待檢測(cè)網(wǎng)址和合法網(wǎng)址來(lái)說(shuō),得到兩個(gè)網(wǎng)址的URL中的相同距離和相異距離的方式是:將兩個(gè)網(wǎng)址的URL中相匹配(即相同)的字符數(shù)作為相同距離,相異距離則是待檢測(cè)網(wǎng)址的URL轉(zhuǎn)變?yōu)閷?duì)應(yīng)的合法網(wǎng)址的URL所需的轉(zhuǎn)變次數(shù),下面以待檢測(cè)網(wǎng)址為S1=www.baduu.co,合法網(wǎng)址為S2=www.baidu.com為例進(jìn)行說(shuō)明,兩者的轉(zhuǎn)變過(guò)程如圖3所示,從圖3中可以看出:從域名S1到域名S2共有三次轉(zhuǎn)變,這三次轉(zhuǎn)變包括:1次刪除(刪除域名S1中的第二個(gè)u),2次添加(在域名S2中添加了i和m),則這兩個(gè)域名的相異距離為3。對(duì)應(yīng)的域名S1和域名S2中相匹配的字符數(shù)為9,則相同距離為9,又因?yàn)槟繕?biāo)字符串(即域名S2)的長(zhǎng)度為11,所以same_rate=9/11,diff_rate=3/11。綜上,在本發(fā)明實(shí)施例中計(jì)算待檢測(cè)網(wǎng)址的URL和合法網(wǎng)址庫(kù)中每個(gè)合法網(wǎng)址的URL之間的相同距離比值和相異距離比值的過(guò)程是:首先,將待檢測(cè)網(wǎng)址的URL和合法網(wǎng)址庫(kù)中每個(gè)合法網(wǎng)址的URL進(jìn)行比對(duì),得出待檢測(cè)網(wǎng)址的URL轉(zhuǎn)變?yōu)閷?duì)應(yīng)的合法網(wǎng)址的URL所需的轉(zhuǎn)變次數(shù)以及得出待檢測(cè)網(wǎng)址的URL與對(duì)應(yīng)的合法網(wǎng)址的URL之間相匹配的字符數(shù);其次,將轉(zhuǎn)變次數(shù)與合法網(wǎng)址的URL的字符總數(shù)的比值作為待檢測(cè)網(wǎng)址與對(duì)應(yīng)的合法網(wǎng)址的相異距離比值;最后,將相匹配的字符數(shù)與合法網(wǎng)址的URL的字符總數(shù)的比值作為待檢測(cè)網(wǎng)址與對(duì)應(yīng)的合法網(wǎng)址的相同距離比值。203:基于每個(gè)相同距離比值和每個(gè)相異距離比值,得到待檢測(cè)網(wǎng)址的唯一的URL相關(guān)特征值。對(duì)于輸入的任意一個(gè)待檢測(cè)網(wǎng)址來(lái)說(shuō),待檢測(cè)網(wǎng)址的URL需要和合法網(wǎng)址庫(kù)中的全部合法網(wǎng)址的URL進(jìn)行比較,得到待檢測(cè)網(wǎng)址與每個(gè)合法網(wǎng)址的相同距離比值和相異距離比值,如圖4所示。其中圖4中深色部分為合法網(wǎng)址的URL,淺色部分為已知的非法網(wǎng)址的URL,由圖4可知合法網(wǎng)址和非法網(wǎng)址之間的diff_rate和equal_rate上有顯著差異。非法網(wǎng)址的same_rate偏低且diff_rate偏高,而diff_rate盡可能小,same_rate可能大的域名即為待檢測(cè)網(wǎng)址的最佳匹配域名,得到最佳匹配域名的目標(biāo)函數(shù)如下:{mindiff_ratemaxsame_rate---(1).]]>為簡(jiǎn)化上述計(jì)算,本發(fā)明實(shí)施例中引入權(quán)重概念,將上述多目標(biāo)規(guī)劃問(wèn)題(公式1)簡(jiǎn)化成單目標(biāo)規(guī)劃問(wèn)題(公式2),并設(shè)定權(quán)重分別為a,b,化簡(jiǎn)后的目標(biāo)函數(shù)如下所示:f(x)=min(a*diff_rate-b*same_rate)(公式2)。也就是說(shuō),在獲得待檢測(cè)網(wǎng)址與每個(gè)合法網(wǎng)址的相同距離比值和相異距離比值后,計(jì)算每個(gè)相同距離比值的第一加權(quán)值(b*same_rate)和計(jì)算每個(gè)相異距離比值的第二加權(quán)值(a*diff_rate),并且對(duì)每個(gè)合法網(wǎng)址來(lái)說(shuō)計(jì)算同一個(gè)合法網(wǎng)址的第一加權(quán)值和第二加權(quán)值的差值(a*diff_rate-b*same_rate);從每個(gè)合法網(wǎng)址的差值中選取取值最小的差值作為待檢測(cè)網(wǎng)址的唯一的URL相關(guān)特征值f(x)。本發(fā)明實(shí)施例收集20000條URL,為權(quán)重a和b設(shè)定不同的取值,運(yùn)用機(jī)器學(xué)習(xí)算法得到的準(zhǔn)確率如下:表2不同取值對(duì)應(yīng)的準(zhǔn)確率(a,b)(0.2,0.8)(0.4,0.6)(0.5,0.5)(0.6,0.4)(0.8,0.2)準(zhǔn)確率0.8950.8750.8850.9050.9由此可見(jiàn)當(dāng)權(quán)重a和b,分別取0.6與0.4時(shí)準(zhǔn)確率最高,因此在本發(fā)明實(shí)施例中,權(quán)重a和b的取值優(yōu)選:a=0.6,b=0.4。相應(yīng)的,基于上述特征值對(duì)待檢測(cè)網(wǎng)址進(jìn)行初始分類(lèi)的過(guò)程如圖5所示,可以包括以下步驟:501:對(duì)待檢測(cè)網(wǎng)址的特征值進(jìn)行降維處理,得到處理后的特征值。502:當(dāng)處理后的特征值滿(mǎn)足預(yù)設(shè)條件時(shí),基于處理后的特征值確定初始分類(lèi)個(gè)數(shù);當(dāng)處理后的特征值不滿(mǎn)足預(yù)設(shè)條件時(shí),隨機(jī)確定初始分類(lèi)個(gè)數(shù)。503:在確定初始分類(lèi)個(gè)數(shù)后,隨機(jī)選取每個(gè)分類(lèi)的初始聚類(lèi)中心。發(fā)明人經(jīng)過(guò)研究發(fā)現(xiàn),目前在基于特征值進(jìn)行初始聚類(lèi)劃分時(shí)主要采用初始值隨機(jī)選取方式,這樣會(huì)導(dǎo)致初始聚類(lèi)陷入局部最優(yōu),并影響運(yùn)算速度。而大量的特征值之間存在多重相關(guān)性,為此本發(fā)明實(shí)施例為解決目前初始聚類(lèi)劃分存在的問(wèn)題,首先對(duì)特征值進(jìn)行降維處理,例如可以將特征值的維數(shù)降至1至3維,這樣得到的處理后的特征值的維度降低,使得數(shù)據(jù)量下降,從而解決初始聚類(lèi)陷入局部最優(yōu)的問(wèn)題,并提高運(yùn)算速度。在本發(fā)明實(shí)施例中,對(duì)特征值進(jìn)行降維處理的一種方式是:采用主成分分析方法,具體是假設(shè)進(jìn)行主成分分析的特征值有m個(gè):x1~xm,共有n個(gè)待檢測(cè)網(wǎng)址,第i個(gè)待檢測(cè)網(wǎng)址的第j個(gè)特征值的取值為aij。將各特征值的取值aij轉(zhuǎn)換成標(biāo)準(zhǔn)化值a~ij=aij-μjsj,i=1,2,...n,j=1,2,...m]]>其中:即μj,sj為第j個(gè)特征值的樣本均值和樣本標(biāo)準(zhǔn)差。對(duì)應(yīng)地標(biāo)準(zhǔn)化的特征值為:計(jì)算相關(guān)系數(shù)矩陣其中,rii=1,rij=rji,rij是第i個(gè)特征值與第j個(gè)特征值的相關(guān)系數(shù),計(jì)算相關(guān)系數(shù)矩陣R的特征值λ1≥λ2≥…λm≥0,及對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量u1,u2…um,其中uj=[u1j,u2j,…umj]Τ,由特征向量組成待檢測(cè)網(wǎng)址的m個(gè)新的特征值如下:y1=u11x~1+u21x~2+...+um1x~my2=u12x~1+u22x~2+...+um2x~m...ym=u1mx~1+u2mx~2+...+ummx~m]]>其中:y1是第一個(gè)主成分,y2是第二個(gè)主成分,……ym是第m個(gè)主成分,從這m個(gè)主成分中選取p個(gè)主成分,將這p個(gè)主成分作為降維處理后得到的特征值,p≤m。然后確定p個(gè)主成分是否滿(mǎn)足預(yù)設(shè)條件,以確定采用哪些數(shù)據(jù)來(lái)獲得初始分類(lèi)個(gè)數(shù),確定p個(gè)主成分是否滿(mǎn)足預(yù)設(shè)條件的過(guò)程如下:計(jì)算特征值λj(j=1,2,…m)的信息貢獻(xiàn)率和累計(jì)貢獻(xiàn)率為主成分yj的信息貢獻(xiàn)率:bj=λjΣk=1mλk,j=1,2,...m.]]>而主成分y1,y2...,yp的累積貢獻(xiàn)率為:αp=Σk=1pλkΣk=1mλk.]]>當(dāng)選擇1至3個(gè)主成分且所選擇的主成分累計(jì)貢獻(xiàn)率大于0.5時(shí)(0.5說(shuō)明選擇的主成分可代表一半的原有信息),說(shuō)明處理后的特征值滿(mǎn)足預(yù)設(shè)條件,而由于一到三維數(shù)據(jù)可以可視化,所以在處理后的特征值滿(mǎn)足預(yù)設(shè)條件時(shí)運(yùn)用可視化方法,如利用Matlab軟件作出降維處理后的特征值的散點(diǎn)圖,進(jìn)而可以直觀判斷劃分的初始類(lèi)別個(gè)數(shù)以及每個(gè)分類(lèi)下的初始聚類(lèi)中心。當(dāng)累計(jì)貢獻(xiàn)率較小時(shí),如小于0.5,則說(shuō)明處理后的特征值不滿(mǎn)足預(yù)設(shè)條件,此時(shí)可以選用隨機(jī)初始化聚類(lèi)個(gè)數(shù)的方法來(lái)隨機(jī)選擇初始分類(lèi)個(gè)數(shù)和每個(gè)分類(lèi)下的初始聚類(lèi)中心。在本發(fā)明實(shí)施例中僅以主成分累計(jì)貢獻(xiàn)率的大小作為處理后的特征值是否滿(mǎn)足預(yù)設(shè)條件為例進(jìn)行說(shuō)明,但是本發(fā)明實(shí)施例并不限定其他預(yù)設(shè)條件,本領(lǐng)域技術(shù)人員可以通過(guò)其他方式對(duì)特征值進(jìn)行降維處理以及判斷處理后的特征值是否滿(mǎn)足預(yù)設(shè)條件,并采用相應(yīng)方式來(lái)確定初始分類(lèi)個(gè)數(shù),在確定初始分類(lèi)個(gè)數(shù)后,隨機(jī)選取每個(gè)分類(lèi)下的初始聚類(lèi)中心。504:周期性地計(jì)算每個(gè)初始聚類(lèi)中心的取值,在已計(jì)算出相鄰兩個(gè)周期下的初始聚類(lèi)中心后計(jì)算聚類(lèi)誤差并將ci(k)替換為ci(k+1),判斷聚類(lèi)誤差是否小于預(yù)設(shè)誤差,若是則結(jié)束剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算,若否則繼續(xù)剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算直至i和k的取值為c,其中,ci(k)和ci(k+1)為相鄰兩個(gè)周期計(jì)算得到的初始聚類(lèi)中心的取值,ci(k)為第k個(gè)周期得到的第i個(gè)分類(lèi)下所述初始聚類(lèi)中心的取值,ci(k+1)為第k+1個(gè)周期得到的第i個(gè)分類(lèi)下所述初始聚類(lèi)中心的取值,i=1,2,…,c,k=1,2,…,c,c為初始分類(lèi)個(gè)數(shù)。505:對(duì)所述第q個(gè)待檢測(cè)網(wǎng)址的特征值構(gòu)成的特征點(diǎn)xq,若則將特征點(diǎn)xq劃分至第i個(gè)分類(lèi)下,z=1,2,...,c,z≠i,q=1,2,…,n,n為所述待檢測(cè)網(wǎng)址的總數(shù),所述待檢測(cè)網(wǎng)址的分類(lèi)結(jié)果為每個(gè)特征點(diǎn)的分類(lèi)結(jié)果的集合。在本發(fā)明實(shí)施例中,初始聚類(lèi)中心的取值方式可以采用下述公式:其中uij為模糊隸屬度,c表示類(lèi)的數(shù)目,t網(wǎng)址的總個(gè)數(shù)(包括合法網(wǎng)址和非法網(wǎng)址,這些網(wǎng)址中含有待檢測(cè)網(wǎng)址,如后續(xù)實(shí)驗(yàn)根據(jù)PageRank選取出2000個(gè)網(wǎng)址),a∈[1,∞)是一個(gè)加權(quán)指數(shù),模糊隸屬度uij的計(jì)算公式如下:其中,dij為第i個(gè)聚類(lèi)中心與第j個(gè)數(shù)據(jù)點(diǎn)間的歐幾里德距離。上述確定初始分類(lèi)個(gè)數(shù)以及周期性計(jì)算初始聚類(lèi)中心的取值的過(guò)程可以是:步驟1:輸入待檢測(cè)網(wǎng)址的特征值;步驟2:運(yùn)用主成分分析確定初始分類(lèi)個(gè)數(shù)以及每個(gè)分類(lèi)下的初始聚類(lèi)中心;步驟3:預(yù)先設(shè)置加權(quán)指數(shù)a以及預(yù)設(shè)誤差ε的范圍;步驟4:通過(guò)初始聚類(lèi)中心確定聚類(lèi)中心與各點(diǎn)間的距離dij;步驟5:根據(jù)公式4計(jì)算模糊隸屬度;步驟6:按公式3求初始聚類(lèi)中心ci(k),i=1,2,…,c,并令循環(huán)周期k=1;步驟7:按公式4計(jì)算模糊隸屬度;步驟8:按公式3計(jì)算新的聚類(lèi)中心ci(k+1),i=1,2,…,c并代替原始聚類(lèi)中心ci(k);步驟9:計(jì)算誤差若e<ε運(yùn)算結(jié)束;否則k=k+1轉(zhuǎn)至步驟7;步驟10:對(duì)待檢測(cè)網(wǎng)址的特征值構(gòu)成的特征點(diǎn)xq進(jìn)行歸類(lèi),若z=1,2,...,c,z≠i,則把特征點(diǎn)xj歸入第i個(gè)分類(lèi)下。在這里需要說(shuō)明的一點(diǎn)是:k作為循環(huán)周期,在e<ε的情況下,循環(huán)周期k停止自動(dòng)加1,而在e大于等于ε的情況下,循環(huán)周期k會(huì)自動(dòng)加1;并且對(duì)于每個(gè)特征值xj來(lái)說(shuō),一定存在一個(gè)初始聚類(lèi)中心,使得點(diǎn)到該聚類(lèi)中心的距離小于等于該點(diǎn)到其他初始聚類(lèi)中心的距離?;诒景l(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)方法,本發(fā)明實(shí)施例從開(kāi)放式分類(lèi)目錄網(wǎng)站(OpenDirectoryProject,DMOZ)中根據(jù)PageRank選取出2000個(gè)網(wǎng)址,其中合法網(wǎng)址為1000個(gè),非法網(wǎng)址為1000個(gè),并從這2000個(gè)網(wǎng)址中選取1800個(gè)網(wǎng)址作為訓(xùn)練集,200個(gè)網(wǎng)址作為測(cè)試集。最后用多種機(jī)器學(xué)習(xí)算法進(jìn)行最終分析,并且每種機(jī)器學(xué)習(xí)算法分別采用現(xiàn)有技術(shù)以及本發(fā)明實(shí)施例提供的技術(shù)方案(本發(fā)明實(shí)施例中增加了URL相關(guān)特征值以及初始分類(lèi)結(jié)果)進(jìn)行準(zhǔn)確率的對(duì)比。其中準(zhǔn)確率從五個(gè)方面進(jìn)行判斷:真陽(yáng)性(TruePositive,TP):非法網(wǎng)址判定為非法網(wǎng)址的數(shù)量;真陰性(TrueNegative,TN):合法網(wǎng)址判定為合法網(wǎng)址的數(shù)量;假陰性(FalseNegative,F(xiàn)N):非法網(wǎng)址判定為合法網(wǎng)址,該情況屬于漏判;假陽(yáng)性(FalsePositive,F(xiàn)P):合法網(wǎng)址判定為非法網(wǎng)址,該情況屬于誤判。平均準(zhǔn)確率:AVG=(TP+TN)/2。為提高網(wǎng)址檢測(cè)的準(zhǔn)確率,上述選取出的2000個(gè)網(wǎng)址在運(yùn)行時(shí)采用10折交叉驗(yàn)證(10-foldcross-validation),即將選取除的2000個(gè)網(wǎng)址分成十份,輪流將其中9份作為訓(xùn)練集,1份作為測(cè)試集進(jìn)行試驗(yàn)。每次試驗(yàn)都會(huì)得出相應(yīng)的正確率(或差錯(cuò)率),10次的結(jié)果的正確率(或差錯(cuò)率)的平均值作為對(duì)算法精度的估計(jì)。在應(yīng)用本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)方法時(shí),編號(hào)1~1000為非法網(wǎng)址,編號(hào)1001~2000為合法網(wǎng)址,在輸入特征值后,運(yùn)用主成分分析進(jìn)行降維處理,降維結(jié)果可視化,如圖6所示?;趫D6可以將網(wǎng)址分為三類(lèi),并運(yùn)用模糊C均值(FuzzyC-means,F(xiàn)CM)算法確定類(lèi)別標(biāo)簽,部分標(biāo)簽表3所示:表3類(lèi)別標(biāo)簽基于上述初始分類(lèi)結(jié)果,運(yùn)用邏輯回歸、J48和文獻(xiàn)“J.Ma,L.K.Saul,S.Savage,G.M.Voelker,Beyondblacklists:LearningtodetectmaliciouswebsitesfromsuspiciousURLs,In:Proc.15thACMSIGKDDInt.Conf.KnowledgeDiscoveryandDataMining,Paris,France,2009,pp.1245-1254”,采用現(xiàn)有技術(shù)和本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)方法進(jìn)行檢測(cè),并在得出網(wǎng)址檢測(cè)的準(zhǔn)確率后進(jìn)行對(duì)比,對(duì)比結(jié)果如表4所示:表4準(zhǔn)確率比對(duì)結(jié)果其中新特征是URL相關(guān)特征值和初始分類(lèi)結(jié)果,通過(guò)上表4可以看出,運(yùn)用機(jī)器學(xué)習(xí)方法如LR、J48和文獻(xiàn)對(duì)待檢測(cè)網(wǎng)址進(jìn)行分類(lèi),使用本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)方法相對(duì)于現(xiàn)有技術(shù)來(lái)說(shuō),準(zhǔn)確率有了一定的提高,進(jìn)而表明本發(fā)明實(shí)施例的特征提取具有一定的可用性與合理性。對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。與上述方法實(shí)施例相對(duì)應(yīng),本發(fā)明實(shí)施例還提供一種網(wǎng)址檢測(cè)裝置,其結(jié)構(gòu)示意圖如圖7所示,可以包括:獲得單元11、第一分類(lèi)單元12和第二分類(lèi)單元13。獲得單元11,用于獲得待檢測(cè)網(wǎng)址中的特征值,特征值至少包括:URL相關(guān)特征值,URL相關(guān)特征值用于指示待檢測(cè)網(wǎng)址與預(yù)先建立的合法網(wǎng)絡(luò)庫(kù)中易受攻擊的合法網(wǎng)址之間的相關(guān)程度。發(fā)明人對(duì)非法網(wǎng)站進(jìn)行研究發(fā)現(xiàn),目前的非法網(wǎng)站只與少部分排名靠前且有利可圖的網(wǎng)址即易受攻擊的合法網(wǎng)址相關(guān),因此在獲取待檢測(cè)網(wǎng)址的特征值時(shí)需要獲取到指示待檢測(cè)網(wǎng)址與合法網(wǎng)址的相關(guān)程度的URL相關(guān)特征值,以確定待檢測(cè)網(wǎng)址和合法網(wǎng)址是否相關(guān),進(jìn)一步至少基于URL相關(guān)特征值對(duì)待檢測(cè)網(wǎng)址進(jìn)行檢測(cè)。而經(jīng)檢測(cè)目前易受攻擊的合法網(wǎng)址,在中國(guó)排名前六的合法網(wǎng)址(淘寶網(wǎng)、阿里巴巴、新浪、騰訊、中央電視臺(tái)和中國(guó)工商銀行)的舉報(bào)量占到總舉報(bào)量的95.1%。在世界范圍內(nèi)同樣集中攻擊少部分受歡迎的網(wǎng)址,比如PayPAL(全球最大的在線(xiàn)支付平臺(tái))和Tibia(一款網(wǎng)游)等。為此本發(fā)明實(shí)施例通過(guò)爬取各大搜索引擎提供的排名在前預(yù)設(shè)條數(shù)(比如500條,具體取值不限)的URL,并對(duì)常受攻擊的URL進(jìn)行收集,建立合法網(wǎng)址庫(kù),所述合法網(wǎng)址庫(kù)中存儲(chǔ)有易受攻擊的合法網(wǎng)址的URL。第一分類(lèi)單元12,用于基于待檢測(cè)網(wǎng)址中的特征值,對(duì)待檢測(cè)網(wǎng)址進(jìn)行初始分類(lèi),得到待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果。第二分類(lèi)單元13,用于基于待檢測(cè)網(wǎng)址中的特征值和待檢測(cè)網(wǎng)址的初始分類(lèi)結(jié)果,對(duì)待檢測(cè)網(wǎng)址進(jìn)行最終分類(lèi),得到待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果,待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果用于指示待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型。也就是說(shuō),在本發(fā)明實(shí)施例中,對(duì)待檢測(cè)網(wǎng)址進(jìn)行兩次分類(lèi),其中第一次分類(lèi)是基于待檢測(cè)網(wǎng)址中的特征值對(duì)待檢測(cè)網(wǎng)址進(jìn)行粗分類(lèi),得到的初始分類(lèi)結(jié)果連同待檢測(cè)網(wǎng)址的特征值作為第二次檢測(cè)的檢測(cè)基礎(chǔ),通過(guò)第二次檢測(cè)得到待檢測(cè)網(wǎng)址的最終分類(lèi)結(jié)果,即最終分類(lèi)結(jié)果指示出待檢測(cè)網(wǎng)址所屬網(wǎng)址類(lèi)型,如待檢測(cè)網(wǎng)址是非法網(wǎng)址還是合法網(wǎng)址。從上述技術(shù)方案可知,本發(fā)明實(shí)施例在檢測(cè)待檢測(cè)網(wǎng)址所屬類(lèi)型時(shí),在基于的檢測(cè)基礎(chǔ)——特征值中加入統(tǒng)一資源定位符相關(guān)特征值,統(tǒng)一資源定位符相關(guān)特征值用于指示待檢測(cè)網(wǎng)址與易受攻擊的合法網(wǎng)址之間的相關(guān)程度,并且發(fā)明人發(fā)現(xiàn)非法網(wǎng)址(如惡意的釣魚(yú)網(wǎng)站)均與易受攻擊的合法網(wǎng)址相關(guān),因此在基于加入有統(tǒng)一資源定位符相關(guān)特征值的檢測(cè)基礎(chǔ)檢測(cè)待檢測(cè)網(wǎng)址所屬類(lèi)型時(shí),可以提高網(wǎng)址檢測(cè)的準(zhǔn)確度。在本發(fā)明實(shí)施例中,獲得單元11的結(jié)構(gòu)示意圖如圖8所示,可以包括:提取子單元111、計(jì)算子單元112和獲得子單元113。提取子單元111,用于從待檢測(cè)網(wǎng)址中提取詞匯特征值和主機(jī)信息相關(guān)特征值。其中詞匯特征值和主機(jī)信息相關(guān)特征值是檢測(cè)待檢測(cè)網(wǎng)址中,除URL相關(guān)特征值之外的另兩個(gè)主要特征值,對(duì)于這兩個(gè)主要特征值所關(guān)聯(lián)的特征介紹可以參閱方法實(shí)施例部分。計(jì)算子單元112,用于計(jì)算待檢測(cè)網(wǎng)址的URL和合法網(wǎng)址庫(kù)中每個(gè)合法網(wǎng)址的URL之間的相同距離比值和相異距離比值。具體的計(jì)算子單元112包括:對(duì)比子單元、第一計(jì)算子單元和第二計(jì)算子單元。對(duì)比子單元,用于將待檢測(cè)網(wǎng)址的URL和合法網(wǎng)址庫(kù)中每個(gè)合法網(wǎng)址的URL進(jìn)行對(duì)比,得出待檢測(cè)網(wǎng)址的URL轉(zhuǎn)變?yōu)閷?duì)應(yīng)的合法網(wǎng)址的URL所需的轉(zhuǎn)變次數(shù)以及得出待檢測(cè)網(wǎng)址的URL與對(duì)應(yīng)的合法網(wǎng)址的URL之間相匹配的字符數(shù)。第一計(jì)算子單元,用于將轉(zhuǎn)變次數(shù)與合法網(wǎng)址的URL的字符總數(shù)的比值作為待檢測(cè)網(wǎng)址與對(duì)應(yīng)的合法網(wǎng)址的相異距離比值。第二計(jì)算子單元,用于將相匹配的字符數(shù)與合法網(wǎng)址的URL的字符總數(shù)的比值作為待檢測(cè)網(wǎng)址與對(duì)應(yīng)的合法網(wǎng)址的相同距離比值。獲得子單元113,用于基于每個(gè)相同距離比值和每個(gè)相異距離比值,得到待檢測(cè)網(wǎng)址的唯一的URL相關(guān)特征值。具體的,獲得子單元113,用于計(jì)算每個(gè)相同距離比值的第一加權(quán)值和計(jì)算每個(gè)相異距離比值的第二加權(quán)值,對(duì)每個(gè)合法網(wǎng)址,計(jì)算同一個(gè)合法網(wǎng)址的第一加權(quán)值和第二加權(quán)值的差值,并從每個(gè)合法網(wǎng)址的差值中選取取值最小的差值作為待檢測(cè)網(wǎng)址的唯一的URL相關(guān)特征值。請(qǐng)參閱圖9,其示出了本發(fā)明實(shí)施例提供的網(wǎng)址檢測(cè)裝置中第一分類(lèi)單元12的結(jié)構(gòu)示意圖,可以包括:降維處理子單元121、確定子單元122、取值計(jì)算子單元123和劃分子單元124。降維處理子單元121,用于對(duì)待檢測(cè)網(wǎng)址的特征值進(jìn)行降維處理,得到處理后的特征值。確定子單元122,用于當(dāng)處理后的特征值滿(mǎn)足預(yù)設(shè)條件時(shí),基于處理后的特征值確定初始分類(lèi)個(gè)數(shù)。當(dāng)處理后的特征值不滿(mǎn)足預(yù)設(shè)條件時(shí),隨機(jī)確定初始分類(lèi)個(gè)數(shù)。以及用于在確定初始分類(lèi)個(gè)數(shù)后,隨機(jī)選取每個(gè)分類(lèi)的初始聚類(lèi)中心。取值計(jì)算子單元123,用于周期性地計(jì)算每個(gè)初始聚類(lèi)中心的取值,在已計(jì)算出相鄰兩個(gè)周期下的初始聚類(lèi)中心后計(jì)算聚類(lèi)誤差并將ci(k)替換為ci(k+1),判斷聚類(lèi)誤差是否小于預(yù)設(shè)誤差,若是則結(jié)束剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算,若否則繼續(xù)剩余周期下對(duì)初始聚類(lèi)中心的取值的計(jì)算,其中ci(k)和ci(k+1)為相鄰兩個(gè)周期計(jì)算得到的初始聚類(lèi)中心的取值,ci(k)為第k個(gè)周期得到的第i個(gè)分類(lèi)下初始聚類(lèi)中心的取值,ci(k+1)為第k+1個(gè)周期得到的第i個(gè)分類(lèi)下初始聚類(lèi)中心的取值,i=1,2,…,c,c為初始分類(lèi)個(gè)數(shù)。劃分子單元124,用于對(duì)第q個(gè)待檢測(cè)網(wǎng)址的特征值構(gòu)成的特征點(diǎn)xq,若則將特征點(diǎn)xq劃分至第i個(gè)分類(lèi)下,z=1,2,...,c,z≠i,q=1,2,…,n,n為待檢測(cè)網(wǎng)址的總數(shù),待檢測(cè)網(wǎng)址的分類(lèi)結(jié)果為每個(gè)特征點(diǎn)的分類(lèi)結(jié)果的集合。需要說(shuō)明的是,本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。對(duì)于裝置類(lèi)實(shí)施例而言,尤其是對(duì)于裝置類(lèi)實(shí)施例中的各個(gè)子單元,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處以及各個(gè)子單元的處理過(guò)程參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域
的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
长岭县| 乌拉特前旗| 甘谷县| 双峰县| 伊金霍洛旗| 扬州市| 商都县| 泸定县| 耿马| 雅安市| 乌鲁木齐县| 平罗县| 榆树市| 南平市| 瑞丽市| 新河县| 花莲县| 卢湾区| 鄂托克前旗| 综艺| 兴宁市| 海盐县| 运城市| 武宣县| 克拉玛依市| 仙桃市| 武城县| 科尔| 白沙| 商都县| 呼伦贝尔市| 邳州市| 建湖县| 佛山市| 和顺县| 红原县| 兰坪| 农安县| 景德镇市| 迁安市| 闽侯县|