識(shí)別釣魚網(wǎng)站的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)安全領(lǐng)域,尤其涉及一種識(shí)別釣魚網(wǎng)站的方法及裝置。
【背景技術(shù)】
[0002]釣魚網(wǎng)站通常是指?jìng)窝b成銀行網(wǎng)站或電子商務(wù)網(wǎng)站、用以竊取用戶提交的私人信息的網(wǎng)站。不法分子利用各種手段仿冒真實(shí)網(wǎng)站的統(tǒng)一資源定位符(Uniform ResourceLocator,簡(jiǎn)稱URL)及頁(yè)面內(nèi)容,誘導(dǎo)用戶訪問仿冒的頁(yè)面內(nèi)容,以此來騙取用戶輸入的銀行帳號(hào)、密碼等私人信息。釣魚網(wǎng)站的出現(xiàn)嚴(yán)重影響了在線金融服務(wù)的發(fā)展,破壞了公眾使用互聯(lián)網(wǎng)的信心。因此對(duì)釣魚網(wǎng)站進(jìn)行有效識(shí)別就成為互聯(lián)網(wǎng)安全領(lǐng)域中的一項(xiàng)重要工作。
[0003]現(xiàn)有識(shí)別釣魚網(wǎng)站的方式為:向第三方域名注冊(cè)網(wǎng)站查詢目標(biāo)網(wǎng)站的域名注冊(cè)信息或者證書信息,通過對(duì)域名注冊(cè)信息或證書信息的查驗(yàn),判斷目標(biāo)網(wǎng)站是否為釣魚網(wǎng)站。例如,當(dāng)目標(biāo)網(wǎng)站的域名注冊(cè)時(shí)間與當(dāng)前的查詢時(shí)間很靠近時(shí),說明目標(biāo)網(wǎng)站是新近注冊(cè)的網(wǎng)站,這種情況屬于釣魚網(wǎng)站的特點(diǎn)之一?;蛘撸?dāng)域名過期而且未續(xù)展時(shí),目標(biāo)網(wǎng)站為釣魚網(wǎng)站的嫌疑也比較大。
[0004]現(xiàn)有方式主要以來自域名注冊(cè)方的域名信息作為識(shí)別釣魚網(wǎng)站的依據(jù),但是域名信息并不能直接反映釣魚網(wǎng)站的頁(yè)面特征,例如仿冒其他網(wǎng)站頁(yè)面樣式、顯示詐騙信息等。現(xiàn)有方式只能是對(duì)釣魚網(wǎng)站的域名信息進(jìn)行規(guī)律總結(jié),通過域名信息的規(guī)律性特點(diǎn)對(duì)釣魚網(wǎng)站進(jìn)行識(shí)別,因此這種方式的準(zhǔn)確性較低。例如,某些正規(guī)網(wǎng)站也可能是最近一段時(shí)間注冊(cè)上線的,不能因?yàn)橛蛎?cè)時(shí)間較晚就將其確定為釣魚網(wǎng)站;再例如,某些正規(guī)網(wǎng)站可能會(huì)在域名過期后忘記續(xù)展(當(dāng)然,一定期限內(nèi)可以贖回域名),僅因域名過期就將網(wǎng)站確定為釣魚網(wǎng)站,這樣做顯然也是欠妥的。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供了一種識(shí)別釣魚網(wǎng)站的方法及裝置,能夠解決釣魚網(wǎng)站識(shí)別準(zhǔn)確度低的問題。
[0006]為解決上述問題,一方面本發(fā)明提供了一種識(shí)別釣魚網(wǎng)站的方法,該方法包括:
[0007]獲取已知釣魚網(wǎng)站的頁(yè)面,作為樣本頁(yè)面;
[0008]從樣本頁(yè)面中提取頁(yè)面的特征向量;
[0009]通過頁(yè)面的特征向量訓(xùn)練檢測(cè)模型;
[0010]使用檢測(cè)模型對(duì)未知頁(yè)面進(jìn)行檢測(cè),獲得未知頁(yè)面是否為釣魚網(wǎng)站頁(yè)面的檢測(cè)結(jié)果O
[0011]另一方面本發(fā)明還提供了一種識(shí)別釣魚網(wǎng)站的裝置,該裝置包括:
[0012]獲取單元,用于獲取已知釣魚網(wǎng)站的頁(yè)面,作為樣本頁(yè)面;
[0013]提取單元,用于從樣本頁(yè)面中提取頁(yè)面的特征向量;
[0014]訓(xùn)練單元,用于通過頁(yè)面的特征向量訓(xùn)練檢測(cè)模型;
[0015]檢測(cè)單元,用于使用檢測(cè)模型對(duì)未知頁(yè)面進(jìn)行檢測(cè),獲得未知頁(yè)面是否為釣魚網(wǎng)站頁(yè)面的檢測(cè)結(jié)果。
[0016]本發(fā)明提供的識(shí)別釣魚網(wǎng)站的方法及裝置,能夠以已知釣魚網(wǎng)站的頁(yè)面為樣本頁(yè)面,通過頁(yè)面中的特征向量訓(xùn)練檢測(cè)模型。然后使用檢測(cè)模型對(duì)未知頁(yè)面進(jìn)行檢測(cè),如果未知頁(yè)面具有與樣本頁(yè)面相同或相似的特征向量,則可以確定未知頁(yè)面為釣魚網(wǎng)站頁(yè)面。與現(xiàn)有技術(shù)中相比,本發(fā)明以能夠直接反映釣魚網(wǎng)站樣式特點(diǎn)的頁(yè)面特征向量作為識(shí)別釣魚網(wǎng)站的判斷依據(jù),并且使用檢測(cè)模型對(duì)大量釣魚網(wǎng)站頁(yè)面的特征向量進(jìn)行學(xué)習(xí),以盡量全面的吸收各種釣魚網(wǎng)站頁(yè)面的樣式特點(diǎn),因此可以提高識(shí)別釣魚網(wǎng)站的準(zhǔn)確度。
[0017]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0018]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0019]圖1示出了本發(fā)明實(shí)施例提供的一種識(shí)別釣魚網(wǎng)站的方法流程圖;
[0020]圖2示出了本發(fā)明實(shí)施例提供的另一種識(shí)別釣魚網(wǎng)站的方法流程圖;
[0021]圖3示出了本發(fā)明實(shí)施例提供的一種識(shí)別釣魚網(wǎng)站的裝置的組成框圖;
[0022]圖4示出了本發(fā)明實(shí)施例提供的另一種識(shí)別釣魚網(wǎng)站的裝置的組成框圖。
【具體實(shí)施方式】
[0023]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0024]本發(fā)明實(shí)施例提供了一種識(shí)別釣魚網(wǎng)站的方法,如圖1所示,該方法包括:
[0025]101、獲取已知釣魚網(wǎng)站的頁(yè)面,作為樣本頁(yè)面。
[0026]本發(fā)明實(shí)施例可以由第三方的安全服務(wù)器或監(jiān)控客戶端進(jìn)行實(shí)現(xiàn)。監(jiān)控客戶端的實(shí)體形式包括但不限于是手機(jī)、個(gè)人電腦(Personal Computer,簡(jiǎn)稱PC)、平板電腦以及可穿戴式電子設(shè)備。為便于表述本發(fā)明實(shí)施例后續(xù)將以安全服務(wù)器為例進(jìn)行說明。
[0027]本實(shí)施例中,訓(xùn)練檢測(cè)模型的數(shù)據(jù)材料是已知釣魚網(wǎng)站的網(wǎng)頁(yè)頁(yè)面,服務(wù)器可以通過現(xiàn)有手段收集已知釣魚網(wǎng)站的網(wǎng)頁(yè)頁(yè)面,包括但不限于是:1、通過頁(yè)面的URL請(qǐng)求獲??;2、通過網(wǎng)絡(luò)用戶舉報(bào)獲取;3、向第三方監(jiān)管機(jī)構(gòu)獲??;4、通過網(wǎng)絡(luò)爬蟲獲取。實(shí)際應(yīng)用中,訓(xùn)練檢測(cè)模型的數(shù)據(jù)材料可以一次性給出,也可以隨時(shí)間的推移不斷進(jìn)行增量更新,本實(shí)施例不對(duì)數(shù)據(jù)材料的數(shù)量進(jìn)行限制。
[0028]102、從樣本頁(yè)面中提取頁(yè)面的特征向量。
[0029]釣魚網(wǎng)站的頁(yè)面(后續(xù)簡(jiǎn)稱為釣魚頁(yè)面)與正規(guī)網(wǎng)站的頁(yè)面之間,在內(nèi)容及結(jié)構(gòu)樣式上存在一些差異,例如釣魚頁(yè)面的超文本標(biāo)記語言(HyperText Markup Language,簡(jiǎn)稱HTML)中通常會(huì)存在title標(biāo)簽嵌套的現(xiàn)象,而正規(guī)頁(yè)面則不會(huì)出現(xiàn)此問題,或者釣魚頁(yè)面正文中存在仿冒銀行網(wǎng)站或電子商務(wù)網(wǎng)站的中獎(jiǎng)信息等。本實(shí)施例中,將這些能夠體現(xiàn)釣魚網(wǎng)站特點(diǎn)的信息稱之為特征向量,服務(wù)器從釣魚頁(yè)面中提取這些特征向量,對(duì)檢測(cè)模型進(jìn)行訓(xùn)練,以使檢測(cè)模型獲得識(shí)別釣魚網(wǎng)站的判斷標(biāo)準(zhǔn),從而在后續(xù)可以對(duì)釣魚網(wǎng)站的頁(yè)面進(jìn)行有效識(shí)別。本實(shí)施例中,特征向量可以來自于頁(yè)面的HTML源代碼中,也可以是頁(yè)面中呈現(xiàn)的圖文信息,本實(shí)施例對(duì)此不作限制。
[0030]實(shí)際應(yīng)用中樣本頁(yè)面的數(shù)量和種類越多,檢測(cè)模型的識(shí)別準(zhǔn)確度就越高。
[0031]103、通過頁(yè)面的特征向量訓(xùn)練檢測(cè)模型。
[0032]使用從樣本頁(yè)面中提取的特征向量對(duì)檢測(cè)模型進(jìn)行訓(xùn)練。本實(shí)施例中,可以通過機(jī)器學(xué)習(xí)的方式訓(xùn)練檢測(cè)模型。在學(xué)習(xí)方式上具體可以包括監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)、半監(jiān)督式學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。在學(xué)習(xí)算法的種類方面,可以包括回歸算法、基于實(shí)例的算法、正則化算法、決策樹算法、貝葉斯算法、基于核的算法、聚類算法、分類算法、關(guān)聯(lián)規(guī)則算法、人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、降低維度算法、集成算法等。本實(shí)施例不對(duì)訓(xùn)練檢測(cè)模型的方式進(jìn)行具體限制。
[0033]104、使用檢測(cè)模型對(duì)未知頁(yè)面進(jìn)行檢測(cè),獲得未知頁(yè)面是否為釣魚網(wǎng)站頁(yè)面的檢測(cè)結(jié)果。
[0034]在獲得檢測(cè)模型后就可以使用該模型對(duì)未知頁(yè)面進(jìn)行檢測(cè)了。所謂未知頁(yè)面就是作為檢測(cè)對(duì)象的目標(biāo)網(wǎng)站的頁(yè)面。檢測(cè)未知頁(yè)面的目的在于判斷該頁(yè)面是否為釣魚網(wǎng)站的頁(yè)面。
[0035]在本實(shí)施例的一種實(shí)現(xiàn)方式中,可以不給出位置頁(yè)面是否為釣魚頁(yè)面的定性結(jié)論,而是給出未知頁(yè)面可能為釣魚頁(yè)面的概率大小,本實(shí)施例不對(duì)檢測(cè)結(jié)果的形式和內(nèi)容進(jìn)行具體限制,一切基于特征向量檢測(cè)給出的、能夠?yàn)橛脩粽鐒e釣魚網(wǎng)站提供指導(dǎo)性意見的信息均包含于所述檢測(cè)結(jié)果的范疇內(nèi)。
[0036]在對(duì)未知頁(yè)面進(jìn)行檢測(cè)時(shí),需要從未知頁(yè)面中提取特征向量,這里所述的特征向量是指與前述樣本頁(yè)面的特征向量在結(jié)構(gòu)或內(nèi)容上對(duì)應(yīng)的信息,但兩者并不一定是在結(jié)果或內(nèi)容上相同。這是由于,對(duì)于未知頁(yè)面而言,其有可能是釣魚頁(yè)面也有可能是正規(guī)頁(yè)面,當(dāng)為釣魚頁(yè)面時(shí),其特征向量會(huì)與某個(gè)或某些樣本頁(yè)面的特征向量相同,當(dāng)為正規(guī)頁(yè)面時(shí),其特征向量與樣本頁(yè)面的特征向量不同。在提取未知頁(yè)面的特征向量時(shí)無需也無法確定其特征向量的性質(zhì),只要按照提取樣本頁(yè)面特征向量的方式從未知頁(yè)面中提取對(duì)應(yīng)位置上的內(nèi)容即可。
[0037]在獲得未知頁(yè)面的特征向量后,使用檢測(cè)模型對(duì)其進(jìn)行檢測(cè),若符合檢測(cè)標(biāo)準(zhǔn)或檢測(cè)規(guī)則,則確定其為釣魚頁(yè)面,否則確定其為安全頁(yè)面。當(dāng)然,實(shí)際應(yīng)用中也可以根據(jù)特征向量與檢測(cè)標(biāo)準(zhǔn)或檢測(cè)規(guī)則的匹配程度,給出未知頁(yè)面為釣魚頁(yè)面的概率大小。
[0038]本實(shí)施例中,可以將樣本頁(yè)面及未知頁(yè)面直接輸入到檢測(cè)模型中,無需單獨(dú)執(zhí)行特征向量提取的步驟。實(shí)際應(yīng)用中可以為檢測(cè)模型提供頁(yè)面的存儲(chǔ)路徑,或者通過專用的人機(jī)交互界面將外部輸入的頁(yè)面發(fā)送給檢測(cè)模型,本實(shí)施例對(duì)此不作限制。
[0039]本發(fā)明實(shí)施例提供的識(shí)別釣魚網(wǎng)站的方法,能夠以已知釣魚網(wǎng)站的頁(yè)面為樣本頁(yè)面,通過頁(yè)面中的特征向量訓(xùn)練檢測(cè)模型。然后使用檢測(cè)模型對(duì)未知頁(yè)面進(jìn)行檢測(cè),如果未知頁(yè)面具有與樣本頁(yè)面相同或相似的特征向量,則可以確定未知頁(yè)面為釣魚網(wǎng)站頁(yè)面。與現(xiàn)有技術(shù)中相比,本發(fā)明實(shí)施例以能夠直接反映釣魚網(wǎng)站樣式特點(diǎn)的頁(yè)面特征向量作為識(shí)別釣魚網(wǎng)站的判斷依據(jù),并且使用檢測(cè)模型對(duì)大量釣魚網(wǎng)站頁(yè)面的特征向量進(jìn)行學(xué)習(xí),以盡量全面的吸收各種釣魚網(wǎng)站頁(yè)面的樣式特點(diǎn),因此可以提高識(shí)別釣魚網(wǎng)站的準(zhǔn)確度。
[0040]進(jìn)一步的,作為對(duì)圖1所示方法的細(xì)化和擴(kuò)展,本發(fā)明實(shí)施例還提供了一種識(shí)別釣魚網(wǎng)站的方法,如圖2所示,該方法包括:
[0041]201、獲取已知釣魚網(wǎng)站的頁(yè)面,作為樣本頁(yè)面。