欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法及裝置制造方法

文檔序號(hào):6630126閱讀:256來源:國(guó)知局
基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法及裝置,特征向量模型是根據(jù)大量樣本網(wǎng)頁(yè)的站點(diǎn)特征信息獲取樣本網(wǎng)頁(yè)的特征向量,并對(duì)樣本網(wǎng)頁(yè)的特征向量組成的矩陣進(jìn)行訓(xùn)練得到的,通過特征向量模型將樣本空間劃分多個(gè)特征空間;方法包括:提取瀏覽器所打開第一網(wǎng)頁(yè)的URL,根據(jù)URL得到第一網(wǎng)頁(yè)所屬站點(diǎn)的站點(diǎn)特征信息;根據(jù)第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定第一網(wǎng)頁(yè)的特征向量;將第一網(wǎng)頁(yè)的特征向量輸入到特征向量模型中,得到第一網(wǎng)頁(yè)所屬的特征空間,根據(jù)第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。本發(fā)明無需提前下載該第一網(wǎng)頁(yè),從而規(guī)避了釣魚作者對(duì)釣魚網(wǎng)站所設(shè)的防護(hù),通過自動(dòng)的方式對(duì)第一網(wǎng)頁(yè)進(jìn)行識(shí)別,節(jié)省了人力資源。
【專利說明】基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方 法及裝置。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,基于WEB的應(yīng)用日益普及,人們通過瀏覽器可以查詢銀行賬 戶、網(wǎng)上購(gòu)物、電子商務(wù)、查詢信息、獲取知識(shí)、進(jìn)行娛樂等,WEB為人們提供了方便和快捷的 交互方式。然而,人們?cè)谏暇W(wǎng)沖浪瀏覽網(wǎng)頁(yè)的同時(shí),經(jīng)常會(huì)遭遇到惡意網(wǎng)站的侵襲,導(dǎo)致計(jì) 算機(jī)被病毒、木馬等感染。
[0003] 惡意網(wǎng)站,例如釣魚網(wǎng)站、或者是欺詐,仿冒網(wǎng)站等,主要是通過仿冒真實(shí)網(wǎng)站的 URL地址或是網(wǎng)頁(yè)內(nèi)容,偽裝成銀行及電子商務(wù)等類型的網(wǎng)站,或是利用真實(shí)網(wǎng)站服務(wù)器程 序上的漏洞,在該網(wǎng)站的某些網(wǎng)頁(yè)中插入危險(xiǎn)的網(wǎng)頁(yè)代碼,以此來騙取用戶銀行或信用卡 賬號(hào)、密碼等私人資料。惡意網(wǎng)頁(yè)中包含著許多敏感的特征,例如,金融欺詐類的惡意網(wǎng)頁(yè) 會(huì)在文字、圖片等方面仿冒官網(wǎng),或是在真實(shí)網(wǎng)頁(yè)中插入虛假票務(wù)、虛假中獎(jiǎng)、假冒網(wǎng)銀、虛 假購(gòu)物等信息,這些特征大多以文本串的形式出現(xiàn)在網(wǎng)頁(yè)中。
[0004] 現(xiàn)有的為了防范惡意網(wǎng)站的主要手段是當(dāng)用戶訪問某網(wǎng)站時(shí),客戶端將網(wǎng)站的 URL發(fā)送至服務(wù)器端的黑白名單數(shù)據(jù)庫(kù)進(jìn)行查詢,然而由于釣魚網(wǎng)站不斷更新?lián)Q代,這種方 法對(duì)釣魚網(wǎng)站等惡意網(wǎng)站的檢出率不高并具有滯后性。或者是通過基于文本的方法進(jìn)行識(shí) 另IJ,例如通過提取頁(yè)面中關(guān)鍵詞,并將關(guān)鍵詞上傳至服務(wù)器,在黑名單數(shù)據(jù)庫(kù)中匹配,這種 方法效率比較低下,而且容易受文字順序等因素的影響,誤判率較高。


【發(fā)明內(nèi)容】

[0005] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法和相應(yīng)的基于特征向量模型識(shí)別釣魚網(wǎng) 頁(yè)的裝置。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法,所 述特征向量模型是根據(jù)大量樣本網(wǎng)頁(yè)的站點(diǎn)特征信息獲取各個(gè)樣本網(wǎng)頁(yè)的特征向量,并對(duì) 各個(gè)樣本網(wǎng)頁(yè)的特征向量組成的矩陣進(jìn)行訓(xùn)練得到的,通過所述特征向量模型將樣本空間 劃分多個(gè)特征空間;
[0007] 所述方法包括:
[0008] 提取瀏覽器所打開第一網(wǎng)頁(yè)的URL,根據(jù)所述URL得到所述第一網(wǎng)頁(yè)所屬站點(diǎn)的 站點(diǎn)特征信息;
[0009] 根據(jù)所述第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定所述第一網(wǎng)頁(yè)的特征向量;
[0010] 將所述第一網(wǎng)頁(yè)的特征向量輸入到所述特征向量模型中,得到所述第一網(wǎng)頁(yè)所屬 的特征空間,根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。
[0011] 根據(jù)本發(fā)明的另一方面,提供了一種基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的裝置。所 述裝置包括:
[0012] 特征向量模型訓(xùn)練模塊,適于根據(jù)大量樣本網(wǎng)頁(yè)的站點(diǎn)特征信息獲取各個(gè)樣本網(wǎng) 頁(yè)的特征向量,并對(duì)各個(gè)樣本網(wǎng)頁(yè)的特征向量組成的矩陣進(jìn)行訓(xùn)練得到特征向量模型,通 過所述特征向量模型將樣本空間劃分多個(gè)特征空間;
[0013] 提取模塊,適于提取瀏覽器所打開第一網(wǎng)頁(yè)的URL ;
[0014] 獲取模塊,適于根據(jù)所述URL得到所述第一網(wǎng)頁(yè)所屬站點(diǎn)的站點(diǎn)特征信息;
[0015] 確定模塊,適于根據(jù)所述第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定所述第一網(wǎng)頁(yè)的特征向 量;
[0016] 輸入模塊,適于將所述第一網(wǎng)頁(yè)的特征向量輸入到所述特征向量模型中,得到所 述第一網(wǎng)頁(yè)所屬的特征空間;
[0017] 識(shí)別模塊,適于根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng) 頁(yè)。
[0018] 根據(jù)本發(fā)明提供的方案,提取瀏覽器所打開第一網(wǎng)頁(yè)的URL,根據(jù)所述URL得到所 述第一網(wǎng)頁(yè)所屬站點(diǎn)的站點(diǎn)特征信息;根據(jù)所述第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定所述第一 網(wǎng)頁(yè)的特征向量;將所述第一網(wǎng)頁(yè)的特征向量輸入到所述特征向量模型中,得到所述第一 網(wǎng)頁(yè)所屬的特征空間,根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。 本發(fā)明無需提前下載該第一網(wǎng)頁(yè),從而規(guī)避了釣魚作者對(duì)釣魚網(wǎng)站所設(shè)的防護(hù),此外,節(jié)省 了人力資源,不需要人工加規(guī)則,通過自動(dòng)的方式對(duì)第一網(wǎng)頁(yè)進(jìn)行識(shí)別。
[0019] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。

【專利附圖】

【附圖說明】
[0020] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0021] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法的 流程圖;
[0022] 圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法 的流程圖;
[0023] 圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的裝置的 結(jié)構(gòu)框圖;
[0024] 圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的裝置 的結(jié)構(gòu)框圖。

【具體實(shí)施方式】
[0025] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0026] 本申請(qǐng)的發(fā)明人在研究釣魚網(wǎng)頁(yè)識(shí)別方法的過程中,注意到釣魚作者為了防止其 釣魚網(wǎng)站被檢測(cè)到而采取了一些"保護(hù)措施",例如拒絕網(wǎng)絡(luò)爬蟲訪問或者拒絕某個(gè)地域內(nèi) IP的訪問或者經(jīng)常修改其釣魚內(nèi)容,而使得其釣魚網(wǎng)站不被檢測(cè)到,并且基于內(nèi)容檢測(cè)釣 魚網(wǎng)頁(yè)的方法只有在釣魚網(wǎng)頁(yè)內(nèi)容發(fā)生變化后,才能進(jìn)行釣魚檢測(cè),使得檢測(cè)相對(duì)于釣魚 網(wǎng)頁(yè)變化具有一定的滯后性,基于此,本申請(qǐng)的發(fā)明人提出了基于特征向量模型識(shí)別釣魚 網(wǎng)頁(yè)的方法。
[0027] 其中,特征向量模型是根據(jù)大量樣本網(wǎng)頁(yè)的站點(diǎn)特征信息獲取各個(gè)樣本網(wǎng)頁(yè)的特 征向量,并對(duì)各個(gè)樣本網(wǎng)頁(yè)的特征向量組成的矩陣進(jìn)行訓(xùn)練得到的,通過特征向量模型將 樣本空間劃分多個(gè)特征空間。這里,多個(gè)特征空間分為釣魚類特征空間和非釣魚類特征空 間,釣魚類特征空間包括淘寶釣魚類特征空間、中獎(jiǎng)釣魚類特征空間,其中,淘寶釣魚類特 征空間主要由淘寶類釣魚網(wǎng)頁(yè)組成,中獎(jiǎng)釣魚類特征空間主要由中獎(jiǎng)?lì)愥烎~網(wǎng)頁(yè)構(gòu)成。本 申請(qǐng)的特征向量模型是通過批量學(xué)習(xí)模式或增量學(xué)習(xí)模式訓(xùn)練得到的。批量學(xué)習(xí)模式指每 隔預(yù)設(shè)時(shí)間段對(duì)該預(yù)設(shè)時(shí)間段之前獲取的所有樣本網(wǎng)頁(yè)通過獲取各個(gè)樣本網(wǎng)頁(yè)的特征向 量,對(duì)各個(gè)樣本網(wǎng)頁(yè)的特征向量組成的矩陣進(jìn)行訓(xùn)練,從而在每個(gè)預(yù)設(shè)時(shí)間段得到一特征 向量模型,其中預(yù)設(shè)時(shí)間段可以是一小時(shí)或一天,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際應(yīng)用的需 要進(jìn)行設(shè)置,在此不作具體限定;增量學(xué)習(xí)模式指獲取各個(gè)樣本網(wǎng)頁(yè)的特征向量,對(duì)各個(gè)樣 本網(wǎng)頁(yè)的特征向量組成的矩陣進(jìn)行訓(xùn)練,并通過接口將訓(xùn)練的結(jié)果學(xué)習(xí)到預(yù)設(shè)時(shí)間段之前 得到的特征向量模型,從而在每個(gè)預(yù)設(shè)時(shí)間段得到新的特征向量模型。采用增量學(xué)習(xí)模式 可以實(shí)時(shí)地將獲取到的樣本網(wǎng)頁(yè)學(xué)習(xí)到特征向量模型,減少了機(jī)器學(xué)習(xí)訓(xùn)練的工作量,并 且能夠快速獲得特征向量模型。
[0028] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法的 流程圖。如圖1所示,該方法包括以下步驟:
[0029] 步驟S100,提取瀏覽器所打開第一網(wǎng)頁(yè)的URL,根據(jù)URL得到第一網(wǎng)頁(yè)所屬站點(diǎn)的 站點(diǎn)特征信息。
[0030] 基本的URL包含協(xié)議、服務(wù)器名稱、路徑和文件名,如"協(xié)議://授權(quán)/路徑?查 詢"。瀏覽器所打開的第一網(wǎng)頁(yè)指用戶通過客戶端的瀏覽器打開的網(wǎng)頁(yè),其中客戶端可以為 計(jì)算機(jī)、移動(dòng)終端、平板設(shè)備等,本發(fā)明對(duì)此不做限制。站點(diǎn)特征信息指與站點(diǎn)相關(guān)的用于 構(gòu)成特征向量的特征值的信息。
[0031] 步驟S110,根據(jù)第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定第一網(wǎng)頁(yè)的特征向量。
[0032] 通過步驟S100得到的第一網(wǎng)頁(yè)的站點(diǎn)特征信息有多種,本實(shí)施例對(duì)每一種站點(diǎn) 特征信息按照預(yù)設(shè)規(guī)則賦予一定的數(shù)值作為特征值,多種站點(diǎn)特征信息的特征值組合起來 得到第一網(wǎng)頁(yè)的特征向量。
[0033] 步驟S120,將第一網(wǎng)頁(yè)的特征向量輸入到特征向量模型中,得到第一網(wǎng)頁(yè)所屬的 特征空間,根據(jù)第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。
[0034] 根據(jù)上述內(nèi)容可知,特征向量模型將樣本空間劃分為多個(gè)特征空間,本實(shí)施例將 第一網(wǎng)頁(yè)的特征向量輸入到特征向量模型中,可以得到第一網(wǎng)頁(yè)所屬的特征空間,如果第 一網(wǎng)頁(yè)所屬的特征空間為釣魚類特征空間,則識(shí)別出第一網(wǎng)頁(yè)為釣魚網(wǎng)頁(yè);基于更進(jìn)一步 的分類,還可識(shí)別出第一網(wǎng)頁(yè)屬于哪種類型的釣魚網(wǎng)頁(yè),如淘寶類、中獎(jiǎng)?lì)惖鹊取?br> [0035] 根據(jù)本發(fā)明上述實(shí)施例提供的方法,由于每個(gè)網(wǎng)頁(yè)都有對(duì)應(yīng)的URL,提取瀏覽器所 打開第一網(wǎng)頁(yè)的URL,可以省去提前下載該第一網(wǎng)頁(yè),從而規(guī)避了釣魚作者對(duì)釣魚網(wǎng)站所設(shè) 的防護(hù),根據(jù)URL得到第一網(wǎng)頁(yè)所屬站點(diǎn)的站點(diǎn)特征信息,根據(jù)第一網(wǎng)頁(yè)的站點(diǎn)特征信息, 確定第一網(wǎng)頁(yè)的特征向量;將第一網(wǎng)頁(yè)的特征向量輸入到特征向量模型中,得到第一網(wǎng)頁(yè) 所屬的特征空間,根據(jù)第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè),從而節(jié)省 了人力資源,不需要人工加規(guī)則,通過自動(dòng)的方式對(duì)第一網(wǎng)頁(yè)進(jìn)行識(shí)別。
[0036] 圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法 的流程圖。如圖2所示,該方法包括以下步驟:
[0037] 步驟S200,提取瀏覽器所打開第一網(wǎng)頁(yè)的URL。
[0038] 瀏覽器所打開的第一網(wǎng)頁(yè)指用戶通過客戶端的瀏覽器打開的網(wǎng)頁(yè),其中客戶端可 以為計(jì)算機(jī)、移動(dòng)終端、平板設(shè)備等,本發(fā)明對(duì)此不做限制。
[0039] 步驟S210,利用詞袋模型對(duì)第一網(wǎng)頁(yè)的URL文本進(jìn)行分詞處理,得到第一特征信 肩、。
[0040] 其中,詞袋模型是在自然語(yǔ)言處理和信息檢索中的一種簡(jiǎn)單假設(shè)。在這種模型中, 文本(段落或者文檔)被看作是無序的詞匯集合,忽略語(yǔ)法甚至是單詞的順序。
[0041] URL文本包括域名、路徑、query中的一個(gè)或多個(gè)。第一特征信息為與URL文本有 關(guān)的特征信息。
[0042] 具體地,利用詞袋模型對(duì)域名和/或路徑和/或query分別進(jìn)行分詞處理,得到多 個(gè)文本單元,對(duì)分詞處理后的多個(gè)文本單元添加對(duì)應(yīng)的前綴得到第一特征信息,域名、路徑 和query的文本單元所添加的前綴不同。文本單元指由分隔符分隔開的構(gòu)成URL文本的單 詞,分隔符可以是" 文本單元是URL文本的最小單元,URL文本可包含 多個(gè)文本單元。這里,可以根據(jù)分隔符利用詞袋模型對(duì)域名和/或路徑和/或query分別 進(jìn)行分詞處理得到多個(gè)文本單元。舉例說明,對(duì)于URL :http://www. taobao. com/taobao/ detail.html ? spm= 1002. pw?退款,利用詞袋模型對(duì)域名、路徑、query分別進(jìn)行分詞處 理,得到多個(gè)文本單兀 www、taobao、com、taobao、detail、html、spm、1002、pw、退款,經(jīng)過詞 袋模型處理后,域名與路徑部分都得到相同的單詞taobao,為了進(jìn)行區(qū)分,對(duì)域名、路徑和 query 的文本單兀添加不同的前綴,例如,host-www、host-taobao、host-com、path_taobao、 path-detail、path-html、query-spm、query-1002、query-pw、query-退款,得至lj第一特征 信息host-taobao、path-taobao、query-退款。此外,若第一網(wǎng)頁(yè)的域名中包含"? com. ", 則com. "為第一網(wǎng)頁(yè)的第一特征信息,本領(lǐng)域技術(shù)人員可以根據(jù)具體的URL確定第一特 征信息,在此不作具體限定。
[0043] 步驟S220,從URL中提取出域名,將域名進(jìn)行域名解析,根據(jù)域名解析的結(jié)果得到 第二特征信息。
[0044] 這里的域名解析指將URL中域名轉(zhuǎn)換成IP,并獲取與IP相關(guān)的信息以及域名相關(guān) 的信息的過程。第二特征信息為經(jīng)過域名解析得到的站點(diǎn)相關(guān)特征信息。第二特征信息包 含以下信息中的一種或多種:域名長(zhǎng)度、IP信息、頁(yè)面瀏覽量、獨(dú)立訪問量、WH0IS信息、備 案信息、以及域名分隔符的個(gè)數(shù)。其中,域名長(zhǎng)度指構(gòu)成域名的字母的長(zhǎng)度;IP信息指域名 對(duì)應(yīng)的IP個(gè)數(shù),以及該IP前綴是否出現(xiàn)過釣魚網(wǎng)頁(yè);頁(yè)面訪問量指用戶刷新的次數(shù),用戶 每次刷新即被計(jì)算一次;獨(dú)立訪問量指訪問某網(wǎng)站的電腦客戶端的個(gè)數(shù),一臺(tái)電腦客戶端 為一個(gè)訪客,00:00-24:00內(nèi)相同的客戶端只被計(jì)算一次;WHOIS信息指域名是否被注冊(cè), 域名是否包含注冊(cè)信息;備案信息指域名是否備案;域名分隔符指域名中點(diǎn)(?)的個(gè)數(shù)。 [0045] 步驟S230,根據(jù)第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定第一網(wǎng)頁(yè)的特征向量。
[0046] 其中,站點(diǎn)特征信息包含第一特征信息和/或第二特征信息。
[0047] 具體地,根據(jù)如下判斷結(jié)果,按照預(yù)設(shè)規(guī)則確定第一網(wǎng)頁(yè)的特征向量:
[0048] 第一特征信息是否包含關(guān)鍵字,具體指第一特征信息是否包含taobao、中獎(jiǎng)等關(guān) 鍵字,若第一特征信息包含關(guān)鍵字,則確定特征值為1 (若包含多個(gè)相同的關(guān)鍵字,則根據(jù) 關(guān)鍵字出現(xiàn)的次數(shù)確定特征值),若第一特征信息不包含關(guān)鍵字,則確定特征值為〇 ;
[0049] 和/或,域名長(zhǎng)度是否大于域名長(zhǎng)度預(yù)設(shè)值,其中,域名長(zhǎng)度預(yù)設(shè)值可以為20,若 域名長(zhǎng)度大于20,則確定特征值為1,若域名長(zhǎng)度小于20,則確定特征值為0 ;
[0050] 和/或,域名對(duì)應(yīng)的IP個(gè)數(shù)是否小于或等于IP個(gè)數(shù)預(yù)設(shè)值,其中IP個(gè)數(shù)預(yù)設(shè)值 為1,若域名對(duì)應(yīng)的IP個(gè)數(shù)小于或等于1,則確定特征值為1,若域名對(duì)應(yīng)的IP個(gè)數(shù)大于1, 則確定特征值為〇 ;
[0051] 和/或,IP信息的IP前綴是否出現(xiàn)過釣魚網(wǎng)頁(yè),若IP信息的IP前綴出現(xiàn)過釣魚 網(wǎng)頁(yè),則確定特征值為1,若IP信息的IP前綴未出現(xiàn)過釣魚網(wǎng)頁(yè),則確定特征值為〇,舉例 說明,網(wǎng)頁(yè)的IP為23. 102. 108,則網(wǎng)頁(yè)的IP信息的IP前綴為23. 102,具體為以IP前綴 23. 102的IP是否出現(xiàn)過釣魚網(wǎng)頁(yè);
[0052] 和/或,頁(yè)面瀏覽量和/或獨(dú)立訪問量是否小于或等于訪問量預(yù)設(shè)值,其中,訪問 量預(yù)設(shè)值可以為10,若頁(yè)面瀏覽量和/或獨(dú)立訪問量小于或等于10,則確定特征值為1,若 頁(yè)面瀏覽量和/或獨(dú)立訪問量大于10,則確定特征值為〇 ;
[0053] 和/或,WH0IS信息是否包含注冊(cè)信息,若WH0IS信息不包含注冊(cè)信息,則確定特 征值為1,若WH0IS信息包含注冊(cè)信息,則確定特征值為0 ;
[0054] 和/或,是否具有備案信息,若不具有備案信息則確定特征值為1,若具有備案信 息則確定特征值為〇 ;
[0055] 和/或,域名分隔符的個(gè)數(shù)是否大于分隔符預(yù)設(shè)值,其中,分隔符預(yù)設(shè)值可以為4, 若域名分隔符的個(gè)數(shù)大于4,則確定特征值為1,若分隔符的個(gè)數(shù)小于或等于4,則確定特征 值為〇。
[0056] 本實(shí)施例中,本領(lǐng)域技術(shù)人員可以根據(jù)具體實(shí)際應(yīng)用設(shè)置域名長(zhǎng)度預(yù)設(shè)值、IP個(gè) 數(shù)預(yù)設(shè)值、訪問量預(yù)設(shè)值、分隔符預(yù)設(shè)值的具體數(shù)值,上述數(shù)值僅是舉例說明,不應(yīng)理解為 限定作用。
[0057] 將上述多種站點(diǎn)特征信息的特征值組合起來得到第一網(wǎng)頁(yè)的特征向量。
[0058] 步驟S240,將第一網(wǎng)頁(yè)的特征向量輸入到特征向量模型中,得到第一網(wǎng)頁(yè)所屬的 特征空間。
[0059] 本實(shí)施例中,特征向量模型的建立過程具體為:
[0060] (1)采集大量的樣本網(wǎng)頁(yè),這些樣本網(wǎng)頁(yè)中既包含釣魚網(wǎng)頁(yè),也包含非釣魚網(wǎng)頁(yè), 即安全網(wǎng)頁(yè);
[0061] (2)分別提取各個(gè)樣本網(wǎng)頁(yè)的URL,利用詞袋模型對(duì)各個(gè)樣本網(wǎng)頁(yè)的URL文本進(jìn)行 分詞處理,得到第一特征信息;
[0062] URL文本包括域名、路徑、query中的一個(gè)或多個(gè)。第一特征信息為與URL文本有 關(guān)的特征信息。具體地,利用詞袋模型對(duì)域名和/或路徑和/或query分別進(jìn)行分詞處理, 得到多個(gè)文本單元,對(duì)分詞處理后的多個(gè)文本單元添加對(duì)應(yīng)的前綴得到第一特征信息,域 名、路徑和query的文本單元所添加的前綴不同。
[0063] 這里提取樣本網(wǎng)頁(yè)的第一特征信息的方法與上述提取第一網(wǎng)頁(yè)的第一特征信息 的方法類似,不再贅述。
[0064] (3)從URL中提取出域名,將域名進(jìn)行域名解析,根據(jù)域名解析的結(jié)果得到第二特 征信息;
[0065] 第二特征信息包含以下信息中的一種或多種:域名長(zhǎng)度、IP信息、頁(yè)面瀏覽量、獨(dú) 立訪問量、WH0IS信息、備案信息、以及域名分隔符的個(gè)數(shù)。
[0066] (4)根據(jù)各個(gè)樣本網(wǎng)頁(yè)的第一特征信息和第二特征信息,確定各個(gè)樣本網(wǎng)頁(yè)的特 征向量;
[0067] 具體地,根據(jù)如下判斷結(jié)果,按照預(yù)設(shè)規(guī)則確定樣本網(wǎng)頁(yè)的特征向量:
[0068] 第一特征信息是否包含關(guān)鍵字,具體指第一特征信息是否包含taobao、中獎(jiǎng)等關(guān) 鍵字,若第一特征信息包含關(guān)鍵字,則確定特征值為1 (若包含多個(gè)相同的關(guān)鍵字,則根據(jù) 關(guān)鍵字出現(xiàn)的次數(shù)確定特征值),若第一特征信息不包含關(guān)鍵字,則確定特征值為〇 ;
[0069] 和/或,域名長(zhǎng)度是否大于域名長(zhǎng)度預(yù)設(shè)值,其中,域名長(zhǎng)度預(yù)設(shè)值可以為20,若 域名長(zhǎng)度大于20,則確定特征值為1,若域名長(zhǎng)度小于20,則確定特征值為0 ;
[0070] 和/或,域名對(duì)應(yīng)的IP個(gè)數(shù)是否小于或等于IP個(gè)數(shù)預(yù)設(shè)值,其中IP個(gè)數(shù)預(yù)設(shè)值 為1,若域名對(duì)應(yīng)的IP個(gè)數(shù)小于或等于1,則確定特征值為1,若域名對(duì)應(yīng)的IP個(gè)數(shù)大于1, 則確定特征值為〇 ;
[0071] 和/或,IP信息的IP前綴是否出現(xiàn)過釣魚網(wǎng)頁(yè),若IP信息的IP前綴出現(xiàn)過釣魚 網(wǎng)頁(yè),則確定特征值為1,若IP信息的IP前綴未出現(xiàn)過釣魚網(wǎng)頁(yè),則確定特征值為0,舉例 說明,網(wǎng)頁(yè)的IP為23. 102. 108,則網(wǎng)頁(yè)的IP信息的IP前綴為23. 102,具體為以IP前綴 23. 102的IP是否出現(xiàn)過釣魚網(wǎng)頁(yè);
[0072] 和/或,頁(yè)面瀏覽量和/或獨(dú)立訪問量是否小于或等于訪問量預(yù)設(shè)值,其中,訪問 量預(yù)設(shè)值可以為10,若頁(yè)面瀏覽量和/或獨(dú)立訪問量小于或等于10,則確定特征值為1,若 頁(yè)面瀏覽量和/或獨(dú)立訪問量大于10,則確定特征值為〇 ;
[0073] 和/或,WH0IS信息是否包含注冊(cè)信息,若WH0IS信息不包含注冊(cè)信息,則確定特 征值為1,若WH0IS信息包含注冊(cè)信息,則確定特征值為0 ;
[0074] 和/或,是否具有備案信息,若不具有備案信息則確定特征值為1,若具有備案信 息則確定特征值為〇 ;
[0075] 和/或,域名分隔符的個(gè)數(shù)是否大于分隔符預(yù)設(shè)值,其中,分隔符預(yù)設(shè)值可以為4, 若域名分隔符的個(gè)數(shù)大于4,則確定特征值為1,若分隔符的個(gè)數(shù)小于4,則確定特征值為0。
[0076] 將上述多種站點(diǎn)特征信息的特征值組合起來得到樣本網(wǎng)頁(yè)的特征向量。
[0077] 以樣本網(wǎng)頁(yè) URL-A :http://www. baidu. com、
[0078] URL-B :http://www. taobao. com>
[0079] URL-C :http://www. taobao. com/taobao/detail. html ? spm = 1002. pw.中獎(jiǎng)、 URL-D :http://www. taobao. taobao. com/taobao/detail. html ? spm = 1002586. pw?中獎(jiǎng) 為例,以表1的形式具體示出站點(diǎn)特征信息的特征值:
[0080] 表 1
[0081]

【權(quán)利要求】
1. 一種基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的方法,所述特征向量模型是根據(jù)大量樣本網(wǎng) 頁(yè)的站點(diǎn)特征信息獲取各個(gè)樣本網(wǎng)頁(yè)的特征向量,并對(duì)各個(gè)樣本網(wǎng)頁(yè)的特征向量組成的矩 陣進(jìn)行訓(xùn)練得到的,通過所述特征向量模型將樣本空間劃分多個(gè)特征空間; 所述方法包括: 提取瀏覽器所打開第一網(wǎng)頁(yè)的URL,根據(jù)所述URL得到所述第一網(wǎng)頁(yè)所屬站點(diǎn)的站點(diǎn) 特征信息; 根據(jù)所述第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定所述第一網(wǎng)頁(yè)的特征向量; 將所述第一網(wǎng)頁(yè)的特征向量輸入到所述特征向量模型中,得到所述第一網(wǎng)頁(yè)所屬的特 征空間,根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。
2. 根據(jù)權(quán)利要求1所述的方法,所述站點(diǎn)特征信息包含第一特征信息和/或第二特征 信息,所述第一特征信息為與URL文本有關(guān)的特征信息,所述第二特征信息為經(jīng)過域名解 析得到的站點(diǎn)相關(guān)特征信息。
3. 根據(jù)權(quán)利要求2所述的方法,所述根據(jù)URL得到所述第一網(wǎng)頁(yè)所屬站點(diǎn)的站點(diǎn)特征 信息進(jìn)一步包括: 利用詞袋模型對(duì)所述第一網(wǎng)頁(yè)的URL文本進(jìn)行分詞處理,得到所述第一特征信息; 和/或,從所述URL中提取出域名,將域名進(jìn)行域名解析,根據(jù)域名解析的結(jié)果得到所 述第二特征信息。
4. 根據(jù)權(quán)利要求3所述的方法,所述URL文本包括域名、路徑、query中的一個(gè)或多個(gè); 所述利用詞袋模型對(duì)所述第一網(wǎng)頁(yè)的URL文本進(jìn)行分詞處理,得到所述第一特征信息 進(jìn)一步包括: 利用詞袋模型對(duì)域名和/或路徑和/或query分別進(jìn)行分詞處理,得到多個(gè)文本單元; 對(duì)分詞處理后的多個(gè)文本單元添加對(duì)應(yīng)的前綴得到所述第一特征信息,域名、路徑和 query的文本單元所添加的前綴不同; 所述第二特征信息包含以下信息中的一種或多種:域名長(zhǎng)度、IP信息、頁(yè)面瀏覽量、獨(dú) 立訪問量、WHOIS信息、備案信息、以及域名分隔符的個(gè)數(shù)。
5. 根據(jù)權(quán)利要求4所述的方法,所述根據(jù)所述第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定所述第 一網(wǎng)頁(yè)的特征向量具體為,根據(jù)如下判斷結(jié)果確定所述第一網(wǎng)頁(yè)的特征向量: 所述第一特征信息是否包含關(guān)鍵字; 和/或,所述域名長(zhǎng)度是否大于域名長(zhǎng)度預(yù)設(shè)值; 和/或,所述域名對(duì)應(yīng)的IP個(gè)數(shù)是否小于或等于IP個(gè)數(shù)預(yù)設(shè)值; 和/或,所述IP信息的IP前綴是否出現(xiàn)過釣魚網(wǎng)頁(yè); 和/或,所述頁(yè)面瀏覽量和/或獨(dú)立訪問量是否小于或等于訪問量預(yù)設(shè)值; 和/或,所述WHOIS信息是否包含注冊(cè)信息; 和/或,是否具有備案息; 和/或,所述域名分隔符的個(gè)數(shù)是否大于分隔符預(yù)設(shè)值。
6. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,所述多個(gè)特征空間分為釣魚類特征空間和非 釣魚類特征空間; 根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)包括:判斷所述第一 網(wǎng)頁(yè)所屬的特征空間是否屬于釣魚類特征空間,若是,則識(shí)別所述第一網(wǎng)頁(yè)為釣魚網(wǎng)頁(yè)。
7. 根據(jù)權(quán)利要求6所述的方法,所述釣魚類特征空間包括淘寶釣魚類特征空間、中獎(jiǎng) 釣魚類特征空間; 根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)還包括:根據(jù)所述第 一網(wǎng)頁(yè)所屬的特征空間確定所述第一網(wǎng)頁(yè)所屬的釣魚類型。
8. 根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,所述特征向量模型是通過批量學(xué)習(xí)模式或增 量學(xué)習(xí)模式訓(xùn)練得到的。
9. 根據(jù)權(quán)利要求1-8任一項(xiàng)所述的方法,還包括:獲取客戶端反饋的第一網(wǎng)頁(yè)的來源 信息以及用戶需求信息; 所述根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)具體為:根據(jù)所 述第一網(wǎng)頁(yè)所屬的特征空間,結(jié)合所述第一網(wǎng)頁(yè)的來源信息以及用戶需求信息判斷所述第 一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。
10. -種基于特征向量模型識(shí)別釣魚網(wǎng)頁(yè)的裝置,所述裝置包括: 特征向量模型訓(xùn)練模塊,適于根據(jù)大量樣本網(wǎng)頁(yè)的站點(diǎn)特征信息獲取各個(gè)樣本網(wǎng)頁(yè)的 特征向量,并對(duì)各個(gè)樣本網(wǎng)頁(yè)的特征向量組成的矩陣進(jìn)行訓(xùn)練得到特征向量模型,通過所 述特征向量模型將樣本空間劃分多個(gè)特征空間; 提取模塊,適于提取瀏覽器所打開第一網(wǎng)頁(yè)的URL ; 獲取模塊,適于根據(jù)所述URL得到所述第一網(wǎng)頁(yè)所屬站點(diǎn)的站點(diǎn)特征信息; 確定模塊,適于根據(jù)所述第一網(wǎng)頁(yè)的站點(diǎn)特征信息,確定所述第一網(wǎng)頁(yè)的特征向量; 輸入模塊,適于將所述第一網(wǎng)頁(yè)的特征向量輸入到所述特征向量模型中,得到所述第 一網(wǎng)頁(yè)所屬的特征空間; 識(shí)別模塊,適于根據(jù)所述第一網(wǎng)頁(yè)所屬的特征空間識(shí)別第一網(wǎng)頁(yè)是否為釣魚網(wǎng)頁(yè)。
【文檔編號(hào)】G06F17/27GK104239582SQ201410541275
【公開日】2014年12月24日 申請(qǐng)日期:2014年10月14日 優(yōu)先權(quán)日:2014年10月14日
【發(fā)明者】李曉波, 尹露, 楊晶, 郭峰 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黎平县| 蒲城县| 瓦房店市| 米易县| 贺兰县| 湟中县| 美姑县| 越西县| 将乐县| 滨海县| 读书| 梓潼县| 开江县| 搜索| 锡林浩特市| 黄陵县| 威宁| 个旧市| 彰化市| 棋牌| 集贤县| 七台河市| 水城县| 东安县| 南木林县| 吉隆县| 永泰县| 海淀区| 阿城市| 东丽区| 乐东| 株洲市| 乌拉特前旗| 白河县| 融水| 铜梁县| 青河县| 贡嘎县| 伊春市| 镇原县| 山东|