欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁危險性的識別系統(tǒng)的制作方法

文檔序號:6382967閱讀:276來源:國知局
專利名稱:網(wǎng)頁危險性的識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明實施例涉及網(wǎng)頁安全技術(shù)領(lǐng)域,具體涉及一種網(wǎng)頁危險性的識別系統(tǒng)。
背景技術(shù)
釣魚網(wǎng)站主要是通過仿冒真實網(wǎng)站的URL地址或是頁面內(nèi)容,偽裝成銀行及電子商務(wù)等類型的網(wǎng)站,或是利用真實網(wǎng)站服務(wù)器程序上的漏洞,在該網(wǎng)站的某些網(wǎng)頁中插入危險的網(wǎng)頁代碼,以此來騙取用戶銀行或信用卡賬號、密碼等私人資料。釣魚網(wǎng)頁中包含著許多敏感的特征,例如,金融欺詐類的釣魚網(wǎng)頁會在文字、圖片等方面仿冒官網(wǎng),或是在真實網(wǎng)頁中插入虛假票務(wù)、虛假中獎、假冒網(wǎng)銀、虛假購物等信息,這些特征大多以文本串的形式出現(xiàn)在網(wǎng)頁中。目前對釣魚網(wǎng)頁識別的方法,主要是通過人工審核釣魚網(wǎng)頁,以收集一些簡單的釣魚網(wǎng)站的文本特征,供瀏覽器插件依據(jù)這些文本特征對網(wǎng)頁內(nèi)容進行判斷,過濾掉這些已報告的攻擊網(wǎng)站。但是,現(xiàn)今釣魚網(wǎng)站的存活期越來越短,新的釣魚網(wǎng)頁層出不窮,需要審核的網(wǎng)頁量太大;并且釣魚網(wǎng)站的特征變化加快,按照傳統(tǒng)的人工審核的方式,提取信息的效率會比較低。

發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁危險性的識別系統(tǒng)。根據(jù)本發(fā)明,提供了一種網(wǎng)頁危險性的識別系統(tǒng),包括網(wǎng)頁收集服務(wù)器、客戶端、網(wǎng)頁存儲服務(wù)器、網(wǎng)頁危險性識別引擎;所述網(wǎng)頁收集服務(wù)器和客戶端收集待檢測網(wǎng)頁,并發(fā)送到網(wǎng)頁處理服務(wù)器;所述網(wǎng)頁危險性識別引擎從所述網(wǎng)頁存儲服務(wù)器提取待檢測網(wǎng)頁并對待檢測網(wǎng)頁的危險性進行識別;所述網(wǎng)頁危險性識別引擎包括候選表征信息組成模塊,適于收集安全網(wǎng)頁和危險網(wǎng)頁,將所述安全網(wǎng)頁和危險網(wǎng)頁所包含的各個字符依次組成多個候選表征信息;合并模塊,適于合并符合預設(shè)相似條件的候選表征信息;篩選模塊,適于統(tǒng)計合并后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的表征參數(shù),并依據(jù)所述表征參數(shù)篩選多個候選表征信息作為網(wǎng)頁危險性的表征信息;模型訓練模塊,適于依據(jù)所述表征信息訓練網(wǎng)頁危險性的預測模型;識別模塊,適于依據(jù)所述預測模型對待檢測網(wǎng)頁的危險性進行識別。本發(fā)明實施例中,所述候選表征信息組成模塊包括第一提取子模塊,適于提取安全網(wǎng)頁和危險網(wǎng)頁所對應(yīng)的頁面內(nèi)容;第二提取子模塊,適于以連續(xù)的多個漢字或一個英文單詞作為一個候選表征信息,從所述頁面內(nèi)容中提取多個候選表征信息。本發(fā)明實施例中,所述合并模塊包括公共子串提取子模塊,適于針對任意兩個候選表征信息,提取所述兩個候選表征信息的最長公共子串;范圍判斷子模塊,判斷所述最長公共子串的字符個數(shù)是否符合第一預設(shè)范圍,且所述兩個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)的差值是否符合第二預設(shè)范圍;信息刪除子模塊,適于當所述范圍判斷子模塊的結(jié)果為是時,刪除在各個安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)較小的候選表征信息。本發(fā)明實施例中,所述公共子串提取子模塊包括矩陣形成子單元,適于將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣;賦值子單元,適于針對矩陣中的各個節(jié)點,若對應(yīng)的行列字符相同,則設(shè)置節(jié)點值為1,若不同,則設(shè)置節(jié)點值為0,并以該節(jié)點的節(jié)點值與左上角的所有節(jié)點的節(jié)點值之和對該節(jié)點的節(jié)點值重新賦值;字符提取子單元,適于提取節(jié)點值最大的節(jié)點所在對角線中,連續(xù)的、節(jié)點值非0的節(jié)點對應(yīng)的字符作為最長公共子串。本發(fā)明實施例中,所述表征參數(shù)包括表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),以及表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù);所述篩選模塊包括相關(guān)性篩選子模塊,適于分別統(tǒng)計合并后的各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),并篩選所述相關(guān)性參數(shù)從大到小排序靠前的候選表征信息;權(quán)重篩選子模塊,適于分別統(tǒng)計篩選后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù),并篩選所述權(quán)重參數(shù)從大到小排序靠前的候選表征信息。本發(fā)明實施例中,所述相關(guān)性篩選子模塊依據(jù)合并后的各個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中分別出現(xiàn)的次數(shù),通過卡方檢驗法,計算各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù)。本發(fā)明實施例中,所述權(quán)重篩選子模塊依據(jù)篩選后的各個候選表征信息在各個安全網(wǎng)頁和各個危險網(wǎng)頁中分別出現(xiàn)的次數(shù),構(gòu)建安全網(wǎng)頁和危險網(wǎng)頁的分類函數(shù),并依據(jù)所述分類函數(shù)確定各個候選表征信息的權(quán)重參數(shù)。本發(fā)明實施例中,通過支持向量機線性分類器構(gòu)建安全網(wǎng)頁和危險網(wǎng)頁的分類函數(shù)。本發(fā)明實施例中,所述預測模型包括各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系;所述識別模塊包括次數(shù)統(tǒng)計子模塊,適于統(tǒng)計各表征信息在待預測網(wǎng)頁中出現(xiàn)的次數(shù),并輸入所述預測模型;識別結(jié)果生成子模塊,適于所述預測模型依據(jù)各表征信息在待預測網(wǎng)頁中出現(xiàn)的次數(shù),以及各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系,生成待檢測網(wǎng)頁的危險性識別結(jié)果。本發(fā)明實施例中,所述預測模型通過隨機森林分類器訓練,所述預測模型包括多個決策樹子模型,各決策樹子模型分別包括表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系;所述識別結(jié)果生成子模塊進一步包括預測結(jié)果生成子單元,適于各決策樹子模型依據(jù)各表征信息在待預測網(wǎng)頁中出現(xiàn)的次數(shù),以及各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系,生成待檢測網(wǎng)頁的危險性預測結(jié)果;預測結(jié)果處理子單元,適于將各決策樹子模型生成的危險性預測結(jié)果進行加權(quán)平均,將加權(quán)平均的結(jié)果作為待檢測網(wǎng)頁的危險性識別結(jié)果。本發(fā)明實施例通過收集已知的安全網(wǎng)頁和危險網(wǎng)頁,從收集的網(wǎng)頁中提取多個候選表征信息,并依據(jù)候選表征信息在劃分安全網(wǎng)頁和危險網(wǎng)頁時的表征參數(shù),對候選表征信息進行篩選得到表征信息,相比于人工篩選,本發(fā)明實施例大大提高了信息提取的效率。本發(fā)明實施例還依據(jù)篩選出的表征信息構(gòu)建網(wǎng)頁危險性識別模型,相比于現(xiàn)有技術(shù)中僅僅依據(jù)網(wǎng)頁是否包含特征信息來識別危險網(wǎng)頁,本發(fā)明對于危險網(wǎng)頁,尤其是釣魚網(wǎng)頁可以提高識別的準確率。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式
。


通過閱讀下文 優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖1示出了根據(jù)本發(fā)明實施例所述的一種網(wǎng)頁危險性的識別方法的流程圖;圖2示出了根據(jù)本發(fā)明實施例所述的一種網(wǎng)頁危險性的識別裝置的實施例的結(jié)構(gòu)框圖;圖3示出了根據(jù)本發(fā)明實施例所述的一種網(wǎng)頁危險性的識別系統(tǒng)的實施例的結(jié)構(gòu)框4A是候選表征彳目息構(gòu)建的矩陣不意圖,圖4B是重新賦值后的矩陣不意圖;圖5是一個二維數(shù)據(jù)的分類示意圖;圖6示出了待測網(wǎng)頁危險性識別的示意圖。
具體實施例方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。本發(fā)明實施例可以應(yīng)用于計算機系統(tǒng)/服務(wù)器,其可與眾多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置一起操作。適于與計算機系統(tǒng)/服務(wù)器一起使用的眾所周知的計算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于個人計算機系統(tǒng)、服務(wù)器計算機系統(tǒng)、瘦客戶機、厚客戶機、手持或膝上設(shè)備、基于微處理器的系統(tǒng)、機頂盒、可編程消費電子產(chǎn)品、網(wǎng)絡(luò)個人電腦、小型計算機系統(tǒng)、大型計算機系統(tǒng)和包括上述任何系統(tǒng)的分布式云計算技術(shù)環(huán)境,等
坐寸O計算機系統(tǒng)/服務(wù)器可以在由計算機系統(tǒng)執(zhí)行的計算機系統(tǒng)可執(zhí)行指令(諸如程序模塊)的一般語境下描述。通常,程序模塊可以包括例程、程序、目標程序、組件、邏輯、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或者實現(xiàn)特定的抽象數(shù)據(jù)類型。計算機系統(tǒng)/服務(wù)器可以在分布式云計算環(huán)境中實施,分布式云計算環(huán)境中,任務(wù)是由通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備執(zhí)行的。在分布式云計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備的本地或遠程計算系統(tǒng)存儲介質(zhì)上。參考圖1,示出了本發(fā)明實施例所述的一種網(wǎng)頁危險性的識別方法的流程圖,具體可以包括步驟100,收集安全網(wǎng)頁和危險網(wǎng)頁,將所述安全網(wǎng)頁和危險網(wǎng)頁所包含的各個字符依次組成多個候選表征信息。本發(fā)明實施例預先收集已識別的安全網(wǎng)頁和危險網(wǎng)頁,從安全網(wǎng)頁和危險網(wǎng)頁中提取候選表征信息,候選表征信息用于表征網(wǎng)頁的危險性,在本發(fā)明中,危險網(wǎng)頁可以是釣魚網(wǎng)頁。在具體的實現(xiàn)中,可以通過網(wǎng)絡(luò)蜘蛛抓取安全網(wǎng)頁,也可以通過在客戶端收集用戶或技術(shù)人員提交的惡意網(wǎng)頁。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,可以預置一些安全網(wǎng)頁的網(wǎng)址,網(wǎng)絡(luò)蜘蛛從已知的安全網(wǎng)站的某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,提取該網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。本發(fā)明實施例中,所述步驟100可以包括子步驟1001,提取安全網(wǎng)頁和危險網(wǎng)頁所對應(yīng)的頁面內(nèi)容;子步驟1002,以連續(xù)的多個漢字或一個英文單詞作為一個候選表征信息,從所述頁面內(nèi)容中提取多個候選表征信息。網(wǎng)頁內(nèi)容中包含有多個文本字符,本發(fā)明實施例通過各個安全網(wǎng)頁和危險網(wǎng)頁所對應(yīng)的網(wǎng)頁內(nèi)容中提取候選表征信息,具體而言,針對所有網(wǎng)頁所包含的網(wǎng)頁內(nèi)容,英文單詞可以單獨作為一個候選表征信息,連續(xù)的多個漢字也可以作為一個候選表針信息。針對漢字部分,可以分別以連續(xù)的兩個漢字和連續(xù)的三個漢字作為候選表征信息,例如,針對頁面內(nèi)容中的某個語句“hello恭喜您中獎了”,可以拆分為如下的十個候選表征信息Hello恭喜喜您您中中獎獎了恭喜您喜您中您中獎中獎了在具體的實現(xiàn)中,候選表征信息中所包含的漢字字符的個數(shù)可以依據(jù)具體的需要設(shè)定。步驟102,合并符合預設(shè)相似條件的候選表征信息。通過對網(wǎng)頁內(nèi)容的拆分,可以提取大量的候選表征信息,其中,有很多冗余的信息,例如恭喜和恭喜您,含義相近,其表征作用相近,可以做合并處理。本發(fā)明實施例中,可以進一步對符合預設(shè)相似條件的候選表針信息進行提取,所述步驟102可以包括子步驟1021,針對任意兩個候選表征信息,提取所述兩個候選表征信息的最長公共子串;子步驟1022,若所述最長公共子串的字符個數(shù)符合第一預設(shè)范圍,且所述兩個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)的差值符合第二預設(shè)范圍,則執(zhí)行子步驟1023 ;子步驟1023,刪除在各個安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)較小的候選表征信息。針對任意的兩個候選表征信息,提取出兩者的最長公共子串,例如,“中華人民共和國”和“人民共和時代”的最長公共子串為“人民共和”。提取最長公共子串后,進一步判斷,這兩個候選表征信息的最長公共子串的字符個數(shù)是否符合第一預設(shè)范圍,并且,這兩個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)的差值符合第二預設(shè)范圍。具體而言,第一預設(shè)范圍是指最長公共子串的字符個數(shù),不超過兩個候選表征信息中任意一個的字符個數(shù)的預設(shè)比例(例如2/3),例如,“人民共和”包含4個字符,未超過“中華人民共和國”或“人民共和時代”的字符個數(shù)的2/3。第二預設(shè)范圍是指,兩個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)的差值,小于較高出現(xiàn)次數(shù)的預設(shè)比例(例如1/10)。例如,“中華人民共和國”在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)為100次,“人民共和時代”在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)為50次,兩者次數(shù)的差值為50次,較高出現(xiàn)次數(shù)為100次的預設(shè)比例1/10為10次,因此,差值50次超過了預設(shè)比例。若兩個候選表征信息滿足如上的條件,則刪除在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)較小的一個候選表征信息。在本發(fā)明實施例中,可以通過LCS (Longest Common Subsequence,最長公共子序列)算法提取兩個候選表征信息的最長公共子串,具體可以包括如下步驟子步驟1021-1,將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣;子步驟1021-2,針對矩陣中的各個節(jié)點,若對應(yīng)的行列字符相同,則設(shè)置節(jié)點值為1,若不同,則設(shè)置節(jié)點值為0,并以該節(jié)點的節(jié)點值與左上角的所有節(jié)點的節(jié)點值之和對該節(jié)點的節(jié)點值重新賦值;子步驟1021-3,提取節(jié)點值最大的節(jié)點所在對角線中,連續(xù)的、節(jié)點值非0的節(jié)點對應(yīng)的字符作為最長公共子串。本發(fā)明實施例通過兩個候選表征信息組成的矩陣提取最大公共子串。首先,將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣,如圖4A所示為候選表征信息構(gòu)建的矩陣示意圖,以“中華人民共和國”的各個字符為列,“人民共和時代”的各個字符為行構(gòu)建矩陣。矩陣中的各個節(jié)點的數(shù)據(jù)由行列所對應(yīng)的字符確定。具體而言,對于矩陣中的某個節(jié)點,若對應(yīng)的行列字符相同,則設(shè)置節(jié)點值為1,若不同,則設(shè)置為0,以圖4A為例,第一列第一行的節(jié)點,對應(yīng)的行字符為“中”,對應(yīng)的列字符為“人”,行列字符不同,則設(shè)置節(jié)點值為0,第一列第三行的節(jié)點,對應(yīng)的行字符為“人”,對應(yīng)的列字符也為“人”,則設(shè)置節(jié)點值為I。在對各個節(jié)點設(shè)置節(jié)點值后,針對各個節(jié)點,將節(jié)點值與左上角所有節(jié)點的節(jié)點值進行加和,并以加和的結(jié)果對該節(jié)點進行重新賦值。如上例,以第6行第4列的節(jié)點為例,左上角的節(jié)點值包括4個I,加和結(jié)果為4,因此,對該節(jié)點重新賦值后節(jié)點值為4,圖4B為圖4B是重新賦值后的矩陣示意圖,其中的節(jié)點值是對圖4A中節(jié)點值重新賦值后得到的。在對矩陣進行重新賦值后,可以找出節(jié)點值最大的節(jié)點所在對角線,然后進一步找出連續(xù)的節(jié)點值非0的節(jié)點,將這些節(jié)點對應(yīng)的字符作為兩個候選表征字符的最長公共子串。如圖4B所示,節(jié)點值最大的節(jié)點為第6行第4列的節(jié)點,該節(jié)點所在對角線中,連續(xù)非0的節(jié)點共有4個,對應(yīng)的節(jié)點值分別為1、2、3和4,這些節(jié)點對應(yīng)的字符為人民共和,即為最長公共字串。在具體的實現(xiàn)中,對各個節(jié)點進行賦值后,也可以直接找出值為I的節(jié)點組成的對角線,將最長的對角線對應(yīng)的字符提取出來,即為最長公共子串,如圖4A中,值為I的4個節(jié)點組成的便是最長對角線,將其對應(yīng)的字符提取出來便可以得到最長公共子串。本發(fā)明實施例中,對提取的候選表征信息中任意兩個表征信息進行比較,舍去符合上述條件的候選表征信息后,可以循環(huán)重復執(zhí)行合并的步驟,直至任意兩個候選表征信息均不符合預設(shè)相似條件,或是候選表征信息的個數(shù)滿足預設(shè)個數(shù)為止。步驟104,統(tǒng)計合并后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的表征參數(shù),并依據(jù)所述表征參數(shù)篩選多個候選表征信息作為網(wǎng)頁危險性的表征信息。對候選表征信息進行合并后,進一步需要篩選其中表征參數(shù)符合要求的候選表征信息。表征參數(shù)是候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的衡量參數(shù)。表征參數(shù)可以是候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),也可以是候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù)。在本發(fā)明實施例中,將相關(guān)性參數(shù)和權(quán)重參數(shù)結(jié)合起來對候選表征信息進行篩選,步驟104可以進一步包括子步驟1041,分別統(tǒng)計合并后的各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),并篩選所述相關(guān)性參數(shù)從大到小排序靠前的候選表征信息。子步驟1042,分別統(tǒng)計篩選后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù),并篩選所述權(quán)重參數(shù)從大到小排序靠前的候選表征信息。本發(fā)明實施例中,通過相關(guān)性參數(shù)和權(quán)重參數(shù)對候選表征信息做兩次篩選,首先計算各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),然后篩選相關(guān)性參數(shù)從大到小排序靠前的候選表征信息。具體的,可以依據(jù)合并后的各個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中分別出現(xiàn)的次數(shù),通過卡卡方檢驗法,計算各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù)。需要說明的是,卡卡方檢驗法中,統(tǒng)計各個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中出現(xiàn)的次數(shù)時,是指各候選表征信息出現(xiàn)在多少個安全網(wǎng)頁和多少個危險網(wǎng)頁中,不關(guān)注在某個網(wǎng)頁中出現(xiàn)了幾次。卡方檢驗是用于檢驗兩個變量獨立性的方法,常常先假設(shè)兩個變量確實是獨立的(原假設(shè)),然后觀察實際值(也可以叫做觀察值)與理論值(這個理論值是指“如果兩者確實獨立”的情況下應(yīng)該有的值)的偏差程度,如果偏差足夠小,就認為誤差是很自然的樣本誤差,是測量手段不夠精確導致或者偶然發(fā)生的,兩者確實是獨立的,此時就接受原假設(shè);如果偏差大到一定程度,使得這樣的誤差不太可能是偶然產(chǎn)生或者測量不精確所致,就認為兩者實際上是相關(guān)的,即否定原假設(shè),而接受備擇假設(shè)。假設(shè)理論值為E,當提供了數(shù)個樣本的觀察值Xl,x2,……Xi,……Xn之后,代入到如下公式中就可以求得卡方值小
權(quán)利要求
1.一種網(wǎng)頁危險性的識別系統(tǒng),包括 網(wǎng)頁收集服務(wù)器、客戶端、網(wǎng)頁存儲服務(wù)器、網(wǎng)頁危險性識別引擎; 所述網(wǎng)頁收集服務(wù)器和客戶端收集待檢測網(wǎng)頁,并發(fā)送到網(wǎng)頁處理服務(wù)器; 所述網(wǎng)頁危險性識別引擎從所述網(wǎng)頁存儲服務(wù)器提取待檢測網(wǎng)頁并對待檢測網(wǎng)頁的危險性進行識別; 所述網(wǎng)頁危險性識別引擎包括 候選表征信息組成模塊,適于收集安全網(wǎng)頁和危險網(wǎng)頁,將所述安全網(wǎng)頁和危險網(wǎng)頁所包含的各個字符依次組成多個候選表征信息; 合并模塊,適于合并符合預設(shè)相似條件的候選表征信息; 篩選模塊,適于統(tǒng)計合并后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的表征參數(shù),并依據(jù)所述表征參數(shù)篩選多個候選表征信息作為網(wǎng)頁危險性的表征信息; 模型訓練模塊,適于依據(jù)所述表征信息訓練網(wǎng)頁危險性的預測模型; 識別模塊,適于依據(jù)所述預測模型對待檢測網(wǎng)頁的危險性進行識別。
2.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述候選表征信息組成模塊包括 第一提取子模塊,適于提取安全網(wǎng)頁和危險網(wǎng)頁所對應(yīng)的頁面內(nèi)容; 第二提取子模塊,適于以連續(xù)的多個漢字或一個英文單詞作為一個候選表征信息,從所述頁面內(nèi)容中提取多個候選表征信息。
3.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述合并模塊包括 公共子串提取子模塊,適于針對任意兩個候選表征信息,提取所述兩個候選表征信息的最長公共子串; 范圍判斷子模塊,判斷所述最長公共子串的字符個數(shù)是否符合第一預設(shè)范圍,且所述兩個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)的差值是否符合第二預設(shè)范圍; 信息刪除子模塊,適于當所述范圍判斷子模塊的結(jié)果為是時,刪除在各個安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)較小的候選表征信息。
4.根據(jù)權(quán)利要求3所述的識別系統(tǒng),所述公共子串提取子模塊包括 矩陣形成子單元,適于將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣; 賦值子單元,適于針對矩陣中的各個節(jié)點,若對應(yīng)的行列字符相同,則設(shè)置節(jié)點值為1,若不同,則設(shè)置節(jié)點值為O,并以該節(jié)點的節(jié)點值與左上角的所有節(jié)點的節(jié)點值之和對該節(jié)點的節(jié)點值重新賦值; 字符提取子單元,適于提取節(jié)點值最大的節(jié)點所在對角線中,連續(xù)的、節(jié)點值非O的節(jié)點對應(yīng)的字符作為最長公共子串。
5.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述表征參數(shù)包括表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),以及表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù); 所述篩選模塊包括 相關(guān)性篩選子模塊,適于分別統(tǒng)計合并后的各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),并篩選所述相關(guān)性參數(shù)從大到小排序靠前的候選表征信息; 權(quán)重篩選子模塊,適于分別統(tǒng)計篩選后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù),并篩選所述權(quán)重參數(shù)從大到小排序靠前的候選表征信息。
6.根據(jù)權(quán)利要求5所述的識別系統(tǒng),所述相關(guān)性篩選子模塊依據(jù)合并后的各個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中分別出現(xiàn)的次數(shù),通過卡方檢驗法,計算各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù)。
7.根據(jù)權(quán)利要求5所述的識別系統(tǒng),所述權(quán)重篩選子模塊依據(jù)篩選后的各個候選表征信息在各個安全網(wǎng)頁和各個危險網(wǎng)頁中分別出現(xiàn)的次數(shù),構(gòu)建安全網(wǎng)頁和危險網(wǎng)頁的分類函數(shù),并依據(jù)所述分類函數(shù)確定各個候選表征信息的權(quán)重參數(shù)。
8.根據(jù)權(quán)利要求7所述的識別系統(tǒng),通過支持向量機線性分類器構(gòu)建安全網(wǎng)頁和危險網(wǎng)頁的分類函數(shù)。
9.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述預測模型包括各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系;所述識別模塊包括次數(shù)統(tǒng)計子模塊,適于統(tǒng)計各表征信息在待預測網(wǎng)頁中出現(xiàn)的次數(shù),并輸入所述預測模型;識別結(jié)果生成子模塊,適于所述預測模型依據(jù)各表征信息在待預測網(wǎng)頁中出現(xiàn)的次數(shù),以及各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系,生成待檢測網(wǎng)頁的危險性識別結(jié)果。
10.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述預測模型通過隨機森林分類器訓練,所述預測模型包括多個決策樹子模型,各決策樹子模型分別包括表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系;所述識別結(jié)果生成子模塊進一步包括預測結(jié)果生成子單元,適于各決策樹子模型依據(jù)各表征信息在待預測網(wǎng)頁中出現(xiàn)的次數(shù),以及各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系,生成待檢測網(wǎng)頁的危險性預測結(jié)果;預測結(jié)果處理子單元,適于將各決策樹子模型生成的危險性預測結(jié)果進行加權(quán)平均, 將加權(quán)平均的結(jié)果作為待檢測網(wǎng)頁的危險性識別結(jié)果。
全文摘要
本發(fā)明實施例公開了一種網(wǎng)頁危險性的識別系統(tǒng),所述系統(tǒng)包括網(wǎng)頁收集服務(wù)器、客戶端、網(wǎng)頁存儲服務(wù)器、網(wǎng)頁危險性識別引擎;所述網(wǎng)頁收集服務(wù)器和客戶端收集待檢測網(wǎng)頁,并發(fā)送到網(wǎng)頁處理服務(wù)器;所述網(wǎng)頁危險性識別引擎從所述網(wǎng)頁存儲服務(wù)器提取待檢測網(wǎng)頁并對待檢測網(wǎng)頁的危險性進行識別;所述網(wǎng)頁危險性識別引擎包括候選表征信息組成模塊;合并模塊;篩選模塊;模型訓練模塊;識別模塊。相比于人工篩選釣魚網(wǎng)頁文本特征,本發(fā)明實施例大大提高了信息提取的效率。
文檔編號G06F21/56GK103049483SQ201210507528
公開日2013年4月17日 申請日期2012年11月30日 優(yōu)先權(quán)日2012年11月30日
發(fā)明者董毅, 韓洪偉, 謝軍樣, 劉緒平, 唐杰 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
嵊州市| 凉山| 郴州市| 龙江县| 馆陶县| 台东县| 玉树县| 定襄县| 东乌| 绥宁县| 弥勒县| 鄱阳县| 晋城| 南充市| 藁城市| 正阳县| 伊宁县| 延安市| 托里县| 隆子县| 南充市| 临江市| 都昌县| 南丹县| 新丰县| 宕昌县| 普安县| 鄂伦春自治旗| 昭觉县| 岗巴县| 景宁| 苏州市| 榆中县| 股票| 云和县| 广水市| 淮北市| 凉城县| 资阳市| 南漳县| 加查县|