欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁聚類方法及裝置與流程

文檔序號:12063800閱讀:204來源:國知局
一種網(wǎng)頁聚類方法及裝置與流程

本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁聚類方法及裝置。



背景技術(shù):

現(xiàn)有的網(wǎng)頁聚類方法主要是基于網(wǎng)頁文本特征的聚類,即提取關(guān)鍵內(nèi)容或出現(xiàn)頻率較高的詞匯作為特征值進(jìn)行聚類,從而將內(nèi)容相似的頁面聚為一類,這種聚類方法僅適用于如文本檢索等文本處理方面可以明顯提高處理效率。

但是,網(wǎng)頁除具備文本特征外,還具有包含超鏈接、內(nèi)容半結(jié)構(gòu)化、規(guī)模龐大、格式異構(gòu)等特點,對于具有相同網(wǎng)頁框架的同一類網(wǎng)頁,其文本特征可能存在差異,即,根據(jù)網(wǎng)頁的文本特征進(jìn)行聚類并不能將相同框架的網(wǎng)頁聚為一類,因此,根據(jù)網(wǎng)頁文本特征聚類的方法在與網(wǎng)頁框架有關(guān)的處理方面并不適用。相同框架的頁面有著相同的業(yè)務(wù)流程或數(shù)據(jù)處理流程,若能夠?qū)⑾嗤蚣艿捻撁婢蹫橐活?,那么其中的一個頁面就可以代表這一類頁面。在針對大型框架類站點進(jìn)行處理的應(yīng)用,比如爬蟲、站點地圖、漏洞檢測等方面,采用這種網(wǎng)頁聚類技術(shù),可以在保證結(jié)果全面的情況下,大大提高效率。因此,目前仍缺少一種可以按照網(wǎng)頁框架結(jié)構(gòu)對網(wǎng)頁聚類的方法。



技術(shù)實現(xiàn)要素:

本發(fā)明提供一種網(wǎng)頁聚類方法及裝置,用以解決現(xiàn)有技術(shù)中存在的不能按照網(wǎng)頁框架對網(wǎng)頁進(jìn)行聚類的問題。

本發(fā)明實施例提供一種網(wǎng)頁聚類方法,包括:

獲取多個待聚類頁面的統(tǒng)一資源定位符URL;

針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類;

針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類。

可選地,針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類,包括:

將多個待聚類頁面的URL作為URL集合;

根據(jù)URL集合中任意兩個不同URL,提取兩個不同URL的重寫規(guī)則;

確定兩個不同URL的重寫規(guī)則是否為可信重寫規(guī)則,若為可信重寫規(guī)則,從URL集合中查找符合可信重寫規(guī)則的URL作為同一URL分類;

從URL集合中刪除同一URL分類中的URL,返回根據(jù)URL集合中任意兩個不同的URL,提取兩個不同URL的重寫規(guī)則的步驟。

可選地,根據(jù)URL集合中任意兩個不同的URL,提取兩個不同URL的重寫規(guī)則,包括:

從URL集合中提取第一URL和第二URL,確定第一URL和第二URL的重寫規(guī)則;

方法還包括:

若第一URL和第二URL的重寫規(guī)則為不可信的重寫規(guī)則,則從URL集合中提取第三URL和第四URL,確定第三URL和第四URL的重寫規(guī)則,并返回確定兩個不同URL的重寫規(guī)則是否可信重寫規(guī)則的步驟,第三URL和第四URL中至少有一個為URL集合中除第一URL和第二URL之外的其它URL。

可選地,通過以下方法判斷重寫規(guī)則是否可信,包括:

若重寫規(guī)則的表現(xiàn)形式為純字母或純數(shù)字,且純字母或純數(shù)字的位數(shù)不確定,則重寫規(guī)則不可信。

可選地,針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類,包括:

針對各URL分類中的每個URL,獲取該URL所對應(yīng)的頁面的超文本標(biāo)記語言HTML文件;根據(jù)HTML文件中的標(biāo)簽信息,獲取HTML文件的指紋特征值;

對比各URL的指紋特征值之間的差值是否低于設(shè)定閾值;

若低于設(shè)定閾值,則確定各URL為可聚類。

可選地,根據(jù)HTML文件中的標(biāo)簽信息,獲取HTML文件的指紋特征值,包括:

從HTML文件中提取各標(biāo)簽的屬性值,不同屬性對應(yīng)具有各自的屬性權(quán)重值;

依據(jù)各標(biāo)簽在HTML文件中的位置不同,確定各標(biāo)簽的位置權(quán)重值;

根據(jù)各標(biāo)簽的位置權(quán)重值、各標(biāo)簽中不同屬性的屬性值及屬性權(quán)重值,得到HTML文件的指紋特征值。

可選地,根據(jù)各標(biāo)簽的位置權(quán)重值、各標(biāo)簽中不同屬性的屬性值及屬性權(quán)重值,得到HTML文件的指紋特征值,包括:

HTML文件中的位置包括頭中尾各部分,其中,頭部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重,尾部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重;

標(biāo)簽的屬性包括身份屬性、類別屬性和非典型屬性,非典型屬性為除身份屬性和類別屬性之外的屬性,其中,身份屬性的屬性權(quán)重值高于非典型屬性的屬性權(quán)重值,類別屬性的屬性權(quán)重值高于非典型屬性的屬性權(quán)重值。

本發(fā)明實施例提供一種網(wǎng)頁聚類裝置,包括:

爬取模塊,用于獲取多個待聚類頁面的統(tǒng)一資源定位符URL;

分類模塊,用于針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類;

判斷模塊,用于針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類。

可選地,分類模塊具體用于:

將多個待聚類頁面的URL作為URL集合;

根據(jù)URL集合中任意兩個不同URL,提取兩個不同URL的重寫規(guī)則;

確定兩個不同URL的重寫規(guī)則是否為可信重寫規(guī)則,若為可信重寫規(guī)則,從URL集合中查找符合可信重寫規(guī)則的URL作為同一URL分類;

從URL集合中刪除同一URL分類中的URL,返回根據(jù)URL集合中任意兩個不同的URL,提取兩個不同URL的重寫規(guī)則的步驟。

可選地,分類模塊具體還用于:

從URL集合中提取第一URL和第二URL,確定第一URL和第二URL的重寫規(guī)則;

分類模塊還用于:

當(dāng)?shù)谝籙RL和第二URL的重寫規(guī)則為不可信的重寫規(guī)則時,從URL集合中提取第三URL和第四URL,確定第三URL和第四URL的重寫規(guī)則,并返回確定兩個不同URL的重寫規(guī)則是否可信重寫規(guī)則的步驟,第三URL和第四URL中至少有一個為URL集合中除第一URL和第二URL之外的其它URL。

可選地,分類模塊通過以下方法判斷重寫規(guī)則是否可信,包括:

若重寫規(guī)則的表現(xiàn)形式為純字母或純數(shù)字,且純字母或純數(shù)字的位數(shù)不確定,則重寫規(guī)則不可信。

可選地,判斷模塊具體用于:

針對各URL分類中的每個URL,獲取該URL所對應(yīng)的頁面的超文本標(biāo)記語言HTML文件;根據(jù)HTML文件中的標(biāo)簽信息,獲取HTML文件的指紋特征值;

對比各URL的指紋特征值之間的差值是否低于設(shè)定閾值;

若低于設(shè)定閾值,則確定各URL為可聚類。

可選地,判斷模塊具體用于:

從HTML文件中提取各標(biāo)簽的屬性值,不同屬性對應(yīng)具有各自的屬性權(quán)重值;

依據(jù)各標(biāo)簽在HTML文件中的位置不同,確定各標(biāo)簽的位置權(quán)重值;

根據(jù)各標(biāo)簽的位置權(quán)重值、各標(biāo)簽中不同屬性的屬性值及屬性權(quán)重值,得到HTML文件的指紋特征值。

可選地,判斷模塊具體用于:

將HTML文件中的位置包括頭中尾三部分,其中,頭部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重,尾部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重;

標(biāo)簽的屬性包括身份屬性、類別屬性和非典型屬性,非典型屬性為除身份屬性和類別屬性之外的屬性,其中,身份屬性的屬性權(quán)重值高于非典型屬性的屬性權(quán)重值,類別屬性的屬性權(quán)重值高于非典型屬性的屬性權(quán)重值。

綜上所述,本發(fā)明實施例提供一種網(wǎng)頁聚類方法及裝置,包括:獲取多個待聚類頁面的統(tǒng)一資源定位符URL;針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類;針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類。本發(fā)明實施例中通過對URL重寫規(guī)則進(jìn)行分類,獲得了對待聚類頁面的URL的初步分類,之后,通過提取頁面框架并根據(jù)頁面框架對URL的分類進(jìn)行驗證,經(jīng)過這種先分類再驗證的處理,可以將具有相同頁面框架結(jié)構(gòu)的網(wǎng)頁聚為一類,從而克服了現(xiàn)有聚類方法無法根據(jù)網(wǎng)頁框架進(jìn)行聚類的問題,提供了一種更適用于涉及頁面框架的處理過程的聚類方法。

附圖說明

為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的一種網(wǎng)頁聚類方法流程示意圖;

圖2為本發(fā)明實施例提供的一種站點樹示意圖;

圖3為本發(fā)明實施例提供的一個運用網(wǎng)頁聚類進(jìn)行漏洞掃描的流程示意圖;

圖4為本發(fā)明實施例提供的一種網(wǎng)頁聚類裝置結(jié)構(gòu)示意圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護(hù)的范圍。

圖1為本發(fā)明實施例提供的一種網(wǎng)頁聚類方法流程示意圖,如圖1所示,包括以下步驟:

S101:獲取多個待聚類頁面的統(tǒng)一資源定位符URL;

S102:針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類;

S103:針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類。

具體實施過程中,本發(fā)明所公開的分類方法既適用于網(wǎng)頁漏洞掃描,也適用于網(wǎng)頁檢索分析、站點數(shù)據(jù)統(tǒng)計等多種處理過程。

在步驟S101的具體實施過程中,待聚類頁面的統(tǒng)一資源定位符(Uniform Resource Locator,URL)是通過爬蟲算法獲取的。URL是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。對于待聚類頁面,每一個頁面都擁有自己專屬的URL。一般,這些待聚類頁面都源自于同一個根URL,多為一個網(wǎng)站的首頁,采用爬蟲算法,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。可選地,爬取網(wǎng)頁之后,對爬取的網(wǎng)頁進(jìn)行去重,將去重后的網(wǎng)頁作為待聚類網(wǎng)頁。

可選地,通過站點數(shù)的形式將待聚類網(wǎng)頁的URL存儲下來。待聚類網(wǎng)頁的URL層級對應(yīng)于站點樹的層級,一個URL為站點樹上的一個葉子結(jié)點。圖2為本發(fā)明實施例提供的一種站點樹示意圖。如圖2所示,站點樹共包括3個層級,第一層級為根URL0,第二層級包括URL1、URL2和URL3,第三層級包括URL4、URL5、URL6和URL7,其中,URL4、URL5和URL6為URL1的子層級,URL7為URL3的子層級。以網(wǎng)站首頁http://a為例,分別對上述8個URL進(jìn)行舉例說明,http://a為URL0,http://a/b為URL1,http://a/c為URL2,http://a/d為URL3,http://a/b/e為URL4,http://a/b/f為URL5,http://a/b/g為URL6,http://a/b/h為URL7。

在步驟S102的具體實施過程中,重寫規(guī)則指的是經(jīng)過重定向處理之后的同級URL,且目錄特征相同的URL的表征規(guī)則,將具有相同表征規(guī)則的URL聚為一類,例如,圖2中第三層級的同級URL為URL4:http://a/b/e,URL5:http://a/b/f,URL6:http://a/b/g,URL7:http://a/b/h,其中,URL4、URL5和URL6都為URL1:http://a/b的子URL,因此它們具有相同的目錄特征,需從URL4、URL5和URL6中提取重寫規(guī)則。此處重寫規(guī)則具體指的是URL的表述規(guī)則,例如對于URL http://ent.163.com/photoview/615398.html和URL http://ent.163.com/photoview/615409.html,根據(jù)這兩個URL提取的重寫規(guī)則為:http://ent.163.com/photoview/%6d.html,其中,%6d表示的是URL的html文件名為6位數(shù),http://ent.163.com/photoview表示的是這兩個URL的目錄特征。

可選地,本發(fā)明實施例提供一種按重寫規(guī)則分類的方法,包括:將多個待聚類頁面的URL作為URL集合;根據(jù)URL集合中任意兩個不同URL,提取兩個不同URL的重寫規(guī)則;確定兩個不同URL的重寫規(guī)則是否為可信重寫規(guī)則,若為可信重寫規(guī)則,從URL集合中查找符合可信重寫規(guī)則的URL作為同一URL分類;從URL集合中刪除所述同一URL分類中的URL,返回根據(jù)URL集合中任意兩個不同的URL,提取兩個不同URL的重寫規(guī)則的步驟。具體實施過程中,以URL集合A為例,A={URLa,URLb,URLc,URLd,URLe},從集合A中提取任意兩個URL,如URLa和URLd,根據(jù)這兩個URL的表現(xiàn)形式提取它們的重寫規(guī)則,然后,判斷這個重寫規(guī)則是否可信,若可信,則根據(jù)這個重寫規(guī)則,從集合A中查找符合這個規(guī)則的URL,并將這些URL作為同一個URL分類,例如,URLe也符合這個重寫規(guī)則,則,URLa、URLd和URLe為同一個URL分類;之后,從集合A中刪除URLa、URLd和URLe之后,對集合A中剩下的URL繼續(xù)進(jìn)行上述操作,直至對所有的URL都完成分類。可選地,若根據(jù)URLa和URLd提取的重寫規(guī)則不可信,則從URLc、URLb和URLe中再提取兩個URL重復(fù)上述過程,也可以保留URLa,從URLc、URLb和URLe中再提取一個URL與URLa進(jìn)行規(guī)則提取。

本發(fā)明實施例提供一種判斷重寫規(guī)則是否可信的方法,包括:若所述重寫規(guī)則的表現(xiàn)形式為純字母或純數(shù)字,且所述純字母或所述純數(shù)字的位數(shù)不確定,則所述重寫規(guī)則不可信。例如,Ewafoij.html和2323232.html生成的規(guī)則.{%d},無法得到確定位數(shù)的規(guī)則,因此此規(guī)則不可信,可選地,進(jìn)一步將非不可信URL分為可信URL和部分可信URL,對于如111.html和222.html生成的規(guī)則%3d.html,%3d表示由3位數(shù)字字符組成,這種規(guī)則即為可信規(guī)則,而對于如abcd_cdf001和abcd_wxyzm生成的規(guī)則abcd_.{%d},雖然含有確切的字母字符,但{%d}所示數(shù)字字符位數(shù)不確定,因此為部分可信URL??蛇x地,將部分可信URL和不可信URL存于特征庫中,當(dāng)遍歷所有待聚類URL都無法獲得可信URL時,從特征庫中調(diào)取部分可信URL或者不可信URL進(jìn)行聚類。

表一為本發(fā)明實施例提供的按照重寫規(guī)則分類的分類規(guī)則,如表一所示,序號1為第一種規(guī)則,根據(jù)最低級URL的重寫規(guī)則進(jìn)行分類,序號2為第二種規(guī)則,根據(jù)最低級URL和次低級URL的重寫規(guī)則進(jìn)行分類,序號3在序號2的基礎(chǔ)上又增加了一個層級。

表一

可選地,在步驟S103的具體實施過程中,針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類,具體指的是:針對各URL分類中的每個URL,獲取該URL所對應(yīng)的頁面的超文本標(biāo)記語言(HyperText Markup Language,HTML)文件;根據(jù)HTML文件中的標(biāo)簽信息,獲取HTML文件的指紋特征值;對比各URL的指紋特征值之間的差值是否低于設(shè)定閾值;若低于設(shè)定閾值,則確定各URL為可聚類。HTML文件中包含了網(wǎng)頁頁面內(nèi)的鏈接、圖片,甚至音樂、程序等非文字元素,從HTML文件中提取標(biāo)簽信息進(jìn)一步獲取的指紋特征值可以更好地表征網(wǎng)頁的框架結(jié)構(gòu)。

可選地,根據(jù)HTML文件中的標(biāo)簽信息,獲取HTML文件的指紋特征值,具體指的是:從HTML文件中提取各標(biāo)簽的屬性值,不同屬性對應(yīng)具有各自的屬性權(quán)重值;依據(jù)各標(biāo)簽在HTML文件中的位置不同,確定各標(biāo)簽的位置權(quán)重值;根據(jù)各標(biāo)簽的位置權(quán)重值、各標(biāo)簽中不同屬性的屬性值及屬性權(quán)重值,得到HTML文件的指紋特征值。HTML文件中包含著多個標(biāo)簽,每個標(biāo)簽又包括了多個屬性。這些屬性的屬性值被提取之后,將被用于指紋特征值的計算??蛇x地,根據(jù)各標(biāo)簽的位置權(quán)重值、各標(biāo)簽中不同屬性的屬性值及屬性權(quán)重值,得到HTML文件的指紋特征值,具體指的是:HTML文件中的位置包括頭中尾各部分,其中,頭部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重,尾部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重;標(biāo)簽的屬性包括身份(Identification,ID)屬性、類別(Class)屬性和非典型屬性,非典型屬性為除身份屬性和類別屬性之外的屬性,其中,所述身份屬性的屬性權(quán)重值高于所述非典型屬性的屬性權(quán)重值,所述類別屬性的屬性權(quán)重值高于所述非典型屬性的屬性權(quán)重值將這些提取出來的標(biāo)簽屬性值按標(biāo)簽在HTML文件中位置進(jìn)行權(quán)重分配,權(quán)重代表著對指紋特征值的影響程度。例如,將HTML文件分為頭中尾三部分,經(jīng)過大數(shù)據(jù)分析后發(fā)現(xiàn),頭部和尾部對HTML文件的指紋特征值影響較大,因此對頭部和尾部的標(biāo)簽的屬性值分配較高的權(quán)重??蛇x地,通過哈希算法計算HTML文件的指紋特征值,在計算過程中,對于單個標(biāo)簽的各屬性值也存在著權(quán)重分配,標(biāo)簽中的id屬性和class屬性的屬性值具有對網(wǎng)頁框架敏感的特性,所以id屬性和class屬性的屬性值相對于同一標(biāo)簽下的其它屬性值具有較高的權(quán)重。

在獲取各URL的指紋特征值后,對比同一URL分類中的各URL的指紋特征值之間的差值是否低于設(shè)定閾值;若低于設(shè)定閾值,則確定各URL為可聚類??蛇x地,對于同一URL分類中的各URL在于設(shè)定閾值進(jìn)行對比時,不需要任意兩個URL之間的指紋特征值的差值都小于預(yù)設(shè)閾值,可以根據(jù)實際應(yīng)用情況設(shè)定可信度標(biāo)準(zhǔn),當(dāng)滿足預(yù)設(shè)閾值的兩兩URL的組合在總組合數(shù)中的比例不低于可信度標(biāo)準(zhǔn)時,便認(rèn)為此URL分類為可聚類。例如,對于URL分類{URL1,URL2,URL3,URL4,URL5},預(yù)設(shè)的可信度標(biāo)準(zhǔn)為80%,這5個URL共有10種兩兩組合,則,若其中有8種URL兩兩組合滿足預(yù)設(shè)閾值,則此分類的可信度為80%,滿足可信度標(biāo)準(zhǔn),此URL分類為可聚類;若其中有6種URL兩兩組合滿足預(yù)設(shè)閾值,則此分類的可信度為60%,不滿足可信度標(biāo)準(zhǔn),此URL分類不可聚類。

可選的,設(shè)定閾值與網(wǎng)頁分區(qū)和各分區(qū)的權(quán)重分配之間存在著動態(tài)平衡,即,在獲取設(shè)定閾值時,通過一定數(shù)量的已知相同網(wǎng)頁框架的網(wǎng)頁,通過調(diào)整分區(qū)比例和分區(qū)權(quán)重的分配,將預(yù)設(shè)閾值控制在想要的數(shù)值上。

需要指出的是,上述獲取的指紋特征值并不能完全認(rèn)為其具有相同的框架結(jié)構(gòu),但可以用來驗證URL分類是否正確,即能夠同時滿足重定向規(guī)則和網(wǎng)頁框架比對的URL便可以認(rèn)為是同一類URL。

圖3為本發(fā)明實施例提供的一個運用網(wǎng)頁聚類進(jìn)行漏洞掃描的流程示意圖,如圖所示,包括以下步驟:

S301:爬蟲爬取站點所有URL,并以站點樹的形式存下來;

S302:首先對第一步抓取的URL結(jié)果通過重寫規(guī)則聚類;

S303:對聚為一類的URL集合進(jìn)行頁面框架判定是否為可聚類,如果判定結(jié)果為是,則執(zhí)行步驟S304;如果判定結(jié)果為否,則執(zhí)行步驟S305;

S304:提取其中一個URL進(jìn)行網(wǎng)頁掃描,該類URL中的其余URL的漏洞情況以此URL的掃描結(jié)果為準(zhǔn);

S305:將此URL分類中的URL全部進(jìn)行網(wǎng)頁掃描。

通過加入步驟S302網(wǎng)頁聚類分析后,使得在步驟S304中只需掃描一個網(wǎng)頁便可得知這個網(wǎng)頁所述分類中其它網(wǎng)頁的漏洞情況,從而有效地降低了網(wǎng)頁漏洞掃描器插件部分對系統(tǒng)及網(wǎng)絡(luò)資源的消耗,提升了網(wǎng)頁掃描器的掃描效率。

綜上所述,本發(fā)明實施例提供一種網(wǎng)頁聚類方法,包括:獲取多個待聚類頁面的統(tǒng)一資源定位符URL;針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類;針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類。本發(fā)明實施例中通過對URL重寫規(guī)則進(jìn)行分類,獲得了對待聚類頁面的URL的初步分類,之后,通過提取頁面框架并根據(jù)頁面框架對URL的分類進(jìn)行驗證,經(jīng)過這種先分類再驗證的處理,可以將具有相同頁面框架結(jié)構(gòu)的網(wǎng)頁聚為一類,從而克服了現(xiàn)有聚類方法無法根據(jù)網(wǎng)頁框架進(jìn)行聚類的問題,提供了一種更適用于涉及頁面框架的處理過程的聚類方法。

基于相同的技術(shù)構(gòu)思,本發(fā)明實施例還提供一種網(wǎng)頁聚類裝置,該裝置可執(zhí)行上述方法實施例。圖4為本發(fā)明實施例提供的一種網(wǎng)頁聚類裝置結(jié)構(gòu)示意圖,如圖4所示,網(wǎng)頁聚類裝置400包括:爬取模塊401、分類模塊402和判斷模塊403,其中:

爬取模塊401,用于獲取多個待聚類頁面的統(tǒng)一資源定位符URL;

分類模塊402,用于針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類;

判斷模塊403,用于針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類。

可選地,分類模塊402具體用于:

將多個待聚類頁面的URL作為URL集合;

根據(jù)URL集合中任意兩個不同URL,提取兩個不同URL的重寫規(guī)則;

確定兩個不同URL的重寫規(guī)則是否為可信重寫規(guī)則,若為可信重寫規(guī)則,從URL集合中查找符合可信重寫規(guī)則的URL作為同一URL分類;

從URL集合中刪除同一URL分類中的URL,返回根據(jù)URL集合中任意兩個不同的URL,提取兩個不同URL的重寫規(guī)則的步驟。、

可選地,分類模塊402具體用于:

從URL集合中提取第一URL和第二URL,確定第一URL和第二URL的重寫規(guī)則;

分類模塊402具體還用于:

當(dāng)?shù)谝籙RL和第二URL的重寫規(guī)則為不可信的重寫規(guī)則時,從URL集合中提取第三URL和第四URL,確定第三URL和第四URL的重寫規(guī)則,并返回確定兩個不同URL的重寫規(guī)則是否可信重寫規(guī)則的步驟,第三URL和第四URL中至少有一個為URL集合中除第一URL和第二URL之外的其它URL。

可選地,若重寫規(guī)則的表現(xiàn)形式為純字母或純數(shù)字,且純字母或純數(shù)字的位數(shù)不確定,則重寫規(guī)則不可信。

可選地,判斷模塊403具體用于:

針對各URL分類中的每個URL,獲取該URL所對應(yīng)的頁面的超文本標(biāo)記語言HTML文件;根據(jù)HTML文件中的標(biāo)簽信息,獲取HTML文件的指紋特征值;

對比各URL的指紋特征值之間的差值是否低于設(shè)定閾值;

若低于設(shè)定閾值,則確定各URL為可聚類。

可選地,判斷模塊403具體用于:

從HTML文件中提取各標(biāo)簽的屬性值,不同屬性對應(yīng)具有各自的屬性權(quán)重值;

依據(jù)各標(biāo)簽在HTML文件中的位置不同,確定各標(biāo)簽的位置權(quán)重值;

根據(jù)各標(biāo)簽的位置權(quán)重值、各標(biāo)簽中不同屬性的屬性值及屬性權(quán)重值,得到HTML文件的指紋特征值。

可選地,判斷模塊403具體用于:

將HTML文件中的位置包括頭中尾三部分,其中,頭部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重,尾部位置的標(biāo)簽的位置權(quán)重高于中部位置的標(biāo)簽的位置權(quán)重;

標(biāo)簽的屬性包括身份屬性、類別屬性和非典型屬性,非典型屬性為除身份屬性和類別屬性之外的屬性,其中,身份屬性的屬性權(quán)重值高于所述非典型屬性的屬性權(quán)重值,所述類別屬性的屬性權(quán)重值高于所述非典型屬性的屬性權(quán)重值。

綜上所述,本發(fā)明實施例提供一種網(wǎng)頁聚類方法及裝置,包括:獲取多個待聚類頁面的統(tǒng)一資源定位符URL;針對每個待聚類頁面的URL,確定該URL的重寫規(guī)則并按照該URL的重寫規(guī)則進(jìn)行URL分類;針對每個URL分類,確定該URL分類中的各URL所對應(yīng)的頁面的頁面框架,并根據(jù)各URL所對應(yīng)的頁面的頁面框架確定各URL是否可聚類;若各URL可聚類,則保留該URL分類。本發(fā)明實施例中通過對URL重寫規(guī)則進(jìn)行分類,獲得了對待聚類頁面的URL的初步分類,之后,通過提取頁面框架并根據(jù)頁面框架對URL的分類進(jìn)行驗證,經(jīng)過這種先分類再驗證的處理,可以將具有相同頁面框架結(jié)構(gòu)的網(wǎng)頁聚為一類,從而克服了現(xiàn)有聚類方法無法根據(jù)網(wǎng)頁框架進(jìn)行聚類的問題,提供了一種更適用于涉及頁面框架的處理過程的聚類方法。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
容城县| 沅江市| 浪卡子县| 通州市| 台南县| 苍山县| 叶城县| 依安县| 张家港市| 南郑县| 津市市| 绩溪县| 平泉县| 新邵县| 蓝山县| 龙里县| 阳泉市| 虞城县| 宁德市| 噶尔县| 信阳市| 海城市| 嫩江县| 闵行区| 乐至县| 华安县| 安塞县| 桃源县| 怀来县| 潮安县| 吴旗县| 新沂市| 阳春市| 苗栗县| 白沙| 西贡区| 奇台县| 安宁市| 二连浩特市| 堆龙德庆县| 巴林左旗|