網(wǎng)頁的統(tǒng)一資源定位符url的過濾方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法和裝置。
【背景技術(shù)】
[0002]在對(duì)通用網(wǎng)關(guān)接口(CGI, Common Gateway Interface)進(jìn)行網(wǎng)頁Web安全掃描時(shí),通常需要盡可能的收集所有CGI,并過濾掉其中的垃圾頁面,提高Web安全掃描的效率。目前,本領(lǐng)域技術(shù)人員通常采集CGI的方法主要包括以下兩種:一是通過網(wǎng)絡(luò)爬蟲,在互聯(lián)網(wǎng)上爬取URL ;二是通過旁路WAF的流量來獲取CGI。然而,上述這兩種獲取CGI的方法,都不可避免的收集到很多垃圾網(wǎng)頁,其中,上述垃圾網(wǎng)頁可以為不能訪問的或者不存在的網(wǎng)頁,這些垃圾網(wǎng)頁在對(duì)Web安全掃描毫無意義,甚至在很大程度上影響了 Web安全掃描的效率。
[0003]隨著采集到的CGI的數(shù)量不斷增加,通過上述CGI采集方法收集到的垃圾網(wǎng)頁也隨之增加,這樣,在網(wǎng)頁Web安全掃描的過程中,快速地從海量的URL中篩選出垃圾網(wǎng)頁,并過濾掉垃圾網(wǎng)頁對(duì)應(yīng)的URL,就變得十分重要。
[0004]然而,針對(duì)上述的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供了一種網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法和裝置,以至少解決由于現(xiàn)有技術(shù)無法過濾垃圾網(wǎng)頁的URL的技術(shù)問題。
[0006]根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法,包括:獲取待處理URL集合,其中,上述待處理URL集合包括多個(gè)待處理網(wǎng)頁的URL ;對(duì)上述待處理URL集合中的每個(gè)URL執(zhí)行以下過濾操作,其中,上述待處理URL集合中當(dāng)前執(zhí)行以下過濾操作的URL為當(dāng)前URL:根據(jù)預(yù)設(shè)的配置文件中的過濾標(biāo)識(shí)符判斷上述當(dāng)前URL是否為待檢測(cè)URL ;若上述URL為上述待檢測(cè)URL,則根據(jù)上述配置文件中的過濾字段對(duì)上述當(dāng)前URL進(jìn)行匹配;若根據(jù)上述過濾字段成功對(duì)上述當(dāng)前URL進(jìn)行匹配,則從上述待處理URL集合中過濾掉上述當(dāng)前URL。
[0007]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種網(wǎng)頁的統(tǒng)一資源定位符URL的過濾裝置,包括:獲取單元,用于獲取待處理URL集合,其中,上述待處理URL集合包括多個(gè)待處理網(wǎng)頁的URL ;過濾單元,用于對(duì)上述待處理URL集合中的每個(gè)URL執(zhí)行以下過濾操作,其中,上述待處理URL集合中當(dāng)前執(zhí)行以下過濾操作的URL為當(dāng)前URL:根據(jù)預(yù)設(shè)的配置文件中的過濾標(biāo)識(shí)符判斷上述當(dāng)前URL是否為待檢測(cè)URL ;在上述URL為上述待檢測(cè)URL時(shí),根據(jù)上述配置文件中的過濾字段對(duì)上述當(dāng)前URL進(jìn)行匹配;在根據(jù)上述過濾字段成功對(duì)上述當(dāng)前URL進(jìn)行匹配時(shí),從上述待處理URL集合中過濾掉上述當(dāng)前URL。
[0008]在本發(fā)明實(shí)施例中,通過利用配置文件對(duì)獲取的待處理URL進(jìn)行過濾,其中,上述配置文件中至少包括過濾標(biāo)識(shí)符、過濾字段,通過利用過濾標(biāo)識(shí)符判斷上述待處理URL是否為待檢測(cè)URL,以達(dá)到對(duì)上述URL進(jìn)行初步篩選的目的,然后通過過濾字段對(duì)待檢測(cè)的URL進(jìn)行匹配,進(jìn)而對(duì)成功匹配的URL進(jìn)行過濾,從而實(shí)現(xiàn)了在Web安全掃描的過程中,不再對(duì)不必要的垃圾網(wǎng)頁所對(duì)應(yīng)的URL進(jìn)行掃描,從而實(shí)現(xiàn)了提高Web安全掃描的效率。進(jìn)而解決了由于現(xiàn)有技術(shù)無法過濾垃圾網(wǎng)頁的URL的技術(shù)問題。
[0009]此外,通過利用過濾字段中的特征參數(shù)和/或特征字符串,對(duì)上述待檢測(cè)URL按照預(yù)定的匹配方式進(jìn)行匹配,達(dá)到了對(duì)URL的準(zhǔn)確過濾的目的,從而實(shí)現(xiàn)了提高對(duì)網(wǎng)頁的統(tǒng)一資源定位符URL的過濾的準(zhǔn)確性的技術(shù)效果。
【附圖說明】
[0010]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0011]圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的應(yīng)用網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法的硬件環(huán)境示意圖;
[0012]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法的流程圖;
[0013]圖3是根據(jù)本發(fā)明實(shí)施例的一種可選的獲取網(wǎng)頁的統(tǒng)一資源定位符URL的方法的流程圖;
[0014]圖4是根據(jù)本發(fā)明實(shí)施例的一種可選的網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法中的配置文件的示意圖;
[0015]圖5是根據(jù)本發(fā)明實(shí)施例的另一種可選的網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法的流程圖;
[0016]圖6是根據(jù)本發(fā)明實(shí)施例的另一種可選的網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法中的配置文件的示意圖;
[0017]圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的網(wǎng)頁的統(tǒng)一資源定位符URL的過濾裝置的示意圖;以及
[0018]圖8是根據(jù)本發(fā)明實(shí)施例的一種可選的應(yīng)用網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法的服務(wù)器的示意圖。
【具體實(shí)施方式】
[0019]為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0020]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0021]實(shí)施例1
[0022]根據(jù)本發(fā)明實(shí)施例,提供了一種網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法,上述網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法可以應(yīng)用于如圖1所示的硬件環(huán)境中,其中,用于對(duì)網(wǎng)頁的統(tǒng)一資源定位符URL執(zhí)行過濾的過濾服務(wù)器102可以通過網(wǎng)絡(luò)與上述網(wǎng)頁所在的網(wǎng)頁服務(wù)器104建立鏈接,并對(duì)由上述網(wǎng)頁服務(wù)器104發(fā)送的待處理的URL進(jìn)行過濾。其中,上述網(wǎng)絡(luò)包括但不限于:廣域網(wǎng)、城域網(wǎng)或局域網(wǎng)。
[0023]可選地,如圖2所示,本實(shí)施例中的網(wǎng)頁的URL的過濾方法包括:
[0024]S202,獲取待處理URL集合,其中,待處理URL集合包括多個(gè)待處理網(wǎng)頁的URL ;
[0025]S204,對(duì)待處理URL集合中的每個(gè)URL執(zhí)行以下過濾操作,其中,待處理URL集合中當(dāng)前執(zhí)行以下過濾操作的URL為當(dāng)前URL:
[0026]S2042,根據(jù)預(yù)設(shè)的配置文件中的過濾標(biāo)識(shí)符判斷當(dāng)前URL是否為待檢測(cè)URL ;
[0027]S2044,若URL為待檢測(cè)URL,則根據(jù)配置文件中的過濾字段對(duì)當(dāng)前URL進(jìn)行匹配;
[0028]S2046,若根據(jù)過濾字段成功對(duì)當(dāng)前URL進(jìn)行匹配,則從待處理URL集合中過濾掉當(dāng)前URL ;
[0029]S2048,若URL不為待檢測(cè)URL,或者,若根據(jù)過濾字段沒有對(duì)當(dāng)前URL進(jìn)行成功匹配,則不從待處理URL集合中過濾掉當(dāng)前URL。
[0030]可選地,在本實(shí)施例中,上述網(wǎng)頁的統(tǒng)一資源定位符URL的過濾方法可以應(yīng)用于Web安全掃描的過程中。例如,結(jié)合圖1所示,在執(zhí)行對(duì)上述Web安全掃描之前,獲取上述待處理的URL集合,其中,上述待處理URL集合包括多個(gè)待處理網(wǎng)頁的URL,對(duì)上述URL集合中的每個(gè)URL執(zhí)行過濾操作,以使從過濾服務(wù)器102所獲取的海量的URL中過濾掉不必要執(zhí)行Web安全掃描的垃圾網(wǎng)頁所對(duì)應(yīng)的URL。上述舉例只是一種示例,本實(shí)施例對(duì)此不做任何限定。
[0031]可選地,在本實(shí)施例中,結(jié)合圖3所示,在獲取待處理的URL集合之前,過濾服務(wù)器102與網(wǎng)頁服務(wù)器104之間的交互過程:
[0032]S302,過濾服務(wù)器102會(huì)通過網(wǎng)絡(luò)向網(wǎng)頁服務(wù)器104發(fā)送獲取待處理的URL集合的請(qǐng)求;
[0033]S304,響應(yīng)上述請(qǐng)求上述網(wǎng)頁服務(wù)器104會(huì)向過濾服務(wù)器102返回待處理的URL
隹A
口 ο
[0034]可選地,在本實(shí)施例中,上述配置文件為由包括過濾標(biāo)識(shí)符和過濾字段的json字符串形成的文件,其中,json為一種輕量級(jí)的數(shù)據(jù)交換語言JavaScript Object Notat1n,上述語言以文字為基礎(chǔ),且易于讓人閱讀,同時(shí)也方便了機(jī)器進(jìn)行解析和生成。其中,上述過濾標(biāo)識(shí)符可以包括但不限于:對(duì)上述待處理URL集合執(zhí)行過濾的適用范圍。例如,上述適用范圍可以包括但不限于:全局網(wǎng)頁、局部網(wǎng)頁,其中,上述局部網(wǎng)頁可以通過預(yù)設(shè)域名的方式來進(jìn)行篩選。上述過濾字段可以包括但不限于:指示對(duì)上述待檢測(cè)URL執(zhí)行過濾的匹配結(jié)果,其中,上述過濾字段中可以包括但不限于多個(gè)過濾子字段。例如,上述匹配結(jié)果可以包括但不限于:用于匹配的特征參數(shù)及其匹配方式、用于匹配的特征字符串及其匹配方式。
[0035]例如,如圖4中402所示,用“host”標(biāo)識(shí)上述過濾標(biāo)識(shí)符,當(dāng)上述“host”的取值為“*”,則表示上述過濾適用于對(duì)所有網(wǎng)頁的過濾;當(dāng)上述“host”的取值為“域名/IP”,則表示上述過濾適用于對(duì)應(yīng)于上述“域名/IP”的網(wǎng)頁。當(dāng)判斷出上述當(dāng)前執(zhí)行過濾操作的當(dāng)前URL滿足上述過濾標(biāo)識(shí)符,則判斷出上述當(dāng)前URL為待檢測(cè)URL。
[0036]又例如,如圖4中404所示,用“rule”標(biāo)識(shí)上述過濾字段,其中,上述“rule”中可以包括但不限于如下所示的子字段:1)設(shè)置狀態(tài)碼“HttpCode”的特征參數(shù);2)設(shè)置消息正文“Content”的特征字符串。例如,配置文件配置狀態(tài)碼“HttpCode”的取值“等于”數(shù)值“200”,配置消息正文“Content” 的字符串為“http://qzone.qq.com/gy/404/data, js”,當(dāng)上述待檢測(cè)URL與上述過濾字段中的所有子字段均匹配成功,則可以判斷出上述待檢測(cè)URL匹配成功,從上述待處理URL集合中過濾掉上述當(dāng)前URL。
[0037]可選地,在本實(shí)施例中,上述配置文件還可以包括但不限于:配置文件的類型名稱、配置文件的屬性,其中,上述配置文件的屬性可以包括但不限于:配置文件的添加時(shí)間、配置文件的添加者。例如,如圖4中406所示,配置文件的類型名稱為“gongyi404”,如圖4中408所示,配置文件的添加時(shí)間為“2013-10-13”,配置文件的添加者為“zhangsan”。
[0038]可選地,在本實(shí)施例中,在對(duì)上述待處理的URL執(zhí)行完過濾后,將過濾掉垃圾網(wǎng)頁所對(duì)應(yīng)的URL保存,以便于Web安全掃描時(shí)調(diào)用進(jìn)行掃描,達(dá)到提高Web安全掃描的效率。
[0039]可選地,在本實(shí)施例中,上述配置文件可以以哈希表的形式保存,保存的位置可以為以下至少之一:磁盤文本文件中、數(shù)據(jù)庫服務(wù)器的文件中??蛇x地,當(dāng)需要對(duì)上述待處理的URL執(zhí)行過濾時(shí),就由上述位置加載上述配置文件實(shí)現(xiàn)對(duì)上述待處理URL集合中的URL進(jìn)行過濾??蛇x地,在本實(shí)施例中,加載上述配置文件的方式可以但不限于為在上述哈希表中遍歷查找與當(dāng)前URL對(duì)應(yīng)的配置文件。
[0040]可選地,上述預(yù)設(shè)的配置文件為多個(gè)配置文件,其中,通過以下步驟執(zhí)行根據(jù)預(yù)設(shè)的配置文件中的過濾標(biāo)識(shí)符判斷當(dāng)前URL是否為待檢測(cè)URL、根據(jù)配置文件