一種url分類過濾方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及通信技術,尤其涉及一種URL分類過濾方法及裝置。
【背景技術】
[0002] 目前,互聯(lián)網(wǎng)中存在很多不良信息,因此需要對用戶訪問的網(wǎng)頁進行網(wǎng)頁過濾。常 用的網(wǎng)頁過濾方法是對網(wǎng)頁的URL (Uniform Resource Locator,統(tǒng)一資源定位符)進行分 類過濾。
[0003] 現(xiàn)有技術中,進行URL分類過濾可以通過獲取足夠多的網(wǎng)頁來獲取網(wǎng)頁中的URL, 并對這些URL進行分類,然后建立一個網(wǎng)頁的URL及URL所屬類別的映射關系表(簡稱URL 分類表)。當執(zhí)行過濾的網(wǎng)絡設備收到一個網(wǎng)頁請求時,可以獲取該網(wǎng)頁對應的URL,并通 過查找所述URL分類表來確定所述URL的類別,再結合過濾策略便可以實現(xiàn)對指定類別URL 的過濾。通常為了保證過濾的準確性就需要在網(wǎng)絡設備上設置一個大容量的URL分類表, 但這會占用所述網(wǎng)絡設備的大部分內(nèi)存,致使該網(wǎng)絡設備的查找效率較低。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提供一種URL分類過濾方法及裝置來解決網(wǎng)絡設備查找效率較 低的問題。
[0005] -種統(tǒng)一資源定位符URL分類過濾方法,所述方法應用于網(wǎng)絡設備,所述方法包 括:
[0006] 當收到用戶主機發(fā)送的網(wǎng)頁請求時,獲取所述網(wǎng)頁請求中的URL,根據(jù)預設的URL 分類表確定所述URL的類別;
[0007] 當所述URL的類別未知時,將所述URL保存在未知記錄表中,并將所述網(wǎng)頁請求轉(zhuǎn) 發(fā)至服務器;
[0008] 當收到服務器返回的網(wǎng)頁時,確定所述網(wǎng)頁的URL是否在所述未知記錄表中;
[0009] 當確定所述網(wǎng)頁的URL在所述未知記錄表中時,根據(jù)網(wǎng)頁分類模型確定所述網(wǎng)頁 的類別后,將所述網(wǎng)頁的類別及所述網(wǎng)頁的URL的對應關系添加到所述URL分類表中; [0010] 當所述網(wǎng)頁的類別符合過濾策略時,將所述返回的網(wǎng)頁轉(zhuǎn)發(fā)至用戶主機。
[0011] 基于相同的構思,本發(fā)明提供一種URL分類過濾裝置,所述裝置應用于網(wǎng)絡設備, 所述裝置包括:
[0012] 第一確定單元,用于當收到用戶主機發(fā)送的網(wǎng)頁請求時,根據(jù)預設的URL分類表 確定所述網(wǎng)頁請求中的URL的類別;
[0013] 第一轉(zhuǎn)發(fā)單元,用于當所述URL的類別未知時,將所述URL保存在未知記錄表中, 并將所述網(wǎng)頁請求轉(zhuǎn)發(fā)至服務器;
[0014] 第二確定單元,用于當收到服務器返回的網(wǎng)頁時,確定所述網(wǎng)頁的URL是否在所 述未知記錄表中;
[0015] 類別添加單元,用于當確定所述網(wǎng)頁的URL在所述未知記錄表中時,根據(jù)網(wǎng)頁分 類模型確定所述返回的網(wǎng)頁的類別后,將所述網(wǎng)頁的類別及所述網(wǎng)頁的URL的對應關系添 加到所述URL分類表中;
[0016] 第二轉(zhuǎn)發(fā)單元,用于當所述返回的網(wǎng)頁的類別符合過濾策略時,將所述返回的網(wǎng) 頁轉(zhuǎn)發(fā)至用戶主機。
[0017] 由此可見,本發(fā)明可以通過在網(wǎng)絡設備中設置一個容量較少的URL分類表來區(qū)分 網(wǎng)頁請求中的URL的類別,并對于URL的類別未知的網(wǎng)頁請求進行轉(zhuǎn)發(fā);然后在返回的網(wǎng)頁 中,對URL的類別未知的網(wǎng)頁根據(jù)網(wǎng)頁分類模型進行類別確定,并結合過濾策略對返回的 網(wǎng)頁進行URL分類過濾。相對于現(xiàn)有技術,本發(fā)明可以減少URL分類表對網(wǎng)絡設備內(nèi)存的 占用,并且可以根據(jù)設備部署環(huán)境自適應的更新URL分類表,從而能夠提高網(wǎng)絡設備的查 找效率。
【附圖說明】
[0018] 圖1是本發(fā)明提供的一種URL分類過濾方法的處理流程圖;
[0019] 圖2是本發(fā)明實施例中URL分類過濾的組網(wǎng)示意圖;
[0020] 圖3是本發(fā)明實施例中另一種URL分類過濾方法的處理流程圖;
[0021] 圖4是本發(fā)明實施例中又一種URL分類過濾方法的處理流程圖;
[0022] 圖5是本發(fā)明實施例中一種URL分類過濾裝置的結構示意圖;
[0023] 圖6是本發(fā)明實施例中另一種URL分類過濾裝置的結構示意圖。
【具體實施方式】
[0024] 為解決上述問題,本發(fā)明提供一種URL分類過濾方法,可以通過在網(wǎng)絡設備中設 置一個容量較少的URL分類表來區(qū)分網(wǎng)頁請求中的URL的類別,并對于URL的類別未知的 網(wǎng)頁請求進行轉(zhuǎn)發(fā);然后在返回的網(wǎng)頁中,對URL的類別未知的網(wǎng)頁根據(jù)網(wǎng)頁分類模型進 行類別確定,并結合過濾策略對返回的網(wǎng)頁進行URL分類過濾。因此可以減少URL分類表 對網(wǎng)絡設備內(nèi)存的占用,并且可以根據(jù)設備部署環(huán)境自適應的更新URL分類表,從而能夠 提高網(wǎng)絡設備的查找效率。
[0025] 參見圖1,本實施例提供的一種URL分類過濾方法的處理流程圖。其中,所述URL 分類過濾方法應用于網(wǎng)絡設備,例如防火墻設備、安全審計設備、流量監(jiān)控設備等,所述過 濾方法包括:
[0026] 步驟101、當收到用戶主機發(fā)送的網(wǎng)頁請求時,獲取所述網(wǎng)頁請求中的URL,根據(jù) 預設的URL分類表確定所述URL的類別;
[0027] 在本實施例中,當網(wǎng)絡設備收到用戶主機發(fā)送的網(wǎng)頁請求時,首先要獲取該網(wǎng)頁 請求中的URL,再根據(jù)預設的URL分類表確定所述URL的類別。需要說明的是,本實施例中 所述URL分類表,可以是預先設置在網(wǎng)絡設備內(nèi)存中的一個包含常用URL類別的分類表,也 可以是管理員根據(jù)實際應用情況對所述預先設置的URL分類表進行適當修改后的分類表。 上述URL分類表通常包含一些常用的URL分類,相對于現(xiàn)有技術中的URL分類表,本發(fā)明 URL分類表的容量更小,因此僅需占用很小的內(nèi)存空間。
[0028] 在所述URL分類表中通??砂║RL以及URL的類別的對應關系。然而由于該 URL分類表一般只包含常用的URL分類,涉及并不全面,因此在查找URL對應的類別時,查找 的結果還可能會出現(xiàn)URL的類別未知的情況。
[0029] 步驟102、當所述URL的類別未知時,將所述URL保存在未知記錄表中,并將所述網(wǎng) 頁請求轉(zhuǎn)發(fā)至服務器;
[0030] 在本實施例中,網(wǎng)絡設備查找所述URL分類表后,確定所述URL不在所述URL分類 表中,說明所述URL的類別未知。網(wǎng)絡設備對于類別未知的URL無法進行過濾,于是,可以 將所述類別未知的URL對應的所述網(wǎng)頁請求轉(zhuǎn)發(fā)至服務器,以保證用戶主機與服務器之間 的正常通信。
[0031] 步驟103、當收到服務器返回的網(wǎng)頁時,確定所述網(wǎng)頁的URL是否在所述未知記錄 表中;
[0032] 在本實施例中,當服務器收到所述網(wǎng)絡設備轉(zhuǎn)發(fā)的網(wǎng)頁請求后,會向網(wǎng)絡設備返 回所述網(wǎng)頁請求中用戶主機所請求的網(wǎng)頁,網(wǎng)頁中也包含著該網(wǎng)頁的URL。由于上述步驟 102的網(wǎng)頁請求在轉(zhuǎn)發(fā)給服務器時沒有進行URL分類過濾,相對應的,在服務器返回的網(wǎng)頁 中中也可能包含未分類過濾的網(wǎng)頁。因此在所述網(wǎng)絡設備將服務器返回的網(wǎng)頁轉(zhuǎn)發(fā)給用戶 主機之前,還需要對所述返回的網(wǎng)頁進行分類過濾。于是,該網(wǎng)絡設備會通過本機保存的未 知記錄表確定該網(wǎng)頁的URL的類別是否未知,從而篩選出未進行URL分類過濾的網(wǎng)頁。
[0033] 步驟104、當確定所述網(wǎng)頁的URL在所述未知記錄表中時,根據(jù)網(wǎng)頁分類模型確定 所述網(wǎng)頁的類別后,將所述網(wǎng)頁的類別及所述網(wǎng)頁的URL的對應關系添加到所述URL分類 表中;
[0034] 在本實施例中,若該網(wǎng)絡設備通過查找所述未知記錄表,確定所述網(wǎng)頁的URL在 所述未知記錄表中,則說明所述網(wǎng)頁的URL的類別未知。已知網(wǎng)頁分類模型是通過大量不 同類別的網(wǎng)頁,對網(wǎng)絡設備自身的分類學習算法訓練而成,可以認為該網(wǎng)頁分類模型包含 的類別比較全面,因此網(wǎng)絡設備可以根據(jù)自身預設的網(wǎng)頁分類模型確定所述網(wǎng)頁的類別。 確定所述網(wǎng)頁的類別后,網(wǎng)絡設備可以將該網(wǎng)頁的類別以及與網(wǎng)頁URL的對應關系添加到 所述URL分類表中,從而可以使網(wǎng)絡設備根據(jù)部署環(huán)境自適應的更新URL分類表。
[0035] 步驟105、當所述網(wǎng)頁的類別符合過濾策略時,將所述返回的網(wǎng)頁轉(zhuǎn)發(fā)至用戶主 機。
[0036] 網(wǎng)絡設備確定了所述網(wǎng)頁的類別后,還需確定所述網(wǎng)頁的類別是否符合預設的過 濾策略,若符合,則將該返回的網(wǎng)頁轉(zhuǎn)發(fā)至用戶主機。
[0037] 由此可見,可以通過在網(wǎng)絡設備中設置一個容量較少的URL分類表來區(qū)分網(wǎng)頁請 求中的URL的類別,并對于URL的類別未知的網(wǎng)頁請求進行轉(zhuǎn)發(fā);然后在返回的網(wǎng)頁中,對 URL的類別未知的網(wǎng)頁根據(jù)網(wǎng)頁分類模型進行類別確定,并結合過濾策略對返回的網(wǎng)頁進 行URL分類過濾。相對于現(xiàn)有技術,本發(fā)明可以減少URL分類表對網(wǎng)絡設備內(nèi)存的占用,并 可以根據(jù)設備部署環(huán)境自適應的更新URL分類表,從而能夠提高網(wǎng)絡設備的查找效率。
[0038] 在前述實施例的中,執(zhí)行完步驟101后,當所述網(wǎng)絡設備根據(jù)預設的URL分類表確 定所述URL的類別已知時,網(wǎng)絡設備可以查找到該URL的類別,并可以進一步判斷所述URL 的類別是否符合所述過濾策略,若符合過濾策略,則將所述網(wǎng)頁請求轉(zhuǎn)發(fā)至