欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種URL地址的解析方法和系統(tǒng)與流程

文檔序號:11517940閱讀:335來源:國知局
一種URL地址的解析方法和系統(tǒng)與流程

本發(fā)明涉及數據處理領域,特別涉及一種url地址的解析方法和系統(tǒng)。



背景技術:

在移動互聯網迅猛發(fā)展,每天都有海量的上網日志產生,其中蘊含著海量的知識和用戶行為信息,越來越多的數據需要進行分析、挖掘和學習,這樣就給傳統(tǒng)dpi技術帶來了嚴峻的考驗。dpi技術的主要是通過對網絡業(yè)務的識別,對網絡業(yè)務占用資源情況進行分析,了解和跟蹤不同業(yè)務流量的發(fā)展變化趨勢和網絡資源的占用情況,為流量分析、網絡規(guī)劃、用戶行為分析和網絡資源的管理提供依據,實現對網絡業(yè)務應用的精細化管理,綜合平衡用戶的各種業(yè)務體驗,發(fā)揮出現有網絡的最大效益。傳統(tǒng)dpi技術是對報文內容和協(xié)議特征進行檢測的,通過常用的特征識別、關聯識別、行為識別等技術來實現應用分析、用戶分析、網元分析、流量管控、安全保障等功能。傳統(tǒng)dpi技術面對爆炸式數據增長的壓力,具有以下的問題:

1、海量的上網日志日積月累,導致解析覆蓋范圍能力不足;加之現有對報文內容和協(xié)議特征進行檢測機制也會影響解析的精準程度。

2、由于檢測機制的限制,使得解析深度不足,無法識別用戶的具體行為,例如瀏覽的具體內容、電商的具體內容操作行為、內容搜索的具體行為等。

3、當前dpi技術的檢測對比規(guī)則庫是采用人工撥測的方式收集,人工成本高,自動化程度很低,工作效率低,規(guī)則庫的不足也影響了解析的覆蓋范圍。



技術實現要素:

本發(fā)明提供了一種url地址的解析方法和系統(tǒng),解決了當前dpi技術解析覆蓋范圍少,深度不足,生產效率低等問題。

第一方面,本發(fā)明實施例提供了一種url地址的解析方法,方法包括以下步驟:

步驟1,建立規(guī)則庫,所述規(guī)則庫中包括預設的至少一個分類規(guī)則;

步驟2,獲取上網日志數據包含的url地址;

步驟3,讀取所述至少一個分類規(guī)則;

步驟4,采用并行處理方法調用所述至少一個分類規(guī)則對所述url地址進行解析,生成所述url地址對應的分類結果;

步驟5,輸出所述分類結果。

本發(fā)明提出了一種url地址的解析方法,可以根據解析類型自動形成對應的分類規(guī)則并建立規(guī)則庫,然后采用并行處理方式調用規(guī)則庫中的至少一個分類規(guī)則對url地址進行解析,從而生成分類結果,不僅提升了解析檢測的覆蓋范圍、提高了解析的精準程度,而且完善了深度解析的能力、大大降低了規(guī)則庫撥測的成本,具有高效、低成本的優(yōu)勢。

進一步,所述分類規(guī)則包括噪音匹配規(guī)則、app分類規(guī)則、url分類規(guī)則、搜索引擎匹配規(guī)則、動作匹配規(guī)則和自定義規(guī)則。

上述優(yōu)選實施例通過建立包括多個分類規(guī)則的規(guī)則庫,可以對各種類型的url地址進行解析,并生成對應的分類結果,從而提高本發(fā)明的應用范圍,也提高了解析的成功率。

第二方面,本發(fā)明提供了一種url地址的解析系統(tǒng),包括建立模塊、獲取模塊、讀取模塊、解析模塊和輸出模塊,

所述建立模塊用于建立規(guī)則庫,所述規(guī)則庫中包括預設的至少一個分類規(guī)則;

所述獲取模塊用于獲取上網日志數據包含的url地址;

所述讀取模塊用于讀取所述至少一個分類規(guī)則;

所述解析模塊用于采用并行處理方法調用所述至少一個分類規(guī)則對所述url地址進行解析,生成所述url地址對應的分類結果;

所述輸出模塊用于輸出所述分類結果。

本發(fā)明提出了一種基于上網日志數據中url地址的解析系統(tǒng),可以根據解析類型自動形成對應的分類規(guī)則并建立規(guī)則庫,然后采用并行處理方式調用規(guī)則庫中的至少一個分類規(guī)則對url地址進行解析,從而生成分類結果,不僅提升了解析檢測的覆蓋范圍、提高了解析的精準程度,而且完善了深度解析的能力、大大降低了規(guī)則庫撥測的成本,具有高效、低成本的優(yōu)勢。

進一步,所述分類規(guī)則包括噪音匹配規(guī)則、app分類規(guī)則、url分類規(guī)則、搜索引擎匹配規(guī)則、動作匹配規(guī)則和自定義規(guī)則。

上述優(yōu)選實施例通過建立包括多個分類規(guī)則的規(guī)則庫,可以對各種類型的url地址進行解析,并生成對應的分類結果,從而提高本發(fā)明的應用范圍,也提高了解析的成功率。

本發(fā)明附加的方面的優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明實踐了解到。

附圖說明

圖1為實施例1提供的一種url地址的解析方法的流程性示意圖;

圖2為實施例2提供的一種url地址的解析方法中建立包含app分類規(guī)則的規(guī)則庫的流程性示意圖;

圖3為實施例3提供的一種url地址的解析方法中步驟3的流程性示意圖;

圖4為實施例4提供的一種url地址的解析系統(tǒng)的結構性示意圖;

圖5為實施例5提供的一種url地址的解析系統(tǒng)中規(guī)則更新模塊的結構性示意圖。

具體實施方式

以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結構、接口、技術之類的具體細節(jié),以便透切理解本發(fā)明。然而,本領域的技術人員應當清楚,在沒有這些具體細節(jié)的其它實施例中也可以實現本發(fā)明。在其它情況中,省略對眾所周知的系統(tǒng)、電路以及方法的詳細說明,以免不必要的細節(jié)妨礙本發(fā)明的描述。

圖1為實施例1提供的一種url地址的解析方法的流程性示意圖,如圖1所示,方法包括以下步驟:

步驟1,建立規(guī)則庫,所述規(guī)則庫中包括預設的至少一個分類規(guī)則;

步驟2,獲取上網日志數據包含的url地址;

步驟3,讀取所述至少一個分類規(guī)則;

步驟4,采用并行處理方法調用所述至少一個分類規(guī)則對所述url地址進行解析,生成所述url地址對應的分類結果;

步驟5,輸出所述分類結果。

本實施例提出了一種基于上網日志數據中url地址的解析方法,可以根據解析類型自動形成對應的分類規(guī)則并建立規(guī)則庫,然后采用并行處理方式調用規(guī)則庫中的至少一個分類規(guī)則對url地址進行解析,從而生成分類結果,不僅提升了解析檢測的覆蓋范圍、提高了解析的精準程度,而且完善了深度解析的能力、大大降低了規(guī)則庫撥測的成本,具有高效、低成本的優(yōu)勢。

優(yōu)選實施例中,所述分類規(guī)則包括噪音匹配規(guī)則、app分類規(guī)則、url分類規(guī)則、搜索引擎匹配規(guī)則、動作匹配規(guī)則和自定義規(guī)則等等。所述噪音匹配規(guī)則用于判斷所述url地址是否為噪音;所述app分類規(guī)則用于判斷所述url地址是否是app對應的url地址,若是,則對url地址對應的app進行分類;所述url分類規(guī)則用于判斷所述url地址是否是網頁對應的url地址,若是,則對url地址按照網頁域名或者網頁的欄目信息進行分類;所述搜索引擎匹配規(guī)則用于對url地址進行分析,生成產生url地址的具體搜索引擎信息;所述動作匹配規(guī)則用于對所述url地址進行分析,獲取用戶的行為信息,比如用戶收藏商品行為、放入購物車行為、支付行為等等;所述自定義規(guī)則為根據用戶需要獲取的分類結果自定義的規(guī)則,比如通過自定義規(guī)則對所述url地址進行解析,可以生成端口號、公眾號名稱等等。通過建立包括多個分類規(guī)則的規(guī)則庫,可以對各種類型的url地址進行解析,并生成對應的分類結果,從而提高本發(fā)明的應用范圍,也提高了解析的成功率。

具體實施例中,可以設置爬取任務和具體的爬取策略,然后通過網絡爬蟲服務自動爬取建立每個分類規(guī)則所需要的數據,從而建立分類規(guī)則和規(guī)則庫,大大降低了人工撥測的成本,提高了生產效率。具體的,比如通過網絡爬蟲服務從互聯網系統(tǒng)中爬取網頁的內容信息,通過內容信息對url進行分類形成url分類規(guī)則;或者通過網絡爬蟲服務抓取app的特征url,結合從app商店中爬取的app分類,形成app分類規(guī)則;或者通過網絡爬蟲服務抓取搜索引擎的特征關鍵詞,形成搜索引擎匹配規(guī)則;或者通過網絡爬蟲服務抓取電商數據,形成動作匹配規(guī)則等等。優(yōu)選實施例中,還可以對網絡爬蟲的數據爬取服務進行監(jiān)控管理,監(jiān)控爬蟲的運行狀態(tài)及集群資源情況,進一步提高數據爬取效果。以下通過一個具體的實施例進行說明。

圖2為實施例2提供的一種url地址的解析方法中建立包含app分類規(guī)則的規(guī)則庫的流程性示意圖,如圖2所示,包括以下步驟:

s001,獲取app名稱,根據所述app名稱檢索預設app商店中對應的app分類信息和app地址信息;

s002,爬取所述app分類信息,并將所述app分類信息和所述app名稱統(tǒng)一,然后將所述app分類信息和所述app名稱歸并到現有app分類體系;

s003,解析所述app地址信息,獲取所述app的下載地址,并將下載后app安裝到虛擬機上;

s004,利用模擬器模擬所述app的點擊動作,通過網卡監(jiān)聽并獲取所述app的動作請求;

s005,判斷是否成功獲取所述動作請求,若是,則獲取所述動作請求產生的url,并將所述url與所述app分類信息、所述app名稱關聯后形成第一app分類規(guī)則,然后向預設客戶端發(fā)送審核請求,并執(zhí)行s006;若否,則執(zhí)行s007;

s006,判斷是否獲取審核通過指令,若是,則將所述第一app分類規(guī)則加入到當前規(guī)則庫,若否,則執(zhí)行s007;

s007,生成手工梳理指令,并獲取手工梳理完成的第二app分類規(guī)則,然后將所述第二app分類規(guī)則加入到當前規(guī)則庫。

上述優(yōu)選實施例將自動生成app分類規(guī)則和手動生成app分類規(guī)則相結合,不僅提高了規(guī)則庫的建立速度,從而提高了解析效率,同時豐富了app分類規(guī)則的內容和完整性,進一步提高了解析的成功率。

圖3為實施例3提供的一種url地址的解析方法中步驟3的流程性示意圖,如圖3所示,所述步驟3具體包括以下步驟:

s301,從所述規(guī)則庫中讀取預設的至少一個分類規(guī)則,并將所述至少一個分類規(guī)則中每個分類規(guī)則均加載到數據緩存模塊中;

s302,建立與每個分類規(guī)則對應的字典樹,并將所述字典樹保存在所述數據緩存模塊中。

上述優(yōu)選實施例中,數據緩存模塊接收到分類規(guī)則時會在內存中開辟一定的空間,建立對應的字典樹來動態(tài)存儲所述分類規(guī)則,字典樹可以利用字符串的公共前綴來減少查詢時間,最大限度地減少無謂的字符串比較,從而進一步提高步驟4的解析效率。

所述實施例3中,步驟4具體為:采用map/reduce并行方式依次遍歷每個分類規(guī)則對應的字典樹,直到生成所述url地址對應的分類結果或者所有的字典樹都遍歷完畢。比如當所述分類規(guī)則包括噪音匹配規(guī)則、app分類規(guī)則、url分類規(guī)則、搜索引擎匹配規(guī)則、動作匹配規(guī)則和自定義規(guī)則時,可以按照任意順序依次采用上述規(guī)則對所述url地址進行解析,直到解析成功生成分類結果,或者全部分類規(guī)則都解析完畢。

上述優(yōu)選實施例采用一種基于hadoopmap/reduce并行算法的解析引擎,解析引擎利用字典樹存儲分類規(guī)則,并利用hadoop并行運算的能力實現了字典樹的并行遍歷。使用這種解析引擎即節(jié)省了內存資源的消耗,又具有很高匹配效率,使得解析速度更快,解析效率更高。

優(yōu)選實施例中,步驟4中,當與規(guī)則庫中的任何分類規(guī)則都沒有匹配成功時,還會生成解析錯誤或者無法識別等解析結果,步驟5中還會輸出解析錯誤信息、無法識別信息以及分類結果信息,并將上述信息寫入hdfs的文件中。

優(yōu)選實施例中,若遍歷所有的字典樹后沒有獲取到分類結果,則將所述url地址設定為未識別url地址,并輸出所述未識別url地址。然后可以采用所述未識別url地址對url分類規(guī)則進行更新,具體包括以下步驟:

s501,獲取所述未識別url地址,并采用爬蟲對所述未識別url地址進行爬取生成目標url地址;

s502,獲取所述目標url地址中的域名信息,查詢預設樣本規(guī)則判斷能否獲取與所述域名信息對應的第一url分類結果,若可以,則將所述目標url地址和所述第一url分類結果加入到當前url分類規(guī)則,若不可以,則執(zhí)行s503;

s503,獲取所述目標url地址中的欄目類別信息,查詢預設樣本規(guī)則判斷能否獲取與所述欄目類別信息對應的第二url分類結果,若可以,則將所述目標url地址和所述第二url分類結果加入到當前url分類規(guī)則,若不可以,則執(zhí)行s504;

s504,提取所述目標url地址的預設目標信息,比如提取所述目標url地址的head、meta及正文內容,然后對所述預設目標信息進行分詞處理,并提取特征詞,比如采用tf-idf算法提取特征詞;然后計算所述特征詞與所述預設樣本規(guī)則中每個url分類結果的相似度,并獲取所述特征詞對應的相似度最高的第三url分類結果,將所述目標url地址和所述第三url分類結果加入到當前url分類規(guī)則。

上述優(yōu)選實施例利用機器學習算法,使得規(guī)則庫具有不斷學習,自動更新的能力,從而進一步減少人工撥測的工作成本,提高了生產效率。

圖4為實施例4提供的一種url地址的解析系統(tǒng)的結構性示意圖,如圖4所示,包括建立模塊、獲取模塊、讀取模塊、解析模塊和輸出模塊,

所述建立模塊用于建立規(guī)則庫,所述規(guī)則庫中包括預設的至少一個分類規(guī)則;

所述獲取模塊用于獲取上網日志數據包含的url地址;

所述讀取模塊用于讀取所述至少一個分類規(guī)則;

所述解析模塊用于采用并行處理方法調用所述至少一個分類規(guī)則對所述url地址進行解析,生成所述url地址對應的分類結果;

所述輸出模塊用于輸出所述分類結果。

本實施例提出了一種基于上網日志數據中url地址的解析系統(tǒng),可以根據解析類型自動形成對應的分類規(guī)則并建立規(guī)則庫,然后采用并行處理方式調用規(guī)則庫中的至少一個分類規(guī)則對url地址進行解析,從而生成分類結果,不僅提升了解析檢測的覆蓋范圍、提高了解析的精準程度,而且完善了深度解析的能力、大大降低了規(guī)則庫撥測的成本,具有高效、低成本的優(yōu)勢。

優(yōu)選實施例中,所述讀取模塊具體包括:

加載單元,用于從所述規(guī)則庫中讀取預設的至少一個分類規(guī)則,并將所述至少一個分類規(guī)則中每個分類規(guī)則均加載到數據緩存模塊中;

字典樹建立單元,用于建立與每個分類規(guī)則對應的字典樹,并將所述字典樹保存在所述數據緩存模塊中。

上述優(yōu)選實施例中,數據緩存模塊接收到分類規(guī)則時會在內存中開辟一定的空間,建立對應的字典樹來動態(tài)存儲所述分類規(guī)則,字典樹可以利用字符串的公共前綴來減少查詢時間,最大限度地減少無謂的字符串比較,從而進一步提高了解析效率。

上述優(yōu)選實施例中,所述解析模塊具體用于采用map/reduce并行方式依次遍歷每個分類規(guī)則對應的字典樹,直到生成所述url地址對應的分類結果或者所有的字典樹都遍歷完畢。上述優(yōu)選實施例采用一種基于hadoopmap/reduce并行算法的解析引擎,解析引擎利用字典樹存儲分類規(guī)則,并利用hadoop并行運算的能力實現了字典樹的并行遍歷。使用這種解析引擎即節(jié)省了內存資源的消耗,又具有很高匹配效率,使得解析速度更快,解析效率更高。

優(yōu)選實施例中,所述解析模塊還用于若遍歷所有的字典樹后沒有獲取到分類結果,則將所述url地址設定為未識別url地址,并輸出所述未識別url地址。此時,所述解析系統(tǒng)還包括規(guī)則更新模塊,所述規(guī)則更新模塊用于采用所述未識別url地址對url分類規(guī)則進行更新。圖5為實施例5提供的一種url地址的解析系統(tǒng)中規(guī)則更新模塊的結構性示意圖,如圖5所示,所述規(guī)則更新模塊具體包括:

第一爬蟲單元,用于獲取所述未識別url地址,并采用爬蟲對所述未識別url地址進行爬取生成目標url地址;

第一分類單元,用于獲取所述目標url地址中的域名信息,查詢預設樣本規(guī)則判斷能否獲取與所述域名信息對應的第一url分類結果,若可以,則將所述目標url地址和所述第一url分類結果加入到當前url分類規(guī)則,若不可以,則驅動第二分類單元;

第二分類單元,用于獲取所述目標url地址中的欄目類別信息,查詢預設樣本規(guī)則判斷能否獲取與所述欄目類別信息對應的第二url分類結果,若可以,則將所述目標url地址和所述第二url分類結果加入到當前url分類規(guī)則,若不可以,則驅動第三分類單元;

所述第三分類單元,用于提取所述目標url地址的預設目標信息,對所述預設目標信息進行分詞處理,并提取特征詞;然后計算所述特征詞與所述預設樣本規(guī)則中每個url分類結果的相似度,并獲取所述特征詞對應的相似度最高的第三url分類結果,將所述目標url地址和所述第三url分類結果加入到當前url分類規(guī)則。

上述優(yōu)選實施例利用機器學習算法,使得規(guī)則庫具有不斷學習,自動更新的能力,從而進一步減少人工撥測的工作成本,提高了生產效率。

優(yōu)選實施例中,所述規(guī)則庫中包括app分類規(guī)則,此時,所述建立模塊包括建立單元,所述建立單元用于建立包含所述app分類規(guī)則的規(guī)則庫,所述建立單元具體包括:

第一獲取單元,用于獲取app名稱,根據所述app名稱檢索預設app商店中對應的app分類信息和app地址信息;

第二爬蟲單元,用于爬取所述app分類信息,并將所述app分類信息和所述app名稱統(tǒng)一,然后將所述app分類信息和所述app名稱歸并到現有app分類體系;

下載單元,用于解析所述app地址信息,獲取所述app的下載地址,并將下載后app安裝到虛擬機上;

第二獲取單元,用于利用模擬器模擬所述app的點擊動作,通過網卡監(jiān)聽并獲取所述app的動作請求;

控制單元,用于判斷是否成功獲取所述動作請求,若是,則獲取所述動作請求產生的url,并將所述url與所述app分類信息、所述app名稱關聯后形成第一app分類規(guī)則,然后向預設客戶端發(fā)送審核請求,并驅動自動加入單元;若否,則驅動手動加入單元;

自動加入單元,用于獲取審核通過指令后,將所述第一app分類規(guī)則加入到當前規(guī)則庫;

手動加入單元,用于生成手工梳理指令,并獲取手工梳理完成的第二app分類規(guī)則,然后將所述第二app分類規(guī)則加入到當前規(guī)則庫。

上述優(yōu)選實施例將自動生成app分類規(guī)則和手動生成app分類規(guī)則相結合,不僅提高了規(guī)則庫的建立速度,從而提高了解析效率,同時豐富了app分類規(guī)則的內容和完整性,進一步提高了解析的成功率。

讀者應理解,在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。

所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。

在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。

作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本發(fā)明實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以是兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。

集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現有技術做出貢獻的部分,或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執(zhí)行本發(fā)明各個實施例方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。

以上,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到各種等效的修改或替換,這些修改或替換都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應以權利要求的保護范圍為準。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南投市| 剑阁县| 宜黄县| 翼城县| 凌海市| 潜江市| 长泰县| 修武县| 普定县| 五大连池市| 沅江市| 肥城市| 南丹县| 祁东县| 瑞金市| 抚松县| 峨眉山市| 靖安县| 海阳市| 纳雍县| 临武县| 乌拉特中旗| 余庆县| 大田县| 青州市| 读书| 弥勒县| 民勤县| 赣榆县| 淮北市| 耒阳市| 鄄城县| 常德市| 临江市| 噶尔县| 黑河市| 台前县| 青川县| 峨山| 太保市| 中西区|