欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

個性化定向采集云服務系統(tǒng)的制作方法

文檔序號:7918916閱讀:265來源:國知局
專利名稱:個性化定向采集云服務系統(tǒng)的制作方法
技術領域
本發(fā)明屬于計算機技術領域,尤其涉及一種個性化定向采集系統(tǒng)。
背景技術
定向采集系統(tǒng)是網(wǎng)絡蜘蛛的一種,它是網(wǎng)絡數(shù)據(jù)獲取系統(tǒng)的核心部分。它通過對互聯(lián)網(wǎng)上已知信息源(即網(wǎng)絡鏈接,URL: Universal Resource Locator)的不斷抓取海量網(wǎng)頁內容,獲取其中所有主題相關內容。定向采集系統(tǒng)的優(yōu)劣集中體現(xiàn)在其抓取網(wǎng)頁內容的速度、質量以及抓取內容和采集主題的匹配程度。目前,絕大多數(shù)的網(wǎng)絡蜘蛛都是單機版的,對于信息源和采集主題的管理相對比較簡單,通常是由管理員在服務器端進行簡單配置,配置好后所有用戶均在此配置的制約下使用網(wǎng)絡蜘蛛。這樣,當用戶需要有針對自己的需求進行個性化配置時,就得不到滿足了。尤其當這些個性化的需求日益增長時,目前的網(wǎng)絡蜘蛛就顯得捉襟見肘了。

發(fā)明內容
本發(fā)明為解決上述問題,提供一種能夠提供個性化定制服務的個性化定向采集云服務系統(tǒng)。本發(fā)明的技術方案是提供一種個性化定向采集云服務系統(tǒng),其包括定向采集執(zhí)行端和若干客戶端,所述客戶端根據(jù)用戶設定輸出采集主題和初始URL,所述定向采集執(zhí)行端包括若干個網(wǎng)頁定向采集器,其特征在于其還包括
基于云服務的云端管理平臺,負責接收所述采集主題和初始URL并將其傳輸給所述定向采集端;負責將所述定向采集端采集的網(wǎng)頁傳輸回所述客戶端。優(yōu)選的,所述客戶端包括
采集配置客戶端,負責提供人機交互界面供用戶設定所述采集主題和初始URL ; 內容提取客戶端,負責將所述云端管理平臺傳輸過來的網(wǎng)頁顯示給用戶,并將該網(wǎng)頁處理后保存到采集結果數(shù)據(jù)庫。優(yōu)選的,所述采集配置客戶端的工作流程為
1)提供編輯界面供用戶輸入URL;
2)根據(jù)用戶輸入的URL,提取相應的網(wǎng)頁;
3)根據(jù)步驟2提取的網(wǎng)頁,生成可供用戶選擇內容的選擇網(wǎng)頁;
4)根據(jù)用戶選擇的內容,將其對應的URL作為初始URL傳輸給所述云端管理平臺。優(yōu)選的,所述內容提取客戶端的工作流程為
1)將所述云端管理平臺傳輸過來的網(wǎng)頁顯示給用戶;
2)對該網(wǎng)頁進行加注釋、打標簽作業(yè);
3)對該網(wǎng)頁的多媒體文件進行轉換格式、重新壓縮處理;
4)將步驟3)處理后的網(wǎng)頁保存到所述采集結果數(shù)據(jù)庫;5)提供搜索引擎供用戶檢索所述采集結果數(shù)據(jù)庫。優(yōu)選的,所述云端管理平臺包括以下模塊
任務調度管理負責根據(jù)所述初始URL生成采集任務傳輸給所述定向采集執(zhí)行端; 客戶管理負責維護用戶資料、用戶權限、用戶注冊和登陸;
網(wǎng)頁資料管理負責接收所述定向采集執(zhí)行端采集的網(wǎng)頁,將其保存到原始網(wǎng)頁數(shù)據(jù)庫的同時傳輸給所述客戶端。優(yōu)選的,所述任務調度管理的工作流程為
1)接收到所有所述客戶端發(fā)來的所述初始URL,生成待采集的URL列表;
2)根據(jù)各個所述網(wǎng)頁定向采集器的工作狀態(tài),將所述URL列表中的URL分配給所述網(wǎng)頁定向采集器。優(yōu)選的,所述定向采集執(zhí)行端還包括網(wǎng)頁分析模塊和鏈接隊列池,其工作流程為
1)接收所述云端管理平臺傳輸過來的所述采集主題和初始URL;
2)所述網(wǎng)頁定向采集器發(fā)出網(wǎng)頁請求,采集所述初始URL對應的網(wǎng)頁;
3)接收網(wǎng)頁,并將完整的網(wǎng)頁送入所述網(wǎng)頁分析模塊;
4)所述網(wǎng)頁分析模塊按所述采集主題提取該網(wǎng)頁的必要的深度URL鏈接,送入所述鏈接隊列池,同時輸出網(wǎng)頁到所述云端管理平臺;
5)所述網(wǎng)頁定向采集器不斷重復提取所述鏈接隊列池中的URL鏈接,重復步驟2) 5)直到所述鏈接隊列池中無URL鏈接為止。本發(fā)明的個性化定向采集云服務系統(tǒng)通過將各個客戶端每個用戶自己設定的采集主題和采集對象網(wǎng)站匯聚到云服務平臺上,通過云服務強大、高效的運算能力實現(xiàn)定向采集。因此,本發(fā)明具有高速、高效、可以滿足個性化多樣性的采集需求等特點。


圖1是本發(fā)明的個性化定向采集云服務系統(tǒng)的總體框架圖; 圖2是本發(fā)明的個性化定向采集云服務系統(tǒng)的邏輯結構示意圖。
具體實施例方式下面對本發(fā)明的具體實施方式
作進一步詳細的描述。如圖1和圖2所示,本發(fā)明的個性化定向采集云服務系統(tǒng)包括客戶端、云端管理平臺、定向采集執(zhí)行端和采集結果數(shù)據(jù)庫。其中,客戶端包括多個采集配置客戶端和內容提取客戶端;云端管理平臺包括任務調度管理、客戶管理和網(wǎng)頁資料管理等模塊;定向采集執(zhí)行端包括多個網(wǎng)頁采集器,每個網(wǎng)頁采集器均包括網(wǎng)頁定向采集器、鏈接隊列池和網(wǎng)頁分析模塊。任務調度管理模塊包括任務測試和分配子模塊和URL種子數(shù)據(jù)庫;客戶管理模塊包括客戶管理子模塊和客戶數(shù)據(jù)庫;網(wǎng)頁資料管理模塊包括網(wǎng)頁推送、站內搜索和內容安全子模塊和原始網(wǎng)頁數(shù)據(jù)庫。其中,采集配置主流程
1)提供編輯界面供用戶輸入URL;
2)根據(jù)用戶輸入的URL,提取相應的網(wǎng)頁;3)根據(jù)步驟2提取的網(wǎng)頁,生成可供用戶選擇內容的選擇網(wǎng)頁;
4)根據(jù)用戶選擇的內容,將其對應的URL作為初始URL作為采集任務傳輸給云端管理
D ο任務調度管理器主流程
1)接收到所有所述客戶端發(fā)來的所述初始URL,測試采集任務,生成待采集的URL列
表;
2)根據(jù)各個所述網(wǎng)頁定向采集器的工作狀態(tài),將URL列表中的URL分配給所述網(wǎng)頁定向采集器;
3)任務調度管理模塊還提供人機交互界面供技術人員調整采集配置。定向采集執(zhí)行端主流程
1)獲取采集任務;
2)發(fā)出網(wǎng)頁請求;
3)接收網(wǎng)頁,并將接收完整的原始網(wǎng)頁送入定向采集執(zhí)行端的網(wǎng)頁分析模塊;
4)網(wǎng)頁分析模塊按采集任務策略提取必要的深度URL鏈接,送入鏈接隊列池,同時輸出網(wǎng)頁到網(wǎng)頁資料管理模塊;
5)不斷探測收到完整網(wǎng)頁的數(shù)量和狀態(tài);
6)根據(jù)探測情況,結合采集任務,從鏈接隊列池中選取一組新的URL,網(wǎng)頁請求;
7)重復4 6步驟,直到完成采集任務(URL隊列池為空)。網(wǎng)頁資料管理器主流程
1)原始網(wǎng)頁數(shù)據(jù)庫接收并保存所有采集器輸出的網(wǎng)頁;
2)內容安全子模塊對所有網(wǎng)頁進行掃描,發(fā)現(xiàn)問題預警;
3)站內搜索子模塊提供查詢機制;
4)網(wǎng)頁推送子模塊將分類好的網(wǎng)頁推送給內容提取客戶端; 客戶管理模塊主流程
1)標準用戶注冊、登錄流程;
2)標準用戶個人資料維護過程;
3)標準用戶權限配置過程; 內容提取客戶端主流程
1)客戶對網(wǎng)頁資料管理器推送過來的網(wǎng)頁進行查看;
2)客戶通過站內搜索引擎查詢網(wǎng)頁內容;
3)對網(wǎng)頁加注釋、打標簽(但不能編輯);
4)對網(wǎng)頁的多媒體文件轉格式、重壓縮;
5)導出步驟4加工過的網(wǎng)頁到采集結果數(shù)據(jù)庫。以上實施例僅為本發(fā)明其中的一種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說, 在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。
權利要求
1.個性化定向采集云服務系統(tǒng),其包括定向采集執(zhí)行端和若干客戶端,所述客戶端根據(jù)用戶設定輸出采集主題和初始URL,所述定向采集執(zhí)行端包括若干個網(wǎng)頁定向采集器,其特征在于其還包括基于云服務的云端管理平臺,負責接收所述采集主題和初始URL并將其傳輸給所述定向采集端;負責將所述定向采集端采集的網(wǎng)頁傳輸回所述客戶端。
2.根據(jù)權利要求1所述的個性化定向采集云服務系統(tǒng),其特征在于所述客戶端包括采集配置客戶端,負責提供人機交互界面供用戶設定所述采集主題和初始URL ; 內容提取客戶端,負責將所述云端管理平臺傳輸過來的網(wǎng)頁顯示給用戶,并將該網(wǎng)頁處理后保存到采集結果數(shù)據(jù)庫。
3.根據(jù)權利要求2所述的個性化定向采集云服務系統(tǒng),其特征在于所述采集配置客戶端的工作流程為1)提供編輯界面供用戶輸入URL;2)根據(jù)用戶輸入的URL,提取相應的網(wǎng)頁;3)根據(jù)步驟2提取的網(wǎng)頁,生成可供用戶選擇內容的選擇網(wǎng)頁;4)根據(jù)用戶選擇的內容,將其對應的URL作為初始URL傳輸給所述云端管理平臺。
4.根據(jù)權利要求2所述的個性化定向采集云服務系統(tǒng),其特征在于所述內容提取客戶端的工作流程為1)將所述云端管理平臺傳輸過來的網(wǎng)頁顯示給用戶;2)對該網(wǎng)頁進行加注釋、打標簽作業(yè);3)對該網(wǎng)頁的多媒體文件進行轉換格式、重新壓縮處理;4)將步驟3)處理后的網(wǎng)頁保存到所述采集結果數(shù)據(jù)庫;5)提供搜索引擎供用戶檢索所述采集結果數(shù)據(jù)庫。
5.根據(jù)權利要求1所述的個性化定向采集云服務系統(tǒng),其特征在于所述云端管理平臺包括以下模塊任務調度管理負責根據(jù)所述初始URL生成采集任務傳輸給所述定向采集執(zhí)行端; 客戶管理負責維護用戶資料、用戶權限、用戶注冊和登陸;網(wǎng)頁資料管理負責接收所述定向采集執(zhí)行端采集的網(wǎng)頁,將其保存到原始網(wǎng)頁數(shù)據(jù)庫的同時傳輸給所述客戶端。
6.根據(jù)權利要求5所述的個性化定向采集云服務系統(tǒng),其特征在于所述任務調度管理的工作流程為1)接收到所有所述客戶端發(fā)來的所述初始URL,生成待采集的URL列表;2)根據(jù)各個所述網(wǎng)頁定向采集器的工作狀態(tài),將所述URL列表中的URL分配給所述網(wǎng)頁定向采集器。
7.根據(jù)權利要求1所述的個性化定向采集云服務系統(tǒng),其特征在于所述定向采集執(zhí)行端還包括網(wǎng)頁分析模塊和鏈接隊列池,其工作流程為1)接收所述云端管理平臺傳輸過來的所述采集主題和初始URL;2)所述網(wǎng)頁定向采集器發(fā)出網(wǎng)頁請求,采集所述初始URL對應的網(wǎng)頁;3)接收網(wǎng)頁,并將完整的網(wǎng)頁送入所述網(wǎng)頁分析模塊;4)所述網(wǎng)頁分析模塊按所述采集主題提取該網(wǎng)頁的必要的深度URL鏈接,送入所述鏈接隊列池,同時輸出網(wǎng)頁到所述云端管理平臺;5)所述網(wǎng)頁定向采集器不斷重復提取所述鏈接隊列池中的URL鏈接,重復步驟2) 5)直到所述鏈接隊列池中無URL鏈接為止。
全文摘要
本發(fā)明公開了一種個性化定向采集云服務系統(tǒng),其包括定向采集執(zhí)行端和若干客戶端,所述客戶端根據(jù)用戶設定輸出采集主題和初始URL,所述定向采集執(zhí)行端包括若干個網(wǎng)頁定向采集器,其特征在于其還包括基于云服務的云端管理平臺,負責接收所述采集主題和初始URL并將其傳輸給所述定向采集端;負責根據(jù)所述定向采集端采集的網(wǎng)頁,提取其中與所述采集主題相關的URL,并將其輸出回所述定向采集端;負責將所述定向采集端采集的網(wǎng)頁傳輸回所述客戶端。本發(fā)明的個性化定向采集云服務系統(tǒng)通過云服務強大、高效的運算能力實現(xiàn)個性化定向采集。本發(fā)明具有高速、高效、可以滿足個性化多樣性的采集需求等特點。
文檔編號H04L29/08GK102291469SQ20111028506
公開日2011年12月21日 申請日期2011年9月23日 優(yōu)先權日2011年9月23日
發(fā)明者王楠 申請人:王楠
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
和政县| 汶川县| 鄂伦春自治旗| 遂平县| 桐城市| 瓮安县| 始兴县| 潮州市| 罗田县| 南宁市| 延长县| 瓦房店市| 霍邱县| 丰镇市| 县级市| 岳西县| 威宁| 东兰县| 盖州市| 德格县| 冕宁县| 平遥县| 桐柏县| 清水县| 高淳县| 铅山县| 南川市| 西林县| 徐州市| 张家口市| 彭山县| 临澧县| 河西区| 项城市| 黄陵县| 灵武市| 托克逊县| 永修县| 呼图壁县| 西宁市| 通海县|