欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種動態(tài)網(wǎng)頁的采集方法及裝置的制作方法

文檔序號:6575445閱讀:222來源:國知局
專利名稱:一種動態(tài)網(wǎng)頁的采集方法及裝置的制作方法
技術領域
本發(fā)明涉及互聯(lián)網(wǎng)技術,特別涉及一種動態(tài)網(wǎng)頁的采集方法及裝置。
背景技術
隨著互聯(lián)網(wǎng)技術的發(fā)展,用戶可以通過互聯(lián)網(wǎng)獲取各種各樣的信息。當要從互聯(lián) 網(wǎng)獲取網(wǎng)頁時,作為搜索引擎的重要組成部分,采集模塊負責從互聯(lián)網(wǎng)上獲取網(wǎng)頁數(shù)據(jù)。目前,網(wǎng)頁分為靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁,其中,靜態(tài)網(wǎng)頁指的是預先編譯好存儲在服 務器上,服務器中沒有針對該網(wǎng)頁的數(shù)據(jù)庫,該網(wǎng)頁不含程序和不可交互,直接通過鏈接地 址鏈接到該預先編譯的靜態(tài)網(wǎng)頁所在服務器上采集即可;而動態(tài)網(wǎng)頁是在服務器上設置針 對該網(wǎng)頁的數(shù)據(jù)庫和程序,用戶需要通過和服務器的交互,對網(wǎng)頁內(nèi)容進行采集及修改。采集靜態(tài)網(wǎng)頁的裝置如圖1所示,包括采集模塊、網(wǎng)頁解析模塊、及索引模塊。具體地說,采集模塊,用于根據(jù)預先給定的鏈接地址,與提供要采集的靜態(tài)網(wǎng)頁信 息的服務器并建立鏈接,下載該服務器上的超文本鏈接標識語言源文件后發(fā)送給解析模 塊,該文件用于描述靜態(tài)網(wǎng)頁;網(wǎng)頁解析模塊,用于對該服務器上的超文本鏈接標識語言源文件進行解析,獲取 網(wǎng)頁的正文數(shù)據(jù),發(fā)送給索引模塊;同時獲取網(wǎng)頁內(nèi)部包含的進一步要下載的靜態(tài)網(wǎng)頁的 多個鏈接后,按照預先設定的規(guī)則進行查重、篩選及排序后,形成待采集鏈接庫提供給采集 模塊;索引模塊,用于對網(wǎng)頁解析模塊輸出的網(wǎng)頁正文建立索引,供搜索引擎檢索使用。在這個過程中,采集每一個靜態(tài)網(wǎng)頁,都需要和具有該靜態(tài)網(wǎng)頁的服務器之間建 立通信,從該服務器上獲取到該靜態(tài)網(wǎng)頁。上述方法僅針對靜態(tài)網(wǎng)頁的采集,而無法采集動態(tài)網(wǎng)頁。但是,目前互聯(lián)網(wǎng)上的動 態(tài)網(wǎng)頁占很大比重,尤其是web2.0的出現(xiàn),給動態(tài)網(wǎng)頁的采集帶來了很大挑戰(zhàn)。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種動態(tài)網(wǎng)頁的采集方法,該方法能夠采集動態(tài)網(wǎng)頁。本發(fā)明還提供一種動態(tài)網(wǎng)頁的采集裝置,該裝置能夠采集動態(tài)網(wǎng)頁。為達到上述目的,本發(fā)明實施例的技術方案具體是這樣實現(xiàn)的一種動態(tài)網(wǎng)頁的采集方法,在客戶端側預先設置模擬用戶行為功能,該方法還包 括客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接;客戶端側通過預先設置的模擬用戶行為功能下載動態(tài)網(wǎng)頁信息;客戶端側通過設置的模擬用戶行為功能對下載的動態(tài)網(wǎng)頁信息中的表項解析、填 寫并發(fā)送給服務器;客戶端側從該服務器中得到的鏈接地址采集動態(tài)網(wǎng)頁。所述在客戶端側預先設置模擬用戶行為功能為在客戶端側預先設置具有配置文件的動態(tài)網(wǎng)頁采集器。所述采集器采用HTMLUNIT工具、JUnit工具或Selenium工具實現(xiàn)。所述動態(tài)網(wǎng)頁為論壇類的動態(tài)網(wǎng)頁時,所述配置文件包括獲取動態(tài)網(wǎng)頁信息的鏈 接地址、動態(tài)網(wǎng)頁類別及表項內(nèi)容,其中,所述客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接是根據(jù)配置文件中的獲取 動態(tài)網(wǎng)頁信息的鏈接地址建立的;所述對下載的動態(tài)網(wǎng)頁信息中的表項填寫是根據(jù)配置文件中的表項內(nèi)容填寫的。所述動態(tài)網(wǎng)頁為檢索類的動態(tài)網(wǎng)頁時,所述配置文件包括獲取動態(tài)網(wǎng)頁信息的鏈 接地址、動態(tài)網(wǎng)頁類別及動態(tài)網(wǎng)頁中的內(nèi)容路徑,其中,所述客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接是根據(jù)配置文件中的獲取 動態(tài)網(wǎng)頁信息的鏈接地址建立的;所述對下載的動態(tài)網(wǎng)頁信息中的表項填寫是根據(jù)配置文件中的動態(tài)網(wǎng)頁中的內(nèi) 容路徑找到對應的內(nèi)容填寫的。所述內(nèi)容為商品類別,所述采集到動態(tài)網(wǎng)頁為所述各個類別商品的分頁。所述客戶端側從該服務器中得到的鏈接地址采集動態(tài)網(wǎng)頁是通過靜態(tài)網(wǎng)頁的采 集方法進行的。一種動態(tài)網(wǎng)頁的采集裝置,設置模塊、交互模塊及采集模塊,其中,設置模塊,用于設置模擬用戶行為功能;交互模塊,用于和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,根據(jù)設置模塊設置的模 擬用戶行為功能下載動態(tài)網(wǎng)頁信息,對下載的動態(tài)網(wǎng)頁信息中的表項解析、填寫并發(fā)送給 服務器;從服務器中得到采集動態(tài)網(wǎng)頁的鏈接地址,發(fā)送給采集模塊; 采集模塊,用于根據(jù)從交互模塊得到的鏈接地址采集動態(tài)網(wǎng)頁。所述采集模塊還包括第一采集模塊,用于根據(jù)從交互模塊得到的鏈接地址通過靜 態(tài)網(wǎng)頁的采集方法采集動態(tài)網(wǎng)頁。所述設置模塊還包括第一設置模塊,用于設置具有配置文件的動態(tài)網(wǎng)頁采集器作 為所設置的模擬用戶行為功能。由上述技術方案可見,本發(fā)明在客戶端側預先設置了模擬用戶行為功能,在采集 動態(tài)網(wǎng)頁時,首先和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,通過設置的模擬用戶行為功能 下載動態(tài)網(wǎng)頁信息,對下載的動態(tài)網(wǎng)頁信息中的表項解析、填寫并發(fā)送給服務器后,按照靜 態(tài)網(wǎng)頁的采集方法采集到動態(tài)網(wǎng)頁。因此,本發(fā)明提供的方法及裝置可以采集動態(tài)網(wǎng)頁。


圖1為現(xiàn)有技術采集靜態(tài)網(wǎng)頁的裝置示意圖;圖2為本發(fā)明提供的采集動態(tài)網(wǎng)頁的方法流程圖;圖3為本發(fā)明提供的采集動態(tài)網(wǎng)頁的裝置示意圖;圖4為本發(fā)明提供的采集動態(tài)網(wǎng)頁的方法實施例流程圖。
具體實施例方式為使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下參照附圖并舉實施例,對本發(fā)明作進一步詳細說明。現(xiàn)有技術中,無法按照靜態(tài)網(wǎng)頁的采集過程采集動態(tài)網(wǎng)頁的原因為動態(tài)網(wǎng)頁的 性質(zhì)和靜態(tài)網(wǎng)頁的性質(zhì)不同。動態(tài)網(wǎng)頁在服務器上并沒有以網(wǎng)頁的形式存儲,而是以數(shù)據(jù) 庫和程序進行設置,所以用戶在從服務器上采集動態(tài)網(wǎng)頁時,在和該服務器建立鏈接之后, 需要和該服務器進行交互,比如進行該動態(tài)網(wǎng)頁信息的表項填寫、選擇或確認后發(fā)送給該 服務器處理,然后該服務器才會根據(jù)交互的結果,提供符合用戶要求的動態(tài)網(wǎng)頁給用戶。因 此,采集動態(tài)網(wǎng)頁的整個過程都需要用戶的參與,而不像靜態(tài)網(wǎng)頁的采集那樣,直接通過鏈 接地址鏈接到提供該靜態(tài)網(wǎng)頁的服務器上即可。另外,對于一個動態(tài)網(wǎng)頁,不僅可以由一個服務器提供所有的內(nèi)容,也可以由多個 服務器提供不同的內(nèi)容,比如該動態(tài)網(wǎng)頁中具有分頁時,這些分頁是由不同的服務器提供。 這時在采集一個動態(tài)網(wǎng)頁時,就需要首先和提供要采集的動態(tài)網(wǎng)頁信息的服務器建立鏈接 后,和該服務器進行交互,發(fā)送要獲取動態(tài)網(wǎng)頁內(nèi)容信息給該服務器,由該服務器確認對應 要獲取動態(tài)網(wǎng)頁內(nèi)容的鏈接地址并提供給用戶,用戶根據(jù)鏈接地址采集到動態(tài)網(wǎng)頁中的所 有內(nèi)容后,整合得到一個完整的動態(tài)網(wǎng)頁。因此,為了能夠采集到動態(tài)網(wǎng)頁,本發(fā)明在用戶使用的客戶端側預先設置了模擬 用戶行為功能,在采集動態(tài)網(wǎng)頁時,首先和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,通過設置 的模擬用戶行為功能下載動態(tài)網(wǎng)頁信息,對下載的動態(tài)網(wǎng)頁信息中的表項解析、填寫并發(fā) 送給服務器后,按照靜態(tài)網(wǎng)頁的采集方法采集到動態(tài)網(wǎng)頁。這樣,整個采集動態(tài)網(wǎng)頁需要的 交互過程都由客戶端側設置的模擬用戶行為功能完成,不需要用戶參與,使得采集動態(tài)網(wǎng) 頁的過程簡單。在客戶端側預先設置的模擬用戶行為功能,實際上就是在客戶端側運行動態(tài)網(wǎng)頁 的采集器,該采集器根據(jù)設置的程序能夠從服務器上采集指定的動態(tài)網(wǎng)頁信息,并按照設 置的配置文件和設置的程序?qū)討B(tài)網(wǎng)頁信息進行填寫和解析后,提交給服務器進行處理后 獲取到動態(tài)網(wǎng)頁中內(nèi)容的鏈接地址,最后該采集器根據(jù)獲取到的動態(tài)網(wǎng)頁中內(nèi)容的鏈接地 址通過靜態(tài)網(wǎng)頁的采集方法從服務器采集動態(tài)網(wǎng)頁。該動態(tài)網(wǎng)頁的采集器可以采用超文本 鏈接標示語言單元(HTMLUNIT)工具、J單元(JUnit)工具或命令列表(Selenium)工具等 實現(xiàn)。其中,HTMLUNIT工具、JUnit工具或Selenium工具等都是測試工具,進行單元測試。圖2為本發(fā)明提供的采集動態(tài)網(wǎng)頁的方法流程圖,在客戶端側設置模擬用戶行為 功能,其具體步驟為步驟201、客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接;在本步驟中,客戶端側設置模擬用戶行為功能在客戶端側設置有配置文件,根據(jù) 該配置文件中的鏈接地址就可以和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接;步驟202、客戶端側通過設置的模擬用戶行為功能下載動態(tài)網(wǎng)頁信息;步驟203、客戶端側通過設置的模擬用戶行為功能對下載的動態(tài)網(wǎng)頁信息中的表 項解析、填寫并發(fā)送給服務器;在本步驟中,客戶端側設置模擬用戶行為功能在客戶端側設置有配置文件,根據(jù) 該配置文件中的填寫信息就可以填寫動態(tài)網(wǎng)頁信息中的表項;步驟204、客戶端側從該服務器中得到采集動態(tài)網(wǎng)頁的鏈接地址,通過靜態(tài)網(wǎng)頁的 采集方法采集到動態(tài)網(wǎng)頁;
在該步驟中,當服務器接收到這些表項信息后,就會根據(jù)表項信息為客戶端提供 動態(tài)網(wǎng)頁中內(nèi)容的鏈接地址,服務器如何接受表項信息以及根據(jù)表項信息獲取供動態(tài)網(wǎng)頁 中內(nèi)容的鏈接地址為現(xiàn)有技術,這里不再累述;在該步驟中,根據(jù)得到采集動態(tài)網(wǎng)頁的鏈接地址采集動態(tài)網(wǎng)頁的過程和采集靜態(tài) 網(wǎng)頁的過程相同,這里不再累述;在采集得到動態(tài)網(wǎng)頁后,就可以按照現(xiàn)有技術對采集得到的動態(tài)網(wǎng)頁進行檢索等 一系列處理,這個過程和現(xiàn)有技術相同,這里不再累述。圖3為本發(fā)明提供的采集動態(tài)網(wǎng)頁裝置的示意圖,包括設置模塊、交互模塊及采 集模塊,其中,設置模塊,用于設置模擬用戶行為功能;交互模塊,用于和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,根據(jù)設置模塊設置的模 擬用戶行為功能下載動態(tài)網(wǎng)頁信息,對下載的動態(tài)網(wǎng)頁信息中的表項解析、填寫并發(fā)送給 服務器;從服務器中得到采集動態(tài)網(wǎng)頁的鏈接地址,發(fā)送給采集模塊;采集模塊,用于根據(jù)從交互模塊得到的鏈接地址,采用靜態(tài)網(wǎng)頁的采集方法采集 動態(tài)網(wǎng)頁。在本實施例中,所述采集模塊還包括第一采集模塊,用于根據(jù)從交互模塊得到的 鏈接地址通過靜態(tài)網(wǎng)頁的采集方法采集動態(tài)網(wǎng)頁。在本實施例中,所述設置模塊還包括第一設置模塊,用于設置具有配置文件的動 態(tài)網(wǎng)頁采集器作為所設置的模擬用戶行為功能。在本實施例中,動態(tài)網(wǎng)頁可以分為兩種類型,一種為論壇類動態(tài)網(wǎng)頁,該類動態(tài)網(wǎng) 頁的所有內(nèi)容由一個服務器提供,如可以由提供動態(tài)網(wǎng)頁信息的服務器提供;另一種為檢 索類動態(tài)網(wǎng)頁,該類動態(tài)網(wǎng)頁的所有內(nèi)容分別由多個服務器提供。本發(fā)明采用HTMLUNIT工 具為例,分別說明如何通過客戶端側設置的模擬用戶行為功能,對下載的這兩類動態(tài)網(wǎng)頁 中的表項解析、填寫及發(fā)送給服務器后,得到這兩類動態(tài)網(wǎng)頁。對于論壇類的動態(tài)網(wǎng)頁,先和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,從該服務器 下載網(wǎng)頁信息,采集網(wǎng)頁信息中所有表單,對所獲取的表單遍歷子節(jié)點,根據(jù)設置的配置文 件遇到文本輸入(textlnput)節(jié)點時填入用戶名,遇到密碼輸入(passwordlnput)節(jié)點時 填寫密碼,遇到提交輸入(submitlnput)節(jié)點時點擊提交按鈕,獲取該動態(tài)網(wǎng)頁的鏈接地 址,即統(tǒng)一資源定位(URL)后,根據(jù)得到的鏈接地址采集到這些內(nèi)容后,得到該論壇的網(wǎng) 頁。對于檢索類的動態(tài)網(wǎng)頁,先和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,從該服務器 下載網(wǎng)頁信息,獲取網(wǎng)頁信息中檢索框所在的表單,定位到檢索內(nèi)容框和提交按鈕,然后從 設置的配置文件中提取出檢索內(nèi)容,填入檢索內(nèi)容框并點擊提交按鈕,獲取該動態(tài)網(wǎng)頁中 某些內(nèi)容的鏈接地址,即統(tǒng)一資源定位(URL)后,根據(jù)得到的鏈接地址采集到這些內(nèi)容,從 而得到完整的動態(tài)網(wǎng)頁,在這里,檢索內(nèi)容可以為商品類別名稱,獲取到的這些內(nèi)容為商品 類型的所有分頁。具體地說,針對論壇類的動態(tài)網(wǎng)頁,獲取的步驟為首先,設置配置文件,該配置文 件中包括用戶名、密碼及對應的輸入框信息,該配置文件是利用運行動態(tài)網(wǎng)頁的采集器配 置文件維護模塊編寫的;然后,客戶端側運行動態(tài)網(wǎng)頁的采集器,和具有該動態(tài)網(wǎng)頁內(nèi)容的服務器建立鏈接,基于配置文件獲得該動態(tài)網(wǎng)頁的鏈接地址;最后,客戶端側根據(jù)該鏈接地 址采集論壇的網(wǎng)頁。針對檢索類的動態(tài)網(wǎng)頁,獲取的步驟為首先,設置配置文件,該配置文件中包括 檢索信息,該配置文件是利用運行動態(tài)網(wǎng)頁的采集器配置文件維護模塊編寫的;然后,客戶 端側運行動態(tài)網(wǎng)頁的采集器,和具有該動態(tài)網(wǎng)頁內(nèi)容的服務器建立鏈接,基于配置文件獲 得該動態(tài)網(wǎng)頁中各個要檢索內(nèi)容的鏈接地址;最后,客戶端側根據(jù)各個內(nèi)容的鏈接地址采 集該網(wǎng)站的網(wǎng)頁。在本發(fā)明實施例中,針對論壇類的動態(tài)網(wǎng)頁,設置的配置文件的格式為URL = XXX TYPE = ItextInput = XXX passwordlnput = XXX ;針對檢索類的動態(tài)網(wǎng)頁,設置的配置文件的格式為URL = XXXTYPE = 1路徑 (PATH) = XXX。其中,當TYPE為1時,代表要獲取的動態(tài)網(wǎng)頁為論壇類的動態(tài)網(wǎng)頁,需要提供用戶 名和密碼;當TYPE為0時,代表要獲取的動態(tài)網(wǎng)頁為檢索類的動態(tài)網(wǎng)頁,要獲取內(nèi)容信息, 比如商品信息,提供內(nèi)容信息的路徑。舉一個例子說明,對于論壇類的動態(tài)網(wǎng)頁,設置的配置文件的格式為URL = http://bbs. com/login, php TYPE = ItextInput = CMRI passwordlnput = CMCC888 ;對于檢索類的動態(tài)網(wǎng)頁,設置的配置文件的格式為URL = http://www. com/ TYPE = ΟΡΑΤΗ = conf/commodity, txt。在檢索類的動態(tài)網(wǎng)頁中,還需要提供動態(tài)網(wǎng)頁中的 檢索內(nèi)容,比如商品類別,就是在配置文件中列舉出這些類別后分別填寫到檢索內(nèi)容框中, 這些檢索內(nèi)容為CPU ;CRT顯示器;財會用品;彩妝;彩票;超市卡和/或車載MP3等,這些 檢索內(nèi)容由商品類別的路徑查找到。在本發(fā)明實施例中,HTMLUNIT工具實際上是一個擴展測試框架,該測試框架模擬 用戶的行為,通過設置的配置文件以及在該測試框架下編譯的程序?qū)Σ杉黠@示的動態(tài)網(wǎng) 頁元素進行操作。在這里,本發(fā)明使用它和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,和服務器 之間進行交互,模擬用戶行為。圖4為本發(fā)明提供的采集動態(tài)網(wǎng)頁的方法實施例流程圖,其具體步驟為步驟401、客戶端側要獲取動態(tài)網(wǎng)頁,讀取設置的配置文件,得到要獲取動態(tài)網(wǎng)頁 信息的鏈接地址及類型,和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接;在本步驟中,對于不同動態(tài)網(wǎng)頁采用不同的配置文件,這些不同的配置文件都預 先配置好,設置在客戶端側;當客戶端側要訪問某個動態(tài)網(wǎng)頁時,可以確定對應的配置文件 (根據(jù)動態(tài)網(wǎng)頁標識找到),然后讀取該對應的配置文件進行操作;步驟402、客戶端側確定要采集動態(tài)網(wǎng)頁為檢索類的動態(tài)網(wǎng)頁還是論壇類的動態(tài) 網(wǎng)頁,如果是論壇類的動態(tài)網(wǎng)頁,則轉(zhuǎn)入步驟403執(zhí)行,如果是檢索類的動態(tài)網(wǎng)頁,則轉(zhuǎn)入 步驟408執(zhí)行;在判斷時,可以根據(jù)在步驟401中得到的對應配置文件確定,當type為設定的論 壇類的動態(tài)網(wǎng)頁類型,比如1時,就確定要采集的動態(tài)網(wǎng)頁為論壇類的動態(tài)網(wǎng)頁;當type為 設定的檢索類的動態(tài)網(wǎng)頁類型,比如0時,就確定要采集的動態(tài)網(wǎng)頁為檢索類的動態(tài)網(wǎng)頁;步驟403、客戶端側獲取對應配置文件中的用戶名及密碼;步驟404、客戶端側運行 HTMLUNIT,該 HTMLUNIT 新建一個 webClinet ;
步驟405、客戶端側通過webClinet根據(jù)鏈接地址從服務器下載動態(tài)網(wǎng)頁信息,即 獲取HTMLPAG類;在本步驟中,服務器如何根據(jù)鏈接地址提供動態(tài)網(wǎng)頁信息為現(xiàn)有技術,這里不再 累述;步驟406、客戶端側獲取該動態(tài)網(wǎng)頁信息中的所有表單;步驟407、客戶端側對所獲取的每個表單,遍歷子節(jié)點并對得到的遍歷子節(jié)點根據(jù) 對應配置文件的內(nèi)容進行對應的解析并填寫后,提交,即發(fā)送給該服務器,由該服務器提供 給該客戶端側采集動態(tài)網(wǎng)頁的鏈接地址,客戶端側根據(jù)該鏈接地址采集完整的動態(tài)網(wǎng)頁;在本步驟中,當子節(jié)點為TextInput,填寫用戶名;當子節(jié)點為passwordlnput,填 寫密碼;當子節(jié)點為CheckBoxInput,填寫默認選項;當子節(jié)點為RadioButtonlnput,填寫 默認選項;當子節(jié)點為Select,遍歷所有子節(jié)點并發(fā)送給服務器,當子節(jié)點為Anchor,獲取 對應的鏈接地址;當子節(jié)點為HtmlButton、HtmlButtonInput或者HtmlSubmitInput時,提 交以獲取鏈接地址;在本步驟中,只要有鏈接地址,就可以訪問對應的服務器下載該動態(tài)網(wǎng)頁,從而獲 取到完整的動態(tài)網(wǎng)頁;步驟408、客戶端側根據(jù)設置的配置文件獲取該動態(tài)網(wǎng)頁的各個內(nèi)容文件路徑,也 就是從對應的配置文件中獲?。辉诒静襟E中,各個內(nèi)容可以為商品類別;步驟409、客戶端側運行 HTMLUNIT,該 HTMLUNIT 新建一個 webClinet ;步驟410、客戶端側通過webClinet根據(jù)鏈接地址從服務器下載動態(tài)網(wǎng)頁信息,即 獲取HTMLPAG類;步驟411、客戶端側獲取網(wǎng)頁內(nèi)容中檢索框所在的表單,定位到檢索內(nèi)容框和提交 按鈕;在本步驟中,客戶端側根編譯的程序在HTMLUNIT下完成該步驟;步驟412、客戶端側從設置的配置文件中提取出檢索內(nèi)容,填入檢索內(nèi)容框并點擊 提交按鈕,即將對應的檢索內(nèi)容發(fā)送給服務器,由服務器根據(jù)該檢索內(nèi)容提供對應的多個 鏈接地址,客戶端側得到該動態(tài)網(wǎng)頁中所有內(nèi)容的鏈接地址;在本步驟中,檢索內(nèi)容可以為商品類別名稱;步驟413、客戶端側根據(jù)得到的鏈接地址采集到這些內(nèi)容,得到完整的動態(tài)網(wǎng)頁;在本步驟中,采集到的這些內(nèi)容為該動態(tài)網(wǎng)頁的新分頁。以上舉較佳實施例,對本發(fā)明的目的、技術方案和優(yōu)點進行了進一步詳細說明,所 應理解的是,以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的 精神和原則之內(nèi),所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之 內(nèi)。
權利要求
一種動態(tài)網(wǎng)頁的采集方法,其特征在于,在客戶端側設置模擬用戶行為功能,該方法還包括客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接;客戶端側通過設置的模擬用戶行為功能下載動態(tài)網(wǎng)頁信息;客戶端側通過設置的模擬用戶行為功能對下載的動態(tài)網(wǎng)頁信息中的表項解析、填寫并發(fā)送給服務器;客戶端側從該服務器中得到的鏈接地址,通過設置的模擬用戶行為功能采集到動態(tài)網(wǎng)頁。
2.如權利要求1所述的方法,其特征在于,所述在客戶端側設置模擬用戶行為功能為 具有配置文件的動態(tài)網(wǎng)頁瀏覽器。
3.如權利要求2所述的方法,其特征在于,所述瀏覽器采用HTMLUNIT、JUNI或 Selenium 實現(xiàn)。
4.如權利要求2所述的方法,其特征在于,所述動態(tài)網(wǎng)頁為論壇類的動態(tài)網(wǎng)頁時,所述 配置文件包括獲取動態(tài)網(wǎng)頁信息的鏈接地址、動態(tài)網(wǎng)頁類別及表項內(nèi)容,其中,所述客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接是根據(jù)配置文件中的獲取動態(tài) 網(wǎng)頁信息的鏈接地址建立的;所述對下載的動態(tài)網(wǎng)頁信息中的表項填寫是根據(jù)配置文件中的表項內(nèi)容填寫的。
5.如權利要求2所述的方法,其特征在于,所述動態(tài)網(wǎng)頁為檢索類的動態(tài)網(wǎng)頁時,所述 配置文件包括獲取動態(tài)網(wǎng)頁信息的鏈接地址、動態(tài)網(wǎng)頁類別及動態(tài)網(wǎng)頁中的內(nèi)容路徑,其 中,所述客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接是根據(jù)配置文件中的獲取動態(tài) 網(wǎng)頁信息的鏈接地址建立的;所述對下載的動態(tài)網(wǎng)頁信息中的表項填寫是根據(jù)配置文件中的動態(tài)網(wǎng)頁中的內(nèi)容路 徑找到對應的內(nèi)容填寫的。
6.如權利要求5所述的方法,其特征在于,所述內(nèi)容為商品類別,所述采集到動態(tài)網(wǎng)頁 為所述各個類別商品的分頁。
7.如權利要求1 6任一項所述的方法,其特征在于,所述客戶端側從該服務器中得到 的鏈接地址采集動態(tài)網(wǎng)頁是通過靜態(tài)網(wǎng)頁的采集方法進行的。
8.一種動態(tài)網(wǎng)頁的采集裝置,其特征在于,包括設置模塊、交互模塊及采集模塊,其中,設置模塊,用于設置模擬用戶行為功能;交互模塊,用于和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接,根據(jù)設置模塊設置的模擬用 戶行為功能下載動態(tài)網(wǎng)頁信息,對下載的動態(tài)網(wǎng)頁信息中的表項解析、填寫并發(fā)送給服務 器;從服務器中得到采集動態(tài)網(wǎng)頁的鏈接地址,發(fā)送給采集模塊; 采集模塊,用于根據(jù)從交互模塊得到的鏈接地址采集動態(tài)網(wǎng)頁。
9.如權利要求8所述的裝置,其特征在于,所述采集模塊還包括第一采集模塊,用于根 據(jù)從交互模塊得到的鏈接地址通過靜態(tài)網(wǎng)頁的采集方法采集動態(tài)網(wǎng)頁。
10.如權利要求8所述的裝置,其特征在于,所述設置模塊還包括第一設置模塊,用于 設置具有配置文件的動態(tài)網(wǎng)頁采集器作為所設置的模擬用戶行為功能。
全文摘要
本發(fā)明公開了一種動態(tài)網(wǎng)頁的采集方法及裝置,其中,該方法包括在客戶端側預先設置模擬用戶行為功能,客戶端側和提供動態(tài)網(wǎng)頁信息的服務器建立鏈接;客戶端側通過預先設置的模擬用戶行為功能下載動態(tài)網(wǎng)頁信息;客戶端側通過設置的模擬用戶行為功能對下載的動態(tài)網(wǎng)頁信息中的表項解析、填寫并發(fā)送給服務器;客戶端側從該服務器中得到的鏈接地址采集動態(tài)網(wǎng)頁。本發(fā)明提供的方法及裝置能夠采集動態(tài)網(wǎng)頁。
文檔編號G06F17/30GK101996196SQ20091009169
公開日2011年3月30日 申請日期2009年8月28日 優(yōu)先權日2009年8月28日
發(fā)明者孫宏偉, 胡珉 申請人:中國移動通信集團公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
桐梓县| 伊宁市| 贞丰县| 社旗县| 土默特右旗| 开封市| 林州市| 前郭尔| 灵寿县| 邯郸市| 高安市| 上杭县| 曲沃县| 综艺| 师宗县| 尼勒克县| 高安市| 赣榆县| 静海县| 广水市| 尼勒克县| 灵山县| 佛坪县| 娄烦县| 兰西县| 临清市| 卢氏县| 海南省| 左贡县| 甘德县| 新营市| 秀山| 滨海县| 海兴县| 兴安县| 商都县| 太保市| 瑞丽市| 和田市| 伊吾县| 进贤县|