專利名稱:一種b/s結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,涉及一種數(shù)據(jù)抓取系統(tǒng),尤其涉及一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)。
背景技術(shù):
目前在電子政務(wù)的推動(dòng)工作中,往往要遇到這樣一個(gè)問題各政府部門條線系統(tǒng)在建設(shè)各自的信息系統(tǒng)時(shí),對(duì)于與其他部門的信息系統(tǒng)的對(duì)接問題的考慮不周,這導(dǎo)致了各個(gè)系統(tǒng)之間缺乏橫向聯(lián)系,無法共享一些公共的數(shù)據(jù)信息。這種現(xiàn)象引發(fā)了一系列的問題包括系統(tǒng)數(shù)據(jù)的冗余,數(shù)據(jù)的缺失,甚至是不同系統(tǒng)中相通對(duì)象的描述數(shù)據(jù)嚴(yán)重不符;還存在二次數(shù)據(jù)錄入的問題,相關(guān)系統(tǒng)數(shù)據(jù)維護(hù)者可能要向多個(gè)系統(tǒng)錄入相關(guān)的數(shù)據(jù),客觀上加重了系統(tǒng)數(shù)據(jù)維護(hù)者的工作量。這一現(xiàn)象是與 系統(tǒng)建設(shè)推動(dòng)工作效率、減輕工作強(qiáng)度的初衷相違背的。但是要合理解決上述問題,不僅僅要靠技術(shù)上突破,還往往需要政府拿出切實(shí)可行政務(wù)電子化的發(fā)展方針,要有一個(gè)合理并彈性的,能協(xié)調(diào)各條線部門聯(lián)橫發(fā)展的路線來。例如,上海各區(qū)縣鎮(zhèn)都在進(jìn)行電子政務(wù)的建設(shè),大都遇到一個(gè)問題,民政和勞保兩條線中都有各自先前建設(shè)的老系統(tǒng),一個(gè)是B/S結(jié)構(gòu)的,一個(gè)是C/S結(jié)構(gòu)的。遇到的實(shí)際困難是這兩個(gè)系統(tǒng)的后臺(tái)數(shù)據(jù)庫(kù)是無法向第三方公開的,也就是說,第三方無法直接向這些數(shù)據(jù)庫(kù)中讀寫維護(hù)相關(guān)數(shù)據(jù),所以客觀上講,第三方只有通過現(xiàn)有這兩個(gè)系統(tǒng)來(合法地)完成數(shù)據(jù)維護(hù)。同時(shí)由于第三方要建立由上海區(qū)縣政府所使用信息系統(tǒng),這不可避免的會(huì)使用到民政和勞保的數(shù)據(jù)信息。如果采用同步錄入數(shù)據(jù),也就出現(xiàn)了前節(jié)所提到的二次錄入的問題。此外,還有一些業(yè)務(wù)數(shù)據(jù)只能通過網(wǎng)頁的方式訪問、查看,很難成為可以直接利用的數(shù)據(jù)資源,數(shù)據(jù)展示格式已固定不變,不能夠靈活運(yùn)用。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務(wù)系統(tǒng)錄入。為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),所述數(shù)據(jù)抓取系統(tǒng)包括地址列表獲取模塊,用以獲取需要抓取的網(wǎng)頁的地址列表信息;網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊,用以根據(jù)網(wǎng)頁的地址列表信息提出請(qǐng)求,得到網(wǎng)頁的內(nèi)容;網(wǎng)頁數(shù)據(jù)抓取模塊,用以分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。作為本發(fā)明的一種優(yōu)選方案,所述數(shù)據(jù)抓取系統(tǒng)進(jìn)一步包括模擬登錄模塊,用以根據(jù)登錄驗(yàn)證信息模擬登錄;登錄后,再進(jìn)行數(shù)據(jù)的抓取。作為本發(fā)明的一種優(yōu)選方案,所述網(wǎng)頁數(shù)據(jù)抓取模塊用以根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對(duì)TCP/IP數(shù)據(jù)包進(jìn)行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。作為本發(fā)明的一種優(yōu)選方案,所述數(shù)據(jù)抓取系統(tǒng)還包括第一數(shù)據(jù)抓取子系統(tǒng),用以抓取C/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù),包括鉤子加載模塊、抓取鉤子模塊、配置文件生成模塊;所述鉤子加載模塊用以根據(jù)進(jìn)程數(shù)量生成設(shè)定數(shù)量的抓取鉤子模塊,配置給需要抓取的進(jìn)程;一個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者多個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者一個(gè)進(jìn)程配置多個(gè)抓取鉤子模塊;所述抓取鉤子模塊用以監(jiān)控其對(duì)應(yīng)進(jìn)程中業(yè)務(wù)數(shù)據(jù)的傳遞,并抓取相應(yīng)的業(yè)務(wù)數(shù)據(jù);所述配置文件生成模塊用以將所述抓取鉤子模塊抓取的業(yè)務(wù)數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進(jìn)行數(shù)據(jù)錄入;所述鉤子加載模塊、抓取鉤子模塊、配置文件生成模塊設(shè)置于第一 C/S業(yè)務(wù)系統(tǒng)對(duì)應(yīng)的計(jì)算機(jī)中;所述系統(tǒng)還包括設(shè)置于第二 C/S業(yè)務(wù)系統(tǒng)對(duì)應(yīng)的計(jì)算機(jī)中的數(shù)據(jù)利用模塊,用以根據(jù)所述配置文件生成模塊生成的配置文件獲取相應(yīng)數(shù)據(jù),并進(jìn)行數(shù)據(jù)錄入。本發(fā)明的有益效果在于本發(fā)明提出的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務(wù)系統(tǒng)錄入。本發(fā)明使用WINDOWS SOCKET的方法抓取流經(jīng)網(wǎng)絡(luò)的網(wǎng)頁中的數(shù)據(jù),當(dāng)用戶提交網(wǎng)頁數(shù)據(jù)時(shí),B/S程序就能夠根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),因?yàn)槭亲ト〉腡CP/IP數(shù)據(jù)包,需要對(duì)其進(jìn)行解析從而獲得HTTP協(xié)議中的文本數(shù)據(jù)。
圖I為實(shí)施例一中數(shù)據(jù)抓取系統(tǒng)的框架圖。圖2為實(shí)施例一中數(shù)據(jù)抓取系統(tǒng)的組成示意圖。圖3為實(shí)施例一中第一數(shù)據(jù)抓取子系統(tǒng)的組成示意圖。圖4為實(shí)施例一中第一數(shù)據(jù)抓取流程的流程圖。圖5為實(shí)施例一中第二數(shù)據(jù)抓取流程的流程圖。圖6為實(shí)施例二中B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)的組成示意圖。
具體實(shí)施例方式下面結(jié)合附圖詳細(xì)說明本發(fā)明的優(yōu)選實(shí)施例。實(shí)施例一請(qǐng)參閱圖I、圖2,本發(fā)明揭示了一種數(shù)據(jù)抓取系統(tǒng),所述系統(tǒng)包括兩大子系統(tǒng)第一數(shù)據(jù)抓取子系統(tǒng)10、第二數(shù)據(jù)抓取子系統(tǒng)20。即,本實(shí)施例中,本發(fā)明可方便快捷地抓取 其他B/S結(jié)構(gòu)業(yè)務(wù)系統(tǒng)、C/S結(jié)構(gòu)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。第一數(shù)據(jù)抓取子系統(tǒng)10用以抓取C/S結(jié)構(gòu)系統(tǒng)30的數(shù)據(jù),包括所述鉤子加載模塊11、抓取鉤子模塊12、配置文件生成模塊13 ;第二數(shù)據(jù)抓取子系統(tǒng)20用以抓取B/S結(jié)構(gòu)系統(tǒng)40的數(shù)據(jù);所述第二數(shù)據(jù)抓取子系統(tǒng)20包括地址列表獲取模塊21、網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊22、網(wǎng)頁數(shù)據(jù)抓取模塊23。第一數(shù)據(jù)抓取子系統(tǒng)請(qǐng)參閱圖2、圖3,第一數(shù)據(jù)抓取子系統(tǒng)10中,鉤子加載模塊11用以根據(jù)進(jìn)程數(shù)量生成設(shè)定數(shù)量的抓取鉤子模塊,配置給需要抓取的進(jìn)程;一個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者多個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者一個(gè)進(jìn)程配置多個(gè)抓取鉤子模塊。抓取鉤子模塊12用以監(jiān)控其對(duì)應(yīng)進(jìn)程中業(yè)務(wù)數(shù)據(jù)的傳遞,并抓取相應(yīng)的業(yè)務(wù)數(shù)據(jù)。配置文件生成模塊13用以將所述抓取鉤子模塊抓取的業(yè)務(wù)數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進(jìn)行數(shù)據(jù)錄入。所述鉤子加載模塊11、抓取鉤子模塊12、配置文件生成模塊13設(shè)置于第一 C/S業(yè)務(wù)系統(tǒng)對(duì)應(yīng)的計(jì)算機(jī)中;所述系統(tǒng)還包括設(shè)置于第二 C/S業(yè)務(wù)系統(tǒng)對(duì)應(yīng)的計(jì)算機(jī)中的數(shù)據(jù)*利用模塊50,用以根據(jù)所述配置文件生成模塊生成的配置文件獲取相應(yīng)數(shù)據(jù),并進(jìn)行數(shù)據(jù)錄入。第二數(shù)據(jù)抓取子系統(tǒng)第二數(shù)據(jù)抓取子系統(tǒng)20中,地址列表獲取模塊21用以獲取需要抓取的網(wǎng)頁的地址列表信息。網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊22用以根據(jù)網(wǎng)頁的地址列表信息提出請(qǐng)求,得到網(wǎng)頁的內(nèi)容。網(wǎng)頁數(shù)據(jù)抓取模塊23用以分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。所述網(wǎng)頁數(shù)據(jù)抓取模塊用以根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對(duì)TCP/IP數(shù)據(jù)包進(jìn)行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。由于某些網(wǎng)站的數(shù)據(jù)需要登錄后才能夠訪問,對(duì)于這類安全性高的數(shù)據(jù),需要模擬登錄,對(duì)數(shù)據(jù)頁面進(jìn)行解析,然后才能抓取利用。所述第二數(shù)據(jù)抓取子系統(tǒng)包括模擬登錄模塊,用以根據(jù)登錄驗(yàn)證信息模擬登錄;登錄后,再進(jìn)行數(shù)據(jù)的抓取。以上介紹了本發(fā)明數(shù)據(jù)抓取系統(tǒng)的組成,本發(fā)明在揭示上述數(shù)據(jù)抓取系統(tǒng)的同時(shí),還揭示一種上述數(shù)據(jù)抓取系統(tǒng)的數(shù)據(jù)抓取方法,所述方法包括第一數(shù)據(jù)抓取流程、第二數(shù)據(jù)抓取流程。請(qǐng)參閱圖4,第一數(shù)據(jù)抓取流程具體包括如下步驟鉤子加載步驟鉤子加載模塊根據(jù)進(jìn)程數(shù)量生成設(shè)定數(shù)量的抓取鉤子模塊,配置給需要抓取的進(jìn)程;一個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者多個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者一個(gè)進(jìn)程配置多個(gè)抓取鉤子模塊;數(shù)據(jù)抓取步驟抓取鉤子模塊監(jiān)控其對(duì)應(yīng)進(jìn)程中業(yè)務(wù)數(shù)據(jù)的傳遞,并抓取相應(yīng)的業(yè)務(wù)數(shù)據(jù);配置文件生成步驟配置文件生成模塊將所述抓取鉤子模塊抓取的業(yè)務(wù)數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進(jìn)行數(shù)據(jù)錄入。數(shù)據(jù)利用步驟,根據(jù)所述配置文件生成模塊生成的配置文件獲取相應(yīng)數(shù)據(jù),并進(jìn)行數(shù)據(jù)錄入。請(qǐng)參閱圖5,第二數(shù)據(jù)抓取流程具體包括如下步驟地址列表獲取步驟,獲取需要抓取的網(wǎng)頁的地址列表信息。模擬登錄步驟,根據(jù)登錄驗(yàn)證信息模擬登錄;登錄后,再進(jìn)行數(shù)據(jù)的抓取。本步驟主要是針對(duì)一些需要登錄后才能夠訪問數(shù)據(jù)的網(wǎng)站,對(duì)于這類安全性高的數(shù)據(jù),需要模擬登錄,對(duì)數(shù)據(jù)頁面進(jìn)行解析,然后才能抓取利用。網(wǎng)頁數(shù)據(jù)請(qǐng)求步驟,根據(jù)網(wǎng)頁的地址列表信息提出請(qǐng)求,得到網(wǎng)頁的內(nèi)容。
網(wǎng)頁數(shù)據(jù)抓取步驟,分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。具體地,根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對(duì)TCP/IP數(shù)據(jù)包進(jìn)行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。實(shí)施例二請(qǐng)參閱圖6,本發(fā)明揭示了一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)200,所述系統(tǒng)包括地址列表獲取模塊210、網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊220 、網(wǎng)頁數(shù)據(jù)抓取模塊230。地址列表獲取模塊210用以獲取需要抓取的網(wǎng)頁的地址列表信息。網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊220用以根據(jù)網(wǎng)頁的地址列表信息提出請(qǐng)求,得到網(wǎng)頁的內(nèi)容。網(wǎng)頁數(shù)據(jù)抓取模塊230用以分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。所述網(wǎng)頁數(shù)據(jù)抓取模塊用以根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對(duì)TCP/IP數(shù)據(jù)包進(jìn)行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。由于某些網(wǎng)站的數(shù)據(jù)需要登錄后才能夠訪問,對(duì)于這類安全性高的數(shù)據(jù),需要模擬登錄,對(duì)數(shù)據(jù)頁面進(jìn)行解析,然后才能抓取利用。所述第二數(shù)據(jù)抓取子系統(tǒng)包括模擬登錄模塊,用以根據(jù)登錄驗(yàn)證信息模擬登錄;登錄后,再進(jìn)行數(shù)據(jù)的抓取。以上介紹了本發(fā)明B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)的組成,本發(fā)明在揭示上述數(shù)據(jù)抓取系統(tǒng)的同時(shí),還揭示一種上述數(shù)據(jù)抓取系統(tǒng)的數(shù)據(jù)抓取方法,具體包括如下步驟地址列表獲取步驟,獲取需要抓取的網(wǎng)頁的地址列表信息。模擬登錄步驟,根據(jù)登錄驗(yàn)證信息模擬登錄;登錄后,再進(jìn)行數(shù)據(jù)的抓取。本步驟主要是針對(duì)一些需要登錄后才能夠訪問數(shù)據(jù)的網(wǎng)站,對(duì)于這類安全性高的數(shù)據(jù),需要模擬登錄,對(duì)數(shù)據(jù)頁面進(jìn)行解析,然后才能抓取利用。網(wǎng)頁數(shù)據(jù)請(qǐng)求步驟,根據(jù)網(wǎng)頁的地址列表信息提出請(qǐng)求,得到網(wǎng)頁的內(nèi)容。網(wǎng)頁數(shù)據(jù)抓取步驟,分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。具體地,根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對(duì)TCP/IP數(shù)據(jù)包進(jìn)行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。綜上所述,本發(fā)明提出的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務(wù)系統(tǒng)錄入。本發(fā)明使用WINDOWS SOCKET的方法抓取流經(jīng)網(wǎng)絡(luò)的網(wǎng)頁中的數(shù)據(jù),當(dāng)用戶提交網(wǎng)頁數(shù)據(jù)時(shí),B/S程序就能夠根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),因?yàn)槭亲ト〉腡CP/IP數(shù)據(jù)包,需要對(duì)其進(jìn)行解析從而獲得HTTP協(xié)議中的文本數(shù)據(jù)。這里本發(fā)明的描述和應(yīng)用是說明性的,并非想將本發(fā)明的范圍限制在上述實(shí)施例中。這里所披露的實(shí)施例的變形和改變是可能的,對(duì)于那些本領(lǐng)域的普通技術(shù)人員來說實(shí)施例的替換和等效的各種部件是公知的。本領(lǐng)域技術(shù)人員應(yīng)該清楚的是,在不脫離本發(fā)明的精神或本質(zhì)特征的情況下,本發(fā)明可以以其它形式、結(jié)構(gòu)、布置、比例,以及用其它組件、材料和部件來實(shí)現(xiàn)。在不脫離本發(fā)明范圍和精神的情況下,可以對(duì)這里所披露的實(shí)施例進(jìn)行其它變形和改變。
權(quán)利要求
1.一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),其特征在于,所述數(shù)據(jù)抓取系統(tǒng)包括 地址列表獲取模塊,用以獲取需要抓取的網(wǎng)頁的地址列表信息; 網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊,用以根據(jù)網(wǎng)頁的地址列表信息提出請(qǐng)求,得到網(wǎng)頁的內(nèi)容; 網(wǎng)頁數(shù)據(jù)抓取模塊,用以分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。
2.根據(jù)權(quán)利要求I所述的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),其特征在于 所述數(shù)據(jù)抓取系統(tǒng)進(jìn)一步包括模擬登錄模塊,用以根據(jù)登錄驗(yàn)證信息模擬登錄;登錄后,再進(jìn)行數(shù)據(jù)的抓取。
3.根據(jù)權(quán)利要求I所述的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),其特征在于 所述網(wǎng)頁數(shù)據(jù)抓取模塊用以根據(jù)數(shù)據(jù)發(fā)送的源地址與目標(biāo)地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對(duì)TCP/IP數(shù)據(jù)包進(jìn)行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),其特征在于 所述數(shù)據(jù)抓取系統(tǒng)還包括第一數(shù)據(jù)抓取子系統(tǒng),用以抓取C/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù),包括鉤子加載模塊、抓取鉤子模塊、配置文件生成模塊; 所述鉤子加載模塊用以根據(jù)進(jìn)程數(shù)量生成設(shè)定數(shù)量的抓取鉤子模塊,配置給需要抓取的進(jìn)程;一個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者多個(gè)進(jìn)程配置一個(gè)抓取鉤子模塊,或者一個(gè)進(jìn)程配置多個(gè)抓取鉤子模塊; 所述抓取鉤子模塊用以監(jiān)控其對(duì)應(yīng)進(jìn)程中業(yè)務(wù)數(shù)據(jù)的傳遞,并抓取相應(yīng)的業(yè)務(wù)數(shù)據(jù); 所述配置文件生成模塊用以將所述抓取鉤子模塊抓取的業(yè)務(wù)數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進(jìn)行數(shù)據(jù)錄入; 所述鉤子加載模塊、抓取鉤子模塊、配置文件生成模塊設(shè)置于第一 C/S業(yè)務(wù)系統(tǒng)對(duì)應(yīng)的計(jì)算機(jī)中;所述系統(tǒng)還包括設(shè)置于第二 C/S業(yè)務(wù)系統(tǒng)對(duì)應(yīng)的計(jì)算機(jī)中的數(shù)據(jù)利用模塊,用以根據(jù)所述配置文件生成模塊生成的配置文件獲取相應(yīng)數(shù)據(jù),并進(jìn)行數(shù)據(jù)錄入。
全文摘要
本發(fā)明揭示了一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),所述系統(tǒng)包括地址列表獲取模塊、網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊、網(wǎng)頁數(shù)據(jù)抓取模塊。地址列表獲取模塊用以獲取需要抓取的網(wǎng)頁的地址列表信息;網(wǎng)頁數(shù)據(jù)請(qǐng)求模塊用以根據(jù)網(wǎng)頁的地址列表信息提出請(qǐng)求,得到網(wǎng)頁的內(nèi)容;網(wǎng)頁數(shù)據(jù)抓取模塊用以分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。本發(fā)明提出的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng),可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務(wù)系統(tǒng)錄入。
文檔編號(hào)G06F17/30GK102654886SQ20121014151
公開日2012年9月5日 申請(qǐng)日期2012年5月8日 優(yōu)先權(quán)日2012年5月8日
發(fā)明者吳衛(wèi)平 申請(qǐng)人:上海互聯(lián)網(wǎng)軟件有限公司, 上?;ボ浶畔⒖萍加邢薰?br>