專利名稱:一種基于Web的數(shù)據(jù)集成方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)集成方法及系統(tǒng),特別涉及一種基于Web的數(shù)據(jù)集成的方法及系統(tǒng)。
背景技術(shù):
目前銀行的一項業(yè)務(wù)數(shù)據(jù)操作往往涉及多個系統(tǒng),工作人員在進行業(yè)務(wù)數(shù)據(jù)操作時,需要分別從不同的系統(tǒng)獲取數(shù)據(jù)并對這些數(shù)據(jù)進行分析。目前各個系統(tǒng)的接口分別單獨開發(fā),其開發(fā)的總周期長,開發(fā)的成本高,且需要對各個系統(tǒng)的接口分別管理,其管理的成本也很高。另外,目前這些系統(tǒng)大都采用人工操作,不僅費時、費力,且由于系統(tǒng)較多,每個系統(tǒng)的操作規(guī)則不盡相同,對多個系統(tǒng)操作時容易出錯。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明提供了一種能夠自動集成基于web的系統(tǒng)數(shù)據(jù)且不易出錯的數(shù)據(jù)集成方法。本發(fā)明提供的基于Web的數(shù)據(jù)集成方法,包括以下步驟(I)讀取并解析目標(biāo)web的配置文件以從中提取訪問所述目標(biāo)web所需的信息;(2)模擬用戶端IE瀏覽器而向所述目標(biāo)web發(fā)送符合http或https協(xié)議的訪問請求報文以訪問所述目標(biāo)web ;(3)獲取響應(yīng)于所述訪問請求報文而返回的web資源,使用預(yù)先定義的正則表達式檢索所述web資源,提取需要的參數(shù)和文本資源,所述文本資源包括文本;(4)對從步驟(3)得到的多種數(shù)據(jù)進行排序、運算和/或合并處理以得到集成數(shù)據(jù);(5)對所述集成數(shù)據(jù)進行整合及結(jié)構(gòu)化顯示。作為優(yōu)選,所述步驟(I)具體包括從所述配置文件中提取用于訪問所述目標(biāo)web的鏈接地址。作為優(yōu)選,在所述步驟(3)中的所述文本資源還包括文本段,則所述步驟(3)還包括對所述文本段進行語義分析以進一步提取符合要求的數(shù)據(jù)并組裝成具有預(yù)定結(jié)構(gòu)的數(shù)據(jù)。作為優(yōu)選,在步驟(4)之后,還需繼續(xù)訪問下一目標(biāo)web則重復(fù)步驟(I)至(4),結(jié)束對目標(biāo)web的訪問則進行步驟(5)。本發(fā)明還提供了一種基于Web的數(shù)據(jù)集成系統(tǒng),包括配置模塊,其讀取并解析目標(biāo)web的配置文件以從中提取訪問所述目標(biāo)web所需的信息;模擬訪問模塊,模擬用戶端IE瀏覽器而向所述目標(biāo)web發(fā)送符合http或https協(xié)議的訪問請求報文以訪問所述目標(biāo)web ;語義分析模塊,其對響應(yīng)于所述訪問請求報文而返回的web資源使用預(yù)先定義的正則表達式進行檢索,提取需要的參數(shù)和文本資源,所述文本資源包括文本;邏輯處理模塊,其對經(jīng)所述語義分析模塊處理得到的多種數(shù)據(jù)進行排序、運算和/或合并處理以得到集成數(shù)據(jù);控制模塊,與所述配置模塊、語義分析模塊及邏輯處理模塊松耦合,為所述配置模塊、語義分析模塊及邏輯處理模塊提供運行環(huán)境并控制數(shù)據(jù)集成的流程;數(shù)據(jù)呈現(xiàn)模塊,其對所述集成數(shù)據(jù)進行整合并進行結(jié)構(gòu)化顯示。作為優(yōu)選,所述配置模塊從目標(biāo)web的配置文件中的提取的訪問所述目標(biāo)web所述的信息為對應(yīng)所述web的鏈接地址。 作為優(yōu)選,所述文本資源還包括文本段,則所述語義分析模塊進一步用于分析所述文本段以從中提取符合要求的數(shù)據(jù)并組裝成具有預(yù)定結(jié)構(gòu)的數(shù)據(jù)。本發(fā)明所述的基于web的數(shù)據(jù)集成方法和系統(tǒng)具有以下有益效果本發(fā)明提供的基于web的數(shù)據(jù)集成系統(tǒng)將web語義分析用于例如銀行內(nèi)部的數(shù)據(jù)集成,具有輕量級、易實施的特點,可廣泛應(yīng)用于新航的CMS-客戶管理系統(tǒng),網(wǎng)上銀行管理系統(tǒng)、存款報表管理系統(tǒng)、網(wǎng)銀收費系統(tǒng),電子銀行部關(guān)鍵績效指標(biāo)KPI系統(tǒng)、收付賬務(wù)部的40000-8000機器人系統(tǒng)等多個系統(tǒng),解決了人工集成數(shù)據(jù)操作費時費力且容易出錯的問題。
圖I為目標(biāo)web配置類結(jié)構(gòu)圖;圖2為目標(biāo)web訪問類結(jié)構(gòu)圖;圖3為目標(biāo)web的配置文件結(jié)構(gòu)圖;圖4為本發(fā)明一個實施例的基于web的數(shù)據(jù)集成方法的流程圖;圖5為本發(fā)明一個實施例的基于web的數(shù)據(jù)集成系統(tǒng)的結(jié)構(gòu)圖。
具體實施例方式圖I為目標(biāo)web配置類結(jié)構(gòu)圖,圖2為目標(biāo)web訪問類結(jié)構(gòu)圖,圖3為目標(biāo)web的配置文件結(jié)構(gòu)圖,圖4為本發(fā)明一個實施例的基于web的數(shù)據(jù)集成方法的流程圖。如圖4所示,本發(fā)明提供的基于web的數(shù)據(jù)集成方法,包括以下步驟第(I)步驟確定所需整合的目標(biāo)web,開始訪問目標(biāo)web,獲取目標(biāo)web的核心配置,目標(biāo)web的配置以XML的格式存儲,目標(biāo)Web配置類的結(jié)構(gòu)如圖I所示。目標(biāo)Web配置類中的屬性urllist是一個列表。該列表中每一個元素是訪問類的實例,詳細定義了每次訪問的參數(shù),如圖2所示。XML配置文件取名為WebVisitors. xml,下面詳細介紹一下WebVisitors. xml的組成頂層元素〈webvisitors〉。按照xml格式標(biāo)準,頂層元素只能有一個。第二層元素〈webservicesid =’ 計數(shù)值’ >。〈webservices〉兀素可以有多個?!磜ebservices〉配有屬性id,其值為計數(shù)值,用以區(qū)別不同的目標(biāo)web應(yīng)用。每一個訪問的目標(biāo)web應(yīng)用都對應(yīng)一個〈webservices〉元素。元素內(nèi)詳細定義了每個目標(biāo)web應(yīng)用的名稱、訪問協(xié)議、訪問策略、訪問配置等。<webservices> 兀素內(nèi)包括 <webname>> <visitstrategy>> <visit>> <urllist> 等兀素。
第三層兀素<webname>> <visitstrategy>> <visitprotocol>>〈method〉、<urllist>。<webname>兀素定義了目標(biāo)web的名稱?!磛isitstrategy〉元素定義了對此目標(biāo)web的訪問策略,可供選擇的策略有visitorbyhour,每小時訪問一次;visitorbyday,每天訪問一次,一般在早上6點;Vi s i tat (24時制的整點),在指定的整點訪問,整點時數(shù)為24小時制。例如,visitatl4即14點時訪問?!磛isitprotocol〉元素定義了訪問web服務(wù)的協(xié)議,一般為http或https?!磎ethod〉元素定義了 http訪問的方法,選擇主要是post方法或get方法?!磚rllist〉元素內(nèi)定義了對目標(biāo)web訪問的詳細配置,目標(biāo)web資源獲取的步驟、訪問方法、參數(shù)、資源提取方法等。通過多個〈urlvisit〉定義獲取web服務(wù)資源的鏈接訪問序列。第四層元素〈urlvisit id =’計數(shù)值’ >。<urlvisit>元素定義了鏈接的一次訪問的屬性,包括訪問鏈接地址、訪問方法、訪問頭、訪問參數(shù)、參數(shù)獲取,資源獲取。屬性id定義了訪問的順序。很多web服務(wù)都要求必須按一定順序訪問web資源。第五層兀素〈urlpath>、〈header〉、〈sendparamname =,#name,id =,計數(shù)值,>、〈getparam id =,計數(shù)值’ name =’ #nameJ >、〈resulthtml id =,計數(shù)值’ >。〈urlpath〉元素定義了本次鏈接訪問的地址。按照http協(xié)議,鏈接中可以帶參數(shù)。在配置文件中,也允許這樣。具體格式與一般的http協(xié)議下的鏈接并無二致?!磆eader〉元素定義了請求報文的報文頭,每一份請求報文都會有報文頭,報文頭詳細定義了本次請求的各項屬性,該元素定義了報文頭的內(nèi)容。<sendparam>定義了本次請求所需參數(shù)值,其中屬性name定義了參數(shù)的名字,屬性id定義了參數(shù)的順序。<sendparam>元素值就是參數(shù)值,如果元素值是上一次訪問時使用〈getparam〉中正則表達式檢索出的參數(shù)值,則元素值為對應(yīng)〈getparam〉元素的name屬性值#name?!磄etparam〉元素定義了從應(yīng)答報文中檢索目標(biāo)值的正則表達式。在應(yīng)答報文中,需要獲取某些文本值,作為參數(shù)變量的值,用于后續(xù)鏈接的訪問。此時就需要使用正則表達式從應(yīng)答報文中匹配搜索對應(yīng)的目標(biāo)文本。該元素定義了匹配目標(biāo)文本的正則表達式,其中屬性name定義了參數(shù)變量的名字,屬性id定了參數(shù)變量的順序?!磖esulthtml〉元素定義了檢索要獲取資源所需的正則表達式。使用正則表達式檢索應(yīng)答報文,將符合表達式的文本取出,其中屬性id定義了資源的序列。如上所述,目標(biāo)web的配置文件詳細定義了訪問的工作流程和語義分析所需的正則表達式。本發(fā)明的第(I)步驟讀取并解析目標(biāo)web的以XML格式存儲的配置文件,從該配置文件中提取訪問目標(biāo)web所需的信息,并將配置元素轉(zhuǎn)化為對象實例。本發(fā)明的數(shù)據(jù)集成方法通過配置文件的形式定義對目標(biāo)web的訪問參數(shù)、訪問頻率和訪問資源提取方法等,具備較高的完備性和易用性。通過配置文件定義目標(biāo)web訪問的表現(xiàn)形態(tài),具備較高的可維護性和適應(yīng)性。
第⑵步驟模擬用戶端IE瀏覽器而向所述目標(biāo)web發(fā)送符合http或https協(xié)議的訪問請求報文,訪問目標(biāo)web。在web服務(wù)中,為了信息安全、運維穩(wěn)定等因素,往往不會向外界提供數(shù)據(jù)傳送的接口。這時整合該目標(biāo)web中的資源,就只能通過模擬用戶訪問該目標(biāo)web,通過手動文本搜索獲取該資源。具體過程是,提取配置中的對應(yīng)鏈接地址,通常為url,設(shè)置參數(shù),向目標(biāo)web發(fā)送訪問請求報文。第(3)步驟,獲取響應(yīng)于所述訪問請求報文而返回的web資源,使用預(yù)先定義的正則表達式檢索所述web資源,提取需要的參數(shù)和文本資源,所述文本資源包括文本,在本步驟中,獲取的web資源往往是一長串文本,采用預(yù)先定義的正則表達式,檢索對應(yīng)的文本,將最終需要的資源取出。所述文本資源還可進一步包括特殊的數(shù)據(jù),如文本段,正則表達式無法對文本段精確定位,可進一步使用語義分析檢索獲取的文本段,提取、組裝成具有預(yù)定結(jié)構(gòu)的數(shù)據(jù)并予以緩存。
第(4)步驟,對從(3)中得到的多種數(shù)據(jù)進行排序、運算和/或合并處理得到集成數(shù)據(jù);第(5)步驟,對所述集成數(shù)據(jù)進行整合及結(jié)構(gòu)化顯示,將集成數(shù)據(jù)以新型的、圖形化的、結(jié)構(gòu)化的形式予以展現(xiàn),使得集成數(shù)據(jù)一目了然、便于理解。在上述實施例中,在步驟(4)之后,還需繼續(xù)訪問下一目標(biāo)web則重復(fù)步驟(I)至
(4),結(jié)束對目標(biāo)web的訪問則進行步驟(5)。圖5為本發(fā)明一個實施例的基于web的數(shù)據(jù)集成系統(tǒng)的結(jié)構(gòu)圖。如圖5所示,本發(fā)明提供的基于web的數(shù)據(jù)集成系統(tǒng)包括配置模塊,其讀取并解析目標(biāo)web的配置文件以從中提取訪問所述目標(biāo)web所需的信息,該信息例如為對應(yīng)于目標(biāo)web的鏈接地址。所述配置模塊將配置文件中的配置元素定義為對象實例的數(shù)據(jù)。本發(fā)明的數(shù)據(jù)集成系統(tǒng)通過配置文件的形式定義對目標(biāo)web的訪問參數(shù)、訪問頻率和訪問資源提取方法等,具備較高的完備性和易用性,通過配置文件定義目標(biāo)web訪問的表現(xiàn)形態(tài),具備較高的可維護性和適應(yīng)性;模擬訪問模塊,其模擬用戶端IE瀏覽器而向所述目標(biāo)web發(fā)送符合http或https協(xié)議的訪問請求報文以訪問所述目標(biāo)web,模擬訪問模塊利用配置模塊獲取的信息對目標(biāo)web進行訪問并獲取web資源。對目標(biāo)web的訪問通過模擬訪問模塊和配置模塊完成,其中模擬訪問模塊提供了目標(biāo)web訪問最基礎(chǔ)的功能實現(xiàn),屬于技術(shù)實現(xiàn)細節(jié),配置模塊則是目標(biāo)web訪問的業(yè)務(wù)邏輯;語義分析模塊,其獲取響應(yīng)于所述訪問請求報文而返回的web資源,使用預(yù)先定義的正則表達式檢索所述web資源,提取需要的參數(shù)和文本資源,文本資源包括文本,還可進一步包括文本段,對于文本段正則表達式無法精確定位,可進一步使用語義分析檢索該文本段,提取符合要求的數(shù)據(jù)并組裝成具有預(yù)定結(jié)構(gòu)的數(shù)據(jù);邏輯處理模塊,其對經(jīng)所述語義分析模塊處理得到的多種數(shù)據(jù)進行排序、運算和/或合并處理以得到集成數(shù)據(jù);控制模塊,其與所述配置模塊、語義分析模塊及邏輯處理模塊分別松耦合,為所述配置模塊、語義分析模塊及邏輯處理模塊提供運行環(huán)境并控制數(shù)據(jù)集成的流程。所述控制模塊在初始化時采用Java反射機制創(chuàng)建具體實例,所述控制模塊可實現(xiàn)代碼隔離,配置模塊、語義分析模塊及邏輯處理模塊或其它模塊類似插件一樣插在控制模塊上,使用配置文件定義組件的表現(xiàn)形式,實現(xiàn)了組件化設(shè)計,從而可使控制模塊的和與其松耦合的模塊可各自分別升級,且增加功能十分方便,僅需更改配置,增加對應(yīng)組件即可,無需改變原有代碼;數(shù)據(jù)呈現(xiàn)模塊,其對所述集成數(shù)據(jù)進行整合及結(jié)構(gòu)化顯示。將集成數(shù)據(jù)的結(jié)果對外展示,所述數(shù)據(jù)呈現(xiàn)模塊整合了一些開源的web展示工具,將集成數(shù)據(jù)以新型的、圖形化的、結(jié)構(gòu)化的形式予以展現(xiàn),使得數(shù)據(jù)集成的結(jié)果一目了然、便于理解。以上實施例僅為本發(fā)明的示例性實施例,不用于限制本發(fā)明,本發(fā) 明的保護范圍由權(quán)利要求書限定。本領(lǐng)域技術(shù)人員可以在本發(fā)明的實質(zhì)和保護范圍內(nèi),對本發(fā)明做出各種修改或等同替換,這種修改或等同替換也應(yīng)視為落在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1.一種基于Web的數(shù)據(jù)集成方法,其特征在于,包括以下步驟 (1)讀取并解析目標(biāo)web的配置文件以從中提取訪問所述目標(biāo)web所需的信息; (2)模擬用戶端IE瀏覽器而向所述目標(biāo)web發(fā)送符合http或https協(xié)議的訪問請求報文以訪問所述目標(biāo)web; (3)獲取響應(yīng)于所述訪問請求報文而返回的web資源,使用預(yù)先定義的正則表達式檢索所述web資源,提取需要的參數(shù)和文本資源,所述文本資源包括文本; (4)對從步驟(3)得到的多種數(shù)據(jù)進行排序、運算和/或合并處理以得到集成數(shù)據(jù); (5)對所述集成數(shù)據(jù)進行整合及結(jié)構(gòu)化顯示。
2.根據(jù)權(quán)利要求I所述的基于Web的數(shù)據(jù)集成方法,其特征在于,所述步驟(I)具體包括從所述配置文件中提取用于訪問所述目標(biāo)web的鏈接地址。
3.根據(jù)權(quán)利要求I所述的基于Web的數(shù)據(jù)集成方法,其特征在于,在所述步驟(3)中的所述文本資源還包括文本段,則所述步驟(3)還包括對所述文本段進行語義分析以進一步提取符合要求的數(shù)據(jù)并組裝成具有預(yù)定結(jié)構(gòu)的數(shù)據(jù)。
4.根據(jù)權(quán)利要求I所述的基于Web的數(shù)據(jù)集成方法,其特征在于,在步驟(4)之后,還需繼續(xù)訪問下一目標(biāo)web則重復(fù)步驟(I)至(4),結(jié)束對目標(biāo)web的訪問則進行步驟(5)。
5.一種基于Web的數(shù)據(jù)集成系統(tǒng),其特征在于,包括 配置模塊,其讀取并解析目標(biāo)web的配置文件以從中提取訪問所述目標(biāo)web所需的信息; 模擬訪問模塊,其模擬用戶端IE瀏覽器而向所述目標(biāo)web發(fā)送符合http或https協(xié)議的訪問請求報文以訪問所述目標(biāo)web ; 語義分析模塊,其對響應(yīng)于所述訪問請求報文而返回的web資源使用預(yù)先定義的正則表達式進行檢索,提取需要的參數(shù)和文本資源,所述文本資源包括文本; 邏輯處理模塊,其對經(jīng)所述語義分析模塊處理得到的多種數(shù)據(jù)進行排序、運算和/或合并處理以得到集成數(shù)據(jù); 控制模塊,其與所述配置模塊、語義分析模塊及邏輯處理模塊松耦合,并為所述配置模塊、語義分析模塊及邏輯處理模塊提供運行環(huán)境并控制數(shù)據(jù)集成的流程; 數(shù)據(jù)呈現(xiàn)模塊,其對所述集成數(shù)據(jù)進行整合并進行結(jié)構(gòu)化顯示。
6.根據(jù)權(quán)利要求5所述的基于Web的數(shù)據(jù)集成系統(tǒng),其特征在于,所述配置模塊從目標(biāo)web的配置文件中提取的訪問所述目標(biāo)web所需的信息為對應(yīng)所述目標(biāo)web的鏈接地址。
7.根據(jù)權(quán)利要求5所述的基于Web的數(shù)據(jù)集成系統(tǒng),其特征在于,所述文本資源還包括文本段,則所述語義分析模塊進一步用于分析所述文本段以從中提取符合要求的數(shù)據(jù)并組裝成具有預(yù)定結(jié)構(gòu)的數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種基于Web的數(shù)據(jù)集成方法,所述方法包括讀取并解析目標(biāo)web的配置文件以從中提取訪問所述目標(biāo)web所需的信息;模擬用戶端IE瀏覽器而向所述目標(biāo)web發(fā)送訪問請求報文以訪問所述目標(biāo)web;獲取響應(yīng)于所述訪問請求報文而返回的web資源,使用預(yù)先定義的正則表達式檢索所述web資源,提取需要的參數(shù)和文本資源,所述文本資源包括文本;對所得到的多種數(shù)據(jù)進行排序、運算和/或合并處理以得到集成數(shù)據(jù);對所述集成數(shù)據(jù)進行整合及結(jié)構(gòu)化顯示。本發(fā)明同時公開了基于web的數(shù)據(jù)集成系統(tǒng)。本發(fā)明的方法和系統(tǒng)可自動進行web數(shù)據(jù)集成,克服了現(xiàn)有的人工集成數(shù)據(jù)的費時、費力且容易出錯的缺點。
文檔編號G06Q40/02GK102708103SQ20111007641
公開日2012年10月3日 申請日期2011年3月28日 優(yōu)先權(quán)日2011年3月28日
發(fā)明者莊向友, 方晨, 林啟琴, 潘定, 王海煒, 王炯, 陳丹霞 申請人:中國銀行股份有限公司