專利名稱::一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種數(shù)據(jù)檢索系統(tǒng),特別是一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng)。
背景技術(shù):
:隨著網(wǎng)絡(luò)信息技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)的數(shù)據(jù)量發(fā)生了爆炸式的增長,用戶越來越多地希望在査詢信息的同時,查詢系統(tǒng)能夠直接將信息以結(jié)構(gòu)化的表格形式呈現(xiàn)出來,例如:對同一類別的某種產(chǎn)品各個性能參數(shù)的査詢,對氣象信息的查詢等。因此,如何快速、有效地檢索到需要的網(wǎng)絡(luò)數(shù)據(jù)受到了廣泛的關(guān)注,目前的查詢技術(shù)為基于關(guān)鍵詞的信息檢索技術(shù)。傳統(tǒng)的基于關(guān)鍵詞的信息檢索技術(shù)具有幾下幾種缺陷一方面,網(wǎng)頁中的內(nèi)容組織形式越來越多樣化,基于關(guān)鍵詞的査找不能反映出結(jié)構(gòu)化數(shù)據(jù)的信息特征;另一方面,越來越多的數(shù)據(jù)以結(jié)構(gòu)化的形式存在于網(wǎng)頁中,特別是描述性網(wǎng)頁文件中,比如百科網(wǎng)頁等。因此,傳統(tǒng)的基于關(guān)鍵詞的信息檢索技術(shù)已經(jīng)滿足不了査找結(jié)構(gòu)化信息的要求。
發(fā)明內(nèi)容針對上述問題,本發(fā)明的目的是提供一種能夠直接將査詢到的結(jié)構(gòu)化表格呈現(xiàn)出來的基于百科數(shù)據(jù)提取集成的查詢系統(tǒng)。為實現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于它包括數(shù)據(jù)提取模塊、數(shù)據(jù)集成模塊和數(shù)據(jù)查詢模塊;所述數(shù)據(jù)提取模塊用于從因特網(wǎng)上提取百科網(wǎng)頁,定位和初步過濾各類百科網(wǎng)頁中的表格,之后進行基于視覺特征的定位和提?。粚⑻崛〉谋砀窠y(tǒng)一轉(zhuǎn)換成行表的形式,將解析得到的行表的參數(shù)數(shù)據(jù)緩存在系統(tǒng)的內(nèi)存中并進行歸類;將具有相同特征參數(shù)的表格歸為一類,提取和識別出每類表格的分類信息,將分類信息保存在信息數(shù)據(jù)庫和XML數(shù)據(jù)庫中;所述數(shù)據(jù)集成模塊對表格進行分類并按類別打分;之后采用集成的方法,將具有相同屬性的表格歸并到同一個模式庫中;對各模式庫中的模式信息進行聚類,輸出模式聚類和推薦模式;所述數(shù)據(jù)查詢模塊對用戶輸入的查詢條件進行解釋,提取出關(guān)鍵詞,根據(jù)關(guān)鍵詞的類型在所述XML數(shù)據(jù)庫中査找分類目錄,在信息數(shù)據(jù)庫中査找對應(yīng)的表格信息;輸出査詢結(jié)果和推薦模式。所述基于視覺特征的定位和提取方法為,利用網(wǎng)頁中表格包含的標(biāo)記^fe并過濾無效表格;再通過辨別所述標(biāo)記內(nèi)的表格結(jié)構(gòu)標(biāo)記來提取表格。所述特征函數(shù)的歸類方法為,采用機器學(xué)習(xí)的分類模型對判斷表格是否符合各項設(shè)定的一致性特征的要求,將具有相同參數(shù)數(shù)據(jù)的表格歸納為一類。所述分類信息包括表格的參數(shù)數(shù)據(jù)、單元格內(nèi)容數(shù)據(jù)和分類目錄,所述參數(shù)數(shù)據(jù)和單元格內(nèi)容數(shù)據(jù)存儲在所述信息數(shù)據(jù)庫中,所述分類目錄存儲在所述XML數(shù)據(jù)庫中。所述集成的方法為,首先創(chuàng)建一個結(jié)果集合,集成開始之前所述結(jié)果集合中只包含有分數(shù)最高的表格;之后從一個類別中讀取出所有表格,對所有表格進行打分,再將表格按照分數(shù)從高到低進行排序,然后放入結(jié)果集合中;將所述結(jié)果集合內(nèi)外的表格的屬性進行比較判斷,將具有相同屬性的表格歸并到同一個模式庫中。本發(fā)明由于采取以上技術(shù)方案,其具有以下優(yōu)點1、本發(fā)明通過提取網(wǎng)絡(luò)中百科數(shù)據(jù)中的表格信息,采用了基于類別的表格集成技術(shù),能夠?qū)⒉煌W(wǎng)頁中相同類別的信息聚合起來,與現(xiàn)有的信息檢索技術(shù)相比,查詢的結(jié)果更加具有可顯示特性和可展示特性,數(shù)據(jù)質(zhì)量比傳統(tǒng)網(wǎng)頁的數(shù)據(jù)質(zhì)量更高。2、本發(fā)明提供了多種檢索方法,用戶不僅可以輸入關(guān)鍵詞進行信息檢索,而且可以通過輸入標(biāo)簽檢索格式和結(jié)構(gòu)化査詢語言的方式進行信息檢索。3、本發(fā)明對底層的數(shù)據(jù)采取信息數(shù)據(jù)庫的存儲方式,并使用XML數(shù)據(jù)庫輔助查詢,與傳統(tǒng)的XML數(shù)據(jù)庫查詢相比,不僅能夠保留結(jié)構(gòu)化信息,還具有查詢速度快,操作簡單的優(yōu)點。本發(fā)明可廣泛用于網(wǎng)絡(luò)的數(shù)據(jù)檢索領(lǐng)域。圖1是本發(fā)明的百科數(shù)據(jù)提取模塊結(jié)構(gòu)示意圖圖2是本發(fā)明的百科數(shù)據(jù)集成模塊結(jié)構(gòu)示意圖圖3是本發(fā)明的查詢模塊結(jié)構(gòu)示意圖具體實施例方式下面結(jié)合附圖和實施例對本發(fā)明進行詳細的描述。本發(fā)明的系統(tǒng)包括數(shù)據(jù)提取模塊1、數(shù)據(jù)集成模塊2和數(shù)據(jù)查詢模塊3。如圖1所示,數(shù)據(jù)提取模塊1包括文檔提取和過濾模塊11、元數(shù)據(jù)類別識別模塊12、表格數(shù)據(jù)定位模塊13、定位和提取模塊14、識別類型模塊15、表格解析模塊16、特征函數(shù)模塊17和關(guān)系類型識別模塊18。其中,文檔提取和過濾模塊ll用于從因特網(wǎng)上的百科數(shù)據(jù)庫中提取出用戶需要的百科網(wǎng)頁,然后對百科網(wǎng)頁文檔進行過濾,即去掉主題與用戶查詢的主題不相關(guān)的網(wǎng)頁,如廣告、帶有迨圾信息的網(wǎng)頁等。元數(shù)據(jù)類別識別模塊12用于對過濾后的百科網(wǎng)頁文檔進行元數(shù)據(jù)類別的識別,即提取出百科網(wǎng)頁的主題和百科網(wǎng)頁中表格標(biāo)題的中心詞,之后根據(jù)這些中心詞將相同類別主題的百科網(wǎng)頁歸并在一起。表格數(shù)據(jù)定位模塊13利用因特網(wǎng)的配置文件定位經(jīng)過過濾并歸類過的百科網(wǎng)頁中的表格信息,即找到各類百科網(wǎng)頁中符合要求的表格,同時過濾掉一些不符合要求的表格,即對表格進行一次過濾;比如,如果表格的行和列的數(shù)目都比較小,則一般不是有用的表格數(shù)據(jù)。本發(fā)明的實施例中,表格數(shù)據(jù)定位模塊13過濾掉不符合以下條件的表格行和列的數(shù)目分別大于等于3,表格內(nèi)部圖片的數(shù)目不能超過一個定值,每一個單元格的內(nèi)容不能超過設(shè)定的最大長度值。定位和提取模塊14用于將初步過濾后的表格進行基于視覺性特征的表格數(shù)據(jù)的定位和提取,即對表格進行二次過濾。本發(fā)明對表格進行基于視覺規(guī)則的定位和提取的方法是由于百科網(wǎng)頁中的結(jié)構(gòu)化表格信息主要采用HTML的表格形式,即一個表格由多個單元格組成,而HTML頁面中網(wǎng)頁顯示符合規(guī)范的表格通常包含在標(biāo)記〈table〉與〈/table〉之間;因此本發(fā)明利用這些標(biāo)記定位并過濾掉表格中的無效表格。無效表格通常為表格格式不整齊、結(jié)構(gòu)復(fù)雜、本身表格一般不具備實際意義的表格,如(1)框架表格這種表格不含有實際的內(nèi)容,僅起到裝飾網(wǎng)頁的作用;(2)無〈table〉標(biāo)記的表格不是以〈table〉標(biāo)記而是利用其他標(biāo)記如〈div〉、〈li〉等表示的表格;(3)嵌套表格即在一個大的表格中,再嵌進去一個或幾個小的表格,即插入到表格單元格中的表格。對表格定位并過濾后,通過辨別〈table〉標(biāo)記內(nèi)的表格結(jié)構(gòu)標(biāo)記來提取表格。如〈caption〉表示表格標(biāo)題信息;〈th〉表示表格內(nèi)的表頭單元格信息;〈tr〉表示表格行信息;〈td〉表示數(shù)據(jù)項信息;〈NULL〉表示表格中的無意義的單元格;還有一些像〈tdbgcolor〉、〈font〉等用作裝飾的表格結(jié)構(gòu)標(biāo)記,這些表格結(jié)構(gòu)標(biāo)記均用來標(biāo)識表格的顯示信息。本發(fā)明的實施例中采用的表格結(jié)構(gòu)標(biāo)記如表l所示,通過對表1中的7項表格結(jié)構(gòu)標(biāo)記進行設(shè)定,然后按照這7項表格結(jié)構(gòu)標(biāo)記對表格進行提取,表格結(jié)構(gòu)標(biāo)記可以任意選取及組合,不限于表l中的組合形式。表l:表格結(jié)構(gòu)標(biāo)記序號視覺特征描述1是否含有〈caption;4示簽2是否含有<傷>標(biāo)簽3表格行的數(shù)目<table>tableseeoriginaldocumentpage7</column></row><table>識別類型模塊15對經(jīng)過定位和提取模塊14二次過濾后的表格中的每一個單元格的內(nèi)容進行識別,然后將表格統(tǒng)一轉(zhuǎn)換成行表的形式,即將表格中的所有表示屬性的詞在表格的第一行呈現(xiàn)。例如產(chǎn)品價格描述,生產(chǎn)時間,原料來源等,而第一行以下是表格各列的屬性所對應(yīng)的具體數(shù)值。表格解析模塊16對經(jīng)過二次過濾并且已經(jīng)統(tǒng)一為行表形式的表格進行解析,將得出的表格結(jié)構(gòu)標(biāo)記、行參數(shù)和列參數(shù)等參數(shù)數(shù)據(jù)緩存在系統(tǒng)的內(nèi)存中。再由特征函數(shù)模塊17對這些經(jīng)過解析后的表格根據(jù)其參數(shù)數(shù)據(jù)進行歸類。特征函數(shù)模塊17的歸類方法是由于表格是對結(jié)構(gòu)化信息的描述工具,因此具有一致性的特征,即表格通常會有很多內(nèi)容相近的單元格,例如表格中若有一列的內(nèi)容的屬性是郵政編碼,則這一列的內(nèi)容全部是表示郵政編碼的數(shù)字類型的數(shù)據(jù)格式。因此,特征函數(shù)模塊17采用機器學(xué)習(xí)的分類模型對表格進行判斷,判斷其是否符合各項設(shè)定的一致性特征的要求,將具有相同特征參數(shù)的表格歸納在一類中。本發(fā)明的實施例中設(shè)置的表格的一致性特征如表2所示,表格的一致性特征可以由人為選取并組合,不限于本發(fā)明實施例中的組合方式。表2:表格的一致性特征<table>tableseeoriginaldocumentpage7</column></row><table>為了便于對一致性特征進行描述,本發(fā)明對上述的一致性特征歸納出一致性特征函數(shù)<formula>formulaseeoriginaldocumentpage7</formula>ccc=-::4^rfZc%)j其中,r"表示表格的行數(shù),c"表示表格的列數(shù),。表示有意義的行的數(shù)量,c,表示有意義的列的數(shù)量;、表示有意義的單元格的數(shù)量;"C、W、CO、CCC為特征參數(shù)。將特征函數(shù)模塊17進行歸類后的表格分類集合作為訓(xùn)練集,然后將訓(xùn)練集輸入關(guān)系類型識別模塊18。在關(guān)系類型識別模塊18中對單元格信息不完整的表格進行定位,再根據(jù)信息不完整的單元格的上下行及前后列的內(nèi)容補全單元格信息或者置空,以保證表格形式上的一致性。之后對表格的屬性和類型進行判斷,根據(jù)訓(xùn)練集中的各類表格進行統(tǒng)計,從而識別出能明顯標(biāo)識出表格屬性的分類信息,以便對表格類型進行匹配。最后將提取和識別出的分類信息存儲到數(shù)據(jù)庫和XML數(shù)據(jù)庫中。分類信息包括表格的參數(shù)數(shù)據(jù)、單元格內(nèi)容數(shù)據(jù)和分類目錄,其中參數(shù)數(shù)據(jù)和單元格內(nèi)容數(shù)據(jù)等表格信息存儲在信息數(shù)據(jù)庫中,分類目錄存儲在XML數(shù)據(jù)庫中。如圖2所示,數(shù)據(jù)集成模塊2包括分類目錄與元數(shù)據(jù)提取模塊21、表格模式打分模塊22、分類別合并模塊23、模式統(tǒng)計規(guī)則模塊24、模式匹配模塊25。分類目錄與元數(shù)據(jù)提取模塊21從XML數(shù)據(jù)庫中讀取出分類信息中的單元格內(nèi)容數(shù)據(jù)和分類目錄,根據(jù)表格所屬的單元格內(nèi)容數(shù)據(jù)和分類目錄對所有表格進行分類。表格模式打分模塊22從信息數(shù)據(jù)庫中讀取出的單元格內(nèi)容數(shù)據(jù),按類別對表格進行打分。打分是對表格中單元格內(nèi)容數(shù)據(jù)的完整性進行評價,分數(shù)越高說明表格中的單元格內(nèi)容數(shù)據(jù)越完整。分類別合并模塊23中采用集成的方法,首先創(chuàng)建一個結(jié)果集合,集成開始之前結(jié)果集合中只包含有分數(shù)最高的表格;之后從一個類別中讀取出所有表格,對所有表格進行打分,再將表格按照分數(shù)從高到低進行排序,然后放入結(jié)果集合中。將集合之外的表格的屬性與結(jié)果集合中的表格的屬性進行比較判斷,分類別合并模塊23將具有相同屬性的表格歸并到同一個模式庫中。對已經(jīng)提取出的模式庫進行統(tǒng)計,最后在模式統(tǒng)計規(guī)則模塊24中對所有未被分類的表格信息模式庫進行模式匹配,判斷其與已有模式庫中的表格的屬性的重合度和打分結(jié)果。例如未分類的表格中若與模式庫中的表格的屬性重合度較高,且打分較高,則將此表格合并到這一模式庫中,直到合并所有的表格信息。最終,對各模式庫中的模式信息進行聚類,輸出模式聚類和推薦模式,即當(dāng)用戶輸入的一個查詢條件范圍過大時,由系統(tǒng)推薦給用戶一些范圍較小的符合用戶需求的數(shù)據(jù),以方便用戶查詢。如圖3所示,由于本發(fā)明同時采取信息數(shù)據(jù)庫和XML數(shù)據(jù)庫的格式保存表格的結(jié)構(gòu)化數(shù)據(jù)信息,因此采取基于關(guān)鍵詞和XPATH相結(jié)合的查詢方法對百科數(shù)據(jù)進行結(jié)構(gòu)化查詢。査詢時,用戶首先鍵入一查詢關(guān)鍵詞或者若干彼此之間存在限制關(guān)系的查詢關(guān)鍵詞,數(shù)據(jù)査詢模塊3中的査詢解釋器31對用戶輸入的査詢條件進行解釋,提取出其中的關(guān)鍵詞,根據(jù)關(guān)鍵詞的類型,在XML數(shù)據(jù)庫中查找相應(yīng)的分類目錄,根據(jù)分類目錄在信息數(shù)據(jù)庫中查找對應(yīng)的表格信息。信息數(shù)據(jù)庫與互聯(lián)網(wǎng)上的源文件進行交互,目的是為了補充査找互聯(lián)網(wǎng)上與用戶查詢內(nèi)容相關(guān)的網(wǎng)頁。對查詢的結(jié)構(gòu)進行結(jié)構(gòu)化輸出和展示,并輸出系統(tǒng)的推薦模式。下面通過一實施例,對本發(fā)明的系統(tǒng)及方法進一步說明當(dāng)用戶查詢與電腦產(chǎn)品價格相關(guān)的表格信息時,可以輸入"電腦價格"這個査詢關(guān)鍵詞,也可以輸入"電腦〃價格"或者"select價格from電腦"這樣的査詢語言進行査詢。查詢解釋器31對査詢的結(jié)構(gòu)進行結(jié)構(gòu)化輸出和展示,并通過數(shù)據(jù)提取模塊1和數(shù)據(jù)集成模塊2推薦相應(yīng)模式關(guān)系。當(dāng)查詢"電腦價格"時,首先由文檔提取和過濾模塊ll從互聯(lián)網(wǎng)上提取并下載網(wǎng)頁,保留網(wǎng)頁中正文內(nèi)容,去掉網(wǎng)頁中的廣告等內(nèi)容。元數(shù)據(jù)類別識別模塊12對所有提取出來的網(wǎng)頁進行歸類,將與"電腦價格"相關(guān)主題的網(wǎng)頁歸為一類,再利用配置文件定位清洗并歸類過的網(wǎng)頁中的表格信息,過濾掉不符合要求的表格。比如過濾掉行和列的數(shù)目分別小于等于3、表格內(nèi)的圖片的數(shù)目不能超過一個定值或者每一個單元格的內(nèi)容不超過事先設(shè)定的最大長度值的表格。將經(jīng)過初步過濾后的表格輸入定位和提取模塊14,進行基于視覺性特征的表格數(shù)據(jù)提取,即對定位后的表格數(shù)據(jù)進行二次過濾,提取出滿足事先設(shè)定的視覺規(guī)則的表格數(shù)據(jù)。識別類型模塊15對定位和提取模塊14提取出的表格的內(nèi)容進行識別,即表格的屬性識別,如"電腦生產(chǎn)廠商"、"電腦價格","電腦生產(chǎn)日期","電腦保修時間"等均屬于電腦產(chǎn)品價格表格的屬性。然后將這些屬性在表格第一行呈現(xiàn),第一行以下是表格各列的屬性所對應(yīng)的具體數(shù)值,即將所有表格均轉(zhuǎn)換為行表的形式。表格解析模塊16對經(jīng)過兩次過濾且格式統(tǒng)一的表格進行解析,將得到的表格的表格結(jié)構(gòu)標(biāo)記、行參數(shù)和列參數(shù)等參數(shù)數(shù)據(jù)緩存在內(nèi)存中。特征函數(shù)模塊17將具有相同參數(shù)數(shù)據(jù)的表格歸納在一類中。關(guān)系類型識別模塊18對表格中信息不完整的單元格信息進行定位,根據(jù)信息不完整的單元格的上下行和前后列的內(nèi)容補全單元格的信息內(nèi)容或者置空,對表格的屬性和類型進行判斷,根據(jù)已經(jīng)提取出的表格進行統(tǒng)計,從而識別出較好的分類信息,以便對未知類型進行類型匹配。比如當(dāng)需要提取包含電腦產(chǎn)品價格的表格時,如果有的表保修時間屬性沒有提取出來,就可以根據(jù)這列單元的內(nèi)容和表名來判斷其屬性,判斷其列是時間。最后將提取和識別出的分類信息存膽到信息數(shù)據(jù)庫和XML數(shù)據(jù)庫中。分類目錄與元數(shù)據(jù)提取模塊21從信息數(shù)據(jù)庫和XML數(shù)據(jù)庫中讀取提取出分類信息中的單元格內(nèi)容數(shù)據(jù)和分類信息。根據(jù)表格的分類信息對所有提取出來的表格進行分類,將所有關(guān)于"電腦價格"的表格數(shù)據(jù)歸并為一類,經(jīng)過表格模式打分模塊22中對所有"電腦價格"類別中的表格進行打分后,選出分數(shù)最高的表格,這個表格所包含的"電腦價格"信息最全面,表格模式內(nèi)容比較清晰。在分類別合并模塊23中選取其他電腦產(chǎn)品價格類的表格與這個表格進行比較,判斷其與已有模式庫中的表格的屬性的重合度和打分結(jié)果,直到將所有的表格信息合并成一個較大的表格模式,該模式主要存儲電腦產(chǎn)品價格的信息。在模式統(tǒng)計規(guī)則模塊24中對模式信息進行聚類輸出,并輸出推薦模式,比如當(dāng)用戶輸入查詢關(guān)鍵詞為"電腦"時,由于這個查詢范圍過大,此時由系統(tǒng)向用戶推薦一些范圍較小的查詢范圍,以供用戶選擇。當(dāng)用戶接收系統(tǒng)的推薦,將輸入范圍縮小至"電腦價格"時,數(shù)據(jù)查詢模塊3中的查詢解釋器對這一査詢條件進行解釋,提取出其中的關(guān)鍵詞,根據(jù)查詢的類型,在XML數(shù)據(jù)庫中查找相應(yīng)的分類信息,根據(jù)分類信息在信息數(shù)據(jù)庫中查找相應(yīng)的表格信息。與此同時,信息數(shù)據(jù)庫在互聯(lián)網(wǎng)上的源文件中補充查找與"電腦價格"內(nèi)容相關(guān)的網(wǎng)頁,對查詢的結(jié)構(gòu)進行結(jié)構(gòu)化輸出和展示。綜上所述,本發(fā)明通過提取網(wǎng)絡(luò)中百科數(shù)據(jù)中的表格信息,采用了基于類別的表格集成技術(shù),能夠?qū)⒉煌W(wǎng)頁中相同類別的信息聚合起來,與現(xiàn)有的信息檢索技術(shù)相比,查詢的結(jié)果更加具有可顯示特性和可展示特性,數(shù)據(jù)質(zhì)量比傳統(tǒng)網(wǎng)頁的數(shù)據(jù)質(zhì)量更高。權(quán)利要求1、一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于它包括數(shù)據(jù)提取模塊、數(shù)據(jù)集成模塊和數(shù)據(jù)查詢模塊;所述數(shù)據(jù)提取模塊用于從因特網(wǎng)上提取百科網(wǎng)頁,定位和初步過濾各類百科網(wǎng)頁中的表格,之后進行基于視覺特征的定位和提??;將提取的表格統(tǒng)一轉(zhuǎn)換成行表的形式,將解析得到的行表的參數(shù)數(shù)據(jù)緩存在系統(tǒng)的內(nèi)存中并進行歸類;將具有相同特征參數(shù)的表格歸為一類,提取和識別出每類表格的分類信息,將分類信息保存在信息數(shù)據(jù)庫和XML數(shù)據(jù)庫中;所述數(shù)據(jù)集成模塊對表格進行分類并按類別打分;之后采用集成的方法,將具有相同屬性的表格歸并到同一個模式庫中;對各模式庫中的模式信息進行聚類,輸出模式聚類和推薦模式;所述數(shù)據(jù)查詢模塊對用戶輸入的查詢條件進行解釋,提取出關(guān)鍵詞,根據(jù)關(guān)鍵詞的類型在所述XML數(shù)據(jù)庫中查找分類目錄,在信息數(shù)據(jù)庫中查找對應(yīng)的表格信息;輸出查詢結(jié)果和推薦模式。2、如權(quán)利要求1所述的一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于所述基于視覺特征的定位和提取方法為,利用網(wǎng)頁中表格包含的標(biāo)記定位并過濾無效表格;再通過辨別所述標(biāo)記內(nèi)的表格結(jié)構(gòu)標(biāo)記來提取表格。3、如權(quán)利要求1所述的一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于所述特征函數(shù)的歸類方法為,采用機器學(xué)習(xí)的分類模型對判斷表格是否符合各項設(shè)定的一致性特征的要求,將具有相同參數(shù)數(shù)據(jù)的表格歸納為一類。4、如權(quán)利要求2所述的一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于:所述特征函數(shù)的歸類方法為,采用機器學(xué)習(xí)的分類模型對判斷表格是否符合各項設(shè)定的一致性特征的要求,將具有相同參數(shù)數(shù)據(jù)的表格歸納為一類。5、如權(quán)利要求1或2或3或4所述的一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于所述分類信息包括表格的參數(shù)數(shù)據(jù)、單元格內(nèi)容數(shù)據(jù)和分類目錄,所述參數(shù)數(shù)據(jù)和單元格內(nèi)容數(shù)據(jù)存儲在所述信息數(shù)據(jù)庫中,所述分類目錄存儲在所述XML數(shù)據(jù)庫中。6、如權(quán)利要求1或2或3或4所述的一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于所述集成的方法為,首先創(chuàng)建一個結(jié)果集合,集成開始之前所述結(jié)果集合中只包含有分數(shù)最高的表格;之后從一個類別中讀取出所有表格,對所有表格進行打分,再將表格按照分數(shù)從高到低進行排序,然后放入結(jié)果集合中;將所述結(jié)果集合內(nèi)外的表格的屬性進行比較判斷,將具有相同屬性的表格歸并到同一個模式庫中。7、如權(quán)利要求5所述的一種基于百科數(shù)據(jù)提取集成的査詢系統(tǒng),其特征在于:所述集成的方法為,首先創(chuàng)建一個結(jié)果集合,集成開始之前所述結(jié)果集合中只包含有分數(shù)最高的表格;之后從一個類別中讀取出所有表格,對所有表格進行打分,再將表格按照分數(shù)從高到低進行排序,然后放入結(jié)果集合中;將所述結(jié)果集合內(nèi)外的表格的屬性進行比較判斷,將具有相同屬性的表格歸并到同一個模式庫中。全文摘要本發(fā)明涉及一種基于百科數(shù)據(jù)提取集成的查詢系統(tǒng),其特征在于它包括數(shù)據(jù)提取模塊、數(shù)據(jù)集成模塊和數(shù)據(jù)查詢模塊;數(shù)據(jù)提取模塊用于從因特網(wǎng)上提取百科網(wǎng)頁,定位和初步過濾各類百科網(wǎng)頁中的表格,之后進行基于視覺特征的定位和提??;將提取的表格統(tǒng)一轉(zhuǎn)換成行表的形式,將具有相同特征參數(shù)的表格歸為一類,提取和識別出每類表格的分類信息,將分類信息保存在信息數(shù)據(jù)庫和XML數(shù)據(jù)庫中;數(shù)據(jù)集成模塊對表格進行分類并按類別打分;之后采用集成的方法,將具有相同屬性的表格歸并到同一個模式庫中;對各模式庫中的模式信息進行聚類,輸出模式聚類和推薦模式;數(shù)據(jù)查詢模塊在信息數(shù)據(jù)庫中查找對應(yīng)的表格信息;輸出查詢結(jié)果和推薦模式。文檔編號G06F17/30GK101615193SQ20091008867公開日2009年12月30日申請日期2009年7月7日優(yōu)先權(quán)日2009年7月7日發(fā)明者偉伍,楊冬青,王騰蛟,軍高申請人:北京大學(xué)