欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于結構識別的Web表格信息抽取方法

文檔序號:9326855閱讀:531來源:國知局
一種基于結構識別的Web表格信息抽取方法【
技術領域
】[0001]本發(fā)明屬于Web信息抽取
技術領域
,可用于對Web文檔中表格信息的抽取和存儲,特別是對數(shù)據(jù)間關系難以理解的復雜Web表格的信息抽取問題具有較好的處理能力。【
背景技術
】[0002]信息抽取是數(shù)據(jù)挖掘領域的一個重要研究方向,海量存在的Web資源又使得面向Web的信息抽取成為當前該領域的研究熱點。在形式各異的Web信息中,表格(Tables)是Web文檔中一種重要的數(shù)據(jù)表現(xiàn)形式,通常用于組織所描述對象的基本信息、統(tǒng)計數(shù)據(jù)等。由于這些結構化的數(shù)據(jù)具有的較高的使用價值,因此進行表格數(shù)據(jù)抽取的研究具有重要的意義。然而,HTML標記語言主要用于對數(shù)據(jù)進行展示,不具有對數(shù)據(jù)進行描述的能力。Web表格結構往往體現(xiàn)著數(shù)據(jù)間的關系,這種結構的解讀依賴于用戶的理解,而應用程序則無法直接讀懂這些信息。在將復雜結構的Web表格轉化成面向存儲的邏輯模型時,需要考慮單元格的類型、數(shù)據(jù)間的關聯(lián)約束等問題。因此,如何解決這些問題來正確理解表格結構就成為對表格信息進行準確抽取的關鍵。[0003]早在1996年,《GraphicsRecognitionMethodsandApplications》中的一篇文章《Model-basedanalysisofprintedtables》就曾對表頭單元格、屬性單元格和數(shù)據(jù)單元格進行了層次上的劃分,并通過label標記的方法對不同邏輯層次的單元格進行了表示。但是該研究的對象僅限于出版物中的表格,這類規(guī)范化程度較高的表格和格式約束較少的Web表格存在較大差異。此外,文中提出的單元格層次的劃分方法在實際的處理過程中難度較大,并不適合通過編程語言進行操作。在2001年PacificAssociationforComputationalLinguistics的論文集中,《ExtractionontologiesfromWorldWideWebviaHTMLtables》一文提出了一種基于字符串比對的表格結構識別方法,但是該方法沒有充分利用表格自身的特點,并且進行結構識別時需要比對的字符串較多,這就對表格結構識別的效率造成了影響。第八屆《Informationandknowledgemanagement》國際會議中的一篇文章《AnautomatedapproachforretrievinghierarchicaldatafromHTMLtables》介紹了兩種類型的數(shù)據(jù)層次的概念,并提出了一種基于表格中數(shù)據(jù)層次關系的內容樹(contenttree,CT)的構建方法。國內在Web表格信息抽取領域的研究也取得了一定的進展,合肥工業(yè)大學2012年度的一篇碩士學位論文《基于Web結構的表格信息抽取研究》提出了一種基于路徑模式挖掘的Web表格信息抽取方法;而燕山大學2008年度的碩士學位論文《基于表格結構的Web信息提取技術研究》則提出了一種基于HTML結構樹的列表信息提取方法。但是表格結構識別方面的研究大多集中在通過本體的方法進行,和國外的研究相比思路較為單一、方法的可操作性不強。表格的結構模型直接決定著信息的抽取策略,不僅要能體現(xiàn)原表格中數(shù)據(jù)間的關系,又要盡可能減少冗余數(shù)據(jù)的產(chǎn)生。其中涉及到的一個主要問題就是如何使表格更加規(guī)整化,即如何處理存在rowspan和colspan情況的單元格。目前采用的最主要的方法就是如Proceedingsofthe18thconferenceonComputationallinguistics-volumeI.AssociationforComputationalLinguistics中的一篇文章《MiningtablesfromlargescaleHTMLtexts》所介紹的"將單元格按照rowspan和colspan的值劃分成相應數(shù)量的基本單元格,并將原單元格中的內容復制到這些單元格中"的方法。這種方法雖然能在一定程度上保留原數(shù)據(jù)間的關系,但是不可避免的會造成大量重復數(shù)據(jù)(冗余數(shù)據(jù))的出現(xiàn)。[0004]本發(fā)明從表格自身所隱含的規(guī)則出發(fā),探尋一種簡單、有效的表格結構識別方法,以便于對Web表格信息進行準確抽??;并通過對兩種維度表格特征的分析提出新的、面向存儲的值單元格處理方法,可以在一定程度上減少冗余數(shù)據(jù)的產(chǎn)生?!?br/>發(fā)明內容】[0005]本發(fā)明的目的是為了解決Web中表格信息的抽取問題,尤其是復雜表格的信息抽取策略。通常在對后者進行信息抽取時,數(shù)據(jù)間關系的難以理解會對抽取結果的準確性造成影響。[0006]本發(fā)明的技術方案如下:[0007]對于一個給定的Web表格,首先經(jīng)過啟發(fā)式規(guī)則對其結構特征進行判斷。如果該Web表格的結構類型經(jīng)過啟發(fā)式規(guī)則未能被判斷出,再通過字符串匹配的方法來區(qū)分屬性單元格區(qū)域和值單元格區(qū)域,從而確定表格的結構類型。根據(jù)表格結構類型的判斷結果,一維表格中的值單元格按照所對應的屬性單元格的rowspan或colspan的值(屬性單元格位于屬性行中,則根據(jù)屬性單元格的colspan.value();屬性單元格位于屬性列中,則根據(jù)屬性單元格的:rowspan.value())進行處理;二維表格中的值單元格按照其所對應的兩個屬性單元格的rowspan和colspan的值進行處理,兩個屬性單元格所需考慮的情況同一維表格的處理方式。表1和表2分別展不了一維表格和二維表格的實例。[0008]表1一維表格實例[0010]表2ULC為空的二維表格的實例[0011][0012]本發(fā)明的核心是:提出了一種快速判斷Web表格結構的方法,并針對兩種結構類型的表格制定了相應的抽取策略,該策略使得抽取結果在保證原有的數(shù)據(jù)間關系的基礎上盡可能地減少存儲時冗余數(shù)據(jù)的產(chǎn)生。[0013]本發(fā)明的關鍵之一是:歸納出了快速識別Web表格結構的啟發(fā)式規(guī)則。即當表格的左上角的單元格為空時,表格為二維表格。首先通過這一規(guī)則對Web表格的結構類型進行判斷;在該規(guī)則未能適用的情況下,可根據(jù)<th>標簽進行表格結構的識別?;诘囊?guī)則為:如果表格中存在<th>標簽構造的屬性單元格,則該表格中所有的屬性單元格均由<th>標簽構造而成。[0014]本發(fā)明的關鍵之二是:采用字符串編輯距離(EditDistance,也稱為LevenshteinDistance)對單元格中內容字符串間的相似度進行計算。給出了通過多次實驗得出的區(qū)分屬性字符串和值字符串間相似度的閾值;需要進行相似度計算的單元格被限定在ULC(upper-left_cell,左上角的單元格)所在的行和列中。[0015]本發(fā)明關鍵之三是:對一維表格(包括橫向展開和縱向展開兩種情況),按照屬性單元格的cell,rowspan.value()或cell,colspan.value()對所在列或行中的值單元格進行切分?;诘目紤]是,合成的值單元格的處理方式依賴于其所對應的屬性單元格。即盡管一個值單元格可以同時對應多個屬性單元格,但是用戶在閱讀表格的時候通常還是按照一個"屬性"對應一個"值"的方式去理解。如果該屬性單元格位于屬性行中,則只考慮其rowspan的值。而如果該屬性單元格位于屬性列中,則只需考慮其colspan的值;對于二維表格(包括ULC為空或不為空的兩種情況),則需要分別考慮所在行或列中屬性單元格的colspan和rowspan的值對該值單元格相應值的約束。[0016]約束條件一:[0017]Cij.rowspanCil.rowspan[0018](1)[0019](2<j<Table,column,size())[0020]約束條件二:[0021]Cij.colspanClj.colspan[0022](2)[0023](2iTable,row.size())[0024]本發(fā)明的有益效果:確定Web表格結構是正確理解表格中數(shù)據(jù)間關系的關鍵,將直接影響到這類表格抽取結果的準確性。本發(fā)明總結出了兩種判斷表格結構的啟發(fā)式規(guī)則可對部分表格的結構進行快速地判斷。而在對未能被啟發(fā)式規(guī)則識別的表格進行字符串比對時,本發(fā)明根據(jù)表格的特點,選擇了ULC所在行或列中的單元格進行計算,從而減少了在進行表格結構識別時需要進行字符串匹配的次數(shù),和其他通過字符串匹配來識別表格結構的方法相比降低了計算量,以達到快速識別表格結構的目的。此外,針對兩種結構類型表格的抽取策略將會有效減少冗余數(shù)據(jù)的產(chǎn)生。【附圖說明】[0025]圖1常見的表格結構示例[0026]圖中:黑色區(qū)域為屬性單元格區(qū)域,白色區(qū)域為值單元格區(qū)域;(a)為非"屬性-值"類型表格,(b)為單向展開的一維表格,(c)為ULC為空的二維表格,(d)為ULC不為空的二維表格。[0027]圖2Web表格信息抽取流程[0028]圖3-維表格邏輯模型構建過程[0029]圖中:(a)為表1的抽象化模型,(b)為(a)中單元格對應的結構樹,(C)為表格數(shù)據(jù)的存儲效果。[0030]圖4二維表格邏輯模型構建過程[0031]圖中:(a)為抽象化的ULC為空的二維表格,(b)為通過屬性坐標表示的單元格,(c)為表格數(shù)據(jù)的存儲效果。[0032]圖5基于結構識別的Web表格信息的抽取方法的流程[0033]圖6表格標簽間的相互關系[0034]圖中:實線箭頭表示標簽間的嵌套關系,箭頭末端的標簽必須嵌套在所指向的標簽內使用;虛線箭頭表示同級標簽間標簽使用的先后次序關系,箭頭所指向的標簽通常在尾部當前第1頁1 2 
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
瑞昌市| 胶州市| 高碑店市| 霍林郭勒市| 南岸区| 婺源县| 诸暨市| 晋江市| 增城市| 农安县| 玛沁县| 九龙城区| 禹州市| 定西市| 镇雄县| 博野县| 鄂托克旗| 吉水县| 阳城县| 民乐县| 合肥市| 兰西县| 潍坊市| 错那县| 石狮市| 伊吾县| 马关县| 邵阳市| 丹棱县| 新兴县| 云梦县| 泰州市| 历史| 安陆市| 南宫市| 兴宁市| 宁蒗| 旬阳县| 醴陵市| 阜新| 南充市|