專利名稱:一種網(wǎng)頁特征自適應的信息抽取方法
技術領域:
本發(fā)明屬于信息抽取系統(tǒng)領域,具體涉及一種網(wǎng)頁特征自適應的信息抽取方法, 該方法尤其適用于從學術主頁中抽取作者名字,郵箱,機構信息和發(fā)表文章等信息。
背景技術:
信息時代的來臨使得網(wǎng)絡逐漸成為人們分享和獲取信息的主要途徑,各種信息以網(wǎng)頁的形式發(fā)布在互聯(lián)網(wǎng)上供人們閱讀。然而隨著互聯(lián)網(wǎng)信息的爆炸性增長,人們發(fā)現(xiàn)在互聯(lián)網(wǎng)中找到所需的信息變得越來越困難,一方面信息量巨大,另一方面信息呈現(xiàn)的方式非常靈活和自由,這增加了人們辨別目標信息的成本。因此,網(wǎng)頁信息抽取技術成為信息時代值得研究的領域。網(wǎng)頁信息抽取技術是從傳統(tǒng)的文本信息抽取上發(fā)展起來的。跟文本信息不同,網(wǎng)頁內容是用超文本標記語言(HTML)表述的,包含文本,圖片和其他多媒體信息,且標記之間允許相互嵌套形成樹狀的結構。網(wǎng)頁信息抽取任務的主要目的是從半結構化的網(wǎng)頁文本中抽取出目標信息。網(wǎng)頁信息通常具有如下特征(1)離散化,信息并不集中在某一站點, 而是由不同的人發(fā)布到不同的站點上。(2)異構性,即使是同類的信息在不同的網(wǎng)站上也會使用不同的方式呈現(xiàn)。(3)冗余性,相同的信息可能會在多個站點上重復出現(xiàn)。針對網(wǎng)頁信息的這些特征,網(wǎng)頁信息抽取系統(tǒng)需要能夠具有較強的適應能力和辨別能力。早期的網(wǎng)頁信息抽取研究集中探索了規(guī)則化方法,從基于正則表達式的腳本化抽取方法,到之后發(fā)展起來的專有的抽取語言,其核心思想是提取出包含目標信息的特定模式。模式的提取的方法是這類系統(tǒng)的主要不同,一些系統(tǒng)使用手工方式來提取模式,這樣的好處是提取的模式更加準確,不過在處理復雜抽取任務時需要提取模式將非常之多,因此人工成本較高。為了降低模式提取的成本,人們提出了基于自動訓練的模式學習系統(tǒng),系統(tǒng)需要接受一組訓練樣例,樣例由人工標識出其中的目標信息塊,學習系統(tǒng)自動的根據(jù)從樣例中總結出可能的匹配模式,模式經(jīng)過驗證和篩選后被用于實際的抽取任務。該方法具有了一定的自動提取能力,但是由于底層仍然依賴于規(guī)則化方法,因此對復雜的抽取任務無法達到較高的準確率。最近幾年來,抽取方法逐漸轉向于機器學習模型,一些原本在處理自然語言理解過程中的方法被應用來處理信息抽取問題,取得了很好的效果。學術主頁是學術領域內的研究人員用來展示自己個人基本信息和研究成果的站點。不同的作者根據(jù)自己的喜好制作不同的頁面模板呈現(xiàn)個人信息。盡管頁面風格各不相同,但是學術主頁上通常包含了類似的信息,如作者名字,機構信息,聯(lián)系方式,項目,文章信息等。使用信息抽取系統(tǒng)將這些信息收集起來是十分有價值的。
發(fā)明內容
本發(fā)明的目的是提供一種網(wǎng)頁特征自適應的信息抽取方法,該方法能夠從不同風格的學術主頁中提取所需的信息,并且具有適應能力強,準確率高,以及擴展性強特點。本發(fā)明提供的一種網(wǎng)頁特征自適應的信息抽取方法,其特征在于,該方法包括下述步驟第1步從互聯(lián)網(wǎng)中搜尋類型為學術主頁的站點;第2步對搜尋的學術主頁進行分析,將學術主頁的頁面看成是二元組(L,C)的集合,其中L是鏈接的URL,C是鏈接的上下文,再檢查L和C中是否包含關鍵字,如果包含,則進入第3步,否則過濾掉該鏈接;第3步對所述鏈接進行分析,得到頁面的文檔樹結構,根據(jù)樹節(jié)點的屬性和內容對頁面進行劃分,分成文本單元T,構成文本單元集合IT1, T2, ... , TJ第4步從文本單元集合IT1, T2, ... , TJ中抽取出作者名字N,郵箱M,機構信息U 和文章信息集合{P1; P2,... , PJ這四個目標字段,作為初步抽取結果;第5步對第4步得到的初步抽取結果進行關聯(lián)分析,利用信息的關聯(lián)性消除歧義, 對缺失字段進行補全,得到抽取結果,存至結果數(shù)據(jù)庫中;第6步將文章信息集合{P1; P2, ... , PJ中的元素與結果數(shù)據(jù)庫中的記錄進行匹配,消除冗余數(shù)據(jù);第7步輸出抽取結果。本發(fā)明提供的一種網(wǎng)頁特征自適應的信息抽取方法,該方法結合使用了機器學習算法,概率模型和規(guī)則化方法,能夠從不同風格的學術主頁中提取出作者的名字,郵箱,機構信息和發(fā)表文章等信息。具體而言,本發(fā)明有以下效果和優(yōu)點(1)適應性強學術主頁的編寫者是許多不同的研究者,內容和排版各式各樣。本發(fā)明能夠很好的解決頁面格式不統(tǒng)一的的問題,自動的適應各種變化情況;⑵準確度高本發(fā)明的核心算法基于機器學習算法和概率模型,并結合使用了啟發(fā)式規(guī)則,對各個目標字段的抽取都能夠達到很高的準確率;(3)可擴展性強本發(fā)明能夠被擴展來提取出頁面中的其他字段,其識別過程也能夠被應用來解決其他類似問題,擴展過程簡單,通用性強。
圖1為本發(fā)明的抽取過程的整體流程圖;圖2為本發(fā)明對作者名進行抽取的流程圖;圖3為本發(fā)明對郵箱進行抽取的流程圖;圖4為本發(fā)明對機構信息進行抽取的流程圖;圖5為本發(fā)明對文章信息進行抽取的流程圖。
具體實施例方式下面結合附圖和實例對本發(fā)明進行詳細說明。本發(fā)明提供的一種網(wǎng)頁特征自適應的信息抽取方法,其步驟包括(1)從互聯(lián)網(wǎng)中搜尋類型為學術主頁的站點,該過程可以分為兩個階段尋找階段和判定階段。
在尋找階段,首先從已有的文獻數(shù)據(jù)中導出作者名字的數(shù)據(jù)集作為種子數(shù)據(jù),然后以數(shù)據(jù)集中的每一個作者名作為關鍵字在搜索引擎中進行檢索,搜索引擎以列表形式返回檢索結果,每一條檢索結果通常由標題,鏈接特征和一小段摘要文本組成,搜索引擎通常會返回多頁結果,將第一頁的檢索結果的鏈接特征和摘要文本存放在候選結果列表中。在判定階段,首先根據(jù)鏈接特征和摘要文本對候選結果列表中的檢索結果進行過濾。過濾過程中用到了一個數(shù)據(jù)庫,該數(shù)據(jù)庫包含了檢索結果中經(jīng)常出現(xiàn)的混淆站點,稱之為屏蔽鏈接數(shù)據(jù)庫。過濾策略包含兩個步驟,首先檢查檢索結果是否存在于屏蔽鏈接數(shù)據(jù)庫中,將位于該數(shù)據(jù)庫中的檢索結果直接排除。然后,對剩余的檢索結果,檢查其鏈接特征是否呈現(xiàn)為“ ” +作者名字的模式,如果是則保留,否則則直接排除,經(jīng)過這兩步過濾之再依次對剩余的每一條檢索結果進行如下操作根據(jù)其鏈接特征發(fā)出頁面請求,使用支持向量機分類算法判定返回的頁面是否是作者學術主頁,如果是,則直接將其保存為作者學術主頁,判定結束,否則繼續(xù)對下一條檢索結果進行相同的操作。(2)對作者學術主頁進行分析,作者學術主頁通常是一個完整的站點,包含了許多子頁面,其中有些包含了系統(tǒng)需要的目標信息,有些則是完全無關的。為了提高爬取效率, 避免過多的無用頁面被后續(xù)模塊進行深入解析,消耗計算資源,本發(fā)明使用了一種基于啟發(fā)式策略的過濾算法。該算法將頁面看成是二元組(L,C)的集合,其中L是鏈接的URL,C 是鏈接的上下文,該算法檢查L和C中是否包含publication,paper, research等關鍵字, 如果包含則進一步解析該鏈接(進入步驟(3)),否則過濾掉該鏈接。(3)對待解析頁面進行分析,得到網(wǎng)頁的文檔樹結構,根據(jù)文檔樹節(jié)點的屬性和內容對頁面進行劃分,分成若干個小單元,稱之為文本單元T,劃分結果為文本單元集合IT1, T2, ... , TJ,步驟如下。(a)首先使用HTML解析器對頁面進行解析,得到頁面的文檔樹。文檔樹的節(jié)點即對應于頁面里的HTML標簽,文檔樹以樹形結構展現(xiàn)出頁面里各個HTML標簽之間的關系。(b)然后對頁面進行劃分。HTML標簽可以分為塊級元素和內聯(lián)元素,常見的塊級元素如 BR,DIV, Hl,H2,Li, UL, TH, TD, TR, TABLE 等,常見的內聯(lián)元素如 SPAN,BOLD, A, FONT, IMG等。HTML頁面可以被看做是塊級元素的集合,塊級元素之間擁有兩種關系父子關系和兄弟關系。塊級元素和內聯(lián)元素之間可以相互嵌套。文檔樹就是以樹節(jié)點的形式呈現(xiàn)出這些關系,文檔樹中含有塊級元素的節(jié)點稱為塊級節(jié)點,其他節(jié)點稱為非塊級節(jié)點,對文檔樹的節(jié)點進行遍歷,通過判斷節(jié)點的類別來對頁面進行劃分,劃分步驟如下(bl)初始,文本單元集合為空;(b2)對文檔樹進行深度優(yōu)先遍歷,找出所有的塊級節(jié)點,對每一個塊級節(jié)點Ni, 生成一個文本單元Ti,并將Ni在頁面中相應的內容劃分至Ti ;(b3)對每一個塊級子節(jié)點Ni,判斷其在文檔樹中是否有非塊級子節(jié)點,如果有則將其所有非塊級子節(jié)點在頁面中相應的內容劃分至Ti ;(b4)將Ti加入文本單元集合中;(b5)結束。(c)遍歷結束后,完成頁面的劃分,得到文本單元集合IT1, T2, ... , TJ。(4)從文本單元集合IT1, T2, ... , TJ中抽取出作者名字N,郵箱M,機構信息U和文章信息集合{P1; P2,... , PJ這四個目標字段,作為初步抽取結果;
針對不同類型的目標字段,下面分別介紹不同字段的抽取方法作者名字N的抽取過程如圖2所示,其基本步驟如下(al)使用支持向量機分類算法對文本單元集合IT1, T2, ... , Tj里的文本單元進行分類,保留類別為作者名字的文本單元集合Tnanre ;(a2)使用作者名字數(shù)據(jù)庫從Tn_中匹配出作者名字部分,作者名字數(shù)據(jù)庫是一個事先準備好的數(shù)據(jù)庫,該數(shù)據(jù)庫收集和整理了常見的英文男女人名和一些中文拼音,使用該數(shù)據(jù)庫從Τη_中匹配出候選的作者名字集合;(a3)提取出作者學術主頁標題中的文字,大多數(shù)時候作者學術主頁的標題會以 “XXX’ S Hompage”的形式包含作者的名字XXX,提取作者學術主頁標題中的作者名字XXX;(a4)用(a3)得到的作者名字XXX對(a2)得到的候選作者名字進行匹配,選擇與 XXX匹配程度最高的名字作為作者名字N輸出。郵箱M的抽取過程如圖3所示,其基本步驟如下(bl)首先使用支持向量機分類器從文本單元集合IT1, T2, ... , TJ中找出可能的郵箱候選文本單元集合TEmail。支持向量機的輸入特征包括郵箱信息中的常見符號,如 “Email”,“@”,“.”等。在TEmail中尋找這些特征符號,生成特征向量。支持向量機算法根據(jù)特征向量對TEmail中郵箱候選文本單元進行判定,如果分類結果為肯定,則進行(b2)處理, 否則直接過濾掉。(b2)去掉郵箱候選文本單元中多余的部分,如提示性前綴“Email ”,去除這些信息有利于后續(xù)步驟獲得合法的郵箱信息。(b3)接下來采用模糊匹配狀態(tài)機算法對郵箱候選文本單元進行匹配,一個標準的郵箱有如下字段用戶名提供商域名.)+.頂級域名。該算法為每一個字段建立一個匹配節(jié)點,使用狀態(tài)機枚舉可能的匹配形式,生成許多不同的匹配結果,通常有幾十個。(b4)將郵箱候選文本單元的各個字段和匹配結果進行比對,選取匹配程度最大的結果作為最終結果,并按照標準的郵箱字段將其轉換為規(guī)范的合法郵箱格式輸出。機構信息U的抽取過程如圖4所示,其基本步驟如下(Cl)首先從互聯(lián)網(wǎng)上收集全球大學和研究所的數(shù)據(jù),包括機構的名字和其對應的主頁鏈接,建立一個機構主頁數(shù)據(jù)庫。為數(shù)據(jù)庫建立倒排索引。倒排索引支持快速的關鍵字查找,能夠快速確定包含一組關鍵字的條目。(c2)使用支持向量機分類器從文本單元集合IT1, T2, ... , TJ中找出可能的機構信息文本單元集合Tu,將Tu中的機構信息文本單元轉換為文本形式,將其作為關鍵字在索引中查找,取得排名前三的檢索結果。將前三個檢索結果和相應的機構信息文本單元進行模糊匹配,如果能夠匹配上則確定該文本是對應該機構的,將匹配程度最高的匹配結果輸出,否則如果均無法匹配上,則轉(C3)處理。(c3)利用主頁的URL進行尋找,學術站點通常是機構站點的子站點,因此將主頁的域名與機構主頁數(shù)據(jù)庫進行匹配,如果存在匹配的記錄,則認為作者屬于該所機構,將匹配的記錄作為結果輸出。文章信息{P1; P2, ... , PJ的抽取的過程如圖5所示,其基本步驟如下(a)首先使用支持向量機分類算法對文本單元進行分類,篩選出可能包含文章信息的文本單元。分類算法的準確率與文章信息的最終識別準確率關系密切,分類算法需要過濾掉課程信息,專利,項目等容易發(fā)生混淆的相似信息。分類算法的準確率主要依賴于兩個方面訓練樣例和特征的選取。訓練樣例的構建按照迭代法,通過不斷的將錯誤樣例添加到訓練集中來更正原有模型。特征向量由一組具有區(qū)分能力的詞匯向量構成。經(jīng)過分類算法的篩選,無關的文本單元被排除掉,得到候選文章信息文本單元。(b)然后對候選文章信息文本單元進行序列標注,提取候選文本中各個子字段,包括作者名字,標題,會議期刊名,年份。序列標注的算法基于條件隨機場模型,模型中用了下列特征①文本類特征a)詞條本身,包括原始形式和詞根形式b)大小寫特征,包括首字母大寫,全大寫,單個大寫字母c)數(shù)字特征,全數(shù)字,數(shù)字和字母的混合,羅馬字母d)標點特征,逗號,引號,句號等e) HTML標簽特征,標簽起始,中間部分和結束部分②模式特征a)年份特征,19XX或者20XXb)頁模式,XXX-XXX③詞典特征 作者名字,地理位置,出版社,時間,會議期刊名,機構名④術語特征文獻數(shù)據(jù)中常用的詞匯,如pp/editor/volume等從候選文章信息文本單元中提取出上述特征,條件隨機場模型中的特征函數(shù)使用真值形式,即函數(shù)輸出是或者否。經(jīng)過模型的計算,給出候選文章信息文本單元的最可能的標注形式。具有相同標簽的符號會被合并成相應的子字段,如作者名字字段,標題字段,會議期刊字段,年份字段等,然后分別對這些字段進行相應的后續(xù)處理。(C)作者名字段包含了整個作者列表,需要分割成單個作者的形式。分割算法基于啟發(fā)式規(guī)則,主要依據(jù)與名字的長度,縮寫形式以及標點符號。分割后的結果被保存在數(shù)組中。標題字段需要經(jīng)過規(guī)范化裁剪才能作為最終的結果。裁剪的主要目的是為了去除掉前綴和后綴的非法字符,比如標點符號,邊界錯誤等。會議期刊名在實際中存在多種表達方式,如大寫字母的縮寫和常見的習慣稱呼等。直接提取的會議期刊字段不能作為最終的結果,需要和數(shù)據(jù)庫中的進行匹配。文獻期刊數(shù)據(jù)庫收集了常見的會議和期刊名以及相應的縮寫形式。首先提取出待識別字段中大寫字母縮寫部分,在數(shù)據(jù)庫中進行查找,如果匹配則將匹配的全稱與輸入字段進行模糊匹配, 防止縮寫形式?jīng)_突的情況導致的錯誤。若匹配則直接輸出結果。否則為會議期刊名建立索弓丨,將待匹配字段在索引中進行檢索,將檢索結果與待匹配字段做模糊匹配。若找到匹配則輸出結果。年份字段使用規(guī)則化方法,使用正則表達式在輸入文本中尋找合法的年份模式。 合法年份模式有兩種形式第一種以19或者20開始,并且為四位數(shù)字;第二種以會議期刊名字的大寫字母縮寫形式開始,接著引號和年份。使用這兩種模式能夠處理實際中的絕大部分情況,識別準確率超過百分之九十九。(5)對步驟(4)得到的初步抽取結果(包括作者名字N,郵箱M,機構信息U和文章信息集合{P” P2, ...,PnD進行缺失字段補全和歧義消除,得到最終的抽取結果,存至結果數(shù)據(jù)庫中。實際頁面中包含的信息可能存在一定程度的缺失和不規(guī)范的情況,對相同信息項可能識別出多個結果需要進一步判定。該過程利用信息之間的關聯(lián)關系,對抽取結果進行補全,對存在歧義的結果進行進一步判定。信息關聯(lián)包含如下情況(a)作者名和郵箱用戶名之間的關聯(lián);(b)機構信息與主頁域名之間的關聯(lián);(c)作者名和文章信息中作者列表的關聯(lián);根據(jù)上述關聯(lián),可以對抽取結果進行補全,如當機構信息存在缺失時,可以將主頁鏈接在數(shù)據(jù)庫中進行查詢,獲得對應的機構信息。在信息的歧義消除方面,當存在多個郵箱時,可以利用作者名和用戶名之間的對應關系,排除掉錯誤的結果。(6)將文章信息集合{P1; P2, ... , PJ中的元素與結果數(shù)據(jù)庫中的記錄進行匹配, 消除冗余數(shù)據(jù)。雖然經(jīng)過關聯(lián)分析之后,抽取過程就已經(jīng)完成,但是結果中可能存在重復的冗余信息。本步驟將抽取結果與結果數(shù)據(jù)庫中的記錄進行匹配。當找到匹配結果時,將兩者進行模糊比對,如果結果數(shù)據(jù)庫中的記錄存在相關字段的缺失,則對該字段進行補全。如果在結果數(shù)據(jù)庫中沒有找到匹配結果,則將抽取結果添加到結果數(shù)據(jù)庫中。(7)輸出抽取結果。實例以從學術主頁http://www. cs. uiuc. edu/ hani/中抽取信息的過程為例,首先使用Jiawei Han作為搜索關鍵字在搜索引擎中進行檢索,首先根據(jù)屏蔽數(shù)據(jù)庫的,排除掉 Wikipedia和DBLP的結果,然后選取排名前三的結果發(fā)出頁面請求,經(jīng)過分類器判定,選擇第一個搜索結果即為該作者的學術主頁。使用HTML解析器對頁面進行解析,獲取其中的子鏈接,根據(jù)鏈接關鍵字和上下文選定如下子頁面進一步分析http://www. cs. uiuc. edu/homes/hanj/pubs/index, htmhttps://agora, cs. illinois. edu/display/cs591han/Research+Publications+ -+Data+Mining+Researc h+Group+at+CS% 2C+UIUC對每一個待分析的頁面進行文本單元的劃分,以首頁的頁面為例,得到如下結果"Jiawei Han"
"Professor, Department of Computer Science" "Univ. of Illinois at Urbana-Champaign" "E-mail: hanj [at]cs.uiuc.edu"
"Peixiang Zhao, Xiaolei Li, Dong Xin, and Jiawei Han, Graph Cube: On Warehousing and OLAP
Multidimensional Networks, Proc. of 2011 ACM SIGMOD Int. Conf. on Management of Data
(SIGMOD'll), Athens, Greece, June 2011"使用支持向量機對上述文本單元進行分類,分別判定為作者名字,無關數(shù)據(jù),大學信息,郵箱,文章信息。根據(jù)判定的類別按照不同的提取流程進行進一步的提取,無關數(shù)據(jù)則直接放棄。作者名字的提取過程分別找到主頁標題部分(Jiawei Han),正文中的作者名字 (Jiawei Han),以及文章信息中包含的作者名字(Jiawei Han, Xiaofei He,Deng Cai),經(jīng)過交叉匹配,確定Jiawei Han為最終的結果。郵箱信息的提取首先去掉前綴部分(E-mail)之后使用模糊匹配自動機枚舉所有可能的郵箱匹配結果,如Hanj (用戶名)at 分隔符)cs (域名)·(點)uiuc (域名)·(點)edu (域名)按照匹配的符合程度對結果進行評分,選取最優(yōu)結果作為郵箱的合法形式,之后轉換為合法形式輸出。機構信息的提取過程將被分類為機構信息的文本單元在機構索引中進行檢索,在本例中以“Univ. of Illinois at Urbana-Champaign”為關鍵字進行檢索,得到的檢索結果中第一條記錄即為“University of Illinois at Urbana-Champaign”,經(jīng)過模糊匹配判定兩者相符,因此可以直接輸出結果。文章信息需要使用序列標注算法對文章信息進行標注,識別出其中的作者名,比如對于前面找到的文章信息,將其標注為如下形式〈作者〉PeixiangZhao, Xiaolei Li, Dong Xin, and Jiawei Han, </作者 X 標 H >Gfaph Cube :0n Warehousing and OLAP Multidimensional Networks,</豐示H >< H >Proc. of 2011 ACM SIGMOD Int. Conf. on Management of Data(SIGM0D' 11),</會議 X 地點 >Athens, Greece, </ 地點 X 時間 >June 2011</ 時間 >將各個子字段分別識別出來即完成了文章信息的識別過程。之后根據(jù)信息之間的相關關聯(lián)對存在缺失和歧義的結果進行補全和判定,將結果與結果數(shù)據(jù)庫進行合并。本發(fā)明不僅局限于上述具體實施方式
,本領域一般技術人員根據(jù)本發(fā)明公開的內容,可以采用其它多種具體實施方式
實施本發(fā)明,因此,凡是采用本發(fā)明的設計結構和思路,做一些簡單的變化或更改的設計,都落入本發(fā)明保護的范圍。
權利要求
1.一種網(wǎng)頁特征自適應的信息抽取方法,其特征在于,該方法包括下述步驟 第1步從互聯(lián)網(wǎng)中搜尋類型為學術主頁的站點;第2步對搜尋的學術主頁進行分析,將學術主頁的頁面看成是二元組(L,C)的集合,其中L是鏈接的URL,C是鏈接的上下文,再檢查L和C中是否包含關鍵字,如果包含,則進入第3步,否則過濾掉該鏈接;第3步對所述鏈接進行分析,得到頁面的文檔樹結構,根據(jù)樹節(jié)點的屬性和內容對頁面進行劃分,分成文本單元T,構成文本單元集合IT1, T2, ... , TJ第4步從文本單元集合IT1, T2,. . .,TJ中抽取出作者名字N,郵箱Μ,機構信息U和文章信息集合{P” P2, ...,PJ這四個目標字段,作為初步抽取結果;第5步對第4步得到的初步抽取結果進行關聯(lián)分析,利用信息的關聯(lián)性消除歧義,對缺失字段進行補全,得到抽取結果,存至結果數(shù)據(jù)庫中;第6步將文章信息集合{P” P2, ... , PJ中的元素與結果數(shù)據(jù)庫中的記錄進行匹配,消除冗余數(shù)據(jù);第7步輸出抽取結果。
2.根據(jù)權利要求1所述的信息抽取方法,其特征在于,第1步分為兩個階段尋找階段和判定階段;在尋找階段,首先從已有的文獻數(shù)據(jù)中導出作者名字的數(shù)據(jù)集作為種子數(shù)據(jù),然后以數(shù)據(jù)集中的每一個作者名作為關鍵字在搜索引擎中進行檢索,搜索引擎以列表形式返回檢索結果,每一條檢索結果由標題,鏈接特征和摘要文本組成,并將返回結果中的第一頁的檢索結果的鏈接特征和摘要文本存放在候選結果列表中;在判定階段,首先根據(jù)檢索結果的鏈接特征和摘要文本對候選結果列表按下述方式進行過濾,首先檢查鏈接是否存在于屏蔽鏈接數(shù)據(jù)庫中,將位于該數(shù)據(jù)庫中的結果直接排除, 然后,對剩余的檢索結果,檢查其鏈接特征是否呈現(xiàn)為“ ” +作者名字的模式,如果是則保留,否則則直接排除,經(jīng)過這兩步過濾之再依次對剩余的每一條檢索結果進行如下操作根據(jù)其鏈接特征發(fā)出頁面請求,使用支持向量機分類算法判定返回的頁面是否是作者學術主頁,如果是,則直接將其保存為作者學術主頁,判定結束,否則繼續(xù)對下一條檢索結果進行相同的操作。
3.根據(jù)權利要求1所述的信息抽取方法,其特征在于,步驟(3)包括下述過程(3. 1)首先使用HTML解析器對頁面進行解析,得到頁面的文檔樹,文檔樹的節(jié)點即對應于頁面里的HTML標簽,文檔樹以樹形結構展現(xiàn)出頁面里各個HTML標簽之間的關系; (3. 2)然后對頁面進行劃分,得到文本單元集合IT1, T2, ... , TJ。
4.根據(jù)權利要求3所述的信息抽取方法,其特征在于,步驟(3.2)按下述過程對頁面進行劃分(bl)初始,文本單元集合為空;(b2)對文檔樹進行深度優(yōu)先遍歷,找出所有的塊級節(jié)點,對每一個塊級節(jié)點Ni,生成一個文本單元Ti,并將Ni在頁面中相應的內容劃分至Ti ;(b3)對每一個塊級子節(jié)點Ni,判斷其在文檔樹中是否有非塊級子節(jié)點,如果有則將其所有非塊級子節(jié)點在頁面中相應的內容劃分至Ti ; (b4)將Ti加入文本單元集合中;(b5)結束。
全文摘要
本發(fā)明公開了一種從學術主頁中抽取信息的方法,其步驟為(1)在互聯(lián)網(wǎng)中發(fā)現(xiàn)學術主頁;(2)對學術主頁進行爬取和解析,使用啟發(fā)式策略減少無關頁面的爬取,加快解析速度;(3)將頁面解析成DOM樹的形式,并按照元素的屬性和內容進行劃分,得到內聚的文本單元列表;(4)使用信息識別器對文本單元進行識別,每種信息識別器只識別一種信息類型,對于文章信息還需要進行子字段提取。(5)對抽取結果進行關聯(lián)分析,利用信息的關聯(lián)性消除歧義,對缺失字段進行補全;(6)將抽取結果與數(shù)據(jù)庫進行匹配,消除冗余數(shù)據(jù),抽取結果以語義數(shù)據(jù)的形式保存在語義數(shù)據(jù)庫中。本發(fā)明通過結合使用啟發(fā)式規(guī)則,機器學習方法和條件概率模型能夠高效準確的從學術主頁中抽取學術信息。
文檔編號G06F17/30GK102254014SQ20111020513
公開日2011年11月23日 申請日期2011年7月21日 優(yōu)先權日2011年7月21日
發(fā)明者嚴奉偉, 李毅, 趙峰, 金海 申請人:華中科技大學