一種用于Web對象信息抽取的增強約束條件隨機場模型的制作方法
【專利摘要】本發(fā)明揭示了一種用于Web對象信息抽取的增強約束條件隨機場模型。所述模型包括將約束條件引入模型推理過程,利用最大間隔理論增強訓(xùn)練約束模型,并將模型應(yīng)用于Web對象信息抽取領(lǐng)域。本發(fā)明通過將約束條件引入模型的推理過程,改進線性鏈條件隨機場模型的維特比(Viterbi)算法,然后運用最大間隔理論的思想訓(xùn)練條件隨機場模型,可以很好的完成混合網(wǎng)站的屬性標注,并且能夠很容易的添加訓(xùn)練樣本,從而擁有能夠?qū)崿F(xiàn)多個混合網(wǎng)站的屬性標注的能力,而且可在提高標注正確率的基礎(chǔ)上有效地解決Web對象信息抽取問題。
【專利說明】一種用于Web對象信息抽取的增強約束條件隨機場模型
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及網(wǎng)頁信息抽取領(lǐng)域,特別涉及一種用于Web對象信息抽取的增強約束條件隨機場模型。
【【背景技術(shù)】】
[0002]互聯(lián)網(wǎng)是全球規(guī)模最大、門類最全的信息共享平臺,它涵蓋了各個領(lǐng)域的大量有價值的信息。信息抽取技術(shù)的本質(zhì)是從網(wǎng)頁的半結(jié)構(gòu)或無結(jié)構(gòu)的信息中抽取出用戶感興趣的信息,并將其轉(zhuǎn)化為結(jié)構(gòu)更加合理、語義更加清晰的格式。比如可以從美食餐飲網(wǎng)頁中抽取飯店的名字、地址、電話、平均消費等信息,并將這些信息以結(jié)構(gòu)化的方式存儲到數(shù)據(jù)庫中,進而滿足人們對美食領(lǐng)域相關(guān)信息的搜索需求。
[0003]近年來,統(tǒng)計學(xué)習(xí)(又稱統(tǒng)計機器學(xué)習(xí))方法成為信息抽取領(lǐng)域中常用的方法,主要的統(tǒng)計模型有隱馬爾可夫模型(Hidden Markov Models, HMM)、最大熵模型MaximumEntropy, ME)、條件隨機場模型(Conditional Random Fields, CRFs)等。
[0004]不幸的是,隱馬爾可夫模型可用來描述一個隱含未知參數(shù)的馬爾可夫過程,但它具有產(chǎn)生式模型的局限性,不能反映訓(xùn)練數(shù)據(jù)本身的特性。最大熵模型(中每個狀態(tài)都有一個指數(shù)模型作為下一個狀態(tài)的條件概率,但存在標簽偏置問題。條件隨機場模型在處理序列數(shù)據(jù)分割與標注問題上顯示出了良好的性能。與CRFs相比,層次條件隨機場模型(Hierarchical Con ditional Random Fields,HCRFs)能更好的適應(yīng)網(wǎng)頁數(shù)據(jù)的層次結(jié)構(gòu)。但是,該模型對Web對象元素之間的條件依賴關(guān)系沒有良好的適應(yīng)。約束條件隨機場模型(Constrained Conditional Random Fields,CCRFs),將某些類型的約束條件引入條件隨機場中,但是這些約束僅限于強制標注某些特定的數(shù)據(jù)元素是否為某些特定標簽,不能充分的利用Web數(shù)據(jù)元素和標注屬性之間強烈的特征關(guān)系。
【
【發(fā)明內(nèi)容】
】
[0005]為了克服上述現(xiàn)有的統(tǒng)計模型存在的不足,本發(fā)明一種用于Web信息抽取的增強約束條件隨機場模型,能夠改進一般現(xiàn)有的統(tǒng)計模型的不足,使其能有效地解決Web對象/[目息抽取問題。
[0006]本發(fā)明的目的在于提供一種用于Web信息抽取的增強約束條件隨機場模型,準確地求出標注序列的概率分布,并利用概率分布的計算結(jié)果得到輸出序列,提高Web信息屬性標注的正確率。
[0007]為了達到本發(fā)明的目的,根據(jù)本發(fā)明的一個方面,本發(fā)明提供一種增強約束條件隨機場模型,該模型將可信約束條件c引入條件隨機場形成約束條件隨機場,并利用增強因子b對約束條件隨機場進行增強,計算出標注序列Y的概率分布P (Y I X,c)。
[0008]在給定觀測序列X=(X1;X2,...,Xn)和約束c的條件下,標注序列為Y=(Y1;Y2,...,Yn)的正確率測度Α(y,乙)表示狀態(tài)標注序列Y中標注正確的元素個數(shù),可通過計算每個元素正確率Ai (Y)之和而得到,Ai(Y)表示為:
【權(quán)利要求】
1.一種用于Web對象信息抽取的增強約束條件隨機場模型,其特征在于,所述方法包括: 給定一個線性鏈條件隨機場G= (X,Y),X是觀測序列隨機變量,Y是狀態(tài)標注序列隨機變量,將可信約束條件c引入條件隨機場形成約束條件隨機場,使用最大似然參數(shù)估計方法來對模型進行訓(xùn)練,通過對狀態(tài)標注序列與正確序列比較后的正確率測度A (Y,Yr)以及增強因子b對約束條件隨機場進行增強,計算出標注序列Y的概率分布P (Y IX,c); 計算出標注序列Y的概率分布后,將可信約束條件c引入條件隨機場的Viterbi推理過程,根據(jù)約束條件c約束一些特定的數(shù)據(jù)元素取某些指定的屬性標簽,以提高Web數(shù)據(jù)屬性標注的性能。
2.根據(jù)權(quán)利要求1所述的計算標注序列Y的概率分布,在下列公式我們引入線性鏈條件隨機場的概率分布:
3.根據(jù)權(quán)利要求2所述的概率分布的計算,對所述的歸一化因子Z(Xpc)的計算,其特征在于,所述方法中,Z(Xpc)可以在所有可能的輸出序列Y上求和的基礎(chǔ)上,引入約束條件、增強因子和正確率測度得到,即
【文檔編號】G06F17/30GK103870596SQ201410126652
【公開日】2014年6月18日 申請日期:2014年3月31日 優(yōu)先權(quán)日:2014年3月31日
【發(fā)明者】梁久禎, 黃彥姣 申請人:江南大學(xué)