專利名稱:一種分類模型建模方法、中文跨文本指代消解方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請屬于文本處理技術(shù)領(lǐng)域,尤其涉及一種分類模型建模方法、中文跨文本指代消解方法和系統(tǒng)。
背景技術(shù):
跨文本指代消解可以將分布在不同文本但指向同一實體的名稱合并起來,形成一條跨文本指代鏈。但由于不同實體具有相同名稱,并且同一實體具有不同名稱,所以跨文本指代消解需要解決重名消歧和多名聚合的問題。其中,重名消歧是指將相同名稱的不同實體區(qū)分開來,如名稱“布什”既可表示美國第43任總統(tǒng)喬治.W.布什,也可表示美國第41任總統(tǒng)喬治.H.W.布什,在對不同文本進(jìn)行跨文本指代消解時,則需要將兩個指代不同總統(tǒng)的名稱“布什”分開。多名聚合是指將指向同一實體的不同名稱合并起來,如“北韓”與“朝鮮”都表示同一個實體“朝鮮人民民主主義共和國”,在對不同文本進(jìn)行跨文本指代消解時,則需要將“北韓”與“朝鮮”合并。傳統(tǒng)的跨文本指代消解主要面向信息檢索,如在搜索引擎中搜索某一人名、機(jī)構(gòu)名或地名時,將檢索到的Web網(wǎng)頁中具有相同名稱的不同實體區(qū)分開來,這種面向信息檢索的跨文本指代消解解決跨文本指代消解中的重名消歧問題。然而隨著信息抽取技術(shù)的日漸成熟,面向信息抽取的跨文本指代消解得到了廣泛的重視。與面向信息檢索的跨文本指代消解不同的是,面向信息抽取的跨文本指代消解需要著重于多名聚合問題,即將同一實體的不同名稱合并起來,以將不同文本中的同一實體的信息融合起來。目前面向信息檢索的跨文本指代消解通常采用基于聚類的無監(jiān)督方法,該基于聚類的無監(jiān)督方法通過計算實體名稱間相似度,然后利用分層聚類等方法來區(qū)分不同的實體。由于該方法僅通過計算實體名稱間相似度進(jìn)行跨文本指代消解,而影響跨文本指代消解的多名聚合問題的因素很多,所以導(dǎo)致得出的跨文本指代鏈的精準(zhǔn)度不高。
發(fā)明內(nèi)容
有鑒于此,本申請的目的在于提供一種分類模型建模方法,在執(zhí)行分類模型建模過程中,獲取每個實體表述對的特征項中基于外部資源的語義特征,該基于外部資源的語義特征可以充分利用各種外部資源,并挖掘?qū)嶓w表述對所具有的實際含義,從而提高分類模型的準(zhǔn)確度。本申請還提供一種中文跨文本指代消解方法,以解決現(xiàn)有技術(shù)中僅通過計算實體名稱間相似度進(jìn)行跨文本指代消解導(dǎo)致跨文本指代鏈的精準(zhǔn)度不高的問題。本申請還提供了一種分類模型建模裝置和中文跨文本指代消解裝置,用以保證上述方法在實際中的實現(xiàn)及應(yīng)用。基于本申請的一方面,本申請?zhí)峁┮环N分類模型建模方法,包括:獲取已標(biāo)注出中文跨文本指代鏈的訓(xùn)練文本集;從所述訓(xùn)練文本集中選取實體表述對;
獲取每個所述實體表述對的特征項,其中所述特征項包括基于外部資源的語義特征;將包括在所述中文跨文本指代鏈中的所述實體表述對確定為正訓(xùn)練實例,將未包括在所述中文跨文本指代鏈中的所述實體表述對確定為負(fù)訓(xùn)練實例,將每個所述正訓(xùn)練實例的特征項和每個所述負(fù)訓(xùn)練實例的特征項分別加載到支持向量機(jī)的建模工具中,得到分類模型。優(yōu)選地,所述基于外部資源的語義特征包括搜索引擎特征、維基百科特征和詞林編碼特征中的至少一種特征;獲取每個所述實體表述對的特征項包括獲取每個所述實體表述對的搜索引擎特征、維基百科特征和詞林編碼特征中的至少一種特征。
優(yōu)選地,獲取所述實體表述對的搜索引擎特征包括:獲取實體表述對中每一個實
體表述與所述實體表述的文本內(nèi)共現(xiàn)實體表述的共現(xiàn)權(quán)值= & +h,其中Nik為
實體表述ei與共現(xiàn)實體表述ceik在網(wǎng)絡(luò)上共同出現(xiàn)的文檔數(shù)量,Ni為實體表述ei在網(wǎng)絡(luò)上出現(xiàn)的文檔數(shù)量,Nk為共現(xiàn)實體表述ceik在網(wǎng)絡(luò)上出現(xiàn)的文檔數(shù)量;計算所述實體表述對中兩個所述實體表述的語義相似度
—W丨>:得出實體表述對的搜索弓丨擎特征,其中_為實體表述e,對
應(yīng)的權(quán)值向量的模,Wik為實體表述ceik 相對于ei的共現(xiàn)權(quán)值I# I為實體表述&對應(yīng)的權(quán)
值向量的模,Wjk為實體表述cejk相對于e」的共現(xiàn)權(quán)值。優(yōu)選地,獲取所述實體表述對的維基百科特征包括:將實體表述對中每一個實體表述分別作為維基百科中的錨點文本;獲取每個所述錨點文本鏈接到維基百科頁面Pik的頻度Cik ;
C βζ計算所述實體表述對中兩個實體表述的相似度Σ得出實
Pit=Pfi L i L-J
體表述對的維基百科特征,其中Pl為實體表述ei對應(yīng)的頻度向量的模,Cik為實體表述ei
鏈到維基頁面Pik的頻度PI為實體表述a對應(yīng)的頻度向量的模,cJk為實體表述a鏈到維基頁面Pu的頻度。優(yōu)選地,獲取所述實體表述對的詞林編碼特征包括:獲取所述實體表述對中兩個實體表述在同義詞詞林中的編碼,并將兩個編碼的比較結(jié)果作為所述實體表述對的詞林編碼特征。優(yōu)選地,所述特征項還包括:詞形特征、語音特征和文本內(nèi)特征中的至少一種特征;獲取每個所述實體表述對的特征項還包括獲取每個所述實體表述對的詞形特征、語音特征和文本內(nèi)特征中的至少一種特征。優(yōu)選地,獲取所述實體表述對的詞形特征包括:
將所述實體表述對中的兩個實體表述劃分為由一元字符所組成的集合Sil和Sjl,
計算集合Sil和Sjl之間的一元相似度系數(shù)
權(quán)利要求
1.一種分類模型建模方法,其特征在于,包括: 獲取已標(biāo)注出中文跨文本指代鏈的訓(xùn)練文本集; 從所述訓(xùn)練文本集中選取實體表述對;獲取每個所述實體表述對的特征項,其中所述特征項包括基于外部資源的語義特征;將包括在所述中文跨文本指代鏈中的所述實體表述對確定為正訓(xùn)練實例,將未包括在所述中文跨文本指代鏈中的所述實體表述對確定為負(fù)訓(xùn)練實例,將每個所述正訓(xùn)練實例的特征項和每個所述負(fù)訓(xùn)練實例的特征項分別加載到支持向量機(jī)的建模工具中,得到分類模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于外部資源的語義特征包括搜索引擎特征、維基百科特征和詞林編碼特征中的至少一種特征; 獲取每個所述實體表述對的特征項包括獲取每個所述實體表述對的搜索引擎特征、維基百科特征和詞林編碼特征中的至少一種特征。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述實體表述對的搜索引擎特征包括:獲取實體表述對中每一個實體表述與所述實體表述的文本內(nèi)共現(xiàn)實體表述的共現(xiàn)權(quán)值夂= N+h,其中Nik為實體表述e,與共現(xiàn)實體表述ceik在網(wǎng)絡(luò)±共同出現(xiàn)的文檔數(shù)量,Ni為實體表述ei在網(wǎng)絡(luò)上出現(xiàn)的文檔數(shù)量,Nk為共現(xiàn)實體表述ceik在網(wǎng)絡(luò)上出現(xiàn)的文檔數(shù)量; 計算所述實體表述對中兩個所述實體表述的語義相似度—(e',|得出實體表述對的搜索引擎特征,其中#力實體表述A對`應(yīng)的權(quán)值向量的模,Wik為實體表述ceik相對于ei的共現(xiàn)權(quán)值,|r.|為實體表述e」對應(yīng)的權(quán)值向量的模,Wjk為實體表述cejk相對于e」的共現(xiàn)權(quán)值。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述實體表述對的維基百科特征包括: 將實體表述對中每一個實體表述分別作為維基百科中的錨點文本; 獲取每個所述錨點文本鏈接到維基百科頁面Pik的頻度Cik ; 計算所述實體表述對中兩個實體表述的相似度=得出實體表述 pik=pjk k^i l./對的維基百科特征,其中f I為實體表述ei對應(yīng)的頻度向量的模,Cik為實體表述ei鏈到維基頁面Pik的頻度,|c;|為實體表述4對應(yīng)的頻度向量的模,Cjk為實體表述4鏈到維基頁面的頻度。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述實體表述對的詞林編碼特征包括:獲取所述實體表述對中兩個實體表述在同義詞詞林中的編碼,并將兩個編碼的比較結(jié)果作為所述實體表述對的詞林編碼特征。
6.根據(jù)權(quán)利要求1至5任意一項所述的方法,其特征在于,所述特征項還包括:詞形特征、語音特征和文本內(nèi)特征中的至少一種特征; 獲取每個所述實體表述對的特征項還包括獲取每個所述實體表述對的詞形特征、語音特征和文本內(nèi)特征中的至少一種特征。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,獲取所述實體表述對的詞形特征包括:將所述實體表述對中的兩個實體表述劃分為由一元字符所組成的集合Sil和Sf計算集合Sil和Sjl之間的一元相似度系數(shù)
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,獲取所述實體表述對的語音特征包括: 將所述實體表述對中的兩個實體表述的拼音劃分為由三元字母所組成的集合Si3和Sj3,計算集合Si3和Sj3之間的三元相似度系數(shù)
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,獲取所述實體表述對的文本內(nèi)特征包括: 獲取并判斷所述實體表述對中每個實體表述的實體類型; 獲取所述實體表述對中每個實體表述在文本內(nèi)的共現(xiàn)實體表述,并獲取兩個實體表述相同的共現(xiàn)實體表述的數(shù)量,判斷所述數(shù)量是否大于預(yù)設(shè)閾值; 判斷所述實體表述對中兩個實體表述是否出現(xiàn)在同一文本中且兩個實體表述為文本內(nèi)指代關(guān)系。
10.一種中文跨文本指代消解方法,其特征在于,包括: 加載使用權(quán)利要求1至9任意一項所述的分類模型建模方法得到的分類模型; 輸入待識別文本集,并從所述待識別文本集中選取出實體表述對; 獲取所述實體表述對的特征項; 加載所述特征項到所述分類模型中,得出具有共指關(guān)系的所述實體表述對; 將具有共指關(guān)系的所述實體表述對進(jìn)行鏈接,得到跨文本指代鏈。
11.一種分類模型建模系統(tǒng),其特征在于,包括: 第一獲取模塊,用于獲取已標(biāo)注出中文跨文本指代鏈的訓(xùn)練文本集; 選取模塊,用于從所述訓(xùn)練文本集中選取實體表述對; 第二獲取模塊,用于獲取每個所述實體表述對的特征項,其中所述特征項包括基于外部資源的語義特征; 加載模塊,用于將包括在所述中文跨文本指代鏈中的所述實體表述對確定為正訓(xùn)練實例,將未包括在所述中文跨文本指代鏈中的所述實體表述對確定為負(fù)訓(xùn)練實例,將每個所述正訓(xùn)練實例的特征項和每個所述負(fù)訓(xùn)練實例的特征項分別加載到支持向量機(jī)的建模工具中,得到分類模型。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述基于外部資源的語義特征包括搜索引擎特征、維基百科特征和詞林編碼特征中的至少一種特征; 所述第二獲取模塊具體用于獲取每個所述實體表述對的搜索引擎特征、維基百科特征和詞林編碼特征中的至少一種特征。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述第二獲取模塊包括: 第一獲取單元,用于獲取實體表述對中每一個實體表述與所述實體表述的文本內(nèi)共現(xiàn) 實體表述的共現(xiàn)權(quán)值
14.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述第二獲取模塊包括: 第二獲取單元,用于將實體表述對中每一個實體表述分別作為維基百科中的錨點文本; 第三獲取單元,用于獲取每個所述錨點文本鏈接到維基百科頁面Pik的頻度Cik ; 第二計算單元,用于計算所述實體表述對中兩個實體表述的相似度
15.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述第二獲取模塊具體用于獲取所述實體表述對中兩個實體表述在同義詞詞林中的編碼,并將兩個編碼的比較結(jié)果作為所述實體表述對的詞林編碼特征。
16.根據(jù)權(quán)利要求11至15任意一項所述的系統(tǒng),其特征在于,所述特征項還包括:詞形特征、語音特征和文本內(nèi)特征中的至少一種特征; 所述第二獲取模塊進(jìn)一步用于每個所述實體表述對的特征項還包括獲取每個所述實體表述對的詞形特征、語音特征和文本內(nèi)特征中的至少一種特征。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述第二獲取模塊包括:第三計算單元,用于將所述實體表述對中的兩個實體表述劃分為由一元字符所組成 的集合Sil和Sy計算集合Sil和Sjl之間的一元相似度系數(shù)
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,所述第二獲取模塊包括: 第五計算單元,用于將所述實體表述對中的兩個實體表述的拼音劃分為由三元字母所 組成的集合Si3和Sj3,計算集合Si3和Sj3之間的三元相似度系數(shù)
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其特征在于,所述第二獲取模塊包括: 第五判斷單元,用于獲取并判斷所述實體表述對中每個實體表述的實體類型; 第六判斷單元,用于獲取所述實體表述對中每個實體表述在文本內(nèi)的共現(xiàn)實體表述,并獲取兩個實體表述相同的共現(xiàn)實體表述的數(shù)量,判斷所述數(shù)量是否大于預(yù)設(shè)閾值; 第七判斷單元,用于判斷所述實體表述對中兩個實體表述是否出現(xiàn)在同一文本中且兩個實體表述為文本內(nèi)指代關(guān)系。
20.一種中文跨文本指代消解系統(tǒng),其特征在于,包括: 加載模塊,用于加載使用權(quán)利要求11至19任意一項所述的分類模型建模系統(tǒng)得到的分類模型; 選取模塊,用于輸入待識別文本集,并從所述待識別文本集中選取出實體表述對; 獲取模塊,用于獲取所述實體表述對的特征項; 第一獲得模塊,用于加載所述特征項到所述分類模型中,得出具有共指關(guān)系的所述實體表述對; 第二獲得模塊,用 于將具有共指關(guān)系的所述實體表述對進(jìn)行鏈接,得到跨文本指代鏈。
全文摘要
本申請?zhí)峁┮环N分類模型建模方法、中文跨文本指代消解方法和系統(tǒng)。其中一種分類模型建模方法,包括獲取訓(xùn)練文本集;從訓(xùn)練文本集中選取實體表述對;獲取每個實體表述對的特征項;選取正訓(xùn)練實例和負(fù)訓(xùn)練實例,將每個正訓(xùn)練實例和每個負(fù)訓(xùn)練實例的特征項分別加載到支持向量機(jī)的建模工具中,得到分類模型。對于待識別文本集中的實體表述對,在提取特征項后,可以使用分類模型判斷是否具有指代關(guān)系,然后合并具有指代關(guān)系的實體表述對,構(gòu)成跨文本指代鏈,從而達(dá)到跨文本指代消解的目的。由于上述方案獲取的語義特征可以充分利用各種外部語義資源,挖掘?qū)嶓w表述對所具有的實際含義,從而提高分類模型及跨文本指代消解系統(tǒng)的準(zhǔn)確度。
文檔編號G06F17/30GK103150405SQ20131010850
公開日2013年6月12日 申請日期2013年3月29日 優(yōu)先權(quán)日2013年3月29日
發(fā)明者錢龍華, 趙知緯, 周國棟 申請人:蘇州大學(xué)