專利名稱:字符數(shù)據(jù)中實體消解的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)數(shù)據(jù)關(guān)系處理,具體而言,涉及一種字符數(shù)據(jù)中實體消解的方 法和裝置。
背景技術(shù):
指代消解任務(wù)就是將現(xiàn)實世界中同一實體的不同描述合并到一起的過程,主要包 括人稱代詞消解和名詞短語消解。在共指消解任務(wù)中,將當(dāng)前考察的用于指向的表述對象 稱為照應(yīng)語,將被指向的表述對象稱為先行詞。例如,在下面的句子中,“[中國礦業(yè)集團(tuán)有 限公司]的領(lǐng)導(dǎo)大膽創(chuàng)新,有效遏制住了經(jīng)濟(jì)滑坡,[公司]產(chǎn)值以平均每年33%的幅度遞 增”,考察其中“公司,,一詞所指代的實體時,“公司,,這個表述對象被稱為照應(yīng)語,而句中的 “中國礦業(yè)集團(tuán)有限公司”則是該照應(yīng)語所對應(yīng)的先行詞。共指消解就是確定照應(yīng)語所指向 的先行詞的過程。下面舉一個簡單例子說明中文新聞評論中共指消解的過程。在新聞?wù)闹谐霈F(xiàn)如 下一段話”...廣東宏遠(yuǎn)隊86-84擊敗八一雙鹿電池隊,以2 0的總比分領(lǐng)先對手...”, 下面幾條是該對該新聞的評論“81代表過去,宏遠(yuǎn)代表未來”,“回到主場,八一隊一定贏”, “廣東隊只是一時的風(fēng)光”;評論中的“81”,“八一隊”都是指向正文中的“八一雙鹿電池隊”, 而“宏遠(yuǎn)”,“廣東隊”都是指向正文中的“廣東宏遠(yuǎn)隊”。中文新聞評論中實體消解目的是對 評論中的每個實體,判斷他是不是指向正文中的某個實體,如果是,從正文中選擇一個最有 代表性的實體作為該實體的先行詞。目前的共指消解算法主要以二元分類算法為主,通過定義照應(yīng)語和先行詞之間的 一系列特征,使用機(jī)器學(xué)習(xí)的方法判斷照應(yīng)語和先行詞之間的是否具有共指關(guān)系,然后通 過一定的鏈接策略將所有具有共指關(guān)系的實體表述合并成一個實體。現(xiàn)有的共指消解系統(tǒng) 處理的都是規(guī)范性比較強的語料,例如新聞?wù)?,廣播報道等等。新聞評論是一種人們用來 對新近事件發(fā)表看法的文體。隨著人們在互網(wǎng)上扮演的角色逐漸從信息的獲取者轉(zhuǎn)變?yōu)樾?息的提供者,新聞評論中包含的大量信息成為研究者關(guān)注的熱點。與傳統(tǒng)文本語料相比,中 文新聞評論語料具有以下特點1、文本規(guī)范性差。由于新聞評論是由互聯(lián)網(wǎng)網(wǎng)民書寫,可能包含大量不規(guī)范的內(nèi) 容,常見的有錯別字,多余的空格,無意義的符號,非正式的別名等等。例如,“匯源”可能被 錯誤地寫成“匯圓”,而“抵制可口可樂”中包含了大量無意義的空格。2、多樣的評論風(fēng)格。由于評論編寫者的背景各異,導(dǎo)致不同的評論之間使用不同 的詞語,句式,語氣等等。3、簡明扼要。新聞評論用于發(fā)表自己的看法,一般不需要很詳細(xì)的解釋說明,一條 新聞評論常常只由一兩句話組成。4、主題相關(guān)性。新聞評論是對新近發(fā)生的某個新聞事件發(fā)表評論,因此絕大多數(shù) 的新聞評論都是緊密圍繞新聞?wù)闹刑岬降娜宋锘蚴录l(fā)表看法。由于上述字符存在不規(guī)范、口語化等特點,向用戶呈現(xiàn)詞語之間的共指關(guān)系錯誤,如,在字符數(shù)據(jù)“北圖”上顯示標(biāo)簽“地名”,而沒有顯示“機(jī)構(gòu)名北京國家圖書館”,造成用 戶閱讀、檢索、翻譯時,出現(xiàn)錯誤理解。
發(fā)明內(nèi)容
本發(fā)明旨在提供字符數(shù)據(jù)中實體消解的方法和裝置,其能夠解決由于字符存在不 規(guī)范、口語化等特點,向用戶呈現(xiàn)詞語之間的共指關(guān)系錯誤的問題。根據(jù)本發(fā)明的一個方面,提供了一種字符數(shù)據(jù)中實體消解的方法,包括獲取字符數(shù)據(jù)中的基準(zhǔn)語料和待處理語料;從所述基準(zhǔn)語料內(nèi)獲得第一實體集合,將第一實體集合內(nèi)實體建立共指關(guān)系,得 到第二實體集合;從所述待處理語料內(nèi)獲得第三實體集合,并通過所述第三實體集合和第一實體集 合構(gòu)造出訓(xùn)練集、測試集;采用分類方法對所述訓(xùn)練集和測試集進(jìn)行運算;按照運算后的結(jié)果識別出第三實體集合與第二實體集合之間的共指關(guān)系。優(yōu)選的,所述第二實體集合中的具有共指關(guān)系的實體之間以鏈?zhǔn)竭B接,構(gòu)成共指 鏈。優(yōu)選的,所述構(gòu)造出訓(xùn)練集的過程包括對第三實體集合中的任一個實體A,如果 識別出實體A和第一實體集合中實體B具有共指關(guān)系,且實體B存在于第二實體集合中的 共指鏈C中,則實體A和共指鏈C中的每個實體都構(gòu)造成正例,和第二實體集合中除共指鏈 C以外的其它共指鏈內(nèi)的實體構(gòu)造成反例;如果實體B不存在于第二實體集合的任一條共指鏈中,則那么實體A和實體B構(gòu) 造成正例,和第二實體集合中共指鏈內(nèi)的所有實體構(gòu)造成反例;所述構(gòu)造出測試集的過程包括第三實體集合中的任一個實體與第一實體集合中 的所有實體構(gòu)成各個測試用例。優(yōu)選的,所述分類方法為決策樹、貝葉斯算法、支持向量機(jī)或最大熵模型。優(yōu)選的,所述對訓(xùn)練集、測試集進(jìn)行運算的過程包括構(gòu)造特征函數(shù)對訓(xùn)練集內(nèi)的各個正例、反例運算,獲得訓(xùn)練集的特征函數(shù)值,對測 試集內(nèi)的各個測試用例運算,獲得測試集的特征函數(shù)值;將訓(xùn)練集的特征函數(shù)值通過分類方法運算,獲得相應(yīng)的運算模型,使用所述運算 模型對測試集的特征函數(shù)值運算,獲得運算結(jié)果。優(yōu)選的,所述按照運算后的結(jié)果識別的過程包括所述運算結(jié)果為當(dāng)前測試用例中第三實體集合內(nèi)的實體D與第一實體集合內(nèi)的 實體E之間的相似度值;如果相似度值大于相似度閾值,則判斷實體E是否在第二實體集合中的共指鏈 中,如果不在,則將實體E作為實體D指向的實體;如果在,則從共指鏈中選擇出一個實體作 為實體D指向的實體。根據(jù)本發(fā)明的另一個方面,還提供了一種字符數(shù)據(jù)中實體消解的裝置,包括選擇單元,用于從字符數(shù)據(jù)中獲取基準(zhǔn)語料和待處理語料;第一消解單元,用于從所述基準(zhǔn)語料內(nèi)識別出第一實體集合,將第一實體集合內(nèi)實體建立共指關(guān)系,得到第二實體集合;或從待處理語料內(nèi)識別出第三實體集合;構(gòu)造單元,用于通過所述第三實體集合和第一實體集合構(gòu)造出訓(xùn)練集、測試集;分類單元,用于對所述訓(xùn)練集和測試集進(jìn)行分類運算,得出運算結(jié)果;第二消解單元,用于按照所述運算結(jié)果識別出第三實體集合與第二實體集合之間 的共指關(guān)系。優(yōu)選的,包括所述第一消解單元得到的第二實體集合為實體之間以鏈?zhǔn)竭B接,構(gòu) 成共指鏈的實體集合。優(yōu)選的,所述構(gòu)造單元內(nèi)包括訓(xùn)練集構(gòu)造模塊,用于對第三實體集合中的任一個實體A,如果識別出實體A和第 一實體集合中實體B具有共指關(guān)系,且實體B存在于第二實體集合中的共指鏈C中,則實體 A和共指鏈C中的每個實體都構(gòu)造成正例,和第二實體集合中除共指鏈C以外的其它共指鏈 內(nèi)的實體構(gòu)造成反例;如果實體B不存在于第二實體集合的任一條共指鏈中,則那么實體A和實體B構(gòu) 造成正例,和第二實體集合中共指鏈內(nèi)的所有實體構(gòu)造成反例;測試集構(gòu)造模塊,用于將第三實體集合中的任一個實體與第一實體集合中內(nèi)的所 有實體構(gòu)造成各個測試用例。優(yōu)選的,所述分類單元內(nèi)包括特征值模塊,用于構(gòu)造特征函數(shù)對訓(xùn)練集內(nèi)的各個正例、反例運算,獲得訓(xùn)練集的 特征函數(shù)值,對測試集內(nèi)的各個測試用例運算,獲得測試集的特征函數(shù)值;分類運算模塊,將訓(xùn)練集的特征函數(shù)值通過分類方法運算,獲得相應(yīng)的運算模型, 使用所述運算模型對測試集的特征函數(shù)值運算,獲得運算結(jié)果。優(yōu)選的,第二消解單元包括判別模塊,用于當(dāng)所述運算結(jié)果為當(dāng)前測試用例中第三實體集合內(nèi)的實體D與第 一實體集合內(nèi)的實體之間的相似度值時,判別出最大相似度值所對應(yīng)第一實體集合中的實 體E,判別最大相似度的值是否大于相似度閾值,如果大于,則判斷實體E是否在第二實體 集合中的共指鏈中;指向模塊,用于當(dāng)判別模塊判別出實體E在所述第二實體集合中的共指鏈中,則 從共指鏈中選擇出一個實體作為實體D指向的實體;如果實體E不在所述第二實體集合中 的共指鏈中,則將實體E作為實體D指向的實體。因為本發(fā)明的方法和裝置采用了基準(zhǔn)語料、待處理語料構(gòu)造訓(xùn)練集、測試集,并作 為分類方法的輸入?yún)?shù),對待處理語料內(nèi)的實體,給出更為準(zhǔn)確的實體指向,克服了字符存 在不規(guī)范、口語化等特點,向用戶呈現(xiàn)詞語之間的共指關(guān)系錯誤的問題,進(jìn)而達(dá)到了指向準(zhǔn) 確、便于用戶識別的效果。
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖1示出了本發(fā)明的實施例一的流程圖;圖2示出了本發(fā)明的建立共指鏈的示意圖3示出了為基準(zhǔn)語料內(nèi)的實體建立共指關(guān)系的流程圖;圖4示出了本發(fā)明方法實施例的原理圖;圖5示出了本發(fā)明裝置實施例的結(jié)構(gòu)圖。
具體實施例方式為更好的對字符數(shù)據(jù)中的實體之間實現(xiàn)實體消解過程,本發(fā)明分別從字符數(shù)據(jù)中 的基準(zhǔn)語料、待處理語料內(nèi)的實體進(jìn)行構(gòu)造,并進(jìn)行運算識別,以獲得更好的實體消解。下 面結(jié)合附圖詳細(xì)說明本發(fā)明的實施例,本發(fā)明的實施例包括方法的實施例和裝置的實施 例。參見圖1,圖1是方法實施例一的流程圖,該字符數(shù)據(jù)中實體消解的方法的流程包 括Sll 獲取字符數(shù)據(jù)中的基準(zhǔn)語料和待處理語料;S12:從所述基準(zhǔn)語料內(nèi)獲得第一實體集合,識別第一實體集合內(nèi)的共指關(guān)系獲得 第二實體集合;S13 從所述待處理語料內(nèi)獲得第三實體集合,并通過第三實體集合和第一實體集 合構(gòu)造出訓(xùn)練集、測試集;S14 采用分類方法對訓(xùn)練集和測試集進(jìn)行運算;S15:按照運算后的結(jié)果識別出第三實體集合與第二實體集合之間的共指關(guān)系。為便于區(qū)別,本發(fā)明所稱的第一實體集合為基準(zhǔn)語料中識別出的實體,第二實體 集合為第一實體集合建立了共指關(guān)系的實體,第三實體集合為待處理語料中識別出的實 體。實施例一闡述了本發(fā)明方法的流程,下面通過實施例二中對選定的新聞字符數(shù)據(jù) 為例說明本發(fā)明的實體消解過程,在新聞字符數(shù)據(jù)中,通常需要對新聞評論內(nèi)的實體指代 關(guān)系進(jìn)行消解,但由于評論的字符存在不規(guī)范、口語化等特點,向用戶呈現(xiàn)詞語之間的共指 關(guān)系時,容易出現(xiàn)錯誤、或遺漏,因此,需要先構(gòu)造訓(xùn)練集、測試集,可先對新聞數(shù)據(jù)進(jìn)行區(qū) 分,按照標(biāo)簽等類似標(biāo)識分別獲得新聞?wù)暮托侣勗u論,將新聞?wù)淖鳛榛鶞?zhǔn)語料,將新聞 評論作為待處理語料。先獲得新聞?wù)?、新聞評論內(nèi)的第一實體集合、第三實體集合,并對新聞?wù)牡牡?一實體集合進(jìn)行實體消解,獲得具有共指關(guān)系的第二實體集合。對新聞?wù)牡牡谝粚嶓w集合進(jìn)行實體消解的過程包括1)獲得新聞?wù)闹袑嶓w之間的相關(guān)信息;主要包括實體內(nèi)容,實體類型,實體長 度,出現(xiàn)位置等信息。2)計算實體之間的相似度;相似度的度量方式可以采用多種形式,可以是有指導(dǎo) 的或者是無指導(dǎo)的。3)將相似度值大于某一特定閾值的實體判定為具有共指關(guān)系,具體主要考慮實體 間特征包括詞匯特征,語法特征,距離特征等方面。實體之間的相似度計算采用每個特征函 數(shù)的簡單求和。當(dāng)實體之間的相似度大于某一設(shè)定的閾值時,認(rèn)為這兩個實體具有共指關(guān) 系。新聞?wù)膶嶓w消解中用到特征如下表1所示
表 權(quán)利要求
1.一種字符數(shù)據(jù)中實體消解的方法,其特征在于,包括 獲取字符數(shù)據(jù)中的基準(zhǔn)語料和待處理語料;從所述基準(zhǔn)語料內(nèi)獲得第一實體集合,將第一實體集合內(nèi)實體建立共指關(guān)系,得到第 二實體集合;從所述待處理語料內(nèi)獲得第三實體集合,并通過所述第三實體集合和第一實體集合構(gòu) 造出訓(xùn)練集、測試集;采用分類方法對所述訓(xùn)練集和測試集進(jìn)行運算;按照運算后的結(jié)果識別出第三實體集合與第二實體集合之間的共指關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二實體集合中的具有共指關(guān)系的 實體之間以鏈?zhǔn)竭B接,構(gòu)成共指鏈。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于, 所述構(gòu)造出訓(xùn)練集的過程包括對第三實體集合中的任一個實體A,如果識別出實體A和第一實體集合中實體B具有共 指關(guān)系,且實體B存在于第二實體集合中的共指鏈C中,則實體A和共指鏈C中的每個實體 都構(gòu)造成正例,和第二實體集合中除共指鏈C以外的其它共指鏈內(nèi)的實體構(gòu)造成反例;如果實體B不存在于第二實體集合的任一條共指鏈中,則那么實體A和實體B構(gòu)造成 正例,和第二實體集合中共指鏈內(nèi)的所有實體構(gòu)造成反例; 所述構(gòu)造出測試集的過程包括第三實體集合中的任一個實體與第一實體集合中的所有實體構(gòu)成各個測試用例。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分類方法為決策樹、貝葉斯算法、支 持向量機(jī)或最大熵模型。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述對訓(xùn)練集、測試集進(jìn)行運算的過 程包括構(gòu)造特征函數(shù)對訓(xùn)練集內(nèi)的各個正例、反例運算,獲得訓(xùn)練集的特征函數(shù)值,對測試集 內(nèi)的各個測試用例運算,獲得測試集的特征函數(shù)值;將訓(xùn)練集的特征函數(shù)值通過分類方法運算,獲得相應(yīng)的運算模型,使用所述運算模型 對測試集的特征函數(shù)值運算,獲得運算結(jié)果。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述按照運算后的結(jié)果識別的過程包括 所述運算結(jié)果為當(dāng)前測試用例中第三實體集合內(nèi)的實體D與第一實體集合內(nèi)的實體E之間的相似度值;如果相似度值大于相似度閾值,則判斷實體E是否在第二實體集合中的共指鏈中,如 果不在,則將實體E作為實體D指向的實體;如果在,則從共指鏈中選擇出一個實體作為實 體D指向的實體。
7.一種字符數(shù)據(jù)中實體消解的裝置,其特征在于,包括 選擇單元,用于從字符數(shù)據(jù)中獲取基準(zhǔn)語料和待處理語料;第一消解單元,用于從所述基準(zhǔn)語料內(nèi)識別出第一實體集合,將第一實體集合內(nèi)實體 建立共指關(guān)系,得到第二實體集合;或從待處理語料內(nèi)識別出第三實體集合;構(gòu)造單元,用于通過所述第三實體集合和第一實體集合構(gòu)造出訓(xùn)練集、測試集; 分類單元,用于對所述訓(xùn)練集和測試集進(jìn)行分類運算,得出運算結(jié)果;第二消解單元,用于按照所述運算結(jié)果識別出第三實體集合與第二實體集合之間的共 指關(guān)系。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一消解單元得到的第二實體集合 為實體之間以鏈?zhǔn)竭B接、且構(gòu)成共指鏈的實體集合。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述構(gòu)造單元內(nèi)包括訓(xùn)練集構(gòu)造模塊,用于對第三實體集合中的任一個實體A,如果識別出實體A和第一實 體集合中實體B具有共指關(guān)系,且實體B存在于第二實體集合中的共指鏈C中,則實體A和 共指鏈C中的每個實體都構(gòu)造成正例,和第二實體集合中除共指鏈C以外的其它共指鏈內(nèi) 的實體構(gòu)造成反例;如果實體B不存在于第二實體集合的任一條共指鏈中,則那么實體A和 實體B構(gòu)造成正例,和第二實體集合中共指鏈內(nèi)的所有實體構(gòu)造成反例;測試集構(gòu)造模塊,用于將第三實體集合中的任一個實體與第一實體集合中內(nèi)的所有實 體構(gòu)造成各個測試用例。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述分類單元內(nèi)包括特征值模塊,用于構(gòu)造特征函數(shù)對訓(xùn)練集內(nèi)的各個正例、反例運算,獲得訓(xùn)練集的特征 函數(shù)值,對測試集內(nèi)的各個測試用例運算,獲得測試集的特征函數(shù)值;分類運算模塊,將訓(xùn)練集的特征函數(shù)值通過分類方法運算,獲得相應(yīng)的運算模型,使用 所述運算模型對測試集的特征函數(shù)值運算,獲得運算結(jié)果。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第二消解單元包括判別模塊,用于當(dāng)所述運算結(jié)果為當(dāng)前測試用例中第三實體集合內(nèi)的實體D與第一實 體集合內(nèi)的實體之間的相似度值時,判別出最大相似度值所對應(yīng)第一實體集合中的實體E, 判別最大相似度的值是否大于相似度閾值,如果大于,則判斷實體E是否在第二實體集合 中的共指鏈中;指向模塊,用于當(dāng)判別模塊判別出實體E在所述第二實體集合中的共指鏈中,則從共 指鏈中選擇出一個實體作為實體D指向的實體;如果實體E不在所述第二實體集合中的共 指鏈中,則將實體E作為實體D指向的實體。
全文摘要
本發(fā)明提供了一種字符數(shù)據(jù)中實體消解的方法和裝置,其中,該方法包括獲取字符數(shù)據(jù)中的基準(zhǔn)語料和待處理語料;從基準(zhǔn)語料內(nèi)獲得第一實體集合,將第一實體集合內(nèi)實體建立共指關(guān)系,得到第二實體集合;從待處理語料內(nèi)獲得第三實體集合,并通過第三實體集合和第一實體集合構(gòu)造出訓(xùn)練集、測試集;采用分類方法對訓(xùn)練集和測試集進(jìn)行運算;按照運算后的結(jié)果識別出第三實體集合與第二實體集合之間的共指關(guān)系。本發(fā)明克服了字符中由于存在不規(guī)范、口語化等特點,向用戶呈現(xiàn)詞語之間的共指關(guān)系錯誤的問題,進(jìn)而達(dá)到了指向準(zhǔn)確、便于用戶識別的效果。
文檔編號G06F17/27GK102110087SQ20091024347
公開日2011年6月29日 申請日期2009年12月24日 優(yōu)先權(quán)日2009年12月24日
發(fā)明者萬小軍, 吳於茜, 宗良, 楊建武, 肖建國 申請人:北京北大方正電子有限公司, 北京大學(xué), 北京方正電子政務(wù)信息科技有限公司, 北大方正集團(tuán)有限公司