本發(fā)明涉及命名實(shí)體消歧領(lǐng)域,具體涉及一種改進(jìn)的面向領(lǐng)域的命名實(shí)體消歧方法。
背景技術(shù):
目前,命名實(shí)體消歧技術(shù)主要分為兩種:實(shí)體聚類(lèi)消歧和實(shí)體鏈接消歧。實(shí)體聚類(lèi)消歧的主要任務(wù)是,給定一個(gè)包含某個(gè)歧義實(shí)體的網(wǎng)頁(yè)集合,按照網(wǎng)頁(yè)中實(shí)體指稱(chēng)項(xiàng)指向的實(shí)體概念對(duì)網(wǎng)頁(yè)進(jìn)行聚類(lèi),每一類(lèi)包含著某一命名實(shí)體的所有可能對(duì)應(yīng)的實(shí)體指稱(chēng)項(xiàng)。消歧時(shí)通過(guò)計(jì)算特征相似度,使用聚類(lèi)算法確定實(shí)體指稱(chēng)對(duì)應(yīng)的類(lèi)別,進(jìn)而得到相應(yīng)的命名實(shí)體。而實(shí)體鏈接消歧的任務(wù)是,給定一個(gè)實(shí)體指稱(chēng)項(xiàng),將其鏈接到知識(shí)庫(kù)中某一實(shí)體上去。由于實(shí)體鏈接消歧方法克服了聚類(lèi)法僅利用表層特征而導(dǎo)致的信息量不足的問(wèn)題,并充分利用結(jié)構(gòu)化的知識(shí)資源來(lái)幫助實(shí)現(xiàn)消歧過(guò)程,因此在近年來(lái)成為了主流的命名實(shí)體消歧方法。
實(shí)體鏈接消歧的基本框架分為命名實(shí)體識(shí)別、候選實(shí)體生成和候選實(shí)體排序三步:
命名實(shí)體識(shí)別從文本數(shù)據(jù)集中抽取相關(guān)的命名實(shí)體指稱(chēng)(mentions)。這個(gè)過(guò)程是后續(xù)消歧技術(shù)的基石,主要用到的方法包括隨機(jī)條件場(chǎng)模型和其它概率圖模型等。
候選實(shí)體生成階段為每一個(gè)實(shí)體指稱(chēng)生成一組候選實(shí)體。主流技術(shù)包括基于名稱(chēng)詞典的方法、局部文檔表面形式擴(kuò)展的方法以及基于搜索引擎的方法等。基于名稱(chēng)的方法通過(guò)利用維基百科或其他百科類(lèi)網(wǎng)站上的信息,如實(shí)體頁(yè)面信息、指向跳轉(zhuǎn)頁(yè)信息、同名詞消歧頁(yè)信息等,構(gòu)建一個(gè)線(xiàn)下的名稱(chēng)詞典。這個(gè)詞典包含著實(shí)體指稱(chēng)和實(shí)體之間多對(duì)多的關(guān)系;利用這個(gè)詞典,當(dāng)給定某一實(shí)體指稱(chēng)時(shí),便能查找到相對(duì)應(yīng)的候選實(shí)體組。局部文檔的表面形式擴(kuò)展方法考慮到實(shí)體指稱(chēng)以其縮寫(xiě)或局部詞形式出現(xiàn)的情況,這時(shí)需要先將縮寫(xiě)或局部詞擴(kuò)展成實(shí)體指稱(chēng)全稱(chēng),再利用其它的方法得到候選實(shí)體組。而基于搜索引擎的方法則是利用搜索引擎來(lái)搜索查找實(shí)體指稱(chēng)可能對(duì)應(yīng)的候選實(shí)體。
候選實(shí)體排序階段是在得到候選實(shí)體組后,對(duì)這些實(shí)體進(jìn)行排序,找到最有可能是正確實(shí)體的候選實(shí)體的過(guò)程。大體來(lái)講,候選實(shí)體排序的方法分為兩種--有監(jiān)督的和無(wú)監(jiān)督的排序方法。有監(jiān)督的排序方法利用標(biāo)注好的語(yǔ)料來(lái)學(xué)習(xí)如何排序,其進(jìn)一步可以分為二值分類(lèi)法、learningtorank法、基于概率的方法和基于圖的方法等。而無(wú)監(jiān)督的方法不需要標(biāo)注好的語(yǔ)料,主要分為基于向量空間模型法和基于信息檢索的方法。從另外一個(gè)角度,通過(guò)是否考慮一段語(yǔ)料多個(gè)實(shí)體指稱(chēng)之間的關(guān)系或者多段語(yǔ)料中實(shí)體指稱(chēng)的關(guān)系,候選實(shí)體排序方法可分為獨(dú)立排序法、集體排序(collectiveranking)法和聯(lián)合排序(collaborativeranking)法。
排序的根本依據(jù)是候選實(shí)體的特征,因此特征的選取也十分重要,選擇不同的特征可能得到不同的結(jié)果。特征分為上下文無(wú)關(guān)特征和上下文有關(guān)特征。上下文無(wú)關(guān)特征主要利用表面信息,與實(shí)體指稱(chēng)所處語(yǔ)料的上下文無(wú)關(guān),具體包括名字串相似度、實(shí)體流行度和實(shí)體類(lèi)型等;而上下文相關(guān)特征則充分利用了整個(gè)語(yǔ)料的信息,包括上下文信息相似度和實(shí)體間一致性等等。
現(xiàn)有的國(guó)內(nèi)外實(shí)體鏈接消歧方法基本遵循上述框架,并且大多數(shù)均采用集體排序方法以更好的捕捉實(shí)體指稱(chēng)間的依賴(lài)性,進(jìn)而提升消歧效果。最先提出集體消歧概念的是kulkarni[1]等人,在他們的方法中,給定兩個(gè)實(shí)體指稱(chēng)以及相對(duì)應(yīng)的兩組候選實(shí)體,先計(jì)算出兩兩候選實(shí)體之間的關(guān)聯(lián)度并構(gòu)建出概率因子圖。然后,為找到最有可能對(duì)應(yīng)的實(shí)體,采用近似的方法來(lái)解決這個(gè)優(yōu)化的圖問(wèn)題(np-難)。實(shí)驗(yàn)展示了這種方法的優(yōu)越性,但是整個(gè)算法執(zhí)行過(guò)程的計(jì)算代價(jià)較大,需要花費(fèi)很長(zhǎng)時(shí)間。
hoffart[2]等基于類(lèi)似的思想,提出了更加健壯和高效的命名實(shí)體消歧系統(tǒng)aida。他們將實(shí)體指稱(chēng)和候選實(shí)體作為依賴(lài)圖的節(jié)點(diǎn),并計(jì)算出實(shí)體流行度、上下文信息相似度和實(shí)體間一致性這三個(gè)特征的值,分別作為實(shí)體指稱(chēng)與候選實(shí)體、候選實(shí)體之間的邊上的權(quán)重。然后,提出改進(jìn)的貪婪算法來(lái)計(jì)算密集子圖,也即最終的映射結(jié)果。aida具有較高的消歧準(zhǔn)確性,在多個(gè)數(shù)據(jù)集上都能得到很好的結(jié)果。但由于特征的提取以及相似度計(jì)算過(guò)程耗時(shí)較長(zhǎng),整個(gè)系統(tǒng)的效率也不高。
nguyen[3]等人為提高消歧系統(tǒng)的效率,提出了aida-light系統(tǒng)。他們將消歧過(guò)程分為兩個(gè)階段,首先找出歧義性低的簡(jiǎn)單指稱(chēng)并對(duì)其消歧。根據(jù)這一階段的消歧結(jié)果,確定整個(gè)文本的領(lǐng)域主題,并將此作為新特征加入對(duì)歧義性高的實(shí)體指稱(chēng)的消歧過(guò)程,以提高準(zhǔn)確率。而相關(guān)的實(shí)驗(yàn)結(jié)果也證實(shí)了aida-light的高效性。但由于aida-light在選取了較為簡(jiǎn)單的特征,因此沒(méi)有充分的挖掘文本中的信息,因此整個(gè)消歧過(guò)程的準(zhǔn)確率僅與aida等消歧系統(tǒng)持平。
【1】s.kulkarni,a.singh,g.ramakrishnan,ands.chakrabarti,"collectiveannotationofwikipediaentitiesinwebtext,"inacmsigkddinternationalconferenceonknowledgediscoveryanddatamining,paris,france,june28-july,2009,pp.457-466
【2】j.hoffart,m.a.yosef,i.bordino,h.fürstenau,m.pinkal,m.spaniol,etal.,"robustdisambiguationofnamedentitiesintext,"inconferenceonempiricalmethodsinnaturallanguageprocessing,2011,pp.782-792.
【3】d.b.nguyen,j.hoffart,m.theobald,andg.weikum,"aida-light:high-throughputnamed-entitydisambiguation,"inlinkeddataonthewebatwww,2014
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提出一種改進(jìn)的面向領(lǐng)域的命名實(shí)體消歧方法,在保證整個(gè)消歧過(guò)程高效率的基礎(chǔ)上,提升消歧結(jié)果的準(zhǔn)確率。
為實(shí)現(xiàn)本發(fā)明的目的,本發(fā)明技術(shù)方案具體如下:
一種改進(jìn)的面向領(lǐng)域的命名實(shí)體消歧方法,該方法包括以下步驟:
1)利用預(yù)處理模塊對(duì)輸入文本進(jìn)行預(yù)處理得到實(shí)體指稱(chēng)集合以及相應(yīng)的候選實(shí)體集合;
2)利用特征選取模塊對(duì)實(shí)體指稱(chēng)集合以及相應(yīng)的候選實(shí)體集合進(jìn)行多方面特征提取,并構(gòu)建指稱(chēng)-實(shí)體依賴(lài)圖;
3)利用近似算法,分兩階段對(duì)文本中所有實(shí)體指稱(chēng)及候選實(shí)體進(jìn)行命名實(shí)體消歧,得到消歧結(jié)果。
作為本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn),所述多方面特征包括實(shí)體流行度特征、實(shí)體指稱(chēng)-候選實(shí)體相似度特征、上下文信息相似度特征、實(shí)體指稱(chēng)間特征以及實(shí)體-領(lǐng)域相關(guān)度特征。
作為本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn),所述指稱(chēng)-實(shí)體依賴(lài)圖包括實(shí)體指稱(chēng)節(jié)點(diǎn)、候選實(shí)體節(jié)點(diǎn)、指稱(chēng)-實(shí)體邊、指稱(chēng)-指稱(chēng)邊、以及實(shí)體-實(shí)體邊,上述指稱(chēng)-實(shí)體邊、指稱(chēng)-指稱(chēng)邊、以及實(shí)體-實(shí)體邊分別表示指稱(chēng)-實(shí)體間的聯(lián)系、指稱(chēng)-指稱(chēng)聯(lián)系以及實(shí)體-實(shí)體間的聯(lián)系。
作為本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn),所述步驟3)具體包括:
3.1)輸入文本所有實(shí)體指稱(chēng)及候選實(shí)體;
3.2)根據(jù)實(shí)體指稱(chēng)對(duì)應(yīng)候選實(shí)體個(gè)數(shù)是否小于衡量值,選出簡(jiǎn)單實(shí)體指稱(chēng);
3.3)運(yùn)用近似算法對(duì)該實(shí)體指稱(chēng)進(jìn)行集體消歧;
3.4)將文本的領(lǐng)域設(shè)置為步驟3.3)消歧得到的正確實(shí)體所屬的領(lǐng)域;
3.5)對(duì)剩下的實(shí)體指稱(chēng),即非簡(jiǎn)單實(shí)體指稱(chēng),利用領(lǐng)域特征,重新計(jì)算相似度值以及權(quán)重,使用近似算法進(jìn)行消歧得到最后的結(jié)果。
作為本發(fā)明技術(shù)方案的進(jìn)一步改進(jìn),所述近似算法具體包括以下步驟:
s1)輸入指稱(chēng)-實(shí)體依賴(lài)圖;
s2)對(duì)每個(gè)實(shí)體指稱(chēng)m,計(jì)算其與候選實(shí)體ei的指稱(chēng)-實(shí)體相似度值,保留指稱(chēng)-實(shí)體相似度值最大的五個(gè)候選實(shí)體;
s3)對(duì)每個(gè)對(duì)應(yīng)于實(shí)體指稱(chēng)m的候選實(shí)體ei,計(jì)算節(jié)點(diǎn)度數(shù);
s4)移除指稱(chēng)-實(shí)體依賴(lài)圖中節(jié)點(diǎn)度數(shù)最小的候選實(shí)體,更新節(jié)點(diǎn)度數(shù);其中,當(dāng)節(jié)點(diǎn)度數(shù)最小的候選實(shí)體是某實(shí)體指稱(chēng)對(duì)應(yīng)的最后的候選實(shí)體時(shí),跳過(guò)該候選實(shí)體;
s5)當(dāng)圖中所有的候選實(shí)體均為其對(duì)應(yīng)實(shí)體指稱(chēng)的最后一個(gè)候選實(shí)體時(shí),終止移除過(guò)程,輸出結(jié)果。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
1、本發(fā)明提出一種改進(jìn)的面向領(lǐng)域的實(shí)體消歧方法,將整個(gè)消歧過(guò)程分為兩個(gè)階段,不僅減少算法復(fù)雜程度,并取得更高的準(zhǔn)確率。
2、本發(fā)明在構(gòu)造實(shí)體指稱(chēng)-候選實(shí)體相關(guān)圖時(shí),在實(shí)體指稱(chēng)側(cè)建立指稱(chēng)之間的聯(lián)系,進(jìn)而優(yōu)化算法執(zhí)行順序,達(dá)到精確消歧的目標(biāo)。
3、本發(fā)明將領(lǐng)域的概念有機(jī)的結(jié)合到消歧過(guò)程中,進(jìn)一步豐富特征集,提升整個(gè)消歧過(guò)程的準(zhǔn)確度。
附圖說(shuō)明
圖1是本發(fā)明面向領(lǐng)域的命名實(shí)體消歧方法實(shí)施流程圖;
圖2是本發(fā)明中預(yù)處理過(guò)程實(shí)施流程圖;
圖3是本發(fā)明中指稱(chēng)-實(shí)體依賴(lài)圖;
圖4是本發(fā)明中兩階段算法流程圖;
圖5是本發(fā)明中近似算法流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。
如圖1所示,本發(fā)明的面向領(lǐng)域的命名實(shí)體消歧方法主要流程包括:
1)輸入文本對(duì)該文本進(jìn)行預(yù)處理,通過(guò)預(yù)處理過(guò)程得到指稱(chēng)-候選實(shí)體的映射集合;
2)利用特征選取模塊,建立指稱(chēng)-實(shí)體間的聯(lián)系、指稱(chēng)-指稱(chēng)聯(lián)系以及實(shí)體-實(shí)體間的聯(lián)系,并構(gòu)造指稱(chēng)-實(shí)體依賴(lài)圖;
3)根據(jù)候選實(shí)體數(shù)量判斷某實(shí)體指稱(chēng)是否為簡(jiǎn)單指稱(chēng),若為簡(jiǎn)單指稱(chēng),通過(guò)圖算法進(jìn)行候選實(shí)體排序,得到第一階段消歧結(jié)果;由這些消歧結(jié)果確定文本的領(lǐng)域集合,并將領(lǐng)域作為新特征加入到非簡(jiǎn)單指稱(chēng)的候選實(shí)體排序過(guò)程,進(jìn)而得到第二階段的結(jié)果;利用近似算法解決尋找指稱(chēng)-實(shí)體依賴(lài)圖的最小密集子圖,兩階段的消歧結(jié)果最終構(gòu)成了最后的消歧結(jié)果。
下面進(jìn)一步結(jié)合附圖具體介紹該方法流程中各個(gè)步驟的具體內(nèi)容:
文本的預(yù)處理過(guò)程如圖2所示,其利用了stanfordnertagger來(lái)進(jìn)行命名實(shí)體的識(shí)別,得到一組待消歧的實(shí)體指稱(chēng)。對(duì)于每一個(gè)實(shí)體指稱(chēng),使用yago2知識(shí)庫(kù)中的means關(guān)系找到一組候選實(shí)體。需要強(qiáng)調(diào)的是,這里提到的means關(guān)系可以被看作是命名實(shí)體--名字詞典的連接邊。
在特征選取方面,選取了以下的特征:實(shí)體流行度特征、實(shí)體指稱(chēng)-候選實(shí)體相似度特征、上下文信息相似度特征、實(shí)體指稱(chēng)間特征以及實(shí)體-領(lǐng)域相關(guān)度特征。
下面對(duì)各類(lèi)特征進(jìn)行詳細(xì)描述:
所述實(shí)體流行度特征刻畫(huà)了候選實(shí)體出現(xiàn)的先驗(yàn)概率,其具體的計(jì)算公式如下,
公式(1)中,e代表候選實(shí)體集,ei代表第i個(gè)候選實(shí)體,countm(ei)代表在維基百科數(shù)據(jù)集中,當(dāng)出現(xiàn)實(shí)體指稱(chēng)m時(shí),m指向ei的次數(shù)。
所述實(shí)體指稱(chēng)-候選實(shí)體相似度特征包括名字串相似度特征和上下文相似度特征。
所述名字串相似度特征指的是實(shí)體指稱(chēng)和候選實(shí)體的表面名字之間的相似度,其具體的計(jì)算方法可以利用一般字符串間的相似度的計(jì)算方式,如jaccard相似度的計(jì)算:
公式(2)中,m和ei分別代表實(shí)體指稱(chēng)m和候選實(shí)體ei名字的三元字母串(3-gram)的集合。
所述上下文信息相似度特征指的是實(shí)體指稱(chēng)和候選實(shí)體上下文之間的相似度。實(shí)體指稱(chēng)的上下文由一定范圍內(nèi)其上下文文本的分詞向量t=<tm-l,…tm,…tm+l>來(lái)表示,而候選實(shí)體的上下文則由知識(shí)庫(kù)中構(gòu)造好的關(guān)鍵詞向量組tok(ei)表示。因此,其具體的計(jì)算公式可以表示為:
所述實(shí)體指稱(chēng)間特征主要包括實(shí)體指稱(chēng)關(guān)聯(lián)度特征和多指稱(chēng)聯(lián)合推斷概率特征。
其中,所述多指稱(chēng)聯(lián)合推斷概率指的是待消歧實(shí)體指稱(chēng)周?chē)膶?shí)體指稱(chēng)和候選實(shí)體的共現(xiàn)概率(以知識(shí)庫(kù)為統(tǒng)計(jì)文本),其具體的計(jì)算公式如下:
其中,m代表實(shí)體指稱(chēng)mt周?chē)欢ǚ秶鷥?nèi)的實(shí)體指稱(chēng)集合,count(mh)指的是實(shí)體指稱(chēng)mt在知識(shí)庫(kù)中出現(xiàn)的次數(shù),count(mh,ei)指的是實(shí)體指稱(chēng)mh和候選實(shí)體ei在知識(shí)庫(kù)中共現(xiàn)的次數(shù),e代表候選實(shí)體集合。
其中,實(shí)體指稱(chēng)關(guān)聯(lián)度特征考慮了指稱(chēng)之間存在的關(guān)聯(lián)性,在后續(xù)的集體消歧中將起到優(yōu)化算法處理順序的作用,這也是本發(fā)明增添的一個(gè)新穎并有用的特征,實(shí)體指稱(chēng)關(guān)聯(lián)度特征具體的計(jì)算公式為:
公式(5)中,count(mh,mi)指的是實(shí)體指稱(chēng)mh和mi在數(shù)據(jù)集中的共現(xiàn)次數(shù),而count(mi)是指稱(chēng)mi在數(shù)據(jù)集中出現(xiàn)的次數(shù),ma代表某文檔中的實(shí)體指稱(chēng)集合。
關(guān)于所述實(shí)體-領(lǐng)域相關(guān)度特征,本發(fā)明引出領(lǐng)域(domain)的概念,其與類(lèi)別相類(lèi)似,領(lǐng)域具體指的是實(shí)體所從屬的一個(gè)范疇,但領(lǐng)域比具體的類(lèi)別更加抽象一些。在研究中,利用yago2中的subclassof關(guān)系,人工選擇并構(gòu)建了領(lǐng)域集合。當(dāng)給定一個(gè)候選實(shí)體時(shí),先獲取其維基百科中的類(lèi)別,然后將其映射到wordnet中的類(lèi)別,再向上尋找其在wordnet領(lǐng)域體系中對(duì)應(yīng)的上一層抽象領(lǐng)域,最后判斷該抽象領(lǐng)域中是否包含在構(gòu)造的領(lǐng)域中,進(jìn)而得到實(shí)體-領(lǐng)域相關(guān)度。
具體地,令da表示構(gòu)造所得的領(lǐng)域集合,給定實(shí)體指稱(chēng)m所在文本對(duì)應(yīng)的領(lǐng)域集合dt∈da,候選實(shí)體ei及其按照上述方法對(duì)應(yīng)的抽象領(lǐng)域di∈da,那么定義相關(guān)度特征可以表示為:
所述候選實(shí)體間特征包括實(shí)體上下文一致性特征和實(shí)體類(lèi)別一致性特征。
所述實(shí)體上下文一致性特征是指兩候選實(shí)體(分別對(duì)應(yīng)著不同的實(shí)體指稱(chēng))的關(guān)鍵詞向量組之間的相似度,其計(jì)算方法如下:
公式(7)中,ei和eh是不同的實(shí)體指稱(chēng)對(duì)應(yīng)的候選實(shí)體,而tok(ei)表示關(guān)鍵詞向量組。
所述實(shí)體類(lèi)別一致性特征與所述實(shí)體上下文一致性特征相類(lèi)似,其描述了候選實(shí)體類(lèi)別的相似度。本具體實(shí)施例考慮候選實(shí)體在英文維基百科中的類(lèi)別,即:
公式(8)中,ei和eh是不同的實(shí)體指稱(chēng)對(duì)應(yīng)的候選實(shí)體,cate(ei)和cate(eh)是候選實(shí)體所對(duì)應(yīng)的維基百科類(lèi)別(可能有多個(gè)類(lèi)別),distance函數(shù)計(jì)算了兩個(gè)類(lèi)別ci和ch在領(lǐng)域?qū)哟慰蚣軆?nèi)的最短距離。
為得到最佳的消歧效果,結(jié)合上述的8個(gè)特征并將它們整合到一個(gè)總目標(biāo)方程之中,以充分利用上下文語(yǔ)義信息,對(duì)一個(gè)文檔內(nèi)所有實(shí)體指稱(chēng)進(jìn)行集體消歧。
具體地,令m=(m1,…,mk)代表文檔中的實(shí)體指稱(chēng)集合,ei=(ei1,…,eil)為實(shí)體指稱(chēng)ei對(duì)應(yīng)的候選實(shí)體集合,那么,
其中,
為解決上述目標(biāo)方程,本發(fā)明采用指稱(chēng)-實(shí)體依賴(lài)圖的方式來(lái)表述問(wèn)題的各項(xiàng),從而將問(wèn)題轉(zhuǎn)換成尋找依賴(lài)圖的密集子圖;相應(yīng)地,利用近似算法計(jì)算得到最后的映射結(jié)果。
其中,指稱(chēng)-實(shí)體依賴(lài)圖如圖3所示,在圖3中有兩類(lèi)點(diǎn),即實(shí)體指稱(chēng)節(jié)點(diǎn)以及候選實(shí)體節(jié)點(diǎn),以及三類(lèi)邊,即指稱(chēng)-實(shí)體邊,權(quán)重由實(shí)體流行度特征、名字串相似度特征、上下文信息相似度特征、多指稱(chēng)聯(lián)合推斷概率特征和實(shí)體-領(lǐng)域相關(guān)度特征這5類(lèi)特征值加權(quán)得到;指稱(chēng)-指稱(chēng)邊,權(quán)重由實(shí)體指稱(chēng)關(guān)聯(lián)度決定;實(shí)體-實(shí)體邊,權(quán)重由實(shí)體上下文一致性和實(shí)體類(lèi)別一致性加權(quán)得到??偟膩?lái)說(shuō),指稱(chēng)-實(shí)體依賴(lài)圖是加權(quán)、無(wú)向的,實(shí)體端節(jié)點(diǎn)比較密集。
值得注意的是,在現(xiàn)有的方法中,大多數(shù)集中在利用指稱(chēng)-實(shí)體邊以及實(shí)體-實(shí)體邊。但在本發(fā)明中,建立了指稱(chēng)-指稱(chēng)邊,因?yàn)槠鋵?duì)整個(gè)消歧結(jié)果也會(huì)有影響。具體而言,如果兩個(gè)實(shí)體指稱(chēng)在數(shù)據(jù)集文檔中多次一起出現(xiàn),那么它們的消歧結(jié)果肯定是有聯(lián)系的;從另一方面來(lái)說(shuō),如果一個(gè)實(shí)體指稱(chēng)和多個(gè)同文檔的指稱(chēng)在不同的數(shù)據(jù)集文檔中共現(xiàn),說(shuō)明這個(gè)實(shí)體指稱(chēng)的結(jié)果是很重要的,并且它的消歧結(jié)果會(huì)影響到其它指稱(chēng)的消歧結(jié)果。通過(guò)定義實(shí)體指稱(chēng)關(guān)聯(lián)度,增加這類(lèi)實(shí)體指稱(chēng)所對(duì)應(yīng)的候選實(shí)體的權(quán)重,能夠使得其相對(duì)而言在靠后的步驟中被近似算法所處理,進(jìn)而避免這些實(shí)體指稱(chēng)可能的錯(cuò)誤消歧結(jié)果對(duì)其它指稱(chēng)的消歧帶來(lái)的負(fù)面影響。
當(dāng)給定一個(gè)指稱(chēng)-實(shí)體圖時(shí),需要找出一個(gè)包含所有實(shí)體指稱(chēng)并且每個(gè)指稱(chēng)只與一個(gè)候選實(shí)體相連的密集子圖,從而達(dá)到實(shí)體指稱(chēng)消歧的目的。
在本發(fā)明中,整個(gè)消歧過(guò)程主要包括兩個(gè)階段,在第一階段首先找出一些簡(jiǎn)單而又容易識(shí)別出的實(shí)體指稱(chēng)。這些指稱(chēng)一般不具有歧義,并且通過(guò)第一次近似算法,能得到相應(yīng)的映射實(shí)體;實(shí)際運(yùn)用中,定義它們?yōu)楹蜻x實(shí)體數(shù)少于三個(gè)的實(shí)體指稱(chēng)。根據(jù)第一階段確定的實(shí)體,可以確定整個(gè)文本所對(duì)應(yīng)的領(lǐng)域。進(jìn)而在第二階段對(duì)歧義性更大的剩余實(shí)體指稱(chēng)消歧的時(shí)候,能夠相應(yīng)的限定消歧的范圍。這主要體現(xiàn)在第一階段消歧時(shí)候,rel(m,ei)均只能返回0值,而在第二個(gè)階段此項(xiàng)便能正常取值了。這種分階段的處理方式不僅減輕集體消歧時(shí)計(jì)算的復(fù)雜度,并且給歧義性更大的實(shí)體指稱(chēng)增添了更多更準(zhǔn)確的特征。具體的流程步驟可參見(jiàn)圖1或圖4。
該消歧過(guò)程可以表示為:
3.1)輸入文本所有實(shí)體指稱(chēng)及候選實(shí)體;
3.2)根據(jù)實(shí)體指稱(chēng)對(duì)應(yīng)候選實(shí)體個(gè)數(shù)是否小于衡量值,選出簡(jiǎn)單實(shí)體指稱(chēng);
3.3)運(yùn)用近似算法對(duì)該實(shí)體指稱(chēng)進(jìn)行集體消歧;
3.4)將文本的領(lǐng)域設(shè)置為步驟3.3)消歧得到的正確實(shí)體所屬的領(lǐng)域;
3.5)對(duì)剩下的實(shí)體指稱(chēng),即非簡(jiǎn)單實(shí)體指稱(chēng),利用領(lǐng)域特征,重新計(jì)算相似度值以及權(quán)重,使用近似算法進(jìn)行消歧得到最后的結(jié)果。
本發(fā)明在消歧過(guò)程中圖算法的設(shè)計(jì),提出了一種近似算法,首先是如何定義密集子圖的衡量方式。一般的方法以子圖中所有邊的權(quán)重之和作為衡量指標(biāo),從而確定密集子圖,即最后的消歧結(jié)果。但是對(duì)消歧問(wèn)題來(lái)講,這種方式會(huì)面臨一個(gè)很明顯的問(wèn)題:容易消歧的節(jié)點(diǎn)相連的邊權(quán)重一般會(huì)比較大,而相對(duì)而言難消歧的節(jié)點(diǎn)相連的邊權(quán)重會(huì)比較小。以求和的方式作為衡量指標(biāo)容易忽視難消歧節(jié)點(diǎn)的消歧結(jié)果,進(jìn)而降低消歧的準(zhǔn)確性。因此,受已有方法的思想啟發(fā),本發(fā)明定義一個(gè)節(jié)點(diǎn)的度數(shù)為其鄰接邊的權(quán)重之和,并定義一個(gè)子圖的密集度為圖中所有節(jié)點(diǎn)中最小的度,則待優(yōu)化的目標(biāo)是在符合子圖定義條件下使子圖的密集度最大。
由于上述密集子圖計(jì)算法問(wèn)題是np-難的。為快速解決此問(wèn)題,采用貪婪近似算法。此算法通過(guò)逐步移除具有最小度的候選實(shí)體節(jié)點(diǎn)生成一系列的子圖。在這些子圖之中,取具有最大密集度的子圖為最終的結(jié)果。
為得到消歧結(jié)果,在算法中加上每個(gè)實(shí)體指稱(chēng)節(jié)點(diǎn)有且只有一個(gè)實(shí)體節(jié)點(diǎn)與之對(duì)應(yīng)的限制條件,但此舉可能導(dǎo)致局部最優(yōu)問(wèn)題。為盡量減少局部最優(yōu)解,只保留候選實(shí)體集合中指稱(chēng)-實(shí)體特征加權(quán)值最大的幾個(gè)實(shí)體;具體到實(shí)驗(yàn)中,通過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn),保留5個(gè)時(shí)算法的效果最好,近似算法步驟可參見(jiàn)圖5,具體表示為:
s1)輸入指稱(chēng)-實(shí)體依賴(lài)圖;
s2)對(duì)每個(gè)實(shí)體指稱(chēng)m,計(jì)算其與候選實(shí)體ei的指稱(chēng)-實(shí)體相似度值,保留指稱(chēng)-實(shí)體相似度值最大的五個(gè)候選實(shí)體;
s3)對(duì)每個(gè)對(duì)應(yīng)于實(shí)體指稱(chēng)m的候選實(shí)體ei,計(jì)算節(jié)點(diǎn)度數(shù)(參見(jiàn)目標(biāo)方程);
s4)移除指稱(chēng)-實(shí)體依賴(lài)圖中節(jié)點(diǎn)度數(shù)最小的候選實(shí)體,更新節(jié)點(diǎn)度數(shù);
其中,當(dāng)節(jié)點(diǎn)度數(shù)最小的候選實(shí)體是某實(shí)體指稱(chēng)對(duì)應(yīng)的最后的候選實(shí)體時(shí),跳過(guò)該候選實(shí)體;
s5)當(dāng)圖中所有的候選實(shí)體均為其對(duì)應(yīng)實(shí)體指稱(chēng)的最后一個(gè)候選實(shí)體時(shí),終止移除過(guò)程,輸出結(jié)果。
其中,所述s3)中,節(jié)點(diǎn)ei的度數(shù)
以上實(shí)施例僅起到解釋本發(fā)明技術(shù)方案的作用,本發(fā)明所要求的保護(hù)范圍并不局限于上述實(shí)施例所述的實(shí)現(xiàn)系統(tǒng)和具體實(shí)施步驟。因此,僅對(duì)上述實(shí)施例中具體的公式及算法進(jìn)行簡(jiǎn)單替換,但其實(shí)質(zhì)內(nèi)容仍與本發(fā)明所述方法相一致的技術(shù)方案,均應(yīng)屬于本發(fā)明的保護(hù)范圍。