一種基于圖模型的實(shí)體鏈接算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息庫(kù)文本處理技術(shù)領(lǐng)域,尤其是一種基于圖模型的實(shí)體鏈接算法。
【背景技術(shù)】
[0002] 實(shí)體鏈接任務(wù)的研究對(duì)象是包含任務(wù)、機(jī)構(gòu)和地方三種類型的實(shí)體名詞,其研究 目標(biāo)是:給定一個(gè)包含目標(biāo)實(shí)體以及支撐該查詢?cè)~的背景文檔的查詢,將次目標(biāo)實(shí)體與已 有知識(shí)庫(kù)中具有互相指代關(guān)系的實(shí)體進(jìn)行正確連接,若知識(shí)庫(kù)中不存在與查詢實(shí)體相連接 的實(shí)體節(jié)點(diǎn)稱為非KB實(shí)體,對(duì)此類非KB實(shí)體進(jìn)行聚類。將普遍性查詢需求的實(shí)體加入到 知識(shí)擴(kuò)種,對(duì)知識(shí)庫(kù)進(jìn)行擴(kuò)展和維護(hù)。因此,實(shí)體鏈接任務(wù)一方面可以準(zhǔn)確的反饋用戶的查 詢結(jié)果,另一方面還可以對(duì)已有知識(shí)庫(kù)進(jìn)行擴(kuò)展,豐富知識(shí)庫(kù)的信息。實(shí)體鏈接可以與信息 抽取、知識(shí)檢索、問(wèn)答系統(tǒng)、文本挖掘等技術(shù)結(jié)合,具有極為廣泛地應(yīng)用場(chǎng)景。
[0003] 目前,實(shí)體鏈接可以分為候選實(shí)體形成和候選實(shí)體排名兩個(gè)模塊,候選實(shí)體形成 就是利用相關(guān)信息,給出待鏈接實(shí)體可能表示的實(shí)體列表,主要有分為基于命名詞典的技 術(shù),基于局部文檔的表面形式擴(kuò)展。候選實(shí)體排名就是對(duì)從待鏈接實(shí)體中選擇待鏈接實(shí)體 真正的映射實(shí)體,主要分為監(jiān)督學(xué)習(xí)的方法和無(wú)監(jiān)督學(xué)習(xí)的方法。監(jiān)督的排序方法的優(yōu)點(diǎn) 是:利用了訓(xùn)練語(yǔ)料中的特征信息,對(duì)其中的規(guī)律進(jìn)行了挖掘和利用。不足之處在于,此種 方法需要人工標(biāo)注數(shù)據(jù)集,需要大量人力和時(shí)間,并且并未對(duì)文章中存在的一些描述目標(biāo) 實(shí)體的語(yǔ)義信息進(jìn)行挖掘,而是將文章中出現(xiàn)的所有實(shí)體同等看待,忽略了目標(biāo)實(shí)體的語(yǔ) 義信息的作用。無(wú)監(jiān)督學(xué)習(xí)的方法優(yōu)點(diǎn)在于不需要標(biāo)注數(shù)據(jù),省去的大量的人力和時(shí)間,缺 點(diǎn)在于特征不好融合。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足而設(shè)計(jì)的一種基于圖模型的實(shí)體鏈接算法, 采用LDA對(duì)維基百科知識(shí)庫(kù)形成候選實(shí)體之間構(gòu)造語(yǔ)義特征,同時(shí)利用利用維基百科的鏈 接結(jié)構(gòu)對(duì)實(shí)體和實(shí)體之間的構(gòu)建關(guān)系形成圖模型,然后將實(shí)體特征融入圖模型中,利用改 進(jìn)的PageRank算法對(duì)實(shí)體進(jìn)行排名,得到實(shí)體鏈接的結(jié)果,方法簡(jiǎn)便,無(wú)需人工標(biāo)注數(shù)據(jù) 集,省時(shí)省力,實(shí)體特征融合好。
[0005] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種基于圖模型的實(shí)體鏈接算法,其特點(diǎn)是利用 維基百科知識(shí)庫(kù)形成候選實(shí)體,然后運(yùn)用LDA對(duì)實(shí)體之間構(gòu)造語(yǔ)義特征,以維基百科的鏈 接結(jié)構(gòu)對(duì)實(shí)體和實(shí)體之間構(gòu)建關(guān)系形成圖模型,并將相關(guān)語(yǔ)義特征特征融入圖模型中,以 PageRank算法對(duì)實(shí)體進(jìn)行排名,得到實(shí)體鏈接的結(jié)果,實(shí)體鏈接算法包括以下具體步驟:
[0006] ( 一)、命名詞典
[0007] 對(duì)維基百科下載的無(wú)規(guī)則數(shù)據(jù)利用JWPL工具轉(zhuǎn)化為有規(guī)則的數(shù)據(jù)后導(dǎo)入維基百 科離線數(shù)據(jù)庫(kù),得到實(shí)體頁(yè)面、重定向頁(yè)面、消歧頁(yè)面和維基百科中超鏈接的特征,將不同 類型的特征合并為不同名稱的實(shí)體,并以哈希映射這些實(shí)體建立離線詞典。
[0008] (二)、構(gòu)造待鏈接實(shí)體的候選實(shí)體集
[0009] 對(duì)不同名稱的實(shí)體與文本中待鏈接實(shí)體進(jìn)行匹配,將一些名稱與待鏈接實(shí)體相似 性高的實(shí)體被征入候選,生成待鏈接實(shí)體的候選實(shí)體集;所述匹配為實(shí)體名稱全包含或部 分包含待鏈接實(shí)體,且實(shí)體名稱精確匹配了待鏈接實(shí)體中所有單詞的首字母,實(shí)體名稱和 待鏈接實(shí)體共享若干共同的單詞;所述相似性采用字符Dice系數(shù)和海明距離測(cè)量。
[0010](三)、相關(guān)特征的計(jì)算
[0011] ⑴、實(shí)體流行度
[0012] 采用下述(a)公式計(jì)算實(shí)體流行度:
[0014] 其中:實(shí)體;m為待鏈接實(shí)體;count Je1)為實(shí)體的鏈接數(shù);
[0015] ⑵、文本相似性
[0016] 根據(jù)實(shí)體所在的上下文,利用LDA得到待鏈接實(shí)體和候選實(shí)體所在文本中詞語(yǔ)關(guān) 于主題的分布,以及每一文本的詞語(yǔ)得到關(guān)于主題的概率分布,采用下述(b)和(C)公式計(jì) 算Zero-KL距離,取Zero-KL距離的倒數(shù)為待鏈接實(shí)體和其候選實(shí)體所在的文本之間的文 本相似性SimText (e;);
[0019] 其中:γ為閾值。
[0020] (四)、圖模型的構(gòu)建
[0021] (1)、相關(guān)特征的融合
[0022] 將實(shí)體流行度和文本相似性采用下述(d)杰卡德相似性公式計(jì)算實(shí)體之間主題 一致性,進(jìn)行兩相關(guān)特征的融合;
[0024] ⑵、圖模型的形成
[0025] 以維基百科的鏈接結(jié)構(gòu)對(duì)實(shí)體和實(shí)體之間構(gòu)建關(guān)系形成圖模型,并將候選實(shí)體的 流行度、文本相似性和實(shí)體之間主題一致性的語(yǔ)義特征融入圖模型。
[0026](五)、候選實(shí)體的排名
[0027] ⑴、將實(shí)體流行度和文本相似性采用下述(e)式進(jìn)行特征合并,得到節(jié)點(diǎn)的初始 的權(quán)重;
[0028] Weight(Gi) = λ pop (e;) + (1-λ ) SimText (e;) (e)
[0029] 其中:λ為平衡實(shí)體流行度和文本相似性的參數(shù);
[0030] (2)、采用下述(f)和(g)公式計(jì)算圖模型中節(jié)點(diǎn)的權(quán)重;
[0033] (3)、采用下述(h)和(i)公式對(duì)圖模型中節(jié)點(diǎn)的權(quán)重與初始權(quán)重進(jìn)行計(jì)算排名, 得到兩個(gè)得分排名最高的實(shí)體;
[0034] Rm(Sij j) = IConf Ceij j) XPR(Gij j) (h)
[0035] Rs(Gij j) = IConf Ceij ^+PR(Gij j); ⑴
[0036] ⑷、將上述兩個(gè)得分排名最高的實(shí)體采用下述(j)和(k)公式計(jì)算兩實(shí)體之間的 差異;
[0039] 根據(jù)上述計(jì)算結(jié)果,挑選每個(gè)待鏈接實(shí)體的候選實(shí)體列表中得分最高的實(shí)體為實(shí) 體鏈接的結(jié)果。
[0040] 本發(fā)明與現(xiàn)有技術(shù)相比具有實(shí)體特征融合好,實(shí)體鏈接的結(jié)果可靠性高,利用維 基百科下載數(shù)據(jù),不需要額外成本,尤其無(wú)需人工標(biāo)注數(shù)據(jù)集,方法簡(jiǎn)便,使用方便,省時(shí)省 力。
【附圖說(shuō)明】
[0041] 圖1為本發(fā)明操作流程圖。
【具體實(shí)施方式】
[0042] 參閱附圖1,本發(fā)明利用維基百科知識(shí)庫(kù)形成候選實(shí)體,然后運(yùn)用LDA對(duì)實(shí)體之間 構(gòu)造語(yǔ)義特征,以維基百科的鏈接結(jié)構(gòu)對(duì)實(shí)體和實(shí)體之間構(gòu)建關(guān)系形成圖模型,并將相關(guān) 語(yǔ)義特征特征融入圖模型中,以PageRank算法對(duì)實(shí)體進(jìn)行排名,得到實(shí)體鏈接的結(jié)果,實(shí) 體鏈接算法包括以下具體步驟:
[0043] ( 一)、命名詞典
[0044] 對(duì)維基百科下載的無(wú)規(guī)則數(shù)據(jù)利用JWPL工具轉(zhuǎn)化為有規(guī)則的數(shù)據(jù)后導(dǎo)入維基百 科離線數(shù)據(jù)庫(kù),得到實(shí)體頁(yè)面、重定向頁(yè)面、消歧頁(yè)面和維基百科中超鏈接的特征,將不同 類型的特征合并為不同名稱的實(shí)體,并以哈希映射這些實(shí)體建立離線詞典。
[0045] 維基百科提供一系列對(duì)于構(gòu)建候選實(shí)體有用的特征結(jié)構(gòu),例如,實(shí)體頁(yè)面、重定向 頁(yè)面、消歧頁(yè)面、在維基百科中的超鏈接。這些實(shí)體鏈接系統(tǒng)利用不同的特征合并不同名稱 和它們的映射實(shí)體來(lái)建立離線詞典D,同時(shí)利用構(gòu)建的詞典D生成實(shí)體候選,命名詞典D包 含了關(guān)于不同命名實(shí)體的名稱大量信息,利用名稱變化、名稱縮寫、名稱混淆名、名稱拼寫 變化以及小名等等。命名詞典D是(key, value)哈希映射,在這里,鍵(key)為一系列名稱 列表,假設(shè)k是鍵中的一個(gè)名稱,那么它映射的值k. value是一系列能表示該名稱k的實(shí) 體。詞典D是利用維基百科的特征構(gòu)建的,其實(shí)體頁(yè)面特征為:維基百科中的每個(gè)實(shí)體頁(yè)面 描述單一的實(shí)體,并包含這個(gè)實(shí)體的相關(guān)信息。通常用每個(gè)頁(yè)面標(biāo)題代表該實(shí)體的名稱,例 如頁(yè)面標(biāo)題"Microsoft"為大型的軟件公司,總部設(shè)在雷德蒙德。因此,實(shí)體頁(yè)面的標(biāo)題被 添加到詞典D中的鍵作為名稱k,該頁(yè)面被描述的實(shí)體被添加作為k. value。
[0046] 所述重定向頁(yè)面特征為:記錄同義詞術(shù)語(yǔ)、縮寫或其它指向的實(shí)體的變體。例 如,文章標(biāo)題為〃Microsoft Corporation〃,這是"Microsoft"的全名,它包含一個(gè)對(duì)實(shí)體 "Microsoft"這篇文章的指向。因此,重定向的標(biāo)題頁(yè)被添加到詞典D中的鍵列中作為名稱 k,同時(shí)指向?qū)嶓w被添加作為k. value。
[0047] 所述消歧頁(yè)面特征為:當(dāng)同一個(gè)名稱在維基百科中有多個(gè)對(duì)應(yīng)的實(shí)體時(shí),維基百 科提供消歧頁(yè)面來(lái)區(qū)分這些實(shí)體,該消歧頁(yè)面包含了表示這些實(shí)體的一個(gè)列表。例如,消歧 頁(yè)面"New York"包含了 44個(gè)和"New York"有相同名稱的實(shí)體,其中包括國(guó)際大都市紐約 市和紐約時(shí)報(bào)等。消歧頁(yè)面對(duì)提取實(shí)體縮寫和別名非常有幫助,對(duì)于每個(gè)消歧頁(yè)面,頁(yè)面標(biāo) 題被添加到詞典D中的鍵作為名稱k,而消歧頁(yè)面中的實(shí)體列表被添加作為k. value。
[0048] 所述維基百科中超鏈接特征為:在維基百科中的文章通常包括鏈接到這篇 文章中提到的實(shí)體的頁(yè)面,一個(gè)指向?qū)嶓w頁(yè)面鏈接的錨文本提供了非常有用的同義詞 資源,以及其它指向?qū)嶓w的變體,這些變體能夠被當(dāng)作鏈接實(shí)體的一個(gè)名稱。例如,在 "Hewlett-Packard"這個(gè)實(shí)體頁(yè)面中,有一個(gè)超鏈接指向?qū)嶓w"William Reddington Hewlett",它的錨文本為 "Bill Hewlett",這是一個(gè)實(shí)體 "William Reddington Hewlett" 的別名,一個(gè)超鏈接的錨文本被添加到詞典D中的鍵作為名稱k,指向的實(shí)體被添加作為 k. value〇
[0049] 利用上述的維基百科特征,具體來(lái)說(shuō),首先下載離線的維基百科數(shù)據(jù),然后利用 JWPL工具,將無(wú)規(guī)則的數(shù)據(jù)轉(zhuǎn)化為有規(guī)則的速度,然后導(dǎo)入到數(shù)據(jù)庫(kù)中,然后可以從數(shù)據(jù)庫(kù) 中得到以上四種類型的特征(實(shí)體頁(yè)面,重定向頁(yè)面,消歧頁(yè)面,維基百科中的超鏈接),利 用以上的維基百科特征,構(gòu)建了詞典D。
[0050](二)、構(gòu)造待鏈接實(shí)體的候選實(shí)體集
[0051 ] 對(duì)不同名稱的實(shí)體與文本中待鏈接實(shí)體進(jìn)行匹配,將一些名稱與待鏈接實(shí)體相似 性高的實(shí)體被征入候選,生成待鏈接實(shí)體的候選實(shí)體集;所述匹配為實(shí)體名稱全包含或部 分包含待鏈接實(shí)體,且實(shí)體名稱精確匹配了待鏈接實(shí)體中所有單詞的首字母,實(shí)體名稱和 待鏈接實(shí)體共享若干共同的單詞;所述相似性采用字符Dice系數(shù)和海明距離測(cè)量。
[0052] 基于詞典構(gòu)建的這種方