一種基于在線百科鏈接實(shí)體的知識(shí)抽取方法
【專利摘要】本發(fā)明屬于開放知識(shí)抽取【技術(shù)領(lǐng)域】,具體為一種基于在線百科鏈接實(shí)體的知識(shí)抽取方法。其通過(guò)有效的證據(jù)融合方法移除鏈接實(shí)體中的不相關(guān)實(shí)體,得到高質(zhì)量的相關(guān)鏈接實(shí)體;然后利用Gmeans聚類方法對(duì)相關(guān)的鏈接實(shí)體做聚類,用基于LCA的類標(biāo)簽生成方法為每個(gè)類產(chǎn)生一個(gè)描述性的類標(biāo)簽,這樣每個(gè)類對(duì)應(yīng)的實(shí)體集合和類標(biāo)簽構(gòu)成一組知識(shí);最后,為了提高大數(shù)據(jù)量實(shí)體的聚類效率,使用基于最大生成樹的類復(fù)用機(jī)制,從而極大節(jié)約聚類時(shí)間。本發(fā)明不同于傳統(tǒng)的知識(shí)抽取方法,其抽取基于在線百科的鏈接實(shí)體,而不是正文內(nèi)容,極大的避免了自然語(yǔ)言處理方法的計(jì)算代價(jià)高、錯(cuò)誤率高等缺點(diǎn),可以高效地處理大規(guī)模數(shù)據(jù)。
【專利說(shuō)明】—種基于在線百科鏈接實(shí)體的知識(shí)抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于開放知識(shí)抽取【技術(shù)領(lǐng)域】,具體涉及一種基于在線百科鏈接實(shí)體的知識(shí)抽取方法。
【背景技術(shù)】
[0002]在線百科如維基百科,是互聯(lián)網(wǎng)上最重要的開放數(shù)據(jù)資源,為知識(shí)獲取提供最權(quán)威,最全面的知識(shí)源。在線百科是數(shù)據(jù)信息時(shí)代最有價(jià)值的信息,因?yàn)樵诰€百科中部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化的,且是可以被機(jī)器理解的。結(jié)構(gòu)化的數(shù)據(jù)能夠讓用戶直接理解知識(shí),并且廣泛應(yīng)用于搜索引擎、問(wèn)題回答等。
[0003]在線百科結(jié)構(gòu)化數(shù)據(jù)的代表是Infobox (或稱屬性信息表)。但是當(dāng)前Infobox表存在一些問(wèn)題:首先,Infobox表不完整。在維基百科中接近55%的詞條沒(méi)有Infobox;對(duì)于存在Infobox的詞條也存在屬性或者屬性值缺失的現(xiàn)象。其次,Infobox表中存在大量不一致。其中實(shí)體的屬性存在不一致,實(shí)體的屬性值也會(huì)存在不一致。出現(xiàn)這些問(wèn)題的原因是在線百科允許用戶進(jìn)行自由編輯,不同用戶有不同的理解和表達(dá)方式,從而導(dǎo)致信息描述不一致。另外,人工編輯不僅會(huì)出現(xiàn)錯(cuò)誤而且耗時(shí)耗力。
[0004]當(dāng)前存在一些從文本中抽取知識(shí)的方法,但是這些方法一般都需要處理自然語(yǔ)言,這樣就不可避免的使用命名實(shí)體識(shí)別、句子解析、關(guān)系抽取等技術(shù)。但是這些方法一般開銷較大,需要大量的訓(xùn)練樣本來(lái)進(jìn)行監(jiān)督學(xué)習(xí),而且錯(cuò)誤率也比較高。
【發(fā)明內(nèi)容】
[0005]本發(fā)明針對(duì)傳統(tǒng)知識(shí)抽取效率低,錯(cuò)誤率高的缺點(diǎn),考慮到鏈接實(shí)體被用戶區(qū)別于其他實(shí)體被標(biāo)記出來(lái),是基于鏈接實(shí)體和詞條存在潛在的語(yǔ)義關(guān)系,提出一種準(zhǔn)確、高效的針對(duì)基于鏈接實(shí)體的結(jié)構(gòu)化知識(shí)抽取方法。
[0006]本發(fā)明利用鏈接實(shí)體與詞條間潛在的語(yǔ)義關(guān)系進(jìn)行知識(shí)抽取。但是利用鏈接實(shí)體進(jìn)行知識(shí)發(fā)現(xiàn)仍然存在三個(gè)重要問(wèn)題:第一,如何識(shí)別不相關(guān)的鏈接實(shí)體。第二,如何從相關(guān)的鏈接實(shí)體發(fā)現(xiàn)知識(shí)。第三,針對(duì)海量百科數(shù)據(jù),如何提高知識(shí)抽取的效率。
[0007]針對(duì)以上問(wèn)題,本發(fā)明提供的一種基于在線百科鏈接實(shí)體的知識(shí)抽取方法,其具體步驟包括:
(1)不相關(guān)鏈接實(shí)體的識(shí)別與去除
結(jié)合WJC和PMI這兩種簡(jiǎn)單的語(yǔ)義相關(guān)性度量方法,提出基于位置的證據(jù)融合的排序方法,得到證據(jù)融合的綜合指標(biāo),設(shè)定噪音閾值,識(shí)別相關(guān)鏈接實(shí)體和不相關(guān)鏈接實(shí)體,將低于閾值的鏈接實(shí)體看作不相關(guān)鏈接實(shí)體并移除;
(2)相關(guān)鏈接實(shí)體的聚類與類標(biāo)簽生成
使用Gmeans聚類方法通過(guò)設(shè)定的置信度選擇聚類截止條件對(duì)相關(guān)鏈接實(shí)體進(jìn)行聚類的同時(shí),使用Kmeans++方法選擇初始聚類點(diǎn),然后通過(guò)基于LCA的類標(biāo)簽產(chǎn)生方法得到類的標(biāo)簽,以此產(chǎn)生的每個(gè)類,類標(biāo)簽組合構(gòu)成一組知識(shí),類標(biāo)簽描述知識(shí)的屬性,類中的實(shí)體對(duì)應(yīng)該屬性下的屬性值;
(3)基于類復(fù)用的高效聚類
使用基于最大生成樹的類復(fù)用方法對(duì)步驟(2)中得到的不同類通過(guò)類的復(fù)用進(jìn)行優(yōu)化,實(shí)現(xiàn)高效聚類,再循環(huán)進(jìn)行步驟(2)中操作。
[0008]本發(fā)明技術(shù)方案具體描述如下:
一、基于位置的證據(jù)融合的排序方法
為了發(fā)現(xiàn)鏈接實(shí)體中的語(yǔ)義相關(guān)實(shí)體,本發(fā)明使用證據(jù)融合的方法來(lái)提高相關(guān)性排序的準(zhǔn)確度。
[0009]兩種簡(jiǎn)單的語(yǔ)義相關(guān)性度量方法。
[0010]為了識(shí)別不相關(guān)的實(shí)體,需要度量實(shí)體相關(guān)性。針對(duì)x(定義:百科頁(yè)面中的一個(gè)實(shí)體X)和I (定義:百科頁(yè)面中的一個(gè)實(shí)體y),首先使用兩種簡(jiǎn)單的相關(guān)性度量公式PMI (X,y)(定義:PMI全稱為Pointwise Mutual Information,表示點(diǎn)互信息,即描述兩個(gè)實(shí)體共同出現(xiàn)的概率)和WJC (X,y)(定義:全稱為Weighted Jaccard Coefficient,表示為加權(quán)Jaccard系數(shù),描述兩個(gè)實(shí)體鏈接實(shí)體的相似性)。其中PMI (x, y)中p (x, y)(定義:兩個(gè)實(shí)體共同出現(xiàn)在百科頁(yè)面的概率)表示兩個(gè)實(shí)體作為鏈接實(shí)體一起出現(xiàn)在同一個(gè)實(shí)體頁(yè)面的概率,P(X)或P(y)(定義:實(shí)體X或y出現(xiàn)在百科頁(yè)面的概率)分別表示實(shí)體作為鏈接實(shí)體
出現(xiàn)在一個(gè)實(shí)體頁(yè)面的概率。在WJC (X,y)中Nx (或Ny )(定義:實(shí)體X或y的鏈接實(shí)體
集合)表示實(shí)體χ(或y)百科頁(yè)面鏈接實(shí)體集合,w(e)(或W(e'))(定義:實(shí)體e或e'的權(quán)
重)表示為實(shí)體作為鏈接實(shí)體出現(xiàn)在全部百科頁(yè)面的IDF(定義:全稱為Inverse DocumentFrequency,表示反轉(zhuǎn)文檔頻率)權(quán)重。
【權(quán)利要求】
1.一種基于在線百科鏈接實(shí)體的知識(shí)抽取方法,其特征在于,具體步驟如下: (1)不相關(guān)鏈接實(shí)體的識(shí)別與去除 結(jié)合WJC和PMI這兩種簡(jiǎn)單的語(yǔ)義相關(guān)性度量方法,提出基于位置的證據(jù)融合的排序方法,得到證據(jù)融合的綜合指標(biāo),設(shè)定噪音閾值,識(shí)別相關(guān)鏈接實(shí)體和不相關(guān)鏈接實(shí)體,將低于閾值的鏈接實(shí)體看作不相關(guān)鏈接實(shí)體并移除; (2)相關(guān)鏈接實(shí)體的聚類與類標(biāo)簽生成 使用Gmeans聚類方法通過(guò)設(shè)定的置信度選擇聚類截止條件對(duì)相關(guān)鏈接實(shí)體進(jìn)行聚類的同時(shí),使用Kmeans++方法選擇初始聚類點(diǎn),然后通過(guò)基于LCA的類標(biāo)簽產(chǎn)生方法得到類的標(biāo)簽,以此產(chǎn)生的每個(gè)類,類標(biāo)簽組合構(gòu)成一組知識(shí),類標(biāo)簽描述知識(shí)的屬性,類中的實(shí)體對(duì)應(yīng)該屬性下的屬性值; (3)基于類復(fù)用的聚類 使用基于最大生成樹的類復(fù)用方法對(duì)步驟(2)中得到的不同類通過(guò)類的復(fù)用進(jìn)行優(yōu)化,實(shí)現(xiàn)高效聚類,再循環(huán)進(jìn)行步驟(2)的操作; 其中: 步驟(1)中,基于位置的證據(jù)融合的排序方法,具體如下: 首先針對(duì)實(shí)體e在P M I中的排序位置^(e),實(shí)體e在WJC中的排序位置r2(e),計(jì)算用于表示實(shí)體e在兩種排序中的位置差異性ratio (e),公式如下:
【文檔編號(hào)】G06F17/30GK103902649SQ201410052292
【公開日】2014年7月2日 申請(qǐng)日期:2014年2月17日 優(yōu)先權(quán)日:2014年2月17日
【發(fā)明者】張可尊, 肖仰華, 汪衛(wèi) 申請(qǐng)人:復(fù)旦大學(xué)