欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向多源網(wǎng)絡(luò)百科的知識(shí)庫(kù)構(gòu)建方法與流程

文檔序號(hào):11216343閱讀:456來(lái)源:國(guó)知局
一種面向多源網(wǎng)絡(luò)百科的知識(shí)庫(kù)構(gòu)建方法與流程

本發(fā)明主要涉及互聯(lián)網(wǎng)領(lǐng)域,特別涉及開放領(lǐng)域和全領(lǐng)域的知識(shí)庫(kù)構(gòu)建,提出了一種全新的自動(dòng)構(gòu)建方法,適用于基于網(wǎng)絡(luò)百科的知識(shí)庫(kù)自動(dòng)構(gòu)建,屬于知識(shí)庫(kù)構(gòu)建領(lǐng)域。



背景技術(shù):

隨著互聯(lián)網(wǎng)和信息技術(shù)的不斷發(fā)展,越來(lái)越多的知識(shí)通過(guò)人們的編輯、修改等方式被放到網(wǎng)上,網(wǎng)絡(luò)逐漸成為人們快速獲取新知識(shí)的第一途徑。如何在海量的網(wǎng)絡(luò)數(shù)據(jù)中剔除垃圾信息、提取有用的信息、生成可以批量存儲(chǔ)和查詢的結(jié)構(gòu)化信息,是信息抽取領(lǐng)域的一個(gè)重要任務(wù),也是構(gòu)建知識(shí)庫(kù)的出發(fā)點(diǎn)。

知識(shí)庫(kù)一般以(主語(yǔ),謂詞,客體)的三元組形式抽取和存儲(chǔ)。比如(e.劉翔,p.出生地,e.上海)這條三元組就描述了前田徑運(yùn)動(dòng)員劉翔的出生地點(diǎn)信息,這里面“劉翔”和“上海”都是知識(shí)庫(kù)里的實(shí)體(或者叫“概念”)。知識(shí)庫(kù)可以類比成以實(shí)體為點(diǎn),通過(guò)不同類別的關(guān)系連接的有向圖。

常見的知識(shí)庫(kù)構(gòu)建方法主要分為兩大類,基于網(wǎng)絡(luò)百科的全領(lǐng)域知識(shí)庫(kù)和基于特定領(lǐng)域的專家知識(shí)庫(kù)。前者著名的知識(shí)庫(kù)有dbpedia、freebase,他們基于英文維基百科;后者則主要基于專家知識(shí),往往采用手工構(gòu)建的方式,可擴(kuò)展性較低。英文網(wǎng)絡(luò)百科由于編輯質(zhì)量高,很容易從信息框(或者叫infobox)中提取結(jié)構(gòu)化的實(shí)體間關(guān)系信息。目前中文的開放領(lǐng)域知識(shí)庫(kù)還處于空白,主要是由于中文網(wǎng)絡(luò)百科編輯標(biāo)準(zhǔn)不規(guī)范、編輯者能力不足而導(dǎo)致的半結(jié)構(gòu)化信息(信息框信息)未鏈接、缺少類別體系等原因。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供一種從多種網(wǎng)絡(luò)百科來(lái)源中自動(dòng)生成知識(shí)庫(kù)的解決方法。使用該方法生成的知識(shí)庫(kù)不僅可以輸出實(shí)體的類別體系(taxonomy),還可以對(duì)三元組中的實(shí)體進(jìn)行鏈接,得到高質(zhì)量的三元組知識(shí),適用于多個(gè)網(wǎng)絡(luò)百科混合生成知識(shí)庫(kù)的需求。

首先通過(guò)構(gòu)造網(wǎng)絡(luò)爬蟲抓取多個(gè)網(wǎng)絡(luò)百科的所有頁(yè)面;然后抽取每個(gè)頁(yè)面的類別信息;接著根據(jù)抽取的類別信息自動(dòng)構(gòu)建類別樹,并將類別信息對(duì)應(yīng)到類別樹上,形成知識(shí)庫(kù)的taxonomy;然后通過(guò)收集的類別信息、信息框中的別名信息(別名指的是實(shí)體的所有名字,比如我們熟悉的前nba運(yùn)動(dòng)員“姚明”的別名有“姚明,小巨人,中國(guó)長(zhǎng)城”)、頁(yè)面html中的錨文本來(lái)找出可能指代同一概念的頁(yè)面,通過(guò)文本特征和類別信息來(lái)去除重復(fù)頁(yè)面;之后從頁(yè)面的信息框和正文中抽取三元組信息,使用類別信息、頁(yè)面的別名信息、文本信息等來(lái)對(duì)三元組客體進(jìn)行鏈接,最后生成包含taxonomy信息的標(biāo)準(zhǔn)化知識(shí)庫(kù)。該知識(shí)庫(kù)不僅包含taxonomy信息,其中的三元組的實(shí)體鏈接程度和準(zhǔn)確性都很高。

為了達(dá)到上述目的,本發(fā)明的技術(shù)方案包括:一種基于自動(dòng)構(gòu)建的類別體系、面向多源網(wǎng)絡(luò)百科的知識(shí)庫(kù)構(gòu)建方法,包括如下步驟:

(1)構(gòu)造網(wǎng)絡(luò)爬蟲從多源網(wǎng)絡(luò)百科抓取頁(yè)面。

(2)從頁(yè)面摘要和詞條標(biāo)簽等多種來(lái)源抽取頁(yè)面中的類別信息。

(3)基于類別信息自動(dòng)構(gòu)建類別樹,并將類別信息和類別樹對(duì)應(yīng),形成知識(shí)庫(kù)的類別體系(taxonomy)。類別體系的結(jié)構(gòu)一般是類別的上下級(jí)關(guān)系,是一種樹結(jié)構(gòu),內(nèi)容是不固定的,常見的類別比如“人物”,“組織機(jī)構(gòu)”,“地點(diǎn)”等等。

(4)基于類別信息等文本特性對(duì)多源百科頁(yè)面進(jìn)行去重,剩下無(wú)重復(fù)的頁(yè)面集合組成知識(shí)庫(kù)的概念(實(shí)體)集合。

(5)從頁(yè)面信息框和正文中抽取三元組信息。

(6)構(gòu)造處理時(shí)間類客體的轉(zhuǎn)換器、處理常見單位客體、處理純文本類客體、處理實(shí)體類客體等多種類別標(biāo)準(zhǔn)化轉(zhuǎn)換器,將三元組中的客體通過(guò)轉(zhuǎn)換器轉(zhuǎn)換成標(biāo)準(zhǔn)格式輸出,其中處理實(shí)體類客體的標(biāo)準(zhǔn)化轉(zhuǎn)換器基于類別信息等文本信息對(duì)客體進(jìn)行鏈接和標(biāo)準(zhǔn)化轉(zhuǎn)化。

(7)按照rdf格式輸出上一步得到的標(biāo)準(zhǔn)化三元組,類別信息也由rdf格式輸出。

在步驟(1)中,為了保證能抓取到所有的實(shí)體頁(yè)面,爬蟲應(yīng)該支持挖掘頁(yè)面中的內(nèi)鏈,遞歸的抓取頁(yè)面。不同的網(wǎng)絡(luò)百科可以分開抓取,互相沒(méi)有影響。具體是對(duì)1個(gè)還是多個(gè)網(wǎng)絡(luò)百科執(zhí)行方案,對(duì)生成的知識(shí)庫(kù)質(zhì)量沒(méi)有明顯的差別。另外,如果只是在單一知識(shí)庫(kù)上執(zhí)行該方案,顯然也能得到高質(zhì)量的知識(shí)庫(kù)。

在步驟(2)中,本發(fā)明從頁(yè)面下方的詞條標(biāo)簽和正文前幾段(即摘要部分)抽取頁(yè)面的類別信息。如果頁(yè)面含有更多的類別信息可以抽取(比如半結(jié)構(gòu)化的信息框中含有類別信息),也可以將其加入類別抽取結(jié)果中,對(duì)最終的抽取效果有提升。需要注意的是在抽取類別的時(shí)候本發(fā)明需要對(duì)文本中的類別單詞、短語(yǔ)進(jìn)行語(yǔ)義層面的自動(dòng)分析(句法分析),來(lái)保證文本中的類別單詞是修飾當(dāng)前頁(yè)面對(duì)應(yīng)的實(shí)體的。

在步驟(3)中,上一步抽取的類別信息ci是否被加入類別樹中由評(píng)分函數(shù)決定,如下式所示:

confci)=freq(ci)*std(ci)

其中freq(ci),std(ci)分別表示類別的頻率分?jǐn)?shù)和標(biāo)準(zhǔn)化程度分?jǐn)?shù),計(jì)算方法如下:

表示i在所有頁(yè)面抽取結(jié)果中的出現(xiàn)頻率,k=10

wcnt(ci)表示ci分詞之后的單詞數(shù)量

其中suf(ci)表示ci分詞之后的連續(xù)后綴集合;xij是ci分詞之后的一連續(xù)后綴,wcnt(xij)表示xij分詞之后的單詞數(shù)量。

其中freq(ci)表示ci在所有頁(yè)面類別信息中的出現(xiàn)頻率,頻率越高,freq(ci)越大;std(ci)表示ci的標(biāo)準(zhǔn)化程度。wikipedia等網(wǎng)絡(luò)百科本身有自己的類別標(biāo)簽集合,如果ci在這些類別標(biāo)簽集合中,std(ci)越大;ci分詞之后的連續(xù)后綴屬于這些類別標(biāo)簽中,std(ci)越大。比如,“20世紀(jì)美國(guó)籃球運(yùn)動(dòng)員”這個(gè)類別信息不在網(wǎng)絡(luò)百科的類別標(biāo)簽集合中,但是其分詞(“20世紀(jì)/美國(guó)/籃球/運(yùn)動(dòng)員”)中的連續(xù)后綴“籃球運(yùn)動(dòng)員”屬于,則其std(ci)值應(yīng)該處于中等水平,“上海出生”既不屬于類別標(biāo)簽,其后綴“出生”也不屬于類別標(biāo)簽,則其std(ci)值應(yīng)該較低。

本發(fā)明通過(guò)conf(ci)來(lái)對(duì)類別信息ci排序,從而得到一個(gè)大小可控(通過(guò)限制閾值大小)的類別集合。如果類別信息ci在網(wǎng)絡(luò)百科的類別有向圖中是類別信息cj的祖先類別,則本發(fā)明在類別樹上將ci標(biāo)記為cj的祖先類別,這樣本發(fā)明可以從零開始依次將類別信息加入類別樹,生成類別樹。同時(shí),如果類別信息不在維基百科的類別體系中,通過(guò)類別信息分詞后取最長(zhǎng)連續(xù)后綴的方法將其映射到本發(fā)明的類別樹上,從而生成知識(shí)庫(kù)的類別體系(taxonomy)。

在步驟(4)中,本發(fā)明首先構(gòu)造一個(gè)概念詞典,類似于在中英文字典中輸入中文單詞會(huì)顯示可能對(duì)應(yīng)的所有英文單詞(比如輸入“人”顯示“human”,“person”等)。本發(fā)明從頁(yè)面的標(biāo)題、html超鏈接的錨文本、信息框和摘要中抽取的別名,建立自然語(yǔ)言文本到候選概念的映射詞典,映射詞典的形式如下所示。

對(duì)任意2個(gè)有某個(gè)相同自然語(yǔ)言形式的候選頁(yè)面di,dj進(jìn)行相似度判斷,計(jì)算的公式如下:

isdup(di,dj)=α*contextsim(di,dj)+(1-α)*catesim(di,dj)

比較2個(gè)頁(yè)面正文的相似度以及他們含有的類別信息的相似度。需要注意的是,如果他們共有的類別在類別樹上層數(shù)越高(類別越細(xì)致),則catesim值越高。如果2個(gè)頁(yè)面di,dj相似度大于閾值,則刪除頁(yè)面信息較少者(類別數(shù)量少、外鏈少、文本少),最后得到一個(gè)沒(méi)有重復(fù)條目的概念詞典(實(shí)體集合)。

在步驟(5)中,本發(fā)明進(jìn)行最終的三元組抽取。這里主要抽取信息框中的(屬性名,屬性值)對(duì),加上頁(yè)面對(duì)應(yīng)的實(shí)體作為主語(yǔ),就生成了一個(gè)主體鏈接過(guò)的三元組,這里三元組的主體即是頁(yè)面對(duì)應(yīng)的實(shí)體,已經(jīng)完全鏈接過(guò)了,而屬性名(對(duì)應(yīng)三元組的謂詞)和屬性值(對(duì)應(yīng)三元組的客體)則還是普通的文本,并沒(méi)有鏈接。

在步驟(6)中,發(fā)明會(huì)構(gòu)造一些客體正規(guī)化轉(zhuǎn)換器(比如處理時(shí)間類客體的轉(zhuǎn)換器、處理長(zhǎng)度類客體、處理實(shí)體類客體等)對(duì)于上面抽到的每條三元組,匹配每個(gè)轉(zhuǎn)換器,然后進(jìn)入相應(yīng)的轉(zhuǎn)換器進(jìn)行標(biāo)準(zhǔn)化輸出。但是如果對(duì)于某一條三元組,所有的匹配器都不能匹配或者有多個(gè)轉(zhuǎn)換器匹配,則將其拋入預(yù)訓(xùn)練好的svm分類器進(jìn)行預(yù)測(cè),輸出的結(jié)果就是其應(yīng)該使用的轉(zhuǎn)換器。svm分類器的分類候選對(duì)應(yīng)每個(gè)轉(zhuǎn)換器。在分類器訓(xùn)練模型和測(cè)試的時(shí)候特征向量構(gòu)造如下:抽取esubj包含的類別、esubj的特征向量(可參考tomasmikolov,distributedrepresentationsofsentencesanddocuments)、p分詞后的詞性分布(148維的one-hot向量)、p分詞之后每個(gè)單詞詞向量的平均向量(詞向量基于百科正文使用word2vec預(yù)訓(xùn)練好)、客體字符串o的6維的one-hot特征向量(是否含有{數(shù)字、標(biāo)點(diǎn)符號(hào)、單位、年月日標(biāo)記、非數(shù)字類型的實(shí)體名})拼接成的特征向量。

如果判斷是實(shí)體類三元組(或者沒(méi)有被其他轉(zhuǎn)換器匹配到),先通過(guò)概念詞典找到客體oi可能的實(shí)體候選集合然后判斷每個(gè)實(shí)體候選的分?jǐn)?shù)。如果都低于閾值,則說(shuō)明實(shí)體不在知識(shí)庫(kù)里(無(wú)法聯(lián)機(jī)),不將其加入最終標(biāo)準(zhǔn)化的三元組中;否則,取分?jǐn)?shù)最高的實(shí)體作為標(biāo)準(zhǔn)的客體進(jìn)行鏈接。其中實(shí)體和三元組的相似度的分?jǐn)?shù)如下式所示

其中contextrel描述主體和候選客體實(shí)體之間的相互鏈接關(guān)系以及文本、內(nèi)鏈的重合度;caterel衡量候選客體實(shí)體的類別是否滿足謂詞p的要求。其公式如下所示:

l和h為平滑參數(shù),此處取值為2,kwd表示頁(yè)面d根據(jù)tf-idf提取的關(guān)鍵詞列表;γ和β這里都取0.5,表示頁(yè)面內(nèi)部超鏈接鏈接的url集合。

表示頁(yè)面的類別集合

與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:

1)可以基于信息抽取自動(dòng)的構(gòu)建類別體系,并在頁(yè)面與類別體系間構(gòu)建了豐富的關(guān)聯(lián)。2)通過(guò)自動(dòng)構(gòu)建的別名詞典(概念詞典)大幅度的減少需要判斷重復(fù)頁(yè)面候選,大幅提升算法復(fù)雜度。3)通過(guò)類別體系和文本信息來(lái)對(duì)三元組的客體進(jìn)行實(shí)體鏈接,提高了實(shí)體鏈接的準(zhǔn)確性。4)適用于多個(gè)網(wǎng)絡(luò)百科融合生成一個(gè)知識(shí)庫(kù)的需求。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例中的整體框架圖示;

圖2為本發(fā)明實(shí)施例中的整體流程圖示。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,可以理解的是,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)例基于維基數(shù)據(jù)和百度百科這兩個(gè)開放的網(wǎng)絡(luò)百科平臺(tái)。本領(lǐng)域技術(shù)人員應(yīng)該清楚地明白,在具體實(shí)施過(guò)程中也可以加入/替換為例如互動(dòng)百科等百科知識(shí)平臺(tái)。

本發(fā)明以“wiki:姚明”“bd∶阿里巴巴集團(tuán)”分別代表中文維基百科中頁(yè)面標(biāo)題為“姚明”的頁(yè)面和百度百科中頁(yè)面標(biāo)題為“阿里巴巴集團(tuán)”的頁(yè)面;“entity:中國(guó)”表示頁(yè)面去重后對(duì)應(yīng)的標(biāo)題為“中國(guó)”的頁(yè)面。cwiki:姚明表示從維基百科“姚明”對(duì)應(yīng)的頁(yè)面中抽取的類別集合,ti表示生成的類別體系中的某個(gè)類別節(jié)點(diǎn)。通過(guò)爬蟲抓取不同百科的所有頁(yè)面中,本發(fā)明先是通過(guò)抓取頁(yè)面中的類別信息,從中自動(dòng)構(gòu)建類別樹,進(jìn)而生成知識(shí)庫(kù)的類別體系;然后通過(guò)類別信息、自動(dòng)抽取的概念詞典以及頁(yè)面的文本信息去除重復(fù)頁(yè)面,生成知識(shí)庫(kù)的概念集合;最后將文本信息中抽取的三元組放入標(biāo)準(zhǔn)化轉(zhuǎn)化器和本發(fā)明構(gòu)造的實(shí)體鏈接器來(lái)生成標(biāo)準(zhǔn)化的三元組。使用該方法生成的知識(shí)庫(kù)不僅可以輸出實(shí)體的類別體系(taxonomy),還可以對(duì)三元組中的實(shí)體進(jìn)行鏈接,得到高質(zhì)量的三元組知識(shí),適用于多個(gè)網(wǎng)絡(luò)百科混合生成知識(shí)庫(kù)的需求。

如圖2所示,是本發(fā)明實(shí)例中的流程圖,包括如下步驟:

①構(gòu)造網(wǎng)絡(luò)爬蟲抓取多源網(wǎng)絡(luò)百科的所有頁(yè)面;

②從頁(yè)面摘要和詞條標(biāo)簽等多種來(lái)源抽取頁(yè)面中的類別信息;

③基于類別信息自動(dòng)構(gòu)建類別樹;

④將類別信息和類別樹對(duì)應(yīng);

⑤對(duì)每個(gè)百科,通過(guò)收集內(nèi)部的跳轉(zhuǎn)信息、文本中的別名信息來(lái)分別構(gòu)建各自的概念詞典;

⑥基于類別信息等文本特性對(duì)多源百科頁(yè)面進(jìn)行去重,剩下無(wú)重復(fù)的頁(yè)面集合組成知識(shí)庫(kù)的概念(實(shí)體)集合;

⑦從頁(yè)面信息框和正文中抽取三元組信息;

⑧構(gòu)造多種類別標(biāo)準(zhǔn)化轉(zhuǎn)換器,將客體轉(zhuǎn)換成標(biāo)準(zhǔn)類別,并基于類別信息等文本信息對(duì)客體是實(shí)體的情況進(jìn)行鏈接和標(biāo)準(zhǔn)化轉(zhuǎn)化;

⑨輸出標(biāo)準(zhǔn)化的三元組;

⑩輸出知識(shí)庫(kù)的類別體系。

步驟①:構(gòu)造網(wǎng)絡(luò)爬蟲抓取多源網(wǎng)絡(luò)百科的所有頁(yè)面

本實(shí)例的爬蟲按照百度百科的默認(rèn)url格式baike.baidu.com/view/xxx.htm遍歷頁(yè)面,其中xxx從1開始遍歷到2500萬(wàn)。爬蟲會(huì)挖掘頁(yè)面中的內(nèi)鏈,遞歸的抓取頁(yè)面。不同的網(wǎng)絡(luò)百科分開抓取。

步驟②:從頁(yè)面摘要和詞條標(biāo)簽等多種來(lái)源抽取頁(yè)面中的類別信息

本發(fā)明從頁(yè)面下方的詞條標(biāo)簽和正文前幾段(即摘要部分)抽取頁(yè)面的類別信息。在從正文中抽取類別信息的時(shí)候本發(fā)明需要對(duì)文本中的類別單詞、短語(yǔ)進(jìn)行句法分析來(lái)抽取摘要中的名詞短語(yǔ),另外本發(fā)明只保留修飾當(dāng)前頁(yè)面的名詞短語(yǔ),忽略掉摘要中描述其他事物的名詞短語(yǔ)。

步驟③:基于類別信息自動(dòng)構(gòu)建類別樹

在這一步驟中,本發(fā)明首先刪除低頻的類別信息(小于10次),然后使用下面的方法計(jì)算每個(gè)類別信息的分?jǐn)?shù),取分?jǐn)?shù)最高的5萬(wàn)個(gè)類別標(biāo)簽生成類別樹。類別信息ci的分?jǐn)?shù)為

conf(ci)=freq(ci)*std(ci)

其中freq(ci),std(ci)分別表示類別的頻率分?jǐn)?shù)和標(biāo)準(zhǔn)化程度分?jǐn)?shù),計(jì)算方法如下:

表示ci的出現(xiàn)頻率,k=10

wcnt(ci)表示分詞之后的單詞數(shù)量

其中suf(ci)表示ci分詞之后的連續(xù)后綴集合

比如,“20世紀(jì)美國(guó)籃球運(yùn)動(dòng)員”這個(gè)類別信息不在網(wǎng)絡(luò)百科的類別列表中,但是其分詞(“20世紀(jì)/美國(guó)/籃球/運(yùn)動(dòng)員”)中的連續(xù)后綴為“20世紀(jì)美國(guó)籃球運(yùn)動(dòng)員,美國(guó)籃球運(yùn)動(dòng)員,籃球運(yùn)動(dòng)員,運(yùn)動(dòng)員”

取conf(ci)分?jǐn)?shù)最高的5萬(wàn)個(gè)類別作為類別樹的節(jié)點(diǎn)候選。如果類別信息ci在維基百科的類別體系(本身是一個(gè)有向有環(huán)圖)中是類別信息cj的祖先類別,則本發(fā)明在類別樹上將ci標(biāo)記為cj的祖先類別,按照conf(ci)的分?jǐn)?shù)將候選節(jié)點(diǎn)加入類別樹中,同時(shí)保持樹結(jié)構(gòu),最后生成自己的類別樹。同時(shí),如果類別信息不在維基百科的類別體系中,本發(fā)明通過(guò)類別信息分詞后取在維基百科類別體系中且最長(zhǎng)的連續(xù)后綴的方法將其映射到本發(fā)明的類別樹上(比如將“現(xiàn)役中國(guó)籃球運(yùn)動(dòng)員”映射為“籃球運(yùn)動(dòng)員”加入類別樹中),從而生成知識(shí)庫(kù)的類別體系(taxonomy)。

步驟④:將類別信息和類別樹對(duì)應(yīng)

對(duì)于每個(gè)頁(yè)面的類別信息,本發(fā)明將其映射到上一步構(gòu)造的類別樹上。例如“20世紀(jì)美國(guó)籃球運(yùn)動(dòng)員”這個(gè)類別信息,本發(fā)明先對(duì)其分詞,得到“20世紀(jì)/美國(guó)/籃球/運(yùn)動(dòng)員”,然后依次查找“20世紀(jì)美國(guó)籃球運(yùn)動(dòng)員”,“美國(guó)籃球運(yùn)動(dòng)員”,“籃球運(yùn)動(dòng)員”,“運(yùn)動(dòng)員”是否在類別樹上,直到第一次找到后停止。這樣就得到了頁(yè)面到類別樹的多對(duì)多映射。

步驟⑤:對(duì)每個(gè)百科,通過(guò)收集內(nèi)部的跳轉(zhuǎn)信息、文本中的別名信息來(lái)分別構(gòu)建各自的概念詞典

本發(fā)明查找所有頁(yè)面的內(nèi)鏈、信息框中的別名信息、摘要中的別名信息來(lái)收集每個(gè)頁(yè)面的所有可能的名字。比如在nba的頁(yè)面中出現(xiàn)了超鏈接指向頁(yè)面“勒布朗·詹姆斯”,超鏈接的文本是“小皇帝”,則小皇帝是頁(yè)面“勒布朗·詹姆斯”的一個(gè)別名。收集完所有頁(yè)面,則構(gòu)造一個(gè)概念詞典,類似于屬于在中英文字典中輸入中文單詞會(huì)顯示可能對(duì)應(yīng)的所有英文單詞(比如輸入“人”顯示“human”,“person”等)。比如可以得到所有可能叫“小皇帝”的頁(yè)面列表。他們之間很可能有一些是重復(fù)的頁(yè)面。

步驟⑥:基于類別信息等文本特性對(duì)多源百科頁(yè)面進(jìn)行去重,剩下無(wú)重復(fù)的頁(yè)面集合就是知識(shí)庫(kù)的概念(實(shí)體)集合

對(duì)于上一步的概念詞典中可能包含某個(gè)相同別名的任意2個(gè)頁(yè)面,本發(fā)明都計(jì)算一下他們的相似度。雖然不同的url可能對(duì)應(yīng)同一個(gè)頁(yè)面,但是因?yàn)榕老x抓取非瞬時(shí),所以可能同樣的一個(gè)頁(yè)面在2次訪問(wèn)(不同的url指向同一個(gè)頁(yè)面)的間隔,頁(yè)面可能被編輯者修改而導(dǎo)致不同,而且網(wǎng)絡(luò)百科中本身就存在描述相同實(shí)體但是內(nèi)容有差別的頁(yè)面,所以不能簡(jiǎn)單通過(guò)頁(yè)面正文哈希值來(lái)判斷是否是同一頁(yè)面。對(duì)任意2個(gè)有某個(gè)相同自然語(yǔ)言形式的候選頁(yè)面di,dj進(jìn)行相似度判斷,計(jì)算的公式如下:

isdup(di,dj)=α*contextsim(di,dj)+(1-α)*catesim(di,dj)

其中:γ這里取0.5

kwd表示頁(yè)面d根據(jù)tf-idf提取的關(guān)鍵詞列表

deptht(t)表示類別t在taxonomy中的深度,ti表示頁(yè)面di的類別集合

如果有2個(gè)頁(yè)面相似度大于閾值,則刪除頁(yè)面信息較少者(類別數(shù)量少、外鏈少、文本少),最后得到一個(gè)沒(méi)有重復(fù)條目的概念詞典(實(shí)體集合)。

步驟⑦:從頁(yè)面信息框和正文中抽取三元組信息

這里主要抽取信息框中的(屬性名,屬性值)對(duì),加上頁(yè)面對(duì)應(yīng)的實(shí)體作為主語(yǔ),就生成了一個(gè)主體鏈接過(guò)的三元組。另外我們收集前一個(gè)方法中收集到的高頻的屬性名,并在每個(gè)頁(yè)面中收集含有這些屬性名的句子,通過(guò)句法分析挖掘其中的三元組。同樣的程序要求在摘要中的屬性名必須是直接關(guān)聯(lián)頁(yè)面實(shí)體的。通過(guò)上面兩種方式抽取三元組。

步驟⑧:構(gòu)造多種類別標(biāo)準(zhǔn)化轉(zhuǎn)換器,將客體轉(zhuǎn)換成標(biāo)準(zhǔn)類別,并基于類別信息等文本信息對(duì)客體是實(shí)體的情況進(jìn)行鏈接和標(biāo)準(zhǔn)化轉(zhuǎn)化

這里構(gòu)造了一些客體正規(guī)化轉(zhuǎn)換器(處理時(shí)間類客體的轉(zhuǎn)換器、處理常見單位客體、處理純文本類客體、處理實(shí)體類客體等)對(duì)于上面抽到的每條三元組,匹配每個(gè)轉(zhuǎn)換器,然后進(jìn)入相應(yīng)的轉(zhuǎn)換器進(jìn)行標(biāo)準(zhǔn)化輸出。

對(duì)于上一步抽取的某一條三元組<esubj,p,o>,其具體進(jìn)入哪一個(gè)轉(zhuǎn)換器處理由一個(gè)復(fù)合型分類器處理。其基于手工規(guī)則加機(jī)器學(xué)習(xí)自動(dòng)分類的復(fù)合模型。首先每個(gè)轉(zhuǎn)換器會(huì)有一個(gè)默認(rèn)的規(guī)則匹配器,比如時(shí)間類轉(zhuǎn)換器timeconverter的匹配器為匹配謂詞p是否以“日期”、“時(shí)間”、或者“成立”結(jié)尾、數(shù)字類轉(zhuǎn)換器numberconverter的匹配函數(shù)為匹配謂詞p是否以“數(shù)”或者“數(shù)量”結(jié)尾。默認(rèn)的匹配器能覆蓋大部分常見形式,但是如果對(duì)于某一條三元組,所有的匹配器都不能匹配或者有多個(gè)轉(zhuǎn)換器匹配,則將其拋入預(yù)訓(xùn)練好的svm分類器進(jìn)行預(yù)測(cè),輸出的結(jié)果就是其應(yīng)該使用的轉(zhuǎn)換器。svm分類器的分類候選對(duì)應(yīng)每個(gè)轉(zhuǎn)換器。在分類器訓(xùn)練模型和測(cè)試的時(shí)候特征向量構(gòu)造如下:抽取esubj包含的類別、esubj的特征向量(可參考tomasmikolov,distributedrepresentationsofsentencesanddocuments)、p分詞后的詞性分布(148維的one-hot向量)、p分詞之后每個(gè)單詞詞向量的平均向量(詞向量基于百科正文使用word2vec預(yù)訓(xùn)練好)、客體字符串o的6維的one-hot特征向量(是否含有{數(shù)字、標(biāo)點(diǎn)符號(hào)、單位、年月日標(biāo)記、非數(shù)字類型的實(shí)體名})拼接成的特征向量。

如果判斷是實(shí)體類三元組(或者沒(méi)有被其他轉(zhuǎn)換器匹配到),先通過(guò)概念詞典找到客體oi可能的實(shí)體候選集合然后判斷每個(gè)實(shí)體候選的分?jǐn)?shù)。如果都低于閾值,則說(shuō)明實(shí)體不在知識(shí)庫(kù)里(無(wú)法鏈接),否則,取分?jǐn)?shù)最高的實(shí)體鏈接。其中實(shí)體和三元組的相似度的分?jǐn)?shù)如下式所示

其中contextrel描述主體和候選客體實(shí)體之間的相互鏈接關(guān)系以及文本、內(nèi)鏈的重合度,cαterel衡量候選客體實(shí)體的類別是否滿足謂詞p的要求,具體的公式為

l和h為平滑參數(shù),這里都取2,見步驟⑥,用來(lái)衡量頁(yè)面間的相似度;linkoverlap用來(lái)衡量2個(gè)頁(yè)面間內(nèi)鏈的相似度;

β這里都取0.5。

kw定義見步驟⑥,表示頁(yè)面內(nèi)部超鏈接鏈接的url集合

t定義見步驟⑥。

步驟⑨:輸出標(biāo)準(zhǔn)化的三元組

我們按照rdf形式輸出三元組信息,當(dāng)然也可以采用其他的格式(如mysql表等形式),可以根據(jù)自由定義輸出格式。

步驟⑩:輸出知識(shí)庫(kù)的類別體系

和步驟⑨類似,可以自定義輸出格式,可以以rdf形式輸出三元組信息,當(dāng)然也可以采用其他的格式。

綜上所述,本發(fā)明實(shí)施例中,以維基百科和百度百科為依托,自動(dòng)構(gòu)建了一個(gè)含義標(biāo)準(zhǔn)類別體系(taxonomy)的全領(lǐng)域知識(shí)庫(kù)。使用該方法生成的知識(shí)庫(kù)不僅可以輸出實(shí)體的類別體系(taxonomy),還可以對(duì)三元組中的實(shí)體進(jìn)行鏈接,得到高質(zhì)量的三元組知識(shí),適用于多個(gè)網(wǎng)絡(luò)百科混合生成知識(shí)庫(kù)的需求。

顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沭阳县| 霍邱县| 正阳县| 华安县| 上饶市| 封开县| 三明市| 惠水县| 托克托县| 宣汉县| 建宁县| 霞浦县| 个旧市| 克拉玛依市| 襄樊市| 孟州市| 自贡市| 芦溪县| 新河县| 忻州市| 土默特左旗| 吉安县| 井冈山市| 淮南市| 犍为县| 特克斯县| 施秉县| 阿尔山市| 仪陇县| 东乡族自治县| 道孚县| 楚雄市| 桐梓县| 柯坪县| 鄂托克旗| 共和县| 聊城市| 五台县| 永修县| 景德镇市| 金寨县|