實(shí)體集合擴(kuò)展方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息抽取技術(shù),尤其涉及一種實(shí)體集合擴(kuò)展方法。
【背景技術(shù)】
[0002] 文本信息抽?。═extInformationExtraction)指的是從自然語言文本中抽取指 定類型的實(shí)體(Entity)、關(guān)系(Relation)、事件(Event)等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸 出的文本處理技術(shù)。例如從有線新聞和廣播電視的文本中抽取恐怖事件相關(guān)情況:時間、地 點(diǎn)、作案者、受害者、襲擊目標(biāo)等信息。
[0003] 傳統(tǒng)信息抽取任務(wù)是面向限定領(lǐng)域文本的、限定類別實(shí)體、關(guān)系和事件等的抽取, 這大大制約了文本信息抽取技術(shù)的發(fā)展和應(yīng)用,例如問答系統(tǒng)所需要的信息抽取技術(shù)遠(yuǎn)遠(yuǎn) 超越我們通常研宄的人名、地名、機(jī)構(gòu)名、時間、日期等有限實(shí)體類別;上下位、部分整體、地 理位置等有限關(guān)系類別;毀壞、創(chuàng)造、所有權(quán)轉(zhuǎn)移等有限事件類別,甚至所需要的類別是未 知的、不斷變化的。這種應(yīng)用需求為信息抽取技術(shù)的研宄提出了新的挑戰(zhàn)。另一方面,從信 息抽取的技術(shù)手段來講,由于網(wǎng)絡(luò)文本具有不規(guī)范性、開放性以及海量性的特點(diǎn),使得傳統(tǒng) 的依賴于訓(xùn)練語料的統(tǒng)計機(jī)器學(xué)習(xí)方法遇到嚴(yán)重挑戰(zhàn)。
[0004] 為了適應(yīng)互聯(lián)網(wǎng)實(shí)際應(yīng)用的需求,越來越多的研宄者開始研宄開放式信息抽取技 術(shù),目標(biāo)是從海量、冗余、異構(gòu)、不規(guī)范、含有大量噪聲的網(wǎng)頁中大規(guī)模地抽取開放類別的實(shí) 體、關(guān)系、事件等多層次語義單元信息,并形成結(jié)構(gòu)化數(shù)據(jù)格式輸出。開放式實(shí)體抽取的任 務(wù)是在給出特定語義類的若干實(shí)體(又稱為"種子")的情況下,找出該語義類包含的其他 實(shí)體,其中特定語義類的標(biāo)簽可能顯式給出,也可能隱式給出。在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域,開放式 實(shí)體抽取技術(shù)對于知識庫構(gòu)建、網(wǎng)絡(luò)內(nèi)容管理、語義搜索、推薦系統(tǒng)、問答系統(tǒng)等都具有重 要應(yīng)用價值。
[0005] 開放式實(shí)體信息抽取又稱為實(shí)體集合擴(kuò)展(EntitySetExpansion),目標(biāo)是根據(jù) 用戶輸入的種子詞從網(wǎng)絡(luò)中抽取同類型的實(shí)體擴(kuò)展至實(shí)體集合中,在這一過程中需要自動 判別用戶輸入種子詞的類別信息,或者根據(jù)用戶輸入的類別進(jìn)行類別詞擴(kuò)展。具體難點(diǎn)如 下:1)初始信息少,實(shí)體抽取通常采用半監(jiān)督或無監(jiān)督的方法,己知信息一般有以下三種: 種子實(shí)體、語義類別標(biāo)簽以及預(yù)先定義的信息。其中給出的種子通常少于5個,語義類別標(biāo) 簽有時會給出有時不會給出,而預(yù)先定義的信息通常是若干模板,可以利用的己知信息非 常少;2)語義類別難以確定,在沒有給定語義類別標(biāo)簽的情況下,種子實(shí)體可能會同時屬 于多個語義類,使得目標(biāo)語義類別的確定非常困難。比如給出"中國、美國、俄羅斯"三個種 子實(shí)體,這三個種子實(shí)體都可歸為"國家"類別,但同時又都可歸為"聯(lián)合國安理會常任理事 會成員"類別,或者歸為"有核武器的國家"類別。
[0006] 現(xiàn)有的實(shí)體集合擴(kuò)展方法是:根據(jù)與種子節(jié)點(diǎn)在網(wǎng)頁中的共現(xiàn)頻率進(jìn)行擴(kuò)展,也 就是同類實(shí)體在網(wǎng)絡(luò)上具有相似的網(wǎng)頁結(jié)構(gòu)或者相似的上下文特征,抽取過程就是首先找 到這樣的網(wǎng)頁或者文本,然后從中抽取未知的同類型實(shí)體,或者根據(jù)已有的種子節(jié)點(diǎn)信息, 通過訓(xùn)練語料的統(tǒng)計機(jī)器學(xué)習(xí)方法,估計候選實(shí)體與種子相似的概率,完成實(shí)體集合擴(kuò)展。 例如在某網(wǎng)頁中,"奧迪"、"寶馬"、"保時捷"等具有相同的網(wǎng)頁結(jié)構(gòu),如果己知"奧迪"、"寶 馬"、"保時捷"為汽車品牌名,那么該網(wǎng)頁中其他具有相同上下文特征的字符串也很可能是 汽車品牌類型實(shí)體。
[0007] 現(xiàn)有的實(shí)體集合擴(kuò)展方法都是基于網(wǎng)頁來獲取候選實(shí)體的概率分布信息或者統(tǒng) 計信息,都是一種模糊的擴(kuò)展,不能保證擴(kuò)展結(jié)果的準(zhǔn)確性,且由于網(wǎng)頁信息的海量、冗余、 異構(gòu)、不規(guī)范、含有大量噪聲等因素,使得擴(kuò)展過程時間消耗很大,效率較低。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明提供一種實(shí)體集合擴(kuò)展方法,其目的在于解決現(xiàn)有基于網(wǎng)頁的實(shí)體集合擴(kuò) 展方法的擴(kuò)展結(jié)果不準(zhǔn)確,擴(kuò)展過程時間消耗較大,效率較低的問題。
[0009] 本發(fā)明實(shí)施例提供的實(shí)體集合擴(kuò)展方法包括:
[0010] 獲取用戶輸入的種子實(shí)體集合,所述種子實(shí)體集合中包含的種子實(shí)體的數(shù)量為至 少兩個;
[0011] 根據(jù)上述種子實(shí)體集合中每個種子實(shí)體的實(shí)體名,在RDF知識庫中確定所述每個 種子實(shí)體對應(yīng)的屬性信息,所述屬性信息中包括至少一個屬性特征,所述RDF知識庫中存 儲有預(yù)先建立的每個實(shí)體的實(shí)體名和屬性信息的關(guān)聯(lián)關(guān)系;
[0012] 根據(jù)上述每個種子實(shí)體對應(yīng)的屬性信息,確定所述種子實(shí)體集合對應(yīng)的相同屬性 特征,所述相同屬性特征包括至少兩個種子實(shí)體所具有的相同的屬性特征;
[0013] 確定上述RDF知識庫中具有所述相同屬性特征的其他實(shí)體構(gòu)成擴(kuò)展實(shí)體集合,將 所述擴(kuò)展實(shí)體集合中包括的實(shí)體添加到所述種子實(shí)體集合中,得到擴(kuò)展后的實(shí)體集合;
[0014] 將所述擴(kuò)展后的實(shí)體集合發(fā)送給用戶終端設(shè)備。
[0015] 基于上述,本發(fā)明提供的實(shí)體集合擴(kuò)展方法通過以種子實(shí)體為關(guān)鍵字,在RDF知 識庫中查詢種子實(shí)體的相同屬性特征,并且根據(jù)相同屬性特征信息在RDF知識庫中查詢候 選實(shí)體,由候選實(shí)體構(gòu)成擴(kuò)展實(shí)體集合進(jìn)行實(shí)體集合擴(kuò)展。由于RDF知識庫使用的是結(jié)構(gòu) 化的XML數(shù)據(jù),在進(jìn)行實(shí)體集合擴(kuò)展時,可以挖掘出了種子實(shí)體之間的語義信息,使得擴(kuò)展 結(jié)果變得更為智能和準(zhǔn)確,而且結(jié)構(gòu)化的數(shù)據(jù)更易于處理,保證了實(shí)體集合擴(kuò)展的效率。
【附圖說明】
[0016] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使 用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本 領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0017] 圖1為本發(fā)明實(shí)施例提供的一實(shí)體集合擴(kuò)展方法的流程示意圖;
[0018] 圖2為本發(fā)明實(shí)施例提供的另一實(shí)體集合擴(kuò)展方法的流程示意圖;
[0019] 圖3為本發(fā)明實(shí)施例提供的再一實(shí)體集合擴(kuò)展方法的流程示意圖;
[0020] 圖4為本發(fā)明實(shí)施例提供的再一實(shí)體集合擴(kuò)展方法的流程示意圖。
【具體實(shí)施方式】
[0021] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0022] 本發(fā)明實(shí)施例的技術(shù)方案具體可以應(yīng)用于命名實(shí)體特征獲取、推薦系統(tǒng)、QA系統(tǒng) 以及知識庫構(gòu)建等方面。該方法可以通過實(shí)體集合擴(kuò)展裝置來實(shí)現(xiàn),該實(shí)體集合擴(kuò)展裝置 可以集成在網(wǎng)絡(luò)設(shè)備中,也可以單獨(dú)設(shè)置,該實(shí)體集合擴(kuò)展裝置可以通過軟件和/或硬件 的方式來實(shí)現(xiàn)。網(wǎng)絡(luò)設(shè)備具體可以是服務(wù)器,或可以進(jìn)行Internet訪問的計算機(jī)等。
[0023]在發(fā)明實(shí)施例中,用于實(shí)體集合擴(kuò)展的數(shù)據(jù)來源為資源描述框架(Resource DescriptionFramework,簡稱RDF)類型的網(wǎng)絡(luò)知識庫。例如,互聯(lián)網(wǎng)中的freebase、yago 和dbpedia等具有較高數(shù)據(jù)質(zhì)量的知識庫(KnowledgeBase,簡稱KB)。RDF是一種用于描 述Web資源的標(biāo)記語言。RDF是一個處理元數(shù)據(jù)的可擴(kuò)展標(biāo)記語言(ExtensibleMarkup Language,簡稱XML)應(yīng)用,XML是標(biāo)準(zhǔn)通用標(biāo)記語言的子集,XML可以對文檔和數(shù)據(jù)進(jìn)行結(jié) 構(gòu)