專利名稱:一種基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)挖掘、信息抽取、命名實(shí)體關(guān)系挖掘、漢語語義語法、句子結(jié)構(gòu)分析、模式匹配、機(jī)器學(xué)習(xí)、最短路徑算法等技術(shù)領(lǐng)域,具體地說是一種基于代表句子結(jié)構(gòu)語義的依存樹的弱監(jiān)督性網(wǎng)絡(luò)中文命名實(shí)體關(guān)系挖掘系統(tǒng)。
背景技術(shù):
隨著計(jì)算機(jī)的普及以及互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)資源日益增長(zhǎng),內(nèi)容覆蓋面的越來越廣泛。人們?cè)谌粘I顚?duì)網(wǎng)絡(luò)資源的使用越來越頻繁,需求也越來越高,不再是簡(jiǎn)簡(jiǎn)單單的關(guān)鍵詞匹配。面對(duì)無結(jié)構(gòu)的、層次復(fù)雜、信息繁復(fù)的網(wǎng)絡(luò)數(shù)據(jù),人們希望能快速準(zhǔn)確的獲得自己所需的數(shù)據(jù)。因此,面對(duì)海量信息,通過信息抽取技術(shù)從浩瀚的中文信息海洋中自動(dòng)尋找用戶所需求的信息則顯得至關(guān)重要。它能將將無結(jié)構(gòu)化的信息轉(zhuǎn)換為結(jié)構(gòu)化或者半結(jié)構(gòu)化信息的過程目前大部分信息抽取系統(tǒng)是從文本中抽取特定的實(shí)體信息,包括時(shí)間、機(jī)構(gòu)、地點(diǎn)等互聯(lián)網(wǎng)上不僅蘊(yùn)含了大量的實(shí)體信息,還蘊(yùn)含著實(shí)體之間關(guān)系的信息。·目前,已經(jīng)有很多研究員從事了這方面的工作,并取得了不錯(cuò)的進(jìn)展,而面對(duì)海量的網(wǎng)絡(luò)數(shù)據(jù),比較成熟的有如DIPRE, TextRunner和snowball等,也有許多專家針對(duì)他們進(jìn)行進(jìn)一步改進(jìn)。但這些系統(tǒng),往往都沒有考慮句子的語法結(jié)構(gòu),因而并不是很適用于語法詞法結(jié)構(gòu)松散且句子復(fù)雜的中文語料中。在中文的命名實(shí)體關(guān)系挖掘中,做得比較好的有哈工大的基于網(wǎng)絡(luò)挖掘的實(shí)體關(guān)系自動(dòng)獲取系統(tǒng)。但它也沒有更多的考慮中文句子的結(jié)構(gòu)。本文所提出的關(guān)系挖掘方法恰恰彌補(bǔ)了這個(gè)缺點(diǎn),代表利用中文的句法結(jié)構(gòu)的依存樹,對(duì)中文實(shí)體的關(guān)系對(duì)作出更好的定位,并利用依存樹結(jié)構(gòu),提出了一種包含語法結(jié)構(gòu)和實(shí)體上下文信息的模板形式,并將模板的挖掘和模板的匹配進(jìn)行自動(dòng)化,有效的適用于中文的網(wǎng)絡(luò)數(shù)據(jù),并能抽取出高準(zhǔn)確率的命名實(shí)體關(guān)系元組。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置,其特征在于,包括如下裝置輸入裝置,其用于輸入種子元組;模板生成裝置,其基于依存樹解析根據(jù)輸入的種子元組生成與所述元組相適應(yīng)的元組模板;模板匹配裝置,其基于依存樹解析以及上述元組模板生成裝置生成的元組模板生成中間元組并將所述中間元組作為種子元組輸入上述元組模板生成裝置;以及輸出裝置,其用于輸出所有中間元組作為新元組集合。根據(jù)本發(fā)明的一個(gè)方面,提供一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制方法,其特征在于,包括如下步驟a.輸入種子元組;b.基于依存樹解析根據(jù)輸入的種子元組生成與所述元組相適應(yīng)的元組模板;c.基于依存樹解析以及上述步驟c生成的元組模板生成中間元組;d.輸出中間元組并將所述中間元組加入新元組集合,將所述中間元組作為所述種子元組;e.重復(fù)執(zhí)行上述步驟a至上述步驟d,至所述元組模板或者所述中間元組不能生成;以及f.生成新元組集合。
根據(jù)本發(fā)明的另一個(gè)方面,還提供一種基于依存樹的網(wǎng)絡(luò)中文命名實(shí)體關(guān)系挖掘系統(tǒng),包括服務(wù)器端以及客戶端,其特征在于,所述模板生成器針對(duì)中文句子無結(jié)構(gòu)繁復(fù)的特點(diǎn)引入語法依存樹以增加模板的語法結(jié)構(gòu)和上下文信息,并根據(jù)依存樹結(jié)構(gòu)定制了一種新的模板;所述模板匹配器根據(jù)所述模板的結(jié)構(gòu)提出了一種新的模板匹配方法,要求在依存樹結(jié)構(gòu)和所述元組的實(shí)體類型兩方面都完全匹配。優(yōu)選地,所述模板生成器生成的模板的結(jié)構(gòu)如下pattern — pattern, pattern|element ;element — abbreviated_relation_name(governor, dependent);governor — word | (el. tag) 11 (e2. tag) 2 ; dependent — word | (el. tag) 11 (e2. tag) 2。其中,所述pattern是指所述模板,所述element指所述依存樹中連接兩個(gè)節(jié)點(diǎn)的邊,所述abbreviated_relation_name是指所述依存樹中邊的具體語義含義,所述word句子中被切詞之后的一個(gè)詞,所述el. tag指所述種子元組中第一個(gè)實(shí)體的實(shí)體類型,同樣的,所述e2. tag指所述種子元組中第二個(gè)實(shí)體的實(shí)體類型,所述I和2分別指向該實(shí)體在所述種子元組中的位置。優(yōu)選地,所述模板生成器包含以下模塊實(shí)體和關(guān)系的最小子樹定位模塊,用于根據(jù)所述種子元組定位確定所述種子元組中兩個(gè)實(shí)體和關(guān)系詞的位置,并使用最短路徑算法的Dijkstra算法獲得連接所述種子元組中兩個(gè)實(shí)體和關(guān)系詞最小子樹。最小子樹擴(kuò)展模塊,用于擴(kuò)展所述最小子樹,增加模板的信息量;模板生成模塊,用于將模板的所述依存樹結(jié)構(gòu)轉(zhuǎn)化為權(quán)利要求書2的所述模板的形式。優(yōu)選地,依據(jù)由所述依存樹解析模塊獲得的所述依存樹的結(jié)構(gòu),確定所述種子元組中兩個(gè)實(shí)體和關(guān)系詞的位置,多次使用最短路徑算法的Di jkstra算法獲得所述種子元組中的兩個(gè)實(shí)體之間的最短路徑和一個(gè)實(shí)體與關(guān)系詞的最短路徑,再結(jié)合這兩類路徑確定一棵連接所述種子元組中兩個(gè)實(shí)體和關(guān)系詞最小子樹。所述依存樹之間的邊的長(zhǎng)度可以依據(jù)不同所述abbreviated_relation_name表達(dá)的意義的重要性來定義。優(yōu)選地,可以依據(jù)需要,定義所述依存樹擴(kuò)展的節(jié)點(diǎn)和邊的類型。優(yōu)選地,所述模板生成器包含以下模塊候選元組抽取模塊,用于根據(jù)將所述依存樹解析模塊獲得的所述依存樹和所述模板相比較,獲得候選元組。候選元組實(shí)體類型驗(yàn)證模塊,用于根據(jù)抽取出所述候選元組的所述模板中所述種子元組的實(shí)體類型——權(quán)利要求書2中所述模板結(jié)構(gòu)的所述el. tag和所述e2. tag,確認(rèn)候選元組的正確性,過濾不符合實(shí)體類型的候選元組;優(yōu)選地,所述候選元組抽取模塊將所述依存樹解析模塊獲得的所述依存樹中的所
述unit和所述模板中的所述element--比較匹配,如果除了所述(el. tag) I和所述(e2.
tag) 2之外的所有信息都能完全匹配,取出所述unit。最終如果所述依存樹中的所述unit能夠完全匹配到所有的所述模板中的所述element,則根據(jù)所述模板中的所述(el. tag) I和所述(e2. tag)2的位置,取出兩個(gè)實(shí)體,和所述模板中的關(guān)系詞共同構(gòu)成一個(gè)所述候選組,并將其放入所述候選集中。根據(jù)本發(fā)明的一個(gè)方面,提供一種基于依存樹的弱監(jiān)督性網(wǎng)絡(luò)中文命名實(shí)體關(guān)系挖掘系統(tǒng),包括模板生成器和模板匹配器,其中,所述模板生成器用于根據(jù)輸入的種子元組,從網(wǎng)絡(luò)中抽取出相關(guān)的描述種子元組的句子,并根據(jù)這些句子的依存樹結(jié)構(gòu)從中抽取出相應(yīng)的模板,其中所述種子元組包括兩個(gè)命名實(shí)體以及他們之間的關(guān)系;所述模板匹配器用于根據(jù)所述模板生成器生成的模板,利用模板匹配的方法,從網(wǎng)絡(luò)中抽取出符合該模板的新的命名實(shí)體對(duì)元組,其中所述新的命名實(shí)體對(duì)元組,其結(jié)構(gòu)與所述種子元組一致。本發(fā)明通過系統(tǒng)輸入的種子元組,經(jīng)過模板生成器,得到模板,并利用模板,匹配網(wǎng)絡(luò)數(shù)據(jù)得到新元組,接著再利用新的元組獲取更多的模板,抽取出更多的元組,并依次循環(huán)迭代,直至所述模板生成器抽取出新的模板,或者所述模板匹配器找不到新的元組。
通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯 圖I示出根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式
的,一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置的結(jié)構(gòu)示意圖;圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制方法的流程圖;圖3示出根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式
的,一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制方法根據(jù)共現(xiàn)句構(gòu)成的依存樹示意圖;圖4示出根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式
的,一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制方法的生成最小樹的流程圖;以及圖5示出根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式
的,一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制方法的生成中間元組的流程圖。
具體實(shí)施例方式本發(fā)明公開了一種基于依存樹的弱監(jiān)督性網(wǎng)絡(luò)中文命名實(shí)體關(guān)系挖掘系統(tǒng),可利用幾個(gè)所述種子元組,獲得高準(zhǔn)確率的含有語法結(jié)構(gòu)和上下文信息的模板和新的元組。通常語句中的依存關(guān)系可以用樹形圖來表示。表示依存關(guān)系的樹形圖,叫做依存樹(dependency tree)。這種依存樹是機(jī)器翻譯中句子結(jié)構(gòu)的一種形式描述方式。依存樹中的結(jié)點(diǎn)之間的關(guān)系,主要有支配關(guān)系和如于關(guān)系兩種。針對(duì)這樣的信息抽取系統(tǒng),使用該系統(tǒng)用戶可以獲得更多有效,有結(jié)構(gòu)的命名實(shí)體關(guān)系信息。用戶會(huì)希望得到比較正確的信息,盡量避免檢索結(jié)果的錯(cuò)誤問題,但可以容忍檢索結(jié)果少。因此本系統(tǒng)接收包含兩個(gè)命名實(shí)體及其關(guān)系詞的種子元組,針對(duì)中文句子無結(jié)構(gòu)繁復(fù)的特點(diǎn)和現(xiàn)有的弱監(jiān)督性方法的優(yōu)點(diǎn),引入句子語法依存樹以提高模板的匹配程度,通過依存樹來得到含有句子語法結(jié)構(gòu)和實(shí)體對(duì)的語境信息的模板并根據(jù)所得到的模板,抽取更多的相似的語句,以獲得更多的新元組。為配合依存樹結(jié)構(gòu),本系統(tǒng)提出了一種新的模板結(jié)構(gòu),并根據(jù)該模板結(jié)構(gòu)提出了符合模板特點(diǎn)的模板匹配方法。本系統(tǒng)結(jié)合了現(xiàn)有的弱監(jiān)督性方法的優(yōu)點(diǎn)和依存樹可以充分表達(dá)句子結(jié)構(gòu)和上下文關(guān)聯(lián)信息的優(yōu)點(diǎn),實(shí)現(xiàn)了在海量網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行中文實(shí)體挖掘的系統(tǒng)。只需要少量的種子元組,本系統(tǒng)即可循環(huán)迭代的持續(xù)獲得網(wǎng)絡(luò)中的命名實(shí)體關(guān)系元組,并且易于擴(kuò)展成不同的關(guān)系類別。本發(fā)明可以以任何手工輸入的種子元組開始,獲得更多更正確的新元組和模板。下面以種子元組(奧巴馬,美國,總統(tǒng))為例,結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。圖I示出根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式
的,一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置的結(jié)構(gòu)示意圖;圖I為本發(fā)明總體流程圖。具體地,系統(tǒng)在輸入模塊I中接收所述種子元組作為輸入以觸發(fā)系統(tǒng),所述種子元組包括兩個(gè)命名實(shí)體及其關(guān)系詞,然后所述種子元組經(jīng)過模塊2所述模板生成器生成預(yù)定義格式的模板,并將其作為模塊9所述模板匹配器的輸入,抽取出新的元組,進(jìn)而將元組返回給模塊2所述模板生成器以達(dá)到循環(huán)迭代的效果。同時(shí)將抽取出新的元組輸出放入模塊13新元組模塊。然后更為具體地,所述模板生成器包括一個(gè)模塊3元組共現(xiàn)句抽取模塊。在本實(shí)施例中,所述元組共現(xiàn)句抽取模塊根據(jù)所述種子元組的命名實(shí)體對(duì)和關(guān)系詞利用搜索引擎在網(wǎng)絡(luò)數(shù)據(jù)中搜索含有所述種子元組的命名實(shí)體對(duì)和關(guān)系詞的句子。一個(gè)模塊4依存樹解析模塊。在 本實(shí)施例中,所述依存樹解析模塊利用現(xiàn)有的中文句子語法依存樹的解析工具,生成由所述抽取共現(xiàn)句模塊獲得的所述元組共現(xiàn)句。其中,所述依存樹的結(jié)構(gòu)有一系列節(jié)點(diǎn)和邊組成,且每一條邊都定義了節(jié)點(diǎn)之間的語法關(guān)系,其形式化的表達(dá)式如下,tree — tree, tree | unit ;unit 一 abbreviated—relation—name(governor,dependent);governor 一 phrase—location ;dependent — phrase-location。其中,所述unit是指所述依存樹中連接兩個(gè)節(jié)點(diǎn)的邊。所述governor和所述dependent是指所述依存樹中的節(jié)點(diǎn)。所述abbreviated—relation—name是指所述依存樹中邊的具體語義含義。所述phrase是指句子中被切詞之后的一個(gè)詞,所述location是指所述phrase在句子中的位置。其中依存樹的邊的具體含義的中英文對(duì)照,如asp,dep,dobj,cc,nn等的具體意思。本發(fā)明優(yōu)選地使用的邊的關(guān)系含義釆用的是斯坦福大學(xué)解析器的標(biāo)準(zhǔn)。具體的邊的含義如下
權(quán)利要求
1.一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置,其特征在于,包括如下裝置 輸入裝置,其用于輸入種子元組; 模板生成裝置,其基于依存樹解析根據(jù)輸入的種子元組生成與所述元組相適應(yīng)的元組模板; 模板匹配裝置,其基于依存樹解析以及上述元組模板生成裝置生成的元組模板生成中間元組并將所述中間元組作為種子元組輸入上述元組模板生成裝置;以及輸出裝置,其用于輸出所有中間元組作為新元組集合。
2.根據(jù)權(quán)利要求I所述的控制裝置,其特征在于,所述依存樹結(jié)構(gòu)包括 -連接兩節(jié)點(diǎn)的邊,由該邊連接的兩個(gè)節(jié)點(diǎn)的關(guān)系、該邊發(fā)出的節(jié)點(diǎn)以及該邊指向的節(jié)點(diǎn)描述; -邊發(fā)出的節(jié)點(diǎn),由該節(jié)點(diǎn)在其所在句子中的位置描述;以及 _邊指向的節(jié)點(diǎn),由該節(jié)點(diǎn)在其所在句子中的位置描述。
3.根據(jù)權(quán)利要求I所述的控制裝置,其特征在于,所述種子元組與所述中間元組至少包括實(shí)體一,實(shí)體二以及所述實(shí)體一和實(shí)體二的關(guān)系詞。
4.根據(jù)權(quán)利要求I至3任一項(xiàng)所述的控制裝置,其特征在于,所述模板生成裝置包括 最小子樹確定裝置,其用于根據(jù)所述種子元組獲取共現(xiàn)句生成的依存樹中,確定連接所述種子元組中實(shí)體以及關(guān)系詞的最小子樹; 最小子樹擴(kuò)展裝置,其用于根據(jù)預(yù)定擴(kuò)展規(guī)則對(duì)所述最小子樹進(jìn)行擴(kuò)展; 最小子樹結(jié)構(gòu)抽取裝置,其用于抽取所述擴(kuò)展后的最小子樹的結(jié)構(gòu);以及 元組模板生成裝置,其用于根據(jù)上述擴(kuò)展后最小子樹的結(jié)構(gòu)生成元組模板。
5.根據(jù)權(quán)利要求4所述的控制裝置,其特征在于,所述最小子樹確定裝置包括 元組共現(xiàn)句抽取裝置,其用于根據(jù)所述種子元組中的元素抽取共現(xiàn)句集合; 第一依存樹解析裝置,其用于對(duì)所述共現(xiàn)句集合中每一個(gè)共現(xiàn)句生成一個(gè)依存樹,并對(duì)每一個(gè)依存樹進(jìn)行解析,獲取所述依存樹的結(jié)構(gòu);以及 最小子樹生成裝置,其用于根據(jù)所述依存樹解析裝置獲取的每一個(gè)依存樹結(jié)構(gòu)生成連接所述種子元組的實(shí)體及其關(guān)系詞的最小子樹。
6.根據(jù)權(quán)利要求4所述的控制方法,其特征在于,所述最小子樹擴(kuò)展裝置將預(yù)先定義所述依存樹擴(kuò)展的節(jié)點(diǎn)和邊的類型作為所述預(yù)定擴(kuò)展規(guī)則。
7.根據(jù)權(quán)利要求5所述的控制方法,其特征在于,所述共現(xiàn)句的獲取由所述種子元組的實(shí)體及其關(guān)系作為搜索關(guān)鍵詞的搜索結(jié)果中的標(biāo)題以及摘要生成。
8.根據(jù)權(quán)利要求4至8任一項(xiàng)所述的控制方法,所述最小子樹確定裝置使用最短路徑算法獲取所述種子元組中的兩個(gè)實(shí)體之間的最短路徑和一個(gè)實(shí)體與關(guān)系詞的最短路徑,再 結(jié)合這兩類路徑確定一棵連接所述種子元組中兩個(gè)實(shí)體和關(guān)系詞最小子樹。
9.根據(jù)權(quán)利要求8所述的控制方法,所述依存樹的邊的長(zhǎng)度依據(jù)不同節(jié)點(diǎn)間關(guān)系的重要性預(yù)先定義。
10.根據(jù)權(quán)利要求I至9任一項(xiàng)所述的控制方法,其特征在于,所述元組模板由以下元素描述 -實(shí)體關(guān)系,由實(shí)體關(guān)系的具體含義、實(shí)體一以及實(shí)體二所描述;-實(shí)體一,由與其相適應(yīng)地所述種子元組中實(shí)體類型以及該實(shí)體類型在所述種子元組中的位置描述;以及 -實(shí)體二,由與其相適應(yīng)地所述種子元組中實(shí)體類型以及該實(shí)體類型在所述種子元組中的位置描述。
11.根據(jù)權(quán)利要求I至10任一項(xiàng)所述的控制方法,其特征在于,所述模板匹配裝置包含以下裝置 模板共現(xiàn)句抽取裝置,其用于根據(jù)所述元組模板中的詞作為搜索關(guān)鍵詞,獲取包含所述元組模板中所有詞的模板共現(xiàn)句集合; 第二依存樹解析裝置,其用于對(duì)所述元組模板共現(xiàn)句集合中每一個(gè)共現(xiàn)句生成一個(gè)依存樹,并對(duì)每一個(gè)依存樹進(jìn)行解析,獲取所述依存樹的結(jié)構(gòu); 候選元組抽取裝置,用于根據(jù)將所述第二依存樹解析模塊獲得的所述依存樹和所述模板相比較,獲得候選元組;以及 候選元組實(shí)體類型驗(yàn)證模塊,用于根據(jù)抽取出所述候選元組的所述模板中所述種子元組的實(shí)體類型,確認(rèn)候選元組的正確性,過濾不符合實(shí)體類型的候選元組,生成中間元組。
12.—種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制方法,其特征在于,包括如下步驟 a.輸入種子元組; b.基于依存樹解析根據(jù)輸入的種子元組生成與所述元組相適應(yīng)的元組模板; c.基于依存樹解析以及上述步驟c生成的元組模板生成中間元組; d.輸出中間元組并將所述中間元組加入新元組集合,將所述中間元組作為所述種子元組; e.重復(fù)執(zhí)行上述步驟a至上述步驟d,至所述元組模板或者所述中間元組不能生成;以及 f.生成新元組集合。
全文摘要
本發(fā)明提供一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置,其特征在于,包括如下裝置輸入裝置,其用于輸入種子元組;模板生成裝置,其基于依存樹解析根據(jù)輸入的種子元組生成與所述元組相適應(yīng)的元組模板;模板匹配裝置,其基于依存樹解析以及上述元組模板生成裝置生成的元組模板生成中間元組并將所述中間元組作為種子元組輸入上述元組模板生成裝置;以及輸出裝置,其用于輸出所有中間元組作為新元組集合。
文檔編號(hào)G06F17/30GK102968431SQ201210349668
公開日2013年3月13日 申請(qǐng)日期2012年9月18日 優(yōu)先權(quán)日2012年9月18日
發(fā)明者鄭珊珊, 林欣 申請(qǐng)人:華東師范大學(xué)