本發(fā)明涉及數(shù)據(jù)處理,特別是涉及一種端到端實(shí)體與關(guān)系聯(lián)合抽取方法。
背景技術(shù):
1、隨著信息技術(shù)的快速發(fā)展,新聞、媒體等各領(lǐng)域數(shù)據(jù)呈爆炸式增長。由于互聯(lián)網(wǎng)中的文本信息具有體量大、結(jié)構(gòu)復(fù)雜、來源多樣等特點(diǎn),人工處理海量文本的成本非常高且效率低下,故而產(chǎn)生了信息抽取技術(shù),用計(jì)算機(jī)代替人工,通過算法自動(dòng)地將文本抽取為結(jié)構(gòu)統(tǒng)一、易于存儲的結(jié)構(gòu)化數(shù)據(jù)。作為信息抽取過程中最關(guān)鍵的技術(shù)之一,關(guān)系抽取的目標(biāo)是在給定文本中識別出隱藏在文本中的多個(gè)實(shí)體,以及實(shí)體之間的關(guān)系,形成關(guān)系三元組(頭實(shí)體,關(guān)系,尾實(shí)體)。通過對互聯(lián)網(wǎng)中的海量文本進(jìn)行實(shí)體關(guān)系抽取,為上層應(yīng)用如知識圖譜提供知識推理能力。
2、實(shí)體關(guān)系抽取作為信息抽取中的一項(xiàng)重要任務(wù),具有較高的應(yīng)用價(jià)值,在知識圖譜,信息檢索,自動(dòng)問答等下游任務(wù)中都有廣泛的應(yīng)用,準(zhǔn)確快速地抽取需要的實(shí)體關(guān)系能提高這些任務(wù)的準(zhǔn)確性和高效性。
3、近年來隨著深度學(xué)習(xí)的快速發(fā)展,其應(yīng)用領(lǐng)域越來越多,且都取得了一定的效果。將深度學(xué)習(xí)和自然語言處理結(jié)合已形成一種趨勢。現(xiàn)有的實(shí)體以及關(guān)系抽取一般采用分步抽取的方式,即先做實(shí)體抽取,再做關(guān)系抽取,這種方式存在實(shí)體嵌套以及誤差傳遞問題,從而造成實(shí)體與關(guān)系抽取錯(cuò)誤。
技術(shù)實(shí)現(xiàn)思路
1、鑒于此,本發(fā)明提供一種端到端實(shí)體與關(guān)系聯(lián)合抽取方法,對句子中的實(shí)體和實(shí)體間的關(guān)系進(jìn)行抽取,抽取實(shí)體關(guān)系時(shí)分別基于實(shí)體的首尾進(jìn)行關(guān)系分類,解決誤差傳遞和嵌套實(shí)體問題,提高實(shí)體與關(guān)系抽取的速度和準(zhǔn)確率。
2、本發(fā)明公開了一種端到端實(shí)體與關(guān)系聯(lián)合抽取方法,其包括:
3、對文本數(shù)據(jù)進(jìn)行實(shí)體與關(guān)系標(biāo)注以及實(shí)體和關(guān)系類別合并,構(gòu)造實(shí)體關(guān)系標(biāo)注數(shù)據(jù)集;使用預(yù)訓(xùn)練語言模型獲取文本token;使用標(biāo)注好的實(shí)體關(guān)系數(shù)據(jù)對實(shí)體關(guān)系聯(lián)合抽取網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到模型權(quán)重文件;使用實(shí)體關(guān)系聯(lián)合抽取網(wǎng)絡(luò)模型和訓(xùn)練好的模型權(quán)重文件對其他樣本進(jìn)行預(yù)測,得到實(shí)體關(guān)系預(yù)測結(jié)果,并按照預(yù)設(shè)實(shí)體關(guān)系整合規(guī)則進(jìn)行關(guān)系拆分,得到精確的實(shí)體與關(guān)系預(yù)測結(jié)果。
4、進(jìn)一步地,采集所需領(lǐng)域的文本數(shù)據(jù),對數(shù)據(jù)進(jìn)行切分,并進(jìn)行實(shí)體與關(guān)系標(biāo)注;合并關(guān)系類別,確定聯(lián)合抽取的實(shí)體和關(guān)系類別;使用頭尾實(shí)體,頭尾實(shí)體類別、關(guān)系和token文本構(gòu)造實(shí)體關(guān)系抽取數(shù)據(jù)集。
5、進(jìn)一步地,所述使用頭尾實(shí)體,頭尾實(shí)體類別、關(guān)系和token文本構(gòu)造實(shí)體關(guān)系抽取數(shù)據(jù)集,包括:
6、基于頭尾實(shí)體和文本token,獲取頭尾實(shí)體位置標(biāo)簽,再基于實(shí)體類別與實(shí)體關(guān)系構(gòu)建頭尾實(shí)體關(guān)系類別標(biāo)簽,并對沒有實(shí)體關(guān)系的類別進(jìn)行補(bǔ)0操作。
7、進(jìn)一步地,結(jié)合預(yù)訓(xùn)練語言模型獲取文本token,對文本token進(jìn)行長切短補(bǔ)操作,并記錄每個(gè)文本補(bǔ)充長度。
8、進(jìn)一步地,所述實(shí)體關(guān)系聯(lián)合抽取網(wǎng)絡(luò)模型的輸入為文本數(shù)據(jù),當(dāng)輸入的文本數(shù)據(jù)超過預(yù)設(shè)長度時(shí),對句子進(jìn)行切分,將切分后的句子轉(zhuǎn)化為詞表id輸入到預(yù)訓(xùn)練模型中,對其進(jìn)行向量化表示以提取句子特征。
9、進(jìn)一步地,所述對其進(jìn)行向量化表示以提取句子特征,包括:
10、采用roberta預(yù)訓(xùn)練語言模型獲取句子特征,分別提取頭尾實(shí)體特征和實(shí)體起始終止位置關(guān)系特征,在進(jìn)行實(shí)體抽取時(shí),對實(shí)體特征的隱藏層進(jìn)行切分,并進(jìn)行位置編碼,分別提取頭尾實(shí)體矩陣,輸出句子中的頭尾實(shí)體;在進(jìn)行關(guān)系抽取時(shí),通過對句子特征進(jìn)行全連接操作,得到特征矩陣,該特征矩陣包括數(shù)據(jù)集中實(shí)體關(guān)系的種類數(shù)量,對特征矩陣進(jìn)行切分,計(jì)算實(shí)體起始位置關(guān)系和實(shí)體終止位置關(guān)系;在進(jìn)行實(shí)體和關(guān)系最終確定時(shí),基于頭尾實(shí)體抽取結(jié)果、實(shí)體起始位置關(guān)系抽取結(jié)果和實(shí)體終止位置關(guān)系抽取結(jié)果合并形成最終的實(shí)體關(guān)系抽取結(jié)果。
11、進(jìn)一步地,所述頭尾實(shí)體矩陣的行表示實(shí)體的起始位置,矩陣的列表示實(shí)體的終止位置,-表示計(jì)算結(jié)果為負(fù)數(shù)不存在實(shí)體,+表示計(jì)算結(jié)果為正數(shù)存在實(shí)體,空白部分由于矩陣是對稱的,下三角不需要進(jìn)行計(jì)算。
12、進(jìn)一步地,進(jìn)行關(guān)系抽取以及實(shí)體與關(guān)系確定時(shí),首先提取頭尾實(shí)體矩陣中實(shí)體起始位置特征和實(shí)體終止位置特征,然后進(jìn)行關(guān)系分類,對分類結(jié)果取并集,最后將抽取的頭尾實(shí)體進(jìn)行對照合并,形成實(shí)體關(guān)系聯(lián)合抽取結(jié)果。
13、進(jìn)一步地,所述使用標(biāo)注好的實(shí)體關(guān)系數(shù)據(jù)對實(shí)體關(guān)系聯(lián)合抽取網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到模型權(quán)重文件,包括:
14、獲取標(biāo)注好的實(shí)體關(guān)系數(shù)據(jù),針對樣本數(shù)量較少的實(shí)體關(guān)系類別按照預(yù)設(shè)實(shí)體關(guān)系整合規(guī)則進(jìn)行合并;構(gòu)建實(shí)體關(guān)系訓(xùn)練數(shù)據(jù)集;使用數(shù)據(jù)集對實(shí)體關(guān)系聯(lián)合抽取網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,模型損失函數(shù)的損失值收斂后停止訓(xùn)練,最終得到模型的訓(xùn)練權(quán)重,即模型權(quán)重文件;其中,模型損失函數(shù)包括頭尾實(shí)體損失,實(shí)體起始位置關(guān)系預(yù)測損失,實(shí)體終止位置關(guān)系預(yù)測損失。
15、進(jìn)一步地,對待預(yù)測的文本數(shù)據(jù)進(jìn)行切分,使用實(shí)體關(guān)系聯(lián)合抽取網(wǎng)絡(luò)模型和模型的訓(xùn)練權(quán)重對切分后的句子進(jìn)行實(shí)體與關(guān)系預(yù)測,得到各個(gè)句子的實(shí)體與關(guān)系預(yù)測結(jié)果,結(jié)合預(yù)設(shè)實(shí)體關(guān)系整合規(guī)則表得到精確的實(shí)體與關(guān)系;合并所有句子的實(shí)體與關(guān)系,形成最終實(shí)體與關(guān)系預(yù)測結(jié)果。
16、由于采用了上述技術(shù)方案,本發(fā)明具有如下的優(yōu)點(diǎn):
17、1、本發(fā)明能有效解決傳統(tǒng)實(shí)體關(guān)系模型中產(chǎn)生的誤差傳遞問題。傳統(tǒng)的實(shí)體關(guān)系抽取方法對實(shí)體抽取和關(guān)系抽取進(jìn)行單獨(dú)處理,關(guān)系抽取的結(jié)果往往依賴實(shí)體抽取的結(jié)果,這就導(dǎo)致實(shí)體抽取過程中產(chǎn)生的誤差會(huì)傳遞到關(guān)系抽取過程中,并影響關(guān)系抽取的結(jié)果。而本發(fā)明通過實(shí)體關(guān)系矩陣,同時(shí)抽取頭尾實(shí)體之間的關(guān)系,其關(guān)系抽取過程不依賴實(shí)體抽取過程,因此不存在誤差傳遞的情況。
18、2、本發(fā)明能有效解決實(shí)體嵌套問題。傳統(tǒng)的實(shí)體關(guān)系抽取方法并不能解決一個(gè)位置具有多種實(shí)體關(guān)系的情況,而本發(fā)明通過實(shí)體關(guān)系矩陣,抽取實(shí)體的多個(gè)起止位置,且起始位置和終止位置可以任意組合,有效地解決了實(shí)體嵌套的問題。
19、3、本發(fā)明能緩解關(guān)系類別樣本不均衡的問題。由于實(shí)體類別之間存在不同的關(guān)系,當(dāng)關(guān)系種類較多時(shí),部分關(guān)系類別樣本數(shù)量較少,導(dǎo)致訓(xùn)練樣本不均衡,造成模型在樣本少的類別上準(zhǔn)確率低等情況。本發(fā)明通過整合樣本少的關(guān)系類別,在預(yù)測時(shí)通過實(shí)體關(guān)系整合規(guī)則還原最終關(guān)系,實(shí)現(xiàn)在關(guān)系類別樣本不均衡情況下,依然能取得較好的實(shí)體與關(guān)系抽取效果。
20、4、本發(fā)明抽取速度快,準(zhǔn)確率較高。傳統(tǒng)的實(shí)體關(guān)系抽取方法分為實(shí)體抽取和關(guān)系抽取兩個(gè)階段,需要訓(xùn)練兩個(gè)模型,速度較慢,且由于誤差傳遞,會(huì)降低抽取準(zhǔn)確率,本發(fā)明通過聯(lián)合抽取的方法,直接對句子進(jìn)行實(shí)體與關(guān)系抽取,并且在進(jìn)行關(guān)系抽取時(shí),同時(shí)針對頭尾實(shí)體的起始位置和終止位置分別進(jìn)行建模分類,只有頭尾實(shí)體關(guān)系類別重合時(shí),才確定最終的實(shí)體關(guān)系,具有較高的準(zhǔn)確率。
21、5、本發(fā)明更新維護(hù)簡單,可實(shí)施性強(qiáng),迭代周期可控。傳統(tǒng)的關(guān)系抽取方法在遇到關(guān)系類別樣本不均衡的情況時(shí),一般采用重采樣或欠采樣的方法,但這種方法本質(zhì)并未有新的數(shù)據(jù)參與訓(xùn)練,通常需要標(biāo)注更多小樣本類別數(shù)據(jù),迭代周期不穩(wěn)定;而本發(fā)明在處理小樣本類別時(shí),通過整合小樣本類別為更大類別,并將其加入到訓(xùn)練數(shù)據(jù)中,反復(fù)幾次就能在小樣本類別上取得較好的效果,維護(hù)迭代方便。