本發(fā)明涉及自然語言處理,特別是涉及一種基于雙角度注意力融合的文檔級關(guān)系抽取方法。
背景技術(shù):
1、在文檔級關(guān)系抽取領(lǐng)域,現(xiàn)有技術(shù)主要集中在句子級關(guān)系抽取,但在實際應(yīng)用中,實體及其關(guān)系通常出現(xiàn)在較長的文檔中。這些文檔中的實體分布廣泛,關(guān)系獲取需要復(fù)雜的多跳推理?,F(xiàn)有的文檔級關(guān)系抽取方法主要分為三類:基于文檔圖的方法、基于預(yù)訓(xùn)練語言模型的方法和基于噪聲處理的方法。
2、基于文檔圖的方法主要通過構(gòu)建文檔圖來建模文檔內(nèi)的語義信息,并通過圖傳播方式學(xué)習(xí)實體與實體之間的關(guān)聯(lián)。這些方法在處理多跳推理時,往往只使用一元信息(即實體特征),導(dǎo)致在多跳推理過程中缺乏其他實體的信息?;陬A(yù)訓(xùn)練語言模型的方法主要采用bert或其變體來對文檔級關(guān)系抽取中的信息進行建模。這些方法在處理多跳推理時,通常僅獨立地使用實體對,未考慮三元組之間的全局信息。基于噪聲處理的方法則主要針對數(shù)據(jù)集中的噪聲問題進行處理,以提升模型在處理噪聲數(shù)據(jù)時的性能。
3、然而,這些現(xiàn)有技術(shù)在處理文檔級關(guān)系抽取時,普遍存在未能有效利用實體對與上下文信息之間的潛在關(guān)聯(lián)特征,導(dǎo)致實體對表示未能充分利用上下文信息和多跳推理信息。因此,設(shè)計一種基于雙角度注意力融合的文檔級關(guān)系抽取方法是十分有必要的。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種基于雙角度注意力融合的文檔級關(guān)系抽取方法,以通過實體對和上下文信息的潛在關(guān)系保證抽取結(jié)果的完整性,并提高模型的性能。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、一種基于雙角度注意力融合的文檔級關(guān)系抽取方法,包括如下步驟:
4、通過窗口滑動的方式將文檔劃分為多個片段,并通過訓(xùn)練好的bert模型得到片段中的實體表達和實體表達的表達向量;
5、將表達向量進行分類組合,得到不同的實體向量;實體向量包括:頭實體向量和尾實體向量;
6、將頭實體向量和尾實體向量進行拼接操作,得到實體對;
7、計算實體對與實體對的關(guān)聯(lián)性,得到第一特征;
8、通過訓(xùn)練好的bert模型得到實體對的上下文嵌入;
9、計算實體對和上下文嵌入的關(guān)聯(lián)性,得到第二特征;
10、將第一特征和第二特征進行特征融合,得到抽取結(jié)果。
11、可選地,將表達向量進行分類組合,得到不同的實體向量,具體步驟為:將同一實體的不同實體表達通過聚類集合的方式進行分類,并將不同實體表達的表達向量進行組合,得到不同的實體向量;實體向量的表達式為:am=[am1,am2,am3,...,amn];其中,am為第m個實體向量,amn為第m個實體向量的第n個表達向量。
12、可選地,將頭實體向量和尾實體向量進行拼接操作,得到實體對,具體步驟包括:
13、選取全部實體向量中的任意兩個不同實體向量分別作為頭實體向量和尾實體向量;
14、計算頭實體向量和尾實體向量的向量距離;向量距離的計算公式為:其中,d為向量距離,axi為頭實體向量的第i個元素,ayi為尾實體向量的第i個元素,n為實體向量的維度數(shù)。
15、將頭實體向量、向量距離和尾實體向量進行組合,得到實體對;實體對的表達式為:f=w1[ax,ay,d];其中,w1為可學(xué)習(xí)參數(shù),ax為頭實體向量,ay為尾實體向量。
16、可選地,計算實體對與實體對的關(guān)聯(lián)性,得到第一特征,具體步驟包括:
17、分別計算兩個實體對的查詢、鍵和值;
18、分別對兩個實體對的查詢、鍵和值進行歸一化處理,得到兩個實體對注意力;
19、將兩個實體對注意力進行權(quán)重分配和組合,得到第一特征。
20、可選地,第一特征的計算公式為:t=μr1+(1-μ)r2;其中,r1和r2分別為兩個實體對注意力,t為第一特征,μ為實體對權(quán)重系數(shù);
21、實體對注意力的計算公式為:j=1或2;其中,bi為實體對第i個元素的歸一化系數(shù),為實體對第i個元素的值;
22、實體對權(quán)重系數(shù)的計算公式為:
23、歸一化系數(shù)為:qf=wq*f;kf=wk*f;vf=wv*f;其中,qf為實體對的查詢,kf為實體對的鍵,vf為實體對的值,wq、wk和wv分別為查詢、鍵和值的學(xué)習(xí)系數(shù),為實體對第i個元素的鍵。
24、可選地,通過訓(xùn)練好的bert模型得到實體對的上下文嵌入,具體步驟包括:
25、根據(jù)訓(xùn)練好的bert模型對片段的上下文語義進行分析,并根據(jù)分析結(jié)果為每個表達向量增加一個語義向量;
26、根據(jù)表達向量的分類組合將語義向量進行拼接,得到實體向量對應(yīng)的上下文嵌入。
27、可選地,計算實體對和上下文嵌入的關(guān)聯(lián)性,得到第二特征,具體步驟包括:
28、計算上下文嵌入的鍵和值;
29、對實體對的查詢、上下文嵌入的鍵和上下文嵌入的值進行歸一化處理,得到上下文注意力;
30、將實體對注意力和上下文注意力進行拼接降維操作,得到第二特征。
31、可選地,第二特征的計算公式為:h={u,r}*{wq,wk,wv};其中,u為上下文注意力,{}為拼接操作,h為第二特征,r為實體對注意力;
32、上下文注意力的計算公式為:qf=wq*f;kz=wk*z;vz=wv*z;其中,ci為上下文嵌入第i個元素的歸一化系數(shù),為上下文嵌入第i個元素的值,kz為上下文嵌入的鍵,vz為上下文嵌入的值,為上下文嵌入第i個元素的鍵,z為上下文嵌入。
33、可選地,將第一特征和第二特征進行特征融合,得到抽取結(jié)果,具體步驟包括:
34、分別計算第一特征和第二特征的協(xié)方差矩陣,得到第一協(xié)方差矩陣和第二協(xié)方差矩陣;
35、分別將第一協(xié)方差矩陣和第二協(xié)方差矩陣的特征向量進行拼接,得到第一降維特征和第二降維特征;
36、將第一特征與第二降維特征進行逐位相乘,得到第一關(guān)系;
37、將第二特征與第一降維特征進行逐位相乘,得到第二關(guān)系;
38、將第一關(guān)系和第二關(guān)系進行分權(quán)相加,得到抽取結(jié)果。
39、根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術(shù)效果:本發(fā)明提供的基于雙角度注意力融合的文檔級關(guān)系抽取方法,該方法包括:通過窗口滑動的方式將文檔劃分為多個片段,并通過訓(xùn)練好的bert模型得到片段中的實體表達和實體表達的表達向量;將表達向量進行分類組合,得到不同的實體向量;實體向量包括:頭實體向量和尾實體向量;將頭實體向量和尾實體向量進行拼接操作,得到實體對;計算實體對與實體對的關(guān)聯(lián)性,得到第一特征;通過訓(xùn)練好的bert模型得到實體對的上下文嵌入;計算實體對和上下文嵌入的關(guān)聯(lián)性,得到第二特征;將第一特征和第二特征進行特征融合,得到抽取結(jié)果。該方法通過實體對和上下文信息的潛在關(guān)系保證了抽取結(jié)果的完整性,并提高了模型的性能。
1.一種基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,將所述表達向量進行分類組合,得到不同的實體向量,具體步驟為:將同一實體的不同實體表達通過聚類集合的方式進行分類,并將所述不同實體表達的表達向量進行組合,得到所述不同的實體向量;所述實體向量的表達式為:am=[am1,am2,am3,...,amn];其中,am為第m個實體向量,amn為第m個實體向量的第n個表達向量。
3.根據(jù)權(quán)利要求2所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,將所述頭實體向量和所述尾實體向量進行拼接操作,得到實體對,具體步驟包括:
4.根據(jù)權(quán)利要求3所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,計算實體對與實體對的關(guān)聯(lián)性,得到第一特征,具體步驟包括:
5.根據(jù)權(quán)利要求4所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,所述第一特征的計算公式為:t=μr1+(1-μ)r2;其中,r1和r2分別為兩個實體對注意力,t為第一特征,μ為實體對權(quán)重系數(shù);
6.根據(jù)權(quán)利要求1所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,通過所述訓(xùn)練好的bert模型得到所述實體對的上下文嵌入,具體步驟包括:
7.根據(jù)權(quán)利要求4所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,計算所述實體對和所述上下文嵌入的關(guān)聯(lián)性,得到第二特征,具體步驟包括:
8.根據(jù)權(quán)利要求7所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,所述第二特征的計算公式為:h={u,r}*{wq,wk,wv};其中,u為上下文注意力,{}為拼接操作,h為第二特征,r為實體對注意力;
9.根據(jù)權(quán)利要求1所述的基于雙角度注意力融合的文檔級關(guān)系抽取方法,其特征在于,將所述第一特征和所述第二特征進行特征融合,得到抽取結(jié)果,具體步驟包括: