本發(fā)明屬于自然語言處理,尤其涉及基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法、系統(tǒng)、介質(zhì)及設(shè)備。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、關(guān)系抽取在自然語言處理中是一個(gè)很重要的工作,特別在當(dāng)今信息愈來愈多,呈現(xiàn)爆炸式增長(zhǎng)的背景下,顯得格外重要。
3、全監(jiān)督的關(guān)系抽取是給定標(biāo)注正確的實(shí)體,判斷每個(gè)實(shí)體對(duì)之間的關(guān)系類別。對(duì)于全監(jiān)督的關(guān)系抽取,目前主要分為管道式和聯(lián)合式兩種方法。
4、遠(yuǎn)程監(jiān)督的方法使用啟發(fā)式的規(guī)則大批量標(biāo)注的數(shù)據(jù)來訓(xùn)練,因此它不像全監(jiān)督那樣需要高質(zhì)量的標(biāo)注數(shù)據(jù)。但是,通過啟發(fā)式規(guī)則標(biāo)注的數(shù)據(jù)往往包含大量噪聲,所以遠(yuǎn)程監(jiān)督的關(guān)系抽取方法的貢獻(xiàn)點(diǎn)主要是在于怎么降低噪聲對(duì)模型的影響。
5、當(dāng)前,關(guān)系抽取主要依賴傳統(tǒng)訓(xùn)練策略,即通過特征提取獲得實(shí)體和關(guān)系語義表示,然后預(yù)測(cè)關(guān)系類別。模型通過梯度下降和反向傳播不斷優(yōu)化,直至收斂。這種方法屬于一階分類,模型僅通過一次預(yù)測(cè)得出結(jié)果。無論是全監(jiān)督還是遠(yuǎn)程監(jiān)督關(guān)系抽取,都是在一階分類基礎(chǔ)上進(jìn)行特征工程,以提升訓(xùn)練效果。這種模式限制了算法的泛化能力,因?yàn)樗鼈兺ǔV荒茉谔囟ǖ谋O(jiān)督學(xué)習(xí)框架下優(yōu)化特征工程,難以適應(yīng)其他監(jiān)督學(xué)習(xí)方法。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述背景技術(shù)中存在的技術(shù)問題,本發(fā)明提供基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法、系統(tǒng)、介質(zhì)及設(shè)備,通過兩次級(jí)聯(lián)篩選,將第一次篩選的結(jié)果(濾網(wǎng)類型)作為提示,使用第二次篩選的結(jié)果作為最終的預(yù)測(cè)值,以充分利用不同關(guān)系之間存在等價(jià)或包含等聯(lián)系,提高關(guān)系抽取的準(zhǔn)確度。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、本發(fā)明的第一個(gè)方面提供基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其包括:
4、獲取句子,并在句子中每個(gè)實(shí)體的前后插入實(shí)體標(biāo)記,得到句子序列;
5、基于句子序列,通過關(guān)系抽取模型,預(yù)測(cè)句子的關(guān)系類型;
6、其中,關(guān)系抽取模型對(duì)句子序列提取實(shí)體特征和全句表征特征后,進(jìn)行向量拼接,得到一階分類特征;基于一階分類特征,通過激活函數(shù)和求自變量最大函數(shù),得到濾網(wǎng)類型;通過若干層編碼器,對(duì)句子序列提取若干特征矩陣,并進(jìn)行堆疊,得到特征方塊;基于特征方塊,通過單詞級(jí)層注意力機(jī)制,得到細(xì)粒度特征,并將細(xì)粒度特征和所述實(shí)體特征進(jìn)行拼接,得到二階分類特征;基于二階分類特征和濾網(wǎng)類型,預(yù)測(cè)句子的關(guān)系類型。
7、進(jìn)一步地,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。
8、進(jìn)一步地,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表 tanh激活函數(shù),代表 sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。
9、進(jìn)一步地,所述句子的關(guān)系類型的預(yù)測(cè)采用激活函數(shù)和求自變量最大函數(shù)。
10、進(jìn)一步地,所述關(guān)系抽取模型的訓(xùn)練采用的損失函數(shù)為:,其中,,=---,其中,和代表噪聲參數(shù),n代表濾網(wǎng)類型個(gè)數(shù),是樣本x的濾網(wǎng)類型真實(shí)標(biāo)簽,代表softmax激活函數(shù),代表 sigmoid函數(shù),和代表濾網(wǎng)中的關(guān)系類型個(gè)數(shù),是各關(guān)系類型的得分?jǐn)?shù),是各濾網(wǎng)類型的得分?jǐn)?shù),表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽。
11、本發(fā)明的第二個(gè)方面提供基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其包括:
12、數(shù)據(jù)獲取模塊,其被配置為:獲取句子,并在句子中每個(gè)實(shí)體的前后插入實(shí)體標(biāo)記,得到句子序列;
13、關(guān)系抽取模塊,其被配置為:基于句子序列,通過關(guān)系抽取模型,預(yù)測(cè)句子的關(guān)系類型;
14、其中,關(guān)系抽取模型對(duì)句子序列提取實(shí)體特征和全句表征特征后,進(jìn)行向量拼接,得到一階分類特征;基于一階分類特征,通過激活函數(shù)和求自變量最大函數(shù),得到濾網(wǎng)類型;通過若干層編碼器,對(duì)句子序列提取若干特征矩陣,并進(jìn)行堆疊,得到特征方塊;基于特征方塊,通過單詞級(jí)層注意力機(jī)制,得到細(xì)粒度特征,并將細(xì)粒度特征和所述實(shí)體特征進(jìn)行拼接,得到二階分類特征;基于二階分類特征和濾網(wǎng)類型,預(yù)測(cè)句子的關(guān)系類型。
15、進(jìn)一步地,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。
16、進(jìn)一步地,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表 tanh激活函數(shù),代表 sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。
17、本發(fā)明的第三個(gè)方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。
18、本發(fā)明的第四個(gè)方面提供一種計(jì)算機(jī)設(shè)備,包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。
19、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
20、本發(fā)明通過兩次級(jí)聯(lián)篩選,將第一次篩選的結(jié)果作為提示,使用第二次篩選的結(jié)果作為最終的預(yù)測(cè)值,以充分利用不同關(guān)系之間存在等價(jià)或包含等聯(lián)系,提高關(guān)系抽取的準(zhǔn)確度。
21、本發(fā)明將兩個(gè)粒度的篩選任務(wù)聯(lián)合訓(xùn)練,希望細(xì)粒度篩選任務(wù)在訓(xùn)練過程中產(chǎn)生的損失偏移量可以促進(jìn)粗粒度篩選任務(wù)的學(xué)習(xí),提高關(guān)系抽取模型的精度。
22、本發(fā)明提出一個(gè)單詞級(jí)的層注意力機(jī)制,來捕獲句子中全局和局部的豐富上下文語義,提高關(guān)系抽取的準(zhǔn)確度。
1.基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。
3.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表tanh激活函數(shù),代表sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。
4.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,所述句子的關(guān)系類型的預(yù)測(cè)采用激活函數(shù)和求自變量最大函數(shù)。
5.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,所述關(guān)系抽取模型的訓(xùn)練采用的損失函數(shù)為:,其中,,=---,其中,和代表噪聲參數(shù),n代表濾網(wǎng)類型個(gè)數(shù),是樣本x的濾網(wǎng)類型真實(shí)標(biāo)簽,代表softmax激活函數(shù),代表sigmoid型函數(shù),和代表濾網(wǎng)中的關(guān)系類型個(gè)數(shù),是各關(guān)系類型的得分?jǐn)?shù),是各濾網(wǎng)類型的得分?jǐn)?shù),表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽。
6.基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其特征在于,包括:
7.如權(quán)利要求6所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其特征在于,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。
8.如權(quán)利要求6所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其特征在于,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表tanh激活函數(shù),代表sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-5中任一項(xiàng)所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。
10.一種計(jì)算機(jī)設(shè)備,包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-5中任一項(xiàng)所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。