欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法、系統(tǒng)、介質(zhì)及設(shè)備與流程

文檔序號(hào):40530262發(fā)布日期:2024-12-31 13:43閱讀:14來源:國(guó)知局
基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法、系統(tǒng)、介質(zhì)及設(shè)備與流程

本發(fā)明屬于自然語言處理,尤其涉及基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法、系統(tǒng)、介質(zhì)及設(shè)備。


背景技術(shù):

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。

2、關(guān)系抽取在自然語言處理中是一個(gè)很重要的工作,特別在當(dāng)今信息愈來愈多,呈現(xiàn)爆炸式增長(zhǎng)的背景下,顯得格外重要。

3、全監(jiān)督的關(guān)系抽取是給定標(biāo)注正確的實(shí)體,判斷每個(gè)實(shí)體對(duì)之間的關(guān)系類別。對(duì)于全監(jiān)督的關(guān)系抽取,目前主要分為管道式和聯(lián)合式兩種方法。

4、遠(yuǎn)程監(jiān)督的方法使用啟發(fā)式的規(guī)則大批量標(biāo)注的數(shù)據(jù)來訓(xùn)練,因此它不像全監(jiān)督那樣需要高質(zhì)量的標(biāo)注數(shù)據(jù)。但是,通過啟發(fā)式規(guī)則標(biāo)注的數(shù)據(jù)往往包含大量噪聲,所以遠(yuǎn)程監(jiān)督的關(guān)系抽取方法的貢獻(xiàn)點(diǎn)主要是在于怎么降低噪聲對(duì)模型的影響。

5、當(dāng)前,關(guān)系抽取主要依賴傳統(tǒng)訓(xùn)練策略,即通過特征提取獲得實(shí)體和關(guān)系語義表示,然后預(yù)測(cè)關(guān)系類別。模型通過梯度下降和反向傳播不斷優(yōu)化,直至收斂。這種方法屬于一階分類,模型僅通過一次預(yù)測(cè)得出結(jié)果。無論是全監(jiān)督還是遠(yuǎn)程監(jiān)督關(guān)系抽取,都是在一階分類基礎(chǔ)上進(jìn)行特征工程,以提升訓(xùn)練效果。這種模式限制了算法的泛化能力,因?yàn)樗鼈兺ǔV荒茉谔囟ǖ谋O(jiān)督學(xué)習(xí)框架下優(yōu)化特征工程,難以適應(yīng)其他監(jiān)督學(xué)習(xí)方法。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述背景技術(shù)中存在的技術(shù)問題,本發(fā)明提供基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法、系統(tǒng)、介質(zhì)及設(shè)備,通過兩次級(jí)聯(lián)篩選,將第一次篩選的結(jié)果(濾網(wǎng)類型)作為提示,使用第二次篩選的結(jié)果作為最終的預(yù)測(cè)值,以充分利用不同關(guān)系之間存在等價(jià)或包含等聯(lián)系,提高關(guān)系抽取的準(zhǔn)確度。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

3、本發(fā)明的第一個(gè)方面提供基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其包括:

4、獲取句子,并在句子中每個(gè)實(shí)體的前后插入實(shí)體標(biāo)記,得到句子序列;

5、基于句子序列,通過關(guān)系抽取模型,預(yù)測(cè)句子的關(guān)系類型;

6、其中,關(guān)系抽取模型對(duì)句子序列提取實(shí)體特征和全句表征特征后,進(jìn)行向量拼接,得到一階分類特征;基于一階分類特征,通過激活函數(shù)和求自變量最大函數(shù),得到濾網(wǎng)類型;通過若干層編碼器,對(duì)句子序列提取若干特征矩陣,并進(jìn)行堆疊,得到特征方塊;基于特征方塊,通過單詞級(jí)層注意力機(jī)制,得到細(xì)粒度特征,并將細(xì)粒度特征和所述實(shí)體特征進(jìn)行拼接,得到二階分類特征;基于二階分類特征和濾網(wǎng)類型,預(yù)測(cè)句子的關(guān)系類型。

7、進(jìn)一步地,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。

8、進(jìn)一步地,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表 tanh激活函數(shù),代表 sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。

9、進(jìn)一步地,所述句子的關(guān)系類型的預(yù)測(cè)采用激活函數(shù)和求自變量最大函數(shù)。

10、進(jìn)一步地,所述關(guān)系抽取模型的訓(xùn)練采用的損失函數(shù)為:,其中,,=---,其中,和代表噪聲參數(shù),n代表濾網(wǎng)類型個(gè)數(shù),是樣本x的濾網(wǎng)類型真實(shí)標(biāo)簽,代表softmax激活函數(shù),代表 sigmoid函數(shù),和代表濾網(wǎng)中的關(guān)系類型個(gè)數(shù),是各關(guān)系類型的得分?jǐn)?shù),是各濾網(wǎng)類型的得分?jǐn)?shù),表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽。

11、本發(fā)明的第二個(gè)方面提供基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其包括:

12、數(shù)據(jù)獲取模塊,其被配置為:獲取句子,并在句子中每個(gè)實(shí)體的前后插入實(shí)體標(biāo)記,得到句子序列;

13、關(guān)系抽取模塊,其被配置為:基于句子序列,通過關(guān)系抽取模型,預(yù)測(cè)句子的關(guān)系類型;

14、其中,關(guān)系抽取模型對(duì)句子序列提取實(shí)體特征和全句表征特征后,進(jìn)行向量拼接,得到一階分類特征;基于一階分類特征,通過激活函數(shù)和求自變量最大函數(shù),得到濾網(wǎng)類型;通過若干層編碼器,對(duì)句子序列提取若干特征矩陣,并進(jìn)行堆疊,得到特征方塊;基于特征方塊,通過單詞級(jí)層注意力機(jī)制,得到細(xì)粒度特征,并將細(xì)粒度特征和所述實(shí)體特征進(jìn)行拼接,得到二階分類特征;基于二階分類特征和濾網(wǎng)類型,預(yù)測(cè)句子的關(guān)系類型。

15、進(jìn)一步地,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。

16、進(jìn)一步地,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表 tanh激活函數(shù),代表 sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。

17、本發(fā)明的第三個(gè)方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。

18、本發(fā)明的第四個(gè)方面提供一種計(jì)算機(jī)設(shè)備,包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。

19、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

20、本發(fā)明通過兩次級(jí)聯(lián)篩選,將第一次篩選的結(jié)果作為提示,使用第二次篩選的結(jié)果作為最終的預(yù)測(cè)值,以充分利用不同關(guān)系之間存在等價(jià)或包含等聯(lián)系,提高關(guān)系抽取的準(zhǔn)確度。

21、本發(fā)明將兩個(gè)粒度的篩選任務(wù)聯(lián)合訓(xùn)練,希望細(xì)粒度篩選任務(wù)在訓(xùn)練過程中產(chǎn)生的損失偏移量可以促進(jìn)粗粒度篩選任務(wù)的學(xué)習(xí),提高關(guān)系抽取模型的精度。

22、本發(fā)明提出一個(gè)單詞級(jí)的層注意力機(jī)制,來捕獲句子中全局和局部的豐富上下文語義,提高關(guān)系抽取的準(zhǔn)確度。



技術(shù)特征:

1.基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,包括:

2.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。

3.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表tanh激活函數(shù),代表sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。

4.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,所述句子的關(guān)系類型的預(yù)測(cè)采用激活函數(shù)和求自變量最大函數(shù)。

5.如權(quán)利要求1所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法,其特征在于,所述關(guān)系抽取模型的訓(xùn)練采用的損失函數(shù)為:,其中,,=---,其中,和代表噪聲參數(shù),n代表濾網(wǎng)類型個(gè)數(shù),是樣本x的濾網(wǎng)類型真實(shí)標(biāo)簽,代表softmax激活函數(shù),代表sigmoid型函數(shù),和代表濾網(wǎng)中的關(guān)系類型個(gè)數(shù),是各關(guān)系類型的得分?jǐn)?shù),是各濾網(wǎng)類型的得分?jǐn)?shù),表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽,表示樣本的關(guān)系類型真實(shí)標(biāo)簽。

6.基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其特征在于,包括:

7.如權(quán)利要求6所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其特征在于,每個(gè)實(shí)體的前后插入的實(shí)體標(biāo)記分別為和,其中,表示第k個(gè)實(shí)體,,代表一組預(yù)定義的實(shí)體類型。

8.如權(quán)利要求6所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取系統(tǒng),其特征在于,所述單詞級(jí)層注意力機(jī)制表示為:;其中,表示特征方塊,代表tanh激活函數(shù),代表sigmoid激活函數(shù),代表平均池化,m代表最大池化,和表示權(quán)重,和代表卷積操作,表示細(xì)粒度特征。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-5中任一項(xiàng)所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。

10.一種計(jì)算機(jī)設(shè)備,包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、處理器及存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-5中任一項(xiàng)所述的基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法中的步驟。


技術(shù)總結(jié)
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,提供了基于級(jí)聯(lián)式二階篩選的關(guān)系抽取方法、系統(tǒng)、介質(zhì)及設(shè)備,包括:在句子中每個(gè)實(shí)體的前后插入實(shí)體標(biāo)記,得到句子序列,通過關(guān)系抽取模型,預(yù)測(cè)句子的關(guān)系類型;其中,關(guān)系抽取模型對(duì)句子序列提取實(shí)體特征和全句表征特征后,進(jìn)行向量拼接,得到一階分類特征;基于一階分類特征,通過激活函數(shù)和求自變量最大函數(shù),得到濾網(wǎng)類型;通過若干層編碼器,對(duì)句子序列提取若干特征矩陣,并進(jìn)行堆疊,得到特征方塊;基于特征方塊,通過單詞級(jí)層注意力機(jī)制,得到細(xì)粒度特征,并將細(xì)粒度特征和所述實(shí)體特征進(jìn)行拼接,得到二階分類特征;基于二階分類特征和濾網(wǎng)類型,預(yù)測(cè)句子的關(guān)系類型。提高了關(guān)系抽取的準(zhǔn)確度。

技術(shù)研發(fā)人員:房正鵬,吳猛,朱傳亮,臧元鋒,石力,王殿坤,姜雨
受保護(hù)的技術(shù)使用者:山東道科信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
镇平县| 长白| 许昌市| 霍城县| 祁东县| 镇安县| 铁力市| 辉县市| 册亨县| 英吉沙县| 英德市| 图们市| 调兵山市| 青河县| 达拉特旗| 宁南县| 张掖市| 永寿县| 琼海市| 改则县| 龙州县| 开化县| 尚义县| 姚安县| 洞头县| 正安县| 湾仔区| 兴城市| 榕江县| 罗源县| 北流市| 巴南区| 改则县| 青浦区| 平遥县| 庆城县| 同仁县| 东方市| 西平县| 紫云| 昌黎县|