欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

文檔序號(hào):40453502發(fā)布日期:2024-12-27 09:18閱讀:12來源:國知局
知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

本公開涉及數(shù)據(jù)處理,特別涉及一種知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、知識(shí)圖譜也即是由多個(gè)三元組構(gòu)成的圖譜,一個(gè)三元組中包括主體、謂語和客體這三個(gè)部分,其中主體和客體都屬于實(shí)體,謂語屬于關(guān)系。因此,在構(gòu)建知識(shí)圖譜時(shí),需要準(zhǔn)確地獲取多個(gè)三元組,從而構(gòu)建出完善的知識(shí)圖譜。

2、相關(guān)技術(shù)中,知識(shí)圖譜構(gòu)建方法包括:獲取多個(gè)實(shí)體,采用llm(large?languagemodel,大型語言模型)抽取多個(gè)實(shí)體中的兩個(gè)實(shí)體之間的關(guān)系,從而得到多個(gè)三元組,基于多個(gè)三元組構(gòu)建知識(shí)圖譜。

3、然而,llm是大體量的大語言模型,這種大體量的大語言模型在低資源的環(huán)境下難以使用。


技術(shù)實(shí)現(xiàn)思路

1、本公開提供了一種知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),能夠在低資源的環(huán)境下實(shí)現(xiàn)基于大語言模型構(gòu)建知識(shí)圖譜。所述技術(shù)方案至少包括如下方案:

2、第一方面,提供了一種知識(shí)圖譜構(gòu)建方法,包括:獲取第一謂語集合,所述第一謂語集合中包括目標(biāo)領(lǐng)域中的多個(gè)謂語,所述謂語為知識(shí)圖譜的三元組中的謂語,所述三元組包括主體、謂語、客體;基于所述第一謂語集合,訓(xùn)練教師大語言模型,所述教師大語言模型用于從目標(biāo)領(lǐng)域知識(shí)文本中提取多個(gè)三元組,且所述教師大模型提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾;基于知識(shí)蒸餾后的所述學(xué)生大語言模型,構(gòu)建目標(biāo)領(lǐng)域知識(shí)圖譜。

3、可選地,所述基于所述第一謂語集合,訓(xùn)練教師大語言模型,包括:獲取第一微調(diào)指令,所述第一微調(diào)指令中包括第一目標(biāo)領(lǐng)域知識(shí)文本和標(biāo)簽,所述第一微調(diào)指令用于控制所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中按照所述標(biāo)簽所指示的格式提取多個(gè)三元組,且所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào)。

4、可選地,所述基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào),包括:對(duì)所述第一微調(diào)指令進(jìn)行預(yù)處理,所述預(yù)處理包括獲取所述第一微調(diào)指令的詞序列、注意力掩碼和所述標(biāo)簽;將所述第一微調(diào)指令的詞序列、注意力掩碼和標(biāo)簽輸入至所述教師大語言模型,以對(duì)所述教師大語言模型進(jìn)行微調(diào)。

5、可選地,所述基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾,包括:

6、采用如下公式作為損失函數(shù),以對(duì)所述學(xué)生大語言模型進(jìn)行知識(shí)蒸餾:

7、

8、其中,為所述損失函數(shù)的損失值,為所述教師大語言模型輸出的概率分布,為所述學(xué)生大語言模型輸出的概率分布,表示對(duì)所述教師大語言模型的輸出和所述學(xué)生大語言模型的輸出進(jìn)行逆kullback-leibler散度變換,表示在為訓(xùn)練集中的任一個(gè)樣本,為所述學(xué)生大語言模型輸出的概率分布生成的樣本的情況下,和的聯(lián)合期望。

9、可選地,所述方法還包括:獲取所述學(xué)生大語言模型的評(píng)估指標(biāo),所述評(píng)估指標(biāo)包括準(zhǔn)確度、召回率和f1分?jǐn)?shù);基于所述評(píng)估指標(biāo),評(píng)估所述學(xué)生大語言模型的性能。

10、第二方面,還提供了一種知識(shí)圖譜構(gòu)建裝置,包括:獲取模塊,用于獲取第一謂語集合,所述第一謂語集合中包括目標(biāo)領(lǐng)域中的多個(gè)謂語,所述謂語為知識(shí)圖譜的三元組中的謂語,所述三元組包括主體、謂語、客體;訓(xùn)練模塊,用于基于所述第一謂語集合,訓(xùn)練教師大語言模型,所述教師大語言模型用于從目標(biāo)領(lǐng)域知識(shí)文本中提取多個(gè)三元組,且所述教師大模型提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;知識(shí)蒸餾模塊,用于基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾;知識(shí)圖譜構(gòu)建模塊,用于基于知識(shí)蒸餾后的所述學(xué)生大語言模型,構(gòu)建目標(biāo)領(lǐng)域知識(shí)圖譜。

11、可選地,所述訓(xùn)練模塊還用于獲取第一微調(diào)指令,所述第一微調(diào)指令中包括第一目標(biāo)領(lǐng)域知識(shí)文本和標(biāo)簽,所述第一微調(diào)指令用于控制所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中按照所述標(biāo)簽所指示的格式提取多個(gè)三元組,且所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào)。

12、可選地,所述訓(xùn)練模塊還用于對(duì)所述第一微調(diào)指令進(jìn)行預(yù)處理,所述預(yù)處理包括獲取所述第一微調(diào)指令的詞序列、注意力掩碼和所述標(biāo)簽;將所述第一微調(diào)指令的詞序列、注意力掩碼和標(biāo)簽輸入至所述教師大語言模型,以對(duì)所述教師大語言模型進(jìn)行微調(diào)。

13、可選地,所述知識(shí)蒸餾模塊還用于采用如下公式作為損失函數(shù),以對(duì)所述學(xué)生大語言模型進(jìn)行知識(shí)蒸餾:

14、

15、其中,為所述損失函數(shù)的損失值,為所述教師大語言模型輸出的概率分布,為所述學(xué)生大語言模型輸出的概率分布,表示對(duì)所述教師大語言模型的輸出和所述學(xué)生大語言模型的輸出進(jìn)行逆kullback-leibler散度變換,表示在為訓(xùn)練集中的任一個(gè)樣本,為所述學(xué)生大語言模型輸出的概率分布生成的樣本的情況下,和的聯(lián)合期望。

16、可選地,該裝置還包括:評(píng)估模塊,所述評(píng)估模塊用于獲取所述學(xué)生大語言模型的評(píng)估指標(biāo),所述評(píng)估指標(biāo)包括準(zhǔn)確度、召回率和f1分?jǐn)?shù);基于所述評(píng)估指標(biāo),評(píng)估所述學(xué)生大語言模型的性能。

17、第三方面,還提供了一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由所述處理器加載并執(zhí)行,從而執(zhí)行上述實(shí)施例中所述的知識(shí)圖譜構(gòu)建方法。

18、第四方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由處理器加載并執(zhí)行,從而執(zhí)行上述實(shí)施例中所述的知識(shí)圖譜構(gòu)建方法。

19、第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的方法。

20、本公開實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:

21、在本公開實(shí)施例中,通過第一謂語集合訓(xùn)練教師大語言模型,使得訓(xùn)練完成的教師大語言模型可以較為準(zhǔn)確地從目標(biāo)領(lǐng)域知識(shí)文本中提取出目標(biāo)領(lǐng)域知識(shí)圖譜所需多個(gè)三元組;而通過教師大語言模型對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾,可以將教師大語言模型的知識(shí)遷移到學(xué)生大語言模型中。學(xué)生大語言模型通常為小體積的大語言模型,而小體積的大語言模型在低資源的環(huán)境下就可以運(yùn)行,故最終得到的知識(shí)蒸餾后的學(xué)生大語言模型可以在低資源的環(huán)境下實(shí)現(xiàn)構(gòu)建目標(biāo)領(lǐng)域知識(shí)圖譜。



技術(shù)特征:

1.一種知識(shí)圖譜構(gòu)建方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一謂語集合,訓(xùn)練教師大語言模型,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào),包括:

4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾,包括:

5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述方法還包括:

6.一種知識(shí)圖譜構(gòu)建裝置,其特征在于,所述裝置包括:

7.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由所述處理器加載并執(zhí)行,以實(shí)現(xiàn)權(quán)利要求1至5任一項(xiàng)所述的方法。

8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由處理器加載并執(zhí)行,以實(shí)現(xiàn)權(quán)利要求1至5任一項(xiàng)所述的方法。

9.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至5任一項(xiàng)所述的方法。


技術(shù)總結(jié)
公開了一種知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),屬于數(shù)據(jù)處理領(lǐng)域,該方法包括:獲取第一謂語集合,第一謂語集合中包括目標(biāo)領(lǐng)域中的多個(gè)謂語,謂語為知識(shí)圖譜的三元組中的謂語,三元組包括主體、謂語、客體;基于第一謂語集合,訓(xùn)練教師大語言模型,教師大語言模型用于從目標(biāo)領(lǐng)域知識(shí)文本中提取多個(gè)三元組,且教師大模型提取出的任一個(gè)三元組中的謂語均在第一謂語集合中;基于教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾;基于知識(shí)蒸餾后的學(xué)生大語言模型,構(gòu)建目標(biāo)領(lǐng)域知識(shí)圖譜。該方法能夠在低資源的環(huán)境下實(shí)現(xiàn)基于大語言模型構(gòu)建知識(shí)圖譜。

技術(shù)研發(fā)人員:袁夢霆,馬立開
受保護(hù)的技術(shù)使用者:武漢大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/26
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
余江县| 和政县| 固原市| 芦溪县| 农安县| 江门市| 马公市| 马尔康县| 安吉县| 平昌县| 应城市| 新余市| 石河子市| 河间市| 来凤县| 横山县| 历史| 呼伦贝尔市| 保康县| 塘沽区| 闻喜县| 尼玛县| 西盟| 汾阳市| 报价| 罗城| 明光市| 三穗县| 广东省| 永和县| 弥勒县| 盐津县| 乐清市| 祁门县| 灵台县| 固安县| 德化县| 玉林市| 西吉县| 洛阳市| 嘉定区|