本公開涉及數(shù)據(jù)處理,特別涉及一種知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、知識(shí)圖譜也即是由多個(gè)三元組構(gòu)成的圖譜,一個(gè)三元組中包括主體、謂語和客體這三個(gè)部分,其中主體和客體都屬于實(shí)體,謂語屬于關(guān)系。因此,在構(gòu)建知識(shí)圖譜時(shí),需要準(zhǔn)確地獲取多個(gè)三元組,從而構(gòu)建出完善的知識(shí)圖譜。
2、相關(guān)技術(shù)中,知識(shí)圖譜構(gòu)建方法包括:獲取多個(gè)實(shí)體,采用llm(large?languagemodel,大型語言模型)抽取多個(gè)實(shí)體中的兩個(gè)實(shí)體之間的關(guān)系,從而得到多個(gè)三元組,基于多個(gè)三元組構(gòu)建知識(shí)圖譜。
3、然而,llm是大體量的大語言模型,這種大體量的大語言模型在低資源的環(huán)境下難以使用。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),能夠在低資源的環(huán)境下實(shí)現(xiàn)基于大語言模型構(gòu)建知識(shí)圖譜。所述技術(shù)方案至少包括如下方案:
2、第一方面,提供了一種知識(shí)圖譜構(gòu)建方法,包括:獲取第一謂語集合,所述第一謂語集合中包括目標(biāo)領(lǐng)域中的多個(gè)謂語,所述謂語為知識(shí)圖譜的三元組中的謂語,所述三元組包括主體、謂語、客體;基于所述第一謂語集合,訓(xùn)練教師大語言模型,所述教師大語言模型用于從目標(biāo)領(lǐng)域知識(shí)文本中提取多個(gè)三元組,且所述教師大模型提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾;基于知識(shí)蒸餾后的所述學(xué)生大語言模型,構(gòu)建目標(biāo)領(lǐng)域知識(shí)圖譜。
3、可選地,所述基于所述第一謂語集合,訓(xùn)練教師大語言模型,包括:獲取第一微調(diào)指令,所述第一微調(diào)指令中包括第一目標(biāo)領(lǐng)域知識(shí)文本和標(biāo)簽,所述第一微調(diào)指令用于控制所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中按照所述標(biāo)簽所指示的格式提取多個(gè)三元組,且所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào)。
4、可選地,所述基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào),包括:對(duì)所述第一微調(diào)指令進(jìn)行預(yù)處理,所述預(yù)處理包括獲取所述第一微調(diào)指令的詞序列、注意力掩碼和所述標(biāo)簽;將所述第一微調(diào)指令的詞序列、注意力掩碼和標(biāo)簽輸入至所述教師大語言模型,以對(duì)所述教師大語言模型進(jìn)行微調(diào)。
5、可選地,所述基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾,包括:
6、采用如下公式作為損失函數(shù),以對(duì)所述學(xué)生大語言模型進(jìn)行知識(shí)蒸餾:
7、
8、其中,為所述損失函數(shù)的損失值,為所述教師大語言模型輸出的概率分布,為所述學(xué)生大語言模型輸出的概率分布,表示對(duì)所述教師大語言模型的輸出和所述學(xué)生大語言模型的輸出進(jìn)行逆kullback-leibler散度變換,表示在為訓(xùn)練集中的任一個(gè)樣本,為所述學(xué)生大語言模型輸出的概率分布生成的樣本的情況下,和的聯(lián)合期望。
9、可選地,所述方法還包括:獲取所述學(xué)生大語言模型的評(píng)估指標(biāo),所述評(píng)估指標(biāo)包括準(zhǔn)確度、召回率和f1分?jǐn)?shù);基于所述評(píng)估指標(biāo),評(píng)估所述學(xué)生大語言模型的性能。
10、第二方面,還提供了一種知識(shí)圖譜構(gòu)建裝置,包括:獲取模塊,用于獲取第一謂語集合,所述第一謂語集合中包括目標(biāo)領(lǐng)域中的多個(gè)謂語,所述謂語為知識(shí)圖譜的三元組中的謂語,所述三元組包括主體、謂語、客體;訓(xùn)練模塊,用于基于所述第一謂語集合,訓(xùn)練教師大語言模型,所述教師大語言模型用于從目標(biāo)領(lǐng)域知識(shí)文本中提取多個(gè)三元組,且所述教師大模型提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;知識(shí)蒸餾模塊,用于基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾;知識(shí)圖譜構(gòu)建模塊,用于基于知識(shí)蒸餾后的所述學(xué)生大語言模型,構(gòu)建目標(biāo)領(lǐng)域知識(shí)圖譜。
11、可選地,所述訓(xùn)練模塊還用于獲取第一微調(diào)指令,所述第一微調(diào)指令中包括第一目標(biāo)領(lǐng)域知識(shí)文本和標(biāo)簽,所述第一微調(diào)指令用于控制所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中按照所述標(biāo)簽所指示的格式提取多個(gè)三元組,且所述教師大語言模型從所述第一目標(biāo)領(lǐng)域知識(shí)文本中提取出的任一個(gè)三元組中的謂語均在所述第一謂語集合中;基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào)。
12、可選地,所述訓(xùn)練模塊還用于對(duì)所述第一微調(diào)指令進(jìn)行預(yù)處理,所述預(yù)處理包括獲取所述第一微調(diào)指令的詞序列、注意力掩碼和所述標(biāo)簽;將所述第一微調(diào)指令的詞序列、注意力掩碼和標(biāo)簽輸入至所述教師大語言模型,以對(duì)所述教師大語言模型進(jìn)行微調(diào)。
13、可選地,所述知識(shí)蒸餾模塊還用于采用如下公式作為損失函數(shù),以對(duì)所述學(xué)生大語言模型進(jìn)行知識(shí)蒸餾:
14、
15、其中,為所述損失函數(shù)的損失值,為所述教師大語言模型輸出的概率分布,為所述學(xué)生大語言模型輸出的概率分布,表示對(duì)所述教師大語言模型的輸出和所述學(xué)生大語言模型的輸出進(jìn)行逆kullback-leibler散度變換,表示在為訓(xùn)練集中的任一個(gè)樣本,為所述學(xué)生大語言模型輸出的概率分布生成的樣本的情況下,和的聯(lián)合期望。
16、可選地,該裝置還包括:評(píng)估模塊,所述評(píng)估模塊用于獲取所述學(xué)生大語言模型的評(píng)估指標(biāo),所述評(píng)估指標(biāo)包括準(zhǔn)確度、召回率和f1分?jǐn)?shù);基于所述評(píng)估指標(biāo),評(píng)估所述學(xué)生大語言模型的性能。
17、第三方面,還提供了一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由所述處理器加載并執(zhí)行,從而執(zhí)行上述實(shí)施例中所述的知識(shí)圖譜構(gòu)建方法。
18、第四方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由處理器加載并執(zhí)行,從而執(zhí)行上述實(shí)施例中所述的知識(shí)圖譜構(gòu)建方法。
19、第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的方法。
20、本公開實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:
21、在本公開實(shí)施例中,通過第一謂語集合訓(xùn)練教師大語言模型,使得訓(xùn)練完成的教師大語言模型可以較為準(zhǔn)確地從目標(biāo)領(lǐng)域知識(shí)文本中提取出目標(biāo)領(lǐng)域知識(shí)圖譜所需多個(gè)三元組;而通過教師大語言模型對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾,可以將教師大語言模型的知識(shí)遷移到學(xué)生大語言模型中。學(xué)生大語言模型通常為小體積的大語言模型,而小體積的大語言模型在低資源的環(huán)境下就可以運(yùn)行,故最終得到的知識(shí)蒸餾后的學(xué)生大語言模型可以在低資源的環(huán)境下實(shí)現(xiàn)構(gòu)建目標(biāo)領(lǐng)域知識(shí)圖譜。
1.一種知識(shí)圖譜構(gòu)建方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一謂語集合,訓(xùn)練教師大語言模型,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對(duì)所述教師大語言模型進(jìn)行微調(diào),包括:
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述基于所述教師大語言模型,對(duì)學(xué)生大語言模型進(jìn)行知識(shí)蒸餾,包括:
5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述方法還包括:
6.一種知識(shí)圖譜構(gòu)建裝置,其特征在于,所述裝置包括:
7.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由所述處理器加載并執(zhí)行,以實(shí)現(xiàn)權(quán)利要求1至5任一項(xiàng)所述的方法。
8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由處理器加載并執(zhí)行,以實(shí)現(xiàn)權(quán)利要求1至5任一項(xiàng)所述的方法。
9.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至5任一項(xiàng)所述的方法。