本發(fā)明涉及一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,屬于自然語(yǔ)言處理領(lǐng)域。
背景技術(shù):
1、知識(shí)圖譜通過圖結(jié)構(gòu)的形式系統(tǒng)地記錄了客觀世界中的概念、實(shí)體及其相互關(guān)系,旨在模擬和增強(qiáng)人類對(duì)現(xiàn)實(shí)世界的認(rèn)知。這種圖形化的表達(dá)方式不僅能夠有效地組織和管理復(fù)雜信息,還能夠促進(jìn)對(duì)專業(yè)領(lǐng)域知識(shí)的深層理解和應(yīng)用,因此,在各個(gè)領(lǐng)域構(gòu)建知識(shí)圖譜變得至關(guān)重要。然而,基于大語(yǔ)言模型構(gòu)建領(lǐng)域知識(shí)圖譜需要專家設(shè)計(jì)有效的提示提高大語(yǔ)言模型的生成質(zhì)量。基于大語(yǔ)言模型的領(lǐng)域知識(shí)圖譜自動(dòng)構(gòu)建面臨數(shù)據(jù)不可靠、領(lǐng)域?qū)I(yè)知識(shí)理解差、抽取原始語(yǔ)料知識(shí)不精確等一系列問題,而大語(yǔ)言模型作為一種通用模型,無法在特定領(lǐng)域構(gòu)建出高精度、高完整度的領(lǐng)域知識(shí)圖譜。
2、在這一背景下,如何利用自適應(yīng)提示以及逆約束方法有效降低人工設(shè)計(jì)提示詞的成本,提高大語(yǔ)言模型的構(gòu)建精度,增加模式層的規(guī)模而無需考慮大語(yǔ)言模型的輸入限制,同時(shí)提高領(lǐng)域知識(shí)圖譜的精確性和完整性是當(dāng)前亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是提供一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,旨在應(yīng)對(duì)使用大語(yǔ)言模型構(gòu)建知識(shí)圖譜方法所面臨的問題,包括數(shù)據(jù)不可靠、領(lǐng)域?qū)I(yè)知識(shí)理解差、抽取原始語(yǔ)料知識(shí)不精確,規(guī)模小等問題,從而實(shí)現(xiàn)高效、準(zhǔn)確的知識(shí)圖譜自動(dòng)構(gòu)建。
2、本發(fā)明的技術(shù)方案是:一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,通過引入自適應(yīng)反饋提示技術(shù),可以有效解決大語(yǔ)言模型在構(gòu)建領(lǐng)域知識(shí)圖譜時(shí)由于提示詞設(shè)計(jì)不當(dāng)導(dǎo)致抽取知識(shí)不精確、知識(shí)不可靠等問題。通過引入逆約束方法可以有效解決在利用生成式大語(yǔ)言模型構(gòu)建領(lǐng)域知識(shí)圖譜時(shí)模式層規(guī)模較大而無法嵌入至提示導(dǎo)致抽取規(guī)模小,精度低等問題。
3、具體步驟為:
4、step1:將圖片、語(yǔ)音數(shù)據(jù)輸入至ocr識(shí)別模塊和語(yǔ)音識(shí)別模塊,得到初始文本輸入數(shù)據(jù);
5、step2:根據(jù)預(yù)定義生成提示模板和少樣本文本數(shù)據(jù),自適應(yīng)提示生成大語(yǔ)言模型生成提示樣例;
6、step3:根據(jù)預(yù)定義反饋提示模板,提示反饋大語(yǔ)言模型對(duì)提示樣例評(píng)估,得到提示評(píng)分;
7、step4:根據(jù)評(píng)分對(duì)提示排序,將評(píng)分最高的提示作為最優(yōu)提示;
8、step5:根據(jù)最優(yōu)提示和預(yù)定義抽取提示模板,知識(shí)抽取大語(yǔ)言模型抽取開放知識(shí)圖譜三元組;
9、step6:利用transformer編碼器對(duì)開放知識(shí)圖譜三元組和模式層文本信息進(jìn)行編碼,分別得到開放知識(shí)圖譜三元組編碼向量和模式層語(yǔ)義信息編碼向量;
10、step7:利用向量相似性搜索模塊對(duì)開放知識(shí)圖譜三元組編碼向量和模式層語(yǔ)義信息編碼向量進(jìn)行匹配,得到約束性領(lǐng)域知識(shí)圖譜三元組,完成知識(shí)圖譜構(gòu)建。
11、所述step1具體為:
12、step1.1:將來自實(shí)際場(chǎng)景下的原始圖片數(shù)據(jù)通過ocr識(shí)別模塊進(jìn)行處理,獲取圖片中的文本數(shù)據(jù);
13、step1.2:將來自實(shí)際場(chǎng)景下的原始語(yǔ)音數(shù)據(jù)通過語(yǔ)音識(shí)別模塊進(jìn)行處理,獲取語(yǔ)音中的文本數(shù)據(jù);
14、step1.3:對(duì)所述圖片中的文本數(shù)據(jù)、所述語(yǔ)音中的文本數(shù)據(jù)與原始格式為文本的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,得到初始文本輸入數(shù)據(jù)。
15、具體地,所述step1.3中數(shù)據(jù)清洗具體為:將圖片中的文本數(shù)據(jù)、所述語(yǔ)音中的文本數(shù)據(jù)與原始格式為文本的數(shù)據(jù)轉(zhuǎn)換為字符數(shù)據(jù),再對(duì)字符數(shù)據(jù)進(jìn)行冗余消除和無效字符消除。
16、所述step2具體為:
17、step2.1:將預(yù)定義生成提示模板作為自適應(yīng)提示生成大語(yǔ)言模型的規(guī)則提示;
18、step2.2:將少樣本文本數(shù)據(jù)作為自適應(yīng)提示生成大語(yǔ)言模型的少樣本提示;
19、step2.3:自適應(yīng)提示生成大語(yǔ)言模型根據(jù)規(guī)則提示和少樣本提示生成提示樣例。
20、具體地,所述step2.3中提示樣例具體為:指導(dǎo)提示反饋大語(yǔ)言模型完成任務(wù)的m個(gè)同質(zhì)提示,m為提示反饋大語(yǔ)言模型下接收的提示樣例個(gè)數(shù)。
21、所述step3具體為:
22、step3.1:將預(yù)定義反饋提示模板作為提示反饋大語(yǔ)言模型的輸入提示;
23、step3.2:提示反饋大語(yǔ)言模型基于所述輸入提示生成提示樣例評(píng)分鍵值對(duì)。
24、具體地,所述step3.2中提示樣例評(píng)分鍵值對(duì)具體為:提示反饋大語(yǔ)言模型對(duì)不同提示樣例得到的任務(wù)結(jié)果進(jìn)行評(píng)分,提示樣例與對(duì)應(yīng)的評(píng)分組成鍵值對(duì)。
25、step5具體為:
26、step5.1:以最優(yōu)提示和預(yù)定義抽取提示模板作為提示規(guī)則,輸入至知識(shí)抽取大語(yǔ)言模型;
27、step5.2:知識(shí)抽取大語(yǔ)言模型根據(jù)提示規(guī)則對(duì)初始文本輸入數(shù)據(jù)進(jìn)行知識(shí)抽取,得到開放知識(shí)圖譜三元組。
28、具體地,所述step5.2中開放知識(shí)圖譜三元組具體為:存在文本數(shù)據(jù)中沒有規(guī)則與領(lǐng)域范圍約束的全部三元組。
29、所述step7具體為:
30、step7.1:將所述開放知識(shí)圖譜三元組編碼向量與模式層語(yǔ)義信息編碼向量輸入至向量相似性搜索模塊;
31、step7.2:設(shè)置閾值top?k?,根據(jù)模式層語(yǔ)義信息得到前k個(gè)關(guān)系語(yǔ)義信息;
32、step7.3:以前k個(gè)關(guān)系語(yǔ)義信息為約束規(guī)則,對(duì)開放知識(shí)圖譜三元組進(jìn)行約束,將相似語(yǔ)義信息轉(zhuǎn)換為同一關(guān)系表述,并刪除冗余語(yǔ)義信息;
33、step7.4:得到約束性領(lǐng)域知識(shí)圖譜三元組。
34、具體地,所述step7.1中向量相似性搜索模塊具體為:基于余弦相似度的向量相似性匹配算法,根據(jù)開放知識(shí)圖譜三元組編碼向量匹配相似的模式層語(yǔ)義信息編碼向量,如果模式層存在k個(gè)相似關(guān)系,則將k個(gè)相似關(guān)系替換開放知識(shí)圖譜三元組中的關(guān)系,如果模式層中無相似關(guān)系,則刪除所述三元組,得到模式層約束的領(lǐng)域知識(shí)圖譜三元組。
35、本發(fā)明的有益效果是:以自適應(yīng)反饋技術(shù)解決大語(yǔ)言模型使用低質(zhì)量提示導(dǎo)致的領(lǐng)域?qū)I(yè)知識(shí)理解差、抽取原始語(yǔ)料知識(shí)不精確等問題,增強(qiáng)知識(shí)圖譜的精確度,可靠性;以逆約束方法解決以大語(yǔ)言模型作為驅(qū)動(dòng)引擎的模式層嵌入規(guī)模限制,領(lǐng)域約束范圍小等問題,提高了知識(shí)圖譜的規(guī)模。
1.一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,具體步驟為:
2.根據(jù)權(quán)利要求1所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step1具體為:
3.根據(jù)權(quán)利要求1所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step2具體為:
4.根據(jù)權(quán)利要求1所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step3具體為:
5.根據(jù)權(quán)利要求1所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,step5具體為:
6.根據(jù)權(quán)利要求1所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step7具體為:
7.根據(jù)權(quán)利要求2中所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step1.3中數(shù)據(jù)清洗具體為:將圖片中的文本數(shù)據(jù)、所述語(yǔ)音中的文本數(shù)據(jù)與原始格式為文本的數(shù)據(jù)轉(zhuǎn)換為字符數(shù)據(jù),再對(duì)字符數(shù)據(jù)進(jìn)行冗余消除和無效字符消除。
8.根據(jù)權(quán)利要求3中所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step2.3中提示樣例具體為:指導(dǎo)提示反饋大語(yǔ)言模型完成任務(wù)的m個(gè)同質(zhì)提示,m為提示反饋大語(yǔ)言模型下接收的提示樣例個(gè)數(shù)。
9.根據(jù)權(quán)利要求4中所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step3.2中提示樣例評(píng)分鍵值對(duì)具體為:提示反饋大語(yǔ)言模型對(duì)不同提示樣例得到的任務(wù)結(jié)果進(jìn)行評(píng)分,提示樣例與對(duì)應(yīng)的評(píng)分組成鍵值對(duì)。
10.根據(jù)權(quán)利要求5中所述的一種基于自適應(yīng)反饋的逆約束知識(shí)圖譜自動(dòng)構(gòu)建方法,其特征在于,所述step5.2中開放知識(shí)圖譜三元組具體為:存在文本數(shù)據(jù)中沒有規(guī)則與領(lǐng)域范圍約束的全部三元組。