欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法與流程

文檔序號(hào):40634442發(fā)布日期:2025-01-10 18:40閱讀:4來(lái)源:國(guó)知局
一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法與流程

本發(fā)明涉及大語(yǔ)言模型領(lǐng)域,特別是涉及一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法。


背景技術(shù):

1、在人工智能和自然語(yǔ)言處理領(lǐng)域,大語(yǔ)言模型已經(jīng)成為一種革命性的技術(shù),它們通過學(xué)習(xí)海量文本數(shù)據(jù),能夠理解和生成人類語(yǔ)言,為各種應(yīng)用提供支持。同時(shí),大語(yǔ)言模型也已經(jīng)在語(yǔ)言理解、文本生成、信息抽取等多個(gè)任務(wù)上展現(xiàn)出了卓越的性能。wan等人提出的gpt-re方法通過上下文學(xué)習(xí)的方式有效提升了通用領(lǐng)域關(guān)系三元組抽取,wang等人開發(fā)的基于指令微調(diào)的全面信息抽取框架instructuie也開創(chuàng)了大語(yǔ)言模型通用信息抽取的先河。

2、例如中國(guó)專利文獻(xiàn)中,公開號(hào)為cn118093820a,公開日為2024年5月28日,名稱為一種基于場(chǎng)景感知的大模型少樣本上下文學(xué)習(xí)驅(qū)動(dòng)的知識(shí)查詢語(yǔ)句智能生成方法和系統(tǒng),通過利用大型語(yǔ)言模型的上下文學(xué)習(xí)能力,實(shí)現(xiàn)在少量示例的基礎(chǔ)上進(jìn)行高效的知識(shí)查詢語(yǔ)句生成。

3、盡管上述現(xiàn)有技術(shù)具有廣泛的知識(shí)基礎(chǔ)和強(qiáng)大的學(xué)習(xí)能力,它們?cè)陔娏︻I(lǐng)域這樣的高專業(yè)性技術(shù)領(lǐng)域內(nèi),仍面臨著理解深度和精確度不足的挑戰(zhàn)。電力領(lǐng)域涉及復(fù)雜的技術(shù)術(shù)語(yǔ)、專業(yè)知識(shí)和嚴(yán)格的操作流程,通用模型難以準(zhǔn)確把握這些專業(yè)內(nèi)容,也難以在電力三元組抽取上展現(xiàn)良好的效果。


技術(shù)實(shí)現(xiàn)思路

1、為解決上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,提升電力領(lǐng)域大語(yǔ)言模型的三元組抽取效果,本發(fā)明在電力領(lǐng)域三元組抽取任務(wù)中,抽取實(shí)體與關(guān)系準(zhǔn)確率與效率平均提升了約56%,最高從10.57%提升到了70.95%。

2、本發(fā)明通過如下技術(shù)方案實(shí)現(xiàn):

3、一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:包括如下步驟:

4、s1.將來(lái)源于電力行業(yè)內(nèi)部實(shí)體關(guān)系標(biāo)注數(shù)據(jù)集npickg中的數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)化,得到適用于大語(yǔ)言模型微調(diào)的npickg指令數(shù)據(jù)集;

5、s2.基于s1步驟中的npickg指令數(shù)據(jù)集,通過低秩適應(yīng)的peft方法對(duì)大語(yǔ)言模型進(jìn)行微調(diào),以增強(qiáng)大語(yǔ)言模型在電力領(lǐng)域的信息抽取和自然語(yǔ)言理解能力;

6、s3.微調(diào)后的大語(yǔ)言模型采用基于上下文學(xué)習(xí)的實(shí)體與關(guān)系抽取增強(qiáng)方法,通過增強(qiáng)序列標(biāo)注式命名實(shí)體識(shí)別模塊,將用戶的問題作為輸入文本,執(zhí)行序列標(biāo)注形式的命名實(shí)體識(shí)別任務(wù),隨后利用序列標(biāo)注形式的命名實(shí)體,通過適應(yīng)性關(guān)系映射模塊執(zhí)行選擇題形式的關(guān)系三元組抽取任務(wù),得到由實(shí)體、實(shí)體類型、關(guān)系組成的候選三元組集合。

7、進(jìn)一步的,所述s1步驟的具體步驟為,針對(duì)npickg數(shù)據(jù)集每一條數(shù)據(jù),通過代碼轉(zhuǎn)換并構(gòu)建了一系列指令數(shù)據(jù),該系列指令數(shù)據(jù)中每條指令數(shù)據(jù)均分為指令部分和輸出部分,其中指令部分包括任務(wù)描述、模式和輸入三個(gè)字段。

8、進(jìn)一步的,指令部分中的模式字段詳細(xì)規(guī)定了需要抽取的spo三元組的類型,每個(gè)spo三元組由頭實(shí)體類型、關(guān)系以及尾實(shí)體類型三部分構(gòu)成;

9、指令部分中的任務(wù)描述字段提供了具體的指令,明確指導(dǎo)大語(yǔ)言模型需要完成的任務(wù),即指示大語(yǔ)言模型從給定的輸入文本中提取出與預(yù)定義的模式相匹配的spo三元組;對(duì)于未在模式中定義的類型,大語(yǔ)言模型應(yīng)當(dāng)返回一個(gè)空列表,并確保其回答符合json字符串的格式要求;

10、指令部分中的輸入字段是大語(yǔ)言模型接收到的輸入文本,大語(yǔ)言模型需要根據(jù)上述的任務(wù)描述和模式對(duì)輸入文本進(jìn)行分析和處理;

11、所述輸出部分是大語(yǔ)言模型在處理完給定的輸入文本后生成的輸出,包含了從輸入字段給出的文本中抽取出的具體spo三元組信息。

12、進(jìn)一步的,所述模式中每個(gè)json字符串中最多包含5種類型的spo三元組。

13、進(jìn)一步的,所述s2步驟中微調(diào)的具體步驟為,

14、s2.1、將大語(yǔ)言模型的原始權(quán)重矩陣w分解為兩個(gè)低秩矩陣a和b,即w=ab,其中低秩矩陣a和低秩矩陣b的秩遠(yuǎn)小于原始權(quán)重矩陣w的秩;

15、s2.2、在微調(diào)過程中僅訓(xùn)練低秩矩陣a和低秩矩陣b的參數(shù),通過ab的乘積替代原始權(quán)重矩陣w,保持原始權(quán)重矩陣不變,實(shí)現(xiàn)對(duì)大語(yǔ)言模型的微調(diào)。

16、進(jìn)一步的,所述s3步驟中,增強(qiáng)序列標(biāo)注式實(shí)體識(shí)別模塊執(zhí)行序列標(biāo)注形式的命名實(shí)體識(shí)別任務(wù)具體步驟為,首先構(gòu)造提示prompt(*),面對(duì)任意指定的輸入文本i,形成一個(gè)專門針對(duì)i設(shè)計(jì)的提示指令,標(biāo)記為prompt(i);接著,將這個(gè)提示指令作為輸入提交給大語(yǔ)言模型,以產(chǎn)生一連串的文字序列v={v1,…,vn};最后,將這個(gè)文字序列v映射成一系列的實(shí)體識(shí)別標(biāo)簽,得到最終輸出o。

17、進(jìn)一步的,所述prompt(i)的設(shè)計(jì)可進(jìn)一步分解為三個(gè)組成部分:

18、任務(wù),任務(wù)的第一部分是一個(gè)固定不變的句子,對(duì)大語(yǔ)言模型設(shè)定角色并表明任務(wù);任務(wù)的第二部分是一個(gè)可變句子,任務(wù)是在輸入文本i中標(biāo)記實(shí)體類型為[實(shí)體類型]的所有實(shí)體,以指示大語(yǔ)言模型要提取的實(shí)體類型,[實(shí)體類型]是一個(gè)可變的參數(shù),代表了任務(wù)要提取的具體實(shí)體類型;任務(wù)的第三部分是一個(gè)固定不變的句子,即請(qǐng)使用雙括號(hào)在輸入文本i上標(biāo)記出識(shí)別到的實(shí)體,如未識(shí)別到則輸出原輸入文本i;

19、示例,示例是一個(gè)可變的段落,由一個(gè)正例文本對(duì)和反例文本對(duì)組成,通過加入少量示例以進(jìn)行大語(yǔ)言模型的上下文學(xué)習(xí)有效指導(dǎo)大語(yǔ)言模型預(yù)期的輸出格式;

20、輸入,輸入是一個(gè)可變段落,表示需要進(jìn)行命名實(shí)體識(shí)別的文本,即輸入文本i。

21、進(jìn)一步的,對(duì)于每種實(shí)體類型,從npickg數(shù)據(jù)集中篩選出一條含有該實(shí)體類型的文本條目作為輸入,并按照雙括號(hào)標(biāo)注實(shí)體的格式調(diào)整其輸出,這樣的輸入與輸出對(duì)作為正例文本對(duì);對(duì)于每一種實(shí)體類型,從npickg數(shù)據(jù)集中選取不含有該實(shí)體類型的文本作為輸入,并將相同的文本復(fù)制作為輸出,這樣的輸入與輸出對(duì)形成反例文本對(duì)。

22、進(jìn)一步的,所述s3步驟中,適應(yīng)性關(guān)系映射模塊通過設(shè)計(jì)關(guān)系映射模版將關(guān)系轉(zhuǎn)變?yōu)檫壿嬃鲿车淖匀徽Z(yǔ)言表示,將經(jīng)過關(guān)系映射模版轉(zhuǎn)換后的關(guān)系與最終輸出o結(jié)合構(gòu)建一套多項(xiàng)選擇題,將生成的多選選擇題交由大語(yǔ)言模型進(jìn)行處理,將大語(yǔ)言模型選擇的正確選項(xiàng)映射回具體的三元組,得到實(shí)體、實(shí)體類型、關(guān)系組成的候選三元組集合,完成三元組抽選任務(wù)。

23、本發(fā)明的有益效果如下:

24、通過構(gòu)建電力領(lǐng)域三元組抽取指令數(shù)據(jù)集,lora微調(diào)基座大語(yǔ)言模型并提升其電力領(lǐng)域的三元組抽取能力,并在此基礎(chǔ)上加入基于上下文學(xué)習(xí)的實(shí)體與關(guān)系抽取增強(qiáng)方法,再次提升電力領(lǐng)域大語(yǔ)言模型的三元組抽取效果。結(jié)果表明,實(shí)用本發(fā)明增強(qiáng)后的大語(yǔ)言模型在電力領(lǐng)域三元組抽取任務(wù)中,抽取實(shí)體與關(guān)系準(zhǔn)確率以及效率平均提升了約56%,最高從10.57%提升到了70.95%。



技術(shù)特征:

1.一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:包括如下步驟:

2.如權(quán)利要求1所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:所述s1步驟的具體步驟為,針對(duì)npickg數(shù)據(jù)集每一條數(shù)據(jù),通過代碼轉(zhuǎn)換并構(gòu)建了一系列指令數(shù)據(jù),該系列指令數(shù)據(jù)中每條指令數(shù)據(jù)均分為指令部分和輸出部分,其中指令部分包括任務(wù)描述、模式和輸入三個(gè)字段。

3.如權(quán)利要求2所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:

4.如權(quán)利要求3所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:所述模式中每個(gè)json字符串中最多包含5種類型的spo三元組。

5.如權(quán)利要求1所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:所述s2步驟中微調(diào)的具體步驟為,

6.如權(quán)利要求1所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:所述s3步驟中,增強(qiáng)序列標(biāo)注式實(shí)體識(shí)別模塊執(zhí)行序列標(biāo)注形式的命名實(shí)體識(shí)別任務(wù)具體步驟為,首先構(gòu)造提示prompt(*),面對(duì)任意指定的輸入文本i,形成一個(gè)專門針對(duì)i設(shè)計(jì)的提示指令,標(biāo)記為prompt(i);接著,將這個(gè)提示指令作為輸入提交給大語(yǔ)言模型,以產(chǎn)生一連串的文字序列v={v1,…,vn};最后,將這個(gè)文字序列v映射成一系列的實(shí)體識(shí)別標(biāo)簽,得到最終輸出o。

7.如權(quán)利要求6所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:所述prompt(i)的設(shè)計(jì)可進(jìn)一步分解為三個(gè)組成部分:

8.如權(quán)利要求7所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:對(duì)于每種實(shí)體類型,從npickg數(shù)據(jù)集中篩選出一條含有該實(shí)體類型的文本條目作為輸入,并按照雙括號(hào)標(biāo)注實(shí)體的格式調(diào)整其輸出,這樣的輸入與輸出對(duì)作為正例文本對(duì);對(duì)于每一種實(shí)體類型,從npickg數(shù)據(jù)集中選取不含有該實(shí)體類型的文本作為輸入,并將相同的文本復(fù)制作為輸出,這樣的輸入與輸出對(duì)形成反例文本對(duì)。

9.如權(quán)利要求6所述的一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,其特征在于:所述s3步驟中,適應(yīng)性關(guān)系映射模塊通過設(shè)計(jì)關(guān)系映射模版將關(guān)系轉(zhuǎn)變?yōu)檫壿嬃鲿车淖匀徽Z(yǔ)言表示,將經(jīng)過關(guān)系映射模版轉(zhuǎn)換后的關(guān)系與最終輸出o結(jié)合構(gòu)建一套多項(xiàng)選擇題,將生成的多選選擇題交由大語(yǔ)言模型進(jìn)行處理,將大語(yǔ)言模型選擇的正確選項(xiàng)映射回具體的三元組,得到實(shí)體、實(shí)體類型、關(guān)系組成的候選三元組集合,完成三元組抽選任務(wù)。


技術(shù)總結(jié)
本發(fā)明公開了一種適用于電力領(lǐng)域的復(fù)合實(shí)體關(guān)系抽取方法,涉及大語(yǔ)言模型領(lǐng)域,構(gòu)建得到適用于大語(yǔ)言模型微調(diào)的NPICKG指令數(shù)據(jù)集;通過低秩適應(yīng)的PEFT方法對(duì)大語(yǔ)言模型進(jìn)行微調(diào),以增強(qiáng)大語(yǔ)言模型在電力領(lǐng)域的信息抽取和自然語(yǔ)言理解能力,微調(diào)后的大語(yǔ)言模型采用基于上下文學(xué)習(xí)的實(shí)體與關(guān)系抽取增強(qiáng)方法,通過增強(qiáng)序列標(biāo)注式命名實(shí)體識(shí)別模塊執(zhí)行序列標(biāo)注形式的命名實(shí)體識(shí)別任務(wù),隨后利用識(shí)別出的實(shí)體通過適應(yīng)性關(guān)系映射模塊執(zhí)行選擇題形式的關(guān)系三元組抽取任務(wù),最后輸出三元組。使用本發(fā)明增強(qiáng)后的大語(yǔ)言模型在電力領(lǐng)域三元組抽取任務(wù)中,抽取實(shí)體與關(guān)系準(zhǔn)確率以及效率平均提升了約56%,最高從10.57%提升到了70.95%。

技術(shù)研發(fā)人員:柴海波,肖文靜,白亮,王正杰,寧樹偉,李玥,田軍,李川,唐健
受保護(hù)的技術(shù)使用者:東方電氣集團(tuán)科學(xué)技術(shù)研究院有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/9
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
浏阳市| 通榆县| 龙南县| 皮山县| 淳安县| 油尖旺区| 海伦市| 东平县| 福鼎市| 连城县| 友谊县| 巫溪县| 昌乐县| 盐山县| 福贡县| 万安县| 沅江市| 永定县| 仁布县| 浮山县| 宜城市| 通榆县| 巩留县| 河北省| 陈巴尔虎旗| 白山市| 新丰县| 潍坊市| 丹寨县| 砀山县| 张家川| 梧州市| 文成县| 都匀市| 曲阳县| 平泉县| 勐海县| 沾益县| 响水县| 吉安县| 腾冲县|