大模型幻覺緩解方法、裝置、存儲(chǔ)介質(zhì)

文檔序號(hào)：40443424發(fā)布日期：2024-12-24 15:17閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于視覺語言大模型領(lǐng)域，具體涉及一種大模型幻覺緩解方法、裝置、存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、近年來，大規(guī)模語言模型(llm)給人工智能領(lǐng)域帶來了巨大的影響。其訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到數(shù)千億參數(shù)，釋放出了強(qiáng)大的涌現(xiàn)能力，并得到了廣泛關(guān)注和應(yīng)用。遵循這一趨勢，通過預(yù)訓(xùn)練視覺語言對齊，大規(guī)模視覺語言模型(lvlms)擴(kuò)展了llm以理解視覺輸入并處理多模態(tài)的任務(wù)。這些工作推動(dòng)了多模態(tài)通用人工智能的發(fā)展，尤其是在零樣本任務(wù)上展示了令人驚喜的能力。

2、目前l(fā)vlms也與llm一樣面臨一些新的挑戰(zhàn)，其中一個(gè)嚴(yán)重的問題就是模型有產(chǎn)生幻覺的傾向。在語言模型中，幻覺被定義為模型產(chǎn)生的不準(zhǔn)確或誤導(dǎo)性的事實(shí)信息，這些幻覺大多源于從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到了不正確的知識(shí)。已有的一些工作都利用外部知識(shí)庫輔助生成來緩解幻覺。而對于視覺語言模型，幻覺表現(xiàn)為輸出的響應(yīng)對于輸入的圖像來說有錯(cuò)誤的引用或描述。在抽象的視覺編碼中準(zhǔn)確地表達(dá)出視覺信息是一項(xiàng)更大的挑戰(zhàn)。在解決這類問題時(shí)，多模態(tài)幻覺往往更難自動(dòng)檢測出來，需要花費(fèi)較昂貴的人工監(jiān)督成本?，F(xiàn)有的工作通常會(huì)探索基于指令調(diào)優(yōu)或基于解碼約束的解決方案。lrv-instruction采用了一種較為直觀的方法，通過指令限制數(shù)據(jù)的文本長度來減少幻覺，但顯然這會(huì)使模型無法生成非常詳細(xì)的描述。vigc則采用多步生成方案，通過犧牲微調(diào)的成本和效率來緩解幻覺。opera在解碼過程中懲罰特定的詞匯以減輕幻覺，但只適用于一些特殊的標(biāo)記，并且也會(huì)使生成的文本明顯縮短。這些基于指令調(diào)優(yōu)模型和解碼約束方法通常都需要人類提供大量的數(shù)據(jù)和計(jì)算資源。

3、因此，如何低成本、高效率地緩解大規(guī)模視覺語言模型產(chǎn)生的幻覺，以提高其在現(xiàn)實(shí)世界應(yīng)用中的準(zhǔn)確性和可靠性，還是一個(gè)亟待解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、針對現(xiàn)有技術(shù)的不足，本發(fā)明提出一種大模型幻覺緩解方法、裝置、存儲(chǔ)介質(zhì)，其基于矛盾點(diǎn)定位和問答修正，能夠有效緩解大規(guī)模視覺語言模型產(chǎn)生的幻覺，提升大模型生成的效果。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明一方面提供一種大模型幻覺緩解方法，包含：

3、接收給定的圖像和提示文本作為輸入，通過一大規(guī)模視覺語言模型生成多個(gè)文本樣本；

4、對比該多個(gè)文本樣本中的不一致性，搜索出矛盾點(diǎn)，確定幻覺因素；

5、生成針對該幻覺因素的問題；

6、根據(jù)該問題進(jìn)行問答，利用一視覺問答模型分析該圖像內(nèi)容，輸出針對該問題的答案，且利用該答案修正該提示文本；

7、利用修正后的提示文本，重新生成優(yōu)化后的文本樣本。

8、在一實(shí)施例中，針對該多個(gè)文本樣本，對比識(shí)別出該多個(gè)文本樣本中內(nèi)容不一致的矛盾點(diǎn)，該些矛盾點(diǎn)代表在生成預(yù)測中具有平坦概率分布的詞匯，作為幻覺因素。

9、在一實(shí)施例中，使用蒸餾學(xué)習(xí)方法，訓(xùn)練一小規(guī)模問題生成模型，生成針對該幻覺因素的問題。

10、在一實(shí)施例中，該小規(guī)模問題生成模型通過以下步驟訓(xùn)練：

11、使用一生成式預(yù)訓(xùn)練模型生成大量指定形式的訓(xùn)練數(shù)據(jù)；

12、利用該訓(xùn)練數(shù)據(jù)，對該小規(guī)模問題生成模型進(jìn)行微調(diào)訓(xùn)練；

13、以該多個(gè)文本樣本作為輸入，由該小規(guī)模問題生成模型學(xué)習(xí)從該多個(gè)文本樣本中生成針對幻覺因素的問題。

14、在一實(shí)施例中，采取多種不同采樣方式獲取該多個(gè)文本樣本。

15、在一實(shí)施例中，還包含：

16、對優(yōu)化后的文本樣本進(jìn)行評估，以驗(yàn)證幻覺緩解的效果。

17、本發(fā)明另一方面還提供一種大模型幻覺緩解裝置，該裝置采取上述的大模型幻覺緩解方法，該裝置至少包含：

18、生成采樣模塊，用以接收給定的圖像和提示文本作為輸入，通過一大規(guī)模視覺語言模型生成多個(gè)文本樣本；

19、幻覺定位模塊，用以對比該多個(gè)文本樣本中的不一致性，搜索出矛盾點(diǎn)，確定幻覺因素；

20、問題生成模塊，用以生成針對該幻覺因素的問題；

21、修正模塊，根據(jù)該問題進(jìn)行問答，利用一視覺問答模型分析該圖像內(nèi)容，輸出針對該問題的答案，且利用該答案修正該提示文本；以及

22、利用修正后的提示文本，重新生成優(yōu)化后的文本樣本。

23、在一實(shí)施例中，該幻覺定位模塊還用以：

24、針對該多個(gè)文本樣本，對比識(shí)別出該多個(gè)文本樣本中內(nèi)容不一致的矛盾點(diǎn)，該些矛盾點(diǎn)代表在生成預(yù)測過程中具有平坦概率分布的詞匯，作為幻覺因素。

25、在一實(shí)施例中，該問題生成模塊還用以：

26、使用蒸餾學(xué)習(xí)方法，訓(xùn)練一小規(guī)模問題生成模型，生成針對該幻覺因素的問題，包含：

27、使用一生成式預(yù)訓(xùn)練模型生成大量指定形式的訓(xùn)練數(shù)據(jù)；

28、利用該訓(xùn)練數(shù)據(jù)，對該小規(guī)模問題生成模型進(jìn)行微調(diào)訓(xùn)練；

29、以該多個(gè)文本樣本作為輸入，由該小規(guī)模問題生成模型學(xué)習(xí)從該多個(gè)文本樣本中生成針對幻覺因素的問題。

30、本發(fā)明再一方面還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述大模型幻覺緩解方法的步驟。

31、由以上方案可知，本發(fā)明的優(yōu)點(diǎn)在于：

32、本發(fā)明揭示的大模型幻覺緩解方法，其基于矛盾點(diǎn)定位和問答修正，方法能夠?qū)δＰ蜕蛇^程中不確定的信息進(jìn)行對比檢測、主動(dòng)提問和回答修正等操作，從而實(shí)現(xiàn)不依賴于額外的人工標(biāo)注數(shù)據(jù)和指令微調(diào)訓(xùn)練即可有效地優(yōu)化大模型的生成效果。

技術(shù)特征：

1.一種大模型幻覺緩解方法，其特征在于，包含：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，該小規(guī)模問題生成模型通過以下步驟訓(xùn)練：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包含：

7.一種大模型幻覺緩解裝置，其特征在于，包含：

8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，該幻覺定位模塊還用以：

9.根據(jù)權(quán)利要求7所述的裝置，其特征在于，該問題生成模塊還用以：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述大模型幻覺緩解方法的步驟。

技術(shù)總結(jié)
本發(fā)明提出一種大模型幻覺緩解方法、裝置、存儲(chǔ)介質(zhì)，該方法包含：接收給定的圖像和提示文本作為輸入，通過一大規(guī)模視覺語言模型生成多個(gè)文本樣本；對比該多個(gè)文本樣本中的不一致性，搜索出矛盾點(diǎn)，確定幻覺因素；生成針對該幻覺因素的問題；根據(jù)該問題進(jìn)行問答，利用一視覺問答模型分析該圖像內(nèi)容，輸出針對該問題的答案，且利用該答案修正該提示文本；利用修正后的提示文本，重新生成優(yōu)化后的文本樣本。該方法能夠有效緩解大規(guī)模視覺語言模型產(chǎn)生的幻覺，提升大模型生成的效果。

技術(shù)研發(fā)人員：王樹徽,畢超,黃慶明
受保護(hù)的技術(shù)使用者：中國科學(xué)院計(jì)算技術(shù)研究所
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王樹徽,畢超,黃慶明
技術(shù)所有人：中國科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

上一篇：一種配網(wǎng)線路的無人機(jī)巡檢系統(tǒng)的制作方法
上一篇：過濾裝置及凈水設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大模型幻覺緩解方法、裝置、存儲(chǔ)介質(zhì)

大模型幻覺緩解方法、裝置、存儲(chǔ)介質(zhì)