本發(fā)明涉及一種基于多模態(tài)大模型的視覺信息提取方法,屬于信息,特別是屬于視覺信息提取。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和信息交換需求的日益增長,大量文檔現(xiàn)在被數(shù)字化、存儲并以圖像形式分發(fā)。在各種各樣的應(yīng)用場景中,如收據(jù)理解、卡片識別、自動論文評分和文檔匹配,需要從文檔圖像中提取關(guān)鍵信息。這個過程被稱為視覺信息提取(vi?e),它涉及從視覺豐富的文檔中挖掘、分析和提取信息。例如,在收據(jù)理解中,vi?e算法可以從收據(jù)的圖像中提取商店名稱、產(chǎn)品詳情和價格等信息。與從純文本中提取信息不同,vi?e的結(jié)果不僅僅由文本內(nèi)容決定。它們還受到文檔布局、字體風格、區(qū)塊顏色、圖表、圖形等其他視覺因素的影響。
2、分析和處理視覺豐富的文檔是一項具有挑戰(zhàn)性的任務(wù),現(xiàn)有視覺信息抽取技術(shù)對文檔ocr的精度和可信度都有待提高,并且缺乏易用性,并且還存在泛化能力不佳,成本較高、流程繁瑣的問題。
3、如何有效利用大模型技術(shù),充分發(fā)掘大模型的潛在能力思維鏈,解決現(xiàn)有視覺信息提取中存在的上述問題,是目前視覺信息提取技術(shù)領(lǐng)域急需要解決的技術(shù)難題。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明的目的是發(fā)明一種基于多模態(tài)大模型的視覺信息提取方法,能實現(xiàn)結(jié)果可信度高、可解釋性強、泛用性強、使用方便等技術(shù)目標。
2、為了達到上述目的,本發(fā)明提出了一種基于多模態(tài)大模型的視覺信息提取方法,所述方法包括如下操作步驟:
3、(1)使用三類專門數(shù)據(jù),即文本定位數(shù)據(jù)、視覺參考數(shù)據(jù)和鏈式思考數(shù)據(jù)對多模態(tài)大模型進行微調(diào),以確保其能夠準確地理解文檔圖像內(nèi)容并從中提取關(guān)鍵信息;
4、(2)完成多模態(tài)大模型微調(diào)后,用戶向該多模態(tài)大模型上傳目標圖片并輸入文字提示;如果所輸入的文字提示中不包含觸發(fā)詞“根據(jù)模板庫回答”,則直接轉(zhuǎn)步驟(3);否則,該多模態(tài)大模型從模板庫中檢索最相關(guān)的模板,并將相關(guān)上下文信息加入到當前對話中,再轉(zhuǎn)步驟(3);
5、(3)所述目標圖片首先通過光學字符識別ocr進行整張圖片的文字識別,從而獲取其中的文本內(nèi)容及其所在位置的坐標;結(jié)合相關(guān)的上下文信息,形成完整的圖文提示,然后提交給所述的多模態(tài)大模型進行處理,產(chǎn)生初步回復(fù)結(jié)果;所述的初步回復(fù)結(jié)果不僅包括文本內(nèi)容,還會包含這些文本的坐標信息;所述初步回復(fù)結(jié)果再結(jié)合前述的ocr文字識別結(jié)果經(jīng)過判斷糾錯處理后,生成最終回復(fù)結(jié)果;
6、(4)當用戶在接下來的對話中輸入“制作模板”時,所述多模態(tài)大模型會對用戶所輸入的圖片進行詳細的描述,包括文檔的類型、標題、主要信息等內(nèi)容,并將這些描述與用戶的提問一起保存作為該模板的元信息,以便在步驟(2)中能夠進行準確的檢索和匹配;隨后,用戶的這次對話歷史會被保存下來;所述的多模態(tài)大模型會請求用戶確認模型回復(fù)的內(nèi)容是否準確無誤;如果用戶發(fā)現(xiàn)回復(fù)有誤,則可以進行手動修正;最終,經(jīng)過人工校正的對話歷史以及模型總結(jié)的元信息將被整合并保存到所述模板庫中。
7、所述的文本定位數(shù)據(jù)的目的是使所述的多模態(tài)大模型能夠輸出準確的文字坐標,從而便于后續(xù)的糾錯工作并提升整體的可信度;所述的文本定位數(shù)據(jù)來自預(yù)先設(shè)定的數(shù)據(jù)集包括docvqa-zh、xfund-zh和設(shè)定的業(yè)務(wù)圖片數(shù)據(jù),這些數(shù)據(jù)經(jīng)過paddleocr識別處理后,得到了文本內(nèi)容及其對應(yīng)的文本框坐標;為了讓所述的多模態(tài)大模型能夠適應(yīng)多樣化的指令,在進行微調(diào)時不使用固定的提問提示,一種預(yù)先設(shè)定的問題表述為“<image>\n請給出這句話所描述區(qū)域的邊界框坐標:xxx”,而所述的多模態(tài)大模型的回答則是“<ref>xxx</ref><box>[[x1,y1,x2,y2]]</box>”;
8、所述的視覺參考數(shù)據(jù)的目的是使所述的多模態(tài)大模型強化對標記框的理解能力,讓所述的多模態(tài)大模型專注于被醒目顏色框標記的文本,使用戶能夠在不提供目標文本區(qū)域坐標的情況下,僅通過在圖片上框選或標記目標文本區(qū)域來指引所述的多模態(tài)大模型;所述的視覺參考數(shù)據(jù)數(shù)來自預(yù)先設(shè)定的數(shù)據(jù)集包括docvqa-zh、xfund-zh和設(shè)定的業(yè)務(wù)圖片數(shù)據(jù),這些數(shù)據(jù)經(jīng)過paddleocr識別出文本內(nèi)容和文本框之后,利用opencv-python將這些文本框用醒目顏色在圖片中標記出來;一種預(yù)先設(shè)定的問題表述為“<image>\n請識別出圖中醒目顏色框標記的內(nèi)容”,沒有固定的提示;所述的多模態(tài)大模型的回答為“<ref>xxx</ref><box>[[x1,y1,x2,y2]]</box>”;
9、所述的鏈式思考數(shù)據(jù)的目的是通過思維鏈chain-of-thought推理來提升在復(fù)雜的文檔場景中所述的多模態(tài)大模型的性能;所使用的思維鏈是布局思維鏈,該布局思維鏈的鏈式思考過程包含了問題分析、相關(guān)區(qū)域劃分以及答案確定三個步驟;所述的鏈式思考數(shù)據(jù)基于預(yù)先設(shè)定的數(shù)據(jù)集包括docvqa-zh、xfund-zh和設(shè)定的業(yè)務(wù)圖片數(shù)據(jù)構(gòu)建,通過智譜清言chatglm配合人工標注的方式形成。
10、所述的多模態(tài)大模型采用internvl2,其架構(gòu)是視覺編碼器vit模塊+投影連接層mlp模塊+大型語言模型llm模塊的組合;
11、采用兩階段微調(diào)策略對所述的多模態(tài)大模型進行微調(diào);
12、第一階段時,先凍結(jié)vit模塊和llm模塊,利用所述的文本定位數(shù)據(jù)和視覺參考數(shù)據(jù),僅對mlp模塊進行參數(shù)微調(diào)訓練,以增強所述多模態(tài)大模型對文本位置的理解以及視覺參考的解析能力,有助于確保模型所述多模態(tài)大模型能夠準確地定位文檔中的文本元素和理解標記內(nèi)容;
13、第二階段時,保持凍結(jié)vit模塊和llm模塊,利用所述的鏈式思考數(shù)據(jù),采用低秩自適應(yīng)low-rankadaptation技術(shù)對附加到所述多模態(tài)大模型的vit和llm模塊上的小型適配器層進行參數(shù)微調(diào),這樣不僅減少了額外參數(shù)的數(shù)量,還有效避免了過擬合的風險,同時保持了所述多模態(tài)大模型核心功能不變。
14、所述模板庫的內(nèi)容由用戶的對話歷史記錄實例和由所述多模態(tài)大模型所總結(jié)的元信息構(gòu)成;每個對話歷史記錄實例包含特定類型的文檔圖片、用戶針對特定關(guān)鍵信息的提問及模型的回復(fù),元信息包括對該文檔圖片和問題的描述;所述的模型回復(fù)都經(jīng)過了人工修正,以確保結(jié)果的準確性;
15、當觸發(fā)“根據(jù)模板庫回答”時,所述多模態(tài)大模型從模板庫中檢索最相關(guān)的模板的具體內(nèi)容是:所述多模態(tài)大模型對當前目標圖片和提問內(nèi)容進行信息總結(jié),主要涉及文檔類型、標題內(nèi)容等要素,再使用bm25算法在所述模板庫的元信息部分搜索并匹配最相關(guān)的模板實例。
16、所述多模態(tài)大模型將相關(guān)上下文信息加入到當前對話中的具體內(nèi)容是:找到匹配實例后,所述多模態(tài)大模型會將該匹配實例的對話歷史記錄附加到當前對話的上下文中,以此來進行上下文學習in-context?learning。
17、步驟(3)中,對初步回復(fù)結(jié)果的判斷糾錯處理的具體內(nèi)容是:利用所述多模態(tài)大模型回復(fù)結(jié)果中的坐標信息與先前ocr得到的文字框進行匹配,選擇交并比iou值最大且大于預(yù)設(shè)閾值的匹配結(jié)果。
18、本發(fā)明的有益效果在于:本發(fā)明使用多模態(tài)大模型實現(xiàn)了準確的結(jié)果文本框輸出,配合專用ocr模型完成對大模型輸出結(jié)果的糾錯,一定程度上避免了大模型的幻覺問題,提高了結(jié)果的準確率和可信度;本發(fā)明使得多模態(tài)大模型理解圖片上的視覺參考標記,避免了復(fù)雜文檔情境下單憑文字描述難以使模型理解的難題,可以方便地使模型關(guān)注目標區(qū)域;本發(fā)明將人工糾錯后的歷史對話添加到當前對話上下文中,利用大模型自身的少樣本學習特性,提高了對未知文檔數(shù)據(jù)的信息提取能力,無需針對不同類型文檔訓練多個模型,高效便捷、節(jié)約成本;本發(fā)明充分發(fā)揮了多模態(tài)大模型的思維鏈能力,通過引入中間推理步驟大幅提高模型信息提取準確率,同時也增強了結(jié)果的可解釋性。