技術(shù)特征:1.一種基于多模態(tài)大模型的視覺(jué)信息提取方法,其特征在于:所述方法包括如下操作步驟:
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法,其特征在于:
3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法,其特征在于:
4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法,其特征在于:
5.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法,其特征在于:步驟(3)中,對(duì)初步回復(fù)結(jié)果的判斷糾錯(cuò)處理的具體內(nèi)容是:利用所述多模態(tài)大模型回復(fù)結(jié)果中的坐標(biāo)信息與先前ocr得到的文字框進(jìn)行匹配,選擇交并比iou值最大且大于預(yù)設(shè)閾值的匹配結(jié)果。
技術(shù)總結(jié)一種基于多模態(tài)大模型的視覺(jué)信息提取方法,包括如下步驟:(1)使用三類(lèi)專(zhuān)門(mén)數(shù)據(jù),即文本定位數(shù)據(jù)、視覺(jué)參考數(shù)據(jù)和鏈?zhǔn)剿伎紨?shù)據(jù)對(duì)多模態(tài)大模型進(jìn)行微調(diào);(2)用戶上傳目標(biāo)圖片并輸入文字提示,根據(jù)情況觸發(fā)模板庫(kù)檢索并添加上下文信息;(3)多模態(tài)大模型產(chǎn)生初步回復(fù)結(jié)果并結(jié)合OCR文字識(shí)別結(jié)果生成最終回復(fù)結(jié)果;(4)對(duì)話歷史和元信息將被整合并保存到模板庫(kù)中;本發(fā)明方法實(shí)現(xiàn)了結(jié)果文本框的準(zhǔn)確輸出,配合專(zhuān)用OCR模型完成了對(duì)大模型輸出結(jié)果的糾錯(cuò),提高了視覺(jué)信息提取的準(zhǔn)確率和可信度。
技術(shù)研發(fā)人員:王玉龍,張磊,常展,趙海秀
受保護(hù)的技術(shù)使用者:北京郵電大學(xué)
技術(shù)研發(fā)日:技術(shù)公布日:2025/1/2