一種基于多模態(tài)大模型的視覺(jué)信息提取方法

文檔序號(hào)：40563958發(fā)布日期：2025-01-03 11:24閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于多模態(tài)大模型的視覺(jué)信息提取方法

技術(shù)特征：

1.一種基于多模態(tài)大模型的視覺(jué)信息提取方法，其特征在于：所述方法包括如下操作步驟：

2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法，其特征在于：

3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法，其特征在于：

4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法，其特征在于：

5.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的視覺(jué)信息提取方法，其特征在于：步驟(3)中，對(duì)初步回復(fù)結(jié)果的判斷糾錯(cuò)處理的具體內(nèi)容是：利用所述多模態(tài)大模型回復(fù)結(jié)果中的坐標(biāo)信息與先前ocr得到的文字框進(jìn)行匹配，選擇交并比iou值最大且大于預(yù)設(shè)閾值的匹配結(jié)果。

技術(shù)總結(jié)
一種基于多模態(tài)大模型的視覺(jué)信息提取方法，包括如下步驟：(1)使用三類(lèi)專(zhuān)門(mén)數(shù)據(jù)，即文本定位數(shù)據(jù)、視覺(jué)參考數(shù)據(jù)和鏈?zhǔn)剿伎紨?shù)據(jù)對(duì)多模態(tài)大模型進(jìn)行微調(diào)；(2)用戶上傳目標(biāo)圖片并輸入文字提示，根據(jù)情況觸發(fā)模板庫(kù)檢索并添加上下文信息；(3)多模態(tài)大模型產(chǎn)生初步回復(fù)結(jié)果并結(jié)合OCR文字識(shí)別結(jié)果生成最終回復(fù)結(jié)果；(4)對(duì)話歷史和元信息將被整合并保存到模板庫(kù)中；本發(fā)明方法實(shí)現(xiàn)了結(jié)果文本框的準(zhǔn)確輸出，配合專(zhuān)用OCR模型完成了對(duì)大模型輸出結(jié)果的糾錯(cuò)，提高了視覺(jué)信息提取的準(zhǔn)確率和可信度。

技術(shù)研發(fā)人員：王玉龍,張磊,常展,趙海秀
受保護(hù)的技術(shù)使用者：北京郵電大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多模態(tài)大模型的視覺(jué)信息提取方法