欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設備與流程

文檔序號:40655211發(fā)布日期:2025-01-10 19:05閱讀:5來源:國知局
多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設備與流程

本技術涉及人工智能,尤其涉及一種多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設備。


背景技術:

1、人工智能(artificial?intelligence,ai)是一個快速發(fā)展的領域,它利用計算機科學和數(shù)據(jù)來模仿人類智能。人工智能的應用非常廣泛,從日常生活中的虛擬助手和推薦系統(tǒng),到醫(yī)療、金融和制造業(yè)等專業(yè)領域。

2、在自動化目標檢測和識別領域,圖像標注技術已成為不可或缺的關鍵環(huán)節(jié)。相關技術中的圖像標注方法主要依賴于人工操作,通過手動選擇圖像中的特定區(qū)域來標注物體的名稱和位置。

3、然而,相關技術中的標注方法只能自動標注固定的物體類別,出現(xiàn)新的類別需要人工標注并重新訓練,并且,缺乏處理多模態(tài)數(shù)據(jù)的能力,即不能同時處理圖像和文本信息,不僅標注成本高,也限制了其在復雜場景中的應用。


技術實現(xiàn)思路

1、本技術的目的是提供一種多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設備,用于從文本描述中自動提取信息并將其轉(zhuǎn)換為圖像標注,不僅極大地提高了圖像標注的效率和準確性,還降低了人力成本。

2、本技術提供一種多模態(tài)自動標注方法,包括:

3、獲取待處理文本和待處理圖像,并通過所述自然語言處理單元對所述待處理文本進行特征提取,得到待處理文本特征,以及通過所述圖像處理單元對所述待處理圖像進行處理,得到待處理圖像特征;將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,并利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分;基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,選定出與所述增強文本特征相關性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息;將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息。

4、可選地,所述將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,包括:將所述待處理圖像特征輸入到所述跨模態(tài)解碼器的多個注意力分支單元中,得到各個注意力分支單元輸出的區(qū)域圖像特征;將各個注意力分支單元輸出的區(qū)域圖像特征進行融合后,得到所述增強圖像特征;其中,所述待處理圖像被劃分為多個圖像區(qū)域,一個注意力分支單元對應一個圖像區(qū)域。

5、可選地,所述利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,包括:將所述待處理圖像特征作為查詢、所述待處理文本特征作為鍵和值,利用交叉注意力機制計算不同圖像區(qū)域?qū)膱D像特征和文本特征之間的第一相關性得分。

6、可選地,所述利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,包括:將所述待處理文本特征作為查詢、所述待處理圖像特征作為鍵和值,利用交叉注意力機制計算文本特征和不同圖像區(qū)域?qū)膱D像特征之間的第二相關性得分。

7、可選地,所述利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,包括:基于所述第一相關性得分和所述第二相關性得分,計算所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分。

8、可選地,所述基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,選定出與所述增強文本特征相關性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息,包括:基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,從所述多個圖像區(qū)域中篩選出與所述增強文本特征相關性最高的至少一個圖像區(qū)域,并生成所述至少一個圖像區(qū)域中每個圖像區(qū)域?qū)牟樵冃畔?;其中,所述查詢信息包括:特征參?shù)和位置信息;所述特征參數(shù)在訓練階段通過反向傳播的方式進行更新。

9、可選地,所述多模態(tài)目標檢測單元包括:預測頭和多個解碼器;每個解碼器均包含;圖像到文本的交叉注意力,文本到圖像的交叉注意力;所述將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息,包括:將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息依次輸入到所述多個解碼器中,得到多模態(tài)特征;將所述多模態(tài)特征輸入到所述預測頭中,得到每個查詢信息對應的標注信息;其中,所述多個解碼器按順序連接、且在前解碼器的輸出作為在后解碼器的輸入。

10、本技術還提供一種多模態(tài)自動標注裝置,包括:

11、特征提取模塊,用于獲取待處理文本和待處理圖像,并通過所述自然語言處理單元對所述待處理文本進行特征提取,得到待處理文本特征,以及通過所述圖像處理單元對所述待處理圖像進行處理,得到待處理圖像特征;特征融合模塊,用于將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,并利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分;查詢信息生成模塊,用于基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,選定出與所述增強文本特征相關性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息;標注信息生成模塊,用于將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息。

12、可選地,所述特征融合模塊,具體用于將所述待處理圖像特征輸入到所述跨模態(tài)解碼器的多個注意力分支單元中,得到各個注意力分支單元輸出的區(qū)域圖像特征;所述特征融合模塊,具體還用于將各個注意力分支單元輸出的區(qū)域圖像特征進行融合后,得到所述增強圖像特征;其中,所述待處理圖像被劃分為多個圖像區(qū)域,一個注意力分支單元對應一個圖像區(qū)域。

13、可選地,所述特征融合模塊,具體用于將所述待處理圖像特征作為查詢、所述待處理文本特征作為鍵和值,利用交叉注意力機制計算不同圖像區(qū)域?qū)膱D像特征和文本特征之間的第一相關性得分。

14、可選地,所述特征融合模塊,具體用于將所述待處理文本特征作為查詢、所述待處理圖像特征作為鍵和值,利用交叉注意力機制計算文本特征和不同圖像區(qū)域?qū)膱D像特征之間的第二相關性得分。

15、可選地,所述特征融合模塊,具體用于基于所述第一相關性得分和所述第二相關性得分,計算所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分。

16、可選地,所述查詢信息生成模塊,具體用于基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,從所述多個圖像區(qū)域中篩選出與所述增強文本特征相關性最高的至少一個圖像區(qū)域,并生成所述至少一個圖像區(qū)域中每個圖像區(qū)域?qū)牟樵冃畔?;其中,所述查詢信息包括:特征參?shù)和位置信息;所述特征參數(shù)在訓練階段通過反向傳播的方式進行更新。

17、可選地,所述標注信息生成模塊,具體用于將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息依次輸入到所述多個解碼器中,得到多模態(tài)特征;所述標注信息生成模塊,具體還用于將所述多模態(tài)特征輸入到所述預測頭中,得到每個查詢信息對應的標注信息;其中,所述多個解碼器按順序連接、且在前解碼器的輸出作為在后解碼器的輸入。

18、本技術還提供一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

19、本技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

20、本技術還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

21、本技術提供的多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設備,獲取待處理文本和待處理圖像,并通過所述自然語言處理單元對所述待處理文本進行特征提取,得到待處理文本特征,以及通過所述圖像處理單元對所述待處理圖像進行處理,得到待處理圖像特征;將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,并利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分;基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關性得分,選定出與所述增強文本特征相關性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息;將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息。如此,可以從文本描述中自動提取信息并將其轉(zhuǎn)換為圖像標注,不僅極大地提高了圖像標注的效率和準確性,還降低了人力成本。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
永修县| 册亨县| 扶绥县| 合山市| 神池县| 信丰县| 磐石市| 湘潭县| 沙河市| 依安县| 海城市| 浦北县| 定日县| 保山市| 湖北省| 东乡| 那曲县| 衡阳市| 习水县| 彭泽县| 江永县| 叶城县| 泰和县| 南昌县| 陆良县| 凤山市| 七台河市| 襄樊市| 绵竹市| 永福县| 张家港市| 腾冲县| 凌源市| 长宁县| 双牌县| 巧家县| 来安县| 全椒县| 朔州市| 阿合奇县| 额敏县|