本發(fā)明屬于多模態(tài)大模型領(lǐng)域,尤其涉及一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法、設(shè)備以及存儲介質(zhì)。
背景技術(shù):
1、隨著大型語言模型(llms)能力和可訪問性的不斷提高,研究人員將llms與視覺模塊集成,構(gòu)建了強大的多模態(tài)大模型(mllms),在視覺問答,圖像標題生成和圖像生成等任務(wù)上取得了顯著的進展。一類工作專注于多模態(tài)理解,通過額外的交叉注意力層、querytransformer或投影層來對齊llms與視覺模塊。另一類研究則關(guān)注多模態(tài)生成,通過學習視覺令牌或視覺嵌入來對齊llms與視覺模塊。最近的工作(emu,seed-llama,lavit等)則進一步提出了能夠同時進行多模態(tài)理解和生成的多模態(tài)通用模型。
2、然而,現(xiàn)有的mllms通常忽視了概念的重要性,僅利用了大規(guī)模的粗粒度的圖像標題,這會限制視覺與語言的對齊,導致模型對圖像及文本中的概念的理解浮于表面。
3、而在傳統(tǒng)的視覺-語言模型(vlms)中,很多工作都認識到概念在視覺-語言學習中的重要性。為了更好地利用概念并提高視覺與語言的對齊,vlms將細粒度的概念注釋與粗粒度的圖像標題相結(jié)合,例如區(qū)域特征、對象標簽、標簽描述、區(qū)域描述和對象區(qū)域。oscar在粗粒度的圖像標題后附加了從圖像中檢測到的細粒度對象標簽,以簡化視覺與語言之間的語義對齊。k-lite利用wordnet和wiktionary為每個對象標簽提供了細粒度的標簽描述,從而補充了相關(guān)知識,以幫助理解這些概念。x-vlm提出將視覺概念(圖像和對象區(qū)域)與粗粒度的圖像標題以及細粒度的對象標簽和對象區(qū)域描述,在多粒度上進行對齊。然而,這些vlms大多需要為細粒度注釋添加額外的組件和損失函數(shù),并且只能在不同粒度分別優(yōu)化模型的理解能力。此外,這些vlms僅使用細粒度注釋中的某幾種,并沒有實現(xiàn)粗粒度和多種細粒度注釋的充分結(jié)合,也沒有探索其在圖像生成領(lǐng)域的效果。
4、綜上所述現(xiàn)有的多模態(tài)大模型存在對圖像內(nèi)容理解能力差的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的是解決現(xiàn)有多模態(tài)大模型存在對圖像內(nèi)容理解能力差的問題。提出了種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法,包括:
2、步驟一、收集數(shù)據(jù)集;
3、所述數(shù)據(jù)集中包括圖像,圖像的粗粒度字幕注釋以及圖像的細粒度對象注釋,
4、所述圖像的細粒度對象注釋包括細粒度對象邊界框坐標和細粒度對象類別標簽;
5、在這項工作中,我們專注于具體概念(概念可以根據(jù)是否可以通過五種感官感知來分類為具體概念和抽象概念),特別是對象、對象屬性以及對象之間的關(guān)系。這些概念是視覺-語言學習中的基礎(chǔ)概念,并且在對象檢測數(shù)據(jù)集中得到了廣泛的注釋。
6、我們收集了四個公共的大規(guī)模人工標注的對象檢測數(shù)據(jù)集,包括open?images、objects365、v3det和visual?genome。這些數(shù)據(jù)集中的圖像是由用戶上傳到flickr網(wǎng)站上,并由數(shù)據(jù)集提供者收集的真實世界圖像。
7、數(shù)據(jù)集提供者收集的真實世界圖像通常展示了包含多個對象的復雜場景,并附有細粒度的類別標簽和對象邊界框。與廣泛使用的粗粒度圖像標題數(shù)據(jù)集相比,這些數(shù)據(jù)集提供的細粒度概念注釋可以幫助mllms在圖像中定位和學習概念。
8、步驟二、對步驟一數(shù)據(jù)集中的所有圖像進行預處理,得到預處理后的圖像;
9、對步驟一數(shù)據(jù)集中的細粒度對象注釋進行預處理得到預處理后的細粒度對象注釋;
10、步驟三、對于步驟一數(shù)據(jù)集中的沒有粗粒度字幕注釋的圖像生成粗粒度字幕注釋;將生成的粗粒度字幕注釋和數(shù)據(jù)集中的粗粒度字幕注釋相加,得到數(shù)據(jù)集中所有圖像的粗粒度字幕注釋;
11、步驟四、對步驟一數(shù)據(jù)集中的細粒度對象類別標簽生成細粒度對象類別標簽描述;
12、步驟五、根據(jù)步驟二得到的預處理后的圖像、預處理后的細粒度對象注釋、步驟三得到的所有圖像的粗粒度圖像字幕注釋和步驟四得到的細粒度對象類別標簽描述,構(gòu)建多模態(tài)大模型的多粒度數(shù)據(jù)集。
13、一種計算機存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法。
14、一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建設(shè)備,所述設(shè)備包括處理器和存儲器,所述存儲器中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法。
15、本發(fā)明的有益效果為:
16、解決了現(xiàn)有的多模態(tài)大模型訓練集只使用粗粒度注釋,忽視了細粒度注釋,從而導致了模型對概念理解的不夠深入,限制了模型的多模態(tài)任務(wù)性能的問題。
17、本發(fā)明不同于廣泛使用的圖像標題數(shù)據(jù)范式,mgc是一個帶有多粒度概念注釋的圖像-文本交錯文檔,既包括文本形式(字幕、標簽和標簽描述),也包括視覺形式(圖像和對象區(qū)域)。它可以幫助mllms更好地學習概念,并利用概念在多粒度上對齊視覺和語言??傊?,mgc包含350萬張獨特圖像,34.4萬個獨特的類別標簽描述對,以及2390萬個獨特的對象區(qū)域。它可以幫助我們探索mgc作為mllms新數(shù)據(jù)范式的潛力,增強mllms的概念理解能力和生成能力,從而提升視覺和語言的對齊,取得在各種多模態(tài)下游任務(wù)上的性能提升。
1.一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法,其特征在于,所述步驟二中對步驟一數(shù)據(jù)集中的圖像進行預處理,得到預處理后的圖像;對步驟一數(shù)據(jù)集中的細粒度對象注釋進行預處理得到預處理后的細粒度對象注釋;具體過程為:
3.根據(jù)權(quán)利要求2所述的一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法,其特征在于,所述步驟二一中對步驟一數(shù)據(jù)集中的圖像進行預處理,得到預處理后的圖像,具體過程為:
4.根據(jù)權(quán)利要求3所述的一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法,其特征在于,所述對步驟二二中根據(jù)步驟一數(shù)據(jù)集中的細粒度對象注釋,得到預處理后的細粒度對象注釋;其中,對步驟一數(shù)據(jù)集中的其中一個細粒度對象注釋,得到一個預處理后的細粒度對象注釋的具體過程為:
5.根據(jù)權(quán)利要求4所述的一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法,其特征在于,所述步驟三中對于步驟一數(shù)據(jù)集中的沒有粗粒度圖像字幕注釋圖像生成粗粒度圖像字幕注釋;具體過程為:
6.根據(jù)權(quán)利要求5所述的一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法,其特征在于,所述步驟四中對步驟一數(shù)據(jù)集中的細粒度對象類別標簽生成細粒度對象類別標簽描述;具體過程為:
7.一種計算機存儲介質(zhì),其特征在于,所述存儲介質(zhì)中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1至6任意一項所述的一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法。
8.一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建設(shè)備,其特征在于,所述設(shè)備包括處理器和存儲器,所述存儲器中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1至6任意一項所述的一種面向多模態(tài)大模型的多粒度數(shù)據(jù)集構(gòu)建方法。