本發(fā)明涉及多模態(tài)語(yǔ)言模型,尤其涉及一種視覺與語(yǔ)言融合的多模態(tài)大模型系統(tǒng)。
背景技術(shù):
1、最近,多模態(tài)大語(yǔ)言模型(mllm)在各種下游任務(wù)中取得了令人矚目的成果,包括多模態(tài)內(nèi)容生成、基于視覺的問(wèn)題解答以及具身智能。這些進(jìn)步不僅彰顯了?mllms?的多功能性,也為進(jìn)一步研究更細(xì)微、更復(fù)雜的應(yīng)用鋪平了道路。例如,隨著?mllms?的不斷發(fā)展,在動(dòng)態(tài)環(huán)境中的實(shí)時(shí)交互、跨模態(tài)檢索任務(wù)以及日常技術(shù)中語(yǔ)言和視覺處理的無(wú)縫集成等方面都有可能取得重大改進(jìn)。
2、mllms通常依賴廣為人知的transformer網(wǎng)絡(luò)作為許多下游任務(wù)的基礎(chǔ)模型。然而,由于其二次計(jì)算復(fù)雜度,transformer網(wǎng)絡(luò)往往效率較低,這使得在需要高實(shí)時(shí)性能且適合邊緣部署的應(yīng)用場(chǎng)景中難以滿足需求。
3、傳統(tǒng)方法主要通過(guò)減少模型容量或壓縮視覺上下文的長(zhǎng)度來(lái)提高多模態(tài)大語(yǔ)言模型(mllms)的效率,同時(shí)通常在語(yǔ)言模型中保持transformer架構(gòu)不變。雖然這種方法提高了效率,但往往以大幅降低模型性能為代價(jià)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的上述問(wèn)題,并提供一種基于mamba語(yǔ)言模型的多模態(tài)系統(tǒng)。
2、本發(fā)明所采用的具體技術(shù)方案如下:
3、一種視覺與語(yǔ)言融合的多模態(tài)大模型系統(tǒng),該系統(tǒng)包括:
4、(1)編碼器模塊,包括視覺編碼器與文本編碼器,所述視覺編碼器包括視覺編碼器dinov2和視覺編碼器siglip?,其中,dinov2捕捉圖像中低層次的空間信息,siglip捕捉圖像中的語(yǔ)義信息;首先,圖像塊化:將所有圖像縮放裁剪成統(tǒng)一的格式,對(duì)于給定的一張圖像,其中c為圖像的通道數(shù),h和w分別表示圖像的高度和寬度,r代表張量空間;將圖像分割為大小相同的個(gè)小塊(patch),其中p是每個(gè)小塊patch的邊長(zhǎng);視覺編碼器dinov2及視覺編碼器siglip都將圖像塊化后的圖像作為輸入序列,并提取兩個(gè)視覺編碼器輸出的通道級(jí)聯(lián)作為緊湊的視覺token;其中和分別表示兩個(gè)視覺編碼器的輸出的特征維度表示為:,其中與分別表示dinov2?和siglip?對(duì)輸入圖像的特征提取操作,將兩個(gè)視覺編碼器的輸出拼接起來(lái),構(gòu)成維度的輸出;所述文本編碼器選用gpt-neoxtokenizer,將文本轉(zhuǎn)化為文本token;
5、(2)投影器模塊,采用多層感知機(jī)mlp將視覺編碼器模塊輸出的視覺token?降維為下一個(gè)模塊輸入的維度的視覺token?,公式為,表示為多層感知機(jī);這一步的目的是為了將視覺token的維度轉(zhuǎn)化為下一個(gè)模塊輸入的維度,投影器模塊的輸出結(jié)果會(huì)被送入下一個(gè)模塊進(jìn)行處理;
6、(3)mamba?主干模型,選用在slimpa-jama?數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的2.8b參數(shù)的版本或者在refinedweb數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的7b版本的mamba主干模型,然后將投影器模塊輸出的結(jié)果與文本編碼器輸出的結(jié)果拼接起來(lái)記為,分為兩部分:文本token的表示,視覺token的表示,通過(guò)自回歸方式將輸入token序列轉(zhuǎn)化成輸出的目標(biāo)tokens序列,其中l(wèi)是輸出序列的長(zhǎng)度,表示輸出序列中第i個(gè)元素,公式為:
7、
8、其中為文本token表示,為視覺token表示。
9、進(jìn)一步,所述圖像縮放裁剪成統(tǒng)一的格式,采用384*384的分辨率進(jìn)行裁剪,并進(jìn)行像素值的歸一化。
10、進(jìn)一步,所述多層感知機(jī)mlp由兩層全連接層組成,激活函數(shù)為gelu。
11、本發(fā)明相對(duì)于現(xiàn)有技術(shù)而言,具有以下有益效果:
12、1)本發(fā)明采用基于狀態(tài)空間模型的mamba模型,擁有線性的計(jì)算復(fù)雜度,在高效處理長(zhǎng)序列、快速推理和序列長(zhǎng)度的線性可擴(kuò)展性方面表現(xiàn)優(yōu)異;
13、2)本發(fā)明在3個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)證明,本發(fā)明方法能夠顯著提高訓(xùn)練速度,推理速度以及整體性能。
1.一種視覺與語(yǔ)言融合的多模態(tài)大模型系統(tǒng),其特征在于,該系統(tǒng)包括:
2.根據(jù)權(quán)利要求1所述的多模態(tài)大模型系統(tǒng),其特征在于,所述圖像縮放裁剪成統(tǒng)一的格式,采用384*384的分辨率進(jìn)行裁剪,并進(jìn)行像素值的歸一化。
3.根據(jù)權(quán)利要求1所述的多模態(tài)大模型系統(tǒng),其特征在于,所述多層感知機(jī)mlp由兩層全連接層組成,激活函數(shù)為gelu。