本發(fā)明涉及模型訓(xùn)練,尤其涉及一種基于transformer的視覺大模型訓(xùn)練系統(tǒng)。
背景技術(shù):
1、模型訓(xùn)練技術(shù)領(lǐng)域是指通過大量的數(shù)據(jù)進行訓(xùn)練,從而逐步學(xué)會識別、分類、預(yù)測等任務(wù)。模型訓(xùn)練涵蓋了從數(shù)據(jù)準(zhǔn)備、特征提取、模型選擇、訓(xùn)練過程、參數(shù)優(yōu)化到驗證、評估和部署等步驟。隨著人工智能技術(shù)的發(fā)展,模型訓(xùn)練領(lǐng)域涉及的算法種類不斷增加,如神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹、聚類算法等,各種算法在不同場景下表現(xiàn)出各自的優(yōu)勢。通過模型訓(xùn)練,不同類型的數(shù)據(jù)(如文本、圖像、視頻、音頻等)可以被轉(zhuǎn)化為具有語義信息的結(jié)構(gòu)化數(shù)據(jù)。
2、其中,視覺大模型訓(xùn)練系統(tǒng)是指專門針對視覺數(shù)據(jù)(如圖像和視頻)的訓(xùn)練模型。通常用于訓(xùn)練大型視覺模型,使其具備圖像識別、物體檢測、場景理解等視覺感知能力。視覺大模型訓(xùn)練系統(tǒng)的用途非常廣泛,包括自動駕駛、安防監(jiān)控、人臉識別、圖像檢索、醫(yī)療影像分析等應(yīng)用場景,通過對視覺數(shù)據(jù)的深度學(xué)習(xí),模型可逐漸達(dá)到高精度的識別和分類能力。
3、現(xiàn)有技術(shù)在圖像模糊區(qū)域和清晰區(qū)域的處理上難以準(zhǔn)確區(qū)分兩者的特征權(quán)重,導(dǎo)致在模糊區(qū)域的干擾下,模型對細(xì)節(jié)特征的識別效果不佳。例如,在視覺檢測任務(wù)中,模糊區(qū)域的存在會削弱對物體邊緣的分辨能力,導(dǎo)致物體輪廓識別偏差。在無標(biāo)簽樣本的特征學(xué)習(xí)方面,現(xiàn)有技術(shù)在大規(guī)模數(shù)據(jù)處理時對無標(biāo)簽樣本的分類指導(dǎo)不足,影響了模型對無標(biāo)簽數(shù)據(jù)的學(xué)習(xí)效率。在局部與全局特征的關(guān)聯(lián)方面,難以在細(xì)節(jié)和整體結(jié)構(gòu)間實現(xiàn)動態(tài)關(guān)聯(lián),影響了模型在圖像分割等任務(wù)中對局部細(xì)節(jié)的精準(zhǔn)理解。此外,現(xiàn)有技術(shù)在多尺度特征的處理上難以實現(xiàn)統(tǒng)一的尺度融合,使模型對不同尺度目標(biāo)的適應(yīng)性較差,影響模型在復(fù)雜場景中的識別效果。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是解決現(xiàn)有技術(shù)中存在的缺點,而提出的一種基于transformer的視覺大模型訓(xùn)練系統(tǒng)。
2、為了實現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:一種基于transformer的視覺大模型訓(xùn)練系統(tǒng)包括:
3、模糊區(qū)域選擇模塊基于輸入圖像數(shù)據(jù),獲取模糊區(qū)域和清晰區(qū)域的分布信息,根據(jù)圖像的模糊區(qū)域和清晰區(qū)域進行權(quán)重分配,獲取區(qū)域加權(quán)圖,將區(qū)域加權(quán)圖用于transformer自注意力層中,生成權(quán)重調(diào)整后的注意力分布圖;
4、相似度偽標(biāo)簽分配模塊參照所述權(quán)重調(diào)整后的注意力分布圖對圖像區(qū)域的權(quán)重,構(gòu)建樣本間的相似度矩陣,為無標(biāo)簽樣本分配偽標(biāo)簽,并將無標(biāo)簽樣本分配至最相似的標(biāo)注樣本所屬的類別,得到偽標(biāo)簽分配結(jié)果;
5、協(xié)同特征關(guān)聯(lián)模塊基于所述區(qū)域加權(quán)圖中高權(quán)重區(qū)域的圖像局部細(xì)節(jié)區(qū)域,以及偽標(biāo)簽分配結(jié)果中樣本間的相似度矩陣的信息,構(gòu)建上下文關(guān)聯(lián)矩陣,動態(tài)調(diào)整局部特征和全局特征的權(quán)重,得到跨層次特征關(guān)聯(lián)圖;
6、層級多尺度建模模塊基于所述跨層次特征關(guān)聯(lián)圖,對輸入圖像特征進行尺度劃分,通過跨層信息傳遞的方式,將小尺度區(qū)域特征嵌入大尺度區(qū)域?qū)崿F(xiàn)特征的融合,將融合后的特征輸入至后續(xù)的transformer層,生成多尺度特征訓(xùn)練結(jié)果。
7、作為本發(fā)明的進一步方案,所述區(qū)域加權(quán)圖的獲取步驟具體為:
8、基于輸入圖像數(shù)據(jù),將圖像劃分為若干大小的區(qū)域塊,采用公式:
9、
10、計算模糊程度得分,得到區(qū)域的模糊度評價值;
11、其中,、是組合權(quán)重系數(shù),用于調(diào)整亮度、顏色變化、對比度與邊緣清晰度、空間頻率的相對影響,是區(qū)域的亮度值,是亮度歸一化上限,即亮度的最大值,是顏色變化值,是顏色變化的歸一化上限,是對比度差異值,是對比度的歸一化上限,是邊緣清晰度,是邊緣清晰度的歸一化上限,是空間頻率,是空間頻率的歸一化上限,、、、、是特征權(quán)重系數(shù);
12、根據(jù)所述區(qū)域的模糊度評價值,對區(qū)域塊的模糊程度進行分析,并設(shè)定相應(yīng)權(quán)重,通過將每個區(qū)域塊的權(quán)重數(shù)據(jù)填充至與區(qū)域大小相同的權(quán)重矩陣,將權(quán)重矩陣按區(qū)域在圖像中的位置拼接組合,得到區(qū)域加權(quán)圖。
13、作為本發(fā)明的進一步方案,所述權(quán)重調(diào)整后的注意力分布圖的獲取步驟具體為:
14、基于所述區(qū)域加權(quán)圖,將每個區(qū)域的加權(quán)值映射到transformer自注意力層的輸入矩陣中,根據(jù)像素所在區(qū)域的加權(quán)值調(diào)整像素位置,得到帶有區(qū)域權(quán)重分布的輸入矩陣;
15、根據(jù)所述帶有區(qū)域權(quán)重分布的輸入矩陣,調(diào)整注意力頭對清晰和模糊區(qū)域的關(guān)注系數(shù),依據(jù)加權(quán)值對清晰區(qū)域提升關(guān)注度,對模糊區(qū)域降低關(guān)注度,整合每個注意力頭的關(guān)注度矩陣,得到權(quán)重調(diào)整后的注意力分布圖。
16、作為本發(fā)明的進一步方案,所述樣本間的相似度矩陣的獲取步驟具體為:
17、根據(jù)所述權(quán)重調(diào)整后的注意力分布圖,將圖像區(qū)域的權(quán)重信息映射到圖像特征空間中,采用公式:
18、
19、計算標(biāo)注樣本和無標(biāo)簽樣本特征向量的相似度值,得到特征向量的相似度信息;
20、其中,代表特征向量中的每個分量,是特征向量的維度數(shù),是標(biāo)注樣本的特征向量,是標(biāo)注樣本的第個特征值,是無標(biāo)簽樣本的特征向量,是無標(biāo)簽樣本的第個特征值,是權(quán)重調(diào)整因子;
21、根據(jù)所述特征向量的相似度信息,通過逐項對比無標(biāo)簽樣本與標(biāo)注樣本的特征向量,并將每一對樣本的相似度值填入對應(yīng)的矩陣位置,構(gòu)建樣本間的相似度矩陣。
22、作為本發(fā)明的進一步方案,所述偽標(biāo)簽分配結(jié)果的獲取步驟具體為:
23、基于所述樣本間的相似度矩陣的數(shù)據(jù),提取每個無標(biāo)簽樣本的相似度信息,對比無標(biāo)簽樣本與標(biāo)注樣本的相似度值,選擇相似度最高的標(biāo)注樣本,將無標(biāo)簽樣本分配至對應(yīng)類別,生成標(biāo)簽的初始劃分結(jié)果;
24、基于所述標(biāo)簽的初始劃分結(jié)果,將帶有偽標(biāo)簽的無標(biāo)簽樣本和標(biāo)注樣本輸入transformer模型,通過自監(jiān)督學(xué)習(xí)逐步優(yōu)化無標(biāo)簽樣本的特征向量,并在訓(xùn)練迭代中對偽標(biāo)簽進行驗證和微調(diào),得到偽標(biāo)簽分配結(jié)果。
25、作為本發(fā)明的進一步方案,所述上下文關(guān)聯(lián)矩陣的獲取步驟具體為:
26、根據(jù)所述偽標(biāo)簽分配結(jié)果中的相似度矩陣信息,從區(qū)域加權(quán)圖中識別高權(quán)重區(qū)域,提取區(qū)域中顏色、紋理和邊緣特征,通過全局池化操作處理圖像整體特征,得到局部特征和全局特征集合;
27、根據(jù)所述局部特征和全局特征集合,采用公式:
28、
29、計算歸一化的關(guān)聯(lián)度,用于局部特征集合與全局特征集合之間的匹配程度,構(gòu)建上下文關(guān)聯(lián)矩陣;
30、其中,用于指示局部與全局特征中的各個分量,表示局部與全局特征向量中包含的分量數(shù)量,為局部特征向量中的第個分量,為全局特征集合中的第個分量,是調(diào)整因子,表示局部特征集合的各個分量,表示全局特征集合的各個分量,是局部特征集合中的第個分量,是全局特征集合中的第個分量。
31、作為本發(fā)明的進一步方案,所述跨層次特征關(guān)聯(lián)圖的獲取步驟具體為:
32、根據(jù)所述上下文關(guān)聯(lián)矩陣的信息,參照每個局部特征與全局特征的關(guān)聯(lián)度,按照關(guān)聯(lián)度的高低對特征的權(quán)重進行動態(tài)調(diào)整,生成調(diào)整后的特征集合;
33、根據(jù)所述調(diào)整后的特征集合,在transformer模型的多層自注意力層結(jié)構(gòu)中逐層構(gòu)建上下文關(guān)聯(lián)圖,將每層關(guān)聯(lián)信息逐層累積并傳遞,得到跨層次特征關(guān)聯(lián)圖。
34、作為本發(fā)明的進一步方案,所述多尺度特征訓(xùn)練結(jié)果的獲取步驟具體為:
35、基于所述跨層次特征關(guān)聯(lián)圖,對輸入圖像特征進行尺度劃分,識別并分離大尺度與小尺度特征區(qū)域,提取小尺度區(qū)域中的細(xì)節(jié)特征,并通過跨層信息傳遞逐步嵌入大尺度區(qū)域,得到融合后的特征圖;
36、基于所述融合后的特征圖,將其輸入至后續(xù)的transformer層,通過層間信息傳遞對每層的圖像特征進行動態(tài)更新,逐層累積細(xì)節(jié)和全局結(jié)構(gòu)特征,生成多尺度特征訓(xùn)練結(jié)果。
37、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點和積極效果在于:
38、本發(fā)明中,通過對圖像的亮度、顏色變化、對比度、邊緣清晰度和紋理密集度等特征信息進行處理,動態(tài)區(qū)分模糊和清晰區(qū)域,并賦予清晰區(qū)域更高權(quán)重,使模型更加聚焦高信息量的區(qū)域,提升了在細(xì)節(jié)豐富場景中的分辨能力。基于相似度偽標(biāo)簽,通過標(biāo)注樣本與無標(biāo)簽樣本之間的特征相似性關(guān)系,自動生成指導(dǎo)標(biāo)簽,提高了無標(biāo)簽樣本在特征學(xué)習(xí)過程中的準(zhǔn)確性和效率。在特征關(guān)聯(lián)處理中,能夠有效將圖像的局部細(xì)節(jié)與全局結(jié)構(gòu)相結(jié)合,通過動態(tài)的上下文關(guān)聯(lián)矩陣,實現(xiàn)了局部與整體信息的精準(zhǔn)關(guān)聯(lián)匹配,使模型能夠充分理解跨層次的語義關(guān)系。通過跨層次信息的傳遞與融合,使得小尺度特征能夠嵌入大尺度區(qū)域,進一步增強了模型對細(xì)節(jié)特征和整體結(jié)構(gòu)的協(xié)同處理能力,有助于在圖像分割和檢測任務(wù)中更精確地捕捉不同層級的目標(biāo)特征,增強了模型在復(fù)雜視覺任務(wù)中的識別和分析能力。