一種基于Transformer的視覺大模型訓(xùn)練系統(tǒng)的制作方法

文檔序號：40445189發(fā)布日期：2024-12-24 15:19閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于Transformer的視覺大模型訓(xùn)練系統(tǒng)的制作方法

本發(fā)明涉及模型訓(xùn)練，尤其涉及一種基于transformer的視覺大模型訓(xùn)練系統(tǒng)。

背景技術(shù)：

1、模型訓(xùn)練技術(shù)領(lǐng)域是指通過大量的數(shù)據(jù)進行訓(xùn)練，從而逐步學(xué)會識別、分類、預(yù)測等任務(wù)。模型訓(xùn)練涵蓋了從數(shù)據(jù)準(zhǔn)備、特征提取、模型選擇、訓(xùn)練過程、參數(shù)優(yōu)化到驗證、評估和部署等步驟。隨著人工智能技術(shù)的發(fā)展，模型訓(xùn)練領(lǐng)域涉及的算法種類不斷增加，如神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹、聚類算法等，各種算法在不同場景下表現(xiàn)出各自的優(yōu)勢。通過模型訓(xùn)練，不同類型的數(shù)據(jù)（如文本、圖像、視頻、音頻等）可以被轉(zhuǎn)化為具有語義信息的結(jié)構(gòu)化數(shù)據(jù)。

2、其中，視覺大模型訓(xùn)練系統(tǒng)是指專門針對視覺數(shù)據(jù)（如圖像和視頻）的訓(xùn)練模型。通常用于訓(xùn)練大型視覺模型，使其具備圖像識別、物體檢測、場景理解等視覺感知能力。視覺大模型訓(xùn)練系統(tǒng)的用途非常廣泛，包括自動駕駛、安防監(jiān)控、人臉識別、圖像檢索、醫(yī)療影像分析等應(yīng)用場景，通過對視覺數(shù)據(jù)的深度學(xué)習(xí)，模型可逐漸達(dá)到高精度的識別和分類能力。

3、現(xiàn)有技術(shù)在圖像模糊區(qū)域和清晰區(qū)域的處理上難以準(zhǔn)確區(qū)分兩者的特征權(quán)重，導(dǎo)致在模糊區(qū)域的干擾下，模型對細(xì)節(jié)特征的識別效果不佳。例如，在視覺檢測任務(wù)中，模糊區(qū)域的存在會削弱對物體邊緣的分辨能力，導(dǎo)致物體輪廓識別偏差。在無標(biāo)簽樣本的特征學(xué)習(xí)方面，現(xiàn)有技術(shù)在大規(guī)模數(shù)據(jù)處理時對無標(biāo)簽樣本的分類指導(dǎo)不足，影響了模型對無標(biāo)簽數(shù)據(jù)的學(xué)習(xí)效率。在局部與全局特征的關(guān)聯(lián)方面，難以在細(xì)節(jié)和整體結(jié)構(gòu)間實現(xiàn)動態(tài)關(guān)聯(lián)，影響了模型在圖像分割等任務(wù)中對局部細(xì)節(jié)的精準(zhǔn)理解。此外，現(xiàn)有技術(shù)在多尺度特征的處理上難以實現(xiàn)統(tǒng)一的尺度融合，使模型對不同尺度目標(biāo)的適應(yīng)性較差，影響模型在復(fù)雜場景中的識別效果。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是解決現(xiàn)有技術(shù)中存在的缺點，而提出的一種基于transformer的視覺大模型訓(xùn)練系統(tǒng)。

2、為了實現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案：一種基于transformer的視覺大模型訓(xùn)練系統(tǒng)包括：

3、模糊區(qū)域選擇模塊基于輸入圖像數(shù)據(jù)，獲取模糊區(qū)域和清晰區(qū)域的分布信息，根據(jù)圖像的模糊區(qū)域和清晰區(qū)域進行權(quán)重分配，獲取區(qū)域加權(quán)圖，將區(qū)域加權(quán)圖用于transformer自注意力層中，生成權(quán)重調(diào)整后的注意力分布圖；

4、相似度偽標(biāo)簽分配模塊參照所述權(quán)重調(diào)整后的注意力分布圖對圖像區(qū)域的權(quán)重，構(gòu)建樣本間的相似度矩陣，為無標(biāo)簽樣本分配偽標(biāo)簽，并將無標(biāo)簽樣本分配至最相似的標(biāo)注樣本所屬的類別，得到偽標(biāo)簽分配結(jié)果；

5、協(xié)同特征關(guān)聯(lián)模塊基于所述區(qū)域加權(quán)圖中高權(quán)重區(qū)域的圖像局部細(xì)節(jié)區(qū)域，以及偽標(biāo)簽分配結(jié)果中樣本間的相似度矩陣的信息，構(gòu)建上下文關(guān)聯(lián)矩陣，動態(tài)調(diào)整局部特征和全局特征的權(quán)重，得到跨層次特征關(guān)聯(lián)圖；

6、層級多尺度建模模塊基于所述跨層次特征關(guān)聯(lián)圖，對輸入圖像特征進行尺度劃分，通過跨層信息傳遞的方式，將小尺度區(qū)域特征嵌入大尺度區(qū)域?qū)崿F(xiàn)特征的融合，將融合后的特征輸入至后續(xù)的transformer層，生成多尺度特征訓(xùn)練結(jié)果。

7、作為本發(fā)明的進一步方案，所述區(qū)域加權(quán)圖的獲取步驟具體為：

8、基于輸入圖像數(shù)據(jù)，將圖像劃分為若干大小的區(qū)域塊，采用公式：

9、

10、計算模糊程度得分，得到區(qū)域的模糊度評價值；

11、其中，、是組合權(quán)重系數(shù)，用于調(diào)整亮度、顏色變化、對比度與邊緣清晰度、空間頻率的相對影響，是區(qū)域的亮度值，是亮度歸一化上限，即亮度的最大值，是顏色變化值，是顏色變化的歸一化上限，是對比度差異值，是對比度的歸一化上限，是邊緣清晰度，是邊緣清晰度的歸一化上限，是空間頻率，是空間頻率的歸一化上限，、、、、是特征權(quán)重系數(shù)；

12、根據(jù)所述區(qū)域的模糊度評價值，對區(qū)域塊的模糊程度進行分析，并設(shè)定相應(yīng)權(quán)重，通過將每個區(qū)域塊的權(quán)重數(shù)據(jù)填充至與區(qū)域大小相同的權(quán)重矩陣，將權(quán)重矩陣按區(qū)域在圖像中的位置拼接組合，得到區(qū)域加權(quán)圖。

13、作為本發(fā)明的進一步方案，所述權(quán)重調(diào)整后的注意力分布圖的獲取步驟具體為：

14、基于所述區(qū)域加權(quán)圖，將每個區(qū)域的加權(quán)值映射到transformer自注意力層的輸入矩陣中，根據(jù)像素所在區(qū)域的加權(quán)值調(diào)整像素位置，得到帶有區(qū)域權(quán)重分布的輸入矩陣；

15、根據(jù)所述帶有區(qū)域權(quán)重分布的輸入矩陣，調(diào)整注意力頭對清晰和模糊區(qū)域的關(guān)注系數(shù)，依據(jù)加權(quán)值對清晰區(qū)域提升關(guān)注度，對模糊區(qū)域降低關(guān)注度，整合每個注意力頭的關(guān)注度矩陣，得到權(quán)重調(diào)整后的注意力分布圖。

16、作為本發(fā)明的進一步方案，所述樣本間的相似度矩陣的獲取步驟具體為：

17、根據(jù)所述權(quán)重調(diào)整后的注意力分布圖，將圖像區(qū)域的權(quán)重信息映射到圖像特征空間中，采用公式：

18、

19、計算標(biāo)注樣本和無標(biāo)簽樣本特征向量的相似度值，得到特征向量的相似度信息；

20、其中，代表特征向量中的每個分量，是特征向量的維度數(shù)，是標(biāo)注樣本的特征向量，是標(biāo)注樣本的第個特征值，是無標(biāo)簽樣本的特征向量，是無標(biāo)簽樣本的第個特征值，是權(quán)重調(diào)整因子；

21、根據(jù)所述特征向量的相似度信息，通過逐項對比無標(biāo)簽樣本與標(biāo)注樣本的特征向量，并將每一對樣本的相似度值填入對應(yīng)的矩陣位置，構(gòu)建樣本間的相似度矩陣。

22、作為本發(fā)明的進一步方案，所述偽標(biāo)簽分配結(jié)果的獲取步驟具體為：

23、基于所述樣本間的相似度矩陣的數(shù)據(jù)，提取每個無標(biāo)簽樣本的相似度信息，對比無標(biāo)簽樣本與標(biāo)注樣本的相似度值，選擇相似度最高的標(biāo)注樣本，將無標(biāo)簽樣本分配至對應(yīng)類別，生成標(biāo)簽的初始劃分結(jié)果；

24、基于所述標(biāo)簽的初始劃分結(jié)果，將帶有偽標(biāo)簽的無標(biāo)簽樣本和標(biāo)注樣本輸入transformer模型，通過自監(jiān)督學(xué)習(xí)逐步優(yōu)化無標(biāo)簽樣本的特征向量，并在訓(xùn)練迭代中對偽標(biāo)簽進行驗證和微調(diào)，得到偽標(biāo)簽分配結(jié)果。

25、作為本發(fā)明的進一步方案，所述上下文關(guān)聯(lián)矩陣的獲取步驟具體為：

26、根據(jù)所述偽標(biāo)簽分配結(jié)果中的相似度矩陣信息，從區(qū)域加權(quán)圖中識別高權(quán)重區(qū)域，提取區(qū)域中顏色、紋理和邊緣特征，通過全局池化操作處理圖像整體特征，得到局部特征和全局特征集合；

27、根據(jù)所述局部特征和全局特征集合，采用公式：

28、

29、計算歸一化的關(guān)聯(lián)度，用于局部特征集合與全局特征集合之間的匹配程度，構(gòu)建上下文關(guān)聯(lián)矩陣；

30、其中，用于指示局部與全局特征中的各個分量，表示局部與全局特征向量中包含的分量數(shù)量，為局部特征向量中的第個分量，為全局特征集合中的第個分量，是調(diào)整因子，表示局部特征集合的各個分量，表示全局特征集合的各個分量，是局部特征集合中的第個分量，是全局特征集合中的第個分量。

31、作為本發(fā)明的進一步方案，所述跨層次特征關(guān)聯(lián)圖的獲取步驟具體為：

32、根據(jù)所述上下文關(guān)聯(lián)矩陣的信息，參照每個局部特征與全局特征的關(guān)聯(lián)度，按照關(guān)聯(lián)度的高低對特征的權(quán)重進行動態(tài)調(diào)整，生成調(diào)整后的特征集合；

33、根據(jù)所述調(diào)整后的特征集合，在transformer模型的多層自注意力層結(jié)構(gòu)中逐層構(gòu)建上下文關(guān)聯(lián)圖，將每層關(guān)聯(lián)信息逐層累積并傳遞，得到跨層次特征關(guān)聯(lián)圖。

34、作為本發(fā)明的進一步方案，所述多尺度特征訓(xùn)練結(jié)果的獲取步驟具體為：

35、基于所述跨層次特征關(guān)聯(lián)圖，對輸入圖像特征進行尺度劃分，識別并分離大尺度與小尺度特征區(qū)域，提取小尺度區(qū)域中的細(xì)節(jié)特征，并通過跨層信息傳遞逐步嵌入大尺度區(qū)域，得到融合后的特征圖；

36、基于所述融合后的特征圖，將其輸入至后續(xù)的transformer層，通過層間信息傳遞對每層的圖像特征進行動態(tài)更新，逐層累積細(xì)節(jié)和全局結(jié)構(gòu)特征，生成多尺度特征訓(xùn)練結(jié)果。

37、與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點和積極效果在于：

38、本發(fā)明中，通過對圖像的亮度、顏色變化、對比度、邊緣清晰度和紋理密集度等特征信息進行處理，動態(tài)區(qū)分模糊和清晰區(qū)域，并賦予清晰區(qū)域更高權(quán)重，使模型更加聚焦高信息量的區(qū)域，提升了在細(xì)節(jié)豐富場景中的分辨能力。基于相似度偽標(biāo)簽，通過標(biāo)注樣本與無標(biāo)簽樣本之間的特征相似性關(guān)系，自動生成指導(dǎo)標(biāo)簽，提高了無標(biāo)簽樣本在特征學(xué)習(xí)過程中的準(zhǔn)確性和效率。在特征關(guān)聯(lián)處理中，能夠有效將圖像的局部細(xì)節(jié)與全局結(jié)構(gòu)相結(jié)合，通過動態(tài)的上下文關(guān)聯(lián)矩陣，實現(xiàn)了局部與整體信息的精準(zhǔn)關(guān)聯(lián)匹配，使模型能夠充分理解跨層次的語義關(guān)系。通過跨層次信息的傳遞與融合，使得小尺度特征能夠嵌入大尺度區(qū)域，進一步增強了模型對細(xì)節(jié)特征和整體結(jié)構(gòu)的協(xié)同處理能力，有助于在圖像分割和檢測任務(wù)中更精確地捕捉不同層級的目標(biāo)特征，增強了模型在復(fù)雜視覺任務(wù)中的識別和分析能力。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鐘偉,侯文峰,張杭烽,王英軍,王魏強,朱錢華
技術(shù)所有人：平一科技（杭州）有限公司
我是此專利的發(fā)明人

上一篇：帶快換紗窗的雙內(nèi)開型系統(tǒng)窗的制作方法
上一篇：一種新型除氟劑自動投料設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Transformer的視覺大模型訓(xùn)練系統(tǒng)的制作方法