基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào)：40639455發(fā)布日期：2025-01-10 18:45閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程

本申請(qǐng)涉及人工智能，尤其涉及一種基于統(tǒng)一表征模型的數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、隨著人工智能(ai)技術(shù)的迅猛發(fā)展，多模態(tài)學(xué)習(xí)在諸多領(lǐng)域(如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等)中表現(xiàn)卓越。多模態(tài)學(xué)習(xí)模型能夠同時(shí)處理和融合來(lái)自不同模態(tài)(如圖像、文本、音頻等)的數(shù)據(jù)，從而提高模型的性能和應(yīng)用效果。然而，現(xiàn)有的多模態(tài)學(xué)習(xí)方法在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn)，特別是在信息融合效率、計(jì)算資源需求以及模型整體性能方面還存在不足。

2、現(xiàn)有的多模態(tài)數(shù)據(jù)處理方法通常采用直接地獨(dú)立處理各原始模態(tài)數(shù)據(jù)，并在網(wǎng)絡(luò)模型的高層對(duì)獨(dú)立處理后的多模態(tài)數(shù)據(jù)進(jìn)行簡(jiǎn)單融合的方法。例如，在圖像與文本匹配中，圖像數(shù)據(jù)和文本數(shù)據(jù)分別經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練語(yǔ)言模型(如bert語(yǔ)言模型)提取特征，然后將這些特征簡(jiǎn)單拼接或僅通過(guò)全連接層進(jìn)行簡(jiǎn)單的融合。

3、因此，這種方法存在信息融合效率低下，從而導(dǎo)致訓(xùn)練和推理效率低等問(wèn)題。

4、申請(qǐng)內(nèi)容

5、本申請(qǐng)實(shí)施例的主要目的在于提供一種基于統(tǒng)一表征模型的數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)，旨在解決相關(guān)技術(shù)中的多模態(tài)學(xué)習(xí)方法在實(shí)際應(yīng)用中存在的信息融合效率低下、導(dǎo)致訓(xùn)練和推理效率低、泛化能力和適應(yīng)不同任務(wù)的能力方面表現(xiàn)不足等問(wèn)題中的至少一個(gè)問(wèn)題。

6、第一方面，本申請(qǐng)實(shí)施例提供一種基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法，所述方法包括：獲取多模態(tài)特征數(shù)據(jù)；在第一基于注意力的融合層，將所述多模態(tài)特征數(shù)據(jù)分別轉(zhuǎn)化為查詢向量、鍵向量和值向量；計(jì)算所述查詢向量和所述鍵向量之間的第一注意力權(quán)重；基于所述第一注意力權(quán)重對(duì)所述值向量進(jìn)行加權(quán)處理，獲取加權(quán)后的值向量；將所述加權(quán)后的值向量與所述查詢向量進(jìn)行初始融合，獲取初始融合特征數(shù)據(jù)；在全連接融合層，對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合，以形成二次融合特征數(shù)據(jù)；在第二基于注意力的融合層，計(jì)算出所述二次融合特征數(shù)據(jù)與所述初始融合特征數(shù)據(jù)之間的相似度；基于所述相似度生成第二注意力權(quán)重；基于所述第二注意力權(quán)重對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行加權(quán)，獲取加權(quán)后的初始融合特征數(shù)據(jù)；以及將所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)融合，以生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。

7、可選的，所述獲取多模態(tài)特征數(shù)據(jù)，包括：獲取預(yù)處理后的多模態(tài)數(shù)據(jù)，其中，所述預(yù)處理后的多模態(tài)數(shù)據(jù)包括第一模態(tài)數(shù)據(jù)、第二模態(tài)數(shù)據(jù)以及第三模態(tài)數(shù)據(jù)；以及基于不同的特征提取模型，分別對(duì)所述第一模態(tài)數(shù)據(jù)、所述第二模態(tài)數(shù)據(jù)以及所述第三模態(tài)數(shù)據(jù)進(jìn)行特征提取，獲取所述多模態(tài)特征數(shù)據(jù)。

8、可選的，所述預(yù)處理包括：對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行對(duì)齊處理，以確保同一場(chǎng)景下的所述第一模態(tài)數(shù)據(jù)、所述第二模態(tài)數(shù)據(jù)以及所述第三模態(tài)數(shù)據(jù)彼此對(duì)應(yīng)；以及對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，以消除所述多模態(tài)數(shù)據(jù)之間的差異。

9、可選的，所述第一模態(tài)數(shù)據(jù)為圖像數(shù)據(jù)，所述第二模態(tài)數(shù)據(jù)為文本數(shù)據(jù)，所述第三模態(tài)數(shù)據(jù)為音頻數(shù)據(jù)。

10、可選的，在全連接融合層，對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合，以形成二次融合特征數(shù)據(jù)，包括：對(duì)所述初始融合特征數(shù)據(jù)中的每個(gè)單模態(tài)特征數(shù)據(jù)進(jìn)行拼接，獲取拼接后的初始融合特征數(shù)據(jù)；以及在所述全連接融合層，將拼接后的所述初始融合特征數(shù)據(jù)映射到一個(gè)不同維的表示空間，以形成二次融合特征數(shù)據(jù)。

11、可選的，所述方法通過(guò)將所述多模態(tài)數(shù)據(jù)輸入預(yù)設(shè)統(tǒng)一表征模型，得到所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示，其中，所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層，所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。

12、可選的，所述預(yù)設(shè)統(tǒng)一表征模型通過(guò)以下方式預(yù)先訓(xùn)練得到：獲取訓(xùn)練的多模態(tài)數(shù)據(jù)，將所述多模態(tài)數(shù)據(jù)輸入所述統(tǒng)一表征模型，得到多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示；分別計(jì)算所述多模態(tài)數(shù)據(jù)中的單模態(tài)數(shù)據(jù)與所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示中的單模態(tài)數(shù)據(jù)之間的一致性損失值；將所有的所述一致性損失值按特定的權(quán)重系數(shù)加權(quán)求和，獲取聯(lián)合損失值；根據(jù)所述聯(lián)合損失值更新所述統(tǒng)一表征模型的模型參數(shù)值，直至所述聯(lián)合損失值收斂；以及將所述聯(lián)合損失值收斂時(shí)的統(tǒng)一表征模型，作為所述預(yù)設(shè)統(tǒng)一表征模型。

13、第二方面，本申請(qǐng)實(shí)施例提供一種多模態(tài)數(shù)據(jù)處理裝置，具有實(shí)現(xiàn)對(duì)應(yīng)于上述第一方面提供的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法的功能。所述功能可以通過(guò)硬件實(shí)現(xiàn)，也可以通過(guò)硬件執(zhí)行相應(yīng)的軟件實(shí)現(xiàn)。硬件或軟件包括一個(gè)或多個(gè)與上述功能相對(duì)應(yīng)的模塊，所述模塊可以是軟件和/或硬件。

14、在一個(gè)實(shí)施方式中，所述多模態(tài)數(shù)據(jù)處理裝置包括：獲取模塊，被配置為獲取多模態(tài)特征數(shù)據(jù)；第一融合模塊，被配置為對(duì)所述多模態(tài)特征數(shù)據(jù)進(jìn)行初始融合，獲取初始融合特征數(shù)據(jù)；第二融合模塊，被配置為對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合，以形成二次融合特征數(shù)據(jù)；第三融合模塊，被配置為計(jì)算出所述二次融合特征數(shù)據(jù)與所述初始融合特征數(shù)據(jù)之間的相似度；基于所述相似度生成第二注意力權(quán)重；基于所述第二注意力權(quán)重對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行加權(quán)，獲取加權(quán)后的初始融合特征數(shù)據(jù)，將所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)進(jìn)行融合；以及表示模塊，被配置為基于所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)的融合，以生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。

15、第三方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其包括指令，當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí)，使得計(jì)算機(jī)執(zhí)行如第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法。

16、第四方面，本申請(qǐng)實(shí)施例提供一種計(jì)算設(shè)備，包括存儲(chǔ)器，處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，其中，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法。

17、相對(duì)于現(xiàn)有技術(shù)的對(duì)多模態(tài)數(shù)據(jù)直接進(jìn)行特征提取，本申請(qǐng)的實(shí)施例在進(jìn)行特征提取之前，首先對(duì)多模態(tài)數(shù)據(jù)進(jìn)行了預(yù)處理，以確保數(shù)據(jù)的一致性和質(zhì)量。此外，針對(duì)多模態(tài)數(shù)據(jù)的融合，現(xiàn)有技術(shù)采用獨(dú)立處理各模態(tài)數(shù)據(jù)并在高層進(jìn)行簡(jiǎn)單融合的方式，而簡(jiǎn)單的特征拼接或全連接層融合無(wú)法充分捕捉不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)信息，進(jìn)而影響了模型的性能。

18、與之不同的是，本申請(qǐng)實(shí)施例中，首先對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行對(duì)齊和初始融合處理，在此基礎(chǔ)上，再對(duì)經(jīng)過(guò)初始融合處理后的多模態(tài)特征數(shù)據(jù)進(jìn)行多層次融合。由于本申請(qǐng)實(shí)施例是采用跨模態(tài)注意力機(jī)制和多層次融合網(wǎng)絡(luò)結(jié)合的方式對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行融合，而不是現(xiàn)有技術(shù)中的簡(jiǎn)單融合的方式，并且在初始融合特征數(shù)據(jù)的基礎(chǔ)上，通過(guò)將低級(jí)特征和高級(jí)特征進(jìn)行融合，可以獲得高分辨率和語(yǔ)意強(qiáng)的圖文特征，該模型提高了信息融合效率以及信息融合的準(zhǔn)確性和全面性，從而提高了模型在圖文生成應(yīng)用方面的準(zhǔn)確性。

19、綜上所述，本申請(qǐng)實(shí)施例可以充分地利用多模態(tài)數(shù)據(jù)的豐富信息，提高了信息融合效率以及信息融合的準(zhǔn)確性和全面性，從而可以提高模型在ai字幕生成以及圖文生成應(yīng)用中的準(zhǔn)確性。

技術(shù)實(shí)現(xiàn)思路

技術(shù)特征：

1.一種基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法，所述方法包括：

2.如權(quán)利要求1所述的方法，其中，所述獲取多模態(tài)特征數(shù)據(jù)，包括：

3.如權(quán)利要求2所述的方法，其中，所述預(yù)處理包括：

4.如權(quán)利要求2所述的方法，其中，所述第一模態(tài)數(shù)據(jù)為圖像數(shù)據(jù)，所述第二模態(tài)數(shù)據(jù)為文本數(shù)據(jù)，所述第三模態(tài)數(shù)據(jù)為音頻數(shù)據(jù)。

5.如權(quán)利要求1所述的方法，其中，在全連接融合層，對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合，以形成二次融合特征數(shù)據(jù)，包括：

6.如權(quán)利要求1所述的方法，其中，所述方法通過(guò)將所述多模態(tài)數(shù)據(jù)輸入預(yù)設(shè)統(tǒng)一表征模型，得到所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示，其中，所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層，所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。

7.如權(quán)利要求1所述的方法，其中，所述預(yù)設(shè)統(tǒng)一表征模型通過(guò)以下方式預(yù)先訓(xùn)練得到：

8.一種多模態(tài)數(shù)據(jù)處理裝置，包括：

9.一種計(jì)算設(shè)備，包括存儲(chǔ)器，處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，其中，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其包括指令，當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí)，使得計(jì)算機(jī)執(zhí)行如權(quán)利要求1-7中任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本申請(qǐng)涉及人工智能領(lǐng)域，提供了基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法，包括：獲取多模態(tài)特征數(shù)據(jù)，在第一基于注意力的融合層，對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行處理，獲取初始融合特征數(shù)據(jù)，再對(duì)初始融合特征數(shù)據(jù)進(jìn)行二次融合，以形成二次融合特征數(shù)據(jù)，計(jì)算出二次融合特征數(shù)據(jù)與初始融合特征數(shù)據(jù)之間的相似度，基于相似度生成第二注意力權(quán)重，再基于第二注意力權(quán)重對(duì)初始融合特征數(shù)據(jù)進(jìn)行加權(quán)，獲取加權(quán)后的初始融合特征數(shù)據(jù)，最后將加權(quán)后的初始融合特征數(shù)據(jù)與二次融合特征數(shù)據(jù)融合，生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。本申請(qǐng)充分地利用多模態(tài)數(shù)據(jù)的豐富信息，提高了信息融合效率，從而提高了模型在AI字幕生成以及圖文生成應(yīng)用中的準(zhǔn)確性。

技術(shù)研發(fā)人員：闖小明,楊龔軼凡,鄭瀚尋,戴長(zhǎng)樂(lè)
受保護(hù)的技術(shù)使用者：上海泰則半導(dǎo)體有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：闖小明,楊龔軼凡,鄭瀚尋,戴長(zhǎng)樂(lè)
技術(shù)所有人：上海泰則半導(dǎo)體有限公司
我是此專利的發(fā)明人

上一篇：一種門(mén)板加工用鉆孔設(shè)備的制作方法
上一篇：一種油豆腐渣漿分離裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程

基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程