本申請(qǐng)涉及人工智能,尤其涉及一種基于統(tǒng)一表征模型的數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著人工智能(ai)技術(shù)的迅猛發(fā)展,多模態(tài)學(xué)習(xí)在諸多領(lǐng)域(如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等)中表現(xiàn)卓越。多模態(tài)學(xué)習(xí)模型能夠同時(shí)處理和融合來(lái)自不同模態(tài)(如圖像、文本、音頻等)的數(shù)據(jù),從而提高模型的性能和應(yīng)用效果。然而,現(xiàn)有的多模態(tài)學(xué)習(xí)方法在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn),特別是在信息融合效率、計(jì)算資源需求以及模型整體性能方面還存在不足。
2、現(xiàn)有的多模態(tài)數(shù)據(jù)處理方法通常采用直接地獨(dú)立處理各原始模態(tài)數(shù)據(jù),并在網(wǎng)絡(luò)模型的高層對(duì)獨(dú)立處理后的多模態(tài)數(shù)據(jù)進(jìn)行簡(jiǎn)單融合的方法。例如,在圖像與文本匹配中,圖像數(shù)據(jù)和文本數(shù)據(jù)分別經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練語(yǔ)言模型(如bert語(yǔ)言模型)提取特征,然后將這些特征簡(jiǎn)單拼接或僅通過(guò)全連接層進(jìn)行簡(jiǎn)單的融合。
3、因此,這種方法存在信息融合效率低下,從而導(dǎo)致訓(xùn)練和推理效率低等問(wèn)題。
4、申請(qǐng)內(nèi)容
5、本申請(qǐng)實(shí)施例的主要目的在于提供一種基于統(tǒng)一表征模型的數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì),旨在解決相關(guān)技術(shù)中的多模態(tài)學(xué)習(xí)方法在實(shí)際應(yīng)用中存在的信息融合效率低下、導(dǎo)致訓(xùn)練和推理效率低、泛化能力和適應(yīng)不同任務(wù)的能力方面表現(xiàn)不足等問(wèn)題中的至少一個(gè)問(wèn)題。
6、第一方面,本申請(qǐng)實(shí)施例提供一種基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法,所述方法包括:獲取多模態(tài)特征數(shù)據(jù);在第一基于注意力的融合層,將所述多模態(tài)特征數(shù)據(jù)分別轉(zhuǎn)化為查詢向量、鍵向量和值向量;計(jì)算所述查詢向量和所述鍵向量之間的第一注意力權(quán)重;基于所述第一注意力權(quán)重對(duì)所述值向量進(jìn)行加權(quán)處理,獲取加權(quán)后的值向量;將所述加權(quán)后的值向量與所述查詢向量進(jìn)行初始融合,獲取初始融合特征數(shù)據(jù);在全連接融合層,對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù);在第二基于注意力的融合層,計(jì)算出所述二次融合特征數(shù)據(jù)與所述初始融合特征數(shù)據(jù)之間的相似度;基于所述相似度生成第二注意力權(quán)重;基于所述第二注意力權(quán)重對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行加權(quán),獲取加權(quán)后的初始融合特征數(shù)據(jù);以及將所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)融合,以生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。
7、可選的,所述獲取多模態(tài)特征數(shù)據(jù),包括:獲取預(yù)處理后的多模態(tài)數(shù)據(jù),其中,所述預(yù)處理后的多模態(tài)數(shù)據(jù)包括第一模態(tài)數(shù)據(jù)、第二模態(tài)數(shù)據(jù)以及第三模態(tài)數(shù)據(jù);以及基于不同的特征提取模型,分別對(duì)所述第一模態(tài)數(shù)據(jù)、所述第二模態(tài)數(shù)據(jù)以及所述第三模態(tài)數(shù)據(jù)進(jìn)行特征提取,獲取所述多模態(tài)特征數(shù)據(jù)。
8、可選的,所述預(yù)處理包括:對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行對(duì)齊處理,以確保同一場(chǎng)景下的所述第一模態(tài)數(shù)據(jù)、所述第二模態(tài)數(shù)據(jù)以及所述第三模態(tài)數(shù)據(jù)彼此對(duì)應(yīng);以及對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以消除所述多模態(tài)數(shù)據(jù)之間的差異。
9、可選的,所述第一模態(tài)數(shù)據(jù)為圖像數(shù)據(jù),所述第二模態(tài)數(shù)據(jù)為文本數(shù)據(jù),所述第三模態(tài)數(shù)據(jù)為音頻數(shù)據(jù)。
10、可選的,在全連接融合層,對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù),包括:對(duì)所述初始融合特征數(shù)據(jù)中的每個(gè)單模態(tài)特征數(shù)據(jù)進(jìn)行拼接,獲取拼接后的初始融合特征數(shù)據(jù);以及在所述全連接融合層,將拼接后的所述初始融合特征數(shù)據(jù)映射到一個(gè)不同維的表示空間,以形成二次融合特征數(shù)據(jù)。
11、可選的,所述方法通過(guò)將所述多模態(tài)數(shù)據(jù)輸入預(yù)設(shè)統(tǒng)一表征模型,得到所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示,其中,所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層,所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。
12、可選的,所述預(yù)設(shè)統(tǒng)一表征模型通過(guò)以下方式預(yù)先訓(xùn)練得到:獲取訓(xùn)練的多模態(tài)數(shù)據(jù),將所述多模態(tài)數(shù)據(jù)輸入所述統(tǒng)一表征模型,得到多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示;分別計(jì)算所述多模態(tài)數(shù)據(jù)中的單模態(tài)數(shù)據(jù)與所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示中的單模態(tài)數(shù)據(jù)之間的一致性損失值;將所有的所述一致性損失值按特定的權(quán)重系數(shù)加權(quán)求和,獲取聯(lián)合損失值;根據(jù)所述聯(lián)合損失值更新所述統(tǒng)一表征模型的模型參數(shù)值,直至所述聯(lián)合損失值收斂;以及將所述聯(lián)合損失值收斂時(shí)的統(tǒng)一表征模型,作為所述預(yù)設(shè)統(tǒng)一表征模型。
13、第二方面,本申請(qǐng)實(shí)施例提供一種多模態(tài)數(shù)據(jù)處理裝置,具有實(shí)現(xiàn)對(duì)應(yīng)于上述第一方面提供的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法的功能。所述功能可以通過(guò)硬件實(shí)現(xiàn),也可以通過(guò)硬件執(zhí)行相應(yīng)的軟件實(shí)現(xiàn)。硬件或軟件包括一個(gè)或多個(gè)與上述功能相對(duì)應(yīng)的模塊,所述模塊可以是軟件和/或硬件。
14、在一個(gè)實(shí)施方式中,所述多模態(tài)數(shù)據(jù)處理裝置包括:獲取模塊,被配置為獲取多模態(tài)特征數(shù)據(jù);第一融合模塊,被配置為對(duì)所述多模態(tài)特征數(shù)據(jù)進(jìn)行初始融合,獲取初始融合特征數(shù)據(jù);第二融合模塊,被配置為對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù);第三融合模塊,被配置為計(jì)算出所述二次融合特征數(shù)據(jù)與所述初始融合特征數(shù)據(jù)之間的相似度;基于所述相似度生成第二注意力權(quán)重;基于所述第二注意力權(quán)重對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行加權(quán),獲取加權(quán)后的初始融合特征數(shù)據(jù),將所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)進(jìn)行融合;以及表示模塊,被配置為基于所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)的融合,以生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。
15、第三方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法。
16、第四方面,本申請(qǐng)實(shí)施例提供一種計(jì)算設(shè)備,包括存儲(chǔ)器,處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其中,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法。
17、相對(duì)于現(xiàn)有技術(shù)的對(duì)多模態(tài)數(shù)據(jù)直接進(jìn)行特征提取,本申請(qǐng)的實(shí)施例在進(jìn)行特征提取之前,首先對(duì)多模態(tài)數(shù)據(jù)進(jìn)行了預(yù)處理,以確保數(shù)據(jù)的一致性和質(zhì)量。此外,針對(duì)多模態(tài)數(shù)據(jù)的融合,現(xiàn)有技術(shù)采用獨(dú)立處理各模態(tài)數(shù)據(jù)并在高層進(jìn)行簡(jiǎn)單融合的方式,而簡(jiǎn)單的特征拼接或全連接層融合無(wú)法充分捕捉不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)信息,進(jìn)而影響了模型的性能。
18、與之不同的是,本申請(qǐng)實(shí)施例中,首先對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行對(duì)齊和初始融合處理,在此基礎(chǔ)上,再對(duì)經(jīng)過(guò)初始融合處理后的多模態(tài)特征數(shù)據(jù)進(jìn)行多層次融合。由于本申請(qǐng)實(shí)施例是采用跨模態(tài)注意力機(jī)制和多層次融合網(wǎng)絡(luò)結(jié)合的方式對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行融合,而不是現(xiàn)有技術(shù)中的簡(jiǎn)單融合的方式,并且在初始融合特征數(shù)據(jù)的基礎(chǔ)上,通過(guò)將低級(jí)特征和高級(jí)特征進(jìn)行融合,可以獲得高分辨率和語(yǔ)意強(qiáng)的圖文特征,該模型提高了信息融合效率以及信息融合的準(zhǔn)確性和全面性,從而提高了模型在圖文生成應(yīng)用方面的準(zhǔn)確性。
19、綜上所述,本申請(qǐng)實(shí)施例可以充分地利用多模態(tài)數(shù)據(jù)的豐富信息,提高了信息融合效率以及信息融合的準(zhǔn)確性和全面性,從而可以提高模型在ai字幕生成以及圖文生成應(yīng)用中的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1.一種基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法,所述方法包括:
2.如權(quán)利要求1所述的方法,其中,所述獲取多模態(tài)特征數(shù)據(jù),包括:
3.如權(quán)利要求2所述的方法,其中,所述預(yù)處理包括:
4.如權(quán)利要求2所述的方法,其中,所述第一模態(tài)數(shù)據(jù)為圖像數(shù)據(jù),所述第二模態(tài)數(shù)據(jù)為文本數(shù)據(jù),所述第三模態(tài)數(shù)據(jù)為音頻數(shù)據(jù)。
5.如權(quán)利要求1所述的方法,其中,在全連接融合層,對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù),包括:
6.如權(quán)利要求1所述的方法,其中,所述方法通過(guò)將所述多模態(tài)數(shù)據(jù)輸入預(yù)設(shè)統(tǒng)一表征模型,得到所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示,其中,所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層,所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。
7.如權(quán)利要求1所述的方法,其中,所述預(yù)設(shè)統(tǒng)一表征模型通過(guò)以下方式預(yù)先訓(xùn)練得到:
8.一種多模態(tài)數(shù)據(jù)處理裝置,包括:
9.一種計(jì)算設(shè)備,包括存儲(chǔ)器,處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其中,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如權(quán)利要求1-7中任一項(xiàng)所述的方法。