本發(fā)明涉及人工智能視覺處理,特別是涉及視覺語言模型訓(xùn)練方法、設(shè)備、介質(zhì)及計算機程序產(chǎn)品。
背景技術(shù):
1、視覺語言模型(visual?language?model,vlm)通過學(xué)習(xí)圖像與文本之間的關(guān)系在多種視覺和語言任務(wù)上展現(xiàn)了卓越的性能,例如圖像分類、圖像生成、圖像檢索以及自然語言描述圖像等。在視覺語言模型的計算過程中,可以通過自圖像數(shù)據(jù)集中查詢與輸入圖像相似度較高的示例圖像,將輸入圖像、示例圖像及示例圖像的圖像處理結(jié)果生成提示語輸入視覺語言模型,使視覺語言模型能夠無需經(jīng)過重新訓(xùn)練或僅需要極少的微調(diào)就能夠輸出對查詢圖像的圖像處理結(jié)果,則查詢示例圖像的查詢性能決定了視覺語言模型執(zhí)行圖像處理任務(wù)的性能。
2、如何提高視覺語言模型執(zhí)行圖像處理任務(wù)的性能,是本領(lǐng)域技術(shù)人員需要解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供視覺語言模型訓(xùn)練方法、設(shè)備、介質(zhì)及計算機程序產(chǎn)品,用于提高視覺語言模型執(zhí)行圖像處理任務(wù)的性能。
2、為解決上述技術(shù)問題,本發(fā)明提供一種視覺語言模型訓(xùn)練方法,包括:
3、獲取查詢圖像和圖像數(shù)據(jù)集,提取所述圖像數(shù)據(jù)集中示例圖像的全局視覺特征及前景視覺特征,并將同類所述前景視覺特征聚合得到聚合視覺特征;
4、利用視覺語言模型中的視覺提示器提取所述查詢圖像的查詢視覺特征,根據(jù)所述查詢視覺特征按照從所述聚合視覺特征、所述前景視覺特征至所述全局視覺特征的順序進行逐級相似性篩選,得到所述查詢圖像的關(guān)聯(lián)示例圖像;
5、將所述查詢圖像、所述關(guān)聯(lián)示例圖像及關(guān)聯(lián)示例圖像處理結(jié)果輸入所述視覺語言模型,輸出對所述查詢圖像的圖像處理結(jié)果;
6、根據(jù)所述關(guān)聯(lián)示例圖像與所述查詢圖像之間的相似性損失值以及所述圖像處理結(jié)果的處理損失值計算得到模型訓(xùn)練損失值;
7、利用所述模型訓(xùn)練損失值更新所述視覺語言模型的模型參數(shù),直至達到模型訓(xùn)練結(jié)束條件,得到訓(xùn)練后的所述視覺語言模型。
8、一方面,根據(jù)所述查詢視覺特征按照從所述聚合視覺特征、所述前景視覺特征至所述全局視覺特征的順序進行逐級相似性篩選,得到所述查詢圖像的關(guān)聯(lián)示例圖像,包括:
9、將所述查詢視覺特征與各所述聚合視覺特征進行相似性篩選,得到與所述查詢視覺特征關(guān)聯(lián)的候選聚合視覺特征;
10、將所述查詢視覺特征與所述候選聚合視覺特征對應(yīng)的所述前景視覺特征進行相似性篩選,得到與所述查詢視覺特征關(guān)聯(lián)的候選前景視覺特征;
11、將所述查詢視覺特征與所述候選前景視覺特征對應(yīng)的所述全局視覺特征進行相似性篩選,得到與所述查詢視覺特征關(guān)聯(lián)的關(guān)聯(lián)全局視覺特征;
12、以所述關(guān)聯(lián)全局視覺特征對應(yīng)的所述示例圖像為所述關(guān)聯(lián)示例圖像。
13、另一方面,將所述查詢視覺特征與各所述聚合視覺特征進行相似性篩選,得到與所述查詢視覺特征關(guān)聯(lián)的候選聚合視覺特征,包括:
14、分別建立各所述聚合視覺特征與所述查詢視覺特征之間的語義關(guān)聯(lián),計算得到所述聚合視覺特征出現(xiàn)在所述查詢視覺特征的第一可能性值;
15、將所述第一可能性值大于第一閾值的所述聚合視覺特征作為所述候選聚合視覺特征。
16、另一方面,分別建立各所述聚合視覺特征與所述查詢視覺特征之間的語義關(guān)聯(lián),計算得到所述聚合視覺特征出現(xiàn)在所述查詢視覺特征的第一可能性值,包括:
17、采用交叉注意力機制構(gòu)建所述聚合視覺特征與所述查詢視覺特征之間的第一語義關(guān)聯(lián)信息;
18、根據(jù)所述第一語義關(guān)聯(lián)信息和所述圖像數(shù)據(jù)集中所述聚合視覺特征的類型數(shù)目預(yù)測得到所述第一可能性值。
19、另一方面,將所述查詢視覺特征與所述候選聚合視覺特征對應(yīng)的所述前景視覺特征進行相似性篩選,得到與所述查詢視覺特征關(guān)聯(lián)的候選前景視覺特征,包括:
20、根據(jù)所述候選聚合視覺特征對應(yīng)的前景類型標(biāo)簽,查詢得到對應(yīng)的第一候選前景視覺特征;
21、分別建立各所述第一候選前景視覺特征與所述查詢視覺特征之間的語義關(guān)聯(lián),計算得到所述第一候選前景視覺特征出現(xiàn)在所述查詢視覺特征的第二可能性值;
22、將所述第二可能性值大于第二閾值的所述第一候選前景視覺特征作為所述候選前景視覺特征。
23、另一方面,分別建立各所述第一候選前景視覺特征與所述查詢視覺特征之間的語義關(guān)聯(lián),計算得到所述第一候選前景視覺特征出現(xiàn)在所述查詢視覺特征的第二可能性值,包括:
24、采用交叉注意力機制構(gòu)建所述第一候選前景視覺特征與所述查詢視覺特征之間的第二語義關(guān)聯(lián)信息;
25、根據(jù)所述第二語義關(guān)聯(lián)信息和所述圖像數(shù)據(jù)集中所述聚合視覺特征的類型數(shù)目預(yù)測得到所述第二可能性值。
26、另一方面,將所述查詢視覺特征與所述候選前景視覺特征對應(yīng)的所述全局視覺特征進行相似性篩選,得到與所述查詢視覺特征關(guān)聯(lián)的關(guān)聯(lián)全局視覺特征,包括:
27、獲取所述候選前景視覺特征對應(yīng)的所述全局視覺特征,記為第一全局視覺特征;
28、分別建立各所述第一全局視覺特征與所述查詢視覺特征之間的語義關(guān)聯(lián),計算得到各所述第一全局視覺特征與所述查詢視覺特征之間的相似度值;
29、按照所述相似度值從大到小的順序,采用前第一數(shù)量所述第一全局視覺特征作為所述關(guān)聯(lián)全局視覺特征。
30、另一方面,所述關(guān)聯(lián)示例圖像與所述查詢圖像之間的相似性損失值的計算步驟包括:
31、計算所述候選聚合視覺特征與所述查詢圖像的真實標(biāo)簽之間的損失值,作為所述相似性損失值。
32、另一方面,所述關(guān)聯(lián)示例圖像與所述查詢圖像之間的相似性損失值的計算步驟包括:
33、計算所述候選聚合視覺特征與所述查詢圖像的真實標(biāo)簽之間的損失,得到第一相似性損失值;
34、計算所述候選前景視覺特征與所述查詢圖像的真實標(biāo)簽之間的損失,得到第二相似性損失值;
35、計算所述關(guān)聯(lián)全局視覺特征與所述查詢圖像的真實標(biāo)簽之間的損失,得到第三相似性損失值;
36、根據(jù)所述第一相似性損失值、所述第二相似性損失值和所述第三相似性損失值計算得到所述相似性損失值。
37、另一方面,將所述查詢圖像、所述關(guān)聯(lián)示例圖像及關(guān)聯(lián)示例圖像處理結(jié)果輸入所述視覺語言模型,輸出對所述查詢圖像的圖像處理結(jié)果,包括:
38、按照與所述查詢圖像的相似性從大到小,將前第一數(shù)量所述關(guān)聯(lián)示例圖像以及所述關(guān)聯(lián)示例圖像的所述關(guān)聯(lián)示例圖像處理結(jié)果作為正樣本對;
39、按照與所述查詢圖像的相似性從小到大,將前所述第一數(shù)量所述示例圖像以及所述示例圖像的示例圖像處理結(jié)果作為負樣本對;
40、將所述查詢圖像、所述正樣本對和所述負樣本對輸入所述視覺語言模型,得到對所述查詢圖像的基于所述正樣本對的正樣本圖像處理結(jié)果以及對所述查詢圖像的基于所述負樣本對的負樣本圖像處理結(jié)果。
41、另一方面,所述圖像處理結(jié)果的處理損失值的計算步驟為:
42、根據(jù)所述正樣本圖像處理結(jié)果、所述負樣本圖像處理結(jié)果與所述查詢圖像對應(yīng)的標(biāo)簽圖像處理結(jié)果計算對比損失值;
43、以所述對比損失值作為所述處理損失值。
44、為解決上述技術(shù)問題,本發(fā)明還提供一種圖像處理方法,包括:
45、獲取查詢圖像和圖像數(shù)據(jù)集,提取所述圖像數(shù)據(jù)集中示例圖像的全局視覺特征及前景視覺特征,并將同類所述前景視覺特征聚合得到聚合視覺特征;
46、利用視覺語言模型中的視覺提示器提取所述查詢圖像的查詢視覺特征,根據(jù)所述查詢視覺特征按照從所述聚合視覺特征、所述前景視覺特征至所述全局視覺特征的順序進行逐級相似性篩選,得到所述查詢圖像的關(guān)聯(lián)示例圖像;
47、將所述查詢圖像、所述關(guān)聯(lián)示例圖像及關(guān)聯(lián)示例圖像處理結(jié)果輸入所述視覺語言模型,輸出對所述查詢圖像的圖像處理結(jié)果;
48、根據(jù)所述關(guān)聯(lián)示例圖像與所述查詢圖像之間的相似性損失值以及所述圖像處理結(jié)果的處理損失值計算得到模型訓(xùn)練損失值;
49、利用所述模型訓(xùn)練損失值更新所述視覺語言模型的模型參數(shù),直至達到模型訓(xùn)練結(jié)束條件,得到訓(xùn)練后的所述視覺語言模型;
50、將輸入圖像輸入訓(xùn)練后的所述視覺語言模型,以自所述圖像數(shù)據(jù)集查詢得到與所述輸入圖像關(guān)聯(lián)的目標(biāo)示例圖像后,將所述輸入圖像、所述目標(biāo)示例圖像和所述目標(biāo)示例圖像的示例圖像處理結(jié)果生成提示語進行視覺語言計算,得到對所述輸入圖像的圖像處理結(jié)果。
51、為解決上述技術(shù)問題,本發(fā)明還提供一種電子設(shè)備,包括:
52、存儲器,用于存儲計算機程序;
53、處理器,用于執(zhí)行所述計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如上述任意一項所述視覺語言模型訓(xùn)練方法或所述的圖像處理方法的步驟。
54、為解決上述技術(shù)問題,本發(fā)明還提供一種非易失性存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任意一項所述視覺語言模型訓(xùn)練方法或所述的圖像處理方法的步驟。
55、為解決上述技術(shù)問題,本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任意一項所述視覺語言模型訓(xùn)練方法或所述的圖像處理方法的步驟。
56、本發(fā)明提供的視覺語言模型訓(xùn)練方法,有益效果在于將圖像數(shù)據(jù)集中的各示例圖像建立全局視覺特征、前景視覺特征、聚合視覺特征的層級式視覺特征庫,在訓(xùn)練視覺語言模型時,利用視覺語言模型的視覺提示器按照從聚合視覺特征、前景視覺特征至全局視覺特征的順序進行逐級相似性篩選,得到查詢圖像的關(guān)聯(lián)示例圖像,從而既無需將查詢視覺特征與所有示例圖像的全局視覺特征進行對比,提高了獲取關(guān)聯(lián)示例圖像的效率,又能夠通過這種層級關(guān)系使模型理解不同類型特征之間的關(guān)系與差異,提高獲得示例圖像與查詢圖像的接近程度。利用關(guān)聯(lián)示例圖像與查詢圖像之間的相似性損失值以及圖像處理結(jié)果的處理損失值計算得到模型訓(xùn)練損失值來更新視覺感知模型的參數(shù),實現(xiàn)對視覺語言模型的全局優(yōu)化,相較于傳統(tǒng)方案中采用局部模塊適配的方式能夠避免陷入局部最優(yōu),從而進一步提高圖像處理質(zhì)量。
57、本發(fā)明提供的圖像處理方法、電子設(shè)備、非易失性存儲介質(zhì)及計算機程序產(chǎn)品,具有上述有益效果,在此不再贅述。