本公開涉及人工智能,尤其涉及計算機視覺、深度學習、大模型等,可應用于aigc基于人工智能的內(nèi)容生成等場景。
背景技術(shù):
1、視覺文本(visual?text)圖像,又稱為文字圖像,是一種包含文字內(nèi)容的圖像,具有廣泛的應用場景。例如,用戶對于繪制圖書,路牌,海報、廣告等場景具有廣泛的需求。視覺文本圖像的制作,要求在合理繪制圖像背景的基礎(chǔ)上,正確拼寫所要求的文字內(nèi)容,并保持文字的字體,顏色等屬性與圖像的背景和諧。
技術(shù)實現(xiàn)思路
1、本公開提供了圖文生成模型訓練方法、視覺文本圖像生成方法、裝置、設(shè)備以及存儲介質(zhì)。
2、根據(jù)本公開的一方面,提供了一種圖文生成模型訓練方法,用于訓練圖文生成模型,包括:
3、將樣本圖像和指令輸入待訓練的圖文生成模型,由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖;
4、根據(jù)該樣本圖像生成掩碼圖像,利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖,計算總損失函數(shù);
5、基于該總損失函數(shù),對該待訓練的圖文生成模型進行訓練。
6、根據(jù)本公開的另一方面,提供了一種視覺文本圖像生成方法,包括:
7、將指令輸入圖文生成模型,由該圖文生成模型基于該指令生成視覺文本圖像;其中,圖文生成模型采用本公開提供的訓練方法訓練得到。
8、根據(jù)本公開的另一方面,提供了一種圖文生成模型訓練裝置,用于訓練圖文生成模型,包括:
9、第一輸入模塊,用于將樣本圖像和指令輸入待訓練的圖文生成模型,由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖;
10、損失函數(shù)計算模塊,用于根據(jù)該樣本圖像生成掩碼圖像,利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖,計算總損失函數(shù);
11、訓練模塊,用于基于該總損失函數(shù),對該待訓練的圖文生成模型進行訓練。
12、根據(jù)本公開的另一方面,提供了一種視覺文本圖像生成裝置,包括:
13、第二輸入模塊,用于將指令輸入圖文生成模型,由圖文生成模型基于該指令生成視覺文本圖像;其中,圖文生成模型采用本公開提供的訓練裝置訓練得到。
14、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:
15、至少一個處理器;以及
16、與該至少一個處理器通信連接的存儲器;其中,
17、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行本公開實施例中任一的方法。
18、根據(jù)本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,該計算機指令用于使該計算機執(zhí)行根據(jù)本公開實施例中任一的方法。
19、根據(jù)本公開的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開實施例中任一的方法。
20、本公開提出一種圖文生成模型訓練方法,該方法能夠訓練圖文生成模型;并提出利用該圖文生成模型生成視覺文本圖像的方法,在使用該模型在生成視覺文本圖像時,僅需輸入指令(prompt),無需指定視覺文本圖像中文字的具體位置,從而消除了需要精確指定文字位置的限制,同時還增強了圖像生成質(zhì)量。
21、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種圖文生成模型訓練方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述生成所述指令的第一向量表示,包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述從所述指令中提取視覺文本,對所述視覺文本進行字形渲染,包括:
5.根據(jù)權(quán)利要求2-4中任一所述的方法,其中,所述利用所述掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖,計算總損失函數(shù),包括:
6.根據(jù)權(quán)利要求5所述的方法,其中,所述確定多個單項損失函數(shù)還包括:
7.根據(jù)權(quán)利要求5或6所述的方法,其中,所述確定多個單項損失函數(shù)還包括:
8.根據(jù)權(quán)利要求5-7中任一所述的方法,其中,所述利用所述多個單項損失函數(shù)計算所述總損失函數(shù),包括:
9.一種視覺文本圖像生成方法,所述方法包括:
10.一種圖文生成模型訓練裝置,用于訓練圖文生成模型,所述裝置包括:
11.根據(jù)權(quán)利要求10所述的裝置,其中,所述待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖,包括:
12.根據(jù)權(quán)利要求11所述的裝置,其中,所述生成所述指令的第一向量表示,包括:
13.根據(jù)權(quán)利要求12所述的裝置,其中,所述從所述指令中提取視覺文本,對所述視覺文本進行字形渲染,包括:
14.根據(jù)權(quán)利要求11-13中任一所述的裝置,其中,所述損失函數(shù)計算模塊包括:
15.根據(jù)權(quán)利要求14所述的裝置,其中,所述單項損失函數(shù)確定模塊還用于:
16.根據(jù)權(quán)利要求14或15所述的裝置,其中,所述單項損失函數(shù)確定模塊還用于:
17.根據(jù)權(quán)利要求14-16中任一所述的裝置,其中,所述總損失函數(shù)確定模塊用于,計算所述多個單項損失函數(shù)的加權(quán)和,以得到所述總損失函數(shù);
18.一種視覺文本圖像生成裝置,所述裝置包括:
19.一種電子設(shè)備,包括:
20.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-9中任一項所述的方法。
21.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-9中任一項所述的方法。