圖文生成模型訓練方法、視覺文本圖像生成方法和裝置與流程

文檔序號：40584893發(fā)布日期：2025-01-07 20:24閱讀：10來源：國知局

本公開涉及人工智能，尤其涉及計算機視覺、深度學習、大模型等，可應用于aigc基于人工智能的內(nèi)容生成等場景。

背景技術(shù)：

1、視覺文本(visual?text)圖像，又稱為文字圖像，是一種包含文字內(nèi)容的圖像，具有廣泛的應用場景。例如，用戶對于繪制圖書，路牌，海報、廣告等場景具有廣泛的需求。視覺文本圖像的制作，要求在合理繪制圖像背景的基礎(chǔ)上，正確拼寫所要求的文字內(nèi)容，并保持文字的字體，顏色等屬性與圖像的背景和諧。

技術(shù)實現(xiàn)思路

1、本公開提供了圖文生成模型訓練方法、視覺文本圖像生成方法、裝置、設(shè)備以及存儲介質(zhì)。

2、根據(jù)本公開的一方面，提供了一種圖文生成模型訓練方法，用于訓練圖文生成模型，包括：

3、將樣本圖像和指令輸入待訓練的圖文生成模型，由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖；

4、根據(jù)該樣本圖像生成掩碼圖像，利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖，計算總損失函數(shù)；

5、基于該總損失函數(shù)，對該待訓練的圖文生成模型進行訓練。

6、根據(jù)本公開的另一方面，提供了一種視覺文本圖像生成方法，包括：

7、將指令輸入圖文生成模型，由該圖文生成模型基于該指令生成視覺文本圖像；其中，圖文生成模型采用本公開提供的訓練方法訓練得到。

8、根據(jù)本公開的另一方面，提供了一種圖文生成模型訓練裝置，用于訓練圖文生成模型，包括：

9、第一輸入模塊，用于將樣本圖像和指令輸入待訓練的圖文生成模型，由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖；

10、損失函數(shù)計算模塊，用于根據(jù)該樣本圖像生成掩碼圖像，利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖，計算總損失函數(shù)；

11、訓練模塊，用于基于該總損失函數(shù)，對該待訓練的圖文生成模型進行訓練。

12、根據(jù)本公開的另一方面，提供了一種視覺文本圖像生成裝置，包括：

13、第二輸入模塊，用于將指令輸入圖文生成模型，由圖文生成模型基于該指令生成視覺文本圖像；其中，圖文生成模型采用本公開提供的訓練裝置訓練得到。

14、根據(jù)本公開的另一方面，提供了一種電子設(shè)備，包括：

15、至少一個處理器；以及

16、與該至少一個處理器通信連接的存儲器；其中，

17、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令，該指令被該至少一個處理器執(zhí)行，以使該至少一個處理器能夠執(zhí)行本公開實施例中任一的方法。

18、根據(jù)本公開的另一方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì)，其中，該計算機指令用于使該計算機執(zhí)行根據(jù)本公開實施例中任一的方法。

19、根據(jù)本公開的另一方面，提供了一種計算機程序產(chǎn)品，包括計算機程序，該計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開實施例中任一的方法。

20、本公開提出一種圖文生成模型訓練方法，該方法能夠訓練圖文生成模型；并提出利用該圖文生成模型生成視覺文本圖像的方法，在使用該模型在生成視覺文本圖像時，僅需輸入指令(prompt)，無需指定視覺文本圖像中文字的具體位置，從而消除了需要精確指定文字位置的限制，同時還增強了圖像生成質(zhì)量。

21、應當理解，本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種圖文生成模型訓練方法，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖，包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述生成所述指令的第一向量表示，包括：

4.根據(jù)權(quán)利要求3所述的方法，其中，所述從所述指令中提取視覺文本，對所述視覺文本進行字形渲染，包括：

5.根據(jù)權(quán)利要求2-4中任一所述的方法，其中，所述利用所述掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖，計算總損失函數(shù)，包括：

6.根據(jù)權(quán)利要求5所述的方法，其中，所述確定多個單項損失函數(shù)還包括：

7.根據(jù)權(quán)利要求5或6所述的方法，其中，所述確定多個單項損失函數(shù)還包括：

8.根據(jù)權(quán)利要求5-7中任一所述的方法，其中，所述利用所述多個單項損失函數(shù)計算所述總損失函數(shù)，包括：

9.一種視覺文本圖像生成方法，所述方法包括：

10.一種圖文生成模型訓練裝置，用于訓練圖文生成模型，所述裝置包括：

11.根據(jù)權(quán)利要求10所述的裝置，其中，所述待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖，包括：

12.根據(jù)權(quán)利要求11所述的裝置，其中，所述生成所述指令的第一向量表示，包括：

13.根據(jù)權(quán)利要求12所述的裝置，其中，所述從所述指令中提取視覺文本，對所述視覺文本進行字形渲染，包括：

14.根據(jù)權(quán)利要求11-13中任一所述的裝置，其中，所述損失函數(shù)計算模塊包括：

15.根據(jù)權(quán)利要求14所述的裝置，其中，所述單項損失函數(shù)確定模塊還用于：

16.根據(jù)權(quán)利要求14或15所述的裝置，其中，所述單項損失函數(shù)確定模塊還用于：

17.根據(jù)權(quán)利要求14-16中任一所述的裝置，其中，所述總損失函數(shù)確定模塊用于，計算所述多個單項損失函數(shù)的加權(quán)和，以得到所述總損失函數(shù)；

18.一種視覺文本圖像生成裝置，所述裝置包括：

19.一種電子設(shè)備，包括：

20.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì)，其中，所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-9中任一項所述的方法。

21.一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-9中任一項所述的方法。

技術(shù)總結(jié)
本公開提供了一種圖文生成模型訓練方法、視覺文本圖像生成方法和裝置，涉及人工智能技術(shù)領(lǐng)域，尤其涉及計算機視覺、深度學習、大模型等技術(shù)領(lǐng)域，可應用于AIGC基于人工智能的內(nèi)容生成等場景。其中，圖文生成模型訓練方法包括：將樣本圖像和指令輸入待訓練的圖文生成模型，由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖；根據(jù)該樣本圖像生成掩碼圖像，利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖，計算總損失函數(shù)；基于該總損失函數(shù)，對該待訓練的圖文生成模型進行訓練。

技術(shù)研發(fā)人員：李文博,李國豪,劉家辰,肖欣延
受保護的技術(shù)使用者：北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李文博,李國豪,劉家辰,肖欣延
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖文生成模型訓練方法、視覺文本圖像生成方法和裝置與流程

圖文生成模型訓練方法、視覺文本圖像生成方法和裝置與流程