欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖文生成模型訓練方法、視覺文本圖像生成方法和裝置與流程

文檔序號:40584893發(fā)布日期:2025-01-07 20:24閱讀:10來源:國知局
圖文生成模型訓練方法、視覺文本圖像生成方法和裝置與流程

本公開涉及人工智能,尤其涉及計算機視覺、深度學習、大模型等,可應用于aigc基于人工智能的內(nèi)容生成等場景。


背景技術(shù):

1、視覺文本(visual?text)圖像,又稱為文字圖像,是一種包含文字內(nèi)容的圖像,具有廣泛的應用場景。例如,用戶對于繪制圖書,路牌,海報、廣告等場景具有廣泛的需求。視覺文本圖像的制作,要求在合理繪制圖像背景的基礎(chǔ)上,正確拼寫所要求的文字內(nèi)容,并保持文字的字體,顏色等屬性與圖像的背景和諧。


技術(shù)實現(xiàn)思路

1、本公開提供了圖文生成模型訓練方法、視覺文本圖像生成方法、裝置、設(shè)備以及存儲介質(zhì)。

2、根據(jù)本公開的一方面,提供了一種圖文生成模型訓練方法,用于訓練圖文生成模型,包括:

3、將樣本圖像和指令輸入待訓練的圖文生成模型,由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖;

4、根據(jù)該樣本圖像生成掩碼圖像,利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖,計算總損失函數(shù);

5、基于該總損失函數(shù),對該待訓練的圖文生成模型進行訓練。

6、根據(jù)本公開的另一方面,提供了一種視覺文本圖像生成方法,包括:

7、將指令輸入圖文生成模型,由該圖文生成模型基于該指令生成視覺文本圖像;其中,圖文生成模型采用本公開提供的訓練方法訓練得到。

8、根據(jù)本公開的另一方面,提供了一種圖文生成模型訓練裝置,用于訓練圖文生成模型,包括:

9、第一輸入模塊,用于將樣本圖像和指令輸入待訓練的圖文生成模型,由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖;

10、損失函數(shù)計算模塊,用于根據(jù)該樣本圖像生成掩碼圖像,利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖,計算總損失函數(shù);

11、訓練模塊,用于基于該總損失函數(shù),對該待訓練的圖文生成模型進行訓練。

12、根據(jù)本公開的另一方面,提供了一種視覺文本圖像生成裝置,包括:

13、第二輸入模塊,用于將指令輸入圖文生成模型,由圖文生成模型基于該指令生成視覺文本圖像;其中,圖文生成模型采用本公開提供的訓練裝置訓練得到。

14、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:

15、至少一個處理器;以及

16、與該至少一個處理器通信連接的存儲器;其中,

17、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行本公開實施例中任一的方法。

18、根據(jù)本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,該計算機指令用于使該計算機執(zhí)行根據(jù)本公開實施例中任一的方法。

19、根據(jù)本公開的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開實施例中任一的方法。

20、本公開提出一種圖文生成模型訓練方法,該方法能夠訓練圖文生成模型;并提出利用該圖文生成模型生成視覺文本圖像的方法,在使用該模型在生成視覺文本圖像時,僅需輸入指令(prompt),無需指定視覺文本圖像中文字的具體位置,從而消除了需要精確指定文字位置的限制,同時還增強了圖像生成質(zhì)量。

21、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種圖文生成模型訓練方法,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,所述待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖,包括:

3.根據(jù)權(quán)利要求2所述的方法,其中,所述生成所述指令的第一向量表示,包括:

4.根據(jù)權(quán)利要求3所述的方法,其中,所述從所述指令中提取視覺文本,對所述視覺文本進行字形渲染,包括:

5.根據(jù)權(quán)利要求2-4中任一所述的方法,其中,所述利用所述掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖,計算總損失函數(shù),包括:

6.根據(jù)權(quán)利要求5所述的方法,其中,所述確定多個單項損失函數(shù)還包括:

7.根據(jù)權(quán)利要求5或6所述的方法,其中,所述確定多個單項損失函數(shù)還包括:

8.根據(jù)權(quán)利要求5-7中任一所述的方法,其中,所述利用所述多個單項損失函數(shù)計算所述總損失函數(shù),包括:

9.一種視覺文本圖像生成方法,所述方法包括:

10.一種圖文生成模型訓練裝置,用于訓練圖文生成模型,所述裝置包括:

11.根據(jù)權(quán)利要求10所述的裝置,其中,所述待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖,包括:

12.根據(jù)權(quán)利要求11所述的裝置,其中,所述生成所述指令的第一向量表示,包括:

13.根據(jù)權(quán)利要求12所述的裝置,其中,所述從所述指令中提取視覺文本,對所述視覺文本進行字形渲染,包括:

14.根據(jù)權(quán)利要求11-13中任一所述的裝置,其中,所述損失函數(shù)計算模塊包括:

15.根據(jù)權(quán)利要求14所述的裝置,其中,所述單項損失函數(shù)確定模塊還用于:

16.根據(jù)權(quán)利要求14或15所述的裝置,其中,所述單項損失函數(shù)確定模塊還用于:

17.根據(jù)權(quán)利要求14-16中任一所述的裝置,其中,所述總損失函數(shù)確定模塊用于,計算所述多個單項損失函數(shù)的加權(quán)和,以得到所述總損失函數(shù);

18.一種視覺文本圖像生成裝置,所述裝置包括:

19.一種電子設(shè)備,包括:

20.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-9中任一項所述的方法。

21.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-9中任一項所述的方法。


技術(shù)總結(jié)
本公開提供了一種圖文生成模型訓練方法、視覺文本圖像生成方法和裝置,涉及人工智能技術(shù)領(lǐng)域,尤其涉及計算機視覺、深度學習、大模型等技術(shù)領(lǐng)域,可應用于AIGC基于人工智能的內(nèi)容生成等場景。其中,圖文生成模型訓練方法包括:將樣本圖像和指令輸入待訓練的圖文生成模型,由該待訓練的圖文生成模型生成預測噪聲、預測圖像和加噪圖像的注意力圖;根據(jù)該樣本圖像生成掩碼圖像,利用該掩碼圖像、預測圖像、預測噪聲和加噪圖像的注意力圖,計算總損失函數(shù);基于該總損失函數(shù),對該待訓練的圖文生成模型進行訓練。

技術(shù)研發(fā)人員:李文博,李國豪,劉家辰,肖欣延
受保護的技術(shù)使用者:北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇信县| 海南省| 会东县| 西华县| 黄山市| 柳江县| 汾西县| 潜江市| 定陶县| 故城县| 株洲市| 铜川市| 麻城市| 呼和浩特市| 湘潭县| 安仁县| 荥阳市| 瓦房店市| 孙吴县| 彰化县| 丰城市| 进贤县| 涿鹿县| 喀什市| 徐闻县| 新巴尔虎右旗| 苗栗县| 阿坝| 信丰县| 开江县| 鄄城县| 汝州市| 磐安县| 霍邱县| 海南省| 兴和县| 鹤峰县| 司法| 万州区| 鄂托克旗| 逊克县|