圖像數(shù)據(jù)生成方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40575768發(fā)布日期：2025-01-07 20:15閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

圖像數(shù)據(jù)生成方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)與流程

本公開(kāi)涉及圖像處理，尤其涉及一種圖像數(shù)據(jù)生成方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、在文本到圖像生成領(lǐng)域，穩(wěn)定擴(kuò)散模型的進(jìn)展推動(dòng)了圖像生成結(jié)果的多樣性和保真度，然而，現(xiàn)有模型在處理復(fù)雜的自然場(chǎng)景時(shí)由于多主體圖像在生成過(guò)程中存在對(duì)齊錯(cuò)誤、空間關(guān)系理解不足、以及語(yǔ)義信息失效等情況，降低了文本到圖像生成的高保真度和語(yǔ)義一致性，當(dāng)前的現(xiàn)有技術(shù)中，常規(guī)可以通過(guò)用戶指導(dǎo)提升生成圖像對(duì)于多主體布局結(jié)果的可控性，但這要求用戶必須手動(dòng)提供指導(dǎo)信息，從而降低了圖像數(shù)據(jù)生成技術(shù)的智能化程度。

2、由此可見(jiàn)，現(xiàn)有技術(shù)中存在由于多主體圖像生成過(guò)程中的對(duì)齊錯(cuò)誤、空間關(guān)系理解不足、以及布局結(jié)果的準(zhǔn)確性低導(dǎo)致多主體圖像生成的保真度低和多主體布局的精準(zhǔn)性低的問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本公開(kāi)實(shí)施例提供了一種圖像數(shù)據(jù)生成方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)，以解決現(xiàn)有技術(shù)中由于多主體圖像生成過(guò)程中的對(duì)齊錯(cuò)誤、空間關(guān)系理解不足、以及布局結(jié)果的準(zhǔn)確性低導(dǎo)致多主體圖像生成的保真度低和多主體布局的精準(zhǔn)性低的問(wèn)題。

2、本公開(kāi)實(shí)施例的第一方面，提供了一種圖像數(shù)據(jù)生成方法，包括：獲取待處理文本數(shù)據(jù)，待處理文本數(shù)據(jù)包括至少一個(gè)對(duì)象數(shù)據(jù)；將待處理文本數(shù)據(jù)輸入至訓(xùn)練完成的大語(yǔ)言模型對(duì)待處理文本數(shù)據(jù)進(jìn)行處理，得到各個(gè)對(duì)象數(shù)據(jù)對(duì)應(yīng)的布局信息數(shù)據(jù)，大語(yǔ)言模型是基于待訓(xùn)練文本數(shù)據(jù)、各個(gè)待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的真實(shí)布局信息數(shù)據(jù)、以及預(yù)設(shè)的低秩矩陣調(diào)整參數(shù)進(jìn)行訓(xùn)練得到的；根據(jù)各個(gè)對(duì)象數(shù)據(jù)對(duì)應(yīng)的布局信息數(shù)據(jù)，確定布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量；對(duì)布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量進(jìn)行層級(jí)映射處理，得到待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合；將待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合輸入至訓(xùn)練完成的擴(kuò)散模型進(jìn)行處理，得到包含至少一個(gè)對(duì)象的目標(biāo)圖像數(shù)據(jù)，擴(kuò)散模型是基于大語(yǔ)言模型、待訓(xùn)練文本數(shù)據(jù)、各個(gè)待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的參考圖像數(shù)據(jù)、以及各個(gè)待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽進(jìn)行訓(xùn)練得到的。

3、本公開(kāi)實(shí)施例的第二方面，提供了一種圖像數(shù)據(jù)生成裝置，包括：獲取模塊，用于獲取待處理文本數(shù)據(jù)，待處理文本數(shù)據(jù)包括至少一個(gè)對(duì)象數(shù)據(jù)；第一處理模塊，用于將待處理文本數(shù)據(jù)輸入至訓(xùn)練完成的大語(yǔ)言模型對(duì)待處理文本數(shù)據(jù)進(jìn)行處理，得到各個(gè)對(duì)象數(shù)據(jù)對(duì)應(yīng)的布局信息數(shù)據(jù)，大語(yǔ)言模型是基于待訓(xùn)練文本數(shù)據(jù)、各個(gè)待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的真實(shí)布局信息數(shù)據(jù)、以及預(yù)設(shè)的低秩矩陣調(diào)整參數(shù)進(jìn)行訓(xùn)練得到的；確定模塊，用于根據(jù)各個(gè)對(duì)象數(shù)據(jù)對(duì)應(yīng)的布局信息數(shù)據(jù)，確定布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量；第二處理模塊，用于對(duì)布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量進(jìn)行層級(jí)映射處理，得到待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合；第三處理模塊，用于將待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合輸入至訓(xùn)練完成的擴(kuò)散模型進(jìn)行處理，得到包含至少一個(gè)對(duì)象的目標(biāo)圖像數(shù)據(jù)，擴(kuò)散模型是基于待訓(xùn)練文本數(shù)據(jù)、各個(gè)待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的參考圖像數(shù)據(jù)、以及各個(gè)待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽進(jìn)行訓(xùn)練得到的。

4、本公開(kāi)實(shí)施例的第三方面，提供了一種電子設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并且可在處理器上運(yùn)行的計(jì)算機(jī)程序，該處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法的步驟。

5、本公開(kāi)實(shí)施例的第四方面，提供了一種可讀存儲(chǔ)介質(zhì)，該可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

6、本公開(kāi)實(shí)施例與現(xiàn)有技術(shù)相比存在的有益效果是：通過(guò)對(duì)包含至少一個(gè)對(duì)象數(shù)據(jù)的待處理文本數(shù)據(jù)進(jìn)行獲取，并將獲取到的待處理文本數(shù)據(jù)通過(guò)低秩矩陣調(diào)整方法進(jìn)行訓(xùn)練過(guò)的大語(yǔ)言模型中進(jìn)行處理，得到待處理文本數(shù)據(jù)中各個(gè)對(duì)象數(shù)據(jù)的布局信息數(shù)據(jù)，并可以對(duì)待處理文本數(shù)據(jù)中各個(gè)對(duì)象數(shù)據(jù)的布局信息數(shù)據(jù)進(jìn)行特征融合處理，得到布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量，進(jìn)而可以通過(guò)多層感知機(jī)對(duì)布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量進(jìn)行層級(jí)映射處理，得到待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合，通過(guò)訓(xùn)練完成的擴(kuò)散模型，對(duì)待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合進(jìn)行處理，得到包含至少一個(gè)對(duì)象的目標(biāo)圖像數(shù)據(jù)，以此提升了多主體圖像生成過(guò)程中的保真度，提高了多主體布局的精確性，提高了圖像數(shù)據(jù)生成的效率和準(zhǔn)確性，保證了圖像數(shù)據(jù)的質(zhì)量和真實(shí)性，增強(qiáng)了對(duì)復(fù)雜布局信息和多個(gè)對(duì)象信息的理解程度。

技術(shù)特征：

1.一種圖像數(shù)據(jù)生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的圖像數(shù)據(jù)生成方法，其特征在于，所述對(duì)象數(shù)據(jù)對(duì)應(yīng)的布局信息數(shù)據(jù)包括所述對(duì)象數(shù)據(jù)對(duì)應(yīng)的坐標(biāo)點(diǎn)數(shù)據(jù)、所述對(duì)象數(shù)據(jù)對(duì)應(yīng)的分類(lèi)標(biāo)簽數(shù)據(jù)、以及所述對(duì)象數(shù)據(jù)對(duì)應(yīng)的屬性數(shù)據(jù)；

3.根據(jù)權(quán)利要求1所述的圖像數(shù)據(jù)生成方法，其特征在于，所述擴(kuò)散模型包括分割模型；

4.根據(jù)權(quán)利要求3所述的圖像數(shù)據(jù)生成方法，其特征在于，在所述將各個(gè)所述待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的噪聲圖像數(shù)據(jù)輸入至所述擴(kuò)散模型進(jìn)行處理，得到各個(gè)所述待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的訓(xùn)練圖像數(shù)據(jù)之前，還包括：

5.根據(jù)權(quán)利要求1所述的圖像數(shù)據(jù)生成方法，其特征在于，在所述獲取待處理文本數(shù)據(jù)之前，還包括：

6.根據(jù)權(quán)利要求4所述的圖像數(shù)據(jù)生成方法，其特征在于，所述根據(jù)各個(gè)所述對(duì)象訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的分類(lèi)標(biāo)簽數(shù)據(jù)和各個(gè)所述對(duì)象訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的視覺(jué)訓(xùn)練向量，確定各個(gè)所述待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的交叉注意力圖像向量，包括：

7.根據(jù)權(quán)利要求4所述的圖像數(shù)據(jù)生成方法，其特征在于，所述將各個(gè)所述待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的噪聲圖像數(shù)據(jù)輸入至所述分割模型進(jìn)行自注意力處理，得到各個(gè)所述待訓(xùn)練文本數(shù)據(jù)對(duì)應(yīng)的自注意力向量，包括：

8.一種圖像數(shù)據(jù)生成裝置，其特征在于，包括：

9.一種電子設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并且可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

10.一種可讀存儲(chǔ)介質(zhì)，所述可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

技術(shù)總結(jié)
本公開(kāi)涉及圖像處理技術(shù)領(lǐng)域，提供了一種圖像數(shù)據(jù)生成方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)。該方法包括：獲取待處理文本數(shù)據(jù)，待處理文本數(shù)據(jù)包括至少一個(gè)對(duì)象數(shù)據(jù)；將待處理文本數(shù)據(jù)輸入至訓(xùn)練完成的大語(yǔ)言模型對(duì)待處理文本數(shù)據(jù)進(jìn)行處理，得到各個(gè)對(duì)象數(shù)據(jù)對(duì)應(yīng)的布局信息數(shù)據(jù)；根據(jù)各個(gè)對(duì)象數(shù)據(jù)對(duì)應(yīng)的布局信息數(shù)據(jù)，確定布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量；對(duì)布局信息數(shù)據(jù)對(duì)應(yīng)的融合特征向量進(jìn)行層級(jí)映射處理，得到待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合；將待處理文本數(shù)據(jù)對(duì)應(yīng)的布局特征向量集合輸入至訓(xùn)練完成的擴(kuò)散模型進(jìn)行處理，得到包含至少一個(gè)對(duì)象的目標(biāo)圖像數(shù)據(jù)，以此提升了多主體圖像生成過(guò)程中的保真度，提高了多主體布局的精確性。

技術(shù)研發(fā)人員：石雅潔
受保護(hù)的技術(shù)使用者：北京龍智數(shù)科科技服務(wù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：石雅潔
技術(shù)所有人：北京龍智數(shù)科科技服務(wù)有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種生物有機(jī)肥生產(chǎn)裝置的制作方法
上一篇：一種防割特種勞保鞋的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖像數(shù)據(jù)生成方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)與流程

圖像數(shù)據(jù)生成方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)與流程