視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40522139發(fā)布日期：2024-12-31 13:31閱讀：12來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及人工智能，尤其涉及一種視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、文生圖模型可以根據(jù)用戶(hù)輸入的文本(或稱(chēng)為文本提示詞)直接生成具有文本所描述概念的圖像。但是有些時(shí)候，用戶(hù)想要強(qiáng)調(diào)文本提示詞中某一句段的內(nèi)容，以便讓模型的生成結(jié)果更偏向強(qiáng)調(diào)部分，這種強(qiáng)調(diào)作用等價(jià)于將模型對(duì)文本的注意力轉(zhuǎn)移到所強(qiáng)調(diào)部分之上。

2、相關(guān)技術(shù)中有兩種方法可以達(dá)到上述目的，第一種是通過(guò)微調(diào)來(lái)改變模型本身對(duì)特定概念的理解，另一種是通過(guò)提示詞工程來(lái)重新編排文本提示詞來(lái)隱式地調(diào)整文本提示詞的編碼結(jié)果。然而，第一種方法需要額外的訓(xùn)練和微調(diào)，導(dǎo)致消耗大量時(shí)間和資源，第二種方法需要擾亂原本的文本提示詞的順序和結(jié)構(gòu)，導(dǎo)致文本失意，且這兩種辦法都無(wú)法有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。

技術(shù)實(shí)現(xiàn)思路

1、為解決或部分解決相關(guān)技術(shù)中存在的問(wèn)題，本技術(shù)提供一種視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，既無(wú)需任何額外的訓(xùn)練和微調(diào)，節(jié)省大量時(shí)間和資源，也無(wú)需擾亂原本的文本提示詞的順序和結(jié)構(gòu)，避免文本失意，且能夠有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。

2、本技術(shù)第一方面提供一種視覺(jué)數(shù)據(jù)生成方法，包括：

3、獲取文本提示詞；其中，所述文本提示詞包括多個(gè)句段，各個(gè)句段具有預(yù)先分配的注意力權(quán)重；

4、將所述文本提示詞編碼為初始文本嵌入向量；

5、根據(jù)所述各個(gè)句段的注意力權(quán)重，對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理，得到目標(biāo)文本嵌入向量；

6、基于所述目標(biāo)文本嵌入向量，生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。在一實(shí)施方式中，在所述將所述文本提示詞編碼為初始文本嵌入向量之前，所述方法還包括：

7、對(duì)所述文本提示詞中的各個(gè)句段按順序進(jìn)行詞元?jiǎng)澐郑玫蕉鄠€(gè)詞元；

8、所述初始文本嵌入向量包括各個(gè)詞元的初始詞元嵌入向量；所述將所述文本提示詞編碼為初始文本嵌入向量，包括：

9、對(duì)各個(gè)詞元進(jìn)行編碼處理，得到所述各個(gè)詞元的初始詞元嵌入向量。

10、在一實(shí)施方式中，所述目標(biāo)文本嵌入向量包括各個(gè)詞元的目標(biāo)詞元嵌入向量；所述根據(jù)所述各個(gè)句段的注意力權(quán)重，對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理，得到目標(biāo)文本嵌入向量，包括：

11、根據(jù)所述各個(gè)句段的注意力權(quán)重，對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理，得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

12、在一實(shí)施方式中，所述根據(jù)所述各個(gè)句段的注意力權(quán)重，對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理，得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量，包括：

13、根據(jù)所述各個(gè)詞元的初始詞元嵌入向量的值與對(duì)應(yīng)句段的注意力權(quán)重，計(jì)算得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

14、在一實(shí)施方式中，所述基于所述目標(biāo)文本嵌入向量，生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)，包括：

15、獲取預(yù)設(shè)噪聲；

16、將所述各個(gè)詞元的目標(biāo)詞元嵌入向量與所述預(yù)設(shè)噪聲進(jìn)行特征融合，得到所述各個(gè)詞元的詞元融合特征；

17、基于所述各個(gè)詞元的詞元融合特征，生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。

18、在一實(shí)施方式中，所述獲取文本提示詞，包括：

19、獲取用戶(hù)的輸入數(shù)據(jù)；

20、根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞。

21、在一實(shí)施方式中，所述根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞，包括：

22、根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到初始文本提示詞；

23、對(duì)所述初始文本提示詞進(jìn)行句段劃分，并確定各個(gè)句段的注意力權(quán)重，得到包括多個(gè)句段以及各個(gè)句段的注意力權(quán)重的文本提示詞。

24、本技術(shù)第二方面提供一種視覺(jué)數(shù)據(jù)生成裝置，包括：

25、文本提示詞獲取模塊，用于獲取文本提示詞；其中，所述文本提示詞包括多個(gè)句段，各個(gè)句段具有預(yù)先分配的注意力權(quán)重；

26、編碼處理模塊，用于將所述文本提示詞編碼為初始文本嵌入向量；

27、加權(quán)處理模塊，用于根據(jù)所述各個(gè)句段的注意力權(quán)重，對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理，得到目標(biāo)文本嵌入向量；

28、視覺(jué)數(shù)據(jù)生成模塊，用于基于所述目標(biāo)文本嵌入向量，生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。

29、在一實(shí)施方式中，在所述將所述文本提示詞編碼為初始文本嵌入向量之前，所述裝置還包括：

30、詞元?jiǎng)澐帜K，用于對(duì)文本提示詞中的各個(gè)句段按順序進(jìn)行詞元?jiǎng)澐?，得到多個(gè)詞元；

31、所述初始文本嵌入向量包括各個(gè)詞元的初始詞元嵌入向量；所述編碼處理模塊包括：

32、編碼處理子模塊，用于對(duì)各個(gè)詞元進(jìn)行編碼處理，得到所述各個(gè)詞元的初始詞元嵌入向量。

33、在一實(shí)施方式中，所述目標(biāo)文本嵌入向量包括各個(gè)詞元的目標(biāo)詞元嵌入向量；所述加權(quán)處理模塊包括：

34、加權(quán)處理子模塊，用于根據(jù)所述各個(gè)句段的注意力權(quán)重，對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理，得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

35、在一實(shí)施方式中，加權(quán)處理子模塊包括：

36、加權(quán)處理單元，用于根據(jù)所述各個(gè)詞元的初始詞元嵌入向量的值與對(duì)應(yīng)句段的注意力權(quán)重，計(jì)算得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

37、在一實(shí)施方式中，視覺(jué)數(shù)據(jù)生成模塊包括：

38、預(yù)設(shè)噪聲獲取子模塊，用于獲取預(yù)設(shè)噪聲；

39、特征融合子模塊，用于將所述各個(gè)詞元的目標(biāo)詞元嵌入向量與所述預(yù)設(shè)噪聲進(jìn)行特征融合，得到所述各個(gè)詞元的詞元融合特征；

40、視覺(jué)數(shù)據(jù)生成子模塊，用于基于所述各個(gè)詞元的詞元融合特征，生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。

41、在一實(shí)施方式中，文本提示詞獲取模塊包括：

42、輸入數(shù)據(jù)獲取子模塊，用于獲取用戶(hù)的輸入數(shù)據(jù)；

43、輸入數(shù)據(jù)處理子模塊，用于根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞。

44、在一實(shí)施方式中，輸入數(shù)據(jù)處理子模塊包括：

45、輸入數(shù)據(jù)處理單元，用于根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到初始文本提示詞；

46、初始文本提示詞處理單元，用于對(duì)所述初始文本提示詞進(jìn)行句段劃分，并確定各個(gè)句段的注意力權(quán)重，得到包括多個(gè)句段以及各個(gè)句段的注意力權(quán)重的文本提示詞。

47、本技術(shù)第三方面提供一種電子設(shè)備，包括：

48、處理器；以及

49、存儲(chǔ)器，其上存儲(chǔ)有可執(zhí)行代碼，當(dāng)所述可執(zhí)行代碼被所述處理器執(zhí)行時(shí)，使所述處理器執(zhí)行如上所述的方法。

50、本技術(shù)第四方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有可執(zhí)行代碼，當(dāng)所述可執(zhí)行代碼被電子設(shè)備的處理器執(zhí)行時(shí)，使所述處理器執(zhí)行如上所述的方法。

51、本技術(shù)提供的技術(shù)方案可以包括以下有益效果：

52、本技術(shù)提供的方案，獲取文本提示詞；其中，文本提示詞包括多個(gè)句段，各個(gè)句段具有預(yù)先分配的注意力權(quán)重；將文本提示詞編碼為初始文本嵌入向量；根據(jù)各個(gè)句段的注意力權(quán)重，對(duì)初始文本嵌入向量的各維度進(jìn)行加權(quán)處理，得到目標(biāo)文本嵌入向量；基于目標(biāo)文本嵌入向量，生成與文本提示詞匹配的視覺(jué)數(shù)據(jù)。本技術(shù)按照預(yù)先為每個(gè)句段分配的注意力權(quán)重，直接對(duì)文本提示詞的初始文本嵌入向量的各維度進(jìn)行加權(quán)處理，以便從底層直接控制對(duì)文本提示詞內(nèi)容的注意力強(qiáng)弱，使得生成的視覺(jué)數(shù)據(jù)更符合文本提示詞所要呈現(xiàn)的效果，從而既無(wú)需任何額外的訓(xùn)練和微調(diào)，節(jié)省大量時(shí)間和資源，也無(wú)需擾亂原本的文本提示詞的順序和結(jié)構(gòu)，避免文本失意，且本技術(shù)通過(guò)分區(qū)加權(quán)可以精確地為文本提示詞內(nèi)容分配相應(yīng)的注意力大小，從而有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。

53、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本技術(shù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：請(qǐng)求不公布姓名,請(qǐng)求不公布姓名
技術(shù)所有人：北京生數(shù)科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種電源水冷散熱的水路結(jié)構(gòu)的制作方法
上一篇：一種汽車(chē)模型用門(mén)鉸鏈機(jī)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程