欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40522139發(fā)布日期:2024-12-31 13:31閱讀:12來(lái)源:國(guó)知局
視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及人工智能,尤其涉及一種視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、文生圖模型可以根據(jù)用戶(hù)輸入的文本(或稱(chēng)為文本提示詞)直接生成具有文本所描述概念的圖像。但是有些時(shí)候,用戶(hù)想要強(qiáng)調(diào)文本提示詞中某一句段的內(nèi)容,以便讓模型的生成結(jié)果更偏向強(qiáng)調(diào)部分,這種強(qiáng)調(diào)作用等價(jià)于將模型對(duì)文本的注意力轉(zhuǎn)移到所強(qiáng)調(diào)部分之上。

2、相關(guān)技術(shù)中有兩種方法可以達(dá)到上述目的,第一種是通過(guò)微調(diào)來(lái)改變模型本身對(duì)特定概念的理解,另一種是通過(guò)提示詞工程來(lái)重新編排文本提示詞來(lái)隱式地調(diào)整文本提示詞的編碼結(jié)果。然而,第一種方法需要額外的訓(xùn)練和微調(diào),導(dǎo)致消耗大量時(shí)間和資源,第二種方法需要擾亂原本的文本提示詞的順序和結(jié)構(gòu),導(dǎo)致文本失意,且這兩種辦法都無(wú)法有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。


技術(shù)實(shí)現(xiàn)思路

1、為解決或部分解決相關(guān)技術(shù)中存在的問(wèn)題,本技術(shù)提供一種視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),既無(wú)需任何額外的訓(xùn)練和微調(diào),節(jié)省大量時(shí)間和資源,也無(wú)需擾亂原本的文本提示詞的順序和結(jié)構(gòu),避免文本失意,且能夠有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。

2、本技術(shù)第一方面提供一種視覺(jué)數(shù)據(jù)生成方法,包括:

3、獲取文本提示詞;其中,所述文本提示詞包括多個(gè)句段,各個(gè)句段具有預(yù)先分配的注意力權(quán)重;

4、將所述文本提示詞編碼為初始文本嵌入向量;

5、根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量;

6、基于所述目標(biāo)文本嵌入向量,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。在一實(shí)施方式中,在所述將所述文本提示詞編碼為初始文本嵌入向量之前,所述方法還包括:

7、對(duì)所述文本提示詞中的各個(gè)句段按順序進(jìn)行詞元?jiǎng)澐郑玫蕉鄠€(gè)詞元;

8、所述初始文本嵌入向量包括各個(gè)詞元的初始詞元嵌入向量;所述將所述文本提示詞編碼為初始文本嵌入向量,包括:

9、對(duì)各個(gè)詞元進(jìn)行編碼處理,得到所述各個(gè)詞元的初始詞元嵌入向量。

10、在一實(shí)施方式中,所述目標(biāo)文本嵌入向量包括各個(gè)詞元的目標(biāo)詞元嵌入向量;所述根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量,包括:

11、根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理,得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

12、在一實(shí)施方式中,所述根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理,得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量,包括:

13、根據(jù)所述各個(gè)詞元的初始詞元嵌入向量的值與對(duì)應(yīng)句段的注意力權(quán)重,計(jì)算得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

14、在一實(shí)施方式中,所述基于所述目標(biāo)文本嵌入向量,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù),包括:

15、獲取預(yù)設(shè)噪聲;

16、將所述各個(gè)詞元的目標(biāo)詞元嵌入向量與所述預(yù)設(shè)噪聲進(jìn)行特征融合,得到所述各個(gè)詞元的詞元融合特征;

17、基于所述各個(gè)詞元的詞元融合特征,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。

18、在一實(shí)施方式中,所述獲取文本提示詞,包括:

19、獲取用戶(hù)的輸入數(shù)據(jù);

20、根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞。

21、在一實(shí)施方式中,所述根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞,包括:

22、根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到初始文本提示詞;

23、對(duì)所述初始文本提示詞進(jìn)行句段劃分,并確定各個(gè)句段的注意力權(quán)重,得到包括多個(gè)句段以及各個(gè)句段的注意力權(quán)重的文本提示詞。

24、本技術(shù)第二方面提供一種視覺(jué)數(shù)據(jù)生成裝置,包括:

25、文本提示詞獲取模塊,用于獲取文本提示詞;其中,所述文本提示詞包括多個(gè)句段,各個(gè)句段具有預(yù)先分配的注意力權(quán)重;

26、編碼處理模塊,用于將所述文本提示詞編碼為初始文本嵌入向量;

27、加權(quán)處理模塊,用于根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量;

28、視覺(jué)數(shù)據(jù)生成模塊,用于基于所述目標(biāo)文本嵌入向量,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。

29、在一實(shí)施方式中,在所述將所述文本提示詞編碼為初始文本嵌入向量之前,所述裝置還包括:

30、詞元?jiǎng)澐帜K,用于對(duì)文本提示詞中的各個(gè)句段按順序進(jìn)行詞元?jiǎng)澐?,得到多個(gè)詞元;

31、所述初始文本嵌入向量包括各個(gè)詞元的初始詞元嵌入向量;所述編碼處理模塊包括:

32、編碼處理子模塊,用于對(duì)各個(gè)詞元進(jìn)行編碼處理,得到所述各個(gè)詞元的初始詞元嵌入向量。

33、在一實(shí)施方式中,所述目標(biāo)文本嵌入向量包括各個(gè)詞元的目標(biāo)詞元嵌入向量;所述加權(quán)處理模塊包括:

34、加權(quán)處理子模塊,用于根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理,得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

35、在一實(shí)施方式中,加權(quán)處理子模塊包括:

36、加權(quán)處理單元,用于根據(jù)所述各個(gè)詞元的初始詞元嵌入向量的值與對(duì)應(yīng)句段的注意力權(quán)重,計(jì)算得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。

37、在一實(shí)施方式中,視覺(jué)數(shù)據(jù)生成模塊包括:

38、預(yù)設(shè)噪聲獲取子模塊,用于獲取預(yù)設(shè)噪聲;

39、特征融合子模塊,用于將所述各個(gè)詞元的目標(biāo)詞元嵌入向量與所述預(yù)設(shè)噪聲進(jìn)行特征融合,得到所述各個(gè)詞元的詞元融合特征;

40、視覺(jué)數(shù)據(jù)生成子模塊,用于基于所述各個(gè)詞元的詞元融合特征,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。

41、在一實(shí)施方式中,文本提示詞獲取模塊包括:

42、輸入數(shù)據(jù)獲取子模塊,用于獲取用戶(hù)的輸入數(shù)據(jù);

43、輸入數(shù)據(jù)處理子模塊,用于根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞。

44、在一實(shí)施方式中,輸入數(shù)據(jù)處理子模塊包括:

45、輸入數(shù)據(jù)處理單元,用于根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到初始文本提示詞;

46、初始文本提示詞處理單元,用于對(duì)所述初始文本提示詞進(jìn)行句段劃分,并確定各個(gè)句段的注意力權(quán)重,得到包括多個(gè)句段以及各個(gè)句段的注意力權(quán)重的文本提示詞。

47、本技術(shù)第三方面提供一種電子設(shè)備,包括:

48、處理器;以及

49、存儲(chǔ)器,其上存儲(chǔ)有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被所述處理器執(zhí)行時(shí),使所述處理器執(zhí)行如上所述的方法。

50、本技術(shù)第四方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被電子設(shè)備的處理器執(zhí)行時(shí),使所述處理器執(zhí)行如上所述的方法。

51、本技術(shù)提供的技術(shù)方案可以包括以下有益效果:

52、本技術(shù)提供的方案,獲取文本提示詞;其中,文本提示詞包括多個(gè)句段,各個(gè)句段具有預(yù)先分配的注意力權(quán)重;將文本提示詞編碼為初始文本嵌入向量;根據(jù)各個(gè)句段的注意力權(quán)重,對(duì)初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量;基于目標(biāo)文本嵌入向量,生成與文本提示詞匹配的視覺(jué)數(shù)據(jù)。本技術(shù)按照預(yù)先為每個(gè)句段分配的注意力權(quán)重,直接對(duì)文本提示詞的初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,以便從底層直接控制對(duì)文本提示詞內(nèi)容的注意力強(qiáng)弱,使得生成的視覺(jué)數(shù)據(jù)更符合文本提示詞所要呈現(xiàn)的效果,從而既無(wú)需任何額外的訓(xùn)練和微調(diào),節(jié)省大量時(shí)間和資源,也無(wú)需擾亂原本的文本提示詞的順序和結(jié)構(gòu),避免文本失意,且本技術(shù)通過(guò)分區(qū)加權(quán)可以精確地為文本提示詞內(nèi)容分配相應(yīng)的注意力大小,從而有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。

53、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
北辰区| 磴口县| 同江市| 阳江市| 阿拉善左旗| 杭锦后旗| 吉隆县| 皋兰县| 正宁县| 商南县| 阜南县| 中卫市| 泸定县| 黄石市| 会理县| 克山县| 普格县| 庆云县| 康平县| 石渠县| 石楼县| 灌南县| 河南省| 乌兰县| 成武县| 浑源县| 新竹市| 元阳县| 济源市| 平和县| 巨野县| 芒康县| 湘潭市| 土默特右旗| 桐柏县| 太原市| 安平县| 东明县| 黄骅市| 泸水县| 上饶市|