本技術(shù)涉及人工智能,尤其涉及一種視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、文生圖模型可以根據(jù)用戶(hù)輸入的文本(或稱(chēng)為文本提示詞)直接生成具有文本所描述概念的圖像。但是有些時(shí)候,用戶(hù)想要強(qiáng)調(diào)文本提示詞中某一句段的內(nèi)容,以便讓模型的生成結(jié)果更偏向強(qiáng)調(diào)部分,這種強(qiáng)調(diào)作用等價(jià)于將模型對(duì)文本的注意力轉(zhuǎn)移到所強(qiáng)調(diào)部分之上。
2、相關(guān)技術(shù)中有兩種方法可以達(dá)到上述目的,第一種是通過(guò)微調(diào)來(lái)改變模型本身對(duì)特定概念的理解,另一種是通過(guò)提示詞工程來(lái)重新編排文本提示詞來(lái)隱式地調(diào)整文本提示詞的編碼結(jié)果。然而,第一種方法需要額外的訓(xùn)練和微調(diào),導(dǎo)致消耗大量時(shí)間和資源,第二種方法需要擾亂原本的文本提示詞的順序和結(jié)構(gòu),導(dǎo)致文本失意,且這兩種辦法都無(wú)法有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。
技術(shù)實(shí)現(xiàn)思路
1、為解決或部分解決相關(guān)技術(shù)中存在的問(wèn)題,本技術(shù)提供一種視覺(jué)數(shù)據(jù)生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),既無(wú)需任何額外的訓(xùn)練和微調(diào),節(jié)省大量時(shí)間和資源,也無(wú)需擾亂原本的文本提示詞的順序和結(jié)構(gòu),避免文本失意,且能夠有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。
2、本技術(shù)第一方面提供一種視覺(jué)數(shù)據(jù)生成方法,包括:
3、獲取文本提示詞;其中,所述文本提示詞包括多個(gè)句段,各個(gè)句段具有預(yù)先分配的注意力權(quán)重;
4、將所述文本提示詞編碼為初始文本嵌入向量;
5、根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量;
6、基于所述目標(biāo)文本嵌入向量,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。在一實(shí)施方式中,在所述將所述文本提示詞編碼為初始文本嵌入向量之前,所述方法還包括:
7、對(duì)所述文本提示詞中的各個(gè)句段按順序進(jìn)行詞元?jiǎng)澐郑玫蕉鄠€(gè)詞元;
8、所述初始文本嵌入向量包括各個(gè)詞元的初始詞元嵌入向量;所述將所述文本提示詞編碼為初始文本嵌入向量,包括:
9、對(duì)各個(gè)詞元進(jìn)行編碼處理,得到所述各個(gè)詞元的初始詞元嵌入向量。
10、在一實(shí)施方式中,所述目標(biāo)文本嵌入向量包括各個(gè)詞元的目標(biāo)詞元嵌入向量;所述根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量,包括:
11、根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理,得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。
12、在一實(shí)施方式中,所述根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理,得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量,包括:
13、根據(jù)所述各個(gè)詞元的初始詞元嵌入向量的值與對(duì)應(yīng)句段的注意力權(quán)重,計(jì)算得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。
14、在一實(shí)施方式中,所述基于所述目標(biāo)文本嵌入向量,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù),包括:
15、獲取預(yù)設(shè)噪聲;
16、將所述各個(gè)詞元的目標(biāo)詞元嵌入向量與所述預(yù)設(shè)噪聲進(jìn)行特征融合,得到所述各個(gè)詞元的詞元融合特征;
17、基于所述各個(gè)詞元的詞元融合特征,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。
18、在一實(shí)施方式中,所述獲取文本提示詞,包括:
19、獲取用戶(hù)的輸入數(shù)據(jù);
20、根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞。
21、在一實(shí)施方式中,所述根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞,包括:
22、根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到初始文本提示詞;
23、對(duì)所述初始文本提示詞進(jìn)行句段劃分,并確定各個(gè)句段的注意力權(quán)重,得到包括多個(gè)句段以及各個(gè)句段的注意力權(quán)重的文本提示詞。
24、本技術(shù)第二方面提供一種視覺(jué)數(shù)據(jù)生成裝置,包括:
25、文本提示詞獲取模塊,用于獲取文本提示詞;其中,所述文本提示詞包括多個(gè)句段,各個(gè)句段具有預(yù)先分配的注意力權(quán)重;
26、編碼處理模塊,用于將所述文本提示詞編碼為初始文本嵌入向量;
27、加權(quán)處理模塊,用于根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量;
28、視覺(jué)數(shù)據(jù)生成模塊,用于基于所述目標(biāo)文本嵌入向量,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。
29、在一實(shí)施方式中,在所述將所述文本提示詞編碼為初始文本嵌入向量之前,所述裝置還包括:
30、詞元?jiǎng)澐帜K,用于對(duì)文本提示詞中的各個(gè)句段按順序進(jìn)行詞元?jiǎng)澐?,得到多個(gè)詞元;
31、所述初始文本嵌入向量包括各個(gè)詞元的初始詞元嵌入向量;所述編碼處理模塊包括:
32、編碼處理子模塊,用于對(duì)各個(gè)詞元進(jìn)行編碼處理,得到所述各個(gè)詞元的初始詞元嵌入向量。
33、在一實(shí)施方式中,所述目標(biāo)文本嵌入向量包括各個(gè)詞元的目標(biāo)詞元嵌入向量;所述加權(quán)處理模塊包括:
34、加權(quán)處理子模塊,用于根據(jù)所述各個(gè)句段的注意力權(quán)重,對(duì)所述各個(gè)詞元的初始詞元嵌入向量進(jìn)行加權(quán)處理,得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。
35、在一實(shí)施方式中,加權(quán)處理子模塊包括:
36、加權(quán)處理單元,用于根據(jù)所述各個(gè)詞元的初始詞元嵌入向量的值與對(duì)應(yīng)句段的注意力權(quán)重,計(jì)算得到所述各個(gè)詞元的目標(biāo)詞元嵌入向量。
37、在一實(shí)施方式中,視覺(jué)數(shù)據(jù)生成模塊包括:
38、預(yù)設(shè)噪聲獲取子模塊,用于獲取預(yù)設(shè)噪聲;
39、特征融合子模塊,用于將所述各個(gè)詞元的目標(biāo)詞元嵌入向量與所述預(yù)設(shè)噪聲進(jìn)行特征融合,得到所述各個(gè)詞元的詞元融合特征;
40、視覺(jué)數(shù)據(jù)生成子模塊,用于基于所述各個(gè)詞元的詞元融合特征,生成與所述文本提示詞匹配的視覺(jué)數(shù)據(jù)。
41、在一實(shí)施方式中,文本提示詞獲取模塊包括:
42、輸入數(shù)據(jù)獲取子模塊,用于獲取用戶(hù)的輸入數(shù)據(jù);
43、輸入數(shù)據(jù)處理子模塊,用于根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到文本提示詞。
44、在一實(shí)施方式中,輸入數(shù)據(jù)處理子模塊包括:
45、輸入數(shù)據(jù)處理單元,用于根據(jù)所述用戶(hù)的輸入數(shù)據(jù)得到初始文本提示詞;
46、初始文本提示詞處理單元,用于對(duì)所述初始文本提示詞進(jìn)行句段劃分,并確定各個(gè)句段的注意力權(quán)重,得到包括多個(gè)句段以及各個(gè)句段的注意力權(quán)重的文本提示詞。
47、本技術(shù)第三方面提供一種電子設(shè)備,包括:
48、處理器;以及
49、存儲(chǔ)器,其上存儲(chǔ)有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被所述處理器執(zhí)行時(shí),使所述處理器執(zhí)行如上所述的方法。
50、本技術(shù)第四方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被電子設(shè)備的處理器執(zhí)行時(shí),使所述處理器執(zhí)行如上所述的方法。
51、本技術(shù)提供的技術(shù)方案可以包括以下有益效果:
52、本技術(shù)提供的方案,獲取文本提示詞;其中,文本提示詞包括多個(gè)句段,各個(gè)句段具有預(yù)先分配的注意力權(quán)重;將文本提示詞編碼為初始文本嵌入向量;根據(jù)各個(gè)句段的注意力權(quán)重,對(duì)初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,得到目標(biāo)文本嵌入向量;基于目標(biāo)文本嵌入向量,生成與文本提示詞匹配的視覺(jué)數(shù)據(jù)。本技術(shù)按照預(yù)先為每個(gè)句段分配的注意力權(quán)重,直接對(duì)文本提示詞的初始文本嵌入向量的各維度進(jìn)行加權(quán)處理,以便從底層直接控制對(duì)文本提示詞內(nèi)容的注意力強(qiáng)弱,使得生成的視覺(jué)數(shù)據(jù)更符合文本提示詞所要呈現(xiàn)的效果,從而既無(wú)需任何額外的訓(xùn)練和微調(diào),節(jié)省大量時(shí)間和資源,也無(wú)需擾亂原本的文本提示詞的順序和結(jié)構(gòu),避免文本失意,且本技術(shù)通過(guò)分區(qū)加權(quán)可以精確地為文本提示詞內(nèi)容分配相應(yīng)的注意力大小,從而有效應(yīng)對(duì)復(fù)雜文本提示詞的情況。
53、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。