本發(fā)明涉及人工智能領域,特別涉及一種歌曲內(nèi)容生成方法、設備及介質(zhì)。
背景技術:
1、目前的歌詞輔助創(chuàng)作工具支持用戶輸入想要生成歌詞的字數(shù)、關鍵詞、主題及風格等,從而使得歌詞輔助創(chuàng)作工具根據(jù)用戶輸入的一個或多個要素生成相應的歌詞。但是通過文本輸入去生成相應的歌詞,可能生成的歌詞難以滿足用戶復雜多樣的歌詞需求。因此,如何使生成的歌詞更好的滿足用戶的歌詞需求是目前有待解決的問題。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種歌曲內(nèi)容生成方法、設備及介質(zhì),能夠結合文本特征和圖片特征使生成的歌詞更加豐滿和更加具有環(huán)境感,從而使生成的歌詞更符合用戶復雜多樣的歌詞需求,同時還可以生成歌曲海報,以豐富生成歌曲內(nèi)容的多樣性。其具體方案如下:
2、第一方面,本技術提供了一種歌曲內(nèi)容生成方法,包括:
3、獲取文本指令和目標圖片,對所述目標圖片進行編碼得到圖片特征向量;
4、利用多模態(tài)大語言模型對所述文本指令進行編碼以得到文本特征向量,將所述圖片特征向量和所述文本特征向量進行融合以得到特征向量序列,并基于所述特征向量序列預測生成圖片特征序列和文本特征序列;
5、對所述文本特征序列進行解碼以生成目標歌詞,并對所述圖片特征序列進行解碼以生成目標歌曲海報。
6、可選的,所述利用多模態(tài)大語言模型對所述文本指令進行編碼以得到文本特征向量,包括:
7、利用所述多模態(tài)大語言模型中的分詞器對所述文本指令進行分詞處理,以基于分詞處理得到的若干指令分詞確定相應的文本分詞序列;
8、通過所述多模態(tài)大語言模型中的詞向量將所述文本分詞序列中的各個指令分詞分別映射為相應的特征向量,以基于映射的各個特征向量得到所述文本特征向量。
9、可選的,所述對所述文本特征序列進行解碼以生成目標歌詞之后,還包括:
10、對所述目標歌詞進行后處理,以得到最終歌詞;其中,所述后處理包括重復詞匯去除和句式結構調(diào)整。
11、可選的,所述對所述目標圖片進行編碼得到圖片特征向量,包括:
12、利用圖片編碼器對所述目標圖片進行編碼得到圖片特征向量;
13、相應的,所述對所述文本特征序列進行解碼以生成目標歌詞,并對所述圖片特征序列進行解碼以生成目標歌曲海報,包括:
14、利用所述多模態(tài)大語言模型對所述文本特征序列進行解碼以生成目標歌詞,并利用圖片解碼器對所述圖片特征序列進行解碼以生成目標歌曲海報;
15、其中,所述圖片編碼器、所述多模態(tài)大語言模型和所述圖片解碼器均位于預先訓練好的預設生成模型中。
16、可選的,所述利用圖片編碼器對所述目標圖片進行編碼得到圖片特征向量,包括:
17、利用所述圖片編碼器中的用于進行圖片特征提取的深度神經(jīng)網(wǎng)絡對所述目標圖片進行特征提取,以得到圖片提取特征;
18、利用所述圖片編碼器中的多層感知機對所述圖片提取特征進行轉換,以得到與所述文本特征向量的向量空間對齊的所述圖片特征向量。
19、可選的,所述利用所述多模態(tài)大語言模型對所述文本特征序列進行解碼以生成目標歌詞,包括:
20、利用所述多模態(tài)大語言模型中的文本解碼器對所述文本特征序列中的各個特征向量分別進行解碼,以基于解碼得到的各個文本分詞生成相應的目標歌詞。
21、可選的,所述方法還包括:
22、基于深度神經(jīng)網(wǎng)絡和多層感知機構建所述圖片編碼器;其中,所述深度神經(jīng)網(wǎng)絡為預訓練的用于進行圖片特征提取的神經(jīng)網(wǎng)絡;
23、基于擴散模型構建所述圖片解碼器,并基于所述圖片編碼器、所述圖片解碼器和預訓練的所述多模態(tài)大語言模型構建初始生成模型;
24、對所述初始生成模型進行訓練,以得到預先訓練好的所述預設生成模型。
25、可選的,所述對所述初始生成模型進行訓練,以得到預先訓練好的所述預設生成模型,包括:
26、將包含文本指令和圖片的訓練數(shù)據(jù)輸入至所述初始生成模型,以利用所述圖片編碼器和所述多模態(tài)大語言模型對所述訓練數(shù)據(jù)進行處理,以預測生成訓練圖片特征序列和訓練文本特征序列;
27、基于所述訓練文本特征序列對所述多模態(tài)大語言模型進行訓練,并基于所述訓練圖片特征序列對所述圖片解碼器進行訓練,以得到預先訓練好的所述預設生成模型。
28、可選的,所述基于所述訓練文本特征序列對所述多模態(tài)大語言模型進行訓練,包括:
29、利用所述多模態(tài)大語言模型對所述訓練文本特征序列進行解碼以生成預測歌詞,并基于所述預測歌詞以及所述訓練數(shù)據(jù)對應的真實歌詞之間的第一訓練損失對所述多模態(tài)大語言模型進行訓練。
30、可選的,所述基于所述訓練圖片特征序列對所述圖片解碼器進行訓練,包括:
31、利用所述圖片解碼器在當前時間步對所述訓練圖片特征序列添加潛在噪聲,以得到噪聲潛變量,并對所述噪聲潛變量進行噪聲預測以得到預測噪聲;
32、基于所述預測噪聲與所述潛在噪聲之間的差值確定第二訓練損失,并基于所述第二訓練損失對所述圖片解碼器進行訓練。
33、可選的,所述對所述初始生成模型進行訓練,以得到預先訓練好的所述預設生成模型,包括:
34、基于文本指令確定第一訓練輸入數(shù)據(jù),并基于所述第一訓練輸入數(shù)據(jù)對應的歌詞確定第一訓練輸出數(shù)據(jù),以基于所述第一訓練輸入數(shù)據(jù)和所述第一訓練輸出數(shù)據(jù)構建第一訓練集;
35、基于文本指令和圖片確定第二訓練輸入數(shù)據(jù),并基于所述第二訓練輸入數(shù)據(jù)對應的歌詞和歌曲海報確定第二訓練輸出數(shù)據(jù),以基于所述第二訓練輸入數(shù)據(jù)和所述第二訓練輸出數(shù)據(jù)構建第二訓練集;
36、利用所述第一訓練集和所述第二訓練集對所述初始生成模型進行交替訓練,以得到預先訓練好的所述預設生成模型。
37、第二方面,本技術提供了一種電子設備,包括:
38、存儲器,用于保存計算機程序;
39、處理器,用于執(zhí)行所述計算機程序以實現(xiàn)前述的歌曲內(nèi)容生成方法。
40、第三方面,本技術提供了一種計算機可讀存儲介質(zhì),用于保存計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)前述的歌曲內(nèi)容生成方法。
41、第四方面,本技術提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)前述的歌曲內(nèi)容生成方法。
42、本技術中,獲取文本指令和目標圖片,對所述目標圖片進行編碼得到圖片特征向量;利用多模態(tài)大語言模型對所述文本指令進行編碼以得到文本特征向量,將所述圖片特征向量和所述文本特征向量進行融合以得到特征向量序列,并基于所述特征向量序列預測生成圖片特征序列和文本特征序列;對所述文本特征序列進行解碼以生成目標歌詞,并對所述圖片特征序列進行解碼以生成目標歌曲海報。由此可見,本技術通過將文本指令和圖片作為多模態(tài)輸入,以通過對文本指令和圖片進行編碼、融合、預測和解碼等操作,從而生成更高質(zhì)量的歌詞和歌曲海報,這樣一來,通過結合文本特征和圖片特征可以使生成的歌詞更加豐滿和更加具有環(huán)境感,從而使生成的歌詞更符合用戶復雜多樣的歌詞需求,同時還可以生成歌曲海報,以豐富生成歌曲內(nèi)容的多樣性。