欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種可直接發(fā)布的口播視頻批量生成方法、裝置與流程

文檔序號(hào):40478277發(fā)布日期:2024-12-31 12:45閱讀:15來源:國(guó)知局
一種可直接發(fā)布的口播視頻批量生成方法、裝置與流程

本發(fā)明涉及口播視頻生成,具體涉及一種可直接發(fā)布的口播視頻批量生成方法、裝置。


背景技術(shù):

1、當(dāng)前市面上常用的大模型生成任務(wù)圖像的方案,不夠真實(shí),并且感與吸引力,不總是能符合使用要求;具體的,其生成的人物形象在細(xì)節(jié)處理上可能不夠精細(xì),難以達(dá)到大眾普遍認(rèn)可的高顏值標(biāo)準(zhǔn),服裝和化妝效果也可能缺乏多樣性和真實(shí)感。同時(shí),視頻/照片拍攝的角度與人物動(dòng)作單一,大多數(shù)生成的視頻采用固定的拍攝角度,缺乏變化,且難以實(shí)現(xiàn)真實(shí)的鏡頭移動(dòng)效果,如推拉、搖晃等;并且人物妝容、服飾單一,情感表現(xiàn)、動(dòng)作、背景、光效單一。生成的背景的真實(shí)感與動(dòng)態(tài)變化,由于摳圖換背景的方法得到的背景通常比較虛假,融合度不高。還存在版權(quán)與隱私的問題,這是因?yàn)榻?jīng)常使用網(wǎng)上公開視頻的緣故,可能存在肖像權(quán)和隱私權(quán)的風(fēng)險(xiǎn);改變視頻中人物表情、動(dòng)作等方法生成的作品可能因相似度過高而存在原創(chuàng)性問題。最后,這種方案在實(shí)際使用時(shí),還存在技術(shù)實(shí)現(xiàn)難度大,成本高的問題。

2、具體的,現(xiàn)有的口播視頻生成方案多采用人工拍攝,成本高;利用網(wǎng)上的視頻素材做剪輯,并未獲得版權(quán);并且視頻多是利用大模型生成的,使用人像+prompt方式生成口播短視頻素材,效果不可靠,細(xì)節(jié)虛假,難度高,失敗率高,質(zhì)量不可控,還使用肢體驅(qū)動(dòng)/表情驅(qū)動(dòng)方案,動(dòng)作固定、妝容固定、服裝固定,素材單一,缺乏多樣性。

3、有鑒于此,提出本申請(qǐng)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了一種可直接發(fā)布的口播視頻批量生成方法、裝置,能至少部分的改善上述問題。

2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:

3、一種可直接發(fā)布的口播視頻批量生成方法,其包括:

4、獲取待處理的視頻素材,對(duì)所述視頻素材進(jìn)行打標(biāo)處理,將視頻素材打上語義標(biāo)簽;

5、對(duì)行業(yè)熱門視頻進(jìn)行文案提取,得到視頻文案,搜索與所述視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板,并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征t1進(jìn)行仿寫,得到最終仿寫文案;

6、根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽,匹配合適的聲音,得到最合適的聲音,并使用預(yù)設(shè)的聲音克隆模型克隆所述最合適的聲音;

7、根據(jù)所述最合適的聲音,使用數(shù)字人模型對(duì)視頻素材的的人物進(jìn)行唇形驅(qū)動(dòng),生成字幕,得到與所述視頻素材相對(duì)應(yīng)的口播視頻。

8、本發(fā)明還提供了一種可直接發(fā)布的口播視頻批量生成裝置,其包括:

9、視頻素材理解單元,用于獲取待處理的視頻素材,對(duì)所述視頻素材進(jìn)行打標(biāo)處理,將視頻素材打上語義標(biāo)簽;

10、文案創(chuàng)作單元,用于對(duì)行業(yè)熱門視頻進(jìn)行文案提取,得到視頻文案,搜索與所述視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板,并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征t1進(jìn)行仿寫,得到最終仿寫文案;

11、聲音匹配單元,用于根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽,匹配合適的聲音,得到最合適的聲音,并使用預(yù)設(shè)的聲音克隆模型克隆所述最合適的聲音;

12、數(shù)字人單元,用于根據(jù)所述最合適的聲音,使用數(shù)字人模型對(duì)視頻素材的的人物進(jìn)行唇形驅(qū)動(dòng),生成字幕,得到與所述視頻素材相對(duì)應(yīng)的口播視頻。

13、綜上,所述可直接發(fā)布的口播視頻批量生成方法對(duì)于生成的視頻素材,提出了結(jié)合視頻內(nèi)容理解、口播視頻文案生成、適合該場(chǎng)景的人物聲音匹配、以及數(shù)字人驅(qū)動(dòng),批量自動(dòng)化生成可以直接發(fā)布的口播視頻。



技術(shù)特征:

1.一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,對(duì)所述視頻素材進(jìn)行打標(biāo)處理,將視頻素材打上語義標(biāo)簽,具體為:

3.根據(jù)權(quán)利要求2所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,對(duì)行業(yè)熱門視頻進(jìn)行文案提取,得到視頻文案,搜索與所述視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板,并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征t1進(jìn)行仿寫,得到最終仿寫文案,具體為:

4.根據(jù)權(quán)利要求3所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,篩選出行業(yè)熱門的商品,具體為:

5.根據(jù)權(quán)利要求3所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,篩選出行業(yè)熱門的商品,具體為:

6.根據(jù)權(quán)利要求3所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,在預(yù)設(shè)的熱點(diǎn)庫中搜索與所述視頻文案最相關(guān)的2條熱點(diǎn),具體為:

7.根據(jù)權(quán)利要求1所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽,匹配合適的聲音,得到最合適的聲音,并使用預(yù)設(shè)的聲音克隆模型克隆所述最合適的聲音,具體為:

8.根據(jù)權(quán)利要求7所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,使用所述數(shù)據(jù)集訓(xùn)練一個(gè)文本-聲音匹配模型,具體為:

9.根據(jù)權(quán)利要求7所述的一種可直接發(fā)布的口播視頻批量生成方法,其特征在于,使用訓(xùn)練好的文本-聲音匹配模型,從預(yù)設(shè)的音色庫中匹配出與文本最合適的聲音,具體為:

10.一種可直接發(fā)布的口播視頻批量生成裝置,其特征在于,包括:


技術(shù)總結(jié)
本發(fā)明提供了一種可直接發(fā)布的口播視頻批量生成方法、裝置,獲取待處理的視頻素材,進(jìn)行打標(biāo);對(duì)行業(yè)熱門視頻進(jìn)行文案提取,得到視頻文案,搜索與視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板,并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征進(jìn)行仿寫,得到最終仿寫文案;根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽,匹配合適的聲音,并使用預(yù)設(shè)的聲音克隆模型克隆最合適的聲音;根據(jù)最合適的聲音,使用數(shù)字人模型對(duì)視頻素材的的人物進(jìn)行唇形驅(qū)動(dòng),生成字幕,得到與視頻素材相對(duì)應(yīng)的口播視頻。本方法對(duì)于生成的視頻素材,提出了結(jié)合視頻內(nèi)容理解、口播視頻文案生成、適合該場(chǎng)景的人物聲音匹配、以及數(shù)字人驅(qū)動(dòng),批量自動(dòng)化生成可以直接發(fā)布的口播視頻。

技術(shù)研發(fā)人員:鄒輝,談世云,楊書欽
受保護(hù)的技術(shù)使用者:廈門蟬鏡科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
承德县| 府谷县| 松潘县| 丹江口市| 定襄县| 望江县| 宝清县| 日照市| 闽清县| 嫩江县| 泰州市| 留坝县| 盐亭县| 浦江县| 广灵县| 那坡县| 靖江市| 田东县| 黎平县| 通道| 昔阳县| 天峨县| 建阳市| 仙居县| 宿州市| 永新县| 施秉县| 沙洋县| 分宜县| 大同县| 清远市| 镇赉县| 崇州市| 天祝| 深水埗区| 安庆市| 绥江县| 泸州市| 凌源市| 无棣县| 社会|