一種可直接發(fā)布的口播視頻批量生成方法、裝置與流程

文檔序號(hào)：40478277發(fā)布日期：2024-12-31 12:45閱讀：15來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及口播視頻生成，具體涉及一種可直接發(fā)布的口播視頻批量生成方法、裝置。

背景技術(shù)：

1、當(dāng)前市面上常用的大模型生成任務(wù)圖像的方案，不夠真實(shí)，并且感與吸引力，不總是能符合使用要求；具體的，其生成的人物形象在細(xì)節(jié)處理上可能不夠精細(xì)，難以達(dá)到大眾普遍認(rèn)可的高顏值標(biāo)準(zhǔn)，服裝和化妝效果也可能缺乏多樣性和真實(shí)感。同時(shí)，視頻/照片拍攝的角度與人物動(dòng)作單一，大多數(shù)生成的視頻采用固定的拍攝角度，缺乏變化，且難以實(shí)現(xiàn)真實(shí)的鏡頭移動(dòng)效果，如推拉、搖晃等；并且人物妝容、服飾單一，情感表現(xiàn)、動(dòng)作、背景、光效單一。生成的背景的真實(shí)感與動(dòng)態(tài)變化，由于摳圖換背景的方法得到的背景通常比較虛假，融合度不高。還存在版權(quán)與隱私的問題，這是因?yàn)榻?jīng)常使用網(wǎng)上公開視頻的緣故，可能存在肖像權(quán)和隱私權(quán)的風(fēng)險(xiǎn)；改變視頻中人物表情、動(dòng)作等方法生成的作品可能因相似度過高而存在原創(chuàng)性問題。最后，這種方案在實(shí)際使用時(shí)，還存在技術(shù)實(shí)現(xiàn)難度大，成本高的問題。

2、具體的，現(xiàn)有的口播視頻生成方案多采用人工拍攝，成本高；利用網(wǎng)上的視頻素材做剪輯，并未獲得版權(quán)；并且視頻多是利用大模型生成的，使用人像+prompt方式生成口播短視頻素材，效果不可靠，細(xì)節(jié)虛假，難度高，失敗率高，質(zhì)量不可控，還使用肢體驅(qū)動(dòng)/表情驅(qū)動(dòng)方案，動(dòng)作固定、妝容固定、服裝固定，素材單一，缺乏多樣性。

3、有鑒于此，提出本申請(qǐng)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了一種可直接發(fā)布的口播視頻批量生成方法、裝置，能至少部分的改善上述問題。

2、為實(shí)現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案：

3、一種可直接發(fā)布的口播視頻批量生成方法，其包括：

4、獲取待處理的視頻素材，對(duì)所述視頻素材進(jìn)行打標(biāo)處理，將視頻素材打上語義標(biāo)簽；

5、對(duì)行業(yè)熱門視頻進(jìn)行文案提取，得到視頻文案，搜索與所述視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板，并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征t1進(jìn)行仿寫，得到最終仿寫文案；

6、根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽，匹配合適的聲音，得到最合適的聲音，并使用預(yù)設(shè)的聲音克隆模型克隆所述最合適的聲音；

7、根據(jù)所述最合適的聲音，使用數(shù)字人模型對(duì)視頻素材的的人物進(jìn)行唇形驅(qū)動(dòng)，生成字幕，得到與所述視頻素材相對(duì)應(yīng)的口播視頻。

8、本發(fā)明還提供了一種可直接發(fā)布的口播視頻批量生成裝置，其包括：

9、視頻素材理解單元，用于獲取待處理的視頻素材，對(duì)所述視頻素材進(jìn)行打標(biāo)處理，將視頻素材打上語義標(biāo)簽；

10、文案創(chuàng)作單元，用于對(duì)行業(yè)熱門視頻進(jìn)行文案提取，得到視頻文案，搜索與所述視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板，并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征t1進(jìn)行仿寫，得到最終仿寫文案；

11、聲音匹配單元，用于根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽，匹配合適的聲音，得到最合適的聲音，并使用預(yù)設(shè)的聲音克隆模型克隆所述最合適的聲音；

12、數(shù)字人單元，用于根據(jù)所述最合適的聲音，使用數(shù)字人模型對(duì)視頻素材的的人物進(jìn)行唇形驅(qū)動(dòng)，生成字幕，得到與所述視頻素材相對(duì)應(yīng)的口播視頻。

13、綜上，所述可直接發(fā)布的口播視頻批量生成方法對(duì)于生成的視頻素材，提出了結(jié)合視頻內(nèi)容理解、口播視頻文案生成、適合該場(chǎng)景的人物聲音匹配、以及數(shù)字人驅(qū)動(dòng)，批量自動(dòng)化生成可以直接發(fā)布的口播視頻。

技術(shù)特征：

1.一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，對(duì)所述視頻素材進(jìn)行打標(biāo)處理，將視頻素材打上語義標(biāo)簽，具體為：

3.根據(jù)權(quán)利要求2所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，對(duì)行業(yè)熱門視頻進(jìn)行文案提取，得到視頻文案，搜索與所述視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板，并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征t1進(jìn)行仿寫，得到最終仿寫文案，具體為：

4.根據(jù)權(quán)利要求3所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，篩選出行業(yè)熱門的商品，具體為：

5.根據(jù)權(quán)利要求3所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，篩選出行業(yè)熱門的商品，具體為：

6.根據(jù)權(quán)利要求3所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，在預(yù)設(shè)的熱點(diǎn)庫中搜索與所述視頻文案最相關(guān)的2條熱點(diǎn)，具體為：

7.根據(jù)權(quán)利要求1所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽，匹配合適的聲音，得到最合適的聲音，并使用預(yù)設(shè)的聲音克隆模型克隆所述最合適的聲音，具體為：

8.根據(jù)權(quán)利要求7所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，使用所述數(shù)據(jù)集訓(xùn)練一個(gè)文本-聲音匹配模型，具體為：

9.根據(jù)權(quán)利要求7所述的一種可直接發(fā)布的口播視頻批量生成方法，其特征在于，使用訓(xùn)練好的文本-聲音匹配模型，從預(yù)設(shè)的音色庫中匹配出與文本最合適的聲音，具體為：

10.一種可直接發(fā)布的口播視頻批量生成裝置，其特征在于，包括：

技術(shù)總結(jié)
本發(fā)明提供了一種可直接發(fā)布的口播視頻批量生成方法、裝置，獲取待處理的視頻素材，進(jìn)行打標(biāo)；對(duì)行業(yè)熱門視頻進(jìn)行文案提取，得到視頻文案，搜索與視頻文案最相關(guān)的熱點(diǎn)和黃金3s模板，并結(jié)合視頻文案熱點(diǎn)、黃金3s模板和視頻特征進(jìn)行仿寫，得到最終仿寫文案；根據(jù)文案風(fēng)格及視頻素材的語義標(biāo)簽，匹配合適的聲音，并使用預(yù)設(shè)的聲音克隆模型克隆最合適的聲音；根據(jù)最合適的聲音，使用數(shù)字人模型對(duì)視頻素材的的人物進(jìn)行唇形驅(qū)動(dòng)，生成字幕，得到與視頻素材相對(duì)應(yīng)的口播視頻。本方法對(duì)于生成的視頻素材，提出了結(jié)合視頻內(nèi)容理解、口播視頻文案生成、適合該場(chǎng)景的人物聲音匹配、以及數(shù)字人驅(qū)動(dòng)，批量自動(dòng)化生成可以直接發(fā)布的口播視頻。

技術(shù)研發(fā)人員：鄒輝,談世云,楊書欽
受保護(hù)的技術(shù)使用者：廈門蟬鏡科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄒輝,談世云,楊書欽
技術(shù)所有人：廈門蟬鏡科技有限公司
我是此專利的發(fā)明人

上一篇：一種活性炭外熱式再生爐的制作方法
上一篇：一種用于余熱回收制冰裝置的加熱裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種可直接發(fā)布的口播視頻批量生成方法、裝置與流程

一種可直接發(fā)布的口播視頻批量生成方法、裝置與流程