本公開涉及數(shù)據(jù)處理中的視頻處理,尤其涉及一種解說視頻的生成方法、裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù):
1、觀看各類視頻,已經(jīng)成為人們的重要的生活娛樂方式,例如,觀看劇集,或者觀看短劇。為了使得用戶盡快了解到視頻中的內(nèi)容,需要為用戶提供視頻的解說信息。
2、進(jìn)而,亟需一種可以生成視頻的解說視頻的方案。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種用于解說視頻的生成方法、裝置、設(shè)備以及存儲介質(zhì)。
2、根據(jù)本公開的第一方面,提供了一種解說視頻的生成方法,包括:
3、對待處理視頻進(jìn)行情節(jié)拆分處理,得到至少一個情節(jié)片段;并對所述情節(jié)片段進(jìn)行識別,得到所述情節(jié)片段的識別結(jié)果,其中,所述情節(jié)片段的識別結(jié)果表征情節(jié)片段為高光的情節(jié)片段或非高光的情節(jié)片段;
4、對所述非高光的情節(jié)片段進(jìn)行識別,得到所述非高光的情節(jié)片段的解說語音,并將所述非高光的情節(jié)片段中的原始音頻替換為所述解說語音,得到處理后的非高光的情節(jié)片段;
5、根據(jù)所述高光的情節(jié)片段和所述處理后的非高光的情節(jié)片段,生成所述待處理視頻的解說視頻。
6、根據(jù)本公開的第二方面,提供了一種解說視頻的生成裝置,包括:
7、識別模塊,用于對待處理視頻進(jìn)行情節(jié)拆分處理,得到至少一個情節(jié)片段;并對所述情節(jié)片段進(jìn)行識別,得到所述情節(jié)片段的識別結(jié)果,其中,所述情節(jié)片段的識別結(jié)果表征情節(jié)片段為高光的情節(jié)片段或非高光的情節(jié)片段;
8、處理模塊,用于對所述非高光的情節(jié)片段進(jìn)行識別,得到所述非高光的情節(jié)片段的解說語音,并將所述非高光的情節(jié)片段中的原始音頻替換為所述解說語音,得到處理后的非高光的情節(jié)片段;
9、生成模塊,用于根據(jù)所述高光的情節(jié)片段和所述處理后的非高光的情節(jié)片段,生成所述待處理視頻的解說視頻。
10、根據(jù)本公開的第三方面,提供了一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括:計算機(jī)程序,所述計算機(jī)程序存儲在可讀存儲介質(zhì)中,電子設(shè)備的至少一個處理器可以從所述可讀存儲介質(zhì)讀取所述計算機(jī)程序,所述至少一個處理器執(zhí)行所述計算機(jī)程序使得電子設(shè)備執(zhí)行第一方面所述的方法。
11、根據(jù)本公開的第四方面,提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,所述計算機(jī)指令用于使所述計算機(jī)執(zhí)行第一方面所述方法。
12、根據(jù)本公開的第五方面,提供了一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括:計算機(jī)程序,所述計算機(jī)程序存儲在可讀存儲介質(zhì)中,電子設(shè)備的至少一個處理器可以從所述可讀存儲介質(zhì)讀取所述計算機(jī)程序,所述至少一個處理器執(zhí)行所述計算機(jī)程序使得電子設(shè)備執(zhí)行第一方面所述的方法。
13、根據(jù)本公開的技術(shù)解決了解說視頻的生成效率低的問題,提高了所生成的解說視頻的視頻效果。
14、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種解說視頻的生成方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,對待處理視頻進(jìn)行情節(jié)拆分處理,得到至少一個情節(jié)片段,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,識別所述待處理視頻中的人聲,得到所述待處理視頻的至少一個角色信息,包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,識別所述待處理視頻中的人聲,得到至少一個三元組數(shù)據(jù),包括:
5.根據(jù)權(quán)利要求3或4所述的方法,其中,根據(jù)所述三元組數(shù)據(jù)對應(yīng)的音頻數(shù)據(jù),確定所述三元組數(shù)據(jù)對應(yīng)的角色信息,包括:
6.根據(jù)權(quán)利要求5所述的方法,其中,根據(jù)所述三元組數(shù)據(jù)和所述三元組數(shù)據(jù)對應(yīng)的音頻類別,確定所述三元組數(shù)據(jù)對應(yīng)的角色信息,包括:
7.根據(jù)權(quán)利要求3-6中任一項(xiàng)所述的方法,其中,根據(jù)所述角色信息,對待處理視頻進(jìn)行情節(jié)拆分處理,得到至少一個情節(jié)片段,包括:
8.根據(jù)權(quán)利要求1所述的方法,其中,對所述情節(jié)片段進(jìn)行識別,得到所述情節(jié)片段的識別結(jié)果,包括:
9.根據(jù)權(quán)利要求1所述的方法,其中,對所述非高光的情節(jié)片段進(jìn)行識別,得到所述非高光的情節(jié)片段的解說語音,包括:
10.根據(jù)權(quán)利要求9所述的方法,其中,確定所述非高光的情節(jié)片段的至少一個角色信息,包括:
11.根據(jù)權(quán)利要求9或10所述的方法,其中,根據(jù)所述角色信息,對所述非高光的情節(jié)片段進(jìn)行識別,得到所述非高光的情節(jié)片段的解說語音,包括:
12.根據(jù)權(quán)利要求11所述的方法,其中,根據(jù)所述非高光的情節(jié)片段的解說文案,生成所述非高光的情節(jié)片段的解說語音,包括:
13.根據(jù)權(quán)利要求9-12中任一項(xiàng)所述的方法,其中,將所述非高光的情節(jié)片段中的原始音頻替換為所述解說語音,得到處理后的非高光的情節(jié)片段,包括:
14.根據(jù)權(quán)利要求13所述的方法,其中,所述方法還包括:
15.一種解說視頻的生成裝置,包括:
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述識別模塊,包括拆分單元,用于識別所述待處理視頻中的人聲,得到所述待處理視頻的至少一個角色信息;根據(jù)所述角色信息,對待處理視頻進(jìn)行情節(jié)拆分處理,得到至少一個情節(jié)片段。
17.根據(jù)權(quán)利要求15所述的裝置,其中,所述拆分單元,具體用于識別所述待處理視頻中的人聲,得到至少一個三元組數(shù)據(jù);其中,所述三元組數(shù)據(jù)中包括人聲的起始時刻、人聲的結(jié)束時刻、以及人聲的文本數(shù)據(jù);根據(jù)所述三元組數(shù)據(jù)中的人聲的起始時刻和人聲的結(jié)束時刻,從所述待處理視頻中提取所述三元組數(shù)據(jù)對應(yīng)的音頻數(shù)據(jù);根據(jù)所述三元組數(shù)據(jù)對應(yīng)的音頻數(shù)據(jù),確定所述三元組數(shù)據(jù)對應(yīng)的角色信息。
18.根據(jù)權(quán)利要求15所述的裝置,其中,所述拆分單元,進(jìn)一步具體用于識別所述待處理視頻中的人聲,得到所述待處理視頻中人聲的初始起始時刻、人聲的初始結(jié)束時刻以及人聲的文本數(shù)據(jù);并識別所述待處理視頻中的字幕,得到至少一個字幕信息,所述字幕信息具有字幕起始時刻和字幕結(jié)束時刻;根據(jù)所述字幕信息的字幕起始時刻和字幕結(jié)束時刻,調(diào)整所述人聲的初始起始時刻和所述人聲的初始結(jié)束時刻,得到調(diào)整后的人聲的初始起始時刻和調(diào)整后的人聲的初始結(jié)束時刻;根據(jù)調(diào)整后的所述人聲的初始起始時刻、調(diào)整后的所述人聲的初始結(jié)束時刻、以及所述人聲的文本數(shù)據(jù),生成所述三元組數(shù)據(jù)。
19.根據(jù)權(quán)利要求17或18所述的裝置,其中,所述拆分單元,還進(jìn)一步具體用于提取所述三元組數(shù)據(jù)對應(yīng)的音頻數(shù)據(jù)的音頻特征;根據(jù)所提取的音頻特征,確定所述三元組數(shù)據(jù)對應(yīng)的音頻類別;根據(jù)所述三元組數(shù)據(jù)和所述三元組數(shù)據(jù)對應(yīng)的音頻類別,確定所述三元組數(shù)據(jù)對應(yīng)的角色信息。
20.根據(jù)權(quán)利要求19所述的裝置,其中,所述拆分單元,更進(jìn)一步具體用于根據(jù)所述三元組數(shù)據(jù)對應(yīng)的音頻類別,對所述三元組數(shù)據(jù)進(jìn)行合并處理,得到合并處理后的三元組數(shù)據(jù);根據(jù)合并處理后的三元組數(shù)據(jù),和所述三元組數(shù)據(jù)對應(yīng)的音頻類別,確定所述三元組數(shù)據(jù)對應(yīng)的角色信息。
21.根據(jù)權(quán)利要求18-21中任一項(xiàng)所述的裝置,其中,所述拆分單元,還進(jìn)一步具體用于根據(jù)所述三元組數(shù)據(jù)和所述三元組數(shù)據(jù)對應(yīng)的角色信息,對所述待處理視頻進(jìn)行情節(jié)拆分處理,得到所述至少一個情節(jié)片段。
22.根據(jù)權(quán)利要求15所述的裝置,其中,所述識別模塊,還包括識別單元,用于對所述情節(jié)片段進(jìn)行鏡頭切分處理,得到至少一個鏡頭片段;對所述鏡頭片段進(jìn)行識別,得到所述鏡頭片段的識別結(jié)果;其中,所述鏡頭片段的識別結(jié)果表征鏡頭片段為高光的鏡頭片段或非高光的鏡頭片段;若所述情節(jié)片段對應(yīng)的所述至少一個鏡頭片段中,包括一個或多個高光的鏡頭片段,則確定情節(jié)片段為高光的情節(jié)片段;否則,確定情節(jié)片段為非高光的情節(jié)片段。
23.根據(jù)權(quán)利要求15所述的裝置,其中,所述處理模塊,包括第一處理單元,用于確定所述非高光的情節(jié)片段的至少一個角色信息;第二處理單元,用于根據(jù)所述角色信息,對所述非高光的情節(jié)片段進(jìn)行識別,得到所述非高光的情節(jié)片段的解說語音。
24.根據(jù)權(quán)利要求23所述的裝置,其中,所述第一處理單元,具體用于確定所述非高光的情節(jié)片段的至少一個三元組數(shù)據(jù);并根據(jù)所述非高光的情節(jié)片段的至少一個三元組數(shù)據(jù),確定所述非高光的情節(jié)片段的至少一個角色信息;其中,所述三元組數(shù)據(jù),為識別所述待處理視頻中的人聲后所得到的數(shù)據(jù);所述三元組數(shù)據(jù)中包括人聲的起始時刻、人聲的結(jié)束時刻、以及人聲的文本數(shù)據(jù)。
25.根據(jù)權(quán)利要求23或24所述的裝置,其中,所述第二處理單元,具體用于根據(jù)所述角色信息,對所述非高光的情節(jié)片段進(jìn)行識別,得到所述非高光的情節(jié)片段的解說文案;根據(jù)所述非高光的情節(jié)片段的解說文案,生成所述非高光的情節(jié)片段的解說語音。
26.根據(jù)權(quán)利要求25所述的裝置,其中,所述第二處理單元,進(jìn)一步具體用于根據(jù)所述非高光的情節(jié)片段的解說文案,生成所述非高光的情節(jié)片段的初始解說語音,和所述非高光的情節(jié)片段的解說配樂;對所述非高光的情節(jié)片段的解說配樂,和所述非高光的情節(jié)片段的初始解說語音進(jìn)行結(jié)合處理,得到所述非高光的情節(jié)片段的解說語音。
27.根據(jù)權(quán)利要求23-26中任一項(xiàng)所述的裝置,其中,所述處理模塊,還包括第三處理單元,用于確定所述非高光的情節(jié)片段中的原始音頻的時長,和所述非高光的情節(jié)片段的解說語音的時長;若所述非高光的情節(jié)片段中的原始音頻的時長,等于所述非高光的情節(jié)片段的解說語音的時長,則將所述非高光的情節(jié)片段中的原始音頻替換為所述解說語音,得到處理后的非高光的情節(jié)片段;若所述非高光的情節(jié)片段中的原始音頻的時長,不等于所述非高光的情節(jié)片段的解說語音的時長,則對所述非高光的情節(jié)片段進(jìn)行調(diào)整處理,以使調(diào)整處理后的非高光的情節(jié)片段的時長,等于所述非高光的情節(jié)片段的解說語音的時長;并將所述調(diào)整處理后的非高光的情節(jié)片段中的調(diào)整處理后的原始音頻替換為所述解說語音,得到處理后的非高光的情節(jié)片段。
28.根據(jù)權(quán)利要求27所述的裝置,其中,所述裝置還包括:替換模塊,用于將處理后的非高光情節(jié)片段中的原始字幕,替換為解說文案。
29.一種電子設(shè)備,包括:
30.一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,所述計算機(jī)指令用于使所述計算機(jī)執(zhí)行根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法。
31.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-14中任一項(xiàng)所述方法的步驟。