本公開涉及計算機領域,具體涉及大模型、深度學習、圖像處理等,尤其涉及一種視頻處理方法和裝置、電子設備、計算機可讀存儲介質(zhì)以及計算機程序產(chǎn)品。
背景技術:
1、當前刷短視頻已經(jīng)成為人們?nèi)粘I钚蓍e的一種方式,各類泛娛樂、搞笑類的內(nèi)容層出不窮。隨著近些年來短劇市場的爆火,用戶在短視頻平臺看短劇已經(jīng)成為了一種新的娛樂方式。但短劇或影視劇類的內(nèi)容具有強連貫性,用戶無法通過碎片化時間完成內(nèi)容消費,這種模式不僅降低了用戶消費內(nèi)容的體驗,還可能導致用戶對平臺失去興趣,進而降低平臺的活躍度和用戶粘性。
技術實現(xiàn)思路
1、本公開提供了一種視頻處理方法和裝置、電子設備、計算機可讀存儲介質(zhì)以及計算機程序產(chǎn)品。
2、根據(jù)第一方面,提供了一種視頻處理方法,該方法包括:對獲取的待處理視頻進行鏡頭切分,得到多個視頻鏡頭片段;提取多個視頻鏡頭片段中各個視頻鏡頭片段的視頻信息;基于視頻信息,得到語義時間段;基于語義時間段和多個視頻鏡頭片段,得到語義鏡頭片段。
3、根據(jù)第二方面,提供了一種視頻處理裝置,該裝置包括:鏡頭得到單元,被配置成對獲取的待處理視頻進行鏡頭切分,得到多個視頻鏡頭片段;提取單元,被配置成提取多個視頻鏡頭片段中各個視頻鏡頭片段的視頻信息;時間得到單元,被配置成基于視頻信息,得到語義時間段;語義得到單元,被配置成基于語義時間段和多個視頻鏡頭片段,得到語義鏡頭片段。
4、根據(jù)第三方面,提供了一種電子設備,該電子設備包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器,其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行如第一方面任一實現(xiàn)方式描述的方法。
5、根據(jù)第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),計算機指令用于使計算機執(zhí)行如第一方面任一實現(xiàn)方式描述的方法。
6、根據(jù)第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現(xiàn)如第一方面任一實現(xiàn)方式描述的方法。
7、本公開的實施例提供的視頻處理方法和裝置,首先,對獲取的待處理視頻進行鏡頭切分,得到多個視頻鏡頭片段;其次,提取多個視頻鏡頭片段中各個視頻鏡頭片段的視頻信息;再次,基于視頻信息,得到語義時間段;最后,基于語義時間段和多個視頻鏡頭片段,得到語義鏡頭片段。由此,在對待處理視頻進行鏡頭切分之后,通過語義時間段對多個視頻鏡頭片段進行拼接,得到語義鏡頭片段,為語義鏡頭片段的得到提供了可靠的支持,實現(xiàn)了語義鏡頭片段的自動化提取效果;通過得到的語義鏡頭片段可以為待處理視頻進行標注,為視頻的標注提供了可靠的基礎。
8、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種視頻處理方法,所述方法包括:
2.根據(jù)權利要求1所述的方法,其中,所述對獲取的待處理視頻進行鏡頭切分,得到多個視頻鏡頭片段包括:
3.根據(jù)權利要求1所述的方法,其中,所述視頻信息包括:文本信息和語音信息;所述基于所述視頻信息,得到語義時間段包括:
4.根據(jù)權利要求3所述的方法,其中,所述基于所述視頻信息,得到語義時間段還包括:
5.根據(jù)權利要求1所述的方法,其中,所述基于所述多個語義時間段和所述多個視頻鏡頭片段,得到語義鏡頭片段包括:
6.根據(jù)權利要求5所述的方法,其中,所述基于所述語義時間段和所述多個視頻鏡頭片段,得到語義鏡頭片段還包括:
7.根據(jù)權利要求1所述的方法,所述方法還包括:
8.根據(jù)權利要求7所述的方法,所述方法還包括:
9.根據(jù)權利要求7或8所述的方法,其中,所述標注信息包括:標注時間和標注類型,所述基于所述語義鏡頭片段,得到所述待處理視頻的標注信息包括:
10.根據(jù)權利要求9所述的方法,所述方法還包括:
11.一種視頻處理裝置,所述裝置包括:
12.根據(jù)權利要求11所述的裝置,其中,所述鏡頭得到單元被配置成:獲取待處理視頻;將所述待處理視頻輸入預先訓練的切分模型,得到所述切分模型輸出的多個視頻鏡頭片段。
13.根據(jù)權利要求11所述的裝置,其中,所述視頻信息包括:文本信息和語音信息;所述時間得到單元被配置成:基于多個視頻鏡頭片段中任意相鄰的兩個視頻鏡頭片段的文本信息,計算該兩個視頻鏡頭片段的編輯距離;響應于所述編輯距離小于距離閾值,合并該兩個視頻鏡頭片段的時間段,得到中間時間段;檢測所述中間時間段是否在該兩個視頻鏡頭片段對應的語音時間段之內(nèi),或與該兩個視頻鏡頭片段對應的語音時間段有交叉;響應于檢測到所述中間時間段在該兩個視頻鏡頭片段對應的語音時間段之內(nèi)或所述中間時間段與該兩個視頻鏡頭片段對應的語音時間段有交叉,基于所述語音時間段,擴充所述中間時間段,得到語義時間段。
14.根據(jù)權利要求13所述的裝置,其中,所述時間得到單元還被配置成:響應于檢測到該兩個視頻鏡頭片段對應的語音時間段在所述中間時間段之內(nèi),將所述中間時間段作為語義時間段。
15.根據(jù)權利要求11所述的裝置,其中,所述語義得到單元被配置成:檢測所述語義時間段是否橫跨多個視頻鏡頭片段;響應于檢測到所述語義時間段橫跨多個視頻鏡頭片段,合并所述語義時間段橫跨的多個視頻鏡頭片段,得到所述語義時間段的語義鏡頭片段。
16.根據(jù)權利要求15所述的裝置,其中,所述語義得到單元還被配置成:響應于檢測到所述語義時間段未橫跨多個視頻鏡頭片段,合并所述語義時間段對應的視頻鏡頭片段,得到所述語義時間段的語義鏡頭片段。
17.根據(jù)權利要求11所述的裝置,所述裝置還包括:
18.根據(jù)權利要求12所述的裝置,所述裝置還包括:
19.根據(jù)權利要求17或18所述的裝置,其中,所述標注信息包括:標注時間和標注類型,所述標注得到單元被配置成:將所述語義鏡頭片段輸入預先訓練的多模態(tài)大模型中,得到所述多模態(tài)大模型輸出的各個語義鏡頭片段的標注結果;響應于所述標注結果為需要標注,從所述標注結果中得到標注類型;將所述語義鏡頭片段的初始時間作為標注時間。
20.根據(jù)權利要求19所述的裝置,其中,所述裝置還包括:聚合單元,所述聚合單元被配置成:檢測是否有標注時間的差值小于時間閾值的兩個語義鏡頭片段;響應于檢測到具有標注時間的差值小于時間閾值的兩個語義鏡頭片段,檢測該兩個語義鏡頭片段的標注類型是否相同;響應于檢測到該兩個語義鏡頭片段的標注類型相同,合并該兩個語義鏡頭片段的標注類型,并聚合該兩個語義鏡頭片段的標注時間。
21.一種電子設備,其特征在于,包括:
22.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其特征在于,所述計算機指令用于使所述計算機執(zhí)行權利要求1-10中任一項所述方法。
23.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)權利要求1-10中任一項所述的方法。