本發(fā)明涉及圖像處理,特別涉及一種視頻智能拆條方法、系統(tǒng)、可讀存儲介質及計算機。
背景技術:
1、隨著人們生活水平的提高和科技的飛速發(fā)展,視頻數(shù)據(jù)已經(jīng)成為人們生活中必不可少的數(shù)據(jù)之一,其具備有龐大的數(shù)據(jù)量。
2、然而,目前的視頻拆條方法需要訓練視頻生成模型,其需要大量標注的訓練樣本,從而使得視頻剪輯和內容拆分工作量大,且易出錯。并且,該方式的衡量指標單一,未考慮到多維匹配機制,存在較多冗余關鍵幀。此外,主要基于傳統(tǒng)圖像處理方法對圖像的底層細節(jié)信息進行處理,缺乏高維語義信息的匹配,因此,為了提高訓練效率和數(shù)據(jù)質量,需要一種自動化的視頻處理算法,自動剪輯拆分同時整理歸類視頻數(shù)據(jù)。
技術實現(xiàn)思路
1、基于此,本發(fā)明的目的是提供一種視頻智能拆條方法、系統(tǒng)、可讀存儲介質及計算機,以至少解決上述技術中的不足。
2、本發(fā)明提出一種視頻智能拆條方法,包括:
3、獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼;
4、基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個不重疊的窗口,并在每個所述窗口內計算自注意力機制,以得到對應的關鍵幀序列;
5、構建若干相似度評價指標,并根據(jù)各所述相似度評價指標所對應的指標閾值計算出預設的圖像模板庫中模板圖像與所述關鍵幀序列之間的低維相似度;
6、利用深度神經(jīng)網(wǎng)絡模型對所述模板圖像和所述關鍵幀序列進行特征提取,以分別獲得所述模板圖像的特征圖和所述關鍵幀序列的特征圖;
7、計算出所述模板圖像的特征圖和所述關鍵幀序列的特征圖之間的高維相似度,并基于所述低維相似度和所述高維相似度對所述關鍵幀序列進行定位,以實現(xiàn)所述輸入視頻的視頻拆條。
8、進一步的,獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼的步驟包括:
9、獲取輸入視頻的視頻幀序列,并根據(jù)所述視頻幀序列進行逐幀分析,以得到所述視頻幀序列所對應的時序信息;
10、根據(jù)所述時序信息生成對應的位置編碼,并將所述位置編碼引入所述視頻幀序列中。
11、進一步的,基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個不重疊的窗口,并在每個所述窗口內計算自注意力機制,以得到對應的關鍵幀序列的步驟包括:
12、獲取所述輸入視頻的圖像尺寸,并根據(jù)所述圖像尺寸構建引入位置編碼后的視頻幀序列的窗口尺寸;
13、根據(jù)所述窗口尺寸為所述引入位置編碼后的視頻幀序列進行窗口分配,以使所述輸入視頻的圖像區(qū)域被至少一窗口覆蓋,并在每個所述窗口內計算自注意力機制,以得到對應的關鍵幀序列。
14、進一步的,所述自注意力的計算公式為:
15、;
16、式中,為查詢矩陣,為鍵矩陣,為值矩陣,為的轉置矩陣,是鍵的維數(shù)。
17、進一步的,所述相似性評價指標包括結構相似性指標、峰值信噪比指標以及互信息指標,所述結構相似性指標的表達式為:
18、;
19、;
20、;
21、;
22、式中,分別表示圖像模板庫中模板圖像和關鍵幀序列,均大于0,表示亮度比較,表示對比度比較,表示結構比較,分別表示的平均值,分別表示的標準差,表示的協(xié)方差,、、分別為常數(shù)。
23、本發(fā)明還提出一種視頻智能拆條系統(tǒng),包括:
24、編碼引入模塊,用于獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼;
25、窗口分配模塊,用于基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個不重疊的窗口,并在每個所述窗口內計算自注意力機制,以得到對應的關鍵幀序列;
26、指標構建模塊,用于構建若干相似度評價指標,并根據(jù)各所述相似度評價指標所對應的指標閾值計算出預設的圖像模板庫中模板圖像與所述關鍵幀序列之間的低維相似度;
27、特征提取模塊,用于利用深度神經(jīng)網(wǎng)絡模型對所述模板圖像和所述關鍵幀序列進行特征提取,以分別獲得所述模板圖像的特征圖和所述關鍵幀序列的特征圖;
28、視頻拆條模塊,用于計算出所述模板圖像的特征圖和所述關鍵幀序列的特征圖之間的高維相似度,并基于所述低維相似度和所述高維相似度對所述關鍵幀序列進行定位,以實現(xiàn)所述輸入視頻的視頻拆條。
29、進一步的,所述編碼引入模塊包括:
30、逐幀分析單元,用于獲取輸入視頻的視頻幀序列,并根據(jù)所述視頻幀序列進行逐幀分析,以得到所述視頻幀序列所對應的時序信息;
31、編碼引入單元,用于根據(jù)所述時序信息生成對應的位置編碼,并將所述位置編碼引入所述視頻幀序列中。
32、進一步的,所述窗口分配模塊包括:
33、窗口構建單元,用于獲取所述輸入視頻的圖像尺寸,并根據(jù)所述圖像尺寸構建引入位置編碼后的視頻幀序列的窗口尺寸;
34、窗口分配單元,用于根據(jù)所述窗口尺寸為所述引入位置編碼后的視頻幀序列進行窗口分配,以使所述輸入視頻的圖像區(qū)域被至少一窗口覆蓋,并在每個所述窗口內計算自注意力機制,以得到對應的關鍵幀序列。
35、本發(fā)明還提出一種可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述的視頻智能拆條方法。
36、本發(fā)明還提出一種計算機,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的視頻智能拆條方法。
37、本發(fā)明當中的視頻智能拆條方法、系統(tǒng)、可讀存儲介質及計算機,采用視頻場景分類方法確定視頻的起始和結束幀,進而獲取其對應的時刻,大幅降低候選關鍵幀數(shù)量,其次,從圖像低層細節(jié)信息角度出發(fā),結合ssim,psnr,互信息三個衡量指標,同時考慮關鍵幀和模板圖像之間結構、亮度、對比度和像素值以及信息量的低維相似程度;從圖像高層語義信息角度出發(fā),由深度預訓練模型提出到富含圖像語義信息的特征圖進行對比,獲取高維相似程度,同時結合低維和高維相似度,有效提升關鍵幀定位精度,進而實現(xiàn)視頻拆條。
1.一種視頻智能拆條方法,其特征在于,包括:
2.根據(jù)權利要求1所述的視頻智能拆條方法,其特征在于,獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼的步驟包括:
3.根據(jù)權利要求1所述的視頻智能拆條方法,其特征在于,基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個不重疊的窗口,并在每個所述窗口內計算自注意力機制,以得到對應的關鍵幀序列的步驟包括:
4.根據(jù)權利要求1所述的視頻智能拆條方法,其特征在于,所述自注意力的計算公式為:
5.根據(jù)權利要求1所述的視頻智能拆條方法,其特征在于,所述相似性評價指標包括結構相似性指標、峰值信噪比指標以及互信息指標,所述結構相似性指標的表達式為:
6.一種視頻智能拆條系統(tǒng),其特征在于,包括:
7.根據(jù)權利要求6所述的視頻智能拆條系統(tǒng),其特征在于,所述編碼引入模塊包括:
8.根據(jù)權利要求6所述的視頻智能拆條系統(tǒng),其特征在于,所述窗口分配模塊包括:
9.一種可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權利要求1至5任一所述的視頻智能拆條方法。
10.一種計算機,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至5任一所述的視頻智能拆條方法。