本發(fā)明屬于視頻壓縮,主要涉及一種3d可變形卷積結合transformer的視頻壓縮感知重構方法及模型,可用于實現(xiàn)視覺效果更好的視頻壓縮感知重構。
背景技術:
1、視頻壓縮感知重構技術旨在提高視頻壓縮效率的同時保持高質量的解碼效果。傳統(tǒng)的視頻壓縮算法如h.264主要依賴于預測編碼,在壓縮效率和高分辨率視頻質量之間存在一定的權衡。近年來,壓縮感知理論為視頻壓縮提供了新的思路,通過利用視頻數(shù)據(jù)的稀疏性和魯棒性,即使在重采樣后的情況下也能實現(xiàn)有效地恢復。
2、然而,現(xiàn)有的視頻壓縮感知重構方法主要依賴于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(cnn),在處理視頻幀之間的長距離依賴關系方面仍有局限性。由于視頻幀之間存在復雜的時空關聯(lián),傳統(tǒng)的cnn難以捕捉這些高階特征,導致重構結果在視頻質量上無法完全滿足需求。
技術實現(xiàn)思路
1、針對現(xiàn)有的方法在處理視頻幀之間的長距離依賴關系方面存在的以下不足:
2、1.傳統(tǒng)的cnn結構難以捕捉視頻幀之間復雜的時空關聯(lián);2.缺乏有效的機制來學習和利用關鍵幀和非關鍵幀之間的差異,導致重構結果在不同幀之間的時空一致性較差;
3、本申請?zhí)峁┮环N3d可變形卷積結合transformer的視頻壓縮感知重構方法及模型,能夠有效地處理視頻幀之間的長距離依賴關系,同時把握數(shù)據(jù)的局部特征與長距離關聯(lián)特征,提高模型的性能,提升視頻重構的質量和效率。
4、本發(fā)明為解決其技術問題所采用的技術方案是:
5、一種3d可變形卷積結合transformer的視頻壓縮感知重構方法,包括以下步驟:
6、s1:準備數(shù)據(jù)集,將視頻切分為視頻幀并調整尺寸;
7、s2:將視頻幀分為關鍵幀與非關鍵幀,關鍵幀與非關鍵幀分別以不同的采樣矩陣和重構矩陣進行采樣和重構,得到初始重構結果;
8、s3:將每一幀的初始重構結果通過一個cnn獨立重構模塊進行進一步重構;
9、s4:將關鍵幀的進一步重構結果通過transformer模塊進行重構,得到關鍵幀不同區(qū)域之間的長距離關聯(lián);
10、s5:將所有幀的進一步重構結果與關鍵幀通過transformer模塊獲得的長距離關聯(lián)特征在通道維度上進行拼接,然后通過一個卷積層進行特征融合;
11、s6:特征融合后的結果作為五維視頻信號輸入3d可變形卷積模塊中,得到視頻的深度重構結果。
12、進一步的,步驟s3具體為:視頻幀首先經(jīng)過多個卷積層,特征圖通道數(shù)由1變?yōu)?2;后經(jīng)過池化層,特征圖尺寸變?。辉俳?jīng)過多個卷積層,通道數(shù)由32變?yōu)?4;再經(jīng)過反卷積層,特征圖尺寸恢復,通道數(shù)仍為64;再經(jīng)過多個卷積層,特征圖通道數(shù)由64變?yōu)?2;將此32通道特征圖與經(jīng)過前幾個卷積層得到的32通道特征圖通過跨越連接在通道維度上拼接,得到64通道特征圖;將此64通道特征圖,再經(jīng)過多個卷積層,特征圖通道數(shù)由64變?yōu)?。
13、進一步的,步驟s4具體為:首先,將關鍵幀分塊,每塊轉化為向量,不同向量間通過transformer?unit實現(xiàn)長距離特征關聯(lián),得到一個基于塊關聯(lián)的重構結果;將此重構結果的每個像素通過一個矩陣變換得到每個像素的向量,將像素的向量通過transformer?unit實現(xiàn)長距離特征關聯(lián),得到長距離關聯(lián)特征。
14、進一步的,步驟s6具體為:首先1通道的五維3d特征圖,首先經(jīng)過32個3d可變形卷積核得到32通道的輸出特征圖,該32通道的輸出特征圖經(jīng)過五層殘差連接的3d可變形卷積網(wǎng)絡得到32通道特征圖,該32通道特征圖與首次3d可變形卷積得到的32通道特征圖通過跨越連接在通道維度上拼接,得到64通道的3d特征圖;將此3d特征圖經(jīng)過3個3d可變形卷積層,得到一通道的輸出特征圖,即為所有幀的深度重構結果。
15、進一步的,還包括:從所有幀的深度重構結果中提取第四幀,計算重構第四幀與原始視頻第四幀二者間的均方誤差,作為損失函數(shù)。
16、本申請還提供一種3d可變形卷積結合transformer的視頻壓縮感知重構模型,用于實現(xiàn)上述的方法,模型結構包括:
17、采樣端:作為觀測部分,由一個可訓練的觀測矩陣構成,用于對輸入的視頻幀進行壓縮采樣,所述觀測矩陣包括非關鍵幀與關鍵幀的采樣矩陣;
18、重構端:作為重構部分,由一個可訓練的重構矩陣構成,用于對壓縮采樣后的視頻幀初步恢復,所述重構矩陣包括非關鍵幀與關鍵幀的重構矩陣;
19、cnn獨立重構模塊:由多個卷積層、一個池化層、與一個反卷積層組成,用于重構端輸出的視頻幀的進一步重構;
20、transformer模塊:由transformer?unit與多個變形操作組成,用于得到關鍵幀不同區(qū)域之間的長距離關聯(lián);
21、3d可變形卷積模塊:由32個3d可變形卷積核、五層殘差連接的3d可變形卷積網(wǎng)絡、3個3d可變形卷積層組成,用以提取視頻時空信息,對視頻進行深度重構。
22、進一步的,所述cnn獨立重構模塊的多個卷積層的卷積核大小都為3×3,步長均為1×1,卷積均補零,使用elu進行激活;池化層使用最大池化;反卷積層卷積核大小為2×2,步長為2×2,卷積不補零。
23、本申請還提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)所述的視頻壓縮感知重構方法。
24、本申請還提供一種電子設備,包括處理器和存儲器,所述存儲器中存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)所述的視頻壓縮感知重構方法。
25、本申請還提供一種視頻處理系統(tǒng),包括視頻輸入模塊、所述的模型和視頻輸出模塊,該系統(tǒng)通過所述模型對輸入的視頻進行壓縮感知重構并輸出。
26、本發(fā)明的有益效果包括:
27、本發(fā)明通過將3d可變形卷積與transformer結合,利用transformer提取出關鍵幀的長距離關聯(lián)信息,利用cnn提取出每幀的局部特征,將transformer建立起的長距離關聯(lián)特征與cnn提取出的局部特征進行融合,充分利用了視頻的冗余信息。將局部特征與長距離關聯(lián)特征融合后的每一幀輸入進殘差連接的3d可變形卷積模塊中,其中的3d可變形卷積可以充分提取視頻時空信息,對視頻進行深度重構,視頻的整體重構效果得到提升。
28、綜上,本發(fā)明通過結合3d可變形卷積與transformer,利用二者的優(yōu)點,同時把握視頻的局部特征與長距離關聯(lián)特征,將關鍵幀的長距離關聯(lián)特征作為非關鍵幀特征的補充,克服了視頻壓縮感知重建對于幀間相關性利用不足導致的幀之間重建質量差距大的問題,提供了一種能在低采樣率下實現(xiàn)高質量重建的視頻壓縮感知方法。
1.一種3d可變形卷積結合transformer的視頻壓縮感知重構方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的3d可變形卷積結合transformer的視頻壓縮感知重構方法,其特征在于,步驟s3具體為:視頻幀首先經(jīng)過多個卷積層,特征圖通道數(shù)由1變?yōu)?2;后經(jīng)過池化層,特征圖尺寸變?。辉俳?jīng)過多個卷積層,通道數(shù)由32變?yōu)?4;再經(jīng)過反卷積層,特征圖尺寸恢復,通道數(shù)仍為64;再經(jīng)過多個卷積層,特征圖通道數(shù)由64變?yōu)?2;將此32通道特征圖與經(jīng)過前幾個卷積層得到的32通道特征圖通過跨越連接在通道維度上拼接,得到64通道特征圖;將此64通道特征圖,再經(jīng)過多個卷積層,特征圖通道數(shù)由64變?yōu)?。
3.根據(jù)權利要求1或2所述的3d可變形卷積結合transformer的視頻壓縮感知重構方法,其特征在于,步驟s4具體為:首先,將關鍵幀分塊,每塊轉化為向量,不同向量間通過transformer?unit實現(xiàn)長距離特征關聯(lián),得到一個基于塊關聯(lián)的重構結果;將此重構結果的每個像素通過一個矩陣變換得到每個像素的向量,將像素的向量通過transformer?unit實現(xiàn)長距離特征關聯(lián),得到長距離關聯(lián)特征。
4.根據(jù)權利要求3所述的3d可變形卷積結合transformer的視頻壓縮感知重構方法,其特征在于,步驟s6具體為:首先1通道的五維3d特征圖,首先經(jīng)過32個3d可變形卷積核得到32通道的輸出特征圖,該32通道的輸出特征圖經(jīng)過五層殘差連接的3d可變形卷積網(wǎng)絡得到32通道特征圖,該32通道特征圖與首次3d可變形卷積得到的32通道特征圖通過跨越連接在通道維度上拼接,得到64通道的3d特征圖;將此3d特征圖經(jīng)過3個3d可變形卷積層,得到一通道的輸出特征圖,即為所有幀的深度重構結果。
5.根據(jù)權利要求4所述的3d可變形卷積結合transformer的視頻壓縮感知重構方法,其特征在于,還包括:從所有幀的深度重構結果中提取第四幀,計算重構第四幀與原始視頻第四幀二者間的均方誤差,作為損失函數(shù)。
6.一種3d可變形卷積結合transformer的視頻壓縮感知重構模型,用于實現(xiàn)如權利要求1-5任一項所述的方法,其特征在于,模型結構包括:
7.根據(jù)權利要求6所述的3d可變形卷積結合transformer的視頻壓縮感知重構模型,其特征在于,所述cnn獨立重構模塊的多個卷積層的卷積核大小都為3×3,步長均為1×1,卷積均補零,使用elu進行激活;池化層使用最大池化;反卷積層卷積核大小為2×2,步長為2×2,卷積不補零。
8.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如權利要求1至5中任一項所述的視頻壓縮感知重構方法。
9.一種電子設備,其特征在于,包括處理器和存儲器,所述存儲器中存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)如權利要求1至5中任一項所述的視頻壓縮感知重構方法。
10.一種視頻處理系統(tǒng),其特征在于,包括視頻輸入模塊、如權利要求6至7中任一項所述的模型和視頻輸出模塊,該系統(tǒng)通過所述模型對輸入的視頻進行壓縮感知重構并輸出。