本發(fā)明涉及視頻數(shù)據(jù)的壓縮,特別涉及一種視頻數(shù)據(jù)壓縮重構(gòu)方法、系統(tǒng)、設(shè)備與介質(zhì)。
背景技術(shù):
1、隨著高清、超高清視頻內(nèi)容的日益普及,如何在保證視頻質(zhì)量的同時,有效減少視頻數(shù)據(jù)的存儲空間和傳輸帶寬需求,成了一個亟待解決的問題。
2、傳統(tǒng)的視頻壓縮標(biāo)準(zhǔn),如h.264/avc、h.265/hevc,主要依賴于基于塊的運(yùn)動補(bǔ)償和變換編碼等技術(shù),用來減少視頻序列中的空域冗余,提高壓縮比。
3、盡管這些方法在壓縮效率上已經(jīng)取得了顯著成就,但仍面臨計(jì)算復(fù)雜度高,對硬件資源要求多等挑戰(zhàn),在塊之間引入的非連續(xù)性的塊效應(yīng),嚴(yán)重影響視覺質(zhì)量,尤其是在處理高分辨率、高幀率視頻時表現(xiàn)更為明顯。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于針對上述現(xiàn)有技術(shù)的不足,提供一種視頻數(shù)據(jù)壓縮重構(gòu)方法、系統(tǒng)、設(shè)備與介質(zhì),以解決現(xiàn)有技術(shù)中面臨計(jì)算復(fù)雜度高,對硬件資源要求多等挑戰(zhàn),在塊之間引入的非連續(xù)性的塊效應(yīng),嚴(yán)重影響視覺質(zhì)量,尤其是在處理高分辨率、高幀率視頻時表現(xiàn)更為明顯的問題。
2、本發(fā)明具體提供如下技術(shù)方案:一種視頻數(shù)據(jù)壓縮重構(gòu)方法,包括如下步驟:
3、獲取視頻數(shù)據(jù),并通過卷積神經(jīng)網(wǎng)絡(luò)提取視頻數(shù)據(jù)中視頻幀的特征向量;
4、在壓縮端,使用字典存儲視頻幀時,將所述特征向量作為字典中一組基向量的線性組合,并使用正交匹配算法對特征向量進(jìn)行稀疏編碼,獲得視頻幀的稀疏系數(shù),且使用熵編碼對視頻幀的稀疏系數(shù)進(jìn)行編碼,獲得編碼字符串;
5、在解壓縮端,讀取編碼字符串,并搜索字符串的每一位,根據(jù)當(dāng)前字符串的位數(shù)移動字符串對應(yīng)的節(jié)點(diǎn),并在移動后的所述節(jié)點(diǎn)為葉子節(jié)點(diǎn)時將對應(yīng)的稀疏系數(shù)添加到解壓縮后的稀疏系數(shù)中;所述節(jié)點(diǎn)由稀疏系數(shù)構(gòu)成;
6、基于存儲視頻幀的字典,利用逆稀疏編碼將稀疏系數(shù)特征向量重構(gòu)為原始特征向量,輸出由原始特征向量重構(gòu)后的視頻幀。
7、優(yōu)選的,所述提取視頻數(shù)據(jù)中視頻幀的特征向量,包括如下步驟:
8、通過卷積神經(jīng)網(wǎng)絡(luò)的多個卷積核進(jìn)行組合,并通過每個卷積核與輸入視頻幀的一個局部區(qū)域進(jìn)行卷積,生成一個特征圖;
9、對所述特征圖通過池化層進(jìn)行平均池化,將特征圖轉(zhuǎn)換為一個固定長度的特征向量;
10、遍歷視頻幀的集合,并將每個幀輸入卷積神經(jīng)網(wǎng)絡(luò),使用卷積神經(jīng)網(wǎng)絡(luò)的前向傳播獲得每一幀圖像的特征向量。
11、優(yōu)選的,提取視頻數(shù)據(jù)中視頻幀的特征向量之前,還包括如下步驟:
12、對視頻數(shù)據(jù)進(jìn)行視頻去噪處理,并對去噪后的視頻數(shù)據(jù)進(jìn)行顏色空間轉(zhuǎn)換;
13、對經(jīng)過顏色空間轉(zhuǎn)換后的視頻數(shù)據(jù)進(jìn)行分針操作,獲得視頻幀。
14、優(yōu)選的,將所述特征向量作為字典中一組基向量的線性組合,并使用正交匹配算法對特征向量進(jìn)行稀疏編碼,獲得視頻幀的稀疏系數(shù),包括如下步驟:
15、通過k-svd算法初始化一個字典d∈rm*k,獲取特征向量對應(yīng)的稀疏表示a i,使得系數(shù)特征向量x i≈da i,將每個特征向量表示為字典中一組基向量的線性組合;其中,m是特征空間的維度,k是字典的大小,r是實(shí)數(shù)集;
16、使用正交匹配追蹤omp算法來求解稀疏編碼:,其中λ是正則化參數(shù),是取矩陣“?”的2范數(shù)的平方,為取矩陣“?”的1范數(shù);
17、選擇一個系數(shù)特征向量x i和其對應(yīng)的稀疏編碼a i,更新字典中的一個基向量d j,使得x i和a i之間的誤差最小化;
18、其中基向量d j的更新表達(dá)式為:
19、;
20、重復(fù)更新字典中的一個基向量d j的步驟,獲得一個優(yōu)化的字典d,且對于每個輸入的視頻幀特征,使用學(xué)到的字典進(jìn)行稀疏編碼,獲取一組視頻幀的稀疏系數(shù)。
21、優(yōu)選的,使用熵編碼對視頻幀的稀疏系數(shù)進(jìn)行編碼,獲得編碼字符串,包括如下步驟:
22、獲取稀疏系數(shù)組中的每個系數(shù)的概率,并將每個系數(shù)的概率構(gòu)建一個頻率從小到大排序的哈夫曼樹;
23、通過深度優(yōu)先搜索的方式進(jìn)行遍歷,在每次遍歷到左子節(jié)點(diǎn)時路徑字符串末尾添加字符'0',遍歷到右子節(jié)點(diǎn)時路徑字符串末尾添加字符'1',當(dāng)?shù)竭_(dá)葉子節(jié)點(diǎn)時,將路徑字符串與該葉子節(jié)點(diǎn)對應(yīng)的稀疏系數(shù)特征向量關(guān)聯(lián)起來,形成哈夫曼編碼表;
24、遍歷稀疏系數(shù)組的每個值,使用哈夫曼編碼表來替換對應(yīng)的哈夫曼編碼,生成一個編碼字符串。
25、優(yōu)選的,所述利用逆稀疏編碼將稀疏系數(shù)特征向量重構(gòu)為原始特征向量,輸出由原始特征向量重構(gòu)后的視頻幀,包括如下步驟:
26、基于正交匹配追蹤omp算法,通過所述稀疏系數(shù)來算出稀疏表示a i,使用上述系數(shù)表示模塊優(yōu)化后的字典d,通過重構(gòu)公式x i≈da i來得到的原始的特征向量x i;
27、通過生成器網(wǎng)絡(luò)ga,將特征向量作為生成器網(wǎng)絡(luò)進(jìn)行輸入,生成器網(wǎng)絡(luò)內(nèi)部的逆卷積層會將輸入特征向量調(diào)整為具有圖像結(jié)構(gòu)和細(xì)節(jié)的輸出圖像;
28、在卷積層之后添加批量歸一化層,在批量歸一化層之后應(yīng)用relu激活函數(shù),激活函數(shù)引入非線性,使得生成器學(xué)習(xí)映射關(guān)系;
29、生成器網(wǎng)絡(luò)通過一個輸出層將特征的映射關(guān)系轉(zhuǎn)換為最終的生成圖像,將每個特征向量作為輸入提供給生成器網(wǎng)絡(luò)gan,通過輸出層得到視頻幀。
30、優(yōu)選的,所述輸出由原始特征向量重構(gòu)后的視頻幀之后,還將重構(gòu)完的所有視頻幀進(jìn)行合并,以及顏色空間轉(zhuǎn)換處理。
31、本發(fā)明提供一種視頻數(shù)據(jù)壓縮重構(gòu)系統(tǒng),包括:
32、數(shù)據(jù)提取模塊,用于獲取視頻數(shù)據(jù),并通過卷積神經(jīng)網(wǎng)絡(luò)提取視頻數(shù)據(jù)中視頻幀的特征向量;
33、壓縮模塊,用于在壓縮端,使用字典存儲視頻幀時,將所述特征向量作為字典中一組基向量的線性組合,并使用正交匹配算法對特征向量進(jìn)行稀疏編碼,獲得視頻幀的稀疏系數(shù),且使用熵編碼對視頻幀的稀疏系數(shù)進(jìn)行編碼,獲得編碼字符串;
34、解壓模塊,用于在解壓縮端,讀取編碼字符串,并搜索字符串的每一位,根據(jù)當(dāng)前字符串的位數(shù)移動字符串對應(yīng)的節(jié)點(diǎn),并在移動后的所述節(jié)點(diǎn)為葉子節(jié)點(diǎn)時將對應(yīng)的稀疏系數(shù)添加到解壓縮后的稀疏系數(shù)中;所述節(jié)點(diǎn)由稀疏系數(shù)構(gòu)成;
35、重構(gòu)模塊,用于基于存儲視頻幀的字典,利用逆稀疏編碼將稀疏系數(shù)特征向量重構(gòu)為原始特征向量,輸出由原始特征向量重構(gòu)后的視頻幀。
36、本發(fā)明提供一種計(jì)算機(jī)設(shè)備,包括存儲器及處理器,所述存儲器中儲存有程序,所述程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行上述一種視頻數(shù)據(jù)壓縮重構(gòu)方法的步驟。
37、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下顯著優(yōu)點(diǎn):
38、本發(fā)明對視頻數(shù)據(jù)中視頻幀提取的特征向量使用正交匹配算法進(jìn)行稀疏編碼,獲得視頻幀的稀疏系數(shù),并對稀疏系數(shù)進(jìn)行編碼,獲得編碼字符串,在讀取時,通過讀取編碼字符串,搜索字符串的每一位的位數(shù)移動字符串對應(yīng)的節(jié)點(diǎn),在該節(jié)點(diǎn)為葉子節(jié)點(diǎn)時將對應(yīng)的稀疏系數(shù)特征向量添加到解壓縮后的稀疏系數(shù)特征向量中,利用逆稀疏編碼將稀疏系數(shù)特征向量重構(gòu)為原始特征向量,輸出由原始特征向量生成重構(gòu)的視頻幀。本發(fā)明通過識別和利用視頻信號在特定變換域中的稀疏性,僅需存儲或傳輸少量非零系數(shù)即可重構(gòu)出原始視頻幀,實(shí)現(xiàn)遠(yuǎn)高于傳統(tǒng)壓縮標(biāo)準(zhǔn)的壓縮比率,這種特性使得在保證視頻質(zhì)量的前提下,可以實(shí)現(xiàn)更高的壓縮比。