本發(fā)明涉及視覺信息壓縮與解壓縮。更具體地,本發(fā)明涉及一種基于神經(jīng)網(wǎng)絡(luò)的使用長短注意力模塊進行學(xué)習(xí)圖像壓縮和解壓縮中的特征提取的方法及其設(shè)備。
背景技術(shù):
1、諸如圖片或圖像(例如,靜止圖片(靜止圖像)以及運動圖片(運動圖像)(例如,圖片流和視頻))等視覺信息是獲取信息的主要媒介中的一者。例如,如今,為了在用戶之間交換各種信息,越來越多地執(zhí)行以下動作:通過有線和/或無線網(wǎng)絡(luò)傳輸靜態(tài)圖像,以及通過有線或無線移動網(wǎng)絡(luò)傳輸視頻和/或視頻流,廣播數(shù)字電視信號,通過有線或無線移動網(wǎng)絡(luò)進行實時視頻對話(例如,視頻聊天或視頻會議)以及將圖像和視頻存儲在便攜式存儲介質(zhì)(例如,dvd磁盤或藍光磁盤)上。
2、然而,未經(jīng)壓縮的圖像在保存和傳輸時通常會消耗大量的資源。因此,為了高效的存儲和傳輸圖像,圖像壓縮和解壓縮算法變得越來越重要。
3、圖像壓縮和解壓縮分別涉及編碼和解碼。編碼是壓縮并且還可能改變圖片(圖像)內(nèi)容格式的過程。編碼很重要,因為編碼減少了通過有線或無線移動網(wǎng)絡(luò)傳輸圖片(圖像)所需的帶寬。另一方面,解碼是對經(jīng)編碼或經(jīng)壓縮的圖片(圖像)進行解碼或解壓縮的過程。由于編碼和解碼適用于不同的設(shè)備,因此已經(jīng)制定了稱為編解碼器的編碼標(biāo)準(zhǔn)和解碼標(biāo)準(zhǔn)。編解碼器通常是一種用于對圖像進行編碼和解碼的算法。
4、聯(lián)合圖像專家組(joint?photographic?expert,jpeg)于1994年成立,作為圖像壓縮的國際標(biāo)準(zhǔn),jpeg至今仍是應(yīng)用最廣泛的圖像壓縮算法中的一者(參見非專利參考文獻[1])。此外,在過去的幾十年中,已經(jīng)發(fā)布了多種圖像壓縮標(biāo)準(zhǔn),例如jpeg2000(參見非專利參考文獻[2])和bpg(參見非專利參考文獻[3])。最新的h.266/通用視頻編碼(versatilevideo?coding,vvc)標(biāo)準(zhǔn)于2018年正式發(fā)布,該標(biāo)準(zhǔn)代表了最先進的可用編碼技術(shù)(參見非專利參考文獻[4])。相較于上一代標(biāo)準(zhǔn)(h.265/hevc),h.266進一步提升了壓縮性能,為用戶減少了50%的數(shù)據(jù)大小,同時保持了視頻質(zhì)量。其還在不斷的更新迭代,以實現(xiàn)更高的壓縮效率。
5、與許多其他技術(shù)領(lǐng)域一樣,深度神經(jīng)網(wǎng)絡(luò)在圖像壓縮和解壓縮領(lǐng)域也得到了廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?network,cnn)運算中的局部連接和參數(shù)共享兩個特點體現(xiàn)了其在圖像壓縮方面的優(yōu)勢。與傳統(tǒng)方法不同,基于cnn的端到端優(yōu)化要求函數(shù)在梯度下降中全局可微。為了解決這個問題,ballé等人(見非專利參考文獻[5])在2016年提出了一種基于廣義散度歸一化的基于cnn圖像編碼框架。其網(wǎng)絡(luò)結(jié)構(gòu)主要分為兩部分:一部分負(fù)責(zé)分析圖像的潛在表示,另一部分負(fù)責(zé)使用廣義散度歸一化函數(shù)作為激活函數(shù)進行重建和逆過程。該方法實現(xiàn)了與jpeg2000相當(dāng)?shù)木幋a性能。
6、后來,ballé等人(參見非專利參考[6])將超先驗編解碼器與先前的方法相結(jié)合,以進一步減少各特征圖之間的空間冗余,并提高壓縮效率。
7、這兩項工作提供了基于cnn的圖像壓縮的可行性。cheng等人(參見非專利參考文獻[7])于2020年提出的最新研究是基于高斯混合模型和注意力機制的圖像壓縮方法,該方法在柯達(kodak)數(shù)據(jù)集上實現(xiàn)了與vvc相當(dāng)?shù)膲嚎s效率。
8、基于深度學(xué)習(xí)的圖像壓縮中有兩個模塊對比特節(jié)省有顯著影響。一個模塊用于構(gòu)建靈活、準(zhǔn)確的熵模型,以幫助網(wǎng)絡(luò)同時進行編碼和解碼以節(jié)省比特,而另一模塊用于在自動編碼器階段提取圖像更準(zhǔn)確的潛在表示,從而減少空間冗余以節(jié)省比特。
9、引用的現(xiàn)有技術(shù)
10、[非專利文獻]
11、非專利文獻1gregory?k.wallace,“the?jpeg?still?picture?compressionstandard(jpeg靜態(tài)圖像壓縮標(biāo)準(zhǔn))”,ieee消費電子學(xué)報,第38卷,第1期,第xviii-xxxiv頁,1992年。
12、非專利文獻2majid?rabbani和rajan?joshi,“an?overview?of?the?jpeg2000still?image?compression?standard(jpeg?2000靜態(tài)圖像壓縮標(biāo)準(zhǔn)概述)”,信號處理:圖像通信,第17卷,第1期,第3-48頁,2002年。
13、非專利文獻3gary?j?sullivan、jens-rainer?ohm、woo-jin?han和thomaswiegand,“overview?of?the?high?efficiency?video?coding(hevc)standard(高效視頻編碼(hevc)標(biāo)準(zhǔn)概述)”,ieee視頻技術(shù)電路與系統(tǒng)學(xué)報,第22卷,第12期,第1649-1668頁,2012年。
14、非專利文獻4jens-rainer?ohm和gary?j.sullivan,“versatile?video?codingtowards?the?next?generation?of?video?compression(面向下一代視頻壓縮的通用視頻編碼)”,記載于圖片編碼研討會論文集,2018年,第2018卷。
15、非專利文獻5johannes?balle、valero?laparra和eero?p.simoncelli,“end-to-end?optimized?image?compression(端到端優(yōu)化圖像壓縮)”,arxiv預(yù)印本arxiv:1611.01704,2016年。
16、非專利文獻6johannes?balle、david?minnen、saurabh?singh、sung?jin?hwang和nick?johnston,“variational?image?compression?with?a?scale?hyperprior(具有尺度超先驗的變分圖像壓縮)”,arxiv預(yù)印本arxiv:1802.01436,2018年。
17、非專利文獻7zhengxue?cheng、heming?sun、masaru?takeuchi和jiro?katto,“l(fā)earned?image?compression?with?discretized?gaussian?mixture?likelihoods?andattention?modules(使用離散高斯混合似然和注意力模塊的學(xué)習(xí)圖像壓縮)”,記載于ieee/cvf計算機視覺與模式識別會議論文集,第7939-7948頁,2020年。
18、非專利文獻8jean?begaint、fabien?racape、simon?feltman和akshaypushparaja,“compressai:a?pytorch?library?and?evaluation?platform?for?end-to-end?compression?research(用于端到端壓縮研究的pytorch庫和評估平臺)”,arxiv預(yù)印本arxiv:2011.03029,2020年。
19、非專利文獻9david?minnen、johannes?balle和george?d.toderici,“jointautoregressive?and?hierarchical?priors?for?learned?image?compression(用于學(xué)習(xí)圖像壓縮的聯(lián)合自回歸和分層先驗)”,神經(jīng)信息處理系統(tǒng)進展,第31卷,2018年。
20、技術(shù)問題
21、然而,傳統(tǒng)的圖像壓縮在編碼階段非常復(fù)雜。在h.266/vvc的幀內(nèi)預(yù)測模塊中,需要嘗試67種預(yù)測模式來找到最適合當(dāng)前編碼單元(coding?unit,cu)的預(yù)測模式。例如,傳統(tǒng)編碼方法中需要對圖像的每個編碼單元(cu)采用不同的編碼方法,這在降低比特率的同時增加了圖像壓縮的復(fù)雜度。大多數(shù)基于端到端網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)方法都采用與ballé等人的工作相同的編碼結(jié)構(gòu)(參見非專利參考文獻[5])。當(dāng)前基于深度學(xué)習(xí)的圖像壓縮方法主要側(cè)重于構(gòu)建準(zhǔn)確、靈活的熵模型,而忽略了編碼端處對圖像的潛在表示的準(zhǔn)確提取。
22、因此,需要提高編碼端處對圖像的潛在表示的準(zhǔn)確提取。
技術(shù)實現(xiàn)思路
1、所提到的問題和缺點由獨立權(quán)利要求的主題解決。在從屬權(quán)利要求中定義了進一步的優(yōu)選實施例。具體地,本發(fā)明的實施例通過節(jié)省圖像壓縮中的比特率提供了關(guān)于提高效率的顯著益處。
2、根據(jù)本發(fā)明的第一方面,提供了一種使用神經(jīng)網(wǎng)絡(luò)進行特征提取的方法,該方法包括:
3、通過經(jīng)由神經(jīng)網(wǎng)絡(luò)的彼此依次連接的至少兩個殘差塊處理輸入特征集,來從該輸入特征集中提取第一組特征;
4、從該輸入特征集中提取第二組特征,提取該第二組特征包括以下步驟:
5、通過非局部注意力處理從該輸入特征集中提取第三組特征和第四組特征,以及
6、通過多頭機制對該輸入特征集、第三組特征和第四組特征實施組卷積,以獲得該第二組特征。
7、根據(jù)本發(fā)明的第二方面,提供了一種使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像壓縮的方法,該方法包括執(zhí)行以下步驟:
8、從待壓縮的輸入圖像數(shù)據(jù)中提取一組特征(x);以及
9、通過執(zhí)行以下步驟,從提取自待壓縮的輸入圖像數(shù)據(jù)的該一組特征(x)中提取一組特征(y),該一組特征(y)指示待壓縮的輸入圖像數(shù)據(jù)的潛在表示:
10、由神經(jīng)網(wǎng)絡(luò)的以流式排列的至少四個卷積層對從輸入圖像數(shù)據(jù)中提取的該一組特征(x)執(zhí)行至少四步下采樣卷積處理,以及
11、在通過該至少四個卷積層中的兩個卷積層進行兩步下采樣卷積處理之后,通過將基于該兩個卷積層中的第二卷積層的輸出的一組特征用作該輸入特征集,至少執(zhí)行一次根據(jù)上述第一方面的特征提取的步驟,從而提取指示輸入圖像數(shù)據(jù)的潛在表示的該一組特征(y);并且
12、該方法還包括以下步驟:
13、輸出所提取的指示輸入圖像數(shù)據(jù)的潛在表示的該一組特征(y)。
14、根據(jù)本發(fā)明的第三方面,提供了一種使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像解壓縮的方法,該方法包括:
15、從待解壓縮的輸入特征集中提取一組特征;以及
16、通過執(zhí)行以下步驟從所提取的該一組特征中提取指示輸入圖像數(shù)據(jù)的重建圖像的一組特征:
17、將從待解壓縮的輸入特征集中提取的該一組特征用作輸入特征集,來執(zhí)行根據(jù)權(quán)利要求1所述的特征提取方法的步驟,
18、由神經(jīng)網(wǎng)絡(luò)的以流式排列的至少四個卷積層對從待解壓縮的輸入特征集中提取的該一組特征執(zhí)行上采樣卷積處理,以及
19、在由該至少四個卷積層中的兩個卷積層進行兩步上采樣卷積處理之后,通過將基于該兩個卷積層中的第二卷積層的輸出的一組特征用作輸入特征集,至少執(zhí)行一次根據(jù)上述第一方面的特征提取,從而提取指示該輸入圖像數(shù)據(jù)的重建圖像的一組特征;并且
20、該方法還包括:
21、輸出所提取的指示輸入圖像數(shù)據(jù)的重建圖像的該一組特征。
22、根據(jù)本發(fā)明的第四方面,提供了一種使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像處理的方法,該方法包括:
23、執(zhí)行上述第二方面的步驟;
24、在第一處理路徑和第二處理路徑中提供所輸出的提取出的指示輸入圖像數(shù)據(jù)的潛在表示的該一組特征(y),其中:
25、在第一處理路徑中執(zhí)行以下步驟:
26、由超編碼器從所提供的指示潛在表示的一組特征中獲取(獲學(xué)習(xí))建模信息,
27、由量化器量化建模信息,以及
28、由超解碼器從所量化的建模信息中獲取解碼信息,
29、其中,在第二處理路徑中執(zhí)行以下步驟:
30、通過上下文模型從量化潛在表示中獲得輔助信息,該量化潛在表示指示由量化器量化的潛在表示,
31、由熵模型結(jié)合經(jīng)解碼的信息和輔助信息,來計算建模參數(shù);以及
32、根據(jù)建模參數(shù)計算熵解碼器的輸出;并且該方法還包括以下步驟:
33、將熵解碼器的輸出用作待解壓縮的輸入特征集,通過上述第三方面的圖像解壓縮方法生成重建圖像。
34、根據(jù)本發(fā)明的第五方面,提供了一種用于圖像數(shù)據(jù)壓縮的編碼器,該編碼器包括:
35、第一下采樣處理裝置,該第一下采樣處理裝置用于對從輸入圖像數(shù)據(jù)獲得的輸入特征集進行下采樣處理;
36、第一過濾裝置,該第一過濾裝置用于從第一下采樣處理裝置的輸出中提取一組混合特征,該混合特征包括局部特征和全局特征;
37、第二下采樣處理裝置,該第二下采樣處理裝置用于對所提取的該一組混合特征進行下采樣處理;以及
38、第二過濾器裝置,該第二過濾器裝置從用于下采樣的第二下采樣處理裝置的輸出中提取輸入圖像數(shù)據(jù)的潛在表示。
39、根據(jù)本發(fā)明的第六方面,提供了一種用于圖像數(shù)據(jù)解壓縮的解碼器,該解碼器包括:
40、第一過濾裝置,該第一過濾裝置用于從待解壓縮的輸入特征集中提取特征;
41、第一上采樣處理裝置,該第一上采樣處理裝置用于對從第一過濾裝置預(yù)過濾器輸出的一組特征進行上采樣處理;
42、第二過濾裝置,該第二過濾裝置用于從輸出自第一上采樣處理裝置的一組特征中提取特征;以及
43、第二上采樣處理裝置,該第二上采樣處理裝置用于對從第二過濾裝置輸出的一組特征進行上采樣處理,以獲得表示輸入特征集的重建圖像的一組特征。