本公開涉及圖像壓縮技術領域,尤其涉及一種基于混合失真度量準則的編解碼裝置及方法。
背景技術:
圖像壓縮技術中的失真度量可被分為像素保真度(pixelfidelity)、感知保真度(perceptualfidelity)、語義保真度(semanticfidelity)三個等級。傳統(tǒng)圖像編碼的核心框架包含預測、變換、量化、熵編碼等模塊,像素保真度失真度量被現(xiàn)有的圖像編碼框架廣泛使用,而感知保真度、語義保真度則很難被整合進入現(xiàn)有的圖像編碼框架,只能采用啟發(fā)式的方法進行相關準則下的編碼優(yōu)化此,本領域亟需一種可以集成整合不同失真度量準則進行參數(shù)優(yōu)化的圖像編解碼框架。
技術實現(xiàn)要素:
(一)要解決的技術問題
本公開提出一種基于混合失真度量準則的編解碼裝置及方法,集成整合不同失真度量準則進行參數(shù)優(yōu)化,能夠實現(xiàn)任務驅動型圖像壓縮。
(二)技術方案
本公開提供了一種混合失真度量準則的編解碼裝置,包括:壓縮模塊,用于對待壓縮圖像進行壓縮,得到輸出碼流;解壓縮模塊,用于對所述碼流進行解壓縮,得到重構圖像;混合失真度量準則變換模塊,用于將所述待壓縮圖像與重構圖像轉換到失真度量準則所處的空間,得到失真度量;梯度傳遞模塊,用于將上述失真度量傳遞給上述壓縮模塊和解壓縮模塊,以使上述壓縮模塊和解壓縮模塊的參數(shù)被更新。
在一些實施例中,所述失真度量準則包括像素保真度、感知保真度和語義保真度的至少其中之一。
在一些實施例中,所述失真度量為待壓縮圖像與重構圖像在失真度量準則所處空間的特征向量之間的距離。
在一些實施例中,所述壓縮模塊包括:編碼子模塊,用于對待壓縮圖像執(zhí)行編碼操作得到編碼輸出;量化子模塊,用于對編碼輸出執(zhí)行量化操作得到量化輸出;無損壓縮子模塊,用于對量化輸出執(zhí)行無損壓縮操作得到輸出碼流。
在一些實施例中,所述解壓縮模塊包括:無損解壓子模塊,用于對碼流執(zhí)行無損壓縮的逆操作,得到量化輸出;解碼子模塊,用于對量化輸出執(zhí)行解碼操作,得到重構的圖像。
在一些實施例中,所述梯度傳遞模塊利用梯度下降算法將失真度量逐步傳遞給編碼子模塊、量化子模塊以及解碼子模塊,編碼子模塊、量化子模塊和解碼子模塊的參數(shù)被更新。
在一些實施例中,所述編碼子模塊采用區(qū)域自適應池化編碼器。
在一些實施例中,所述解碼子模塊采用人工神經(jīng)網(wǎng)絡解碼器,其采用對抗的方式訓練而成。
在一些實施例中,所述混合失真度量準則變換模塊采用人臉識別網(wǎng)絡實現(xiàn)。
本公開還提供了一種基于混合失真度量準則的編解碼方法,利用上述任一項所述的編解碼裝置,包括:步驟s1:壓縮模塊對待壓縮圖像進行壓縮,得到輸出碼流;步驟s2:解壓縮模塊對碼流進行解壓縮,得到重構圖像;步驟s3:混合失真度量準則變換模塊將待壓縮圖像x與重構圖像
(三)有益效果
從上述技術方案可以看出,本公開具有以下有益效果:
(1)通過集成不同的失真度量準則,可以根據(jù)特定任務要求進行圖像壓縮,這些任務方案包括基于像素保真度的壓縮、基于感知保真度的壓縮和基于語義保真度的壓縮。
(2)在人臉圖像壓縮中,可以在壓縮圖像大小的同時保留基本語義特征,使得恢復重建的人臉圖像依舊能夠被算法準確識別。
(3)在同一識別率的情況下,相比于標準的jpeg2000編解碼器能夠節(jié)省76.63%的比特率,相比于webp編解碼器能夠節(jié)省56.23%的比特率。
附圖說明
圖1是本公開實施例基于混合失真度量準則的編解碼裝置的結構示意圖。
圖2是本公開實施例基于混合失真度量準則的編解碼裝置的工作流程圖。
圖3是本公開實施例基于混合失真度量準則的編解碼裝置應用于人臉圖像壓縮的工作流程圖。
圖4是本公開實施例基于混合失真度量準則的編解碼方法流程圖。
具體實施方式
本發(fā)明提供了一種端到端的混合圖像編解碼裝置,其集成了混合的失真度量準則。為使本公開的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本公開進一步詳細說明。
如圖1所示,本實施例的基于混合失真度量準則的編解碼裝置,包括:壓縮模塊、解壓縮模塊、混合失真度量準則變換模塊和梯度傳遞模塊,其中,
壓縮模塊包括編碼子模塊、量化子模塊和無損壓縮子模塊。同時參照圖2,其示出了編解碼裝置的工作流程。編碼子模塊接收待壓縮圖片x作為輸入,對待壓縮圖像x執(zhí)行編碼操作fθ(x)得到編碼輸出,其中編碼操作fθ(x)包含參數(shù)θ。編碼子模塊可以采用多種類型的編碼器實現(xiàn),相應地,編碼操作的參數(shù)θ可以是編碼器的一個參數(shù)或一組參數(shù)。在一個示例中,參見圖3,所述編碼子模塊采用區(qū)域自適應池化(regionallyadaptivepooling)編碼器,其參數(shù)為不同區(qū)域的池化尺寸。該編碼器能夠根據(jù)梯度傳遞模塊傳回的梯度自適應的調(diào)節(jié)待壓縮圖片中不同區(qū)域的池化尺寸,同時達到碼率可變的效果。
量化子模塊接收編碼子模塊的編碼輸出,對編碼輸出執(zhí)行量化操作
無損壓縮子模塊接收量化子模塊的量化輸出c,對量化輸出c執(zhí)行無損壓縮操作l,得到輸出碼流。在一個示例中,無損壓縮子模塊可以包括預測、變換、熵編碼等單元,對量化輸出c執(zhí)行預測、變換、熵編碼等操作。
解壓縮模塊包括無損解壓子模塊和解碼子模塊。由于壓縮過程中的無損壓縮操作l的可逆性,其逆過程l-1可以將碼流恢復成量化輸出c。無損解壓子模塊將碼流作為輸入,對碼流執(zhí)行無損壓縮的逆操作,得到量化輸出c。
解碼子模塊接收無損解壓子模塊的量化輸出c,對量化輸出c執(zhí)行解碼操作gφ(c),其中解碼操作gφ(c)包含參數(shù)φ,得到重構的圖像
混合失真度量準則變換模塊接收待壓縮圖像x和重構圖像
梯度傳遞模塊,接收混合失真度量準則變換模塊的失真度量作為輸入,利用梯度下降算法將失真度量逐步傳遞給壓縮模塊的編碼子模塊、量化子模塊、以及解壓縮模塊的解碼子模塊,更新編碼子模塊、量化子模塊、解碼子模塊的參數(shù)。該操作可以視為誤差的反向傳播過程,梯度越大的部分對輸出誤差所擔負的責任即越大。在訓練過程中,編解碼裝置中各模塊根據(jù)梯度的反向傳播不斷更新,最終達到優(yōu)良的性能,達到根據(jù)失真度量準則優(yōu)化編解碼參數(shù)的目的。
本公開通過集成不同的失真度量準則,可以根據(jù)特定任務要求進行圖像壓縮,這些任務方案包括基于像素保真度的壓縮、基于感知保真度的壓縮和基于語義保真度的壓縮。在人臉圖像壓縮實例中,可以在壓縮圖像大小的同時保留基本語義特征,使得恢復重建的人臉圖像依舊能夠被算法準確識別。經(jīng)驗證,在同一識別率的情況下,相比于標準的jpeg2000編解碼器能夠節(jié)省76.63%的比特率,相比于webp編解碼器能夠節(jié)省56.23%的比特率。
如圖4所示,本公開另一實施例提供了一種基于混合失真度量準則的編解碼方法,其利用上述編解碼裝置,包括:
步驟s1:壓縮模塊對待壓縮圖像進行壓縮,得到輸出碼流。
具體地,步驟s1包括:
子步驟s1a:編碼子模塊接收待壓縮圖片x作為輸入,對待壓縮圖像x執(zhí)行編碼操作fθ(x)得到編碼輸出。
子步驟s1b:量化子模塊接收編碼子模塊的編碼輸出,對編碼輸出執(zhí)行量化操作
子步驟s1c:無損壓縮子模塊接收量化子模塊的量化輸出c,對量化輸出c執(zhí)行無損壓縮操作l,得到輸出碼流。
步驟s2:解壓縮模塊對碼流進行解壓縮,得到重構圖像。
具體地,步驟s2包括:
子步驟s2a:無損解壓子模塊將碼流作為輸入,對碼流執(zhí)行無損壓縮的逆操作,得到量化輸出c。
子步驟s2b:解碼子模塊接收無損解壓子模塊的量化輸出c,對量化輸出c執(zhí)行解碼操作gφ(c),得到重構的圖像
步驟s3:混合失真度量準則變換模塊將待壓縮圖像x與重構圖像
步驟s4:梯度傳遞模塊,接收混合失真度量準則變換模塊的失真度量作為輸入,利用梯度下降算法將失真度量逐步傳遞給壓縮模塊和解壓縮模塊,更新編碼子模塊、量化子模塊、解碼子模塊的參數(shù)。
至此,已經(jīng)結合附圖對本實施例進行了詳細描述。依據(jù)以上描述,本領域技術人員應當對本公開有了清楚的認識。
需要說明的是,在附圖或說明書正文中,未繪示或描述的實現(xiàn)方式,均為所屬技術領域中普通技術人員所知的形式,并未進行詳細說明。此外,上述對各元件的定義并不僅限于實施例中提到的各種具體結構、形狀或方式,本領域普通技術人員可對其進行簡單地更改或替換,例如:
(1)實施例中提到的方向用語,例如“上”、“下”、“前”、“后”、“左”、“右”等,僅是參考附圖的方向,并非用來限制本公開的保護范圍;
(2)上述實施例可基于設計及可靠度的考慮,彼此混合搭配使用或與其他實施例混合搭配使用,即不同實施例中的技術特征可以自由組合形成更多的實施例。
以上所述的具體實施例,對本公開的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本公開的具體實施例而已,并不用于限制本公開,凡在本公開的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本公開的保護范圍之內(nèi)。