基于混合失真度量準則的編解碼裝置及方法與流程

文檔序號：11279651閱讀：376來源：國知局

本公開涉及圖像壓縮技術領域，尤其涉及一種基于混合失真度量準則的編解碼裝置及方法。

背景技術：

圖像壓縮技術中的失真度量可被分為像素保真度(pixelfidelity)、感知保真度(perceptualfidelity)、語義保真度(semanticfidelity)三個等級。傳統(tǒng)圖像編碼的核心框架包含預測、變換、量化、熵編碼等模塊，像素保真度失真度量被現(xiàn)有的圖像編碼框架廣泛使用，而感知保真度、語義保真度則很難被整合進入現(xiàn)有的圖像編碼框架，只能采用啟發(fā)式的方法進行相關準則下的編碼優(yōu)化此，本領域亟需一種可以集成整合不同失真度量準則進行參數(shù)優(yōu)化的圖像編解碼框架。

技術實現(xiàn)要素：

(一)要解決的技術問題

本公開提出一種基于混合失真度量準則的編解碼裝置及方法，集成整合不同失真度量準則進行參數(shù)優(yōu)化，能夠實現(xiàn)任務驅動型圖像壓縮。

(二)技術方案

本公開提供了一種混合失真度量準則的編解碼裝置，包括：壓縮模塊，用于對待壓縮圖像進行壓縮，得到輸出碼流；解壓縮模塊，用于對所述碼流進行解壓縮，得到重構圖像；混合失真度量準則變換模塊，用于將所述待壓縮圖像與重構圖像轉換到失真度量準則所處的空間，得到失真度量；梯度傳遞模塊，用于將上述失真度量傳遞給上述壓縮模塊和解壓縮模塊，以使上述壓縮模塊和解壓縮模塊的參數(shù)被更新。

在一些實施例中，所述失真度量準則包括像素保真度、感知保真度和語義保真度的至少其中之一。

在一些實施例中，所述失真度量為待壓縮圖像與重構圖像在失真度量準則所處空間的特征向量之間的距離。

在一些實施例中，所述壓縮模塊包括：編碼子模塊，用于對待壓縮圖像執(zhí)行編碼操作得到編碼輸出；量化子模塊，用于對編碼輸出執(zhí)行量化操作得到量化輸出；無損壓縮子模塊，用于對量化輸出執(zhí)行無損壓縮操作得到輸出碼流。

在一些實施例中，所述解壓縮模塊包括：無損解壓子模塊，用于對碼流執(zhí)行無損壓縮的逆操作，得到量化輸出；解碼子模塊，用于對量化輸出執(zhí)行解碼操作，得到重構的圖像。

在一些實施例中，所述梯度傳遞模塊利用梯度下降算法將失真度量逐步傳遞給編碼子模塊、量化子模塊以及解碼子模塊，編碼子模塊、量化子模塊和解碼子模塊的參數(shù)被更新。

在一些實施例中，所述編碼子模塊采用區(qū)域自適應池化編碼器。

在一些實施例中，所述解碼子模塊采用人工神經(jīng)網(wǎng)絡解碼器，其采用對抗的方式訓練而成。

在一些實施例中，所述混合失真度量準則變換模塊采用人臉識別網(wǎng)絡實現(xiàn)。

本公開還提供了一種基于混合失真度量準則的編解碼方法，利用上述任一項所述的編解碼裝置，包括：步驟s1：壓縮模塊對待壓縮圖像進行壓縮，得到輸出碼流；步驟s2：解壓縮模塊對碼流進行解壓縮，得到重構圖像；步驟s3：混合失真度量準則變換模塊將待壓縮圖像x與重構圖像轉換到失真度量準則所處的空間，得到失真度量；步驟s4：梯度傳遞模塊，將失真度量傳遞給壓縮模塊和解壓縮模塊，以使壓縮模塊和解壓縮模塊的參數(shù)被更新。

(三)有益效果

從上述技術方案可以看出，本公開具有以下有益效果：

(1)通過集成不同的失真度量準則，可以根據(jù)特定任務要求進行圖像壓縮，這些任務方案包括基于像素保真度的壓縮、基于感知保真度的壓縮和基于語義保真度的壓縮。

(2)在人臉圖像壓縮中，可以在壓縮圖像大小的同時保留基本語義特征，使得恢復重建的人臉圖像依舊能夠被算法準確識別。

(3)在同一識別率的情況下，相比于標準的jpeg2000編解碼器能夠節(jié)省76.63％的比特率，相比于webp編解碼器能夠節(jié)省56.23％的比特率。

附圖說明

圖1是本公開實施例基于混合失真度量準則的編解碼裝置的結構示意圖。

圖2是本公開實施例基于混合失真度量準則的編解碼裝置的工作流程圖。

圖3是本公開實施例基于混合失真度量準則的編解碼裝置應用于人臉圖像壓縮的工作流程圖。

圖4是本公開實施例基于混合失真度量準則的編解碼方法流程圖。

具體實施方式

本發(fā)明提供了一種端到端的混合圖像編解碼裝置，其集成了混合的失真度量準則。為使本公開的目的、技術方案和優(yōu)點更加清楚明白，以下結合具體實施例，并參照附圖，對本公開進一步詳細說明。

如圖1所示，本實施例的基于混合失真度量準則的編解碼裝置，包括：壓縮模塊、解壓縮模塊、混合失真度量準則變換模塊和梯度傳遞模塊，其中，

壓縮模塊包括編碼子模塊、量化子模塊和無損壓縮子模塊。同時參照圖2，其示出了編解碼裝置的工作流程。編碼子模塊接收待壓縮圖片x作為輸入，對待壓縮圖像x執(zhí)行編碼操作fθ(x)得到編碼輸出，其中編碼操作fθ(x)包含參數(shù)θ。編碼子模塊可以采用多種類型的編碼器實現(xiàn)，相應地，編碼操作的參數(shù)θ可以是編碼器的一個參數(shù)或一組參數(shù)。在一個示例中，參見圖3，所述編碼子模塊采用區(qū)域自適應池化(regionallyadaptivepooling)編碼器，其參數(shù)為不同區(qū)域的池化尺寸。該編碼器能夠根據(jù)梯度傳遞模塊傳回的梯度自適應的調(diào)節(jié)待壓縮圖片中不同區(qū)域的池化尺寸，同時達到碼率可變的效果。

量化子模塊接收編碼子模塊的編碼輸出，對編碼輸出執(zhí)行量化操作得到緊湊化的量化輸出c，其中量化操作包含參數(shù)量化子模塊可以采用多種形式實現(xiàn)，相應地，量化操作的參數(shù)可以是一個參數(shù)或一組參數(shù)，例如量化等級。

無損壓縮子模塊接收量化子模塊的量化輸出c，對量化輸出c執(zhí)行無損壓縮操作l，得到輸出碼流。在一個示例中，無損壓縮子模塊可以包括預測、變換、熵編碼等單元，對量化輸出c執(zhí)行預測、變換、熵編碼等操作。

解壓縮模塊包括無損解壓子模塊和解碼子模塊。由于壓縮過程中的無損壓縮操作l的可逆性，其逆過程l^-1可以將碼流恢復成量化輸出c。無損解壓子模塊將碼流作為輸入，對碼流執(zhí)行無損壓縮的逆操作，得到量化輸出c。

解碼子模塊接收無損解壓子模塊的量化輸出c，對量化輸出c執(zhí)行解碼操作gφ(c)，其中解碼操作gφ(c)包含參數(shù)φ，得到重構的圖像在一個示例中，參見圖3，所述解碼子模塊可以采用人工神經(jīng)網(wǎng)絡解碼器，例如卷積神經(jīng)網(wǎng)絡解碼器，其采用對抗的方式訓練而成，將解碼器和判別器作為對抗網(wǎng)絡，以一種對抗的形式生成逼真的重構圖像

混合失真度量準則變換模塊接收待壓縮圖像x和重構圖像作為輸入，對待壓縮圖像x和重構圖像執(zhí)行變換操作hψ(x)和將待壓縮圖像x與重構圖像轉換到失真度量準則所處的空間中，得到特征向量s與并得到編解碼裝置的失真度量。所述失真度量準則所處的空間包括信號空間、感知空間和語義空間，在本發(fā)明中，可以將待壓縮圖像x與重構圖像轉換到上述任一個或兩個空間，或者全部三個空間，以根據(jù)失真度量準則優(yōu)化編解碼裝置的參數(shù)。在一個示例中，參見圖3，混合失真度量準則變換模塊采用人臉識別網(wǎng)絡，該人臉識別網(wǎng)絡采用facenet結構，能夠將彩色圖像轉換到語義空間，得到語義特征向量，不同圖像的語義特征向量之間的距離作為失真度量，對于人臉圖像來說，待壓縮圖像x和重構圖像的語義特征向量之間的距離即代表待壓縮圖像x和重構圖像屬于同一個人的可能性，即：同一個人的待壓縮圖像x和重構圖像的語義特征向量之間的距離更加接近。

梯度傳遞模塊，接收混合失真度量準則變換模塊的失真度量作為輸入，利用梯度下降算法將失真度量逐步傳遞給壓縮模塊的編碼子模塊、量化子模塊、以及解壓縮模塊的解碼子模塊，更新編碼子模塊、量化子模塊、解碼子模塊的參數(shù)。該操作可以視為誤差的反向傳播過程，梯度越大的部分對輸出誤差所擔負的責任即越大。在訓練過程中，編解碼裝置中各模塊根據(jù)梯度的反向傳播不斷更新，最終達到優(yōu)良的性能，達到根據(jù)失真度量準則優(yōu)化編解碼參數(shù)的目的。

本公開通過集成不同的失真度量準則，可以根據(jù)特定任務要求進行圖像壓縮，這些任務方案包括基于像素保真度的壓縮、基于感知保真度的壓縮和基于語義保真度的壓縮。在人臉圖像壓縮實例中，可以在壓縮圖像大小的同時保留基本語義特征，使得恢復重建的人臉圖像依舊能夠被算法準確識別。經(jīng)驗證，在同一識別率的情況下，相比于標準的jpeg2000編解碼器能夠節(jié)省76.63％的比特率，相比于webp編解碼器能夠節(jié)省56.23％的比特率。

如圖4所示，本公開另一實施例提供了一種基于混合失真度量準則的編解碼方法，其利用上述編解碼裝置，包括：

步驟s1：壓縮模塊對待壓縮圖像進行壓縮，得到輸出碼流。

具體地，步驟s1包括：

子步驟s1a：編碼子模塊接收待壓縮圖片x作為輸入，對待壓縮圖像x執(zhí)行編碼操作fθ(x)得到編碼輸出。

子步驟s1b：量化子模塊接收編碼子模塊的編碼輸出，對編碼輸出執(zhí)行量化操作得到緊湊化的量化輸出c。

子步驟s1c：無損壓縮子模塊接收量化子模塊的量化輸出c，對量化輸出c執(zhí)行無損壓縮操作l，得到輸出碼流。

步驟s2：解壓縮模塊對碼流進行解壓縮，得到重構圖像。

具體地，步驟s2包括：

子步驟s2a：無損解壓子模塊將碼流作為輸入，對碼流執(zhí)行無損壓縮的逆操作，得到量化輸出c。

子步驟s2b：解碼子模塊接收無損解壓子模塊的量化輸出c，對量化輸出c執(zhí)行解碼操作gφ(c)，得到重構的圖像

步驟s3：混合失真度量準則變換模塊將待壓縮圖像x與重構圖像轉換到失真度量準則所處的空間，得到特征向量s與并得到編解碼裝置的失真度量。

步驟s4：梯度傳遞模塊，接收混合失真度量準則變換模塊的失真度量作為輸入，利用梯度下降算法將失真度量逐步傳遞給壓縮模塊和解壓縮模塊，更新編碼子模塊、量化子模塊、解碼子模塊的參數(shù)。