本發(fā)明涉及虛擬視點圖像質(zhì)量評價,具體涉及基于殘差恢復和多特征融合的虛擬視點圖像質(zhì)量評價方法。
背景技術:
1、隨著多視點視頻、自由視點視頻和多自由度(degree-of-freedom,dof)視頻(3dof、3dof+和6dof)等沉浸式視頻相繼出現(xiàn),極大地增強了用戶的沉浸感和互動體驗。沉浸式視頻旨在為用戶提供身臨其境的視覺體驗,使用戶能夠通過全景視角或虛擬現(xiàn)實(virtual?reality,vr)設備自由探索視頻中的每個角落。然而,要傳輸由大量視點組成的沉浸式視頻卻受到了網(wǎng)絡帶寬的限制。因此,需要對沉浸式視頻系統(tǒng)中的多個視點進行壓縮。同時,為了減少傳輸?shù)囊朁c數(shù)量,通常采用視點合成技術生成新的視點。深度圖像繪制(depth?image?based?rendering,dibr)技術通過采集部分視點的紋理圖像,與其深度圖像進行融合后合成虛擬視點,從而降低攝像機捕獲所有視點的昂貴成本。然而,在虛擬視點繪制過程中,由于深度圖采集不準確和繪制技術的不完善,生成的虛擬視點合成圖像會存在部分普通失真以及不同于傳統(tǒng)圖像的幾何失真,主要表現(xiàn)為紋理失真及結構失真,嚴重影響了人們的視覺體驗。因此,如何有效評估虛擬視點圖像的質(zhì)量已成為虛擬現(xiàn)實技術發(fā)展的關鍵問題之一,建立一套可準確反映人類視覺感知的虛擬視點圖像質(zhì)量客觀評價方法至關重要。
2、目前,已經(jīng)提出了一系列針對虛擬視點圖像的質(zhì)量評價方法,根據(jù)是否參考原始圖像信息主要分為全參考(full-reference,fr)圖像質(zhì)量評價(image?qualityassessment,iqa)方法和無參考(no-reference,nr)iqa方法。fr方法需要獲取參考圖像信息才可對失真的虛擬視點圖像進行評價,并且此類方法對特定幾何失真表現(xiàn)良好,但對其余失真表現(xiàn)不佳。然而,虛擬視點圖像的參考圖像在實際應用中難以獲取,研究人員主要采用nr方法對虛擬視點圖像進行質(zhì)量評價,只需利用圖像自身信息即可完成圖像質(zhì)量的預測。
3、目前主要分為基于手工特征提取的虛擬視點iqa方法和基于深度學習的虛擬視點iqa方法。手工特征提取模型受限于圖像中存在的復雜失真,不足以衡量圖像特征的多樣性。深度學習模型提取的特征與人眼視覺感知更為相似,能夠?qū)⑻卣鲗W習融入到網(wǎng)絡訓練中,通過多層網(wǎng)絡結構輸出更豐富的圖像紋理信息和結構信息。已有的一些nr-iqa方法受到自由能原理的啟發(fā),利用生成對抗網(wǎng)絡(generative?adversarial?network,gan)恢復失真圖像,通過失真圖像與其恢復圖像之間的視覺感知差異來衡量圖像質(zhì)量的優(yōu)劣,此類方法受限于較少的圖像樣本及圖像失真的復雜性,導致其生成的恢復圖像會存在大量的虛假信息。因此,僅利用視覺恢復網(wǎng)絡并不能有效預測合成圖像的質(zhì)量。
4、申請人發(fā)現(xiàn),將視覺恢復網(wǎng)絡與其他特征提取網(wǎng)絡任務相結合,可更充分地提取虛擬視點圖像中的多層特征。因此,如何在利用視覺恢復網(wǎng)絡復原無失真虛擬視點合成圖像的基礎上,進一步探索基于多任務深度學習的nr虛擬視點圖像質(zhì)量評價方法,是該領域技術人員亟需解決的問題。
技術實現(xiàn)思路
1、針對上述現(xiàn)有技術的不足,本發(fā)明所要解決的技術問題是:如何提供一種基于殘差恢復和多特征融合的虛擬視點圖像質(zhì)量評價方法,通過預訓練的視覺殘差恢復網(wǎng)絡模型和efficientnet-b0網(wǎng)絡模型分別提取多尺度的特征圖,進而對兩個網(wǎng)絡提取的多尺度特征圖進行自適應融合,從而提高模型在虛擬視點圖像質(zhì)量評價時的泛化能力、魯棒性和準確性。
2、為了解決上述技術問題,本發(fā)明采用了如下的技術方案:
3、基于殘差恢復和多特征融合的虛擬視點圖像質(zhì)量評價方法,包括:
4、s1:獲取待評價的虛擬視點圖像;
5、s2:將虛擬視點圖像輸入預訓練的基于u-net網(wǎng)絡構建的視覺殘差恢復網(wǎng)絡模型中,通過該模型的編碼端和解碼端分別提取多級退化特征和多級恢復特征,生成多尺度的退化特征圖和恢復特征圖;
6、s3:將虛擬視點圖像輸入預訓練的efficientnet-b0網(wǎng)絡模型中,通過該模型提取多級內(nèi)容特征,生成多尺度的內(nèi)容特征圖;
7、s4:通過多特征權重自適應融合模塊將多尺度的退化特征圖、恢復特征圖和內(nèi)容特征圖進行自適應融合,生成多層融合特征圖;
8、s5:利用基于通道級卷積的通道注意力模塊將多層融合特征圖進行跨通道信息交互,生成融合通道級特征圖;
9、s6:通過全連接層將融合通道級特征圖映射為對應的預測客觀質(zhì)量分數(shù),作為虛擬視點圖像的圖像質(zhì)量評價結果進行輸出。
10、優(yōu)選的,步驟s2中,視覺殘差恢復網(wǎng)絡模型包括編碼器和解碼器;
11、編碼器包括一個3×3卷積層和若干個依次首尾連接且尺度不同的編碼端,一個編碼端包括一個對應尺度的并行非對稱殘差網(wǎng)絡;其中,并行非對稱殘差網(wǎng)絡用于在前向傳播過程中捕獲空間信息;
12、解碼器包括若干個依次首尾連接且與編碼端的尺度一一對應的解碼端和一個3×3卷積層,一個解碼端包括一個3×3反卷積層和一個對應尺度的并行非對稱殘差網(wǎng)絡;其中,每個編碼端的輸出跳躍連接到對應尺度的解碼端;
13、將所有尺度的編碼端輸出的特征圖作為多尺度的多級退化特征圖;將所有尺度的解碼端輸出的特征作為多尺度的多級恢復特征圖。
14、優(yōu)選的,并行非對稱殘差網(wǎng)絡包括依次首尾連接的第一組并行卷積、第一批量歸一化層、第一prelu層、第二組并行卷積、第二批量歸一化層和第二prelu層;其中,將并行非對稱殘差網(wǎng)絡的輸入特征圖經(jīng)過1×1卷積層降維,再與第二批量歸一化層的輸出相加后輸入第二prelu層;
15、第一組和第二組并行卷積將輸入特征圖分別輸入至并列設置的1×3水平卷積層、3×1垂直卷積層和3×3卷積層,再將1×3水平卷積層、3×1垂直卷積層和3×3卷積層的輸出進行逐元素加法運算后生成輸出特征圖;
16、并行非對稱殘差網(wǎng)絡的計算公式表示為:
17、
18、式中:r、i分別表示并行非對稱殘差網(wǎng)絡的輸出特征圖和輸入特征圖;o1和p2表示兩組并行卷積的輸出;c1表示1×1卷積;c3表示步長為1的3×3卷積;c1×3和c3×1分別表示1×3和3×1卷積;表示逐元素加法運算;fbn和frelu分別表示批量歸一化操作和prelu激活操作。
19、優(yōu)選的,步驟s3中,將efficientnet-b0網(wǎng)絡模型多個stage層輸出的特征圖作為多尺度的多級內(nèi)容特征圖。
20、優(yōu)選的,步驟s4中,多特征權重自適應融合模塊的處理步驟包括:
21、s401:通過特征增強模塊分別對多尺度的退化特征圖和恢復特征圖進行特征增強,生成多尺度的增強退化特征圖和增強內(nèi)容特征圖;
22、s402:通過權重自適應生成模塊根據(jù)退化特征圖和內(nèi)容特征圖中特征的重要性為其分配不同的權重;根據(jù)分配的權重對多尺度的增強退化特征圖和增強內(nèi)容特征圖進行加權,生成多尺度的權重自適應融合特征圖;
23、s403:通過特征增強模塊對多尺度的恢復特征圖進行特征增強,生成多尺度的增強恢復特征圖;
24、s404:將多尺度的增強恢復特征圖與對應尺度的權重自適應融合特征圖拼接和全局平均池化操作,得到多尺度的融合特征圖;將多尺度的融合特征圖進行級聯(lián)操作,生成最終的多層融合特征圖;
25、多層融合特征圖的計算公式表示為:
26、
27、式中:ffusion表示多層融合特征圖;f1(i)表示第i(i=1,2,3,4)尺度的權重自適應融合特征圖;f2(i)表示第i(i=1,2,3,4)尺度的增強恢復特征圖;gap表示全局平均池化操作;cat和均表示級聯(lián)操作。
28、優(yōu)選的,步驟s401中,特征增強模塊將其輸入特征圖分別輸入至并行設置的三條支路,將三條支路的輸出進行連接后再進行批量歸一化操作和prelu激活操作,輸出對應的增強特征圖;第一條支路包括1×1卷積層;第二條支路包括3×3卷積層;第三條支路包括首尾連接的兩個3×3卷積層;
29、增強退化特征圖的計算公式表示為:
30、
31、增強內(nèi)容特征圖的計算公式表示為:
32、
33、式中:ei(fd)、ei(fc)分別表示增強退化特征圖和增強內(nèi)容特征圖;id(i)、ic(i)分別表示輸入的第i(i=1,2,3,4)尺度的退化特征圖和內(nèi)容特征圖;表示步長為2的1×1卷積;表示步長為2的3×3卷積;c3表示步長為1的3×3卷積;表示步長為8的1×1卷積;表示步長為8的3×3卷積;fbn和frelu分別表示批量歸一化操作和prelu激活操作;表示級聯(lián)操作。
34、優(yōu)選的,步驟s402中,權重自適應生成模塊將輸入的增強退化特征圖和增強內(nèi)容特征圖進行級聯(lián)拼接后,利用兩個單獨的3×3卷積和sigmoid函數(shù)生成兩個模態(tài)的權重圖;將兩個權重圖分別與增強退化特征圖和增強內(nèi)容特征圖相乘,得到對應的加權退化特征圖和加權內(nèi)容特征圖;對加權退化特征圖和加權內(nèi)容特征圖進行級聯(lián)操作,生成權重自適應融合特征圖;
35、權重自適應融合特征的計算公式表示為:
36、
37、式中:f1(i)表示第i(i=1,2,3,4)尺度的權重自適應融合特征圖;ei(fd)、ei(fc)分別表示增強退化特征圖和增強內(nèi)容特征圖;ei(f)表示增強退化特征圖和增強內(nèi)容特征圖級聯(lián)后的增強特征圖;c3表示步長為1的3×3卷積;fd(i)和fc(i)分別表示第i(i=1,2,3,4)尺度的加權退化特征圖和加權內(nèi)容特征圖;σ表示sigmoid函數(shù);⊙表示逐像素相乘;表示級聯(lián)操作。
38、優(yōu)選的,步驟s403中,增強恢復特征圖的計算公式表示為:
39、
40、式中:f2(i)表示增強恢復特征圖;ir(i)表示輸入的第i(i=1,2,3,4)尺度的恢復特征圖;表示步長為2的3×3卷積;c3表示步長為1的3×3卷積;fbn和frelu分別表示批量歸一化操作和prelu激活操作;表示步長為2的1×1卷積;表示級聯(lián)操作。
41、優(yōu)選的,步驟s5中,基于通道級卷積的通道注意力模塊將輸入的多層融合特征圖進行全局平均池化操作后,再經(jīng)過3×3的一維卷積和sigmoid函數(shù)實現(xiàn)各通道之間空間信息交互,獲取各通道的權重值;將權重值與輸入的融合特征圖相乘得到融合通道級特征圖;
42、融合通道級特征的計算公式表示為:
43、f=ffusion☉σ(conv3×3(gap(ffusion)));
44、式中:f表示融合通道級特征圖;ffusion表示多層融合特征圖;gap表示全局平均池化操作;conv3×3表示1維的3×3卷積操作;σ表示sigmoid函數(shù);⊙表示逐像素相乘。
45、優(yōu)選的,步驟s6中,全連接層將融合通道級特征圖經(jīng)過三層全連接神經(jīng)網(wǎng)絡和兩個prelu激活函數(shù)后,生成對應的預測客觀質(zhì)量分數(shù)。
46、本發(fā)明中基于殘差恢復和多特征融合的虛擬視點圖像質(zhì)量評價方法與現(xiàn)有技術相比,具有如下有益效果:
47、本發(fā)明通過預訓練的視覺殘差恢復網(wǎng)絡模型和efficientnet-b0網(wǎng)絡模型分別提取多尺度的特征圖。一方面,視覺殘差恢復網(wǎng)絡遵循自由能原理,通過編碼端不同層的退化特征來反映失真圖像的退化程度,利用逐步復原的恢復圖像特征來反映失真圖像的恢復程度,通過模擬大腦修復失真圖像來有效提取圖像的多級退化特征和多級恢復特征。另一方面利用efficientnet-b0網(wǎng)絡通過大樣本數(shù)據(jù)庫訓練,能夠?qū)W習普通圖像中存在的傳統(tǒng)失真以提取虛擬視點圖像的多級內(nèi)容特征,以使網(wǎng)絡能夠提取到更全面的失真信息。其中視覺殘差恢復網(wǎng)絡模型主要關注圖像的合成失真,而efficientnet-b0網(wǎng)絡模型對普通失真更加敏感,兩個網(wǎng)絡提取的多尺度特征圖存在較大差異的同時也能夠進行信息互補,通過融合兩個網(wǎng)絡提取的多尺度特征圖,能夠應對虛擬視點圖像上存在復雜的幾何失真,從而能夠提高模型在虛擬視點圖像質(zhì)量評價時的泛化能力和魯棒性。
48、本發(fā)明針對預訓練的視覺殘差恢復網(wǎng)絡模型和efficientnet-b0網(wǎng)絡模型所提取的特征圖存在的差異,提出了多特征權重自適應融合模塊來將多尺度的退化特征圖、恢復特征圖和內(nèi)容特征圖進行自適應融合。多特征權重自適應融合模塊可自適應地調(diào)整兩個不同網(wǎng)絡中提取到的多層多尺度特征的權重,為差異較大的兩類特征分配最優(yōu)權重,通過權值自適應調(diào)整不同失真的權重并將失真圖像融合特征與解碼端的多級恢復特征進行融合以使模型達到更好的效果,從而提高模型在虛擬視點圖像質(zhì)量評價時的準確性。
49、為了進一步提高通道間的信息交互能力,本發(fā)明提出了一種通道注意力模塊來實現(xiàn)不同通道間的信息交互,通過獲取與圖像質(zhì)量更相關的通道級特征,在質(zhì)量預測網(wǎng)絡中獲取與圖像質(zhì)量更相關的特征,從而提高虛擬視點圖像質(zhì)量評價的準確性。實驗表明,與現(xiàn)有iqa方法相比,本發(fā)明的方法在兩個虛擬視點圖像數(shù)據(jù)庫上取得了最優(yōu)性能。