本技術(shù)涉及圖像處理,特別是涉及一種面向語義特征的類別圖低碼率壓縮系統(tǒng)。
背景技術(shù):
1、圖像是多媒體通信中最重要的信息載體,圖像壓縮的目的是減少傳輸比特?cái)?shù)以達(dá)到高效率。圖像壓縮得到了廣泛的研究,許多經(jīng)典的圖像壓縮體系結(jié)構(gòu)在使用更少的比特來存儲(chǔ)或傳輸以保持高質(zhì)量圖像方面達(dá)到了很高的性能。然而,經(jīng)典的圖像壓縮模型在低比特率場(chǎng)景下(通常小于0.5比特率)表現(xiàn)不佳。利用有限的比特不能很好地保存目標(biāo)信息,并且隨著比特率的降低,傳輸?shù)膱D像中的語義質(zhì)量嚴(yán)重下降。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)實(shí)施例提供一種面向語義特征的類別圖低碼率壓縮系統(tǒng),以便克服上述問題或者至少部分地解決上述問題。
2、本技術(shù)實(shí)施例第一方面提供了一種面向語義特征的類別圖低碼率壓縮系統(tǒng),所述系統(tǒng)包括發(fā)送端和接收端,其中,所述發(fā)送端配置有基于語義分割圖的語義編解碼網(wǎng)絡(luò)中的語義分割網(wǎng)絡(luò)和壓縮網(wǎng)絡(luò),所述接收端配置有所述基于語義分割圖的語義編解碼網(wǎng)絡(luò)中的解壓縮網(wǎng)絡(luò)和重建網(wǎng)絡(luò),其中:
3、所述發(fā)送端,用于通過所述語義分割網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行處理,得到語義分割圖和所述語義分割圖中每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓,所述語義分割圖中的每個(gè)標(biāo)簽區(qū)域用于表征一個(gè)類別的物體所在的圖像區(qū)域,每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓是對(duì)該標(biāo)簽區(qū)域?qū)?yīng)的初始輪廓進(jìn)行多邊形擬合得到的;
4、所述發(fā)送端,用于通過所述壓縮網(wǎng)絡(luò)對(duì)每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓進(jìn)行編碼,得到比特流并發(fā)送給所述接收端;
5、所述接收端,用于通過所述解壓縮網(wǎng)絡(luò)對(duì)接收到的比特流進(jìn)行解壓縮,得到解壓縮后的近似輪廓,所述解壓縮后的近似輪廓中每個(gè)點(diǎn)攜帶坐標(biāo)值和對(duì)應(yīng)物體的類別標(biāo)簽值;
6、所述接收端,用于通過所述重建網(wǎng)絡(luò),按照所述解壓縮后的近似輪廓中每個(gè)點(diǎn)攜帶坐標(biāo)值和對(duì)應(yīng)物體的類別標(biāo)簽值,對(duì)所述解壓縮后的近似輪廓進(jìn)行填充,得到重建后的多個(gè)標(biāo)簽區(qū)域;
7、所述接收端,用于通過所述重建網(wǎng)絡(luò),基于所述重建后的多個(gè)標(biāo)簽區(qū)域進(jìn)行圖像重建,得到所述輸入圖像對(duì)應(yīng)的重建圖像。
8、可選地,所述發(fā)送端,用于通過所述語義分割網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行處理,得到語義分割圖和所述語義分割圖中每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓,所述語義分割圖中的每個(gè)標(biāo)簽區(qū)域用于表征一個(gè)類別的物體所在的圖像區(qū)域,每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓是對(duì)該標(biāo)簽區(qū)域?qū)?yīng)的初始輪廓進(jìn)行多邊形擬合得到的,具體為:
9、所述發(fā)送端,用于通過所述語義分割網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行語義分割,得到語義分割圖,語義分割圖包括多個(gè)標(biāo)簽區(qū)域,每個(gè)標(biāo)簽區(qū)域用于表征一個(gè)類別的物體所在的圖像區(qū)域;
10、所述發(fā)送端,用于從所述語義分割圖包含的每個(gè)標(biāo)簽區(qū)域的圖像區(qū)域中提取包括多個(gè)點(diǎn)的初始輪廓,初始輪廓中每個(gè)點(diǎn)攜帶坐標(biāo)值和對(duì)應(yīng)物體的類別標(biāo)簽值;
11、所述發(fā)送端,用于通過所述壓縮網(wǎng)絡(luò)對(duì)初始輪廓進(jìn)行多邊形擬合,得到每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓,所述近似輪廓包括的點(diǎn)的數(shù)量少于所述初始輪廓包括的點(diǎn)的數(shù)量,近似輪廓中每個(gè)點(diǎn)攜帶坐標(biāo)值和對(duì)應(yīng)物體的類別標(biāo)簽值。
12、可選地,所述發(fā)送端,用于在所述發(fā)送端通過所述語義分割網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行語義分割,得到語義分割圖之后,將所述語義分割圖中面積小于預(yù)設(shè)閾值的標(biāo)簽區(qū)域?yàn)V除,得到經(jīng)過濾除后的語義分割圖;
13、所述發(fā)送端,用于從所述語義分割圖包含的每個(gè)標(biāo)簽區(qū)域的圖像區(qū)域中提取包括多個(gè)點(diǎn)的初始輪廓,包括:
14、所述發(fā)送端,用于對(duì)經(jīng)過濾除后的語義分割圖包含的每個(gè)標(biāo)簽區(qū)域的圖像區(qū)域中提取包括多個(gè)點(diǎn)的初始輪廓。
15、可選地,所述重建網(wǎng)絡(luò)包括重建模型,所述重建模型是利用語義分割圖和解壓縮后的語義分割圖預(yù)訓(xùn)練得到的。
16、可選地,所述發(fā)送端,用于通過所述壓縮網(wǎng)絡(luò)對(duì)初始輪廓進(jìn)行多邊形擬合,得到每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓,具體包括以下步驟:
17、s1:構(gòu)建點(diǎn)集合,并針對(duì)所述語義分割圖的每個(gè)標(biāo)簽區(qū)域的初始輪廓中包含的n個(gè)點(diǎn),將第一個(gè)點(diǎn)和第n個(gè)點(diǎn)加入所述點(diǎn)集合;
18、s2:以所述第一個(gè)點(diǎn)為起始點(diǎn)、所述第n個(gè)點(diǎn)為終止點(diǎn)生成直線,所述起始點(diǎn)和所述終止點(diǎn)之間的點(diǎn)為點(diǎn)組;
19、s3:依次計(jì)算出所述點(diǎn)組中各個(gè)點(diǎn)分別到所述直線的多個(gè)第一距離,確定出最大的第一距離,并將所述最大的第一距離與距離閾值比較,其中,所述最大的第一距離對(duì)應(yīng)所述n個(gè)點(diǎn)中的臨界點(diǎn);
20、s4:當(dāng)所述最大的第一距離大于所述距離閾值時(shí),將所述臨界點(diǎn)加入所述點(diǎn)集合;
21、s5:基于所述臨界點(diǎn),分別將所述第一個(gè)點(diǎn)為起始點(diǎn)、所述臨界點(diǎn)為終止點(diǎn)生成直線,以及將所述臨界點(diǎn)為起始點(diǎn)、所述第n個(gè)點(diǎn)為終止點(diǎn)生成直線;
22、s6:循環(huán)執(zhí)行s3至s5,直至所述最大的第一距離不大于所述距離閾值時(shí),根據(jù)所述點(diǎn)集合中的多個(gè)點(diǎn)構(gòu)建所述標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓。
23、可選地,所述發(fā)送端,用于從所述語義分割圖包含的每個(gè)標(biāo)簽區(qū)域的圖像區(qū)域中提取包括多個(gè)點(diǎn)的初始輪廓,具體為:
24、所述發(fā)送端,用于采用寬度優(yōu)先搜索方法或深度優(yōu)先搜索方法從所述標(biāo)簽區(qū)域中獲取包括多個(gè)點(diǎn)的初始輪廓;
25、其中,同一個(gè)所述初始輪廓中包含的每個(gè)點(diǎn)的類別標(biāo)簽值相同。
26、可選地,所述基于語義分割圖的語義編解碼網(wǎng)絡(luò)的損失函數(shù)包括第一損失函數(shù)和第二損失函數(shù),其中;
27、所述發(fā)送端,還用于根據(jù)所述語義分割圖中的多個(gè)標(biāo)簽區(qū)域和所述重建后的多個(gè)標(biāo)簽區(qū)域確定所述第一損失函數(shù)的損失值;
28、所述發(fā)送端,還用于根據(jù)所述輸入圖像與所述重建圖像確定所述第二損失函數(shù)的損失值;
29、所述發(fā)送端,還用于基于所述第一損失函數(shù)的損失值和所述第二損失函數(shù)的損失值對(duì)所述基于語義分割圖的語義編解碼網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。
30、本技術(shù)實(shí)施例第二方面提供了一種面向語義特征的類別圖低碼率壓縮方法,應(yīng)用于面向語義特征的類別圖低碼率壓縮系統(tǒng),所述系統(tǒng)包括發(fā)送端和接收端,其中,所述發(fā)送端配置有基于語義分割圖的語義編解碼網(wǎng)絡(luò)中的語義分割網(wǎng)絡(luò)和壓縮網(wǎng)絡(luò),所述接收端配置有所述基于語義分割圖的語義編解碼網(wǎng)絡(luò)中的解壓縮網(wǎng)絡(luò)和重建網(wǎng)絡(luò),所述方法包括:
31、所述發(fā)送端,用于通過所述語義分割網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行處理,得到語義分割圖和所述語義分割圖中每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓,所述語義分割圖中的每個(gè)標(biāo)簽區(qū)域用于表征一個(gè)類別的物體所在的圖像區(qū)域,每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓是對(duì)該標(biāo)簽區(qū)域?qū)?yīng)的初始輪廓進(jìn)行多邊形擬合得到的;
32、所述發(fā)送端通過所述壓縮網(wǎng)絡(luò)對(duì)每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓進(jìn)行編碼,得到比特流并發(fā)送給所述接收端;
33、所述接收端通過所述解壓縮網(wǎng)絡(luò)對(duì)接收到的比特流進(jìn)行解壓縮,得到解壓縮后的近似輪廓,所述解壓縮后的近似輪廓中每個(gè)點(diǎn)攜帶坐標(biāo)值和對(duì)應(yīng)物體的類別標(biāo)簽值;
34、所述接收端通過所述重建網(wǎng)絡(luò),按照所述解壓縮后的近似輪廓中每個(gè)點(diǎn)攜帶坐標(biāo)值和對(duì)應(yīng)物體的類別標(biāo)簽值,對(duì)所述解壓縮后的近似輪廓進(jìn)行填充,得到重建后的多個(gè)標(biāo)簽區(qū)域;
35、所述接收端通過所述重建網(wǎng)絡(luò),基于所述重建后的多個(gè)標(biāo)簽區(qū)域進(jìn)行圖像重建,得到所述輸入圖像對(duì)應(yīng)的重建圖像。
36、本技術(shù)實(shí)施例第三方面,提供一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,其中,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)如第二方面所述的面向語義特征的類別圖低碼率壓縮方法。
37、本技術(shù)實(shí)施例第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第二方面所述的面向語義特征的類別圖低碼率壓縮方法。
38、本技術(shù)的有益效果:
39、本技術(shù)實(shí)施例提供一種面向語義特征的類別圖低碼率壓縮系統(tǒng),特別應(yīng)用于面向語義特征的類別圖低碼率壓縮系統(tǒng)中。面向語義特征的類別圖低碼率壓縮系統(tǒng)由發(fā)送端和接收端組成,其中發(fā)送端負(fù)責(zé)編碼,接收端負(fù)責(zé)解碼和重建圖像。此方法利用語義分割網(wǎng)絡(luò)和壓縮網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行處理,實(shí)現(xiàn)高效、準(zhǔn)確的圖像傳輸。包括:通過發(fā)送端使用語義分割網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行處理,生成語義分割圖和語義分割圖中每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓。其中,語義分割圖中的每個(gè)標(biāo)簽區(qū)域用于表征語義分割圖中的一個(gè)類別的物體所在的圖像區(qū)域,每個(gè)標(biāo)簽區(qū)域?qū)?yīng)的近似輪廓是對(duì)該標(biāo)簽區(qū)域?qū)?yīng)的初始輪廓進(jìn)行多邊形擬合得到的。進(jìn)一步,發(fā)送端通過壓縮網(wǎng)絡(luò)對(duì)近似輪廓進(jìn)行編碼,形成比特流,并通過網(wǎng)絡(luò)發(fā)送至接收端。接收端通過解壓縮網(wǎng)絡(luò)對(duì)比特流進(jìn)行解碼,恢復(fù)出解壓縮后的近似輪廓。這些近似輪廓同樣包含點(diǎn)的坐標(biāo)值和類別標(biāo)簽。最后,接收端使用重建網(wǎng)絡(luò)按照解壓縮后的近似輪廓填充圖像區(qū)域,生成重建后的多個(gè)標(biāo)簽區(qū)域?;谶@些標(biāo)簽區(qū)域,接收端執(zhí)行圖像重建,最終得到與原輸入圖像相似的重建圖像。
40、通過本技術(shù)的技術(shù)方案,不僅有效減小了輸入圖像中需要傳輸?shù)臄?shù)據(jù)量,同時(shí),也保證了圖像重建后,重建圖像中的語義信息的準(zhǔn)確性和完整性,特別適用于低比特率下的場(chǎng)景,實(shí)現(xiàn)了高效、可靠的圖像通信。