本發(fā)明涉及模式識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)領(lǐng)域,特別涉及一種基于反卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景語(yǔ)義分割方法。
背景技術(shù):
隨著計(jì)算機(jī)運(yùn)算能力的飛速提升,計(jì)算機(jī)視覺(jué)、人工智能、機(jī)器感知等領(lǐng)域也迅猛發(fā)展。場(chǎng)景語(yǔ)義分割作為計(jì)算機(jī)視覺(jué)中一個(gè)基本問(wèn)題之一,也得到了長(zhǎng)足的發(fā)展。場(chǎng)景語(yǔ)義分割就是利用計(jì)算機(jī)對(duì)圖像進(jìn)行智能分析,進(jìn)而判斷圖像中每個(gè)像素點(diǎn)所屬的物體類別,如地板、墻壁、人、椅子等等。傳統(tǒng)的場(chǎng)景語(yǔ)義分割算法一般僅僅依靠rgb(紅綠藍(lán)三原色)圖片來(lái)進(jìn)行分割,很容易受到光線變化、物體顏色變化以及背景嘈雜的干擾,在實(shí)際運(yùn)用中很不魯棒,精度也很難到用戶需求。
深度傳感技術(shù)的發(fā)展,像微軟的kinect,能夠捕捉到高精度的深度圖片,很好的彌補(bǔ)了傳統(tǒng)的rgb圖片的上述缺陷,為魯棒性好、精度高的物體識(shí)別提供了可能性。在計(jì)算機(jī)視覺(jué)和機(jī)器人領(lǐng)域,有大量的研究探索如何有效的利用rgb和深度信息來(lái)提高場(chǎng)景分割的精度。這些算法基本上都是利用現(xiàn)在最先進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行場(chǎng)景分割,但是全卷積神經(jīng)網(wǎng)絡(luò)每個(gè)神經(jīng)單元都有很大的感受野,很容易造成分割的物體邊沿非常粗糙。其次在rgb和深度信息融合時(shí)也采用最簡(jiǎn)單的疊加策略,并不考慮這兩種模態(tài)的數(shù)據(jù)在區(qū)分不同場(chǎng)景下的不同物體時(shí)所起的作用截然不同的情況,造成在語(yǔ)義分割時(shí)候許多物體分類錯(cuò)誤。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對(duì)現(xiàn)有技術(shù)存在的上述問(wèn)題,提出一種基于反卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景語(yǔ)義分割方法,以提高場(chǎng)景語(yǔ)義分割的精度。
本發(fā)明的基于反卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景語(yǔ)義分割方法,包括下述步驟:
步驟s1,對(duì)場(chǎng)景圖片用全卷積神經(jīng)網(wǎng)絡(luò)提取密集特征表達(dá);
步驟s2,利用局部敏感的反卷積神經(jīng)網(wǎng)絡(luò)并借助所述圖片的局部親和度矩陣,對(duì)步驟s1中得到的密集特征表達(dá)進(jìn)行上采樣和優(yōu)化,得到所述圖片的分?jǐn)?shù)圖,從而實(shí)現(xiàn)精細(xì)的場(chǎng)景語(yǔ)義分割。
進(jìn)一步地,所述局部親和度矩陣通過(guò)提取所述圖片的sift(scale-invariantfeaturetransform:尺度不變特征變換)特征、spin(usingspinimagesforefficientobjectrecognitionincluttered3dscenes:在復(fù)雜三維場(chǎng)景中利用旋轉(zhuǎn)圖像進(jìn)行有效的目標(biāo)識(shí)別)特征以及梯度特征,然后利用ucm-gpb(contourdetectionandhierarchicalimagesegmentation:輪廓檢測(cè)和多級(jí)圖像分割)算法求得。
進(jìn)一步地,所述局部敏感的反卷積神經(jīng)網(wǎng)絡(luò)由三個(gè)模塊多次拼接而成,該三個(gè)模塊分別是局部敏感的反聚集層、反卷積層和局部敏感的均值聚集層。
進(jìn)一步地,所述拼接次數(shù)為2或3次。
進(jìn)一步地,通過(guò)以下公式得到所述局部敏感的反聚集層的輸出結(jié)果:
進(jìn)一步地,通過(guò)以下公式實(shí)現(xiàn)所述局部敏感的均值聚集層:
進(jìn)一步地,在所述步驟s1中,所述場(chǎng)景圖片包括rgb圖片和深度圖片,所述方法還包括步驟s3:將得到的rgb分?jǐn)?shù)圖和深度分?jǐn)?shù)圖通過(guò)開(kāi)關(guān)門(mén)融合層進(jìn)行最優(yōu)化融合,從而實(shí)現(xiàn)更精細(xì)的場(chǎng)景語(yǔ)義分割。
進(jìn)一步地,所述的開(kāi)關(guān)門(mén)融合層包括拼接層、卷積層以及歸一化層。
進(jìn)一步地,所述卷積層通過(guò)如下函數(shù)實(shí)現(xiàn):
進(jìn)一步地,所述歸一化層通過(guò)sigmoid函數(shù)(s型的函數(shù),也稱為s型生長(zhǎng)曲線)實(shí)現(xiàn)。
本發(fā)明中,通過(guò)局部敏感的反卷積神經(jīng)網(wǎng)絡(luò),利用局部底層信息來(lái)加強(qiáng)全卷積神經(jīng)網(wǎng)絡(luò)對(duì)局部邊沿的敏感性,從而得到更高精度的場(chǎng)景分割,能夠有效的克服全卷積神經(jīng)網(wǎng)絡(luò)的固有缺陷,即聚合了非常大的上下文信息來(lái)進(jìn)行場(chǎng)景分割,造成邊沿的模糊效應(yīng)。
進(jìn)一步地,通過(guò)設(shè)計(jì)開(kāi)關(guān)門(mén)融合層,能夠有效的自動(dòng)學(xué)習(xí)到語(yǔ)義分割中,對(duì)于不同場(chǎng)景下不同物體中rgb和深度兩個(gè)模態(tài)所起的不同作用。這種動(dòng)態(tài)自適應(yīng)的貢獻(xiàn)系數(shù)要優(yōu)于傳統(tǒng)算法所使用的無(wú)差別對(duì)待方法,能進(jìn)一步提高場(chǎng)景分割精度。
附圖說(shuō)明
圖1為本發(fā)明方法的一個(gè)實(shí)施例的流程圖;
圖2為本發(fā)明中全卷積神經(jīng)網(wǎng)絡(luò)用于密集特征提取的原理圖;
圖3a為本發(fā)明的一個(gè)實(shí)施例的局部敏感反卷積神經(jīng)網(wǎng)絡(luò)原理圖;
圖3b為本發(fā)明的一個(gè)實(shí)施例的局部敏感的反聚集層和局部敏感的均值聚集層的原理圖;
圖4為本發(fā)明的一個(gè)實(shí)施例的開(kāi)關(guān)門(mén)融合層。
具體實(shí)施方式
下面參照附圖來(lái)描述本發(fā)明的優(yōu)選實(shí)施方式。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些實(shí)施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護(hù)范圍。
如圖1所示,本發(fā)明的一個(gè)實(shí)施方式的基于反卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景語(yǔ)義分割方法包括下述步驟:
步驟s1,對(duì)場(chǎng)景圖片用全卷積神經(jīng)網(wǎng)絡(luò)提取低分辨率的密集特征表達(dá);
步驟s2,利用局部敏感的反卷積神經(jīng)網(wǎng)絡(luò)并借助所述圖片的局部親和度矩陣,對(duì)步驟s1中得到的密集特征表達(dá)進(jìn)行上采樣和優(yōu)化,得到所述圖片的分?jǐn)?shù)圖,從而實(shí)現(xiàn)精細(xì)的場(chǎng)景語(yǔ)義分割。
場(chǎng)景語(yǔ)義分割是一種典型的密集預(yù)測(cè)問(wèn)題,需要預(yù)測(cè)圖片中每個(gè)像素點(diǎn)的語(yǔ)義類別,因而要求對(duì)圖片中的每個(gè)像素點(diǎn)都能夠提取到一個(gè)魯棒的特征表達(dá)。本發(fā)明采用全卷積神經(jīng)網(wǎng)絡(luò)來(lái)有效的提取圖片的密集特征,所述圖片可以是rgb圖片,和/或深度圖片。如圖2所示,全卷積神經(jīng)網(wǎng)絡(luò)通過(guò)多次卷積、降采樣和最大值聚集過(guò)程,能夠聚合豐富的上下文信息來(lái)對(duì)圖片中每個(gè)像素點(diǎn)進(jìn)行特征表達(dá),得到rgb特征圖s1和/或深度特征圖s1。但是由于存在多次降采樣操作以及最大值聚集,全卷積神經(jīng)網(wǎng)絡(luò)得到的是一個(gè)低分辨率特征圖,并且物體邊沿非常的模糊。
為此,本發(fā)明將底層的像素級(jí)別的信息嵌入到反卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練。利用局部敏感的反卷積神經(jīng)網(wǎng)絡(luò)對(duì)得到的密集特征表達(dá)進(jìn)行上采樣學(xué)習(xí)以及物體邊沿優(yōu)化,得到rgb分?jǐn)?shù)圖s2和/或深度分?jǐn)?shù)圖s2,從而實(shí)現(xiàn)更精細(xì)的場(chǎng)景語(yǔ)義分割。
具體地,在步驟s2中,首先計(jì)算圖片中每個(gè)像素點(diǎn)與鄰近像素的相似度關(guān)系,并得到一個(gè)二值化的局部親和度矩陣。本發(fā)明中可提取rgb和深度圖片的sift,spin以及梯度特征,利用ucm-gpb算法來(lái)得到該局部親和度矩陣。然后將該局部親和度矩陣與所得到的rgb特征圖s1和/或深度特征圖s1輸入局部敏感的反卷積神經(jīng)網(wǎng)絡(luò),對(duì)密集特征表達(dá)進(jìn)行上采樣學(xué)習(xí)以及物體邊沿優(yōu)化,從而得到更精細(xì)的場(chǎng)景語(yǔ)義分割。
局部敏感的反卷積神經(jīng)網(wǎng)絡(luò)的目的在于將全卷積神經(jīng)網(wǎng)絡(luò)得到的粗糙的特征圖進(jìn)行上采樣和優(yōu)化得到更加精確的場(chǎng)景分割。如圖3a所示,該網(wǎng)絡(luò)結(jié)構(gòu)可包含三個(gè)模塊:局部敏感的反聚集層(unpooling),反卷積層,以及局部敏感的均值聚集層(averagepooling)。
如圖3b上部分所示,局部敏感的反聚集層的輸入是上一層的特征圖響應(yīng),以及局部親和度矩陣,輸出是兩倍分辨率的特征圖響應(yīng)。該網(wǎng)絡(luò)層的主要功能是學(xué)習(xí)恢復(fù)原始圖片中的更豐富的細(xì)節(jié)信息,得到物體邊沿更加清晰的分割的結(jié)果。
本發(fā)明中可通過(guò)以下公式得到局部敏感的反聚集層的輸出結(jié)果:
其中x代表特征圖中某個(gè)像素點(diǎn)的特征向量,a={ai,j}是x為中心得到的一個(gè)s×s大小的二值化局部親和度矩陣,表征周圍領(lǐng)域的像素點(diǎn)和中間像素點(diǎn)是否相似,(i,j)和(o,o)分別代表親和度矩陣中的任意位置及中心位置,y={yi,j}是反聚集輸出的特征圖。通過(guò)反聚集操作,能夠得到一個(gè)分辨率更好,細(xì)節(jié)更多的分割圖。
反卷積層的輸入是上一層反聚集層的輸出,輸出是等分辨率的特征圖響應(yīng)。該網(wǎng)絡(luò)層主要是用來(lái)平滑特征圖,因?yàn)榉淳奂瘜尤菀桩a(chǎn)生很多斷裂的物體邊沿,可利用反卷積過(guò)程來(lái)學(xué)習(xí)拼接這些斷裂的邊沿。反卷積采用的是卷積的逆過(guò)程,將每個(gè)激勵(lì)響應(yīng)值映射得到多個(gè)激勵(lì)響應(yīng)輸出。經(jīng)過(guò)反卷積之后的響應(yīng)圖會(huì)變得相對(duì)更平滑一些。
如圖3b下部分所示,局部敏感的均值聚集層的輸入是上一層反卷積層的輸出,以及局部親和度矩陣,輸出是等分辨率的特征圖響應(yīng)。該網(wǎng)絡(luò)層主要是用來(lái)得到每個(gè)像素點(diǎn)更加魯棒的特征表達(dá),同時(shí)能夠保持對(duì)物體邊沿的敏感性。
本發(fā)明中可通過(guò)以下公式得到局部敏感的反聚集層的輸出結(jié)果:
本發(fā)明將局部敏感的反聚集層、反卷積層以及局部敏感的均值聚集層多次拼接組合在一起,逐漸的上采樣和優(yōu)化場(chǎng)景分割的細(xì)節(jié)信息,得到更精細(xì)、更準(zhǔn)確的場(chǎng)景分割效果。優(yōu)選地,所述拼接次數(shù)為2或3次。拼接次數(shù)越多,得到的場(chǎng)景分割越精細(xì)、準(zhǔn)確,但是計(jì)算量也越大。
rgb色彩信息和深度信息描述了場(chǎng)景中物體的不同模態(tài)的信息,比如rgb圖片能夠描述物體的表觀、顏色以及紋理特征,而深度數(shù)據(jù)提供了物體的空間幾何、形狀以及尺寸信息。有效的融合這兩種互補(bǔ)的信息能夠提升場(chǎng)景語(yǔ)義分割的精度?,F(xiàn)有的方法基本都是將兩種模態(tài)的數(shù)據(jù)等價(jià)的看待,無(wú)法區(qū)分這兩種模態(tài)在識(shí)別不同場(chǎng)景下不同物體時(shí)的不同貢獻(xiàn)。基于此,本發(fā)明的一個(gè)優(yōu)選的實(shí)施方式中提出,將通過(guò)上述步驟s1和s2得到的rgb分?jǐn)?shù)圖和深度分?jǐn)?shù)圖通過(guò)開(kāi)關(guān)門(mén)融合(gatefusion)進(jìn)行最優(yōu)化融合,得到融合分?jǐn)?shù)圖,從而實(shí)現(xiàn)更精細(xì)的場(chǎng)景語(yǔ)義分割,如圖4所示。開(kāi)關(guān)門(mén)融合層能夠有效地衡量rgb(表觀)和深度(形狀)信息對(duì)于識(shí)別不同場(chǎng)景下的不同物體的重要性程度。
優(yōu)選地,本發(fā)明的開(kāi)關(guān)門(mén)融合層主要由拼接層、卷積層以及歸一化層組合而成,其能夠自動(dòng)的學(xué)習(xí)兩種模態(tài)的權(quán)重,從而更好的融合這兩種模態(tài)的互補(bǔ)信息用于場(chǎng)景語(yǔ)義分割中。
首先通過(guò)拼接層將rgb和深度網(wǎng)絡(luò)得到的特征進(jìn)行拼接。其次是卷積操作,通過(guò)卷積層學(xué)習(xí)得到rgb和深度信息的權(quán)重矩陣,卷積過(guò)程可如下實(shí)現(xiàn):
其中
其中⊙為矩陣點(diǎn)乘操作。將rgb和深度的分?jǐn)?shù)相加作為最后的融合分?jǐn)?shù),即為
在歸一化處理中,替代sigmoid函數(shù)可以用l1范數(shù),l1范數(shù)就是x1=x1/(x1+x2+...+xn),保證概率和為1。還可以用tanh函數(shù)(雙曲正切函數(shù))。優(yōu)選使用sigmoid,因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)更簡(jiǎn)單,優(yōu)化結(jié)果更好,收斂更快。
本發(fā)明提出的新的基于局部敏感的反卷積神經(jīng)網(wǎng)絡(luò)可用于rgb-d室內(nèi)場(chǎng)景語(yǔ)義分割。該發(fā)明能夠很好的適應(yīng)室內(nèi)場(chǎng)景的光線變化、背景嘈雜、小物體多以及遮擋等困難,并且能更加有效的利用rgb和深度的互補(bǔ)性,得到更加魯棒、精度更高、物體邊沿保持更好的場(chǎng)景語(yǔ)義分割效果。
至此,已經(jīng)結(jié)合附圖所示的優(yōu)選實(shí)施方式描述了本發(fā)明的技術(shù)方案,但是,本領(lǐng)域技術(shù)人員容易理解的是,本發(fā)明的保護(hù)范圍顯然不局限于這些具體實(shí)施方式。在不偏離本發(fā)明的原理的前提下,本領(lǐng)域技術(shù)人員可以對(duì)相關(guān)技術(shù)特征作出等同的更改或替換,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護(hù)范圍之內(nèi)。