本發(fā)明涉及模式識別、機器學習及計算機視覺技術(shù)領(lǐng)域,特別涉及一種圖像自動裁剪方法。
背景技術(shù):
隨著計算機技術(shù)和數(shù)字媒體技術(shù)的快速發(fā)展,人們對計算機視覺、人工智能、機器感知等領(lǐng)域的需求與期盼也越來越高。圖像的自動裁剪作為圖像自動編輯中的一項非常重要和常見的任務(wù)也得到越來越多的關(guān)注和發(fā)展。圖像自動裁剪技術(shù)就是希望能夠去除多余的區(qū)域,強調(diào)感興趣區(qū)域,從而提高圖像的整體構(gòu)圖和美感質(zhì)量。一種有效并且自動的圖像裁剪方法不僅能夠使人類從繁瑣的工作中解放出來,而且還能給一些非專業(yè)人士提供一些專業(yè)的圖像編輯的建議。
由于圖像裁剪是一項非常主觀性的任務(wù),現(xiàn)有的規(guī)則很難考慮所有影響因素。傳統(tǒng)的圖像自動裁剪區(qū)域通常使用顯著性圖來識別圖像中的主要區(qū)域或感興趣區(qū)域,同時通過制定的一些規(guī)則來計算能量函數(shù)最小化或?qū)W習分類器來尋找裁剪區(qū)域。但是這些制定的規(guī)則對圖像裁剪這一主觀性的任務(wù)并不夠全面,精度也很難達到用戶需求。
有鑒于此,特提出本發(fā)明。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中的上述問題,即為了解決如何提高圖像自動裁剪的魯棒性和精度的技術(shù)問題而提供一種圖像自動裁剪方法。
為了實現(xiàn)上述目的,提供了以下技術(shù)方案:
一種圖像自動裁剪方法,所述方法包括:
提取待裁剪圖像的美感響應圖和梯度能量圖;
對所述待裁剪圖像密集提取候選裁剪圖像;
基于所述美感響應圖,篩選所述候選裁剪圖像;
基于所述美感響應圖和所述梯度能量圖,估計篩選出的候選裁剪圖像的構(gòu)圖分數(shù),并將得分最高的候選裁剪圖像確定為裁剪圖像。
進一步地,所述提取待裁剪圖像的美感響應圖和梯度能量圖,具體包括:
利用深度卷積神經(jīng)網(wǎng)絡(luò)和類別響應映射方法,并采用如下公式提取所述待裁剪圖像的所述美感響應圖:
其中,所述M(x,y)表示在空間位置(x,y)處的美感響應值;所述K表示深度卷積神經(jīng)網(wǎng)絡(luò)的最后一層卷積層的特征圖的總通道個數(shù);所述k表示第k個通道;所述fk(x,y)表示所述第k個通道在所述空間位置(x,y)處的特征值;所述wk表示所述第k個通道的特征圖池化后的結(jié)果到高美感類別的權(quán)值;
對所述待裁剪圖像進行平滑處理,并計算每個像素點的梯度值,從而得到所述梯度能量圖。
進一步地,所述深度卷積神經(jīng)網(wǎng)絡(luò)通過以下方式訓練得到:
在所述深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的底層設(shè)置卷積層;
在所述深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的最后一個卷積層之后通過全局平均池化的方法,將每一特征圖池化為一個點;
連接與美感質(zhì)量分類類別數(shù)相同的全連接層和損失函數(shù)。
進一步地,所述基于所述美感響應圖,篩選所述候選裁剪圖像,具體包括:
通過如下公式計算所述候選裁剪圖像的美感保留分數(shù):
其中,所述Sa(C)表示所述候選裁剪圖像的所述美感保留分數(shù);所述C表示所述候選裁剪圖像;所述(i,j)表示像素的位置;所述I表示原始圖像;所述A(i,j)表示在(i,j)位置處的美感響應值;
將所有候選裁剪圖像按照所述美感保留分數(shù)從大到小進行排序;
選取得分最高的一部分候選裁剪圖像。
進一步地,所述基于所述美感響應圖和所述梯度能量圖,估計篩選出的候選裁剪圖像的構(gòu)圖分數(shù),并將得分最高的候選裁剪圖像確定為裁剪圖像,具體包括:
基于所述美感響應圖和所述梯度能量圖建立構(gòu)圖模型;
利用所述構(gòu)圖模型估計所述篩選出的候選裁剪圖像的構(gòu)圖分數(shù),并將所述得分最高的候選裁剪圖像確定為所述裁剪圖像。
進一步地,所述構(gòu)圖模型通過以下方式獲得:
基于所述美感響應圖和所述梯度能量圖建立訓練圖像集;
對訓練圖像進行美感質(zhì)量類別的標注;
利用標注的訓練圖像訓練深度卷積神經(jīng)網(wǎng)絡(luò);
針對所述已標注的訓練圖像,利用訓練好的深度卷積神經(jīng)網(wǎng)絡(luò),提取所述美感響應圖和所述梯度能量圖的空間金字塔特征;
將提取的空間金字塔特征拼接在一起;
利用分類器進行訓練,自動學習構(gòu)圖規(guī)則,得到構(gòu)圖模型。
本發(fā)明實施例提供一種圖像自動裁剪方法。該方法包括:提取待裁剪圖像的美感響應圖和梯度能量圖;對待裁剪圖像密集提取候選裁剪圖像;基于美感響應圖,篩選候選裁剪圖像;基于美感響應圖和梯度能量圖,估計篩選出的候選裁剪圖像的構(gòu)圖分數(shù),并將得分最高的候選裁剪圖像確定為裁剪圖像。本方案利用美感響應圖去探究圖片的美感影響區(qū)域,利用美感響應圖確定美感保留部分,從而更加最大程度地保留了裁剪圖像的高美感質(zhì)量,同時本方案還利用梯度能量圖去分析梯度分布規(guī)則,并且基于美感響應圖和梯度能量圖來評估裁剪圖的構(gòu)圖分數(shù)。本發(fā)明實施例彌補了圖像構(gòu)圖表達的缺陷,解決了如何提高圖像自動裁剪的魯棒性和精度的技術(shù)問題。本發(fā)明實施例能應用于涉及圖像自動裁剪的眾多領(lǐng)域,包括圖像編輯、攝影學及圖像重定位等。
附圖說明
圖1是根據(jù)本發(fā)明實施例的圖像自動裁剪方法的流程示意圖;
圖2是根據(jù)本發(fā)明實施例的深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
圖3a是根據(jù)本發(fā)明實施例的待裁剪圖像示意圖;
圖3b是根據(jù)本發(fā)明實施例的裁剪后的圖像示意圖。
具體實施方式
下面結(jié)合附圖以及具體實施例對本發(fā)明實施例解決的技術(shù)問題、所采用的技術(shù)方案以及實現(xiàn)的技術(shù)效果進行清楚、完整的描述。顯然,所描述的實施例僅僅是本申請的一部分實施例,并不是全部實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的前提下,所獲的所有其它等同或明顯變型的實施例均落在本發(fā)明的保護范圍內(nèi)。本發(fā)明實施例可以按照權(quán)利要求中限定和涵蓋的多種不同方式來具體化。
深度學習在各個領(lǐng)域得到了快速的發(fā)展及很好的效果。本發(fā)明實施例考慮利用深度學習去自動學習對圖像裁剪重要的影響區(qū)域,以自動全面地學習規(guī)則,從而使得在裁剪時盡可能地保留高美感區(qū)域。
為此,本發(fā)明實施例提供一種自動圖像裁剪方法。圖1示例性地示出了圖像自動裁剪方法的流程。如圖1所示,該方法可以包括:
S100:提取待裁剪圖像的美感響應圖和梯度能量圖。
具體地,本步驟可以包括:
S101:利用深度卷積神經(jīng)網(wǎng)絡(luò)和類別響應映射方法,并采用如下公式提取待裁剪圖像的美感響應圖:
其中,M(x,y)表示在空間位置(x,y)處的美感響應值;K表示訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)的最后一層卷積層的特征圖f的總通道個數(shù);k表示第k個通道;fk(x,y)表示第k個通道在空間位置(x,y)處的特征值;wk表示第k個通道的特征圖池化后的結(jié)果到高美感類別的權(quán)值。
上述步驟在提取美感響應圖時可以根據(jù)實際需要訓練深度卷積神經(jīng)網(wǎng)絡(luò)。深度卷積神經(jīng)網(wǎng)絡(luò)的訓練可以通過以下方式進行:
步驟1:在深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的底層設(shè)置卷積層。
步驟2:在深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的最后一個卷積層之后通過全局平均池化的方法,將每一個特征圖池化為一個點。
步驟3:連接一個與美感質(zhì)量分類類別數(shù)相同的全連接層和損失函數(shù)。
圖2示例性地示出了一個深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
通過步驟1-3可以訓練一個在美感質(zhì)量分類任務(wù)下的深度卷積神經(jīng)網(wǎng)絡(luò)模型。然后,利用為美感質(zhì)量分類任務(wù)訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)和類別響應映射方法;再采用上述公式,可以計算在高美感類別下待裁剪圖像的美感響應圖M。
S102:對待裁剪圖像進行平滑處理,并計算每個像素點的梯度值,從而得到梯度能量圖。
S110:對待裁剪圖像密集提取候選裁剪圖像。
這里,可以采用小于圖像大小的所有大小的滑動窗口,對待裁剪圖像密集提取候選裁剪窗口,通過候選裁剪窗口提取出候選裁剪圖像。
S120:基于美感響應圖,篩選候選裁剪圖像。
具體地,本步驟可以包括:
S121:通過如下公式計算候選裁剪圖像的美感保留分數(shù):
其中,Sa(C)表示候選裁剪圖像的美感保留分數(shù);C表示候選裁剪圖像;(i,j)表示像素的位置;I表示原始圖像;A(i,j)表示在(i,j)處的美感響應值。
通過本步驟可以構(gòu)建美感保留模型。將候選裁剪窗口經(jīng)過美感保留模型篩選出美感保留分數(shù)較高的候選窗口。
S122:將所有候選裁剪圖像按照美感保留分數(shù)從大到小進行排序。
S123:選取得分最高的一部分候選裁剪圖像。
例如:實際應用中可以設(shè)置保留前10000個候選裁剪窗口中的候選裁剪圖像。
S130:基于美感響應圖和梯度能量圖,估計篩選出的候選裁剪圖像的構(gòu)圖分數(shù),并將得分最高的候選裁剪圖像確定為裁剪圖像。
具體地,本步驟可以通過步驟S131至步驟S133來實現(xiàn)。
S131:基于美感響應圖和梯度能量圖建立構(gòu)圖模型。
本步驟在建立構(gòu)圖模型時可以根據(jù)實際情況訓練構(gòu)圖模型。在訓練構(gòu)圖模型的過程中,訓練數(shù)據(jù)可以采用構(gòu)圖較好的圖像作為正樣本,而將有構(gòu)圖缺陷的圖像作為負樣本。
可以通過以下方式來訓練構(gòu)圖模型:
步驟a:基于美感響應圖和梯度能量圖建立訓練圖像集。
步驟b:對訓練圖像進行美感質(zhì)量類別的標注。
步驟c:利用標注的訓練圖像訓練深度卷積神經(jīng)網(wǎng)絡(luò)。
本步驟的訓練過程可以參考上述步驟1至步驟3,在此不再贅述。
步驟d:針對已標注的訓練圖像,利用訓練好的深度卷積神經(jīng)網(wǎng)絡(luò),提取美感響應圖和梯度能量圖的空間金字塔特征。
步驟e:將提取的空間金字塔特征拼接在一起。
步驟f:利用分類器進行訓練,自動學習構(gòu)圖規(guī)則,得到構(gòu)圖模型。
其中,分類器例如可以采用支持向量機分類器。
S132:利用構(gòu)圖模型估計篩選出的候選裁剪圖像的構(gòu)圖分數(shù),并將得分最高的候選裁剪圖像確定為裁剪圖像。
圖3a示例性地示出了待裁剪圖像;圖3b示例性地示出了裁剪后的圖像。
下面再以一優(yōu)選實施例來更好地說明本發(fā)明。
步驟A:將標注有美感質(zhì)量類別的圖像數(shù)據(jù)集送入深度卷積神經(jīng)網(wǎng)絡(luò)進行美感質(zhì)量類別模型訓練。
步驟B:將標注有構(gòu)圖類別的圖像數(shù)據(jù)集輸入訓練好的深度卷積神經(jīng)網(wǎng)絡(luò),提取最后一層卷積層的特征圖,并計算美感響應圖,同時計算美感梯度圖,然后采用支持向量機分類器訓練構(gòu)圖模型。
步驟C:對待測試圖像提取美感響應圖和梯度能量圖。
本步驟的提取方法可參考訓練階段的方法。
步驟D:密集采集待測試圖像的候選裁剪窗口。
舉例來說,在1000×1000的待測試圖像上,利用間隔為30個像素的滑動窗口進行采集或提取。
步驟E:利用美感保留模型篩選候選裁剪窗口。
本步驟利用美感保留模型計算密集采集到的候選裁剪窗口的美感保留分數(shù),篩選出美感分類最高的一部分候選裁剪窗口,例如:篩選出10000個候選裁剪窗口。
步驟F:利用構(gòu)圖模型評估篩選出的候選裁剪窗口。
本步驟采集訓練階段訓練好的構(gòu)圖模型去評估篩選出的候選裁剪窗口的構(gòu)圖分數(shù),將得分最高的作為最后的裁剪窗口,從而得到裁剪圖像。
綜上所述,本發(fā)明實施例提供的方法很好地利用了美感響應圖和梯度能量圖來最大程度地保留美感質(zhì)量和圖像的構(gòu)圖規(guī)則,得到更加魯棒,精度更高的圖像的自動裁剪性能,進而說明了美感響應圖和梯度能量圖對于圖像自動裁剪的有效性。
上述實施例中雖然按照上述先后次序描述了本發(fā)明實施例提供的方法,但是本領(lǐng)域技術(shù)人員可以理解,為了實現(xiàn)本實施例的效果,還可以以諸如并行或顛倒次序等不同的順序來執(zhí)行,這些簡單的變化都在本發(fā)明的保護范圍之內(nèi)。
以上所述,僅為本發(fā)明中的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護范圍應該以權(quán)利要求書的保護范圍為準。