ch,fl,l(X),fl, n(X),fm,l(X),fm,n(X)分別是位于輸入圖像的四個角落的patch。
[0035] 在本發(fā)明實施例中,可以根據(jù)圖像的復雜程度選用對應的方法來獲取patch,并輸 入至卷積神經(jīng)網(wǎng)絡進行訓練,具體方法如下:
[0036] (1)通過滑動窗口的方法提取固定大小的patch圖像集,并將其輸入至卷積神經(jīng)網(wǎng) 絡,然后可以根據(jù)圖像信息采用動態(tài)規(guī)劃的思想劃分patch的類別,比如道路的邊緣、道路 路面和天空等,這樣,可以通過patch提取得到一個圖像密集類別的圖像集,通過合并所有 的patch得道不同區(qū)域的訓練集。該方法操作簡單,能夠人工合理地設置正負樣本的數(shù)量和 特點,但運算量大,若圖像分辨率大,計算機將無法進行運算,若考慮多尺度的情況,完全無 法進行運算處理,另外對于密集提取同一個區(qū)域的patch容易導致出現(xiàn)深度神經(jīng)網(wǎng)絡過度 學習的情況。以交通場景中的道路為例,所述正樣本是指屬于道路類別的樣本,所述負樣本 是指不屬于道路類別的樣本。
[0037] (2)采用提取子窗口的方法,首先用類似于滑動窗口的方法按照順序提取固定大 小的patch,然后再將patch歸一化到相同大小輸入至卷積神經(jīng)網(wǎng)絡,在全連接層再根據(jù)順 序拼接回原圖大小,輸出對應分類的特征區(qū)域。該方法速度快,分類窗口數(shù)目可以設定,比 較靈活。由于要保證分類patch需要分類的像素,因此需要較高的召回率。
[0038]進一步的,所述將訓練集中的圖像分割為多個不同的patch,具體包括:
[0039]獲取訓練集,所述訓練集包括輸入圖像和所述輸入圖像對應的ground truth;
[0040] 較佳的是,選用KITTI -ROAD中的數(shù)據(jù)集作為訓練集。
[0041] 設置一個固定大小的滑動窗口,以一定的步長滑動分割所述輸入圖像及其所對應 的ground truth,將所述輸入圖像及其所對應的ground truth分別分割為多個不同的 patch;
[0042] 在本發(fā)明實施例中,設置一個固定大小的滑動窗口,以一定的步長從左往右、從上 向下滑動分割所述輸入圖像及其所對應的ground truth,將所述輸入圖像及其所對應的 ground truth分別分割為多個不同的patch,并將多個不同的patch保存為HDF5格式。
[0043] 在本發(fā)明實施例中,所述步長是在圖像中摳去patch時,以正方形或長方形為中 心,進行移動的距離。根據(jù)圖像的信息確定步長,要求訓練集中的正樣本多時,步長要短些, 采集的圖像會更密集;要求訓練集中的負樣本多時,步長要長些,采集的圖像的信息量會更 多樣化。
[0044]為了更好的理解本發(fā)明,以訓練集為交通道路進行舉例說明,ground truth是一 張人工標定的正確道路的二值化圖像,ground truth中像素屬于道路區(qū)域,標記為1,不屬 于道路區(qū)域,標記為0;訓練集包括輸入圖像及其所對應的ground truth。
[0045]在本發(fā)明實施例中,將訓練集分割成大量的patch,極大的滿足了訓練深度神經(jīng)網(wǎng) 絡系統(tǒng)需要大量樣本的需求,也為少樣本訓練方法提供了大量的少樣本訓練集;同時, patch是將大分辨率的圖像分割為小分辨率的圖像,提高了深度神經(jīng)網(wǎng)絡系統(tǒng)的運算速度。 [00 46]根據(jù)所述輸入圖像的patch的像素,在所述輸入圖像的patch所對應的所述ground truth的patch上進行像素標記;
[0047] 對所述輸入圖像的patch和所述ground truth的patch進行尺度歸一化。
[0048] 在發(fā)明實施例中,對所述輸入圖像的patch和像素標記后的ground truth的patch 進行尺度歸一化,以提高深度學習網(wǎng)絡的訓練速度。
[0049] 在步驟S102中,將所述多個不同的patch轉(zhuǎn)換為包括多個不同尺度的圖像的圖像 集;
[0050] 在本發(fā)明實施例中,將包括多個不同尺度的圖像的圖像集保存為HDF5格式。
[0051] 進一步的,所述將所述多個不同的patch轉(zhuǎn)換為包括多個不同尺度的圖像的圖像 集,具體包括:
[0052]將所述多個不同的patch通過拉普拉斯金字塔算法轉(zhuǎn)換為包括多個不同尺度的圖 像的圖像集,以交通道路為例,可根據(jù)道路的復雜情況進行尺度的增加,過于復雜的道路默 認為4個尺度。
[0053]所述拉普拉斯金字塔轉(zhuǎn)換算法具體包括:
[0054]對所述patch建立高斯金字塔,所述高斯金字塔是按照二次冪進行低通濾波作平 滑處理,將低通濾波后的圖像作帶通濾波,生成多個尺度的圖像。具體實現(xiàn)方法如下:
[0055]金字塔算法是一種多尺度、多分辨率的方法,最早由Adelson和Burt提出?;诮?字塔分解的圖像算法是在不同尺度、不同空間分辨率和不同分解層上分別進行的。本發(fā)明 實施例是使用拉普拉斯金字塔分解來獲取多尺度圖像,然后再將所有的圖像歸一到相同的 大小,輸入至神經(jīng)網(wǎng)絡系統(tǒng)進行模型訓練。
[0056]拉普拉斯金字塔是由高斯金字塔演變而來,如圖3是采用高斯金字塔與拉普拉斯 金字塔對patch生成多尺度圖像,并將多尺度圖像進行尺度歸一化,首先對圖像構造一個高 斯金字塔,高斯金字塔圖像為Is。
[0058]其中N為高斯金字塔頂層的層號,C4PRS分別對應高斯金字塔s層的列和行,則1 < s < N,0 < i<RS,0 < j〈Cs。酊(/?,")為一個可分離的5 X 5二維函數(shù):
[0060] 由Io,I!,…,In構建高斯金字塔,Ιο為高斯金字塔的底,圖像的尺寸與原圖像一致, In為高斯金字塔的頂,圖像沿著高斯金字塔進行尺度變換。由上述可知,高斯金字塔是當前 圖像層對其前一層圖像進行了高斯低通濾波后再隔行隔列進行降二采樣,當前的圖像層大 小是前一層圖像的
[0061] 在構造了一個尺寸上逐漸減半的高斯金字塔圖像序列后,利用插值法對高斯金字 塔進行插值膨脹使第s層圖像Is膨脹后的尺度與第s-1層圖像Ih尺度相同,BP :
[0067]其中,N為拉普拉斯金字塔的頂層,LPS為拉普拉斯金字塔分解的第s層,LPo, LPi,…,LPn構成拉普拉斯金字塔,拉普拉斯金字塔每層圖像為高斯金字塔當前層圖像與上/ 高一層的圖像內(nèi)插放大后圖像的差,其本質(zhì)是一個帶通濾波過程,通過公式(6)可以重建原 圖像。
[0069] 從拉普拉斯金字塔頂層從上至下遞推即可重建對應的高斯金字塔,而高斯金字塔 的底即為原圖像??梢?,高斯金字塔是向下降采樣圖像,而拉普拉斯金字塔是從金字塔底層 圖像向上采樣重建圖像。
[0070] 在步驟S103中,對所述圖像集進行尺度歸一化,并將歸一化后的圖像集輸入至深 度神經(jīng)網(wǎng)絡系統(tǒng),以訓練所述深度神經(jīng)網(wǎng)絡系統(tǒng)。
[0071] 在本發(fā)明實施例中,訓練所述深度神經(jīng)網(wǎng)絡系統(tǒng)是用于確定所述深度神經(jīng)網(wǎng)絡系 統(tǒng)的參數(shù),所述深度神經(jīng)網(wǎng)絡系統(tǒng)可以為卷積神經(jīng)網(wǎng)絡和/或反卷積神經(jīng)網(wǎng)絡。
[0072] 通過本發(fā)明實施例訓練深度神經(jīng)網(wǎng)絡系統(tǒng),確定所述深度神經(jīng)網(wǎng)絡系統(tǒng)的參數(shù), 提高了深度學習訓練中局部特征提取的精度。
[0073] 實施例二:
[0074]圖4示出了本發(fā)明實施例二提供的深度學習網(wǎng)絡的訓練方法的實現(xiàn)流程,所述實 現(xiàn)流程詳述如下:
[0075]在步驟S401中,將訓練集中的圖像分割為多個不同的patch;
[0076] 在本發(fā)明實施例中,所述patch是在訓練集中的圖像中摳出的任意大小的圖像區(qū) 域,所述patch的大小必須小于所述圖像,較佳的是,所述patch可以為正方形或長方形。所 述訓練集包括輸入圖像和所述輸入圖像對應的ground truth,所述ground truth是一張人 工標定的像素標記。如圖2是將訓練集中的輸入圖像分割為大小相同,圖像信息不同的mXn 個口3七(:11,;^,1(1),;^, 1^),;^,1(1),;^,1^)分別是位于輸入圖像的四個角落的口3七(311。
[0077] 在本發(fā)明實施例中,可以根據(jù)圖像的復雜程度選用對應的方法來獲取patch,并輸 入至卷積神經(jīng)網(wǎng)絡進行訓練,具體方法參見實施例一的描述,在此不再累述。
[0078]進一步的,所述將訓練集中的圖像分割為多個不同的patch,具體包括:
[0079]獲取訓練集,所述訓練集包括輸入圖像和所述輸入圖像對應的ground truth;
[0080] 較佳的是,選用KITTI-