一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,尤其涉及一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法和裝 置。
【背景技術(shù)】
[0002] 深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,一般具有含多隱層的多層感知器的結(jié)構(gòu)可以 被定義為深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征然后抽取出抽象的高層特征以發(fā)現(xiàn)數(shù) 據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器領(lǐng)域中一系列試圖使用多重非線性變換對(duì)數(shù)據(jù)進(jìn)行 多層抽樣的算法。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中表征學(xué)習(xí)方法的一類。一幅圖像可以使用多種方 式表示,而某些特定的表示方法可以讓機(jī)器學(xué)習(xí)算法更加容易進(jìn)行學(xué)習(xí)。而表征學(xué)習(xí)的目 標(biāo)是尋求更好的表示方法并建立更好的模型來(lái)學(xué)習(xí)這些表示方法。2007年后由杰弗里?辛 頓(Geoffrey Hinton)和魯斯蘭·薩拉赫丁諾夫(Ruslan Salakhutdinov)提出了一種在前 饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行有效訓(xùn)練的算法,這一算法將網(wǎng)絡(luò)中的每一層視為無(wú)監(jiān)督的受限玻爾茲 曼機(jī),再使用有監(jiān)督的反向傳播算法進(jìn)行調(diào)優(yōu)。1992年,施密德胡伯曾在遞歸神經(jīng)網(wǎng)絡(luò)上提 出一種類似的訓(xùn)練方法,并在實(shí)驗(yàn)中證明這一訓(xùn)練方法能夠有效提高有監(jiān)督學(xué)習(xí)的執(zhí)行速 度.自深度學(xué)習(xí)出現(xiàn)以來(lái),它已成為很多領(lǐng)域,尤其是在計(jì)算機(jī)視中,成為各種領(lǐng)先系統(tǒng)的 一部分。在通用的用于檢驗(yàn)的數(shù)據(jù)集,例如圖像識(shí)別中的ImageNe t,C i f ar 10上的實(shí)驗(yàn)證明, 深度學(xué)習(xí)能夠提高識(shí)別的精度。另外,硬件的進(jìn)步也是深度學(xué)習(xí)重新獲得關(guān)注的重要因素。 高性能圖形處理器的出現(xiàn)極大地提高了數(shù)值和矩陣運(yùn)算的速度,使得機(jī)器學(xué)習(xí)算法的運(yùn)行 時(shí)間得到了顯著的縮短。
[0003]當(dāng)前,在交通場(chǎng)景分割中使用最多的是超像素(superpixel)預(yù)處理。將圖像中許 多相似的的像素點(diǎn)結(jié)合到一起,然后在后期作為一個(gè)整體處理獲得一個(gè)整體圖像塊,稱之 為超像素。由于基于像素級(jí)的目標(biāo)識(shí)別/分割,不能給目標(biāo)的整體一個(gè)清晰的判斷。同時(shí),由 于單個(gè)像素或小數(shù)像素的噪聲會(huì)誤判目標(biāo),也可能把鄰域內(nèi)的像素點(diǎn)判斷為目標(biāo),甚至?xí)?出現(xiàn)把感興趣區(qū)域(Region of Interest,R0I)誤判為背景信息。另一方面,像素級(jí)的分類 與判別是不能給出目標(biāo)區(qū)域的邊界信息,最多只能給出大概的位置。與人類視覺(jué)的著重點(diǎn) 一樣,像素并不是主要關(guān)注的對(duì)象,單一的某個(gè)像素點(diǎn)不能解析出一個(gè)某個(gè)目標(biāo)物體或者 區(qū)域,只能通過(guò)像素結(jié)合才能存在一個(gè)整體。
[0004] 目前除了基于超像素作預(yù)處理的深度學(xué)習(xí)訓(xùn)練外,在發(fā)明專利申請(qǐng)名稱為"一種 基于多分辨率卷積神經(jīng)網(wǎng)絡(luò)交通標(biāo)志識(shí)別方法"(申請(qǐng)?zhí)?01510002850. X,公開(kāi)號(hào) 104537393A)的專利中,涉及到使用兩個(gè)不同的分辨率作為預(yù)處理來(lái)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行 訓(xùn)練,其高分辨率輸入映射出全局和輪廓的特征,而低分辨率的圖像來(lái)映射局部與細(xì)節(jié)特 征,同時(shí)由于分辨率降低,提高了模型訓(xùn)練的速度。
[0005] 上述兩種方法都在一定程度解決了深度學(xué)習(xí)訓(xùn)練的精度和速度問(wèn)題,但是其結(jié)果 還是并不理想,同時(shí)還存在如下所述的問(wèn)題。
[0006] 然而,在超像素預(yù)處理中,盡管超像素具體很好的圖像邊界信息,但是局部冗余信 息也非常多,會(huì)造成在同一區(qū)域內(nèi)不同分類的大量互相干擾的噪聲。而以超像素作為疾病 計(jì)算處理單元的話,因?yàn)閷⒚恳粋€(gè)像素聚合成不同的群組需要進(jìn)行大量的預(yù)計(jì)算,如果分 辨率在比較高的情況下,效率比較低下。在超像素劃分的塊中,要組成不同的區(qū)域,實(shí)際上 有很多像素會(huì)被重復(fù)標(biāo)記,生成的訓(xùn)練樣本會(huì)大量增加,特別是在交通場(chǎng)景大部分區(qū)域過(guò) 渡都非常相似的情況下,除了消耗大量的計(jì)算能力外,還會(huì)導(dǎo)致精度下降。
[0007] 發(fā)明專利"一種基于多分辨率卷積神經(jīng)網(wǎng)絡(luò)交通標(biāo)志識(shí)別方法"(申請(qǐng)?zhí)?201510002850.X,公開(kāi)號(hào)104537393A)中,雖然使用了兩種不同分辨率來(lái)進(jìn)行訓(xùn)練,但由于 兩個(gè)分辨率的之間差距太大,導(dǎo)致大量的信息丟失,最終并不能很好地解決精度問(wèn)題,而 且,低分辨率的速度處理雖然有提高,但是考慮到高分辨率處理的情況,實(shí)際性能提高有 限。
[0008] 故,有必要提出一種新的技術(shù)方案,以解決上述技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
[0009] 鑒于此,本發(fā)明實(shí)施例提供一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法和裝置,以提高深度學(xué) 習(xí)訓(xùn)練中特征提取的精度。
[0010] 本發(fā)明實(shí)施例的第一方面,提供一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法,所述方法包括:
[0011] 將訓(xùn)練集中的圖像分割為多個(gè)不同的patch;
[0012] 將所述多個(gè)不同的patch轉(zhuǎn)換為包括多個(gè)不同尺度的圖像的圖像集;
[0013] 對(duì)所述圖像集進(jìn)行尺度歸一化,并將歸一化后的圖像集輸入至深度神經(jīng)網(wǎng)絡(luò)系 統(tǒng),以訓(xùn)練所述深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
[0014] 本發(fā)明實(shí)施例的第二方面,提供一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置,所述裝置包括:
[0015] 分割模塊、轉(zhuǎn)換模塊以及處理模塊;
[0016] 所述分割模塊,用于將訓(xùn)練集中的圖像分割為多個(gè)不同的patch;
[0017] 所述轉(zhuǎn)換模塊,用于將所述多個(gè)不同的patch轉(zhuǎn)換為包含多個(gè)不同尺度的圖像的 圖像集;
[0018] 所述處理模塊,用于對(duì)所述圖像集進(jìn)行尺度歸一化,并將歸一化后的圖像集輸入 至深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),以訓(xùn)練所述深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
[0019] 本發(fā)明實(shí)施例與現(xiàn)有技術(shù)相比存在的有益效果是:本發(fā)明實(shí)施例將訓(xùn)練集中的圖 像分割為多個(gè)不同的patch,將所述多個(gè)不同的patch轉(zhuǎn)換為包括多個(gè)不同尺度的圖像的圖 像集,對(duì)所述圖像集進(jìn)行尺度歸一化,并將歸一化后的圖像集輸入至深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),以 訓(xùn)練所述深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),提高了深度學(xué)習(xí)訓(xùn)練中局部特征提取的精度。
【附圖說(shuō)明】
[0020] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述 中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些 實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些 附圖獲得其他的附圖。
[0021] 圖1是本發(fā)明實(shí)施例一提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實(shí)現(xiàn)流程圖;
[0022] 圖2是本發(fā)明實(shí)施例一提供的將輸入圖像分割為大小相同、圖像信息不同的mXn 個(gè)patch的示例圖;
[0023] 圖3是本發(fā)明實(shí)施例一提供的采用高斯金字塔算法與拉普拉斯金字塔算法對(duì) patch進(jìn)行多尺度圖像轉(zhuǎn)換后的示例圖;
[0024] 圖4是本發(fā)明實(shí)施例二提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實(shí)現(xiàn)流程圖;
[0025]圖5是本發(fā)明實(shí)施例三提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實(shí)現(xiàn)流程圖;
[0026] 圖6a是在KITTI_ROAD、LabelMe與CamVid數(shù)據(jù)集中取復(fù)雜的交通場(chǎng)景(含有多條道 路)分別采用原圖、superpixel、patch、多尺度和patch+多尺度訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)后進(jìn)行特 征提取的精度比較圖;圖6b是在KITTI-ROAD、LabelMe與CamVid數(shù)據(jù)集中取復(fù)雜的交通場(chǎng)景 (含有多條道路)分別采用原圖、superpixel、patch、多尺度和patch-多尺度訓(xùn)練反卷積神 經(jīng)網(wǎng)絡(luò)后進(jìn)行特征提取的精度比較圖;
[0027] 圖7是本發(fā)明實(shí)施例四提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置的組成示意圖;
[0028] 圖8是本發(fā)明實(shí)施例五提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置的組成示意圖;
[0029] 圖9是本發(fā)明實(shí)施例六提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置的組成示意圖。
【具體實(shí)施方式】
[0030] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0031] 實(shí)施例一:
[0032] 圖1示出了本發(fā)明實(shí)施例一提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實(shí)現(xiàn)流程,所述實(shí) 現(xiàn)流程詳述如下:
[0033]在步驟S101中,將訓(xùn)練集中的圖像分割為多個(gè)不同的patch;
[0034] 在本發(fā)明實(shí)施例中,所述patch是在訓(xùn)練集中的圖像中摳出的任意大小的圖像區(qū) 域,所述patch的大小小于所述圖像,較佳的是,所述patch可以為正方形或長(zhǎng)方形。所述訓(xùn) 練集包括輸入圖像和所述輸入圖像對(duì)應(yīng)的ground truth,所述ground truth是一張人工標(biāo) 定的像素標(biāo)記。如圖2是將訓(xùn)練集中的輸入圖像分割為大小相同、圖像信息不同的mXn個(gè) pat