欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)絡參數(shù)訓練方法、景物類型識別方法及裝置的制造方法

文檔序號:10512767閱讀:681來源:國知局
網(wǎng)絡參數(shù)訓練方法、景物類型識別方法及裝置的制造方法
【專利摘要】本發(fā)明實施例公開了一種網(wǎng)絡參數(shù)訓練方法、景物類型識別方法及裝置,屬于圖像處理領(lǐng)域。所述方法包括:獲取目標圖像;將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡中,所述卷積神經(jīng)網(wǎng)絡載入有預先根據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù),所述樣本圖像集中的樣本圖像是按照像素級別進行景物類型標注后的圖像;根據(jù)所述卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得所述目標圖像中的像素點對應的景物類型。本發(fā)明解決了相關(guān)技術(shù)僅能夠得到一張街景圖片的整體或某個區(qū)域的景物類型的問題;達到了可以獲取到目標圖像中每個像素點所對應的景物類型,對街景圖片中的景物類型的識別精度達到了像素級別的效果。
【專利說明】
網(wǎng)絡參數(shù)訓練方法、景物類型識別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實施例涉及圖像處理領(lǐng)域,特別涉及一種網(wǎng)絡參數(shù)訓練方法、景物類型識 別方法及裝置。
【背景技術(shù)】
[0002] 街景地圖是一種提供有街景圖片的地圖。對街景圖片中不同區(qū)域所對應的景物類 型進行識別是一項重要的處理技術(shù)。景物類型可以包括:天空、樹木、建筑和路面等。
[0003] 相關(guān)技術(shù)中,提供了 一種基于分塊Gabor特征的靜態(tài)圖片中景物類型識別 的方法,該方法包括兩個階段:在進行景物類型識別前,先建立所要識別景物類型的 SVM(Support Vector Machine,支持向量機)分類模型;對樣本圖像集提取圖像特征,用 SVM分類模型進行訓練得分類模型。然后,在進行場景識別時,通過提取街景圖片中不同分 塊、不同方向和不同尺度的直方圖統(tǒng)計值,作為圖像特征,輸入訓練好的分類模型中得出街 景圖片中景物類型的識別結(jié)果。
[0004] 在實現(xiàn)本發(fā)明實施例的過程中,發(fā)明人發(fā)現(xiàn)上述技術(shù)至少存在以下問題:上述方 法是在圖像層進行景物類型的識別,僅能夠得到一張街景圖片的整體的景物類型,或者,一 張街景圖片中某個區(qū)域的景物類型。

【發(fā)明內(nèi)容】

[0005] 為了解決上述技術(shù)的問題,本發(fā)明實施例提供了一種網(wǎng)絡參數(shù)訓練方法、景物類 型識別方法及裝置。所述技術(shù)方案如下:
[0006] 第一方面,提供了一種網(wǎng)絡參數(shù)訓練方法,其特征在于,所述方法包括:
[0007] 獲取由不同隨機數(shù)組成的初始網(wǎng)絡參數(shù);
[0008] 獲取樣本圖像集,所述樣本圖像集包括若干張樣本圖像,所述樣本圖像中的每個 像素點對應有標注后的景物類型;
[0009] 將所述樣本圖像輸入卷積神經(jīng)網(wǎng)絡中,對所述初始網(wǎng)絡參數(shù)進行迭代訓練,得到 識別誤差符合預設要求的網(wǎng)絡參數(shù),所述網(wǎng)絡參數(shù)用于識別目標圖像中像素點的景物類 型。
[0010] 第二方面,提供了一種景物類型識別方法,所述方法包括:
[0011] 獲取目標圖像;
[0012] 將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡中,所述卷積神經(jīng)網(wǎng)絡載入有預先根據(jù)樣本圖 像集訓練得到的網(wǎng)絡參數(shù),所述樣本圖像集包括若干張樣本圖像,所述樣本圖像中的每個 像素點對應有標注后的景物類型;
[0013] 根據(jù)所述卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得所述目標圖像中的像素點對應的景物類 型。
[0014] 第三方面,提供了一種網(wǎng)絡參數(shù)訓練裝置,所述裝置包括:
[0015] 初始化模塊,用于獲取由不同隨機數(shù)組成的初始網(wǎng)絡參數(shù);
[0016] 獲取模塊,用于獲取樣本圖像集,所述樣本圖像集包括若干張樣本圖像,所述樣本 圖像中的每個像素點對應有標注后的景物類型;
[0017] 訓練模塊,用于將所述樣本圖像輸入卷積神經(jīng)網(wǎng)絡中,對所述初始網(wǎng)絡參數(shù)進行 迭代訓練,得到識別誤差符合預設要求的網(wǎng)絡參數(shù),所述網(wǎng)絡參數(shù)用于識別目標圖像中像 素點的景物類型。
[0018] 第四方面,提供了一種景物類型識別裝置,所述裝置包括:
[0019] 獲取模塊,用于獲取目標圖像;
[0020] 識別模塊,用于將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡中進行識別處理,所述卷積神 經(jīng)網(wǎng)絡載入有預先根據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù),所述樣本圖像集包括若干張樣本 圖像,所述樣本圖像中的每個像素點對應有標注后的景物類型;
[0021] 輸出模塊,用于根據(jù)所述卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得所述目標圖像中的像素 點對應的景物類型。
[0022] 本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0023] 通過將目標圖像輸入卷積神經(jīng)網(wǎng)絡,得到目標圖像中的每個像素點對應的景物類 型;解決了相關(guān)技術(shù)僅能夠得到一張街景圖片的整體或某個區(qū)域的景物類型的問題;達到 了可以獲取到目標圖像中每個像素點所對應的景物類型,對街景圖片中的景物類型的識別 精度達到了像素級別的效果。
【附圖說明】
[0024] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0025] 圖1是本發(fā)明一個實施例提供的網(wǎng)絡參數(shù)訓練方法的方法流程圖。
[0026] 圖2是本發(fā)明一個實施例提供的景物類型識別方法的方法流程圖。
[0027] 圖3是本發(fā)明另一個實施例提供的網(wǎng)絡參數(shù)訓練方法的方法流程圖。
[0028] 圖4是本發(fā)明另一個實施例提供的網(wǎng)絡參數(shù)訓練方法的方法流程圖。
[0029] 圖5是本發(fā)明另一個實施例提供的網(wǎng)絡參數(shù)訓練方法的方法流程圖。
[0030] 圖6是本發(fā)明另一個實施例提供的網(wǎng)絡參數(shù)訓練方法的方法流程圖。
[0031] 圖7是本發(fā)明另一個實施例提供的景物類型識別方法的方法流程圖。
[0032] 圖8是本發(fā)明另一個實施例提供的景物類型識別方法的方法流程圖。
[0033] 圖9是本發(fā)明另一個實施例提供的網(wǎng)絡參數(shù)訓練方法的方法流程圖。
[0034] 圖10是本發(fā)明另一個實施例提供的景物類型識別方法的方法流程圖。
[0035] 圖11是本發(fā)明一個實施例提供的網(wǎng)絡參數(shù)訓練裝置的結(jié)構(gòu)示意圖。
[0036] 圖12是本發(fā)明一個實施例提供的網(wǎng)絡參數(shù)訓練裝置的結(jié)構(gòu)示意圖。
[0037] 圖13是本發(fā)明一個實施例提供的卷積單元的結(jié)構(gòu)示意圖。
[0038] 圖14是本發(fā)明一個實施例提供的網(wǎng)絡參數(shù)訓練裝置的結(jié)構(gòu)示意圖。
[0039] 圖15是本發(fā)明一個實施例提供的景物類型識別裝置的結(jié)構(gòu)示意圖。
[0040] 圖16是本發(fā)明另一個實施例提供的景物類型識別裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0041] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進一步地詳細描述。
[0042] 卷積神經(jīng)網(wǎng)絡是圖像識別領(lǐng)域的研究熱點。卷積神經(jīng)網(wǎng)絡是一個多層的神經(jīng)網(wǎng) 絡,每層包括多個二維平面,而每個平面包括多個獨立神經(jīng)元,每個神經(jīng)元對應有權(quán)值參 數(shù)。卷積神經(jīng)網(wǎng)絡中的神經(jīng)元可以通過合適的權(quán)值參數(shù)做出識別結(jié)果,這些神經(jīng)元的具體 形式可以是卷積核,這些權(quán)值參數(shù)可以統(tǒng)稱為網(wǎng)絡參數(shù)。
[0043] 本發(fā)明實施例分為2個階段:訓練階段和識別階段。如下所示,圖1示出了訓練階 段的步驟,圖2示出了識別階段的步驟。
[0044] 請參考圖1,其示出了一種網(wǎng)絡參數(shù)訓練方法的方法流程圖。該網(wǎng)絡參數(shù)訓練方法 可以應用在具有計算能力的終端中。該網(wǎng)絡參數(shù)訓練方法,包括:
[0045] 步驟101,獲取由不同隨機數(shù)組成的初始網(wǎng)絡參數(shù);
[0046] 網(wǎng)絡參數(shù)是指卷積神經(jīng)網(wǎng)絡中所使用的參數(shù),網(wǎng)絡參數(shù)通常包括張量、向量和矩 陣。
[0047] 步驟102,獲取樣本圖像集,樣本圖像集包括若干張樣本圖像,每個樣本圖像中的 每個像素點對應有標注后的景物類型;
[0048] 樣本圖像集可以由街景圖像組成。每個街景圖像中的每個像素點都對應有標注后 的景物類型。標注過程可以由人工完成。
[0049] 步驟103,將樣本圖像輸入卷積神經(jīng)網(wǎng)絡中,對初始網(wǎng)絡參數(shù)進行迭代訓練,得到 識別誤差符合預設要求的網(wǎng)絡參數(shù)。
[0050] 該網(wǎng)絡參數(shù)用于識別目標圖像中像素點的景物類型。
[0051] 綜上所述,本實施例提供的網(wǎng)絡參數(shù)訓練方法,通過按照像素級別進行景物類型 標注后的樣本圖像對卷積神經(jīng)網(wǎng)絡所使用的網(wǎng)絡參數(shù)進行訓練,得到識別誤差符合預設要 求的網(wǎng)絡參數(shù),訓練得到的該網(wǎng)絡參數(shù)可以用于后續(xù)的識別過程中。
[0052] 請參考圖2,其示出了一種景物類型識別方法的方法流程圖。該景物類型識別方法 可以應用在具有計算能力的終端中。該景物類型識別方法,包括:
[0053] 步驟201,獲取目標圖像。
[0054] 目標圖像可以是需要識別景物類型的街景圖像。
[0055] 步驟202,將目標圖像輸入卷積神經(jīng)網(wǎng)絡中進行識別處理,該卷積神經(jīng)網(wǎng)絡載入有 預先根據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù),樣本圖像集包括若干張樣本圖像,樣本圖像中 的每個像素點對應有標注后的景物類型。
[0056] 該網(wǎng)絡參數(shù)是圖1所示實施例所訓練得到的網(wǎng)絡參數(shù)。
[0057] 步驟203,根據(jù)卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得目標圖像中的像素點對應的景物類 型。
[0058] 綜上所述,本實施例提供的景物類型識別方法,通過將目標圖像輸入卷積神經(jīng)網(wǎng) 絡,得到目標圖像中的每個像素點對應的景物類型;解決了相關(guān)技術(shù)僅能夠得到一張街景 圖片的整體或某個區(qū)域的景物類型的問題;達到了可以獲取到目標圖像中每個像素點所對 應的景物類型,對街景圖片中的景物類型的識別精度達到了像素級別的效果。
[0059] 作為一種可選的實現(xiàn)方式,步驟103可以包括如圖3所示的步驟:
[0060] 步驟301,對于第i次迭代過程,將樣本圖像的每個像素點的原始的叫個通道的數(shù) 據(jù),輸入卷積神經(jīng)網(wǎng)絡中進行處理,得到每個像素點的n 2個通道的數(shù)據(jù),η 2> n i,原始的ηι 個通道是由樣本圖像輸入卷積神經(jīng)網(wǎng)絡時的顏色空間所確定的顏色通道;
[0061] 比如,樣本圖像中每個像素點的原始狀態(tài)可以是6個通道的數(shù)據(jù),這6個通道的數(shù) 據(jù)可以根據(jù)樣本圖像的顏色空間所確定的顏色通道來獲得,在輸入卷積神經(jīng)網(wǎng)絡中進行處 理后,可以得到每個像素點的384個通道的數(shù)據(jù)。
[0062] 步驟302,根據(jù)樣本圖像的每個像素點的n2個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏輯 回歸分析,得到每個像素點對應于各個景物類型的預測概率;
[0063] 比如,景物類型分為4種:天空、樹木、建筑和路面,根據(jù)每個像素點的384個通道 的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏輯回歸分析,得到每個像素點對應于各個景物類型的預測概 率,也即每個像素點對應于天空的預測概率、對應于樹木的預測概率、對應于建筑的預測概 率和對應于路面的預測概率。
[0064] 步驟303,根據(jù)每個像素點對應的標注后的景物類型,計算像素點對應的景物類型 的預測概率的誤差;
[0065] 由于樣本圖像中的每個像素點對應有標注后的景物類型,所以可以計算出步驟 202的預測概率的誤差。
[0066] 比如,像素點X標注的景物類型為天空,而步驟202中將像素點X的景物類型預測 為天空的概率是P prad(天空)=〇. 6,則該像素點的誤差可以為:l-log(P_d(天空))。
[0067] 步驟304,統(tǒng)計樣本圖像中各個像素點的誤差和,檢測該誤差和是否達到最小或低 于預設閾值;
[0068] 步驟305,若樣本圖像的誤差和未達到最小或低于預設閾值,則采用梯度下降法對 第i次迭代過程中使用的網(wǎng)絡參數(shù)進行調(diào)整,并執(zhí)行第i+Ι次迭代過程;
[0069] 其中,第1次迭代過程中使用的網(wǎng)絡參數(shù)是初始網(wǎng)絡參數(shù)。
[0070] 若樣本圖像的誤差和達到最小或者低于預設閾值,則將第i次迭代過程中使用的 網(wǎng)絡參數(shù)確定為識別誤差符合預設要求的網(wǎng)絡參數(shù)。
[0071] 該識別誤差符合預設要求的網(wǎng)絡參數(shù)可以存儲在指定位置,以便在識別階段使 用。如果執(zhí)行訓練過程的終端與執(zhí)行識別過程的終端是不同的終端,則該網(wǎng)絡參數(shù)可以由 執(zhí)行訓練過程的終端發(fā)送給執(zhí)行識別過程的終端。
[0072] 在本實現(xiàn)方式中,步驟301中將每個像素點的叫個通道的數(shù)據(jù),轉(zhuǎn)換至η 2個通道 的數(shù)據(jù),可以使得預測過程中可供參考的數(shù)據(jù)信息更多,增大識別準確率。其中,η2的大小 可以與景物類型的多少呈正相關(guān)關(guān)系。也即,如果景物類型的類型數(shù)量大,則η 2的數(shù)量也 相應增大;如果景物類型的類型數(shù)量小,則η2的數(shù)量也可以相應減小,從而減少計算量。
[0073] 作為一種可選的實現(xiàn)方式,步驟301可以包括如圖4所示的步驟:
[0074] 步驟401,將樣本圖像的每個像素點的原始的ηι個通道的數(shù)據(jù),輸入卷積神經(jīng)網(wǎng)絡 中進行至少一層多維卷積處理,變換得到n 3-2個通道的數(shù)據(jù),每層多維卷積處理所使用的 張量和糾偏向量是網(wǎng)絡參數(shù)中的一部分;
[0075] 多維卷積處理可以是采用張量和糾偏向量對輸入數(shù)據(jù)進行多維卷積的一種運算 過程。
[0076] 比如,將樣本圖像的每個像素點的原始的6個通道的數(shù)據(jù),輸入卷積神經(jīng)網(wǎng)絡中 進行一層多維卷積處理,變換得252個通道的數(shù)據(jù)。
[0077] 又比如,為了避免單次多維卷積處理的運算量過大,可以將一層多維卷積處理拆 分為若干層多維卷積處理,第一層多維卷積處理時,先將每個像素點由原始的6個通道的 數(shù)據(jù)轉(zhuǎn)換為16個通道的數(shù)據(jù);第二層多維卷積處理時,將每個像素點由16個通道的數(shù)據(jù)轉(zhuǎn) 換為48個通道的數(shù)據(jù);第三層多維卷積處理時,將每個像素點由48個通道的數(shù)據(jù)轉(zhuǎn)換為 84個通道的數(shù)據(jù),諸如此類,不一一贅述。
[0078] 步驟402,將每個像素點的X坐標和y坐標生成為2個通道的數(shù)據(jù),與n3_2個通道 的數(shù)據(jù)合并為11 3個通道的數(shù)據(jù);
[0079] 由于景物類型在一定程度上與像素點在圖片中的坐標位置有關(guān),比如景物類型為 天空的像素點通常在圖像上方,景物類型為路面的像素點通常在圖像下方。本實現(xiàn)方式中, 還可以將每個像素點的X坐標和y坐標生成為2個通道的數(shù)據(jù),與上一步驟中得到的252 個通道的數(shù)據(jù)合并為254個通道的數(shù)據(jù)。
[0080] 步驟403,將每個像素點的n3個通道的數(shù)據(jù)使用τ' = W.\: + /)變換為n2個通道的數(shù) 據(jù);其中,矩陣W為n2*n3的矩陣,向量b為一個長度為η 2的向量,矩陣W和向量i是網(wǎng)絡參 數(shù)中的另一部分。
[0081] 在本實現(xiàn)方式中,步驟302中將每個像素點的X坐標和y坐標生成為2個通道的 數(shù)據(jù),能夠?qū)⑾袼攸c的坐標作為預測過程中可供參考的數(shù)據(jù)信息,使得識別準確率更進一 步地提高。特別地,對于諸如天空、地面、路面之類與坐標有關(guān)的景物類型的識別準確率有 較好的提升。
[0082] 作為一種可選的實現(xiàn)方式,每個樣本圖像又包括有m個不同尺度的圖像,其中1個 尺度的圖像為原始大小的原圖,其它m-1個尺度的圖像為該原圖的縮放圖像。此時,上述步 驟401可以包括如圖5所示的步驟:
[0083] 步驟501,對于樣本圖像中的每一尺度的圖像,將該圖像中每個像素點的ηι個通道 的數(shù)據(jù),輸入卷積神經(jīng)網(wǎng)絡中進行至少一層多維卷積處理,變換得到每個像素點的n 4個通 道的數(shù)據(jù);
[0084] 以m = 3, n4= 84為例,若對每一個尺度的圖像進行三層多維卷積處理,則可以在 第一層多維卷積處理時,先將每個像素點由原始的6個通道的數(shù)據(jù)轉(zhuǎn)換為16個通道的數(shù) 據(jù);第二層多維卷積處理時,將每個像素點由16個通道的數(shù)據(jù)轉(zhuǎn)換為48個通道的數(shù)據(jù);第 三層多維卷積處理時,將每個像素點由48個通道的數(shù)據(jù)轉(zhuǎn)換為84個通道的數(shù)據(jù)。
[0085] 步驟502,將m-Ι個縮放圖像根據(jù)插值算法還原為原始大小的圖像,與原圖一起組 成m個原始大小的圖像;
[0086] 以m = 3為例,若第1個縮放圖像是原圖的1/2大小,則根據(jù)插值算法將第1個縮 放圖像由1/2大小還原為原始大??;若第2個縮放圖像是原圖的1/4大小,則根據(jù)插值算法 將第2個縮放圖像由1/4大小還原為原始大小,最終得到3張原始大小的圖像,每個圖像中 的像素點都有84個通道的數(shù)據(jù)。
[0087] 步驟503,將m個原始大小的圖像中每個像素點的114個通道的數(shù)據(jù)進行疊加,得到 每個像素點的n 3-2個通道的數(shù)據(jù),m*n4= η 3-2。
[0088] 以m = 3為例,若3張原始大小的圖像中的每個像素點的84個通道疊加后,得到 每個像素點的252個通道的數(shù)據(jù)。
[0089] 在本實現(xiàn)方式中,通過將原圖和縮放圖像組成多個不同尺度的樣本圖像來對網(wǎng)絡 參數(shù)進行訓練。當訓練得到的網(wǎng)絡參數(shù)用于識別過程時,可以對不同尺度的目標圖像都有 較好的適用性,盡量消除尺度差異對識別結(jié)果的影響。
[0090] 需要說明的是,本發(fā)明實施例對步驟501中進行幾層多維卷積處理不做具體限 定,本領(lǐng)域技術(shù)人員可以視運算量要求和終端的實際計算能力而定。多維卷積處理可以使 用已有的多維卷積處理過程。作為一種示意性的例子:
[0091] 對于每層多維卷積處理,設na是每個像素點在處理前的通道數(shù),n b是每個像素點 在處理后的通道數(shù),則一層多維卷積處理包括:
[0092] 1、使用nb*na*m*m的張量對每個像素點的n a個通道的數(shù)據(jù)進行多維卷積運算;
[0093] 該多維卷積運算相當于對113個通道的數(shù)據(jù)分別應用nb個m*m的卷積過程,每個通 道得到n b組卷積輸出,然后將1個通道中每個通道對應的第i組卷積輸出疊加,1 < i < nb, 得到nb個通道的數(shù)據(jù)。其中,m為奇數(shù)。
[0094] 2、將nb個通道的數(shù)據(jù)與長度為n b的糾偏向量相加,得到糾偏后的n b個通道的數(shù) 據(jù);
[0095] 3、將糾偏后的nb個通道的數(shù)據(jù)應用雙曲正切函數(shù)處理,得到每個像素點的n b個通 道的數(shù)據(jù)。其中,雙曲正切函數(shù)用于將每個通道的數(shù)據(jù)的取值范圍約束為(-1,1)。
[0096] 4、在包括下一層多維卷積處理時,對于當前層多維卷積處理輸出的每個圖像,將 當前圖像劃分為a*a大小的小塊,將每個小塊中的各個像素點的每個通道取最大值作為下 采樣結(jié)果,并將下采樣后的輸出數(shù)據(jù)作為下一層多維卷積處理的輸入數(shù)據(jù)。
[0097] 其中,下采樣過程用于保留當前層多維卷積處理提取的圖像特征。
[0098] 作為一種可能的實現(xiàn)方式,在將樣本圖像輸入卷積神經(jīng)網(wǎng)絡中之前,也即步驟103 之前,還需要將樣本圖像預處理為符合卷積神經(jīng)網(wǎng)絡的輸入要求的樣本圖像。此時,在步驟 103之前,還可以包括如圖6所示的步驟:
[0099] 步驟601,將樣本圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,目標顏色空間 包括η個顏色通道;
[0100] 最初版本的樣本圖像可以僅包括原圖。此時,可以將樣本圖像的原圖由原始顏色 空間轉(zhuǎn)換到目標顏色空間,目標顏色空間可以是國際照明委員會CIE系統(tǒng)制定的更符合人 眼認知習慣的LAB顏色空間。LAB顏色空間包括三個顏色通道,其中,L表示亮度,a表示從 洋紅色至綠色的范圍,b表示從黃色至藍色的范圍。
[0101] 若樣本圖像的原圖是RGB(Red Green Blue,紅綠藍)顏色空間,則可以將樣本圖像 的原圖由RGB顏色空間轉(zhuǎn)換到LAB顏色空間。
[0102] 步驟602,將原圖中的每個像素點,根據(jù)η個顏色通道中的每個顏色通道分別進行 對比度平滑處理,得到平滑處理后的原圖;
[0103] 比如,將原圖劃分為Η*Η大小的分塊,對于每個顏色通道,計算每個分塊中各個像 素點在該顏色通道上的平均值5和標準差A,之后對各個像素點進行如下變形:
[0105] 在這樣的變形之后,每一個分塊內(nèi)各個顏色通道的各個像素點的均值為0,方差為 1。Η是原圖的行和列能夠整除的正整數(shù),比如,原圖為分辨率320*240的圖像,則Η可以為 16。
[0106] 步驟603,將原圖和平滑處理后的原圖合并為擁有2η個顏色通道的原圖,2η = ηι;
[0107] 原圖中的每個像素點包括3個顏色通道,平滑處理后的原圖中的每個像素點包括 3個顏色通道。將原圖和平滑處理后的原圖合并后,得到一張擁有6個顏色通道的原圖。
[0108] 步驟604,將擁有ηι個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放 圖像;
[0109] 以m = 3為例,將擁有6個顏色通道的原圖,縮放為1/2大小的一張縮放圖像和縮 放為1/4大小的一張縮放圖像。
[0110] 步驟605,將擁有ηι個顏色通道的原圖和m-ι個縮放圖像作為符合卷積神經(jīng)網(wǎng)絡 的輸入要求的樣本圖像。
[0111] 將原圖和兩張縮放圖像作為同一個樣本圖像的三個不同尺度的圖像,作為符合卷 積神經(jīng)網(wǎng)絡的輸入要求的樣本圖像。
[0112] 在本實現(xiàn)方式中,通過將原圖由原始顏色空間轉(zhuǎn)換至目標顏色空間,使得識別結(jié) 果更符合人眼認知習慣,增加識別準確率。但需要說明的是,步驟601為可選步驟。
[0113] 在本實現(xiàn)方式中,還通過將原圖和縮放圖像組成多個不同尺度的樣本圖像來對網(wǎng) 絡參數(shù)進行訓練。當訓練得到的網(wǎng)絡參數(shù)用于識別過程時,可以對不同尺度的目標圖像都 有較好的適用性,盡量消除尺度差異對識別結(jié)果的影響。
[0114] 識別階段與訓練階段的處理過程有一定程度的相似,如下所述:
[0115] 作為一種可能的實現(xiàn)方式,在將目標圖像輸入卷積神經(jīng)網(wǎng)絡中之前,也即步驟202 之前,還需要將目標圖像預處理為符合卷積神經(jīng)網(wǎng)絡的輸入要求的目標圖像。此時,在步驟 202之前,還可以包括如圖7所示的步驟:
[0116] 步驟701,將目標圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,目標顏色空間 包括η個顏色通道;
[0117] 最初版本的目標圖像可以僅包括原圖。此時,可以將目標圖像的原圖由原始顏色 空間轉(zhuǎn)換到目標顏色空間,目標顏色空間可以是國際照明委員會CIE系統(tǒng)制定的更符合人 眼認知習慣的LAB顏色空間。LAB顏色空間包括三個顏色通道,其中,L表示亮度,a表示從 洋紅色至綠色的范圍,b表示從黃色至藍色的范圍。
[0118] 若目標圖像的原圖是RGB(Red Green Blue,紅綠藍)顏色空間,則可以將目標圖像 的原圖由RGB顏色空間轉(zhuǎn)換到LAB顏色空間。
[0119] 步驟702,將原圖中的每個像素點,根據(jù)η個顏色通道中的每個顏色通道分別進行 對比度平滑處理,得到平滑處理后的原圖;
[0120] 比如,將原圖劃分為Η*Η大小的分塊,對于每個顏色通道,計算每個分塊中各個像 素點在該顏色通道上的平均值i和標準差A,之后對各個像素點進行如下變形:
[0122] 在這樣的變形之后,每一個分塊內(nèi)各個顏色通道的各個像素點的均值為0,方差為 1。Η是原圖的行和列能夠整除的正整數(shù),比如,原圖為分辨率320*240的圖像,則Η可以為 16。
[0123] 步驟703,將原圖和平滑處理后的原圖合并為擁有2η個顏色通道的原圖,2η = η1;
[0124] 原圖中的每個像素點包括3個顏色通道,平滑處理后的原圖中的每個像素點包括 3個顏色通道。將原圖和平滑處理后的原圖合并后,得到一張擁有6個顏色通道的原圖。
[0125] 步驟704,將擁有ηι個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放 圖像;
[0126] 以m = 3為例,將擁有6個顏色通道的原圖,縮放為1/2大小的一張縮放圖像和縮 放為1/4大小的一張縮放圖像。
[0127] 步驟705,將擁有ηι個顏色通道的原圖和m-Ι個縮放圖像作為符合卷積神經(jīng)網(wǎng)絡 的輸入要求的目標圖像。
[0128] 將原圖和兩張縮放圖像作為同一個目標圖像的三個不同尺度的圖像,作為符合卷 積神經(jīng)網(wǎng)絡的輸入要求的目標圖像。
[0129] 作為一種可能的實現(xiàn)方式,步驟202還包括如圖8所示的步驟:
[0130] 步驟801,將目標圖像的每個像素點的原始的ηι個通道的數(shù)據(jù),輸入卷積神經(jīng)網(wǎng)絡 中進行處理,得到每個像素點的n 2個通道的數(shù)據(jù),η 2> n i,原始的ηι個通道是由目標圖像 輸入卷積神經(jīng)網(wǎng)絡時的顏色空間所確定的顏色通道,該卷積神經(jīng)網(wǎng)絡中載入有預先根據(jù)樣 本圖像集訓練得到的網(wǎng)絡參數(shù);
[0131] 該步驟的實現(xiàn)方式與步驟301基本相同,區(qū)別僅在于步驟301為對樣本圖像的處 理,卷積神經(jīng)網(wǎng)絡中載入的網(wǎng)絡參數(shù)是未訓練好的網(wǎng)絡參數(shù);而步驟801為對目標圖像的 處理,卷積神經(jīng)網(wǎng)絡中載入的網(wǎng)絡參數(shù)是已訓練好的網(wǎng)絡參數(shù)。相應的處理細節(jié)可以參考 上述步驟301的子步驟,本文不再贅述。
[0132] 步驟802,根據(jù)目標圖像的每個像素點的叫個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏輯 回歸分析,得到每個像素點對應于各個景物類型的預測概率。
[0133] 對應地,步驟203包括如下步驟803 :
[0134] 步驟803,對于每個像素點,將該像素點對應于各個景物類型的預測概率中,最高 的一個預測概率所對應的景物類型,作為該像素點的景物類型。
[0135] 為了更詳細、直觀地闡述本發(fā)明實施例,下述兩個實施例采用具體的各個參數(shù)來 分別闡述上述訓練過程和識別過程,但是并不對各個參數(shù)的具體取值進行限定,僅為示意 說明。并且,這2個實施例可以由同一個終端執(zhí)行,也可以由不同的終端執(zhí)行。
[0136] 請參考圖9,其示出了本發(fā)明一個實施例提供的網(wǎng)絡參數(shù)訓練方法的方法流程圖。 該網(wǎng)絡參數(shù)訓練方法可以應用在具有計算能力的終端中。該網(wǎng)絡參數(shù)訓練方法,包括:
[0137] -、樣本圖像預處理階段。
[0138] 步驟901,獲取樣本圖像集,樣本圖像集包括若干張樣本圖像,每個樣本圖像中的 每個像素點對應有標注后的景物類型;
[0139] 樣本圖像集可以由街景圖像組成。每個街景圖像中的每個像素點都對應有標注后 的景物類型。標注過程可以由人工完成。
[0140] 每個像素點的景物類型可以是天空、樹木、建筑和路面中的一種。
[0141] 步驟902,將樣本圖像的原圖由RGB顏色空間轉(zhuǎn)換到LAB顏色空間,LAB顏色空間 包括3個顏色通道;
[0142] 樣本圖像初始僅包括采用RGB顏色空間表示的原圖。此時,將樣本圖像的原圖由 RGB顏色空間轉(zhuǎn)換到LAB顏色空間。
[0143] 步驟903,將原圖中的每個像素點,根據(jù)3個顏色通道中的每個顏色通道分別進行 對比度平滑處理,得到平滑處理后的原圖;
[0144] 將原圖劃分為32像素 *32像素大小的分塊,對于每個顏色通道,計算每個分塊中 各個像素點在該顏色通道上的平均值?和標準差A,之后對各個像素點進行如下變形:
[0146] 在這樣的變形之后,每一個分塊內(nèi)各個顏色通道的各個像素點的均值為0,方差為 1〇
[0147] 步驟904,將原圖和平滑處理后的原圖合并為擁有6個顏色通道的原圖;
[0148] 原圖中的每個像素點包括3個顏色通道,平滑處理后的原圖中的每個像素點包括 3個顏色通道。將原圖和平滑處理后的原圖合并后,得到一張擁有6個顏色通道的原圖。
[0149] 步驟905,將原圖根據(jù)不同的縮放比例縮放得到2個縮放圖像;
[0150] 將擁有6個顏色通道的原圖,縮放為1/2大小的一張縮放圖像和縮放為1/4大小 的一張縮放圖像。
[0151] 步驟906,將原圖和2個縮放圖像作為符合卷積神經(jīng)網(wǎng)絡的輸入要求的樣本圖像;
[0152] 將原圖和兩張縮放圖像作為同一個樣本圖像的三個不同尺度的圖像,作為符合卷 積神經(jīng)網(wǎng)絡的輸入要求的樣本圖像。
[0153] 顯然,對于樣本圖像集中的每個樣本圖像,都包括有三個不同尺度的圖像。
[0154] 二、參數(shù)訓練階段。
[0155] 下述步驟907至步驟915示出了一次迭代過程:
[0156] 步驟907,對于樣本圖像中的每一尺度的圖像,將該圖像中每個像素點的6個通道 的數(shù)據(jù),輸入卷積神經(jīng)網(wǎng)絡中進行3層多維卷積處理,變換得到每個像素點的84個通道的 數(shù)據(jù);
[0157] 在第一層多維卷積處理時,使用一個16*6*7*7的第一張量對每個像素點的6個通 道的數(shù)據(jù)進行多維卷積處理,該多維卷積處理相當于對6個通道的數(shù)據(jù)分別應用16個7*7 的卷積過程,每個通道得到16組卷積輸出,然后將6個通道中每個通道對應的第i組卷積 輸出疊加,1 < i < 16,得到每個像素點的16個通道的數(shù)據(jù)。
[0158] 然后將每個像素點的16個通道的數(shù)據(jù)與長度為16的第一糾偏向量相加,得到每 個像素點糾偏后的16個通道的數(shù)據(jù),再對將糾偏后的16個通道的數(shù)據(jù)應用雙曲正切函數(shù) 處理,得到每個像素點的16個通道的數(shù)據(jù)。其中,雙曲正切函數(shù)用于將每個通道的數(shù)據(jù)的 取值范圍約束為(-1,1);
[0159] 然后,對第一層多維卷積處理輸出的每個圖像,將該圖像劃分為2像素 *2像素大 小的小塊,將每個小塊中的各個像素點中的每個通道取最大值作為下采樣結(jié)果,并將下采 樣后的輸出數(shù)據(jù)作為第二層多維卷積處理的輸入數(shù)據(jù)。
[0160] 在第二層多維卷積處理時,使用一個48*16*7*7的第二張量對每個像素點的16個 通道的數(shù)據(jù)進行多維卷積處理,該多維卷積處理相當于對16個通道的數(shù)據(jù)分別應用48個 7*7的卷積過程,每個通道得到48組卷積輸出,然后將16個通道中每個通道對應的第i組 卷積輸出疊加,1 < i < 48,得到每個像素點的48個通道的數(shù)據(jù)。
[0161] 然后將每個像素點的48個通道的數(shù)據(jù)與長度為48的第二糾偏向量相加,得到每 個像素點糾偏后的48個通道的數(shù)據(jù),再對將糾偏后的48個通道的數(shù)據(jù)應用雙曲正切函數(shù) 處理,得到每個像素點的48個通道的數(shù)據(jù)。其中,雙曲正切函數(shù)用于將每個通道的數(shù)據(jù)的 取值范圍約束為(-1,1);
[0162] 然后,對第二層多維卷積處理輸出的每個圖像,將該圖像劃分為2像素*2像素大 小的小塊,將每個小塊中的各個像素點中的每個通道取最大值作為下采樣結(jié)果,并將下采 樣后的輸出數(shù)據(jù)作為第三層多維卷積處理的輸入數(shù)據(jù)。
[0163] 在第三層多維卷積處理時,使用一個84*48*7*7的第二張量對每個像素點的48個 通道的數(shù)據(jù)進行多維卷積處理,該多維卷積處理相當于對48個通道的數(shù)據(jù)分別應用48個 7*7的卷積過程,每個通道得到84組卷積輸出,然后將48個通道中每個通道對應的第i組 卷積輸出疊加,1 < i < 84,得到每個像素點的84個通道的數(shù)據(jù)。
[0164] 然后將每個像素點的84個通道的數(shù)據(jù)與長度為84的第三糾偏向量相加,得到每 個像素點糾偏后的84個通道的數(shù)據(jù),再對將糾偏后的84個通道的數(shù)據(jù)應用雙曲正切函數(shù) 處理,得到每個像素點的84個通道的數(shù)據(jù)。其中,雙曲正切函數(shù)用于將每個通道的數(shù)據(jù)的 取值范圍約束為(-1,1)。
[0165] 步驟908,將2個縮放圖像根據(jù)插值算法還原為原始大小的圖像,與原圖一起組成 3個原始大小的圖像;
[0166] 由于同一個樣本圖像包括原圖、第1個縮放圖像和第2個縮放圖像,第1個縮放圖 像是原圖的1/2大小,則根據(jù)插值算法將第1個縮放圖像由1/2大小還原為原始大?。坏? 個縮放圖像是原圖的1/4大小,則根據(jù)插值算法將第2個縮放圖像由1/4大小還原為原始 大小,最終得到3張原始大小的圖像,每個圖像中的像素點都有84個通道的數(shù)據(jù)。
[0167] 步驟909,將3個原始大小的圖像中每個像素點的84個通道的數(shù)據(jù)進行疊加,得到 每個像素點的252個通道的數(shù)據(jù);
[0168] 對于同一個樣本圖像的3個原始大小的圖像,將3個圖像中每個像素點的84個通 道的數(shù)據(jù)進行疊加,得到每個像素點的252個通道的數(shù)據(jù)。
[0169] 步驟910,將每個像素點的X坐標和y坐標生成為2個通道的數(shù)據(jù),與252個通道 的數(shù)據(jù)合并為254個通道的數(shù)據(jù);
[0170] 由于景物類型在一定程度上與像素點在圖片中的坐標位置有關(guān),比如景物類型為 天空的像素點通常在圖像上方,景物類型為路面的像素點通常在圖像下方。將每個像素點 的X坐標和y坐標生成為2個通道的數(shù)據(jù),與上一步驟中得到的252個通道的數(shù)據(jù)合并為 254個通道的數(shù)據(jù)。
[0171 ] 步驟911,將每個像素點的252個通道的數(shù)據(jù)使用.r' = + 變換為384個通道的 數(shù)據(jù);其中,矩陣W為384*252的矩陣,向量g為一個長度為384的向量。
[0172] 至此,每個樣本圖像都變成一張原始大小的圖像,該圖像中的每個像素點擁有384 個通道。
[0173] 步驟912,根據(jù)樣本圖像的每個像素點的384個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏 輯回歸分析,得到每個像素點對應于4種景物類型的預測概率;
[0174] 根據(jù)每個像素點的384個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏輯回歸分析,得到每 個像素點對應于天空的預測概率、對應于樹木的預測概率、對應于建筑的預測概率和對應 于路面的預測概率。
[0175] 步驟913,根據(jù)每個像素點對應的標注后的景物類型,計算像素點對應的景物類型 的預測概率的誤差;
[0176] 由于樣本圖像中的每個像素點對應有標注后的景物類型,所以可以計算出步驟 912的預測概率的誤差。
[0177] 如果采用負對數(shù)信度作為誤差的量化標準,對于一個像素點,如果它被標注為 景物類別i,且在步驟912中被預測為景物類別i的概率為P_ d(i),則該像素點的誤差 為-log(Ppred ⑴)。
[0178] 比如,像素點X被標注的景物類型為天空,而步驟912中將像素點X的景物類型預 測為天空的概率是P prad(天空)=〇. 6,則該像素點的誤差可以為:l-log(P_d(天空))。
[0179] 步驟914,統(tǒng)計樣本圖像中各個像素點的誤差和,檢測該誤差和是否達到最小或低 于預設閾值;
[0180] 步驟915,若樣本圖像的誤差和未達到最小或低于預設閾值,則采用梯度下降法對 本次迭代過程中使用的網(wǎng)絡參數(shù)進行調(diào)整,并執(zhí)行下一次迭代過程;
[0181] 其中,第1次迭代過程中使用的網(wǎng)絡參數(shù)是初始網(wǎng)絡參數(shù),也即通過不同隨機數(shù) 所組成的初始網(wǎng)絡參數(shù)。
[0182] 網(wǎng)絡參數(shù)包括每次多維卷積處理中所使用的張量和向量、矩陣W和向量?5,比如本 實施例中的第一張量、第一向量、第二張量、第二向量、第三張量、第三向量、矩陣W和向量 b 〇:
[0183] 步驟916,若樣本圖像的誤差和達到最小或者低于預設閾值,則將最后一次迭代過 程中使用的網(wǎng)絡參數(shù)確定為識別誤差符合預設要求的網(wǎng)絡參數(shù)。
[0184] 當樣本圖像的誤差和達到最小或者低于預設閾值,訓練過程完畢,則將最后一次 迭代過程中使用的網(wǎng)絡參數(shù)確定為識別誤差符合預設要求的網(wǎng)絡參數(shù)。
[0185] 該識別誤差符合預設要求的網(wǎng)絡參數(shù)可以存儲在指定位置,以便在識別階段使 用。如果執(zhí)行訓練過程的終端與執(zhí)行識別過程的終端是不同的終端,則該網(wǎng)絡參數(shù)可以由 執(zhí)行訓練過程的終端發(fā)送給執(zhí)行識別過程的終端。
[0186] 請參考圖10,其示出了本發(fā)明一個實施例示出的景物類別識別方法的方法流程 圖。該景物類型識別方法可以應用在具有計算能力的終端中。該景物類型識別方法,包括:
[0187] -、目標圖像預處理階段。
[0188] 步驟1001,獲取目標圖像;
[0189] 目標圖像可以街景圖像。
[0190] 步驟1002,將目標圖像的原圖由RGB顏色空間轉(zhuǎn)換到LAB顏色空間,LAB顏色空間 包括3個顏色通道;
[0191] 目標圖像初始僅包括采用RGB顏色空間表示的原圖。此時,將目標圖像的原圖由 RGB顏色空間轉(zhuǎn)換到LAB顏色空間。
[0192] 步驟1003,將原圖中的每個像素點,根據(jù)3個顏色通道中的每個顏色通道分別進 行對比度平滑處理,得到平滑處理后的原圖;
[0193] 將原圖劃分為32像素*32像素大小的分塊,對于每個顏色通道,計算每個分塊中 各個像素點在該顏色通道上的平均值?和標準差A,之后對各個像素點進行如下變形:
[0195] 在這樣的變形之后,每一個分塊內(nèi)各個顏色通道的各個像素點的均值為0,方差為 1〇
[0196] 步驟1004,將原圖和平滑處理后的原圖合并為擁有6個顏色通道的原圖,2n = n1;
[0197] 原圖中的每個像素點包括3個顏色通道,平滑處理后的原圖中的每個像素點包括 3個顏色通道。將原圖和平滑處理后的原圖合并后,得到一張擁有6個顏色通道的原圖。
[0198] 步驟1005,將原圖根據(jù)不同的縮放比例縮放得到2個縮放圖像;
[0199] 將擁有6個顏色通道的原圖,縮放為1/2大小的一張縮放圖像和縮放為1/4大小 的一張縮放圖像。
[0200] 步驟1006,將原圖和2個縮放圖像作為符合卷積神經(jīng)網(wǎng)絡的輸入要求的目標圖 像;
[0201] 將原圖和兩張縮放圖像作為同一個目標圖像的三個不同尺度的圖像,作為符合卷 積神經(jīng)網(wǎng)絡的輸入要求的目標圖像。
[0202] 二、識別階段。
[0203] 步驟1007,對于目標圖像中的每一尺度的圖像,將該圖像中每個像素點的6個通 道的數(shù)據(jù),輸入卷積神經(jīng)網(wǎng)絡中進行3層多維卷積處理,變換得到每個像素點的84個通道 的數(shù)據(jù),該卷積神經(jīng)網(wǎng)絡中載入有預先根據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù);
[0204] 該網(wǎng)絡參數(shù)可以是圖9實施例所訓練得到的網(wǎng)絡參數(shù)。
[0205] 在第一層多維卷積處理時,使用一個16*6*7*7的第一張量對每個像素點的6個通 道的數(shù)據(jù)進行多維卷積處理,該多維卷積處理相當于對6個通道的數(shù)據(jù)分別應用16個7*7 的卷積過程,每個通道得到16組卷積輸出,然后將6個通道中每個通道對應的第i組卷積 輸出疊加,1 < i < 16,得到每個像素點的16個通道的數(shù)據(jù)。
[0206] 然后將每個像素點的16個通道的數(shù)據(jù)與長度為16的第一糾偏向量相加,得到每 個像素點糾偏后的16個通道的數(shù)據(jù),再對將糾偏后的16個通道的數(shù)據(jù)應用雙曲正切函數(shù) 處理,得到每個像素點的16個通道的數(shù)據(jù)。其中,雙曲正切函數(shù)用于將每個通道的數(shù)據(jù)的 取值范圍約束為(-1,1);
[0207] 然后,對第一層多維卷積處理輸出的每個圖像,將該圖像劃分為2像素 *2像素大 小的小塊,將每個小塊中的各個像素點中的每個通道取最大值作為下采樣結(jié)果,并將下采 樣后的輸出數(shù)據(jù)作為第二層多維卷積處理的輸入數(shù)據(jù)。
[0208] 在第二層多維卷積處理時,使用一個48*16*7*7的第二張量對每個像素點的16個 通道的數(shù)據(jù)進行多維卷積處理,該多維卷積處理相當于對16個通道的數(shù)據(jù)分別應用48個 7*7的卷積過程,每個通道得到48組卷積輸出,然后將16個通道中每個通道對應的第i組 卷積輸出疊加,1 < i < 48,得到每個像素點的48個通道的數(shù)據(jù)。
[0209] 然后將每個像素點的48個通道的數(shù)據(jù)與長度為48的第二糾偏向量相加,得到每 個像素點糾偏后的48個通道的數(shù)據(jù),再對將糾偏后的48個通道的數(shù)據(jù)應用雙曲正切函數(shù) 處理,得到每個像素點的48個通道的數(shù)據(jù)。其中,雙曲正切函數(shù)用于將每個通道的數(shù)據(jù)的 取值范圍約束為(-1,1);
[0210] 然后,對第二層多維卷積處理輸出的每個圖像,將該圖像劃分為2像素*2像素大 小的小塊,將每個小塊中的各個像素點中的每個通道取最大值作為下采樣結(jié)果,并將下采 樣后的輸出數(shù)據(jù)作為第三層多維卷積處理的輸入數(shù)據(jù)。
[0211] 在第三層多維卷積處理時,使用一個84*48*7*7的第二張量對每個像素點的48個 通道的數(shù)據(jù)進行多維卷積處理,該多維卷積處理相當于對48個通道的數(shù)據(jù)分別應用48個 7*7的卷積過程,每個通道得到84組卷積輸出,然后將48個通道中每個通道對應的第i組 卷積輸出疊加,1 < i < 84,得到每個像素點的84個通道的數(shù)據(jù)。
[0212] 然后將每個像素點的84個通道的數(shù)據(jù)與長度為84的第三糾偏向量相加,得到每 個像素點糾偏后的84個通道的數(shù)據(jù),再對將糾偏后的84個通道的數(shù)據(jù)應用雙曲正切函數(shù) 處理,得到每個像素點的84個通道的數(shù)據(jù)。其中,雙曲正切函數(shù)用于將每個通道的數(shù)據(jù)的 取值范圍約束為(-1,1)。
[0213] 步驟1008,將2個縮放圖像根據(jù)插值算法還原為原始大小的圖像,與原圖一起組 成3個原始大小的圖像;
[0214] 由于輸入的目標圖像包括原圖、第1個縮放圖像和第2個縮放圖像,第1個縮放圖 像是原圖的1/2大小,則根據(jù)插值算法將第1個縮放圖像由1/2大小還原為原始大小;第2 個縮放圖像是原圖的1/4大小,則根據(jù)插值算法將第2個縮放圖像由1/4大小還原為原始 大小,最終得到3張原始大小的圖像,每個圖像中的像素點都有84個通道的數(shù)據(jù)。
[0215] 步驟1009,將3個原始大小的圖像中每個像素點的84個通道的數(shù)據(jù)進行疊加,得 到每個像素點的252個通道的數(shù)據(jù);
[0216] 對于目標圖像的3個原始大小的圖像,將3個圖像中每個像素點的84個通道的數(shù) 據(jù)進行疊加,得到每個像素點的252個通道的數(shù)據(jù)。
[0217] 步驟1010,將每個像素點的X坐標和y坐標生成為2個通道的數(shù)據(jù),與252個通道 的數(shù)據(jù)合并為254個通道的數(shù)據(jù);
[0218] 將每個像素點的X坐標和y坐標生成為2個通道的數(shù)據(jù),與上一步驟中得到的252 個通道的數(shù)據(jù)合并為254個通道的數(shù)據(jù)。
[0219] 步驟1011,將每個像素點的252個通道的數(shù)據(jù)使用χ' = \ν.\· + Α變換為384個通道 的數(shù)據(jù);其中,矩陣W為384*252的矩陣,向量g為一個長度為384的向量。
[0220] 至此,目標圖像變成一張原始大小的圖像,該圖像中的每個像素點擁有384個通 道。
[0221] 步驟1012,根據(jù)目標圖像的每個像素點的384個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行 邏輯回歸分析,得到每個像素點對應于4種景物類型的預測概率;
[0222] 根據(jù)每個像素點的384個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏輯回歸分析,得到每 個像素點對應于天空的預測概率、對應于樹木的預測概率、對應于建筑的預測概率和對應 于路面的預測概率。
[0223] 步驟1013,對于每個像素點,將該像素點對應于各個景物類型的預測概率中,最高 的一個預測概率所對應的景物類型,作為該像素點的景物類型。
[0224] 比如,對于1個像素點,對應于天空的預測概率為0. 1、對應于樹木的預測概率為 0. 05、對應于建筑的預測概率為0. 05和對應于路面的預測概率為0. 8,則將路面作為該像 素點的景物類型。
[0225] 以下為本發(fā)明的裝置實施例,其中未詳細闡述的部分可以參考上述對應的方法實 施例。
[0226] 請參考圖11,其示出了本發(fā)明一個實施例提供的網(wǎng)絡參數(shù)訓練裝置的結(jié)構(gòu)示意 圖。該網(wǎng)絡參數(shù)訓練裝置可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為終端的全部或一部 分。該網(wǎng)絡參數(shù)訓練裝置包括:
[0227] 初始化模塊1110,用于獲取由不同隨機數(shù)組成的初始網(wǎng)絡參數(shù);
[0228] 獲取模塊1120,用于獲取樣本圖像集,所述樣本圖像集包括若干張樣本圖像,所述 樣本圖像中的每個像素點對應有標注后的景物類型;
[0229] 訓練模塊1130,用于將所述樣本圖像輸入卷積神經(jīng)網(wǎng)絡中,對所述初始網(wǎng)絡參數(shù) 進行迭代訓練,得到識別誤差符合預設要求的網(wǎng)絡參數(shù),所述網(wǎng)絡參數(shù)用于識別目標圖像 中像素點的景物類型。
[0230] 綜上所述,本實施例提供的網(wǎng)絡參數(shù)訓練裝置,通過按照像素級別進行景物類型 標注后的樣本圖像對卷積神經(jīng)網(wǎng)絡所使用的網(wǎng)絡參數(shù)進行訓練,得到識別誤差符合預設要 求的網(wǎng)絡參數(shù),訓練得到的該網(wǎng)絡參數(shù)可以用于后續(xù)的識別過程中。
[0231] 請參考圖12,其示出了本發(fā)明另一個實施例提供的景物類型識別裝置的結(jié)構(gòu)方框 圖。該景物類型識別裝置可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為終端的全部或一部 分。該景物類型識別裝置包括:
[0232] 初始化模塊1110,用于獲取由不同隨機數(shù)組成的初始網(wǎng)絡參數(shù);
[0233] 獲取模塊1120,用于獲取樣本圖像集,所述樣本圖像集包括若干張樣本圖像,所述 樣本圖像中的每個像素點對應有標注后的景物類型;
[0234] 訓練模塊1130,用于將所述樣本圖像輸入卷積神經(jīng)網(wǎng)絡中,對所述初始網(wǎng)絡參數(shù) 進行迭代訓練,得到識別誤差符合預設要求的網(wǎng)絡參數(shù),所述網(wǎng)絡參數(shù)用于識別目標圖像 中像素點的景物類型。
[0235] 可選地,所述訓練模塊1130,包括:
[0236] 卷積單元1131,用于對于第i次迭代過程,將所述樣本圖像的每個像素點的原始 的叫個通道的數(shù)據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進行處理,得到每個像素點的η 2個通道的數(shù) 據(jù),n2> n i,所述原始的ηι個通道是由所述樣本圖像輸入所述卷積神經(jīng)網(wǎng)絡時的顏色空間 所確定的顏色通道;
[0237] 分析單元1132,用于根據(jù)所述樣本圖像的每個像素點的112個通道的數(shù)據(jù)作為輸入 數(shù)據(jù),進行邏輯回歸分析,得到每個像素點對應于各個景物類型的預測概率;
[0238] 計算單元1133,用于根據(jù)每個像素點對應的標注后的景物類型,計算所述像素點 對應的景物類型的預測概率的誤差;
[0239] 統(tǒng)計單元1134,用于統(tǒng)計所述樣本圖像各個像素點的誤差和,檢測所述誤差和是 否達到最小或低于預設閾值;
[0240] 迭代單元1135,用于若所述樣本圖像的誤差和未達到最小或低于預設閾值,則采 用梯度下降法對所述第i次迭代過程中使用的網(wǎng)絡參數(shù)進行調(diào)整,并執(zhí)行第i+Ι次迭代過 程;
[0241] 其中,第1次迭代過程中使用的網(wǎng)絡參數(shù)是所述初始網(wǎng)絡參數(shù)。
[0242] 可選地,所述卷積單元1131,包括如圖13所示的子單元:
[0243] 卷積子單元1131a,用于將所述樣本圖像的每個像素點的原始的叫個通道的數(shù)據(jù), 輸入所述卷積神經(jīng)網(wǎng)絡中進行至少一層多維卷積處理,變換得到n 3_2個通道的數(shù)據(jù),每層 多維卷積處理所使用的張量和糾偏向量是所述網(wǎng)絡參數(shù)中的一部分;
[0244] 坐標子單元1131b,用于將每個像素點的11坐標和y坐標生成為2個通道的數(shù)據(jù), 與所述n 3_2個通道的數(shù)據(jù)合并為叫個通道的數(shù)據(jù);
[0245] 變換子單元1131c,用于將每個像素點的n3個通道的數(shù)據(jù)使用= + δ變換為 所述η2個通道的數(shù)據(jù);其中,矩陣W為η 2*η3的矩陣,向量石為一個長度為η2的向量,所述矩 陣W和所述向量?是所述網(wǎng)絡參數(shù)中的另一部分。
[0246] 可選地,所述樣本圖像包括m個不同尺度的圖像,其中1個尺度的圖像為原始大小 的原圖,其它m-1個尺度的圖像為所述原圖的縮放圖像;
[0247] 所述卷積子單元1131a,具體用于:
[0248] 對于所述樣本圖像中的每一尺度的圖像,將所述圖像中每個像素點的1^個通道的 數(shù)據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進行至少一層多維卷積處理,變換得到每個像素點的11 4個 通道的數(shù)據(jù);
[0249] 將所述m-Ι個縮放圖像根據(jù)插值算法還原為原始大小的圖像,與所述原圖一起組 成m個原始大小的圖像;
[0250] 將所述m個原始大小的圖像中每個像素點的114個通道的數(shù)據(jù)進行疊加,得到每個 像素點的n 3-2個通道的數(shù)據(jù),m*n4= η 3-2。
[0251] 可選地,所述裝置,還包括:樣本預處理模塊1125,如圖14所示。
[0252] 樣本預處理模塊1125,用于將所述樣本圖像預處理為符合所述卷積神經(jīng)網(wǎng)絡的輸 入要求的樣本圖像。
[0253] 可選地,所述樣本預處理模塊1125,用于:
[0254] 將所述樣本圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,所述目標顏色空間 包括η個顏色通道;
[0255] 將所述原圖中的每個像素點,根據(jù)所述η個顏色通道中的每個顏色通道分別進行 對比度平滑處理,得到平滑處理后的所述原圖;
[0256] 將所述原圖和平滑處理后的所述原圖合并為擁有2η個顏色通道的原圖,2n = η1;
[0257] 將所述擁有ηι個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放圖像;
[0258] 將所述擁有ηι個顏色通道的原圖和m-Ι個所述縮放圖像作為所述符合所述卷積 神經(jīng)網(wǎng)絡的輸入要求的樣本圖像。
[0259] 綜上所述,本實施例提供的景物類型識別裝置,通過將目標圖像輸入卷積神經(jīng)網(wǎng) 絡,得到目標圖像中的每個像素點對應的景物類型;解決了相關(guān)技術(shù)僅能夠得到一張街景 圖片的整體或某個區(qū)域的景物類型的問題;達到了可以獲取到目標圖像中每個像素點所對 應的景物類型,對街景圖片中的景物類型的識別精度達到了像素級別的效果。
[0260] 需要說明的是:上述實施例提供的網(wǎng)絡參數(shù)訓練裝置在訓練網(wǎng)絡參數(shù)時,僅以上 述各功能模塊的劃分進行舉例說明,實際應用中,可以根據(jù)需要而將上述功能分配由不同 的功能模塊完成,即將設備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或 者部分功能。另外,上述實施例提供的網(wǎng)絡參數(shù)訓練裝置與網(wǎng)絡參數(shù)訓練方法實施例屬于 同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
[0261] 請參考圖15,其示出了本發(fā)明一個實施例提供的景物類型識別裝置的結(jié)構(gòu)方框 圖。該景物類型識別裝置可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為終端的全部或一部 分。該景物類型識別裝置包括:
[0262] 獲取模塊1140,用于獲取目標圖像;
[0263] 識別模塊1150,用于將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡中進行識別處理,所述卷 積神經(jīng)網(wǎng)絡載入有預先根據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù),所述樣本圖像集包括若干張 樣本圖像,所述樣本圖像中的每個像素點對應有標注后的景物類型;
[0264] 輸出模塊1160,用于根據(jù)所述卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得所述目標圖像中的 像素點對應的景物類型。
[0265] 綜上所述,本實施例提供的景物類型識別裝置,通過將目標圖像輸入卷積神經(jīng)網(wǎng) 絡,得到目標圖像中的每個像素點對應的景物類型;解決了相關(guān)技術(shù)僅能夠得到一張街景 圖片的整體或某個區(qū)域的景物類型的問題;達到了可以獲取到目標圖像中每個像素點所對 應的景物類型,對街景圖片中的景物類型的識別精度達到了像素級別的效果。
[0266] 請參考圖16,其示出了本發(fā)明一個實施例提供的景物類型識別裝置的結(jié)構(gòu)方框 圖。該景物類型識別裝置可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為終端的全部或一部 分。該景物類型識別裝置包括:
[0267] 獲取模塊1140,用于獲取目標圖像;
[0268] 識別模塊1150,用于將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡中進行識別處理,所述卷 積神經(jīng)網(wǎng)絡載入有預先根據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù),所述樣本圖像集包括若干張 樣本圖像,所述樣本圖像中的每個像素點對應有標注后的景物類型;
[0269] 輸出模塊1160,用于根據(jù)所述卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得所述目標圖像中的 像素點對應的景物類型。
[0270] 可選地,所述裝置,還包括:目標預處理模塊1155。
[0271] 目標預處理模塊1155,用于將所述目標圖像預處理為符合所述卷積神經(jīng)網(wǎng)絡的輸 入要求的目標圖像。
[0272] 可選地,所述目標預處理模塊1155,用于:
[0273] 將所述目標圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,所述目標顏色空間 包括η個顏色通道;
[0274] 將所述原圖中的每個像素點,根據(jù)所述η個顏色通道中的每個顏色通道分別進行 對比度平滑處理,得到平滑處理后的所述原圖;
[0275] 將所述原圖和平滑處理后的所述原圖合并為擁有2η個顏色通道的原圖,2n = n1;
[0276] 將所述擁有ηι個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放圖像;
[0277] 將所述擁有ηι個顏色通道的原圖和m-1個所述縮放圖像作為所述符合所述卷積 神經(jīng)網(wǎng)絡的輸入要求的目標圖像。
[0278] 可選地,所述識別模塊1150,包括:
[0279] 輸入單元,用于將所述目標圖像的每個像素點的原始的叫個通道的數(shù)據(jù),輸入所 述卷積神經(jīng)網(wǎng)絡中進行處理,得到每個像素點的n 2個通道的數(shù)據(jù),η 2> n i,所述原始的叫個 通道是由所述樣本圖像輸入所述卷積神經(jīng)網(wǎng)絡時的顏色空間所確定的顏色通道。
[0280] 分析單元,用于根據(jù)所述目標圖像的每個像素點的n2個通道的數(shù)據(jù)作為輸入數(shù) 據(jù),進行邏輯回歸分析,得到每個像素點對應于各個景物類型的預測概率。
[0281] 可選地,所述輸出模塊1160,用于對于每個像素點,將所述像素點對應于各個景物 類型的預測概率中,最高的一個預測概率所對應的景物類型,作為所述像素點的景物類型。
[0282] 綜上所述,本實施例提供的景物類型識別裝置,通過將目標圖像輸入卷積神經(jīng)網(wǎng) 絡,得到目標圖像中的每個像素點對應的景物類型;解決了相關(guān)技術(shù)僅能夠得到一張街景 圖片的整體或某個區(qū)域的景物類型的問題;達到了可以獲取到目標圖像中每個像素點所對 應的景物類型,對街景圖片中的景物類型的識別精度達到了像素級別的效果。
[0283] 需要說明的是:上述實施例提供的景物類型識別裝置在識別景物類型時,僅以上 述各功能模塊的劃分進行舉例說明,實際應用中,可以根據(jù)需要而將上述功能分配由不同 的功能模塊完成,即將設備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或 者部分功能。另外,上述實施例提供的景物類型識別裝置與景物類型識別方法實施例屬于 同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
[0284] 上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
[0285] 本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件 來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀 存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0286] 以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種網(wǎng)絡參數(shù)訓練方法,其特征在于,所述方法包括: 獲取由不同隨機數(shù)組成的初始網(wǎng)絡參數(shù); 獲取樣本圖像集,所述樣本圖像集包括若干張樣本圖像,所述樣本圖像中的每個像素 點對應有標注后的景物類型; 將所述樣本圖像輸入卷積神經(jīng)網(wǎng)絡中,對所述初始網(wǎng)絡參數(shù)進行迭代訓練,得到識別 誤差符合預設要求的網(wǎng)絡參數(shù),所述網(wǎng)絡參數(shù)用于識別目標圖像中像素點的景物類型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述樣本圖像輸入卷積神經(jīng)網(wǎng)絡 中,對所述初始網(wǎng)絡參數(shù)進行迭代訓練,得到識別誤差符合預設要求的網(wǎng)絡參數(shù),包括: 對于第i次迭代過程,將所述樣本圖像的每個像素點的原始的h個通道的數(shù)據(jù),輸入 所述卷積神經(jīng)網(wǎng)絡中進行處理,得到每個像素點的n2個通道的數(shù)據(jù),η 2> n i,所述原始的ηι 個通道是由所述樣本圖像輸入所述卷積神經(jīng)網(wǎng)絡時的顏色空間所確定的顏色通道; 根據(jù)所述樣本圖像的每個像素點的n2個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏輯回歸分 析,得到每個像素點對應于各個景物類型的預測概率; 根據(jù)每個像素點對應的標注后的景物類型,計算所述像素點對應的景物類型的預測概 率的誤差; 統(tǒng)計所述樣本圖像中各個像素點的誤差和,檢測所述誤差和是否達到最小或低于預設 閾值; 若所述誤差和未達到最小或低于預設閾值,則采用梯度下降法對所述第i次迭代過程 中使用的網(wǎng)絡參數(shù)進行調(diào)整,并執(zhí)行第i+Ι次迭代過程; 其中,第1次迭代過程中使用的網(wǎng)絡參數(shù)是所述初始網(wǎng)絡參數(shù)。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述樣本圖像的每個像素點的原 始的h個通道的數(shù)據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進行處理,變換得到每個像素點的η 2個通 道的數(shù)據(jù),包括: 將所述樣本圖像的每個像素點的原始的~個通道的數(shù)據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進 行至少一層多維卷積處理,變換得到n3-2個通道的數(shù)據(jù),每層多維卷積處理所使用的張量 和糾偏向量是所述網(wǎng)絡參數(shù)中的一部分; 將每個像素點的X坐標和y坐標生成為2個通道的數(shù)據(jù),與所述n3-2個通道的數(shù)據(jù)合 并為叫個通道的數(shù)據(jù); 將每個像素點的n3個通道的數(shù)據(jù)使用i=Wx_f/)變換為所述叫個通道的數(shù)據(jù);其中, 矩陣W為n2*n3的矩陣,向量|為一個長度為n2的向量,所述矩陣W和所述向量g是所述網(wǎng) 絡參數(shù)中的另一部分。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述樣本圖像包括m個不同尺度的圖像, 其中1個尺度的圖像為原始大小的原圖,其它m-1個尺度的圖像為所述原圖的縮放圖像; 所述將所述樣本圖像的每個像素點的原始的~個通道的數(shù)據(jù),輸入所述卷積神經(jīng)網(wǎng)絡 中進行至少一層多維卷積處理,變換得到n3-2個通道的數(shù)據(jù),包括: 對于所述樣本圖像中的每一尺度的圖像,將所述圖像中每個像素點的~個通道的數(shù) 據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進行至少一層多維卷積處理,變換得到每個像素點的n4個通 道的數(shù)據(jù); 將所述m-1個縮放圖像根據(jù)插值算法還原為原始大小的圖像,與所述原圖一起組成m 個原始大小的圖像; 將所述m個原始大小的圖像中每個像素點的114個通道的數(shù)據(jù)進行疊加,得到每個像素 點的n3-2個通道的數(shù)據(jù),m*n4= η 3-2。5. 根據(jù)權(quán)利要求1至4任一所述的方法,其特征在于,所述將所述樣本圖像輸入卷積神 經(jīng)網(wǎng)絡中進行識別處理之前,還包括: 將所述樣本圖像預處理為符合所述卷積神經(jīng)網(wǎng)絡的輸入要求的樣本圖像。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述樣本圖像預處理為符合所述 卷積神經(jīng)網(wǎng)絡的輸入要求的樣本圖像,包括: 將所述樣本圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,所述目標顏色空間包括 η個顏色通道; 將所述原圖中的每個像素點,根據(jù)所述η個顏色通道中的每個顏色通道分別進行對比 度平滑處理,得到平滑處理后的所述原圖; 將所述原圖和平滑處理后的所述原圖合并為擁有2η個顏色通道的原圖,2n = η1; 將所述擁有h個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放圖像; 將所述擁有h個顏色通道的原圖和m-Ι個所述縮放圖像作為所述符合所述卷積神經(jīng) 網(wǎng)絡的輸入要求的樣本圖像。7. -種景物類型識別方法,其特征在于,所述方法包括: 獲取目標圖像; 將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡中進行識別處理,所述卷積神經(jīng)網(wǎng)絡載入有預先根 據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù),所述樣本圖像集包括若干張樣本圖像,所述樣本圖像 中的每個像素點對應有標注后的景物類型; 根據(jù)所述卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得所述目標圖像中的像素點對應的景物類型。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡 中進行識別處理,包括: 將所述目標圖像的每個像素點的原始的~個通道的數(shù)據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進 行處理,得到每個像素點的n2個通道的數(shù)據(jù),n2> n i,所述原始的ηι個通道是由所述樣本 圖像輸入所述卷積神經(jīng)網(wǎng)絡時的顏色空間所確定的顏色通道; 根據(jù)所述目標圖像的每個像素點的n2個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進行邏輯回歸分 析,得到每個像素點對應于各個景物類型的預測概率; 對于每個像素點,將所述像素點對應于各個景物類型的預測概率中,最高的一個預測 概率所對應的景物類型,作為所述像素點的景物類型。9. 根據(jù)權(quán)利要求7或8所述的方法,其特征在于,所述將所述目標圖像輸入卷積神經(jīng)網(wǎng) 絡之前,包括: 將所述目標圖像預處理為符合所述卷積神經(jīng)網(wǎng)絡的輸入要求的目標圖像。10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述將所述目標圖像預處理為符合所述 卷積神經(jīng)網(wǎng)絡的輸入要求的目標圖像,包括: 將所述目標圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,所述目標顏色空間包括 η個顏色通道; 將所述原圖中的每個像素點,根據(jù)所述η個顏色通道中的每個顏色通道分別進行對比 度平滑處理,得到平滑處理后的所述原圖; 將所述原圖和平滑處理后的所述原圖合并為擁有2η個顏色通道的原圖,2n = η1; 將所述擁有h個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放圖像; 將所述擁有h個顏色通道的原圖和m-1個所述縮放圖像作為所述符合所述卷積神經(jīng) 網(wǎng)絡的輸入要求的目標圖像。11. 一種網(wǎng)絡參數(shù)訓練裝置,其特征在于,所述裝置,還包括: 初始化模塊,用于獲取由不同隨機數(shù)組成的初始網(wǎng)絡參數(shù); 獲取模塊,用于獲取樣本圖像集,所述樣本圖像集包括若干張樣本圖像,所述樣本圖像 中的每個像素點對應有標注后的景物類型; 訓練模塊,用于將所述樣本圖像輸入卷積神經(jīng)網(wǎng)絡中,對所述初始網(wǎng)絡參數(shù)進行迭代 訓練,得到識別誤差符合預設要求的網(wǎng)絡參數(shù),所述網(wǎng)絡參數(shù)用于識別目標圖像中像素點 的景物類型。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述訓練模塊,包括: 卷積單元,用于對于第i次迭代過程,將所述樣本圖像的每個像素點的原始的^個通 道的數(shù)據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進行處理,得到每個像素點的112個通道的數(shù)據(jù),η 2> 叫,所述原始的~個通道是由所述樣本圖像輸入所述卷積神經(jīng)網(wǎng)絡時的顏色空間所確定的 顏色通道; 分析單元,用于根據(jù)所述樣本圖像的每個像素點的n2個通道的數(shù)據(jù)作為輸入數(shù)據(jù),進 行邏輯回歸分析,得到每個像素點對應于各個景物類型的預測概率; 計算單元,用于根據(jù)每個像素點對應的標注后的景物類型,計算所述像素點對應的景 物類型的預測概率的誤差; 統(tǒng)計單元,用于統(tǒng)計所述樣本圖像中各個像素點的誤差和,檢測所述誤差和是否達到 最小或低于預設閾值; 迭代單元,用于若所述樣本圖像的誤差和未達到最小或低于預設閾值,則采用梯度下 降法對所述第i次迭代過程中使用的網(wǎng)絡參數(shù)進行調(diào)整,并執(zhí)行第i+Ι次迭代過程; 其中,第1次迭代過程中使用的網(wǎng)絡參數(shù)是所述初始網(wǎng)絡參數(shù)。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述卷積單元,包括: 卷積子單元,用于將所述樣本圖像的每個像素點的原始的叫個通道的數(shù)據(jù),輸入所述 卷積神經(jīng)網(wǎng)絡中進行至少一層多維卷積處理,變換得到n3-2個通道的數(shù)據(jù),每層多維卷積 處理所使用的張量和糾偏向量是所述網(wǎng)絡參數(shù)中的一部分; 坐標子單元,用于將每個像素點的X坐標和y坐標生成為2個通道的數(shù)據(jù),與所述n3-2 個通道的數(shù)據(jù)合并為叫個通道的數(shù)據(jù); 變換子單元,用于將每個像素點的n3個通道的數(shù)據(jù)使用τ'= \\'λ: + 6變換為所述112個 通道的數(shù)據(jù);其中,矩陣胃為η2*η3的矩陣,向量g為一個長度為η2的向量,所述矩陣W和所 述向量I是所述網(wǎng)絡參數(shù)中的另一部分。14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述樣本圖像包括m個不同尺度的圖 像,其中1個尺度的圖像為原始大小的原圖,其它m-1個尺度的圖像為所述原圖的縮放圖 像; 所述卷積子單元,具體用于: 對于所述樣本圖像中的每一尺度的圖像,將所述圖像中每個像素點的~個通道的數(shù) 據(jù),輸入所述卷積神經(jīng)網(wǎng)絡中進行至少一層多維卷積處理,變換得到每個像素點的n4個通 道的數(shù)據(jù); 將所述m-1個縮放圖像根據(jù)插值算法還原為原始大小的圖像,與所述原圖一起組成m 個原始大小的圖像; 將所述m個原始大小的圖像中每個像素點的114個通道的數(shù)據(jù)進行疊加,得到每個像素 點的n3-2個通道的數(shù)據(jù),m*n4= η 3-2。15. 根據(jù)權(quán)利要求11至14任一所述的裝置,其特征在于,所述裝置,還包括: 樣本預處理模塊,用于將所述樣本圖像預處理為符合所述卷積神經(jīng)網(wǎng)絡的輸入要求的 樣本圖像。16. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述樣本預處理模塊,用于: 將所述樣本圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,所述目標顏色空間包括 η個顏色通道; 將所述原圖中的每個像素點,根據(jù)所述η個顏色通道中的每個顏色通道分別進行對比 度平滑處理,得到平滑處理后的所述原圖; 將所述原圖和平滑處理后的所述原圖合并為擁有2η個顏色通道的原圖,2n = η1; 將所述擁有h個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放圖像; 將所述擁有h個顏色通道的原圖和m-Ι個所述縮放圖像作為所述符合所述卷積神經(jīng) 網(wǎng)絡的輸入要求的樣本圖像。17. -種景物類型識別裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取目標圖像; 識別模塊,用于將所述目標圖像輸入卷積神經(jīng)網(wǎng)絡中進行識別處理,所述卷積神經(jīng)網(wǎng) 絡載入有預先根據(jù)樣本圖像集訓練得到的網(wǎng)絡參數(shù),所述樣本圖像集包括若干張樣本圖 像,所述樣本圖像中的每個像素點對應有標注后的景物類型; 輸出模塊,用于根據(jù)所述卷積神經(jīng)網(wǎng)絡的識別結(jié)果,獲得所述目標圖像中的像素點對 應的景物類型。18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于, 所述識別模塊,包括:輸入單元和分析單元; 所述輸入單元,用于將所述目標圖像的每個像素點的原始的叫個通道的數(shù)據(jù),輸入所 述卷積神經(jīng)網(wǎng)絡中進行處理,得到每個像素點的n2個通道的數(shù)據(jù),η 2> n i,所述原始的叫個 通道是由所述樣本圖像輸入所述卷積神經(jīng)網(wǎng)絡時的顏色空間所確定的顏色通道; 所述分析單元,用于根據(jù)所述目標圖像的每個像素點的n2個通道的數(shù)據(jù)作為輸入數(shù) 據(jù),進行邏輯回歸分析,得到每個像素點對應于各個景物類型的預測概率; 所述輸出模塊,用于對于每個像素點,將所述像素點對應于各個景物類型的預測概率 中,最高的一個預測概率所對應的景物類型,作為所述像素點的景物類型。19. 根據(jù)權(quán)利要求17或18所述的裝置,其特征在于,所述裝置,還包括: 目標預處理模塊,用于將所述目標圖像預處理為符合所述卷積神經(jīng)網(wǎng)絡的輸入要求的 目標圖像。20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述目標預處理模塊,用于: 將所述目標圖像的原圖由原始顏色空間轉(zhuǎn)換到目標顏色空間,所述目標顏色空間包括 η個顏色通道; 將所述原圖中的每個像素點,根據(jù)所述η個顏色通道中的每個顏色通道分別進行對比 度平滑處理,得到平滑處理后的所述原圖; 將所述原圖和平滑處理后的所述原圖合并為擁有2η個顏色通道的原圖,2n = η1; 將所述擁有h個顏色通道的原圖根據(jù)不同的縮放比例縮放得到m-1個縮放圖像; 將所述擁有h個顏色通道的原圖和m-1個所述縮放圖像作為所述符合所述卷積神經(jīng) 網(wǎng)絡的輸入要求的目標圖像。
【文檔編號】G06N3/08GK105868797SQ201510031685
【公開日】2016年8月17日
【申請日】2015年1月22日
【發(fā)明人】徐昆, 鄧海峰, 梁緣
【申請人】深圳市騰訊計算機系統(tǒng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
历史| 兴仁县| 西宁市| 唐海县| 永和县| 五家渠市| 新乡县| 定襄县| 徐闻县| 准格尔旗| 南投市| 伊春市| 上虞市| 定南县| 蕲春县| 新郑市| 满城县| 永仁县| 三门县| 苏尼特右旗| 图片| 余姚市| 额济纳旗| 澎湖县| 凉城县| 东兴市| 图木舒克市| 定襄县| 伊吾县| 舟曲县| 苗栗市| 沧源| 商丘市| 淮阳县| 曲沃县| 枣庄市| 灵川县| 文山县| 阜康市| 武鸣县| 清丰县|