使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理的制作方法
【專利摘要】根據(jù)示例,可以通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)集合對(duì)數(shù)字圖像進(jìn)行處理,以對(duì)數(shù)字圖像中的對(duì)象進(jìn)行分類。對(duì)于每個(gè)CNN,可以選擇候選架構(gòu)和候選參數(shù)以構(gòu)建多個(gè)CNN。一旦確定每個(gè)對(duì)于所選擇的候選參數(shù)具有不同的值的預(yù)定數(shù)量的CNN滿足驗(yàn)證閾值,就可以從預(yù)定數(shù)量的CNN生成CNN集合。然后,可以聚集來自CNN集合的預(yù)測(cè)以準(zhǔn)確地對(duì)數(shù)字圖像中的對(duì)象進(jìn)行分類。
【專利說明】使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理
【背景技術(shù)】
[0001] 數(shù)字圖像處理通常涉及處理數(shù)字圖像(例如,來自數(shù)字靜止圖像或數(shù)字視頻)以確 知、檢測(cè)和/或分類圖像中的具體特征或?qū)ο???梢栽趫D像處理期間應(yīng)用模式識(shí)別以檢測(cè)圖 像中的具體對(duì)象。具有模式識(shí)別的數(shù)字圖像處理已經(jīng)在廣泛多種應(yīng)用(諸如面部識(shí)別、來自 航空照片的土地特征的檢測(cè)、車輛牌照確定等)中使用。不同類型的常規(guī)機(jī)器學(xué)習(xí)功能可以 用于模式識(shí)別,然而,許多常規(guī)機(jī)器學(xué)習(xí)功能不適合于或可能難以適合于數(shù)字圖像處理中 的模式識(shí)別。
【附圖說明】
[0002] 通過示例的方式圖示本公開的特征,并且不局限于以下附圖,其中,類似的標(biāo)號(hào)指 示類似的元件,其中:
[0003] 圖1示出了根據(jù)本公開的示例的圖像處理系統(tǒng)的系統(tǒng)圖;
[0004] 圖2示出了根據(jù)本公開的示例的指示對(duì)資產(chǎn)(property)損壞的程度的分類類別;
[0005] 圖3示出了根據(jù)本公開的示例的圖像處理服務(wù)器的數(shù)據(jù)存儲(chǔ)(data store);
[0006] 圖4示出了根據(jù)本公開的示例的用于使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)數(shù)字圖像中的對(duì) 象進(jìn)行分類的計(jì)算設(shè)備的框圖;
[0007] 圖5示出了根據(jù)本公開的示例的使用CNN對(duì)數(shù)字圖像中的對(duì)象進(jìn)行分類的方法的 流程圖;和
[0008] 圖6示出了根據(jù)本公開的示例的優(yōu)化CNN的流程圖。
【具體實(shí)施方式】
[0009] 出于簡(jiǎn)化和說明目的,主要通過參照其示例對(duì)本公開進(jìn)行描述。在以下描述中,闡 述了許多具體細(xì)節(jié),以便提供對(duì)本公開的透徹理解。然而,顯而易見的是,在不局限于這些 具體細(xì)節(jié)的情況下,也可以實(shí)踐本公開。在其它實(shí)例中,沒有對(duì)一些方法和結(jié)構(gòu)進(jìn)行詳細(xì)描 述,以免不必要地模糊本公開。如本文中所使用的,術(shù)語"一"和"一個(gè)"旨在表示至少一個(gè)具 體元素,術(shù)語"包括(includes)"意味著包括(includes)但不限于,術(shù)語"包括(including)" 意味著包括(including)但不限于,并且術(shù)語"基于"意味著至少部分基于。
[0010] 根據(jù)示例,圖像處理系統(tǒng)構(gòu)建并且訓(xùn)練深度學(xué)習(xí)模型(諸如卷積神經(jīng)網(wǎng)絡(luò)(CNN)) 集合(ensemble),以精確地且自動(dòng)地執(zhí)行圖像處理來檢測(cè)數(shù)字圖像中的對(duì)象的具體屬性, 并且根據(jù)所檢測(cè)的屬性對(duì)對(duì)象進(jìn)行分類。然而,CNN包括許多功能部件,其使得它很難確定 準(zhǔn)確執(zhí)行以檢測(cè)并分類對(duì)于手頭問題是相關(guān)的圖像的具體特征所必需的網(wǎng)絡(luò)架構(gòu)。更進(jìn)一 步地,CNN的每個(gè)部件通常具有與它相關(guān)聯(lián)的大量參數(shù)。在沒有應(yīng)用任何魯棒的圖像處理系 統(tǒng)的情況下,成功且準(zhǔn)確的圖像分類所必需的那些參數(shù)的特定值不是先驗(yàn)已知的。因此,圖 像處理系統(tǒng)提供了一種用于構(gòu)建并且微調(diào)證明輸出圖像的準(zhǔn)確分類的CNN的方法。通過迭 代過程,可以選擇用于CNN的候選架構(gòu)和候選參數(shù)來構(gòu)建、訓(xùn)練、并優(yōu)化CNN。例如,迭代過程 可以包括:從多個(gè)候選架構(gòu)選擇候選架構(gòu)并且驗(yàn)證用于所選擇的候選架構(gòu)的候選參數(shù)集。 候選架構(gòu)可以包括分類器類型以及若干個(gè)卷積層和子采樣(subsampling)層。候選參數(shù)可 以包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元(training epoch)的最大數(shù)量、輸入圖像大小、CNN每一 層處的特征映射圖(feature map)數(shù)量、卷積濾波器大小、子采樣池大小、隱含層數(shù)量、每個(gè) 隱含層中的單元數(shù)量、所選擇的分類器算法、以及輸出種類的數(shù)量。另外,還可以選擇預(yù)處 理協(xié)議,以增強(qiáng)用于所選擇的候選架構(gòu)和所選擇的候選參數(shù)的圖像中的具體內(nèi)容。
[0011] 迭代過程可以包括:使用訓(xùn)練集構(gòu)建中間CNN并且評(píng)價(jià)(evaluate)中間CNN在驗(yàn)證 集上的性能。比如,該評(píng)價(jià)確定中間CNN是否滿足驗(yàn)證閾諸(諸如小于20%錯(cuò)誤率)。重復(fù)該 迭代過程直到預(yù)定數(shù)量(例如,25個(gè))的中間CNN滿足驗(yàn)證閾值為止。根據(jù)示例,每個(gè)中間CNN 對(duì)于所選擇的候選參數(shù)具有不同的值。然后,從預(yù)定數(shù)量的中間CNN生成最準(zhǔn)確的中間CNN 集合。例如,該集合可能是前5個(gè)最準(zhǔn)確的中間CNN。下一步驟可以包括:選擇集合算法以聚 集和/或組合該集合中的每個(gè)中間CNN的預(yù)測(cè)以形成集合預(yù)測(cè)。然后,該集合中的每個(gè)中間 CNN的預(yù)測(cè)可以用來對(duì)圖像或圖像中的對(duì)象進(jìn)行分類。
[0012] 所公開的示例的技術(shù)優(yōu)勢(shì)和優(yōu)點(diǎn)包括:提供了表現(xiàn)出優(yōu)良的分類準(zhǔn)確度以評(píng)估 (assess)資產(chǎn)損壞的先進(jìn)深度學(xué)習(xí)架構(gòu)和確定先進(jìn)深度學(xué)習(xí)架構(gòu)的迭代圖像處理系統(tǒng)。通 過迭代過程由圖像處理系統(tǒng)生成的CNN比其它規(guī)則的前饋神經(jīng)網(wǎng)絡(luò)更容易訓(xùn)練,并且具有 較少的估計(jì)參數(shù),從而使其成為用來評(píng)估資產(chǎn)損壞的更有效的架構(gòu)。
[0013] 根據(jù)示例,由圖像處理系統(tǒng)生成的CNN可以用來對(duì)在數(shù)字圖像中捕獲的資產(chǎn)的損 壞程度間分類。損壞可以是指損害資產(chǎn)外觀的任何類型的損傷或傷害。圖像或數(shù)字圖像可 以包括靜止圖像和運(yùn)動(dòng)圖像(例如,視頻)。資產(chǎn)可能是包括但不限于房子、家具、服裝、車輛 設(shè)備、土地、計(jì)算設(shè)備、玩具等的任何有形對(duì)象。在其中投保客戶的有形資產(chǎn)意外受損的示 例中,投保客戶可以通過用智能手機(jī)和/或相機(jī)拍攝數(shù)碼照片來記錄對(duì)受損資產(chǎn)的損壞。然 后,受損資產(chǎn)的數(shù)字圖像可以被饋給到圖像處理系統(tǒng)。圖像處理系統(tǒng)可以自動(dòng)基于從所接 收的數(shù)字圖像的圖像處理確定的損壞量來對(duì)受損資產(chǎn)進(jìn)行分類。在本示例中,圖像處理系 統(tǒng)提供了一種自動(dòng)檢測(cè)對(duì)如在數(shù)字圖像中捕獲的資產(chǎn)的損壞程度的機(jī)器視覺方法和裝置。
[0014] 根據(jù)示例,圖像處理系統(tǒng)生成集合模型(例如,包括多個(gè)優(yōu)化CNN),以在準(zhǔn)確度提 高的情況下對(duì)圖像或者該圖像中的對(duì)象進(jìn)行分類。在示例中,使用集合模型的圖像處理系 統(tǒng)對(duì)驗(yàn)證集中的圖像的準(zhǔn)確度接近90%。
[0015] 如上文所討論的,根據(jù)示例,圖像處理系統(tǒng)可以用于對(duì)在圖像中捕獲的資產(chǎn)損壞 的程度進(jìn)行分類。然而,圖像處理系統(tǒng)可以基本上用于任何應(yīng)用以將數(shù)字圖像中的特征分 類為預(yù)先定義的類別。
[0016] 參照?qǐng)D1,示出了根據(jù)本公開的示例的圖像處理系統(tǒng)100的系統(tǒng)圖。應(yīng)當(dāng)理解,在不 脫離該系統(tǒng)100的范圍的情況下,該系統(tǒng)100可以包括附加的部件,并且本文中所描述的部 件的一個(gè)或多個(gè)部件可以被移除和/或修改。該系統(tǒng)100可以包括至少一個(gè)圖像捕獲設(shè)備 110、通信網(wǎng)絡(luò)120、圖像處理服務(wù)器130、以及數(shù)據(jù)存儲(chǔ)140。
[0017] 圖像捕獲設(shè)備110可以經(jīng)由通信網(wǎng)絡(luò)120與圖像處理服務(wù)器130通信。圖像捕獲設(shè) 備110可以是任何計(jì)算設(shè)備,其包括相機(jī)(諸如但不限于智能電話、計(jì)算平板電腦、膝上型計(jì) 算機(jī)、臺(tái)式計(jì)算機(jī)、或任何可穿戴計(jì)算設(shè)備)。根據(jù)示例,圖像捕獲設(shè)備110可以捕獲有形資 產(chǎn)150的圖像并且將有形資產(chǎn)150的圖像發(fā)送到圖像處理服務(wù)器130以自動(dòng)對(duì)有形資產(chǎn)150 的損壞程度進(jìn)行分類。
[0018] 通信網(wǎng)絡(luò)120可以包括局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)(諸如因特網(wǎng))。通信網(wǎng)絡(luò)120可 以包括可以由軟件、應(yīng)用程序和/或邏輯控制的信號(hào)承載介質(zhì)。通信網(wǎng)絡(luò)120可以包括支持 數(shù)據(jù)通信服務(wù)的網(wǎng)絡(luò)元件的組合。例如,通信網(wǎng)絡(luò)120可以通過使用物理連接(諸如銅電纜、 同軸電纜和光纖電纜)或通過無線技術(shù)(諸如無線電、微波、或衛(wèi)星)將圖像捕獲設(shè)備110連 接到圖像處理服務(wù)器130。
[0019] 例如,圖像處理服務(wù)器130可以在圖像預(yù)處理器105處從訓(xùn)練集接收數(shù)字圖像。圖 像預(yù)處理器可以裁剪并增強(qiáng)來自訓(xùn)練集的圖像中的具體內(nèi)容以輸入到中間CNN構(gòu)建器 (builder)115。中間CNN構(gòu)建器115可以選擇各種架構(gòu)和參數(shù)來訓(xùn)練中間CNN125。然后,可以 在由驗(yàn)證電路135生成的驗(yàn)證集上對(duì)中間CNNl 25進(jìn)行評(píng)估。驗(yàn)證電路135可以確定是否標(biāo)記 滿足指定驗(yàn)證閾值的中間CNN125。如果中間CNN125不滿足驗(yàn)證閾值,則中間CNN不被標(biāo)記, 并且繼續(xù)通過中間CNN構(gòu)建器115在來自訓(xùn)練集的數(shù)字圖像上進(jìn)行訓(xùn)練。然而,如果中間 CNNl25確實(shí)滿足驗(yàn)證閾值,則中間CNNl 25現(xiàn)在是標(biāo)記的中間CNN145。因此,標(biāo)記的中間 CNN145有資格被選擇作為由集合生成器155生成的優(yōu)化CNN集合的一部分。例如,集合生成 器155可以創(chuàng)建優(yōu)化CNN集合165。從集合165聚集的預(yù)測(cè)可以用來準(zhǔn)確分類來自輸入數(shù)字圖 像的對(duì)象175。下文在圖4、圖5和圖6中對(duì)圖像處理服務(wù)器130的處理功能進(jìn)一步詳細(xì)說明。
[0020] 根據(jù)示例,圖像處理服務(wù)器130可以接收有形資產(chǎn)150的圖像并且使用CNN對(duì)有形 資產(chǎn)150的損壞程度自動(dòng)分類,以識(shí)別并分類有形資產(chǎn)150的圖像中的損壞。根據(jù)示例,如圖 2所圖示的,圖像處理服務(wù)器130可以將有形資產(chǎn)150的損壞程度分類為各種預(yù)先確定的分 類類別200(諸如但不限于未受損的、受損的、嚴(yán)重受損的或總計(jì)的)。
[0021] 如圖4中下文進(jìn)一步所詳述的,圖像處理服務(wù)器130可以被耦合到數(shù)據(jù)存儲(chǔ)140。如 圖3所圖示的,數(shù)據(jù)存儲(chǔ)140可以通過圖像處理服務(wù)器130存儲(chǔ)對(duì)有形資產(chǎn)150的損壞程度分 類所依賴的數(shù)據(jù)。例如,數(shù)據(jù)存儲(chǔ)140可以存儲(chǔ)訓(xùn)練集和包括資產(chǎn)310、受損資產(chǎn)320和總計(jì) 損壞的資產(chǎn)330的數(shù)字圖像的驗(yàn)證集。圖像處理服務(wù)器130依賴這些數(shù)字圖像以構(gòu)建準(zhǔn)確評(píng) 估并分類對(duì)有形資產(chǎn)150的損壞程度的模型。
[0022] 參照?qǐng)D4,示出了根據(jù)本公開的示例的用于使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行圖像處理 的計(jì)算設(shè)備400的框圖。根據(jù)示例,計(jì)算設(shè)備400是圖像處理服務(wù)器130。應(yīng)當(dāng)理解,在不脫離 計(jì)算設(shè)備400的范圍的情況下,計(jì)算設(shè)備400可以包括附加的部件,并且本文中所描述的部 件的一個(gè)或多個(gè)部件可以被移除和/或修改。
[0023]計(jì)算設(shè)備400被描繪為包括處理器402、數(shù)據(jù)存儲(chǔ)140、輸入/輸出(I/O)接口406和 圖像處理平臺(tái)410。作為示例,計(jì)算設(shè)備400的部件在單個(gè)計(jì)算機(jī)或服務(wù)器上示出,并且在其 它示例中,部件可以存在于多個(gè)計(jì)算機(jī)或服務(wù)器上。計(jì)算設(shè)備400可以將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存 儲(chǔ)140中和/或可以管理比如通過I/O接口 406存儲(chǔ)在單獨(dú)的計(jì)算設(shè)備中的數(shù)據(jù)的存儲(chǔ)。數(shù)據(jù) 存儲(chǔ)140可以包括物理存儲(chǔ)器(諸如硬盤驅(qū)動(dòng)器、光盤驅(qū)動(dòng)器、閃存驅(qū)動(dòng)器、驅(qū)動(dòng)器陣列或它 們的任意組合),并且可以包括易失性和/或非易失性數(shù)據(jù)存儲(chǔ)。
[0024]圖像處理平臺(tái)410被描繪為包括訓(xùn)練電路412、模型構(gòu)建器414、驗(yàn)證電路416和分 類器418??梢园ㄎ⑻幚砥?、微控制器、專用集成電路(ASIC)、圖形處理單元(GPU)等等的 處理器402要在計(jì)算設(shè)備400中執(zhí)行各種處理功能。處理功能可以包括圖像處理平臺(tái)410的 訓(xùn)練電路412、模型構(gòu)建器414、驗(yàn)證電路416和分類器418的功能。
[0025]例如,訓(xùn)練電路412可以從受損資產(chǎn)或?qū)ο蟮膱D像創(chuàng)建訓(xùn)練集。該訓(xùn)練集可以通過 模型構(gòu)建器414用來構(gòu)建CNN模型。例如,模型構(gòu)建器414可以根據(jù)用于CNN模型的所選擇的 候選架構(gòu)和候選參數(shù)在訓(xùn)練集上構(gòu)建CNN模型。例如,驗(yàn)證電路416可以評(píng)價(jià)由模型構(gòu)建器 414構(gòu)建的CNN模型在驗(yàn)證集上的性能,并且確定CNN模型是否滿足驗(yàn)證閾值。例如,分類器 418可以分類驗(yàn)證集中的每幅圖像中的對(duì)象的損壞程度。該分類器還可以聚集來自優(yōu)化CNN 模型集合的預(yù)測(cè)以更準(zhǔn)確地評(píng)估數(shù)字圖像中的受損對(duì)象。
[0026]在示例中,圖像處理平臺(tái)410包括存儲(chǔ)在非暫態(tài)計(jì)算機(jī)可讀介質(zhì)413上并且由處理 器執(zhí)行的機(jī)器可讀指令。非暫態(tài)計(jì)算機(jī)可讀介質(zhì)的示例包括動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、 電可擦除可編程只讀存儲(chǔ)器(EEPROM)、磁阻隨機(jī)存取存儲(chǔ)器(MRAM)、憶阻器、閃存、硬盤驅(qū) 動(dòng)器等。計(jì)算機(jī)可讀介質(zhì)413可以被包括在數(shù)據(jù)存儲(chǔ)140中或可以是單獨(dú)的存儲(chǔ)設(shè)備。在另 一示例中,圖像處理平臺(tái)410包括硬件設(shè)備(諸如電路或布置在板上的多個(gè)電路)。在該示例 中,訓(xùn)練電路412、模型構(gòu)建器414、驗(yàn)證電路416和分類器418包括電路部件或單獨(dú)電路(諸 如嵌入式系統(tǒng)、ASIC或現(xiàn)場(chǎng)可編程門陣列(FPGA))。
[0027] 處理器402可以通過總線405被耦合到數(shù)據(jù)存儲(chǔ)140和I/O接口406,其中,總線405 可以是在計(jì)算設(shè)備400的各種部件之間傳送數(shù)據(jù)的通信系統(tǒng)。在示例中,總線405可以是外 圍部件互連(pci)、工業(yè)標(biāo)準(zhǔn)架構(gòu)(iSA)、PCi-Express、HyperTransport?、NuBus、專用 總線等等。
[0028] I/O接口 406包括硬件和/或軟件接口。I/O接口 406可以是通過網(wǎng)絡(luò)設(shè)備連接到網(wǎng) 絡(luò)的網(wǎng)絡(luò)接口,通過該網(wǎng)絡(luò)接口,圖像處理平臺(tái)410可以接收并且傳送信息(比如關(guān)于對(duì)資 產(chǎn)的損壞程度的信息)。例如,輸入/輸出接口 406可以是無線局域網(wǎng)(WLAN)或網(wǎng)絡(luò)接口控制 器(NIC) ILAN可以通過無線電信號(hào)將計(jì)算設(shè)備400鏈接到網(wǎng)絡(luò)設(shè)備。類似地,NIC可以通過 物理連接(諸如電纜)將計(jì)算設(shè)備400鏈接到網(wǎng)絡(luò)設(shè)備。計(jì)算設(shè)備400還可以通過無線廣域網(wǎng) (ffff AN)鏈接到網(wǎng)絡(luò)設(shè)備,其使用移動(dòng)數(shù)據(jù)信號(hào)與移動(dòng)電話塔通信。處理器402可以將通過輸 入/輸出接口 406接收的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)140中,并且可以使用在實(shí)施圖像處理平臺(tái)410 的訓(xùn)練電路412、模型生成器414、驗(yàn)證電路416和分類器418中的信息。
[0029] 下文在圖5和圖6中所公開的方法描述了使用CNN進(jìn)行數(shù)字圖像處理例如以分類對(duì) 在圖像中所捕獲的資產(chǎn)的損壞程度的方法的示例。對(duì)于本領(lǐng)域技術(shù)人員,應(yīng)該顯而易見的 是,在不背離方法的范圍的情況下,這些方法表示廣義的圖示,并且其它序列可以被添加或 者現(xiàn)有的序列可以被移除、修改或重新布置。
[0030] 圖5示出了根據(jù)本公開的示例的使用CNN進(jìn)行數(shù)字圖像處理的方法500的流程圖。 CNN可以用于推進(jìn)圖像中的對(duì)象的分類性能。因此,圖5中所圖示的方法500提供了一種用于 訓(xùn)練并構(gòu)建CNN以輸出圖像中的對(duì)象的準(zhǔn)確分類的方法。例如,圖像處理服務(wù)器130的處理 器402可以實(shí)施圖像處理平臺(tái)410以準(zhǔn)確評(píng)估圖像中的資產(chǎn)損壞。
[0031] 在框505中,訓(xùn)練電路412比如可以從受損資產(chǎn)或?qū)ο蟮膱D像創(chuàng)建訓(xùn)練集。根據(jù)示 例,訓(xùn)練集數(shù)據(jù)可以包括新(未受損的)對(duì)象、受損對(duì)象和總計(jì)對(duì)象的圖像。可以通過模型構(gòu) 建器414處理這個(gè)訓(xùn)練集,以發(fā)現(xiàn)預(yù)測(cè)性關(guān)系并且調(diào)整模型(諸如CNN)。
[0032] 在已經(jīng)創(chuàng)建訓(xùn)練集之后,方法500可以迭代地選擇候選架構(gòu)和候選參數(shù)以優(yōu)化CNN 的例如準(zhǔn)確分類對(duì)圖像中的對(duì)象的損壞程度的能力。該迭代過程可以包括方法500的框 510-545。
[0033] 在框510中,模型構(gòu)建器414比如可以從多個(gè)候選架構(gòu)中選擇候選架構(gòu)。根據(jù)示例, 多個(gè)候選架構(gòu)可以包括分類器類型、以及若干個(gè)卷積層和子采樣層的不同組合。分類器類 型可以包括多層感知器(MLP)、支持向量機(jī)(SVM)等等。
[0034] 在框515中,模型構(gòu)建器414比如可以選擇用于所選擇的候選架構(gòu)的候選參數(shù)。根 據(jù)示例,候選參數(shù)可以包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元的最大數(shù)量、卷積濾波器大小、CNN 每一層的特征映射圖數(shù)量、子采樣池大小、輸入圖像大小、隱含層數(shù)量、每個(gè)隱含層中的單 元數(shù)量、所選擇的分類器算法、以及輸出種類數(shù)量。
[0035]學(xué)習(xí)參數(shù)的示例包括學(xué)習(xí)率、批量大小和訓(xùn)練歷元的最大數(shù)量。學(xué)習(xí)率參數(shù)是其 中CNN從訓(xùn)練集學(xué)習(xí)最佳濾波系數(shù)的速率。理想情況下,學(xué)習(xí)率不是太高(其中,CNN超量學(xué) 習(xí)并且不太普及)或太低。根據(jù)示例,用于學(xué)習(xí)率參數(shù)的范圍包括但不限于0.05至0.10。批 量大小參數(shù)是當(dāng)在最小化中計(jì)算梯度下降的估計(jì)時(shí),一起被處理的圖像的數(shù)量(與一次使 用一幅圖像相對(duì))。在訓(xùn)練期間,將若干幅圖像聚束在批量中通過使用圖像(高度X寬度)的 三維(3D)矩陣表示(批量大小X高度X寬度)而非兩維(2D)矩陣表示來加快計(jì)算。根據(jù)示 例,批量大小參數(shù)的范圍包括但不限于每個(gè)批量2-128幅圖像。訓(xùn)練歷元的最大數(shù)量參數(shù)是 整個(gè)訓(xùn)練集在更新最小化參數(shù)中重新使用的最大次數(shù)。訓(xùn)練圖像的數(shù)量除以批量大小是在 一個(gè)歷元中的迭代總數(shù)。根據(jù)示例,訓(xùn)練歷元的最大數(shù)量參數(shù)的范圍介于100和200之間。 [0036]卷積和子采樣參數(shù)的示例包括卷積濾波器大小、CNN每一層的特征映射圖數(shù)量、以 及子采樣池大小。卷積濾波器大小參數(shù)是卷積層中的濾波器大小。根據(jù)示例,用于卷積濾波 器大小參數(shù)的范圍介于2 X 2個(gè)像素和114 X 114像素之間。特征映射圖數(shù)量參數(shù)是從每個(gè)卷 積層中若干個(gè)濾波器或內(nèi)核輸出的特征映射圖數(shù)量。根據(jù)示例,用于特征映射圖數(shù)量參數(shù) 的范圍介于用于第一卷積層的60個(gè)特征映射圖和512個(gè)特征映射圖之間。子采樣池大小參 數(shù)是圖像中的像素的正方形貼片(patch)的大小,該像素在經(jīng)由最大池化(pooling)的操作 之后,被降采樣(down-sampled)成并且替代為一個(gè)像素,該最大池化設(shè)置所得像素的值作 為像素的初始正方形貼片中的像素的最大值。根據(jù)示例,用于子采樣池大小參數(shù)的值的范 圍包括但不限于介于2 X 2和4 X 4的范圍。根據(jù)示例,就最終卷積層的輸出而言,選擇卷積層 的網(wǎng)絡(luò)的參數(shù)以將輸入圖像大小減少至I X 1像素值。
[0037]分類器參數(shù)的示例包括圖像輸入大小、隱含層數(shù)量、每一層中的單元數(shù)量、所選擇 的分類器算法和輸出種類數(shù)量。圖像輸入大小是其中來自最終卷積層的數(shù)據(jù)將被分類的空 間維數(shù),并且因此,等于特征映射圖數(shù)量和最終卷積層的圖像大小的乘積。根據(jù)示例,輸入 圖像大小是乘以I X 1的最終卷積層上的特征映射圖的數(shù)量。根據(jù)示例,隱含層是全連接MLP 層并且隱含層的數(shù)量包括2。隱含層的數(shù)量應(yīng)該至多限于三個(gè)隱含層。每個(gè)隱含層中的單元 數(shù)量是使用在卷積和子采樣層中學(xué)習(xí)的信息以檢測(cè)損壞程度的隱含層中的單元數(shù)量。根據(jù) 示例,每個(gè)隱含層中的單元數(shù)量參數(shù)的范圍包括但不限于介于6個(gè)單元和1024個(gè)單元之間。 所選擇的分類器算法可以包括但不限于多層感知器(MLP)、支持向量機(jī)(SVM)等等。輸出種 類數(shù)量是輸入圖像被分成的類型的數(shù)量。根據(jù)示例,輸出種類數(shù)量可以包括但不限于3。 [0038] 然后,如框520所示,模型構(gòu)建器414比如可以選擇預(yù)處理協(xié)議,以針對(duì)所選擇的候 選架構(gòu)和所選擇的候選參數(shù)增強(qiáng)受損對(duì)象的圖像中的信息內(nèi)容。預(yù)處理協(xié)議可以包括但不 限于局部對(duì)比度歸一化或零相成分分析(ZCA)縮放、以及用于增白(whitening)的獨(dú)立成分 分析(ICA)。
[0039] 在框525中,模型構(gòu)建器414比如可以訓(xùn)練并使用訓(xùn)練集構(gòu)建中間CNN。如框530所 示,在訓(xùn)練并構(gòu)建中間CNN之后,驗(yàn)證電路416比如可以評(píng)價(jià)中間CNN在驗(yàn)證集上的性能。根 據(jù)示例,驗(yàn)證集包括與來自訓(xùn)練集的圖像集分開并且不同的新的(未受損的)對(duì)象、受損對(duì) 象和總計(jì)對(duì)象的圖像集。在這方面,驗(yàn)證集用來評(píng)估中間CNN相對(duì)于分類驗(yàn)證集的圖像的每 幅圖像的損壞程度的準(zhǔn)確度。
[0040] 在框535中,驗(yàn)證電路416比如可以確定中間CNN是否滿足驗(yàn)證閾值。驗(yàn)證閾值可以 是驗(yàn)證錯(cuò)誤率。根據(jù)該示例,如果其驗(yàn)證錯(cuò)誤率相對(duì)于分類預(yù)測(cè)小于20%,則中間CNN可能 符合或滿足驗(yàn)證閾值。如果中間CNN不滿足驗(yàn)證閾值,則迭代過程在框510處重新開始。
[0041 ] 另一方面,如果中間CNN滿足驗(yàn)證閾值,則驗(yàn)證電路416可以標(biāo)記中間CNN以指示它 已經(jīng)滿足了如框540中所示的驗(yàn)證閾值。在框545中,驗(yàn)證電路416可以確定當(dāng)滿足驗(yàn)證閾值 時(shí),預(yù)定數(shù)量的中間CNN是否已經(jīng)被標(biāo)記。預(yù)定數(shù)量的標(biāo)記的中間CNN例如可以是25個(gè)標(biāo)記 的中間CNN。根據(jù)示例,使用用于所選擇的候選參數(shù)的不同值構(gòu)建標(biāo)記的中間CNN的每個(gè)中 間CNN。如果標(biāo)記的中間CNN的數(shù)量還未達(dá)到預(yù)先確定數(shù)量(例如,25 ),則迭代過程再次在框 510處開始。
[0042] 可替代地,如框550所示,如果標(biāo)記的中間CNN的數(shù)量已經(jīng)達(dá)到預(yù)先確定數(shù)量(例 如,2 5 ),則驗(yàn)證電路416可以從預(yù)先確定數(shù)量的中間CNN創(chuàng)建中間CNN集合。例如,5個(gè)最準(zhǔn)確 的中間CNN可以被選擇作為集合。
[0043] 在框555中,分類器418比如可以對(duì)驗(yàn)證集中的每幅圖像中的對(duì)象的損壞程度進(jìn)行 分類。根據(jù)示例,分類包括:聚集來自標(biāo)記的中間CNN集合的預(yù)測(cè)以在對(duì)驗(yàn)證集中的每幅圖 像中的對(duì)象的損壞程度分類中實(shí)現(xiàn)更高的準(zhǔn)確度?,F(xiàn)在描述用于聚集來自各個(gè)CNN的預(yù)測(cè) 以形成集合預(yù)測(cè)的技術(shù)的示例。在示例中,所有的中間CNN同時(shí)被訓(xùn)練以確定用于CNN集合 的系數(shù)或權(quán)重并且所訓(xùn)練的集合用于做出預(yù)測(cè)。在另一示例中,代數(shù)規(guī)則可以用來組合中 間CNN的輸出。用于組合中間CNN的輸出的代數(shù)規(guī)則的示例可以包括最大、總和、平均和加權(quán) 平均。在另一示例中,中間CNN組合使用驗(yàn)證集合測(cè)試以確定哪些組合具有最高的預(yù)測(cè)準(zhǔn)確 度。當(dāng)測(cè)試組合時(shí),多數(shù)投票(vote)可以應(yīng)用于每個(gè)組合,以確定用于該類別的預(yù)測(cè)。執(zhí)行 研究,并且確定采取來自10-24個(gè)標(biāo)記的中間CNN集合的多數(shù)投票的準(zhǔn)確度約為90%,其通 常比準(zhǔn)確度通常約為80-85 %導(dǎo)致的單個(gè)CNN的性能更高。
[0044]圖6示出了根據(jù)本公開的示例的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(CNN)600的流程圖。CNN 600是 根據(jù)上文所描述的方法500構(gòu)建的優(yōu)化CNN。用于該CNN600的架構(gòu)包括4個(gè)卷積和子采樣層、 2個(gè)隱含層和邏輯回歸分類器(諸如MLP)。在這方面,比如,該CNN600可以對(duì)在圖像中捕獲的 資產(chǎn)的損壞程度進(jìn)行分類,準(zhǔn)確度約為88%。
[0045] 如上文所討論的,投??蛻艨梢詫?quán)利要求中的資產(chǎn)的圖像提交給保險(xiǎn)公司。保 險(xiǎn)公司可以使用所提交的圖像利用該CNN600自動(dòng)地對(duì)資產(chǎn)的損壞程度進(jìn)行分類。例如,所 提交的圖像可以被輸入到CNN600中。
[0046] 所提交的受損資產(chǎn)的圖像可以被預(yù)先處理610以增強(qiáng)圖像中的信息內(nèi)容以供 CNN600處理。在該示例中,所提交的圖像是480 X 640個(gè)像素。例如,預(yù)處理610可以將所提交 的受損資產(chǎn)的圖像裁剪成96X96個(gè)像素并且從所提交的受損資產(chǎn)的圖像中提取3個(gè)RGB通 道層以作為輸入圖像呈現(xiàn)給CNN600。
[0047] 在第一卷積層(Cl )620中,CNN600可以用每個(gè)大小為5 X 5的60個(gè)不同的第一層濾 波器卷積輸入圖像,以產(chǎn)生大小為92 X 92的60個(gè)特征映射圖。卷積層的每個(gè)濾波器應(yīng)用降 低輸入圖像的分辨率。如果輸入圖像的分辨率是NXN,則卷積濾波器的大小為MXM,那么由 此產(chǎn)生的圖像的分辨率為N-M+l XN-M+1。然后,CNN600可以對(duì)特征映射圖執(zhí)行非線性子采 樣形式的最大池化。將輸入圖像最大池化劃分成非重疊正方形貼片集,從而更換單個(gè)像素 值等于初始正方形貼片中的所有像素的最大值的每個(gè)貼片。在示例中,CNN可以對(duì)Cl 620上 的60個(gè)特征映射圖的2 X 2區(qū)域進(jìn)行最大池化。然后,進(jìn)一步對(duì)Cl 620中大小為46 X46的所 得的60個(gè)特征映射圖進(jìn)行卷積并且在第二卷積層(C2)630中進(jìn)行最大池化。
[0048]在C2 630中,用每個(gè)大小為3 X 3的第二層卷積濾波器卷積來自Cl 620的大小為46 X 46的所得的60個(gè)特征映射圖,以產(chǎn)生大小為44 X 44的128個(gè)特征映射圖。然后,可以對(duì)128 個(gè)特征映射圖的4 X 4區(qū)域執(zhí)行最大池化。然后,進(jìn)一步對(duì)C2 630中大小為11 X 11的所得的 128個(gè)特征映射圖進(jìn)行卷積并且在第三卷積層(C3)640中進(jìn)行最大池化。
[0049]在C3 640中,用每個(gè)大小為4X4的第三層卷積濾波器卷積來自C2 630的大小為11 X 11的所得的128個(gè)特征映射圖,以產(chǎn)生大小為8 X 8的128個(gè)特征映射圖。然后,可以對(duì)128 個(gè)特征映射圖的2X2區(qū)域執(zhí)行最大池化。然后,進(jìn)一步對(duì)C3 640中大小為4X4的所得的128 個(gè)特征映射圖進(jìn)行卷積并且在第四卷積層(C4)650中進(jìn)行最大池化。
[0050]在C4 650中,用每個(gè)大小為3 X 3的第四層濾波器卷積來自C3640的大小為4 X 4的 所得的128個(gè)特征映射圖,以產(chǎn)生大小為2 X 2的256個(gè)特征映射圖。然后,可以對(duì)256個(gè)特征 映射圖的2X2區(qū)域進(jìn)行最大池化。然后,進(jìn)一步對(duì)C4 650中大小為I X 1的所得的256個(gè)特征 映射圖被輸入到第一隱含層(Hl)660以開始分類過程。
[0051] 為了執(zhí)行分類,CNN600應(yīng)用卷積層后面的全連接神經(jīng)網(wǎng)絡(luò)層。在Hl 660的第一分 類層,例如,512個(gè)單元的每個(gè)單元采用從C 4650產(chǎn)生的所有的256個(gè)特征映射圖的每個(gè)像 素的值,將每個(gè)值乘以預(yù)先確定的權(quán)重,并且使總和去線性化。事實(shí)上,512個(gè)單元的每個(gè)單 元的輸出例如表示關(guān)于受損資產(chǎn)e的原始提交的圖像的判斷。第二隱含層(H2)670被添加以 從H2 670的第二分類層中的100個(gè)單元的每個(gè)單元的輸出中導(dǎo)出關(guān)于受損資產(chǎn)的所提交的 圖像的更抽象的結(jié)論。因此,CNN 600的邏輯回歸分類器680然后可以根據(jù)第三分類層中的3 個(gè)單元的輸出準(zhǔn)確地分類對(duì)作為新的、受損的或總計(jì)的所提交的圖像中的資產(chǎn)的損壞程 度。
[0052]本文所述和所圖示的是本公開的示例和一些變化。本文中所使用的術(shù)語、描述和 附圖僅通過圖示的方式闡述,并且不意味著作為限制。許多變化都可能落入旨在通過所附 權(quán)利要求-及其等價(jià)物-定義的本發(fā)明的精神和范圍之內(nèi),其中,除非另外指明,所有的術(shù)語 都被意指其最廣的合理意義。
【主權(quán)項(xiàng)】
1. 一種圖像處理方法,包括: 從受損對(duì)象的圖像創(chuàng)建訓(xùn)練集; 選擇用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的候選架構(gòu)和候選參數(shù)以通過迭代過程對(duì)所述圖像中的 所述對(duì)象的損壞程度進(jìn)行分類,其中,所述迭代過程包括: 從多個(gè)候選架構(gòu)中選擇所述候選架構(gòu); 選擇用于所選擇的候選架構(gòu)的所述候選參數(shù); 針對(duì)所選擇的候選架構(gòu)和所選擇的候選參數(shù)選擇預(yù)處理協(xié)議以增強(qiáng)所述受損對(duì)象的 所述圖像中的所述信息內(nèi)容; 使用所述訓(xùn)練集構(gòu)建中間CNN; 評(píng)價(jià)所述中間CNN在驗(yàn)證集上的性能; 確定所述中間CNN是否滿足驗(yàn)證閾值;以及 重復(fù)所述迭代過程直到預(yù)先確定數(shù)量的中間CNN滿足所述驗(yàn)證閾值,其中,每個(gè)中間 CNN對(duì)于所選擇的候選參數(shù)具有不同的值; 從所述預(yù)先確定數(shù)量的中間CNN創(chuàng)建中間CNN集合;以及 對(duì)所述驗(yàn)證集中的每幅圖像中的所述對(duì)象的損壞程度進(jìn)行分類,其中,所述分類包括 聚集來自所述中間CNN集合的預(yù)測(cè)。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述候選架構(gòu)包括分類器類型以及若干個(gè)卷積層 和子采樣層。3. 根據(jù)權(quán)利要求1所述的方法,其中,所述候選參數(shù)包括學(xué)習(xí)參數(shù),其中,所述學(xué)習(xí)參數(shù) 包括以下各項(xiàng)中的至少一項(xiàng):學(xué)習(xí)率、批量大小、以及訓(xùn)練歷元的最大數(shù)量。4. 根據(jù)權(quán)利要求3所述的方法,其中,所述學(xué)習(xí)率介于0.05和0.1之間,所述批量大小介 于2幅圖像和128幅圖像之間,并且所述訓(xùn)練歷元的最大數(shù)量介于100和200之間。5. 根據(jù)權(quán)利要求1所述的方法,其中,所述候選參數(shù)包括卷積和子采樣參數(shù),其中,所述 卷積和子采樣參數(shù)包括卷積濾波器大小、特征映射圖數(shù)量、以及子采樣池大小。6. 根據(jù)權(quán)利要求5所述的方法,其中,所述卷積濾波器大小介于2X2個(gè)像素和114X114 個(gè)像素之間,第一卷積層中的所述特征映射圖數(shù)量介于60和512之間,并且所述子采樣池大 小介于2 X 2個(gè)像素和4 X 4像素之間。7. 根據(jù)權(quán)利要求1所述的方法,其中,所述候選參數(shù)包括分類器參數(shù),其中,所述分類器 參數(shù)包括圖像輸入大小、隱含層的數(shù)量、每個(gè)隱含層中的單元數(shù)量、分類器算法、以及輸出 種類數(shù)量。8. 根據(jù)權(quán)利要求7所述的方法,其中,所述圖像輸入大小是等于特征映射圖數(shù)量和最終 卷積層的圖像大小的乘積的數(shù)量,所述隱含層數(shù)量是2,所述每個(gè)隱含層中的單元數(shù)量介于 6個(gè)單元和1024個(gè)單元之間,分類器算法是多層感知器(MLP)算法,并且所述輸出種類數(shù)量 是3。9. 根據(jù)權(quán)利要求1所述的方法,其中,確定所述中間CNN是否滿足所述驗(yàn)證閾值包括:確 定所述中間CNN在所述驗(yàn)證集上的錯(cuò)誤率是否小于20%。10. 根據(jù)權(quán)利要求1所述的方法,其中,中間CNN的所述預(yù)先確定數(shù)量是25。11. 一種圖像處理服務(wù)器,包括: 處理器; 存儲(chǔ)機(jī)器可讀指令的存儲(chǔ)器,所述機(jī)器可讀指令使所述處理器: 通過訓(xùn)練電路從受損對(duì)象的圖像創(chuàng)建訓(xùn)練集; 選擇用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的候選架構(gòu)和候選參數(shù)以通過迭代過程對(duì)所述圖像中的 所述對(duì)象的損壞程度進(jìn)行分類,其中,所述迭代過程包括: 通過模型構(gòu)建器從多個(gè)候選架構(gòu)中選擇所述候選架構(gòu); 通過所述模型構(gòu)建器選擇用于所選擇的候選架構(gòu)的所述候選參數(shù); 通過所述模型構(gòu)建器使用所述訓(xùn)練集構(gòu)建中間CNN; 通過所述驗(yàn)證電路評(píng)價(jià)所述中間CNN在驗(yàn)證集上的性能,以及 重復(fù)所述迭代過程,直到確定預(yù)先確定數(shù)量的中間CNN滿足驗(yàn)證閾值,其中,每個(gè)中間 CNN對(duì)于所選擇的候選參數(shù)具有不同的值; 通過所述驗(yàn)證電路從預(yù)先確定數(shù)量的中間CNN創(chuàng)建中間CNN集合,以及 通過分類器對(duì)所述驗(yàn)證集中的每個(gè)圖像中的所述對(duì)象的損壞程度進(jìn)行分類,其中,分 類是聚集來自所述中間CNN集合的預(yù)測(cè)。12. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器,其中,所述機(jī)器可讀指令使所述處理器: 選擇候選架構(gòu),所述候選架構(gòu)包括分類器類型以及若干卷積層和子采樣層。13. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器,其中,所述機(jī)器可讀指令使所述處理器選 擇: 候選參數(shù),所述候選參數(shù)包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元的最大數(shù)量、卷積濾波器大 小、特征映射圖數(shù)量、子采樣池大小、圖像輸入大小、隱含層數(shù)量、每個(gè)隱含層中的單元數(shù) 量、分類器算法、以及輸出種類數(shù)量。14. 根據(jù)權(quán)利要求13所述的圖像處理服務(wù)器,其中,所述機(jī)器可讀指令使所述處理器: 選擇介于0.05和0.1之間的所述學(xué)習(xí)率、介于2幅圖像和128幅圖像之間的所述批量大 小、介于100和200之間的訓(xùn)練歷元的所述最大數(shù)量、介于2X2個(gè)像素和114X114個(gè)像素之 間的所述卷積濾波器大小、介于60和512之間的第一卷積層中的所述特征映射圖數(shù)量、介于 2X2像素和4X4像素之間的所述子采樣池大小、為2的所述隱含層數(shù)量、介于6個(gè)單元和 1024個(gè)單元之間的每個(gè)隱含層中的所述單元數(shù)量、作為多層感知器(MLP)算法的分類器算 法、以及為3的所述輸出種類數(shù)量。15. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器,其中,為了確定所述中間CNN是否滿足所 述驗(yàn)證閾值,所述機(jī)器可讀指令使所述處理器確定所述中間CNN在驗(yàn)證集上的誤差率是否 小于20 %。16. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器,其中,中間CNN的所述預(yù)先確定數(shù)量是25。17. -種處理數(shù)字圖像的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其包括機(jī)器可讀指令,所述機(jī)器可讀 指令可由處理器執(zhí)行以: 選擇用于多個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的候選架構(gòu)和候選參數(shù)以對(duì)所述圖像中的所述對(duì)象 的損壞程度進(jìn)行分類; 確定預(yù)先確定數(shù)量的CNN滿足驗(yàn)證閾值,其中,每個(gè)CNN對(duì)于所選擇的候選參數(shù)具有不 同的值; 從所述預(yù)先確定數(shù)量的CNN中選擇CNN集合; 聚集來自所述CNN集合的預(yù)測(cè);以及 對(duì)所述圖像中的所述對(duì)象的損壞程度進(jìn)行分類。18. 根據(jù)權(quán)利要求17所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中,為了選擇候選架構(gòu),所述機(jī) 器可讀指令能夠由所述處理器執(zhí)行以: 選擇候選架構(gòu),所述候選架構(gòu)包括若干個(gè)卷積層和子采樣層以及分類器類型。19. 根據(jù)權(quán)利要求17所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中,為了選擇候選參數(shù),所述機(jī) 器可讀指令能夠由所述處理器執(zhí)行以: 選擇候選參數(shù),所述候選參數(shù)包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元的最大數(shù)量、卷積濾波 器大小、特征映射圖數(shù)量、子采樣池大小、圖像輸入大小、隱含層數(shù)量、每個(gè)隱含層中的單元 數(shù)量、分類器算法、以及輸出種類數(shù)量。20. 根據(jù)權(quán)利要求19所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中,為了選擇候選參數(shù),所述機(jī) 器可讀指令能夠由所述處理器執(zhí)行以: 選擇介于0.05和0.1之間的所述學(xué)習(xí)率、介于2幅圖像和128幅圖像之間的所述批量大 小、介于100和200之間的訓(xùn)練歷元的所述最大數(shù)量、介于2X2個(gè)像素和114X114個(gè)像素之 間的所述卷積濾波器大小、介于60和512之間的第一卷積層中的所述特征映射圖數(shù)量、介于 2X2像素和4X4像素之間的所述子采樣池大小、為2的所述隱含層數(shù)量、介于6個(gè)單元和 1024個(gè)單元之間的每個(gè)隱含層中的所述單元數(shù)量、作為多層感知器(MLP)算法的分類器算 法、以及為3的所述輸出種類數(shù)量。
【文檔編號(hào)】G06K9/62GK105938559SQ201610122298
【公開日】2016年9月14日
【申請(qǐng)日】2016年3月3日
【發(fā)明人】A·拉文德蘭, O·塞利克-汀馬茲, M·巴達(dá)維
【申請(qǐng)人】埃森哲環(huán)球服務(wù)有限公司