卷積神經(jīng)網(wǎng)絡(luò)中的特征整合操作的示意圖。
[0076]在根據(jù)本公開(kāi)的卷積神經(jīng)網(wǎng)絡(luò)中,特征整合操作是在與當(dāng)前采樣層相鄰的上一層的多個(gè)特征圖與當(dāng)前采樣層的一個(gè)特征圖之間進(jìn)行的。如圖7所示,仍以圖1和圖2所示的特征圖為例,假設(shè)當(dāng)前采樣層為特征圖F6所在的第L+1層,上一層為特征圖F3至F5所在的第L層,并且特征整合操作是在第L層的所有特征圖F3至F5與第L+1層的特征圖F6之間進(jìn)行的。然而,應(yīng)理解,圖7所示的僅為示例而非限制,并且可在第L層的任意兩個(gè)或更多個(gè)特征圖而不是所有特征圖與第L+1層的特征圖F6之間進(jìn)行特征整合操作。
[0077]特征圖F6中的神經(jīng)元響應(yīng)值與特征圖F3至F5中的神經(jīng)元響應(yīng)值之間的關(guān)系如下所示:
[0078]Ql=Funcl (PI, P10, P19)
[0079]Q2=Funcl(P2,Pll,P20)
[0080]Q3=Funcl(P3, P12, P21)
[0081]Q4=Funcl(P4, P13, P22)
[0082]Q5=Funcl(P5, P14, P23)
[0083]Q6=Funcl(P6, P15, P24)
[0084]Q7=Funcl(P7, P16, P25)
[0085]Q8=Funcl(P8, P17, P26)
[0086]Q9=Funcl(P9, P18, P27)
[0087]優(yōu)選地,在特征整合步驟S304中,可以以取最大值的特征整合方式、取最小值的特征整合方式、取中間值的特征整合方式或者以取隨機(jī)值的特征整合方式從與當(dāng)前采樣層相鄰的上一層的多個(gè)特征圖中選擇元素,以得到當(dāng)前采樣層的特征圖中的元素。即,上述函數(shù)Funcl O可采用取最大值的函數(shù)max O、取最小值的函數(shù)min()、取中間值的函數(shù)median O和取隨機(jī)值的函數(shù)rand O之一。
[0088]應(yīng)理解,對(duì)于同一采樣層,應(yīng)用于該層上的所有特征圖的特征整合方式是相同的。即,例如,對(duì)于第L+1層上的所有特征圖F6至F8,所應(yīng)用的函數(shù)Funcl O的形式是相同的。另一方面,對(duì)于不同的采樣層,所應(yīng)用的特征整合方式可相同或不同,例如,圖1所示的特征圖Fl和F2所在的層與特征圖F6至F8所在的層所應(yīng)用的特征整合方式可以是相同的或不同的,本發(fā)明對(duì)此不做限制。
[0089]可以理解,通過(guò)根據(jù)本公開(kāi)的實(shí)施例的特征整合方式,可以減少信息損失,從而使得以此方式得到的分類(lèi)模型具有更高的準(zhǔn)確度。
[0090]此外,優(yōu)選地,在對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),在向前傳播時(shí),要記錄特征整合操作的變換函數(shù)所選擇的數(shù)值的來(lái)源,從而在進(jìn)行后向傳播時(shí)不再對(duì)沒(méi)有選擇的數(shù)值繼續(xù)進(jìn)行后向傳播。例如,記錄在圖7中的特征圖F6中的Ql的取值來(lái)自特征圖F3中的P1、特征圖F4中的PlO還是特征圖F5中的P19,并且假如特征圖F6中的Ql的取值來(lái)自特征圖F4中的P10,則在進(jìn)行后向傳播時(shí)不再對(duì)特征圖F3中的Pl和特征圖F5中的P19進(jìn)行后向傳播。
[0091]應(yīng)理解,如圖3中的虛線(xiàn)框所示,步驟S304是可選的。本公開(kāi)的卷積神經(jīng)網(wǎng)絡(luò)可以?xún)H采用根據(jù)本公開(kāi)的隨機(jī)卷積操作并結(jié)合現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)中的其它操作進(jìn)行訓(xùn)練來(lái)實(shí)現(xiàn)。然而,通過(guò)進(jìn)一步在采樣操作時(shí)采用根據(jù)本公開(kāi)的特征整合操作,可以進(jìn)一步提高所構(gòu)建的分類(lèi)模型的分類(lèi)準(zhǔn)確度。
[0092]此后,重復(fù)步驟S302和步驟S304中的操作,直到所得到的卷積模板值滿(mǎn)足預(yù)定條件為止,即,使得松弛神經(jīng)網(wǎng)絡(luò)關(guān)于訓(xùn)練樣本的錯(cuò)誤率達(dá)到或低于預(yù)定錯(cuò)誤率閾值為止。
[0093]優(yōu)選地,為了使得分類(lèi)模型的實(shí)際識(shí)別效果更優(yōu),本公開(kāi)還提出了一種兩階段訓(xùn)練方法。即,在利用以上參照?qǐng)D3描述的隨機(jī)卷積操作和特征整合操作進(jìn)行第一階段訓(xùn)練之后,可采用傳統(tǒng)卷積操作和根據(jù)本公開(kāi)的特征整合操作繼續(xù)進(jìn)行第二階段訓(xùn)練。應(yīng)理解,由于傳統(tǒng)卷積操作更有利于學(xué)習(xí)細(xì)節(jié),從而使得如此訓(xùn)練出的分類(lèi)模型的分類(lèi)準(zhǔn)確度更聞。
[0094]接下來(lái),將參照?qǐng)D8描述根據(jù)本公開(kāi)的實(shí)施例的基于兩階段訓(xùn)練的分類(lèi)模型構(gòu)建方法的過(guò)程示例。圖8是示出根據(jù)本公開(kāi)的實(shí)施例的基于兩階段訓(xùn)練的分類(lèi)模型構(gòu)建方法的過(guò)程示例的流程圖。
[0095]如圖8所示,在步驟S802中輸入訓(xùn)練樣本之后,在步驟S804中,以隨機(jī)卷積方式和特定整合方式進(jìn)行第一階段訓(xùn)練,即,將卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)定為“隨機(jī)卷積+特征整合”進(jìn)行第一階段訓(xùn)練。
[0096]具體地,在第一階段訓(xùn)練過(guò)程中,設(shè)定神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)、每層上的操作(隨機(jī)卷積操作、特征整合操作、全連接操作)、每層上的特征圖的個(gè)數(shù)和大小,并且設(shè)定每個(gè)卷積層上用于隨機(jī)打斷連接的閾值以及每個(gè)采樣層上的特征整合方式。其中,輸出層的特征圖的個(gè)數(shù)和具體任務(wù)的類(lèi)別數(shù)是一致的,例如,對(duì)于數(shù)字識(shí)別任務(wù),輸出層的特征圖個(gè)數(shù)應(yīng)該為10個(gè)(對(duì)應(yīng)于數(shù)字O至9),對(duì)于大寫(xiě)英文字母識(shí)別任務(wù),輸出層的特征圖個(gè)數(shù)應(yīng)該為26個(gè)(對(duì)應(yīng)于大寫(xiě)字母A至Z)。輸出層的每個(gè)特征圖與具體識(shí)別任務(wù)的類(lèi)別是一一對(duì)應(yīng)的。
[0097]接下來(lái),對(duì)網(wǎng)絡(luò)中的所有參數(shù)例如以(0,I)分布進(jìn)行隨機(jī)初始化。
[0098]然后,將訓(xùn)練樣本送入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。對(duì)于每個(gè)訓(xùn)練樣本,首先按照前向傳播得到輸出層的值,然后按照輸出層的值與真值的誤差進(jìn)行后向傳播,采用經(jīng)典的隨機(jī)梯度下降算法進(jìn)行優(yōu)化。應(yīng)指出,如上所述,在進(jìn)行前向傳播時(shí),應(yīng)記錄卷積層被打斷的連接以及采樣層的特征整合操作的數(shù)據(jù)來(lái)源,從而在進(jìn)行后向傳播時(shí),不再對(duì)被打斷的連接以及未選擇的數(shù)據(jù)進(jìn)行后向傳播。如此重復(fù)進(jìn)行操作,直到神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本集上的錯(cuò)誤率等于或低于預(yù)定閾值為止。這樣,結(jié)束第一階段訓(xùn)練。
[0099]接下來(lái),在步驟S806中,在步驟S804中以隨機(jī)卷積方式和特征整合方式對(duì)訓(xùn)練樣本進(jìn)行第一階段訓(xùn)練以使得所得到的卷積模板值滿(mǎn)足第一預(yù)定條件之后,利用此時(shí)的卷積模板值,以傳統(tǒng)卷積方式和特征整合方式對(duì)訓(xùn)練樣本繼續(xù)進(jìn)行第二階段訓(xùn)練,以使得所得到的卷積模板值滿(mǎn)足第二預(yù)定條件。
[0100]具體地,在第二階段訓(xùn)練過(guò)程中,將通過(guò)步驟S804中的第一階段訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)定為“傳統(tǒng)卷積+特征整合”,即不再隨機(jī)打斷連接,并且繼續(xù)使用第一階段訓(xùn)練好的參數(shù)。此外,應(yīng)指出,對(duì)于每個(gè)采樣層,在第一階段訓(xùn)練和第二階段訓(xùn)練中所采用的特征整合方式(即,上述變換函數(shù)FuncI O )是相同的。
[0101]然后,將訓(xùn)練樣本依次送入設(shè)定好的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。對(duì)于每個(gè)訓(xùn)練樣本,首先按照前向傳播得到輸出層的值,然后按照輸出層的值與真值的誤差進(jìn)行后向傳播,采用經(jīng)典的梯度下降算法進(jìn)行優(yōu)化。同樣地,與第一訓(xùn)練階段相同,在進(jìn)行前向傳播時(shí),要記錄下采樣層的特征整合操作的數(shù)據(jù)來(lái)源,從而在進(jìn)行后向傳播時(shí)不再對(duì)未選擇的數(shù)據(jù)進(jìn)行后向傳播。如此重復(fù)進(jìn)行操作,直到松弛神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本集上的錯(cuò)誤率等于或低于預(yù)定閾值為止。
[0102]根據(jù)本公開(kāi)的實(shí)施例,通過(guò)這種兩階段訓(xùn)練方法,訓(xùn)練得到的基于卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型具有更高的識(shí)別精度。
[0103]此外,應(yīng)指出,以上描述的隨機(jī)卷積操作和特征整合操作僅用于訓(xùn)練階段,而當(dāng)實(shí)際應(yīng)用時(shí),利用包括訓(xùn)練得到的卷積模板值的分類(lèi)模型,仍以傳統(tǒng)卷積操作和傳統(tǒng)空間最大采樣操作執(zhí)行具體識(shí)別任務(wù)。
[0104]應(yīng)理解,盡管這里參照?qǐng)D2至圖8描述了根據(jù)本公開(kāi)的實(shí)施例的基于卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型構(gòu)建方法和兩階段訓(xùn)練方法的過(guò)程示例,但是本公開(kāi)不限于這樣的示例,本領(lǐng)域技術(shù)人員可以根據(jù)本公開(kāi)的原理對(duì)上述過(guò)程進(jìn)行修改,并且這樣的修改被認(rèn)為落入本公開(kāi)的范圍內(nèi)。
[0105]接下來(lái),將參照?qǐng)D9描述根據(jù)本公開(kāi)的實(shí)施例的基于卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型構(gòu)建設(shè)備的功能配置示例。圖9是示出根據(jù)本公開(kāi)的實(shí)施例的基于卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型構(gòu)建設(shè)備的功能配置示例的框圖。
[0106]如圖9所示,分類(lèi)模型構(gòu)建設(shè)備900可包括卷積單元902。
[0107]卷積單元902可被配置成以隨機(jī)卷積方式對(duì)訓(xùn)練樣本進(jìn)行第一階段訓(xùn)練,以得到用于卷積操作的卷積模板值,從而構(gòu)建包括卷積模板值的分類(lèi)模型。優(yōu)選地,以隨機(jī)卷積方式對(duì)訓(xùn)練樣本進(jìn)行第一階段訓(xùn)練進(jìn)一步包括:對(duì)于至少一個(gè)當(dāng)前卷積層,基于預(yù)定概率閾值以隨機(jī)方式打斷當(dāng)前卷積層的特征圖中的元素與和當(dāng)前卷積層相鄰的上一層的特征圖中的元素之間的連接。具體地,卷積單元902可被配置成采用例如以上參照?qǐng)D5A至圖描述的隨機(jī)卷積操作對(duì)訓(xùn)練樣本進(jìn)行處理。
[0108]優(yōu)選地,對(duì)于每個(gè)卷積層,用于該卷積層上的所有特征圖中的元素的預(yù)定概率閾值是相同的,而對(duì)于不同的卷積層,預(yù)定概率閾值可相同或不同。
[0109]此外,優(yōu)選地,對(duì)于卷積單元902進(jìn)行隨機(jī)卷積操作時(shí)打斷的連接,當(dāng)利用梯度下降