欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于集成學(xué)習(xí)的模式訓(xùn)練和識(shí)別方法

文檔序號(hào):6435063閱讀:203來(lái)源:國(guó)知局
專(zhuān)利名稱:一種基于集成學(xué)習(xí)的模式訓(xùn)練和識(shí)別方法
技術(shù)領(lǐng)域
本發(fā)明涉及智能系統(tǒng)領(lǐng)域,更具體地,涉及模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域。
技術(shù)背景
對(duì)于維數(shù)很高的數(shù)據(jù)來(lái)說(shuō),傳統(tǒng)方法在小數(shù)據(jù)集上訓(xùn)練出來(lái)的檢測(cè)識(shí)別模型,很難囊括各種可能的樣本情況,在開(kāi)放數(shù)據(jù)集上推廣性能差、檢測(cè)精度低。特別是對(duì)于互聯(lián)網(wǎng)上飛速增長(zhǎng)的圖像視頻數(shù)據(jù),不僅特征維數(shù)高,且具有覆蓋面廣、內(nèi)容多樣、更新快等特點(diǎn), 更加迫切需要研究面向大規(guī)模訓(xùn)練數(shù)據(jù)集的模式學(xué)習(xí)方法,以盡量囊括各種可能出現(xiàn)的樣本,提高算法在開(kāi)放多媒體數(shù)據(jù)集上的檢測(cè)精度。
2009 年 M. Enzweiler 禾口 D.M. Gavrila 在 IEEE Transactions on Pattern Analysis and Machine Intelligence 的第 2179—2195 頁(yè)上發(fā)表的文章 “Monocular Pedestrian Detection =Survey and Experiments”通過(guò)對(duì)圖像中行人檢測(cè)的研究表明選擇最佳的特征和模式分類(lèi)器組合,所帶來(lái)的收益沒(méi)有增大訓(xùn)練樣本集所帶來(lái)的收益明顯。 由此也說(shuō)明了面向大規(guī)模訓(xùn)練數(shù)據(jù)集的模式學(xué)習(xí)方法研究的必要性。
但是,大規(guī)模訓(xùn)練數(shù)據(jù)集對(duì)于傳統(tǒng)模式學(xué)習(xí)方法提出了新的挑戰(zhàn)(1)模式種類(lèi)呈多樣性,同一模式的類(lèi)內(nèi)距離很大,導(dǎo)致檢測(cè)精度低;( 由于訓(xùn)練樣本個(gè)數(shù)的增加導(dǎo)致最優(yōu)分類(lèi)面非常復(fù)雜,從而使檢測(cè)速度下降;C3)由于模型訓(xùn)練的時(shí)間復(fù)雜度通常介于 0(n2)至0(n3)之間,其中η為訓(xùn)練樣本個(gè)數(shù),若再考慮實(shí)際內(nèi)存的限制,當(dāng)訓(xùn)練樣本個(gè)數(shù)增加到幾十萬(wàn)甚至上百萬(wàn)時(shí),在整個(gè)訓(xùn)練集上訓(xùn)練單個(gè)模型的傳統(tǒng)方法是一件難以忍受甚至是幾乎不可能的事情。
對(duì)于大規(guī)模訓(xùn)練樣本集,由于訓(xùn)練樣本太多,訓(xùn)練和檢測(cè)速度會(huì)顯著下降。為了提高效率,集成學(xué)習(xí)(Ensemble Learning)方法采取“分而治之”的策略,將大規(guī)模訓(xùn)練集采取不同的策略劃分為不同的子集,然后在每個(gè)子集上訓(xùn)練相應(yīng)的子模型;檢測(cè)時(shí)在對(duì)每個(gè)子模型上的得分值采用不同的方法進(jìn)行融合,來(lái)計(jì)算檢測(cè)樣本的綜合得分值,從而給出統(tǒng)一的判別。1995年和1996年著名國(guó)際頂級(jí)會(huì)議Advances in Neural Information Processing Systems及最新相關(guān)研究成果表明一個(gè)好的集成分類(lèi)器由于各分類(lèi)器之間的知識(shí)互補(bǔ),決策獨(dú)立,個(gè)別分類(lèi)器帶來(lái)的錯(cuò)誤因互不關(guān)聯(lián)而不會(huì)傳播到集成分類(lèi)器中,因而集成分類(lèi)器比單一分類(lèi)器更為有效。而且,由于訓(xùn)練時(shí)每個(gè)子集的樣本個(gè)數(shù)遠(yuǎn)小于訓(xùn)練樣本總數(shù),因而集成學(xué)習(xí)方法能顯著減少內(nèi)存開(kāi)銷(xiāo)和提高訓(xùn)練效率,同時(shí)由于子集上的最優(yōu)分類(lèi)面簡(jiǎn)單,從而能提高檢測(cè)效率。例如,若將大規(guī)模訓(xùn)練數(shù)據(jù)集分成k個(gè)子集,然后對(duì)每一個(gè)子集進(jìn)行支持向量機(jī)(SVM)訓(xùn)練。由于訓(xùn)練時(shí)每個(gè)子集的訓(xùn)練樣本個(gè)數(shù)減少到n/k,因此單個(gè)子集上的SVM模型訓(xùn)練時(shí)間復(fù)雜度僅為0(n2/k2)至0(n3/k3)之間。因此,所有k個(gè)子集的SVM模型的訓(xùn)練時(shí)間復(fù)雜度0(n2/k)至0(n3/k2)之間。相對(duì)于單個(gè)SVM模型訓(xùn)練方法,訓(xùn)練效率提高了 k至k2倍。同時(shí)由于單個(gè)子集上訓(xùn)練樣本個(gè)數(shù)的減少,因此單個(gè)子集上SVM模型的支持向量個(gè)數(shù)也會(huì)減少,從而提高了檢測(cè)速度。
雖然集成學(xué)習(xí)方法各異,但它們的主要區(qū)別在于訓(xùn)練時(shí)子集劃分策略的不同和檢測(cè)時(shí)融合方法的不同。最早的集成學(xué)習(xí)方法有隨機(jī)劃分子集的Bagging方法、Boosting 和Adaboost方法。不同子分類(lèi)器結(jié)果間的融合主要采用平均融合方法,即將檢測(cè)樣本在所有子分類(lèi)器上的得分值的平均值作為綜合得分值。由于平均融合方法需要全部的子模型參與樣本的檢測(cè),因而很難進(jìn)一步提高檢測(cè)速度。在2009年10月9日提交的,申請(qǐng)?zhí)枮?00910092710. 0的專(zhuān)利申請(qǐng)“一種數(shù)字圖像訓(xùn)練和檢測(cè)方法”記載了如下的數(shù)字圖像訓(xùn)練和檢測(cè)方法,首先對(duì)訓(xùn)練樣本集進(jìn)行聚類(lèi)分析,將樣本集分為多個(gè)子集,對(duì)每個(gè)子集訓(xùn)練 SVM子模型,檢測(cè)時(shí)根據(jù)檢測(cè)樣本在每個(gè)子集上的權(quán)重系數(shù)(樣本屬于子集的程度系數(shù))對(duì)多個(gè)SVM子模型上的檢測(cè)結(jié)果進(jìn)行融合從而確定檢測(cè)樣本的檢測(cè)結(jié)果。但這種權(quán)重系數(shù)無(wú)法保證其稀疏性,因此訓(xùn)練和融合的效率有待于進(jìn)一步提高,其中稀疏表征非零系數(shù)個(gè)數(shù)較少。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于集成學(xué)習(xí)的模式訓(xùn)練和識(shí)別方法,以提高模式訓(xùn)練和識(shí)別的速度和模式識(shí)別準(zhǔn)確度。
根據(jù)本發(fā)明一個(gè)方面,提供了一種基于集成學(xué)習(xí)的模式訓(xùn)練方法,包括
1)對(duì)訓(xùn)練樣本進(jìn)行詞典學(xué)習(xí),生成冗余詞典;
2)利用所述冗余詞典對(duì)所述訓(xùn)練樣本進(jìn)行稀疏編碼,獲得每個(gè)訓(xùn)練樣本的稀疏編碼系數(shù);
3)根據(jù)所述稀疏編碼系數(shù)對(duì)所有訓(xùn)練樣本進(jìn)行稀疏子空間劃分;
4)對(duì)于每個(gè)稀疏子空間內(nèi)的訓(xùn)練樣本進(jìn)行子模型訓(xùn)練,獲得用于分類(lèi)的子模型。
根據(jù)本發(fā)明另一方面,還提供了一種根據(jù)上述模式訓(xùn)練方法的模式識(shí)別方法,包括
1)利用所述冗余詞典對(duì)檢測(cè)樣本進(jìn)行稀疏編碼,獲得檢測(cè)樣本的稀疏編碼系數(shù);
2)根據(jù)所述稀疏編碼系數(shù)選擇所述子模型,利用所選子模型識(shí)別檢測(cè)樣本;
3)融合所選子模型的識(shí)別結(jié)果來(lái)進(jìn)行所述檢測(cè)樣本的識(shí)別。
與現(xiàn)有方法相比,本發(fā)明的效果在于可以取得更高的識(shí)別性能,同時(shí)能顯著提高訓(xùn)練效率和檢測(cè)效率。


圖1是根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的模式訓(xùn)練和檢測(cè)流程圖2是根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的基于Sparse NMF的稀疏子空間圖像劃分示意圖3是根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的稀疏子空間劃分與現(xiàn)有技術(shù)的AP對(duì)比示意圖4. 1. a-圖4. 4. b是根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的在TRECVID 2008訓(xùn)練數(shù)據(jù)集上稀疏子空間劃分效果示意圖5是根據(jù)本發(fā)明另一個(gè)優(yōu)選實(shí)施例的稀疏編碼融合與現(xiàn)有技術(shù)的AP對(duì)比示意圖6是根據(jù)本發(fā)明另一個(gè)優(yōu)選實(shí)施例的數(shù)字圖像檢測(cè)實(shí)驗(yàn)與現(xiàn)有技術(shù)的AP對(duì)比示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)根據(jù)本發(fā)明一個(gè)實(shí)施例的基于集成學(xué)習(xí)的模式訓(xùn)練和識(shí)別方法進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明充分利用了稀疏編碼的靈活性和稀疏特性來(lái)進(jìn)行模式訓(xùn)練和識(shí)別,下面對(duì)稀疏編碼進(jìn)行簡(jiǎn)單說(shuō)明。
基于冗余詞典的信號(hào)稀疏編碼(Sparse Coding)或稀疏表示(Sparse Representations)是一種新的信號(hào)表示理論,采用超完備的冗余函數(shù)系統(tǒng)(冗余詞典)代替?zhèn)鹘y(tǒng)的正交基函數(shù),例如與數(shù)據(jù)無(wú)關(guān)的固定正交小波基等,力圖采用盡可能少的非零系數(shù)和冗余詞典的基向量(稀疏基)的線性組合來(lái)表示信號(hào)的主要信息,從而簡(jiǎn)化信號(hào)處理問(wèn)題的求解過(guò)程。與傳統(tǒng)的固定正交基表示相比,稀疏表示為信號(hào)自適應(yīng)地稀疏擴(kuò)展提供了極大的靈活性。這種稀疏擴(kuò)展既可以實(shí)現(xiàn)數(shù)據(jù)壓縮的高效性,更重要的是可以利用詞典的冗余特性捕捉原始信號(hào)的自然特征。因此,近幾年來(lái),稀疏表示在圖像視頻去噪、圖像分類(lèi)、人臉識(shí)別、以及其它計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域開(kāi)始得到應(yīng)用,成為研究熱點(diǎn)。
下面以圖像檢測(cè)為例,結(jié)合圖1詳細(xì)說(shuō)明本發(fā)明的基于集成學(xué)習(xí)的模式訓(xùn)練和識(shí)別方法的具體實(shí)現(xiàn)過(guò)程。
如圖1所示,訓(xùn)練過(guò)程主要包括詞典學(xué)習(xí)、稀疏編碼、稀疏子空間劃分以及子模型訓(xùn)練的步驟。
(1)詞典學(xué)習(xí)對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)集進(jìn)行詞典學(xué)習(xí),生成和訓(xùn)練數(shù)據(jù)相關(guān)的冗余詞典,也即基矩陣。本發(fā)明的優(yōu)選實(shí)施例中冗余詞典學(xué)習(xí)采用稀疏非負(fù)矩陣分解(Sparse Non-negative Matrix Factorization, Sparse NMF)方法。
失巨陣分角軍(Non-negative Matrix Factorization,NMF)因只使用疊加而不用減法操作,相比于基于全局表示的主成分分析(Principal Component Analysis PCA)和矢量量化(Vector Quantization VQ),有更強(qiáng)的局部表達(dá)能力。相關(guān)研究結(jié)論表明在NMF中, 對(duì)基矩陣或系數(shù)矩陣進(jìn)行稀疏性約束,可以形成更具有局部表達(dá)能力的子空間。為此,本發(fā)明對(duì)非負(fù)矩陣分解進(jìn)行稀疏性約束,即采用稀疏非負(fù)矩陣分解,形成更具有局部表達(dá)能力的稀疏子空間,并用以對(duì)訓(xùn)練集進(jìn)行劃分,從而提高檢測(cè)精度。
設(shè)Χ ;···;4;]表示由N幅圖像數(shù)據(jù)組成的數(shù)據(jù)矩陣,其中Xi是由第i幅圖像的特征為元素的列向量。本領(lǐng)域普通技術(shù)人員可以理解,由于圖像數(shù)據(jù)的維數(shù)很高,所以不直接采用圖像數(shù)據(jù),而優(yōu)選對(duì)圖像提取特征后,采用圖像的特征組成數(shù)據(jù)矩陣。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,采用基于SIFT的視覺(jué)關(guān)鍵詞特征,共500維,該特征來(lái)源于Columbia University在互聯(lián)網(wǎng)上公布的視覺(jué)關(guān)鍵詞特征。
與X類(lèi)似,設(shè)Ρ =表示由幅基圖像組成的基矩陣,其中例如k = 800, 則該基矩陣D即為冗余詞典;α = [Q1 α 2··· α ,]為稀疏系數(shù)矩陣,則訓(xùn)練樣本圖像的NMF 分解可以表示為
X^ α D, s. t. D > 0, α > 0(1)
則D和α的求解可轉(zhuǎn)化為重構(gòu)誤差最小化的優(yōu)化問(wèn)題
權(quán)利要求
1.一種基于集成學(xué)習(xí)的模式訓(xùn)練方法,包括1)對(duì)訓(xùn)練樣本進(jìn)行詞典學(xué)習(xí),生成冗余詞典;2)利用所述冗余詞典對(duì)所述訓(xùn)練樣本進(jìn)行稀疏編碼,獲得每個(gè)訓(xùn)練樣本的稀疏編碼系數(shù);3)根據(jù)所述稀疏編碼系數(shù)對(duì)所有訓(xùn)練樣本進(jìn)行稀疏子空間劃分;4)對(duì)于每個(gè)稀疏子空間內(nèi)的訓(xùn)練樣本進(jìn)行子模型訓(xùn)練,獲得用于分類(lèi)的子模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1)前還包括步驟提取所述訓(xùn)練樣本的特征;所述步驟1)至4)的操作均根據(jù)所述訓(xùn)練樣本的特征來(lái)進(jìn)行。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1)所述詞典學(xué)習(xí)是采用稀疏非負(fù)矩陣分解、在線學(xué)習(xí)方法或離線學(xué)習(xí)方法來(lái)進(jìn)行。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,所述步驟2、還包括設(shè)置非零元素個(gè)數(shù)的閾值,將所述稀疏編碼系數(shù)中最小的元素置0,直到非零元素的個(gè)數(shù)等于所述閾值。
5.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,所述步驟2、采用軟閾值方法或LARS-Lasso方法。
6.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,所述步驟4)所述子模型訓(xùn)練采用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)或決策樹(shù)進(jìn)行訓(xùn)練。
7.一種利用權(quán)利要求1至6任一項(xiàng)所述子模型的模式識(shí)別方法。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,其中包括1)利用所述冗余詞典對(duì)檢測(cè)樣本進(jìn)行稀疏編碼,獲得檢測(cè)樣本的稀疏編碼系數(shù);2)根據(jù)所述稀疏編碼系數(shù)選擇所述子模型,利用所選子模型識(shí)別檢測(cè)樣本;3)融合所選子模型的識(shí)別結(jié)果來(lái)進(jìn)行所述檢測(cè)樣本的識(shí)別。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述步驟幻中所述選擇所述子模型為選擇所述稀疏編碼系數(shù)中非零元素對(duì)應(yīng)的子模型。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述步驟幻中所述選擇所述子模型進(jìn)一步包括對(duì)所述稀疏編碼系數(shù)中的元素根據(jù)大小進(jìn)行排序; 僅選擇排序后前面一個(gè)或多個(gè)元素對(duì)應(yīng)的子模型。
全文摘要
本發(fā)明提供一種基于集成學(xué)習(xí)的模式訓(xùn)練和識(shí)別方法,該模式訓(xùn)練方法包括1)對(duì)訓(xùn)練樣本進(jìn)行詞典學(xué)習(xí),生成冗余詞典;2)利用所述冗余詞典對(duì)所述訓(xùn)練樣本進(jìn)行稀疏編碼,獲得每個(gè)訓(xùn)練樣本的稀疏編碼系數(shù);3)根據(jù)所述稀疏編碼系數(shù)對(duì)所有訓(xùn)練樣本進(jìn)行稀疏子空間劃分;4)對(duì)于每個(gè)稀疏子空間內(nèi)的訓(xùn)練樣本進(jìn)行子模型訓(xùn)練,獲得用于分類(lèi)的子模型。本發(fā)明的上述模式訓(xùn)練和識(shí)別方法可以取得更高的識(shí)別性能,同時(shí)能顯著提高訓(xùn)練效率和檢測(cè)效率。
文檔編號(hào)G06K9/62GK102521599SQ20111030336
公開(kāi)日2012年6月27日 申請(qǐng)日期2011年9月30日 優(yōu)先權(quán)日2011年9月30日
發(fā)明者唐勝, 張勇東, 李錦濤, 韓淇 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿拉善右旗| 伊宁县| 仁布县| 景德镇市| 夏邑县| 嵊州市| 辰溪县| 武清区| 札达县| 治县。| 化州市| 金塔县| 保定市| 千阳县| 遂川县| 勃利县| 阿克陶县| 灌阳县| 琼结县| 宜兴市| 仪征市| 永仁县| 灌阳县| 观塘区| 冀州市| 天台县| 启东市| 公主岭市| 凤台县| 冀州市| 明水县| 甘谷县| 恩平市| 晋中市| 闻喜县| 仙居县| 通州市| 铁岭市| 红桥区| 蚌埠市| 阿勒泰市|