專利名稱:基于虛擬樣本的kpca特征抽取方法及模式識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于KPCA特征抽取方法,尤其涉及一種基于虛擬樣本的KPCA特 征抽取方法,可用于模式識別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、工業(yè)自動(dòng)化與圖像處理等技術(shù)領(lǐng)域。
背景技術(shù):
特征抽取式對某一模式的組測量值進(jìn)行變換,以突出該模式具有代表性特征的一 種方法。廣泛應(yīng)用于模式識別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、工業(yè)自動(dòng)化與圖像處理等技術(shù)領(lǐng)域, 例如,在計(jì)算機(jī)視覺和圖像處理中,它指的是使用計(jì)算機(jī)抽取圖像信息,決定每個(gè)圖像的 點(diǎn)是否屬于一個(gè)圖像特征。特征抽取的結(jié)果是把圖像上的點(diǎn)分為不同的子集,這些子集往 往屬于孤立的點(diǎn)、連續(xù)的曲線或者連續(xù)的區(qū)域。主成分分析(Principal-Component Analysis, PCA)是最小均方誤差意義上的最 優(yōu)維數(shù)壓縮技術(shù),這種方法基于數(shù)據(jù)的二階統(tǒng)計(jì)信息(即基于相應(yīng)協(xié)方差矩陣)進(jìn)行分析, 抽取不相關(guān)的各個(gè)特征分量。應(yīng)用中,PCA方法可通過求解特征方程實(shí)現(xiàn),并選擇對應(yīng)較大 特征值的特征向量作為變換軸。PCA作為一種常用的特征抽取方法,屬于線性算法,不能抽 取出數(shù)據(jù)中非線性的結(jié)構(gòu),因此在實(shí)際應(yīng)用中存在較多限制。核方法可以將非線性不可分 離數(shù)據(jù)變轉(zhuǎn)換為線性可分離數(shù)據(jù),因而被引入主成分分析,用來解決一些較為復(fù)雜的特征 抽取問題。目前,核主成分分析(Kernel Principal-Component Analysis,KPCA)已廣泛應(yīng) 用于模式識別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、工業(yè)自動(dòng)化與圖像處理等領(lǐng)域。KPCA的思想可以描 述為借助“核技巧”隱式地將輸入空間映射到一非線性的特征空間,在該特征空間中進(jìn)行 線性主分量分析。由于映射的非線性,特征空間中的線性主分量對應(yīng)輸入空間中的非線性 矢量,因此KPCA是一種非線性主分量分析方法。然而KPCA特征抽取方法在應(yīng)用中還存在 著一些瓶頸問題,如核方法特征抽取效率會隨著訓(xùn)練集的增大而降低。然而,在實(shí)際應(yīng)用中 通常需要較大的訓(xùn)練集來保證識別率,所以核方法在計(jì)算上效率不高甚至是不實(shí)用的。
為了提高KPCA特征抽取方法的效率,研究者提出了若干改進(jìn)算法,如Y. Xu 等(參見文獻(xiàn)[Y. Xu, J. -Y. Yang, J. Lu, D. -J. Yu. An efficient renovation on kernel Fisher discriminant analysis and face recognition experiments, Pattern Recognition, 2004,37(10) : 2091—2094· ]; [Y. Xu, D. Zhang, Z. Jin, M. Li, J. -Y. Yang. A fast kernel-based nonlinear discriminant analysis for multi-class classification, Pattern Recognition, 2006,39(6): 1026-1033. ] ; [Y. Xu, J. -Y. Yang, J. Yang. A reformative kernel Fisher discriminant analysis, Pattern Recognition, 2004,37(6): 1299-1302. ] ; [Y. Xu, D. Zhang, F. Song, Jing-Yu Yang, Zhong Jing, Miao Li. A method for speeding up feature extraction based on KPCA, Neurocomputing, 2007, 70(4-6): 1056-1061.])對 KFDA、KPCA 以及 KMSE 核方法進(jìn)行特征 抽取的效率提升。作者根據(jù)不同核方法的本質(zhì)設(shè)定不同的目標(biāo)函數(shù),然后依據(jù)該目標(biāo)函數(shù) 對候選樣本進(jìn)行最優(yōu)值的計(jì)算;并根據(jù)結(jié)果對候選樣本進(jìn)行篩選,從中選取顯著節(jié)點(diǎn);最 后根據(jù)顯著節(jié)點(diǎn)進(jìn)行核函數(shù)特征抽取的重新計(jì)算。例如在KFDA方法中,應(yīng)用最大Fisher值來選取顯著節(jié)點(diǎn)。Μ. Ε. Tipping也是利用PCA方法的本質(zhì)提出一種稀疏KPCA方法(sparse PCA)(參見文獻(xiàn)[Μ. E. Tipping. Sparse kernel principal component analysis. NIPS 2000: Neural Information Processing Systems, MIT Press, 2000,633-639.])。可以 看出,以上這些改進(jìn)方法在訓(xùn)練階段計(jì)算量很大,相對于特征抽取時(shí)的高效相比,計(jì)算效率 很低。這種性質(zhì)也會降低這些改進(jìn)方法的實(shí)際應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于解決現(xiàn)有KPCA特征抽取方法及其改進(jìn)方法所存在 的訓(xùn)練時(shí)間長、效率較低的缺點(diǎn),提供一種算法簡單、效率高的基于虛擬樣本的KPCA特征 抽取方法。本發(fā)明采用以下技術(shù)方案解決上述技術(shù)問題
一種基于虛擬樣本的KPCA特征抽取方法,其特征在于,所述KPCA特征抽取是在一個(gè)在 輸入的基準(zhǔn)數(shù)據(jù)集樣本基礎(chǔ)上構(gòu)建的虛擬樣本空間中進(jìn)行,該虛擬樣本空間包含#個(gè)維數(shù) 相同的隨機(jī)虛擬樣本矢量,#為輸入的基準(zhǔn)數(shù)據(jù)集中的訓(xùn)練樣本數(shù)。進(jìn)一步的,所述#個(gè)維數(shù)相同的隨機(jī)虛擬樣本矢量采用梯度下降的迭代方法進(jìn)行 尋優(yōu)選取得到;具體按照以下步驟進(jìn)行
步驟1、設(shè)置#個(gè)維數(shù)相同的隨機(jī)虛擬樣本矢量初值,其元素為0到1之間的數(shù),#為輸 入的基準(zhǔn)數(shù)據(jù)集中的訓(xùn)練樣本數(shù);
步驟2、使用梯度下降法迭代求出第1個(gè)虛擬樣本特征矢量,迭代條件是該虛擬樣本矢 量與已有數(shù)據(jù)集特征空間的距離最小,具體按照以下公式,
權(quán)利要求
1.一種基于虛擬樣本的KPCA特征抽取方法,其特征在于,所述KPCA特征抽取是在一個(gè) 在輸入的基準(zhǔn)數(shù)據(jù)集樣本基礎(chǔ)上構(gòu)建的虛擬樣本空間中進(jìn)行,該虛擬樣本空間包含#個(gè)維 數(shù)相同的隨機(jī)虛擬樣本矢量,#為輸入的基準(zhǔn)數(shù)據(jù)集中的訓(xùn)練樣本數(shù)。
2.如權(quán)利要求1所述基于虛擬樣本的KPCA特征抽取方法,其特征在于,所述#個(gè)維數(shù) 相同的隨機(jī)虛擬樣本矢量采用梯度下降的迭代方法進(jìn)行尋優(yōu)選取得到;具體按照以下步驟 進(jìn)行步驟1、設(shè)置#個(gè)維數(shù)相同的隨機(jī)虛擬樣本矢量初值,其元素為0到1之間的數(shù),#為輸 入的基準(zhǔn)數(shù)據(jù)集中的訓(xùn)練樣本數(shù);步驟2、使用梯度下降法迭代求出第1個(gè)虛擬樣本特征矢量,迭代條件是該虛擬樣本矢 量與已有數(shù)據(jù)集特征空間的距離最小,具體按照以下公式,其中,X10表示第一個(gè)虛擬樣本矢量,Λ為學(xué)習(xí)比率,df表示4與已有數(shù)據(jù)集特征空間的距離,丨代表核函數(shù),JV為輸入的訓(xùn)練樣本數(shù),O 為輸入的樣本特征矢量;步驟3、使用梯度下降法迭代求出第r個(gè)(r = 23,…,Μ-1,Ι)虛擬樣本特征矢量,迭代 條件是該虛擬樣本矢量與r-Ι個(gè)虛擬樣本矢量的內(nèi)積最小,具體按照以下公式,其中,χ 表示第f個(gè)虛擬樣本特殊矢量,/ 為學(xué)習(xí)比率,fe代表核函數(shù)。
3.如權(quán)利要求2所述基于虛擬樣本的KPCA特征抽取方法,其特征在于,所述學(xué)習(xí)比率 A和μ.2的取值分別為0. 001和0. 003。
4.如權(quán)利要求2所述的基于虛擬樣本的KPCA特征抽取方法,其特征在于,所述核函數(shù) 為高斯核函數(shù)。
5.一種模式識別方法,該方法首先對輸入的基準(zhǔn)數(shù)據(jù)集進(jìn)行特征抽取,然后根據(jù)提取 的特征利用分類器進(jìn)行模式識別,其特征在于,所述特征抽取采用權(quán)利要求1-4中任一項(xiàng) 所述的基于虛擬樣本的KPCA特征抽取方法。
全文摘要
本發(fā)明公開了一種基于虛擬樣本的KPCA特征抽取方法,可用于模式識別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、工業(yè)自動(dòng)化與圖像處理等技術(shù)領(lǐng)域。本發(fā)明方法在現(xiàn)有KPCA特征抽取方法基礎(chǔ)上,運(yùn)用梯度下降的迭代算法,結(jié)合一定的約束條件,構(gòu)造虛擬樣本矢量集替代原始訓(xùn)練集。本發(fā)明方法確定的虛擬樣本矢量空間能夠很好的近似特征樣本空間,在相同的識別率情形下能夠有效降低KPCA特征抽取時(shí)間,改進(jìn)其效率。同時(shí)該方法和同類KPCA改進(jìn)方法相比,具有算法簡單、效率高的優(yōu)點(diǎn)。本發(fā)明還公開了一種采用上述方法進(jìn)行特征抽取的模式識別方法。
文檔編號G06N7/00GK102096843SQ20111002669
公開日2011年6月15日 申請日期2011年1月25日 優(yōu)先權(quán)日2011年1月25日
發(fā)明者侯榮濤, 趙英男 申請人:南京信息工程大學(xué)