專利名稱:一種高光譜特征變量選取的方法
一種高光譜特征變量選取的方法技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及高維數(shù)據(jù)的降維,用于高光譜遙感圖像的分類,尤其涉及一種高光譜特征變量選取的方法。
背景技術(shù):
高光譜遙感技術(shù)是20實(shí)際80年代遙感領(lǐng)域的最重要發(fā)展之一,也是當(dāng)前該領(lǐng)域的前沿技術(shù)。高光譜遙感技術(shù)利用成像光譜掃描儀,以納米級(jí)的光譜分辨率對(duì)被觀測物體同時(shí)產(chǎn)生數(shù)百個(gè)波段的影像。能夠記錄被測物的連續(xù)光譜信息,并具有“圖譜合一”的的特性,使得人類在遙感領(lǐng)域又向前邁進(jìn)了一大步。近紅外高光譜是高光譜技術(shù)的一種,目前被廣泛應(yīng)用于食品、醫(yī)藥、石油化工等行業(yè),如用于蘋果,茶葉、酸奶、石油的品質(zhì)檢測等。近紅外光譜的工作原理主要是倍頻和合頻的吸收,其光譜特征與有機(jī)物類型的含量高度相關(guān)。 由于高光譜數(shù)據(jù)包含了空間、輻射和光譜三重信息,因此更適合用于被測物的分類。然而成熟的建立并應(yīng)用數(shù)據(jù)分析模型仍然存在巨大的挑戰(zhàn)和困難(I)數(shù)據(jù)量大,高光譜數(shù)據(jù)維度很高,維度之間存在很高的冗余,并且給存儲(chǔ),傳輸和制備檢測一起帶來了難題;(2)高光譜數(shù)據(jù)各個(gè)波段(維度)的相關(guān)性很高,當(dāng)維度數(shù)小于樣本數(shù),容易導(dǎo)致所建模型過擬合, 并引起分類精度降低。因此必須通過某種手段能夠從復(fù)雜的光譜信息種提取有用信息、剔除無關(guān)信息,提高模型建立的精度和速度。根據(jù)不同的評(píng)價(jià)策略,高光譜特征選擇方法主要分為兩種類型1)過濾器(Filter)方法,其特點(diǎn)是選取方法與分類回歸方法無關(guān),優(yōu)點(diǎn)在于可以同時(shí)處理大量速度,處理速度快,缺點(diǎn)是對(duì)非線性模型分類精度低。常用的方法有 SPA方法,UVE方法等。SPA是在向量空間中采用簡單的投影操作,采用向前選擇的策略獲取最小線性的變量子空間。變量選擇的原則為選取的新變量在當(dāng)前變量的正交子空間平面有最大的投影。由于只考慮到樣本數(shù)據(jù)之間的相關(guān)性,而忽略類標(biāo)簽與樣本之間的關(guān)聯(lián)屬性, 對(duì)分類回歸結(jié)果產(chǎn)生了一定的影響;UVE是一種通過添加噪聲去除無關(guān)變量的特征變量選方法。它通過添加與變量有某種相關(guān)性的同等數(shù)量噪聲,根據(jù)預(yù)定義的閾值,對(duì)范圍外的無關(guān)變量進(jìn)行剔除,從而實(shí)現(xiàn)對(duì)特征變量的選取。然而閾值選取的隨機(jī)性和噪聲選取的不合理性對(duì)結(jié)果都造成了較大的影響。2)內(nèi)嵌式(Nested)方法,其特點(diǎn)是選取方法與分類回歸方法相關(guān),優(yōu)點(diǎn)在于可以有效地提高分類精度,降低特征變量個(gè)數(shù)。缺點(diǎn)是計(jì)算量大,運(yùn)行時(shí)間久,與選取的回歸分類器易產(chǎn)生緊耦合。支持向量機(jī)-特征遞歸向量消除(SVM-RFE)、 以及本文提出的MFFS-SVM都屬于內(nèi)嵌式方法;SVM-RFE的提出最初用來解決二值生物基因的特征選取方法核心原理是根據(jù)支持向量機(jī)的權(quán)重向量排序?qū)o關(guān)變量進(jìn)行循環(huán)遞歸消隱,雖然在二值分類表現(xiàn)優(yōu)異,然而對(duì)于多類問題卻沒有很好地解決方法。該方法由于采取了后序特征選擇策略,在高維的高光譜特征變量選取方面,需要大量的運(yùn)行時(shí)間。發(fā)明內(nèi)容
針對(duì)上述技術(shù)缺陷,本發(fā)明提出一種高光譜特征變量選取的方法。
為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下
一種高光譜特征變量選取的方法,包括如下步驟
11)初始化變量子集R= □,使其為空集;輸入的特征樣本集X= [X1, ...,XJ ;以及 X的當(dāng)前長度I ;
12)將訓(xùn)練數(shù)據(jù),剔除R集合中特征后,搜索最優(yōu)SVM參數(shù)T和σ2 ;
13)對(duì)訓(xùn)練數(shù)據(jù)建模,獲得SVM模型M ;
14)根據(jù)公式(a)計(jì)算X中所有的特征變量;
Sj = I I ω I1-1 I ω I(a)
其中||ω 11l表示去除第j個(gè)特征變量的權(quán)重向量的范數(shù);所述 ω = [ω1; ω2...,ωΝ]τ為相關(guān)系數(shù)向量,所述采用公式(b)進(jìn)行計(jì)算
所述k表示,有k類問題,k > 2;所述 #}表示第i個(gè)類中,第j個(gè)特征的權(quán)重;
15)選擇最大的Sj對(duì)應(yīng)的變量,即e=arg maXjSj;
16)更新R=[e, R], X=X_[e]。
進(jìn)一步的,包括如下步驟當(dāng)遇到多類別分類問題時(shí),在步驟12)中采用一個(gè)二類分類回歸器對(duì)樣本進(jìn)行分類,最終采取投票策略確定樣本所屬分類,采用公式(b)和公式
權(quán)利要求
1.一種高光譜特征變量選取的方法,其特征在于,包括如下步驟 11)初始化變量子集R=□,使其為空集;輸入的特征樣本集X=K1,...,XJ ;以及X的當(dāng)前長度I ; 12)將訓(xùn)練數(shù)據(jù),剔除R集合中特征后,搜索最優(yōu)SVM參數(shù)T和O2; 13)對(duì)訓(xùn)練數(shù)據(jù)建模,獲得SVM模型M; 14)根據(jù)公式(a)計(jì)算X中所有的特征變量; Sj = I I I -1 I I I(a) 其中I I I I表示去除第j個(gè)特征變量的權(quán)重向量的范數(shù);所述《 = [%,W2- , N]T為相關(guān)系數(shù)向量,所述采用公式(b)進(jìn)行計(jì)算
2.根據(jù)權(quán)利要求I所述的一種高光譜特征變量選取的方法,其特征在于,包括如下步驟當(dāng)遇到多類別分類問題時(shí),在步驟14)中采用一個(gè)二類分類回歸器對(duì)樣本進(jìn)行分類,最終采取投票策略確定樣本所屬分類,采用公式(b )和公式(c ):
全文摘要
本發(fā)明一種高光譜特征變量選取的方法,提出一種內(nèi)嵌式、基于SVM最大間隔原理的、向前序列選取方法——特征向前選擇支持向量機(jī)(SVM-BFFS),并使用一對(duì)一策略,將其推廣到支持多類分類問題的SVM-MFFS,該方法通過發(fā)掘特征變量與穩(wěn)定度間的內(nèi)在關(guān)系,對(duì)特征穩(wěn)定度進(jìn)行排序,從而快速有效的選取紅外高光譜的特征變量。應(yīng)用這種方法能夠約減高光譜圖像的維度,從而減小后續(xù)計(jì)算的復(fù)雜度,并且保持所建模型的高準(zhǔn)確率。
文檔編號(hào)G06K9/62GK102982339SQ20121042773
公開日2013年3月20日 申請(qǐng)日期2012年10月31日 優(yōu)先權(quán)日2012年10月31日
發(fā)明者鄧水光, 李浬, 徐亦飛, 吳朝暉, 尹建偉, 吳健, 李瑩 申請(qǐng)人:浙江大學(xué)