專利名稱:基于有監(jiān)督顯式流形學(xué)習(xí)算法的電子鼻數(shù)據(jù)挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子鼻氣體檢測(cè)領(lǐng)域,具體涉及一種基于有監(jiān)督顯式流形學(xué)習(xí)算法的電子鼻數(shù)據(jù)挖掘方法。
背景技術(shù):
現(xiàn)代電子鼻系統(tǒng)的氣體傳感器陣列通常包含數(shù)十個(gè)氣味傳感器,其中光學(xué)型傳感器陣列甚至包含成百上千個(gè)傳感單元,由此陣列獲得的氣體樣本數(shù)據(jù)的維數(shù)相當(dāng)龐大,直接將該樣本數(shù)據(jù)輸入到人工智能算法進(jìn)行模式判別的效果非常不理想,這主要是因?yàn)殡娮颖堑膫鞲衅麝嚵芯哂薪徊婷舾行缘奶攸c(diǎn),即對(duì)同一種氣體,傳感器陣列中的多個(gè)單元都會(huì)做出響應(yīng),這樣在降低因個(gè)別傳感器工作異常影響系統(tǒng)決策風(fēng)險(xiǎn)的同時(shí)也增加了數(shù)據(jù)的冗余度。
電子鼻數(shù)據(jù)挖掘處理包括特征提取和降維,其中特征提取是對(duì)單個(gè)傳感器獲得的數(shù)據(jù)進(jìn)行處理,提取能夠表征所采集的氣體信號(hào)的特征量,構(gòu)成特征值矩陣。目前特征提取方法發(fā)展的比較成熟,現(xiàn)有方法完全能滿足電子鼻數(shù)據(jù)特征提取的要求;降維主要是對(duì)特征值矩陣進(jìn)行維數(shù)約減。因?yàn)殡娮颖菙?shù)據(jù)具有特殊性,因此許多傳統(tǒng)的降維算法在對(duì)維數(shù)進(jìn)行約減的同時(shí),常發(fā)生關(guān)鍵信息的丟失,導(dǎo)致電子鼻在具體應(yīng)用過(guò)程中發(fā)生誤判,無(wú)法滿足其應(yīng)用要求。電子鼻作為人工模擬嗅覺(jué)系統(tǒng),為了使系統(tǒng)能夠“深刻記憶”某氣體的特征,需要大量采集該氣體樣本,同時(shí)為了使系統(tǒng)能夠?qū)Χ喾N氣體進(jìn)行判別,需要采集多種氣體的樣本數(shù)據(jù)供電子鼻系統(tǒng)訓(xùn)練。由此導(dǎo)致用于電子鼻訓(xùn)練的樣本數(shù)據(jù)具有非線性、非均勻分布的特征,傳統(tǒng)的數(shù)據(jù)降維算法像主成分分析((Principal Component Analysis, PCA)屬于線性降維方法,對(duì)待降維數(shù)據(jù)整體使用統(tǒng)一的映射處理,導(dǎo)致許多局部結(jié)構(gòu)信息在降維過(guò)程中被丟棄,使得電子鼻因關(guān)鍵信息的丟失而做出錯(cuò)誤的決策。流形學(xué)習(xí)算法是一種著眼于局部結(jié)構(gòu)保持的數(shù)據(jù)降維方法,在進(jìn)行降維的同時(shí),將原數(shù)據(jù)的局部結(jié)構(gòu)信息傳遞給降維后的數(shù)據(jù),既降低了數(shù)據(jù)的冗余度又保留了關(guān)鍵信息,是一種理想的數(shù)據(jù)降維方法,但傳統(tǒng)的流形學(xué)習(xí)算法在對(duì)電子鼻數(shù)據(jù)進(jìn)行降維的過(guò)程中出現(xiàn)了兩個(gè)問(wèn)題I.因?yàn)榱餍螌W(xué)習(xí)算法著眼于局部結(jié)構(gòu)保持,因此無(wú)法給出顯式映射表達(dá)式,這導(dǎo)致其只能對(duì)電子鼻系統(tǒng)的訓(xùn)練用數(shù)據(jù)進(jìn)行降維,而無(wú)法對(duì)新采集數(shù)據(jù)進(jìn)行降維,導(dǎo)致采用流形學(xué)習(xí)算法的電子鼻系統(tǒng)無(wú)法應(yīng)用到氣體檢測(cè)的實(shí)踐環(huán)節(jié);2.傳統(tǒng)的流形學(xué)習(xí)算法是無(wú)監(jiān)督算法,對(duì)電子鼻系統(tǒng)的訓(xùn)練用數(shù)據(jù)的局部結(jié)構(gòu)進(jìn)行保持時(shí),沒(méi)有考慮類內(nèi)與類間特征值點(diǎn)之間關(guān)系的差異,這一細(xì)節(jié)信息的忽略直接導(dǎo)致電子鼻進(jìn)行模式判別時(shí)出現(xiàn)錯(cuò)誤。從目前的國(guó)內(nèi)文獻(xiàn)研究中,未曾看到有關(guān)使用有監(jiān)督顯式流形學(xué)習(xí)算法進(jìn)行電子鼻數(shù)據(jù)挖掘的報(bào)道。
發(fā)明內(nèi)容
本發(fā)明所要解決的第一個(gè)技術(shù)問(wèn)題就是提供一種基于顯式流形學(xué)習(xí)算法的電子鼻數(shù)據(jù)挖掘方法,它能夠在降維過(guò)程中保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)并給出顯式映射表達(dá)式,使得電子鼻系統(tǒng)能夠用于新采集數(shù)據(jù)的判別。本發(fā)明所要解決的第二個(gè)技術(shù)問(wèn)題就是提供一種基于有監(jiān)督顯式流形學(xué)習(xí)算法的電子鼻數(shù)據(jù)挖掘方法,它能夠在降維時(shí)考慮到類內(nèi)和類間特征值點(diǎn)的關(guān)系差異,提高電子鼻系統(tǒng)模式判別的正確率。為了解決本發(fā)明所提出的第一個(gè)技術(shù)問(wèn)題,本發(fā)明包括以下步驟步驟I、氣體樣本的采集
調(diào)整實(shí)驗(yàn)室溫、濕度環(huán)境,使得電子鼻系統(tǒng)的各傳感器能夠正常工作,對(duì)不同種類氣體中的每一個(gè)樣本,均進(jìn)行不少于20次的氣體采集實(shí)驗(yàn),獲得電子鼻訓(xùn)練用數(shù)據(jù);步驟2、氣體樣本的特征提取對(duì)獲得的電子鼻訓(xùn)練數(shù)據(jù)進(jìn)行特征提取,并構(gòu)成特征值矩陣X,矩陣X的維數(shù)是[mX η],其中m表示特征值點(diǎn)的總數(shù),在數(shù)值上等于氣體采樣實(shí)驗(yàn)的總次數(shù),η表示每一個(gè)特征值點(diǎn)的維數(shù),由傳感器陣列中傳感器個(gè)數(shù)和特征提取方法共同決定,常見的特征提取方法主要包括I、基于傳感器原始響應(yīng)曲線,該類方法主要對(duì)氣體傳感器的響應(yīng)曲線進(jìn)行特征提取,常用的特征包括最大值、斜率、響應(yīng)曲線的積分面積等;2、基于擬合曲線,該類方法首先使用適當(dāng)?shù)哪P蛿M合原始響應(yīng)曲線,然后再提取模型參數(shù)作為特征,常見的用于電子鼻數(shù)據(jù)擬合的模型有多項(xiàng)式模型、指數(shù)模型、分式函數(shù)豐吳型等;3、基于變換域的特征提取方法,首先對(duì)原始響應(yīng)進(jìn)行適當(dāng)?shù)淖儞Q,然后提取變換系數(shù)作為特征,常見的電子鼻數(shù)據(jù)變換域特征提取方法包括傅里葉變換、小波變換等;步驟3、確定特征值矩陣中各點(diǎn)的近鄰確定特征值矩陣中每個(gè)點(diǎn)的近鄰,常用的確定近鄰關(guān)系有兩種方法I、ε-bal法在以點(diǎn)Xi, i = 1,. . η為圓心,以ε為半徑的范圍內(nèi)的所有點(diǎn)都是Xi的近鄰;2、k-nearest法離點(diǎn)Xi最近的k個(gè)點(diǎn)是Xi的近鄰且k < η ;步驟4、計(jì)算任意兩特征值點(diǎn)的關(guān)系如果特征值矩陣X中點(diǎn)\是Xi的近鄰點(diǎn),那么兩者之間的關(guān)系Wu按照某一規(guī)則取一個(gè)不為零的正數(shù)且Xi與的關(guān)系越緊密Wu的值就越大;如果特征值點(diǎn)\不是Xi的近鄰點(diǎn),那么兩者之間的關(guān)系Wu = O ;步驟5、顯式流形學(xué)習(xí)算法的數(shù)據(jù)降維Yt=AXt其中,Yt是低維目標(biāo)矩陣Y的轉(zhuǎn)置形式,矩陣Y的維數(shù)是[mX I],m表示點(diǎn)的總數(shù),等于矩陣X中特征值點(diǎn)的總數(shù),I表示每一個(gè)點(diǎn)的維數(shù)且I < n,A是顯式映射系數(shù)矩陣,特征值矩陣中的點(diǎn)Xi和點(diǎn)\的近鄰關(guān)系通過(guò)Wu傳遞給目標(biāo)矩陣Y中的點(diǎn)yi和點(diǎn)yp常用的近鄰關(guān)系傳遞方法如下式所示
權(quán)利要求
1.基于顯式流形學(xué)習(xí)算法的電子鼻數(shù)據(jù)挖掘方法,其特征是,該方法包括以下步驟 步驟1、氣體樣本的采集 調(diào)整實(shí)驗(yàn)室溫、濕度環(huán)境,使得電子鼻系統(tǒng)的各傳感器能夠正常工作,對(duì)不同種類氣體中的每一個(gè)樣本,均進(jìn)行不少于20次的氣體采集實(shí)驗(yàn),獲得電子鼻訓(xùn)練用數(shù)據(jù); 步驟2、氣體樣本的特征提取 對(duì)獲得的電子鼻訓(xùn)練數(shù)據(jù)進(jìn)行特征提取,并構(gòu)成特征值矩陣X,矩陣X的維數(shù)是[mXn],其中m表示特征值點(diǎn)的總數(shù),在數(shù)值上等于氣體采樣實(shí)驗(yàn)的總次數(shù),η表示每一個(gè)特征值點(diǎn)的維數(shù),由傳感器陣列中傳感器個(gè)數(shù)和特征提取方法共同決定,常見的特征提取方法主要包括 1、基于傳感器原始響應(yīng)曲線,該類方法主要對(duì)氣體傳感器的響應(yīng)曲線進(jìn)行特征提取,常用的特征包括最大值、斜率、響應(yīng)曲線的積分面積等; 2、基于擬合曲線,該類方法首先使用適當(dāng)?shù)哪P蛿M合原始響應(yīng)曲線,然后再提取模型參數(shù)作為特征,常見的用于電子鼻數(shù)據(jù)擬合的模型有多項(xiàng)式模型、指數(shù)模型、分式函數(shù)模型等; 3、基于變換域的特征提取方法,首先對(duì)原始響應(yīng)進(jìn)行適當(dāng)?shù)淖儞Q,然后提取變換系數(shù)作為特征,常見的電子鼻數(shù)據(jù)變換域特征提取方法包括傅里葉變換、小波變換等; 步驟3、確定特征值矩陣中各點(diǎn)的近鄰 確定特征值矩陣中每個(gè)點(diǎn)的近鄰,常用的確定近鄰關(guān)系有兩種方法 1、ε-ball法在以點(diǎn)Xi,i = 1,. . η為圓心,以ε為半徑的范圍內(nèi)的所有點(diǎn)都是Xi的近鄰; 2、k-nearest法離點(diǎn)Xi最近的k個(gè)點(diǎn)是Xi的近鄰且k< n ; 步驟4、計(jì)算任意兩特征值點(diǎn)的關(guān)系 如果特征值矩陣X中點(diǎn)\是Xi的近鄰點(diǎn),那么兩者之間的關(guān)系《U按照某一規(guī)則取一個(gè)不為零的正數(shù)且Xi與\的關(guān)系越緊密Wu的值就越大;如果特征值點(diǎn)xj不是Xi的近鄰點(diǎn),那么兩者之間的關(guān)系wi;j = O ; 步驟5、顯式流形學(xué)習(xí)算法的數(shù)據(jù)降維Yt=AXt 其中,Yt是低維目標(biāo)矩陣Y的轉(zhuǎn)置形式,矩陣Y的維數(shù)是[mXl],m表示點(diǎn)的總數(shù),等于矩陣X中特征值點(diǎn)的總數(shù),I表示每一個(gè)點(diǎn)的維數(shù)且I < n,A是顯式映射系數(shù)矩陣,特征值矩陣中的點(diǎn)Xi和點(diǎn)\的近鄰關(guān)系通過(guò)Wu傳遞給目標(biāo)矩陣Y中的點(diǎn)yi和點(diǎn)yp常用的近鄰關(guān)系傳遞方法如下式所示 其中,Yi和點(diǎn)y3分別是目標(biāo)矩陣Y中元素且i幸j,若特征值矩陣X中點(diǎn)Xi和\是近鄰且兩者距離越近,其近鄰關(guān)系Wiij的值就會(huì)越大,此時(shí)上式要取最小值,則(yi-yj)2項(xiàng)的值就必須盡量的小,如此,將特征值矩陣中的點(diǎn)Xi和點(diǎn)\的近鄰關(guān)系傳遞給了目標(biāo)矩陣Y中的點(diǎn)Ii和點(diǎn)&,然后通過(guò)求解上式所描述的最優(yōu)化問(wèn)題得到顯式映射系數(shù)矩陣A,得到顯式映射表達(dá)式并完成降維。
2.基于有監(jiān)督顯式流形學(xué)習(xí)算法的電子鼻數(shù)據(jù)挖掘方法包括上述全部步驟,并在步驟2后增加一個(gè)步驟A 步驟A、考慮類別信息確定特征值矩陣中各點(diǎn)的近鄰 將近鄰關(guān)系的確定限定在特征值矩陣中的同類別點(diǎn)之間進(jìn)行,如果點(diǎn)\和\來(lái)源于同一類氣體,則進(jìn)入步驟3判斷&是否是Xi的近鄰點(diǎn);如果點(diǎn)Xi和\來(lái)源于不同氣體,則跳過(guò)近鄰關(guān)系判斷,直接令點(diǎn)Xi和Xj的關(guān)系wi;j = O。
全文摘要
本發(fā)明涉及一種有監(jiān)督顯式流形學(xué)習(xí)算法進(jìn)行電子鼻數(shù)據(jù)挖掘的方法。其中顯式流形學(xué)習(xí)算法對(duì)電子鼻數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的方法的步驟包括氣體樣本的采集、氣體樣本的特征提取、確定特征值矩陣中各點(diǎn)的近鄰、計(jì)算任意兩特征值點(diǎn)的關(guān)系和顯式流形算法的數(shù)據(jù)降維。有監(jiān)督的顯式流形學(xué)習(xí)算法對(duì)電子鼻數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘包括上述全部步驟并在氣體樣本的特征提取后增加一步考慮類別信息確定特征值矩陣中各點(diǎn)的近鄰。本發(fā)明的有益效果為利用顯式流形學(xué)習(xí)算法進(jìn)行電子鼻數(shù)據(jù)降維,給出了顯式降維表達(dá)式;利用有監(jiān)督流形學(xué)習(xí)算進(jìn)行電子鼻數(shù)據(jù)降維,考慮到了特征值矩陣中不同來(lái)源的各點(diǎn)之間的關(guān)系差異,這一細(xì)節(jié)信息的保留是電子鼻系統(tǒng)高判別率的保障。
文檔編號(hào)G06F17/30GK102890718SQ20121038258
公開日2013年1月23日 申請(qǐng)日期2012年10月10日 優(yōu)先權(quán)日2012年10月10日
發(fā)明者田逢春, 賈鵬飛, 樊澍, 馮敬偉, 劉濤, 劉穎, 趙貞貞 申請(qǐng)人:重慶大學(xué)