本發(fā)明涉及電子鼻數(shù)據(jù)處理,尤其是涉及一種基于韋恩預(yù)測(cè)的電子鼻數(shù)據(jù)挖掘方法。
背景技術(shù):
電子鼻是一種模擬生物嗅覺工作原理的新型仿生檢測(cè)儀器。它利用若干非特異性的氣敏傳感器組成的傳感器陣列對(duì)目標(biāo)氣體進(jìn)行精確的檢測(cè)和區(qū)分,具有快速識(shí)別、操作簡(jiǎn)便、客觀性強(qiáng)、可靠性高以及成本低廉等優(yōu)點(diǎn)。電子鼻已經(jīng)廣泛應(yīng)用于環(huán)境監(jiān)測(cè)、食品質(zhì)量評(píng)估、醫(yī)療診斷以及其他方面的研究。數(shù)據(jù)挖掘是電子鼻發(fā)展過程中的一個(gè)重要部分,傳統(tǒng)的數(shù)據(jù)挖掘?qū)⒏嘧⒁饬Ψ旁跀?shù)據(jù)的預(yù)處理、特征提取、特征優(yōu)化以及分類器的設(shè)計(jì)等方面。傳統(tǒng)的分類器如線性判別分析(LDA),支持向量機(jī)(SVM)等只給出預(yù)測(cè)結(jié)果,而對(duì)預(yù)測(cè)結(jié)果可信任程度并沒有給出更多的信息。舉例來說,在醫(yī)學(xué)診斷中,通常給出一個(gè)疾病確診的概率比只給出一個(gè)診斷結(jié)果要有用的多。有許多方法能都能給出預(yù)測(cè)結(jié)果的概率分布,但這些方法是建立在對(duì)樣本分布很強(qiáng)的假設(shè)上。因此,一旦假設(shè)的統(tǒng)計(jì)模型不正確,預(yù)測(cè)的結(jié)果也不會(huì)正確。中華人民共和國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局于2013年01月23日公開了名稱為“基于有監(jiān)督顯式流形學(xué)習(xí)算法的電子鼻數(shù)據(jù)挖掘方法”的專利文獻(xiàn)(公開號(hào):CN102890718A),其中顯式流形學(xué)習(xí)算法對(duì)電子鼻數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的方法的步驟包括:氣體樣本的采集、氣體樣本的特征提取、確定特征值矩陣中各點(diǎn)的近鄰、計(jì)算任意兩特征值點(diǎn)的關(guān)系和顯式流形算法的數(shù)據(jù)降維。有監(jiān)督的顯式流形學(xué)習(xí)算法對(duì)電子鼻數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘包括上述全部步驟并在氣體樣本的特征提取后增加一步:考慮類別信息確定特征值矩陣中各點(diǎn)的近鄰。此方案不能提供預(yù)測(cè)結(jié)果正確的概率區(qū)間,對(duì)后續(xù)決策來說缺少必要的信息。
技術(shù)實(shí)現(xiàn)要素:
近年來,svm模型得到了廣泛的研究和應(yīng)用,取得了較好的結(jié)果。韋恩預(yù)測(cè)算法一種多概率預(yù)測(cè)算法(multi-probabilisticpredictor)。它是一種算法框架,任何一種分類算法都可以應(yīng)用到韋恩預(yù)測(cè)算法中。韋恩預(yù)測(cè)算法不僅預(yù)測(cè)測(cè)試樣本的種類,同時(shí)給出該預(yù)測(cè)正確的概率區(qū)間,為后續(xù)的決策提供更多的信息。本發(fā)明主要是解決傳統(tǒng)分類算法只能夠預(yù)測(cè)測(cè)試樣本種類的技術(shù)問題,提供一種不僅預(yù)測(cè)測(cè)試樣本的種類,同時(shí)給出該預(yù)測(cè)正確的概率區(qū)間,從而為后續(xù)的決策提供更多信息的基于韋恩預(yù)測(cè)的電子鼻數(shù)據(jù)挖掘方法。本發(fā)明針對(duì)上述技術(shù)問題主要是通過下述技術(shù)方案得以解決的:一種基于韋恩預(yù)測(cè)的電子鼻數(shù)據(jù)挖掘方法,包括以下步驟:S01、獲取m個(gè)傳感器的n次實(shí)驗(yàn)數(shù)據(jù),得到原始樣本矩陣M,原始樣本矩陣表示為:其中,(i=1,2,…n,j=1,2…,m)是一個(gè)向量,表示第i次實(shí)驗(yàn)第j個(gè)傳感器隨采樣時(shí)間得到的采樣點(diǎn)數(shù)據(jù),采樣點(diǎn)數(shù)目為s;S02、提取原始樣本矩陣M中每次實(shí)驗(yàn)每個(gè)傳感器的s個(gè)采樣點(diǎn)中的最大響應(yīng)值,得到最大值特征矩陣X,最大值特征矩陣表示為:其中,是一個(gè)標(biāo)量,表示第i次實(shí)驗(yàn)第j個(gè)傳感器s個(gè)采樣點(diǎn)數(shù)據(jù)中的最大值;對(duì)n次實(shí)驗(yàn)的樣本種類進(jìn)行編號(hào)1,2…k,k代表原始樣本的種類數(shù),生成樣本的標(biāo)簽Y;得到樣本矩陣Z=[XY],zi={xi,yi},i={1,2,…,n};S03、將樣本矩陣Z分為訓(xùn)練集Str和測(cè)試集Ste,Str={z1,z2,…,zr-1};抽取測(cè)試集中某一樣本zt進(jìn)行預(yù)測(cè);S04、假設(shè)yt=y(tǒng),y∈{1,2,…k}。新的數(shù)據(jù)集Zt=[z1,z2,…,zr-1,zt];S05、對(duì)于Zt中的每一個(gè)樣本zj,j={1,2,…r-1,t},其他樣本構(gòu)成新的訓(xùn)練集進(jìn)行建模,然后對(duì)zj進(jìn)行預(yù)測(cè),得到它的預(yù)測(cè)種類bj;S06、預(yù)測(cè)類別為bt的樣本集合中包括zt=(xt,y);令py是這個(gè)集合中不同類別的經(jīng)驗(yàn)概率分布,py是Y上的概率分布;(x*,y*)是預(yù)測(cè)類別為bt的所有樣本的集合,y’的取值是1到k;S07、返回步驟S04,令y逐一等于1到k中的每一個(gè)值,重復(fù)步驟S05和S06,最終得到對(duì)于樣本zt的韋恩預(yù)測(cè)器Pt={py:yt∈Y};Pt是一個(gè)K*K的概率矩陣;定義Pt每一列的最小項(xiàng)為q,具有最大q值的列為jbest;zt的預(yù)測(cè)種類是jbest,預(yù)測(cè)正確的概率區(qū)間是S08、逐一對(duì)步驟S03中測(cè)試集的樣本進(jìn)行預(yù)測(cè),得到相應(yīng)的韋恩預(yù)測(cè)器P,預(yù)測(cè)種類jbest和預(yù)測(cè)正確的概率區(qū)間;最終求出模型的預(yù)測(cè)的準(zhǔn)確率以及所有預(yù)測(cè)樣本預(yù)測(cè)正確的概率區(qū)間的并集。作為優(yōu)選,建模和預(yù)測(cè)的過程如下:用新的訓(xùn)練集的數(shù)據(jù),選擇One-vs-One的方式進(jìn)行SVM建模得到模型;數(shù)據(jù)集中可能的種類{1,2,…k},有k(k-1)/2個(gè)二分類的svm模型;對(duì)于每一個(gè)可能的種類,有k-1個(gè)相關(guān)的二分類svm的決策函數(shù);對(duì)于新的訓(xùn)練集的每一個(gè)樣本x,計(jì)算融合的決策函數(shù)D(x),是在One-vs-One的SVM模型中,通過max-wins投票方式求得的預(yù)測(cè)種類;N(f)將f值歸一化至[01]區(qū)間;對(duì)D(x)運(yùn)用k平均聚類算法,找出k個(gè)中心點(diǎn);對(duì)樣本zj,求出它的融合決策函數(shù)值D(xj),找到離它最近的中心點(diǎn),求出它的預(yù)測(cè)種類bj。作為優(yōu)選,步驟S03中訓(xùn)練集和測(cè)試集是按照10-folds交叉檢驗(yàn)的方法進(jìn)行劃分,即對(duì)每種類別的樣本劃分為10份,每次取其中1份作為訓(xùn)練集,其他9份作為測(cè)試集,重復(fù)10次直到所有樣本都作為測(cè)試樣本1次。作為優(yōu)選,svm模型選擇的核函數(shù)是RBF,其中參數(shù)gamma和C通過網(wǎng)格法進(jìn)行優(yōu)化。作為優(yōu)選,傳感器的個(gè)數(shù)m取16,所屬實(shí)驗(yàn)次數(shù)n取175。作為優(yōu)選,是二分類svm分類器的決策方程,如果大于i,則取反。作為優(yōu)選,步驟S05中k平均聚類算法的距離計(jì)算為歐氏距離,最大迭代次數(shù)為100次,初始中心點(diǎn)為[1.5,2.5,…,k+0.5]。作為優(yōu)選,本發(fā)明帶來的實(shí)質(zhì)性效果是,采用韋恩預(yù)測(cè)算法框架,采用svm和k平均聚類作為分類器,對(duì)樣本進(jìn)行建模和測(cè)試,不僅對(duì)測(cè)試樣本的類別進(jìn)行預(yù)測(cè),同時(shí)給出每個(gè)預(yù)測(cè)正確的概率區(qū)間,為后續(xù)的決策提供更多信息。附圖說明圖1是本發(fā)明的一種流程圖。具體實(shí)施方式下面通過實(shí)施例,并結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步具體的說明。實(shí)施例:本實(shí)施例中所使用的電子鼻數(shù)據(jù)采集自5種人參樣本,分別是集安產(chǎn)中國(guó)紅參、撫松產(chǎn)中國(guó)紅參、集安產(chǎn)高麗參、集安產(chǎn)中國(guó)白參和撫松產(chǎn)中國(guó)白參。數(shù)據(jù)采集:分別將5種人參粉碎至顆粒直徑小于0.5mm的粉末。每次測(cè)試取樣本5g放入100ml玻璃瓶,將玻璃瓶放入50℃恒溫箱中30分鐘后,取頂部空氣5ml進(jìn)行測(cè)試。每種人參測(cè)試35次,共獲得175組數(shù)據(jù)。如圖1所示,本實(shí)施例采用以下技術(shù)方案對(duì)所采集的電子鼻信號(hào)進(jìn)行處理,步驟如下:步驟1:根據(jù)16個(gè)傳感器采集的175組數(shù)據(jù)得到原始樣本矩陣M表示為步驟2:提取原始樣本矩陣M中每次實(shí)驗(yàn)每個(gè)傳感器的s個(gè)采樣點(diǎn)中的最大響應(yīng)值,得到最大值特征矩陣X,表示為:其中,是一個(gè)標(biāo)量,表示第i次實(shí)驗(yàn)第j個(gè)傳感器s個(gè)采樣點(diǎn)數(shù)據(jù)中的最大值;對(duì)175次實(shí)驗(yàn)的樣本種類進(jìn)行編號(hào)1,2…k,k代表原始樣本的種類數(shù),k=5,生成樣本的標(biāo)簽Y。得到樣本矩陣Z=[XY],zi={xi,yi},i={1,2,…,n},n=175;步驟3:將樣本矩陣Z分為訓(xùn)練集Str和測(cè)試集Ste,Str={z1,z2,…,zr-1}。訓(xùn)練集和測(cè)試集是按照10-folds交叉檢驗(yàn)的方法進(jìn)行劃分,即對(duì)每種類別的樣本大致劃分為10份,由于每種樣本的樣本數(shù)可能不能被10整除。每次取其中1份作為訓(xùn)練集,其他9份作為測(cè)試集,重復(fù)10次直到所有樣本都作為測(cè)試樣本1次。抽取測(cè)試集中某一樣本zt進(jìn)行預(yù)測(cè)。步驟4:首先假設(shè)yt=1,新的數(shù)據(jù)集Zt=[z1,z2,…,zr-1,zt]。步驟5:對(duì)于Zt中的每一個(gè)樣本zj,j={1,2,…r-1,t},其他樣本構(gòu)成新的訓(xùn)練集進(jìn)行建模,然后對(duì)zj進(jìn)行預(yù)測(cè),得到它的預(yù)測(cè)種類bj,建模和預(yù)測(cè)的過程如下:1.用新的訓(xùn)練集的數(shù)據(jù),選擇One-vs-One的方式進(jìn)行SVM建模得到模型。svm模型選擇的核函數(shù)是RBF,其中參數(shù)gamma和C通過網(wǎng)格法進(jìn)行優(yōu)化,gamma=2^[6:3:15],C=2^[-1:3:8]。其中數(shù)據(jù)集中可能的種類{1,2,…k},有k(k-1)/2個(gè)二分類的svm模型,k=5。對(duì)于每一個(gè)可能的種類,有4個(gè)相關(guān)的二分類svm的決策函數(shù)。對(duì)于新的訓(xùn)練集的每一個(gè)樣本x,計(jì)算融合的決策函數(shù)D(x),k=5,是在One-vs-One的SVM模型中,通過max-wins投票方式求得的預(yù)測(cè)種類。N(f)將f值歸一化至[01]區(qū)間。對(duì)D(x)運(yùn)用k平均聚類算法,找出k個(gè)中心點(diǎn)。距離計(jì)算為歐氏距離,最大迭代次數(shù)為100次,初始中心點(diǎn)為[1.5,2.5,…,k+0.5]。對(duì)樣本zj,求出它的融合決策函數(shù)值D(xj),找到離它最近的中心點(diǎn),求出它的預(yù)測(cè)種類bj.步驟6:預(yù)測(cè)類別為bt的樣本集合中包括zt=(xt,y)。令py是這個(gè)集合中不同類別的經(jīng)驗(yàn)概率分布。Py是Y的概率分布。步驟7:回到步驟4,令yt分別等于2,3,4,5,重復(fù)步驟5,6,得到對(duì)于樣本zt的韋恩預(yù)測(cè)器Pt={py:yt∈Y}。Pt是一個(gè)K*K的概率矩陣。定義Pt每一列的最小項(xiàng)為q,具有最大q值的列為jbest。因此,zt的預(yù)測(cè)種類是jbest,預(yù)測(cè)正確的概率區(qū)間是表1典型樣本的預(yù)測(cè)結(jié)果實(shí)驗(yàn)組別樣本類別預(yù)測(cè)類別預(yù)測(cè)正確的概率區(qū)間2211[0.710.74]2312[0.740.88]5722[0.700.79]5821[0.690.76]8833[0.911.00]8933[0.971.00]10644[0.760.89]10744[0.680.82]15655[0.690.71]15751[0.660.79]從表1中可以看出,本發(fā)明在對(duì)樣本進(jìn)行預(yù)測(cè)類別的同時(shí),給出了分類正確的概率區(qū)間.如對(duì)實(shí)驗(yàn)組別22,我們預(yù)測(cè)它的類別是1,這個(gè)預(yù)測(cè)正確的概率區(qū)間為[0.710.74];對(duì)實(shí)驗(yàn)組別89,我們預(yù)測(cè)它的類別是3,這個(gè)預(yù)測(cè)正確的概率區(qū)間為[0.971],此時(shí)我們幾乎可以完全信任我們這個(gè)預(yù)測(cè)。概率區(qū)間的信息為后續(xù)的決策提供了有效的信息。步驟8:逐一對(duì)步驟3中測(cè)試集的樣本進(jìn)行預(yù)測(cè),得到相應(yīng)的韋恩預(yù)測(cè)器P,預(yù)測(cè)種類jbest和預(yù)測(cè)正確的概率區(qū)間。最終求出模型的預(yù)測(cè)的準(zhǔn)確率以及所有預(yù)測(cè)樣本預(yù)測(cè)正確的概率區(qū)間的并集。本方案在預(yù)測(cè)樣本種類的同時(shí),給出該預(yù)測(cè)正確的概率區(qū)間為,后續(xù)的決策提供更多的信息。將采用本方案進(jìn)行處理后的模式識(shí)別結(jié)果與幾種傳統(tǒng)處理方法的模式識(shí)別結(jié)果進(jìn)行對(duì)比,如表2所示:表2幾種電子鼻模式識(shí)別算法比較方法識(shí)別率預(yù)測(cè)正確的概率區(qū)間并集本方案79.43%[0.601.00]支持向量機(jī)79.43%無線性判別分析77.26%無從表2可以看出。本方案在識(shí)別率上和svm算法相同,高于LDA算法。本方案對(duì)每個(gè)預(yù)測(cè)樣本都給出了預(yù)測(cè)正確的概率區(qū)間,為后續(xù)的決策提供更多的有效信息。本文中所描述的具體實(shí)施例僅僅是對(duì)本發(fā)明精神作舉例說明。本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員可以對(duì)所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,但并不會(huì)偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。盡管本文較多地使用了矩陣、訓(xùn)練集等術(shù)語,但并不排除使用其它術(shù)語的可能性。使用這些術(shù)語僅僅是為了更方便地描述和解釋本發(fā)明的本質(zhì);把它們解釋成任何一種附加的限制都是與本發(fā)明精神相違背的。