欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法與流程

文檔序號:11228575閱讀:1144來源:國知局
基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法與流程

本發(fā)明屬于分析化學(xué)和光譜學(xué)領(lǐng)域,具體涉及基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法

技術(shù)背景

近紅外的光譜頻段為780nm~2500nm,光譜信息源來源于有機(jī)物的含氫基團(tuán)的倍頻和合頻吸收,近紅外光譜分析技術(shù)能夠廣泛的應(yīng)用與物質(zhì)的定性分析和定量分析領(lǐng)域,因此該項技術(shù)被譽為“具有提高全球農(nóng)業(yè)分析能力的潛力技術(shù)”。由于近紅外光譜具有上百個光譜波段,當(dāng)儀器采集這些波段時除了樣品自身的信息以外還包含了大量的外界信息,如噪音、樣品背景干擾等。所以在分析研究中,變量選擇對數(shù)據(jù)分析和建模有著及其重要的影響。進(jìn)行變量選擇,實際就是對變量的重要性來進(jìn)行合理評價。

現(xiàn)在,國內(nèi)外主要應(yīng)用的變量選擇方法有蒙特卡羅無信息變量刪除法(montecarlobaseduve,mc-uve,參見w-scai,y–kli,x-gshao,avariableselectionmethodbasedonuninformativevariableeliminationformultivariatecalibrationofnear-infraredspectra[j],chemometr,intell.lab.syst.2008,90,188-194)、遺傳學(xué)算法(geneticalgorithm,ga,參見leardir,gonzalezal,geneticalgorithmsappliedtofeatureselectioninplsregression:howandwhentousethem,chemomintelllabsyst,1998,41,195-207)、隨機(jī)蛙跳算法(randomfrog,rf,參見朱逢樂何勇邵詠妮應(yīng)用近紅外高光譜成像預(yù)測三文魚肉的水分含量光譜學(xué)與光譜分析2015-1,113-117)、迭代保留有信息變量法(iterativelyretainsinformativevariablesiriv,參見yong-huanyun,wei-tingwang,min-litan,yi-zengliang,hong-dongli,dong-shengcao,hong-meilu,qing-songxu,astrategythatiterativelyretainsinformativevariablesforselectingoptimalvariablesubsetinmultivariatecalibration,anal.chim.acta,2014,807,36-45)、競爭自適應(yīng)重采樣方法(cars,參見h-dli,y-zliang,q-sxu,d-scao,keywavelengthsscreeningusingcompetitiveadaptivereweightedsamplingmethodformultivariatecalibration,anal.chim.acta,2009,648,77-84)、變量組合集群分析法(variablecombinationpopulationanalysisvcpa,參見yong-huanyun,wei-tingwang,bai-chuandeng,guang-bilai,xin-boliu,da-bingren,yi-zengliang,weifan,qing-songxu,usingvariablecombinationpopulationanalysisforvariableselectioninmultivariatecalibration,anal.chimacta,2015,862,14-23)]等。

雖然以上幾種方法在近紅外領(lǐng)域被大量的運用,但是在科研實踐中,由于所收集的樣本數(shù)一般不可能太多,會出現(xiàn)樣本少變量多的情況,而且會有大量的無信息變量和干擾變量夾入,所以上述幾種變量選擇方法不僅難以實現(xiàn)所有的變量組合,而且還會受到大量的無信息變量和干擾變量的影響。也是由于任何為建模收集的樣本數(shù)總不足以完全表達(dá)總體信息,所以由上述幾種只對變量空間進(jìn)行采樣的變量選擇方法所得到的如變量重要性等參數(shù)會存在著很大的不確定性因素,樣本產(chǎn)生波動勢必會對變量的重要性分布產(chǎn)生一定的影響,這會影響模型的預(yù)測性能。



技術(shù)實現(xiàn)要素:

為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提出了基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法。該方法不僅通過bms實現(xiàn)對變量空間的采樣,同時還通過了mcs實現(xiàn)了對樣本空間的采樣,避免了樣本集合變化對變量選擇結(jié)果的影響。

具體步驟如下:

a運用蒙特卡洛采樣方法對校正集樣本進(jìn)行隨機(jī)采樣,每次采樣80%的樣本作為樣本子集,采樣m次得到m組不同的樣本子集,m值為50;

b針對每個樣本子集首先運用二進(jìn)制矩陣采樣方法對其變量空間進(jìn)行變量采樣,采樣k次得到k組不同的變量合集,k值為1000,運用偏最小二乘法建立每個變量合集的模型,得到每個變量合集的交互檢驗均方根誤差;

c針對每個樣本合集,選取其均方根誤差最小的前θ×k組變量子集作為每個樣本子集的變量子集,其中θ為10%,θ×k為100,統(tǒng)計每個變量子集中每個光譜變量出現(xiàn)的頻率,運用指數(shù)衰減函數(shù)刪除那些出現(xiàn)頻率較小的變量;

d步驟b~步驟c過程迭代n次,n值為50,最后每個樣本子集中只剩下l個光譜變量,l的數(shù)值為14,計算出每個樣本子集中l(wèi)個變量之間所有變量組合的均方根誤差,其值最小的變量組合為每個樣本子集的特征變量;

e保留所有樣本子集中的特征變量,最后通過對所保留的變量重復(fù)二進(jìn)制矩陣采樣法變量采樣、變量子集選取和指數(shù)衰減函數(shù)刪除貢獻(xiàn)小變量,此過程迭代n1次,n1值為200,最后剩余l(xiāng)個變量,計算出每個樣本子集中l(wèi)個變量之間所有變量組合的均方根誤差,其值最小的變量組合為最終蒙特卡洛變量組合集群分析法特征變量選取結(jié)果。

步驟d中指數(shù)衰減函數(shù)變量刪除的變量保留率計算公式為:

rn=e-θ×n(1)

rn:指數(shù)衰減函數(shù)運行n次時變量保留率;θ:曲線控制參數(shù),它與指數(shù)衰減函數(shù)的執(zhí)行次數(shù)有關(guān),指數(shù)衰減函數(shù)執(zhí)行的次數(shù)越多,其θ值越小。n

:指數(shù)衰減函數(shù)的執(zhí)行次數(shù),曲線控制參數(shù)的計算公式為:

公式(2)中p為指數(shù)衰減函數(shù)執(zhí)行n-1次后所保留的變量數(shù)目,l為指數(shù)衰減函數(shù)運行結(jié)束之后剩余變量數(shù)目。

與目前國內(nèi)外現(xiàn)有的變量選擇方法相比,本發(fā)明同時實現(xiàn)了對樣本空間和變量空間的采樣,極大的降低了模型對于收集樣本數(shù)量的依賴性,克服了由于樣本中的無信息變量和干擾變量加入影響模型預(yù)測穩(wěn)定性的技術(shù)缺陷,避免了樣本集合變化對變量選擇結(jié)果的影響,顯著提高了預(yù)測模型的穩(wěn)定性和可靠性。

附圖說明

下面結(jié)合附圖及實施方式對本發(fā)明作進(jìn)一步說明:

圖1為蒙特卡洛變量組合集群分析法的算法流程圖

圖2為小麥近紅外光譜圖

圖3為bms采樣次數(shù)與預(yù)測均方根誤差分布圖

圖4為edf采樣次數(shù)與預(yù)測均方根誤差分布圖

圖5為wtp-mc-vcpa-pls模型預(yù)測集的預(yù)測值與實際值的散點圖

具體實施方式

實施方案一:為了證明本發(fā)明的適用性,結(jié)合實例進(jìn)行詳細(xì)的說明。但是本發(fā)明也可以應(yīng)用于本次所采用的實例之外的光譜數(shù)據(jù)。

圖1是本發(fā)明提供的基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法(mc-vcpa)算法的流程圖,可見,本發(fā)明具體包括以下步驟:

(1)本次研究所使用的93個小麥本和小麥蛋白化學(xué)數(shù)據(jù)來源于國家糧食局北京方孚德研究中心,運用德國卡爾蔡司的mcs611nir光纖光譜儀每個小麥樣本的近紅外光譜,其光譜范圍為950~1690nm,每個實驗樣品采集3條光,取其吸光度平均值。運用小波包(wtp)消除光譜中的噪聲信號。本次研究所用的分類方法為kennard-stone(k-s)算法,運用k-s將93個小麥本分61個建模集本和32個集本,原始小麥近紅外光譜圖如圖2所示。

(2)運用蒙特卡洛采樣方法對校正集樣本進(jìn)行隨機(jī)采樣,每次采樣80%的樣本作為樣本子集,采樣50次得到50組不同的樣本子集。

(3)針對每個樣本子集首先運用二進(jìn)制矩陣采樣方法(bms)對其變量空間進(jìn)行變量采樣,采樣1000次得到1000組不同的變量子集。運用偏最小二乘法(pls)建立每個變量子集的模型,得到每個變量子集的交互檢驗均方根誤差(rmsecv)。

(4)針對每個樣本子集,選取其rmsecv最小的前10%×1000組變量子集作為每個樣本子集的優(yōu)秀變量子集,統(tǒng)計每個優(yōu)秀變量子集中每個光譜變量出現(xiàn)的頻率,運用指數(shù)衰減函數(shù)(edf)刪除那些出現(xiàn)頻率較小的變量保留率計算公式如下所示。

rn=e-θ×n(1)

rn:edf運行n次時變量保留率;θ:曲線控制參數(shù),它與edf的執(zhí)行次數(shù)有關(guān),edf執(zhí)行的次數(shù)越多,其θ值越小。n:edf的執(zhí)行次數(shù)。曲線控制參數(shù)的計算公式為

上述公式中p為edf執(zhí)行n-1次后所保留的變量數(shù)目,l為edf運行結(jié)束之后剩余變量數(shù)目。

(5)在步驟(3)~步驟(4)過程迭代50次,最后每個樣本子集中只剩下14個光譜變量,計算出每個樣本子集中14個變量之間所有變量組合的rmsecv,其值最小的變量組合為每個樣本子集的特征變量。

(6)保留所有樣本子集中的特征變量如圖3,設(shè)置新的bms采樣參數(shù)和edf迭代參數(shù)(bms=200,edf=200),最后通過對所保留的變量重復(fù)bms變量采樣、優(yōu)秀變量子集選取和edf刪除貢獻(xiàn)小變量,此過程迭代200次,最后剩余14個變量,計算出每個樣本子集中14個變量之間所有變量組合的rmsecv,其值最小的變量組合為最終mc-vcpa的特征變量選取結(jié)果,最終選取的特征變量為954.51nm,1002.71nm,1013.61nm,1118.38nm,1138.49nm,1148.45nm,1203.74nm,1229.12nm,1405.60nm,1612.50nm,其分布如圖4所示。

(7)將mc-vcpa選取的特征變量結(jié)合pls建立小麥蛋白質(zhì)預(yù)測模型,預(yù)測集的實際值月真實值之間的散點圖分布如圖5所示。

為了驗證本發(fā)明的優(yōu)越性,將mc-vcpa與ga、rf、iriv、cars、mc–uve、vcpa變量選擇結(jié)果相對比,運用pls建立小麥蛋白質(zhì)含量預(yù)測模型,每種建模方法的結(jié)果如表1所示,

表1小麥蛋白質(zhì)含量預(yù)測結(jié)果比較

本發(fā)明實施方式說明到此結(jié)束。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
通化市| 邛崃市| 苍山县| 固始县| 苍南县| 浦北县| 太保市| 本溪市| 吉林省| 长海县| 浑源县| 连云港市| 大新县| 织金县| 桐城市| 临安市| 湖南省| 苏尼特左旗| 北宁市| 清丰县| 古浪县| 新巴尔虎右旗| 中宁县| 海淀区| 平乡县| 城市| 交城县| 藁城市| 潢川县| 罗城| 平安县| 岚皋县| 上犹县| 克拉玛依市| 乐业县| 舞阳县| 镶黄旗| 稻城县| 安仁县| 萝北县| 庆城县|