本發(fā)明屬于近紅外光譜,具體涉及一種近紅外光譜的變量選擇方法、化學(xué)成分檢測(cè)方法及計(jì)算機(jī)設(shè)備。
背景技術(shù):
1、近紅外光譜分析技術(shù)因其簡(jiǎn)便、快速、無創(chuàng)、無污染、低成本、無需特殊預(yù)處理、信息量大、多組分同時(shí)分析等優(yōu)勢(shì)被廣泛應(yīng)用于食品、環(huán)境、農(nóng)業(yè)、石油化工、制藥和生物醫(yī)學(xué)等領(lǐng)域的定性和定量分析。在近紅外光譜定量分析中,需結(jié)合化學(xué)計(jì)量學(xué)中的多元校準(zhǔn)方法建立目標(biāo)化學(xué)成分與近紅外光譜數(shù)據(jù)之間的校準(zhǔn)模型。由于光譜數(shù)據(jù)是分析物中所有成分的集體響應(yīng),且易受噪聲影響,近紅外光譜通常由寬、弱、非特定和重疊的波段以及一些不相關(guān)的變量組成。這些無信息變量會(huì)影響模型質(zhì)量,導(dǎo)致模型預(yù)測(cè)能力下降。隨著近紅外光譜技術(shù)和化學(xué)計(jì)量學(xué)的發(fā)展,變量選擇已經(jīng)成為近紅外光譜多元校準(zhǔn)中的關(guān)鍵步驟,其作用可概括為三方面:(1)提高模型預(yù)測(cè)能力;(2)通過降低維數(shù)災(zāi)難提供更快、更具成本效益的預(yù)測(cè)因子;(3)使模型在簡(jiǎn)單的同時(shí)更具可解釋性。
2、鑒于變量選擇的重要性,國(guó)內(nèi)外已開發(fā)出多種變量選擇方法,包含逐步選擇、遺傳算法(genetic?algorithm,ga)、粒子群優(yōu)化(particle?swarm?optimization,pso)、模擬退火(simulated?annealing,sa)、無信息變量消除(uninformative?variable?elimination,uve)等經(jīng)典算法。
3、隨著模型集群分析思想(model?population?analysis,mpa)的發(fā)展,一些新的變量選擇方法被提出,如有蒙特卡羅無信息變量刪除法(monte?carlo?based?uve,mcuve)、競(jìng)爭(zhēng)自適應(yīng)加權(quán)抽樣方法(competitive?adaptive?reweighted?sampling,cars)、自舉軟收縮(bootstrapping?soft?shrinkage,boss)。
4、雖然以上幾種方法在近紅外領(lǐng)域被證明有效,但在變量選擇時(shí)多致力于選擇更少的特征變量,這可能導(dǎo)致有用波長(zhǎng)信息丟失,模型在不同數(shù)據(jù)集應(yīng)用時(shí)的過擬合風(fēng)險(xiǎn)無法忽視。此外,基于mpa思想的變量選擇方法為單獨(dú)選擇變量過程,對(duì)某些變量賦予過高權(quán)重,忽略了光譜數(shù)據(jù)中連續(xù)變量之間的高度相關(guān)性。鑒于近紅外光譜具有高度共線性等特點(diǎn),每個(gè)化學(xué)基團(tuán)響應(yīng)都有一定寬度,變量組合對(duì)模型預(yù)測(cè)性能有很大影響。單個(gè)低權(quán)重變量并不是很重要,但多個(gè)低權(quán)重變量組合在一起時(shí)可以增強(qiáng)模型的穩(wěn)健性,使模型獲得很好的預(yù)測(cè)性能。此外,原始近紅外光譜中包含基線漂移和噪聲等干擾信息,盡管通過預(yù)處理可以消除大部分干擾,但某些光譜點(diǎn)的變異系數(shù)仍然較大。如果將這些點(diǎn)選為特征變量,會(huì)顯著影響模型的穩(wěn)定性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種近紅外光譜的變量選擇方法、化學(xué)成分檢測(cè)方法及計(jì)算機(jī)設(shè)備,以解決現(xiàn)有的變量選擇方法對(duì)某些變量賦予過高權(quán)重,使得某些重要的低權(quán)重變量組合在變量選擇過程中被剔除,導(dǎo)致模型預(yù)測(cè)性能較低的技術(shù)問題。
2、為解決上述技術(shù)問題,本發(fā)明提供的一種近紅外光譜的變量選擇方法的技術(shù)方案為:一種近紅外光譜的變量選擇方法,該方法包括:
3、s1、獲取測(cè)試樣本的近紅外光譜變量數(shù)據(jù)和目標(biāo)化學(xué)成分的含量數(shù)據(jù);
4、s2、根據(jù)近紅外光譜變量數(shù)據(jù)得到n個(gè)互不相同的變量子集,每個(gè)變量子集內(nèi)沒有重復(fù)變量;
5、s3、建立每個(gè)變量子集與目標(biāo)化學(xué)成分的含量數(shù)據(jù)之間的回歸模型;
6、根據(jù)所述回歸模型的回歸系數(shù)得到各變量的新權(quán)重,然后對(duì)所述新權(quán)重中的離群值進(jìn)行懲罰處理以更新所述新權(quán)重;
7、在光譜變量空間進(jìn)行有放回的加權(quán)采樣以得到n個(gè)變量子集,并去除各變量子集內(nèi)部的重復(fù)變量;各變量被選中的概率根據(jù)所述新權(quán)重得到;
8、s4、返回s3重新執(zhí)行,直至變量子集中的變量數(shù)目滿足要求;
9、s5、選擇模型預(yù)測(cè)準(zhǔn)確性評(píng)估指標(biāo)最優(yōu)的回歸模型對(duì)應(yīng)的變量子集中的變量作為最終選擇的變量;
10、或記錄所述評(píng)估指標(biāo)最優(yōu)的回歸模型對(duì)應(yīng)的變量子集中的變量,然后從s2開始重新執(zhí)行設(shè)定次數(shù),根據(jù)各變量被記錄的次數(shù)確定最終選擇的變量。
11、上述技術(shù)方案的有益效果是:本發(fā)明的一種近紅外光譜的變量選擇方法的技術(shù)方案屬于改進(jìn)型發(fā)明創(chuàng)造。本發(fā)明通過對(duì)極端權(quán)重(即離群值)進(jìn)行懲罰,避免某個(gè)變量出現(xiàn)過高權(quán)重,使得有價(jià)值的低權(quán)重變量組合受到影響而被剔除出去,兼顧了變量組合效應(yīng),顯著提高預(yù)測(cè)模型的準(zhǔn)確性和穩(wěn)定性。本發(fā)明解決了現(xiàn)有的變量選擇方法對(duì)某些變量賦予過高權(quán)重,忽略了光譜數(shù)據(jù)中連續(xù)變量之間的高度相關(guān)性導(dǎo)致模型預(yù)測(cè)性能較低的技術(shù)問題。
12、進(jìn)一步地,對(duì)所述新權(quán)重中的離群值進(jìn)行懲罰處理的方式為:將所述離群值乘小于1的懲罰因子。
13、進(jìn)一步地,所述離群值通過四分位距法對(duì)所述新權(quán)重檢測(cè)得到:當(dāng)所述新權(quán)重大于upper或小于lower時(shí),認(rèn)為該新權(quán)重為離群值;upper和lower根據(jù)下式得到:
14、upper=q3+k×(q3-q1)
15、lower=q1-k×(q3-q1)
16、其中,q1為所述新權(quán)重的第一四分位數(shù),q3為所述新權(quán)重的第三四分位數(shù),k為離群值系數(shù)。
17、進(jìn)一步地,所述離群值為經(jīng)均值化處理后的所述新權(quán)重中的離群值。
18、進(jìn)一步地,所述近紅外光譜變量數(shù)據(jù)為去除變異系數(shù)大于變異系數(shù)閾值的變量后的近紅外光譜變量數(shù)據(jù)。
19、進(jìn)一步地,s2中得到n個(gè)互不相同的變量子集的方式為:在光譜變量空間進(jìn)行n次有放回的均勻采樣,并去除各變量子集內(nèi)部的重復(fù)變量。
20、進(jìn)一步地,變量子集中的變量數(shù)目滿足的要求為:變量子集中的變量數(shù)目為1。
21、進(jìn)一步地,根據(jù)所述回歸模型的回歸系數(shù)得到各變量的新權(quán)重的方式為:根據(jù)較優(yōu)回歸模型的回歸系數(shù)得到各變量的新權(quán)重;所述較優(yōu)回歸模型為各回歸模型中評(píng)估指標(biāo)較好的回歸模型。
22、進(jìn)一步地,所述較優(yōu)回歸模型根據(jù)以下方式得到:按照設(shè)定比例選擇所述評(píng)估指標(biāo)較好的回歸模型作為較優(yōu)回歸模型。
23、進(jìn)一步地,所述回歸模型為偏最小二乘回歸模型。
24、進(jìn)一步地,所述新權(quán)重的計(jì)算公式為:
25、
26、其中,n為回歸模型個(gè)數(shù),ωi為第i個(gè)變量的新權(quán)重,bi,k為第i個(gè)變量在第k個(gè)回歸模型中的歸一化回歸系數(shù)的絕對(duì)值。
27、本發(fā)明還提供了一種計(jì)算機(jī)設(shè)備的技術(shù)方案:一種計(jì)算機(jī)設(shè)備,包括處理器,所述處理器用于執(zhí)行計(jì)算機(jī)程序以實(shí)現(xiàn)如上所述的近紅外光譜的變量選擇方法的步驟。
28、本發(fā)明還提供了一種近紅外光譜的化學(xué)成分檢測(cè)方法的技術(shù)方案為:一種近紅外光譜的化學(xué)成分檢測(cè)方法,該方法包括獲取待測(cè)樣本的近紅外光譜數(shù)據(jù);根據(jù)目標(biāo)化學(xué)成分在所述待測(cè)樣本的近紅外光譜數(shù)據(jù)中選擇光譜變量,將選擇的光譜變量輸入到訓(xùn)練好的預(yù)測(cè)模型得到所述目標(biāo)化學(xué)成分的含量數(shù)據(jù),根據(jù)目標(biāo)化學(xué)成分在所述待測(cè)樣本的近紅外光譜數(shù)據(jù)中選擇光譜變量的方法包括:
29、s1、獲取測(cè)試樣本的近紅外光譜變量數(shù)據(jù)和目標(biāo)化學(xué)成分的含量數(shù)據(jù);
30、s2、根據(jù)近紅外光譜變量數(shù)據(jù)得到n個(gè)互不相同的變量子集,每個(gè)變量子集內(nèi)沒有重復(fù)變量;
31、s3、建立每個(gè)變量子集與目標(biāo)化學(xué)成分的含量數(shù)據(jù)之間的回歸模型;
32、根據(jù)所述回歸模型的回歸系數(shù)得到各變量的新權(quán)重,然后對(duì)所述新權(quán)重中的離群值進(jìn)行懲罰處理以更新所述新權(quán)重;
33、在光譜變量空間進(jìn)行有放回的加權(quán)采樣以得到n個(gè)變量子集,并去除各變量子集內(nèi)部的重復(fù)變量;各變量被選中的概率根據(jù)所述新權(quán)重得到;
34、s4、返回s3重新執(zhí)行,直至變量子集中的變量數(shù)目滿足要求;
35、s5、選擇模型預(yù)測(cè)準(zhǔn)確性評(píng)估指標(biāo)最優(yōu)的回歸模型對(duì)應(yīng)的變量子集中的變量作為最終選擇的變量;
36、或記錄所述評(píng)估指標(biāo)最優(yōu)的回歸模型對(duì)應(yīng)的變量子集中的變量,然后從s2開始重新執(zhí)行設(shè)定次數(shù),根據(jù)各變量被記錄的次數(shù)確定最終選擇的變量。
37、上述技術(shù)方案的有益效果是:本發(fā)明的一種近紅外光譜的化學(xué)成分檢測(cè)方法的技術(shù)方案屬于改進(jìn)型發(fā)明創(chuàng)造。本發(fā)明通過對(duì)極端權(quán)重(即離群值)進(jìn)行懲罰,避免某個(gè)變量出現(xiàn)過高權(quán)重,使得有價(jià)值的低權(quán)重變量組合受到影響而被剔除出去,兼顧了變量組合效應(yīng),顯著提高預(yù)測(cè)模型的準(zhǔn)確性和穩(wěn)定性。本發(fā)明解決了現(xiàn)有的變量選擇方法對(duì)某些變量賦予過高權(quán)重,忽略了光譜數(shù)據(jù)中連續(xù)變量之間的高度相關(guān)性導(dǎo)致模型預(yù)測(cè)性能較低的技術(shù)問題。
38、進(jìn)一步地,對(duì)所述新權(quán)重中的離群值進(jìn)行懲罰處理的方式為:將所述離群值乘小于1的懲罰因子。
39、進(jìn)一步地,所述離群值通過四分位距法對(duì)所述新權(quán)重檢測(cè)得到:當(dāng)所述新權(quán)重大于upper或小于lower時(shí),認(rèn)為該新權(quán)重為離群值;upper和lower根據(jù)下式得到:
40、upper=q3+k×(q3-q1)
41、lower=q1-k×(q3-q1)
42、其中,q1為所述新權(quán)重的第一四分位數(shù),q3為所述新權(quán)重的第三四分位數(shù),k為離群值系數(shù)。
43、進(jìn)一步地,所述離群值為經(jīng)均值化處理后的所述新權(quán)重中的離群值。
44、進(jìn)一步地,所述近紅外光譜數(shù)據(jù)為去除變異系數(shù)大于變異系數(shù)閾值的變量后的近紅外光譜數(shù)據(jù)。
45、本發(fā)明還提供了一種計(jì)算機(jī)設(shè)備的技術(shù)方案:一種計(jì)算機(jī)設(shè)備,包括處理器,所述處理器用于執(zhí)行計(jì)算機(jī)程序以實(shí)現(xiàn)如上所述的近紅外光譜的化學(xué)成分檢測(cè)方法的步驟。