一種紅外光譜數(shù)據(jù)pls建模方法
【專利摘要】本發(fā)明公開了一種紅外光譜數(shù)據(jù)PLS建模方法,結(jié)合各個(gè)間隔區(qū)間的PLS模型的誤差和誤差之間的相關(guān)性來確定各個(gè)間隔區(qū)間的PLS模型的權(quán)系數(shù),從而能使所得的融合PLS模型具有最小的誤差。本發(fā)明的方法可以最好的利用各個(gè)間隔區(qū)間的光譜信息,簡便、可視化、運(yùn)算量小,可以很快的找到特征波長區(qū)間;本方明中的權(quán)系數(shù)的確定方法由于同時(shí)考慮到了各個(gè)參與融合的模型的誤差以及誤差之間的相關(guān)性,能保證融合之后的模型具有最小的誤差。
【專利說明】一種紅外光譜數(shù)據(jù)PLS建模方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于紅外光譜識(shí)別領(lǐng)域,具體是一種能提升紅外光譜偏最小二乘建模效果 的數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002] 在小樣本多變量的紅外光譜數(shù)據(jù)中,PLS模型可以很好的解決其它建模方法所遇 到的變量共線性問題和維數(shù)災(zāi)難,因此在紅外光譜識(shí)別中得到了廣泛的用。雖然PLS可以 直接對(duì)全光譜建模,但是理論和大量的實(shí)驗(yàn)證明波長選擇仍是一種有效的提高PLS模型的 方法。波長優(yōu)化選擇是指通過一定的方法在建模之前進(jìn)行特征波長或波段的篩選。經(jīng)波長 選擇后所建模型由于剔除了不相關(guān)或非線性變量,因此較全波長模型更為簡化,預(yù)測(cè)能力 和穩(wěn)健性也更好。其中iPLS(interval PLS-iPLS)是一種常用的波長選擇方法。iPLS方法 的優(yōu)點(diǎn)是簡便、可視化、運(yùn)算量小,可以很快的找到特征波長區(qū)間。缺點(diǎn)是只利用一個(gè)間隔 區(qū)間的光譜信息,可能丟失其他間隔區(qū)間的有用的光譜信息。因此如何最好的利用各個(gè)間 隔區(qū)間的光譜信息是亟待解決的問題。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的技術(shù)問題是,針對(duì)上述現(xiàn)有技術(shù)的不足,提供一種紅外光譜數(shù) 據(jù)PLS建模方法。
[0004] 為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:一種紅外光譜數(shù)據(jù)PLS建模 方法,包括以下步驟:
[0005] 1)設(shè)置最大間隔區(qū)間數(shù)max_int_no、最大潛變量數(shù)max_lv_no、交叉法的重?cái)?shù) 和k 2 ;其中,1^、1^2均不小于2 ;
[0006] 2)計(jì)算間隔區(qū)間數(shù)為int_no時(shí),對(duì)應(yīng)的融合PLS模型的交叉驗(yàn)證誤差,計(jì)算的步 驟都是 2.1 至 2.2,其中 int_no < max_int_no :
[0007] 2. 1)將紅外光譜樣本集數(shù)據(jù)中的光譜矩陣X平均分為int_no個(gè)間隔區(qū)間Χ,:每 個(gè)間隔區(qū)間的列數(shù)1= ..........^ : £- h > □表示取整;第i個(gè)間隔區(qū)間Xi對(duì)應(yīng)光譜矩陣 mt- /?ο J X的第[(i-l) X 1+1]?(i X 1)列的數(shù)據(jù);1彡i彡int_no ;
[0008] 2. 2)計(jì)算潛變量數(shù)為lv_no時(shí),融合PLS模型的?其中1彡lv_no彡max_ lv_no,計(jì)算的步驟都是2. 2. 1至2. 2. 5 ;
[0009] 2. 2. 1)用&重交叉法計(jì)算間隔數(shù)為int_no,潛變量數(shù)為lv_no時(shí),各個(gè)間隔區(qū)間 對(duì)應(yīng)的PLS模型的交叉驗(yàn)證誤差= ,其中y表示紅外光譜樣本集數(shù) 據(jù)中的因變量矩陣的實(shí)際值,表示第i個(gè)間隔區(qū)間對(duì)應(yīng)的潛變量數(shù)為lv_no的PLS模型 根據(jù)kl重交叉法得到的因變量矩陣的預(yù)測(cè)值,ei是相應(yīng)的預(yù)測(cè)殘差矩陣,η是紅外光譜樣 本集數(shù)據(jù)的樣品數(shù);
[0010] 2. 2. 2)計(jì)算間隔數(shù)為int_no,潛變量數(shù)為lv_no時(shí),各個(gè)間隔區(qū)間對(duì)應(yīng) COvi £;,,£·;;) . 的PLS模型的預(yù)測(cè)殘差矩陣之間的相關(guān)性G .................../ = U,…》mt:其中, covk,e } = -<e,,e/),i,j' = 1,2,…,int-腳;
[0011] 2. 2. 3)通過非線性優(yōu)化的方法計(jì)算下式, int nn ini no ini no
[0012] / = min(^ m;S2(e:) + 2j^ ^ /-1 /-I μ-? i
【權(quán)利要求】
1. 一種紅外光譜數(shù)據(jù)PLS建模方法,其特征在于,包括以下步驟: 1) 設(shè)置最大間隔區(qū)間數(shù)max_int_no、最大潛變量數(shù)max_lv_no、交叉法的重?cái)?shù)kjPk2 ; 其中,1^、1^2均不小于2 ; 2) 按照步驟2. 1)和步驟2. 2)計(jì)算間隔區(qū)間數(shù)為int_no時(shí),對(duì)應(yīng)的融合PLS模型的交 叉驗(yàn)證誤差,其中1 < int_no < max_int_no : 2. 1)將紅外光譜樣本集數(shù)據(jù)中的光譜矩陣X平均分為int_no個(gè)間隔區(qū)間\ :每個(gè)間 的 度 ? 隔區(qū)間的列數(shù)I = I,□表示取整;第i個(gè)間隔區(qū)間\對(duì)應(yīng)光譜矩陣X的 _ mt_ no j 第[(i-1) X1+1]?(iXl)列的數(shù)據(jù);1 < i < int_no ; 2. 2)按照步驟2. 2. 1)?步驟2. 2. 5)計(jì)算潛變量數(shù)為lv_no時(shí),融合PLS模型的.¢,=, 其中 1 < lv_no < max_lv_no : 2. 2. 1)用重交叉法計(jì)算間隔數(shù)為int_no,潛變量數(shù)為lv_no時(shí),各個(gè)間隔區(qū)間對(duì)應(yīng) 的PLS模型的交叉驗(yàn)證誤差= ,其中 Λ y表示紅外光譜樣本集數(shù)據(jù)中 " ?. = j-j,-1 的因變量矩陣的實(shí)際值,兌表示第i個(gè)間隔區(qū)間對(duì)應(yīng)的潛變量數(shù)為lv_no的PLS模型根據(jù) kl重交叉法得到的因變量矩陣的預(yù)測(cè)值,^是相應(yīng)的預(yù)測(cè)殘差矩陣,η是紅外光譜樣本集 數(shù)據(jù)的樣品數(shù); 2. 2. 2)計(jì)算間隔數(shù)為int_no,潛變量數(shù)為lv_no時(shí),各個(gè)間隔區(qū)間對(duì)應(yīng)的 pls模型的預(yù)測(cè)殘差矩陣之間的相關(guān)性4 …;其中, cov(e,, e -) = -(e,, e Λ, /, / = 1,2, - ··, int_ no ; n、 · 2. 2. 3)通過非線性優(yōu)化的方法計(jì)算下式: inf ttf% inf ι?η mi mn
得到間隔數(shù)為int_no,潛變量數(shù)為lv_no時(shí),各個(gè)間隔區(qū)間對(duì)應(yīng)的PLS模型的組合系數(shù) ω = [ ω " …,ω int-加]': 2. 2. 4)用k2重交叉法計(jì)算間隔數(shù)為int_no,潛變量數(shù)為lv_no時(shí),各個(gè)間隔區(qū)間對(duì) 應(yīng)的PLS模型的預(yù)測(cè)殘差矩陣化=.1,-九,其中爲(wèi),表示第i個(gè)間隔區(qū)間對(duì)應(yīng)的潛變量數(shù)為 lv_no的PLS模型根據(jù)k2重交叉法得到的因變量矩陣的預(yù)測(cè)值,計(jì)算; ini no ini no int iut ./:二=Σ (作(?)十2Σ Σ -"以⑷%、,); /~? i~i p>/ 2. 2. 5)選出最小的.I:作為間隔區(qū)間數(shù)為int_no時(shí)的融合PLS模型的交叉驗(yàn)證誤 差,記為; 3) 選出所有間隔區(qū)間數(shù)下最小的i ,w,該最小的尤H"對(duì)應(yīng)的間隔區(qū)間數(shù)int_bt、潛 變量數(shù)lv_bt和組合系數(shù)c〇_bt作為最優(yōu)的模型參數(shù); 4) 根據(jù)最優(yōu)的模型參數(shù)構(gòu)造融合PLS模型:將光譜矩陣X平均分為int_bt個(gè)間隔區(qū) 間,融合PLS模型如下: int bt 其中,ω_btg是ω _bt的第g個(gè)分量,/是融合PLS模型對(duì)樣品的因變量的預(yù)測(cè)值;bg、 cg分別是間隔區(qū)間Xg和因變量矩陣Y對(duì)應(yīng)潛變量數(shù)為lv_bt時(shí)的偏最小回歸系數(shù)和截距; x g是第g個(gè)間隔區(qū)間對(duì)應(yīng)的紅外光譜數(shù)據(jù)。
【文檔編號(hào)】G06F19/00GK104091089SQ201410362602
【公開日】2014年10月8日 申請(qǐng)日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】陳孝敬 申請(qǐng)人:溫州大學(xué)