本發(fā)明涉及一種基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法,適用于不同廠家、不同型號紅外光譜儀的跨平臺模型通用方法。
背景技術(shù):
紅外光譜分析是一種新興的分析技術(shù),由于它具有快速、無損和無污染等優(yōu)點,在農(nóng)業(yè)、化工和環(huán)境監(jiān)測等領(lǐng)域有著廣泛的應(yīng)用。紅外光譜分析技術(shù)要求紅外光譜儀和定性/定量分析模型必須協(xié)調(diào)工作,否則均會對分析結(jié)果由影響。然而,在實際的應(yīng)用過程中,通常會存在紅外光譜儀生產(chǎn)廠家不同、型號不同等情況,致使所建立的分析模型無法適用于所有紅外光譜儀,而為每臺設(shè)備單獨建立一個分析模型,則會花費大量的人力物力和時間。
傳統(tǒng)的模型傳遞方法包括斜率截距法、直接校正法、分段直接校正法、Shenk’s法等。但是上述幾種方法均為有標(biāo)樣方法,即事先準(zhǔn)備好多個標(biāo)準(zhǔn)樣本,分別在主儀器和目標(biāo)儀器上對這些樣本進(jìn)行光譜掃描,接著利用數(shù)學(xué)方法確定兩者間的映射關(guān)系。對于新的待測樣本,在目標(biāo)儀器上掃描光譜后,利用映射函數(shù)對其進(jìn)行轉(zhuǎn)換,再使用主儀器上建立的原模型進(jìn)行預(yù)測。但是在實際應(yīng)用中,一方面,用戶通常很難將標(biāo)準(zhǔn)樣本長期保存,環(huán)境的變化往往會造成樣本性質(zhì)變化;另一方面,由于受物理空間影響,將標(biāo)準(zhǔn)樣本進(jìn)行長途運輸亦顯得不具操作性。
中國海洋大學(xué)賀英于2012年在其博士論文中提出了一種新的模型傳遞方法——基于集成遷移學(xué)習(xí)的近紅外光譜模型傳遞方法,通過將遷移學(xué)習(xí)、樣本相似匹配和集成學(xué)習(xí)等方法相互結(jié)合,構(gòu)建了具有一定穩(wěn)健性的遷移模型。但是,該方法存在以下兩點不足:(1)該方法中分別利用支持向量機(Support Vector Machine,SVM)、K近鄰(K-Near Neighbor,KNN)和偏最小二乘(Partial Least Square,PLS)三種方法建立回歸模型,然后再進(jìn)行加權(quán)集成,但是三種方法所建立的模型均是在同一樣本分布的前提下完成的,因此當(dāng)待測樣本的分布與建模時所用的樣本分布不同時,則可能會出現(xiàn)“負(fù)遷移”現(xiàn)象;換句話說,當(dāng)原模型的泛化性能(魯棒性)較差時,原模型的誤差也會傳遞到目標(biāo)儀器上;(2)當(dāng)目標(biāo)儀器上的待測樣本分布發(fā)生變化時,如何根據(jù)待測樣本的局部結(jié)構(gòu),自適應(yīng)地調(diào)整各個弱目標(biāo)分析模型的權(quán)重。
因此,研究跨設(shè)備的模型傳遞方法,使得在某臺紅外光譜儀上已經(jīng)建立好的分析模型能夠快速轉(zhuǎn)換到新的儀器上,具有重要的研究意義和應(yīng)用價值。
技術(shù)實現(xiàn)要素:
針對背景技術(shù)中存在的問題,本發(fā)明的目的是提供一種基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法,可以自適應(yīng)地調(diào)整隨機森林中各個映射模型的權(quán)重因子,有效提升模型傳遞的準(zhǔn)確度和穩(wěn)定性。
本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:一種基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法,包括以下步驟:S1、將主儀器掃描采集得到的樣本光譜數(shù)據(jù)集Dm利用Bootstrap隨機抽樣方法生成K個子數(shù)據(jù)集:S2、針對每個子數(shù)據(jù)集結(jié)合目標(biāo)儀器上掃描得到的數(shù)據(jù)集Ds,利用遷移學(xué)習(xí)算法建立目標(biāo)儀器上的紅外光譜與化學(xué)組分間的映射模型:同時形成新的數(shù)據(jù)集S3、針對待測樣本,利用目標(biāo)儀器掃描其紅外光譜xi,并將其送入到每個映射模型從而得到每個映射模型給出的化學(xué)組分預(yù)測值:S4、計算待測樣本xi與數(shù)據(jù)集中每個樣本的相似度,并進(jìn)行累加求和,記為:Si(1≤i≤k);S5、針對待測樣本xi,計算各個映射模型對應(yīng)的權(quán)重因子:S6、利用加權(quán)平均方法計算待測樣本的化學(xué)組分含量:
在上述技術(shù)方案中,所述步驟S2中的遷移學(xué)習(xí)算法包括基于實例的遷移算法和基于特征的遷移算法。
在上述技術(shù)方案中,所述步驟S2中映射模型包括線性模型和非線性模型。
在上述技術(shù)方案中,所述線性模型為多元回歸和偏最小二乘;非線性模型為人工神經(jīng)網(wǎng)絡(luò)、支持向量機和極限學(xué)習(xí)機。
在上述技術(shù)方案中,所述步驟S2中映射模型的建立包括紅外光譜預(yù)處理和特征選擇。
在上述技術(shù)方案中,所述紅外光譜預(yù)處理包括去噪和基線校正;特征選擇包括無信息變量消除法、區(qū)間偏最小二乘法、遺傳算法、蝙蝠算法和稀疏優(yōu)化等。
在上述技術(shù)方案中,所述步驟S4中相似度度量方法包括歐式距離法、L范數(shù)法、相關(guān)系數(shù)法,以及將樣本映射到其它高維或者低維空間后再計算得到的相似性度量方法。
在上述技術(shù)方案中,其特征在于:所述步驟S4中相似度度量結(jié)果包括樣本間越接近,相似度越高,Si的值越大。
在上述技術(shù)方案中,所述步驟S5中各個映射模型對應(yīng)的權(quán)重因子滿足關(guān)系:
本發(fā)明基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法,首先利用隨機森林思想,將主儀器掃描得到的樣本數(shù)據(jù)集利用Bootstrap方法生成多個分布結(jié)構(gòu)不同的子數(shù)據(jù)集;其次,針對每個子數(shù)據(jù)集,結(jié)合目標(biāo)儀器掃描得到的樣本數(shù)據(jù)集,利用基于實例的遷移學(xué)習(xí)算法建立目標(biāo)儀器上的分析模型;接著,針對目標(biāo)儀器上采集的待測樣本紅外光譜,根據(jù)建立的每個分析模型預(yù)測其待測組分含量;然后,基于局部結(jié)構(gòu)映射思想,計算每個待測樣本與建立的各個分析模型中樣本之間的結(jié)構(gòu)分布相似度,以確定與每個待測樣本對應(yīng)的各個目標(biāo)分析模型權(quán)重因子;最后,利用加權(quán)平均方法對預(yù)測結(jié)果進(jìn)行匯總,以得到最終的待測組分含量。與現(xiàn)有方法相比,該方法具備魯棒性強、自適應(yīng)的優(yōu)點,不僅可以有效提升模型傳遞的準(zhǔn)確度和穩(wěn)定性,還可以自適應(yīng)樣本分布結(jié)構(gòu)發(fā)生變化的情形,因此可以廣泛應(yīng)用于固相、液相和氣相的紅外光譜模型傳遞領(lǐng)域中。
附圖說明
圖1為本發(fā)明基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法流程圖;
圖2為同一樣本在三臺不同儀器下掃描的紅外光譜圖;
圖3為目標(biāo)儀器mp5測試集預(yù)測結(jié)果對比示意圖;
圖4為目標(biāo)儀器mp6測試集預(yù)測結(jié)果對比示意圖;
圖5為兩個不同樣本對應(yīng)的隨機森林映射模型權(quán)重因子大小情況示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,本發(fā)明所述的一種基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法流程如圖1所示,不失一般性,假設(shè)各有一臺主儀器和目標(biāo)儀器,已知利用主儀器掃描多個樣本的光譜及其化學(xué)組分含量的數(shù)據(jù)集Dm,記為其中,為包含P個波長點的樣本掃描紅外光譜;為各個樣本的化學(xué)組分含量;N為樣本的個數(shù)。
已知利用目標(biāo)儀器掃描多個樣本的光譜及其化學(xué)組分含量數(shù)據(jù)集Ds,記為其中,為包含P個波長點的樣本掃描紅外光譜;為各個樣本的化學(xué)組分含量;M為樣本的個數(shù)。一般情況下,M<N。以及利用目標(biāo)儀器掃描得到的待分析樣本紅外光譜對應(yīng)的化學(xué)組分含量yi為未知量,需要我們通過計算得出。
首先,將主儀器掃描采集得到的光譜樣本數(shù)據(jù)集Dm利用Bootstrap隨機抽樣方法生成K個子數(shù)據(jù)集:即采用有放回抽樣方式,以第i(1≤i≤k)輪為例,每次從Dm中抽取一個樣本,共抽取N次,形成新的集合由于是有放回抽樣,集合雖然同樣包含了N個樣本,但可能包含了若干重復(fù)樣本,將重復(fù)樣本剔除后,即形成第i(1≤i≤k)個子數(shù)據(jù)集根據(jù)概率論相關(guān)知識可以計算出,子數(shù)據(jù)集中包含了原數(shù)據(jù)集Dm中約62%的樣本。盡管子數(shù)據(jù)集中樣本數(shù)量有所減少,但每個子數(shù)據(jù)集中的樣本分布規(guī)律均不相同,這是隨機森林算法的本質(zhì),從而可以提升模型的魯棒性。
其次,針對每個子數(shù)據(jù)集結(jié)合目標(biāo)儀器上掃描得到的數(shù)據(jù)集Ds,利用遷移學(xué)習(xí)算法建立目標(biāo)儀器上的紅外光譜與化學(xué)組分間的映射模型:由于針對每個子數(shù)據(jù)集,遷移學(xué)習(xí)過程中會將其與Ds合并,從而形成新的數(shù)據(jù)集,記為:
需要說明的是:(1)模型建立的方法可以是線性如多元回歸、偏最小二乘等,也可以是非線性如人工神經(jīng)網(wǎng)絡(luò)、支持向量機、極限學(xué)習(xí)機等;(2)在建模之前,若有需要的話,可以對紅外光譜進(jìn)行預(yù)處理和特征選擇,而紅外光譜進(jìn)行預(yù)處理包括去噪、基線校正等;特征選擇包括無信息變量消除法、區(qū)間偏最小二乘法、遺傳算法、蝙蝠算法、稀疏優(yōu)化等。
接著,針對待測樣本,利用目標(biāo)儀器掃描其紅外光譜xi,并將其送入到每個映射模型從而得到每個映射模型給出的化學(xué)組分預(yù)測值:
然后,計算待測樣本xi與數(shù)據(jù)集中每個樣本的相似度,并進(jìn)行累加求和,記為:Si(1≤i≤k)。需要指出的是:(1)這里關(guān)于相似度的度量,可以是歐式距離、L范數(shù)等,也可以是先將樣本映射到其它高維或者低維空間后再計算得到的度量結(jié)果;(2)為了便于后面的表述,不失一般性,這里假設(shè)樣本間越接近,相似度越高,即Si的值越大。在此基礎(chǔ)上,根據(jù)下式計算針對待測樣本xi,各個映射模型對應(yīng)的權(quán)重因子:
從上式可以看出,
最后,利用加權(quán)平均方法計算待測樣本的化學(xué)組分含量:
結(jié)合附圖2、圖3和圖4對本發(fā)明進(jìn)行具體實施方式進(jìn)行分析:本實施例中所選用的數(shù)據(jù)來源是80個玉米樣本的近紅外光譜數(shù)據(jù)集,其光譜掃描范圍為1100-2498nm,掃描間隔為2nm,每個樣本包含700個波長點。分別用3臺近紅外光譜儀對所有玉米樣本進(jìn)行掃描,為了表述方便,3臺儀器的名稱分別命名為:m5、mp5和mp6。
在本實施例中,將儀器m5作為主儀器,mp5和mp6作為目標(biāo)儀器。在80個樣本中,隨機選擇50個樣本構(gòu)成主儀器m5下掃描得到的數(shù)據(jù)集剩下的30個樣本中,分別隨機選擇5個樣本構(gòu)成目標(biāo)儀器mp5和mp6下掃描得到的數(shù)據(jù)集最終剩下的20個樣本分別作為目標(biāo)儀器mp5和mp6的待測樣本(各10個)xi(i=1,2,...,10)。這里,我們選擇玉米的蛋白質(zhì)含量作為待測組分。
在本實施例中,映射模型的建立采用極限學(xué)習(xí)機(Extreme Learning Machine,ELM)算法,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,ELM的輸入層與隱含層之間的連接權(quán)值可以隨機設(shè)定,且隱含層與輸出層之間的連接權(quán)值可以直接通過線性方程組求解得到,而不需要迭代學(xué)習(xí),因此建模時間可以大大減少。與支持向量機等方法相比,ELM具有可調(diào)參數(shù)少的優(yōu)點,可以有效地保證模型的穩(wěn)定性和泛化性能。遷移學(xué)習(xí)算法采用的是戴文淵等人于2008年提出的TrAdaBoost算法。隨機森林的規(guī)模設(shè)為20,即K=20。
為了客觀地評價本發(fā)明所提出的基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法(以下簡記為RF-TrAdaBoost)的效果,這里我們將該方法與未遷移模型法以及賀英提出的SM-TrBoostEns方法進(jìn)行對比,其中未遷移模型指的是利用ELM算法基于主儀器m5數(shù)據(jù)集Dm建立的模型。目標(biāo)儀器mp5和mp6測試集的預(yù)測結(jié)果分別如圖3和圖4所示,對應(yīng)的模型泛化性能指標(biāo)(均方根誤差RMSE和決定系數(shù)R2)如下表1所列。
表1幾種模型傳遞方法對測試集預(yù)測結(jié)果的對比
從中可以看出,若未對模型進(jìn)行遷移,將主儀器m5建立的映射模型直接應(yīng)用到目標(biāo)儀器mp5和mp6上,效果較差,決定系數(shù)最小;使用本發(fā)明所提出的模型傳遞方法,效果最佳,要明顯優(yōu)于SM-TrBoostEns方法。究其原因,主要有以下兩個:
(1)盡管SM-TrBoostEns方法中也引入了集成學(xué)習(xí)的思想,但是其是在相同的樣本分布結(jié)構(gòu)下分別使用SVM、KNN和PLS方法建立映射模型。眾所周知,當(dāng)樣本分布結(jié)構(gòu)確定時,無論使用哪種建模方法,差別均很小,因此該方法起到了重復(fù)計算的效果。而與之相反,本發(fā)明所提出的隨機森林集成是建立在不同的樣本分布結(jié)構(gòu)的基礎(chǔ)上的,因此每個映射模型學(xué)習(xí)的側(cè)重點均有所不同,因而可以使得模型的泛化性能和魯棒性更優(yōu)。
(2)本發(fā)明所提出的方法中還引入了局部結(jié)構(gòu)映射的思想,即可以根據(jù)待測樣本的分布結(jié)構(gòu)特點,自適應(yīng)地調(diào)整隨機森林中每個映射模型的權(quán)重因子。圖5給出了兩個不同的待測樣本進(jìn)行組分預(yù)測時,隨機森林中每個映射模型的權(quán)重因子大小。如圖5中所示,對于#1待測樣本而言,第2個映射模型的權(quán)重因子最大;而對于#2待測樣本而言,第18個映射模型的權(quán)重因子最大。權(quán)重因子越大,表明對應(yīng)的映射模型“正遷移”效果越佳,通過加權(quán)平均,可以大大提升整個模型的預(yù)測精度。
本發(fā)明基于隨機森林遷移學(xué)習(xí)的紅外光譜模型傳遞方法通過將隨機森林思想和遷移學(xué)習(xí)方法相結(jié)合,提出了一種新型的紅外光譜模型傳遞方法。同時,當(dāng)待測樣本的分布結(jié)構(gòu)發(fā)生變化時,本發(fā)明所提出的方法能夠自適應(yīng)地調(diào)整隨機森林中各個映射模型的權(quán)重因子。與現(xiàn)有方法相比,該方法具備魯棒性強、自適應(yīng)等優(yōu)點,不僅可以有效提升模型傳遞的準(zhǔn)確度和穩(wěn)定性,還可以自適應(yīng)樣本分布結(jié)構(gòu)發(fā)生變化的情形,因此可以廣泛應(yīng)用于固相、液相和氣相的紅外光譜模型傳遞領(lǐng)域中。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。