一種基于近紅外提高鑒別結(jié)果的定性分析方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于近紅外提高鑒別結(jié)果的定性分析方法,該方法包括:步驟1:采集樣本的近紅外光譜數(shù)據(jù),并確定建模集和測(cè)試集;步驟2:對(duì)建模集和測(cè)試集依次進(jìn)行預(yù)處理、偏最小二乘特征提取和正交線性鑒別特征提取;步驟3:采用直接模型傳遞方法計(jì)算建模集和測(cè)試集之間的光譜變換矩陣,并校正剩余測(cè)試集;步驟4:建立定性分析模型;步驟5:利用建立的定性分析模型對(duì)剩余測(cè)試集進(jìn)行定性鑒別。本發(fā)明建立在近紅外定性分析基礎(chǔ)上,在特征提取步驟中使用了在多分類(lèi)和二分類(lèi)問(wèn)題中都能使用的正交線性鑒別方法;除此之外,通過(guò)直接模型傳遞方法能夠校正測(cè)試集,從而能夠解決同一臺(tái)儀器長(zhǎng)時(shí)間的光譜偏移帶來(lái)的模型適用性問(wèn)題,提高定性鑒別的結(jié)果。
【專(zhuān)利說(shuō)明】一種基于近紅外提高鑒別結(jié)果的定性分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及近紅外定性鑒別領(lǐng)域,特別是一種基于近紅外提高鑒別結(jié)果的定性分 析方法。
【背景技術(shù)】
[0002] 近紅外光譜(Near Infrared Spectrum,NIR)是介于可見(jiàn)光(Vis)和中紅外(MIR) 之間的電磁輻射波,美國(guó)材料檢測(cè)協(xié)會(huì)(ASTM)將近紅外光譜區(qū)定義為780?2526nm的區(qū) 域,是人們?cè)谖展庾V中發(fā)現(xiàn)的第一個(gè)非可見(jiàn)光區(qū)。近紅外光譜區(qū)與有機(jī)分子中含氫基團(tuán) (〇-H、N-H、C-H)振動(dòng)的合頻和各級(jí)倍頻的吸收區(qū)一致,通過(guò)掃描樣品的近紅外光譜,可以得 到樣品中有機(jī)分子含氫基團(tuán)的特征信息,而且利用近紅外光譜技術(shù)分析樣品具有方便、快 速、高效、準(zhǔn)確和成本較低,不破壞樣品,不消耗化學(xué)試劑,不污染環(huán)境等優(yōu)點(diǎn),因此該技術(shù) 受到越來(lái)越多人的青睞。
[0003] 隨著分析技術(shù)的快速發(fā)展,基于近紅外光譜的各類(lèi)檢測(cè)技術(shù)雖然得到了廣泛的應(yīng) 用,但是基本都是在定量分析中的應(yīng)用,在定性分析應(yīng)用中較少。而目前較為需求的則是近 紅外光譜的定性分析鑒別技術(shù),例如在食品安全領(lǐng)域,要鑒別作物種子的品種真實(shí)性,以保 障農(nóng)民的生產(chǎn)利益;檢測(cè)奶粉中是否含有某些特殊物質(zhì)以確保食用安全;在藥品安全領(lǐng)域 中,檢測(cè)藥物中是否含有某一種成分,以確保用藥安全等??梢?jiàn)近紅外光譜定性分析技術(shù), 會(huì)在更多的領(lǐng)域得到發(fā)展,同時(shí)也會(huì)在更多領(lǐng)域發(fā)揮越來(lái)越重要的作用。
[0004] 在實(shí)際應(yīng)用近紅外定性分析過(guò)程中,以往的實(shí)驗(yàn)結(jié)果都是在采集條件較為理想的 數(shù)據(jù)集上得到的,而在實(shí)際應(yīng)用中,采集的實(shí)驗(yàn)數(shù)據(jù)往往會(huì)包含很多不確定信息,這些不確 定信息可能影響整個(gè)定性分析模型的性能,從而影響定性鑒別分析的結(jié)果準(zhǔn)確性。
[0005] 針對(duì)該問(wèn)題,有人提出了模型傳遞的思想,它是用于解決多臺(tái)相同型號(hào)儀器之間 的模型共用問(wèn)題。除了不同儀器之間的差別,同一臺(tái)儀器長(zhǎng)時(shí)間的光譜偏移同樣面臨著模 型適用性的問(wèn)題,由于相同物質(zhì)不同品種間成分相差較小,光譜相互交疊,因此這種差異對(duì) 定性分析的影響甚至比定量分析更為嚴(yán)重,嚴(yán)重時(shí)甚至完全不能正確識(shí)別。
[0006] 實(shí)際應(yīng)用近紅外光譜進(jìn)行定性分析時(shí),很多方法在特征提取時(shí)都用到了線性鑒別 分析(LDA),由于LDA方法提取的數(shù)據(jù)維數(shù)必須比類(lèi)別數(shù)小1,因此如果在定性分析中使用 LDA算法,當(dāng)類(lèi)別數(shù)較少的時(shí)候,則限定了 LDA提取數(shù)據(jù)的維數(shù),很可能導(dǎo)致有用信息的丟 失,甚至算法完全失效。小樣本問(wèn)題是是線性鑒別分析最大的問(wèn)題。因此本發(fā)明使用了正 交線性鑒別分析(OLDA)方法,使本發(fā)明所提出來(lái)的定性鑒別分析不僅能用于多分類(lèi)問(wèn)題, 還能用于二分類(lèi)問(wèn)題。
[0007] 針對(duì)目前近紅外定性分析和模型適用性等的現(xiàn)狀與諸多不足,本發(fā)明提出一種基 于近紅外提高鑒別結(jié)果的定性分析方法。
【發(fā)明內(nèi)容】
[0008] (一)要解決的技術(shù)問(wèn)題
[0009] 有鑒于此,本發(fā)明的主要目的是為了提供一種簡(jiǎn)單可行、快速高效,并且能提高定 性分析鑒別結(jié)果的一種基于近紅外提高鑒別結(jié)果的定性分析方法。
[0010] (二)技術(shù)方案
[0011] 為達(dá)到上述目的,本發(fā)明提供了一種基于近紅外提高鑒別結(jié)果的定性分析方法, 該方法包括:
[0012] 步驟1 :采集樣本的近紅外光譜數(shù)據(jù),并確定建模集和測(cè)試集;
[0013] 步驟2 :對(duì)建模集和測(cè)試集依次進(jìn)行預(yù)處理、偏最小二乘特征提取和正交線性鑒 別特征提?。?br>
[0014] 步驟3 :采用直接模型傳遞方法計(jì)算建模集和測(cè)試集之間的光譜變換矩陣,并校 正剩余測(cè)試集;
[0015] 步驟4 :建立定性分析模型;
[0016] 步驟5 :利用建立的定性分析模型對(duì)剩余測(cè)試集進(jìn)行定性鑒別。
[0017] 上述方案中,步驟1中所述采集樣本的近紅外光譜數(shù)據(jù),是采用近紅外光譜儀在 不同時(shí)間采集樣本的近紅外光譜數(shù)據(jù)。所述確定建模集和測(cè)試集,是將在同一天采集的光 譜數(shù)據(jù)作為建模集,建模集是用來(lái)建立定性分析模型的原始建模數(shù)據(jù);將不同采集日期采 集的近紅外光譜數(shù)據(jù)作為不同的測(cè)試集,測(cè)試集是用來(lái)鑒別種子品種真實(shí)性的原始測(cè)試數(shù) 據(jù)。
[0018] 上述方案中,步驟2中所述對(duì)建模集和測(cè)試集依次進(jìn)行預(yù)處理、偏最小二乘特征 提取和正交線性鑒別特征提取,具體包括:
[0019] 步驟21 :對(duì)建模集和測(cè)試集的原始數(shù)據(jù)用相同的預(yù)處理方法及相同的參數(shù)進(jìn)行 預(yù)處理;
[0020] 步驟22 :對(duì)經(jīng)過(guò)預(yù)處理之后的建模集數(shù)據(jù)進(jìn)行偏最小二乘特征提取,得到偏最小 二乘特征矩陣,以利用該矩陣將數(shù)據(jù)變換到偏最小二乘空間;
[0021] 步驟23 :利用得到的偏最小二乘特征矩陣,將經(jīng)過(guò)預(yù)處理之后的建模集和測(cè)試集 數(shù)據(jù)變換到偏最小二乘空間中;
[0022] 步驟24 :對(duì)經(jīng)過(guò)偏最小二乘特征提取之后的建模集數(shù)據(jù)進(jìn)行正交線性鑒別分析 特征提取,得到正交線性鑒別分析特征矩陣;
[0023] 步驟25 :利用得到的正交線性鑒別分析特征矩陣,將經(jīng)過(guò)偏最小二乘特征提取之 后的建模集和測(cè)試集數(shù)據(jù)變換到正交線性鑒別分析空間中;
[0024] 步驟26 :利用變換到正交線性鑒別分析空間中的建模集數(shù)據(jù)進(jìn)行建模,用變換到 線性鑒別分析空間中的測(cè)試集數(shù)據(jù)進(jìn)行鑒別。
[0025] 上述方案中,步驟2中所述的預(yù)處理、偏最小二乘特征提取和正交線性鑒別分析 特征提取,在對(duì)建模集和測(cè)試集處理時(shí)采用相同的參數(shù)。
[0026] 上述方案中,步驟22中進(jìn)行偏最小二乘特征提取,得到偏最小二乘特征矩陣,具 體包括:
[0027] 步驟221 :對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即令樣本的各個(gè)變量的均值為0,方差為 1 ;令樣本矩陣為Xtl,類(lèi)別信息矩陣為Ytl ;其中,Xtl定義為n條光譜p個(gè)數(shù)據(jù)點(diǎn)的原始光譜矩 陣,Ytl為對(duì)應(yīng)的類(lèi)別屬性矩陣:
[0028]
【權(quán)利要求】
1. 一種基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,該方法包括: 步驟1 :采集樣本的近紅外光譜數(shù)據(jù),并確定建模集和測(cè)試集; 步驟2 :對(duì)建模集和測(cè)試集依次進(jìn)行預(yù)處理、偏最小二乘特征提取和正交線性鑒別特 征提??; 步驟3 :采用直接模型傳遞方法計(jì)算建模集和測(cè)試集之間的光譜變換矩陣,并校正剩 余測(cè)試集; 步驟4:建立定性分析模型; 步驟5 :利用建立的定性分析模型對(duì)剩余測(cè)試集進(jìn)行定性鑒別。
2. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟1中所述采集樣本的近紅外光譜數(shù)據(jù),是采用近紅外光譜儀在不同時(shí)間采集樣本的近紅 外光譜數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟1中所述確定建模集和測(cè)試集,是將在同一天采集的光譜數(shù)據(jù)作為建模集,建模集是用 來(lái)建立定性分析模型的原始建模數(shù)據(jù);將不同采集日期采集的近紅外光譜數(shù)據(jù)作為不同的 測(cè)試集,測(cè)試集是用來(lái)鑒別種子品種真實(shí)性的原始測(cè)試數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟2中所述對(duì)建模集和測(cè)試集依次進(jìn)行預(yù)處理、偏最小二乘特征提取和正交線性鑒別特征 提取,具體包括: 步驟21 :對(duì)建模集和測(cè)試集的原始數(shù)據(jù)用相同的預(yù)處理方法及相同的參數(shù)進(jìn)行預(yù)處 理; 步驟22 :對(duì)經(jīng)過(guò)預(yù)處理之后的建模集數(shù)據(jù)進(jìn)行偏最小二乘特征提取,得到偏最小二乘 特征矩陣,以利用該矩陣將數(shù)據(jù)變換到偏最小二乘空間; 步驟23 :利用得到的偏最小二乘特征矩陣,將經(jīng)過(guò)預(yù)處理之后的建模集和測(cè)試集數(shù)據(jù) 變換到偏最小二乘空間中; 步驟24 :對(duì)經(jīng)過(guò)偏最小二乘特征提取之后的建模集數(shù)據(jù)進(jìn)行正交線性鑒別分析特征 提取,得到正交線性鑒別分析特征矩陣; 步驟25 :利用得到的正交線性鑒別分析特征矩陣,將經(jīng)過(guò)偏最小二乘特征提取之后的 建模集和測(cè)試集數(shù)據(jù)變換到正交線性鑒別分析空間中; 步驟26 :利用變換到正交線性鑒別分析空間中的建模集數(shù)據(jù)進(jìn)行建模,用變換到線性 鑒別分析空間中的測(cè)試集數(shù)據(jù)進(jìn)行鑒別。
5. 根據(jù)權(quán)利要求4所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟2中所述的預(yù)處理、偏最小二乘特征提取和正交線性鑒別分析特征提取,在對(duì)建模集和 測(cè)試集處理時(shí)采用相同的參數(shù)。
6. 根據(jù)權(quán)利要求4所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟22中進(jìn)行偏最小二乘特征提取,得到偏最小二乘特征矩陣,具體包括: 步驟221 :對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即令樣本的各個(gè)變量的均值為0,方差為1 ;令 樣本矩陣為Xtl,類(lèi)別信息矩陣為Ytl ;其中,Xtl定義為η條光譜p個(gè)數(shù)據(jù)點(diǎn)的原始光譜矩陣, Ytl為對(duì)應(yīng)的類(lèi)別屬性矩陣:
Y(i中,yu = 1表示第i條光譜屬于第j類(lèi),yu = O表示第i條光譜不屬于第j類(lèi); 步驟222:求矩陣Xi Jtl的協(xié)方差矩陣C = Xi A),協(xié)方差矩陣常數(shù)舍棄; 步驟223 :求得協(xié)方差矩陣C的特征值以及對(duì)應(yīng)的特征向量,并將特征向量按照特征值 的大小排列,取最大的η維特征值對(duì)應(yīng)的特征向量組成投影矩陣W1^ ; 步驟224 :得到新的特征向量為X' i = XiW' PIjS。
7. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟24中所述的進(jìn)行正交線性鑒別分析特征提取,得到正交線性鑒別分析特征矩陣,具體包 括: 步驟241 :假設(shè)有C類(lèi)樣本,總樣本數(shù)為N,Ni為第i類(lèi)樣本數(shù),則定義類(lèi)內(nèi)散布矩陣Sw、 類(lèi)間散布矩陣Sb如下:
其中,
丨為第i類(lèi)模式的均值,
為總樣本均值; 步驟242 :將正交線性鑒別分析的優(yōu)化問(wèn)題轉(zhuǎn)換為求解下式的優(yōu)化問(wèn)題:
其中,Wi (i = 1,2,...,)對(duì)應(yīng)為下式特征值降序排列前η個(gè)值對(duì)應(yīng)的特征向量,且要 滿(mǎn)足WtW = I : SBw = λ SwW ; 步驟243 :得到Wraili^pt后,取最大的η維特征值對(duì)應(yīng)的特征向量組成投影矩陣Wcma,即 可進(jìn)行數(shù)據(jù)轉(zhuǎn)換t =YW' _Α。
8. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟24中所述的正交線性鑒別分析特征矩陣,與線性鑒別分析特征矩陣相比,正交線性鑒別 分析特征矩陣在求解變換矩陣的過(guò)程中,特征向量之間是兩兩正交的,即滿(mǎn)足W tW = I。
9. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟3中所述采用直接模型傳遞方法計(jì)算建模集和測(cè)試集之間的光譜變換矩陣,具體包括: 首先從建模集和測(cè)試集中各自挑選出用于光譜校正的光譜數(shù)據(jù);然后用直接模型傳遞 方法計(jì)算變換矩陣。
10. 根據(jù)權(quán)利要求9所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,所 述挑選光譜校正數(shù)據(jù),是從建模集和測(cè)試集中各自挑選出用于光譜校正的光譜數(shù)據(jù),所用 方法包括Kennard/Stone算法,采用Kennard/Stone算法挑選光譜校正數(shù)據(jù)的過(guò)程具體包 括: 步驟31 :設(shè)置需要選取的校正樣品個(gè)數(shù)k ; 步驟32 :計(jì)算所有建模集樣本兩兩之間的距離,將距離最遠(yuǎn)的兩個(gè)樣本選為校正集的 第一、二個(gè)樣本; 步驟33 :對(duì)于剩余樣本,計(jì)算其與已選樣本之間的距離并取其最小值,然后選擇這些 距離中最大值對(duì)應(yīng)的樣本為本次選擇樣本; 步驟34 :重復(fù)步驟33,直至選夠k個(gè)樣本組成建模集的校正集; 步驟35 :在測(cè)試集中選擇建模集中所選出的對(duì)應(yīng)編號(hào)的樣本作為測(cè)試集的校正集。
11. 根據(jù)權(quán)利要求9所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟3中所述的建模集和測(cè)試集,是指經(jīng)過(guò)預(yù)處理、偏最小二乘和正交線性鑒別分析特征提 取之后的光譜數(shù)據(jù)集;所述的光譜變換矩陣,是測(cè)試集與建模集之間的光譜變換矩陣,不同 的測(cè)試集對(duì)應(yīng)不同的變換矩陣。
12. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟3中所述的校正剩余測(cè)試集,是利用計(jì)算所得到的光譜變換矩陣,得到建模集和測(cè)試集 之間的校正關(guān)系,并將這種校正關(guān)系應(yīng)用在剩余測(cè)試集中,消除時(shí)間推移帶來(lái)的測(cè)試集光 譜與建模集光譜之間的偏移現(xiàn)象,從而解決光譜偏移所帶來(lái)的模型不適用的問(wèn)題。
13. 根據(jù)權(quán)利要求12所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于, 步驟3中所述的剩余測(cè)試集,是指從測(cè)試集中挑選出光譜校正集之后剩余的測(cè)試數(shù)據(jù)集。
14. 根據(jù)權(quán)利要求1所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于,步 驟4中所述建立定性分析模型,采用的建模方法根據(jù)模型的適用范圍及分析目標(biāo)的不同采 用不同的建模方法,包括基于高維形象幾何分析的仿生模式識(shí)別方法、支持向量機(jī)或最近 歐氏距離方法。
15. 根據(jù)權(quán)利要求14所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于, 步驟4中所述建立定性分析模型采用仿生模式識(shí)別方法,則步驟5中所述用所建模型對(duì)剩 余測(cè)試集進(jìn)行定性鑒別,采用仿生模式識(shí)別方法,該方法具體包括: 步驟51 :計(jì)算超香腸神經(jīng)元;首先對(duì)建模集中的每一類(lèi)樣本進(jìn)行模糊聚類(lèi),在每一個(gè) 聚類(lèi)簇上建立超香腸神經(jīng)元,最終建立的超香腸神經(jīng)元數(shù)目為類(lèi)別數(shù)目CX每類(lèi)的聚類(lèi)數(shù) K,超香腸神經(jīng)元輸出采用簡(jiǎn)單的點(diǎn)到超香腸距離的倒數(shù),分母上加1的目的是為確保分母 不為雲(yún)·
其中X表示輸入樣本向量,τ表示超香腸神經(jīng)元的核; 步驟52 :計(jì)算感知器神經(jīng)元;感知器數(shù)目等于類(lèi)別數(shù)目C,對(duì)于建模樣本集X,行表示樣 本,列表不變量,對(duì)每一類(lèi)定義一個(gè)感知器的期望輸出列向量qi,其值由〇或1組成,1表不 訓(xùn)練樣本屬于第i類(lèi),〇表示訓(xùn)練樣本不屬于第i類(lèi);對(duì)于未知樣本X,其第i個(gè)感知器輸出 標(biāo)量為: qi = Xwi,其中 Wi = (X' ΧΠ ' qi 步驟53 :超香腸神經(jīng)元和感知器聯(lián)合輸出為: 0J = Pj*Qi 其中,為第j個(gè)超香腸神經(jīng)元的輸出,第j個(gè)超香腸神經(jīng)元屬于類(lèi)別i,Qi為該類(lèi)別 的感知器輸出; 步驟54 :采用最小二乘法直接求解得出線性神經(jīng)元的權(quán)值,用O表示超香腸神經(jīng)元和 感知器聯(lián)合輸出矩陣,其中表示第i個(gè)樣本在第j個(gè)超香腸神經(jīng)元和感知器的聯(lián)合輸 出,定義y為訓(xùn)練集期望輸出列向量,則對(duì)應(yīng)的線性神經(jīng)元權(quán)值為: ψ = (O' 0)_10/ y 步驟55 :對(duì)得到的估計(jì)值選取合適的閾值,便可以進(jìn)行分類(lèi)。
16.根據(jù)權(quán)利要求15所述的基于近紅外提高鑒別結(jié)果的定性分析方法,其特征在于, 步驟5中所述剩余測(cè)試集,是指進(jìn)行了光譜校正之后的剩余測(cè)試集。
【文檔編號(hào)】G01N21/359GK104374738SQ201410599230
【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】張麗萍, 李衛(wèi)軍, 董肖莉, 覃鴻 申請(qǐng)人:中國(guó)科學(xué)院半導(dǎo)體研究所