專利名稱:基于近紅外光譜與信息處理的玉米品種鑒別方法
技術領域:
本發(fā)明涉及玉米品種的鑒別技術領域,特別是一種基于近紅外光譜與信息處理的玉米品種鑒別方法。
背景技術:
現(xiàn)有的農(nóng)作物品種鑒別方法有形態(tài)學方法、熒光掃描鑒定法、化學鑒定法和電泳鑒定法等。形態(tài)學方法所需鑒別時間長,且精度不高;熒光掃描鑒定法、化學鑒定法和DNA分子標記鑒定法鑒別精度高,但所需時間長,且鑒別成本較高,過程煩瑣,因而不適宜對樣品進行批量分析及快速鑒定。
近紅外光譜是指在近紅外取的吸收光譜,波長范圍780nm~2500nm,近紅外光譜可以反映出樣品中有機分子含氫基團的特征信息,因此可以用近紅外光譜分析對化合物中C-H、O-H、N-H等含氫原子團進行定量分析,進一步可以利用近紅外光譜來鑒別農(nóng)作物品種。
另外,近紅外光譜具有穿透力強,不會對人體產(chǎn)生傷害,對環(huán)境沒有污染以及高效快速,采集近紅外光譜等操作無須專業(yè)人士等優(yōu)點。
陳建等在光譜學與光譜分析雜志上發(fā)表的《基于近紅外光譜技術和人工神經(jīng)網(wǎng)絡的玉米品種鑒別方法研究》,以及李曉麗等在光譜學與光譜分析雜志上發(fā)表的《基于可見/近紅外光譜的水稻品種快速鑒別研究》均提到了使用近紅外光譜與主成分分析的鑒別方法,但是,所用的主成分分析的分析方法只能適用于品種種類數(shù)目比較少的情況下。
為此,根據(jù)玉米種子光譜數(shù)據(jù)的特點,本發(fā)明提出了改進方法,在保證準確率的前提下將之推廣到種類數(shù)目較多的情況。
發(fā)明內(nèi)容
(一)要解決的技術問題 有鑒于此,本發(fā)明的主要目的是為了提供一種快速高效、無污染、不會對人體產(chǎn)生傷害,無須專業(yè)人士即可實現(xiàn)的基于近紅外光譜與信息處理的玉米品種鑒別方法,并改進現(xiàn)有方法只能在種類數(shù)目較少的情況下鑒別的缺點。
(二)技術方案 為達到上述目的,本發(fā)明提供了一種基于近紅外光譜與信息處理的玉米品種鑒別方法,該方法包括 獲取光譜數(shù)據(jù); 對訓練樣本集進行歸一化主成分分析,并根據(jù)樣本點在主軸上的散布情況調(diào)整主成分的權重; 使用最近鄰分類方法為分類器進行分類。
上述方案中,所述的獲取光譜數(shù)據(jù),使用傅立葉變換漫反射近紅外光譜儀,譜區(qū)范圍4000~12000cm-1,掃描次數(shù)64次,分辨率8cm-1,對同一品種的玉米籽粒多次取樣,每個參與訓練的樣本至少取樣15次。
上述方案中,所述的歸一化主成分分析,是將樣本主成分分析得到的各主成分進行平方和歸一化。
上述方案中,所述將樣本主成分分析得到的各主成分進行平方和歸一化,具體包括 首先得到訓練數(shù)據(jù)集合xj,j=1,…,s的協(xié)方差矩陣Cx,然后求出Cx從大到小排列的特征值λk以及滿足條件
的特征向量uk,然后令
為新的特征向量,將
按照λk的大小降序排列,并將其作為列組成歸一化主成分分析的變換矩陣U,得到樣本的特征數(shù)據(jù)為yi=UTxi,主成分數(shù)目25~35。
上述方案中,所述的根據(jù)樣本點在主軸上的散布情況調(diào)整主成分的權重,是對主成分進行加權,加權系數(shù)
其中,βki表示第k類的第i樣本在第n主軸上的投影值,
表示第k類的所有訓練樣本在第n主軸上的投影平均值,
表示所有訓練樣本在第n主軸上的投影平均值,加權后得到的樣本特征為zi=(h1yi1,h2yi2,…,hdyid),其中i表示某樣本,d表示主成分的數(shù)目。
(三)有益效果 從上述技術方案可以看出,本發(fā)明具有以下有益效果 本發(fā)明采用近紅外光譜數(shù)據(jù)來對玉米品種進行鑒別,快速高效、無污染、不會對人體產(chǎn)生傷害,無須專業(yè)人士即可實現(xiàn)。采用改進的主成分分析方法分析數(shù)據(jù)特征,克服了傳統(tǒng)的主成分分析方法鑒別正確率低(圖3所示),只能適用于數(shù)目較少品種的鑒別的缺點。
圖1是本發(fā)明提供的基于近紅外光譜與信息處理的玉米品種鑒別方法的流程圖; 圖2是訓練樣本協(xié)方差矩陣特征值的變化曲線; 圖3是傳統(tǒng)PCA與本發(fā)明所提方法隨主成分數(shù)變化的識別正確率曲線;其中,傳統(tǒng)PCA為虛線、圓形標識,本發(fā)明所提方法是實線、方塊標識。
具體實施例方式 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
本發(fā)明的目的是分為三步來實現(xiàn)的,圖1是本發(fā)明提供的基于近紅外光譜與信息處理的玉米品種鑒別方法的流程圖,該方法包括以下步驟 步驟1獲取光譜數(shù)據(jù); 步驟2對訓練樣本集進行歸一化主成分分析,并根據(jù)樣本點在主軸上的散布情況調(diào)整主成分的權重; 步驟3使用最近鄰分類方法為分類器進行分類。
上述步驟1中,所述的獲取光譜數(shù)據(jù),是使用傅立葉變換漫反射近紅外光譜儀,譜區(qū)范圍4000~12000cm-1,掃描次數(shù)64次,分辨率8cm-1,對同一品種的玉米籽粒多次取樣,每個參與訓練的樣本至少取樣15次。
上述步驟2中,所述的歸一化主成分分析,是將樣本主成分分析得到的各主成分進行平方和歸一化。具體包括首先得到訓練數(shù)據(jù)集合xj,j=1,…,s的協(xié)方差矩陣Cx,然后求出Cx從大到小排列的特征值λk以及滿足條件
的特征向量uk,然后令
為新的特征向量,將
按照λk的大小降序排列,并將其作為列組成歸一化主成分分析的變換矩陣U,得到樣本的特征數(shù)據(jù)為yi=UTxi,主成分數(shù)目25~35。
上述步驟2中,所述的根據(jù)樣本點在主軸上的散布情況調(diào)整主成分的權重,是對主成分進行加權,加權系數(shù)
其中,βki表示第k類的第i樣本在第n主軸上的投影值,
表示第k類的所有訓練樣本在第n主軸上的投影平均值,
表示所有訓練樣本在第n主軸上的投影平均值,加權后得到的樣本特征為zi=(h1yi1,h2yi2,…,hdyid),其中i表示某樣本,d表示主成分的數(shù)目。
再次參照圖1,介紹本發(fā)明實施例中基于近紅外光譜與信息處理的玉米品種鑒別方法的流程圖,具體包括以下步驟 步驟1光譜的采集。
采集需使用傅立葉變換漫反射近紅外光譜儀,譜區(qū)范圍4000~12000cm-1,掃描次數(shù)64次,分辨率8cm-1。玉米品種共有37個,對同一品種的玉米籽粒多次取樣,測量25次,每個品種共得到25個樣本,數(shù)據(jù)長度為2075。選取其中30個品種,每個品種的15個樣本組成訓練集,共450個樣本;該30個品種每個品種剩余的10個樣本組成第一測試集,共300個樣本;剩余沒有參加訓練的7個品種的所有樣本組成第二測試集,共175個樣本。
步驟2訓練過程。
首先對訓練樣本集進行歸一化主成分分析。由所有的訓練樣本xj,j=1,…,s其中s=450,組成列向量的數(shù)據(jù)集合,維數(shù)2075,m是其均值向量
協(xié)方差矩陣是
求出協(xié)方差矩陣從大到小排列的特征值λk以及滿足條件
的特征向量uk,令
為新的特征向量,將
按照λk的大小降序排列,并將其作為列組成變換矩陣U(需保存該變換矩陣以備后續(xù)步驟使用),最后得到歸一化主成分分析后的樣本特征數(shù)據(jù)yi=UTxi。主成分的數(shù)目定為31,累積貢獻率99.99%。
其次,根據(jù)樣本點在主軸上的散布情況調(diào)整主成分的權重(需保存此權重以備后續(xù)步驟使用),即對主成分進行加權,樣本點的第n主成分的加權系數(shù)
其中βki表示第k類的第i樣本在第n主軸上的投影值,
表示第k類的所有訓練樣本在第n主軸上的投影平均值,
表示所有訓練樣本在第n主軸上的投影平均值。加權后得到的樣本特征為zi=(h1yi1,h2yi2,…,h31yi31),其中i表示某樣本。最后,將所有的訓練樣本特征建立模板庫。
步驟3識別過程。
訓練得到的變換矩陣轉置后與待測樣本相乘并由權重系數(shù)進行加權,得到測試樣本的樣本特征,使用最近鄰分類方法對提取的特征進行分類識別,先計算一個測試樣本點到某一品種的訓練樣本集的最小距離,當最小距離小于某個閾值時,判定該測試樣本點屬于該品種。閾值的選擇按照‘等誤率’的原則,本實施例所取的閾值如下將所有其他品種訓練樣本到某一品種的訓練樣本集的最小距離升序排列,選取第8個值作為該品種閾值。
步驟4鑒別結果。
采用交叉驗證的方式,共進行了10次測試,取平均值,訓練集的30個品種,對第一測試集的300個樣本中的同類樣本的平均正確識別率為97.93%,對第一測試集的300個樣本中的非同類樣本的平均正確拒識率為97.61%;對第二測試集的175個樣本(均為非同類樣本)的平均正確拒識率為97.69%。
以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種基于近紅外光譜與信息處理的玉米品種鑒別方法,其特征在于,該方法包括
獲取光譜數(shù)據(jù);
對訓練樣本集進行歸一化主成分分析,并根據(jù)樣本點在主軸上的散布情況調(diào)整主成分的權重;
使用最近鄰分類方法為分類器進行分類。
2.根據(jù)權利要求1所述的基于近紅外光譜與信息處理的玉米品種鑒別方法,其特征在于,所述的獲取光譜數(shù)據(jù),使用傅立葉變換漫反射近紅外光譜儀,譜區(qū)范圍4000~12000cm-1,掃描次數(shù)64次,分辨率8cm-1,對同一品種的玉米籽粒多次取樣,每個參與訓練的樣本至少取樣15次。
3.根據(jù)權利要求1所述的基于近紅外光譜與信息處理的玉米品種鑒別方法,其特征在于,所述的歸一化主成分分析,是將樣本主成分分析得到的各主成分進行平方和歸一化。
4.根據(jù)權利要求3所述的基于近紅外光譜與信息處理的玉米品種鑒別方法,其特征在于,所述將樣本主成分分析得到的各主成分進行平方和歸一化,具體包括
首先得到訓練數(shù)據(jù)集合xj,j=1,...,s的協(xié)方差矩陣Cx,然后求出Cx從大到小排列的特征值λk以及滿足條件
的特征向量uk,然后令
為新的特征向量,將
按照λk的大小降序排列,并將其作為列組成歸一化主成分分析的變換矩陣U,得到樣本的特征數(shù)據(jù)為yi=UTxi,主成分數(shù)目25~35。
5.根據(jù)權利要求1所述的基于近紅外光譜與信息處理的玉米品種鑒別方法,其特征在于,所述的根據(jù)樣本點在主軸上的散布情況調(diào)整主成分的權重,是對主成分進行加權,加權系數(shù)
其中,βki表示第k類的第i樣本在第n主軸上的投影值,
表示第k類的所有訓練樣本在第n主軸上的投影平均值,
表示所有訓練樣本在第n主軸上的投影平均值,加權后得到的樣本特征為zi=(h1yi1,h2yi2,...,hdyid),其中i表示某樣本,d表示主成分的數(shù)目。
全文摘要
本發(fā)明公開了一種基于近紅外光譜與信息處理的玉米品種鑒別方法,該方法使用傅里葉變換漫反射近紅外光譜儀采集玉米種子的光譜數(shù)據(jù),根據(jù)光譜特點,采用歸一化主成分分析,即將樣本點在各主軸上的投影的平方和歸一化,調(diào)整樣本點在特征空間中的分布,并根據(jù)數(shù)據(jù)在各主軸上投影的散布情況調(diào)整主成分權重,最后采用最近鄰分類方法進行分類。與傳統(tǒng)化學鑒別方法相比,本發(fā)明提供的方法高效,快捷,并且無須專業(yè)人士操作。
文檔編號G01N21/35GK101819141SQ20101016231
公開日2010年9月1日 申請日期2010年4月28日 優(yōu)先權日2010年4月28日
發(fā)明者王徽蓉, 李衛(wèi)軍, 陳新亮 申請人:中國科學院半導體研究所