本發(fā)明涉及了一種模式識(shí)別優(yōu)化方法,尤其是涉及了一種高準(zhǔn)確性茶葉香氣類型和品質(zhì)的模式識(shí)別檢測方法。
背景技術(shù):
模式識(shí)別的方法多種多樣,常用的包括pca、lda、bp神經(jīng)網(wǎng)絡(luò)等。而選取的方法是否高效準(zhǔn)確,常常取決于數(shù)據(jù)有何特點(diǎn)。茶葉香氣被電子鼻采集形成電信號(hào)數(shù)據(jù),由于數(shù)據(jù)是由幾個(gè)氣敏傳感器測得的,所以該數(shù)據(jù)可以通過預(yù)處理降維至與傳感器數(shù)目構(gòu)成倍數(shù)關(guān)系的維數(shù)。因此茶葉香氣數(shù)據(jù)具有維數(shù)不大,樣本采集成本較高的特點(diǎn),使用pca或lda法進(jìn)行識(shí)別可以滿足要求。
然而,茶葉香氣的另一特點(diǎn)是不同類型間差異很大,同一類型的不同品質(zhì)間差異不大。如果希望同時(shí)識(shí)別出茶葉的類型和品質(zhì),則需要不同類型以及相同類型不同品質(zhì)的茶葉香氣數(shù)據(jù)在同一模式識(shí)別模型下有相近的分辨率,這與數(shù)據(jù)的特點(diǎn)相矛盾;或提高模式識(shí)別模型整體的分辨率,但這對樣本數(shù)量、質(zhì)量以及測量誤差都有著很高的要求。
技術(shù)實(shí)現(xiàn)要素:
為了解決背景技術(shù)中存在的問題,本發(fā)明提出了一種高準(zhǔn)確性檢測茶葉類型和品質(zhì)的模式識(shí)別優(yōu)化方法,通過改變預(yù)處理方法和模式識(shí)別方法建立多個(gè)模式識(shí)別模型,并通過改變限定條件對模型進(jìn)行優(yōu)化,從而獲得一個(gè)或多個(gè)觀察樣本數(shù)據(jù)在模型中分布的角度,減少與待測茶葉差異較大的樣本對建模的干擾,得到更加準(zhǔn)確的模型。
本發(fā)明的技術(shù)方案包括如下步驟:
1)通過氣敏傳感器采集已知類型和品質(zhì)的茶葉香氣的香氣數(shù)據(jù),針對每一類型的茶葉香氣采集有不同品質(zhì)的香氣數(shù)據(jù),每個(gè)類型下每個(gè)品質(zhì)的茶葉香氣的數(shù)據(jù)值均經(jīng)特定處理獲得樣本向量,并存入數(shù)據(jù)庫;
2)通過氣敏傳感器采集未知類型和品質(zhì)的茶葉香氣的香氣數(shù)據(jù),經(jīng)特定處理獲得樣本向量;
3)根據(jù)所有已知的不同類型和品質(zhì)的茶葉香氣構(gòu)建模式識(shí)別模型;
4)用模式識(shí)別模型識(shí)別未知類型和品質(zhì)的茶葉香氣的樣本向量與已知類型和品質(zhì)的茶葉香氣的樣本向量之間的相似性,獲得相似性結(jié)果;
5)根據(jù)相似性結(jié)果優(yōu)化重復(fù)步驟重新構(gòu)建模式識(shí)別模型,直至相似性結(jié)果達(dá)到要求;
6)判斷數(shù)據(jù)庫中是否存在與未知茶葉香氣的類型和品質(zhì)相匹配的已知茶葉香氣:
若存在,則取相似性最高的茶葉香氣的類型和品質(zhì)作為識(shí)別結(jié)果,作為未知茶葉香氣的類型和品質(zhì);
否則認(rèn)為數(shù)據(jù)庫中不包含未知茶葉香氣所屬的類型和品質(zhì)。
所述步驟1)和2)中經(jīng)特定處理獲得樣本向量具體是:針對每個(gè)傳感器,求取傳感器采集到原始數(shù)據(jù)的均值或方差最大時(shí)刻對應(yīng)的電壓值,作為樣本向量。
均值為每個(gè)傳感器在60s內(nèi)電壓值的均值。
方差最大對應(yīng)時(shí)刻的電壓值具體采用以下方式獲得:針對傳感器的每個(gè)采集時(shí)刻,計(jì)算該時(shí)刻所有已知類型和品質(zhì)的茶葉香氣的香氣數(shù)據(jù)電壓值的方差,取方差最大所在的時(shí)刻的傳感器電壓值。
具體解釋如何求方差最大對應(yīng)時(shí)刻。例如:步驟1共有5種已知類型和品質(zhì)的茶葉香氣,每種茶葉香氣對應(yīng)8個(gè)傳感器,因此每秒能得到8個(gè)電壓值,5種已知類型和品質(zhì)的茶葉香氣每秒共能得到40個(gè)電壓值。假設(shè)檢測時(shí)間為60秒,則計(jì)算第一秒的40個(gè)電壓值的方差,第二秒的40個(gè)電壓值的方差,以此類推直至第60秒。得到的60個(gè)方差取最大值,對應(yīng)的時(shí)刻為方差最大對應(yīng)時(shí)刻。
所述步驟2)的模式識(shí)別模型是采用pca(主成分分析)法或lda(線性判別分析)法對數(shù)據(jù)進(jìn)行分別處理獲得的pca(主成分分析)模型或lda(線性判別分析)模型。
所述步驟4)具體為:
4.1)未知類型和品質(zhì)的茶葉香氣的一個(gè)樣本向量和不同已知類型的茶葉香氣的多個(gè)樣本向量分別與模式識(shí)別模型相乘后獲得二維坐標(biāo),再將所有獲得的各個(gè)二維坐標(biāo)繪制在直角坐標(biāo)系上;
4.2)求取每一已知類型的茶葉香氣對應(yīng)的多個(gè)二維坐標(biāo)的均值作為該類型的茶葉香氣的樣本坐標(biāo)中心,以未知類型和品質(zhì)的茶葉香氣對應(yīng)的二維坐標(biāo)分別和各個(gè)已知類型的茶葉香氣對應(yīng)的樣本坐標(biāo)中心之間距離中的最小值作為最小距離d;
4.3)以未知類型和品質(zhì)的茶葉香氣對應(yīng)的二維坐標(biāo)作為圓心,以最小距離d的m倍為半徑構(gòu)建圓,樣本坐標(biāo)中心在所述圓范圍內(nèi)所對應(yīng)的茶葉香氣與未知類型和品質(zhì)的茶葉香氣相似,去除不相似的茶葉香氣對應(yīng)的數(shù)據(jù),保留相似的茶葉香氣對應(yīng)的數(shù)據(jù),未知類型和品質(zhì)的茶葉香氣對應(yīng)的二維坐標(biāo)分別和已知類型的茶葉香氣對應(yīng)的樣本坐標(biāo)中心之間距離越近表示相似性越高,獲得相似性結(jié)果。
具體實(shí)施的m為一個(gè)事先確定的定常數(shù)。
所述步驟5)具體為:取相似的茶葉香氣重復(fù)步驟3)和步驟4),直至相似性結(jié)果達(dá)到要求。
相似性結(jié)果達(dá)到要求是指剩余茶葉香氣只有一個(gè)已知類型的茶葉香氣與類型和品質(zhì)的茶葉香氣相似,或者剩余茶葉香氣所有已知類型的茶葉香氣與類型和品質(zhì)的茶葉香氣相似。即使得達(dá)到具有一個(gè)相似結(jié)果或者所有結(jié)果同時(shí)相似的情況。
所述步驟6)具體為:取各個(gè)二維坐標(biāo)到各自對應(yīng)所屬的樣本坐標(biāo)中心之間距離的最大值作為最大半徑r,若未知類型的茶葉香氣對應(yīng)的二維坐標(biāo)到各個(gè)已知類型的茶葉香氣對應(yīng)的樣本坐標(biāo)中心之間距離的最小值大于最大半徑r的n倍,則數(shù)據(jù)庫中不包含未知茶葉香氣所屬的類型和品質(zhì);否則以樣本坐標(biāo)中心到未知類型的茶葉香氣對應(yīng)的二維坐標(biāo)之間距離最小所對應(yīng)的茶葉香氣類型作為未知茶葉香氣的類型。
具體實(shí)施的n為一個(gè)事先確定的定常數(shù)。
由于本發(fā)明的樣本向量可以采用兩種方式獲得,模式識(shí)別模型也可以采用兩種方式獲得,因此通過實(shí)施本發(fā)明可以建立不同的模型并得到識(shí)別結(jié)果,具體分別為均值-pca法、均值-lda法、最大方差時(shí)刻電壓值-pca法、最大方差時(shí)刻電壓值-lda法共4種方式,分別建立并迭代處理所得到的相似性最高的種類,每個(gè)模型均能夠準(zhǔn)確識(shí)別茶葉香氣的種類。
本發(fā)明在實(shí)施例利用烏龍茶、紅茶、毛尖、碧螺春以及龍井特級(jí)、一級(jí)、二級(jí)共7個(gè)種類的茶作為數(shù)據(jù)庫樣本,另一龍井一級(jí)樣本作為待測樣本即假設(shè)其類別未知,檢測該待測樣本來驗(yàn)證本發(fā)明的合理性和準(zhǔn)確性。
本發(fā)明的有益效果是:
本發(fā)明在傳統(tǒng)模式識(shí)別方法的基礎(chǔ)上采用縮小建模范圍、投票法等創(chuàng)新方法,實(shí)現(xiàn)快速、準(zhǔn)確、同步地檢測茶葉的類型和品質(zhì),克服了相同類型不同品質(zhì)的茶葉香氣差異不大,難以準(zhǔn)確識(shí)別的難點(diǎn),擴(kuò)大了檢測適用范圍,提高了檢測準(zhǔn)確性。
附圖說明
圖1為本發(fā)明模式識(shí)別優(yōu)化方法的流程框圖;
圖2為實(shí)施例第一次建立的模型后數(shù)據(jù)庫中樣本及待測樣本對應(yīng)的二維坐標(biāo)的分布圖。
圖3為實(shí)施例第二次重新建立的新模型后四種類樣本及待測樣本對應(yīng)的二維坐標(biāo)的分布圖。
圖4為實(shí)施例第三次重新建立的新模型后三種類樣本及待測樣本對應(yīng)的二維坐標(biāo)的分布圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明。
本發(fā)明的實(shí)施例如下:
1)采集并處理已知種類茶葉香氣樣本后存入數(shù)據(jù)庫中
已有的茶葉種類包括:烏龍茶、紅茶、毛尖、碧螺春以及龍井特級(jí)、一級(jí)、二級(jí)共7種。將這7種茶葉從1至7依次編號(hào)。每個(gè)種類取5份樣品,每份5g,用250ml100℃沸騰適當(dāng)?shù)募儍羲疀_泡。沖泡5分鐘后,茶水濾出,在500ml的燒杯中將茶底密封靜置45min,使燒杯頂空富集茶葉揮發(fā)性成分,同時(shí)進(jìn)行冷卻以減少燒杯內(nèi)水蒸氣。靜置時(shí)室溫為25±1℃,濕度為80±2%。
抽取燒杯中的氣體進(jìn)入電子鼻腔體,以采集茶葉香氣數(shù)據(jù)。電子鼻由8個(gè)傳感器構(gòu)成,每秒每個(gè)傳感器讀一次數(shù),檢測時(shí)間為60s。因此原始數(shù)據(jù)為60*8=480維。首先采用均值法處理原始數(shù)據(jù),求每個(gè)傳感器在60s內(nèi)電壓值的均值,從而將數(shù)據(jù)降為8維。采集并處理共7*5=35份樣品后,將處理后的數(shù)據(jù)存入一張數(shù)據(jù)表中,每份樣品對應(yīng)的數(shù)據(jù)占一行,該行除8維均值外還有樣品的種類編號(hào),因此表中共有35行*9列的數(shù)據(jù)。由于數(shù)據(jù)較多,僅取烏龍茶、紅茶、龍井特級(jí)三種(編號(hào)分別為1、2、3)作為示意列于表1。將表存入數(shù)據(jù)庫中指定的位置。
表1均值法處理的已知種類茶葉香氣樣本數(shù)據(jù)(部分)
之后使用方差最大時(shí)刻電壓值法處理原始數(shù)據(jù)。計(jì)算得到所有35份樣本在第一秒處電壓值的方差最大,因此將每份樣本第一秒的數(shù)據(jù)存入數(shù)據(jù)表中,格式與均值法相同。
2)從7種類茶中任選1種另取一份樣品采集并處理
為突出本發(fā)明效果,體現(xiàn)本發(fā)明能快速、準(zhǔn)確、同步地得到茶葉的類型和品質(zhì)的特點(diǎn),本實(shí)施例選取龍井一級(jí)作為待測樣本,檢驗(yàn)本發(fā)明能否正確檢測其類型和品質(zhì)。
采集環(huán)境條件和采集、處理方法與1)相同。分別得到一行8維的均值數(shù)據(jù)和一行8維的第一秒采集值數(shù)據(jù),存入本地待檢驗(yàn)。均值數(shù)據(jù)列于表2。
表2均值法處理的待測種類茶葉香氣樣本數(shù)據(jù)
3)建立模式識(shí)別模型
本實(shí)施例以均值-lda法為例介紹建模、優(yōu)化的過程,另三種方法的建模、優(yōu)化過程與之相似。
本實(shí)施例中,茶香氣類型數(shù)量為7,樣品數(shù)量為35。得到的模式識(shí)別模型為:
4)計(jì)算數(shù)據(jù)庫中樣本及待測樣本對應(yīng)的坐標(biāo)
數(shù)據(jù)庫中樣本及待測樣本對應(yīng)的坐標(biāo)在二維坐標(biāo)系中的分布如圖2所示。
5)尋找與待測樣本相似性高的幾種種類
如圖2所示,計(jì)算待測樣本坐標(biāo)到各坐標(biāo)中心距離的最小值為最小距離,記錄坐標(biāo)中心到待測樣本坐標(biāo)距離在最小距離的m倍范圍內(nèi)的種類為相似性高的種類。本實(shí)施例中,m取4。
圖2中,待測樣本距一級(jí)龍井的中心最近,與一級(jí)龍井相似性最高。滿足種類坐標(biāo)中心距待測樣本距離在最小距離4倍范圍內(nèi)的種類包括(按距離遠(yuǎn)近即相似性高低排序):一級(jí)龍井、二級(jí)龍井、特級(jí)龍井、紅茶。
6)優(yōu)化模式識(shí)別模型
以一級(jí)龍井、二級(jí)龍井、特級(jí)龍井、紅茶為原始數(shù)據(jù)重新采用均值-lda法構(gòu)建模式優(yōu)化模型并更新繪制這四種類樣本及待測樣本對應(yīng)的坐標(biāo)圖,坐標(biāo)在二維坐標(biāo)系中的分布如圖3所示。
圖3的新模型中,相似性最高的種類為二級(jí)龍井,滿足相似性高定義的幾種茶分別為(按距離遠(yuǎn)近即相似性高低排序):二級(jí)龍井、一級(jí)龍井、特級(jí)龍井。
以三個(gè)等級(jí)的龍井為限定條件再次優(yōu)化模型并更新這三種類樣本及待測樣本對應(yīng)的坐標(biāo)。坐標(biāo)在二維坐標(biāo)系中的分布如圖4所示。圖4的新模型中,相似性最高的種類為一級(jí)龍井,且全部三種種類都為相似性高的種類,模型無法繼續(xù)優(yōu)化,達(dá)到要求。
如圖4所示,實(shí)施例結(jié)果顯示一級(jí)龍井為均值-lda法的識(shí)別結(jié)果,這與先前設(shè)定的龍井一級(jí)作為待測樣本相符。
本發(fā)明實(shí)施最終通過交叉檢測法對實(shí)施例的35組樣本數(shù)據(jù)進(jìn)行實(shí)際測試,識(shí)別準(zhǔn)確性高達(dá)97%。
由此可見,本發(fā)明能夠縮小建模范圍,實(shí)現(xiàn)快速、準(zhǔn)確、同步地檢測茶葉的類型和品質(zhì),克服了相同類型不同品質(zhì)的茶葉香氣差異不大,難以準(zhǔn)確識(shí)別的難點(diǎn),擴(kuò)大了檢測適用范圍,提高了檢測準(zhǔn)確性。