本發(fā)明屬于模式識別技術(shù)領(lǐng)域,涉及一種基于血液光譜數(shù)據(jù)對血液來源物種進行識別的方法,可用于血液樣品來源物種的快速識別。
背景技術(shù):
隨著中國醫(yī)藥行業(yè)國際化的飛速發(fā)展,血液生物材料的出入國境需求日益增加。目前海關(guān)對血液來源物種的判斷主要依據(jù)兩方面的信息來源,其一是申報人提供的血樣信息,其二是檢驗機構(gòu)提供的檢驗結(jié)果,前者的信息真實性難以保證,后者的檢驗過程則耗時繁多,而且血液樣品可能被檢測操作污染,或者血液樣品自身可能攜帶致病因子,對檢測人員造成職業(yè)暴露。因此,盡管生化方法具有很高的檢測準確性,但卻不便應用于海關(guān)等場合,所以,有必要提出一種更便捷的檢測方法,相關(guān)研究結(jié)果表明,光譜檢測法具有解決這一問題的潛力。
上世紀70年代,美國杜克大學的fransf.j?bsis首次提出了將血液的近紅外光譜用于血液成分含量檢測的設(shè)想,此后,世界各國的研究人員紛紛展開了對血液光譜的分析研究。匈牙利imrehaynal健康科學大學的istvánvályi-nagy和évag?ncz?l等人的研究表明紅外光譜可用于測定全血和血清中血紅蛋白、脂蛋白和血氧等成分的含量,而基于近紅外光譜的血糖無創(chuàng)測量則為糖尿病患者帶了福音,美國圣地亞國家實驗室的m.kathleenalam等人發(fā)現(xiàn)可以采用近紅外光譜測量血液的ph值,日本歐姆龍生命科學研究所有限公司的toshikazushiga等人設(shè)計制作了基于紅外光譜分析的便攜式組織血氧計,中國科學院長春光機所的陳華才等人利用傅里葉變換近紅外透射光譜技術(shù),建立了人血清中膽固醇和甘油三酯的定標模型,此外,美國愛荷華大學的kevinh.hazen和marka.arnold等用紅外光譜對人血清中的總蛋白、球蛋白、白蛋白、甘油三酯、膽固醇、尿素、血糖和乳酸鹽等進行了定量分析,并構(gòu)造了相應的光譜預測模型。隨著光譜分析技術(shù)的進一步發(fā)展,臨床化學領(lǐng)域發(fā)現(xiàn),通過分析血液的光譜數(shù)據(jù),可以快速辨別類風濕性關(guān)節(jié)炎和糖尿病的發(fā)病情況。
上述各類利用紅外光譜檢測血液成分含量的研究,均采用了基于生化標定法的研究路線:首先,采集血液的紅外光譜;其次,利用生化方法測量血液中目標成分的含量,作為標準含量數(shù)據(jù),這就是生化標定步驟;之后,利用數(shù)學方法構(gòu)建血液光譜數(shù)據(jù)與標準含量數(shù)據(jù)之間的關(guān)聯(lián)模型;最后,利用該模型和血液光譜數(shù)據(jù)預測血液中目標成分的含量,實現(xiàn)非接觸式的血液成分含量檢測。其中所用的數(shù)學方法主要是統(tǒng)計分析方法,例如偏最小二乘算法和多元線性回歸算法等,隨著機器學習理論的發(fā)展,越來越多機器學習領(lǐng)域的算法被引入光譜預測模型的構(gòu)建中,例如人工神經(jīng)網(wǎng)絡和支持向量機等。
上述內(nèi)容表明,光譜法可以定量地分析血液中的生化成分,這是使用光譜法檢測血液來源物種的技術(shù)理論基礎(chǔ),而使用光譜法檢測血樣來源的生物學基礎(chǔ)則是物種之間的血液差異。物種是生物界發(fā)展的連續(xù)性與間斷性統(tǒng)一的基本間斷形式,在有性生物中,物種呈現(xiàn)為統(tǒng)一的繁殖群體,由占有一定空間,具有實際或潛在繁殖能力的種群所組成,而且與其他這樣的群體在生殖上是隔離的。
有研究表明,不同物種的血液成分含量有顯著差異。中科院動物研究所的董全等,測定了12只大熊貓的血液成分含量,與小熊貓和美洲黑熊的相同血液數(shù)據(jù)進行對比,結(jié)果發(fā)現(xiàn)三個物種的血液成分含量存在顯著差異。軍事醫(yī)學科學院實驗動物中心的王冬平等,比較了食蟹猴與獼猴的多項血液生理指標和生化指標,發(fā)現(xiàn)二者血液成分的多項指標均存在顯著差異。綜上所述,從理論角度分析,利用光譜技術(shù)檢測血液來源物種是可行的。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于為了解決上述問題而提供一種既能夠?qū)ρ獦觼碓催M行快速檢測,又能夠?qū)Υ罅坎煌锓N來源的血樣進行模式識別的識別儀,檢測箱可以檢測盛放于抗凝管內(nèi)血樣光譜的數(shù)據(jù),該識別儀可以采集200-1750nm波長范圍的可見光和近紅外光譜,上位機可以采集大量常見物種的2000個血樣的光譜數(shù)據(jù),并提供了一套完整詳實的光譜數(shù)據(jù)庫,使光譜數(shù)據(jù)與血樣物種之間建立一個關(guān)聯(lián)模型,當檢測箱檢測數(shù)據(jù)給出,上位機能夠立即給出該血樣的物種來源,實現(xiàn)快速檢測的目的,該模型對隨機抽取盲樣的識別率可以達到95%,針對后續(xù)物種的血樣來源檢測可定制和改性,改裝版本的設(shè)備同樣適用于物種識別,應用范圍廣泛。
本發(fā)明通過以下技術(shù)方案來實現(xiàn)上述目的,本發(fā)明的基于光譜的血液物種識別儀,其特征在于,
包括檢測箱和上位機,所述檢測箱包括第一發(fā)光系統(tǒng),第一光檢測系統(tǒng),存儲器,信號輸入/輸出系統(tǒng),
上位機包括血液采集系統(tǒng),第二發(fā)光系統(tǒng),第二光檢測系統(tǒng),信號預處理系統(tǒng),陣列信號預處理系統(tǒng)以及模式識別系統(tǒng)。
所述第一、第二發(fā)光系統(tǒng)由激光光源模塊、第一反射鏡、第一透鏡構(gòu)成,所述第一光檢測系統(tǒng)由第二透鏡、衍射元件、狹縫、第二反射鏡、圖像拾取器件構(gòu)成,所述第二光檢測系統(tǒng)由光學諧振腔、薄膜壓力傳感器和光電倍增管構(gòu)成。
本發(fā)明的基于光譜的血液物種識別儀的識別方法,其特征在于,包括如下步驟:
(1)獲得目標血樣的光譜數(shù)據(jù),包含可見光譜,近紅外光譜,其中每種光譜數(shù)據(jù)又包含前向和后向散射的光譜,前向散射光譜也稱為透射光譜,后向散射光譜也稱為反射光譜。獲取數(shù)據(jù)的同時采用正則化方法對數(shù)據(jù)進行預處理;
(2)將每個血樣的光譜串聯(lián)成一條一維數(shù)組,那么多個樣本的光譜數(shù)據(jù)并列在一起,就可以組成二維數(shù)組,該二維數(shù)組的兩個維度分別是,光譜波長和樣本編號;
(3)將血樣光譜數(shù)據(jù)分成
(4)對于
(5)對步驟(4)中得到的
(6)重復循環(huán)執(zhí)行步驟(5)。當重復次數(shù)達到
(7)經(jīng)過步驟(6)之后,可以得到了
其中步驟(4)中的基準樣本分割比例可以選擇的比例包括但不限于,9:1,3:2和1:1,其關(guān)鍵在于,用包含樣本數(shù)量較多的部分作為訓練集,用數(shù)量較少的部分作為測試集;
其中步驟(4)流式訓練法的流程為:降維濾波方法à模式識別方法,其中的降維濾波方法可以是但不限于:小波分析,主成分分析,隨機投影。其中的模式識別方法可以是但不限于:人工神經(jīng)網(wǎng)絡,決策樹,支持向量機,貝葉斯分類器,聚類法;
步驟(5)包括:
第5.1步用流式訓練法在第
第5.2步用
第5.3步找到
其中第5.2步的
其中步驟(6)中
其中步驟(7)中的綜合判斷方法可以是但不限于:投票法;加權(quán)投票法(權(quán)值根據(jù)各個模型的
附圖說明
圖1是血液光譜的物種識別方法示意圖。
圖2是血液光譜的物種識別儀結(jié)構(gòu)示意圖。
圖3是本發(fā)明中構(gòu)建邏輯驅(qū)動模型的流程圖。
圖4是本發(fā)明將邏輯驅(qū)動模型轉(zhuǎn)化為數(shù)據(jù)驅(qū)動模型的演化過程圖。
圖5是本發(fā)明中迭代循環(huán)步驟的流程圖。
1.電源接口;2.電源開關(guān);3.usb接口;4.wifi模塊接口;5.血樣輸送口;6.數(shù)據(jù)傳輸裝置;7.檢測箱;8.上位機;9.顯示器;10.血樣送檢盒;11.激光光源模塊。
具體實施方式
下面結(jié)合附圖對本發(fā)明作進一步說明:
如圖1所示,上位機8的血樣送檢盒10一次接收12盒送檢樣品,樣本可同時進行血液的光譜采集,其中發(fā)光系統(tǒng)由光學諧振腔、薄膜壓力傳感器和光電倍增管構(gòu)成,光學諧振腔具有兩個輸入端和兩個輸出端,第一輸入端和激光光源模塊連接,用于接收發(fā)射光,第二輸入端和樣本采集裝置連接,用于采集血樣信息,兩個輸出端分別和薄膜壓力傳感器的輸入端和光電倍增管的輸入端連接,光電倍增管的輸入端和模數(shù)轉(zhuǎn)換器的輸入端連接,模數(shù)轉(zhuǎn)換器的輸出端和處理器的輸入端連接,處理器將信號經(jīng)過預處理并輸入到陣列信號預處理模塊中,經(jīng)過預處理后的數(shù)據(jù)是矩陣化的陣列,將陣列輸入到模式識別引擎,根據(jù)建立的知識庫模塊進行訓練,給出血樣光譜的表達,在模式識別過程中不斷的對陣列的某一組測試值進行測試。
從邏輯推理的角度分析,如果能得到每個物種血液中每種成分的光譜預測模型,則可以由血液光譜快速得知其血液成分含量,從而推測出血液來源物種的類別。為了設(shè)計這個邏輯驅(qū)動模型,需要為每個物種血液中的每種成分都建立一個基于生化標定法的光譜預測模型,然后將每個物種的所有光譜預測模型與物種類別相關(guān)聯(lián),從而建立一個從血液光譜到血液成分含量再到血液來源物種類別的預測模型,如圖3所示。
從圖3中可以看出,該邏輯驅(qū)動模型的輸入端是血液光譜數(shù)據(jù),輸出端是血液來源物種,中間部分則是,基于生化標定法的數(shù)學建模過程,和血液成分含量與血液來源物種類別的關(guān)聯(lián)過程。由于需要構(gòu)建光譜預測模型的血液成分類別非常多,這種邏輯驅(qū)動模型的構(gòu)建難度非常大。受到近年來機器學習和大數(shù)據(jù)分析領(lǐng)域的發(fā)展啟示,本實施例用一個黑箱過程來替代邏輯驅(qū)動模型中生化標定法建模過程,如圖3所示,然后,通過數(shù)學建模的方法對黑箱過程進行合理化描述,使其能夠根據(jù)血液光譜數(shù)據(jù)預測血液來源物種的類別。
如圖2所示,物種識別儀的檢測箱7包括激光光源模塊,第二透鏡、衍射元件、狹縫、第二反射鏡、圖像拾取器件、存儲器,信號輸入/輸出系統(tǒng),血樣通過血樣輸送口5送入到檢測箱7中,打開電源開關(guān)2,檢測箱開始工作,將所檢測數(shù)據(jù)存儲到存儲器當中,通過數(shù)據(jù)傳輸裝置6傳輸?shù)缴衔粰C8當中進行模式識別檢測??梢酝ㄟ^有線/無線方式進行數(shù)據(jù)的傳輸,為了方便在現(xiàn)場工作,檢測箱7配備有usb接口3和wifi模塊接口4。
用數(shù)據(jù)驅(qū)動模型替換邏輯驅(qū)動模型的合理性在于,這兩種模型的實質(zhì)都是數(shù)學建模過程,從結(jié)構(gòu)形式的角度來看,這兩種類同的過程可以彼此趨近。其中邏輯驅(qū)動模型實質(zhì)為數(shù)學建模過程的原因為:邏輯驅(qū)動模型包含兩個過程,第一個過程是根據(jù)生化標定法建立血液成分含量的光譜預測模型,這個過程通過統(tǒng)計分析和機器學習領(lǐng)域的數(shù)學建模方法實現(xiàn);第二個過程是建立多個血液成分含量與物種類別的關(guān)聯(lián)模型,該過程需要利用模式識別領(lǐng)域的數(shù)學建模方法。因此邏輯驅(qū)動模型實質(zhì)上是多個數(shù)學建模過程的組合。
這種數(shù)據(jù)驅(qū)動的血液物種光譜預測模型,將邏輯驅(qū)動模型中的繁復的邏輯推理過程簡化為一個黑箱,由于這個黑箱中的過程是不可知的,因此需要利用數(shù)據(jù)處理和數(shù)理統(tǒng)計的方法尋找輸入與輸出之間的關(guān)系,也就是尋找血液光譜數(shù)據(jù)和血液來源物種之間的關(guān)系,然后,利用這種關(guān)系,來預測任意輸入所對應的輸出。
在上述數(shù)據(jù)驅(qū)動模型的設(shè)計思想指導之下,本方法的實現(xiàn)過程為:
(1)獲取數(shù)據(jù):獲得目標血樣的光譜數(shù)據(jù),包含可見光譜,近紅外光譜,其中每種光譜數(shù)據(jù)又包含前向和后向散射的光譜,前向散射光譜也稱為透射光譜,后向散射光譜也稱為反射光譜。獲取數(shù)據(jù)的同時采用正則化方法對數(shù)據(jù)進行預處理。
(2)組織數(shù)據(jù):將每個血樣的光譜串聯(lián)成一條一維數(shù)組,那么多個樣本的光譜數(shù)據(jù)并列在一起,就可以組成二維數(shù)組,該二維數(shù)組的兩個維度分別是,光譜波長和樣本編號。
(3)分組數(shù)據(jù):將血樣光譜數(shù)據(jù)分成
(4)迭代循環(huán):
4.1對于
4.2對于
1)用流式訓練法在第
2)用
3)找到
4.3重復步驟4.2進行迭代循環(huán),直到滿足條件:(1)步驟2重復了
(5)識別判斷:經(jīng)過步驟四的迭代處理,得到了
本發(fā)明方法的變種之一可以是,對光譜中的不同波段分別采用上述實現(xiàn)流程進行處理,最后將多個波段的判斷結(jié)果進行綜合。
本發(fā)明方法的變種之二可以是,在迭代循環(huán)步驟中不對數(shù)據(jù)集進行分割,直接在原數(shù)據(jù)集上進行模型訓練,在后續(xù)的互相預測階段,直接用
本發(fā)明方法的變種之三可以是,用不同類型的流式訓練法得到多個不同的整體預測模型,然后對這些多個整體預測模型的判斷結(jié)果進行綜合。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。