本發(fā)明涉及一種在化學(xué)分析和儀器分析領(lǐng)域中對物質(zhì)進(jìn)行聚類分析識別的方法,特別是一種采用拉曼光譜對物質(zhì)進(jìn)行聚類分析識別的方法。
背景技術(shù):
拉曼光譜常用于物質(zhì)定性,如公開號為CN102115778A的“食源性致病菌的表面增強(qiáng)拉曼光譜鑒別方法”,公開為CN103487425A的“一種利用表面增強(qiáng)拉曼光譜識別癌細(xì)胞的方法”。但是由于物質(zhì)自身信號較弱而伴隨的熒光信號強(qiáng)、以及樣本集中的各類樣本和孤立樣本存在交疊,給聚類和識別造成困擾。尤其對于信噪比不高的微型拉曼光譜儀,影響了這類儀器的實(shí)用性。而在強(qiáng)熒光背景下,如果以常見的主成分分析(PCA)進(jìn)行做可視化描述,難以識別,無法聚類分析。實(shí)現(xiàn)這類復(fù)雜聚類,要采用SIMCA聚類分析等需要先驗(yàn)知識的有監(jiān)督方法,這對于探索性實(shí)驗(yàn)和建模的要求較高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是:本發(fā)明針對拉曼光譜的復(fù)雜情況,提出一種無監(jiān)督,可滿足探索性檢測和現(xiàn)場實(shí)際應(yīng)用需求的采用拉曼光譜對物質(zhì)進(jìn)行聚類分析識別的方法。
解決上述技術(shù)問題的技術(shù)方案是:一種采用拉曼光譜對物質(zhì)進(jìn)行聚類分析識別的方法,包括步驟:①通過拉曼光譜儀采集樣本的拉曼光譜,構(gòu)成由p個(gè)樣本組成的樣本集;該方法還包括以下步驟:
②計(jì)算所有樣本間的差異系數(shù),構(gòu)造差異系數(shù)方陣;
③根據(jù)樣本間的相互差異系數(shù),去除孤立樣本,重新排列出新差異系數(shù)方陣;
④從新差異系數(shù)方陣中依次聚類出樣本集的各類;
⑤重復(fù)步驟④,直至所有元素區(qū)分完畢;至此,樣本集中的所有樣本完成聚類;
⑥按照聚類順序重新排列原始樣本順序,重新繪制差異系數(shù)方陣,使各類樣本被準(zhǔn)確區(qū)分成相應(yīng)區(qū)塊,實(shí)現(xiàn)對各類樣本的準(zhǔn)確識別。
本發(fā)明的進(jìn)一步技術(shù)方案是:步驟② 包括以下具體過程:
對樣本集中的p個(gè)樣本,順序比較第i個(gè)和第j個(gè)樣本差異,計(jì)算彼此的差異系數(shù)τij,構(gòu)成p×p的差異系數(shù)方陣DSM。
本發(fā)明的進(jìn)一步技術(shù)方案是:步驟③包括以下具體過程:
③-1.找出差異系數(shù)方陣DSM中每列的相互差異系數(shù)的最小值,即是每個(gè)樣本與其他樣本的差異系數(shù)τij(i≠j)中的最小值,構(gòu)成數(shù)組D={min(τij), i≠j};
③-2.找出數(shù)組D中元素的w個(gè)上側(cè)離群值和p1個(gè)保留的下側(cè)元素,p=w+p1;離群值代表的樣本與其他樣本不存在相似,不與樣本集中的任一樣本屬于同一類;
③-3.將離群值從差異系數(shù)方陣DSM的行列中去除,重新排列出新差異系數(shù)方陣DSM1。
本發(fā)明的進(jìn)一步技術(shù)方案是:步驟④包括以下具體過程:
④-1.選取新差異系數(shù)方陣DSM1第1行的p1個(gè)元素,作升序排列,完成狄克遜檢驗(yàn),區(qū)分出p2個(gè)上側(cè)離群值元素和n1個(gè)下側(cè)數(shù)值較小的系列元素,p1=p2+n1;
④-2.按照上下側(cè)所包含的元素,從新差異系數(shù)方陣DSM1中分割出尺寸為n1×n1的第1類樣本方陣N1,N1={τij; i,j∈n1 };
④-3.將N1方陣中每列的相互差異系數(shù)的最小值,即每個(gè)樣本與其他樣本的差異系數(shù)τi(i≠j)的最小值,構(gòu)成數(shù)組D1={min(τij),i≠j};如果經(jīng)狄克遜檢驗(yàn)出現(xiàn)了上側(cè)離群值,則將離群值歸入步驟④-1中產(chǎn)生的p2個(gè)上側(cè)離群元素集合;
④-4.將剩余的p2個(gè)上側(cè)元素構(gòu)成尺寸為p2×p2的其他類樣本方陣DSM2,DSM2={τij; i,j∈p2}。
由于采用上述結(jié)構(gòu),本發(fā)明之采用拉曼光譜對物質(zhì)進(jìn)行聚類分析識別的方法與現(xiàn)有技術(shù)相比,具有以下有益效果:
1. 是一種無監(jiān)督的模式聚類方法
由于本發(fā)明包括步驟:①通過拉曼光譜儀采集樣本的拉曼光譜,構(gòu)成由p個(gè)樣本組成的樣本集;②計(jì)算所有樣本間的差異系數(shù),構(gòu)造差異系數(shù)方陣;③根據(jù)樣本間的相互差異系數(shù),去除孤立樣本,重新排列出新差異系數(shù)方陣;④從新差異系數(shù)方陣中依次聚類出樣本集的各類;⑤重復(fù)步驟④,直至所有元素區(qū)分完畢;至此,樣本集中的所有樣本完成聚類;⑥按照聚類順序重新排列原始樣本順序,重新繪制差異系數(shù)方陣,使各類樣本被準(zhǔn)確區(qū)分成相應(yīng)區(qū)塊,實(shí)現(xiàn)對各類樣本的準(zhǔn)確識別。因此,本發(fā)明是利用光譜的差異系數(shù),完成了高背景干擾的拉曼信號聚類,是一種無監(jiān)督的模式聚類方法。
2.方法簡便,成本低
由于本發(fā)明利用光譜的差異系數(shù),完成了高背景干擾的拉曼信號聚類,無需建模,其方法簡便,成本較低。
3.可滿足探索性檢測和現(xiàn)場實(shí)際應(yīng)用的需求
由于本發(fā)明利用光譜的差異系數(shù),即可完成了高背景干擾的拉曼信號聚類,無需先驗(yàn)知識監(jiān)督,無需建模,適合于探索性檢測和現(xiàn)場實(shí)際應(yīng)用需求。
4.應(yīng)用范圍廣
本發(fā)明可廣泛應(yīng)用于藥物、食品、化學(xué)品等領(lǐng)域的物質(zhì)識別,其應(yīng)用范圍比較廣泛。
下面,結(jié)合附圖和實(shí)施例對本發(fā)明之采用拉曼光譜對物質(zhì)進(jìn)行聚類分析識別的方法的技術(shù)特征作進(jìn)一步的說明。
附圖說明
圖1:實(shí)施例一所述40個(gè)樣本經(jīng)主成分分析得到第1和第2主成分的得分圖;
圖2:實(shí)施例一所述40個(gè)樣本的光譜圖;
圖3:實(shí)施例一所述從A、B、C三類中任選的一個(gè)光譜;
圖4:實(shí)施例一所述差異系數(shù)方陣DSM示意圖;
圖5:實(shí)施例一所述數(shù)組D的元素光譜圖;
圖6:實(shí)施例一所述選取新差異系數(shù)方陣DSM1第1行作升序排列圖;
圖7:實(shí)施例一所述第1類樣本N1方陣的示意圖;
圖8:實(shí)施例一所述對其他類樣本方陣DSM2的第1行做升序排列圖;
圖9:實(shí)施例一所述第2類樣本N2方陣的示意圖,
圖10:實(shí)施例一所述對DSM3第1行作升序排列圖;
圖11:實(shí)施例一所述第3類樣本N3方陣的示意圖;
圖12:實(shí)施例一所述重新繪制差異系數(shù)方陣的示意圖。
具體實(shí)施方式
一種藥物、食品、化學(xué)品等領(lǐng)域中采用拉曼光譜對物質(zhì)進(jìn)行聚類分析識別的方法,該方法包括以下步驟:
①通過拉曼光譜儀采集樣本的拉曼光譜,構(gòu)成由p個(gè)樣本組成的樣本集;
②計(jì)算所有樣本間的差異系數(shù),構(gòu)造差異系數(shù)方陣:
對樣本集中的p個(gè)樣本,順序比較第i個(gè)和第j個(gè)樣本差異,計(jì)算彼此的差異系數(shù)τij,構(gòu)成p×p的差異系數(shù)方陣DSM;
③根據(jù)樣本間的相互差異系數(shù),去除孤立樣本,重新排列出新差異系數(shù)方陣:
③-1.找出差異系數(shù)方陣DSM中每列的相互差異系數(shù)的最小值,即是每個(gè)樣本與其他樣本的差異系數(shù)τij(i≠j)中的最小值,構(gòu)成數(shù)組D={min(τij), i≠j};
③-2.找出數(shù)組D中元素的w個(gè)上側(cè)離群值和p1個(gè)保留的下側(cè)元素,p=w+p1;離群值代表的樣本與其他樣本不存在相似,不與樣本集中的任一樣本屬于同一類;
③-3.將離群值從差異系數(shù)方陣DSM的行列中去除,重新排列出新差異系數(shù)方陣DSM1;
④從新差異系數(shù)方陣中依次聚類出樣本集的各類:
④-1.選取新差異系數(shù)方陣DSM1第1行的p1個(gè)元素,作升序排列,完成狄克遜(Dixon)檢驗(yàn),區(qū)分出p2個(gè)上側(cè)離群值元素和n1個(gè)下側(cè)數(shù)值較小的系列元素,p1=p2+n1;
④-2.按照上下側(cè)所包含的元素,從新差異系數(shù)方陣DSM1中分割出尺寸為n1×n1的第1類樣本方陣N1,N1={τij; i,j∈n1 };
④-3.將N1方陣中每列的相互差異系數(shù)的最小值,即每個(gè)樣本與其他樣本的差異系數(shù)τi(i≠j)的最小值,構(gòu)成數(shù)組D1={min(τij),i≠j};如果經(jīng)狄克遜檢驗(yàn)出現(xiàn)了上側(cè)離群值,則將離群值歸入步驟④-1中產(chǎn)生的p2個(gè)上側(cè)離群元素集合;
④-4.將剩余的p2個(gè)上側(cè)元素構(gòu)成尺寸為p2×p2的其他類樣本方陣DSM2,DSM2={τij; i,j∈p2};
⑤重復(fù)步驟④,直至所有元素區(qū)分完畢;至此,樣本集中的所有樣本完成聚類;
⑥按照聚類順序重新排列原始樣本順序,重新繪制差異系數(shù)方陣,使各類樣本被準(zhǔn)確區(qū)分成相應(yīng)區(qū)塊,實(shí)現(xiàn)對各類樣本的準(zhǔn)確識別。
以下是本發(fā)明的具體實(shí)施例:
實(shí)施例一
一種采用拉曼光譜對物質(zhì)進(jìn)行聚類分析識別的方法,該方法是選用采用相同輔料,但API存在差異的藥物片劑A、B、C三類樣本進(jìn)行拉曼光譜識別,包括步驟:
①通過拉曼光譜儀采集樣本的拉曼光譜,樣本集由樣本數(shù)分別為15個(gè)、10個(gè)和10個(gè)的A、B、C三類樣本,以及5個(gè)各自獨(dú)立的孤立樣本組成,共40個(gè)樣本。
圖1是40個(gè)樣本經(jīng)主成分分析(PCA)得到第1和第2主成分的得分圖,圖中各類樣本和孤立樣本交疊,無法確定分區(qū)。
全部樣本的光譜如圖2,樣本的輔料熒光效應(yīng)較強(qiáng),由圖2直觀上看,譜線相似,直接辨識難度大。圖3是從A、B、C三類中任選的一個(gè)光譜。從圖3中可看出由于背景熒光和拉曼光譜本身相似,光譜不易準(zhǔn)確辨認(rèn)。在強(qiáng)熒光背景下,如果以常見的主成分分析(PCA)做可視化描述,難以識別,無法聚類。
②計(jì)算所有樣本間的差異系數(shù),構(gòu)造差異系數(shù)方陣:
計(jì)算出40個(gè)樣本光譜彼此間差異系數(shù),構(gòu)造差異系數(shù)方陣DSM,得到的差異系數(shù)方陣DSM是一個(gè)對角為0的對稱方陣。該矩陣用灰度深淺表示,如圖4。
③根據(jù)樣本間的相互差異系數(shù),去除孤立樣本,重新排列出新差異系數(shù)方陣:
③-1.去除對角元素后,找出矩陣每列的最小值,構(gòu)成數(shù)組D,圖5為數(shù)組D中的元素。
③-2.從圖5中直接看出,或采用狄克遜檢驗(yàn),可知數(shù)組D中(1,8,25,30,31)號元素為上側(cè)離群值,也就是說,在樣本集中所對應(yīng)的這些樣本是孤立的,不與其他樣本同類。
③-3.將離群值從差異系數(shù)方陣DSM的行列中去除,重新排列出新差異系數(shù)方陣DSM1。
④從新差異系數(shù)方陣中依次聚類出樣本集的各類:
④-1.選取新差異系數(shù)方陣DSM1第1行作升序排列,如圖6所示,由圖6可直接看出或采用狄克遜檢驗(yàn),可知前10個(gè)樣本為同類,即原始樣本集的第(2,26,4,23,10,34,24,29,40,16)號共10個(gè)樣本為同類。
④-2.從新差異系數(shù)方陣DSM1中選出這些樣本構(gòu)成第1類樣本N1,如圖7所示,圖7中各元素分布均勻,即從整體樣本中區(qū)分出了第1類樣本N1。
④-3.從新差異系數(shù)方陣DSM1中扣除第1類樣本N1;
④-4. 將剩余的上側(cè)元素構(gòu)成其他類樣本方陣DSM2;
⑤重復(fù)步驟④,對其他類樣本方陣DSM2的第1行做升序排列,如圖8所示,從圖8直接看出,或按狄克遜檢驗(yàn),原始樣本集的第(3,27,19,39,11,36,21,6,37,15,20,18,28,14,32)號共15個(gè)樣本為同類。從其他類樣本方陣DSM2中選出這些樣本構(gòu)成第2類樣本N2方陣,如圖9所示,圖9中元素分布均勻,即從整體樣本中區(qū)分出了第2類樣本N2。
剩余的10個(gè)樣本,即第(5,7,12,17,35,38,33,13,9,22)號,構(gòu)成DSM3,對其第1行作升序排列,如圖10所示,按狄克遜檢驗(yàn),發(fā)現(xiàn)不存在上側(cè)離群值,這10個(gè)樣本歸屬為同類,構(gòu)成第3類樣本N3方陣,如圖 11,圖11中元素分布均勻,即從整體樣本中區(qū)分出了第3類樣本N3。至此,完成了三類樣本聚類。
⑥按照聚類順序重新排列原始樣本順序,重新繪制差異系數(shù)方陣,如圖12所示,圖12中三類樣本被準(zhǔn)確區(qū)分成相應(yīng)區(qū)塊,實(shí)現(xiàn)對各類樣本的準(zhǔn)確識別。從圖12中還可看出第1類樣本N1和第3類樣本N3的相似度最高,第1類樣本N1和第2類樣本N2的相似度大于第2類樣本N2和第3類樣本N3的相似度。