一種流式數(shù)據(jù)細胞亞群快速自動識別方法
【專利摘要】本發(fā)明公開了一種流式細胞儀數(shù)據(jù)(簡稱流式數(shù)據(jù))細胞亞群快速自動識別方法。本發(fā)明方法通過映射流式數(shù)據(jù)到矩陣并對矩陣的位置點進行分類實現(xiàn)細胞亞群自動識別,其具體過程為:首先根據(jù)流式數(shù)據(jù)二維分析方式,將數(shù)據(jù)投影到一個128*128的矩陣中,獲得數(shù)據(jù)的初始化矩陣;然后采用循環(huán)求最大值的方法對矩陣的位置點進行分類,最后將位置點分類結(jié)果映射回原始數(shù)據(jù)得到最終細胞亞群分類結(jié)果。本發(fā)明能夠?qū)α魇綌?shù)據(jù)中的細胞亞群快速識別,提高數(shù)據(jù)分析效率,避免人為主觀因素對分析結(jié)果產(chǎn)生的影響。該發(fā)明方法識別流式數(shù)據(jù)細胞亞群的結(jié)果準確,分析時間短,分析效率高,可應(yīng)用到目前流式數(shù)據(jù)自動分析中。
【專利說明】一種流式數(shù)據(jù)細胞亞群快速自動識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及流式數(shù)據(jù)自動分析技術(shù),尤其是涉及流式數(shù)據(jù)中細胞亞群的快速識別 方法。 技術(shù)背景
[0002] 流式細胞術(shù)是一種能夠精確、快速地對生物細胞的理化特性和生物學(xué)特性進行多 參數(shù)定量分析及對特定細胞群分選的技術(shù)。其原理是采用微米級激光光束對經(jīng)過流體動力 學(xué)聚焦的細胞進行逐個激發(fā),完整收集并記錄每個細胞誘導(dǎo)得到的多角度散射光與多波長 標記熒光信號,并通過對細胞群多光學(xué)通道數(shù)據(jù)的聚類分析實現(xiàn)樣本的高精度定量檢測。 通常,單個細胞誘導(dǎo)得到的散射光和熒光信號以單個事件的形式被記錄,所有事件匯集成 被測細胞群的完整流式數(shù)據(jù)。當前流式數(shù)據(jù)分析的主要方法是將每個事件投影至二維域 中,以人工設(shè)門的方式進行分析。人工設(shè)門的主要過程是對流式數(shù)據(jù)中的細胞亞群進行類 群劃分,即將屬于同類的細胞亞群通過設(shè)定區(qū)域(門)的方式歸為一類。
[0003] 常見的流式細胞儀數(shù)據(jù)類群自動識別方法,比如基于混合模型的方法,雖然計算 準確度比較高,但分析的時間通常較長,分析效率低。目前比較先進的基于偏斜t混合模型 的分析方法能夠比較準確地識別數(shù)據(jù)中的細胞亞群,但是當分析的數(shù)據(jù)量達到萬級時,其 計算時間通常超過了人工分析數(shù)據(jù)時間。另一種數(shù)據(jù)聚類方法是譜聚類方法,由于該方法 是基于矩陣乘積的方式進行結(jié)果估計,因此在樣本量較大時,其計算時間非常長。針對該問 題,目前提出的一種修正譜聚類方法,該方法一定程度上解決了樣本量大造成的計算時間 長的問題,但由于對數(shù)據(jù)進行了預(yù)先處理,數(shù)據(jù)中包含的一部分生物信息可能在處理過程 中丟失。另外,當分析的數(shù)據(jù)中事件數(shù)達到萬級時,該方法的計算時間也遠遠超過人工分析 數(shù)據(jù)時間。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是通過計算機軟件準確對流式數(shù)據(jù)細胞亞群進行快速自動分析,得 到數(shù)據(jù)中包含的樣本信息,包括樣本中的亞群數(shù)目和各細胞亞群總數(shù)。
[0005] 本發(fā)明流式數(shù)據(jù)細胞亞群快速自動識別方法,具體步驟如下:
[0006] (1)將數(shù)據(jù)壓縮到一個128*128的矩陣中,獲得壓縮后數(shù)據(jù)分布狀態(tài)矩陣Mat和數(shù) 據(jù)壓縮如后對應(yīng)關(guān)系列表L ;
[0007] (2)采用循環(huán)求最大值方法對128*128矩陣Mat位置點進行分群;
[0008] (3)將矩陣位置點的分群結(jié)果按照壓縮前后對應(yīng)關(guān)系列表,映射回原始數(shù)據(jù),得到 原始數(shù)據(jù)的分類結(jié)果,實現(xiàn)對原始數(shù)據(jù)細胞亞群的自動識別。
[0009] 在獲得標準的128*128矩陣后,為實現(xiàn)對矩陣的位置點進行分群,本發(fā)明提出了 循環(huán)尋找最大值方法。其具體實施過程為:
[0010] (1)求矩陣中的最大值所對應(yīng)的位置點,并記錄該位置為P [x,y];
[0011] (2)如果⑴中得到的位置點為第一次循環(huán)得到的點,則申請該數(shù)據(jù)樣本的第一 個亞群S1,并將該位置點歸類到S1亞群,否則,進行過程(3)。
[0012] (3)將⑴中得到的位置點P[x,y]與之前已記錄的所有位置點進行比較。如果 P[X,y]離之前所有的位置點都較遠,則新申請一個亞群Si (已存在亞群S1, S2,…Sg)并將 p[x,y]歸類到亞群Si,否則將p[x,y]歸類到已申請的所有亞群中距離最近的亞群。
[0013] (4)令P [X,y]對應(yīng)的值為0,回到過程(1),直到矩陣中的所有位置對應(yīng)的值為0, 即 Mat = 0。
[0014] 通過以上步驟,可以得到標準矩陣位置點的分群結(jié)果S(包含群51,S2,…),為獲 得原始數(shù)據(jù)的亞群分布情況,本發(fā)明提出了在壓縮數(shù)據(jù)時記錄每一個原始數(shù)據(jù)對應(yīng)壓縮數(shù) 據(jù)的關(guān)系列表L,并在得到矩陣位置點的分群結(jié)果S后,按照此對應(yīng)關(guān)系L返回原始數(shù)據(jù),從 而得到原始數(shù)據(jù)的亞群分類結(jié)果。
[0015] 本發(fā)明方法能夠快速地對流式數(shù)據(jù)亞群進行自動識別,得到數(shù)據(jù)中樣本的相關(guān)信 息。本方法中對數(shù)據(jù)中樣本類群信息的分析結(jié)果準確度較高,分析時間遠遠低于人工分析 方法及其他分析方法。由于本發(fā)明方法涉及到數(shù)據(jù)的自動聚類,能夠廣泛地應(yīng)用到模式識 另IJ、圖像處理等領(lǐng)域。
[0016] 本發(fā)明提出了一種快速自動識別流式數(shù)據(jù)亞群方法,該方法能夠快速得到數(shù)據(jù)中 樣本的分類信息。該分析方法分析流式數(shù)據(jù)的結(jié)果精確度高,時間較短。
【專利附圖】
【附圖說明】
[0017] 圖Ia和Ib是待分析的流式細胞儀數(shù)據(jù);
[0018] 圖Ib是采用人工分析方法分類的結(jié)果;
[0019] 圖2是采用本發(fā)明方法壓縮數(shù)據(jù)后的分群結(jié)果;
[0020] 圖3是本發(fā)明方法將壓縮數(shù)據(jù)映射回原始數(shù)據(jù)的結(jié)果;
[0021] 圖4是采用預(yù)抽樣譜聚類方法對數(shù)據(jù)分析的結(jié)果;
[0022] 圖5是采用偏斜t混合模型分析的結(jié)果;
[0023] 圖6是本發(fā)明方法的流程圖。
【具體實施方式】
[0024] 如圖Ia是實驗數(shù)據(jù)在SSC和⑶45維度的投影。人工分析該數(shù)據(jù)是通過畫門的方 法劃分散點圖中的細胞亞群。如圖Ib是專家采用FloMax軟件劃分的細胞亞群結(jié)果,由結(jié) 果來看,樣本中包含了四個細胞亞群,R1-R4區(qū)域分別代表了淋巴細胞亞群、單核細胞亞群、 粒細胞亞群和死細胞。
[0025] 如圖2是采用本發(fā)明方法將數(shù)據(jù)壓縮至128*128矩陣并采用循環(huán)最大值方法對矩 陣位置點進行分群后的結(jié)果。其具體實施過程為:
[0026] (1)找出矩陣Mat的最大值所對應(yīng)的位置?^^」,并申請類群S1,且P m e S1^ 令 Pm = 〇 ;
[0027] (2)再次尋找Mat最大值的位置并計算Pi與已分群的所有點之間的距 離,如果其中任意一點Pn與Pi的距離小于閾值(默認為8,實際中可根據(jù)流式數(shù)據(jù)的特點進 行微調(diào)),則將Pi歸類到點Pn所屬的類群,并令Pi = 〇,然后再次尋找Mat最大值,直到Mat =0。如果Pi與已分群的所有點距離都大于閾值,則新申請一個類群&,并令Pi e &且卩1 =〇,然后再次尋找Mat最大值,直到Mat = 0.
[0028] 圖3是將圖2中分群后的結(jié)果根據(jù)壓縮映射列表L (列表L部分內(nèi)容見表3,其中, 類群表示每一個事件分類后所屬類群),將結(jié)果映射回原始數(shù)據(jù)的分類結(jié)果。
[0029] 由結(jié)果可知,本發(fā)明方法分析的結(jié)果與專家分析結(jié)果一致。
[0030] 另外,圖4和圖5分別是采用預(yù)抽樣譜聚類方法和偏斜t混合模型分析該數(shù)據(jù)的 結(jié)果。
[0031] 表一為以上三種方法的分類誤判率結(jié)果比較。表二為以上三種方法的分析時間比 較,其中人工分析該數(shù)據(jù)的時間約為21s,由結(jié)果可知,本發(fā)明設(shè)計的方法不僅誤判率最低, 最接近專家分析的結(jié)果,而且分析時間遠遠低于人工分析方法和其他分析方法。
[0032] 本發(fā)明方法在一臺配置3. 2GHz CPU和2G內(nèi)存的PC上,采用C++語言編程實現(xiàn)。 程序的流程框圖見圖6。
[0033] 表一不同方法的誤判率比較
【權(quán)利要求】
1. 一種流式數(shù)據(jù)細胞亞群快速自動識別方法,其特征在于,按照下述步驟進行: (1) 將數(shù)據(jù)壓縮到一個128*128的矩陣中,獲得壓縮后數(shù)據(jù)分布狀態(tài)矩陣和數(shù)據(jù)壓縮 如后對應(yīng)關(guān)系列表; (2) 采用循環(huán)求最大值方法對128*128矩陣位置點進行分類; (3) 將矩陣位置點的分類結(jié)果按照壓縮前后對應(yīng)關(guān)系列表,映射回原始數(shù)據(jù),得到原始 數(shù)據(jù)的分類結(jié)果,實現(xiàn)對原始數(shù)據(jù)細胞亞群的自動識別。
2. 如權(quán)利要求1所述的流式數(shù)據(jù)細胞亞群快速自動識別方法,其特征在于,步驟⑵采 用的循環(huán)最大值方法對矩陣的位置點進行分類過程為: (a) 求矩陣中的最大值所對應(yīng)的位置點,并記錄該位置; (b) 如果(a)中得到的位置點為第一次循環(huán)得到的點,則將該位置點定為第一個細胞 亞群的位置點,否則,進行過程(c); (c) 將(a)中得到的位置點與之前已記錄的所有位置點進行比較;如果(a)中得到的 位置點離之前所有的位置點都較遠,則令(a)中得到的位置點為新的一個細胞亞群所在位 置點,否則將(a)得到的位置點歸類到前面記錄的位置點中距離最小的亞群中; (d) 令(a)中記錄的位置點對應(yīng)的值為0,回到過程(a),直到矩陣中的所有位置對應(yīng)的 值為〇。
【文檔編號】G06K9/64GK104361360SQ201410728956
【公開日】2015年2月18日 申請日期:2014年12月3日 優(yōu)先權(quán)日:2014年12月3日
【發(fā)明者】王先文, 陳鋒, 程智, 杜耀華, 李辰宇, 暴洪濤, 吳太虎 申請人:中國人民解放軍軍事醫(yī)學(xué)科學(xué)院衛(wèi)生裝備研究所