專利名稱:一種用于芯片數(shù)據(jù)分析的可視化分析和展示方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基因芯片數(shù)據(jù)分析的數(shù)椐展示方法,尤其涉及一種大規(guī)?;?詔芯片數(shù)據(jù)集分析中妁可視化分析和展示方法。
背景技術(shù):
基因芯片的出現(xiàn)是近年來高新技術(shù)領(lǐng)域中極具時代特征的重大進(jìn)展,是物理 學(xué)、微電子學(xué)與分子生物學(xué)綜合交叉形成的高新技術(shù)?;蛐酒夹g(shù)是一種高通量
的技術(shù),其基本原理是通過微加工工藝在厘米見方的芯片上集成有數(shù)以萬計(jì)的DNA 探針,來實(shí)現(xiàn)對mRNA和DNA序列進(jìn)行高效快捷的定量檢測,在基因功能的闡述、 疾病原因及機(jī)理的探索、可能的診斷及治療靶點(diǎn)的發(fā)現(xiàn)等應(yīng)用領(lǐng)域,基因芯片正發(fā) 揮著越來越大的用途。
隨著基因芯片技術(shù)的進(jìn)步,該技術(shù)被越來越多應(yīng)用到科研和實(shí)踐中去,大規(guī) 模涉及基因芯片的研究也變得可行,因而出現(xiàn)了許多單項(xiàng)研究中包括數(shù)百張芯片的 情況。這些研究產(chǎn)生的高維度大內(nèi)容的數(shù)據(jù)對試圖挖掘其中內(nèi)涵和有價值的表達(dá)模 式(pattern)的研究人員來說是一個很大的挑戰(zhàn)。
由于基因芯片技術(shù)的高通量的特性產(chǎn)生大規(guī)模的數(shù)據(jù),深入挖掘內(nèi)在信息的 芯片數(shù)據(jù)分析成為了研究中最關(guān)鍵的步驟之一,而用圖表等相關(guān)技術(shù)展示數(shù)據(jù)更有 助于研究人員特別是生物技術(shù)人員和臨床醫(yī)師在復(fù)雜的數(shù)據(jù)中直觀地發(fā)現(xiàn)一些對 象相互間的關(guān)系或者表達(dá)模式,而無須深入了解計(jì)算機(jī)和數(shù)學(xué)知識,因此也可以說 是數(shù)據(jù)分析的第一步。目前常用的芯片可^L化分析方法有群集固(Clustergram)、 平行坐標(biāo)(Parallel Coordinates )、熱圖(Heat Maps )、散點(diǎn)圖(Sca上ter Plots )、 柱狀圖(Histograms)等等。在一些情況下這些工具相當(dāng)有用,但當(dāng)面對極大規(guī)模 的芯片數(shù)據(jù)集來說,就顯得有些力不從心,無法表現(xiàn)出數(shù)據(jù)中所有潛在的^^勾和模 式。因?yàn)檫@些常用工具并不是專門用來解決大規(guī)^^芯片數(shù)據(jù)分析的-問題,有著許多 難以克服的缺陷,比如,熱點(diǎn)圖(Heat Maps)被廣泛的應(yīng)用于工業(yè)界的財務(wù)與生 命科學(xué)領(lǐng)域,是一類基于等級分類(hierarchical clustering)的展示數(shù)據(jù)集中
每一個數(shù)據(jù)點(diǎn)的方法,透—過顏色來表示是否為特定基因的上調(diào)和下調(diào),這才羊當(dāng)數(shù)據(jù) 樣本很多時造成樹狀圖的上千個節(jié)點(diǎn),讓人覺得多得無從下手。平行坐標(biāo)(Para 11 el Coordinates)應(yīng)用在大規(guī);^lt據(jù)集上則顯得雜亂無章—,難-以揭示其中的內(nèi)在。
因此,由于芯片凄戰(zhàn)可視化分析和展示方法在基因芯片省史據(jù)分析技術(shù)領(lǐng)域的 重要性以及現(xiàn)有方法的缺陷,建立一種新的更完善的適合f大規(guī)模芯片數(shù)據(jù)分析的 可視化分析和展示方法,是基因芯片技術(shù)領(lǐng)域急需解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決上述問題,提供了一種基因芯片數(shù)據(jù)的可視化分析和 展示方法,它能提供直觀的芯片可視化方法,能方{緣示大規(guī)模的芯片數(shù)據(jù),可以 方便生物信息和統(tǒng)計(jì)專業(yè)人士快速了解數(shù)據(jù)的結(jié)構(gòu)特性,從而為后續(xù)的數(shù)學(xué)建模分 析提供依據(jù)。
本發(fā)明的技術(shù)方案為 一種用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其 中,所述方法包括
(1 ) 一次利用自組織映射的神經(jīng)網(wǎng)絡(luò)來模擬和學(xué)習(xí)芯片數(shù)據(jù); (2)利用組成分平面來展示步驟(1)得到的單個芯片/樣本的數(shù)據(jù),將所述 神經(jīng)網(wǎng)絡(luò)中的多維神經(jīng)元載體的單個組成分分離出來,同時用二維平面 展示經(jīng)步驟(1)學(xué)習(xí)到的數(shù)據(jù)結(jié)構(gòu); (3 )第二次利用自組織映射的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)多個樣本之間的關(guān)系,并利用 最佳匹配單元原理將學(xué)習(xí)到的組平面/樣本關(guān)系投射到二維空間,同時 展示數(shù)據(jù)中樣本和基因之間的關(guān)系。 上述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其中,步驟(l)進(jìn)一步 包括
(1. 1 )構(gòu)建自組織映射神經(jīng)網(wǎng)絡(luò);
(1. 2 )所述自組織映射神經(jīng)網(wǎng)絡(luò)讀取預(yù)處理好的各組芯片數(shù)據(jù);
(1.3) 找出和當(dāng)前這組芯片數(shù)據(jù)最近的神經(jīng)元,即為最佳匹配單元;
(1.4) 所有在所述網(wǎng)絡(luò)的拓樸結(jié)構(gòu)中與步驟(1.3)的最佳匹配單元相鄰的 神經(jīng)元象數(shù)據(jù)點(diǎn)進(jìn)行移動;
(1. 5 )以下一組芯片數(shù)據(jù)取代當(dāng)前這組芯片數(shù)據(jù)并重復(fù)步驟(1. 3 ) - ( 1. 4 ),
直到所有的神經(jīng)元都訓(xùn)練完畢。 (1.6)輸出神經(jīng)元的結(jié)果。 上述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其中,所述步驟(1.3)
中,根據(jù)公式llx - mcll = mini(llx - rail |}來尋找最佳匹配單元,其中x 代表輸入樣本向量,m代表神經(jīng)元的模式向量,c代表最佳匹配單元,i代M i個神經(jīng)元,I !. 1 l表示一種計(jì)算距離的方法,t代表任一時間。
上述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其中,所述步驟(1. 4 ) 中,根據(jù)7i^式mi(t+l) = mi + a(t) hci(r(t)) [i(t) - mi (t)]對神經(jīng)元象 數(shù)據(jù)點(diǎn)進(jìn)行移動,其中x代表輸入樣本向量,m代表神經(jīng)元的模式向量,mi(t+l) 代表單元i的加權(quán)向量,t代表任一時間,a(t)代表鄰近核心函數(shù),其為一 遞減函數(shù)且介于0與1之間,主要是用來對最佳匹配單元的所有鄰近點(diǎn)作調(diào)整, hci(r(t))代表最佳匹配單元c附近的鄰近核心,r(t)代表鄰近半徑。
上述的用于芯片數(shù)據(jù)分析的可4見化分析和展示方法,其中,步驟(1. 1 )進(jìn)一 步包括
設(shè)定輸入栽體和輸出載體,每個神經(jīng)元在自組織網(wǎng)絡(luò)中有原型載體和網(wǎng)絡(luò)載 體兩個位置,原型載體和網(wǎng)絡(luò)載體分別為自組織網(wǎng)絡(luò)訓(xùn)練樣本的輸入變量和輸出結(jié) 果,同時設(shè)定神經(jīng)元數(shù)目;
設(shè)定拓樸結(jié)構(gòu)和網(wǎng)絡(luò)連接,所述網(wǎng)絡(luò)連接為相鄰神經(jīng)元之間的關(guān)系。 上述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其中,步驟(2)進(jìn)一步 包括
(2. 1)將神經(jīng)元每一維的數(shù)值投射到平面上;
(2.2)用圖形表示自組織映射的神經(jīng)網(wǎng)絡(luò)的拓樸結(jié)構(gòu),每個神經(jīng)元用與拓樸 結(jié)構(gòu)對應(yīng)的圖形表示,神經(jīng)元每個維度的數(shù)值用顏色來編碼; (2. 3)組成分平面展示結(jié)果。
上述的用子芯片數(shù)據(jù)分析的可視化分析和展示方法,其中,步驟(3)進(jìn)一步 包括
(11)構(gòu)建另一自組織映射的神經(jīng)網(wǎng)絡(luò),并將步驟(2)中的每個組成分/樣 本的數(shù)值構(gòu)成一個載體;
(3.2)進(jìn)行第二次自組織映射神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí);
(3. 3 )通過步驟(3. 2 )的學(xué)習(xí)找出每個組成分/樣本在第二次自組織映射神 經(jīng)網(wǎng)絡(luò)的神經(jīng)元中所對應(yīng)的最佳匹配單元;
(1 4 )將每個組成分/樣本投射到自組織映射神經(jīng)網(wǎng)絡(luò)圖譜中,該組成分平面 的位置為步驟(3. 3 )得到的該圖譜中相應(yīng)的最佳匹配單元神經(jīng)元的位置;
(3. 5 )將步驟(2 )的每個組成分/樣本的可4見化展示代入;
(3. 6 )在一幅自組織映射神經(jīng)網(wǎng)絡(luò)圖語中展f最終結(jié)果。 上述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其中,步驟(3. 4)中, 當(dāng)相同的樣本投射到同 一單元時,匹配值最低的樣本將投射到第二匹配單元。
本發(fā)明對比現(xiàn)有技術(shù)有如下的有益效果本發(fā)明的方法可以在一副圖鐠(map) 中展示所有的芯片數(shù)據(jù),同時能準(zhǔn)確的將生物芯片數(shù)據(jù)的重要特征/結(jié)構(gòu)展示出來。 這種分析方法可以直接應(yīng)用到生物芯片整合平臺的制造以及生物芯片數(shù)據(jù)分析系 統(tǒng)的開發(fā)中。同時,將使生物芯片數(shù)據(jù)分析技術(shù)變得直觀,克服了生物芯片技術(shù)中 的一個重,頸,因此將有易于生物芯片技術(shù)的推廣和普及。
圖1是本發(fā)明方法較佳實(shí)施例的總流程圖。
圖2是本發(fā)明方法中SOM訓(xùn)練方法的流程圖。
圖3是本發(fā)明方法中組成分平面展示方法的流程圖。
圖4是本發(fā)明方法中平面組分映射到單獨(dú)圖表方法的流程圖。
圖5是應(yīng)用本發(fā)明的一個實(shí)施例的結(jié)果示意圖。
圖6是應(yīng)用本發(fā)明的另一實(shí)施例的結(jié)果示意圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的描述。
圖1示it!了本發(fā)明方法的總流程。請參見圖1所示,下面是對流程中每一步 驟的詳細(xì)描述。
步驟S1:第一次利用自組織映射(Self-Organizing Map, S0M)的神經(jīng)網(wǎng)絡(luò) 來模擬和學(xué)習(xí)芯片數(shù)據(jù)。這種技術(shù)利用模擬神經(jīng)元(neuron )來代替原始數(shù)據(jù),是 基于一種稱為非監(jiān)督式(Non-supervi sed )自組織網(wǎng)絡(luò)映射的神經(jīng)網(wǎng)絡(luò)算法基礎(chǔ)上
提出的,模擬腦神經(jīng)元細(xì)胞在大腦中的4殳射,可以達(dá)到JC低數(shù)據(jù)密度,減少數(shù)據(jù)噪 音的目的,同時也使后續(xù)的數(shù)據(jù)展示變得更容易。
圖2示出了該步驟的子流程。請參見圖2所示,下-面的步驟Sll - S16是對這 些子流程的詳細(xì)描述。
步驟S11:構(gòu)建自組織映射神經(jīng)網(wǎng)絡(luò)。構(gòu)建過程主要如下 (1 )設(shè)定輸入載體和輸出載體。每個神經(jīng)元在自組織網(wǎng)絡(luò)中都有兩個位置-原型載體和網(wǎng)絡(luò)載體,原型載體為自組織網(wǎng)絡(luò)訓(xùn)練樣本的輸入變量,網(wǎng)絡(luò)載體為網(wǎng) 絡(luò)的輸出結(jié)果。它們的維數(shù)與生物芯片數(shù)據(jù)芯片維數(shù)相同,它們的神經(jīng)元數(shù)目依據(jù) 生物芯片具體數(shù)據(jù)來決定。
(2) 設(shè)定拓樸結(jié)構(gòu)。為了便于進(jìn)一步展示,本實(shí)施例中的拓樸結(jié)構(gòu)為二維的 六邊形結(jié)構(gòu),即每個神經(jīng)元周圍有六個相鄰的神經(jīng)元。
(3) 設(shè)定網(wǎng)絡(luò)連接。網(wǎng)絡(luò)連接為相鄰神經(jīng)元之間的關(guān)系,本實(shí)施例中選用高 斯函數(shù)來表示,其公式為exp(- II r。-ri II 2/2ci2(t))。
步驟S12:自組織映射神經(jīng)網(wǎng)絡(luò)分組讀取預(yù)處理好的基因芯片數(shù)據(jù)。將芯片數(shù) 據(jù)分組,以一次一組的形式讀入神經(jīng)網(wǎng)絡(luò)。
步驟S13:找出和當(dāng)前這組芯片數(shù)據(jù)最近的神經(jīng)元,即為最佳匹配單元(Best Match Unit, BMU)。
在自組織映射神經(jīng)網(wǎng)絡(luò)中,每一項(xiàng)原始數(shù)據(jù)中具有許多屬性,所有的原始 數(shù)據(jù)均被視為由屬性值所構(gòu)成的輸入向量,而被投射的二維平面則由許多的神 經(jīng)元(neuron)所構(gòu)成,每一神經(jīng)元同才羊是由向量所構(gòu)成,構(gòu)成神經(jīng)元的向量稱 為模式向量。在學(xué)習(xí)的過程中,平面中的神經(jīng)元會與所有的輸入向量進(jìn)行比較, 最接近輸入向量的神經(jīng)元稱為最佳匹配單元。
在本實(shí)施例中是根據(jù)公式l lx - mcll = fflini(IU - raill)來尋找最佳匹 配單元,其中x代表輸入樣本向量,m代表神經(jīng)元的模式向量,c代表最佳匹配 單元,i代表第i個神經(jīng)元,I I. I l表示一種計(jì)算距離的方法,通常是歐式距離, t代表任一時間。當(dāng)前這組芯片數(shù)據(jù)的最佳匹配單元就是滿足上面公式的c。
步驟Sl4:所有在該網(wǎng)絡(luò)的拓樸結(jié)構(gòu)中與步驟Sl3中找到的最佳匹配單元相鄰 的神經(jīng)元象數(shù)據(jù)點(diǎn)進(jìn)行移動。
調(diào)整最佳匹配單元的神經(jīng)元使其與輸入向量更加接近,同時也對最佳匹配單
元所有鄰近的點(diǎn)進(jìn)行調(diào)整,使得分群中的相似數(shù)據(jù)更加接近。具體是根據(jù)公式
mi(t+l) -邁i + a(t)hci (r (t)) [i (t)-mi (t)]對神經(jīng)元象數(shù)振點(diǎn)進(jìn)行移動,其沖 x代表輸入樣本向量,m代表神經(jīng)元的模式向量,mi(t+l)代表單元i的加權(quán)向量, t代表任一時間,a(t)代表鄰近核心函數(shù),其為一遞減函數(shù)且介于0與1之間, 主要是用來對最佳匹配單元的所有鄰近點(diǎn)作調(diào)整,常用的有泡沫函數(shù)(bubb 1 e ) 和高斯函數(shù)(gaussian)兩種,hci(r(t))代表最佳匹配單元c附近的鄰近核 心,r(t)代表鄰近半徑。
受調(diào)整的神經(jīng)元的調(diào)整范圍及調(diào)整率,為與最佳匹配單元間的距離。 一般所 采用的距離計(jì)算式如下式exp(-llr「rillV2cj2(t)),其中r。代表神經(jīng)元在自組 織圖中的位置,sigraa(t)是在t時刻的鄰近半徑。
步驟S15:判斷當(dāng)前處理的這組芯片數(shù)據(jù)是否為最后一組。如果是,則轉(zhuǎn)入下 一步,否則將下一組芯片數(shù)據(jù)取代當(dāng)前這組數(shù)據(jù)并轉(zhuǎn)入步驟Sl 3進(jìn)行相同的處理。
步驟S16:輸出神經(jīng)元的結(jié)果。
步驟S2:利用組成分平面來展示單張芯片/樣本的數(shù)據(jù)。其原理是將上述的多 維神經(jīng)元載體(neuron vector)的單個組分分離出來,同時用二維的平面展示自 組織網(wǎng)絡(luò)學(xué)習(xí)到的數(shù)據(jù)結(jié)構(gòu)。圖3示出了組成分平面展示的子流程。請參見圖3 所示,下面的步驟S21-S23是對這些子流程的詳細(xì)描述。
步驟S21:將第一次SOM的神經(jīng)元每一維的數(shù)值投射到平面上。
步驟S22:用-圖形表示自組織映射神經(jīng)網(wǎng)絡(luò)的拓樸結(jié)構(gòu),每個神經(jīng)元用與拓樸 結(jié)構(gòu)對應(yīng)的圖形表示,神經(jīng)元每個維度的數(shù)值用顏色來編碼。
在本實(shí)施例中,由于拓樸結(jié)構(gòu)采用的是六邊形結(jié)構(gòu),故用包含六邊形的圖譜 來展示自組織網(wǎng)絡(luò)的拓樸結(jié)構(gòu),即組平面是由六邊形組成的,每個六邊形代表自組 織網(wǎng)絡(luò)中的一個神經(jīng)元。六邊形的數(shù)值代表神經(jīng)元在輸出空間中的單個組成分(維 度的數(shù)值),這些數(shù)值用顏色矩陣來表示,在本實(shí)施例中紅色表示高值,藍(lán)色表示 低值。因此,每個組成分展示了自組織網(wǎng)絡(luò)學(xué)習(xí)到的每個樣本/芯片的數(shù)據(jù)特性。
步驟S23:組成分平面展示結(jié)果。
步驟S3:第二次利用自組織映射神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)多個樣本之間的關(guān)系,并利用最佳匹配單-元原理將學(xué)習(xí)到的組平面/樣本關(guān)系投射到二維空間,確定平面組分 在展示圖中的位置,同時展示數(shù)據(jù)中樣本和基因之間的關(guān)系。
掛4示出了該步驟S3的子流程。i青參見圖3所示,下面的步驟S31 - S36是 對這些子流程的詳細(xì)描述。
步驟S31:構(gòu)建第二個自組織映射的神經(jīng)網(wǎng)絡(luò),并將步驟S2中的每個組成分/ 樣本的數(shù)值構(gòu)成一個載體。
為了減少數(shù)據(jù)的計(jì)算量,第二次自組織網(wǎng)絡(luò)學(xué)習(xí)是建立在第一次自組織網(wǎng)絡(luò) 之上。在構(gòu)建第二次自組織網(wǎng)絡(luò)中,模擬神經(jīng)元載體的維數(shù)等于第一次自組織網(wǎng)絡(luò) 中包含的神經(jīng)元的數(shù)目,模擬神經(jīng)元的數(shù)目將設(shè)置成大于組平面的數(shù)目。而第二次 自組織網(wǎng)絡(luò)用的距離公式與第一次不同,第一次采用歐式距離,第二次采用共相關(guān) 系數(shù)來計(jì)算數(shù)據(jù)點(diǎn)之間的距離。
—步驟S32:進(jìn)行第二次自組織映射神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。其學(xué)習(xí)過程與第一次自組 織映射神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)類同,在此不再重復(fù)描述。
步驟S33:通過步驟S32的學(xué)習(xí)找出每個組成分/樣本在第二次自組織映射神 經(jīng)網(wǎng)絡(luò)的神經(jīng)元中所對應(yīng)的最佳匹配單元。最佳匹配單元的尋找和處理方法類似步 驟S13-S14。
步驟S34:將每個組成分/樣本投射到自組織映射神經(jīng)網(wǎng)絡(luò)圖鐠中,該組成分 平面的位置為步驟S33得到的該圖i脊中相應(yīng)的最佳匹配單元神經(jīng)元的位置。如果遇 到相同的樣本投射到同 一單元,則匹配值最低的那個樣本將會投射到第二匹配單元 (next-best-matching)。所謂第二匹配單元,是指平面中的神經(jīng)元與所有的 輸入向量進(jìn)行比較后第二接近輸入向量的神經(jīng)元。
步驟S35:將步驟2中的每個組成分/樣本的可視化展示代入。 步驟S36:在所有組成分/樣本都處理完畢后,這幅自組織映射神經(jīng)網(wǎng)絡(luò)圖譜 將展示最終結(jié)果。
圖5示出了本發(fā)明方法的一個應(yīng)用實(shí)施例。請參見圖5,應(yīng)用本方法,按照不 同^)表達(dá)模式,在圖中分開明顯的三個區(qū)域,分別為All-T (T cell acute lymphoblastic leukemia, T型急性淋巴白血病)、ALL—B (B cell acute lymphoblastic leukemia, B'型急性淋巴白血病)、AML( acute myeloid leukemia,
急性粒細(xì)胞白血病-)。通過分析結(jié)果可知,該圖譜可以作為用來實(shí)現(xiàn)下列目標(biāo)的有
效工具。(1)為整個芯片數(shù)據(jù)提供一個鳥瞰圖,以便于尋找數(shù)據(jù)中一些大規(guī)模的 特性。比如在臥5中,AML和ALL樣本可以由它們各自在圖中的位置和組成分的花 式(pattern)輕易的分別開來。AML和ALL在圖中各自聚集在一起。同時通過觀 察圖5,可以發(fā)現(xiàn)ALL樣本中間有一條清晰的,由空網(wǎng)格隔開的邊界,這暗示著ALL 類別中可能存在亞類。檢視原始數(shù)據(jù)提供的病人樣本信息可以發(fā)現(xiàn),這兩類樣本分 別為T細(xì)胞來源的ALL和B細(xì)胞來源的ALL。T細(xì)胞來源的ALL和B細(xì)胞來源的ALL 在生物學(xué)上和臨床治療上有很大的區(qū)別。因此,它們在轉(zhuǎn)錄表達(dá)水平上的不同,暗 示著它們可能為ALL的兩個亞類。由上述分析可知,我們的結(jié)果能展示芯片數(shù)據(jù)中 大尺度的特性,為進(jìn)一步挖掘樣本之間的關(guān)系提供便利。(2)可以用來尋找樣本 局部的聯(lián)系,這些聯(lián)系能提供寶貴的信息。進(jìn)一步的觀察T-ALL和B-ALL的基因表 達(dá)譜不難發(fā)現(xiàn)在所有的T-ALL組成分平面的右下角的基因跟B-ALL表達(dá)轉(zhuǎn)況有很
大的區(qū)別。這些區(qū)別表現(xiàn)在這些基因在T-ALL樣本中,相對與B-ALL樣本具有高水 平的表達(dá)。暗示著這些基因可能代表了 T-ALL和B-ALL的表達(dá)差異,它們可能用做
區(qū)分這兩類樣本的標(biāo)記基因(marker gene)。
圖6示出了本發(fā)明方法的另一應(yīng)用實(shí)施例。請參見圖6,應(yīng)用本方法,按照不
同的表達(dá)模式,將樣品中不同組織或者器官映射到各自的區(qū)域,各個區(qū)域具有明顯
的表達(dá)特征,聚集在一起的都為相同的組織樣本,它們的表達(dá)諳具有相同的花式 (pattern)和特性,圖中也直觀的反映了這些組織的的起源關(guān)系。因此,在我們
的分析中證^了該方法非常利于觀察復(fù)雜數(shù)據(jù)的結(jié)構(gòu),有利于研究人員快速尋找數(shù)
據(jù)中感興趣的特征。
綜上,本發(fā)明利用SOM (Self-organizing Map,自組織映射)向量映射的特 性,應(yīng)用組分平面展示技術(shù)將高維的芯片表達(dá)數(shù)據(jù)轉(zhuǎn)化為二維的帶色彩的模式,在 可視化分析生物樣本之間的聯(lián)系方面非常有用。然而在處理大規(guī)模數(shù)據(jù)時,組分之 間尋找相似性和區(qū)別仍然十分麻煩。因此將平面組分組織并把它們映射到一個新的
單獨(dú)的圖表上,使^尋能夠:^示和便利挖掘龐大數(shù)據(jù)集中基因和樣品各自的自然類別
和相關(guān)聯(lián)的表達(dá)模式。對于生物技術(shù)研發(fā)人員和臨床醫(yī)師,使用本發(fā)明的方法不需 要專業(yè)的數(shù)學(xué)和計(jì)算機(jī)知識,同時提供可靠的分析結(jié)果.該方法由于使用了先進(jìn)的 神經(jīng)網(wǎng)絡(luò)技術(shù),使得生物芯片數(shù)據(jù)處理系統(tǒng)的處理能力大大增強(qiáng),原本在大型機(jī)完
成的任務(wù),能輕松在個人PC機(jī)完.成。因此本方法將有利于芯片分析平臺和軟件的 研制,節(jié)省建立平臺的成本,也有利于生物芯片產(chǎn)品的普及。
上述實(shí)施例是提供給本領(lǐng)域普通」技術(shù)人員來實(shí)現(xiàn)或使用本發(fā)明的,本領(lǐng)域普 通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想的情況下,對上逸實(shí)施例做出種種修改或 變化,因-而本發(fā)明的保護(hù)范圍并不被上述實(shí)施例所限,而應(yīng)該是符合權(quán)利要求書提 到的創(chuàng)新性特征的最大范圍。
權(quán)利要求
1一種用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其特征在于,所述方法包括(1)第一次利用自組織映射的神經(jīng)網(wǎng)絡(luò)來模擬和學(xué)習(xí)芯片數(shù)據(jù);(2)利用組成分平面來展示步驟(1)得到的單個芯片/樣本的數(shù)據(jù),將所述神經(jīng)網(wǎng)絡(luò)中的多維神經(jīng)元載體的單個組成分分離出來,同時用二維平面展示經(jīng)步驟(1)學(xué)習(xí)到的數(shù)據(jù)結(jié)構(gòu);(3)第二次利用自組織映射的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)多個樣本之間的關(guān)系,并利用最佳匹配單元原理將學(xué)習(xí)到的組平面/樣本關(guān)系投射到二維空間,同時展示數(shù)據(jù)中樣本和基因之間的關(guān)系。
2.根據(jù)權(quán)利要求1所述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其特 征在于,步驟(1)進(jìn)一步包括(1.1)構(gòu)建自組織映射神經(jīng)網(wǎng)絡(luò);(1. 2 )所述自組織映射神經(jīng)網(wǎng)絡(luò)讀取預(yù)處理好的各組芯片數(shù)據(jù);(1.3) 找出和當(dāng)前這組芯片數(shù)據(jù)最近的神經(jīng)元,即為最佳匹配單元;(1.4) 所有在所述網(wǎng)絡(luò)的拓樸結(jié)構(gòu)中與步驟(1.3)的最佳匹配單元相鄰的 神經(jīng)元象數(shù)據(jù)點(diǎn)進(jìn)行移動;(1. 5 )以下一組芯片數(shù)據(jù)取代當(dāng)前這組芯片數(shù)據(jù)并重復(fù)步驟(1. 3) - (1. 4 ), 直到所有的神經(jīng)元都訓(xùn)練完畢。 (1.6)輸出—神經(jīng)元的結(jié)果。
3.根據(jù)權(quán)利要求2所述妁用于芯片數(shù)據(jù)分析妁可視化分析和展示方法,其特 征在于-,所述步驟(1. 3)中,根據(jù)公式l lx - mcl I = mini {| |x - mi | |}來 尋找最佳匹配單元,其中x代表輸-入樣本向量,m代表神經(jīng)元的模式向量,c 代表最佳匹配單元,i代表第i個神經(jīng)元,II. ll表示一種計(jì)算距離的方法,t 代表任一時間。
4.根據(jù)權(quán)利要求2所述的用于芯片數(shù)據(jù)分析的可#見化分析和展示方法,其特征在于,所述步驟(l.斗)中,賴4居/>式—邁i (t + l) =mi-+ a(t) hci(r(t)) [x(t) -坦i(t)]對神經(jīng)-元象數(shù)據(jù)點(diǎn)進(jìn)行移動,其中x代表輸入樣本向量,m代表神經(jīng) 元的模式向量,mi(t+l)代表單元i的加權(quán)向量,t代表任一時間,a(t)代表 鄰近核心函數(shù),其為一遞減函數(shù)且介于0與1之間,主要是用來對最佳匹配單 元的所有鄰近點(diǎn)作調(diào)整,hci (r(t))代表最佳匹配單元c附近的鄰近核心,r (t) 代表鄰近半徑。
5.根據(jù)權(quán)利要求2所述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其特 征在于,步驟(1. 1)進(jìn)一步包括設(shè)定輸入栽體和輸出載體,每個神經(jīng)元在自組織網(wǎng)絡(luò)中有原型載體和網(wǎng)絡(luò)載 體兩個位置,原型載體和網(wǎng)絡(luò)載體分別為自組織網(wǎng)絡(luò)訓(xùn)練樣本的輸入變量和輸出結(jié) 果,同時設(shè)定神經(jīng)元數(shù)目;設(shè)定拓樸結(jié)構(gòu)和網(wǎng)絡(luò)連接,所迷網(wǎng)絡(luò)連接為相鄰神經(jīng)元之間的關(guān)系。
6.根據(jù)權(quán)利要求l所述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其特 征在于,步驟(2)進(jìn)一步包括(2. 1)將神經(jīng)元每一維的數(shù)值投射到平面上;(2. 2)用圖形表示自組織映射的神經(jīng)網(wǎng)絡(luò)的拓樸緒構(gòu),每個神經(jīng)元用與拓樸 結(jié)構(gòu)對應(yīng)的-圖形表示,神經(jīng)元每個維度的數(shù)值用顏色來編碼; (2. 3)組成分平面展示結(jié)果。
7.根據(jù)權(quán)利要求1所述的用于芯片數(shù)據(jù)分析的可視化分析和展示方法,其特 征在于,步驟(3)進(jìn)一步包括(3.1)構(gòu)建另一自組織映射的神經(jīng)網(wǎng)絡(luò),并將步驟(2)中的每個組成分/樣 本的數(shù)值構(gòu)成一個載體;(3. 2 )進(jìn)行第二次自組織映射神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí);(3. 3)通過步驟(3. 2 )的學(xué)習(xí)拔化每個組成分/樣本在第二次自組織映射神 經(jīng)網(wǎng)絡(luò)的神經(jīng)元中所對應(yīng)的最佳匹配單元; (3. O將每個組成分/樣本投射到自ia織映射神經(jīng)網(wǎng)絡(luò)圖譜中,該組成分平面 的位置為步驟(3. 3)得到的該圓謙中相應(yīng)妁最佳匹私單元神經(jīng)元的位置; (3, 5 )將步驟-(2 )的每個組成分/樣本的可視化展示代入; (3. 6 )在一幅自組織映射神經(jīng)網(wǎng)絡(luò)圖謫呻展示最終結(jié)果。征在于,步驟(3.4)中,當(dāng)相同的樣本投4t到同一單元時,匹配值最低的樣本將 投射到第二匹配單元。
全文摘要
本發(fā)明公開了一種基因芯片數(shù)據(jù)的可視化分析和展示方法,它能提供直觀的芯片可視化方法,能方便展示大規(guī)模的芯片數(shù)據(jù)。其技術(shù)方案為該方法包括(1)第一次利用自組織映射的神經(jīng)網(wǎng)絡(luò)來模擬和學(xué)習(xí)芯片數(shù)據(jù);(2)利用組成分平面來展示步驟(1)得到的單個芯片/樣本的數(shù)據(jù),將所述神經(jīng)網(wǎng)絡(luò)中的多維神經(jīng)元載體的單個組成分分離出來,同時用二維平面展示經(jīng)步驟(1)學(xué)習(xí)到的數(shù)據(jù)結(jié)構(gòu);(3)第二次利用自組織映射的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)多個樣本之間的關(guān)系,并利用最佳匹配單元原理將學(xué)習(xí)到的組平面/樣本關(guān)系投射到二維空間,同時展示數(shù)據(jù)中樣本和基因之間的關(guān)系。本發(fā)明應(yīng)用于大規(guī)?;蛐酒瑪?shù)據(jù)分析技術(shù)領(lǐng)域。
文檔編號G06F17/00GK101097585SQ200610028348
公開日2008年1月2日 申請日期2006年6月29日 優(yōu)先權(quán)日2006年6月29日
發(fā)明者超 王, 謝松旻, 剛 金 申請人:中國科學(xué)院上海生命科學(xué)研究院