一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物工程技術(shù)領(lǐng)域,主要涉及生物信息學(xué)和生物數(shù)據(jù)挖掘,具體涉及 一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法。
【背景技術(shù)】
[0002] 生物工程是以生物學(xué)(主要是基因遺傳學(xué)、細(xì)胞學(xué)和生物化學(xué))的理論為基礎(chǔ),結(jié) 合機(jī)械、電子計(jì)算機(jī)、化工等現(xiàn)代工程技術(shù),充分運(yùn)用分子生物學(xué)的最新成就,自覺(jué)操縱遺 傳物質(zhì),再對(duì)這些改造的工程細(xì)胞株進(jìn)行培養(yǎng),通過(guò)細(xì)胞增殖以生產(chǎn)大量有用代謝產(chǎn)物或 發(fā)揮它們獨(dú)特生理功能的一門新興技術(shù)。其廣泛的用途主要應(yīng)用于醫(yī)藥衛(wèi)生、食品輕工、農(nóng) 牧漁業(yè)、能源化工、冶金工業(yè)、環(huán)境保護(hù)等諸多方面。生物工程技術(shù)的合理應(yīng)用將為解決人 類面臨的糧食、健康、環(huán)境、能源等重大問(wèn)題開(kāi)辟?gòu)V闊的前景。
[0003] 生物工程與計(jì)算器微電子技術(shù)、新材料、新能源等被列為21世紀(jì)科學(xué)技術(shù)的核 心。由于生命科學(xué)和計(jì)算機(jī)科學(xué)的有機(jī)結(jié)合,從而可以通過(guò)綜合利用生物學(xué),計(jì)算機(jī)科學(xué)和 信息技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘。
[0004] 生物工程著眼于分子層面,是對(duì)基因進(jìn)行改造和重組而后進(jìn)行培養(yǎng)增殖。對(duì)于改 造后的細(xì)胞植株要想快速培養(yǎng)應(yīng)用于生物醫(yī)藥時(shí),首先應(yīng)從海量未知基因選擇出并找到影 響細(xì)胞增殖的相關(guān)基因,這也是整個(gè)工程中至關(guān)重要的一步。另外,對(duì)于基因進(jìn)行有效地分 群,了解其生物意義,還可以開(kāi)發(fā)出基于這些基因的價(jià)格低廉的疾病基因芯片。
[0005] 目前為止基因的選擇方法可以分為:濾波法、包裝方法、內(nèi)含法。雖然這些方法成 功地應(yīng)用于聯(lián)合的基因選擇和微陣列分類,但是卻不能較好的將其應(yīng)用于較多的基因分群 之中,也不能揭示出基因與基因之間的相互作用。為了成群地選擇特征的同時(shí)并能夠進(jìn)行 精度預(yù)測(cè),2006年Yuan和Lin提出能按照預(yù)先分好的群進(jìn)行基因選擇的群lasso,Meier etal將其擴(kuò)展到邏輯斯諫回歸。為了能夠同時(shí)產(chǎn)生分群的稀疏性和群內(nèi)稀疏性,Simon etal提出了稀疏群lasso而且通過(guò)增廣坐標(biāo)下降算法發(fā)展了一個(gè)算法來(lái)擬合這個(gè)模型; Vincent等人將它拓展到了多項(xiàng)式稀疏群lasso和發(fā)展了求解算法。盡管群lasso,稀疏群 lasso和它們的拓展已經(jīng)成功地應(yīng)用到微陣列分類和基因選擇,但是它們高度賴于群的劃 分。傳統(tǒng)的群lasso模型及其推廣模型大多采用數(shù)據(jù)集中編寫程序進(jìn)行隨機(jī)自動(dòng)分群,常 常出現(xiàn)分群只與數(shù)據(jù)有關(guān),與實(shí)際應(yīng)用背景無(wú)關(guān)(無(wú)生物學(xué)意義)。從生物學(xué)角度來(lái)說(shuō),很 容易根據(jù)基因調(diào)控網(wǎng)絡(luò)將基因成群地劃分,然而對(duì)于復(fù)雜的生物過(guò)程卻很難探測(cè)基因通路 并構(gòu)建調(diào)控網(wǎng)絡(luò)。因此,對(duì)群lasso及其推廣模型進(jìn)行特征分群是生物信息學(xué)、計(jì)算生物學(xué) 等領(lǐng)域的一個(gè)急需解決的挑戰(zhàn)性問(wèn)題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是克服上述方法中存在的缺陷,提出了一種具有可靠性的基于網(wǎng)絡(luò) 分析的群lasso及其推廣模型的分群方法,以構(gòu)建分層聚類樹(shù)并利用動(dòng)態(tài)樹(shù)剪切算法識(shí)別 出影響細(xì)胞增殖的重要變量模塊,并根據(jù)精簡(jiǎn)的網(wǎng)絡(luò)模塊對(duì)特征進(jìn)行分群,進(jìn)而簡(jiǎn)化特征 分群難度并提高模型進(jìn)行特征選擇的可靠性。
[0007] 本發(fā)明為實(shí)現(xiàn)上述目的采用如下技術(shù)方案,通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理將其分為 兩個(gè)數(shù)據(jù)集并通過(guò)相似性測(cè)量和冪鄰接函數(shù)構(gòu)建出鄰接矩陣;然后利用差異性測(cè)量分別構(gòu) 建出兩類樣本的分層聚類樹(shù)并利用動(dòng)態(tài)剪切樹(shù)算法,計(jì)算出不同數(shù)據(jù)樣本中的重要模塊; 而后用負(fù)樣本模塊來(lái)簡(jiǎn)化正樣本模塊,得到精簡(jiǎn)模塊;最后根據(jù)特征變量分群,構(gòu)建稀疏群 lasso模型。其實(shí)現(xiàn)步驟如下:
[0008] (1)對(duì)于具體實(shí)驗(yàn)所得到的"小樣本,超高維"數(shù)據(jù),為了降低數(shù)據(jù)運(yùn)行程序的負(fù) 擔(dān),依據(jù)實(shí)際實(shí)驗(yàn)背景,將原始數(shù)據(jù)中的異常數(shù)據(jù),小關(guān)聯(lián)數(shù)據(jù)篩選出來(lái)去掉,從而得到分 群預(yù)處理數(shù)據(jù)集X= [\山Xn;
[0009] (2)根據(jù)分類任務(wù)的類別,將分群預(yù)處理數(shù)據(jù)集X分為兩類,即X+,X;通過(guò)相似性 測(cè)量和冪鄰接函數(shù),分別構(gòu)建出鄰接矩陣,f:
[0010] ⑶將鄰接矩陣轉(zhuǎn)化為拓?fù)渲丿B矩陣,Ω+ =[(:<]_&- 利用差異性測(cè) 量分別構(gòu)建正樣本和負(fù)樣本的分層聚類樹(shù);
[0011] (4)利用動(dòng)態(tài)剪切樹(shù)算法,分別計(jì)算出正樣本中的重要模塊和負(fù)樣本中的重要模 塊;
[0012] (5)根據(jù)實(shí)際的實(shí)驗(yàn)背景,利用負(fù)樣本中的模塊來(lái)簡(jiǎn)化正樣本中的模塊,得到q個(gè) 精簡(jiǎn)模塊;根據(jù)精簡(jiǎn)后的網(wǎng)絡(luò)模塊,把相應(yīng)的變量分為特征群,余下的每一個(gè)變量分別看作 一個(gè)特征群,進(jìn)而完成特征分群任務(wù);
[0013] (R)枏抿Η術(shù)分雔笛^&1忽蛙紅亦看·分成η個(gè)雔.拔1???? 爐型:
[0014]
[0015] 本發(fā)明在構(gòu)建數(shù)據(jù)網(wǎng)絡(luò)時(shí),首先將實(shí)驗(yàn)測(cè)試的原始數(shù)據(jù)預(yù)處理,并分成兩個(gè)數(shù)據(jù) 集,便于網(wǎng)絡(luò)的構(gòu)建,此外也有利于以后根據(jù)動(dòng)態(tài)聚類樹(shù)顯示的結(jié)果,將實(shí)驗(yàn)?zāi)K進(jìn)行精 簡(jiǎn),將分群過(guò)程簡(jiǎn)化。
[0016] 本發(fā)明在精簡(jiǎn)模塊時(shí),根據(jù)顯示的正樣本和負(fù)樣本的分層聚類樹(shù)圖,選擇出兩個(gè) 樣本在分層聚類樹(shù)中顯示相同顏色的模塊,比較出兩樣本中具有相同數(shù)據(jù)特征的變量,并 篩選出來(lái)去掉,從而得出精簡(jiǎn)后的正樣本模塊,使得基于網(wǎng)絡(luò)模塊進(jìn)行特征分群更具有生 物意義。
【附圖說(shuō)明】
[0017] 圖1是本發(fā)明的總流程圖;
[0018] 圖2是構(gòu)建網(wǎng)絡(luò)模塊并據(jù)此對(duì)特征分群示意圖;
[0019] 圖3是利用本發(fā)明對(duì)肝再生細(xì)胞增值數(shù)據(jù)構(gòu)建的正樣本模塊分層聚類樹(shù)圖;
[0020] 圖4是利用本發(fā)明對(duì)肝再生細(xì)胞增值數(shù)據(jù)識(shí)別出的正樣本模塊重要性圖;
[0021] 圖5是利用本發(fā)明對(duì)肝再生細(xì)胞增值數(shù)據(jù)識(shí)別出的簡(jiǎn)化正樣本模塊變量數(shù)目表;
[0022] 圖6是利用本發(fā)明識(shí)別出的部分與肝再生細(xì)胞增殖相關(guān)基因表。
【具體實(shí)施方式】
[0023] 以下通過(guò)實(shí)施例對(duì)本發(fā)明的上述內(nèi)容做進(jìn)一步詳細(xì)說(shuō)明,但不應(yīng)該將此理解為本 發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本發(fā)明上述內(nèi)容實(shí)現(xiàn)的技術(shù)均屬于本發(fā) 明的范圍。
[0024] 參照附圖1,本發(fā)明的實(shí)施步驟如下:
[0025] 步驟1 :用基因探針探測(cè)出大鼠肝切除后肝細(xì)胞樣本在2、6、12、24小時(shí)的基因表 達(dá)譜數(shù)據(jù),將其標(biāo)記為正樣本數(shù)據(jù);同樣方法可得未進(jìn)行肝切除的對(duì)照組數(shù)據(jù),將其標(biāo)記為 負(fù)樣本數(shù)據(jù);將原始數(shù)據(jù)中的基因變異、異常數(shù)據(jù)和小關(guān)聯(lián)數(shù)據(jù)篩選出來(lái)去掉,從而得到分 群預(yù)處理數(shù)據(jù),其中未知變量(特征)為6995個(gè)。
[0026] 步驟2 :上述分群預(yù)處理數(shù)據(jù),其為在4個(gè)時(shí)間節(jié)點(diǎn)采集的正負(fù)兩類基因表達(dá)譜 數(shù)據(jù),每一類包含36個(gè)樣本,每一個(gè)樣本包含6995個(gè)變量(特征),從而構(gòu)建數(shù)據(jù)網(wǎng)絡(luò) 集 …X:), " =U,"_36)為實(shí)驗(yàn)樣本數(shù)據(jù)集, &= 1,2,· ··Μ)為對(duì)照實(shí)驗(yàn)樣本數(shù)據(jù)集。
[0027] 步驟3 :依據(jù)相似性測(cè)量和冪鄰接函數(shù),將預(yù)處理數(shù)據(jù)集Χ+,X轉(zhuǎn)化為鄰接網(wǎng)絡(luò)矩 陣I=[<,],,~乂 =仏
[0028] Π1)依?相類伸系教類系表達(dá)式:
[0029]
[0030]xh,x]為預(yù)處理數(shù)據(jù)網(wǎng)絡(luò) 1 = ) 個(gè)變量的時(shí)間向量;cor(xh,x])為第h個(gè)變量和第j個(gè)變量的相關(guān)系數(shù);從而將原始數(shù)據(jù)網(wǎng) 絡(luò)轉(zhuǎn)化為相關(guān)性系數(shù)網(wǎng)絡(luò)矩陣s(hj) (h,j= 1,2,…,6995)。
[0031] (3. 2)利用冪鄰接函數(shù)% ,其中β,彡1并且h,j= 1,2···,6995,β,由近似 的無(wú)標(biāo)度拓?fù)錅?zhǔn)則,結(jié)合具體實(shí)驗(yàn)背景得β' = 9,計(jì)算出的矩陣Ah_j(h,j= 1,2,…,6995), 即為鄰接網(wǎng)絡(luò)矩陣。
[0032] 步驟4 :由公式/?=!>/乂/?···,3600)得到一個(gè)變量與群體變量的相關(guān)度矩 陣,將1按照從大到小進(jìn)行排序,分別在不同數(shù)據(jù)集中挑選出前3600個(gè)相關(guān)度較強(qiáng)的變 量。
[0033] 說(shuō)明4值越大說(shuō)明此變量與其余變量相關(guān)性越強(qiáng),在數(shù)據(jù)網(wǎng)絡(luò)中越重要,此變量 在群體變量中的份量越重,此變量即為所找的變量,所以要在前面m個(gè){(,值較大的變量中 進(jìn)行分群。
[0034] 步驟5 :在上面選擇的3600個(gè)變量中將鄰接矩陣轉(zhuǎn)化為拓?fù)渲丿B矩陣, Ω1 =[ω,^,:Χ?,,,ΩΗω,,]Λ^2;計(jì)算出每個(gè)集合中的變量之間的相異系數(shù)巧,構(gòu)建出實(shí)驗(yàn)樣 本和對(duì)照樣本分層聚類樹(shù);利用動(dòng)態(tài)剪切樹(shù)算法,分別識(shí)別出實(shí)驗(yàn)樣本中的重要模塊和對(duì) 照