專利名稱:確定差異表達(dá)基因的混合線性模型兩步篩選法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于大規(guī)模基因表達(dá)數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種高效準(zhǔn)確鑒別差異表達(dá)基因的方法。
背景技術(shù):
在患病人群中,某些基因發(fā)生突變和功能失調(diào)等原因會導(dǎo)致其本身基因表達(dá)水平的變異,這樣,通過基因芯片技術(shù)分析和比較患病人群和正常人群中基因表達(dá)譜,就有可能發(fā)現(xiàn)在兩種人群中一些表達(dá)不一致(即有差異)的基因。這些基因可能與某特定疾病有關(guān),因此,可用來做進(jìn)一步功能分析、藥物設(shè)計和臨床診斷等應(yīng)用。同樣,也可通過基因芯片技術(shù)分析和比較服藥人群和正常人群以鑒別某特定藥物的藥效等等。
隨著基因芯片制作技術(shù)的提高和基因芯片價格的下降,該技術(shù)在基因功能分析、致病機(jī)制研究、藥物毒性分析、中藥藥理機(jī)制和藥效成分研究及醫(yī)療診斷等方面得到了廣泛應(yīng)用。準(zhǔn)確分析基因芯片測定結(jié)果的需求大增。然而,現(xiàn)有的分析基因芯片測定結(jié)果的數(shù)據(jù)處理方法所獲得的結(jié)果不很可靠,因為基于基因芯片技術(shù)的大規(guī)?;虮磉_(dá)譜測定過程中存在多種誤差來源,如芯片制作點樣差異,探針標(biāo)記雜交溫度和濕度變化,不能準(zhǔn)確地鑒別真正由于考察因素如藥物處理或疾病等引起差異表達(dá)的基因,難以辨別真實的基因表達(dá)變化和隨機(jī)的實驗誤差,容易導(dǎo)致假陰性和假陽性。根據(jù)包含大量假陰性和假陽性的基因得到的聚類分析難以得到具有實際生物學(xué)意義的科學(xué)結(jié)論。
因此,本領(lǐng)域中迫切需要開發(fā)出一種能克服上述缺陷,降低分析結(jié)果的假陽性概率的方法。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供了一種鑒別差異表達(dá)基因的方法,其特征在于,該方法通過兩個步驟鑒定差異表達(dá)基因先將芯片數(shù)據(jù)通過噪音過濾消除大的試驗系統(tǒng)誤差,然后通過單基因模型初步判斷符合顯著性標(biāo)準(zhǔn)A的差異表達(dá)基因;其次,用多基因模型分析這些初定的差異表達(dá)基因,選出符合顯著性標(biāo)準(zhǔn)B的基因;其中顯著性標(biāo)準(zhǔn)A和B之間的關(guān)系是A/B≥5,以便控制假陽性。
在一個較佳的實施方案中,在所述用多基因模型分析差異表達(dá)基因的步驟中,剖分出基因主效應(yīng)及基因與各項考察因素的互作效應(yīng),用MINQUE法估計各項效應(yīng)的方差和協(xié)方差分量,用AUP法預(yù)測隨機(jī)效應(yīng),在較嚴(yán)格的標(biāo)準(zhǔn)下鑒定差異表達(dá)基因控制假陽性。
在另一方案中,在單基因模型分析步驟中,用MINQUE法估計各項變異來源的方差分量σu(l)2,用Jackknife抽樣法估算方差分量估計值的抽樣方差;針對每個基因檢驗該基因的處理效應(yīng)的方差是否為0;如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達(dá)基因,對應(yīng)的該基因的觀察值將進(jìn)入多基因模型進(jìn)一步分析。
在另一方案中,在多基因模型中用MINQUE法估計模型的各項方差分量,用AUP法預(yù)測隨機(jī)效應(yīng)大小;Jackknife抽樣技術(shù)結(jié)合t檢驗用來檢驗多基因模型包括的可能的差異表達(dá)基因是否真正為處理引起的差異表達(dá),也就是基因與處理的互作效應(yīng)是否與0有顯著差異;對于第l個基因至少有一個基因與處理互作效應(yīng)不為0,則將基因l作為差異表達(dá)基因。
具體而言,本發(fā)明的方法包括以下步驟1)通過噪音過濾消除大的試驗系統(tǒng)誤差;2)通過單基因模型檢測考察因素方差變異的大小在一個比較寬松的標(biāo)準(zhǔn)下初步篩選差異表達(dá)基因;3)用多基因模型分析這些數(shù)目相對較少的初定的差異表達(dá)基因,可以剖分出基因主效應(yīng)及基因與各項考察因素的互作效應(yīng),用MINQUE法估計各項效應(yīng)的方差和協(xié)方差分量,用AUP法預(yù)測隨機(jī)效應(yīng),在較嚴(yán)格的標(biāo)準(zhǔn)下鑒定差異表達(dá)基因控制假陽性;4)采用Jacknife重復(fù)抽樣技術(shù)估算檢驗統(tǒng)計量的顯著性;5)將基因和考察因素的互作效作為鑒定差異表達(dá)基因的具體指標(biāo);6)對基因主效應(yīng)的無偏估計值和基因與處理因素互作效應(yīng)的無偏預(yù)測值進(jìn)行進(jìn)一步的聚類分析,得到相對真實的具有生物學(xué)意義的科學(xué)結(jié)論。
本發(fā)明通過對大規(guī)?;蛐酒磉_(dá)譜數(shù)據(jù),首先應(yīng)用本發(fā)明所提出的單基因模型完成差異表達(dá)基因鑒別的初篩選,然后再對初選到的基因用多基因模型進(jìn)行分析,根據(jù)基因和考察因素的互作效應(yīng)這個指標(biāo)判定差異表達(dá)基因。實驗證明,該方法的分析結(jié)果非??煽浚艽蟠蠼档头治鼋Y(jié)果的假陽性概率,大幅度提高大規(guī)?;虮磉_(dá)數(shù)據(jù)分析的效率。
本發(fā)明的經(jīng)濟(jì)效益和社會效益分析,基因芯片分析發(fā)現(xiàn)的差異表達(dá)基因可進(jìn)一步用于基因功能分析和藥物設(shè)計等領(lǐng)域,經(jīng)濟(jì)效益和社會效益非常顯著。在實際應(yīng)用過程中,必須盡量確保這些發(fā)現(xiàn)的基因是具有真實的差異表達(dá)(即不是假陽性的基因)。對假陽性的基因進(jìn)行功能分析會造成資源的浪費,同樣也會導(dǎo)致藥物設(shè)計的失敗和臨床診斷的錯誤等。在一般基因芯片試驗中,通常能發(fā)現(xiàn)與研究目標(biāo)(如尋找某種癌癥致病機(jī)理或某種藥物藥效等)有關(guān)的差異表達(dá)基因約200個,本發(fā)明能在大多情形下有效降低假陽性的基因至少5%至10%(即10至20個基因),這樣一次應(yīng)用試驗可節(jié)省費用=10~20個×10萬元/基因=100~200萬元。同時,本發(fā)明能更有效地發(fā)現(xiàn)新的傳統(tǒng)方法未能發(fā)現(xiàn)的基因2~5%(即4至10個基因),這樣一次應(yīng)用試驗可增加經(jīng)濟(jì)效益=4~10×20萬元/基因=80~200萬元。累計節(jié)省費用和經(jīng)濟(jì)效益隨著基因芯片技術(shù)的推廣和應(yīng)用而不斷增加。
附圖簡述
圖1.三種方法鑒定差異表達(dá)基因的判錯率(FDR)及功效(power)比較,圖中虛線表示判錯率,實線表示功效,三種方法為混合線性模型(圓圈),無過濾的t-檢驗(三角)及變異倍數(shù)過濾加t-檢驗(方塊)。VGT/VP為基因與處理的互作方差占總表型變異的比例,其值從0.1變化到0.9。EQUAL為效應(yīng)A,D,T,GA,GD和ε的方差相同,即VA∶VD∶VT∶VGA∶VGD∶Vε=1∶1∶1∶1∶1∶1;ARRAYDOM表示效應(yīng)A和GA在剩余的表型變異中占絕對優(yōu)勢,即(VA+VGA)/(VP-VGT)=0.9,VD∶VT∶VGD∶Vε=1∶1∶1∶1;DYEDOM表示效應(yīng)D和GD在剩余的表型變異中占絕對優(yōu)勢,即(VD+VGD)/(VP-VGT)=0.9,VA∶VT∶VGA∶Vε=1∶1∶1∶1;TREATDOM表示效應(yīng)T在剩余的表型變異中占絕對優(yōu)勢,即VT/(VP-VGT)=0.9,VA∶VD∶VGA∶VGD∶Vε=1∶1∶1∶1∶1。
圖2顯示了三種方法鑒定差異表達(dá)基因的判錯的基因個數(shù)(FN)比較。圖中三種方法為混合線性模型(圓圈),無過濾的t-檢驗(三角)及變異倍數(shù)過濾加t-檢驗(方塊)。
圖3示意性地顯示了本發(fā)明整個方法的分析流程。
具體實施例方式
本發(fā)明克服了現(xiàn)有分析數(shù)據(jù)處理方法的缺點,設(shè)計了一種基于混合線性模型的兩步法分析基因芯片數(shù)據(jù)的方法。該方法可以有效地將基因表達(dá)水平根據(jù)變異來源的不同剖分為幾個組成部分。其中根據(jù)不同的研究試驗設(shè)計,模型可以做適當(dāng)?shù)恼{(diào)整。通過兩個步驟鑒定差異表達(dá)基因首先,將經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化的芯片數(shù)據(jù)通過噪音過濾消除大的試驗系統(tǒng)誤差,然后在一個比較寬松的標(biāo)準(zhǔn)下通過單基因模型初步判斷差異表達(dá)基因;其次,用多基因模型分析這些初定的差異表達(dá)基因以便在較嚴(yán)的標(biāo)準(zhǔn)下控制假陽性。用最小范數(shù)二次無偏估計方法(MINQUE法)估計各項效應(yīng)的方差和協(xié)方差分量,用調(diào)整預(yù)測方法(AUP法)預(yù)測隨機(jī)效應(yīng)。例如對于一個不同藥物處理對基因表達(dá)影響的研究,噪音過濾模型為yijkl=μ+Ai+Tj+Dk+εijkl,其中yijkl是實驗獲得的第i張芯片上的第j種藥物處理的標(biāo)記為第k種熒光的第l個基因的表達(dá)量;μ是所有基因的平均表達(dá)量;Ai是芯片效應(yīng),Ai~(0,σA2);Tj是處理效應(yīng),Tj~(0,σT2);Dk是熒光標(biāo)記效應(yīng),Dk~(0,σD2);εijkl是隨機(jī)誤差,εijkl~(0,σε2)。通過最小二乘估計法可獲得以上幾個參數(shù)的估計值 和 由公式rijkl=yijkl-(μ^+A^i+T^j+D^k)]]>計算得到該模型的殘差可作為單基因模型的觀察值。對於第l個基因的單基因模型可以表示為rijkl=μl+Ail+Tjl+Dkl+γijkl,其中μi、Ail、Tjl、Dkl和γijkl分別是第l個基因的平均表達(dá)量、芯片效應(yīng)、處理效應(yīng)、熒光標(biāo)記效應(yīng)和隨機(jī)誤差。用MINQUE(1)法可估計各項方差分量σu(l)2。用Jackknife抽樣法估算方差分量估計值的抽樣方差。針對每個基因檢驗該基因的藥物處理效應(yīng)的方差是否為0即H0:σT(l)2=0,]]>H1:σT(l)2≠0.]]>如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達(dá)基因,對應(yīng)的該基因的觀察值將進(jìn)入多基因模型進(jìn)一步分析。多基因模型可以表述為yijkl=μ+Gl+Ai+Tj+Dk+GAli+GTlj+GDlk+εijkl,其中Gl是第l個基因的平均表達(dá)量,GAli是第l個基因與第i張芯片的互作效應(yīng),GTlj是第l個基因與第j種藥物處理的互作效應(yīng),GDlk是第l個基因與第k種熒光標(biāo)記的互作效應(yīng),其他參數(shù)定義如同噪音過濾模型。用MINQUE(1)法可估計模型的各項方差分量。用AUP(Adjusted UnbiasedPrediction)法預(yù)測隨機(jī)效應(yīng)大小。Jackknife抽樣技術(shù)結(jié)合t檢驗用來檢驗多基因模型包括的可能的差異表達(dá)基因是否真正為藥物處理引起的差異表達(dá),也就是基因與藥物處理的互作效應(yīng)是否與0有顯著差異。對于第l個基因至少有一個基因與處理互作效應(yīng)不為0,則基因l為差異表達(dá)基因。兩個步驟中的篩選標(biāo)準(zhǔn)可以根據(jù)用戶的具體追求目標(biāo)來確定如果用戶追求低假陽性,則采用嚴(yán)格的篩選標(biāo)準(zhǔn)(即較小的顯著性測驗水平);如果用戶追求低假陰性,則采用寬松的篩選標(biāo)準(zhǔn)(即較大的顯著性測驗水平)。在我們?yōu)橛脩籼峁┑呐c本發(fā)明配套的軟件中可供用戶選擇的顯著性水平有0.05,0.01,0.005,0.001,0.0005,0.0001和0.00005。在下面的實例數(shù)據(jù)分析中兩個步驟采用的顯著性水平分別為0.0005和0.0001。
蒙特卡羅模擬結(jié)果表明混合線性模型兩步法在絕大多數(shù)情況下優(yōu)于傳統(tǒng)的t檢驗方法(圖1和2)。當(dāng)A,D,T,GA,GD和ε的方差相等(EQUAL)時,混合線性模型兩步法檢驗差異表達(dá)基因的功效比t檢驗法高,同時判錯率也比t檢驗法低。當(dāng)A和GA效應(yīng)的方差在除GT效應(yīng)外的剩余表型變異中占絕對優(yōu)勢(ARRAYDOM)時,混合線性模型兩步法獲得比t檢驗法顯著高的功效,同時判錯率與t檢驗法相當(dāng)或比其低。當(dāng)D和GD效應(yīng)方差占絕對優(yōu)勢(DYEDOM)時,混合線性模型兩步法仍可獲得比t檢驗法顯著高的功效;當(dāng)VGT/VP大于0.3,判錯率比t檢驗法略高。當(dāng)T效應(yīng)的方差在除GT效應(yīng)外的剩余表型變異中占絕對優(yōu)勢(TREATDOM)時,t檢驗法的功效比混合線性模型兩步法高,但其付出的代價是異常高的判錯率。在上述四種情況下,混合線性模型兩步法鑒定差異表達(dá)基因時判錯的基因個數(shù)總是比t檢驗法少,尤其是當(dāng)T效應(yīng)的方差在除GT效應(yīng)外的剩余表型變異中占絕對優(yōu)勢的情況,t檢驗法鑒定出的差異表達(dá)基因中大約2500到3000個是假陽性或假陰性,而混合線性模型兩步法鑒定出的差異表達(dá)基因中只有4到40個是假陽性或假陰性。
采用基因和處理因素的互作效應(yīng)作為鑒定差異表達(dá)基因的具體指標(biāo),大大降低了傳統(tǒng)的基於比值法或t測驗法的假陰性和假陽性。對基因主效應(yīng)的無偏估計值和基因與處理因素互作效應(yīng)的無偏預(yù)測值進(jìn)行聚類可以獲得具有統(tǒng)計學(xué)和生物學(xué)意義的結(jié)果。發(fā)明人同時用實例數(shù)據(jù)檢驗該方法的有效性和實用性。采用的實例數(shù)據(jù)來源于斯坦福大學(xué)的DNA芯片開放數(shù)據(jù)庫(Stanford Microarray Database;http://genome-www5.stanford.edu/;芯片編號為11374、11333、11339、11323、11375和11342)。該實例是用來研究模式生物擬南芥的信使RNA的降解模式。采用本發(fā)明提出的方法找到了一些用傳統(tǒng)的數(shù)據(jù)處理方法不能發(fā)現(xiàn)的新基因。本發(fā)明可以供廣大生物醫(yī)學(xué)科研機(jī)構(gòu)和基因芯片公司及制藥企業(yè)分析基因芯片實驗數(shù)據(jù),準(zhǔn)確可靠地鑒定差異表達(dá)基因。
下面將根據(jù)具體實施例來進(jìn)一步描述本發(fā)明。然而,應(yīng)當(dāng)理解,本發(fā)明的方法并不僅限于該實施例。
數(shù)據(jù)來源于斯坦福大學(xué)的DNA芯片開放數(shù)據(jù)庫(Stanford Microarray Database;http//genome-www5.stanford.edu/;芯片編號為11374、11333、11339、11323、11375和11342)。該實例目的是研究模式生物擬南芥的信使RNA的降解模式,共有11521個克隆。試驗者做了三次獨立的3’-脫氧腺苷處理試驗,每個試驗樣本分別在兩張芯片雜交,其中一張芯片上紅色熒光標(biāo)記未處理的樣品,綠色熒光標(biāo)記3’-脫氧腺苷處理了120分鐘的樣品,另外一張芯片正好相反,綠色熒光標(biāo)記未處理的樣品,紅色熒光標(biāo)記3’-脫氧腺苷處理了120分鐘的樣品。原文采用t檢驗法鑒定差異表達(dá)基因,即信使RNA不穩(wěn)定的基因。在顯著性水平為0.0001,共檢測到100個基因的信使RNA不穩(wěn)定。
采用本發(fā)明提出的方法我們找到了一些用傳統(tǒng)的數(shù)據(jù)處理方法不能發(fā)現(xiàn)的新基因。具體過程如下
針對這批數(shù)據(jù),我們所用的噪音過濾模型為yijkl=μ+Ai+Tj+Dk+εijkl,其中yijkl是實驗獲得的第i張芯片上的第j種處理的標(biāo)記為第k種熒光的第l個基因的表達(dá)量;μ是所有基因的平均表達(dá)量;Ai是芯片效應(yīng),Ai~(0,σA2);Tj是處理效應(yīng),Tj~(0,σT2);Dk是熒光標(biāo)記效應(yīng),Dk~(0,σD2);εijkl是隨機(jī)誤差,εijkl~(0,σε2);i為1,2,3,4,5或6,即芯片編號;j為1或2,分別代表未處理或3’-脫氧腺苷處理了120分鐘的樣品;k為1或2,分別代表紅色熒光標(biāo)記或綠色熒光標(biāo)記;l為基因編號,從1到11521。通過最小二乘估計法獲得以上幾個參數(shù)的估計值 和 由公式rijkl=yijkl-(μ^+A^i+T^j+D^k)]]>計算得到該模型的殘差作為單基因模型的觀察值。對於第l個基因的單基因模型為rijkl=μl+Ail+Tjl+Dkl+γijkl,其中μl、Ail、Tjl、Dkl和γijkl分別是第l個基因的平均表達(dá)量、芯片效應(yīng)、處理效應(yīng)、熒光標(biāo)記效應(yīng)和隨機(jī)誤差。用MINQUE(1)法估計各項方差分量σu(l)2。用Jackknife抽樣法估算方差分量估計值的抽樣方差。針對每個基因檢驗該基因的處理效應(yīng)的方差是否為0即H0:σT(l)2=0,]]>H1:σT(l)2≠0.]]>如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達(dá)基因,對應(yīng)的該基因的觀察值進(jìn)入多基因模型進(jìn)一步分析。我們采用的多基因模型為yijkl=μ+Gl+Ai+Tj+Dk+GAli+GTlj+GDlk+εijkl,其中Gl是第l個基因的平均表達(dá)量,GAli是第l個基因與第i張芯片的互作效應(yīng),GTlj是第l個基因與第j種藥物處理的互作效應(yīng),GDlk是第l個基因與第k種熒光標(biāo)記的互作效應(yīng),其他參數(shù)定義如同噪音過濾模型。用MINQUE(1)法估計模型的各項方差分量。用AUP(Adjusted UnbiasedPrediction)法預(yù)測隨機(jī)效應(yīng)大小。用Jackknife抽樣技術(shù)結(jié)合t檢驗檢驗多基因模型包括的可能的差異表達(dá)基因是否真正為3’-脫氧腺苷處理引起的差異表達(dá),也就是基因與處理的互作效應(yīng)是否與0有顯著差異。對于第l個基因至少有一個基因與處理互作效應(yīng)不為0,則基因l為差異表達(dá)基因。為了與原作者的分析結(jié)果比較,我們在單基因模型和多基因模型中采用的顯著性水平分別為0.0005和0.0001。
運用混合線性模型兩步法,共檢測出90個基因在3’-脫氧腺苷處理了120分鐘后有明顯的信使RNA降解現(xiàn)象,其中的51個基因用t檢驗法也檢測到了,另外的39個基因僅用混合線性模型兩步法檢測出了(見表1)。AA395830和N37328是位點At1g13260上的DNA結(jié)合蛋白基因RAV1的兩個表達(dá)序列標(biāo)簽(ESTs),H77088和T04337是位點At2g22430上的同源異形域轉(zhuǎn)錄因子基因(ATHB-6)的兩個EST。混合線性模型兩步法檢測出這4個EST在3’-脫氧腺苷處理后都發(fā)生了降解,而t檢驗法只鑒別出N37328和T04337。AA720100,AA720105和T76004都來自于位點At4g30440的核苷糖差向異構(gòu)酶基因;T20600,N65459和T75944都來自于位點At4g31500的細(xì)胞色素P450單氧酶基因。t檢驗法只鑒別出AA720100和T20600是不穩(wěn)定的,混合線性模型兩步法檢測出AA720105,T76004,N65459和T75944是容易降解的基因。T20543,AA720239和AA720240這3個ESTs都來自于位點At5g64260上的基因,它們僅被混合線性模型兩步法檢測出是不穩(wěn)定基因AA067525和AA067498來自于位點At5g37770的鈣調(diào)蛋白2基因;AA597715和H36178來自于位點At5g61590上的似乙烯響應(yīng)元素組合因子基因;AA597849和T46143來自于位點At1g72450上的基因。兩種方法分別在每個基因上找到一個轉(zhuǎn)錄物。但是t檢驗法沒有象混合線性模型兩步法那樣找到來自于同一個基因的多個轉(zhuǎn)錄物。因為同一個基因編碼的探針應(yīng)該具有相似的表達(dá)模式,所以顯而易見在同一個基因中同時發(fā)現(xiàn)多個不穩(wěn)定的轉(zhuǎn)錄物是非??赡艿?。從這一點來說,混合線性模型兩步法鑒定出了較多的合理的不穩(wěn)定轉(zhuǎn)錄物。
另外,在信使RNA翻譯過程中,polyA尾巴對于增強信使RNA的穩(wěn)定性和保證信使RNA的正常功能具有重要作用。研究表明缺少polyA尾巴的組蛋白信使RNA的半衰期少于30分鐘。混合線性模型兩步法發(fā)現(xiàn)了兩個與組蛋白有關(guān)的ESTs(H76940和AA720291),但t檢驗法沒有鑒定出來。
表1.用混合模型方法鑒別具有不穩(wěn)定轉(zhuǎn)錄本的擬南芥(Arabidopsis thaliana)基因(AtGUTs)
*混合模型方法和t-檢驗方法將ESTs鑒別成差異表達(dá)的基因
權(quán)利要求
1.一種鑒別差異表達(dá)基因的方法,其特征在于,該方法包括先將芯片數(shù)據(jù)通過噪音過濾消除大的試驗系統(tǒng)誤差,然后通過單基因模型初步判斷符合顯著性標(biāo)準(zhǔn)A的差異表達(dá)基因;其次,用多基因模型分析這些初定的差異表達(dá)基因,選出符合顯著性標(biāo)準(zhǔn)B的基因;其中顯著性標(biāo)準(zhǔn)A和B之間的關(guān)系是A/B≥5,以便控制假陽性;采用Jackknife重復(fù)抽樣技術(shù)估算檢驗統(tǒng)計量的顯著性,在單基因模型中將處理考察因素的方差作為初定差異表達(dá)基因的具體指標(biāo),在多基因模型中將基因和考察因素的互作效應(yīng)作為具體指標(biāo)來鑒定差異表達(dá)基因。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在用多基因模型分析差異表達(dá)基因的步驟中,剖分出基因主效應(yīng)及基因與各項考察因素的互作效應(yīng),用MINQUE法估計各項效應(yīng)的方差和協(xié)方差分量,用AUP法預(yù)測隨機(jī)效應(yīng),在較嚴(yán)格的標(biāo)準(zhǔn)下鑒定差異表達(dá)基因控制假陽性。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在單基因模型分析步驟中,用MINQUE法估計各項變異來源的方差分量σu(l)2,用Jackknife抽樣法估算方差分量估計值的抽樣方差;針對每個基因檢驗該基因的處理效應(yīng)的方差是否為0;如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達(dá)基因,對應(yīng)的該基因的觀察值將進(jìn)入多基因模型進(jìn)一步分析。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在多基因模型中用MINQUE法估計模型的各項方差分量,用AUP法預(yù)測隨機(jī)效應(yīng)大?。籎ackknife抽樣技術(shù)結(jié)合t檢驗用來檢驗多基因模型包括的可能的差異表達(dá)基因是否真正為處理引起的差異表達(dá),也就是基因與處理的互作效應(yīng)是否與0有顯著差異;對于第l個基因至少有一個基因與處理互作效應(yīng)不為0,則將基因l作為差異表達(dá)基因。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法包括以下步驟1)通過噪音過濾消除大的試驗系統(tǒng)誤差;2)通過單基因模型檢測考察因素方差變異的大小在一個比較寬松的標(biāo)準(zhǔn)下初步篩選差異表達(dá)基因;3)用多基因模型分析這些數(shù)目相對較少的初定的差異表達(dá)基因,可以剖分出基因主效應(yīng)及基因與各項考察因素的互作效應(yīng),用MINQUE法估計各項效應(yīng)的方差和協(xié)方差分量,用AUP法預(yù)測隨機(jī)效應(yīng),在較嚴(yán)格的標(biāo)準(zhǔn)下鑒定差異表達(dá)基因控制假陽性;4)采用Jacknife重復(fù)抽樣技術(shù)估算檢驗統(tǒng)計量的顯著性;5)將基因和考察因素的互作效應(yīng)作為鑒定差異表達(dá)基因的具體指標(biāo);6)對基因主效應(yīng)的無偏估計值和基因與處理因素互作效應(yīng)的無偏預(yù)測值進(jìn)行進(jìn)一步的聚類分析,得到相對真實的具有生物學(xué)意義的科學(xué)結(jié)論。
全文摘要
一種鑒別差異表達(dá)基因的方法,其特征在于,該方法通過兩個步驟鑒定差異表達(dá)基因先將芯片數(shù)據(jù)通過噪音過濾消除大的試驗系統(tǒng)誤差,然后通過單基因模型初步判斷符合顯著性標(biāo)準(zhǔn)A的差異表達(dá)基因;其次,用多基因模型分析這些初定的差異表達(dá)基因,選出符合顯著性標(biāo)準(zhǔn)B的基因;其中顯著性標(biāo)準(zhǔn)A和B之間的關(guān)系是A/B≥5,以便控制假陽性。采用Jackknife重復(fù)抽樣技術(shù)估算檢驗統(tǒng)計量的顯著性,在單基因模型中將處理考察因素的方差作為初定差異表達(dá)基因的具體指標(biāo),在多基因模型中將基因和考察因素的互作效應(yīng)作為鑒定差異表達(dá)基因的具體指標(biāo)。本發(fā)明的方法能夠提供可靠的分析結(jié)果,大大降低分析結(jié)果的假陽性概率,并大幅度提高大規(guī)?;虮磉_(dá)數(shù)據(jù)分析的效率。
文檔編號C12Q1/68GK1786192SQ20041008920
公開日2006年6月14日 申請日期2004年12月8日 優(yōu)先權(quán)日2004年12月8日
發(fā)明者朱軍, 陸燕, 李亦學(xué) 申請人:李亦學(xué), 朱軍, 陸燕