專利名稱:基于高通量測(cè)序檢測(cè)差異表達(dá)與可變剪切分析的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域,涉及新一代高通量測(cè)序技術(shù)數(shù)據(jù)分析。
背景技術(shù):
本發(fā)明是一種適用于高通量測(cè)序技術(shù)的新分析方法。高通量測(cè)序技術(shù)是近兩年來生物技術(shù)領(lǐng)域的重要突破,新一代的測(cè)序技術(shù)將傳統(tǒng)的Sanger測(cè)序效率提高了數(shù)百倍,同時(shí)價(jià)格也大大下降。高通量測(cè)序技術(shù)的出現(xiàn)使得許多的極有前景的生物醫(yī)藥應(yīng)用成為可能:1,癌癥基因組。2,個(gè)性化醫(yī)療與診斷。3,藥物靶標(biāo)篩選。高通量測(cè)序技術(shù)能否在這些領(lǐng)域的取得進(jìn)展,其關(guān)鍵在于分析方法及軟件的創(chuàng)新。本專利提出了一種新的分析方法,可廣泛用于高通量測(cè)序技術(shù)的數(shù)據(jù)分析。Solexa平臺(tái)將待擴(kuò)增并測(cè)序的DNA固定于固體表面,使用Bridge PCRamplification 擴(kuò)增 DNA 片段,并使用 reverse dye terminator 技術(shù)進(jìn)行測(cè)序。Solexa 平臺(tái)運(yùn)行一次成本約8000美元,可產(chǎn)生 40,000, 000左右的35_70bp的序列數(shù)據(jù)。Solexa平臺(tái)成本遠(yuǎn)低于454平臺(tái)(以每bp花費(fèi)計(jì)),并且不存在SoLiD技術(shù)所存在的G/C偏差的問題,因此在生物學(xué)研究領(lǐng)域得到廣泛引用。目前Solexa技術(shù)主要有兩部分應(yīng)用:l,RNA_Seq,即轉(zhuǎn)錄組測(cè)序。將細(xì)胞或組織內(nèi)的mRNA反轉(zhuǎn)錄為cDNA后,進(jìn)行擴(kuò)增并輸入Solexa平臺(tái)測(cè)序,得到的結(jié)果進(jìn)行分析后可以得到mRNA的表達(dá)量。RNA-seq技術(shù)由于擁有精確定量和高靈敏度的特點(diǎn),被認(rèn)為將會(huì)很快取代Microarray技術(shù)。2, ChIP-Seq,即免疫共沉淀測(cè)序技術(shù)。這項(xiàng)技術(shù)可以定位轉(zhuǎn)錄因子(transcription factor)與DNA的結(jié)合位點(diǎn)(binding site)而在生物醫(yī)學(xué)研究中被廣泛應(yīng)用。目前針對(duì)Solexa技術(shù)平臺(tái)的數(shù)據(jù)分析軟件有如下幾類:1,序列對(duì)位軟件,將Solexa測(cè)序的reads在基因組上快速定位。2, RNA-seq分析軟件,根據(jù)RNA-seq的數(shù)據(jù)確定每個(gè)基因的表達(dá)量。3,ChlP-seq分析軟件,將ChlP-seq的結(jié)果解析為轉(zhuǎn)錄因子結(jié)合位點(diǎn)(transcription factor binding site) [Rozowsky, J., et al., PeakSeq enablessystematic scoring of ChlP—seq experiments relative to controls.Nat Biotechnol,2009.27 (I):p.66-75]。本專利致力于后兩類應(yīng)用,并提出了全新的分析思路以提高分析結(jié)果的質(zhì)量。
發(fā)明內(nèi)容
本發(fā)明基于目前的Solexa測(cè)序技術(shù),找到了一種新的可以定義差異表達(dá)和轉(zhuǎn)錄因子結(jié)合位點(diǎn)的分析方法,相對(duì)于其他分析方法大幅提高了分析精度。本方法的步驟如下:(I)獲取Solexa測(cè)序序列,將所有序列對(duì)參照基因組使用ELAND軟件進(jìn)行對(duì)位(Alignment)。將無法對(duì)位的序列(如測(cè)序質(zhì)量太低的序列)丟棄。對(duì)于有多重對(duì)位的序列(multiple hits)保留分?jǐn)?shù)最高或并列最高的對(duì)位結(jié)果。
(2)將獲得的對(duì)位序列文件轉(zhuǎn)化成轉(zhuǎn)化成RMI (Read Mass Index) Score。RMI的計(jì)算方法如下:RMI = (Read Coverage/MappabiIity) * Adjustment其中Read Coverage為該位點(diǎn)被測(cè)序的次數(shù),我們可以利用對(duì)位文件直接計(jì)算出精確到每bp的Read Coverage。Mappability表示該區(qū)段在零假設(shè)下被隨機(jī)序列覆蓋的理論值。該理論值及其分布取決于參考基因組,無法用理論公式計(jì)算,但我們可以利用參考基因組(ReferenceGenome)進(jìn)行計(jì)算機(jī)模擬計(jì)算得出。其計(jì)算的方法是:將參考基因組拆分為35bp (或者70bp,取決于Solexa測(cè)序的長(zhǎng)度)的小段,以Ibp為步長(zhǎng),將每一個(gè)理論上可能的區(qū)段都取出,然后將所有的小段都對(duì)原基因組對(duì)位。如此得到的對(duì)位結(jié)果即為Mappability的理論分布。顯然,基因組中的重復(fù)序列的Mappbility將比唯一的序列Mappability高,這也是我們?cè)谟?jì)算RMI時(shí)要對(duì)Mappability進(jìn)行校正的原因。Adjustment為針對(duì)該次測(cè)序的校正。Solexa測(cè)序的過程中存才測(cè)序誤差,因此并非所有的序列都可以完美對(duì)位(perfect match)到參考基因組上。有一些序列將有Ibp的誤差(lbp mismatch),另有一些序列有2bp的誤差(多于2bp誤差的序列將不予考慮)。本方法對(duì)有mismatch的序列有一定罰分,即認(rèn)為這些序列的可信度比完美對(duì)位(perfectmatch)的序列要低。經(jīng)過試驗(yàn),本方法將lbp mismatch的序列可信度設(shè)為50 2bpmismatch的序列可信度設(shè)為25%。(3)經(jīng)過以上步驟之后,我們得到了全基因組范圍內(nèi)的RMIindex。接下來的步驟是計(jì)算RMI的理論分布。接下來將分為兩種情況討論:A, RNA-seq分析。B, Chip-seq分析。(A) RNA-seq分析。RNA-seq分析相對(duì)較為簡(jiǎn)單。一般來說,我們的實(shí)驗(yàn)設(shè)計(jì)為對(duì)比兩個(gè)樣本,或者一系列時(shí)間序列的樣本互相比較。我們通過步驟(2)已經(jīng)得到實(shí)際RMI分布,現(xiàn)在需要計(jì)算的是RMI的理論分布。在給定區(qū)段內(nèi),該分布將是一個(gè)二項(xiàng)分布:
權(quán)利要求
1.基于高通量測(cè)序分析新方法,其特點(diǎn)是基于一個(gè)新的指數(shù)RMI對(duì)高通量測(cè)序結(jié)果進(jìn)行快速準(zhǔn)確的分析。該方法的特征在于有如下步驟: 步驟1:獲取轉(zhuǎn)錄本高通量測(cè)序RNA-seq)或染色體免疫共沉淀高通量測(cè)序(ChlP-seq)數(shù)據(jù)。
步驟2:根據(jù)高通量測(cè)序信息,并基于物種基因組序列信息進(jìn)行校正,估算RMI的經(jīng)驗(yàn)分布。
步驟3:利用RMI經(jīng)驗(yàn)分布和測(cè)序數(shù)據(jù),鑒定差異表達(dá)區(qū)段或差異結(jié)合峰。
全文摘要
本發(fā)明基于目前的Solexa測(cè)序技術(shù),找到了一種新的可以定義差異表達(dá)和轉(zhuǎn)錄因子結(jié)合位點(diǎn)的分析方法,相對(duì)于其他分析方法大幅提高了分析精度。該方法同時(shí)適用于轉(zhuǎn)錄本高通量測(cè)序(RNA-seq)和染色體免疫共沉淀高通量測(cè)序(ChlP-seq)兩種方法產(chǎn)生的數(shù)據(jù)進(jìn)行分析。
文檔編號(hào)G06F19/20GK103177197SQ20111043560
公開日2013年6月26日 申請(qǐng)日期2011年12月22日 優(yōu)先權(quán)日2011年12月22日
發(fā)明者曾華宗 申請(qǐng)人:上海聚類生物科技有限公司