基于高通量測(cè)序檢測(cè)差異表達(dá)與可變剪切分析的方法

文檔序號(hào)：6353985閱讀：1550來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于高通量測(cè)序檢測(cè)差異表達(dá)與可變剪切分析的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于生物技術(shù)領(lǐng)域，涉及新一代高通量測(cè)序技術(shù)數(shù)據(jù)分析。
背景技術(shù)：
本發(fā)明是一種適用于高通量測(cè)序技術(shù)的新分析方法。高通量測(cè)序技術(shù)是近兩年來生物技術(shù)領(lǐng)域的重要突破，新一代的測(cè)序技術(shù)將傳統(tǒng)的Sanger測(cè)序效率提高了數(shù)百倍，同時(shí)價(jià)格也大大下降。高通量測(cè)序技術(shù)的出現(xiàn)使得許多的極有前景的生物醫(yī)藥應(yīng)用成為可能:1，癌癥基因組。2，個(gè)性化醫(yī)療與診斷。3，藥物靶標(biāo)篩選。高通量測(cè)序技術(shù)能否在這些領(lǐng)域的取得進(jìn)展，其關(guān)鍵在于分析方法及軟件的創(chuàng)新。本專利提出了一種新的分析方法，可廣泛用于高通量測(cè)序技術(shù)的數(shù)據(jù)分析。Solexa平臺(tái)將待擴(kuò)增并測(cè)序的DNA固定于固體表面，使用Bridge PCRamplification 擴(kuò)增 DNA 片段,并使用 reverse dye terminator 技術(shù)進(jìn)行測(cè)序。Solexa 平臺(tái)運(yùn)行一次成本約8000美元，可產(chǎn)生 40，000, 000左右的35_70bp的序列數(shù)據(jù)。Solexa平臺(tái)成本遠(yuǎn)低于454平臺(tái)(以每bp花費(fèi)計(jì))，并且不存在SoLiD技術(shù)所存在的G/C偏差的問題，因此在生物學(xué)研究領(lǐng)域得到廣泛引用。目前Solexa技術(shù)主要有兩部分應(yīng)用:l，RNA_Seq，即轉(zhuǎn)錄組測(cè)序。將細(xì)胞或組織內(nèi)的mRNA反轉(zhuǎn)錄為cDNA后，進(jìn)行擴(kuò)增并輸入Solexa平臺(tái)測(cè)序，得到的結(jié)果進(jìn)行分析后可以得到mRNA的表達(dá)量。RNA-seq技術(shù)由于擁有精確定量和高靈敏度的特點(diǎn)，被認(rèn)為將會(huì)很快取代Microarray技術(shù)。2, ChIP-Seq,即免疫共沉淀測(cè)序技術(shù)。這項(xiàng)技術(shù)可以定位轉(zhuǎn)錄因子(transcription factor)與DNA的結(jié)合位點(diǎn)(binding site)而在生物醫(yī)學(xué)研究中被廣泛應(yīng)用。目前針對(duì)Solexa技術(shù)平臺(tái)的數(shù)據(jù)分析軟件有如下幾類:1，序列對(duì)位軟件，將Solexa測(cè)序的reads在基因組上快速定位。2, RNA-seq分析軟件,根據(jù)RNA-seq的數(shù)據(jù)確定每個(gè)基因的表達(dá)量。3，ChlP-seq分析軟件，將ChlP-seq的結(jié)果解析為轉(zhuǎn)錄因子結(jié)合位點(diǎn)(transcription factor binding site) [Rozowsky, J., et al., PeakSeq enablessystematic scoring of ChlP—seq experiments relative to controls.Nat Biotechnol,2009.27 (I):p.66-75]。本專利致力于后兩類應(yīng)用，并提出了全新的分析思路以提高分析結(jié)果的質(zhì)量。

發(fā)明內(nèi)容
本發(fā)明基于目前的Solexa測(cè)序技術(shù)，找到了一種新的可以定義差異表達(dá)和轉(zhuǎn)錄因子結(jié)合位點(diǎn)的分析方法，相對(duì)于其他分析方法大幅提高了分析精度。本方法的步驟如下:(I)獲取Solexa測(cè)序序列，將所有序列對(duì)參照基因組使用ELAND軟件進(jìn)行對(duì)位(Alignment)。將無法對(duì)位的序列(如測(cè)序質(zhì)量太低的序列)丟棄。對(duì)于有多重對(duì)位的序列(multiple hits)保留分?jǐn)?shù)最高或并列最高的對(duì)位結(jié)果。
(2)將獲得的對(duì)位序列文件轉(zhuǎn)化成轉(zhuǎn)化成RMI (Read Mass Index) Score。RMI的計(jì)算方法如下:RMI = (Read Coverage/MappabiIity) * Adjustment其中Read Coverage為該位點(diǎn)被測(cè)序的次數(shù),我們可以利用對(duì)位文件直接計(jì)算出精確到每bp的Read Coverage。Mappability表示該區(qū)段在零假設(shè)下被隨機(jī)序列覆蓋的理論值。該理論值及其分布取決于參考基因組，無法用理論公式計(jì)算，但我們可以利用參考基因組(ReferenceGenome)進(jìn)行計(jì)算機(jī)模擬計(jì)算得出。其計(jì)算的方法是:將參考基因組拆分為35bp (或者70bp，取決于Solexa測(cè)序的長(zhǎng)度)的小段，以Ibp為步長(zhǎng)，將每一個(gè)理論上可能的區(qū)段都取出，然后將所有的小段都對(duì)原基因組對(duì)位。如此得到的對(duì)位結(jié)果即為Mappability的理論分布。顯然，基因組中的重復(fù)序列的Mappbility將比唯一的序列Mappability高,這也是我們?cè)谟?jì)算RMI時(shí)要對(duì)Mappability進(jìn)行校正的原因。Adjustment為針對(duì)該次測(cè)序的校正。Solexa測(cè)序的過程中存才測(cè)序誤差，因此并非所有的序列都可以完美對(duì)位(perfect match)到參考基因組上。有一些序列將有Ibp的誤差(lbp mismatch),另有一些序列有2bp的誤差(多于2bp誤差的序列將不予考慮)。本方法對(duì)有mismatch的序列有一定罰分，即認(rèn)為這些序列的可信度比完美對(duì)位(perfectmatch)的序列要低。經(jīng)過試驗(yàn)，本方法將lbp mismatch的序列可信度設(shè)為50 2bpmismatch的序列可信度設(shè)為25%。(3)經(jīng)過以上步驟之后，我們得到了全基因組范圍內(nèi)的RMIindex。接下來的步驟是計(jì)算RMI的理論分布。接下來將分為兩種情況討論:A, RNA-seq分析。B, Chip-seq分析。(A) RNA-seq分析。RNA-seq分析相對(duì)較為簡(jiǎn)單。一般來說,我們的實(shí)驗(yàn)設(shè)計(jì)為對(duì)比兩個(gè)樣本，或者一系列時(shí)間序列的樣本互相比較。我們通過步驟(2)已經(jīng)得到實(shí)際RMI分布，現(xiàn)在需要計(jì)算的是RMI的理論分布。在給定區(qū)段內(nèi)，該分布將是一個(gè)二項(xiàng)分布:
權(quán)利要求
1.基于高通量測(cè)序分析新方法，其特點(diǎn)是基于一個(gè)新的指數(shù)RMI對(duì)高通量測(cè)序結(jié)果進(jìn)行快速準(zhǔn)確的分析。該方法的特征在于有如下步驟: 步驟1:獲取轉(zhuǎn)錄本高通量測(cè)序RNA-seq)或染色體免疫共沉淀高通量測(cè)序(ChlP-seq)數(shù)據(jù)。
步驟2:根據(jù)高通量測(cè)序信息，并基于物種基因組序列信息進(jìn)行校正，估算RMI的經(jīng)驗(yàn)分布。
步驟3:利用RMI經(jīng)驗(yàn)分布和測(cè)序數(shù)據(jù)，鑒定差異表達(dá)區(qū)段或差異結(jié)合峰。
全文摘要
本發(fā)明基于目前的Solexa測(cè)序技術(shù)，找到了一種新的可以定義差異表達(dá)和轉(zhuǎn)錄因子結(jié)合位點(diǎn)的分析方法，相對(duì)于其他分析方法大幅提高了分析精度。該方法同時(shí)適用于轉(zhuǎn)錄本高通量測(cè)序(RNA-seq)和染色體免疫共沉淀高通量測(cè)序(ChlP-seq)兩種方法產(chǎn)生的數(shù)據(jù)進(jìn)行分析。
文檔編號(hào)G06F19/20GK103177197SQ20111043560
公開日2013年6月26日申請(qǐng)日期2011年12月22日優(yōu)先權(quán)日2011年12月22日
發(fā)明者曾華宗申請(qǐng)人:上海聚類生物科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾華宗
技術(shù)所有人：上海聚類生物科技有限公司
我是此專利的發(fā)明人

上一篇：一種基于遙感圖像的采樣方法
上一篇：客滾船單船安全評(píng)價(jià)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高通量測(cè)序相關(guān)技術(shù)

高通量測(cè)序技術(shù)相關(guān)技術(shù)

高通量基因測(cè)序相關(guān)技術(shù)

高通量測(cè)序儀相關(guān)技術(shù)

高通量測(cè)序數(shù)據(jù)分析相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于高通量測(cè)序檢測(cè)差異表達(dá)與可變剪切分析的方法