欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法

文檔序號:6624656閱讀:526來源:國知局
一種高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法
【專利摘要】本發(fā)明屬于生物信息【技術(shù)領(lǐng)域】,尤其涉及一種高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法。所述分析方法更加有效準(zhǔn)確的分析樣本當(dāng)前的基因轉(zhuǎn)錄情況,其在分析過程中通過Burrows-Wheeler變換方法定位后,再通過Hash表進行了二次定位。本發(fā)明通過WGA加Hashalignment的方法給出了一種更加可靠有效的高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法。
【專利說明】一種高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于生物信息【技術(shù)領(lǐng)域】,尤其涉及一種高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法。

【背景技術(shù)】
[0002]隨著新一代高通量測序技術(shù)的快速發(fā)展,建立在高通量測序基礎(chǔ)上的轉(zhuǎn)錄組測序技術(shù)已成為目前從全基因組水平研究基因表達和轉(zhuǎn)錄組分析的重要手段.轉(zhuǎn)錄水平的調(diào)控是生物體最主要的調(diào)控方式.在深度測序技術(shù)出現(xiàn)之前,高通量測定不同基因轉(zhuǎn)錄水平的主要手段是基因芯片,它可以對不同組織或不同發(fā)育階段的基因表達差異和模式進行分析,而RNA-Seq技術(shù)最基本的應(yīng)用也是檢測基因的表達水平,它對同一樣品深度測序可以捕獲低表達的基因,而對大量樣品同時測序可以獲得樣品之間的表達差異。與基因芯片數(shù)據(jù)比較,RNA測序得到的是數(shù)字化的表達信號,無需設(shè)計探針,能在全基因組范圍內(nèi)以單堿基分辨率檢測和量化轉(zhuǎn)錄片段,具有靈敏度高、分辨率高和應(yīng)用范圍廣等優(yōu)勢。除此之外,研究人員還可以獲得轉(zhuǎn)錄本表達豐度、轉(zhuǎn)錄起始位點和可變剪切等重要信息。所以,建立在高通量測序基礎(chǔ)上的轉(zhuǎn)錄組研究已經(jīng)逐步取代基因芯片技術(shù)成為目前從全基因組水平研究基因表達的王流方法。
[0003]在對基因組進行測序時,基因組被切割成很多小片段,通過復(fù)制、堿基辨識等步驟,我們可以獲得這些短序列的堿基序列(測序序列)。然而在切割基因組后,我們無法知道各個測序序列的相對位置。如果沒有參考基因組,就只能通過裝配技術(shù)來得到所測的基因組。如果有一個已被測得的基因組作為參照,這就是一個相對容易的重測序問題。現(xiàn)在我們在生物學(xué)研究、個體化醫(yī)療中面臨的測序問題,絕大部分是或可以近似轉(zhuǎn)化為重測序問題。在重測序問題中,我們要尋找每一個測序序列在參考基因組上的位置或坐標(biāo),我們稱之為測序序列定位。例如,通過將轉(zhuǎn)錄組的測序序列定位至參考基因組序列來測量不同種類的RNA的含量;或者通過將轉(zhuǎn)錄組的測序序列定位至參考基因組序列來探測mRNA可變剪切的模式等。
[0004]通常的高通量測序數(shù)據(jù)的定位(Mapping)方法,主要有基于哈氏表(hash)的方法和基于Burrows-Wheeler變換的方法?;诠媳?hash)的方法只能處理定長的序列數(shù)據(jù),適用于參考序列較短的;如果序列太長(如人的全基因組序列),則需要很大的計算機內(nèi)存,處理速度也很慢。優(yōu)點是較好地支持容錯率?;贐urrows-Wheeler變換的方法能處理變長的序列數(shù)據(jù),但不能支持較大的容錯率,否則將喪失速度優(yōu)勢。
[0005]由于測序儀器自身的測序誤差,實際的高通量測序數(shù)據(jù)往往有很多的噪聲,這就給正確的定位帶來很大的困擾。
[0006]對于真核基因組情況將更加復(fù)雜,由于真核基因是斷裂基因,由內(nèi)含子和外顯子構(gòu)成,轉(zhuǎn)錄機制更加復(fù)雜。mRNA是按照特定的轉(zhuǎn)錄機制由外顯子序列拼接而成,也就是說一條轉(zhuǎn)錄組測序數(shù)據(jù)(Read)定位在基因組參考序上可能是不連續(xù)的片段,這就為正確定位測序數(shù)據(jù)、基因轉(zhuǎn)錄水平、可變剪接以及基因融合帶來更大的難度。


【發(fā)明內(nèi)容】

[0007]本發(fā)明目的在于針對現(xiàn)有技術(shù)的不足,提供一種高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法,更加有效準(zhǔn)確的分析樣本當(dāng)前的基因轉(zhuǎn)錄情況,其在分析過程中通過Burrows-Wheeler變換方法定位后,再通過Hash表進行了二次定位。
[0008]在本發(fā)明的一個實施方案中,所述分析方法的具體步驟如下,實施流程圖見附圖1:
(1)WGA Alignment方法:獲得RNA-Seq的原始數(shù)據(jù)后,將轉(zhuǎn)錄組測序數(shù)據(jù)以可變長度和步長切成短片段,將轉(zhuǎn)錄組測序數(shù)據(jù)以可變長度和步長切成短片段,并應(yīng)用Burrows-Wheeler變換方法定位到參考基因組序列上,匹配允許I個堿基的錯配,并設(shè)定最大允許查找定位的數(shù)目,設(shè)定有效值1-50 ;可變長度默認值為30,步長默認值為5,所述可變長度與步長可以根據(jù)實際Reads的長度來確定,Reads長度越長,可變長度及步長可以設(shè)定得越大,以提高運行效率,步長設(shè)定為可變長度的1/6為佳;
(2)對匹配上的測序數(shù)據(jù)分為節(jié)點和數(shù)據(jù)鏈,基于參考基因組mRNA注釋信息以及匹配度打分進行濾除不可靠節(jié)點和數(shù)據(jù)鏈,具體步驟如下:
(a)Node確定:將基因組上有Reads覆蓋的連續(xù)區(qū)域定為一個Node,根據(jù)設(shè)定的覆蓋深度保留符合條件的Node,可分別已知基因區(qū)最小Read覆蓋深度和非已知基因區(qū)最小Read覆蓋深度,默認值分別為I和4。根據(jù)不同測序數(shù)據(jù)質(zhì)量可以進行調(diào)整,測序深度越大,設(shè)定得最小Read覆蓋深度以濾除噪聲。
[0009](b) Link 確定:
1.載入所有形成Link的reads,也就是指單條Read分別定位到基因組的不連續(xù)兩段以上區(qū)域;
I1.進行峰值處理,依據(jù)聚類分析結(jié)果給出Link的起始位置(參考文獻I),并根據(jù)如下規(guī)則進行修正:當(dāng)Reads覆蓋度大于10,以超過50%形成Link的Reads的起始位置進行修正;當(dāng)Reads覆蓋度小于10,以超過70%形成Link的Reads的起始位置進行修正(實施案例見附圖12);
II1.依據(jù)進行基因注釋信息和GT-AG法則進行Link起始位置修正,去除邊緣可變剪接Nodes的影響,對邊緣l_3bp堿基進行exon與exon剪接接頭檢查,去除重復(fù)堿基定位的誤差;
V1.小Gap Link的檢測:設(shè)定最小exon間堿基數(shù)目為6,低于6bp的Gap最為刪除變異處理,而大于6bp的Gap定義為Gap Link。
[0010](C) Chain確定:連續(xù)的Node及Link定義為一個Chain。
[0011]1.根據(jù)Node及連接Node的Link,給出所有可能的不重復(fù)的基因Chain。
[0012]I1.根據(jù)基因注釋信息,找出基因區(qū)域內(nèi)的所有可能的基因Chain。找出基因間區(qū)域的所有的新基因Chain。
[0013]II1.濾除不可罪基因Chain:相似基因Chain、重置基因Chain以及融合基因chain (該基因Chain覆蓋區(qū)域跨越兩個以上基因的區(qū)域)按各自規(guī)則依次進行濾除。
[0014]相似基因Chain濾除規(guī)則:序列相似度大于80%的基因進行相似基因Chain檢查,將相似基因間的相同基因Chain進行合并,保留不同的基因Chain。
[0015]重疊基因Chain濾除規(guī)則:如果重疊部分和某一基因的mRNA完全匹配則直接劃分到這一基因如果沒有完全匹配的則比較所在chain和各個基因的mRNA匹配的長度,基因Chain定位到匹配長度最長的基因。
[0016]融合基因Chain濾除規(guī)則:對于相鄰近基因只保留相同模板鏈上相同方向的基因融合Chain ;重疊基因間的融合基因Chain濾除,根據(jù)覆蓋度拆分定位到對應(yīng)的基因上;濾除相同染色體上覆蓋范圍大于10000的融合基因Chain ;支持多基因間融合查找。
[0017](3)切割所有匹配的參考基因組序列構(gòu)成新的有效的重構(gòu)參考序列,應(yīng)用hash表進行二次定位,以此提高匹配準(zhǔn)確度及速度;
拼接參考序的步驟如下,實施見附圖2:
Ca)以所有基因組注釋基因的mRNA,有Reads覆蓋的生成基因chain的序列為基本參考序列;
(b)設(shè)定提取序列初始長度為100,再動態(tài)計算平均Reads長度值后替換;
(C)從基本參考序列中分別取exon與exon的接頭序列、基因Chain的Node與Node間的連接序列,長度等于提取序列長度;去重復(fù)追加到重構(gòu)參考基因組序列,并記錄在原始基因組中位置以備還原定位;
(d)從基本參考序列中分別取exon中間序列、基因Chain的Node中間序列,去重復(fù)存為重構(gòu)參考基因組序列,并記錄在原始基因組中的位置以備還原定位;
(e)拼接序列時盡量減少重復(fù)序段的干擾,根據(jù)exon長度以及Node長度調(diào)整提取序列的大??;
Cf)在重構(gòu)參考基因組序列中進行去重處理,以降低參考序列大小,提高運行速度;
(g)對測序樣本用Hash Alignment方法對重構(gòu)參考基因組序列進行匹配,可設(shè)定最小匹配長度以及最低相似度,默認設(shè)置為12及85% ;
(4)對Reads匹配結(jié)果重新定位到原始參考基因組序列上,重復(fù)步驟(2),確定Nodes、Link以及Chain,基于基因組注釋mRNA信息以及數(shù)據(jù)鏈各exon間連接度找到新的mRNA可變剪切,基因融合和新基因,并給出基因表達水平、變異情況的統(tǒng)計信息;
(5)基因Chain和Nodes進行分層展示,并根據(jù)不同Node、Link類型給出不同顏色分類標(biāo)識,見附圖3、附圖5-12,具體規(guī)則如下:
分層展示原則:與已知mRNA吻合的基因顯示在第一層;發(fā)生可變剪輯變異的Node、獨立的新Link放在第二層;重疊基因區(qū)域的按照前兩個原則順序分層顯示。
[0018]顏色分類標(biāo)識定義如下:
已知基因Nodes:與已知基因exon完全吻合。紫色橫線標(biāo)識,見附圖3。
[0019]已知基因Link:與已知基因的mRNA剪接方式相吻合的Link。用紫色連接線標(biāo)識,連線上方數(shù)字為形成該Link的Reads數(shù)目,見附圖3。
[0020]新Node(Novel Node):該Node與任何已知注釋基因的exon區(qū)域沒有重疊區(qū)域,藍色標(biāo)識。
[0021]新Link (Novel Link):連接Link的至少一個Node是新Node ;連接Link的至少一個Node的連接位置與已知基因exon位置有差異。用藍色連線標(biāo)識,連線上方數(shù)字為形成該Link的Reads數(shù)目,見附圖5-6。
[0022]融合Link (Fus1n Link):兩個不同基因見發(fā)生可變剪接的Link,不直接標(biāo)識,只在數(shù)據(jù)報表中給出Link的起始位置,點擊報表可以在基因Chain的顯示圖中給出定位區(qū)域。見附圖7。
[0023]可變剪接(Alternative Splicing):與已知mRNA的exon不完全重合的,至少有一端與exon的位置有差異,用桔黃色連線標(biāo)識,見附圖5,附圖8。
[0024]可變轉(zhuǎn)錄起始(AlternativeTranscript Start):與 mRNA 第一個 exon 不完全重合的Node,用灰色橫線標(biāo)識,見附圖9
可變轉(zhuǎn)錄終止(Alternative Transcript Stop):與mRNA最后一個exon不完全重合的Node,用灰色橫線標(biāo)識,見附圖6,附圖10
插入Node (Insert1n):在基因內(nèi)與已知exon沒有任何重疊的Node,并且沒有完全跨越相鄰的兩個exon,用紅色橫線標(biāo)識,見附圖8。
[0025]通讀(Read Through):跨越兩相鄰基因間區(qū)域的Node,用灰色橫線標(biāo)識,見附圖11。
[0026]內(nèi)含子包容(Intron Retent1n):擴越基因mRNA兩個已知相鄰exon的Node,用紅色橫線標(biāo)識,見附圖12。
[0027]非mRNA 的 Node:除了 mRNA 之外的 RNA 的 Node,包括 miscRNA, ncRNA 等,用綠色橫線標(biāo)識,見附圖6。
[0028](6)生成各類基因數(shù)據(jù)報表,并建立索引,實現(xiàn)快速定位,見附圖3和附圖4展示。
[0029]數(shù)據(jù)報表包括每個NodeS、Link的染色體定位信息、基因信息、Reads覆蓋深度、形成Link的Reads數(shù)目、Pair_End Reads通過形成Link的數(shù)目、已近Node的類型、Isoform和蛋白質(zhì)的NCBI識別號,可直接鏈接到NCBI網(wǎng)站查看mRNA和蛋白質(zhì)的詳細信息。
[0030]數(shù)據(jù)報表(附圖4)與基因Chain展示(附圖3)實現(xiàn)關(guān)聯(lián)定位,可直接定位到需要查看的基因、Nodes、Link以及Chain,也可根據(jù)基因名字、染色體位置和基因序列直接進行搜索。

【專利附圖】

【附圖說明】
[0031]圖1:本發(fā)明高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法的流程圖圖2:本發(fā)明重構(gòu)參考序方法示意圖
圖3:本發(fā)明轉(zhuǎn)錄組測序數(shù)據(jù)分析結(jié)果顯示圖,C部分為基因Chain顯示,其中A為已知Node (紫色),B為已知Link (紫色),該圖顯示的為獲得的一條已知基因Chain (紫色),D部分為基因注釋信息顯示,其中G為基因區(qū)域,H為exon,該基因有6個mRNA,E部分為參考基因組的整體顯示,雙擊可定位到相應(yīng)基因區(qū)域,F(xiàn)部分為Reads覆蓋深度顯示。
[0032]圖4:本發(fā)明轉(zhuǎn)錄組測序數(shù)據(jù)分析結(jié)果報告圖
圖5:本發(fā)明發(fā)現(xiàn)新Link (Novel Link)及可變剪接(Alternative Splicing)不例,圖中三個標(biāo)注為A的Node為可變剪接(桔黃色),標(biāo)注為B的Link為新Link (藍色)。標(biāo)注為C的為已知Node (紫色),標(biāo)注為D的為已知Link (紫色)
圖6:本發(fā)明發(fā)現(xiàn)新Link及MiscRNA示例,圖中標(biāo)注為A的三個Node是MiscRNA的Node (綠色),標(biāo)注為B的Link是新Link (藍色),標(biāo)注為C的Link是已知Link (紫色),標(biāo)注為D的Node是可變轉(zhuǎn)錄終止Node (灰色)。
[0033]圖7:本發(fā)明發(fā)現(xiàn)融合Link (Fus1n Link)示例,圖中A區(qū)域中大斜線的區(qū)域為融合Link的定位,B區(qū)域第一條記錄給出了融合Link發(fā)生的起始位置(Start, End)、染色體(Chr)、基因(Gene)、形成該Link的Reads數(shù)目(Link Number)等信息。
[0034]圖8:本發(fā)明發(fā)現(xiàn)插入Node (Insert1n)示例,圖中標(biāo)注為A的Node為插入Node(紅色),標(biāo)注為B的Node為可變剪接(桔黃色),因為兩個Node中間是不連續(xù)的。標(biāo)注為C的兩個Link為新Link (藍色),標(biāo)注為D的Link為已知Link (紫色),標(biāo)注為E的Node為已知Node (紫色)。
[0035]圖9:本發(fā)明發(fā)現(xiàn)可變轉(zhuǎn)錄起始(Alternative Transcript Start)不例,圖中標(biāo)注為A的Node為可變轉(zhuǎn)錄起始(灰色),標(biāo)注為B的Link為已知Link (紫色),標(biāo)注為C的Node為已知Node (紫色)。
[0036]圖10:本發(fā)明發(fā)現(xiàn)可變轉(zhuǎn)錄終止(Alternative Transcript Stop)不例,圖中標(biāo)注為A的Node為可變轉(zhuǎn)錄終止(灰色),標(biāo)注為B的Link為已知Link (紫色),標(biāo)注為C的Node為已知Node (紫色)。
[0037]圖11:本發(fā)明發(fā)現(xiàn)通讀(Read Through)示例,圖中標(biāo)注為A的Node為通讀(灰色),標(biāo)注為B的Node是YOSl基因的可變剪接(桔黃色),標(biāo)注為C的Node是PTP3基因的已知Node (紫色)。
[0038]圖12:本發(fā)明發(fā)現(xiàn)內(nèi)含子包容(Intron Retent1n)示例以及濾噪示例,圖中標(biāo)注為A的Node是內(nèi)含子包容(紅色),標(biāo)注為B的Node為可變剪接(桔黃色),標(biāo)注為C的Node為已知Node,標(biāo)注為D的為已知Link。依據(jù)本文步驟2中對Link起止位置的進行了修正,給出了正確的Link,并給出了同時存在的可變剪接及內(nèi)含子包容。

【具體實施方式】
[0039]下面將結(jié)合附圖以及進一步的詳細說明來舉例說明本發(fā)明。需要指出的是,以下說明僅僅是對本發(fā)明要求保護的技術(shù)方案的舉例說明,并非對這些技術(shù)方案的任何限制。本發(fā)明的保護范圍以所附權(quán)利要求書記載的內(nèi)容為準(zhǔn)。
[0040]術(shù)語解釋
在本發(fā)明中所述“Read”是指高通量測序得到的一條序列。
[0041]在本發(fā)明中所述“Node”是指reads定位到參考序后由連續(xù)的reads構(gòu)成的結(jié)點。
[0042]在本發(fā)明中所述“Link”是指reads覆蓋到兩個以上node形成的連接。
[0043]在本發(fā)明中所述“Chain”是指由nodes及經(jīng)過nodes的link形成的鏈。
[0044]在本發(fā)明中所述“Reads覆蓋度”是指定位到參考序的連續(xù)區(qū)域上Read的數(shù)目。
[0045]實施例1
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更為清楚,本發(fā)明用一套實際的人的高通量轉(zhuǎn)錄組測序數(shù)據(jù)為例進行數(shù)據(jù)分析:
1.樣本數(shù)據(jù)Illumina20由Illummina測序儀完成測序,轉(zhuǎn)成fasta數(shù)據(jù)格式大小為
3.29G,平均測序深度為30。
[0046]2.以人的GRCh37.p5基因組序列作為參考序構(gòu)建Index,序列文件大小為2.73G。
[0047]3.依照表I設(shè)置參數(shù),依照
【發(fā)明內(nèi)容】
中的步驟1,以WGA比對測試樣本Illumina20與人的參考基因組序列,匹配得到樣本序列在參考序中的最佳匹配位置。
[0048]4.依據(jù)
【發(fā)明內(nèi)容】
中的步驟2的方法,確定所有Node, Link以及Chain,去除不可靠link以及不可靠Chain。結(jié)果在表2中給出。
[0049]5.依據(jù)
【發(fā)明內(nèi)容】
中的步驟3描述方法,根據(jù)獲得可靠Chain,拼接得到Hashalignment方法的參考序,序列文件大小為85.5M。
[0050]6.依據(jù)
【發(fā)明內(nèi)容】
中的步驟4描述方法,對測試樣本對新拼接得到的參考序進行Hash alignment,比對參數(shù)見表1.7.依據(jù)
【發(fā)明內(nèi)容】
中的步驟5描述方法,將比對結(jié)果重新定位到人的原始參考基因組序列上。
[0051]8.再次依據(jù)
【發(fā)明內(nèi)容】
中的步驟2的方法,確定所有Node, Link以及Chain,去除不可靠link以及不可靠Chain。結(jié)果在表2中給出。
[0052]9.基于基因組注釋mRNA信息以及數(shù)據(jù)鏈各exon間連接度找到新的mRNA可變剪切,基因融合和新基因。
[0053]10.依據(jù)
【發(fā)明內(nèi)容】
中的步驟6描述方法,用不同顏色標(biāo)識各類Node,Link以及Chain,進行分層展示,快速查找及定位。
[0054]11.統(tǒng)計基因表達情況,變異情況,以及新基因的情況。
[0055]12.結(jié)果顯示見表2 13.結(jié)果評價:
盡管WGA方法可以快速實現(xiàn)測試樣本序列的快速定位,僅用了 66分鐘,也能找到可靠的Node, Link以及Chain,但根據(jù)與Hash alignment結(jié)果比較可以明顯看出,經(jīng)過重新構(gòu)建的基因組參考序,找到的Node總數(shù)較WGA方法減少了近1/3,但卻可以獲得相近的Link數(shù),說明并沒有因為參考序列的大幅減少而丟失可靠的Link。同時找到基因Chain不到WGA方法的一半,而獲得的表達基因數(shù)目與實驗情況基本吻合,同時融合基因定位比較合理,可見WGA方法獲得的基因Chain受Nodes數(shù)目較大影響,有很大的孤立的基因Chain存在,而找到的47,627基因雖然沒有給出詳細劃分,但人的基因總數(shù)目在3萬左右,可以推測其中多數(shù)為孤立Node的或者單一 Link都成Chain的新基因,可靠性不高。因此可以清楚地確定盡管Hash方法以犧牲適度的時間換取了基因表達情況分析的可靠度,本發(fā)明通過WGA加Hash alignment的方法給出了一種更加可靠有效的高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法。
[0056]表I參數(shù)設(shè)置

【權(quán)利要求】
1.一種高通量轉(zhuǎn)錄組測序數(shù)據(jù)的分析方法,其特征在于,其在分析過程中通過Burrows-Wheeler變換方法定位后,再通過Hash表進行了二次定位。
2.根據(jù)權(quán)利要求1所述的分析方法,其特征在于,所述分析方法的具體步驟如下: (1)WGA Alignment方法:獲得RNA-Seq的原始數(shù)據(jù)后,將轉(zhuǎn)錄組測序數(shù)據(jù)以可變長度和步長切成短片段,將轉(zhuǎn)錄組測序數(shù)據(jù)以可變長度和步長切成短片段,并應(yīng)用Burrows-Wheeler變換方法定位到參考基因組序列上,匹配允許I個堿基的錯配,并設(shè)定最大允許查找定位的數(shù)目;所述可變長度與步長可以根據(jù)實際Reads的長度來確定; (2)對匹配上的測序數(shù)據(jù)分為節(jié)點和數(shù)據(jù)鏈,基于參考基因組mRNA注釋信息以及匹配度打分進行濾除不可靠節(jié)點和數(shù)據(jù)鏈, (3)切割所有匹配的參考基因組序列構(gòu)成新的有效的重構(gòu)參考序列,應(yīng)用hash表進行二次定位,以此提高匹配準(zhǔn)確度及速度; (4)對Reads匹配結(jié)果重新定位到原始參考基因組序列上,重復(fù)步驟(2),確定Nodes、Link以及Chain,基于基因組注釋mRNA信息以及數(shù)據(jù)鏈各exon間連接度找到新的mRNA可變剪切,基因融合和新基因,并給出基因表達水平、變異情況的統(tǒng)計信息; (5)基因Chain和Nodes進行分層展示,并根據(jù)不同Node、Link類型給出不同顏色分類標(biāo)識, (6)生成各類基因數(shù)據(jù)報表,并建立索引,實現(xiàn)快速定位。
3.根據(jù)權(quán)利要求2所述的分析方法,其特征在于,所述步驟(2)中,具體步驟如下: (a)Node確定:將基因組上有Reads覆蓋的連續(xù)區(qū)域定為一個Node,根據(jù)設(shè)定的基覆蓋 Coverage ; (b)Link 確定: 1.載入所有形成Link的reads,也就是指單條Read分別定位到基因組的不連續(xù)兩段以上區(qū)域; I1.進行峰值處理,依據(jù)聚類分析結(jié)果給出Link的起始位置,并根據(jù)如下規(guī)則進行修正:當(dāng)Reads覆蓋度大于10,以超過50%形成Link的Reads的起始位置進行修正;當(dāng)Reads覆蓋度小于10,以超過70%形成Link的Reads的起始位置進行修正; II1.依據(jù)進行基因注釋信息和GT-AT法則進行Link起始位置修正,去除邊緣可變剪接Nodes的影響,對邊緣l_3bp堿基進行exon與exon剪接接頭檢查,去除重復(fù)堿基定位的誤差; V1.小Gap Link的檢測:設(shè)定最小exon間堿基數(shù)目為6,低于6bp的Gap最為刪除變異處理,而大于6bp的Gap定義為Gap Link ; (c)Chain確定:連續(xù)的Node及Link定義為一個Chain ; 1.根據(jù)Node及連接Node的Link,給出所有可能的不重復(fù)的基因Chain; I1.根據(jù)基因注釋信息,找出基因區(qū)域內(nèi)的所有可能的基因Chain;找出基因間區(qū)域的所有的新基因Chain ; II1.濾除不可靠基因Chain:相似基因Chain、重疊基因Chain以及融合基因chain(該基因Chain覆蓋區(qū)域跨越兩個以上基因的區(qū)域)按各自規(guī)則依次進行濾除; 相似基因Chain濾除規(guī)則:序列相似度大于80%的基因進行相似基因Chain檢查,將相似基因間的相同基因Chain進行合并,保留不同的基因Chain ; 重疊基因Chain濾除規(guī)則:如果重疊部分和某一基因的mRNA完全匹配則直接劃分到這一基因如果沒有完全匹配的則比較所在chain和各個基因的mRNA匹配的長度,基因Chain定位到匹配長度最長的基因; 融合基因Chain濾除規(guī)則:對于相鄰近基因只保留相同模板鏈上相同方向的基因融合Chain ;重疊基因間的融合基因Chain濾除,根據(jù)覆蓋度拆分定位到對應(yīng)的基因上;濾除相同染色體上覆蓋范圍大于10000的融合基因Chain ;支持多基因間融合查找。
4.根據(jù)權(quán)利要求2所述的分析方法,其特征在于,所述步驟(3)中,具體步驟如下: 以所有基因組注釋基因的mRNA,有Reads覆蓋的生成基因chain的序列為基本參考序列; 設(shè)定提取序列初始長度為100,再動態(tài)計算平均Reads長度值后替換; 從基本參考序列中分別取exon與exon的接頭序列、基因Chain的Node與Node間的連接序列,長度等于提取序列長度;去重復(fù)追加到重構(gòu)參考基因組序列,并記錄在原始基因組中位置以備還原定位; 從基本參考序列中分別取exon中間序列、基因Chain的Node中間序列,去重復(fù)存為重構(gòu)參考基因組序列,并記錄在原始基因組中的位置以備還原定位; 拼接序列時盡量減少重復(fù)序段的干擾,根據(jù)exon長度以及Node長度調(diào)整提取序列的大小; 在重構(gòu)參考基因組序列中進行去重處理,以降低參考序列大小,提高運行速度; 對測序樣本用Hash Alignment方法對重構(gòu)參考基因組序列進行匹配,可設(shè)定最小匹配長度以及最低相似度,默認設(shè)置為12及85%。
【文檔編號】G06F19/20GK104182657SQ201410422973
【公開日】2014年12月3日 申請日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】王月蘭, 倪受庸, 劉勁松, 鄧彥, 龐啟波 申請人:江蘇華生恒業(yè)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
寿阳县| 陆丰市| 金坛市| 宁明县| 噶尔县| 突泉县| 桂平市| 永春县| 乌兰县| 剑河县| 安新县| 大厂| 尼木县| 察隅县| 庄浪县| 南华县| 北海市| 江山市| 西藏| 叙永县| 浦东新区| 寿宁县| 会理县| 甘孜| 河北省| 射阳县| 都昌县| 包头市| 香港| 莆田市| 湛江市| 奉节县| 化州市| 竹溪县| 宣化县| 休宁县| 恩施市| 蓬溪县| 湖南省| 九寨沟县| 习水县|