一種細(xì)小病毒高通量dna測(cè)序的數(shù)據(jù)后分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于分子生物學(xué)技術(shù)領(lǐng)域以及信息技術(shù)領(lǐng)域,特別涉及染色質(zhì)測(cè)序數(shù)據(jù)分析技術(shù)領(lǐng)域,具體是指一種細(xì)小病毒高通量DNA測(cè)序的數(shù)據(jù)后分析方法。
[0002]
【背景技術(shù)】
[0003]細(xì)小病毒包括侵襲人的人細(xì)小病毒B19 (Human Parvovirus B19, PVB19)、人博卡病毒(Human Bocavirus,HBoV),以及侵襲動(dòng)物(如狗、豬、貓等)的細(xì)小病毒。人細(xì)小病毒已被證明是能引起包括傳染性紅斑、血小板減少性紫癜、急性造血停滯、急性肝炎、肺炎或支氣管肺炎等多種疾??;且能通過(guò)胎盤(pán)感染胎兒,引起孕婦流產(chǎn)、早產(chǎn)或胎兒水腫、死胎。犬細(xì)小病毒(Canine Parvovirus, CPV)及豬細(xì)小病毒(Porcine Parvovirus, PPV)可引起動(dòng)物腹瀉及死亡,對(duì)畜牧業(yè)危害很大,且HBoV與牛細(xì)小病毒、犬細(xì)小病毒具有高度同源性,在未來(lái)動(dòng)物細(xì)小病毒有可能感染人類(lèi)。
[0004]DNA測(cè)序(DNA sequencing,或譯DNA定序)是指分析特定DNA片段的堿基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥(niǎo)嘌呤的(G)排列方式??焖俚腄NA測(cè)序方法的出現(xiàn)極大地推動(dòng)了生物學(xué)和醫(yī)學(xué)的研究和發(fā)現(xiàn)。
[0005]新一代高通量測(cè)序技術(shù)的出現(xiàn)極大地豐富了人們研究細(xì)胞內(nèi)變化規(guī)律的方案。雖然目前的細(xì)小病毒高通量測(cè)序技術(shù)都有相關(guān)的分析方法幫助科研人員進(jìn)行高通量數(shù)據(jù)分析。但是,現(xiàn)有工具對(duì)這些數(shù)據(jù)的后期分析缺乏系統(tǒng)性的總結(jié),沒(méi)有專(zhuān)門(mén)數(shù)據(jù)處理方法會(huì)涉及到的諸如平滑、縮放和組間標(biāo)準(zhǔn)化等常用操作,這增加了數(shù)據(jù)分析人員的工作負(fù)擔(dān),加大了數(shù)據(jù)處理的難度。
[0006]
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)中的缺點(diǎn),提供一種對(duì)于存放有多個(gè)樣本組數(shù)據(jù)的矩陣能夠進(jìn)行高效的數(shù)據(jù)平滑、數(shù)據(jù)縮放、組間標(biāo)準(zhǔn)化、組間數(shù)據(jù)量平衡等操作,從而降低數(shù)據(jù)處理的難度,且應(yīng)用范圍較為廣泛的細(xì)小病毒高通量測(cè)序數(shù)據(jù)后期分析方法。
[0008]本發(fā)明是通過(guò)以下方案來(lái)實(shí)現(xiàn)上述發(fā)明目的:
1.一種細(xì)小病毒高通量DNA測(cè)序的數(shù)據(jù)后分析方法,其特征在于,所述的方法包括以下步驟:
(1)獲得細(xì)小病毒高通量測(cè)序數(shù)據(jù)的矩陣數(shù)據(jù),對(duì)其進(jìn)行尺寸變換,得到新的矩陣數(shù)據(jù);
(2)給定預(yù)設(shè)的模擬格式高通量數(shù)據(jù)序列比對(duì)數(shù)據(jù);
(3)對(duì)(1)中獲取的新的矩陣文進(jìn)行分位數(shù)規(guī)范化處理,形成統(tǒng)一的值域范圍;
(4)根據(jù)指定的K值,從(3)中篩選出符合條件的數(shù)據(jù);
(5)根據(jù)所述的新的矩陣文件、篩選后的數(shù)據(jù)和模擬格式高通量數(shù)據(jù)序列比對(duì)數(shù)據(jù)生成前景數(shù)據(jù)和背景數(shù)據(jù),通過(guò)比較各信號(hào)值在前景數(shù)據(jù)和背景數(shù)據(jù)中的數(shù)量分布,得到前景信號(hào)假陽(yáng)性概率;
(6)根據(jù)矩陣數(shù)據(jù)及預(yù)設(shè)的預(yù)期聚合酶鏈反應(yīng)冗余片段在總樣本中所占比例,生成聚合酶鏈反應(yīng)冗余片段閾值并在所述的高通量測(cè)序數(shù)據(jù)中標(biāo)記所述的聚合酶鏈反應(yīng)冗余片段位置。
[0009]采用了本方法的細(xì)小病毒高通量測(cè)序數(shù)據(jù)后期分析方法,其能夠根據(jù)需要,對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)平滑、數(shù)據(jù)縮放、組間標(biāo)準(zhǔn)化、組間數(shù)據(jù)量平衡等操作,且適用于存放有多個(gè)樣本組數(shù)據(jù)的矩陣,從而降低數(shù)據(jù)處理的難度,且本發(fā)明的高通量測(cè)序數(shù)據(jù)后期處理方法的應(yīng)用范圍也較為廣泛。
[0010]
【附圖說(shuō)明】
[0011]圖1為本發(fā)明的細(xì)小病毒高通量DNA測(cè)序的數(shù)據(jù)后分析方法的步驟流程圖。
[0012]
【具體實(shí)施方式】
[0013]以下結(jié)合實(shí)施例對(duì)本發(fā)明技術(shù)方案做進(jìn)一步說(shuō)明,所述的實(shí)施例是對(duì)本發(fā)明的解釋而不是限定。
[0014]請(qǐng)參閱圖1所示,為本發(fā)明的細(xì)小病毒高通量DNA測(cè)序的數(shù)據(jù)后分析方法的步驟流程圖。
[0015]在【具體實(shí)施方式】中,該方法如圖1所示包括以下步驟:
(1)獲得細(xì)小病毒高通量測(cè)序數(shù)據(jù)的矩陣數(shù)據(jù),對(duì)其進(jìn)行尺寸變換,得到新的矩陣數(shù)據(jù);細(xì)小病毒高通量測(cè)序數(shù)據(jù)的獲得,可以采用現(xiàn)有的各種方法(如雙脫氧鏈終止法)來(lái)獲得;
(2)給定預(yù)設(shè)的模擬格式高通量數(shù)據(jù)序列比對(duì)數(shù)據(jù);此處的對(duì)比數(shù)據(jù)可以根據(jù)分析需要進(jìn)行相應(yīng)的調(diào)整和變化;
(3)對(duì)(1)中獲取的新的矩陣文進(jìn)行分位數(shù)規(guī)范化處理,形成統(tǒng)一的值域范圍;
(4)根據(jù)指定的K值,從(3)中篩選出符合條件的數(shù)據(jù);此處的K值是可以根據(jù)關(guān)注的數(shù)據(jù)特征進(jìn)行選擇;
(5)根據(jù)所述的新的矩陣文件、篩選后的數(shù)據(jù)和模擬格式高通量數(shù)據(jù)序列比對(duì)數(shù)據(jù)生成前景數(shù)據(jù)和背景數(shù)據(jù),通過(guò)比較各信號(hào)值在前景數(shù)據(jù)和背景數(shù)據(jù)中的數(shù)量分布,得到前景信號(hào)假陽(yáng)性概率;
(6)根據(jù)矩陣數(shù)據(jù)及預(yù)設(shè)的預(yù)期聚合酶鏈反應(yīng)冗余片段在總樣本中所占比例,生成聚合酶鏈反應(yīng)冗余片段閾值并在所述的高通量測(cè)序數(shù)據(jù)中標(biāo)記所述的聚合酶鏈反應(yīng)冗余片段位置。
[0016]采用了本方法的細(xì)小病毒高通量測(cè)序數(shù)據(jù)后期分析方法,其能夠根據(jù)需要,對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)平滑、數(shù)據(jù)縮放、組間標(biāo)準(zhǔn)化、組間數(shù)據(jù)量平衡等操作,且適用于存放有多個(gè)樣本組數(shù)據(jù)的矩陣,從而降低數(shù)據(jù)處理的難度,且本發(fā)明的高通量測(cè)序數(shù)據(jù)后期處理方法的應(yīng)用范圍也較為廣泛。
【主權(quán)項(xiàng)】
1.一種細(xì)小病毒高通量DNA測(cè)序的數(shù)據(jù)后分析方法,其特征在于,所述的方法包括以下步驟: (1)獲得細(xì)小病毒高通量測(cè)序數(shù)據(jù)的矩陣數(shù)據(jù),對(duì)其進(jìn)行尺寸變換,得到新的矩陣數(shù)據(jù); (2)給定預(yù)設(shè)的模擬格式高通量數(shù)據(jù)序列比對(duì)數(shù)據(jù); (3)對(duì)(1)中獲取的新的矩陣文進(jìn)行分位數(shù)規(guī)范化處理,形成統(tǒng)一的值域范圍; (4)根據(jù)指定的K值,從(3)中篩選出符合條件的數(shù)據(jù); (5)根據(jù)所述的新的矩陣文件、篩選后的數(shù)據(jù)和模擬格式高通量數(shù)據(jù)序列比對(duì)數(shù)據(jù)生成前景數(shù)據(jù)和背景數(shù)據(jù),通過(guò)比較各信號(hào)值在前景數(shù)據(jù)和背景數(shù)據(jù)中的數(shù)量分布,得到前景信號(hào)假陽(yáng)性概率; (6)根據(jù)矩陣數(shù)據(jù)及預(yù)設(shè)的預(yù)期聚合酶鏈反應(yīng)冗余片段在總樣本中所占比例,生成聚合酶鏈反應(yīng)冗余片段閾值并在所述的高通量測(cè)序數(shù)據(jù)中標(biāo)記所述的聚合酶鏈反應(yīng)冗余片段位置。
【專(zhuān)利摘要】本發(fā)明屬于在分子生物學(xué)技術(shù)領(lǐng)域,特別涉及染色質(zhì)測(cè)序數(shù)據(jù)分析技術(shù)領(lǐng)域,具體是指一種細(xì)小病毒高通量DNA測(cè)序的數(shù)據(jù)后分析方法。其特征在于該方法根據(jù)用戶(hù)需要,對(duì)細(xì)小病毒高通量測(cè)序數(shù)據(jù)后期進(jìn)行高效的數(shù)據(jù)分析等操作,特別適用于多個(gè)樣本組數(shù)據(jù),從而能夠減少數(shù)據(jù)分析人員的工作負(fù)擔(dān),降低數(shù)據(jù)處理的難度,且本發(fā)明的高通量測(cè)序數(shù)據(jù)后期處理方法的應(yīng)用范圍也較為廣泛。
【IPC分類(lèi)】G06F19/22
【公開(kāi)號(hào)】CN105320849
【申請(qǐng)?zhí)枴緾N201410376284
【發(fā)明人】張藝, 梁建偉, 何飛, 熊玉宇
【申請(qǐng)人】晶能生物技術(shù)(上海)有限公司
【公開(kāi)日】2016年2月10日
【申請(qǐng)日】2014年8月3日