1.一種基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,步驟為,
(1)測(cè)序數(shù)據(jù)的質(zhì)量評(píng)估和預(yù)處理,過濾掉不合適的測(cè)序數(shù)據(jù),得到第一測(cè)序序列;優(yōu)選的,所述不合適的測(cè)序數(shù)據(jù)指的是Q20低于80%,或N堿基比例大于20%;
(2)引物識(shí)別:使用來源于覆蓋所檢測(cè)基因的測(cè)序引物,對(duì)上述第一測(cè)序序列進(jìn)行來源識(shí)別,將可以識(shí)別的測(cè)序序列為第二測(cè)序序列;優(yōu)選的,可以識(shí)別的測(cè)序序列指的是引物序列與測(cè)序序列的堿基差異在2個(gè)以內(nèi);
(3)序列組裝:對(duì)第二測(cè)序序列中可實(shí)現(xiàn)每條擴(kuò)增子的完全覆蓋的兩端的測(cè)序數(shù)據(jù),進(jìn)行序列組裝,將其兩條片段的重合序列部分進(jìn)行合并和質(zhì)量值的重新計(jì)算;得到第三測(cè)序序列;
(4)序列比對(duì):根據(jù)來源于覆蓋所檢測(cè)基因的測(cè)序引物的序列位置,從標(biāo)準(zhǔn)參考基因組切取參考序列文件,進(jìn)而將所述第二測(cè)序序列或第三測(cè)序序列與所述參考基因序列進(jìn)行序列比對(duì);得到第四測(cè)序序列;
(5)變異檢測(cè):對(duì)所述第四測(cè)序序列,采用堿基比較的方式,統(tǒng)計(jì)每一個(gè)位置上測(cè)序序列與所述參考序列的異同,得到初步的變異信息;
(6)序列變異精校準(zhǔn):
對(duì)于相互靠近的突變,將其進(jìn)行合并,重新計(jì)算堿基的突變位置和突變類型;尤其,如果存在其中一側(cè)為插入或缺失的類型,需要對(duì)合并后的堿基定位進(jìn)行調(diào)整;得到校準(zhǔn)后的第五測(cè)序片段;
對(duì)于插入類型,以基因的轉(zhuǎn)錄方向?yàn)闇?zhǔn),如果插入片段的第一位堿基與插入位置的右側(cè)第一位堿基相同,則將其向轉(zhuǎn)錄方向移動(dòng),直至不滿足此條件為止;得到校準(zhǔn)后的第五測(cè)序片段;
對(duì)于缺失類型,以基因的轉(zhuǎn)錄方向?yàn)闇?zhǔn),如果缺失片段的第一位堿基與缺失位置的右側(cè)第一位堿基相同,則將其向轉(zhuǎn)錄方向移動(dòng),直至不滿足此條件為止;得到校準(zhǔn)后的第五測(cè)序片段;
(7)序列變異統(tǒng)計(jì)輸出:根據(jù)最高豐度的第五測(cè)序片段類型計(jì)算得到目標(biāo)片段的純合或雜合狀態(tài);最終得到基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中的突變信息。
2.權(quán)利要求1所述基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,所述引物識(shí)別的具體算法為:
(1)循環(huán)所有來源于覆蓋所檢測(cè)基因的測(cè)序引物組合;
(2)每次截取測(cè)序序列兩端和當(dāng)前來源于覆蓋所檢測(cè)基因的測(cè)序引物組合相同的片段進(jìn)行全局比對(duì),并進(jìn)行打分,同時(shí)記錄比對(duì)過程中的堿基錯(cuò)配個(gè)數(shù)和插入缺失個(gè)數(shù);
(3)根據(jù)比對(duì)打分確定最佳引物來源,并根據(jù)最佳引物來源中的堿基錯(cuò)配個(gè)數(shù)和插入缺失個(gè)數(shù)判定測(cè)序序列是否為非特異擴(kuò)增。
3.權(quán)利要求1所述基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,所述序列組裝為:
(1)將測(cè)序序列的后端數(shù)據(jù)進(jìn)行反向互補(bǔ),使其與前端序列具有相同讀取方向;
(2)將后端序列與前端序列進(jìn)行不同位置的對(duì)齊操作,進(jìn)而在每種對(duì)齊條件下計(jì)算后續(xù)序列相同與不同的打分值,選取最高打分值作為前后兩條序列的最佳組裝起點(diǎn);
(3)從最佳比對(duì)起點(diǎn)開始,選取兩條序列上重合位置測(cè)序質(zhì)量最高的堿基作為最終組裝序列的堿基;如果遇到兩個(gè)不同堿基的質(zhì)量值相同,則優(yōu)選前段堿基序列的堿基類型;
(4)輸出組裝后的序列片段,并根據(jù)如下原則重新計(jì)算堿基質(zhì)量值打分:
a.如果兩個(gè)堿基相同,則質(zhì)量值為兩只相加,但不高于最高質(zhì)量值上限;
b.如果兩個(gè)堿基不同,則質(zhì)量值為兩者中的較大者,如兩者相同,則任取一個(gè)。
4.權(quán)利要求1所述基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,所述序列比對(duì)的方式為全局比對(duì)算法,其具體算法原理如下:
(1)參數(shù)設(shè)定:對(duì)比對(duì)過程中的打分值進(jìn)行定義,可以采取兩種方式:
a.定義堿基相同、堿基錯(cuò)配、堿基插入缺失、堿基插入缺失延伸的分值;
b.定義打分矩陣,即每種堿基間的相互錯(cuò)配可以具有各自不同的分值,以考慮生物過程中堿基突變的實(shí)際概率值。
(2)打分矩陣初始化:
a.將參考序列的每一個(gè)堿基作為打分矩陣的一列,首列留空;
b.將測(cè)序序列的每一個(gè)堿基作為打分矩陣的一行,首行留空;
c.將打分矩陣的第二行和第二列根據(jù)堿基插入缺失、堿基插入缺失延伸的分值進(jìn)行填充,以定義在序列首端存在插入缺失的情況。
(3)打分矩陣填充:將打分矩陣從左向右、自上而下進(jìn)行填充。填充過程中遵循以下原則:
a.每個(gè)空位分別計(jì)算由左側(cè)、上方、左上方延伸而來的得分;
b.在計(jì)算過程中,來自于左上方的情況需要計(jì)算當(dāng)前位置對(duì)應(yīng)的參考序列堿基和測(cè)序序列堿基是否相同,相同則加上“堿基相同”對(duì)應(yīng)的分值,不相同則加上“堿基錯(cuò)配”對(duì)應(yīng)的分值;如果來自于上方或左側(cè),需要考慮前一步堿基是否為插入缺失,如果是插入缺失,則加上“堿基插入缺失延伸”的分值,如果不是則加上“堿基插入缺失”的分值。
c.將3種情況下計(jì)算得到的最高分作為此處的比對(duì)分值;并記錄此處的路徑來源。
(4)最優(yōu)路徑回溯:從打分矩陣的右下角開始回溯,選取每一個(gè)位點(diǎn)的路徑來源,得到最優(yōu)比對(duì)結(jié)果,即測(cè)序序列與參考序列的位置對(duì)應(yīng)關(guān)系。
5.權(quán)利要求1所述基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,所述變異檢測(cè)的判定方法為:
如果測(cè)序序列與參考序列相同,此處沒有變異;
如果測(cè)序序列與參考序列不同,此處存在堿基替換類型的序列變異;
如果測(cè)序序列對(duì)應(yīng)參考序列上的空位,此處存在序列插入類型的序列變異;
如果測(cè)序序列的空位對(duì)應(yīng)參考序列上的堿基,此處存在序列缺失類型的序列變異。
6.權(quán)利要求1所述基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,所述序列變異統(tǒng)計(jì)輸出的實(shí)施過程為:
(1)將所有測(cè)序序列的片段根據(jù)引物序列進(jìn)行分類;
(2)在每一個(gè)引物序列內(nèi)部統(tǒng)計(jì)出現(xiàn)次數(shù)最多和次多的序列類型,得到最佳序列與次佳序列;
(3)計(jì)算最佳序列與次佳序列中次佳序列所占的比例;
(4)根據(jù)設(shè)定的閾值和染色體倍數(shù)判定此目標(biāo)片段為純合區(qū)域或雜合區(qū)域。在二倍體中,若高于閾值則為純合,輸出最佳序列所得到的變異信息;反之為雜合,輸出最佳序列與次佳序列所得到的變異信息;而在單倍體中,如人類的性染色體,則直接判定為純合,輸出最佳序列所得到的變異信息。
7.權(quán)利要求1所述基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,所述基因組是二倍體基因組。
8.權(quán)利要求7所述基因組多重?cái)U(kuò)增測(cè)序產(chǎn)物中突變信息的檢測(cè)方法,其特征在于,所述基因組是人類基因組。