本發(fā)明涉及基因測序領域,尤其涉及一種基因組多重擴增測序產(chǎn)物中突變信息的檢測方法。
背景技術:
目前,對基因序列進行變異檢測的方法有很多。其中,通過多重擴增將特定目標區(qū)域進行特異性擴增,并對擴增產(chǎn)物進行高通量測序是一種高效、經(jīng)濟、準確性高的優(yōu)選方法。此類方法可以擴大傳統(tǒng)單點PCR的檢測通量,同時高通量測序技術可以得到目標區(qū)域準確的數(shù)字信號,可以更準確的對序列變異情況進行描述。
然而,這類方法在檢測過程中會產(chǎn)生大量的測序序列信息,需要使用專業(yè)的數(shù)據(jù)分析方法對測序結果進行解讀。目前,對此類數(shù)據(jù)進行分析的方法有很多,主要過程都是將測序序列通過全基因組比對的方式定位到基因序列上,再通過對所有測序候選類型的堿基深度進行統(tǒng)計,從而計算出目標基因區(qū)域的變異信息。但是,這類方法由于需要將測序序列對全基因組區(qū)域進行比對,程序運行速度慢,需要的資源消耗高。而且,變異檢測過程中,突變的統(tǒng)計是在單個位點的水平上進行,對于PCR或測序過程中產(chǎn)生的錯誤只能通過概率模型模型計算進行消除,容易受到干擾。再者,由于方法定位為全基因組比對,在每個基因位置的比對上采用了相同的處理方式,并沒有考慮不同基因表達方式的差異,導致在后期的功能注釋上無法與生物學意義直接相關聯(lián),對受試樣品的遺傳咨詢產(chǎn)生潛在影響。
綜上可知,目前臨床上針對此類數(shù)據(jù)并沒有一種高效、快捷、準確的分析方法。本發(fā)明目的在于提供一種快速、全面準確、高效的檢測多重擴增測序產(chǎn)物中基因突變的分析方法。
技術實現(xiàn)要素:
本發(fā)明的目的在于提供一種基因組多重擴增測序產(chǎn)物中突變信息的檢測方法。
為實現(xiàn)上述目的,本發(fā)明提供一種基因組多重擴增測序產(chǎn)物中突變信息的檢測方法,其特征在于,步驟為,
(1)測序數(shù)據(jù)的質(zhì)量評估和預處理,過濾掉不合適的測序數(shù)據(jù),得到第一測序序列;優(yōu)選的,所述不合適的測序數(shù)據(jù)指的是Q20低于80%,或N堿基比例大于20%;
(2)引物識別:使用來源于覆蓋所檢測基因的測序引物,對上述第一測序序列進行來源識別,將可以識別的測序序列為第二測序序列;優(yōu)選的,可以識別的測序序列指的是引物序列與測序序列的堿基差異在2個以內(nèi);
(3)序列組裝:對第二測序序列中可實現(xiàn)每條擴增子的完全覆蓋的兩端的測序數(shù)據(jù),進行序列組裝,將其兩條片段的重合序列部分進行合并和質(zhì)量值的重新計算;得到第三測序序列;
(4)序列比對:根據(jù)來源于覆蓋所檢測基因的測序引物的序列位置,從標準參考基因組切取參考序列文件,進而將所述第二測序序列或第三測序序列與所述參考基因序列進行序列比對;得到第四測序序列;
(5)變異檢測:對所述第四測序序列,采用堿基比較的方式,統(tǒng)計每一個位置上測序序列與所述參考序列的異同,得到初步的變異信息;
(6)序列變異精校準:
對于相互靠近的突變,將其進行合并,重新計算堿基的突變位置和突變類型;尤其,如果存在其中一側為插入或缺失的類型,需要對合并后的堿基定位進行調(diào)整;得到校準后的第五測序片段;
對于插入類型,以基因的轉錄方向為準,如果插入片段的第一位堿基與插入位置的右側第一位堿基相同,則將其向轉錄方向移動,直至不滿足此條件為止;得到校準后的第五測序片段;
對于缺失類型,以基因的轉錄方向為準,如果缺失片段的第一位堿基與缺失位置的右側第一位堿基相同,則將其向轉錄方向移動,直至不滿足此條件為止;得到校準后的第五測序片段;
(7)序列變異統(tǒng)計輸出:根據(jù)最高豐度的第五測序片段類型計算得到目標片段的純合或雜合狀態(tài);最終得到基因組多重擴增測序產(chǎn)物中的突變信息。
進一步,所述引物識別的具體算法為:
(1)循環(huán)所有來源于覆蓋所檢測基因的測序引物組合;
(2)每次截取測序序列兩端和當前來源于覆蓋所檢測基因的測序引物組合相同的片段進行全局比對,并進行打分,同時記錄比對過程中的堿基錯配個數(shù)和插入缺失個數(shù);
(3)根據(jù)比對打分確定最佳引物來源,并根據(jù)最佳引物來源中的堿基錯配個數(shù)和插入缺失個數(shù)判定測序序列是否為非特異擴增。
進一步,所述序列組裝為:
(1)將測序序列的后端數(shù)據(jù)進行反向互補,使其與前端序列具有相同讀取方向;
(2)將后端序列與前端序列進行不同位置的對齊操作,進而在每種對齊條件下計算后續(xù)序列相同與不同的打分值,選取最高打分值作為前后兩條序列的最佳組裝起點;
(3)從最佳比對起點開始,選取兩條序列上重合位置測序質(zhì)量最高的堿基作為最終組裝序列的堿基;如果遇到兩個不同堿基的質(zhì)量值相同,則優(yōu)選前段堿基序列的堿基類型;
(4)輸出組裝后的序列片段,并根據(jù)如下原則重新計算堿基質(zhì)量值打分:
a.如果兩個堿基相同,則質(zhì)量值為兩只相加,但不高于最高質(zhì)量值上限;
b.如果兩個堿基不同,則質(zhì)量值為兩者中的較大者,如兩者相同,則任取一個。
進一步,所述序列比對的方式為全局比對算法,其具體算法原理如下:
(1)參數(shù)設定:對比對過程中的打分值進行定義,可以采取兩種方式:
c.定義堿基相同、堿基錯配、堿基插入缺失、堿基插入缺失延伸的分值;
d.定義打分矩陣,即每種堿基間的相互錯配可以具有各自不同的分值,以考慮生物過程中堿基突變的實際概率值。
(2)打分矩陣初始化:
a.將參考序列的每一個堿基作為打分矩陣的一列,首列留空;
b.將測序序列的每一個堿基作為打分矩陣的一行,首行留空;
c.將打分矩陣的第二行和第二列根據(jù)堿基插入缺失、堿基插入缺失延伸的分值進行填充,以定義在序列首端存在插入缺失的情況。
(3)打分矩陣填充:將打分矩陣從左向右、自上而下進行填充。填充過程中遵循以下原則:
a.每個空位分別計算由左側、上方、左上方延伸而來的得分;
b.在計算過程中,來自于左上方的情況需要計算當前位置對應的參考序列堿基和測序序列堿基是否相同,相同則加上“堿基相同”對應的分值,不相同則加上“堿基錯配”對應的分值;如果來自于上方或左側,需要考慮前一步堿基是否為插入缺失,如果是插入缺失,則加上“堿基插入缺失延伸”的分值,如果不是則加上“堿基插入缺失”的分值。
c.將3種情況下計算得到的最高分作為此處的比對分值;并記錄此處的路徑來源。
(4)最優(yōu)路徑回溯:從打分矩陣的右下角開始回溯,選取每一個位點的路徑來源,得到最優(yōu)比對結果,即測序序列與參考序列的位置對應關系。
注意,此處的比對算法為全局比對,如采用局部比對的方式,在(4)中的路徑回溯階段,起點選取打分矩陣右下角的最大分值作為起點即可。
進一步,所述變異檢測的判定方法為:
如果測序序列與參考序列相同,此處沒有變異;
如果測序序列與參考序列不同,此處存在堿基替換類型的序列變異;
如果測序序列對應參考序列上的空位,此處存在序列插入類型的序列變異;
如果測序序列的空位對應參考序列上的堿基,此處存在序列缺失類型的序列變異。
進一步,所述序列變異統(tǒng)計輸出的實施過程為:
(1)將所有測序序列的片段根據(jù)引物序列進行分類;
(2)在每一個引物序列內(nèi)部統(tǒng)計出現(xiàn)次數(shù)最多和次多的序列類型,得到最佳序列與次佳序列;
(3)計算最佳序列與次佳序列中次佳序列所占的比例;
(4)根據(jù)設定的閾值和染色體倍數(shù)判定此目標片段為純合區(qū)域或雜合區(qū)域。在二倍體中,若高于閾值則為純合,輸出最佳序列所得到的變異信息;反之為雜合,輸出最佳序列與次佳序列所得到的變異信息;而在單倍體中,如人類的性染色體,則直接判定為純合,輸出最佳序列所得到的變異信息。
進一步,所述基因組是二倍體基因組。
進一步,所述基因組是人類基因組
本發(fā)明的技術方案為:
1、測序數(shù)據(jù)的質(zhì)量評估和預處理
本發(fā)明方法會通過測序質(zhì)量值、堿基識別率、測序序列有效長度對原始測序數(shù)據(jù)進行篩選和過濾,以保證后續(xù)分析步驟的準確、精確。
2、引物識別
本發(fā)明方法使用多重擴增實驗中的引物序列,對測序序列進行來源識別,進而對目標片段序列和非特異擴增序列進行區(qū)分。由于不需要對全基因組序列進行比對,可以極大的減少計算過程中的資源消耗。
其具體原理為:1.存儲所有擴增體系中使用的正向及反向引物信息;2.每次讀取一對測序序列,并循環(huán)每對引物序列與測序序列進行引物識別;3.重復以上操作,直至對所有測序序列進行引物來源識別。
在引物識別過程中,其具體算法為:
(1)循環(huán)所有引物組合;
(2)每次截取測序序列兩端和當前引物組合相同的片段進行全局比對,并進行打分,同時記錄比對過程中的堿基錯配個數(shù)和插入缺失個數(shù);
(3)根據(jù)比對打分確定最佳引物來源,并根據(jù)最佳引物來源中的堿基錯配個數(shù)和插入缺失個數(shù)判定測序序列是否為非特異擴增。
3、序列組裝
在測序過程中,堿基測序質(zhì)量會隨著測序的長度不斷衰減,因此在序列片段的尾部會富集測序錯誤。在illumina平臺上,測序儀會提供目的片段兩端的序列信息。因此,為了提高數(shù)據(jù)質(zhì)量,以及避免在變異檢測過程中長片段插入缺失的比對錯誤,可以優(yōu)選將illumina平臺雙端測序數(shù)據(jù)進行拼接。
其具體算法如下:
(1)將測序序列的后端數(shù)據(jù)進行反向互補,使其與前端序列具有相同讀取方向;
(2)將后端序列與前端序列進行不同位置的對齊操作,進而在每種對齊條件下計算后續(xù)序列相同與不同的打分值,選取最高打分值作為前后兩條序列的最佳組裝起點;
(3)從最佳比對起點開始,選取兩條序列上重合位置測序質(zhì)量最高的堿基作為最終組裝序列的堿基;如果遇到兩個不同堿基的質(zhì)量值相同,則優(yōu)選前段堿基序列的堿基類型;
(4)輸出組裝后的序列片段,并根據(jù)如下原則重新計算堿基質(zhì)量值打分:
c.如果兩個堿基相同,則質(zhì)量值為兩值相加,但不高于最高質(zhì)量值上限;
d.如果兩個堿基不同,則質(zhì)量值為兩者中的較大者,如兩者相同,則任取一個。
4、序列比對
將步驟2中能夠和特異性引物匹配的測序序列,或經(jīng)過步驟3中序列組裝后的測序序列,與標準的參考基因組序列進行比對。由于測序序列為擴增子測序,理論上與標準參考序列的大部分位置(下限為首位兩端的引物位置)具有高度相似性。所以此處的比對方式優(yōu)選全局比對算法,其具體算法原理如下:
(1)參數(shù)設定:對比對過程中的打分值進行定義,可以采取兩種方式:
a.定義堿基相同、堿基錯配、堿基插入缺失、堿基插入缺失延伸的分值;
b.定義打分矩陣,即每種堿基間的相互錯配可以具有各自不同的分值,以考慮生物過程中堿基突變的實際概率值。
(2)打分矩陣初始化:
a.將參考序列的每一個堿基作為打分矩陣的第一列,首列留空;
b.將測序序列的每一個堿基作為打分矩陣的第一行,首行留空;
c.將打分矩陣的第二行和第二列根據(jù)堿基插入缺失、堿基插入缺失延伸的分值進行填充,以定義在序列首端存在插入缺失的情況。
(3)打分矩陣填充:將打分矩陣從左向右、自上而下進行填充。填充過程中遵循以下原則:
a.每個空位分別計算由左側、上方、左上方延伸而來的得分;
b.在計算過程中,來自于左上方的情況需要計算當前位置對應的參考序列堿基和測序序列堿基是否相同,相同則加上“堿基相同”對應的分值,不相同則加上“堿基錯配”對應的分值;如果來自于上方或左側,需要考慮前一步堿基是否為插入缺失,如果是插入缺失,則加上“堿基插入缺失延伸”的分值,如果不是則加上“堿基插入缺失”的分值。
c.將3種情況下計算得到的最高分作為此處的比對分值;并記錄此處的路徑來源。
(4)最優(yōu)路徑回溯:從打分矩陣的右下角開始回溯,選取每一個位點的路徑來源,得到最優(yōu)比對結果,即測序序列與參考序列的位置對應關系。
注意,此處的比對算法為全局比對,如采用局部比對的方式,在(4)中的路徑回溯階段,起點選取打分矩陣右下角的最大分值為起點即可。
5、變異檢測
根據(jù)第4步所得的比對結果,統(tǒng)計每一個位置上測序序列與參考序列的異同,得到初步的變異信息。判定方法為:
(1)如果測序序列與參考序列相同,此處沒有變異;
(2)如果測序序列與參考序列不同,此處存在堿基替換類型的序列變異;
(3)如果測序序列對應參考序列上的空位,此處存在序列插入類型的序列變異;
(4)如果測序序列的空位對應參考序列上的堿基,此處存在序列缺失類型的序列變異。
6、序列變異精校準
在常規(guī)的變異檢測中,突變信息的定位均以比對信息為準,這樣的缺陷是變異信息與真實的生物學改變存在一定隔閡。如比對過程總是向序列的一端靠攏,固定向左或向右,而在生物學意義上卻與基因的轉錄方向有關;對于復雜突變,普通比對過程會將一個大的突變拆分成多個小的片段以得到最佳比對得分,與真實的生物學改變不符,尤其是大片段替換等復雜類型。
在本分析系統(tǒng)中,會對檢測到的突變進行更靠近生物學意義的精細調(diào)整,其具體過程如下:
(1)對于相互靠近的突變,將其進行合并,重新計算堿基的突變位置和突變類型;尤其,如果存在其中一側為插入或缺失的類型,需要對合并后的堿基定位進行調(diào)整;
(2)對于插入類型,以基因的轉錄方向為準,如果插入片段的第一位堿基與插入位置的右側第一位堿基相同,則將其向轉錄方向移動,直至不滿足此條件為止;
(3)對于缺失類型,以基因的轉錄方向為準,如果缺失片段的第一位堿基與缺失位置的右側第一位堿基相同,則將其向轉錄方向移動,直至不滿足此條件為止。
7、序列變異統(tǒng)計輸出
在測序過程中,在PCR過程和測序過程均會引入堿基的隨機錯誤。但其錯誤均是以原始序列片段為起始的。因此,對于基因組DNA,在常染色體均為二倍體,在性染色體存在單倍體。在變異檢測過程中,僅需要根據(jù)其最高豐度的測序片段類型即可計算得到目標片段的純合或雜合狀態(tài)。從而極大的簡化變異序列的過濾方法,并排除實驗過程中隨機錯誤的產(chǎn)生。
在具體的分析過程中,本分析系統(tǒng)的實施過程如下:
(1)將所有測序序列的片段根據(jù)引物序列進行分類;
(2)在每一個引物序列內(nèi)部統(tǒng)計最佳和次佳序列類型的個數(shù);
(3)計算最佳序列與次佳序列中次佳序列所占的比例;
(4)根據(jù)設定的閾值判定此目標片段為純合區(qū)域或雜合區(qū)域。在常染色體中,如高于閾值則為純合,輸出最佳序列所得到的變異信息;反之為雜合,輸出佳序列與次佳序列所得到的變異信息。而在性染色體中,如為女性則與常染色體相同;如為男性則直接判定為純合,輸出最佳序列所得到的變異信息。
與目前常規(guī)的多重擴增測序產(chǎn)物的變異檢測方法相比,本發(fā)明的有益效果在于:
1.高效性。本發(fā)明采用了特異引物識別算法,可以快速、高效、準確的對擴增產(chǎn)物進行識別,極大的節(jié)省了計算資源。
2.臨床有效性。本發(fā)明兼容序列組裝過程,可以有效改善測序過程中產(chǎn)生的堿基質(zhì)量值衰減問題。并且本發(fā)明方法開發(fā)了變異檢測信息的精校準過程,更加具有生物學意義,為臨床信息提供更有價值的信息參考。
3.穩(wěn)定性。本發(fā)明采用了二倍體/單倍體的生物學假設算法,可以更有效、穩(wěn)定的對變異信息的純/雜合狀態(tài)進行判定,極大的消除了PCR過程及測序過程中引入的隨機錯誤。
附圖說明
圖1是檢測系統(tǒng)構成圖。
圖2是插入類型突變右對齊示意圖。
圖3是缺失類型突變右對齊示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。本發(fā)明的描述中,“第一”、“第二”、“第三”等為指代或描述方便,不能理解為有順序關系或者有相對重要性指示,除非另有說明,“多個”、“多組”、“多重”的含義是兩個(組或重)或兩個(組或重)以上。實施例中未注明具體技術或條件者,按照本領域內(nèi)的文獻所描述的技術或條件或者按照產(chǎn)品說明書進行。所用試劑或儀器未注明生產(chǎn)廠商者,均為可以通過市購獲得的常規(guī)產(chǎn)品。
1、測序數(shù)據(jù)的質(zhì)量評估和預處理
本發(fā)明方法會通過測序質(zhì)量值、堿基識別率、測序序列有效長度對原始測序數(shù)據(jù)進行篩選和過濾,以保證后續(xù)分析步驟的準確、精確。
2、引物識別
本發(fā)明方法使用多重擴增實驗中的引物序列,對測序序列進行來源識別,進而對目標片段序列和非特異擴增序列進行區(qū)分。由于不需要對全基因組序列進行比對,可以極大的減少計算過程中的資源消耗。
其具體原理為:1.存儲所有擴增體系中使用的正向及反向引物信息;2.每次讀取一對測序序列,并循環(huán)每對引物序列與測序序列進行引物識別;3.重復以上操作,直至對所有測序序列進行引物來源識別。
在引物識別過程中,其具體算法為:
(1)循環(huán)所有引物組合;
(2)每次截取測序序列兩端和當前引物組合相同的片段進行全局比對,并進行打分,同時記錄比對過程中的堿基錯配個數(shù)和插入缺失個數(shù);
(3)根據(jù)比對打分確定最佳引物來源,并根據(jù)最佳引物來源中的堿基錯配個數(shù)和插入缺失個數(shù)判定測序序列是否為非特異擴增。
3、序列組裝
在測序過程中,堿基測序質(zhì)量會隨著測序的長度不斷衰減,因此在序列片段的尾部會富集測序錯誤。在illumina平臺上,測序儀會提供目的片段兩端的序列信息。因此,為了提高數(shù)據(jù)質(zhì)量,以及避免在變異檢測過程中長片段插入缺失的比對錯誤,可以優(yōu)選將illumina平臺雙端測序數(shù)據(jù)進行拼接。
其具體算法如下:
(1)將測序序列的后端數(shù)據(jù)進行反向互補,使其與前端序列具有相同讀取方向;
(2)將后端序列與前端序列進行不同位置的對齊操作,進而在每種對齊條件下計算后續(xù)序列相同與不同的打分值,選取最高打分值作為前后兩條序列的最佳組裝起點;
(3)從最佳比對起點開始,選取兩條序列上重合位置測序質(zhì)量最高的堿基作為最終組裝序列的堿基;如果遇到兩個不同堿基的質(zhì)量值相同,則優(yōu)選前段堿基序列的堿基類型;
(4)輸出組裝后的序列片段,并根據(jù)如下原則重新計算堿基質(zhì)量值打分:
a.如果兩個堿基相同,則質(zhì)量值為兩只相加,但不高于最高質(zhì)量值上限;
b.如果兩個堿基不同,則質(zhì)量值為兩者中的較大者,如兩者相同,則任取一個。
4、序列比對
將步驟2中能夠和特異性引物匹配的測序序列,或經(jīng)過步驟3中序列組裝后的測序序列,與標準的參考基因組序列進行比對。由于測序序列為擴增子測序,理論上與標準參考序列的大部分位置(下限為首位兩端的引物位置)具有高度相似性。所以此處的比對方式優(yōu)選全局比對算法,其具體算法原理如下:
(1)參數(shù)設定:對比對過程中的打分值進行定義,可以采取兩種方式:
a.定義堿基相同、堿基錯配、堿基插入缺失、堿基插入缺失延伸的分值;
b.定義打分矩陣,即每種堿基間的相互錯配可以具有各自不同的分值,以考慮生物過程中堿基突變的實際概率值。
(2)打分矩陣初始化:
a.將參考序列的每一個堿基作為打分矩陣的一列,首列留空;
b.將測序序列的每一個堿基作為打分矩陣的一行,首行留空;
c.將打分矩陣的第二行和第二列根據(jù)堿基插入缺失、堿基插入缺失延伸的分值進行填充,以定義在序列首端存在插入缺失的情況。
(3)打分矩陣填充:將打分矩陣從左向右、自上而下進行填充。填充過程中遵循以下原則:
a.每個空位分別計算由左側、上方、左上方延伸而來的得分;
b.在計算過程中,來自于左上方的情況需要計算當前位置對應的參考序列堿基和測序序列堿基是否相同,相同則加上“堿基相同”對應的分值,不相同則加上“堿基錯配”對應的分值;如果來自于上方或左側,需要考慮前一步堿基是否為插入缺失,如果是插入缺失,則加上“堿基插入缺失延伸”的分值,如果不是則加上“堿基插入缺失”的分值。
c.將3中情況下計算得到的最高分作為此處的比對分值;并記錄此處的路徑來源。
(4)最優(yōu)路徑回溯:從打分矩陣的右下角開始回溯,選取每一個位點的路徑來源,得到最優(yōu)比對結果,即測序序列與參考序列的位置對應關系。
注意,此處的比對算法為全局比對,如采用局部比對的方式,在(4)中的路徑回溯階段,起點選取打分矩陣右下角的最大分值最為起點即可。
5、變異檢測
根據(jù)第4步所得的比對結果,統(tǒng)計每一個位置上測序序列與參考序列的異同,得到初步的變異信息。判定方法為:
(1)如果測序序列與參考序列相同,此處沒有變異;
(2)如果測序序列與參考序列不同,此處存在堿基替換類型的序列變異;
(3)如果測序序列對應參考序列上的空位,此處存在序列插入類型的序列變異;
(4)如果測序序列的空位對應參考序列上的堿基,此處存在序列缺失類型的序列變異。
6、序列變異精校準
在常規(guī)的變異檢測中,突變信息的定位均以比對信息為準,這樣的缺陷是變異信息與真實的生物學改變存在一定隔閡。如比對過程總是向序列的一端靠攏,固定向左或向右,而在生物學意義上卻與基因的轉錄方向有關;對于復雜突變,普通比對過程會將一個大的突變拆分成多個小的片段以得到最佳比對得分,與真實的生物學改變不符,尤其是大片段替換等復雜類型。
在本分析系統(tǒng)中,會對檢測到的突變進行更靠近生物學意義的精細調(diào)整,其具體過程如下:
(1)對于相互靠近的突變,將其進行合并,重新計算堿基的突變位置和突變類型;尤其,如果存在其中一側為插入或缺失的類型,需要對合并后的堿基定位進行調(diào)整;
(2)對于插入類型,以基因的轉錄方向為準,如果插入片段的第一位堿基與插入位置的右側第一位堿基相同,則將其向轉錄方向移動,直至不滿足此條件為止;
(3)對于缺失類型,以基因的轉錄方向為準,如果缺失片段的第一位堿基與缺失位置的右側第一位堿基相同,則將其向轉錄方向移動,直至不滿足此條件為止。
7、序列變異統(tǒng)計輸出
在測序過程中,在PCR過程和測序過程均會引入堿基的隨機錯誤。但其錯誤均是以原始序列片段為起始的。因此,對于人類基因組DNA,在常染色體均為二倍體,在性染色體存在單倍體。在變異檢測過程中,僅需要根據(jù)其最高豐度的測序片段類型即可計算得到目標片段的純合或雜合狀態(tài)。從而極大的簡化變異序列的過濾方法,并排除實驗過程中隨機錯誤的產(chǎn)生。
在具體的分析過程中,本分析系統(tǒng)的實施過程如下:
1)將所有測序序列的片段根據(jù)引物序列進行分類;
2)在每一個引物序列內(nèi)部統(tǒng)計最佳和次佳序列類型的個數(shù);
3)計算最佳序列與次佳序列中次佳序列所占的比例;
4)根據(jù)設定的閾值判定此目標片段為純合區(qū)域或雜合區(qū)域。在常染色體中,如高于閾值則為純合,輸出最佳序列所得到的變異信息;反之為雜合,輸出佳序列與次佳序列所得到的變異信息。而在性染色體中,如為女性則與常染色體相同;如為男性則直接判定為純合,輸出最佳序列所得到的變異信息。
實施例1:檢測人類基因組多重擴增測序產(chǎn)物中突變信息的方法系統(tǒng)
運用本發(fā)明方法,對107例由多重擴增得到的BRCA1和BRCA2基因測序數(shù)據(jù)進行分析。其中包括100份健康的無償獻血者全血樣本、5份乳腺癌或卵巢癌患者樣本(全血、石蠟切片),BRCA1/2陽性細胞系2株,分別為BT474和HCT15(均可購自于ATCC)。
(1)測序數(shù)據(jù)的質(zhì)量評估和預處理
將illumina測序平臺測序得到的107份PE250數(shù)據(jù)進行低質(zhì)量篩選和低堿基識別度篩選。具體的過濾條件為:Q20低于80%或N堿基比例大于20%。最終,所有樣本均具有較高的測序數(shù)據(jù)質(zhì)量,詳見表1。
表1.107例檢測樣本基本信息統(tǒng)計結果
(2)引物識別
本實驗數(shù)據(jù)來源于覆蓋BRCA1和BRCA2基因的97對引物的擴增產(chǎn)物測序。因此,在分析過程中,使用相對應的97對引物序列對測序序列進行唯一性識別。在識別過程中,容許1個插入缺失改變和2個堿基錯配改變。最終,各樣本的引物識別比例平均可達98.5%,詳見表1。
(3)序列組裝
本實驗中,97對擴增子中最大片段長度為395bp,因此對于雙端250bp的測序數(shù)據(jù),可以實現(xiàn)每條擴增子的完全覆蓋,可以進行序列組裝操作。在組裝過程中,且限定兩條片段至少包含100bp以上的重合序列。最終,序列組裝成功率平均為99%,詳見表1。
(4)序列比對
根據(jù)97對引物的序列位置,從人類標準參考基因組(GRCh37/hg19)切取參考序列文件。進而對識別成功的測序序列,分別與其對應的參考序列進行全局序列比對。最終,各樣本的序列比對成功率平均為96%,詳見表1。
(5)變異檢測
對比對成功的序列,采用堿基比較的方式,統(tǒng)計每個測序位置與參考序列的異同,得到候選突變信息的列表。
(6)序列變異精校準
為了能夠更科學的描述變異信息對生物學意義的影響,根據(jù)基因的表達方向?qū)ν蛔冃畔⑦M行重新合并和修改。在本實施例中,BRCA1基因為負鏈表達基因,所以突變的位置為左對齊;BRCA1基因為正鏈表達基因,所以突變的位置為右對齊。以右對齊為例,插入類型的調(diào)整方式見圖2;缺失類型的調(diào)整方式見圖3。
(7)序列變異統(tǒng)計輸出
BRCA1和BRCA2基因均位于常染色體,因此為二倍體。在各樣本中,對97個擴增產(chǎn)物分別進行最佳序列及次佳序列的統(tǒng)計,根據(jù)雜合判定閾值進行倍型的判定。在本實施例中,判定閾值設定為0.15,即次佳序列在最佳序列與次佳序列之和中所占比例高于15%,此擴增子存在雜合突變;否則存在純合突變或不存在突變。最終,100份健康的無償獻血者全血樣本中未檢測到易感突變位點。5例乳腺癌/卵巢癌患者樣本(全血、石蠟切片)和2株細胞系的結果如表2所示。表2中:突變名稱為基因編號+外顯子編號+突變堿基序列+氨基酸變化,基因名稱是指被檢測位點所在的基因,染色體是指被檢測位點所在的染色體位置,起始位置是指被檢測位點所在染色體上的起始位置,RS編號為NCBI網(wǎng)址SNP數(shù)據(jù)庫統(tǒng)一編號。最終,檢測結果與預期結果符合。
表2.5例乳腺癌/卵巢癌患者(全血、石蠟切片)及2例細胞系樣本的檢測結果表
盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。