本發(fā)明涉及低頻突變檢測(cè)領(lǐng)域,具體涉及一種用于利用循環(huán)腫瘤DNA樣本檢測(cè)體細(xì)胞突變的裝置及方法。
背景技術(shù):
腫瘤細(xì)胞會(huì)向血液中釋放基因組DNA,這些變異DNA也隨之釋放到外周血中,被稱為循環(huán)腫瘤DNA(circulating tumor DNA,ctDNA)。腫瘤細(xì)胞的基因組DNA突變是一種體細(xì)胞突變(SNV)。有文獻(xiàn)報(bào)道稱,癌變?nèi)巳貉獫{中游離100~400bp大小的DNA片段濃度明顯高于正常人,可以作為篩查的標(biāo)志物。又有研究發(fā)現(xiàn),循環(huán)腫瘤DNA在早期原位癌(primary cancer)患者血液中就已經(jīng)開(kāi)始出現(xiàn)。由于外周血循環(huán)DNA半衰期短,因此循環(huán)腫瘤DNA能夠真實(shí)反映患者病變組織基因突變的真實(shí)情況。循環(huán)腫瘤DNA在惡性腫瘤診療中的應(yīng)用越來(lái)越受到關(guān)注和重視,作為研究的熱點(diǎn)和突破口將有可能為臨床腫瘤的早期診斷、預(yù)后判定及療效監(jiān)測(cè)等提供一系列方便、快捷、特異、無(wú)創(chuàng)的分子生物學(xué)檢測(cè)手段。
另一方面,二代測(cè)序的主流平臺(tái)一般均采用邊合成邊測(cè)序(Sequencing By Synthesis,SBS)技術(shù)進(jìn)行核酸測(cè)序。測(cè)序前,需要對(duì)核酸(DNA或RNA)樣本進(jìn)行測(cè)序文庫(kù)的構(gòu)建,基本流程如下:首先將片段化后的DNA進(jìn)行片段的末端修復(fù),之后在修復(fù)后的片段3'端加“A”堿基,然后將上述DNA片段與含有測(cè)序引物結(jié)合位點(diǎn)的DNA接頭(Adapter)連接,最后通過(guò)PCR進(jìn)行擴(kuò)增,完成測(cè)序文庫(kù)構(gòu)建。
但是,血漿中游離DNA含量極微,片段化嚴(yán)重,且循環(huán)腫瘤DNA僅占血漿游離DNA總量的0.02%~50%,如何區(qū)分真正的SNV與二代測(cè)序中發(fā)生的PCR錯(cuò)誤、測(cè)序假陽(yáng)性及比對(duì)不準(zhǔn)確等帶來(lái)的噪音是當(dāng)前面臨的一大難題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題
正如前述,基于現(xiàn)有的平臺(tái),使用循環(huán)腫瘤DNA樣本進(jìn)行SNV預(yù)測(cè)的難點(diǎn)在于將測(cè)序錯(cuò)誤與真實(shí)的SNV進(jìn)行準(zhǔn)確的區(qū)分。
因此,本發(fā)明的目的在于提供一種能夠更準(zhǔn)確地區(qū)分測(cè)序錯(cuò)誤與真實(shí)SNV、從而更準(zhǔn)確地利用循環(huán)腫瘤DNA樣本檢測(cè)SNV的裝置及方法。
本發(fā)明人經(jīng)過(guò)深入研究發(fā)現(xiàn),通過(guò)收集大量的健康人樣本進(jìn)行平行試驗(yàn),能夠確定基因組每一個(gè)位置的錯(cuò)誤率,從而更準(zhǔn)確地區(qū)分測(cè)序錯(cuò)誤與SNV,同時(shí)降低假陽(yáng)性與假陰性。
即,本發(fā)明包括:
一種用于利用循環(huán)腫瘤DNA樣本檢測(cè)體細(xì)胞突變(SNV)的裝置,其包括:
數(shù)據(jù)獲取模塊,用于獲取循環(huán)腫瘤DNA樣本DNA的測(cè)序數(shù)據(jù)及健康人群DNA的測(cè)序數(shù)據(jù),所述測(cè)序數(shù)據(jù)包括所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率、以及與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率;通常,所述循環(huán)腫瘤DNA樣本DNA的測(cè)序數(shù)據(jù)可以來(lái)自對(duì)待測(cè)循環(huán)腫瘤DNA樣本DNA進(jìn)行測(cè)序而獲得的數(shù)據(jù);所述健康人群DNA的測(cè)序數(shù)據(jù)可以來(lái)自已經(jīng)建立的健康人群DNA數(shù)據(jù)庫(kù),或者來(lái)自對(duì)健康人群生物樣本DNA進(jìn)行測(cè)序(測(cè)序方法應(yīng)與針對(duì)所述待測(cè)循環(huán)腫瘤DNA樣本DNA的測(cè)序方法相同,即平行測(cè)序)而獲得的數(shù)據(jù);
突變頻率統(tǒng)計(jì)模塊,其與所述數(shù)據(jù)獲取模塊相連接,用于統(tǒng)計(jì)所述健康人群群體的所述DNA各位點(diǎn)中的每一個(gè)位點(diǎn)的突變頻率分布情況,得到健康人群突變頻率統(tǒng)計(jì)模型;
對(duì)比模塊,其與所述數(shù)據(jù)獲取模塊及所述突變頻率統(tǒng)計(jì)模塊相連接,用于將所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率與所述健康人群突變頻率統(tǒng)計(jì)模型進(jìn)行對(duì)比,獲得對(duì)比結(jié)果;
判定模塊,其與所述對(duì)比模塊相連接,用于判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變是否為真實(shí)的體細(xì)胞突變,獲得判定結(jié)果;其中,當(dāng)所述對(duì)比結(jié)果為無(wú)顯著差異時(shí),判定結(jié)果為非體細(xì)胞突變(包括系統(tǒng)錯(cuò)誤及一部分胚系突變);當(dāng)所述對(duì)比結(jié)果為有顯著差異、且突變頻率小于設(shè)定值時(shí),判定結(jié)果為真實(shí)的體細(xì)胞突變;當(dāng)所述對(duì)比結(jié)果為有顯著差異、且突變頻率大于或等于設(shè)定值時(shí),判定結(jié)果為胚系突變;所述設(shè)定值可以根據(jù)測(cè)序的實(shí)際情況進(jìn)行合理設(shè)定,例如,在測(cè)序深度在100×?xí)r,優(yōu)選的設(shè)定值可以為35%;以及
檢測(cè)結(jié)果輸出模塊,其與所述判定模塊相連接,用于輸出所述判定模塊的所述判定結(jié)果。
優(yōu)選地,所述數(shù)據(jù)獲取模塊包括循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率獲取模塊,該模塊進(jìn)一步包括下述子模塊:
過(guò)濾子模塊,其與所述數(shù)據(jù)獲取模塊相連接,用于對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)檢,過(guò)濾去除低質(zhì)量的測(cè)序數(shù)據(jù);
比對(duì)子模塊,其與所述過(guò)濾子模塊相連接,用于將過(guò)濾后的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段在基因組中對(duì)應(yīng)的位置;
預(yù)處理子模塊,其與所述比對(duì)子模塊相連接,用于去除重復(fù)的測(cè)序片段;以及
統(tǒng)計(jì)子模塊,其與所述預(yù)處理子模塊相連接,用于統(tǒng)計(jì)循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率。
優(yōu)選地,所述統(tǒng)計(jì)子模塊篩選出循環(huán)腫瘤DNA樣本DNA各位點(diǎn)中的可信度值(LOD值)大于設(shè)定值(例如100)的位點(diǎn)并進(jìn)行突變頻率統(tǒng)計(jì)。針對(duì)每一個(gè)樣本的每一個(gè)位點(diǎn)i,i∈{人類基因組},待測(cè)樣本的針對(duì)該位點(diǎn)的檢測(cè)LOD的計(jì)算公式如下:
公式中的各個(gè)部分又是由下列公式獲得:
以下面兩種模式來(lái)描述數(shù)據(jù):
model M0表示在該位點(diǎn)沒(méi)有變異,任何的非參考位點(diǎn)的堿基都被認(rèn)為是測(cè)序噪音;
model表示在該位點(diǎn)有真實(shí)的m突變,并且等位基因頻率為f。
M0就相當(dāng)于是f=0時(shí)的
參考位點(diǎn)為r∈{A,T,C,G},
而對(duì)于每條read i(i=1…d),覆蓋這個(gè)位點(diǎn)的堿基為bi,這個(gè)堿基的錯(cuò)誤概率為ei(此錯(cuò)誤概率由每個(gè)堿基的質(zhì)量值ei獲得,)。
優(yōu)選地,所述數(shù)據(jù)獲取模塊包括與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率獲取模塊,該模塊進(jìn)一步包括下述子模塊:
過(guò)濾子模塊,其與所述數(shù)據(jù)獲取模塊相連接,用于對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)檢,過(guò)濾去除低質(zhì)量的測(cè)序數(shù)據(jù);
比對(duì)子模塊,其與所述過(guò)濾子模塊相連接,用于將過(guò)濾后的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段在基因組中對(duì)應(yīng)的位置;
預(yù)處理子模塊,其與所述比對(duì)子模塊相連接,用于去除重復(fù)的測(cè)序片段;以及
統(tǒng)計(jì)子模塊,其與所述預(yù)處理子模塊相連接,用于統(tǒng)計(jì)與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率。
優(yōu)選地,所述突變頻率統(tǒng)計(jì)模塊包括模型校正子模塊,所述模型校正子模塊用于利用得到的健康人群突變頻率統(tǒng)計(jì)模型,對(duì)與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)進(jìn)行評(píng)估而舍去明顯偏離的位點(diǎn),并統(tǒng)計(jì)余下的各位點(diǎn)中的每一個(gè)位點(diǎn)的突變頻率的分布情況,得到新的健康人群突變頻率統(tǒng)計(jì)模型。
優(yōu)選地,所述判定模塊包括下述子模塊:
突變顯著性判定子模塊,其與所述對(duì)比模塊相連接,用于判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變的顯著性;以及
突變類型判定子模塊,其與所述突變顯著性判定子模塊相連接,用于判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的具有顯著性的突變的類型是體細(xì)胞突變還是胚系突變。
優(yōu)選地,所述突變顯著性判定子模塊判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率是否與健康人群突變頻率統(tǒng)計(jì)模型中對(duì)應(yīng)位點(diǎn)的突變頻率存在顯著差異(例如判據(jù)為正態(tài)分布,P<0.05),有顯著差異則為真實(shí)突變,無(wú)顯著差異則為假陽(yáng)性突變。
優(yōu)選地,檢測(cè)結(jié)果輸出模塊輸出循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的具有顯著性的突變的位置和突變類型。
優(yōu)選地,所述循環(huán)腫瘤DNA樣本是血漿或血清。
此外,本發(fā)明還提供:
一種用于利用循環(huán)腫瘤DNA樣本檢測(cè)體細(xì)胞突變(SNV)的方法,其包括:
數(shù)據(jù)獲取步驟,獲取循環(huán)腫瘤DNA樣本DNA的測(cè)序數(shù)據(jù)及健康人群DNA的測(cè)序數(shù)據(jù),所述測(cè)序數(shù)據(jù)包括所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率、以及與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率;通常,所述循環(huán)腫瘤DNA樣本DNA的測(cè)序數(shù)據(jù)可以來(lái)自對(duì)待測(cè)循環(huán)腫瘤DNA樣本DNA進(jìn)行測(cè)序而獲得的數(shù)據(jù);所述健康人群DNA的測(cè)序數(shù)據(jù)可以來(lái)自已經(jīng)建立的健康人群DNA數(shù)據(jù)庫(kù),或者來(lái)自對(duì)健康人群生物樣本DNA進(jìn)行測(cè)序(測(cè)序方法應(yīng)與針對(duì)所述待測(cè)循環(huán)腫瘤DNA樣本DNA的測(cè)序方法相同,即平行測(cè)序)而獲得的數(shù)據(jù);
突變頻率統(tǒng)計(jì)步驟,統(tǒng)計(jì)所述健康人群群體的所述DNA各位點(diǎn)中的每一個(gè)位點(diǎn)的突變頻率分布情況,得到健康人群突變頻率統(tǒng)計(jì)模型;
對(duì)比步驟,將所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率與所述健康人群突變頻率統(tǒng)計(jì)模型進(jìn)行對(duì)比,獲得對(duì)比結(jié)果;
判定步驟,判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變是否為真實(shí)的體細(xì)胞突變,獲得判定結(jié)果;其中,當(dāng)所述對(duì)比結(jié)果為無(wú)顯著差異時(shí),判定結(jié)果為非體細(xì)胞突變(包括系統(tǒng)錯(cuò)誤及一部分胚系突變);當(dāng)所述對(duì)比結(jié)果為有顯著差異、且突變頻率小于設(shè)定值時(shí),判定結(jié)果為真實(shí)的體細(xì)胞突變;當(dāng)所述對(duì)比結(jié)果為有顯著差異、且突變頻率大于或等于設(shè)定值時(shí),判定結(jié)果為胚系突變;所述設(shè)定值可以根據(jù)測(cè)序的實(shí)際情況進(jìn)行合理設(shè)定,例如,在測(cè)序深度在100×?xí)r,優(yōu)選的設(shè)定值可以為35%;以及
檢測(cè)結(jié)果輸出步驟,輸出所述判定步驟的所述判定結(jié)果。
優(yōu)選地,所述數(shù)據(jù)獲取步驟包括循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率獲取步驟,該步驟進(jìn)一步包括下述子步驟:
過(guò)濾子步驟,對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)檢,過(guò)濾去除低質(zhì)量的測(cè)序數(shù)據(jù);
比對(duì)子步驟,將過(guò)濾后的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段在基因組中對(duì)應(yīng)的位置;
預(yù)處理子步驟,去除重復(fù)的測(cè)序片段;以及
統(tǒng)計(jì)子步驟,統(tǒng)計(jì)循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率。
優(yōu)選地,所述統(tǒng)計(jì)子步驟篩選出循環(huán)腫瘤DNA樣本DNA各位點(diǎn)中的可信度值(LOD值)大于設(shè)定值(例如100)的位點(diǎn)并進(jìn)行突變頻率統(tǒng)計(jì)。針對(duì)每一個(gè)樣本的每一個(gè)位點(diǎn)i,i∈{人類基因組},待測(cè)樣本的針對(duì)該位點(diǎn)的檢測(cè)LOD的計(jì)算公式如下:
公式中的各個(gè)部分又是由下列公式獲得:
以下面兩種模式來(lái)描述數(shù)據(jù):
model M0表示在該位點(diǎn)沒(méi)有變異,任何的非參考位點(diǎn)的堿基都被認(rèn)為是測(cè)序噪音;
model表示在該位點(diǎn)有真實(shí)的m突變,并且等位基因頻率為f。
M0就相當(dāng)于是f=0時(shí)的
參考位點(diǎn)為r∈{A,T,C,G},
而對(duì)于每條read i(i=1…d),覆蓋這個(gè)位點(diǎn)的堿基為bi,這個(gè)堿基的錯(cuò)誤概率為ei(此錯(cuò)誤概率由每個(gè)堿基的質(zhì)量值ei獲得,)。
優(yōu)選地,所述數(shù)據(jù)獲取步驟包括與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率獲取步驟,該步驟進(jìn)一步包括下述子步驟:
過(guò)濾子步驟,對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)檢,過(guò)濾去除低質(zhì)量的測(cè)序數(shù)據(jù);
比對(duì)子步驟,將過(guò)濾后的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段在基因組中對(duì)應(yīng)的位置;
預(yù)處理子步驟,去除重復(fù)的測(cè)序片段;以及
統(tǒng)計(jì)子步驟,統(tǒng)計(jì)與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率。
優(yōu)選地,所述突變頻率統(tǒng)計(jì)步驟包括模型校正子步驟,所述模型校正子步驟用于利用得到的健康人群突變頻率統(tǒng)計(jì)模型,對(duì)與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)進(jìn)行評(píng)估而舍去明顯偏離的位點(diǎn),并統(tǒng)計(jì)余下的各位點(diǎn)中的每一個(gè)位點(diǎn)的突變頻率的分布情況,得到新的健康人群突變頻率統(tǒng)計(jì)模型。
優(yōu)選地,所述判定步驟包括下述子步驟:
突變顯著性判定子步驟,判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變的顯著性;以及
突變類型判定子步驟,判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的具有顯著性的突變的類型是體細(xì)胞突變還是胚系突變。
優(yōu)選地,所述突變顯著性判定子步驟判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率是否與健康人群突變頻率統(tǒng)計(jì)模型中對(duì)應(yīng)位點(diǎn)的突變頻率存在顯著差異(例如判據(jù)為正態(tài)分布,P<0.05),有顯著差異則為真實(shí)突變,無(wú)顯著差異則為假陽(yáng)性突變。
優(yōu)選地,檢測(cè)結(jié)果輸出步驟輸出循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的具有顯著性的突變的位置和突變類型。
優(yōu)選地,所述循環(huán)腫瘤DNA樣本是血漿或血清。
根據(jù)本發(fā)明,能夠更準(zhǔn)確地將系統(tǒng)錯(cuò)誤與真實(shí)的SNV進(jìn)行區(qū)分,不僅提高了靈敏度,而且降低了假陽(yáng)性與假陰性。
附圖說(shuō)明
圖1是本發(fā)明的用于檢測(cè)體細(xì)胞突變的裝置的一例的示意圖。
發(fā)明的具體實(shí)施方式
本說(shuō)明書(shū)中提及的科技術(shù)語(yǔ)具有與本領(lǐng)域技術(shù)人員通常理解的含義相同的含義,如有沖突以本說(shuō)明書(shū)中的定義為準(zhǔn)。
一般而言,本說(shuō)明書(shū)中采用的術(shù)語(yǔ)具有如下含義。
貝塔分布:Beta分布是一個(gè)連續(xù)分布,是描述概率p的分布,取值范圍為0到1。Beta分布有α和β兩個(gè)參數(shù),其中α為成功次數(shù)加1,β為失敗次數(shù)加1。
亞克隆:對(duì)培養(yǎng)的細(xì)胞來(lái)說(shuō),從原有的克隆中,再篩選出具有某種特性的細(xì)胞進(jìn)行培養(yǎng),就是亞克隆。
目標(biāo)序列捕獲測(cè)序:是將感興趣的基因組區(qū)域定制成特異性探針與基因組DNA在序列捕獲芯片(或溶液)進(jìn)行雜交,將目標(biāo)基因組區(qū)域的DNA片段進(jìn)行富集后再利用第二代測(cè)序技術(shù)進(jìn)行測(cè)序的研究策略。
體細(xì)胞突變(SNV):是指除性細(xì)胞外的體細(xì)胞發(fā)生的突變。不會(huì)造成后代的遺傳改變,卻可以引起當(dāng)代某些細(xì)胞的遺傳結(jié)構(gòu)發(fā)生改變。
胚系突變(SNP):遺傳性基因缺陷是通過(guò)卵子或精子傳遞的,所有的胚胎細(xì)胞都含有同樣的遺傳缺陷,這種缺陷存在于生殖細(xì)胞內(nèi),代代相傳。
正鏈:與RNA序列相同的那一個(gè)DNA單鏈;復(fù)制中,正鏈就是與新鏈序列相同的原單鏈,非模板鏈。
實(shí)施例
以下給出實(shí)施例,對(duì)本發(fā)明進(jìn)行更具體的說(shuō)明,但本發(fā)明不限于這些實(shí)施例。
實(shí)施例1 本發(fā)明的用于利用循環(huán)腫瘤DNA樣本檢測(cè)體細(xì)胞突變的裝置
實(shí)施例1的用于利用循環(huán)腫瘤DNA樣本檢測(cè)體細(xì)胞突變的裝置具備:
數(shù)據(jù)獲取模塊,用于獲取循環(huán)腫瘤DNA樣本DNA的測(cè)序數(shù)據(jù)及健康人群DNA的測(cè)序數(shù)據(jù),所述測(cè)序數(shù)據(jù)包括所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率、以及與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率;通常,所述循環(huán)腫瘤DNA樣本DNA的測(cè)序數(shù)據(jù)來(lái)自對(duì)待測(cè)循環(huán)腫瘤DNA樣本DNA進(jìn)行測(cè)序而獲得的數(shù)據(jù),所述健康人群DNA的測(cè)序數(shù)據(jù)來(lái)自已經(jīng)建立的健康人群DNA數(shù)據(jù)庫(kù);
突變頻率統(tǒng)計(jì)模塊,其與所述數(shù)據(jù)獲取模塊相連接,用于統(tǒng)計(jì)所述健康人群群體的所述DNA各位點(diǎn)中的每一個(gè)位點(diǎn)的突變頻率分布情況,得到健康人群突變頻率統(tǒng)計(jì)模型;
對(duì)比模塊,其與所述數(shù)據(jù)獲取模塊及所述突變頻率統(tǒng)計(jì)模塊相連接,用于將所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率與所述健康人群突變頻率統(tǒng)計(jì)模型進(jìn)行對(duì)比,獲得對(duì)比結(jié)果;
判定模塊,其與所述對(duì)比模塊相連接,用于判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變是否為真實(shí)的體細(xì)胞突變,獲得判定結(jié)果;其中,當(dāng)所述對(duì)比結(jié)果為有顯著差異、且突變頻率小于設(shè)定值時(shí),判定結(jié)果為真實(shí)的體細(xì)胞突變;以及
檢測(cè)結(jié)果輸出模塊,其與所述判定模塊相連接,用于輸出所述判定模塊的所述判定結(jié)果。
所述數(shù)據(jù)獲取模塊包括循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率獲取模塊,該模塊進(jìn)一步包括下述子模塊:
過(guò)濾子模塊,其與所述數(shù)據(jù)獲取模塊相連接,用于對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)檢,過(guò)濾去除低質(zhì)量的測(cè)序數(shù)據(jù)(小于Q30),得到clean fastq data;
比對(duì)子模塊,其與所述過(guò)濾子模塊相連接,用于將過(guò)濾后的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段(reads)在基因組中對(duì)應(yīng)的位置;具體而言,用BWA軟件對(duì)clean fastq data進(jìn)行比對(duì)得到sam格式文件,用samtools將sam格式文件轉(zhuǎn)為bam格式(其中包含reads在基因組中對(duì)應(yīng)的位置的信息),節(jié)省內(nèi)存空間;
預(yù)處理子模塊,其與所述比對(duì)子模塊相連接,用于去除重復(fù)的測(cè)序片段;具體而言,預(yù)處理模塊處理所述bam文件,去除重復(fù)的reads,得到unique bam文件;
統(tǒng)計(jì)子模塊,其與所述預(yù)處理子模塊相連接,用于統(tǒng)計(jì)循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率;
具體而言,所述統(tǒng)計(jì)子模塊針對(duì)每一個(gè)樣本的每一個(gè)位點(diǎn)i,i∈{人類基因組},待測(cè)樣本的針對(duì)該位點(diǎn)的檢測(cè)LOD的計(jì)算公式如下:
公式中的各個(gè)部分又是由下列公式獲得:
以下面兩種模式來(lái)描述數(shù)據(jù):
model M0表示在該位點(diǎn)沒(méi)有變異,任何的非參考位點(diǎn)的堿基都被認(rèn)為是測(cè)序噪音;
model表示在該位點(diǎn)有真實(shí)的m突變,并且等位基因頻率為f。
M0就相當(dāng)于是f=0時(shí)的
參考位點(diǎn)為r∈{A,T,C,G},而對(duì)于每條read i(i=1…d)
覆蓋這個(gè)位點(diǎn)的堿基為bi,這個(gè)堿基的錯(cuò)誤概率為ei(此錯(cuò)誤概率由每個(gè)堿基的質(zhì)量值ei獲得,)。最終,篩選LOD>100的位點(diǎn),獲取突變頻率。
所述數(shù)據(jù)獲取模塊還包括與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率獲取模塊,該模塊與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率獲取模塊的區(qū)別在于:其統(tǒng)計(jì)子模塊不篩選LOD值大于設(shè)定值的位點(diǎn),而是獲取所有與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)的突變頻率。
所述突變頻率統(tǒng)計(jì)模塊用于統(tǒng)計(jì)所述健康人群群體的所述DNA各位點(diǎn)中的每一個(gè)位點(diǎn)的突變頻率的分布情況,得到健康人群突變頻率統(tǒng)計(jì)模型。該突變頻率統(tǒng)計(jì)模塊包括模型校正子模塊,所述模型校正子模塊用于利用得到的健康人群突變頻率統(tǒng)計(jì)模型,對(duì)與所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)對(duì)應(yīng)的健康人群中的每個(gè)個(gè)體的DNA各位點(diǎn)進(jìn)行評(píng)估而舍去明顯偏離(正態(tài)分布,P>0.05)的位點(diǎn),并統(tǒng)計(jì)余下的各位點(diǎn)中的每一個(gè)位點(diǎn)的突變頻率的分布情況,直至沒(méi)有明顯偏離的點(diǎn),得到新的健康人群突變頻率統(tǒng)計(jì)模型。
所述判定模塊包括下述子模塊:
突變顯著性判定子模塊,其與所述對(duì)比模塊相連接,用于判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變的顯著性;以及
突變類型判定子模塊,其與所述突變顯著性判定子模塊相連接,用于判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的具有顯著性的突變的類型是體細(xì)胞突變還是胚系突變。
所述突變顯著性判定子模塊判定所述循環(huán)腫瘤DNA樣本DNA各位點(diǎn)的突變頻率是否與健康人群突變頻率統(tǒng)計(jì)模型中對(duì)應(yīng)位點(diǎn)的突變頻率存在顯著差異,例如判據(jù)為正態(tài)分布、P<0.05,有顯著差異則為真實(shí)突變,無(wú)顯著差異則為假陽(yáng)性突變。對(duì)于有顯著差異的真實(shí)突變,當(dāng)突變頻率小于35%時(shí),判定為真實(shí)的體細(xì)胞突變;當(dāng)突變頻率大于或等于35%時(shí),判定為胚系突變。
檢測(cè)結(jié)果輸出模塊輸出的信息包括:真實(shí)突變位置(例如12號(hào)染色體上1444444絕對(duì)位置,參考基因組為HG19)、突變類型(例如體細(xì)胞突變)及突變堿基(例如A->T,R172K),突變頻率(如12.34%),詳情(例如包括基因,轉(zhuǎn)錄本,外顯子,堿基突變情況,氨基酸突變情況等)。
實(shí)施例2
對(duì)一例男性非小細(xì)胞肺癌患者的外周血樣本進(jìn)行體細(xì)胞突變檢測(cè)。
1.1提取外周血樣本的cfDNA
采用MagMAX Cell-Free DNA Isolation Kit試劑盒(Life公司)提取血液cfDNA,得到提取的cfDNA,提取方法參照使用手冊(cè)。
1.2末端修復(fù)(End Repair)
(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個(gè)樣本配制量參見(jiàn)表1。
表1
(2)末端修復(fù)反應(yīng):加入DNA樣本后將1.5mL離心管置于Thermomixer中20℃溫浴30分鐘。反應(yīng)結(jié)束后使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于32μL EB。
1.3末端加“A”(A-Tailing)
(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個(gè)樣本配制量參見(jiàn)表2:
表2
(2)末端加“A”反應(yīng):加入32μL上一步純化回收的DNA后將1.5mL離心管置于Thermomixer中37℃溫浴30分鐘。使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于18μL EB中。
1.4接頭的連接(Adapter Ligation)
(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個(gè)樣本配制量參見(jiàn)表3:
表3
(2)接頭的連接反應(yīng):加入18μL上一步純化回收的DNA后將樣本管置于Thermomixer中20℃溫浴15分鐘。使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于30μL的EB中。
1.5PCR反應(yīng)
(1)從-20℃保存的試劑盒中取出所需試劑,2mL的PCR管中配制PCR反應(yīng)體系:
表4
(2)設(shè)定PCR程序,PCR反應(yīng)的程序設(shè)定如下:
反應(yīng)結(jié)束及時(shí)將樣品取出放入4℃冰箱保存并按要求退出或關(guān)閉儀器。
(3)用0.9×核酸純化磁珠回收純化反應(yīng)體系中的DNA,純化后的文庫(kù)溶于20μL的ddH2O中。對(duì)文庫(kù)進(jìn)行Qubit檢測(cè),將文庫(kù)送檢安捷倫2100。
1.6肺癌目標(biāo)區(qū)域捕獲芯片文庫(kù)雜交
(1)本實(shí)驗(yàn)中,用于提供雜交捕獲反應(yīng)的離子環(huán)境的緩沖液、以及用于洗脫物理吸附或非特異性雜交的清洗液、漂洗液均可從商業(yè)途徑獲得。
(2)準(zhǔn)備雜交文庫(kù):將待雜交的DNA文庫(kù)在冰上融化,取總質(zhì)量1μg(在后續(xù)操作步驟中將此DNA文庫(kù)稱為樣本文庫(kù))。
(3)制備Ann引物Pool:將樣本文庫(kù)Index對(duì)應(yīng)的標(biāo)簽引物In1(100μM)及公共引物(1000μM)各取1000pmol混合,(在后續(xù)操作步驟中將此混合物稱為Ann引物pool)。
(4)雜交樣本的制備:向1.5mL EP管中加入5μL COT DNA(Human Cot-1DNA,Life technologies,1mg/mL)、1μg樣本文庫(kù)、Ann引物pool。用封口膜密封制備好的雜交樣本EP管,將盛有樣本文庫(kù)pool/COT DNA/Ann引物pool的EP管置于真空裝置中直到完全干燥。
(5)雜交樣本的溶液:向樣本文庫(kù)pool/COT DNA/Ann引物pool的干粉中加入:
7.5μL 2×雜交緩沖液
3μL 雜交組分A
(6)充分混勻后將上述混合物置于預(yù)先準(zhǔn)備好的95℃加熱模塊上變性10分鐘。
(7)將上述混合物轉(zhuǎn)移至含有4.5μL捕獲芯片的0.2mL平蓋PCR管中。充分渦旋震蕩3秒,將雜交樣品混合物置于47℃加熱模塊上16小時(shí)。加熱模塊的熱蓋溫度需設(shè)定為57℃,雜交后產(chǎn)物需進(jìn)行后續(xù)洗脫回收操作。
(8)將10×清洗液(Ⅰ,Ⅱ與Ⅲ)、10×漂洗液和2.5×磁珠清洗液配置成1×工作液。
表5
(9)將下列試劑在47℃加熱模塊中預(yù)熱:
400μL 1×漂洗液
100μL 1×清洗液I
1.7制備親和吸附磁珠
(1)將鏈霉親和素磁珠(Dynabeads M-280Streptavidin,以下簡(jiǎn)稱磁珠)在室溫下平衡30分鐘后,將磁珠充分渦旋混勻15秒。
(2)向1.5mL離心管中分裝100μL磁珠,將盛有100μL磁珠的離心管置于磁力架上,約5分鐘后小心吸棄上清,加兩倍于磁珠初始體積的1×磁珠清洗液,渦旋混勻10秒。將盛有磁珠的離心管放回磁力架,吸附磁珠。待溶液澄清,吸棄上清。重復(fù)次步驟,共洗滌兩次。
(3)洗滌完畢后吸棄磁珠清洗液,用磁珠初始體積的1×磁珠清洗液渦旋重懸磁珠轉(zhuǎn)入0.2mL的PCR管中。將PCR管置于磁力架上吸附磁珠澄清后吸棄上清。
1.8DNA與親和吸附磁珠的結(jié)合及漂洗
(1)將雜交的樣本文庫(kù)轉(zhuǎn)入盛有親和吸附磁珠的0.2mL PCR管中,渦旋振蕩混勻。
(2)將0.2mL PCR管置于47℃加熱模塊45分鐘,每隔15分鐘渦旋混勻一次,使DNA與磁珠結(jié)合。
(3)45分鐘孵育后,向15μL捕獲的DNA樣本中加入47℃預(yù)熱的1×清洗液I 100μL。渦旋混勻10秒。將0.2mL PCR管中的全部組分轉(zhuǎn)入1.5mL離心管中。將1.5mL離心管置于磁力架上吸附磁珠,棄上清。
(4)將1.5mL離心管從磁力架上取下,加入200μL預(yù)熱47℃的1×漂洗液。吸打混勻10次(需迅速操作,防止試劑、樣品溫度低于47℃)?;靹蚝髽颖局糜?7℃加熱模塊上5分鐘。重復(fù)此步驟,用47℃的1×漂洗液共洗滌兩次。將1.5mL的離心管置于磁力架上,吸附磁珠,棄上清。
(5)向上述1.5mL離心管中加入200μL室溫的1×清洗液I,渦旋混勻2分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅱ,渦旋混勻1分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅲ,渦旋混勻30秒。將離心管置于磁力架上,吸附磁珠,棄上清。
(6)1.5mL離心管從磁力架上取下,加入45μL PCR水,溶解洗脫磁珠捕獲樣本。
1.9捕獲DNA的PCR擴(kuò)增
(1)按下表制備捕獲后PCR mix,制備好后渦旋震蕩混勻。富集引物F和富集引物R均購(gòu)自英濰捷基公司。
(2)磁珠吸附DNA PCR的擴(kuò)增程序設(shè)定如下:
(3)雜交捕獲DNA PCR產(chǎn)物的回收純化:用核酸純化磁珠回收純化反應(yīng)體系中的DNA,磁珠使用量為0.9×,純化后的文庫(kù)溶于30μL的ddH2O中。
1.10文庫(kù)定量
對(duì)文庫(kù)進(jìn)行2100Bio Analyzer(Agilent)/LabChip GX(Caliper)及QPCR檢測(cè),記錄文庫(kù)濃度。
1.11文庫(kù)上機(jī)測(cè)序
構(gòu)建好的文庫(kù)采用NextSeq 550AR進(jìn)行測(cè)序(PE75)。
1.12數(shù)據(jù)處理及分析
將獲得的測(cè)序數(shù)據(jù)輸入實(shí)施例1的裝置,檢測(cè)體細(xì)胞突變。檢測(cè)結(jié)果如下表所示。
1.13結(jié)果驗(yàn)證
采用數(shù)字PCR方法對(duì)同一患者的剩余cfDNA樣本是否發(fā)生上述體細(xì)胞突變進(jìn)行驗(yàn)證,檢測(cè)結(jié)果表明,EGFR基因發(fā)生exon21:c.2573T>G突變,突變頻率約2.93%驗(yàn)證結(jié)果與1.12檢測(cè)結(jié)果一致。本發(fā)明的檢測(cè)裝置能夠成功檢出循環(huán)腫瘤DNA樣本的體細(xì)胞突變。
工業(yè)實(shí)用性
根據(jù)本發(fā)明,提供了一種能夠更準(zhǔn)確地區(qū)分測(cè)序錯(cuò)誤與真實(shí)SNV、從而更準(zhǔn)確地利用循環(huán)腫瘤DNA樣本檢測(cè)SNV的裝置及方法。