本發(fā)明涉及微小殘留病灶智能化檢測,具體而言,涉及一種基于超高深度測序的微小殘留病灶檢測方法及系統(tǒng)。
背景技術(shù):
1、循環(huán)腫瘤dna(ctdna)作為生物標(biāo)志物在實(shí)體瘤微小殘留病灶(mrd)檢測中的重要作用,已經(jīng)被越來越多的臨床隊(duì)列證明。通過液體活檢技術(shù)和生物信息學(xué)方法,檢測并識別ctdna信號,可用于預(yù)測多種實(shí)體瘤根治性治療后的復(fù)發(fā)風(fēng)險(xiǎn)。然而,基于ctdna的mrd檢測在臨床應(yīng)用上仍然存在一系列技術(shù)和生物學(xué)的挑戰(zhàn)。
2、在mrd檢測中,由于血液游離dna有豐富的來源,往往僅有痕量dna是腫瘤來源釋放的,同時(shí),克隆性造血來源的變異、腫瘤異質(zhì)性帶來的亞克隆變異、以及其他未知來源的變異,都會導(dǎo)致真實(shí)的ctdna信號水平低且難以識別,ctdna水平低是造成mrd檢測假陰性的重要因素。另一方面,樣本處理和建庫測序環(huán)節(jié)產(chǎn)生的技術(shù)性噪音,例如文庫制備過程中的dna鏈損傷、雜交捕獲過程中的損傷、pcr擴(kuò)增過程中的擴(kuò)增錯誤、以及測序過程產(chǎn)生的測序錯誤,是造成mrd檢測假陽性的主要因素。
3、當(dāng)前mrd檢測策略包含兩類,一類是tumor-agonostic策略,采用全基因組的方式,不依賴先驗(yàn)的變異圖譜信息,通過甲基化或片段組學(xué)的方式富集信號;另一類是tumor-informed策略,同時(shí)追蹤多個已知腫瘤來源的基因組變異,通過識別對應(yīng)的變異基因型,進(jìn)而判斷ctdna水平。tumor-agonostic的策略,雖然單次檢測的操作環(huán)節(jié)少,但范圍廣且低深度的技術(shù)路線,需要復(fù)雜的生物信息學(xué)算法以及匹配的基線模型,難以泛化腫瘤特異性的信號,特異性存在不足。而tumor-informed策略,雖然增加了腫瘤先驗(yàn)的依賴,但在構(gòu)建好變異圖譜之后,聯(lián)合追蹤個性化的變異,具有非常高的靈敏度和特異性。
4、目前基于腫瘤先驗(yàn)的mrd檢測,根據(jù)技術(shù)路線的不同,抑制背景噪音的方式也有側(cè)重。在群體定制化panel中,主要利用健康群體構(gòu)建的背景基線模型,通過統(tǒng)計(jì)檢驗(yàn)區(qū)分背景噪音;而在個體定制化panel中,主要利用分子標(biāo)簽技術(shù)得到共識堿基,通過自身來源的基因組上下游context三聚體作為背景,如c[a>t]g、c[g>a]g等進(jìn)行分類,評估樣本內(nèi)的背景錯誤率。
5、利用健康人隊(duì)列數(shù)據(jù)建立背景噪音數(shù)據(jù)庫,對于每個檢測到的變異,檢驗(yàn)血漿樣本中的頻率與正常人群背景數(shù)據(jù)庫中的頻率之間的顯著性,以判斷該變異是否可能是腫瘤來源的,從而排除假陽性結(jié)果。這種方式忽略了數(shù)據(jù)樣本間的差異,缺少對技術(shù)性噪音來源的分層分析,批次效應(yīng)導(dǎo)致的偏離噪音無法完全去除。建庫測序環(huán)節(jié)升級也需要較大成本重新建立背景噪音數(shù)據(jù)庫作為基線,耗時(shí)耗力。
6、利用基因組背景context的三聚體,計(jì)算樣本自身特異性的背景噪音錯誤率,結(jié)合檢測位點(diǎn)的深度和支持?jǐn)?shù)劃分閾值,作為位點(diǎn)判定的依據(jù)。此方法對于背景評估過于籠統(tǒng),沒有充分利用數(shù)據(jù),對背景噪音來源層次缺乏分解,難以均衡特異性和靈敏度。此外,背景噪音評估與富集真實(shí)信號的模型相對分離,對血漿中ctdna判定缺乏有效模型,對于ctdna的定量也缺乏有效可解釋的模型。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明的目的是旨在通過分子標(biāo)簽技術(shù)下的超飽和測序,系統(tǒng)性地識別和評估區(qū)分ngs各環(huán)節(jié)中引入的噪音,并對不同水平的背景錯誤進(jìn)行特征提取和統(tǒng)計(jì)建模,同時(shí)建立一套抑制噪音和富集信號的ctdna評估模型,提高mrd檢測的特異性和靈敏度。
2、為了實(shí)現(xiàn)上述技術(shù)目的,本技術(shù)提供了一種基于超高深度測序的微小殘留病灶檢測方法,包括以下步驟:
3、基于測序文庫,按照樣本索引進(jìn)行拆分獲取待測樣本,并根據(jù)待測樣本的分子標(biāo)識符,得到共識序列;
4、基于共識序列,通過過濾掉質(zhì)量值小于25或者family?size小于3的共識序列,聯(lián)合subtype類型和距片段邊緣距離,作為引入原始核酸分子鏈上的噪音水平;聯(lián)合context和鏈特異性,對pcr水平的噪音進(jìn)行評估。
5、基于噪音水平,結(jié)合腫瘤先驗(yàn)知識,估計(jì)ctdna水平,通過檢驗(yàn)分子信號來源的顯著性,從而確定mrd狀態(tài)。
6、優(yōu)選地,在獲取測序文庫的過程中,通過連接接頭的方式向核酸分子添加測序接頭,將接頭-核酸結(jié)合體通過聚合酶鏈反應(yīng)進(jìn)行擴(kuò)增,建立測序文庫,其中,接頭為分子標(biāo)識符。
7、優(yōu)選地,在獲取待測樣本的分子標(biāo)識符的過程中,去除待測樣本的接頭和低質(zhì)量測序讀段,進(jìn)行序列比對后,獲取分子標(biāo)識符。
8、優(yōu)選地,在獲取共識序列的過程中,按照分子標(biāo)識符和比對到參考基因組的位置,將測序讀段進(jìn)行分組,將重復(fù)測序讀段上的堿基序列按投票法,形成共識序列。
9、優(yōu)選地,在評估噪音水平的過程中,將組內(nèi)同時(shí)包含源自正鏈模板和負(fù)鏈模板的測序讀段對,作為第一共識序列duplex;將共識序列只由單側(cè)模板鏈的測序讀段對形成,即只包含正鏈或者負(fù)鏈的測序讀段,作為第二共識序列simplex;
10、根據(jù)第一共識序列duplex和第二共識序列simplex,進(jìn)行噪音水平的評估。
11、優(yōu)選地,在評估噪音水平的過程中,排除高頻(vaf>=1%)的未知變異、已知來源的腫瘤體細(xì)胞變異位點(diǎn)、克隆性造血變異以及胚系變異后,根據(jù)第一共識序列duplex聯(lián)合subtype類型和距片段邊緣距離,對引入原始核酸分子鏈上的噪音水平進(jìn)行評估。第二共識序列simplex聯(lián)合context和鏈特異性,對pcr水平的噪音進(jìn)行評估。
12、優(yōu)選地,在結(jié)合腫瘤先驗(yàn)知識的過程中,在高腫瘤占比(>=20%)的樣本中識別變異,通過配對的白細(xì)胞對照樣本數(shù)據(jù)扣除胚系變異和克隆性造血變異,確定腫瘤來源的體細(xì)胞變異信息;結(jié)合先驗(yàn)樣本的信息,對體細(xì)胞變異進(jìn)行分類聚類和定量排序,分類類別為主客隆和亞克隆,定量指標(biāo)為拷貝數(shù)和變異豐度,將變異根據(jù)豐度高低進(jìn)行過濾和排序,獲得可追蹤變異集合,構(gòu)建用于腫瘤先驗(yàn)的變異圖譜。
13、優(yōu)選地,在獲取可追蹤變異集合的過程中,將單堿基點(diǎn)突變、短片段插入或缺失突變、以及長片段結(jié)構(gòu)突變作為可追蹤變異集合,其中,點(diǎn)突變、短插入缺失的噪音,通過基因組背景context、邊緣距離、鏈變異方向的特征進(jìn)行建模評估;結(jié)構(gòu)變異片段的噪音,通過變異方向、split長度特征進(jìn)行建模評估。
14、優(yōu)選地,在確定mrd狀態(tài)的過程中,基于待測樣本的深度信息,根據(jù)用于評估第一噪音和評估第二噪音的評估模型,通過計(jì)算多個變異下支持分子數(shù)目的最大似然概率,估計(jì)ctdna水平,獲取評估不同循環(huán)腫瘤占比的期望分子數(shù)目并計(jì)算概率,通過似然比檢驗(yàn)判定顯著性,從而確定mrd狀態(tài)。
15、本發(fā)明公開了一種基于超高深度測序的微小殘留病灶檢測系統(tǒng),該系統(tǒng)用于實(shí)現(xiàn)上述的一種基于超高深度測序的微小殘留病灶檢測方法,該系統(tǒng),包括:
16、數(shù)據(jù)處理單元,用于基于測序文庫,按照樣本索引進(jìn)行拆分獲取待測樣本,并根據(jù)待測樣本的分子標(biāo)識符,得到共識序列;
17、噪音水平評估單元,用于基于共識序列,通過過濾掉質(zhì)量值小于25或者familysize小于3的共識序列,聯(lián)合subtype類型和距片段邊緣距離,作為引入原始核酸分子鏈上的噪音水平;
18、檢測單元,用于基于噪音水平,結(jié)合腫瘤先驗(yàn)知識,估計(jì)ctdna水平,通過檢驗(yàn)分子信號來源的顯著性,從而確定mrd狀態(tài)。
19、本發(fā)明公開了以下技術(shù)效果:
20、本發(fā)明能夠區(qū)分ngs檢測過程中的噪音來源,并且評估不同環(huán)節(jié)引入噪音的特征以及水平,同時(shí)還能用于橫向比較不同實(shí)驗(yàn)環(huán)節(jié)引入的噪音高低,例如,duplex水平噪音能反映cfdna樣本鋸齒狀末端的程度和損傷程度,simplex?水平噪音能反映樣本pcr擴(kuò)增和捕獲過程中的帶來的噪音水平,進(jìn)一步也能用于反應(yīng)建庫擴(kuò)增捕獲過程中試劑的性能。
21、在納入出了腫瘤組織等位基因頻率外的拷貝數(shù)和克隆情況的信息能夠準(zhǔn)確反應(yīng)腫瘤組織的腫瘤占比,結(jié)合分層噪音模型用于分析血漿樣本中信號來源于腫瘤組織的顯著性。