本發(fā)明涉及分子生物醫(yī)學,特別是涉及一種基于多組學測序的結直腸癌早期篩查方法。
背景技術:
1、結直腸癌是全球范圍內(nèi)常見的惡性腫瘤之一,其發(fā)病率和死亡率均居高不下。據(jù)世界衛(wèi)生組織的數(shù)據(jù),結直腸癌每年導致數(shù)百萬人死亡。由于早期結直腸癌通常缺乏明顯的癥狀,許多患者在確診時已經(jīng)處于晚期階段,這極大地影響了治療的效果。因此,早期發(fā)現(xiàn)并干預結直腸癌對于提高患者的生存率至關重要。
2、傳統(tǒng)的結直腸癌篩查方法主要包括大便隱血試驗和結腸鏡檢查。大便隱血試驗雖然操作簡便,但其靈敏度和特異性相對較低,容易出現(xiàn)漏診或誤診。而結腸鏡檢查雖然準確度較高,但由于其侵入性,患者接受度較低,且成本較高。隨著醫(yī)學影像技術的發(fā)展,如ct結腸成像和磁共振結腸成像,提供了非侵入性的結直腸癌檢測手段。然而,這些技術同樣存在成本高、設備要求高、對患者的輻射暴露等問題。
技術實現(xiàn)思路
1、為了克服現(xiàn)有技術的不足,本發(fā)明的目的是提供一種基于多組學測序的結直腸癌早期篩查方法,通過構建結直腸腫瘤早期篩查模型,實現(xiàn)一種無創(chuàng)、成本效益高的結直腸癌檢測方法,降低測序的經(jīng)濟成本,提升檢測的準確性和敏感度。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、一種基于多組學測序的結直腸癌早期篩查方法,包括:
4、收集待測血漿樣本;
5、對所述待測血漿樣本進行dna甲基化測序,得到待測測序數(shù)據(jù);
6、將所述待測測序數(shù)據(jù)輸入到訓練完成的結直腸腫瘤早期篩查模型中進行分類,得到目標篩查結果。
7、所述結直腸腫瘤早期篩查模型的訓練過程包括:
8、收集結直腸癌患者的結直腸癌組織和鄰近正常組織樣本,對所述結直腸癌組織和所述鄰近正常組織樣本進行基因組dna提取和dna甲基化測序,得到原始測序數(shù)據(jù);
9、對所述原始測序數(shù)據(jù)依次進行質(zhì)量控制和人類參考基因組比對,得到序列對應關系;
10、將所述人類參考基因組劃分為若干個cpg島區(qū)域,并分析每個所述cpg島區(qū)域內(nèi)不同單倍體的甲基化程度,得到參考甲基化數(shù)據(jù);
11、根據(jù)所述序列對應關系,利用所述參考甲基化數(shù)據(jù)和所述原始測序數(shù)據(jù)benjaminiand-hochberg多重檢驗校正后的p值進行甲基化程度差異分析,得到腫瘤特異性區(qū)域;
12、收集結直腸癌患者和健康人的血漿樣本,并對所述血漿樣本進行cfdna提取和甲基化測序,得到血漿cfdna測序數(shù)據(jù);
13、對所述血漿cfdna測序數(shù)據(jù)依次進行質(zhì)量控制和人類參考基因組比對,得到坐標確定測序數(shù)據(jù);
14、統(tǒng)計所述坐標確定測序數(shù)據(jù)在所述腫瘤特異性區(qū)域的甲基化程度,得到甲基化特征集合;
15、獲取所述坐標確定測序數(shù)據(jù)全部讀段數(shù)據(jù)在參考基因組上的坐標,將所述讀段數(shù)據(jù)3'端在所述人類參考基因組上的p個堿基作為第一堿基片段,并計算所述第一堿基片段的占比,得到末端基序特征;
16、將所述讀段數(shù)據(jù)3'端在所述人類參考基因組上游q個堿基和下游q個堿基作為第二堿基片段,并計算所述第二堿基片段的占比,得到斷點基序特征;
17、將所述甲基化特征集合、所述末端基序特征以及所述斷點基序特征合并為初始特征值;
18、將所述初始特征值作為輸入數(shù)據(jù),將患病情況作為輸出結果,對預設計的集成機器學習分類器進行訓練,得到所述結直腸腫瘤早期篩查模型。
19、優(yōu)選地,所述單倍體包括:mm、mhl、chalm、pdr以及entropy中的任意一個或多個。
20、優(yōu)選地,所述p為4到10之間的任一整數(shù);所述q為2到5之間的任一整數(shù)。
21、優(yōu)選地,所述集成機器學習分類器包括:第一層和第二層;所述第一層包括:支持向量機、隨機森林、xgboost以及catboost;所述第二層包括:邏輯回歸網(wǎng)絡。
22、本發(fā)明公開了以下技術效果:
23、本發(fā)明提供了一種基于多組學測序的結直腸癌早期篩查方法,通過構建結直腸腫瘤早期篩查模型,解決了現(xiàn)有技術準確率較低、成本高、存在輻射等缺陷,實現(xiàn)了一種無創(chuàng)、成本效益高的結直腸癌檢測方法。
1.一種基于多組學測序的結直腸癌早期篩查方法,其特征在于,包括:
2.根據(jù)權利要求1所述的一種基于多組學測序的結直腸癌早期篩查方法,其特征在于,所述單倍體包括:mm、mhl、chalm、pdr以及entropy中的任意一個或多個。
3.根據(jù)權利要求1所述的一種基于多組學測序的結直腸癌早期篩查方法,其特征在于,所述p為4到10之間的任一整數(shù);所述q為2到5之間的任一整數(shù)。
4.根據(jù)權利要求1所述的一種基于多組學測序的結直腸癌早期篩查方法,其特征在于,所述集成機器學習分類器包括:第一層和第二層;所述第一層包括:支持向量機、隨機森林、xgboost以及catboost;所述第二層包括:邏輯回歸網(wǎng)絡。