欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

診斷結(jié)直腸癌的標(biāo)志物組合、方法、系統(tǒng)及應(yīng)用與流程

文檔序號(hào):40428118發(fā)布日期:2024-12-24 15:01閱讀:22來(lái)源:國(guó)知局
診斷結(jié)直腸癌的標(biāo)志物組合、方法、系統(tǒng)及應(yīng)用與流程

本發(fā)明涉及癌癥標(biāo)志物及應(yīng)用,具體地,涉及一種診斷結(jié)直腸癌的標(biāo)志物組合、方法、系統(tǒng)及應(yīng)用。


背景技術(shù):

1、隨著生物醫(yī)學(xué)研究的發(fā)展,腫瘤液體活檢領(lǐng)域?qū)τ赿na甲基化水平、插入片段大小和末端序列的檢測(cè)需求越來(lái)越迫切。dna甲基化水平是指dna分子上甲基基團(tuán)的添加與去除,它在基因表達(dá)調(diào)控、細(xì)胞分化和疾病發(fā)展等方面起著重要作用。插入片段大小通常是指在二代測(cè)序的文庫(kù)構(gòu)建中利用超聲或者酶切技術(shù)將樣本中的dna分子進(jìn)行打斷獲得的dna片段的大小,末端序列是指dna分子兩端一定長(zhǎng)度的序列。

2、目前,現(xiàn)有的dna甲基化檢測(cè)方法包括wgbs和rrbs等重亞硫酸氫鹽轉(zhuǎn)化后測(cè)序。然而,重亞硫酸氫鹽轉(zhuǎn)化dna有兩個(gè)嚴(yán)重缺點(diǎn),分別是dna損耗極大和破壞dna原有片段結(jié)構(gòu)。導(dǎo)致cfdna重亞硫酸氫鹽轉(zhuǎn)化測(cè)序數(shù)據(jù)無(wú)法檢測(cè)插入片段大小和末端序列,因此,目前插入片段大小分布和末端序列分布,一般使用wgs測(cè)序數(shù)據(jù)進(jìn)行檢測(cè),導(dǎo)致檢測(cè)過(guò)程繁瑣。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案如下:

2、本發(fā)明第一方面提供一種基于甲基化cfdna片段篩選用于診斷癌癥的標(biāo)志物的方法,包括以下步驟:

3、s1,獲得癌癥患者cfdna樣本和正常人cfdna樣本的片段序列信息和甲基化信息,所述甲基化信息包括甲基化位置和甲基化水平;

4、s2,對(duì)步驟s1獲得的片段序列信息和甲基化信息進(jìn)行如下分析得到候選標(biāo)志物水平譜:

5、(1)將人類全基因組按照長(zhǎng)度進(jìn)行劃分得到不同的基因組窗口,統(tǒng)計(jì)比對(duì)到各基因組窗口的甲基化cfdna片段數(shù)目,基于所述甲基化信息獲得基因組窗口甲基化水平譜;

6、(2)基于不同長(zhǎng)度甲基化cfdna片段的數(shù)目,獲得不同步長(zhǎng)片段特征的頻率,得到片段特征頻率譜;

7、(3)獲得甲基化cfdna片段5'端4mer~6mer的末端序列的分布頻率,得到末端序列頻率譜,

8、由此,所述候選標(biāo)志物譜包括基因組窗口甲基化水平譜、片段特征頻率譜和末端序列頻率譜,

9、s3,基于步驟s2得到的候選標(biāo)志物水平譜篩選在癌癥患者和正常人中具有顯著差異的候選標(biāo)志物,即得到用于診斷癌癥的標(biāo)志物,包括基因組窗口、片段特征和末端序列。

10、在本發(fā)明中,cfdna全稱為“cell-free?dna”,即細(xì)胞游離dna,來(lái)源包括但不限于外周血、腦脊液、唾液、胸膜液、腹水、尿液及糞便。

11、在本發(fā)明的一些實(shí)施方案中,所述片段序列信息和甲基化信息是首先采用甲基化富集蛋白富集、免疫沉淀或酶轉(zhuǎn)法的方式獲取待測(cè)樣本的甲基化cfdna片段,進(jìn)一步進(jìn)行測(cè)序獲得的。這種方式在捕獲發(fā)生甲基化的cfdna的同時(shí)可以很好地保留cfdna的片段特征,以便后續(xù)同時(shí)檢測(cè)cfdna甲基化水平、插入片段大小和末端序列。

12、在本發(fā)明的一些實(shí)施方案中,在步驟s1和步驟s2之間,進(jìn)一步包括對(duì)片段信息進(jìn)行預(yù)處理的步驟,所述預(yù)處理包括:

13、(1)去除接頭序列;

14、(2)過(guò)濾超過(guò)40%的堿基的質(zhì)量值低于q15的低質(zhì)量序列;

15、(3)過(guò)濾含n超過(guò)5個(gè)的序列;

16、(4)過(guò)濾序列長(zhǎng)度小于30的序列(序列過(guò)短);

17、(5)裁剪片段末端平均質(zhì)量<q20的4個(gè)堿基。

18、在本發(fā)明的一些實(shí)施方案中,在癌癥患者cfdna樣本和正常人cfdna樣本中均加入甲基化標(biāo)準(zhǔn)品和未甲基化標(biāo)準(zhǔn)品。在本發(fā)明的一些具體實(shí)施方案中,所述甲基化標(biāo)準(zhǔn)品為全甲基化陽(yáng)參λdna;所述未甲基化標(biāo)準(zhǔn)品是指全不甲基化陰參λdna。

19、進(jìn)一步地,使用bowtie2-2.3.4.2軟件將清洗后測(cè)序數(shù)據(jù)的堿基序列分別比對(duì)到人類參考基因組hg19(grch37)和λdna參考基因組生成bam文件,并根據(jù)基因組坐標(biāo)對(duì)bam文件進(jìn)行排序,使用picard?markduplicates-2.18.25-snapshot對(duì)排序后的bam進(jìn)行去重,最后篩選配對(duì)reads均比對(duì)到參考基因組并且mapq>20的讀段。

20、根據(jù)全甲基化陽(yáng)參λdna和全不甲基化陰參λdna的比對(duì)結(jié)果,統(tǒng)計(jì)反應(yīng)特異率。優(yōu)選地,在步驟s1中,選取有效測(cè)序數(shù)據(jù)量大于第一預(yù)設(shè)閾值且反應(yīng)特異率大于第二預(yù)設(shè)閾值的甲基化測(cè)序數(shù)據(jù),其中,所述第一預(yù)設(shè)閾值為4g~9g,所述第二預(yù)設(shè)閾值為0.7~0.9。若沒(méi)有癌癥患者cfdna樣本或沒(méi)有正常人cfdna樣本的甲基化測(cè)序數(shù)據(jù)滿足該要求,則重新進(jìn)行建庫(kù)并測(cè)序,或重新獲得樣本進(jìn)行建庫(kù)并測(cè)序。

21、在本發(fā)明的一些實(shí)施方案中,在步驟s2中,所述基因組窗口甲基化水平譜是基于以下步驟進(jìn)行的:

22、將人類全基因組按照長(zhǎng)度進(jìn)行劃分得到不同的基因組窗口,基于所述甲基化測(cè)序數(shù)據(jù),對(duì)于每個(gè)基因組窗口,統(tǒng)計(jì)該基因組窗口內(nèi)的甲基化cfdna片段數(shù),進(jìn)行標(biāo)準(zhǔn)化得到該基因組窗口內(nèi)的甲基化水平。

23、在本發(fā)明的一些具體實(shí)施方案中,利用以下公式得到標(biāo)準(zhǔn)化的甲基化水平:

24、。

25、其中,所述全部甲基化cfdna片段數(shù)以百萬(wàn)計(jì),所述基因組窗口長(zhǎng)度以kb計(jì)。

26、在本發(fā)明的一些具體實(shí)施方案中,按長(zhǎng)度為300bp進(jìn)行窗口劃分,則可以劃分為10318991個(gè)基因組窗口,本領(lǐng)域技術(shù)人員可以選擇不同長(zhǎng)度進(jìn)行窗口劃分,也可在1~基因組大小范圍內(nèi)進(jìn)行窮舉劃分。

27、在本發(fā)明中,所述“片段特征”又叫“插入片段大小特征”,是指將甲基化cfdna片段按不同長(zhǎng)度(步長(zhǎng))劃分為不同的片段區(qū)間。在本發(fā)明的一些實(shí)施方案中,所述步長(zhǎng)為2bp~10bp。如步長(zhǎng)為2bp,則劃分的片段區(qū)間為61-62bp、63-64bp、……、399-400bp;如步長(zhǎng)3bp,則劃分的片段區(qū)間為61-63bp、64-66bp、……、397-399bp;如步長(zhǎng)10bp,則劃分的片段區(qū)間為61-70bp、71-80bp、……、391-400bp),每個(gè)片段區(qū)間包括的全部甲基化cfdna片段定義為片段特征。例如片段特征為:61-65bp,包括片段長(zhǎng)度為61bp、62bp、63bp、64bp和65bp的甲基化cfdna片段。又例如片段特征為:74-75bp,包括片段長(zhǎng)度為74bp和75bp的甲基化cfdna片段。

28、所述片段特征頻率是指一個(gè)片段特征中的甲基化cfdna片段數(shù)占總甲基化cfdna片段數(shù)的比例。

29、所述末端序列頻率是指一個(gè)擁有相同末端序列的甲基化cfdna片段數(shù)占總甲基化cfdna片段數(shù)的比例。

30、在本發(fā)明中,獲得甲基化cfdna片段5'端末端4mer(如ccgt、agtt等)和6mer(如ccgatc、tcggat等)兩種長(zhǎng)度的末端序列的分布頻率。

31、在本發(fā)明的一些實(shí)施方案中,在步驟s3中,通過(guò)統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法在癌癥患者和正常人中具有顯著差異的候選標(biāo)志物。

32、在本發(fā)明的一些具體實(shí)施方案中,在步驟s3中,所述機(jī)器學(xué)習(xí)方法包括邏輯回歸、決策樹(shù)、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯、k最近鄰和神經(jīng)網(wǎng)絡(luò)。

33、本發(fā)明第二方面提供一種基于甲基化cfdna片段篩選用于診斷癌癥的標(biāo)志物的系統(tǒng),包括:

34、甲基化數(shù)據(jù)輸入模塊,用于接收癌癥患者cfdna樣本和正常人cfdna樣本的片段序列信息和甲基化信息;

35、基因組數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)人基因組數(shù)據(jù);

36、數(shù)據(jù)對(duì)比模塊,分別與所述甲基化數(shù)據(jù)輸入模塊及所述基因組數(shù)據(jù)存儲(chǔ)模塊連接,用于將所述片段信息和所述甲基化信息與所述人基因組數(shù)據(jù)比對(duì);

37、分析模塊,與所述數(shù)據(jù)對(duì)比模塊連接,用于進(jìn)行如下分析得到候選標(biāo)志物水平譜:

38、(1)將人類全基因組按照長(zhǎng)度進(jìn)行劃分得到不同的基因組窗口,統(tǒng)計(jì)比對(duì)到各基因組窗口的甲基化片段的數(shù)目,基于所述甲基化信息獲得基因組窗口甲基化水平譜;

39、(2)基于不同長(zhǎng)度甲基化cfdna片段的數(shù)目,獲得不同步長(zhǎng)片段特征的頻率,得到片段特征頻率譜;

40、(3)獲得甲基化cfdna片段5'端4mer~6mer的末端序列的分布頻率,得到末端序列頻率譜,

41、篩選模塊,與所述分析模塊連接,用于基于所述候選標(biāo)志物水平譜篩選在癌癥患者和正常人中具有顯著差異的候選標(biāo)志物。

42、在本發(fā)明的一些實(shí)施方案中,所述甲基化數(shù)據(jù)輸入模塊還用于對(duì)所述片段序列信息進(jìn)行預(yù)處理,所述預(yù)處理包括:

43、(1)去除接頭序列;

44、(2)過(guò)濾超過(guò)40%的堿基的質(zhì)量值低于q15的低質(zhì)量序列;

45、(3)過(guò)濾含n超過(guò)5個(gè)的序列;

46、(4)過(guò)濾序列長(zhǎng)度小于30的序列(序列過(guò)短);

47、(5)裁剪片段末端平均質(zhì)量<q20的4個(gè)堿基。

48、本發(fā)明第三方面提供一種用于診斷癌癥的標(biāo)志物組合,包括利用本發(fā)明第一方面任一所述的方法或本發(fā)明第二方面任一所述的系統(tǒng)篩選得到的標(biāo)志物。

49、本發(fā)明第四方面提供另一種用于診斷癌癥的標(biāo)志物組合,包括:

50、(1)由chr15:31775701-31776000、chr7:32467501-32467800、chr8:24771301-24771600組成的基因組窗口組合中的至少一個(gè);

51、(2)由165-166bp、163-165bp、167-168bp組成的片段特征組合中的至少一個(gè);和

52、(3)由atgggg、ataggc、atgagg組成的末端序列組合中的至少一個(gè),

53、優(yōu)選地,所述癌癥為結(jié)直腸癌;

54、或者包括:

55、(1)由chr7:32467501-32467800、chr7:32467801-32468100和chr20:21376801-21377100組成的基因組窗口組合中的至少一個(gè);

56、(2)由149-150bp、151-152bp和153-154bp組成的片段特征組合中的至少一個(gè);和

57、(3)由atgagc、atgg、atagcg組成的末端序列組合中的至少一個(gè),

58、優(yōu)選地,所述癌癥為肝癌;

59、或者包括:

60、(1)由chr20:43726801-43727100、chr6:107955901-107956200和chr19:19650901-19651200組成的基因組窗口組合中的至少一個(gè);

61、(2)由279-280bp、277-279bp和280-282bp組成的片段特征組合中的至少一個(gè);和

62、(3)由ctaggg、ttcagc、ataggc組成的末端序列組合中的至少一個(gè),

63、優(yōu)選地,所述癌癥為胰腺癌;

64、或者包括:

65、(1)由chr7:32467501-32467800、chr6:107955901-107956200和chr2:39187201-39187500組成的基因組窗口組合中的至少一個(gè);

66、(2)由163-164bp、165-166bp和156-160bp組成的片段特征組合中的至少一個(gè);和

67、(3)由agggag、agggga、tgaaac組成的末端序列組合中的至少一個(gè),

68、優(yōu)選地,所述癌癥為胃癌;

69、或者包括:

70、(1)由chr3:51740701-51741000、chr9:140128201-140128500和chr17:7670401-7670700組成的基因組窗口組合中的至少一個(gè);

71、(2)由267-268bp、259-260bp和268-270bp組成的片段特征組合中的至少一個(gè);和

72、(3)由gggaac、gggagt、gggaag組成的末端序列組合中的至少一個(gè),

73、優(yōu)選地,所述癌癥為肺癌。

74、本發(fā)明第五方面提供本發(fā)明第三方面或第四方面所述的標(biāo)志物組合的檢測(cè)試劑和/或裝置在制備用于診斷癌癥的試劑盒中的應(yīng)用。

75、本發(fā)明第六方面提供一種計(jì)算機(jī)設(shè)備,包括:

76、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;

77、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的一種基于甲基化cfdna片段篩選用于診斷癌癥的標(biāo)志物的方法的步驟。

78、本發(fā)明第七方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的一種基于甲基化cfdna片段篩選用于診斷癌癥的標(biāo)志物的方法的步驟。

79、本發(fā)明第八方面提供一種用于診斷癌癥的系統(tǒng),包括以下模塊:

80、標(biāo)志物數(shù)據(jù)輸入模塊,用于輸入本發(fā)明第三方面或第四方面所述的標(biāo)志物組合中各標(biāo)志物的水平;

81、癌癥判斷模塊,與所述數(shù)據(jù)輸入模塊連接,用于根據(jù)所述標(biāo)志物組合中各標(biāo)志物的水平判斷受試者是否患有癌癥或者是否具有患癌癥的風(fēng)險(xiǎn)。

82、在本發(fā)明的一些實(shí)施方案中,所述標(biāo)志物組合包括基因組窗口、片段特征和/或末端序列。

83、當(dāng)標(biāo)志物為基因組窗口時(shí),其水平是指甲基化水平,基于比對(duì)到該基因組窗口的甲基化cfdna片段數(shù)目獲得。

84、當(dāng)標(biāo)志物為片段特征時(shí),其水平是指片段特征頻率。

85、當(dāng)標(biāo)志物為末端序列時(shí),其水平是指末端序列頻率。

86、進(jìn)一步地,本發(fā)明人提供了一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序指令,其中當(dāng)該計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí),本發(fā)明上述任一所述方法被運(yùn)行。

87、更進(jìn)一步地,本發(fā)明人提出了一種設(shè)備,該設(shè)備包括:

88、用于存儲(chǔ)計(jì)算機(jī)程序指令的存儲(chǔ)器,和用于執(zhí)行所述計(jì)算機(jī)程序指令的處理器,其中當(dāng)所述計(jì)算機(jī)程序指令被所述處理器執(zhí)行時(shí),該設(shè)備運(yùn)行本發(fā)明上述任一方法。

89、在本發(fā)明中,所述癌癥包括實(shí)體瘤和血癌,如直腸癌、胰腺癌、前列腺癌、鱗狀細(xì)胞癌、基底細(xì)胞癌、腺癌、汗腺癌、皮脂腺癌、乳頭狀癌、乳頭腺癌、囊腺癌、髓樣癌、支氣管癌、肝細(xì)胞癌、膽管癌、絨毛膜癌、腎癌、宮頸癌、睪丸癌、肺癌、黑色素瘤;白血病,如急性淋巴細(xì)胞性白血病和急性成髓細(xì)胞性白血?。ǔ伤杓?xì)胞、前髓細(xì)胞、髓單核細(xì)胞、單核細(xì)胞和紅細(xì)胞白血?。?;慢性白血?。运杓?xì)胞(粒細(xì)胞)白血病和慢性淋巴細(xì)胞性白血病)等。

90、本發(fā)明的有益效果

91、該方法結(jié)合了先進(jìn)的甲基化cfdna測(cè)序技術(shù)和分子生物學(xué)方法,具有高通量、高靈敏度和高準(zhǔn)確性的特點(diǎn)。

92、在本發(fā)明的方法中,首先通過(guò)蛋白富集、免疫沉淀法或酶轉(zhuǎn)法的方式獲取待測(cè)樣本的甲基化cfdna片段,在捕獲發(fā)生甲基化的cfdna片段的同時(shí)可以很好地保留cfdna的片段特征,以便后續(xù)同時(shí)檢測(cè)cfdna甲基化水平、插入片段大小和末端序列。本發(fā)明還提供了相應(yīng)的系統(tǒng),該系統(tǒng)包括甲基化數(shù)據(jù)輸入模塊、基因組數(shù)據(jù)存儲(chǔ)模塊、數(shù)據(jù)對(duì)比模塊、分析模塊及篩選模塊。

93、本發(fā)明的方法和系統(tǒng)能夠同時(shí)檢測(cè)cfdna甲基化水平、片段特征和末端序列,為疾病診斷和治療提供新的生物標(biāo)志物和靶點(diǎn),具有廣泛的應(yīng)用前景。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
施甸县| 汤阴县| 亳州市| 岐山县| 大丰市| 杂多县| 磐石市| 长宁县| 潞城市| 巴南区| 屏东县| 吴忠市| 东兴市| 灵石县| 江达县| 景德镇市| 樟树市| 丹寨县| 许昌县| 毕节市| 永寿县| 石门县| 即墨市| 丰台区| 库尔勒市| 黑山县| 宝应县| 廊坊市| 四子王旗| 商都县| 木兰县| 安仁县| 米脂县| 五台县| 甘南县| 屯门区| 射洪县| 洪泽县| 湘潭县| 尚义县| 成都市|