本發(fā)明屬于模型預(yù)測領(lǐng)域,尤其是一種早期識(shí)別高危孕婦胎盤植入性疾病發(fā)生風(fēng)險(xiǎn)的分類器及其訓(xùn)練系統(tǒng)。
背景技術(shù):
1、胎盤植入性疾病(placenta?accreta?spectrum,pas)是產(chǎn)科危急重癥的主要病因之一,而其產(chǎn)前診斷存在發(fā)現(xiàn)晚、漏診多等局限性,尤其對(duì)基層醫(yī)院造成巨大挑戰(zhàn)。研究表明,臨床仍有2/3的pas被漏診。產(chǎn)前未能識(shí)別pas,是造成產(chǎn)時(shí)產(chǎn)后大出血、輸血、緊急介入操作、子宮切除的危險(xiǎn)因素。因此,pas的早期精準(zhǔn)預(yù)測,有助于高危孕婦進(jìn)行生育意愿選擇、高危轉(zhuǎn)診、實(shí)現(xiàn)多學(xué)科聯(lián)合會(huì)診,降低孕產(chǎn)婦及圍產(chǎn)兒的風(fēng)險(xiǎn)。
2、血漿游離dna(cell-free?dna,cfdna)源于凋亡細(xì)胞釋放。cfdna包含核小體足跡,可反應(yīng)cfdna起源組織的基因表達(dá)信息。妊娠時(shí)循環(huán)血中的cfdna約10%來自于胎盤,因此妊娠前期血漿cfdna包含胎盤及蛻膜的基因表達(dá)信息。孕婦早中期cfdna全基因組啟動(dòng)子核小體覆蓋譜可反應(yīng)各來源組織表達(dá)模式,對(duì)胎盤源性疾病尤其pas有極高的預(yù)測價(jià)值。無創(chuàng)產(chǎn)前dna檢測(non-invasive?prenatal?test,nipt)是臨床上常見的產(chǎn)前篩查內(nèi)容,國內(nèi)外各醫(yī)院行nipt依靠不同測序平臺(tái)的全基因組低覆蓋度測序技術(shù),如illumina、life、bgi平臺(tái)等。近年來,基于nipt提取cfdna啟動(dòng)子核小體覆蓋譜除應(yīng)用于胎兒染色體異常篩查外,其在妊娠并發(fā)癥的早期預(yù)測方面也展現(xiàn)出巨大的價(jià)值,如胎兒生長受限、巨大兒、子癇前期等。而在胎盤植入性疾病方面,尚無有效的早期預(yù)測模型。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)實(shí)際需求和現(xiàn)有技術(shù)的不足,本發(fā)明提供一種早期識(shí)別高危孕婦pas發(fā)生風(fēng)險(xiǎn)的分類器及其訓(xùn)練系統(tǒng),以期解決目前尚無方法于孕早中期準(zhǔn)確預(yù)測pas發(fā)生的問題。
2、技術(shù)方案:
3、為達(dá)上述目的,本發(fā)明采用以下技術(shù)方案:
4、第一方面,本發(fā)明提供一種基于血漿cfdna啟動(dòng)子覆蓋率早期識(shí)別高危孕婦pas發(fā)生風(fēng)險(xiǎn)的分類器,所述靶標(biāo)基因組合包括abhd1、alg1l2、eys、fam157c、kdsr、krt5、lancl2、linc00390、linc00964、loc105371998、loc107987394、loc644090、lyzl2、mir184、mir4802、myt1l、ngdn、nsd2、pacrg.as3、sap30l.as1、slc16a12.as1、tada3、tmem147.as1。
5、本發(fā)明利用nipt數(shù)據(jù),在發(fā)生pas的孕婦早中期血漿中發(fā)現(xiàn)cfdna全基因組啟動(dòng)子覆蓋特征譜,通過機(jī)器學(xué)習(xí)策略(見第二方面)獲得最佳基因組合及各基因的最佳截?cái)嘀?,?xùn)練最優(yōu)分類器,在獨(dú)立的驗(yàn)證數(shù)據(jù)集中預(yù)測效果接收者操作特征曲線(receiveroperating?characteristic?curve,roc)中的曲線下面積(area?under?the?curve,auc)達(dá)到0.85以上,表現(xiàn)出作為pas高危孕婦篩查手段的良好潛質(zhì)。
6、評(píng)估高危孕婦胎盤植入性疾病發(fā)生風(fēng)險(xiǎn)的方法,包括:
7、數(shù)據(jù)采集與預(yù)處理:收集高危孕婦nipt時(shí)的低覆蓋度全基因組測序數(shù)據(jù),并進(jìn)行必要的預(yù)處理,以確保數(shù)據(jù)質(zhì)量。
8、啟動(dòng)子區(qū)域識(shí)別與覆蓋率提取:利用bwa-mem、samtools、bedtools軟件及序列比對(duì)算法,將nipt數(shù)據(jù)與人類參考基因組hg19進(jìn)行比對(duì)。確定abhd1、alg1l2、eys、fam157c、kdsr、krt5、lancl2、linc00390、linc00964、loc105371998、loc107987394、loc644090、lyzl2、mir184、mir4802、myt1l、ngdn、nsd2、pacrg.as3、sap30l.as1、slc16a12.as1、tada3、tmem147.as1這23個(gè)基因轉(zhuǎn)錄起始位點(diǎn)(transcription?start?site,tss)上下1000bp的啟動(dòng)子區(qū)域ptss,得到23個(gè)基因的ptss區(qū)域原始讀取覆蓋率。
9、特征因子標(biāo)準(zhǔn)化處理:通過類tpm法對(duì)23個(gè)基因的ptss區(qū)域原始讀取覆蓋率進(jìn)行標(biāo)準(zhǔn)化,得到23個(gè)基因的類tpm標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率(tpm-like?normalized?ptsscoverage,npc-tpm)。
10、
11、其中,npc-tpmi表示第i個(gè)基因的ptss區(qū)域的類tpm標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率,qi表示ptss區(qū)域原始讀取覆蓋率,li表示轉(zhuǎn)錄本長度(均為2000),∑j(qj/lj)表示轉(zhuǎn)錄本長度標(biāo)準(zhǔn)化后每個(gè)ptss區(qū)域讀取覆蓋率之和。
12、特征因子離散化處理:將23個(gè)基因的npc-tpm值分別與各基因的最佳截?cái)嘀?由第二方面獲得)進(jìn)行比對(duì),當(dāng)特征因子npc-tpm大于相應(yīng)的最佳截?cái)嘀禃r(shí),設(shè)為1;否則,設(shè)為0。
13、風(fēng)險(xiǎn)評(píng)估:將孕婦的23基因的離散化npc-tpm值輸入分類器,計(jì)算pas的發(fā)生風(fēng)險(xiǎn)。
14、本方法適用于具有至少一項(xiàng)以下pas高危因素的單胎孕婦:①既往子宮手術(shù)史,如剖宮產(chǎn)、子宮肌瘤剝除術(shù)、子宮縱隔切除術(shù)等;②既往宮腔操作史,如宮腔鏡下手術(shù)史、清宮史等;③體外受精-胚胎移植受孕(in?vitro?fertilization-embryo?transfer,ivf-et)。
15、該過程基于nipt數(shù)據(jù)的ptss覆蓋率提取,提供了一種非侵入性的評(píng)估手段。提示上述23個(gè)基因的特定組合和表達(dá)模式,在診斷試劑盒的制作中具有巨大的潛力。在診斷試劑盒的開發(fā)中,通過精確的分子診斷技術(shù)對(duì)這些基因表達(dá)進(jìn)行檢測,可以設(shè)計(jì)為高靈敏度和高特異性的檢測方法,對(duì)pas高危孕婦進(jìn)行精準(zhǔn)的早期預(yù)測,有望成為常規(guī)的臨床檢測項(xiàng)目,為更廣泛的患者群體提供服務(wù)。
16、第二方面,本發(fā)明提供了基于孕早中期血漿cfdna啟動(dòng)子測序?qū)Ω呶T袐Dpas發(fā)生風(fēng)險(xiǎn)的分類器訓(xùn)練系統(tǒng);
17、基于孕早中期血漿cfdna啟動(dòng)子測序?qū)Ω呶T袐Dpas發(fā)生風(fēng)險(xiǎn)的分類器訓(xùn)練方法,包括:
18、數(shù)據(jù)集劃分模塊:提取預(yù)先采集不同測序平臺(tái)行nipt的pas高危孕婦的醫(yī)療數(shù)據(jù),將pas孕婦和未發(fā)生pas孕婦按照年齡、行nipt時(shí)孕周、胎兒性別及高危因素分布匹配,將主平臺(tái)的樣本隨機(jī)劃分為訓(xùn)練數(shù)據(jù)集與內(nèi)部驗(yàn)證數(shù)據(jù)集,余平臺(tái)的樣本作為獨(dú)立的外部驗(yàn)證數(shù)據(jù)集。
19、影響因子提取模塊:將預(yù)先采集的pas高危孕婦的nipt數(shù)據(jù)進(jìn)行cfdna啟動(dòng)子核小體覆蓋譜注解和特征提取。
20、nipt是對(duì)孕婦外周血游離dna進(jìn)行低深度高通量測序。利用精確的序列比對(duì)算法,使用bwa-mem、samtools、bedtools軟件將nipt數(shù)據(jù)與人類參考基因組hg19比對(duì),刪除pcr重復(fù)項(xiàng),確定距轉(zhuǎn)錄起始位點(diǎn)(transcription?start?site,tss)上下1000bp的區(qū)域作為啟動(dòng)子區(qū)域ptss,并計(jì)算ptss區(qū)域的原始讀取覆蓋率。
21、通過類tpm計(jì)算得到每個(gè)基因的類tpm標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率(tpm-likenormalized?ptss?coverage,npc-tpm),以減小測序深度對(duì)數(shù)據(jù)提取與分析的影響。
22、
23、其中,npc-tpmi表示第i個(gè)基因的ptss區(qū)域的類tpm標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率,qi表示ptss區(qū)域原始讀取覆蓋率,li表示轉(zhuǎn)錄本長度(均為2000),∑j(qj/lj)表示某一樣本中轉(zhuǎn)錄本長度標(biāo)準(zhǔn)化后所有基因ptss區(qū)域讀取覆蓋率之和。
24、將所有基因?qū)?yīng)npc-tpm值作為影響因子輸入系統(tǒng)。
25、特征篩選模塊:使用傾向性評(píng)分在訓(xùn)練數(shù)據(jù)集中對(duì)pas重組與未發(fā)生pas的高危孕婦進(jìn)行1:1匹配再納入差異分析,對(duì)各影響因子分別進(jìn)行deseq2、limma-voom及秩和檢驗(yàn)分析。篩選三種差異分析方法算得p值均<0.05或至少兩種方法算得p值<0.05的影響因子作為特征因子。
26、特征因子離散模塊:為了增強(qiáng)分類器對(duì)不同測序平臺(tái)的普適性及臨床實(shí)用性,采取離散化策略:
27、將每個(gè)特征因子的最佳截?cái)嘀翟O(shè)定為在訓(xùn)練數(shù)據(jù)集中敏感性與特異性之和最大的npc-tpm值。當(dāng)特征因子npc-tpm大于相應(yīng)的最佳截?cái)嘀禃r(shí),設(shè)為1;否則,設(shè)為0。
28、模型獲取模塊:將篩選出的特征因子輸入進(jìn)行特征遞歸消除(recursive?featureelimination,rfe)等機(jī)器學(xué)習(xí)特征選擇流程,使用支持向量機(jī)(support?vector?machine,svm)-線性核(linear核)、svm-高斯核函數(shù)(radial?basis?function,rbf)等多種機(jī)器學(xué)習(xí)逐步構(gòu)建pas疾病預(yù)測分類器。
29、將pas孕婦設(shè)為1、非pas的高危孕婦設(shè)為0輸入系統(tǒng)進(jìn)行分類器訓(xùn)練,為提高分類器的靈敏度,將class_weight的參數(shù)值{0:0.1,1:0.3}。
30、獲得待預(yù)測目標(biāo)的疾病風(fēng)險(xiǎn)評(píng)估結(jié)果,應(yīng)用k折-交叉驗(yàn)證(k=10)增加評(píng)估穩(wěn)健性。
31、提取最佳特征因子組合,并輸出最優(yōu)分類器及其評(píng)估結(jié)果。
32、本發(fā)明的有益效果
33、pas是胎盤異常粘附或侵入子宮肌層的一組疾病的總稱。pas患者胎兒娩出后胎盤無法正常剝離,引起胎盤剝離面大量出血,是緊急子宮切除、多器官功能衰竭、彌散性血管內(nèi)凝血、休克等產(chǎn)科危急重癥甚至圍產(chǎn)期死亡的主要病因之一。近年來,隨著剖宮產(chǎn)手術(shù)的增多與宮腔操作、輔助生殖技術(shù)的進(jìn)展,pas的發(fā)病率逐年上升。據(jù)統(tǒng)計(jì),每300至400例妊娠中發(fā)生1例。雖然依據(jù)現(xiàn)有臨床手段于產(chǎn)前診斷的pas病例往往侵入子宮肌層的程度較重,但急診剖宮產(chǎn)率、失血量、輸血量均低于產(chǎn)前未診斷的pas病例。因此,pas的產(chǎn)前識(shí)別與圍產(chǎn)期管理至關(guān)重要。
34、本研究基于23個(gè)基因npc開發(fā)的分類器,以孕婦早中期的非侵入性血液檢測為基礎(chǔ),可有效預(yù)測高危孕婦發(fā)生pas的風(fēng)險(xiǎn),具有重要的臨床應(yīng)用價(jià)值。這一創(chuàng)新方法的推出,有望直接應(yīng)用于臨床實(shí)踐,為pas的早期診斷和治療提供科學(xué)依據(jù)和實(shí)踐指導(dǎo),對(duì)于胎盤植入孕婦臨床轉(zhuǎn)歸的早期預(yù)測、高危孕婦轉(zhuǎn)診、多學(xué)科聯(lián)合會(huì)診、降低孕產(chǎn)婦及圍產(chǎn)兒的風(fēng)險(xiǎn)具有重要的臨床意義。