本發(fā)明屬于模型預(yù)測領(lǐng)域,尤其是一種胎盤植入性疾病早期識(shí)別及嚴(yán)重程度預(yù)測的分類器及其訓(xùn)練系統(tǒng)。
背景技術(shù):
1、胎盤植入性疾病(placenta?accreta?spectrum,pas)分為胎盤粘連(placentaaccreta,pa)、胎盤植入(placenta?increta,pi)和穿透性胎盤植入(placenta?percreta,pp),尤其pi、pp是導(dǎo)致產(chǎn)科危急重癥、孕產(chǎn)婦死亡的主要病因之一。重型pas的產(chǎn)前診斷主要依靠影像學(xué)檢查,現(xiàn)有手段存在諸多局限性,包括:①b超評(píng)估胎盤植入血流有優(yōu)勢,但對(duì)評(píng)估植入深度及廣度有局限;②磁共振成像(magnetic?resonance?imaging,mri)評(píng)估胎盤植入血流不具優(yōu)勢、價(jià)格昂貴且并非所有專科醫(yī)院可以獲取、對(duì)影像醫(yī)生的要求較高;③影像學(xué)檢測診斷時(shí)間窗在妊娠中晚期,明確診斷往往進(jìn)退兩難;④有36%的患者,術(shù)前影像學(xué)診斷和術(shù)中所見結(jié)果不一致。因此,早期識(shí)別重型pas,將pas精準(zhǔn)預(yù)測和診斷時(shí)間窗提前至孕早中期,對(duì)于pi、pp孕婦的高危轉(zhuǎn)診、多學(xué)科聯(lián)合會(huì)診、降低孕產(chǎn)婦及圍產(chǎn)兒的風(fēng)險(xiǎn)具有重要的臨床意義。
2、基于全基因組低覆蓋度測序技術(shù)的無創(chuàng)產(chǎn)前dna檢測(non-invasive?prenataltest,nipt)是臨床上常見的產(chǎn)前篩查內(nèi)容。近年來,nipt除應(yīng)用于胎兒染色體異常篩查外,其在妊娠并發(fā)癥的早期預(yù)測方面已展現(xiàn)出巨大的價(jià)值,如胎兒生長受限、巨大兒、子癇前期等,而尚未應(yīng)用于pas的早期預(yù)測。提取妊娠早期血漿游離dna(cell-free?dna,cfdna)啟動(dòng)子區(qū)域的核小體覆蓋足跡,可反應(yīng)胎盤及蛻膜等起源組織的基因表達(dá)模式,對(duì)胎盤源性疾病尤其pas及其嚴(yán)重程度表現(xiàn)出極高的預(yù)測潛能。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)實(shí)際需求和現(xiàn)有技術(shù)的不足,本發(fā)明提供一種胎盤植入性疾病早期識(shí)別及嚴(yán)重程度預(yù)測的分類器及其訓(xùn)練系統(tǒng),以期解決目前尚無方法于孕早中期準(zhǔn)確預(yù)測pas發(fā)生及嚴(yán)重程度的問題。
2、技術(shù)方案:
3、為達(dá)上述目的,本發(fā)明采用以下技術(shù)方案:
4、第一方面,本發(fā)明提供一種基于血漿cfdna啟動(dòng)子覆蓋率早期識(shí)別高危孕婦pas發(fā)生風(fēng)險(xiǎn)及嚴(yán)重程度的分類器,所述靶標(biāo)基因組合包括mapk10、mir3169、mir12133、zdhhc6、loc644634、loc728739、krt33a、c1galt1c1、mir1263、rbfox2、cep192、linc02330、lpcat3、or7e2p、or4n2。
5、本發(fā)明利用nipt數(shù)據(jù),在發(fā)生pas的孕婦早中期血漿中發(fā)現(xiàn)cfdna全基因組啟動(dòng)子覆蓋特征譜,通過機(jī)器學(xué)習(xí)策略(見第二方面)獲得最佳基因組合及各基因的最佳截?cái)嘀?,?xùn)練分類器,在獨(dú)立的驗(yàn)證數(shù)據(jù)集中預(yù)測效果接收者操作特征曲線(receiver?operatingcharacteristic?curve,roc)中的曲線下面積(area?under?the?curve,auc)達(dá)到0.85以上,表現(xiàn)出作為pas高危孕婦篩查手段的良好潛質(zhì)。
6、評(píng)估高危孕婦胎盤植入性疾病發(fā)生風(fēng)險(xiǎn)及嚴(yán)重程度的方法,包括:
7、數(shù)據(jù)采集與預(yù)處理:收集高危孕婦nipt時(shí)的低覆蓋度全基因組測序數(shù)據(jù),并進(jìn)行必要的預(yù)處理,以確保數(shù)據(jù)質(zhì)量。
8、啟動(dòng)子區(qū)域識(shí)別與覆蓋率提?。豪胋wa-mem、samtools、bedtools軟件及序列比對(duì)算法,將nipt數(shù)據(jù)與人類參考基因組hg19進(jìn)行比對(duì)。確定mapk10、mir3169、mir12133、zdhhc6、loc644634、loc728739、krt33a、c1galt1c1、mir1263、rbfox2、cep192、linc02330、lpcat3、or7e2p、or4n2這15個(gè)基因轉(zhuǎn)錄起始位點(diǎn)(transcription?start?site,tss)上下1000bp的啟動(dòng)子區(qū)域ptss,得到15個(gè)基因的ptss區(qū)域原始讀取覆蓋率。
9、特征因子標(biāo)準(zhǔn)化處理:通過類tpm法對(duì)15個(gè)基因的ptss區(qū)域原始讀取覆蓋率進(jìn)行標(biāo)準(zhǔn)化,得到15個(gè)基因的標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率(normalized?ptss?coverage,npc)。
10、
11、其中,npci表示第i個(gè)基因的ptss區(qū)域的標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率,qi表示ptss區(qū)域原始讀取覆蓋率,li表示轉(zhuǎn)錄本長度(均為2000),∑j(qj/lj)表示某一樣本中轉(zhuǎn)錄本長度標(biāo)準(zhǔn)化后所有基因ptss區(qū)域讀取覆蓋率之和。
12、特征因子離散化處理:將15個(gè)基因的npc值分別與各基因的最佳截?cái)嘀?由第二方面獲得)進(jìn)行比對(duì),當(dāng)特征因子npc大于相應(yīng)的最佳截?cái)嘀禃r(shí),設(shè)為1;否則,設(shè)為0。
13、風(fēng)險(xiǎn)評(píng)估:將孕婦的15基因的離散化npc值輸入分類器,計(jì)算重型或輕型pas的發(fā)生風(fēng)險(xiǎn)。
14、本方法適用于具有至少一項(xiàng)以下pas高危因素的單胎孕婦:①既往子宮手術(shù)史,如剖宮產(chǎn)、子宮肌瘤剝除術(shù)、子宮縱隔切除術(shù)等;②既往宮腔操作史,如宮腔鏡下手術(shù)史、清宮史等;③體外受精-胚胎移植受孕(in?vitro?fertilization-embryo?transfer,ivf-et)。
15、該過程基于nipt數(shù)據(jù)的ptss覆蓋率提取,提供了一種非侵入性的評(píng)估手段。提示上述15個(gè)基因的特定組合和表達(dá)模式,在診斷試劑盒的制作中具有巨大的潛力。在診斷試劑盒的開發(fā)中,通過精確的分子診斷技術(shù)對(duì)這些基因表達(dá)進(jìn)行檢測,可以設(shè)計(jì)為高靈敏度和高特異性的檢測方法,對(duì)pas高危孕婦進(jìn)行精準(zhǔn)的早期識(shí)別和風(fēng)險(xiǎn)預(yù)測,有望成為常規(guī)的臨床檢測項(xiàng)目,為更廣泛的患者群體提供服務(wù)。
16、第二方面,本專利提供了基于孕早中期血漿cfdna啟動(dòng)子測序分層預(yù)測pas的三分類器訓(xùn)練系統(tǒng);
17、基于孕早中期血漿cfdna啟動(dòng)子測序分層預(yù)測pas的三分類器訓(xùn)練系統(tǒng),包括:
18、數(shù)據(jù)集劃分模塊:提取預(yù)先采集不同測序平臺(tái)行nipt的pas高危孕婦的醫(yī)療數(shù)據(jù),將pas孕婦和未發(fā)生pas孕婦按照年齡、行nipt時(shí)孕周、胎兒性別及高危因素分布匹配,將主平臺(tái)的樣本隨機(jī)劃分為訓(xùn)練數(shù)據(jù)集與內(nèi)部驗(yàn)證數(shù)據(jù)集,余平臺(tái)的樣本作為獨(dú)立的外部驗(yàn)證數(shù)據(jù)集。參照figo最新診斷標(biāo)準(zhǔn),由產(chǎn)科專家小組依據(jù)手術(shù)記錄將pas孕婦分為pp、pi、pa。將發(fā)生pp、pi的孕婦定義為重組,將發(fā)生pa的孕婦定義為輕組。
19、影響因子提取模塊:將預(yù)先采集的pas高危孕婦的nipt數(shù)據(jù)進(jìn)行cfdna啟動(dòng)子核小體覆蓋譜注解和特征提取。
20、nipt是對(duì)孕婦外周血游離dna進(jìn)行低深度高通量測序。利用精確的序列比對(duì)算法,使用bwa-mem、samtools、bedtools軟件將nipt數(shù)據(jù)與人類參考基因組hg19比對(duì),刪除pcr重復(fù)項(xiàng),確定距轉(zhuǎn)錄起始位點(diǎn)(transcription?start?site,tss)上下1000bp的區(qū)域作為啟動(dòng)子區(qū)域ptss,并計(jì)算ptss區(qū)域的原始讀取覆蓋率。
21、分別通過類tpm計(jì)算得到每個(gè)基因的標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率(normalized?ptsscoverage,npc),以減小測序深度對(duì)數(shù)據(jù)提取與分析的影響。
22、
23、其中,npci表示第i個(gè)基因的ptss區(qū)域的標(biāo)準(zhǔn)化啟動(dòng)子覆蓋率,qi表示ptss區(qū)域原始讀取覆蓋率,li表示轉(zhuǎn)錄本長度(均為2000),∑j(qj/lj)表示某一樣本中轉(zhuǎn)錄本長度標(biāo)準(zhǔn)化后所有基因ptss區(qū)域讀取覆蓋率之和。
24、將所有基因?qū)?yīng)npc作為影響因子分別輸入系統(tǒng)。
25、特征篩選模塊:使用以下策略分別對(duì)影響因子進(jìn)行篩選:
26、使用傾向性評(píng)分在訓(xùn)練數(shù)據(jù)集中分別對(duì)pas重組與未發(fā)生pas的高危孕婦、pas輕組與未發(fā)生pas的高危孕婦進(jìn)行1:1匹配,對(duì)匹配后的三組進(jìn)行分別的兩兩差異分析。對(duì)各影響因子分別進(jìn)行兩組間的deseq2、limma-voom及秩和檢驗(yàn)分析,篩選三種差異分析方法算得p值均<0.05的影響因子作為兩組間特征因子。對(duì)三次比較篩選出的三組特征因子進(jìn)行交集分析,選擇三次比較均篩選到或至少兩次比較篩選到的特征因子作為最佳特征因子,納入下一模塊。
27、特征因子離散模塊:為了增強(qiáng)分類器對(duì)不同測序平臺(tái)的普適性及臨床實(shí)用性,采取離散化策略。將三組中基因npc均值明顯高于或低于另兩組的一組作為該基因特異性組別。最佳截?cái)嘀刀x為特異性組別與其他兩組之間的約登指數(shù)最大時(shí)(即敏感性與特異性之和最大)的npc值。當(dāng)特征因子npc大于相應(yīng)的最佳截?cái)嘀禃r(shí),設(shè)為1;否則,設(shè)為0。
28、模型獲取模塊:將篩選出的特征因子輸入進(jìn)行特征遞歸遞歸消除(recursivefeature?elimination,rfe)等機(jī)器學(xué)習(xí)特征選擇流程,使用svm-高斯核函數(shù)(radialbasis?function,rbf)機(jī)器學(xué)習(xí)逐步構(gòu)建pas疾病預(yù)測分類器。
29、將pas重組孕婦設(shè)為2、pas輕組孕婦設(shè)為1、非pas的高危孕婦設(shè)為0輸入系統(tǒng)分別對(duì)0-(1+2)、1-2進(jìn)行兩個(gè)二分類器訓(xùn)練,為提高分類器的靈敏度,將class_weight的參數(shù)值{0:0.1,1:0.3}。分別提取最佳特征因子組合,并輸出分類器及其評(píng)估結(jié)果。
30、將0-(1+2)、1-2兩個(gè)二分類器的最佳特征因子組合合并,再次輸入特征遞歸消除(recursive?feature?elimination,rfe)等機(jī)器學(xué)習(xí)特征選擇流程,用svm-高斯核函數(shù)(radial?basis?function,rbf)等多種機(jī)器學(xué)習(xí)以構(gòu)建0-1-2三分類的pas疾病預(yù)測分類器。提取最佳特征因子組合,并輸出分類器及其評(píng)估結(jié)果,包括分類器的平均性能及對(duì)pas、各型pas的識(shí)別情況。
31、本發(fā)明的有益效果
32、pas是胎盤異常粘附或侵入子宮肌層的一組疾病的總稱。pas患者胎兒娩出后胎盤無法正常剝離,引起胎盤剝離面大量出血,是緊急子宮切除、多器官功能衰竭、彌散性血管內(nèi)凝血、休克等產(chǎn)科危急重癥甚至圍產(chǎn)期死亡的主要病因之一。近年來,隨著剖宮產(chǎn)手術(shù)的增多與宮腔操作、輔助生殖技術(shù)的進(jìn)展,pas的發(fā)病率逐年上升。據(jù)統(tǒng)計(jì),每300至400例妊娠中發(fā)生1例。雖然依據(jù)現(xiàn)有臨床手段于產(chǎn)前診斷的pas病例往往侵入子宮肌層的程度較重,但急診剖宮產(chǎn)率、失血量、輸血量均低于產(chǎn)前未診斷的pas病例。因此,pas的產(chǎn)前識(shí)別與圍產(chǎn)期管理至關(guān)重要。
33、本研究基于15個(gè)基因npc開發(fā)的分類器,以孕婦早中期的非侵入性血液檢測為基礎(chǔ),可有效分層預(yù)測高危孕婦發(fā)生pas的風(fēng)險(xiǎn),具有重要的臨床應(yīng)用價(jià)值。這一創(chuàng)新方法的推出,有望直接應(yīng)用于臨床實(shí)踐,為pas的早期預(yù)防、臨床治療和健康管理提供一種全新的、安全的預(yù)測手段,對(duì)于識(shí)別孕婦妊娠風(fēng)險(xiǎn)、促進(jìn)母嬰健康和產(chǎn)科危急重癥的源頭防控具有重要的臨床意義。