本發(fā)明涉及數(shù)據(jù)處理,特別涉及一種基于機(jī)器學(xué)習(xí)的母源污染去除方法及相關(guān)設(shè)備。
背景技術(shù):
1、胚胎非整倍體率隨著母親年齡增長呈指數(shù)級增加,是自然受孕和體外受精中著床失敗、流產(chǎn)和先天性異常的主要原因。準(zhǔn)確鑒別優(yōu)質(zhì)胚胎是生殖醫(yī)學(xué)領(lǐng)域的熱點問題。著床前胚胎非整倍體遺傳學(xué)檢測(preimplantation?genetic?testing?for?aneuploidies,pgt-a)已成為評估胚胎染色體倍性異常的重要工具。對11項隨機(jī)對照試驗的系統(tǒng)研究顯示,pgt-a能顯著提高高齡孕婦(大于35歲)的妊娠活產(chǎn)率。目前臨床常用的pgt-a技術(shù),包括極體、卵裂球或滋養(yǎng)層細(xì)胞(trophectoderm,te)活檢。以上所有方法,都對胚胎進(jìn)行了有創(chuàng)的操作,在便利性,胚胎潛在不利影響等方面都存在很多弊端。
2、近期的科學(xué)研究將體外培養(yǎng)胚胎的培養(yǎng)液(spent?embryo?culture?media,secm)中細(xì)胞游離dna(cell-free?dna,cfdna)用于非侵入性著床前胚胎非整倍體遺傳學(xué)檢測(noninvasive?preimplantation?genetic?testing?for?aneuploidies,nipgt-a),這為無創(chuàng)評估胚胎質(zhì)量開辟了新的道路。然而,挑戰(zhàn)仍然存在,secm中存在大量母體dna的污染,會導(dǎo)致性別不一致和假陰性結(jié)果。單核苷酸多態(tài)性(single-nucleotide?polymorphism,snp)研究顯示,secm中有嚴(yán)重的母體dna污染(86-94%);全基因組dna甲基化測序,準(zhǔn)確鑒識別了培養(yǎng)液中cfdna來自囊胚、母源細(xì)胞和極體細(xì)胞。存在嚴(yán)重的母源污染(>60%)的secm樣本占比總樣本的三分之一。隨著母源污染的增加,性別不一致率和假陰性率隨之升高。一旦母源污染超過60%,根據(jù)secm推斷的胚胎染色體倍性是不準(zhǔn)確的。嚴(yán)重的母源污染會極大挑戰(zhàn)secm染色體倍性檢測的可靠性,所以這凸顯了在nipgt中去除母源污染的必要性和重要性。
3、目前,評估母源污染水平的方法主要是使用dna的甲基化標(biāo)記檢測。然而這種方法只能估計出母源污染水平而不能同時去除母源污染?,F(xiàn)階段,降低母源污染水平的措施主要集中在樣本收集流程的優(yōu)化。例如,改變secm收集時間、調(diào)整胚胎沖洗方案、培養(yǎng)基更新和殘留母源細(xì)胞的剝離。延長培養(yǎng)時間會增加培養(yǎng)基中cfdna量。培養(yǎng)到第6/7天的胚胎secm比培養(yǎng)到第5天的胚胎secm表現(xiàn)出更多的信息和更高的一致性。與一步胚胎沖洗方案相比,序貫沖洗方法表現(xiàn)出明顯優(yōu)越的效果。在第4天更換胚胎培養(yǎng)基,增加了nipgt與te活檢的一致性。此外,在第3天再次剝離殘留的顆粒細(xì)胞,提高了nipgt中cfdna檢測的精度。然而,這些方法在去除母源污染的效果有限,而且需要額外繁雜的實驗步驟,這增加了體外受精實驗室人員的工作量,并且將其大規(guī)模推廣存在挑戰(zhàn)。
4、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實現(xiàn)思路
1、本申請的目的在于提供一種基于機(jī)器學(xué)習(xí)的母源污染去除方法及相關(guān)設(shè)備,至少在一定程度上克服現(xiàn)有技術(shù)存在的問題,通過單細(xì)胞全基因組甲基化測序分析體外培養(yǎng)胚胎的游離dna,利用深度學(xué)習(xí)模型訓(xùn)練判別讀段的胚胎或母源來源,估計母源污染比例,并去除高污染讀段,以準(zhǔn)確檢測胚胎的染色體倍性,減少假陰性結(jié)果。
2、本申請的其他特性和優(yōu)點將通過下面的詳細(xì)描述變得顯然,或部分地通過本發(fā)明的實踐而習(xí)得。
3、根據(jù)本申請的一個方面,提供一種基于機(jī)器學(xué)習(xí)的母源污染去除方法,包括:獲取目標(biāo)用戶數(shù)據(jù)和訓(xùn)練樣本集,其中,所述目標(biāo)用戶數(shù)據(jù)包括目標(biāo)用戶的體外培養(yǎng)胚胎的培養(yǎng)液樣本信息,所述訓(xùn)練樣本集包括其他用戶的體外培養(yǎng)胚胎的培養(yǎng)液樣本信息;對所述訓(xùn)練樣本集進(jìn)行預(yù)處理,生成帶有目標(biāo)特征數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集,其中,所述目標(biāo)特征數(shù)據(jù)為單細(xì)胞全基因組的甲基化測序數(shù)據(jù),甲基化測序數(shù)據(jù)包括讀段信息;獲取與所述目標(biāo)特征數(shù)據(jù)相匹配的初始母源污染預(yù)警模型;基于所述帶有目標(biāo)特征數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集對所述初始母源污染預(yù)警模型進(jìn)行訓(xùn)練,生成目標(biāo)母源污染預(yù)警模型;基于所述目標(biāo)母源污染預(yù)警模型對所述目標(biāo)用戶數(shù)據(jù)進(jìn)行處理,生成目標(biāo)染色體倍體。
4、本申請的另一個方面,一種基于機(jī)器學(xué)習(xí)的母源污染去除裝置,其特征在于,包括:獲取模塊,用于獲取目標(biāo)用戶數(shù)據(jù)和訓(xùn)練樣本集,其中,所述目標(biāo)用戶數(shù)據(jù)包括目標(biāo)用戶的體外培養(yǎng)胚胎的培養(yǎng)液樣本信息,所述訓(xùn)練樣本集包括其他用戶的體外培養(yǎng)胚胎的培養(yǎng)液樣本信息;獲取與所述目標(biāo)特征數(shù)據(jù)相匹配的初始母源污染預(yù)警模型;處理模塊,用于對所述訓(xùn)練樣本集進(jìn)行預(yù)處理,生成帶有目標(biāo)特征數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集,其中,所述目標(biāo)特征數(shù)據(jù)為單細(xì)胞全基因組的甲基化測序數(shù)據(jù),甲基化測序數(shù)據(jù)包括讀段信息;基于所述帶有目標(biāo)特征數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集對所述初始母源污染預(yù)警模型進(jìn)行訓(xùn)練,生成目標(biāo)母源污染預(yù)警模型;基于所述目標(biāo)母源污染預(yù)警模型對所述目標(biāo)用戶數(shù)據(jù)進(jìn)行處理,生成目標(biāo)染色體倍體。
5、根據(jù)本申請的再一個方面,一種電子設(shè)備,其特征在于,包括:第一處理器;以及存儲器,用于存儲所述第一處理器的可執(zhí)行指令;其中,所述第一處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行實現(xiàn)上述的基于機(jī)器學(xué)習(xí)的母源污染去除方法。
6、根據(jù)本申請的又一個方面,提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,所述計算機(jī)程序被第二處理器執(zhí)行時實現(xiàn)上述的基于機(jī)器學(xué)習(xí)的母源污染去除方法。
7、根據(jù)本申請的又一個方面,提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,其特征在于,所述計算機(jī)程序被第三處理器執(zhí)行時實現(xiàn)上述的基于機(jī)器學(xué)習(xí)的母源污染去除方法。
8、本申請所提供的一種基于機(jī)器學(xué)習(xí)的母源污染去除方法及相關(guān)設(shè)備,由服務(wù)器通過對secm(體外培養(yǎng)胚胎的培養(yǎng)液)中cfdna(游離dna)進(jìn)行單細(xì)胞全基因組甲基化建庫測序。之后進(jìn)行一系列數(shù)據(jù)預(yù)處理步驟,包括從原始亞硫酸鹽測序讀段中去除測序適配器、引物、去除低質(zhì)量堿基,將高質(zhì)量讀段比對到參考基因組等。之后構(gòu)建訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)模型來進(jìn)行訓(xùn)練,目的是判別數(shù)據(jù)中每個讀段屬于胚胎或母源的分類概率。訓(xùn)練之后,通過構(gòu)建基于極大似然估計的數(shù)學(xué)模型,從分類概率中估計出樣本的母源污染比例。同時,根據(jù)讀段的分類概率,去除高母源概率的讀段,即母源污染,保留胚胎的cfdna進(jìn)行拷貝數(shù)變異檢測(copy?number?variations,?cnvs)從而恢復(fù)胚胎真實的染色體倍性,去除假陰性的結(jié)果。
9、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種基于機(jī)器學(xué)習(xí)的母源污染去除方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,對所述訓(xùn)練樣本集進(jìn)行預(yù)處理,生成帶有目標(biāo)特征數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集,包括:
3.如權(quán)利要求2所述的方法,其特征在于,基于所述帶有目標(biāo)特征數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集對所述初始母源污染預(yù)警模型進(jìn)行訓(xùn)練,生成目標(biāo)母源污染預(yù)警模型,包括:
4.如權(quán)利要求1所述的方法,其特征在于,基于所述目標(biāo)母源污染預(yù)警模型對所述目標(biāo)用戶數(shù)據(jù)進(jìn)行處理,生成目標(biāo)染色體倍體,包括:
5.如權(quán)利要求4所述的方法,其特征在于,基于所述目標(biāo)母源污染預(yù)警模型對所述目標(biāo)用戶數(shù)據(jù)進(jìn)行處理,生成目標(biāo)染色體倍體,還包括:
6.如權(quán)利要求4所述的方法,其特征在于,基于所述目標(biāo)母源污染預(yù)警模型對所述目標(biāo)用戶數(shù)據(jù)進(jìn)行處理,生成目標(biāo)染色體倍體,還包括:
7.如權(quán)利要求4所述的方法,其特征在于,基于所述目標(biāo)母源污染預(yù)警模型對所述目標(biāo)用戶數(shù)據(jù)進(jìn)行處理,生成目標(biāo)染色體倍體,還包括:
8.一種基于機(jī)器學(xué)習(xí)的母源污染去除裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被第二處理器執(zhí)行時實現(xiàn)權(quán)利要求1~7中任意一項所述的基于機(jī)器學(xué)習(xí)的母源污染去除方法。