本發(fā)明涉及無創(chuàng)產(chǎn)前檢測領域,更具體地,涉及一種獲取胎兒游離dna濃度的方法。
背景技術:
無創(chuàng)產(chǎn)前基因檢測(nipt)通過采集孕婦外周血,提取其中的胎兒游離dna。利用基因測序技術并結(jié)合生物信息學分析手段,便可準確判斷胎兒是否患有染色體病。當胎兒游離dna比例過低時可能因為胎兒dna量太少而不能被檢測出來染色體是否有異常,所以胎兒游離dna濃度檢測是無創(chuàng)產(chǎn)前基因檢測中至關重要的步驟。
現(xiàn)有成熟的胎兒游離dna濃度檢測技術都是基于y染色體在cfdna中的含量來確定的,由于女胎不存在y染色體,因此這個方法不適用于女胎。也有通過劃分固定區(qū)間來統(tǒng)計母體和胎兒cfdna片段的數(shù)量,以求得胎兒濃度的方法。但是,由于不同樣本、不同胎齡的樣本,它們的cfdna片段長度的分布不是固定不變的,該方法無法動態(tài)獲取準確的統(tǒng)計區(qū)間,得到的結(jié)果的準確度也受到嚴重的影響。
技術實現(xiàn)要素:
本發(fā)明為克服上述現(xiàn)有技術所述的至少一種缺陷,提供一種獲取胎兒游離dna濃度的方法。
為解決上述技術問題,本發(fā)明的技術方案如下:
一種獲取胎兒游離dna濃度的方法,包括以下步驟:
s1:獲取母血游離dna(cfdna),并統(tǒng)計游離dna片段長度;
s2:將統(tǒng)計游離dna片段長度輸入到高斯混合模型,采用擁有k個正態(tài)分布的高斯混合模型,對母體和胎兒的游離dna進行量化,獲取k個波峰和對應的分布范圍,得到胎兒游離dna的濃度;
s3:通過搜索比對正態(tài)分布的期望的大小,從k個正態(tài)分布分布中找出屬于母體和胎兒的分布,得到對應的屬于母體和胎兒的游離dna片段數(shù)量ni,其中i表示1到k中屬于母體和胎兒的編號;
s4:與已知確定的胎兒游離dna濃度進行三維線性擬合,得到三維線性擬合的系數(shù),對測得的胎兒游離dna濃度進行優(yōu)化并輸出結(jié)果。
在一種優(yōu)選的方案中,步驟s2中,所述高斯混合模型表示為:
其中,k為正整數(shù),n(x|μi,σi)為正態(tài)分布,μi表示期望,σi表示方差,樣本x以πi的概率隸屬于正態(tài)分布n(x|μi,σi);
在一種優(yōu)選的方案中,步驟s2中,具體步驟包括:
s21:計算樣本xj發(fā)生的概率p(xj),其中j=1…n,n為正整數(shù),p(xj)的公式為:
其中
s22:則樣本xj存在,第k(k=1,2,…,k)個正態(tài)分布發(fā)生的概率為:
s23:目標函數(shù)為:
更新參數(shù):
s24:返回步驟s21,循環(huán)直到實現(xiàn)最大化結(jié)束。
在一種優(yōu)選的方案中,取k的值為:k=5。
與現(xiàn)有技術相比,本發(fā)明技術方案的有益效果是:本發(fā)明提供一種獲取胎兒游離dna濃度的方法,對母體外周血中的cfdna片段長度的數(shù)據(jù),采用擁有k個正態(tài)分布的高斯混合模型,對母體和胎兒的cfdna進行量化,自動準確的獲取五個波峰和對應的分布范圍,得到胎兒cfdna的濃度,為產(chǎn)前無創(chuàng)檢測(nipt)提供更加合適和可靠的胎兒濃度,具有普適性和準確性。本方法通過動態(tài)確定母體和胎兒cfdna片段長度的分布區(qū)域,對男胎和女胎都有效,并且對于不同胎兒以及胎齡的樣本,能夠自動獲取并識別母體和胎兒cfdna的分布,保證了胎兒濃度的準確度。
附圖說明
圖1為本發(fā)明獲取胎兒游離dna濃度的方法的流程圖。
圖2為本發(fā)明步驟s2的具體流程圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明的技術方案做進一步的說明。
實施例1
如圖1所示,一種獲取胎兒游離dna濃度的方法,包括以下步驟:
s1:獲取母血游離dna(cfdna),并統(tǒng)計游離dna片段長度;
s2:將統(tǒng)計游離dna片段長度輸入到高斯混合模型,采用擁有k個正態(tài)分布的高斯混合模型,對母體和胎兒的游離dna進行量化,獲取k個波峰和對應的分布范圍,得到胎兒游離dna的濃度;
s3:通過搜索比對正態(tài)分布的期望的大小,從k個正態(tài)分布分布中找出屬于母體和胎兒的分布,得到對應的屬于母體和胎兒的游離dna片段數(shù)量ni,其中i表示1到k中屬于母體和胎兒的編號;
s4:與已知確定的胎兒游離dna濃度進行三維線性擬合,得到三維線性擬合的系數(shù),對測得的胎兒游離dna濃度進行優(yōu)化并輸出結(jié)果。
在具體實施過程中,步驟s2中,所述高斯混合模型表示為:
其中,k為正整數(shù),n(x|μi,σi)為正態(tài)分布,μi表示期望,σi表示方差,樣本x以πi的概率隸屬于正態(tài)分布n(x|μi,σi);
如圖2所示,在具體實施過程中,步驟s2中,具體步驟包括:
s21:計算樣本xj發(fā)生的概率p(xj),其中j=1…n,n為正整數(shù),p(xj)的公式為:
其中
s22:則樣本xj存在,第k(k=1,2,…,k)個正態(tài)分布發(fā)生的概率為:
s23:目標函數(shù)為:
更新參數(shù):
s24:返回步驟s21,循環(huán)直到實現(xiàn)最大化結(jié)束。
在具體實施過程中,取k的值為:k=5。
本發(fā)明提供一種獲取胎兒游離dna濃度的方法,對母體外周血中的cfdna片段長度的數(shù)據(jù),采用擁有k個正態(tài)分布的高斯混合模型,對母體和胎兒的cfdna進行量化,自動準確的獲取五個波峰和對應的分布范圍,得到胎兒cfdna的濃度,為產(chǎn)前無創(chuàng)檢測(nipt)提供更加合適和可靠的胎兒濃度,具有普適性和準確性。本方法通過動態(tài)確定母體和胎兒cfdna片段長度的分布區(qū)域,對男胎和女胎都有效,并且對于不同胎兒以及胎齡的樣本,能夠自動獲取并識別母體和胎兒cfdna的分布,保證了胎兒濃度的準確度。
顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應包含在本發(fā)明權利要求的保護范圍之內(nèi)。