欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

SNP標記組合、及構(gòu)建方法和人群生物地理來源推斷的產(chǎn)品

文檔序號:40458150發(fā)布日期:2024-12-27 09:23閱讀:10來源:國知局
SNP標記組合、及構(gòu)建方法和人群生物地理來源推斷的產(chǎn)品

本發(fā)明屬于法醫(yī)學(xué),具體涉及snp標記組合、及構(gòu)建方法和人群生物地理來源推斷的產(chǎn)品。


背景技術(shù):

1、在法醫(yī)學(xué)司法實踐中,所有工作都圍繞著個人識別、親子鑒定及溯源工作開展。但在實際的法醫(yī)工作中,案發(fā)現(xiàn)場的疑難檢材如:微量檢材、降解檢材等出現(xiàn)率極高,且目前的參考數(shù)據(jù)庫納入的數(shù)據(jù)范圍有限,應(yīng)用傳統(tǒng)的str分型體系不能滿足工作中的全部需求。因此二等位基因遺傳標記中的單核苷酸多態(tài)性逐漸出現(xiàn)在研究或者實戰(zhàn)的前沿陣地。單核苷酸多態(tài)性(single?nucleotide?polymorphism,snp)是指基因組中特定部位單個堿基序列發(fā)生變化而引起的dna序列多態(tài)性。snps廣泛存在于人類基因組編碼區(qū)和非編碼區(qū),多態(tài)性較str更高,突變率較str低,具有較高的穩(wěn)定性;且具有易于高通量,自動化分型等特性,更適用于高度降解檢材分析。祖先信息遺傳標記(ancestry?informative?marker,aim)分布在整個人類基因組中,在不同的族群中具有顯著的等位基因頻率差異。使用aim集合來重建人群歷史和遺傳關(guān)系引起了法醫(yī)學(xué)領(lǐng)域的關(guān)注。在法醫(yī)學(xué)領(lǐng)域中,學(xué)者們將基于aim遺傳變異信息對案發(fā)現(xiàn)場生物檢材進行精細的遺傳定位,進而預(yù)測其地理祖先來源的技術(shù)稱為法醫(yī)學(xué)祖源推斷(forensic?ancestry?inference)。耶魯大學(xué)kidd教授首先提出此概念,同時篩選出大量的aim并構(gòu)建了覆蓋度高的全球參考數(shù)據(jù)庫。然而,由于缺乏人群參考數(shù)據(jù)和對新開發(fā)或商業(yè)aim集的驗證工作不完整,東亞地區(qū)的亞群體祖先推斷仍處于初級階段。

2、法醫(yī)分析的重要任務(wù)之一就是明確個體的群體起源和人群來源,從而有效地縮小調(diào)查范圍。通過aims確定生物地理祖先有助于識別失蹤人員和大規(guī)模災(zāi)難中的人類遺骸。伴隨著生物信息、二代測序技術(shù)的發(fā)展,法醫(yī)學(xué)特異性snp遺傳標記被大量發(fā)現(xiàn)并廣泛應(yīng)用。雖然早期醫(yī)學(xué)遺傳學(xué)及法醫(yī)遺傳學(xué)領(lǐng)域開展了關(guān)于群體祖源信息推斷的研究工作,但各個不同的研究之間存在著具體目標研究群體的差異、缺乏中國人群高覆蓋度的參照數(shù)據(jù)集等問題。針對詳細的群體遺傳背景,開發(fā)相關(guān)的群體特異性祖源推斷體系,建立高覆蓋度的參照比對數(shù)據(jù)庫后,便可將祖源推斷引用到司法實踐。因此亟需建立更有效的兼具全球分辨率和東亞內(nèi)部群體高區(qū)分度的祖源推斷體系,并建立包含中國遺傳結(jié)構(gòu)顯著差異的中國人群參考數(shù)據(jù)庫。

3、中國地域遼闊,具有高度的語言多樣性、民族多樣性和遺傳多樣性。在語言多樣性方面,中國及周邊地區(qū)有多達10種不同語系:包括中國北部的蒙古語、通古斯語、突厥語、日語和韓語,集體命名為泛歐亞語;在中國的中部地區(qū)分布著人口最廣、人口基數(shù)最大的漢藏語系,包括漢語族和藏緬語族;廣泛分布在中國南部的苗瑤語系、壯侗語系,以及分布在中國東南沿海地區(qū)的南島語系和西南內(nèi)陸地區(qū)的南亞語系。泛亞snp計劃研究發(fā)現(xiàn)東亞地區(qū)的遺傳結(jié)構(gòu)與語言分類、地理分區(qū)對應(yīng)關(guān)系較強,大多數(shù)人群包含多種遺傳成分。早期研究發(fā)現(xiàn),臨近地理位置和相同語系的人群之間遺傳親緣性相對更近,遺傳祖先成分更為相似。

4、因此,利用語系和地理位置對研究群體進行分組,利用不同人群的等位基因頻率差異,通過信息度量值(informativeness?for?assignment,in)等參數(shù),用于評價snp的基因型在區(qū)分不同群體時的有效程度,篩選可以對中國次級大陸人群進行祖源推斷的snp位點,即祖先信息snp(ancestry?informative?snp,aisnp),并進行效能評估和隨機森林模型的構(gòu)建,具有良好的應(yīng)用前景。


技術(shù)實現(xiàn)思路

1、針對上述不足,本發(fā)明提供了snp標記組合、及構(gòu)建方法和人群生物地理來源推斷的產(chǎn)品。本發(fā)明提供的snp標記組合包括至少50個snp位點,所述的snp標記組合在中國北方漢族、南方漢族、苗瑤語系、藏緬語系和壯侗語系人群中具有較高分化,可以基于較少位點對五大人群進行區(qū)分,為試劑盒的制備提供位點信息。同時基于主成分分析和admixture方法進行效能評估,利用隨機森林方法構(gòu)建人工智能模型,該模型不僅可以將五大人群中的樣本進行區(qū)分,還可以對未知個體進行人群的鑒別。本發(fā)明為制備中國五大人群生物地理來源推斷試劑盒提供snp位點,為構(gòu)建人工智能模型提供方法,為法醫(yī)學(xué)以及群體遺傳學(xué)研究提供更有價值的信息。

2、為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:

3、第一方面,本發(fā)明提供了一種snp標記組合,所述的snp標記組合包括表1中所述的snp位點。

4、具體地,所述的snp標記組合包括:snp標記組合1、snp標記組合2、snp標記組合3、snp標記組合4、snp標記組合5或snp標記組合6。

5、優(yōu)選地,所述的snp標記組合1包括表1中序號1-序號50的snp位點。

6、優(yōu)選地,所述的snp標記組合2包括表1中序號1-序號100的snp位點。

7、優(yōu)選地,所述的snp標記組合3包括表1中序號1-序號250的snp位點。

8、優(yōu)選地,所述的snp標記組合4包括表1中序號1-序號500的snp位點。

9、優(yōu)選地,所述的snp標記組合5包括表1中序號1-序號1000的snp位點。

10、優(yōu)選地,所述的snp標記組合6包括表1中序號1-序號2000的snp位點。

11、第二方面,本發(fā)明提供了上述snp標記組合的構(gòu)建方法,所述的構(gòu)建方法包括如下步驟:s1、計算每個子群體的等位基因頻率;s2、計算整體連鎖不平衡值的平方相關(guān)系數(shù)r2;s3、配置文件;s4、運行aim-generator,選擇in值高snp位點進行組合。

12、具體地,所述的步驟s1包括:基于plink軟件,利用如下代碼計算等位基因頻率:plink--bfile?pop--double-id--snps-only--freq--make-bed--keep-allele-order--out?pop。

13、具體地,所述的步驟s2包括:基于plink軟件,利用如下代碼計算整體連鎖不平衡值的平方相關(guān)系數(shù)r2:plink--vcf?5pop.vcf.gz--double-id--snps-only--r2--ld-window-kb?2000--ld-window?99999999--ld-window-r2?0.2--make-bed--out5pop。

14、具體地,步驟s3中所述的配置文件參數(shù)設(shè)置如下:ldthresh=0.2、hetthresh=0.01、distances=1000000、nraims=50/100/250/500/1000/2000。

15、第三方面,本發(fā)明提供了上述的snp標記組合在制備用于推斷人群生物地理來源的模型或試劑盒中的應(yīng)用。

16、第四方面,本發(fā)明提供了一種用于推斷人群生物地理來源的模型,所述的模型包括根據(jù)權(quán)利要求1-2任一項所述的snp標記組合,基于隨機森林方法,構(gòu)建人工智能模型。

17、具體地,所述的隨機森林方法包括:隨機選擇70%的樣本作為訓(xùn)練集,30%的樣本作為測試集,利用主成分分析結(jié)果的pc1-pc10數(shù)據(jù)和admixture最優(yōu)k的q文件作為輸入數(shù)據(jù),應(yīng)用機器學(xué)習(xí)中隨機森林法的五折交叉法構(gòu)建人工智能模型。

18、第五方面,本發(fā)明提供了一種用于推斷人群生物地理來源的試劑盒,所述的試劑盒包括權(quán)利要求1-2任一項所述的snp標記組合的引物或基因芯片。

19、第六方面,本發(fā)明提供了上述snp標記組合、模型、試劑盒在推斷人群生物地理來源中的應(yīng)用。

20、優(yōu)選地,所述的人群包括中國北方漢族、南方漢族、苗瑤語系、藏緬語系和/或壯侗語系人群。

21、本發(fā)明的有益效果為:

22、本發(fā)明提供的snp標記組合包括至少50個snp位點,所述的snp標記組合在中國北方漢族、南方漢族、苗瑤語系、藏緬語系和壯侗語系人群中具有較高分化,可以基于較少位點對五大人群進行區(qū)分,為試劑盒的制備提供位點信息。同時基于主成分分析和admixture方法進行效能評估,利用隨機森林方法構(gòu)建人工智能模型,該模型不僅可以將五大人群中的樣本進行區(qū)分,還可以對未知個體進行人群的鑒別。本發(fā)明為制備中國五大人群生物地理來源推斷試劑盒提供snp位點,為構(gòu)建人工智能模型提供方法,為法醫(yī)學(xué)以及群體遺傳學(xué)研究提供更有價值的信息。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
湟源县| 合川市| 静海县| 区。| 石阡县| 云和县| 开封市| 安乡县| 拉萨市| 郸城县| 额尔古纳市| 阿拉尔市| 厦门市| 乌拉特前旗| 西平县| 瑞丽市| 长乐市| 巨野县| 咸丰县| 张北县| 宜兰市| 甘洛县| 衡东县| 布拖县| 阿克苏市| 稷山县| 延安市| 清水河县| 随州市| 定南县| 上思县| 罗山县| 盱眙县| 塔城市| 凉城县| 福清市| 邳州市| 米林县| 天柱县| 岑溪市| 平顶山市|