欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于貝葉斯的高通量dna測序數(shù)據(jù)匹配增強(qiáng)方法

文檔序號:6535533閱讀:351來源:國知局
基于貝葉斯的高通量dna測序數(shù)據(jù)匹配增強(qiáng)方法
【專利摘要】本發(fā)明屬于分子生物信息檢測領(lǐng)域,具體涉及一種在已有高通量DNA測序數(shù)據(jù)匹配基礎(chǔ)上,基于貝葉斯技術(shù)進(jìn)一步增加測序數(shù)據(jù)的匹配數(shù)量的基于貝葉斯的高通量DNA測序數(shù)據(jù)匹配增強(qiáng)方法。本發(fā)明包括進(jìn)行高通量DNA測序數(shù)據(jù)的初步匹配;求取高通量DNA測序數(shù)據(jù)錯配先驗(yàn)概率;計算高通量DNA測序數(shù)據(jù)錯配后驗(yàn)概率;評估高通量DNA測序數(shù)據(jù)不成功匹配集中數(shù)據(jù)發(fā)生成功匹配的評估值;提取高通量DNA測序數(shù)據(jù)不成功匹配集中成功匹配數(shù)據(jù)。本發(fā)明利用貝葉斯技術(shù),在原有高通量DNA測序數(shù)據(jù)匹配映射基礎(chǔ)上,通過評估不成功匹配測序數(shù)據(jù)集中數(shù)據(jù)發(fā)生成功匹配的可能,進(jìn)一步增加成功匹配映射的數(shù)據(jù)數(shù)量,以提高測序數(shù)據(jù)的利用效率。
【專利說明】基于貝葉斯的高通量DNA測序數(shù)據(jù)匹配增強(qiáng)方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于分子生物信息檢測領(lǐng)域,具體涉及一種在已有高通量DNA測序數(shù)據(jù)匹配基礎(chǔ)上,基于貝葉斯技術(shù)進(jìn)一步增加測序數(shù)據(jù)的匹配數(shù)量的基于貝葉斯的高通量DNA測序數(shù)據(jù)匹配增強(qiáng)方法。
【背景技術(shù)】
[0002]高通量DNA測序技術(shù)直接對靶核苷酸序列進(jìn)行測序,然后通過測序結(jié)果與參考基因組序列匹配的方式找到靶核苷酸序列在DNA上的出處,從而獲取相關(guān)基因的檢測信息。由于直接對靶核苷酸序列進(jìn)行測序,高通量DNA測序技術(shù)大幅度地提高了基因信息的檢測精度。然而,由于在基因信息檢測過程中存在序列匹配環(huán)節(jié),高通量DNA測序?qū)蛐畔⒌臋z測屬于間接檢測,其序列匹配環(huán)節(jié)直接影響著信息檢測的最終效果。
[0003]此外,有別于傳統(tǒng)基因芯片技術(shù)只能檢測事先設(shè)計好的特定的基因信息,高通量DNA測序技術(shù)有能力一次性地檢測全基因組的基因信息,因此,高通量DNA測序技術(shù)在生物信息檢測領(lǐng)域正得到越來越廣泛的應(yīng)用。然而,為了達(dá)到檢測目的,高通量DNA測序技術(shù)必須產(chǎn)生更高通量的檢測數(shù)據(jù),以保證檢測數(shù)據(jù)有效覆蓋全基因組上的所有信息。此時,對高通量DNA測序技術(shù)而言,所生成的每一條檢測數(shù)據(jù)都非常重要,其序列匹配環(huán)節(jié)的成功率更是與信息檢測效果密切相關(guān)。
[0004]綜上所述,在高通量DNA測序?qū)嶒?yàn)中,如何保證測序數(shù)據(jù)高成功率地匹配映射回其在DNA上的出處至關(guān)重要。
[0005]目前,被大家廣泛使用的高通量DNA測序數(shù)據(jù)序列匹配方法有很多。但不論何種方法,由于個體間差異和測序誤差的存在,都無法將所有的高通量DNA測序數(shù)據(jù)一絲不差地通過與參考基因組序列的匹配而映射回基因組。因此,為了保證序列匹配的成功率,在序列匹配過程中,都允許測量序`列和參考基因組中的參考序列間存在一定數(shù)量的錯配。只有當(dāng)錯配過量出現(xiàn)時,才認(rèn)為測量序列和參考序列不匹配。盡管如此,在每次測序數(shù)據(jù)的匹配過程中,仍有部分?jǐn)?shù)據(jù)因找不到相匹配的參考序列而被放棄,影響了測序數(shù)據(jù)的利用效率。
[0006]實(shí)際上,高通量DNA測序數(shù)據(jù)中測序誤差的發(fā)生是有規(guī)律的,即每個測序讀數(shù)中,越往后的位置,發(fā)生測序錯誤的概率越高;不同測序位置上,發(fā)生不同種類測序錯誤的概率不同。而上述規(guī)律是隨著測序平臺的不同,實(shí)驗(yàn)環(huán)境的不同而變化的。因此,針對特定的測序?qū)嶒?yàn),可以通過估計其特有的測序誤差模式,作為匹配映射的參考并進(jìn)而提高其測序數(shù)據(jù)的匹配映射成功率,以提高測序數(shù)據(jù)的利用效率。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的在于提供一種提高測序數(shù)據(jù)的匹配映射成功率和測序數(shù)據(jù)的利用效率的基于貝葉斯的高通量DNA測序數(shù)據(jù)匹配增強(qiáng)方法。
[0008]本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0009](I)進(jìn)行高通量DNA測序數(shù)據(jù)的初步匹配[0010]利用常規(guī)高通量DNA測序數(shù)據(jù)匹配方法,對測序?qū)嶒?yàn)獲得的高通量DNA測序數(shù)據(jù)進(jìn)行匹配映射,常規(guī)高通量DNA測序數(shù)據(jù)匹配方法將自動依據(jù)匹配結(jié)果中所含錯配個數(shù),將測序數(shù)據(jù)分為成功匹配和不成功匹配兩個數(shù)據(jù)集合,在成功匹配的數(shù)據(jù)集中,進(jìn)一步將含有錯配的數(shù)據(jù)提取出來形成有錯配匹配子集合,其余數(shù)據(jù)為完全匹配子集合;
[0011](2)求取高通量DNA測序數(shù)據(jù)錯配先驗(yàn)概率
[0012]在成功匹配集合的有錯配匹配子集合中,統(tǒng)計分析錯配信息,并計算成功匹配時不同測序位置上不同種類錯配發(fā)生的先驗(yàn)概率P(AU|M),其中,Au表示測序數(shù)據(jù)匹配映射到參考基因組時在第i個位置上發(fā)生的第j種錯配,M為成功匹配;
[0013](3)計算高通量DNA測序數(shù)據(jù)錯配后驗(yàn)概率
[0014]利用成功匹配集合中有錯配匹配子集合數(shù)據(jù)求取得到的高通量DNA測序數(shù)據(jù)錯配先驗(yàn)概率,即可計算測序數(shù)據(jù)存在某種錯配但仍是成功匹配的后驗(yàn)概率P(MlAij):
[0015]P (MI Aij) = P (Aij IM) *P (M) /P (Aij)
[0016]其中,Aij表示測序數(shù)據(jù)匹配映射到參考基因組時在第i個位置上發(fā)生的第j種錯配;M為成功匹配,則P(AijIM)為成功匹配數(shù)據(jù)中,第i個位置上發(fā)生第j種錯配Aij的先驗(yàn)概率,P(MlAij)為第i個位置上發(fā)生第j種錯配Au時仍認(rèn)為其是成功匹配的后驗(yàn)概率,P(M)為全部測序數(shù)據(jù)中成功匹配的概率,P(Aij)為全部測序數(shù)據(jù)中第i個位置上發(fā)生第j種錯配Aij的概率;
[0017](4)評估高通量DNA測序數(shù)據(jù)不成功匹配集中數(shù)據(jù)發(fā)生成功匹配的評估值
【權(quán)利要求】
1.一種基于貝葉斯的高通量DNA測序數(shù)據(jù)匹配增強(qiáng)方法,其特征在于 (1)進(jìn)行高通量DNA測序數(shù)據(jù)的初步匹配 利用常規(guī)高通量DNA測序數(shù)據(jù)匹配方法,對測序?qū)嶒?yàn)獲得的高通量DNA測序數(shù)據(jù)進(jìn)行匹配映射,常規(guī)高通量DNA測序數(shù)據(jù)匹配方法將自動依據(jù)匹配結(jié)果中所含錯配個數(shù),將測序數(shù)據(jù)分為成功匹配和不成功匹配兩個數(shù)據(jù)集合,在成功匹配的數(shù)據(jù)集中,進(jìn)一步將含有錯配的數(shù)據(jù)提取出來形成有錯配匹配子集合,其余數(shù)據(jù)為完全匹配子集合; (2)求取高通量DNA測序數(shù)據(jù)錯配先驗(yàn)概率 在成功匹配集合的有錯配匹配子集合中,統(tǒng)計分析錯配信息,并計算成功匹配時不同測序位置上不同種類錯配發(fā)生的先驗(yàn)概率P(AU|M),其中,Au表示測序數(shù)據(jù)匹配映射到參考基因組時在第i個位置上發(fā)生的第j種錯配,M為成功匹配; (3)計算高通量DNA測序數(shù)據(jù)錯配后驗(yàn)概率 利用成功匹配集合中有錯配匹配子集合數(shù)據(jù)求取得到的高通量DNA測序數(shù)據(jù)錯配先驗(yàn)概率,即可計算測序數(shù)據(jù)存在某種錯配但仍是成功匹配的后驗(yàn)概率P(MlAij):
P(MlAij) = P (Aij I M)*P (M)/P (Aij) 其中,Aij表示測序數(shù)據(jù)匹配映射到參考基因組時在第i個位置上發(fā)生的第j種錯配;M為成功匹配,則P(AijIM)為成功匹配數(shù)據(jù)中,第i個位置上發(fā)生第j種錯配Aij的先驗(yàn)概率,P(MlAij)為第i個位置上發(fā)生第j種錯配Aij時仍認(rèn)為其是成功匹配的后驗(yàn)概率,P(M)為全部測序數(shù)據(jù)中成功匹配的概率,P(Aij)為全部測序數(shù)據(jù)中第i個位置上發(fā)生第j種錯配Aij的概率; (4)評估高通量DNA測序數(shù)據(jù)不成功匹配集中數(shù)據(jù)發(fā)生成功匹配的評估值

【文檔編號】G06F19/20GK103810404SQ201410013068
【公開日】2014年5月21日 申請日期:2014年1月13日 優(yōu)先權(quán)日:2014年1月13日
【發(fā)明者】馮偉興, 賀波, 董彥生, 陳若雷, 王科俊 申請人:哈爾濱工程大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
沈阳市| 安图县| 南郑县| 义马市| 融水| 成都市| 托克逊县| 定日县| 霍邱县| 洞头县| 平遥县| 祥云县| 江城| 商洛市| 沁水县| 曲靖市| 永吉县| 保德县| 遂川县| 凯里市| 西乡县| 买车| 延寿县| 扶余县| 股票| 宝丰县| 汝南县| 淮南市| 辽阳市| 泽州县| 盐池县| 广东省| 瓮安县| 秦皇岛市| 蓬溪县| 镇康县| 萨迦县| 石城县| 尚志市| 平原县| 视频|