欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種dna序列比對(duì)中的打分方法

文檔序號(hào):8905401閱讀:1509來源:國知局
一種dna序列比對(duì)中的打分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物信息領(lǐng)域,具體設(shè)及一種DNA序列比對(duì)中的打分方法。
【背景技術(shù)】
[0002] DNA是由A,T,C,G四種堿基鏈接而成的長鏈聚合物,人的DNA序列總共包含30 億對(duì)堿基(3Gbp)。由于高通量測(cè)序平臺(tái)的誤差及個(gè)體和參考序列間存在差異,測(cè)量得到 的短序列與參考序列之間將會(huì)出現(xiàn)完全匹配(perfectmatch),錯(cuò)配(mismatch),插入 (insedion,read序列比參考序列多出部分堿基)和缺失(deletion,read序列中缺少部 分堿基)等各種情況。read序列比對(duì)是給定一段參考序列,read短序列跟參考序列進(jìn)行比 較,觀察參考序列上哪個(gè)片段跟read序列差異最小,給出該片段的位置(參見附圖1中的 示例)。
[0003] 序列比對(duì)在生物信息領(lǐng)域一直扮演著重要的角色,并且隨著新一代測(cè)序技術(shù)的深 入發(fā)展,在生物信息領(lǐng)域起到越來越關(guān)鍵的作用:
[0004] 1、在生物學(xué)方面,序列比對(duì)常常用于同源分析,就是將新序列跟與之同源但不同 物種的序列進(jìn)行比較,得到該序列與其他序列間同源性大小,從而確定新序列的生物屬性。
[0005] 2、在同一個(gè)物種中,序列比對(duì)可W用來將被測(cè)基因組read數(shù)據(jù)比對(duì)到參考基因 組上,從而找到基因組間個(gè)體上的差異,如單核巧酸多態(tài)性(SNP)、拷貝數(shù)變異(CNV)等與 疾病相關(guān)的基因位點(diǎn)。
[0006] 在序列比對(duì)中,為了找到最優(yōu)比對(duì)結(jié)果通常需要借助于得分矩陣,根據(jù)得分矩陣 計(jì)算得到得分最高的比對(duì)結(jié)果被認(rèn)為是最優(yōu)結(jié)果。但是目前得分矩陣的設(shè)計(jì)通常比較簡 單,往往只根據(jù)一個(gè)維度來設(shè)計(jì),失去了對(duì)很多有用信息的利用,使得最后的擬合結(jié)果與真 實(shí)最優(yōu)結(jié)果相去甚遠(yuǎn),或者在找到局部最優(yōu)結(jié)果時(shí)陷入"早熟"的僵局,使得與全局結(jié)果失 之交臂。因此,研究一套采用更多維度信息,使得結(jié)果更趨近于真實(shí)值的打分規(guī)則具有很大 的意義。

【發(fā)明內(nèi)容】

[0007] 為了解決現(xiàn)有技術(shù)中的問題,本發(fā)明提供了一種DNA序列比對(duì)中的打分方法,引 入?yún)⒖夹蛄兄袎A基排列概率的統(tǒng)計(jì),構(gòu)建權(quán)重矩陣,利用權(quán)重矩陣和傳統(tǒng)得分矩陣共同設(shè) 計(jì)得分規(guī)則,利用全局合理性來調(diào)控避免"早熟"現(xiàn)象。
[0008] 本發(fā)明具體通過如下技術(shù)方案實(shí)現(xiàn):
[000引一種DNA序列比對(duì)中的打分方法,其包括W下步驟:
[0010] S101;引入?yún)⒖夹蛄兄袎A基排列概率的統(tǒng)計(jì),構(gòu)建權(quán)重矩陣N';
[0011] S102 ;構(gòu)建比對(duì)堿基得分矩陣M;
[001引 S103 ;設(shè)置打分規(guī)則:設(shè)S=SA. . .Sm和T=t山...tn是兩個(gè)待比對(duì)的序列,通 過在S和T中合適的位置插入空位得到s'和r,使得Is'I=IT'I,令位置i上字符比對(duì) 得分為0 (S' [i],T' [i]),其中R為正數(shù),表示空位,
[0013]
[0014] 其中,m儀[i]r[i])為矩陣M的元素,P'(r[i-l]T' [i])為矩陣N'的元素,則序 列全局得分為:
[0015]
[0016] 進(jìn)一步地,所述方法還包括步驟S104;采用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列比對(duì)得到最優(yōu) 比對(duì)。
[0017] 進(jìn)一步地,所述步驟S102需要考慮兩個(gè)原則,一是匹配得分比失配得分高,二是 轉(zhuǎn)換得分比顛換得分高。
[0018] 本發(fā)明的有益效果是;本發(fā)明提供的DNA序列比對(duì)中的打分方法,引入?yún)⒖夹蛄?中堿基排列概率的統(tǒng)計(jì),構(gòu)建權(quán)重矩陣,利用權(quán)重矩陣和傳統(tǒng)得分矩陣共同設(shè)計(jì)得分規(guī)則, 根據(jù)打分規(guī)則計(jì)算序列全局得分,得到最優(yōu)比對(duì)。本發(fā)明的方法能夠利用全局合理性來調(diào) 控避免"早熟"現(xiàn)象。
【附圖說明】
[0019] 圖1是read序列比對(duì)示意圖;
[0020] 圖2是本發(fā)明的DNA序列比對(duì)中的打分方法流程圖;
[0021] 圖3是矩陣元素B[i,j]來源示意圖;
[0022] 圖4是采用回溯方法來構(gòu)造最優(yōu)比對(duì)的算法程序示意圖; 圖5是構(gòu)造S和T的得分矩陣示意圖。
【具體實(shí)施方式】
[0023] 如附圖2所示,本發(fā)明的針對(duì)生物堿基圖像的降噪方法具體實(shí)現(xiàn)的過程如下:
[0024]S101;構(gòu)建權(quán)重矩陣N'。
[0025] 基因上堿基排列服從一定的規(guī)律,故引入?yún)⒖夹蛄兄袎A基排列概率的統(tǒng)計(jì)對(duì)于序 列比對(duì)具有一定的指導(dǎo)意義。表1為W2個(gè)堿基為例,對(duì)需要比對(duì)的參考序列統(tǒng)計(jì)的堿基 概率矩陣N,也可W根據(jù)需要自行定義需要統(tǒng)計(jì)的堿基排列的長度。
[0026] 表1;雙堿基排列概率矩陣N
[0027]
[0028] 當(dāng)堿基排列的概率越高時(shí),可W認(rèn)為該樣的排列更具合理性,因此產(chǎn)生滿足高概 率堿基排列的替換對(duì)應(yīng)的扣分權(quán)重應(yīng)該越小。為何扣分;在比對(duì)過程中,鼓勵(lì)匹配,不鼓勵(lì) 失配,一般的失配是需要進(jìn)行扣分的,因此對(duì)于失配的得分設(shè)為負(fù)數(shù)。
[0029] 基于W上兩點(diǎn),權(quán)重矩陣N'與概率矩陣N元素排序相反,其中排序相反舉例如 下:
[0030] 表2權(quán)重矩陣N'與概率矩陣N元素值對(duì)照表 [00311
[00礎(chǔ)表3;權(quán)重矩陣N'
[0033]
[0034] S102 ;構(gòu)建比對(duì)堿基得分矩陣M
[00巧]在構(gòu)建比對(duì)堿基得分矩陣時(shí)要考慮兩大原則:
[0036] 1、匹配得分比失配得分高
[0037] 在比對(duì)過程中,會(huì)遇到的無非兩個(gè)情況;1)匹配,2)失配。在鼓勵(lì)匹配的前提下, 在設(shè)置匹配得分時(shí)自然要比失配得分高。一般的,匹配得分設(shè)為正數(shù),失配需要扣分,得分 設(shè)為負(fù)數(shù)。
[003引 2、轉(zhuǎn)換得分比顛換得分高
[0039] 在考量失配得分時(shí),根據(jù)對(duì)生物序列進(jìn)化過程的研究,可W發(fā)現(xiàn)某些替換比其它 替換的發(fā)生概率更高,如在DNA序列中轉(zhuǎn)換發(fā)生的概率要比顛換發(fā)生的概率高,因此在設(shè) 置得分的時(shí)候轉(zhuǎn)換的得分應(yīng)該比顛換的得分高。
[0040] 轉(zhuǎn)換:同類型堿基之間發(fā)生的變換,如喀晚類內(nèi)變換;C(胞喀晚)一T(胸腺喀 晚),和嚷嶺類內(nèi)變換A(腺嚷嶺)一G(鳥嚷嶺)。
[0041] 顛換;和轉(zhuǎn)換相反,指的是不同類型間堿基發(fā)生的變換,如嚷嶺變換為喀晚;A(腺 嚷嶺)一C(胞喀晚),喀晚變換為嚷嶺;T(胸腺喀晚)一G(鳥嚷嶺)。
[0042] 根據(jù)W上兩大原則構(gòu)建比對(duì)堿基得分矩陣M,表示如下:
[0043] 表4;比對(duì)堿基得分矩陣M
[0044]
[0045]其中m(TA) =m(AT),其他組合同理。
[0046] S103 ;設(shè)置打分規(guī)則
[0047] 基于權(quán)重矩陣N'和比對(duì)堿基得分矩陣M,比對(duì)堿基得分矩陣M保證在序列比對(duì)過 程中找到局部最優(yōu)比對(duì),權(quán)重矩陣N'在考慮了全局合理性之下,在一定程度上避免了序列 比對(duì)過程中的"早熟"現(xiàn)象,使最終的比對(duì)結(jié)果更接近真實(shí)比對(duì)結(jié)果,設(shè)置如下打分規(guī)則: [004引設(shè)S=SA. . .Sm和T=tit2. . .t。是兩個(gè)待比對(duì)的序列,通過在S和T中合適的位 置插入空位得到s'和T',使得Is'I=It'I,令位置i上字符比對(duì)得分為0(s' [i],T' [i]), 其中R為正數(shù),'-'表示空位(W下同理)。
[0052] 本具體實(shí)施例將采用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列比對(duì),在過程中運(yùn)用本發(fā)明所制定的 打分方法,來對(duì)本發(fā)明的使用方式做一個(gè)簡單的闡述。
[0053] 假設(shè)有一參考序列R= {AACGTGTCGATGCGTAGCGATGCGATCGG}
[0054] 則雙堿基概率矩陣N如下(為了計(jì)算方便,該里直接用頻數(shù)代替概率):
[00巧]
[0056] 相應(yīng)的權(quán)重矩陣N'設(shè)為:
[0057]
[0058] 根據(jù)構(gòu)建比對(duì)堿基得分矩陣時(shí)要考慮的兩大原則,設(shè)置比對(duì)堿基得分矩陣M如 下:
[0059]
[0060] 因此根據(jù)公式(1),令R=| 6,則有打分規(guī)則如下:I
[0061]
[006引假設(shè)有兩個(gè)帶比對(duì)序列S=SA. . .Sm和T=t山...t。,其中ISI=m,ITI=n;S[l. . .i]和T[l. . .j] (1《i《m,1《j《n)分別表示S和T的由前i個(gè)和前j個(gè)堿基組 成的前綴子序列。
[006引構(gòu)建(m+1)X(n+1)大小的得分矩陣,矩陣中的元素B[i,j] (0《i《m,0《j《n) 記錄了前綴子序列S[l...i]和T[l...j]的最優(yōu)比對(duì)得分。根據(jù)遞歸關(guān)系,B虹,n]是S= SA. . .Sm和T=t山...t。的最優(yōu)比對(duì)得分。設(shè)定計(jì)算得分矩陣元素的初始條件:
[0064] B[0, 0] = 0
[0067] 非空子序列S[l...i]和T[l...j]的最優(yōu)比對(duì)得分B[i,j]有S種來源;l)S[i] 與一個(gè)空位的比對(duì)得分加上子序列和T[l...j]的最優(yōu)比對(duì)得分B[i-1,j]; 2)T[j]與一個(gè)空位的比對(duì)得分加上子序列S[l...i]和T[l...j-1]的最優(yōu)比對(duì)得分 B[i,j-1] ;3)S山和T[j]的比對(duì)得分加上子序列和T[l...j-1]的最優(yōu)比對(duì) 得分j-1]。
[0068] 得到如下遞歸式:
[0069]
[0070] 比如給定S= "GATG"來自于參考序列R,T= "GAG",則根據(jù)權(quán)重矩陣N'、堿基比 對(duì)得分矩陣MW及公式(3) (4)巧),構(gòu)造S和T的得分矩陣如附圖5所示(實(shí)線箭頭代表 B[i,j]的產(chǎn)生方向)。
[0071] 采用回溯方法來構(gòu)造最優(yōu)比對(duì),方法如附圖4所示??蒞得到上表中虛線箭頭所 代表的的最優(yōu)比對(duì)路徑,序列S= "GATG"和T= "GAG"最優(yōu)比對(duì)為:
[0072]
[0073] S:GATG
[0074] T:GA-G
[00巧]W上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說明,不能認(rèn)定 本發(fā)明的具體實(shí)施只局限于該些說明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在 不脫離本發(fā)明構(gòu)思的前提下,還可W做出若干簡單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的 保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種DNA序列比對(duì)中的打分方法,其特征在于:所述打分方法包括以下步驟: 5101 :引入?yún)⒖夹蛄兄袎A基排列概率的統(tǒng)計(jì),構(gòu)造權(quán)重矩陣Ν' ; 5102 :構(gòu)造比對(duì)堿基得分矩陣M ; 5103 :設(shè)置打分規(guī)則:設(shè)S = S1S2. . . sj T = t山...tn是兩個(gè)待比對(duì)的序列,通過在 s和τ中合適的位置插入空位得到s'和τ',使得|s' I = |τ' I,令位置i上字符比對(duì)得分為 σ (S' [i],T' [i]),其中R為正數(shù),表示空位,其中,m(S' [i]T' [i])為矩陣M的元素,Ρ'(Τ' [i-l]T' [i])為矩陣Ν'的元素,則序列全 局得分為:2. 根據(jù)權(quán)利要求1所述的打分方法,其特征在于:所述方法還包括步驟S104 :采用動(dòng) 態(tài)規(guī)劃算法進(jìn)行序列比對(duì)得到最優(yōu)比對(duì)。3. 根據(jù)權(quán)利要求1所述的打分方法,其特征在于:所述步驟S102中構(gòu)造比對(duì)堿基得分 矩陣M需要考慮兩個(gè)原則,一是匹配得分比失配得分高,二是轉(zhuǎn)換得分比顛換得分高。4. 根據(jù)權(quán)利要求3所述的打分方法,其特征在于:匹配得分一般設(shè)為正數(shù),失配得分一 般設(shè)為負(fù)數(shù)。
【專利摘要】本發(fā)明提供了一種DNA序列比對(duì)中的打分方法,引入?yún)⒖夹蛄兄袎A基排列概率的統(tǒng)計(jì),構(gòu)建權(quán)重矩陣,利用權(quán)重矩陣和傳統(tǒng)得分矩陣共同設(shè)計(jì)得分規(guī)則,根據(jù)打分規(guī)則計(jì)算序列全局得分,采用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列比對(duì)得到最優(yōu)比對(duì)。本發(fā)明的方法能夠利用全局合理性來調(diào)控避免“早熟”現(xiàn)象。
【IPC分類】G06F19/22
【公開號(hào)】CN104881592
【申請(qǐng)?zhí)枴緾N201510072511
【發(fā)明人】汪曉丹, 徐勇
【申請(qǐng)人】哈爾濱工業(yè)大學(xué)深圳研究生院
【公開日】2015年9月2日
【申請(qǐng)日】2015年2月11日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
射阳县| 石嘴山市| 龙井市| 邯郸县| 阿鲁科尔沁旗| 霸州市| 金昌市| 汕尾市| 平舆县| 崇信县| 青岛市| 白沙| 高安市| 夏河县| 玉林市| 千阳县| 探索| 股票| 囊谦县| 玉门市| 天水市| 古蔺县| 凉城县| 乌拉特后旗| 隆化县| 吴忠市| 万安县| 吉木萨尔县| 方正县| 临夏市| 兴安盟| 鄂托克旗| 奉新县| 吴江市| 威远县| 蒙山县| 新郑市| 玉树县| 商都县| 平乡县| 确山县|