欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種dna計算編碼系統(tǒng)及其方法

文檔序號:6484298閱讀:208來源:國知局
專利名稱:一種dna計算編碼系統(tǒng)及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及生物納米計算技術(shù),尤其涉及一種DNA計算編碼系統(tǒng)及其方法。
背景技術(shù)
以DNA分子為“數(shù)據(jù)”、生物酶或者生化操作為“工具”的一種新的信息處理計算機 模型-DNA計算機模型正在受到諸如分子生物學、基因工程、化學以及計算機科學、數(shù)學、物 理學等許多領(lǐng)域科學家的極大關(guān)注,DNA計算機已經(jīng)形成了當前科學領(lǐng)域中的一個研究“熱
占,,
;^ οDNA計算是以生化反應(yīng)或者生化操作為機理的一種新的計算模式,具有如下四個 優(yōu)點①具有高度的并行性,運算速度快;②DNA作為信息的載體其貯存的容量非常之大; ③DNA分子生物計算所消耗的能量只有一臺電子計算機完成同樣計算所消耗的能量的十 億分之一;④自然界可獲取的DNA資源豐富。正是由于DNA計算的上述優(yōu)勢,使得在未來的 科學領(lǐng)域內(nèi),DNA計算機有望在優(yōu)化計算、密碼學、數(shù)學等眾多領(lǐng)域得到突破性的創(chuàng)新與應(yīng) 用。DNA計算的基本原理是利用DNA分子的雙螺旋結(jié)構(gòu)和堿基互補配對的性質(zhì),將所 要處理的問題編碼為特定的DNA分子,在生物酶的作用下,或者某些生化操作下,通過可控 的生化反應(yīng)生成問題的解空間,然后利用各種現(xiàn)代分子生物技術(shù)得出運算結(jié)果。在所有的 DNA計算中,首當其沖的問題是編碼問題。DNA序列的編碼是數(shù)學上的一個很困難的問題, 這是因為,在DNA計算中,作為“數(shù)據(jù)”的DNA分子不能隨機的產(chǎn)生,原因很多,諸如氫鍵引 力的作用有可能導致不希望出現(xiàn)的發(fā)夾構(gòu)形的DNA分子產(chǎn)生;自由能AG、解鏈溫度Tm值, 序列的相似度問題、以及問題的規(guī)模與DNA序列長度的選擇問題等。所以,采用什么樣的編 碼(單鏈/雙鏈/環(huán)狀/發(fā)卡狀/混合型/具有粘性末端)是DNA計算中的一個基本問題。 進而,編碼的長度問題,若過長,則解空間“膨脹”,不僅產(chǎn)生巨大的資源浪費,而且給生物操 作,或者生化反應(yīng)帶來不必要的麻煩,使問題求解變得復雜,甚至難于求解。因此,如何根據(jù) 圖信息處理的特性,給出盡可能優(yōu)化的編碼系統(tǒng)是DNA計算機研究中的一個基本的問題。另外,作為一種新型的計算方式,可靠性是其存在和發(fā)展的基礎(chǔ)。由于DNA計算所 依賴的各種生化操作均存在一定的誤差,如PCR擴增的效率大概為90%,而生物酶的效率 大概為80% 95%。隨著計算過程中循環(huán)次數(shù)的增加,其累積誤差將不容忽視。更為突出 的是,DNA計算中的核心操作——雜交反應(yīng)在不完全互補的條件下也能發(fā)生,由此形成各種 不希望的二級結(jié)構(gòu)(如圖1所示)。這些因素將導致DNA計算的實際計算過程有可能偏離 計算模型所設(shè)計的方向從而得出錯誤的結(jié)果。眾所周知,基于信息論的各種糾錯碼方法有 效的解決了電子計算機中的信息傳輸和處理過程中存在的一些問題。在DNA計算中,信息 的識別主要是通過DNA分子間的特異性雜交來實現(xiàn)的。因此,系統(tǒng)的開展基于DNA計算的 編碼方法的研究,以此來提高DNA計算中的信息處理的“信噪比”,就成為解決其可靠性的 一個有效的途徑?,F(xiàn)有技術(shù)中的DNA序列編碼技術(shù)主要包括以下幾種。
一、Frutos A. G.等提出的基于模板的DNA編碼方法,利用漢明距離和反補漢明 距離減少編碼間的相似程度。模板_映射方法是將DNA分子的編碼過程分為二步(1)搜 索滿足一定條件的二進制串作為模板集合T,其中“ 1”代表A/T的位置,” O”代表C/G的位 置;(2)搜索滿足一定條件的二進制串作為映射集合M,然后由TXM — S,最終得到所期望 的DNA編碼序列集合S,其規(guī)則1X1 — T,1X0 — A,0X1— G,0X0 — C。模板-映射方法 主要的理論基礎(chǔ)是當模板集合T和映射集合M中的各序列間的距離均大于d時,它們所產(chǎn) 生的目標序列間的距離也大于d。
Frutos A. G.等采用8bp的DNA序列代表一個可能的布爾變量組合,編碼的要求如 下a. GC 含量為 50%;b.任兩個編碼的DNA序列之間的漢明距離大于等于4 ;c. - (χ的補序列)和7 (y的補序列)之間的漢明距離大于等于4 ;模板集合T必須滿足條件(1)、(2)和(3);映射集合M滿足條件⑵和(3)。最 后得到一個有108個編碼的DNA序列集合,并進行了雜交試驗。試驗結(jié)果表明,對于長度為 16bp的DNA分子,完全匹配與不完全匹配(有4個不同位點)的解鏈溫度Tm的差別最小為 30°C,自由能的變化Δ G最小為10kcal/mol。二、Feldkamp等提出了最小長度子串評價方法所有DNA序列(長度為ns)間的 相同子串的最大長度為nb-l,而長度為nb的子串在編碼集合中最多出現(xiàn)一次。于是定義
φ二^為DNA序列間的相似度,顯然Φ越大,DNA分子間的相似度越小,出現(xiàn)錯誤雜交的
幾率越小。搜索方法如下a.產(chǎn)生所有長度為nb的基礎(chǔ)串(base strand)集合;b.過濾掉各種不滿足要求的基礎(chǔ)串如回文結(jié)構(gòu)、GC含量、啟動子、多聚GGG等;c.隨機選取一個合法的基礎(chǔ)串作為有向樹的樹根;然后去掉根頂點的第一個字 母,在其末尾分別加上4個堿基A、G、C、T生成4個樹葉頂點(如圖2所示);重復此過程直 到生成長度為ns-nb的有向路;d.對新生成的DNA序列用各種不同的過濾器進行過濾,如GC含量、解鏈溫度、酶識 別序列、同源性等。e.如果新生成的DNA序列滿足要求,就將其加入新生成的序列集合并中止該有向 樹搜索過程;否則就回到上一頂點知道遍歷完整個有向樹;f.重復C、d、e直到基礎(chǔ)串集合變?yōu)榭占Heatorm等人提出用遺傳算法來解決DNA計算中的編碼問題,其流程如圖3所 示。初始群體為特定長度的單鏈,經(jīng)過復性后變?yōu)殡p鏈,然后在連接酶的作用下隨機交叉生 成一條長的雙鏈;評價函數(shù)是根據(jù)生化反應(yīng)過程的自由能變化AG來確定的,選擇和變異 過程均用內(nèi)切酶uvrABC來實現(xiàn)。內(nèi)切酶uvrABC能夠在雙鏈上識別不完全匹配的位點,并在 此將一條單鏈切去一個12bp的單鏈。在選擇過程中,只要加入核酸外切酶可水解掉有缺口 的雙鏈;在變異過程中,只要加入DNA聚合酶進行PCR反應(yīng)將缺口補齊從而完全互補。由于 選擇過程將水解掉大量的DNA分子,因此需要不定期進行復制過程來增加群體的多樣性。綜上所述,DNA計算本身的特殊性決定了其編碼問題的復雜性,影響因素眾多且難以綜合考慮,已有的技術(shù)方法對編碼的約束基本上是一種人為的經(jīng)驗假設(shè),而沒有進行系 統(tǒng)科學的評價;并且,現(xiàn)有的編碼方法主要是設(shè)法如何最大限度的降低編碼間的相似性,而 很少或者沒有考慮具體模型中的數(shù)據(jù)結(jié)構(gòu)的特征。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種DNA計算編碼系統(tǒng)及其方法,以解決已有DNA計算編碼 技術(shù)存在的上述缺陷。為了達到上述目的,本發(fā)明的技術(shù)方案提出一種DNA計算編碼系統(tǒng),該系統(tǒng)包括評價模型生成模塊,構(gòu)建DNA序列的評價模型,并利用所述評價模型計算DNA序列 的評價參數(shù);DNA序列搜索模塊,基于模擬退火算法搜索評價參數(shù)值最小的最優(yōu)序列。上述的DNA計算編碼系統(tǒng)中,所述評價模型包括a. H測度評價函數(shù) 其中,H(*,*)表示漢明距離,Ok表示右(左)編碼框移位,k為編碼框長度,〒表 示補序列;b.自互補評價函數(shù) c. GC含量評價函數(shù) 其中,
為序列Xi的GC含量的目標值;d.相似度評價函數(shù) e.連續(xù)性評價函數(shù) 其中,Af表示在DNA序列Xi中j個連續(xù)相同堿基出現(xiàn)的次數(shù);f.解鏈溫度評價函數(shù) 其中,
為序列Xi的解鏈溫度的目標值;g. 3'端互補評價函數(shù) 其中,)是序列Xi與序列Xj的3’端k個堿基完全互補的個數(shù),k由用戶定 義。
本發(fā)明的技術(shù)方案還提出一種DNA計算編碼方法,該方法包括以下步驟生成評價模型,并利用所述評價模型計算DNA序列的評價參數(shù);隨機生成定長的若干個DNA序列; 基于模擬退火算法搜索評價參數(shù)值最小的最優(yōu)序列。上述的DNA計算編碼方法中,所述生成評價模型并計算評價參數(shù)的步驟具體包 括S41.對指定長度為L的DNA序列,輸入要評價的參數(shù)和權(quán)值,并將這些參數(shù)按權(quán)值 大小降序排列。S42.隨機生成k個樣本序列,計算這些序列的每個評價參數(shù)的參數(shù)值;S43.計算參數(shù)值的平均值和標準方差 S44.計算評價參數(shù)的正則值 S45.計算正則值的Schmit正交值 式中S46.計算每個評價參數(shù)的的貢獻率 S47.刪除貢獻率低于閾值的評價參數(shù)S48.將被刪除的評價參數(shù)的權(quán)值重新分配給其它的評價參數(shù),新的權(quán)值計算如 下 S49.重新排列評價參數(shù),轉(zhuǎn)步驟S45。上述的DNA計算編碼方法中,所述基于模擬退火算法搜索評價參數(shù)值最小的最優(yōu) 序列具體包括S51.選擇初始可行解χ ;S52.當溫度T > ε ( ε是一個較小數(shù)),則執(zhí)行下一步;S53.從鄰域中任意選擇一個可行解y ;S54.如果χ < y,則在概率
下用χ取代y ;S55.否則,用y取代χ。
本發(fā)明的技術(shù)方案建立了一個完善的DNA編碼體系,綜合考慮了各種評價DNA編 碼的影響因素及其相關(guān)性,有效地避免了 DNA計算時不期望的二級結(jié)構(gòu)的產(chǎn)生。


圖1為本發(fā)明的評價模型生成模塊的計算流程圖;圖2為本發(fā)明實施例的模擬退火算法(SA)搜索評價參數(shù)值最小的最優(yōu)序列的流 程圖。
具體實施例方式以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。本發(fā)明的DNA計算編碼系統(tǒng)將各種基本評價參數(shù)如H測度、自互補、GC含量、相似 度、解鏈溫度等作為影響編碼的基本因素,建立綜合型DNA編碼評價模型。系統(tǒng)分為兩個模 塊評價模型生成模塊和DNA序列搜索模塊。詳細方案如下1.評價模型a. H測度定義如下 式中,H(*,*)表示漢明距離,ok表示右(左)編碼框移位,k為編碼框長度,Xi, xj分別表示DNA序列,$表示補序列。

H測度評價函數(shù)如下
fH = max maxin-Hix^a^x,))}
ij,kj 一n<k<n
b.自互補評價函數(shù)如下
Lif = max max {n — H{xt,ak(xt))}
Ji -n<k<n
c.GC含量評價函數(shù)
m
foe ~ 2、GC() - GC^er_defmed)
式中e
為序列Xi的GC含量的目標值。
d.相似度評價函數(shù)
e.連續(xù)性評價函數(shù)
式中A^表示在DNA序列Xi中j個連續(xù)相同堿基出現(xiàn)的次數(shù)c
f.解鏈溫度評價函數(shù)
e[o,ioo]為序列Xi的解鏈溫度的目標值。 g.3'端互補評價函數(shù)
要避免3'端的互補重疊以防引物二聚體的形成。 式中
是序列Xi與序列\(zhòng)的3’端k個堿基完全互補的個數(shù),k由用戶定 義。h.綜合評價模型 式中&是評價函數(shù)值,w,是該評價參數(shù)的權(quán)值。2.評價模型生成模塊評價模型生成模塊的計算流程如圖1所示,包括以下步驟S41.對指定長度為L的DNA序列,用戶輸入要評價的參數(shù)&和權(quán)值Wi(i = 1, 2,. . . n),系統(tǒng)將這些參數(shù)按權(quán)值大小降序排列。S42.隨機生成k個樣本序列(k = 1000),計算這些序列的每個評價參數(shù)&的參 數(shù)值 x^j = 1. . . k);S43.計算參數(shù)值Xij的平均值和標準方差 S44.計算評價參數(shù)的正則值

S45.計算正則值的Schmit正交值 式中為“^刃:

S46.計算每個評價參數(shù)的的貢獻率Schmit正交化的目的是消除評價參數(shù)間的相關(guān)性,相關(guān)度越高,的差別就越 小,因此方差\可以表示評價參數(shù)的作用大小,評價參數(shù)貢獻率定義如下 S47.系統(tǒng)刪除貢獻率低于閾值的評價參數(shù),如果沒有這樣的評價參數(shù),則跳入序 列搜索模塊。S48.將被刪除的評價參數(shù)的權(quán)值重新分配給其它的評價參數(shù)(q = 1,2,. . . i_l), 新的權(quán)值計算如下
S49.重新排列評價參數(shù)fi(i = l,2,...n_l),轉(zhuǎn)第e步。3.序列搜索模塊序列搜索模塊的功能是用模擬退火算法(SA)搜索評價參數(shù)值最小的最優(yōu)序列, 流程如圖2所示,包括以下步驟S51.選擇初始可行解x ;S52.當溫度T > £ ( £是一個較小數(shù)),則執(zhí)行下一步;S53.從鄰域中任意選擇一個可行解y ;S54.如果x < y,則在概率6二1/(^下用x取代y ;S55.否則,用y取代x ; 按冷卻進度表c降低T的值,初始溫度T和冷卻率的值分別為1000和0. 9998。以下通過具體實施例進一步說明本發(fā)明的實際效果。令沉—=50%,T;ser_defmed=350k , k = 5,DNA 序列的長度為 20。則利用上述
本發(fā)明DNA計算編碼系統(tǒng)得出的各評價參數(shù)的相關(guān)系數(shù)如表1所示。表1
〔0132 從表2可以看出貢獻率是很低的,因為和fTm的相關(guān)系數(shù)很高(0. 740378), fGC和fe。n的相關(guān)系數(shù)也相對較高。以上為本發(fā)明的最佳實施方式,依據(jù)本發(fā)明公開的內(nèi)容,本領(lǐng)域的普通技術(shù)人員 能夠顯而易見地想到一些雷同、替代方案,均應(yīng)落入本發(fā)明保護的范圍。
權(quán)利要求
一種DNA計算編碼系統(tǒng),其特征在于,該系統(tǒng)包括評價模型生成模塊,構(gòu)建DNA序列的評價模型,并利用所述評價模型計算DNA序列的評價參數(shù);DNA序列搜索模塊,基于模擬退火算法搜索評價參數(shù)值最小的最優(yōu)序列。
2.如權(quán)利要求1所述的DNA計算編碼系統(tǒng),其特征在于,所述評價模型包括a.H測度評價函數(shù) 其中,H(*,*)表示漢明距離,。k表示右(左)編碼框移位,k為編碼框長度,^表示補 序列;b.自互補評價函數(shù) c.GC含量評價函數(shù) 其中, 為序列Xi的GC含量的目標值;d.相似度評價函數(shù) e.連續(xù)性評價函數(shù) 其中,Af表示在DNA序列Xi中j個連續(xù)相同堿基出現(xiàn)的次數(shù);f.解鏈溫度評價函數(shù) 其中 為序列Xi的解鏈溫度的目標值;g.3'端互補評價函數(shù) 其中,CA^O是序列Xi與序列~的3’端k個堿基完全互補的個數(shù),k由用戶定義。
3.—種DNA計算編碼方法,其特征在于,該方法包括以下步驟 生成評價模型,并利用所述評價模型計算DNA序列的評價參數(shù); 隨機生成定長的若干個DNA序列;基于模擬退火算法搜索評價參數(shù)值最小的最優(yōu)序列。
4.如權(quán)利要求3所述的DNA計算編碼方法,其特征在于,所述生成評價模型并計算評價 參數(shù)的步驟具體包括S41.對指定長度為L的DNA序列,輸入要評價的參數(shù)和權(quán)值,并將這些參數(shù)按權(quán)值大小 降序排列。,542.隨機生成k個樣本序列,計算這些序列的每個評價參數(shù)的參數(shù)值; ,543.計算參數(shù)值的平均值和標準方差 ,544.計算評價參數(shù)的正則值 ,545.計算正則值的Schmit正交值 ,546.計算每個評價參數(shù)的的貢獻率 ,547.刪除貢獻率低于閾值的評價參數(shù),548.將被刪除的評價參數(shù)的權(quán)值重新分配給其它的評價參數(shù),新的權(quán)值計算如下 ,549.重新排列評價參數(shù),轉(zhuǎn)步驟S45。
5.如權(quán)利要求3所述的DNA計算編碼方法,其特征在于,所述基于模擬退火算法搜索評 價參數(shù)值最小的最優(yōu)序列具體包括,551.選擇初始可行解x;,552.當溫度T>e (e是一個較小數(shù)),則執(zhí)行下一步;,553.從鄰域中任意選擇一個可行解y;,554.如果x< y,則在概率下用x取代y ;,555.否則,用y取代x。
全文摘要
本發(fā)明涉及一種DNA計算編碼系統(tǒng)及其方法,該系統(tǒng)包括評價模型生成模塊,用于構(gòu)建DNA序列的評價模型,并利用所述評價模型計算DNA序列的評價參數(shù);DNA序列搜索模塊,用于基于模擬退火算法搜索評價參數(shù)值最小的最優(yōu)序列,本系統(tǒng)和方法建立了一個完善的DNA編碼體系,綜合考慮了各種評價DNA編碼的影響因素及其相關(guān)性,有效地避免了DNA計算時不期望的二級結(jié)構(gòu)的產(chǎn)生。
文檔編號G06F19/00GK101866388SQ200910082430
公開日2010年10月20日 申請日期2009年4月16日 優(yōu)先權(quán)日2009年4月16日
發(fā)明者許進, 趙東明 申請人:北京大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乾安县| 嘉禾县| 德昌县| 双桥区| 万州区| 惠东县| 泸定县| 云林县| 澄江县| 晋城| 罗江县| 巢湖市| 新余市| 竹北市| 应用必备| 湖州市| 澄江县| 临夏县| 集贤县| 江孜县| 伊吾县| 德保县| 开化县| 昆明市| 云和县| 开化县| 灌云县| 江山市| 三都| 甘南县| 宁晋县| 望城县| 松潘县| 永靖县| 枣庄市| 长丰县| 遵化市| 梅州市| 宁化县| 察隅县| 锡林郭勒盟|