基于組件式帶假結(jié)長鏈rna二級結(jié)構(gòu)的識別方法及裝置制造方法
【專利摘要】本發(fā)明公開一種基于組件式帶假結(jié)長鏈RNA二級結(jié)構(gòu)的識別方法及裝置,采用平衡能能量方法預(yù)測RNA二級結(jié)構(gòu),不僅完善了多分支環(huán)能量計算,而且加入了初步假結(jié)能量,使得能量計算更為精確,并且更加貼近實際,提高了包含假結(jié)的RNA二級結(jié)構(gòu)預(yù)測的準(zhǔn)確性。解決了當(dāng)前二級結(jié)構(gòu)識別軟件局限關(guān)注于全局結(jié)構(gòu)的準(zhǔn)確性以及解決了當(dāng)前忽略長鏈RNA中具有生物功能、局部結(jié)構(gòu)保守的功能組件重要性的方面,因此在序列增長的情況下,仍可以有效的對RNA二級結(jié)構(gòu)進(jìn)行識別。充分利用軟硬件結(jié)合的方法,不僅提高了預(yù)測的時空復(fù)雜度,而且本發(fā)明的裝置可以實現(xiàn)在任何裝有本發(fā)明客戶端軟件的機器上實現(xiàn)即插即用。
【專利說明】基于組件式帶假結(jié)長鏈RNA 二級結(jié)構(gòu)的識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明公開一種基于組件式帶假結(jié)長鏈RNA 二級結(jié)構(gòu)的識別方法及裝置,屬于生物信息學(xué)RNA 二級結(jié)構(gòu)預(yù)測領(lǐng)域。
[0002]涉及一種基于局部結(jié)構(gòu)組件式的、以平衡能為基礎(chǔ)的、帶假結(jié)的長鏈RNA 二級結(jié)構(gòu)的識別方法,同時提供了適用于該方法的裝置。
【背景技術(shù)】
[0003]RNA不同于DNA和蛋白質(zhì),既可攜帶遺傳信息,又可作為功能分子,而RNA功能與其結(jié)構(gòu)密切相關(guān),目前對于RNA三級結(jié)構(gòu)的研究受到各種條件的制約,因此,研究RNA的二級結(jié)構(gòu)可揭示RNA在生命過程中的進(jìn)化規(guī)律,對推進(jìn)人類后基因組計劃和醫(yī)學(xué)、生物學(xué)的發(fā)
展具有重要意義。
[0004]實驗上常用X光造影或核磁共振造影來確定RNA分子二級結(jié)構(gòu),但長鏈RNA在體外實驗環(huán)境中極易降解,很難結(jié)晶,難以得到長鏈RNA分子的真實二級結(jié)構(gòu);Jason G等人用核酸內(nèi)切酶降解RNA的不飽和環(huán)區(qū),再通過子結(jié)構(gòu)拼接來推測RNA分子二級結(jié)構(gòu),但由于先破壞了可能發(fā)揮生物功能的環(huán)區(qū),確定的整體結(jié)構(gòu)不準(zhǔn)確;SHAPE技術(shù)能得到RNA骨架中任意位置的單鏈靈活性信息,借此推測每個位置是否堿基配對,但無法確定堿基與分子中的哪個堿基形成配對。由此可見,用實驗手段逐個確定多個長鏈RNA分子結(jié)構(gòu),在花費了較大的時間、財力和物力之后,仍無法獲得準(zhǔn)確的長鏈RNA結(jié)構(gòu)信息,因此,對用計算機進(jìn)行長鏈RNA結(jié)構(gòu)建模和識別提出了客觀要求。
[0005]識別RNA序列二級結(jié)構(gòu)的計算機方法可分為兩種:一種是基于多條序列的識別方法,另一種是基于單條序列的識別方法?;诙鄺l序列的識別方法是比較分析法,基于已存在的結(jié)構(gòu)模板,在多條同源序列中尋找公共結(jié)構(gòu),雖然現(xiàn)在長鏈RNA分子數(shù)量眾多,但僅有一條測出了真實結(jié)構(gòu),沒有結(jié)構(gòu)模板,無法進(jìn)行比較分析。
[0006]針對單條RNA序列的識別方法基于實驗上測定的自由能,有動態(tài)規(guī)劃方法、預(yù)測堿基對概率法、最大化期望結(jié)構(gòu)法、次優(yōu)結(jié)構(gòu)預(yù)測法等,這些方法使用的自由能從短序列結(jié)構(gòu)(長度僅為十幾個堿基)中測出,再利用最近鄰能量模型擬合長序列結(jié)構(gòu)的自由能,而最近鄰能量模型自身存在缺陷,擬合出的自由能與真實結(jié)構(gòu)自由能相差5%-10%,對較短序列比較有效,時間復(fù)雜度為0(N3)(其中N為RNA序列的長度),空間復(fù)雜度為0(N2)。
[0007]假結(jié)在RNA的二級結(jié)構(gòu)以及RNA的功能活性中起著重要作用,識別帶假結(jié)的RNA二級結(jié)構(gòu)是極為重要的理論與技術(shù)難題。很多重要的RNA結(jié)構(gòu)中都存在著假結(jié),建立帶假結(jié)的二級結(jié)構(gòu)識別方法,對于提高識別的準(zhǔn)確性和識別RNA的三級結(jié)構(gòu),具有極為重要的作用,但目前針對假結(jié)識別的方法,只能處理短堿基序列,算法精確度很低,一些新算法都在加強自己識別假結(jié)方面的能力,帶假結(jié)的RNA 二級結(jié)構(gòu)識別已經(jīng)成為RNA空間結(jié)構(gòu)預(yù)測的前沿問題。
[0008]如上所述,目前已有的RNA 二級結(jié)構(gòu)識別方法中,很少有方法提到包含假結(jié)平衡能能量的方法以及局部功能組件的重要性。識別整條RNA序列二級結(jié)構(gòu)的計算機識別算法存在的普遍問題是,當(dāng)前二級結(jié)構(gòu)識別軟件局限于關(guān)注全局結(jié)構(gòu)的準(zhǔn)確性,忽略了長鏈RNA中具有生物功能、局部結(jié)構(gòu)保守的功能組件的重要性,尤其對于含有假結(jié)的二級結(jié)構(gòu)的識另O,并且現(xiàn)有二級結(jié)構(gòu)識別軟件計算能力無法滿足RNA結(jié)構(gòu)功能的長度需求。因此識別包含假結(jié)的RNA 二級結(jié)構(gòu)的局部結(jié)構(gòu),再由各局部結(jié)構(gòu)拼接形成整個RNA的二級結(jié)構(gòu),并從該結(jié)構(gòu)中查找具有特定局部結(jié)構(gòu)的功能組件,不僅可以充分利用局部結(jié)構(gòu)特征識別技術(shù)的優(yōu)勢,還能更好的提高識別的效率和準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0009]本發(fā)明提供一種基于組件式帶假結(jié)長鏈RNA 二級結(jié)構(gòu)的識別方法,提高對于包含假結(jié)的RNA 二級結(jié)構(gòu)的識別精度,并且在序列增長的情況下,即對任意長度的序列,本發(fā)明仍可以有效的對RNA 二級結(jié)構(gòu)進(jìn)行識別。
[0010]本發(fā)明還提供了實現(xiàn)該方法的識別裝置,該識別裝置通過硬件和軟件的結(jié)合,解決了時間及空間成本問題。
[0011]本發(fā)明由基于ARM9微處理器02的RNA 二級結(jié)構(gòu)識別裝置與上位機01進(jìn)行連接,形成整個系統(tǒng)從而完成工作,采用的ARM9微處理器02適用于普通嵌入式的應(yīng)用,用于管理和協(xié)調(diào)各模塊工作。
[0012]本發(fā)明的基于組件式帶假結(jié)長鏈RNA 二級結(jié)構(gòu)的識別方法,具體步驟如下:
1)通過上位機01的輸入單元0101輸入RNA序列并通過RS-232串口0105及RS-232串口 0205傳至RNA 二級結(jié)構(gòu)識別裝置的內(nèi)存儲單元0206,并進(jìn)一步將數(shù)據(jù)讀到緩存單元0207 中;
2)局部組件處理單元02081從緩存單元0207中讀出RNA序列,并利用滑窗設(shè)定的大小截取組件序列,組件式滑窗尺寸的變化范圍設(shè)為50nt-200nt ;
3)對于上述截取的組件序列,莖區(qū)預(yù)測單元02082利用帶假結(jié)的前后綴匹配最長莖區(qū)分解方法求出所有可能的莖區(qū)集合;
4)結(jié)合RNA能量處理單元02083中的莖區(qū)平衡能能量模型,建立能量轉(zhuǎn)移概率矩陣和觀察值矩陣,對莖區(qū)預(yù)測單元02082求出的所有莖區(qū)求取能量值;
5)局部最優(yōu)結(jié)構(gòu)折疊單元02084中,對預(yù)測出的并已經(jīng)帶有能量的莖區(qū)進(jìn)行折疊,在折疊過程中不斷尋找莖區(qū)能量和長度的最優(yōu)組合,最后得到折疊的局部最優(yōu)RNA 二級結(jié)構(gòu),將得到的局部結(jié)構(gòu)暫存于內(nèi)存單元0206中;
6)再次從緩存單元0207中讀出序列信息,局部組件處理單元02081繼續(xù)對組件滑窗進(jìn)行移動,若對所有組件已處理完成,則從內(nèi)存儲單元0206中取出所有局部最優(yōu)結(jié)構(gòu)的集合,交給最優(yōu)結(jié)構(gòu)獲取單元02085處理,若對所有組件未處理完成,則按上述步驟3飛重新預(yù)測新的局部最優(yōu)RNA的二級結(jié)構(gòu);
7)通過最優(yōu)結(jié)構(gòu)獲取單元02085,利用組裝結(jié)構(gòu)算法對各局部最優(yōu)結(jié)構(gòu)進(jìn)行拼接,獲取平衡能能量最優(yōu)的全局RNA 二級結(jié)構(gòu);
8)將得到的全局最優(yōu)RNA二級結(jié)構(gòu)存于外存儲單元0201中,并可通過RS-232串口0205及串口 0105傳回到上位機01的顯示單元0106上進(jìn)行輸出顯示。
[0013]本發(fā)明所述基于組件式帶假結(jié)長鏈RNA 二級結(jié)構(gòu)的識別裝置,其特征在于: 本發(fā)明裝置由ARM9微處理器02的接口部分021、存儲單元022及處理單元0208構(gòu)成; 其中,接口部分021包括:USB接口 0202、ITAG調(diào)試接口 0203、以太網(wǎng)接口 0204及RS-232串口 0205。其中USB接口 0202,可與U盤連接,實現(xiàn)將二級結(jié)構(gòu)識別得到的結(jié)果數(shù)據(jù)的轉(zhuǎn)存,以此實現(xiàn)存儲單元的擴增JTAG調(diào)試接口 0203,通過JTAG仿真(編程器)轉(zhuǎn)換設(shè)備與上位機JTAG接口 0103相連,用來實現(xiàn)程序的在線調(diào)試;以太網(wǎng)接口 0204,通過此接口與上位機01的以太網(wǎng)接口 0104進(jìn)行連接,從而實現(xiàn)ARM9微處理器02與上位機01的互通信;RS-232串口 0205,通過此接口與上位機01的RS-232串口 0105進(jìn)行連接,從而實現(xiàn)ARM9微處理器02與上位機01的互通信。
[0014]其中,存儲單元022包括:內(nèi)存儲單元0206、緩存單元0207及外存儲單元0201。內(nèi)存儲單元0206,與緩存單元0207進(jìn)行連接,負(fù)責(zé)完成RNA 二級結(jié)構(gòu)識別的初始數(shù)據(jù)及中間數(shù)據(jù)的存儲;緩存單元0207,與內(nèi)存儲單元0206及局部組件處理單元02081進(jìn)行連接,負(fù)責(zé)完成RNA 二級結(jié)構(gòu)識別的初始數(shù)據(jù)的存儲;外存儲單元0201,與最優(yōu)結(jié)構(gòu)獲取單元02085進(jìn)行連接,負(fù)責(zé)完成RNA 二級結(jié)構(gòu)識別的結(jié)果數(shù)據(jù)的存儲。
[0015]其中,處理單元0208包括:局部組件處理單元02081、莖區(qū)預(yù)測單元02082、RNA能量處理單元02083、局部最優(yōu)結(jié)構(gòu)折疊單元02084及最優(yōu)結(jié)構(gòu)獲取單元02085。局部組件處理單元02081與緩存單元0207連接,負(fù)責(zé)獲取緩存單元0207中初始的局部組件序列,并實現(xiàn)局部組件序列的截取及局部組件的滑窗調(diào)整和移動;莖區(qū)預(yù)測單元02082,采用帶假結(jié)的最長莖區(qū)分解算法預(yù)測出所有莖區(qū),經(jīng)過能量處理單元02083,結(jié)合平衡能能量模型完成每個莖區(qū)能量的計算;局部最優(yōu)結(jié)構(gòu)折疊單元02084,負(fù)責(zé)完成局部結(jié)構(gòu)的折疊,并且找到最優(yōu)的局部結(jié)構(gòu),存于內(nèi)存儲單元0206中;最優(yōu)結(jié)構(gòu)獲取單元02085對于內(nèi)存儲單元0206中存儲的所有局部最優(yōu)結(jié)構(gòu)進(jìn)行拼接,最終獲取出全局最優(yōu)結(jié)構(gòu)。
[0016]上位機01由輸入單元0101,接口部分011的USB接口 0102、JTAG調(diào)試接口 0103、以太網(wǎng)接口 0104、RS-232串口 0105,顯示單元0106共同構(gòu)成來完成與ARM9微處理器02的協(xié)調(diào)工作。其中輸入單元0101,與接口部分011連接,負(fù)責(zé)完成RNA序列的輸入;接口部分011負(fù)責(zé)與ARM9微處理器02進(jìn)行連接通信;顯示單元0106,與接口部分011連接,負(fù)責(zé)完成RNA識別結(jié)果的輸出顯示。
[0017]本發(fā)明積極效果在于:通過分析RNA 二級結(jié)構(gòu)的進(jìn)化規(guī)律,利用分子熱力學(xué)原理,在最小自由能概念的基礎(chǔ)上,提出平衡能概念,認(rèn)為RNA結(jié)構(gòu)最穩(wěn)定的狀態(tài)對應(yīng)的能量為平衡能,從本質(zhì)上更有效地揭示了真實RNA 二級結(jié)構(gòu)的形成規(guī)律。
[0018]采用平衡能能量方法預(yù)測RNA 二級結(jié)構(gòu),不僅完善了多分支環(huán)能量計算,而且加入了初步假結(jié)能量,使得能量計算更為精確,并且更加貼近實際,因此提高了包含假結(jié)的RNA 二級結(jié)構(gòu)預(yù)測的準(zhǔn)確性。
[0019]通過利用局部組件的方法,解決了當(dāng)前二級結(jié)構(gòu)識別軟件局限關(guān)注于全局結(jié)構(gòu)的準(zhǔn)確性以及解決了當(dāng)前忽略長鏈RNA中具有生物功能、局部結(jié)構(gòu)保守的功能組件重要性的方面,因此在序列增長的情況下,仍可以有效的對RNA 二級結(jié)構(gòu)進(jìn)行識別。
[0020]充分利用軟硬件結(jié)合的方法,不僅提高了預(yù)測的時空復(fù)雜度,而且本發(fā)明的裝置可以實現(xiàn)在任何裝有本發(fā)明客戶端軟件的機器上實現(xiàn)即插即用。
【專利附圖】
【附圖說明】
[0021]圖1為本發(fā)明結(jié)構(gòu)原理圖。[0022]圖2為本發(fā)電路原理圖。
[0023]圖3為本發(fā)明邏輯功能圖。
[0024]【具體實施方式】:
實施例1
如圖1所示,本發(fā)明的基于組件式帶假結(jié)的長鏈RNA 二級結(jié)構(gòu)識別裝置與上位機連接硬件結(jié)構(gòu)圖,包括上位機01及ARM9微處理器02構(gòu)成的RNA 二結(jié)構(gòu)識別裝置。
[0025]在本發(fā)明的實施例中,通常利用一臺通用的PC計算機作為上位機01,該上位機可通過RS-232串口和基于三星公司生產(chǎn)的32位的ARM920T核的微處理器的RNA 二級結(jié)構(gòu)識別裝置進(jìn)行連接,共同作用以完成RNA 二級結(jié)構(gòu)的識別。
[0026]上位機01的輸入單元0101及顯示單元0106均采用PC計算機的輸入及輸出設(shè)備來實現(xiàn)其功能。
[0027]本發(fā)明中可通過上位機01的以太網(wǎng)接口 0104及ARM9微處理器02的以太網(wǎng)接口0204實現(xiàn)上位機01與ARM9微處理器02的互通信,以太網(wǎng)接口采用DM9000完全綜合的、成本較低的單一快速以太網(wǎng)控制器芯片。
[0028]本發(fā)明中,增加了上位機OI的JTAG調(diào)試接口 0103及ARM9微處理器02的JTAG調(diào)試接口 0203,將此類接口通過JTAG仿真(編程器)轉(zhuǎn)換設(shè)備進(jìn)行連接,可以實現(xiàn)上位機01實時地對ARM9微處理器02上程序的分析和執(zhí)行的監(jiān)控。
[0029]本發(fā)明中,USB接口采用的是USB2.0接口,為了實現(xiàn)存儲單元的擴增,可以將RNA二級結(jié)構(gòu)識別結(jié)果數(shù)據(jù)通過上位機01的USB接口 0102或ARM9微處理器02的USB接口0202轉(zhuǎn)存到U盤。
[0030]ARM9微處理器02系統(tǒng)程序存儲單元022選用的是32M Hynix公司的HY57V561620CT SDRAM 作為內(nèi)存儲單元 0206,64M SAMSUNG 公司的 K9F1208U0M Nand Flash作為緩存單元0207,及IG的硬盤作為擴展外存儲單元0201。
[0031]ARM9微處理器02的處理單元0208中所包含的各單元均是固化在ARM9微處理器上的RNA 二級結(jié)構(gòu)識別算法,并且在運算時使用32位運算部件。
[0032]如圖2所示,是基于組件式帶假結(jié)的長鏈RNA 二級結(jié)構(gòu)識別裝置電路原理圖,其連接關(guān)系如下:
USB接口 0202、以太網(wǎng)接口 0204、RS-232串口 0205及JTAG調(diào)試接口 0203的數(shù)據(jù)輸入口 Vin分別與ARM9微處理器02的數(shù)據(jù)輸出引腳Voutl [0..7]相連,其GND分別與ARM9微處理器02的GND相連。
[0033]內(nèi)存儲單元0206的數(shù)據(jù)輸入口 Vin與ARM9微處理器02的數(shù)據(jù)輸出引腳Voutl [0..7]相連,其數(shù)據(jù)輸出口 Vout與緩存單元0207的數(shù)據(jù)輸入口 Vin相連,其GND與ARM9微處理器02的GND相連。緩存單元0207的數(shù)據(jù)輸入口 Vin與內(nèi)存儲單元0206的數(shù)據(jù)輸出口 Vout相連,其數(shù)據(jù)輸出口 Vout與局部組件處理單元的數(shù)據(jù)輸入口 Vin相連,其GND與ARM9微處理器02的GND相連。外存儲單元0201的數(shù)據(jù)輸入口 Vin與最優(yōu)結(jié)構(gòu)獲取單元02085的數(shù)據(jù)輸出口 Vout相連,其數(shù)據(jù)輸出口 Vout與ARM9微處理器02的數(shù)據(jù)輸入弓丨腳Vinl [0..7]相連,其GND與ARM9微處理器02的GND相連。
[0034]局部組件處理單元02081的數(shù)據(jù)輸入口 Vin與緩存單元0207的數(shù)據(jù)輸出口 Vout相連,其數(shù)據(jù)輸出口 Vout與分別與ARM9微處理器02的數(shù)據(jù)輸入引腳Vinl [0..7]及莖區(qū)預(yù)測單元02082的數(shù)據(jù)輸入口 Vin相連,VCC和GND分別與ARM9微處理器02的VCC和GND相連。莖區(qū)預(yù)測單元02082的數(shù)據(jù)輸入口 Vin與局部組件處理單元02081的數(shù)據(jù)輸出口Vout相連,其數(shù)據(jù)輸出口 Vout與分別與ARM9微處理器02的數(shù)據(jù)輸入引腳Vinl [0..7]及RNA能量處理單元02083的數(shù)據(jù)輸入口 Vin相連,其GND與ARM9微處理器02的GND相連。RNA能量處理單元02083的數(shù)據(jù)輸入口 Vin與莖區(qū)預(yù)測單元02082的數(shù)據(jù)輸出口 Vout相連,其數(shù)據(jù)輸出口 Vout分別與ARM9微處理器02的數(shù)據(jù)輸入引腳Vinl [0..7]及局部最優(yōu)結(jié)構(gòu)折疊單元02084的數(shù)據(jù)輸入口 Vin相連,其GND與ARM9微處理器02的GND相連。局部最優(yōu)結(jié)構(gòu)折疊單元02084的數(shù)據(jù)輸入口 Vin與RNA能量處理單元02083的數(shù)據(jù)輸出口 Vout相連,其數(shù)據(jù)輸出口 Vout與ARM9微處理器02的數(shù)據(jù)輸入引腳Vinl [0..7]相連,其GND與ARM9微處理器02的GND相連。最優(yōu)結(jié)構(gòu)獲取單元02085的數(shù)據(jù)輸入口 Vin與ARM9微處理器02的數(shù)據(jù)輸出引腳Voutl [0..7]相連,其數(shù)據(jù)輸出口 vout與外存儲單元0201的數(shù)據(jù)輸入口 Vin相連,GND與ARM9微處理器02的GND相連。
[0035]實施例2
工作步驟
圖3為本發(fā)明基于組件式帶假結(jié)的長鏈RNA 二級結(jié)構(gòu)識別方法的邏輯功能圖。如圖3邏輯功能圖所示,用戶使用該裝置進(jìn)行RNA 二級結(jié)構(gòu)識別的步驟如下:
1)通過上位機01的輸入單元0101輸入RNA序列并通過RS-232串口0105及RS-232串口 0205傳至RNA 二級結(jié)構(gòu)識別裝置的內(nèi)存儲單元0206,并進(jìn)一步將數(shù)據(jù)讀到緩存單元0207 中;
2)局部組件處理單元02081從緩存單元0207中讀出RNA序列,并利用滑窗設(shè)定的大小截取組件序列,組件式滑窗尺寸的變化范圍設(shè)為50nt-200nt ;
3)對于上述截取的組件序列,莖區(qū)預(yù)測單元02082利用帶假結(jié)的前后綴匹配最長莖區(qū)分解方法求出所有可能的莖區(qū)集合;
4)結(jié)合RNA能量處理單元02083中的莖區(qū)平衡能能量模型,建立能量轉(zhuǎn)移概率矩陣和觀察值矩陣,對莖區(qū)預(yù)測單元02082求出的所有莖區(qū)求取能量值;
5)局部最優(yōu)結(jié)構(gòu)折疊單元02084中,對預(yù)測出的并已經(jīng)帶有能量的莖區(qū)進(jìn)行折疊,在折疊過程中不斷尋找莖區(qū)能量和長度的最優(yōu)組合,最后得到折疊的局部最優(yōu)RNA 二級結(jié)構(gòu),將得到的局部結(jié)構(gòu)暫存于內(nèi)存單元0206中;
6)再次從緩存單元0207中讀出序列信息,局部組件處理單元02081繼續(xù)對組件滑窗進(jìn)行移動,若對所有組件已處理完成,則從內(nèi)存儲單元0206中取出所有局部最優(yōu)結(jié)構(gòu)的集合,交給最優(yōu)結(jié)構(gòu)獲取單元02085處理,若對所有組件未處理完成,則按上述步驟3飛重新預(yù)測新的局部最優(yōu)RNA的二級結(jié)構(gòu);
7)通過最優(yōu)結(jié)構(gòu)獲取單元02085,利用組裝結(jié)構(gòu)算法對各局部最優(yōu)結(jié)構(gòu)進(jìn)行拼接,獲取平衡能能量最優(yōu)的全局RNA 二級結(jié)構(gòu);
8)將得到的全局最優(yōu)RNA二級結(jié)構(gòu)存于外存儲單元0201中,并可通過RS-232串口0205及串口 0105傳回到上位機01的顯示單元0106上進(jìn)行輸出顯示。
【權(quán)利要求】
1.一種基于組件式帶假結(jié)長鏈RNA 二級結(jié)構(gòu)的識別方法,包括以下步驟: 1)通過上位機的輸入單元輸入RNA序列并通過RS-232串口傳至RNA二級結(jié)構(gòu)識別裝置的內(nèi)存儲單元,并進(jìn)一步將數(shù)據(jù)讀到緩存單元中; 2)局部組件處理單元從緩存單元中讀出RNA序列,并利用滑窗設(shè)定的大小截取組件序列,組件式滑窗尺寸的變化范圍設(shè)為50nt-200nt ; 3)對于上述截取的組件序列,莖區(qū)預(yù)測單元利用帶假結(jié)的前后綴匹配最長莖區(qū)分解方法求出所有可能的莖區(qū)集合; 4)結(jié)合RNA能量處理單元中的莖區(qū)平衡能能量模型,建立能量轉(zhuǎn)移概率矩陣和觀察值矩陣,對莖區(qū)預(yù)測單元求出的所有莖區(qū)求取能量值; 5)局部最優(yōu)結(jié)構(gòu)折疊單元中,對預(yù)測出的并已經(jīng)帶有能量的莖區(qū)進(jìn)行折疊,在折疊過程中不斷尋找莖區(qū)能量和長度的最優(yōu)組合,最后得到折疊的局部最優(yōu)RNA 二級結(jié)構(gòu),將得到的局部結(jié)構(gòu)暫存于內(nèi)存單元中; 6)再次從緩存單元中讀出序列信息,局部組件處理單元繼續(xù)對組件滑窗進(jìn)行移動,若對所有組件已處理完成,則從內(nèi)存儲單元中取出所有局部最優(yōu)結(jié)構(gòu)的集合,交給最優(yōu)結(jié)構(gòu)獲取單元理,若對所有組件未處理完成,則按上述步驟3飛重新預(yù)測新的局部最優(yōu)RNA的二級結(jié)構(gòu); 7)通過最優(yōu)結(jié)構(gòu)獲取單元,利用組裝結(jié)構(gòu)算法對各局部最優(yōu)結(jié)構(gòu)進(jìn)行拼接,獲取平衡能能量最優(yōu)的全局RNA 二級結(jié)構(gòu); 8)將得到的全局最優(yōu)RNA二級結(jié)構(gòu)存于外存儲單元中,并可通過RS-232串口傳回到上位機的顯示單元上進(jìn)行輸出顯示。
2.一種基于組件式帶假結(jié)長鏈RNA二級結(jié)構(gòu)的識別裝置,其特征在于:由ARM9微處理器02的接口部分021、存儲單元022及處理單元0208構(gòu)成; 其中,接口部分021包括:USB接口 0202、ITAG調(diào)試接口 0203、以太網(wǎng)接口 0204及RS-232 串口 0205 ; 其中USB接口 0202,可與U盤連接,實現(xiàn)將二級結(jié)構(gòu)識別得到的結(jié)果數(shù)據(jù)的轉(zhuǎn)存,以此實現(xiàn)存儲單元的擴增JTAG調(diào)試接口 0203,通過JTAG仿真(編程器)轉(zhuǎn)換設(shè)備與上位機JTAG接口 0103相連,用來實現(xiàn)程序的在線調(diào)試;以太網(wǎng)接口 0204,通過此接口與上位機01的以太網(wǎng)接口 0104進(jìn)行連接,從而實現(xiàn)ARM9微處理器02與上位機01的互通信;RS_232串口 0205,通過此接口與上位機01的RS-232串口 0105進(jìn)行連接,從而實現(xiàn)ARM9微處理器02與上位機01的互通信; 其中,存儲單元022包括:內(nèi)存儲單元0206、緩存單元0207及外存儲單元0201 ; 內(nèi)存儲單元0206,與緩存單元0207進(jìn)行連接,負(fù)責(zé)完成RNA 二級結(jié)構(gòu)識別的初始數(shù)據(jù)及中間數(shù)據(jù)的存儲;緩存單元0207,與內(nèi)存儲單元0206及局部組件處理單元02081進(jìn)行連接,負(fù)責(zé)完成RNA 二級結(jié)構(gòu)識別的初始數(shù)據(jù)的存儲;外存儲單元0201,與最優(yōu)結(jié)構(gòu)獲取單元02085進(jìn)行連接,負(fù)責(zé)完成RNA 二級結(jié)構(gòu)識別的結(jié)果數(shù)據(jù)的存儲; 其中,處理單元0208包括:局部組件處理單元02081、莖區(qū)預(yù)測單元02082、RNA能量處理單元02083、局部最優(yōu)結(jié)構(gòu)折疊單元02084及最優(yōu)結(jié)構(gòu)獲取單元02085 ; 局部組件處理單元02081與緩存單元0207連接,負(fù)責(zé)獲取緩存單元0207中初始的局部組件序列,并實現(xiàn)局部組件序列的截取及局部組件的滑窗調(diào)整和移動;莖區(qū)預(yù)測單元.02082,采用帶假結(jié)的最長莖區(qū)分解算法預(yù)測出所有莖區(qū),經(jīng)過能量處理單元02083,結(jié)合平衡能能量模型完成每個莖區(qū)能量的計算;局部最優(yōu)結(jié)構(gòu)折疊單元02084,負(fù)責(zé)完成局部結(jié)構(gòu)的折疊,并且找到最優(yōu)的局部結(jié)構(gòu),存于內(nèi)存儲單元0206中;最優(yōu)結(jié)構(gòu)獲取單元02085對于內(nèi)存儲單元0206中存儲的所有局部最優(yōu)結(jié)構(gòu)進(jìn)行拼接,最終獲取出全局最優(yōu)結(jié)構(gòu);上位機01由輸入單元0101,接口部分011的USB接口 0102、JTAG調(diào)試接口 0103、以太網(wǎng)接口 0104、RS-232串口 0105,顯示單元0106共同構(gòu)成來完成與ARM9微處理器02的協(xié)調(diào)工作;其中 輸入單元0101,與接口部分011連接,負(fù)責(zé)完成RNA序列的輸入;接口部分.011負(fù)責(zé)與ARM9微處理器02進(jìn)行連接通信;顯示單元0106,與接口部分011連接,負(fù)責(zé)完成RNA識別結(jié)果的輸出顯示。
【文檔編號】G06F19/18GK103593587SQ201310582463
【公開日】2014年2月19日 申請日期:2013年11月20日 優(yōu)先權(quán)日:2013年11月20日
【發(fā)明者】劉元寧, 張 浩, 艾露露, 段云娜, 李志 , 胡明剛, 馬知行, 李陽 申請人:吉林大學(xué)