本發(fā)明涉及dna存儲,尤其涉及一種納米孔測序快速讀出短片段的dna存儲方法。
背景技術(shù):
1、隨著信息技術(shù)的數(shù)字化、網(wǎng)絡(luò)化、智能化趨勢不斷深化,數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長。傳統(tǒng)的介質(zhì)面臨成本、能耗等諸多挑戰(zhàn),無法滿足快速增長的數(shù)據(jù)存儲需求。dna數(shù)據(jù)存儲具有超高物理存儲密度、介質(zhì)長期穩(wěn)定性,已經(jīng)成為一個非常有潛力的未來存儲介質(zhì)。隨著dna高通量合成技術(shù)與測序技術(shù)的快速發(fā)展,利用dna序列存儲數(shù)字信息,并從測序讀段中恢復(fù)原始數(shù)字信息,已經(jīng)具備技術(shù)可行性。2021年美國半導(dǎo)體產(chǎn)業(yè)學(xué)會發(fā)布《半導(dǎo)體10年計(jì)劃》,dna存儲成為未來大量數(shù)據(jù)存儲的四種主要介質(zhì)之一。dna是一種生物大分子,具有良好的穩(wěn)定性。與現(xiàn)有的磁、光、電為介質(zhì)的存儲媒介相比,dna作為數(shù)據(jù)存儲介質(zhì)具有體積小、密度大,介質(zhì)可用時間持久等特點(diǎn)。在密度方面,哥倫比亞大學(xué)在science發(fā)表論文證實(shí)dna的存儲密度可以達(dá)到215pb/g;天津大學(xué)采用復(fù)雜度更低的乘積編碼,合成27萬多條短鏈dna,實(shí)現(xiàn)了dna數(shù)據(jù)存儲密度125pb/g(《中國科學(xué)·生命科學(xué)》,2020)。在存儲穩(wěn)定性方面,grass等證實(shí)若將編碼信息的dna封裝在二氧化硅等材料中則可以保存數(shù)千年。
2、dna數(shù)據(jù)存儲是采用現(xiàn)代信息編碼技術(shù)將二進(jìn)制數(shù)字信息轉(zhuǎn)化為dna序列,通過高通量dna合成實(shí)現(xiàn)數(shù)據(jù)寫入實(shí)體的dna,通過高通量dna測序技術(shù)實(shí)現(xiàn)大量dna分子的并行讀出。其介質(zhì)的存儲形態(tài)為寡核苷酸池,可以以干粉、溶液或者其他強(qiáng)化封裝的形式實(shí)現(xiàn)介質(zhì)保存。數(shù)據(jù)讀出時一般采用二代高通量測序如illumina、ion?torrent平臺,均基于邊合成邊測序技術(shù),測序過程耗時。而第三代納米孔測序可實(shí)現(xiàn)實(shí)時單分子測序r10芯片以每秒400個堿基的速率讀出,可以快速讀出短片段dna序列。近年來,隨著固態(tài)納米孔技術(shù)的快速發(fā)展,由于納米孔測序的通量不斷提高,采用納米孔實(shí)現(xiàn)大規(guī)模dna分子池的快速讀出成為一種非??尚械姆桨?。
3、但是,納米孔測序具有較高的初始錯誤率,包括:難以處理的堿基插入刪節(jié)錯誤。yazdi等采用一種針對長片段dna序列的約束編碼和均聚物校驗(yàn)碼的編碼方案,在200×測序覆蓋度下實(shí)現(xiàn)數(shù)據(jù)無錯恢復(fù)。天津大學(xué)提出一種ldpc碼疊加偽隨機(jī)序列構(gòu)造的水印碼,該方法針對長度為254kb的酵母人工染色體,利用前向-后向算法計(jì)算偏移路徑,識別并糾正堿基的插入刪節(jié)錯誤,在16.8×測序覆蓋度下可恢復(fù)數(shù)據(jù)。該方法基于水印與稀疏化編碼的方法,可糾正大量的插入與刪節(jié)方法,是一種系統(tǒng)化的方法,研究者實(shí)現(xiàn)了利用納米孔快速測序讀出存儲在一條長度為254kb的酵母人工染色體中的數(shù)據(jù)。press等開發(fā)一種級聯(lián)碼編碼方案,內(nèi)碼為貪婪搜索解碼的哈希編碼(hedges),也可以用于糾正插入刪節(jié)錯誤,但是該方法沒有在三代納米孔測序的試劑環(huán)境進(jìn)行測試。
4、針對納米孔測序,研究者提出一種滾環(huán)連環(huán)共識(r2c2)方法,可生成高準(zhǔn)確性的納米孔測序共識序列。微軟的研究者利用聚合酶鏈反應(yīng)和gibson組裝技術(shù)將短片段dna序列組裝成大的dna片段,該方法在22×測序覆蓋度下實(shí)現(xiàn)數(shù)據(jù)恢復(fù),但復(fù)雜的樣本制備降低了dna數(shù)據(jù)存儲的實(shí)用性。然而,利用納米孔測序直接對短片段dna序列進(jìn)行測序讀出尚無有效方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種納米孔測序快速讀出短片段的dna存儲方法,本發(fā)明對納米孔測序得到的測序讀段副本執(zhí)行基于概率的多序列合并,實(shí)現(xiàn)了數(shù)據(jù)快速、無錯恢復(fù),詳見下文描述:
2、一種納米孔測序快速讀出短片段的dna存儲方法,所述方法包括以下步驟:
3、(1)將待存儲的數(shù)據(jù)采用分組糾錯碼c1(n1,k1)進(jìn)行編碼,k1為待存儲數(shù)據(jù)長度,n1為分組糾錯碼碼字長度,碼字交織后進(jìn)行分段,將部分分段碼字稀疏化后序列疊加偽噪聲序列,組合等長的另外分段,按照預(yù)設(shè)的映射規(guī)則映射為數(shù)據(jù)dna序列,標(biāo)號部分采用偽隨機(jī)序列伴隨的短分組糾錯碼c2(n2,k2),k2為標(biāo)號部分編碼前的比特長度,n2為短分組糾錯碼碼字長度,標(biāo)號范圍為為區(qū)分?jǐn)?shù)據(jù)塊,編碼dna序列兩端分別添加引物序列;
4、(2)合成后的寡核苷酸池進(jìn)行聚合酶鏈?zhǔn)椒磻?yīng)實(shí)現(xiàn)樣本擴(kuò)增,對dna樣本進(jìn)行建庫和三代測序;
5、(3)識別測序讀段的雙端引物,截取讀段有效的數(shù)據(jù)部分,利用標(biāo)號部分的水印序列w2循環(huán)移位識別并糾正標(biāo)號序列中的插入刪節(jié)錯誤,標(biāo)號識別用于讀段分簇,簇內(nèi)每條讀段解映射為雙層比特序列,其中上層比特序列集合為r,下層比特序列集合為s,利用數(shù)據(jù)部分水印序列w1推導(dǎo)簇內(nèi)上層比特序列的編碼碼字概率v,并基于多概率合并的方式實(shí)現(xiàn)多序列合并,修正插入刪節(jié)錯誤,得到一致性上層序列,將其用于修正簇內(nèi)下層比特序列,得到一致性下層序列,將修正后的碼字送入譯碼器執(zhí)行軟判決糾錯譯碼,恢復(fù)原始數(shù)據(jù)。
6、其中,所述步驟(1)的具體為:
7、(1.1)采用分組糾錯碼c1(n1,k1)對長度為k1的待存儲數(shù)據(jù)進(jìn)行編碼,生成長度為n1的碼字序列,長度為n1的碼字序列交織后,分為長度相等的p段;
8、(1.2)分段碼字分割為上下兩層比特序列,上層比特序列長度為4m,下層比特序列長度為5m,將上層比特序列按照4比特轉(zhuǎn)5比特的方式稀疏化處理,然后疊加等長的水印序列,n1為9m的整數(shù)倍;
9、(1.3)按照映射規(guī)則:00→a,01→t,10→g,11→c將上層比特序列與下層比特序列映射為編碼dna序列;
10、(1.4)采用短分組糾錯碼c2(n2,k2)對范圍為的標(biāo)號進(jìn)行編碼,k2為標(biāo)號部分編碼前的比特長度,n2為短分組糾錯碼碼字長度,編碼后的碼字序列與水印序列按照與步驟(1.3)相同的映射規(guī)則,得到具有強(qiáng)糾錯能力的標(biāo)號dna序列;
11、(1.5)添加標(biāo)號dna序列到數(shù)據(jù)dna序列左端,并在兩端添加用于擴(kuò)增的引物序列。
12、其中,所述步驟(3)的具體步驟為:
13、(3.1)根據(jù)讀段與雙端引物的編輯距離,篩選測序讀段,截取位于兩端引物間的標(biāo)號部分和數(shù)據(jù)部分,將標(biāo)號部分解映射得到對應(yīng)已知偽隨機(jī)序列的部分,利用循環(huán)移位和動態(tài)規(guī)劃識別并修正標(biāo)號部分的插入、刪節(jié)錯誤后執(zhí)行糾錯譯碼,將測序讀段分簇;
14、(3.2)將簇內(nèi)c個讀段副本解映射為雙層比特序列,其中上層比特序列集合r={r1,r2,…,rc},下層比特序列集合s={s1,s2,…,sc},從集合r依次取ri作為觀測向量,結(jié)合水印序列w1,執(zhí)行基于隱馬爾可夫模型的前向-后向算法,估計(jì)每個狀態(tài)的前向度量和后向度量,以及包含符號軟信息的中間度量,輸出簇內(nèi)c個讀段的長度一致的符號概率結(jié)果v={v1,v2,…,vc},進(jìn)一步利用基于概率合并的多序列合并策略,得到簇內(nèi)共識符號概率vc,依據(jù)每個符號位置的最大可能概率,推斷上層符號,得到共識上層比特序列;
15、(3.3)將糾錯后的共識上層比特序列與簇內(nèi)c個讀段得到的上層比特序列集合比對,識別錯誤位置,依次修正下層比特序列集合的插入刪節(jié)錯誤,將簇內(nèi)修正后的下層比特序列執(zhí)行多數(shù)投票判決得到共識下層比特序列,與糾錯后的上層比特序列拼接,生成軟判決譯碼的概率信息,執(zhí)行糾錯譯碼,恢復(fù)原始數(shù)據(jù)。
16、其中,所述步驟(3.1)的具體步驟為:
17、(3.1.1)將測序讀段與設(shè)計(jì)的雙端引物進(jìn)行比對,篩選測序讀段,并確定雙端引物在測序讀段中的邊界位置;
18、(3.1.2)截取標(biāo)號部分,利用相關(guān)檢測識別水印序列窗口,將與窗口對應(yīng)的標(biāo)號序列解映射得到受損的水印序列r0和受損的標(biāo)號比特序列s0;
19、(3.1.3)將受損的水印序列r0和無錯的水印序列w2依次循環(huán)移位,利用動態(tài)規(guī)劃識別插入刪節(jié)位置,用于對應(yīng)修正受損的標(biāo)號比特序列s0,修正后的結(jié)果執(zhí)行糾錯譯碼,據(jù)此將讀段分簇。
20、其中,所述步驟(3.2)的具體步驟為:
21、(3.2.1)根據(jù)納米孔測序的錯誤特性,估計(jì)測序讀段插入錯誤概率p,刪除錯誤概率
22、i?pd,和替代錯誤概率ps構(gòu)建錯誤傳輸模型,上層讀出序列ri,i∈[1,c],作為觀測向量,堿基偏移量作為隱藏狀態(tài),執(zhí)行基于隱馬爾可夫模型的前向-后向算法,估計(jì)每個狀態(tài)的前向度量和后向度量,以及包含符號軟信息的中間度量;
23、(3.2.2)對于長度為n的dna序列,符號個數(shù)為n/5,利用軟判決的前向-后向算法,計(jì)算簇內(nèi)每條讀段的符號概率分布v={p1,p2,…,pn/5},其中pj為第j個符號的概率分布,pj=(pj,0,pj,1...,pj,k),
24、(3.2.3)根據(jù)每一簇內(nèi)計(jì)算的概率信息v={v1,v2,…,vc},對應(yīng)位置依次相乘并歸一化,輸出每一簇合并后的共識符號概率vc={p1′,p2′,…,pn/5′},其中pj′為第j個符號的概率分布,pj′=(pj,0′,pj,1′...,pj,k′),
25、(3.2.4)依據(jù)每個符號位置的最大可能概率max(pj,0′,pj,1′,…,pj,15′),推斷上層符號序列,得到共識上層比特序列。
26、其中,所述步驟(3.3)的具體步驟為:
27、(3.3.1)將糾錯后的共識上層比特序列與簇內(nèi)c個測序讀段解映射的原始攜帶錯誤的上層比特序列進(jìn)行比對,識別每條讀段發(fā)生插入刪除錯誤的位置;
28、(3.3.2)根據(jù)識別出的插入刪節(jié)錯誤位置,輔助修正對應(yīng)下層的受損碼字序列,將簇內(nèi)所有修正后的下層比特序列執(zhí)行多數(shù)投票判決,計(jì)算得到共識下層比特序列;
29、(3.3.3)組合共識上層比特序列和共識下層比特序列,計(jì)算用于軟判決譯碼的概率軟信息;
30、(3.3.4)將概率軟信息送入譯碼器,執(zhí)行對數(shù)域置信傳播碼算法,糾正剩余的替代錯誤,得到譯碼碼字,恢復(fù)原始數(shù)據(jù)。
31、本發(fā)明提供的技術(shù)方案的有益效果是:
32、1、本發(fā)明利用一種數(shù)據(jù)部分具有高編碼效率,標(biāo)號部分具有強(qiáng)糾錯能力的編碼策略,將數(shù)據(jù)文件編碼成dna序列;合成寡核苷酸池作為數(shù)據(jù)存儲介質(zhì),利用納米孔測序快速獲取測序讀段;利用雙端引物識別與高可靠的標(biāo)號識別實(shí)現(xiàn)測序讀段快速分簇;
33、2、本發(fā)明針對高插入刪節(jié)錯誤問題,利用軟判決前向-后向算法計(jì)算的符號概率,實(shí)現(xiàn)基于概率的多序列合并,使糾錯算法能夠更準(zhǔn)確地發(fā)揮作用;
34、3、本發(fā)明為寡核苷酸池存儲使用納米孔測序技術(shù)實(shí)現(xiàn)快速讀出提供了解決方案。