本發(fā)明屬于生物信息處理,具體涉及一種基于ngs數(shù)據(jù)準確高效評估基因編輯效率的方法及存儲介質(zhì)和電子設備。
背景技術(shù):
1、基因編輯技術(shù)使得更加精確的基因調(diào)控成為可能。傳統(tǒng)的基因編輯技術(shù)包括人工介導的鋅指核酸酶(zfn)技術(shù)、類轉(zhuǎn)錄激活因子效應物核酸酶(talen)技術(shù)、成簇規(guī)律的間隔短回文重復相關蛋白核酸酶(crispr/cas9)技術(shù),其靶向幾乎任何基因組位點,并通過非同源末端連接或同源重組修復來誘導細胞的dna修復機制,從而引發(fā)dna的插入或缺失突變,但精準度方面存在一定的局限。單堿基編輯技術(shù)通過精確修飾單個堿基,能夠?qū)崿F(xiàn)對關鍵氨基酸的改變,除了通過引入終止密碼子產(chǎn)生基因功能缺失突變外,還可以調(diào)整啟動子區(qū)的調(diào)控位點以實現(xiàn)對基因表達的調(diào)控,這一技術(shù)的發(fā)展在遺傳疾病的基因治療以及生物性狀的改造等領域具有重要的意義。
2、隨著基因編輯技術(shù)的廣泛應用,基因編輯效率的評估已成為主要問題之一。ngs技術(shù)能夠在短時間內(nèi)同時對大量樣本進行高通量測序,大大降低了測序成本,并顯著提高了數(shù)據(jù)處理速度。此外,ngs技術(shù)提供了更高的測序深度和覆蓋率,使得對復雜突變和低頻突變的檢測更加敏感和準確。這使得ngs技術(shù)在基因組編輯的系統(tǒng)分析中,尤其是在處理大量樣本和復雜突變時,成為一種高效且可靠的技術(shù)手段。
3、目前,已有幾種基于ngs數(shù)據(jù)對基因編輯靶位點插入和缺失的reads進行定量分析的生物信息學工具。其中,值得注意的工具有hi-tom、crispresso2、crispr-grant、crisprstitch、crisprmatch和cris.py。在這些工具中,hi-tom和crispresso2都是基于網(wǎng)絡瀏覽器開發(fā)的,具有友好的用戶操作界面。然而,hi-tom和crispresso2都對上傳的數(shù)據(jù)文件大小有限制。此外,hi-tom無法自定義條形碼標簽序列來拆分ngs混池測序數(shù)據(jù),也無法批量分析樣本測序數(shù)據(jù),而crispresso2不具備拆分ngs混池測序數(shù)據(jù)的功能,同時一些實驗室存儲敏感數(shù)據(jù)的計算機往往未聯(lián)網(wǎng),導致網(wǎng)絡瀏覽器服務無法離線使用。crispr-grant和crisprstitch提供了跨平臺的圖形用戶界面用于ngs數(shù)據(jù)分析,具有較好的適配性。然而,crispr-grant無法批量分析樣本測序數(shù)據(jù)和拆分ngs混池測序數(shù)據(jù),并且輸入文件必須是未壓縮的,導致占用大量的硬盤存儲空間。crisprstitch雖然提供了跨平臺的圖形用戶界面和較好的結(jié)果可視化,但其比對算法的質(zhì)量較差,對后續(xù)分析結(jié)果的準確性產(chǎn)生一定的影響。crisprmatch雖然具有批量分析樣本測序數(shù)據(jù)能力和較好的結(jié)果可視化,但是無法拆分ngs混池測序數(shù)據(jù)。cris.py即無法批量分析樣本測序數(shù)據(jù),也無法拆分ngs混池測序數(shù)據(jù)。同時,上述6種工具均無法基于ngs數(shù)據(jù)對單堿基編輯進行編輯效率評估。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種基于ngs數(shù)據(jù)準確高效評估基因編輯效率的方法,通過將條形碼標簽序列拆分、構(gòu)建參考基因組索引和字典、拆分后獲得每個樣本的ngs數(shù)據(jù)與參考基因組比對、統(tǒng)計比對結(jié)果的比對率和構(gòu)建比對結(jié)果索引、比對結(jié)果格式轉(zhuǎn)換、評估基因編輯靶位點的編輯效率等整合,實現(xiàn)并行運算和準確高效多基因、大樣本的基因編輯效率。
2、本發(fā)明提供了一種基于ngs數(shù)據(jù)準確高效評估基因編輯效率的方法,包括以下步驟:
3、根據(jù)測序樣本信息和每種樣本的條形碼標簽序列對ngs混池測序數(shù)據(jù)進行拆分,得到的單個樣本的ngs數(shù)據(jù);
4、構(gòu)建參考基因組的索引和字典;
5、將所述單個樣本的ngs數(shù)據(jù)與構(gòu)建的參考基因組索引進行比對,獲得與參考基因組索引比對結(jié)果;
6、統(tǒng)計所述與參考基因組索引比對結(jié)果的比對率,并獲得與參考基因組索引的比對結(jié)果;
7、將所述與參考基因組索引的比對結(jié)果轉(zhuǎn)換為tsv格式的比對結(jié)果;
8、根據(jù)測序樣本信息、基因編輯方式和所述tsv格式的比對結(jié)果為指標,評估每個樣本中基因編輯靶位點的編輯效率:
9、當所述基因編輯方式為傳統(tǒng)基因編輯時,對基因編輯靶位點插入和缺失的reads數(shù)進行定量,得到基因編輯靶位點的編輯效率;
10、當基因編輯方式為單堿基編輯,對基因編輯靶位點符合原始堿基突變?yōu)槟繕藟A基的單核苷酸多態(tài)性的reads數(shù)進行定量,得到基因編輯靶位點的編輯效率。
11、優(yōu)選的,所述對ngs混池測序數(shù)據(jù)進行拆分的工具包括fastq-multx工具;
12、所述參考基因組索引的構(gòu)建用工具包括bwa?index工具;
13、所述參考基因組字典的構(gòu)建用工具包括gatk?createsequencedictionary工具;
14、所述比對用工具包括bwa?mem工具;
15、所述統(tǒng)計所述與參考基因組索引比對結(jié)果的比對率的工具包括samtoolsflagstat工具;
16、所述構(gòu)建所述與參考基因組索引比對結(jié)果的索引的工具包括samtools?index工具;
17、tsv格式轉(zhuǎn)化用工具包括sam2tsv工具。
18、優(yōu)選的,所述構(gòu)建參考基因組的索引和字典的方法為計算集群并行運算的方法;
19、所述計算集群并行運算的方法為config配置文件中的每個參考基因組分別創(chuàng)建構(gòu)建參考基因組索引和字典的任務,然后利用pbs任務管理系統(tǒng)將所述創(chuàng)建的每個參考基因組的任務批量投遞到計算集群上,以并行運算的方式同時對每個參考基因組構(gòu)建索引和字典,并且對所述投遞到計算節(jié)點上的任務實時監(jiān)控,以確保每個參考基因組任務成功完成構(gòu)建,同時記錄每個參考基因組任務的運算日志。
20、優(yōu)選的,所述評估每個樣本中基因編輯靶位點的編輯效率的方法包括以下步驟:
21、(s1)根據(jù)測序樣本信息中的基因編輯靶位點在參考基因組上的位置,確定基因編輯靶位點的編輯范圍;
22、(s2)逐行讀取tsv格式的比對結(jié)果的內(nèi)容,將完全沒有比對到參考基因組的reads、軟剪切和硬剪切的reads進行過濾,獲得與參考基因組比對的高質(zhì)量reads,然后提取所述獲得與參考基因組比對的高質(zhì)量reads在步驟(s1)確定的基因編輯靶位點的編輯范圍內(nèi)每個位置上的堿基信息;
23、(s3)根據(jù)步驟(s2)提取的與參考基因組比對的高質(zhì)量reads在編輯范圍內(nèi)每個位置上的堿基突變信息,對與參考基因組比對的高質(zhì)量reads糾錯,獲得糾錯后的reads;
24、(s4)根據(jù)步驟(s3)獲得糾錯后的reads,統(tǒng)計獲得步驟(s1)確定基因編輯靶位點的編輯范圍內(nèi)總reads數(shù)目和不同變異類型的reads數(shù)目;
25、(s5)計算根據(jù)步驟(s4)獲得不同變異類型的reads數(shù)目占總reads數(shù)目的百分比,以所述不同變異類型的reads數(shù)目占總reads數(shù)目的百分比作為每個樣本中基因編輯靶位點的編輯效率。
26、優(yōu)選的,步驟(s1)中所述基因編輯靶位點的編輯范圍根據(jù)不同種類的基因編輯方式進行具體確定:
27、當所述基因編輯方式為傳統(tǒng)基因編輯,則基因編輯靶位點的編輯范圍為基因編輯靶位點在參考基因組上的位置減去10bp到基因編輯靶位點在參考基因組上的位置加上10bp,共20bp的范圍;
28、當所述基因編輯方式為單堿基編輯時,則基因編輯靶位點的編輯范圍為目標堿基在參考基因組上的位置。
29、優(yōu)選的,步驟(s2)中所述對與參考基因組比對的高質(zhì)量reads糾錯的方法為統(tǒng)計高質(zhì)量reads在編輯范圍內(nèi)每個位置上出現(xiàn)的不同堿基的次數(shù),以出現(xiàn)次數(shù)最多的堿基作為該位置的正確堿基;如果不同堿基出現(xiàn)的次數(shù)相同,則不進行糾錯。
30、優(yōu)選的,步驟(s4)中所述不同變異類型包括以下至少一種:插入、缺失和單核苷酸多態(tài)性;
31、步驟(s5)中所述不同變異類型的reads數(shù)目占總reads數(shù)目的百分比作為每個樣本中基因編輯靶位點的編輯效率根據(jù)編輯方式的不同進行如下計算:
32、當所述編輯方式為傳統(tǒng)基因編輯,則以插入和缺失的reads數(shù)目占總reads數(shù)目的百分比作為每個樣本中基因編輯靶位點的編輯效率;
33、當所述編輯方式為單堿基編輯,則以符合原始堿基突變?yōu)槟繕藟A基的單核苷酸多態(tài)性reads數(shù)目占總reads數(shù)目的百分比作為每個樣本中基因編輯靶位點的編輯效率。
34、優(yōu)選的,還包括將所述方法的每步驟結(jié)果輸出到對應結(jié)果目錄中,在輸出目錄中創(chuàng)建readme文件,對各輸出結(jié)果目錄進行詳細說明。
35、本發(fā)明提供了一種計算機可讀存儲介質(zhì),用于存儲計算機指令、程序、代碼集或指令集;當所述計算機指令、程序、代碼集或指令集在計算機上運行時,使得計算機執(zhí)行所述基于ngs數(shù)據(jù)準確高效評估基因編輯效率的方法。
36、本發(fā)明提供了一種電子設備,包括處理器和存儲器,所述存儲器用于存儲程序;所述處理器用于運行所述存儲程序,所述存儲程序的運行是實現(xiàn)所述基于ngs數(shù)據(jù)準確高效評估基因編輯效率的方法。
37、本發(fā)明提供了一種基于ngs數(shù)據(jù)準確高效基因編輯效率的方法,是將ngs混池測序數(shù)據(jù)根據(jù)條形碼標簽序列拆分、構(gòu)建參考基因組索引和字典、拆分后獲得每個樣本的ngs數(shù)據(jù)與參考基因組比對、統(tǒng)計比對結(jié)果的比對率和構(gòu)建比對結(jié)果索引、比對結(jié)果轉(zhuǎn)換為tsv格式的比對結(jié)果、評估每個樣本中基因編輯靶位點的編輯效率這六部分流程整合到一起,以適應基于ngs數(shù)據(jù)準確高效基因編輯效率的需求。本發(fā)明所述方法能夠有效避免現(xiàn)有工具對數(shù)據(jù)文件的大小限制,可以自定義條形碼標簽序列用于拆分ngs混池測序數(shù)據(jù),可以利用主流的比對算法工具獲得高準確率的比對結(jié)果,還可以利用計算集群的優(yōu)勢,通過并行運算的方式準確高效多基因、大量樣本的基因編輯效率。