本發(fā)明涉及合成生物學(xué)及計(jì)算生物學(xué),尤其涉及一種基于機(jī)器學(xué)習(xí)模型輔助分析5'?utr對(duì)mrna翻譯效率影響的方法。
背景技術(shù):
1、mrna疫苗是一種新型疫苗,其工作原理是利用rna分子攜帶編碼病原體相關(guān)蛋白質(zhì)的信息,使人體細(xì)胞產(chǎn)生相應(yīng)的抗原蛋白,從而誘導(dǎo)免疫反應(yīng)。與傳統(tǒng)疫苗相比,mrna疫苗具有制備快速、生產(chǎn)成本較低、安全性高等優(yōu)勢(shì)。mrna序列設(shè)計(jì)是mrna疫苗研發(fā)的關(guān)鍵步驟。在設(shè)計(jì)mrna序列時(shí),需要確定最優(yōu)的抗原蛋白序列以及最佳的rna序列和形態(tài)結(jié)構(gòu),以提高疫苗的免疫原性和穩(wěn)定性。此外,rna分子容易被降解,因此需要采用化學(xué)修飾等手段對(duì)rna進(jìn)行改良,提高其穩(wěn)定性和免疫耐受性。rna的轉(zhuǎn)化效率也是關(guān)鍵因素之一,因?yàn)橹挥心軌蚋咝мD(zhuǎn)化為蛋白質(zhì)的rna才能產(chǎn)生充分的免疫反應(yīng)。
2、近年來,研究發(fā)現(xiàn)mrna?5'非翻譯區(qū)(5'?untranslated?region,5'?utr)存在著重要的調(diào)控元件,包括內(nèi)部核糖體進(jìn)入位點(diǎn)(internal?ribosome?entry?site,ires)、5'?utr二級(jí)結(jié)構(gòu)、g-四聚體(g-quadruplexes,g4)、5'帽子結(jié)構(gòu)、上游開放閱讀框(upstream?openreading?frame,u?orf)、kozak序列、上游起始密碼子atg(upstream?atg,u?atg)、5'?utr的長(zhǎng)度、翻譯起始atg后18個(gè)堿基對(duì)、莖環(huán)結(jié)構(gòu)和mrna的二級(jí)結(jié)構(gòu)。5'?utr對(duì)基因表達(dá)的調(diào)控涉及多個(gè)層面,對(duì)維持mrna的穩(wěn)定性、核內(nèi)運(yùn)輸、rna剪接和加工以及細(xì)胞增殖等皆有重要作用。當(dāng)下比較熱門的轉(zhuǎn)基因技術(shù)就有一些通過u?orf對(duì)翻譯水平進(jìn)行微型調(diào)控。
3、此外,5'?utr的核苷酸組成影響翻譯起始,并且核苷酸之間可能存在著隨機(jī)上位效應(yīng)?;虮磉_(dá)主要涉及轉(zhuǎn)錄調(diào)控、轉(zhuǎn)錄后調(diào)控、翻譯調(diào)控和翻譯后調(diào)控4個(gè)層面,其影響因子主要包括編碼序列和utr的長(zhǎng)度、核苷酸組成和結(jié)構(gòu)、atg附近的序列是否符合kozak規(guī)則、u?orf的存在、mi?rna的可能靶位點(diǎn)、密碼子用法、氨基酸組成和蛋白質(zhì)降解信號(hào)等,基因表達(dá)的起始過程是研究調(diào)控機(jī)制的關(guān)鍵。
4、5'?utr在轉(zhuǎn)錄及翻譯水平的調(diào)控主要體現(xiàn)在細(xì)胞增殖、分化、生長(zhǎng)發(fā)育、凋亡和應(yīng)激條件下生命活動(dòng)的正常進(jìn)行,并且在研究腫瘤發(fā)生過程、癌癥的作用機(jī)理中發(fā)揮重要的作用。雖然mrna疫苗的序列設(shè)計(jì)已經(jīng)可以通過添加化學(xué)修飾基團(tuán)、密碼子使用優(yōu)化和5'和3'?utr優(yōu)化等技術(shù)手段使得mrna的穩(wěn)定性和翻譯效率能夠大幅增加。但相較于其他優(yōu)化方式,5'?utr的優(yōu)化方式是一種針對(duì)性強(qiáng)、穩(wěn)定性好的優(yōu)化方式,不需要改變r(jià)na的編碼序列,不會(huì)影響疫苗的免疫原性,可以顯著提高rna的翻譯效率和穩(wěn)定性。但是并沒有一種有效的方法針對(duì)5'?utr的序列組成進(jìn)行優(yōu)化,且5'?utr包含的許多順式調(diào)控元件對(duì)于mrna翻譯效率有著非常大的影響。
5、傳統(tǒng)的實(shí)驗(yàn)方法來分析5'?utr對(duì)于mrna翻譯效率的影響,存在以下弊端:
6、1、te值(翻譯效率,translation?efficiency)或mrl值(平均核糖體載量,meanribosome?load)難以反映mrna疫苗在體內(nèi)的蛋白質(zhì)表達(dá)量:目前的實(shí)驗(yàn)基本上都是使用te值或者mrl來反映蛋白質(zhì)表達(dá)量,te值是核糖體保護(hù)片段(rpf,ribosome?protectedfragments)與相應(yīng)的mrna水平的比率,反映的是mrna的相對(duì)翻譯效率,并不直接反映單個(gè)mrna分子產(chǎn)生蛋白質(zhì)的實(shí)際數(shù)量;mrl值是在給定時(shí)間點(diǎn)mrna上核糖體的平均數(shù)量,忽略了翻譯的動(dòng)態(tài)性和復(fù)雜性。
7、2、5'?utr調(diào)控機(jī)制的復(fù)雜性:5'?utr包含的許多順式調(diào)控元件對(duì)于mrna翻譯效率有著非常大的影響,理性設(shè)計(jì)5'?utr序列以增強(qiáng)蛋白質(zhì)的翻譯效率,需要精確控制這些順式元件的組合和位置,但是,由于5'?utr內(nèi)順式元件間的相互作用影響,任意改動(dòng)可能會(huì)降低而非增強(qiáng)翻譯效率。
8、3、無法同時(shí)分析多個(gè)5'?utr序列:傳統(tǒng)的實(shí)驗(yàn)方法通常是針對(duì)單個(gè)5'?utr序列進(jìn)行分析的,無法同時(shí)分析多個(gè)5'?utr序列的翻譯效率變化,從而限制了研究的深入程度。
9、4、時(shí)間和成本高昂:傳統(tǒng)的實(shí)驗(yàn)方法需要進(jìn)行大量的實(shí)驗(yàn)操作和數(shù)據(jù)分析,時(shí)間和成本較高,從而限制了研究的規(guī)模和范圍。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提供一種基于機(jī)器學(xué)習(xí)模型輔助分析5'?utr對(duì)mrna翻譯效率影響的方法,為后續(xù)mrna疫苗的開發(fā)中mrna的序列優(yōu)化提供一個(gè)可行的技術(shù)路線參考,使得mrna疫苗能夠高效地在機(jī)體中表達(dá)出目的蛋白。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于機(jī)器學(xué)習(xí)模型輔助分析5'?utr對(duì)mrna翻譯效率影響的方法,包括如下步驟:
3、s1、構(gòu)建5'?utr質(zhì)粒文庫;
4、s2、將質(zhì)粒文庫中5'?utr質(zhì)粒轉(zhuǎn)錄為單獨(dú)的帶有l(wèi)uciferase-opt熒光素酶的mrna,以luciferase-opt熒光素酶的發(fā)光強(qiáng)度作為mrna的翻譯強(qiáng)度;
5、s3、對(duì)5'?utr質(zhì)粒轉(zhuǎn)錄的mrna進(jìn)行特征分析,特征包括:k-mer頻率、密碼子使用頻率、gc含量百分比、gc含量比率、at含量比率、kozak序列、rna分子最小自由能、平均堿基對(duì)距離;
6、s4、以步驟s3中分析的特征為基礎(chǔ)構(gòu)建隨機(jī)森林算法模型來預(yù)測(cè)5'?utr對(duì)mrna翻譯效率的影響。
7、優(yōu)選地,步驟s1中,構(gòu)建5'?utr質(zhì)粒文庫包括:
8、s11、篩選長(zhǎng)度在100bp-200bp的5'?utr序列,對(duì)篩選的5'?utr序列進(jìn)行相似度聚類;
9、s12、通過基因合成構(gòu)建一個(gè)t7?promoter-5'?utr-?luciferase-opt-3'?utr_pfizer的puc57質(zhì)粒載體;
10、s13、通過pcr的方式獲得5'?utr的基因,通過gibson無縫連接的技術(shù)將5'?utr和puc57質(zhì)粒載體連接成質(zhì)粒,構(gòu)建成一個(gè)質(zhì)粒文庫;
11、s14、將質(zhì)粒文庫通過化學(xué)法轉(zhuǎn)化到dh5α感受態(tài)細(xì)胞中,過夜培養(yǎng),獲得單菌落,挑單菌落擴(kuò)大培養(yǎng),質(zhì)粒抽提,獲得帶有5'?utr的質(zhì)粒。
12、優(yōu)選地,步驟s2中,luciferase-opt熒光素酶的發(fā)光強(qiáng)度的測(cè)定包括:
13、(1)將單獨(dú)的帶有l(wèi)uciferase-opt熒光素酶的mrna轉(zhuǎn)染到hek293細(xì)胞中表達(dá),通過高通量自動(dòng)化酶標(biāo)儀設(shè)備精準(zhǔn)測(cè)定每一條mrna的熒光強(qiáng)度;
14、(2)將帶有bnt-162b2-vaccine疫苗人α-血紅蛋白截短的5'?utr的mrna表達(dá)強(qiáng)度作為標(biāo)準(zhǔn),將測(cè)定的mrna熒光強(qiáng)度做均一化處理來量化mrna的翻譯強(qiáng)度。
15、優(yōu)選地,步驟s4中,模型構(gòu)建的具體步驟包括:
16、s41、特征處理
17、(1)k-mer頻率:通過簡(jiǎn)單的滑動(dòng)窗口算法實(shí)現(xiàn),遍歷整個(gè)序列,記錄每個(gè)k-mer出現(xiàn)的次數(shù),遍歷序列,每次取長(zhǎng)度為k的子序列(稱為k-mer),并統(tǒng)計(jì)每個(gè)k-mer出現(xiàn)的次數(shù);
18、如果k-mer已經(jīng)在kmer_counts字典中,則增加其計(jì)數(shù);否則,將其添加到字典中并設(shè)置計(jì)數(shù)為1;
19、(2)密碼子使用頻率:將輸入的序列翻譯成密碼子序列,將密碼子序列轉(zhuǎn)換為字符串;接下來遍歷這個(gè)字符串,統(tǒng)計(jì)每個(gè)密碼子出現(xiàn)的次數(shù),并將結(jié)果存儲(chǔ)在一個(gè)字典feature_map中;
20、計(jì)算了起始密碼子和終止密碼子的數(shù)量,作為上游開放閱讀框以及上游起始密碼子的評(píng)估依據(jù),并將這些信息也添加到字典feature_map中;
21、(3)gc含量百分比:遍歷輸入的序列字符串,統(tǒng)計(jì)堿基g和c出現(xiàn)的次數(shù),用g和c的總數(shù)量除以序列長(zhǎng)度獲得,將結(jié)果存儲(chǔ)在一個(gè)字典n_count中;
22、(4)gc含量比率:遍歷輸入的序列字符串,統(tǒng)計(jì)堿基g和c出現(xiàn)的次數(shù),用c的數(shù)量除以g的數(shù)量與1的差的絕對(duì)值獲得,將結(jié)果存儲(chǔ)在一個(gè)字典n_count中;
23、(5)at含量比率:遍歷輸入的序列字符串,統(tǒng)計(jì)堿基a和t出現(xiàn)的次數(shù),并用t的數(shù)量除以a的數(shù)量與1的差的絕對(duì)值獲得,將結(jié)果存儲(chǔ)在一個(gè)字典n_count中;
24、(6)kozak序列:在起始密碼子處進(jìn)行序列正則匹配,1表示符合kozak序列,0表示無kozak序列;
25、(7)rna分子最小自由能:輸入dna序列信息,使用rnafold包預(yù)測(cè)二級(jí)結(jié)構(gòu),并輸出最小自由能;
26、(8)平均堿基對(duì)距離:通過rnafold預(yù)測(cè)二級(jí)結(jié)構(gòu)后,調(diào)用mean_bp_distance方法獲?。?/p>
27、(9)5'?utr內(nèi)g四鏈體結(jié)構(gòu)的穩(wěn)定性能量;
28、s42、利用步驟s41中隨機(jī)的序列樣本以及隨機(jī)的特征進(jìn)行決策樹構(gòu)建,提前的特征信息進(jìn)行最小二乘回歸樹構(gòu)建,模型共有100棵最小二乘回歸樹。
29、優(yōu)選地,最小二乘回歸樹構(gòu)建公式包括:
30、和
31、其中, r是對(duì)輸入空間的劃分,選擇第 j個(gè)特征和它的具體數(shù)值 s作為切分變量和切分點(diǎn),這樣就定義了兩個(gè)區(qū)域:和,以此尋找最優(yōu)的切分變量和最優(yōu)的切分點(diǎn) s;
32、
33、其中,是分割后第一個(gè)特征空間的均值,是分割后第二個(gè)特征空間的均值;為特征空間每個(gè)樣本的特征值, j為選取的第 j個(gè)特征,s為具體的特征分割值。
34、本發(fā)明一種基于機(jī)器學(xué)習(xí)模型輔助分析5'?utr對(duì)mrna翻譯效率影響的方法,具有以下有益效果:
35、(1)采用技術(shù)路線是基于干濕實(shí)驗(yàn)結(jié)合的,濕實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)準(zhǔn)確,干實(shí)驗(yàn)分析數(shù)據(jù)方式準(zhǔn)確且高通量;
36、(2)mrna序列優(yōu)化方式是基于100bp-200bp長(zhǎng)度的5'?utr區(qū)域進(jìn)行研究的,這一長(zhǎng)度范圍不僅覆蓋了人類基因組中大部分的5'?utr,還確保了序列多樣性;通過聚類的方式對(duì)數(shù)據(jù)集進(jìn)行精簡(jiǎn),可以緩解機(jī)器學(xué)習(xí)算法模型的構(gòu)建需要大量數(shù)據(jù)集的問題,使得模型經(jīng)過較少的數(shù)據(jù)集訓(xùn)練,依然可以達(dá)到與大數(shù)據(jù)訓(xùn)練的模型差不多的效果;
37、(3)本發(fā)明量化mrna表達(dá)強(qiáng)度是通過高通量的自動(dòng)化的酶標(biāo)儀來測(cè)定的,通過均一化處理得到每條5'?utr的相對(duì)表達(dá)強(qiáng)度,這種測(cè)定方式準(zhǔn)確且高通量,能夠自動(dòng)化處理大規(guī)模的樣本;
38、(4)本發(fā)明建立隨機(jī)森林模型的輸入為5'?utr序列及其標(biāo)注的熒光強(qiáng)度,相對(duì)于傳統(tǒng)的te值或mrl,熒光強(qiáng)度能更好地對(duì)應(yīng)蛋白質(zhì)表達(dá)強(qiáng)度信息,所建立的模型的預(yù)測(cè)精度更高;
39、(5)本發(fā)明對(duì)5'?utr的順式調(diào)控元件進(jìn)行了特征分析,如5'?utr長(zhǎng)度分布分析、上游開放閱讀框uorfs位點(diǎn)分析、上游起始密碼子uaugs堿基分布分析、mrna二級(jí)結(jié)構(gòu)及其最小自由能的預(yù)測(cè)、kozak序列分析與表達(dá)強(qiáng)度的相關(guān)性分析等比較系統(tǒng)的分析,這些特征是蛋白質(zhì)表達(dá)強(qiáng)度的相關(guān)特征,利用這些數(shù)據(jù)建立的隨機(jī)森林模型的預(yù)測(cè)精確度更高;
40、(6)本發(fā)明采用了隨機(jī)森林算法模型,采用了extratreeregressor作為核心算法,這是一種極端隨機(jī)樹回歸器,屬于集成學(xué)習(xí)方法的一種;不同于傳統(tǒng)決策樹算法,極端隨機(jī)樹引入了更高程度的隨機(jī)性;它不僅在選擇數(shù)據(jù)集的子集進(jìn)行訓(xùn)練時(shí)進(jìn)行隨機(jī)采樣,更在每個(gè)節(jié)點(diǎn)的劃分過程中隨機(jī)選擇特征,這一步驟顯著區(qū)別于常規(guī)決策樹在節(jié)點(diǎn)分裂時(shí)基于最優(yōu)特征選擇的做法;這種隨機(jī)性的引入旨在降低模型的方差,提高模型的泛化能力從而得到更優(yōu)的優(yōu)化結(jié)果。
41、下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。