一種基因組代謝網(wǎng)絡(luò)模型自動(dòng)化修正方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物信息學(xué)領(lǐng)域,具體涉及一種使用計(jì)算機(jī)挖掘生物信息數(shù)據(jù)及利用 圖像處理算法和權(quán)重打分機(jī)制的對(duì)基因組代謝網(wǎng)絡(luò)模型自動(dòng)化修正方法。
【背景技術(shù)】
[0002] 隨著基因組高通量測序數(shù)據(jù)的涌現(xiàn),以及大量的生物學(xué)數(shù)據(jù)的產(chǎn)生,基因組代謝 網(wǎng)絡(luò)模型構(gòu)建成為研宄的熱點(diǎn)之一。代謝網(wǎng)絡(luò)構(gòu)建是一個(gè)花費(fèi)大量人力和時(shí)間的過程,因 此大量的自動(dòng)化構(gòu)建的工具應(yīng)運(yùn)而生。通常這些自動(dòng)化工具側(cè)重關(guān)注代謝網(wǎng)絡(luò)粗模型的構(gòu) 建和模擬過程,只有少量的自動(dòng)化工具是針對(duì)代謝網(wǎng)絡(luò)模型的修正過程。目前能夠提供代 謝網(wǎng)絡(luò)模型自動(dòng)化精煉過程的工具有Model SEED、Pathway Tools、RAVEN和SuBliMinaL。
[0003] 代謝網(wǎng)絡(luò)的模型構(gòu)建包括粗模型的構(gòu)建、模型的精煉、數(shù)學(xué)模型的準(zhǔn)換、模型的驗(yàn) 證預(yù)測4個(gè)過程。一個(gè)高質(zhì)量的代謝網(wǎng)絡(luò)模型,必須達(dá)到模型模擬結(jié)果和生物實(shí)際生長表 型一致,否則必須要不斷的重復(fù)精煉修正過程,直到模擬與表型一致。模型的精煉修正無疑 是代謝網(wǎng)絡(luò)模型構(gòu)建過程中最耗時(shí)耗力的過程,少量的模型精煉工具也不能真正實(shí)現(xiàn)真菌 代謝網(wǎng)絡(luò)模型精煉過程的自動(dòng)化。模型的精煉過程必須包括代謝漏洞的填補(bǔ),反應(yīng)方向的 確定,反應(yīng)區(qū)間定位等。Model SEED和Pathway Tools只能提供原核生物的代謝網(wǎng)絡(luò)模型 的精煉自動(dòng)化過程,不能提供反應(yīng)區(qū)間的定位。RAVEN和SuBliMinaL基于Wolf PSORT蛋白 區(qū)間預(yù)測數(shù)據(jù)庫的基礎(chǔ)上能夠?qū)崿F(xiàn)自動(dòng)化定位反應(yīng)區(qū)間,但是Wolf PSORT只是一個(gè)基于氨 基酸組成為特征的蛋白質(zhì)在線數(shù)據(jù)庫。研宄表明,蛋白質(zhì)區(qū)間定位在基于氨基酸組成、二肽 和物理化學(xué)特性這3種特征雜合時(shí),預(yù)測結(jié)果更準(zhǔn)確。
【發(fā)明內(nèi)容】
[0004] 為了解決上述問題,本發(fā)明公開了一種更加省時(shí)、方便,且所得修正模型更為全 面、準(zhǔn)確的基因組代謝網(wǎng)絡(luò)模型自動(dòng)化修正方法。
[0005] 本發(fā)明的技術(shù)方案如下:
[0006] 一種基因組代謝網(wǎng)絡(luò)模型自動(dòng)化修正方法,包括以下步驟:
[0007] (1)、根據(jù)基因組代謝網(wǎng)絡(luò)模型中的漏洞代謝物列表,填補(bǔ)物種的特異性反應(yīng);
[0008] (2)、根據(jù)物種的特異性反應(yīng)中代謝物名稱,確定模型中反應(yīng)的方向;
[0009] (3)、確定模型中最佳反應(yīng)區(qū)間。
[0010] 其進(jìn)一步的技術(shù)方案為,步驟(1)包括:
[0011] (IA)、使用matlab軟件,將基因組代謝網(wǎng)絡(luò)粗模型轉(zhuǎn)化為計(jì)算機(jī)可讀格式,并進(jìn) 行代謝物漏洞查找;
[0012] (IB)、向KEGG網(wǎng)站的自動(dòng)注釋服務(wù)器KASS提交物種的基因組蛋白序列,KASS自 動(dòng)注釋返回該蛋白序列發(fā)生的Pathway list;
[0013] (1C)、在粗模型中確定漏洞代謝物的反應(yīng)途徑,并在步驟(IB)中得到的Pathway list中找到該反應(yīng)途徑;
[0014] (ID)、根據(jù)步驟(1C)中找到的漏洞代謝物的反應(yīng)途徑得到基因代謝網(wǎng)絡(luò)的圖譜 的URL地址,向URL地址發(fā)送http請求,得到服務(wù)器端響應(yīng)的網(wǎng)頁圖片記為圖譜T,圖譜T 中包括代謝途徑方框;
[0015] (1E)、點(diǎn)擊步驟(ID)中圖譜T的代謝途徑方框,進(jìn)入包含所有反應(yīng)的頁面page,頁 面page中包括蛋白序列的EC號(hào),每一個(gè)EC號(hào)對(duì)應(yīng)圖譜T中的一個(gè)具體反應(yīng),EC號(hào)的URL 地址指向具體的反應(yīng)方程式;
[0016] (IF)、獲取EC號(hào)在頁面page中所對(duì)應(yīng)的KO號(hào)和具體的反應(yīng)方程Reaction,新 建文件KO-EC-Reaction. txt,將EC號(hào)和與之對(duì)應(yīng)的KO號(hào)、反應(yīng)方程Reaction寫入文件 KO-EC-Reaction. txt ;
[0017] (IG)、按行讀取步驟(IF)中文件KO-EC-Reaction. txt的內(nèi)容,循環(huán)遍歷,提取 KO-EC-Reaction文件中包含漏洞代謝物的反應(yīng),新建文件EC-KO-Break. txt,將包含漏洞 代謝物的EC號(hào),KO號(hào),反應(yīng)方程Reaction的信息保存在文件EC-KO-Break. txt中;
[0018] (IH)、確定步驟(IG)提取的包含漏洞代謝物的反應(yīng)是否是該基因組的特異性反 應(yīng);
[0019] (II)、新建new-rec. txt文件,將特異性反應(yīng)保存到new-rec. txt文件中,遍歷 new-rec. txt文件中的每一個(gè)反應(yīng),查看粗模型中是否存在該反應(yīng),不存在則添加。
[0020] 其進(jìn)一步的技術(shù)方案為,所述步驟(IH)具體包括以下步驟:
[0021] (IHl)、通過網(wǎng)絡(luò)爬蟲技術(shù),提交并分析步驟(IE)的頁面page,提取KO號(hào)在網(wǎng)頁中 對(duì)應(yīng)的所有坐標(biāo);
[0022] (1H2)、定位到KO號(hào)所在的方形框后選取框內(nèi)的像素點(diǎn),讀取其顏色的RGB值;
[0023] (1H3)如果值為0或者255,則沒有顏色標(biāo)記,判斷不是物種的特異性反應(yīng);如果值 在0~255之間,則有顏色標(biāo)記,判斷是物種的特異性反應(yīng)。
[0024] 其進(jìn)一步的技術(shù)方案為:步驟(2)具體包括以下步驟:
[0025] (2A)、通過網(wǎng)絡(luò)爬蟲技術(shù),以代謝物名稱在KEGG、MetaCyc,MetRxn三個(gè)網(wǎng)站中查 找各個(gè)反應(yīng)的方向,提取并保存各個(gè)反應(yīng)在3個(gè)網(wǎng)站中的方向信息;
[0026] (2B)、如果反應(yīng)應(yīng)在MetaCyc和MetRxn兩個(gè)網(wǎng)站中均為不可逆,判斷為不可逆反 應(yīng),否則判斷為可逆反應(yīng)。
[0027] 其進(jìn)一步的技術(shù)方案為,步驟(3)的實(shí)現(xiàn)方法為:計(jì)算各個(gè)蛋白區(qū)間網(wǎng)站在該物 種對(duì)應(yīng)類群數(shù)據(jù)集上的權(quán)重,之后對(duì)各個(gè)網(wǎng)站蛋白區(qū)間返回的結(jié)果采用加權(quán)計(jì)算,確定最 佳反應(yīng)區(qū)間。
[0028] 其進(jìn)一步的技術(shù)方案為,步驟(3)具體包括以下步驟:
[0029] (3A)、根據(jù)每條反應(yīng)獲取對(duì)應(yīng)的KO號(hào),在KASS注釋結(jié)果中查找其對(duì)應(yīng)的genbank 編號(hào)gb ;在該物種蛋白序列庫中找到對(duì)應(yīng)的蛋白序列。
[0030] (3B)、將蛋白序列提交到對(duì)應(yīng)網(wǎng)站的表單中,獲取返回的定位信息。
[0031] (3C)、新建該物種對(duì)應(yīng)類群數(shù)據(jù)集,并在新數(shù)據(jù)集上計(jì)算各個(gè)網(wǎng)站的權(quán)重。
[0032] (3D)、加權(quán)計(jì)算各個(gè)反應(yīng)的發(fā)生區(qū)間,確定最佳區(qū)間并將其填入反應(yīng)式中。
[0033] 其進(jìn)一步的技術(shù)方案為,步驟(3C)中,具體包括以下步驟:
[0034] (3C1)、根據(jù)物種的類群新建蛋白數(shù)據(jù)集:每個(gè)網(wǎng)站選取12個(gè)反應(yīng)區(qū)間,每個(gè)反應(yīng) 區(qū)間選取100條反應(yīng),構(gòu)成1200條蛋白序列的數(shù)據(jù)集;數(shù)據(jù)集中任意兩個(gè)蛋白序列的相似 性小于25% ;
[0035] (3C2)、