代謝物ms/ms質(zhì)譜計(jì)算機(jī)仿真方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)仿真領(lǐng)域,尤其涉及基于Memetic算法的代謝物MS/MS質(zhì)譜計(jì) 算機(jī)仿真方法。
【背景技術(shù)】
[0002] 代謝物是生物體內(nèi)完成代謝過程的小分子有機(jī)化合物總稱,包含了豐富的生理狀 態(tài)信息。代謝組學(xué)基于對代謝物的整體系統(tǒng)性研宄,可有效揭示生理現(xiàn)象背后的真實(shí)機(jī)理, 并且可全面地展示生命體的動(dòng)態(tài)狀態(tài)。因此獲得了越來越多的重視,被廣泛應(yīng)用于諸多科 研與實(shí)用領(lǐng)域中。
[0003] 現(xiàn)有代謝組學(xué)相關(guān)研宄,依賴于對目標(biāo)代謝物分子類型的鑒定,主要使用質(zhì)譜法 (Mass Spectrometry)進(jìn)行分析。但在傳統(tǒng)的一階質(zhì)譜(MS)中,每種分子只能形成與其分 子量對應(yīng)的單一譜線,而相同分子量可能對應(yīng)多種化合式或同分異構(gòu)體,因此無法確定其 具體分子類型。為解決這一問題,近年來學(xué)術(shù)界又提出了高階質(zhì)譜(Multi-Stage MS,MSn) 的概念,通過對代謝物進(jìn)行多層碎裂(Fragmentation),并檢測各碎片的分子量譜線,從而 形成具特異性的MS n質(zhì)譜(MSn Spectra,亦稱為該分子的Barcode)。將其與已知質(zhì)譜數(shù)據(jù)庫 中的譜線信息進(jìn)行對比,即可有效判別分子類型。目前最常用的方法為基于二階質(zhì)譜(MS/ MS或MS2)的鑒定方法。
[0004] 但另一方面,此鑒定方法依賴于已有的分子質(zhì)譜數(shù)據(jù)庫。而高階質(zhì)譜分析價(jià)格高 昂,耗時(shí)較長,且在不同參數(shù)下獲得的譜線數(shù)據(jù)各不相同。若完全使用實(shí)際儀器采集,以構(gòu) 造較為完備的數(shù)據(jù)庫,其所需成本極高,往往難以實(shí)現(xiàn)。為此出現(xiàn)了質(zhì)譜的計(jì)算機(jī)仿真方法 (In-Silico Fragmentation),通過分析分子在儀器內(nèi)的碎裂情況,使用軟件估計(jì)其所能形 成的譜線。這一方法效率較高,成本極低,可在無需實(shí)驗(yàn)人員干預(yù)的情況下,快速獲得大量 分子的高階質(zhì)譜信息,從而有效構(gòu)造鑒定數(shù)據(jù)庫。且仿真獲得的質(zhì)譜特異性越高,所形成的 數(shù)據(jù)庫對不同代謝物的區(qū)分程度亦越好。
[0005] 現(xiàn)有的計(jì)算機(jī)仿真方法主要針對MS/MS質(zhì)譜數(shù)據(jù),基于化學(xué)知識(shí)對分子碎裂情況 進(jìn)行分析,獲得了一定的成果。但其預(yù)測精度仍較低,系統(tǒng)魯棒性不佳,尚無法大規(guī)模應(yīng)用 于實(shí)際領(lǐng)域中。
[0006] 總之,現(xiàn)有的代謝物MS/MS質(zhì)譜計(jì)算機(jī)仿真方法,其缺點(diǎn)在于:
[0007] 第一,僅依賴于分子碎裂的化學(xué)規(guī)律進(jìn)行仿真。一方面,這些規(guī)律種類繁多,部分 相互沖突。在特定條件下何種碎裂情況將會(huì)發(fā)生,目前并無有效的預(yù)測方法,只能給出大致 的概率。另一方面,各碎裂情況可能多次、交互發(fā)生,其具體過程難以有效確定,所產(chǎn)生的結(jié) 果也有著較大差異。在現(xiàn)有的仿真方法中,往往只能將所有結(jié)果全部列出。導(dǎo)致譜線過多, 預(yù)測準(zhǔn)度不高,所產(chǎn)生的質(zhì)譜特異性較差,難以用于實(shí)際代謝物的鑒定。
[0008] 第二,現(xiàn)有計(jì)算機(jī)仿真方法基于一組特定的分子碎裂化學(xué)規(guī)則,通過復(fù)雜的判斷 操作,獲得最終質(zhì)譜預(yù)測結(jié)果。其過程基本為人工設(shè)計(jì),與實(shí)際情況往往有所偏差。且分析 過程復(fù)雜,判斷規(guī)則有所冗余、彈性較低。在實(shí)際應(yīng)用中,只能針對特定的某一小部分代謝 物進(jìn)行分析。而在更大范圍的分子類型中,其預(yù)測精度將顯著下降,魯棒性較差。
[0009] 第三,一些仿真方法(如MetFrag等)依賴于實(shí)際輸入的質(zhì)譜數(shù)據(jù)。對于不同輸 入,其輸出結(jié)果也會(huì)有所差異。從而所產(chǎn)生的MS/MS仿真質(zhì)譜并不具有普遍性,更無法用于 構(gòu)造鑒定數(shù)據(jù)庫。
[0010] 因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
【發(fā)明內(nèi)容】
[0011] 鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供基于MemetiC算法的代謝物 MS/MS質(zhì)譜計(jì)算機(jī)仿真方法,旨在解決現(xiàn)有代謝物計(jì)算機(jī)仿真方法預(yù)測準(zhǔn)度不高、特異性 差、魯棒性較差以及不具有普遍性的問題。
[0012] 本發(fā)明的技術(shù)方案如下:
[0013] -種基于Memetic算法的代謝物MS/MS質(zhì)譜計(jì)算機(jī)仿真方法,其中,包括步驟:
[0014] Sl、選擇N種代謝物;
[0015] S2、獲取代謝物的分子結(jié)構(gòu)集合C = IC1, C2,…,CJ,獲取代謝物的實(shí)際MS/MS質(zhì)譜 集合 S = (S1, S2,…,SJ ;
[0016] S3、構(gòu)造 L項(xiàng)分子碎裂操作的碎裂規(guī)則庫為Ψ ;
[0017] S4、設(shè)定分子碎裂最大層次數(shù)為P ;
[0018] S5、構(gòu)造進(jìn)化種群ps:
[0019] 其中,每個(gè)尋優(yōu)個(gè)體XiE ps,初始化為范圍R= [0,2^-1]內(nèi)均勻分布的D維隨機(jī) 矢量,其中:
【主權(quán)項(xiàng)】
1. 一種基于Memetic算法的代謝物MS/MS質(zhì)譜計(jì)算機(jī)仿真方法,其特征在于,包括步 驟: 51、 選擇N種代謝物; 52、 獲取代謝物的分子結(jié)構(gòu)集合C = IC1, C2,…,CJ,獲取代謝物的實(shí)際MS/MS質(zhì)譜集合 S = {S" S2,…,SJ ; 53、 構(gòu)造 L項(xiàng)分子碎裂操作的碎裂規(guī)則庫為Ψ ; 54、 設(shè)定分子碎裂最大層次數(shù)為P ; 55、 構(gòu)造進(jìn)化種群ps : 其中,每個(gè)尋優(yōu)個(gè)體Xi eps,初始化為范圍R= [〇,2^-1]內(nèi)均勻分布的D維隨機(jī)矢量, 其中:
56、 設(shè)定Memetic算法迭代總次數(shù)為G,初始化迭代計(jì)數(shù)器g = 1 ; 57、 計(jì)算進(jìn)化種群ps中每個(gè)尋優(yōu)個(gè)體的總體適應(yīng)度函數(shù)值; 58、 使用Memetic算法優(yōu)化進(jìn)化種群ps ; 59、 更新迭代計(jì)數(shù)器g = g+Ι,若g〈G,則返回步驟S7,否則優(yōu)化結(jié)束,進(jìn)入到步驟SlO ; S10、在優(yōu)化后的進(jìn)化種群ps中,挑選最佳尋優(yōu)個(gè)體,將其構(gòu)造為最優(yōu)碎裂操作樹。
2. 根據(jù)權(quán)利要求1所述的基于Memetic算法的代謝物MS/MS質(zhì)譜計(jì)算機(jī)仿真方法,其 特征在于,所述步驟S7具體包括: 571、 設(shè)輸入個(gè)體為Xi= [X1, X2, ...,xD],其各維度上均為R范圍內(nèi)的實(shí)數(shù)值,將Xi構(gòu)造 為碎裂操作樹T x; 572、 初始化分子計(jì)數(shù)器η = 0 ; 573、 獲取分子結(jié)構(gòu)集合C中的第η個(gè)分子結(jié)構(gòu)Cn,構(gòu)造碎片集合F11 = 0; S74jtCn進(jìn)行離子化,形成帶電結(jié)構(gòu)集合C' n= 1C' 575、 初始化帶電結(jié)構(gòu)計(jì)數(shù)器m = 0 ; 576、 獲取帶電結(jié)構(gòu)集合C' n中的第m個(gè)分子結(jié)構(gòu)C' _,將其加入碎片集合Fn; 577、 由p = 1層開始,使用碎裂操作樹Tx對C' _進(jìn)行逐層分析:若某一碎裂規(guī)則φι 被應(yīng)用于輸入結(jié)構(gòu)C',且這一操作可被完成,則可形成碎片C' ftag及剩余結(jié)構(gòu)C' Mst,其中 C' 進(jìn)入p+1層的對應(yīng)子節(jié)點(diǎn)1作進(jìn)一步分析,將每次碎裂獲得的C' &ag及C' 加入集 合Fn,重復(fù)這一過程直至P = P ; 578、 更新帶電結(jié)構(gòu)計(jì)數(shù)器m = m+Ι,若m>M則進(jìn)入步驟S79,否則返回至步驟S76 ; 579、 計(jì)算Fn中所有結(jié)構(gòu)的分子量,并按升序進(jìn)行排列,形成計(jì)算機(jī)仿真的MS/MS質(zhì)譜 S'n; 580、 更新分子計(jì)數(shù)器η = n+1,若n>N則進(jìn)入步驟S81,否則返回至步驟S73 ; 581、 將計(jì)算機(jī)仿真的MS/MS質(zhì)譜S'n構(gòu)成預(yù)測質(zhì)譜集合S' = {S' 2,…,S'N},并 與實(shí)際質(zhì)譜集合S進(jìn)行對比,計(jì)算特異性適應(yīng)度函數(shù)值為:
其中函數(shù)sim( ·,·)返回兩個(gè)質(zhì)譜的相似度評分; 582、 計(jì)算稀疏適應(yīng)度函數(shù)值為: Ats(^)=EKl1 其中Il · ||:為矢量的1范數(shù); 583、 計(jì)算當(dāng)前個(gè)體總體適應(yīng)度函數(shù)值為: fit (Xi) = Ifitp(Xi) + λ X fits (Xi) 其中λ為拉格朗日乘數(shù); 584、 若每個(gè)尋優(yōu)個(gè)體的總體適應(yīng)度函數(shù)值計(jì)算完畢,則結(jié)束,否則返回至步驟S71。
3.根據(jù)權(quán)利要求2所述的基于Memetic算法的代謝物MS/MS質(zhì)譜計(jì)算機(jī)仿真方法,其 特征在于,所述步驟S71具體包括: S7lMf Xi中的值按層次ρ進(jìn)行分離,每層包含L μ個(gè)數(shù)值; S712、從p = 2層開始,將其所包含的Llrt個(gè)數(shù)值,按每組L個(gè)值,依次均分為L m/L = IT2個(gè)組,將其中第k e Lp-2組作為p-1層中第k個(gè)數(shù)值的子節(jié)點(diǎn),重復(fù)這一過程直至p = P,從而形成包含I-L-L2-L3--IT1個(gè)節(jié)點(diǎn)的樹形結(jié)構(gòu); S713jf Xi中的所有數(shù)值轉(zhuǎn)換為二進(jìn)制形式,轉(zhuǎn)化后的每個(gè)數(shù)值都包含L個(gè)比特; 5714、 將轉(zhuǎn)化后的樹形結(jié)構(gòu)與碎裂規(guī)則庫Ψ進(jìn)行對應(yīng):對于任意xde X i,若其二進(jìn)制 形式中的第I e L個(gè)比特為1,亦即: binary (xd) [1] = 1 ; 其中函數(shù)binary (·)返回輸入值的二進(jìn)制比特序列,則表示Ψ中的第1種碎裂操作 Φ?將會(huì)被應(yīng)用于相應(yīng)節(jié)點(diǎn)的輸入分子結(jié)構(gòu),否則若該比特為〇,則該項(xiàng)操作將不會(huì)被執(zhí)行; 5715、 在對應(yīng)完成后,即可形成用于計(jì)算機(jī)仿真的MS/MS質(zhì)譜的碎裂操作樹Τχ。
【專利摘要】本發(fā)明公開代謝物MS/MS質(zhì)譜計(jì)算機(jī)仿真方法,本發(fā)明使用高效的Memetic算法對碎裂規(guī)則進(jìn)行優(yōu)化設(shè)計(jì),并將分子質(zhì)譜特異性作為尋優(yōu)個(gè)體的適應(yīng)度函數(shù)值,從而使所形成的仿真方法具有理論上全局最優(yōu)的質(zhì)譜區(qū)分能力,可有效提升代謝物鑒定的準(zhǔn)確率。本發(fā)明還通過在優(yōu)化過程中,加入稀疏適應(yīng)度函數(shù)值用于引導(dǎo)尋優(yōu)個(gè)體,可保證所形成的碎裂操作樹具有最小的冗余度。從而在更少的分子操作步驟內(nèi),獲得更具特異性的鑒定質(zhì)譜,并有效避免現(xiàn)有算法中復(fù)雜分析過程所帶來的魯棒性問題。最后,本發(fā)明不依賴于特定輸入的真實(shí)質(zhì)譜與分子數(shù)據(jù),所形成的仿真質(zhì)譜數(shù)據(jù)具有一般性,可用于構(gòu)造通用的代謝物鑒定數(shù)據(jù)庫。
【IPC分類】G06F19-12
【公開號(hào)】CN104834832
【申請?zhí)枴緾N201510275677
【發(fā)明人】周家銳, 紀(jì)震, 華韻之, 朱澤軒
【申請人】哈爾濱工業(yè)大學(xué)深圳研究生院, 周家銳, 紀(jì)震, 華韻之, 朱澤軒
【公開日】2015年8月12日
【申請日】2015年5月26日