專利名稱:有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交叉驗證方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,具體的說是即采用均勻設(shè)計優(yōu)化的抽多法交互驗證對模型進行內(nèi)部驗證,并將均勻設(shè)計優(yōu)化的抽多法交互驗證的相關(guān)系數(shù)‘Μ—α作為模型變量篩選終止標準和預(yù)測能力判斷指標的新型定量結(jié)構(gòu)活性相關(guān)模型交互驗證方法。
背景技術(shù):
有機污染物的定量結(jié)構(gòu)活性相關(guān)(Quantitative Structure and Activity Relationship,QSAR)研究方法作為一種計算機建模技術(shù),能夠深入挖掘有機污染物化學(xué)結(jié)構(gòu)與其對人體及生態(tài)環(huán)境造成危害之間的量變規(guī)律和因果關(guān)系,為從分子水平上將污染物結(jié)構(gòu)與其相對宏觀的多樣性環(huán)境行為和毒性效應(yīng)進行關(guān)聯(lián)提供了一種現(xiàn)實的可能。QSAR模型可以預(yù)測并彌補有機污染物環(huán)境行為與生態(tài)毒理數(shù)據(jù)的缺失,大幅度降低實驗費用,有助于減少和替代實驗(尤其動物實驗)測試,因此QSAR目前已經(jīng)成為污染物環(huán)境生態(tài)風(fēng)險評價和人體健康風(fēng)險評價的重要工具(王連生,韓朔睽.有機污染物的定量結(jié)構(gòu)-活性相關(guān).1993,北京中國環(huán)境科學(xué)出版社;國家自然科學(xué)基金委員會化學(xué)科學(xué)部組編,葉常明, 王春霞,金龍珠主編,21世紀的環(huán)境化學(xué),2004,科學(xué)出版社北京。)QSAR模型的建立大致包括了數(shù)據(jù)準備、數(shù)據(jù)分析和模型驗證三個步驟。數(shù)據(jù)準備是為獲取表征分子結(jié)構(gòu)的變量和污染物的環(huán)境性質(zhì)或生物活性,數(shù)據(jù)分析是選擇合適的污染物結(jié)構(gòu)描述變量并在污染物結(jié)構(gòu)與其環(huán)境性質(zhì)或生物活性之間建立數(shù)理統(tǒng)計模型, 而模型驗證是指模型建立后,所進行的模型顯著性、穩(wěn)定性(魯棒性)、預(yù)測能力(泛化能力)、偶然相關(guān)和模型應(yīng)用域等的驗證,以保證模型對未知化合物的性質(zhì)或活性預(yù)測的準確性。QSAR模型驗證的主要目的是為了評價模型的穩(wěn)定性和對未知樣本的預(yù)測能力,目前主要有內(nèi)部樣本和外部樣本驗證兩種類型。外部樣本驗證方法主要是采用訓(xùn)練集樣本結(jié)合線性或非線性建模方法建立統(tǒng)計數(shù)學(xué)模型,然后對未參與建模的外部樣本集進行預(yù)測,以外部樣本的預(yù)測值與觀測值之間的相關(guān)系數(shù)、均方根差等統(tǒng)計參數(shù)描述模型的預(yù)測能力。 外部樣本驗證方法通常要求有較多的樣本集以保證建模樣本集和外部驗證樣本集的數(shù)量 (Hawkins D. , Basak S., Mills D.Assessing Model Fit by Cross-Validation. J. Chem. Inf. Comput. Sci. 2003,43 (2),579-586.)。內(nèi)部驗證方法通常有 χ-randomization> y-randomization> y-scrambling 禾口交叉驗證等方法。x-randomization方法主要原理為按照建模樣本集的自變量矩陣大小,隨機產(chǎn)生大小完全一樣的、新的建模自變量數(shù)據(jù)矩陣,然后與因變量建立模型。如果經(jīng)過多次驗證得到用隨機自變量矩陣建立的模型質(zhì)量比實際自變量建立的模型差,說明建立的模型并非偶然因素所致(Rucker C. , Rucker G. , Meringer M. y-Randomization and Its Variants in Q SPR/Q SAR. J. Chem. Inf. Model. 2007,47 (6),2345-2357.)。y-randomization 方法與 x-randomization方法類似,只是按照樣本數(shù)的大小產(chǎn)生隨機的因變量數(shù)量,然后與自變量矩陣建立模型。如果多次驗證得到的模型質(zhì)量比真實模型差,則說明建立的模型并非偶然因素所致(Rucker C. , Rucker G. ,Meringer M. y-Randomization and Its Variants in Q SPR/Q SAR. J. Chem. Inf. Model. 2007,47 (6), 2345-2357.)。y-scrambling 方法則是將原來的因變量隨機變換位置,然后與自變量建立模型,如果多次驗證的模型質(zhì)量比真實模型差, 則說明模型是真實可靠。以上所述的三種方法本質(zhì)都是驗證模型是否為偶然相關(guān),并不能說明模型的預(yù)測能力。交叉驗證是將全部樣本分成兩組,其中一組為建模樣本集,另外一組作為驗證樣本集,用建模樣本得到的模型預(yù)測驗證樣本,然后將全部樣本重新分組,重復(fù)建模并預(yù)測;整個過程必須保證全部樣本集的每一個樣本都預(yù)測過且只預(yù)測過一次,最后計算預(yù)測值與觀測值之間的相關(guān)系數(shù)q2和均方根差RMSEV。上述驗證過程進行多次重復(fù),并以這兩個統(tǒng)計參數(shù)的多次平均作為模型的預(yù)測能力的描述標準。其中最簡單的方法就是每次驗證時只取一個樣本作為驗證集,這種方法稱為抽一法交互驗證(leave-one-out cross validation, L00CV),因這種方法操作簡單而得到廣泛的應(yīng)用。但是這種每次只提取一個樣本作為驗證集的驗證方法對樣本擾動太小,因而得到的《㈨⑶和RMSEVuxkv存在諸多問題,如已經(jīng)有研究者指出《㈨⑶實際上只是模型預(yù)測能力的必要條件(GolbraiW1 A., Tropsha A. Beware of q2 ! J. Mol. Graph. Mod. 2002,20 ),洸9_276·),在變量篩選時對 《㈨⑶的不當(dāng)使用會導(dǎo)致過擬合的產(chǎn)生。為了改變這種樣本數(shù)擾動比較小的問題,最好的方式就是提取多個樣本作為驗證集,這種方法稱為留多法交互驗證(leave-multiple-out cross validation, LM0CV) 0要對數(shù)量為η的樣本集進行LM0CV,必須對樣本集進行分組, 最常用的方法是將樣本集分成m組,然后利用m-1組樣本構(gòu)成訓(xùn)練集進行建模,并利用得到的模型預(yù)測余下的一組樣本(該組樣本又稱為檢驗集),這樣就構(gòu)成一次m-折LMOCV ; 然后將檢驗集樣本與訓(xùn)練集中的一組進行交換,重新建立模型并預(yù)測,直到所有的樣本都進行了一次預(yù)測,計算這些樣本的預(yù)測值與響應(yīng)值之間的相關(guān)系數(shù),仿照L00CV,采用^ 表示。這樣的樣本分組方式很多,只取一種不能說明其代表性。因此,需要進行多次分組
驗證。最理想的效果就是對所有的可能的分組方式進行計算。但因為樣本分組方式非常 n\
多(c:=;^,其中 =!,&=_-ι)!),特別是樣本數(shù)越多分組方式越多,樣本分 ncnvmm
組方式隨著樣本數(shù)的增加呈指數(shù)增加,遍歷所有的分組方式是不現(xiàn)實的(Hawkins D. The
Problem of Overfitting. J. Chem. hf. Comput. Sci. 2004,44 (1),1-12.)。因此,研究者們
提出了采用Monte Carlo方法提取驗證樣本,并進行多次重復(fù)的分組方法(Shao J. Linear
Model Selection by Cross-Validation. J. Am. Stat. Assoc. 1993,88 (422),486-494. Xu
Q. S. , Liang Y. Z. Monte Carlo Cross Validation. Chemometr. Intell. Lab. Syst. 2001,
56 (1), 1-11. Xu Q. S. , Liang Y. Ζ. ,Du Y. P. Monte Carlo Cross-validation for Selecting
A Model and Estimating the Prediction Error in Multivariate Calibration.
J. Chemometr. 2004,18(2),112-120.)。這樣雖解決了樣本的分組問題,但是通常Monte
Carlo方法對樣本分組是符合某種概率分布的,因此所獲得的樣本不可能在樣本空間均勻
分布,也就是說Monte Carlo方法所獲取的驗證樣本缺乏全面的代表性(Picard R. R.,
Cook R. D. Cross-Validation of Regression Models. J. Am. Stat. Assoc. 1984,79 (387),
575-583.)。文獻檢索結(jié)果表明,在本結(jié)果完成之前,采用均勻設(shè)計優(yōu)化的抽多法交互驗證對模型進行內(nèi)部驗證,并將均勻設(shè)計優(yōu)化的抽多法交互驗證的相關(guān)系數(shù)‘Μ—α作為模型變量篩選終止標準和預(yù)測能力判斷指標的新型定量結(jié)構(gòu)活性相關(guān)模型交互驗證方法未見報道。
發(fā)明內(nèi)容
1、發(fā)明要解決的技術(shù)問題為保證QSAR模型的穩(wěn)定性,通常采用交互驗證的相關(guān)系數(shù)為變量篩選的目標函數(shù)。但是LMOCV樣本分組方式太多,如何選擇合理的樣本分組方式并確定最小驗證次數(shù)是目前LMOCV應(yīng)用亟待解決的難題。本發(fā)明針對以上技術(shù)難題,提供一種新型的有機污染物定量結(jié)構(gòu)活性相關(guān)模型交互驗證方法,不僅能夠提供更大的LMOCV樣本波動性,確保抽取樣本的代表性,并以少量的樣本抽樣驗證次數(shù)即可實現(xiàn)驗證樣本均勻分布樣本空間的目的。2、技術(shù)方案本發(fā)明的原理是將均勻設(shè)計方法與留多法交互驗證進行整合,提供一種新型的有機污染物定量結(jié)構(gòu)活性相關(guān)模型的交互驗證方法。結(jié)構(gòu)描述符篩選時,以均勻設(shè)計優(yōu)化的留多法交互驗證(Uniform Design Optimized LMOCV,UD0LM0CV)的相關(guān)系數(shù)^xjlmc^為變量篩選終止標準;同時在模型內(nèi)部驗證時,運用均勻設(shè)計優(yōu)化的留多法交互驗證對模型進行樣本內(nèi)部交叉驗證,以為預(yù)測能力判斷指標,提供更大的樣本波動性,少量的樣本抽樣驗證次數(shù)即可實現(xiàn)驗證樣本均勻分布樣本空間,且每次抽取的樣本具有很強的代表性。采用的技術(shù)方案如下有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其步驟包括(1)將均勻設(shè)計方法與留多法交互驗證相結(jié)合,采用均勻設(shè)計優(yōu)化的抽多法交互驗證對模型進行內(nèi)部驗證,并將均勻設(shè)計優(yōu)化的抽多法交互驗證的相關(guān)系數(shù)Wzx3lmcx^作為有機污染物定量結(jié)構(gòu)活性相關(guān)模型變量篩選終止標準和預(yù)測能力判斷指標,在改進變量篩選的同時,提供更大的樣本波動性,完成留多法交互驗證。若需建立η個有機污染物m種結(jié)構(gòu)描述符x(n,m)與其環(huán)境行為或生物效應(yīng)指標y (η)之間的構(gòu)效關(guān)系,首先確定最優(yōu)子集變量數(shù)不得大于η/5的整數(shù)值,同時變量Vi和\間相關(guān)系數(shù)r (Vi5Vj)不得高于閾值rint = 0. 76,而不得低于0. 60。(2)根據(jù)樣本數(shù)η建立均勻設(shè)計表并基于該表進行QSAR模型的m_折留多法交互驗證。具體為A.使用好格子點法構(gòu)造用于交叉驗證的n+1水平的均勻設(shè)計表根據(jù)樣本數(shù)n,尋找比n+1小的整數(shù)h,且使n+1和h的最大公約數(shù)為1,符合這些條件的正整數(shù)組成一個生成向量Hn+1 = [h :h<n+l]。均勻設(shè)計表的第j列根據(jù)公式Uij = ihj[mod n+1]生成,其中 [mod n+1]表示同余運算。將生成向量中所有的元素進行上面同余運算得到的結(jié)果組成一個二維表格。刪除最后一行,即得到所需的設(shè)計表,并記為Un*(ns)。其中η為樣本數(shù),s為均勻設(shè)計表的列數(shù)。B.均勻設(shè)計優(yōu)化的留多法交叉驗證方法將均勻設(shè)計表的每一列分成m等份(如果不能整除,則多余的樣本歸入最后一份),這樣均勻設(shè)計表的一列就構(gòu)成一次m-折LMOCV所需樣本分組方式,均勻設(shè)計表的列數(shù)s即為LMOCV的重復(fù)次數(shù)。然后按照下列公式分別計算交叉驗證計算模型的交叉驗證相關(guān)系數(shù)均方根誤差(RMSEVumubct)以及和RMSEVud_gv的標準差幻和STDRMSEVmqgv。其中yi為第i個觀測值, ⑶為進行UD0LM0CV時第i個觀測值的模型估計值,JJ為觀測值的平均值,η為模型的樣本數(shù),s為均勻設(shè)計表的列數(shù),^RMffiif3-為第i個觀測值的均方根誤差,為第i個觀測值的交叉驗證相關(guān)系數(shù)。
權(quán)利要求
1. 一種有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,包括以下步驟(1)將均勻設(shè)計方法與留多法交互驗證相結(jié)合,采用均勻設(shè)計優(yōu)化的抽多法交互驗證對模型進行內(nèi)部驗證,并將均勻設(shè)計優(yōu)化的抽多法交互驗證的相關(guān)系數(shù)‘Μ—α作為有機污染物定量結(jié)構(gòu)活性相關(guān)模型變量篩選終止標準和預(yù)測能力判斷指標,在改進變量篩選的同時,提供更大的樣本波動性,完成留多法交互驗證;若需建立η個有機污染物m種結(jié)構(gòu)描述符x(n,m)與其環(huán)境行為或生物效應(yīng)指標y (η)之間的構(gòu)效關(guān)系,首先確定最優(yōu)子集變量數(shù)不得大于η/5的整數(shù)值,同時變量、和\間相關(guān)系數(shù)r (Vi,不得高于閾值rint = 0. 76, 而不得低于0. 60 ;(2)根據(jù)樣本數(shù)η建立η+1水平均勻設(shè)計表并基于該表進行QSAR模型的m_折留多法交互驗證;具體為A.使用好格子點法構(gòu)造用于交叉驗證的η+1水平的均勻設(shè)計表根據(jù)樣本數(shù)η,尋找比 η+1小的整數(shù)h,且使η+1和h的最大公約數(shù)為1,符合這些條件的正整數(shù)組成一個生成向量Hn+1 = [h :h < η+1];均勻設(shè)計表的第j列根據(jù)公式Uij = ihjtmod η+1]生成,其中[mod η+1]表示同余運算;將生成向量中所有的元素進行上面同余運算得到的結(jié)果組成一個二維表格;刪除最后一行,即得到所需的設(shè)計表,并記為U/ (ns);其中η為樣本數(shù),s為均勻設(shè)計表的列數(shù);B.均勻設(shè)計優(yōu)化的留多法交叉驗證(UD0LM0CV)方法將均勻設(shè)計表的每一列分成m 等份(如果不能整除,則多余的樣本歸入最后一份),這樣均勻設(shè)計表的一列就構(gòu)成一次 m-折留多法交叉驗證所需樣本分組方式,均勻設(shè)計表的列數(shù)s即為留多法交叉驗證的重復(fù)次數(shù);然后按照下列公式分別計算交叉驗證計算模型的交叉驗證相關(guān)系數(shù)(‘0離。、均方根誤差(RMSEVudqlmqgv)以及‘0w和 RMSEVudolmocv 的標準差雙御^^和 STDRMSEVm°ct ; 其中Yi為第i個觀測值,;^1^—⑶為進行UD0LM0CV時第i個觀測值的模型估計值,JJ為觀測值的平均值,η為模型的樣本數(shù),s為均勻設(shè)計表的列數(shù),^RMSEif^—w為第i個觀測值的均方根誤差,^為第i個觀測值的交叉驗證相關(guān)系數(shù);η▽ / -,, r-UDOIMOCV\2λ ν 2/只—A)^UDOIMOCV — — Σ Oη)S;=1Σα-刃2RMSEVUDOLMOCV = 二Σ」Σ(兄—^JDOLMOCV、2"Σ;=11 i ε 1 I ^Λ TDqUDOLMOCVNudolmocvj ~ cIudolmocv)=Is-lSTDRMSEVUDOLMOCVtiRMSEfa - RMSEVUDOLMOCV \2s-l(3)得到的UDOLMOCV的統(tǒng)計參數(shù)和RMSEV _gv用于衡量QSAR模型的預(yù)測能力,而與STDRMSEVudolmocv則分別表征參數(shù)‘—和RMSEVudolmocv的變異程度;同時,類似留一法交叉驗證的相關(guān)系數(shù)q^gm—a用作變量篩選方法的終止標準;因均勻設(shè)計表具有均衡分散的特點,通過均勻設(shè)計表安排的分組樣本具有很強的代表性,也就是說這樣得到的樣本分組形式,每一種分組方案都代表了一種樣本分布;因此通過均勻設(shè)計表分組方式,充分考慮了樣本分布的代表性,得到的結(jié)論就有很強的代表性。
2.根據(jù)權(quán)利要求1中所述的有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法, 其特征在于將均勻設(shè)計方法與留多法交互驗證進行整合,新方法充分利用均勻設(shè)計表的均衡分散的特點,按照均勻設(shè)計表的排列安排留多法交叉驗證樣本分組,所得驗證樣本具有很強的樣本分布代表性,克服了 Monte Carlo方法選取樣本的單一方式;同時,以均勻設(shè)計優(yōu)化的留多法交互驗證的相關(guān)系數(shù)變量篩選終止標準和模型預(yù)測能力判斷指標,提供更大的樣本波動性,少量的樣本抽樣驗證次數(shù)即可實現(xiàn)驗證樣本均勻分布樣本空間,且可篩選出更合理的描述符子集,構(gòu)建穩(wěn)健性更好的模型。
3.根據(jù)權(quán)利要求2中所述的有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法, 其特征在于步驟(1)中模型最優(yōu)子集變量數(shù)不得大于η/5的整數(shù)值,同時變量間相關(guān)系數(shù)不得高于閾值rint = 0. 76,而‘不得低于閾值0. 60。
4.根據(jù)權(quán)利要求3中所述的新型有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其特征在于步驟(1)中將均勻設(shè)計優(yōu)化的抽多法交互驗證的相關(guān)系數(shù)‘㈨—⑶作為有機污染物定量結(jié)構(gòu)活性相關(guān)模型預(yù)測能力判斷指標。
5.根據(jù)權(quán)利要求1 4中任一項所述的新型有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其特征在于步驟(1)中將均勻設(shè)計優(yōu)化的抽多法交互驗證的相關(guān)系數(shù) ‘ζχρ_α作為有機污染物定量結(jié)構(gòu)活性相關(guān)模型變量篩選終止標準。
6.根據(jù)權(quán)利要求1 4中任一項所述的新型有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其特征在于步驟( 中根據(jù)樣本數(shù)η建立n+1水平均勻設(shè)計表,刪除表的最后一行,將所得到的設(shè)計表記為Un * (ns),在此表基礎(chǔ)上進行QSAR模型的m-折留多法交互驗證;使用好格子點法構(gòu)造用于交叉驗證的n+1水平的均勻設(shè)計表。
7.根據(jù)權(quán)利要求1 4中任一項所述的新型有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其特征在于步驟O)中均勻設(shè)計優(yōu)化的留多法交叉驗證方法是將均勻設(shè)計表U/ (ns)的每一列分成m等份,如果不能整除,則多余的樣本歸入最后一份,這樣均勻設(shè)計表的一列就構(gòu)成一次m-折留多法交叉驗證所需樣本分組方式,均勻設(shè)計表的列數(shù)s即為留多法交叉驗證的重復(fù)次數(shù);步驟( 交叉驗證計算模型的交叉驗證相關(guān)系數(shù)、均方根誤差 RMSEVmqgv 以及‘―和 RMSEVmqgv 的標準差A(yù)TI^d-和 STDRMSEVm°cv 按照下列公式分別計算;
8.根據(jù)權(quán)利要求1 4中任一項所述的新型有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其特征在于步驟(3)中UDOLMOCV的統(tǒng)計參數(shù)RMSEVu~v用于衡量QSAR模型的預(yù)測能力,而⑶與STDRMSEV v則分別表征參數(shù)和 RMSEVtolmqgv的變異程度。
9.根據(jù)權(quán)利要求1 4中任一項所述的新型有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其特征在于步驟O)中因均勻設(shè)計表具有均衡分散的特點,通過均勻設(shè)計表安排的分組樣本具有很強的代表性,也就是說這樣得到的樣本分組形式,每一種分組方案都代表了一種樣本分布;因此通過均勻設(shè)計表分組方式,充分考慮了樣本分布的代表性,得到的結(jié)論就有很強的代表性,其表現(xiàn)在—股比留一法交互驗證和經(jīng)典的留多法交互驗證以及Monte Carlo交互驗證法所獲得的相關(guān)系數(shù)q2的標準差大;而且如果存在結(jié)構(gòu)域不一致或機理域不同的樣本,則‘Μ—α?xí)陀陂撝?. 60,ISTDq^w會變大。
10.根據(jù)權(quán)利要求1 4中任一項所述的新型有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法,其特征在于步驟O)中運用‘作為變量篩選方法的終止標準,會減少進入模型的變量數(shù),從而降低模型噪音。
全文摘要
本發(fā)明公開了一種有機污染物定量結(jié)構(gòu)活性相關(guān)模型抽多法交互驗證方法。本發(fā)明將均勻設(shè)計方法與留多法交互驗證進行整合,以均勻設(shè)計優(yōu)化的留多法交互驗證(Uniform Design Optimized LMOCV,UDOLMOCV)的相關(guān)系數(shù)為變量篩選終止標準;同時在模型內(nèi)部驗證時,運用均勻設(shè)計優(yōu)化的留多法交互驗證對模型進行樣本內(nèi)部交叉驗證,以為預(yù)測能力判斷指標,提供更大的樣本波動性,少量的樣本抽樣驗證次數(shù)即可實現(xiàn)驗證樣本均勻分布樣本空間,且每次抽取的樣本具有很強的代表性。本發(fā)明所得驗證樣本具有很強的樣本分布代表性,克服了Monte Carlo方法選取樣本的單一方式。本發(fā)明可以不僅可以用于驗證QSAR模型的穩(wěn)定性和與預(yù)測能力,并且可以用于發(fā)現(xiàn)和確定模型中不穩(wěn)定因素。
文檔編號G06F17/50GK102184284SQ20111011211
公開日2011年9月14日 申請日期2011年4月29日 優(yōu)先權(quán)日2011年4月29日
發(fā)明者張愛茜, 易忠勝, 李富華, 穆云松, 藺遠, 高常安 申請人:南京大學(xué)