本發(fā)明具體涉及一種有機化合物分子結(jié)構(gòu)參數(shù)化表征方法,屬于揮發(fā)性有機污染物qsrr(定量結(jié)構(gòu)-色譜保留關系)研究方法技術領域。
背景技術:
揮發(fā)性有機污染物沸點低、種類繁多,是水體中常見和重要的污染物。大多數(shù)揮發(fā)性有機物在大氣中具有反應活性,是光化學煙霧的反應物,見論文:大氣揮發(fā)性有機物的日變化特征及在臭氧生成中的作用-以廣州夏季為例[j].環(huán)境科學學報,2009,29(1):54-62。大氣中揮發(fā)性有機污染物危害動植物生長、威脅人類健康,進入水體后造成飲用水污染。對飲用水中有機污染物的種類和性質(zhì)進行研究具有重要意義。見論文:水中57中vocs的快速gcms分析[j].凈水技術,2016,35(s1):83-88,112,采用氣相色譜-質(zhì)譜聯(lián)用技術分析了飲用水中的揮發(fā)性有機污染物,最后在飲用水中鑒定出50多種有機化合物。有機化合物qsrr研究對于預測化合物色譜保留時間、解釋保留機理、輔助鑒定化合物等具有重要意義,在有機化合物qsrr/qsar(定量結(jié)構(gòu)-性質(zhì)/活性關系)研究中,首先需要將分子結(jié)構(gòu)進行參數(shù)化表達,然后選用合適的方法構(gòu)建結(jié)構(gòu)與性質(zhì)之間的關系模型,研究者們在這方面做過許多工作,但是目前還沒有非常有效簡便的方法出現(xiàn)。
技術實現(xiàn)要素:
因此,針對現(xiàn)有技術的上述不足,本發(fā)明目的是選用部分飲用水中揮發(fā)性有機化合物為研究樣本,以化合物非氫原子及非氫原子之間的關系構(gòu)建新的結(jié)構(gòu)描述符,對化合物結(jié)構(gòu)進行參數(shù)化表達,采用逐步回歸(smr)與偏最小二乘回歸(pls)相結(jié)合的方法構(gòu)建化合物結(jié)構(gòu)與氣相色譜保留時間(tr)之間的關系模型,用于預測揮發(fā)性有機污染物的色譜保留時間(tr)、輔助鑒定揮發(fā)性有機污染物。
本發(fā)明的方法包括以下步驟:
步驟一選取樣本
選取56個飲用水中揮發(fā)性化合物為研究樣本,化合物氣相色譜保留時間以tr表示;
步驟二化合物分子結(jié)構(gòu)表征
將樣本中與1、2、3、4個其它非氫原子直接相連的非氫原子分別規(guī)定為第一、二、三、四類非氫原子,然后按公式一將非氫原子進行參數(shù)化染色,
式中,i為非氫原子在分子中的編碼,ni為非氫原子i的主量子數(shù),xi為電負性,xc為碳原子的電負性,mi為最外層電子數(shù),hi為與其直接連接的氫原子數(shù),
對于不同類型非氫原子自身對化合物性質(zhì)的影響,按公式二進行分類累加,
式中,k表示非氫原子i的原子類型,zi按公式一計算,根據(jù)非氫原子的分類,對于一個有機化合物分子中最多含有4類非氫原子,因此最終可得到4個非氫原子自身對化合物性質(zhì)貢獻項,用x1、x2、x3和x4表示,
對于非氫原子之間的關系對分子性質(zhì)的影響,采用gaussian形距離關系函數(shù)即公式三計算,
zi、zj按公式一計算;dij是非氫原子i、j之間的相對距離,即鍵長之和與碳碳單鍵鍵長的比值,如果i、j之間有多條路徑,則以最短的為準,n和l為原子所屬類型,α取0.5,化合物分子中4類非氫原子可以組合出以下10種關系項:m11、m12、…、m44,簡寫為x5、x6、…、x14,這樣最多將有14個變量。
步驟三變量篩選及建模
將步驟二所獲得的變量,首先采用逐步回歸依據(jù)變量顯著性對變量進行篩選,然后以篩選出的變量組合為因變量x,以化合物氣相色譜保留時間(tr)為因變量y,運用偏最小二乘回歸(pls)建立模型。
本發(fā)明的有益效果在于:本發(fā)明提供一種有機化合物分子結(jié)構(gòu)參數(shù)化表征方法,將分子中的非氫原子進行分類并參數(shù)化染色,將非氫原子自身及不同非氫原子之間的關系作為分子結(jié)構(gòu)描述符,對部分飲用水中揮發(fā)性有機化合物結(jié)構(gòu)進行了參數(shù)化表征。采用逐步回歸與偏最小二乘相結(jié)合的方法(smr-pls)構(gòu)建了化合物結(jié)構(gòu)與氣相色譜保留時間(tr)的關系模型,模型相關系數(shù)(r2)及交互檢驗的相關系數(shù)(q2)均較為理想,一定程度上揭示了影響化合物氣相色譜保留時間(tr)的結(jié)構(gòu)因素。模型可以較準確地預測飲用水中揮發(fā)性有機化合物的氣相色譜保留時間(tr),對于有機污染物的qspr/qsar研究具有很高的參考價值。
附圖說明
圖1為實施例中56個樣本在pls前兩個主成分得分空間散點分布圖;
圖2為實施例中偏最小二乘x空間規(guī)格化模型距離示意圖;
圖3為實施例中pls中變量重要性(vip)投影圖;
圖4為實施例中樣本在前兩個主成分的載荷圖;
圖5為實施例預測值與實驗值相關圖;
圖6為實施例預測誤差分布圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式進行說明:
實驗材料
選取56個飲用水中揮發(fā)性化合物為研究樣本,化合物氣相色譜保留時間以tr表示,實驗值取自論文:水中57中vocs的快速gcms分析[j].凈水技術,2016,35(s1):83-88,112?;衔锛捌錃庀嗌V保留時間(tr)列于表1。
表1
化合物分子結(jié)構(gòu)表征
有機化合物的色譜保留時間(tr)除了與測量因素有關外,還與分子的結(jié)構(gòu)相關。構(gòu)成化合物原子種類、數(shù)目、原子之間的連接方式等都會對tr產(chǎn)生影響。在分子結(jié)構(gòu)隱氫圖中,不同非氫原子及非氫原子之間的關系對化合物性質(zhì)具有重要影響,而氫原子的影響可以忽略。首先將非氫原子分為4類,與1、2、3、4個其它非氫原子直接相連的非氫原子分別規(guī)定為第一、二、三、四類非氫原子,如與2個非氫原子相連的仲碳原子屬于第二類非氫原子。然后將非氫原子進行參數(shù)化染色。
式中,i為非氫原子在分子中的編碼,ni為非氫原子i的主量子數(shù),xi為電負性,xc為碳原子的電負性(pauling標度),mi為最外層電子數(shù),hi為與其直接連接的氫原子數(shù)。
對于不同類型非氫原子自身對化合物性質(zhì)的影響,按式(2)進行分類累加。
式中,k表示非氫原子i的原子類型,zi按式(1)計算。根據(jù)非氫原子的分類,對于一個有機化合物分子中最多含有4類非氫原子,因此最終可得到4個非氫原子自身對化合物性質(zhì)貢獻項,用x1、x2、x3和x4表示。
對于非氫原子之間的關系對分子性質(zhì)的影響,采用gaussian形距離關系函數(shù)式(3)計算,這種關系不是原子之間的具體作用方式,而是要反映出非氫原子之間的相關程度隨距離增減呈反向變化以及隨原子性質(zhì)改變呈正向變化。
zi、zj按式(1)計算;dij是非氫原子i、j之間的相對距離(即鍵長之和與碳碳單鍵鍵長的比值,如果i、j之間有多條路徑,則以最短的為準);n和l為原子所屬類型;α取0.5?;衔锓肿又?類非氫原子可以組合出以下10種關系項:m11、m12、…、m44,簡寫為x5、x6、…、x14。這樣最多將有14個變量(結(jié)構(gòu)描述符)來描述化合物結(jié)構(gòu)信息。
qsrr建模與檢驗
對于一個樣本集,并非每一個結(jié)構(gòu)描述子都含與化合物保留時間相關的信息,對于那些相關性不大的描述符即噪聲,若將它們留在模型中不僅會影響回歸效果,而且還會大大降低預測能力。因此,建模前對變量進行篩選就顯得尤為必要,而逐步回歸(stepwiseregression,smr)是篩選變量的常用方法。偏最小二乘回歸(partialleastsquares,pls)是目前較流行的一種建模方法,該方法可有效解決變量間的多重共線性問題。采用逐步回歸(smr)與偏最小二乘回歸(pls)相結(jié)合的方法進行建模分析,運用“留一法”對模型預測能力進行檢驗。一般認為,建模相關系數(shù)(r2)在0.64-1.0之間,表明模型高度相關;標準偏差(sd)與數(shù)值范圍的比例小于10%時,表明模型預測準確性良好;交互檢驗相關系數(shù)q2≥0.5,表明模型具有良好的穩(wěn)健性和預測能力。
將化合物結(jié)構(gòu)進行參數(shù)化表征得到結(jié)構(gòu)描述符,首先采用逐步回歸(smr)依據(jù)變量顯著性大小依次提取變量。然后以挑選出的變量組合為因變量x,以化合物氣相色譜保留時間(tr)為因變量y,然后運用偏最小二乘回歸(pls)建立模型。最終smr共挑選出12個變量組合用于建模,變量篩選及相應的pls結(jié)果見表2。
表2
一個好的預測模型不但對內(nèi)部樣本具有較好的擬合能力,而且還應該對外部樣本具有較強的預測能力。因此在選擇模型時,在保證對內(nèi)部樣本具有良好擬合效果的情況下,盡量選擇交互檢驗相關系數(shù)(q2)較大的模型,以確保模型具有較強的預測能力。表2中可以看出,應該選擇由逐步回歸(smr)第八步挑選的變量組合(所選結(jié)構(gòu)描述符列于表1)建模所得模型,此時化合物氣相色譜保留時間(tr)與原始自變量回歸方程式為:tr=-4.602+1.735·x1+0.995·x2+1.573·x3+1.906·x4-1.659·x5-0.820·x6-0.818·x7-0.734·x8。建模相關系數(shù)(r2)達到0.955(接近最大值0.959),而交互檢驗相關系數(shù)(q2)達到最大值0.894。r2處于0.64-1.0之間、q2≥0.5,說明此模型高度相關、穩(wěn)健性好、預測能力強。建模標準偏差(sd)為0.803,樣本的數(shù)值范圍(最大值15.236-最小值1.300)為13.936,而標準偏差(0.803)與數(shù)值范圍(13.936)的比例為5.76%,遠小于10%的標準,說明預測準確性良好。
圖1為56個樣本在pls前兩個主成分得分空間散點分布圖,90%以上的樣本點都落在95%置信度hotellingt2橢圓置信圈內(nèi),說明結(jié)構(gòu)描述符能夠恰當表現(xiàn)揮發(fā)性有機化合物分子結(jié)構(gòu)特征,并在統(tǒng)計模型中得到正確反映。為了考察樣本在x空間的擬合情況,對樣本在x空間的規(guī)格化模型距離作了分析(圖2),可以看到,95%以上的樣本規(guī)格化模型距離都在95%的置信區(qū)間內(nèi)(只有1個樣本超出此范圍),小于臨界值2.414,同樣說明模型質(zhì)量良好。超出此范圍的是42號樣本,42號樣本中含有一個叔丁基,而其它化合物不含此基團,具有一定的特殊性。
圖3為pls中變量重要性(vip)投影圖,通常認為vip大于1的變量與y之間具有較大的相關性,對y影響顯著。圖3中可以發(fā)現(xiàn)x3、x2的vip值大于1,說明這兩個變量對化合物的氣相色譜保留時間(tr)影響顯著,而變量x3對應于第三類非氫原子的自身貢獻項,變量x2對應于第二類非氫原子的自身貢獻項,
因而第三類原子、第二類原子越多,化合物可能具有較大的保留時間(tr)值;其次是x7對化合物保留時間(tr)亦一定的影響,x7對應于第一類原子與第三類原子的關系,以上都說明取代基種類、數(shù)量及分布情況對化合物的色譜保留時間(tr)有重要的影響。
圖4為樣本在前兩個主成分的載荷圖。圖4可以發(fā)現(xiàn)x3、x2、x7處在圖的右上方區(qū)域,即在兩個主成分中都有較大的值,并且與y呈正相關,同樣說明x3、x2、x7對y影響顯著,與上述分析結(jié)果一致。x1、x4、x5、x8在第一主成分中與y呈負相關,在第二主成分中與y呈正相關;x6處在圖的左下方區(qū)域,即在兩個主成分中與y均呈負相關。x1、x2、x3、x4、x5、x6、x7、x8在圖中所處位置之間有一定的距離,說明所選變量沒有多大的相似性,變量之間共線性小。
模型對樣本的氣相色譜保留時間(tr)進行了預測,預測值列于表1的cal.列,誤差列于err.列。圖5為模型預測值與實驗值之間的相關圖,圖6為預測誤差分布圖。從圖5可以看出,所有樣本點都分布在45°對角線上或者緊靠對角線,說明預測值與實驗值非常接近,總體預測效果好。同樣,從圖6可以看出模型的預測準確性高、誤差小,絕大部分樣本的預測誤差都處在±2sd范圍內(nèi),僅4個樣本的誤差略超出此范圍,同樣說明總體誤差可以接受。其中52號樣本誤差最大,可能與其含有最多的氯原子(6個)有關,當然也有可能實驗數(shù)據(jù)本身存在較大誤差從而影響計算結(jié)果。
與現(xiàn)有技術相比,構(gòu)建的結(jié)構(gòu)描述符無需進行分子結(jié)構(gòu)優(yōu)化,簡單易懂、計算量小,并且非氫原子染色值考慮了主量子數(shù)、電負性、最外層電子數(shù)、連接的氫原子數(shù)等豐富的信息。
將分子中的非氫原子進行分類并參數(shù)化染色,將非氫原子自身及不同非氫原子之間的關系作為分子結(jié)構(gòu)描述符,對部分飲用水中揮發(fā)性有機化合物結(jié)構(gòu)進行了參數(shù)化表征。采用逐步回歸與偏最小二乘相結(jié)合的方法(smr-pls)構(gòu)建了化合物結(jié)構(gòu)與氣相色譜保留時間(tr)的關系模型,模型相關系數(shù)(r2)及交互檢驗的相關系數(shù)(q2)均較為理想,一定程度上揭示了影響化合物氣相色譜保留時間
(tr)的結(jié)構(gòu)因素。模型可以較準確地預測飲用水中揮發(fā)性有機化合物的氣相色譜保留時間(tr),對于有機污染物的qspr/qsar研究具有較高的參考價值。
以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。