本發(fā)明屬于化學信息學領(lǐng)域,具體涉及化妝品原料毒性預測模型和方法。
背景技術(shù):
1、化妝品原料的安全性一直是行業(yè)內(nèi)外關(guān)注的焦點,化妝品原料的毒理學性質(zhì)評估是確保產(chǎn)品安全性的關(guān)鍵環(huán)節(jié),尤其是對化妝品中所使用的有機化合物進行毒性預測與評估。傳統(tǒng)的毒理學測試主要依賴于體外實驗和動物實驗,雖然能夠提供準確的安全性數(shù)據(jù),但成本高、耗時長,且面臨動物倫理問題的挑戰(zhàn)。隨著法規(guī)的不斷完善和消費者對化妝品安全性關(guān)注的提高,越來越多的國家和地區(qū)開始限制或禁止化妝品成分的動物測試,這使得尋找替代毒性測試方法成為了亟待解決的問題。因此,開發(fā)一種快速、準確且成本效益高的毒性預測方法顯得尤為重要。近年來,計算毒理學作為一種替代或補充實驗毒理學的工具得到了廣泛關(guān)注。特別是機器學習算法,憑借其強大的數(shù)據(jù)處理和模式識別能力,在藥物研發(fā)、環(huán)境風險評估等領(lǐng)域展現(xiàn)出巨大潛力。基于分子結(jié)構(gòu)的毒性預測方法依托于現(xiàn)代計算化學和分子模擬技術(shù),通過構(gòu)建化合物的分子指紋特征,利用已有的毒性數(shù)據(jù)集建立預測模型,可以實現(xiàn)對化學品毒性性質(zhì)的快速預測,這種方法不僅能夠減少動物實驗的使用,還能顯著降低毒理學測試的時間和成本,為化妝品研發(fā)過程中的安全性篩選提供了重要支持。
2、在化妝品原料領(lǐng)域,致突變性、致癌性、眼刺激性和皮膚致敏性是四種關(guān)鍵的毒理學性質(zhì),直接關(guān)系到消費者的健康與安全。這些性質(zhì)的評估對于化妝品原料的篩選、配方設計以及最終產(chǎn)品的安全評價至關(guān)重要。因此,本發(fā)明旨在通過構(gòu)建基于分子結(jié)構(gòu)特征和機器學習算法的毒性預測模型,實現(xiàn)對多種毒理學性質(zhì)準確預測的方法。這種方法不僅能夠提高化妝品原料研發(fā)的效率,降低安全風險,還能為化妝品行業(yè)的安全監(jiān)管提供科學依據(jù)和技術(shù)支持。
技術(shù)實現(xiàn)思路
1、為了解決化妝品原料研發(fā)中存在的上述問題,本發(fā)明提出了一種化妝品原料的毒理學性質(zhì)預測方法,用于評估化妝品原料的四種毒理學性質(zhì):致突變性、致癌性、眼刺激性和皮膚致敏性。
2、具體的技術(shù)流程包括:
3、步驟1:從公開的毒性數(shù)據(jù)庫、文獻報告等中收集化合物的分子結(jié)構(gòu)數(shù)據(jù)以及其對應的四種毒理學性質(zhì)數(shù)據(jù)。對這些數(shù)據(jù)進行整理,形成化合物的毒性數(shù)據(jù)集,數(shù)據(jù)集規(guī)模如下表所示:
4、 毒理學性質(zhì) 化合物數(shù)量 致突變性 6782 致癌性 1296 眼刺激性 1137 皮膚致敏性 709
5、注:陽性化合物表示化合物分別具有致突變性、致癌性、眼刺激性、皮膚致敏性;陰性化合物表示不具有致突變性、致癌性、眼刺激性、皮膚致敏性。
6、步驟2:使用隨機分層抽樣的方法將整理后的毒性數(shù)據(jù)集劃分為訓練集和外部測試集。訓練集用于模型的訓練和優(yōu)化,而外部測試集則用于評估毒性模型的預測準確率和可靠性,確保模型具有良好的泛化能力。隨機分層方法切分數(shù)據(jù)集確保了訓練集和外部測試集的陽性化合物與隱形化合物比例保持一致。
7、步驟3:使用化合物規(guī)范的smiles(canonical?smiles)計算化合物的分子指紋,具體地,包含以下八種分子指紋類型:cdk、cdk-extend、maccs、substructure、pubchem、klekota-roth通過padel-descriptor軟件計算。ecfp和fcfp使用rdkit包的allchem.getmorganfingerprintasbitvect模塊計算。作為本發(fā)明的進一步限定,ecfp的半徑可選1、2、3;比特位數(shù)可選512、1024、2048、4906、8192、16384。
8、在訓練集上使用特征選擇方法確定毒性預測模型的分子指紋,所述特征選擇方法為零方差過濾、卡方(chi-square,?χ2)檢驗、互信息中的一種或幾種的組合。一般認為零方差的分子指紋對于建模沒有意義,即分子指紋的某一片段全部為常數(shù)0或1時,將該片段過濾掉;然后繼續(xù)使用卡方檢驗或者互信息進一步減少用于建模的指紋特征。
9、步驟4:在已經(jīng)完成分子指紋篩選的訓練集數(shù)據(jù)上建立致突變性、致癌性、眼刺激性和皮膚致敏性的毒性預測模型,使用以下機器學習分類算法構(gòu)建模型:邏輯回歸(lr)、嶺回歸(rr)、被動攻擊(pa)、支持向量機(svm)、線性支持向量機(lsvm)、隨機森林(rf)、極端隨機樹(ert)、極限梯度提升(xgb)、輕量級梯度提升機(lgbm)。
10、訓練毒性預測模型時使用5-折分層交叉驗證網(wǎng)格搜索方法進行超參數(shù)優(yōu)化,并選擇模型在交叉驗證集上平均f1分數(shù)最高的超參數(shù)配置機器學習分類算法。
11、上述各種機器學習分類算法建模時需要優(yōu)化的超參數(shù)分別為:lr、pa、lsvm對正則化參數(shù)c進行優(yōu)化,?rr對正則化參數(shù)alpha進行優(yōu)化,svm選擇rbf核對系數(shù)gamma和正則化參數(shù)c進行優(yōu)化,rf、ert對估計器的個數(shù)?n_estimators、樹的最大深度max_depth、分支內(nèi)部節(jié)點的最小樣本數(shù)min_samples_split進行優(yōu)化,?xgb對n_estimators、max_depth、min_child_weight、learning_rate?進行優(yōu)化,lgbm對num_leaves、n_estimators、max_depth、min_child_samples、learning_rate進行優(yōu)化。所有超參數(shù)優(yōu)化過程遵循先粗略搜索后精細搜索的原則。
12、作為本發(fā)明的進一步限定,由于數(shù)據(jù)集兩類活性數(shù)據(jù)的樣本數(shù)量不平衡,構(gòu)建毒性預測模型時采用加權(quán)的代價敏感學習策略,具體地,調(diào)整權(quán)重比例的設置參考如下計算公式:
13、
14、式中表示訓練集樣本總數(shù),2表示二分類,表示訓練集類別的樣本數(shù)。
15、步驟5:使用外部測試集驗證毒性預測模型的準確性,使用了如下5個指標評價毒性預測模型的性能:召回度(recall、rec)、精確度(precision,pre)、特異度(specificity,spe)、平衡準確度(balanced-accuracy,ba)、f1分數(shù)。在類不平衡時,精確度-召回度(precision-recall,pr)曲線和pr曲線下面積(pr-auc)更能反映分類模型的真實預測能力。本發(fā)明使用pr曲線以及pr-auc對模型進行可視化評估。
16、
17、
18、
19、
20、
21、式中其中tp(true?positive,真陽性)表示正確預測為陽性的化合物數(shù)量,tn(true?negative,真陰性)表示正確預測為陰性的化合物數(shù)量,fp(false?positive,假陽性)表示錯誤預測為陽性的化合物數(shù)量,fn(false?negative,假陰性)表示錯誤預測為陰性的化合物數(shù)量。
22、步驟6:依據(jù)外部測試集對毒性預測模型的結(jié)果,挑選預測性能優(yōu)異的毒性預測模型構(gòu)成毒性預測共識模型。將經(jīng)過驗證的毒性預測共識模型應用于化妝品原料的毒理學性質(zhì)預測,可以在產(chǎn)品開發(fā)的早期階段對新型原料進行快速的安全性篩選,降低潛在的毒性風險。本發(fā)明的預測模型能夠在較高的準確性水平下進行毒性分類,該方法不僅能夠顯著降低化妝品原料研發(fā)的安全風險,減少毒理學測試的費用和時間,還為化妝品行業(yè)的研發(fā)人員提供了一個可靠的安全評估工具。