本發(fā)明涉及數(shù)據(jù)驅動,具體涉及一種化合物物性預測方法、系統(tǒng)、設備及介質。
背景技術:
1、傳統(tǒng)的物質屬性預測模型主要依賴于經(jīng)驗公式和物理理論,如clausius-mosotti方程、onsager和kirkwood方程等。這些理論雖然在某些情況下能夠提供有用的預測,但它們通常只適用于特定的物質群體,如稀有氣體或具有有限極性的液體,并且在處理強極性化合物時,這些理論模型的可靠性顯著降低。后來,研究者通過構建定量結構-性質關系(qspr)模型,使用分子的多種物理描述符來預測物體屬性,例如,liu和rowley構建的qspr模型就基于分子偶極-偶極矩、溶解參數(shù)、范德華面積和折射率等描述符來預測化合物的介電常數(shù)。
2、隨著計算化學和機器學習技術的發(fā)展,研究人員開始嘗試機器學習(machinelearning,ml)方法,應用傳統(tǒng)的機器學習算法(如線性回歸、支持向量機、決策樹、隨機森林等)來從分子特征中學習并預測物質的性質,比如介電常數(shù)、溶解率、導電率等。但這些單個的機器學習方法在特征選擇和模型訓練方面存在局限性,尤其是在處理高維非線性數(shù)據(jù)關系時。此外,ml方法在特征組合和模型訓練過程中,容易出現(xiàn)過擬合問題。
3、傳統(tǒng)的物質屬性預測模型通過分子的物理性質來預測介電常數(shù)值,但它們通?;谟邢薜姆肿用枋龇⑶以谔幚斫殡姵?shù)值大于50的化合物時表現(xiàn)不佳,不僅耗時耗力,而且可能因為忽略了其他重要特征而影響模型的性能,導致對化合物物性的預測結果不精準。
技術實現(xiàn)思路
1、針對現(xiàn)有技術在處理小樣本集和強極性化合物時存在局限性,尤其是在預測高介電常數(shù)的化合物時表現(xiàn)不佳,導致對化合物物性的預測結果不精準的不足,本發(fā)明提出一種化合物物性預測方法、系統(tǒng)、設備及介質,通過自動化的特征提取和多模態(tài)信息的整合,實現(xiàn)了從微觀到宏觀的多尺度描述,提高了預測結果與目標變量的相關性,從而解決了現(xiàn)有技術存在的問題。
2、一種化合物物性預測方法,包括以下步驟:
3、獲取化合物的分子特征;
4、通過將化合物的分子特征輸入物性預測模型中,得到該化合物物性的預測值;其具體包括以下步驟:
5、通過聚類模塊獲取化合物的分子特征之間的相關性距離,根據(jù)相關性距離對分子特征進行聚類分組,并將同一組的分子特征進行線性擬合;
6、利用特征子空間組合模塊將線性擬合后的分子特征劃分為多個子空間,在每個子空間中進行特征組合,并對特征組合進行全局搜索以及定向優(yōu)化,進而尋找出分子特征之間的最優(yōu)組合;
7、采用編碼模塊對最優(yōu)組合的所有分子特征進行線性和非線性變化,尋找得到適用于非線性擬合和線性擬合的特征;根據(jù)適用于非線性擬合和線性擬合的特征得到該化合物物性的預測值。
8、進一步地,通過使用rdkit庫和mordred工具獲取所述化合物的分子特征,所述分子特征包括mordred描述符、原子級別描述符、分子級別描述符、rdkit?ml描述符、cats2d描述符、mopac描述符。
9、進一步地,所述通過聚類模塊獲取化合物的分子特征之間的相關性距離之前,采用特征處理模塊對分子特征進行變換和降維,其變換過程通過傅里葉變換、余弦變換對分子特征依次進行變換,然后采用稀疏變換對變換后的特征進行降維,基于transformer模型對降維后的特征嵌入編碼;同時對分子特征中非結構化數(shù)據(jù)特征進行特殊變換,將所有離散特征數(shù)據(jù)轉換為統(tǒng)一的獨立編碼變量。
10、進一步地,所述通過聚類模塊獲取化合物的分子特征之間的相關性距離,根據(jù)相關性距離對特征進行聚類分組;具體采用spearman或pearson相關系數(shù)計算分子特征之間的相關性距離,根據(jù)該相關性距離,利用dbscan或最近鄰聚類算法對特征進行聚類和分組。
11、進一步地,采用遺傳算法對特征組合進行全局搜索以及定向優(yōu)化,進而尋找出分子特征之間的最優(yōu)組合;具體包括以下步驟:
12、設置遺傳算法參數(shù),其包括特征維度、種群大小、交叉率、突變率、迭代次數(shù)以及目標相關性閾值;
13、將每個子空間中的特征組合進行迭代計算,當達到指定迭代次數(shù)以及與目標的相關性距離大于指定閾值時,則停止迭代,輸出特征之間的最優(yōu)組合。
14、本發(fā)明還包括一種化合物物性預測系統(tǒng),包括:
15、獲取模塊,用于獲取化合物的分子特征;
16、預測模塊,用于通過將化合物的分子特征輸入所述物性預測模型中,得到該化合物物性的預測值;其具體包括:
17、擬合單元,用于通過聚類模塊獲取化合物的分子特征之間的相關性距離,根據(jù)相關性距離對分子特征進行聚類分組,并將同一組的分子特征進行線性擬合;
18、最優(yōu)組合搜索單元,用于利用特征子空間組合模塊將線性擬合后的分子特征劃分為多個子空間,在每個子空間中進行特征組合,并對特征組合進行全局搜索以及定向優(yōu)化,進而尋找出分子特征之間的最優(yōu)組合;
19、預測單元,用于采用編碼模塊對最優(yōu)組合的所有特征進行線性和非線性變化,得到適用于非線性擬合和線性擬合的特征;根據(jù)適用于非線性擬合和線性擬合的特征得到該化合物物性的預測值。
20、本發(fā)明還包括一種化合物物性預測計算機設備,包括:存儲器、處理器以及存儲在所述存儲器內的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述的化合物物性預測方法的步驟。
21、本發(fā)明還包括一種可讀存儲介質,所述可讀存儲介質存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令被處理器執(zhí)行時,用于執(zhí)行所述的化合物物性預測方法的步驟。
22、本發(fā)明提供了一種化合物物性預測方法、系統(tǒng)、設備及介質,具備以下有益效果:
23、本發(fā)明通過構建物性預測模型,結合相關距離和遺傳算法,將同組特征進行線性擬合,對擬合后的特征進行劃分再次進行特征組合,通過擬合同一組的特征,從而合并線性相關的特征,減少特征冗余,提高模型的泛化能力;然后搜尋找到與預測目標變量最相關的特征組合,通過這種多層次的迭代方法,能夠更有效地從微觀結構信息中提取宏觀性質,提高預測的準確性和可解釋性;本方法通過自動化的特征提取和多模態(tài)信息的整合,實現(xiàn)了從微觀到宏觀的多尺度描述,相比傳統(tǒng)方法顯著提高了預測結果與目標變量的相關性,提高了預測結果與目標變量的相關性,解決了對化合物物性的預測不精準的問題。
1.一種化合物物性預測方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的一種化合物物性預測方法,其特征在于,通過使用rdkit庫和mordred工具獲取所述化合物的分子特征,所述分子特征包括mordred描述符、原子級別描述符、分子級別描述符、rdkitml描述符、cats2d描述符、mopac描述符。
3.根據(jù)權利要求1所述的一種化合物物性預測方法,其特征在于,所述通過聚類模塊獲取化合物的分子特征之間的相關性距離之前,采用特征處理模塊對分子特征進行變換和降維,其變換過程通過傅里葉變換、余弦變換對分子特征依次進行變換,然后采用稀疏變換對變換后的特征進行降維,基于transfor?mer模型對降維后的特征嵌入編碼;同時對分子特征中非結構化數(shù)據(jù)特征進行特殊變換,將所有離散特征數(shù)據(jù)轉換為統(tǒng)一的獨立編碼變量。
4.根據(jù)權利要求1所述的一種化合物物性預測方法,其特征在于,所述通過聚類模塊獲取化合物的分子特征之間的相關性距離,根據(jù)相關性距離對特征進行聚類分組;具體采用spearman或pearson相關系數(shù)計算分子特征之間的相關性距離,根據(jù)該相關性距離,利用dbscan或最近鄰聚類算法對特征進行聚類和分組。
5.根據(jù)權利要求1所述的一種化合物物性預測方法,其特征在于,采用遺傳算法對特征組合進行全局搜索以及定向優(yōu)化,進而尋找出分子特征之間的最優(yōu)組合;具體包括以下步驟:
6.一種化合物物性預測系統(tǒng),其特征在于,包括:
7.一種化合物物性預測計算機設備,其特征在于,包括:存儲器、處理器以及存儲在所述存儲器內的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1-5任一項所述的化合物物性預測方法的步驟。
8.一種可讀存儲介質,其特征在于,所述可讀存儲介質存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令被處理器執(zhí)行時,用于執(zhí)行權利要求1-5任一項所述的化合物物性預測方法的步驟。