一種化合物物性預測方法、系統(tǒng)、設備及介質

文檔序號：40547531發(fā)布日期：2025-01-03 11:07閱讀：6來源：國知局

本發(fā)明涉及數(shù)據(jù)驅動，具體涉及一種化合物物性預測方法、系統(tǒng)、設備及介質。

背景技術：

1、傳統(tǒng)的物質屬性預測模型主要依賴于經(jīng)驗公式和物理理論，如clausius-mosotti方程、onsager和kirkwood方程等。這些理論雖然在某些情況下能夠提供有用的預測，但它們通常只適用于特定的物質群體，如稀有氣體或具有有限極性的液體，并且在處理強極性化合物時，這些理論模型的可靠性顯著降低。后來，研究者通過構建定量結構－性質關系(qspr)模型，使用分子的多種物理描述符來預測物體屬性，例如，liu和rowley構建的qspr模型就基于分子偶極-偶極矩、溶解參數(shù)、范德華面積和折射率等描述符來預測化合物的介電常數(shù)。

2、隨著計算化學和機器學習技術的發(fā)展，研究人員開始嘗試機器學習(machinelearning,ml)方法，應用傳統(tǒng)的機器學習算法(如線性回歸、支持向量機、決策樹、隨機森林等)來從分子特征中學習并預測物質的性質，比如介電常數(shù)、溶解率、導電率等。但這些單個的機器學習方法在特征選擇和模型訓練方面存在局限性，尤其是在處理高維非線性數(shù)據(jù)關系時。此外，ml方法在特征組合和模型訓練過程中，容易出現(xiàn)過擬合問題。

3、傳統(tǒng)的物質屬性預測模型通過分子的物理性質來預測介電常數(shù)值，但它們通?；谟邢薜姆肿用枋龇⑶以谔幚斫殡姵?shù)值大于50的化合物時表現(xiàn)不佳，不僅耗時耗力，而且可能因為忽略了其他重要特征而影響模型的性能，導致對化合物物性的預測結果不精準。

技術實現(xiàn)思路

1、針對現(xiàn)有技術在處理小樣本集和強極性化合物時存在局限性，尤其是在預測高介電常數(shù)的化合物時表現(xiàn)不佳，導致對化合物物性的預測結果不精準的不足，本發(fā)明提出一種化合物物性預測方法、系統(tǒng)、設備及介質，通過自動化的特征提取和多模態(tài)信息的整合，實現(xiàn)了從微觀到宏觀的多尺度描述，提高了預測結果與目標變量的相關性，從而解決了現(xiàn)有技術存在的問題。

2、一種化合物物性預測方法，包括以下步驟：

3、獲取化合物的分子特征；

4、通過將化合物的分子特征輸入物性預測模型中，得到該化合物物性的預測值；其具體包括以下步驟：

5、通過聚類模塊獲取化合物的分子特征之間的相關性距離，根據(jù)相關性距離對分子特征進行聚類分組，并將同一組的分子特征進行線性擬合；

6、利用特征子空間組合模塊將線性擬合后的分子特征劃分為多個子空間，在每個子空間中進行特征組合，并對特征組合進行全局搜索以及定向優(yōu)化，進而尋找出分子特征之間的最優(yōu)組合；

7、采用編碼模塊對最優(yōu)組合的所有分子特征進行線性和非線性變化，尋找得到適用于非線性擬合和線性擬合的特征；根據(jù)適用于非線性擬合和線性擬合的特征得到該化合物物性的預測值。

8、進一步地，通過使用rdkit庫和mordred工具獲取所述化合物的分子特征，所述分子特征包括mordred描述符、原子級別描述符、分子級別描述符、rdkit?ml描述符、cats2d描述符、mopac描述符。

9、進一步地，所述通過聚類模塊獲取化合物的分子特征之間的相關性距離之前，采用特征處理模塊對分子特征進行變換和降維，其變換過程通過傅里葉變換、余弦變換對分子特征依次進行變換，然后采用稀疏變換對變換后的特征進行降維，基于transformer模型對降維后的特征嵌入編碼；同時對分子特征中非結構化數(shù)據(jù)特征進行特殊變換，將所有離散特征數(shù)據(jù)轉換為統(tǒng)一的獨立編碼變量。

10、進一步地，所述通過聚類模塊獲取化合物的分子特征之間的相關性距離，根據(jù)相關性距離對特征進行聚類分組；具體采用spearman或pearson相關系數(shù)計算分子特征之間的相關性距離，根據(jù)該相關性距離，利用dbscan或最近鄰聚類算法對特征進行聚類和分組。

11、進一步地，采用遺傳算法對特征組合進行全局搜索以及定向優(yōu)化，進而尋找出分子特征之間的最優(yōu)組合；具體包括以下步驟：

12、設置遺傳算法參數(shù)，其包括特征維度、種群大小、交叉率、突變率、迭代次數(shù)以及目標相關性閾值；

13、將每個子空間中的特征組合進行迭代計算，當達到指定迭代次數(shù)以及與目標的相關性距離大于指定閾值時，則停止迭代，輸出特征之間的最優(yōu)組合。

14、本發(fā)明還包括一種化合物物性預測系統(tǒng)，包括：

15、獲取模塊，用于獲取化合物的分子特征；

16、預測模塊，用于通過將化合物的分子特征輸入所述物性預測模型中，得到該化合物物性的預測值；其具體包括：

17、擬合單元，用于通過聚類模塊獲取化合物的分子特征之間的相關性距離，根據(jù)相關性距離對分子特征進行聚類分組，并將同一組的分子特征進行線性擬合；

18、最優(yōu)組合搜索單元，用于利用特征子空間組合模塊將線性擬合后的分子特征劃分為多個子空間，在每個子空間中進行特征組合，并對特征組合進行全局搜索以及定向優(yōu)化，進而尋找出分子特征之間的最優(yōu)組合；

19、預測單元，用于采用編碼模塊對最優(yōu)組合的所有特征進行線性和非線性變化，得到適用于非線性擬合和線性擬合的特征；根據(jù)適用于非線性擬合和線性擬合的特征得到該化合物物性的預測值。

20、本發(fā)明還包括一種化合物物性預測計算機設備，包括：存儲器、處理器以及存儲在所述存儲器內的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述的化合物物性預測方法的步驟。

21、本發(fā)明還包括一種可讀存儲介質，所述可讀存儲介質存儲有計算機程序，所述計算機程序包括程序指令，所述程序指令被處理器執(zhí)行時，用于執(zhí)行所述的化合物物性預測方法的步驟。

22、本發(fā)明提供了一種化合物物性預測方法、系統(tǒng)、設備及介質，具備以下有益效果：

23、本發(fā)明通過構建物性預測模型，結合相關距離和遺傳算法，將同組特征進行線性擬合，對擬合后的特征進行劃分再次進行特征組合，通過擬合同一組的特征，從而合并線性相關的特征，減少特征冗余，提高模型的泛化能力；然后搜尋找到與預測目標變量最相關的特征組合，通過這種多層次的迭代方法，能夠更有效地從微觀結構信息中提取宏觀性質，提高預測的準確性和可解釋性；本方法通過自動化的特征提取和多模態(tài)信息的整合，實現(xiàn)了從微觀到宏觀的多尺度描述，相比傳統(tǒng)方法顯著提高了預測結果與目標變量的相關性，提高了預測結果與目標變量的相關性，解決了對化合物物性的預測不精準的問題。

技術特征：

1.一種化合物物性預測方法，其特征在于，包括以下步驟：

2.根據(jù)權利要求1所述的一種化合物物性預測方法，其特征在于，通過使用rdkit庫和mordred工具獲取所述化合物的分子特征，所述分子特征包括mordred描述符、原子級別描述符、分子級別描述符、rdkitml描述符、cats2d描述符、mopac描述符。

3.根據(jù)權利要求1所述的一種化合物物性預測方法，其特征在于，所述通過聚類模塊獲取化合物的分子特征之間的相關性距離之前，采用特征處理模塊對分子特征進行變換和降維，其變換過程通過傅里葉變換、余弦變換對分子特征依次進行變換，然后采用稀疏變換對變換后的特征進行降維，基于transfor?mer模型對降維后的特征嵌入編碼；同時對分子特征中非結構化數(shù)據(jù)特征進行特殊變換，將所有離散特征數(shù)據(jù)轉換為統(tǒng)一的獨立編碼變量。

4.根據(jù)權利要求1所述的一種化合物物性預測方法，其特征在于，所述通過聚類模塊獲取化合物的分子特征之間的相關性距離，根據(jù)相關性距離對特征進行聚類分組；具體采用spearman或pearson相關系數(shù)計算分子特征之間的相關性距離，根據(jù)該相關性距離，利用dbscan或最近鄰聚類算法對特征進行聚類和分組。

5.根據(jù)權利要求1所述的一種化合物物性預測方法，其特征在于，采用遺傳算法對特征組合進行全局搜索以及定向優(yōu)化，進而尋找出分子特征之間的最優(yōu)組合；具體包括以下步驟：

6.一種化合物物性預測系統(tǒng)，其特征在于，包括：

7.一種化合物物性預測計算機設備，其特征在于，包括：存儲器、處理器以及存儲在所述存儲器內的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1-5任一項所述的化合物物性預測方法的步驟。

8.一種可讀存儲介質，其特征在于，所述可讀存儲介質存儲有計算機程序，所述計算機程序包括程序指令，所述程序指令被處理器執(zhí)行時，用于執(zhí)行權利要求1-5任一項所述的化合物物性預測方法的步驟。

技術總結
本發(fā)明公開一種化合物物性預測方法、系統(tǒng)、設備及介質，涉及數(shù)據(jù)驅動技術領域，該方法包括：通過將化合物的分子特征輸入物性預測模型中，基于相關性距離的聚類模塊獲取分子特征之間的相關性距離，將特征分組并減少線性冗余變量進行線性擬合；基于遺傳算法優(yōu)化的特征子空間組合模塊利用遺傳算法進行特征組合全局搜索和定向優(yōu)化，以發(fā)現(xiàn)特征之間的最優(yōu)組合并進行評估；利用適用線性和非線性編碼的模塊從分子結構中提取原始特征和理化描述符，尋找適用于非線性擬合和線性擬合的特征；本方法顯著提高了預測結果與目標變量的相關性，從而在小樣本物性預測以及多組分復雜系統(tǒng)的微觀和宏觀屬性方面表現(xiàn)出優(yōu)越性。

技術研發(fā)人員：毛家順,周仟仟
受保護的技術使用者：西南醫(yī)科大學
技術研發(fā)日：
技術公布日：2025/1/2

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：毛家順,周仟仟
技術所有人：西南醫(yī)科大學
我是此專利的發(fā)明人

上一篇：一種快速固定的電氣檢測輔助夾具的制作方法
上一篇：一種臺式切割裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細化工與化學 3.生物質精煉 4.天然產物化學
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復 4.天然產物合成 5.單分子技術開發(fā)與應用
3、戴老師：1.天然藥物（中藥）合成生物學研究 2.酵母生物學與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學酶法合成及構效關系研究 3.多糖及仿生材料功能的開發(fā)及應用
5、滿老師：1.天然產品的提取分離與活性研究 2.天然產物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種化合物物性預測方法、系統(tǒng)、設備及介質

一種化合物物性預測方法、系統(tǒng)、設備及介質