本技術(shù)涉及計算機,具體涉及一種分子生成方法、裝置、存儲介質(zhì)、設(shè)備及程序產(chǎn)品。
背景技術(shù):
1、在藥物設(shè)計和分子生物學(xué)領(lǐng)域,生成與特定蛋白質(zhì)結(jié)合的分子是實現(xiàn)靶向治療和藥物開發(fā)的關(guān)鍵步驟。目前,這一過程主要依賴于三種技術(shù)方法:基于口袋的結(jié)構(gòu)藥物設(shè)計(sbdd)、基于序列的方法、以及基于擴散和流模型的方法。這些方法各有特點,但都面臨著一些共同的技術(shù)挑戰(zhàn)和限制,如對蛋白質(zhì)三維結(jié)構(gòu)的依賴、以及對未知結(jié)構(gòu)蛋白-分子相互作用學(xué)習(xí)能力的缺乏。
2、因此,當(dāng)前技術(shù)存在對蛋白質(zhì)三維結(jié)構(gòu)的依賴、以及對未知結(jié)構(gòu)蛋白-分子相互作用學(xué)習(xí)能力的問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種分子生成方法、裝置、存儲介質(zhì)、設(shè)備及程序產(chǎn)品,能夠利用目標蛋白質(zhì)的至少一種模態(tài)的已知模態(tài)蛋白質(zhì)信息生成多模態(tài)標準化特征,實現(xiàn)在目標蛋白質(zhì)缺少某些模態(tài)信息的情況下生成高質(zhì)量的藥物分子,提升了藥物設(shè)計的效率。
2、一方面,本技術(shù)實施例提供一種分子生成方法,所述方法包括:
3、獲取目標蛋白質(zhì)對應(yīng)的已知模態(tài)蛋白質(zhì)信息,所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括模態(tài)集合中的至少一種模態(tài),所述模態(tài)集合包括序列模態(tài)、結(jié)構(gòu)模態(tài)和口袋模態(tài);
4、基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對所述已知模態(tài)蛋白質(zhì)信息進行特征處理,獲取所述目標蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征,所述多模態(tài)標準化特征包括具有相同維度的序列標準化特征、結(jié)構(gòu)標準化特征和口袋標準化特征;
5、基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對所述多模態(tài)標準化特征進行分子生成處理,得到針對所述目標蛋白質(zhì)的目標分子;
6、其中,所述訓(xùn)練后的多模態(tài)語言模型是基于多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,所述多模態(tài)數(shù)據(jù)集包括樣本分子對應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,所述多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集。
7、另一方面,本技術(shù)實施例提供一種分子生成裝置,所述裝置包括:
8、獲取單元,用于獲取目標蛋白質(zhì)對應(yīng)的已知模態(tài)蛋白質(zhì)信息,所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括模態(tài)集合中的至少一種模態(tài),所述模態(tài)集合包括序列模態(tài)、結(jié)構(gòu)模態(tài)和口袋模態(tài);
9、特征處理單元,用于基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對所述已知模態(tài)蛋白質(zhì)信息進行特征處理,獲取所述目標蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征,所述多模態(tài)標準化特征包括具有相同維度的序列標準化特征、結(jié)構(gòu)標準化特征和口袋標準化特征;
10、分子生成單元,用于基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對所述多模態(tài)標準化特征進行分子生成處理,得到針對所述目標蛋白質(zhì)的目標分子;
11、其中,所述訓(xùn)練后的多模態(tài)語言模型是基于多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,所述多模態(tài)數(shù)據(jù)集包括樣本分子對應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,所述多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集。
12、在一些實施例中,所述特征處理模塊包括特征編碼模塊、投影器與模態(tài)恢復(fù)模塊,所述特征處理單元在用于基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對所述已知模態(tài)蛋白質(zhì)信息進行特征處理,獲取所述目標蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征時,具體用于:
13、若所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括所述模態(tài)集合中的部分模態(tài),則根據(jù)所述已知模態(tài)蛋白質(zhì)信息與所述模態(tài)集合確定所述目標蛋白質(zhì)對應(yīng)的缺失模態(tài);
14、基于所述特征編碼模塊對所述已知模態(tài)蛋白質(zhì)信息進行特征編碼處理,獲取所述目標蛋白質(zhì)對應(yīng)的已知模態(tài)源特征,所述已知模態(tài)源特征包括序列源特征、結(jié)構(gòu)源特征和口袋源特征中的一種或兩種;
15、基于所述投影器對所述已知模態(tài)源特征進行標準化處理,得到所述目標蛋白質(zhì)對應(yīng)的已知模態(tài)標準化特征;
16、基于所述模態(tài)恢復(fù)模塊對所述已知模態(tài)標準化特征與第一目標模態(tài)提示信息進行模態(tài)恢復(fù)處理,獲取所述目標蛋白質(zhì)對應(yīng)的缺失模態(tài)恢復(fù)標準化特征,所述第一目標模態(tài)提示信息用于提示恢復(fù)所述缺失模態(tài);
17、根據(jù)所述已知模態(tài)標準化特征與所述缺失模態(tài)恢復(fù)標準化特征,獲取所述目標蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征,所述多模態(tài)標準化特征包括序列標準化特征、結(jié)構(gòu)標準化特征和口袋標準化特征。
18、在一些實施例中,所述特征處理單元在用于基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對所述已知模態(tài)蛋白質(zhì)信息與所述模態(tài)集合進行特征處理,獲取所述目標蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征時,還用于:
19、若所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括所述模態(tài)集合中的全部模態(tài),則基于所述特征編碼模塊對所述已知模態(tài)蛋白質(zhì)信息進行特征編碼處理,獲取所述目標蛋白質(zhì)對應(yīng)的已知模態(tài)源特征,所述已知模態(tài)源特征包括序列源特征、結(jié)構(gòu)源特征和口袋源特征;
20、基于所述投影器對所述已知模態(tài)源特征中各個源特征進行標準化處理,得到所述目標蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征,所述多模態(tài)標準化特征包括序列標準化特征、結(jié)構(gòu)標準化特征和口袋標準化特征。
21、在一些實施例中,所述分子生成模塊包括模態(tài)嵌入模塊、編碼器和解碼器,所述分子生成單元在用于基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對所述多模態(tài)標準化特征進行分子生成處理,得到針對所述目標蛋白質(zhì)的目標分子時,具體用于:
22、基于所述模態(tài)嵌入模塊對所述多模態(tài)標準化特征中各個標準化特征進行模態(tài)嵌入處理,得到多模態(tài)嵌入特征,所述多模態(tài)嵌入特征包括序列嵌入特征、結(jié)構(gòu)嵌入特征和口袋嵌入特征;
23、基于所述編碼器對所述多模態(tài)嵌入特征進行特征融合處理,得到所述目標蛋白質(zhì)對應(yīng)的融合特征;
24、基于所述解碼器對所述融合特征進行特征解碼處理,得到針對所述目標蛋白質(zhì)的目標分子。
25、在一些實施例中,所述分子處理單元在用于基于所述模態(tài)嵌入模塊對所述多模態(tài)標準化特征中各個標準化特征進行模態(tài)嵌入處理,得到多模態(tài)嵌入特征時,具體用于:
26、基于所述模態(tài)嵌入模塊將所述多模態(tài)標準化特征中的序列標準化特征與序列模態(tài)嵌入相加,得到所述多模態(tài)嵌入特征中的序列嵌入特征,所述序列模態(tài)嵌入用于增強所述序列模態(tài)的特征表示;
27、基于所述模態(tài)嵌入模塊將所述多模態(tài)標準化特征中的結(jié)構(gòu)標準化特征與結(jié)構(gòu)模態(tài)嵌入相加,得到所述多模態(tài)嵌入特征中的結(jié)構(gòu)嵌入特征,所述結(jié)構(gòu)模態(tài)嵌入用于增強所述結(jié)構(gòu)模態(tài)的特征表示;
28、基于所述模態(tài)嵌入模塊將所述多模態(tài)標準化特征中的口袋標準化特征與口袋模態(tài)嵌入相加,得到所述多模態(tài)嵌入特征中的口袋嵌入特征,所述口袋模態(tài)嵌入用于增強所述口袋模態(tài)的特征表示。
29、在一些實施例中,所述裝置還包括訓(xùn)練單元,用于:
30、獲取多模態(tài)數(shù)據(jù)集,所述多模態(tài)數(shù)據(jù)集包括樣本分子對應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,所述多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集;
31、根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述特征處理模塊,確定模態(tài)恢復(fù)損失函數(shù);
32、根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述分子生成模塊,確定分子生成損失函數(shù);
33、基于所述模態(tài)恢復(fù)損失函數(shù)與所述分子生成損失函數(shù)更新所述多模態(tài)語言模型的模型參數(shù),得到所述訓(xùn)練后的多模態(tài)語言模型。
34、在一些實施例中,所述訓(xùn)練單元在用于根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述特征處理模塊,確定模態(tài)恢復(fù)損失函數(shù)時,具體用于:
35、基于所述特征處理模塊中的所述特征編碼模塊與所述投影器對所述完整模態(tài)樣本子集進行特征處理,得到所述樣本蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征真實值,所述多模態(tài)標準化特征真實值包括序列標準化特征真實值、結(jié)構(gòu)標準化特征真實值和口袋標準化特征真實值;
36、基于所述特征處理模塊中的所述特征編碼模塊、所述投影器與所述模態(tài)恢復(fù)模塊,對所述序列模態(tài)樣本子集或者所述口袋模態(tài)樣本子集進行特征處理,得到所述樣本蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征預(yù)測值,所述多模態(tài)標準化特征預(yù)測值包括序列標準化特征預(yù)測值、結(jié)構(gòu)標準化特征預(yù)測值和口袋標準化特征預(yù)測值;
37、根據(jù)所述多模態(tài)標準化特征真實值與所述多模態(tài)標準化特征預(yù)測值之間的差異,計算所述模態(tài)恢復(fù)損失函數(shù)。
38、在一些實施例中,所述訓(xùn)練單元在用于基于所述特征處理模塊中的所述特征編碼模塊與所述投影器對所述完整模態(tài)樣本子集進行特征處理,得到所述樣本蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征真實值時,具體用于:
39、基于所述特征編碼模塊對所述完整模態(tài)樣本子集進行特征編碼處理,獲取所述樣本蛋白質(zhì)對應(yīng)的已知模態(tài)源特征真實值,所述已知模態(tài)源特征真實值包括序列源特征真實值、結(jié)構(gòu)源特征真實值和口袋源特征真實值;
40、基于所述投影器對所述已知模態(tài)源特征真實值中各個源特征真實值進行標準化處理,得到所述樣本蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征真實值。
41、在一些實施例中,所述訓(xùn)練單元在用于基于所述特征處理模塊中的所述特征編碼模塊、所述投影器與所述模態(tài)恢復(fù)模塊,對所述序列模態(tài)樣本子集或者所述口袋模態(tài)樣本子集進行特征處理,得到所述樣本蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征預(yù)測值時,具體用于:
42、基于所述特征編碼模塊對所述序列模態(tài)樣本子集進行特征編碼處理,獲取所述樣本蛋白質(zhì)對應(yīng)的序列源特征真實值;基于所述投影器對所述序列源特征真實值進行標準化處理,得到所述樣本蛋白質(zhì)對應(yīng)的序列標準化特征真實值;以及基于所述模態(tài)恢復(fù)模塊對所述序列標準化特征真實值與第二目標模態(tài)提示信息進行模態(tài)恢復(fù)處理,獲取所述樣本蛋白質(zhì)對應(yīng)的結(jié)構(gòu)標準化特征預(yù)測值和口袋標準化特征預(yù)測值,所述第二目標模態(tài)提示信息用于提示恢復(fù)所述結(jié)構(gòu)模態(tài)與所述口袋模態(tài);或者
43、基于所述特征編碼模塊對所述口袋模態(tài)樣本子集進行特征編碼處理,獲取所述樣本蛋白質(zhì)對應(yīng)的口袋源特征真實值;基于所述投影器對所述口袋源特征真實值進行標準化處理,得到所述樣本蛋白質(zhì)對應(yīng)的口袋標準化特征真實值;以及基于所述模態(tài)恢復(fù)模塊對所述口袋標準化特征真實值與第三目標模態(tài)提示信息進行模態(tài)恢復(fù)處理,獲取所述樣本蛋白質(zhì)對應(yīng)的序列標準化特征預(yù)測值和結(jié)構(gòu)標準化特征預(yù)測值,所述第三目標模態(tài)提示信息用于提示恢復(fù)所述序列模態(tài)與所述結(jié)構(gòu)模態(tài)。
44、在一些實施例中,所述訓(xùn)練單元在用于根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述分子生成模塊,確定分子生成損失函數(shù)時,具體用于:
45、基于所述特征處理模塊中的所述特征編碼模塊與所述投影器對所述完整模態(tài)樣本子集進行特征處理,得到所述樣本蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征真實值,所述多模態(tài)標準化特征真實值包括序列標準化特征真實值、結(jié)構(gòu)標準化特征真實值和口袋標準化特征真實值;
46、獲取所述樣本分子的真實嵌入字符串序列中的位置i的真實令牌;
47、在給定所述真實嵌入字符串序列中位置i之前的所有令牌的情況下,基于所述分子生成模塊對所述多模態(tài)標準化特征真實值進行分子生成處理,得到所述樣本分子的預(yù)測嵌入字符串序列中位置i的預(yù)測令牌;
48、基于所述真實嵌入字符串序列中位置i的真實令牌與所述預(yù)測嵌入字符串序列中位置i的預(yù)測令牌之間的差異,計算所述分子生成損失函數(shù)。
49、在一些實施例中,所述訓(xùn)練單元在用于根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述分子生成模塊,確定分子生成損失函數(shù)時,具體用于:
50、基于所述特征處理模塊中的所述特征編碼模塊、所述投影器與所述模態(tài)恢復(fù)模塊,對所述序列模態(tài)樣本子集或者所述口袋模態(tài)樣本子集進行特征處理,得到所述樣本蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征預(yù)測值,所述多模態(tài)標準化特征預(yù)測值包括序列標準化特征預(yù)測值、結(jié)構(gòu)標準化特征預(yù)測值和口袋標準化特征預(yù)測值;
51、獲取所述樣本分子的真實嵌入字符串序列中的位置i的真實令牌;
52、在給定所述真實嵌入字符串序列中位置i之前的所有令牌的情況下,基于所述分子生成模塊對所述多模態(tài)標準化特征真實值進行分子生成處理,得到所述樣本分子的預(yù)測嵌入字符串序列中位置i的預(yù)測令牌;
53、基于所述真實嵌入字符串序列中位置i的真實令牌與所述預(yù)測嵌入字符串序列中位置i的預(yù)測令牌之間的差異,計算所述分子生成損失函數(shù)。
54、在一些實施例中,所述模型參數(shù)包括所述投影器的投影參數(shù)、所述模態(tài)恢復(fù)模塊的模態(tài)恢復(fù)參數(shù)與所述分子生成模塊的分子生成參數(shù);所述訓(xùn)練單元在用于基于所述模態(tài)恢復(fù)損失函數(shù)與所述分子生成損失函數(shù)更新所述多模態(tài)語言模型的模型參數(shù)時,具體用于
55、基于所述模態(tài)恢復(fù)損失函數(shù)更新所述模態(tài)恢復(fù)模塊的模態(tài)恢復(fù)參數(shù);
56、基于所述分子生成損失函數(shù)更新所述投影器的投影參數(shù)與所述分子生成模塊的分子生成參數(shù)。
57、另一方面,本技術(shù)實施例一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序適于處理器進行加載,以執(zhí)行如上任一實施例所述的分子生成方法。
58、另一方面,本技術(shù)實施例一種計算機設(shè)備,所述計算機設(shè)備包括處理器和存儲器,所述存儲器中存儲有計算機程序,所述處理器通過調(diào)用所述存儲器中存儲的所述計算機程序,用于執(zhí)行如上任一實施例所述的分子生成方法。
59、另一方面,本技術(shù)實施例一種計算機程序產(chǎn)品,包括計算機指令,所述計算機指令被處理器執(zhí)行時實現(xiàn)如上任一實施例所述的分子生成方法。
60、本技術(shù)實施例通過獲取目標蛋白質(zhì)對應(yīng)的已知模態(tài)蛋白質(zhì)信息,已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括模態(tài)集合中的至少一種模態(tài),模態(tài)集合包括序列模態(tài)、結(jié)構(gòu)模態(tài)和口袋模態(tài);基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對已知模態(tài)蛋白質(zhì)信息進行特征處理,獲取目標蛋白質(zhì)對應(yīng)的多模態(tài)標準化特征,多模態(tài)標準化特征包括具有相同維度的序列標準化特征、結(jié)構(gòu)標準化特征和口袋標準化特征;基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對多模態(tài)標準化特征進行分子生成處理,得到針對目標蛋白質(zhì)的目標分子;其中,訓(xùn)練后的多模態(tài)語言模型是基于多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,多模態(tài)數(shù)據(jù)集包括樣本分子對應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集。本技術(shù)實施例能夠利用目標蛋白質(zhì)的至少一種模態(tài)的已知模態(tài)蛋白質(zhì)信息生成多模態(tài)標準化特征,實現(xiàn)在目標蛋白質(zhì)缺少某些模態(tài)信息的情況下生成高質(zhì)量的藥物分子,提升了藥物設(shè)計的效率,這種方法減少了對完整蛋白質(zhì)三維結(jié)構(gòu)的依賴,從而加快了藥物設(shè)計的過程。通過多模態(tài)語言模型的特征處理模塊,本技術(shù)的多模態(tài)語言模型是基于包含序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本的多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,這種多模態(tài)的訓(xùn)練方式使得模型能夠更充分地學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)和互補信息,從而提高了模型對未知結(jié)構(gòu)蛋白與目標分子之間相互作用的學(xué)習(xí)能力。