本技術涉及計算機,特別是涉及一種分子優(yōu)化模型的訓練方法、分子優(yōu)化方法和相關裝置。
背景技術:
1、分子優(yōu)化是藥物發(fā)現(xiàn)過程中的一項關鍵任務,在多個領域都具有廣泛的應用前景和重要的科學價值,例如藥物研發(fā)領域、材料科學領域、化學工程領域、環(huán)境科學領域等。
2、分子優(yōu)化是指給定一個源分子,將該源分子轉換為另一個分子(即目標分子),且這個目標分子與源分子化學結構較為相似,但某些其它屬性卻得到了較大提升,使得目標分子與已知的源分子相比具有改善的特性。
3、目前,在分子優(yōu)化領域,已知機器學習方法包括基于序列表示的分子優(yōu)化和基于圖表示的分子優(yōu)化兩種方法,但無論哪種優(yōu)化方法,都專注于優(yōu)化分子的單一屬性,無法針對分子的多種屬性進行優(yōu)化,即使將已知機器學習方法用于多種屬性的優(yōu)化,也難以保證分子優(yōu)化準確性。
技術實現(xiàn)思路
1、為了解決上述技術問題,本技術提供了一種分子優(yōu)化模型的訓練方法、分子優(yōu)化方法和相關裝置,可以在多輪對話提示數(shù)據(jù)上訓練分子優(yōu)化模型,得到可以基于多輪對話指令優(yōu)化多個屬性的分子優(yōu)化模型,大大提高了分子優(yōu)化的效率,降低了分子優(yōu)化的成本,同時保證分子優(yōu)化的準確性。
2、本技術實施例公開了如下技術方案:
3、一方面,本技術實施例提供一種分子優(yōu)化模型的訓練方法,所述方法包括:
4、構造分子多元組,所述分子多元組中包括n個分子,所述n個分子包括n-1組相鄰分子,針對所述n-1組相鄰分子中的第i組相鄰分子,所述第i組相鄰分子中第二分子是優(yōu)化第一分子的一個屬性得到的,不同組相鄰分子之間優(yōu)化的屬性不同,所述第i組相鄰分子為所述分子多元組中第i組位置相鄰的兩個分子,所述第一分子在所述第i組相鄰分子中的位置比所述第二分子在所述第i組相鄰分子中的位置靠前;n為大于或等于3的正整數(shù),i為大于0且小于或等于n-1的正整數(shù);
5、將所述分子多元組代入對話模板中,構造多輪對話提示數(shù)據(jù),所述多輪對話提示數(shù)據(jù)中包括n-1輪對話,所述n-1輪對話中第i輪對話用于指示對所述第i組相鄰分子中所述第一分子對應的屬性進行優(yōu)化得到所述第二分子;
6、基于所述多輪對話提示數(shù)據(jù)對初始網絡模型進行訓練,得到所述分子優(yōu)化模型,所述分子優(yōu)化模型用于在源分子的基礎上,通過多輪對話指令對多個屬性依次進行優(yōu)化得到目標分子,所述多輪對話指令的輪數(shù)和所述多個屬性的數(shù)量相同。
7、一方面,本技術實施例提供一種分子優(yōu)化方法,所述方法包括:
8、獲取多輪對話指令;
9、基于所述多輪對話指令,通過分子優(yōu)化模型在所述多輪對話指令所包括的源分子的基礎上依次對多個屬性進行優(yōu)化,得到目標分子,所述多輪對話指令的輪數(shù)和所述多個屬性的數(shù)量相同;
10、其中,基于所述多輪對話指令中第j輪對話指令,通過所述分子優(yōu)化模型對第j個屬性進行優(yōu)化的方式如下所示:
11、獲取互動對象輸入的所述第j輪對話指令,所述第j輪對話指令用于指示對第j-1個分子的第j個屬性進行優(yōu)化,j為大于或等于1的正整數(shù),當j=1時,所述第j-1個分子為源分子,當j大于1時,所述第j-1個分子為基于第j-1輪對話指令優(yōu)化第j-1個屬性后得到的分子;
12、基于所述第j輪對話指令,通過分子優(yōu)化模型優(yōu)化所述第j-1個分子的第j個屬性,得到第j個分子,當j等于所述多輪對話指令的輪數(shù)時,所述第j個分子為所述目標分子。
13、一方面,本技術實施例提供一種分子優(yōu)化模型的訓練裝置,所述裝置包括構造單元和訓練單元:
14、所述構造單元,用于構造分子多元組,所述分子多元組中包括n個分子,所述n個分子包括n-1組相鄰分子,針對所述n-1組相鄰分子中的第i組相鄰分子,所述第i組相鄰分子中第二分子是優(yōu)化第一分子的一個屬性得到的,不同組相鄰分子之間優(yōu)化的屬性不同,所述第i組相鄰分子為所述分子多元組中第i組位置相鄰的兩個分子,所述第一分子在所述第i組相鄰分子中的位置比所述第二分子在所述第i組相鄰分子中的位置靠前;n為大于或等于3的正整數(shù),i為大于0且小于或等于n-1的正整數(shù);
15、所述構造單元,還用于將所述分子多元組代入對話模板中,構造多輪對話提示數(shù)據(jù),所述多輪對話提示數(shù)據(jù)中包括n-1輪對話,所述n-1輪對話中第i輪對話用于指示對所述第i組相鄰分子中所述第一分子對應的屬性進行優(yōu)化得到所述第二分子;
16、所述訓練單元,用于基于所述多輪對話提示數(shù)據(jù)對初始網絡模型進行訓練,得到所述分子優(yōu)化模型,所述分子優(yōu)化模型用于在源分子的基礎上,通過多輪對話指令對多個屬性依次進行優(yōu)化得到目標分子,所述多輪對話指令的輪數(shù)和所述多個屬性的數(shù)量相同。
17、一方面,本技術實施例提供一種分子優(yōu)化裝置,所述裝置包括獲取單元和優(yōu)化單元:
18、所述獲取單元,用于獲取多輪對話指令;
19、所述優(yōu)化單元,用于基于所述多輪對話指令,通過分子優(yōu)化模型在所述多輪對話指令所包括的源分子的基礎上依次對多個屬性進行優(yōu)化,得到目標分子,所述多輪對話指令的輪數(shù)和所述多個屬性的數(shù)量相同;
20、其中,基于所述多輪對話指令中第j輪對話指令,通過所述分子優(yōu)化模型對第j個屬性進行優(yōu)化的方式如下所示:
21、獲取互動對象輸入的所述第j輪對話指令,所述第j輪對話指令用于指示對第j-1個分子的第j個屬性進行優(yōu)化,j為大于或等于1的正整數(shù),當j=1時,所述第j-1個分子為源分子,當j大于1時,所述第j-1個分子為基于第j-1輪對話指令優(yōu)化第j-1個屬性后得到的分子;
22、基于所述第j輪對話指令,通過分子優(yōu)化模型優(yōu)化所述第j-1個分子的第j個屬性,得到第j個分子,當j等于所述多輪對話指令的輪數(shù)時,所述第j個分子為所述目標分子。
23、一方面,本技術實施例提供一種計算機設備,所述計算機設備包括處理器以及存儲器:
24、所述存儲器用于存儲計算機程序,并將所述計算機程序傳輸給所述處理器;
25、所述處理器用于根據(jù)所述計算機程序中的指令執(zhí)行前述任一方面所述的方法。
26、一方面,本技術實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲計算機程序,所述計算機程序當被處理器執(zhí)行時使所述處理器執(zhí)行前述任一方面所述的方法。
27、一方面,本技術實施例提供一種計算機程序產品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)前述任一方面所述的方法。
28、由上述技術方案可以看出,本技術實施例在訓練分子優(yōu)化模型的過程中,為了使得分子優(yōu)化模型具有分子多屬性優(yōu)化的能力,可以先構造分子多元組,分子多元組中包括n個分子,n個分子包括n-1組相鄰分子,針對n-1組相鄰分子中的第i組相鄰分子,第i組相鄰分子中第二分子是優(yōu)化第一分子的一個屬性得到的,不同組相鄰分子之間優(yōu)化的屬性不同,第i組相鄰分子為分子多元組中第i組位置相鄰的兩個分子,第一分子在第i組相鄰分子中的位置比第二分子在第i組相鄰分子中的位置靠前;n為大于或等于3的正整數(shù),i為大于0且小于或等于n-1的正整數(shù)。也就是說,分子多元組中后一個分子是基于前一個分子進行一個屬性的優(yōu)化得到的,相當于在分子多元組中第一個分子的基礎上依次優(yōu)化多個屬性得到最后一個分子,分子多元組可以作為訓練分子優(yōu)化模型的分子多屬性優(yōu)化能力的樣本。然后使用預先設定的對話模板,將分子多元組代入對話模板中,將使用自然語言描述的分子優(yōu)化目標和分子多元組構造為多輪對話提示數(shù)據(jù),多輪對話提示數(shù)據(jù)中包括n-1輪對話,n-1輪對話中第i輪對話用于指示對第i組相鄰分子中第一分子對應的屬性進行優(yōu)化得到第二分子。這樣,基于多輪對話提示數(shù)據(jù)對初始網絡模型進行訓練,得到分子優(yōu)化模型的過程中,使得分子優(yōu)化模型可以在理解自然語言和分子語言的同時保留對話能力,能夠理解對話的上下文信息,記憶之前的對話內容,使得分子優(yōu)化模型可以在源分子的基礎上,通過多輪對話指令對多個屬性依次進行優(yōu)化得到目標分子。同時,多輪對話提示數(shù)據(jù)中每輪對話僅用于優(yōu)化一個屬性,使得分子優(yōu)化模型也學習到每次優(yōu)化僅針對一個屬性進行優(yōu)化而不改變其他屬性這一能力,從而保證分子優(yōu)化的準確性??梢?,本技術可以在多輪對話提示數(shù)據(jù)上訓練分子優(yōu)化模型,得到可以基于多輪對話指令優(yōu)化多個屬性的分子優(yōu)化模型,大大提高了分子優(yōu)化的效率,降低了分子優(yōu)化的成本,同時保證分子優(yōu)化的準確性。