本公開涉及蛋白質(zhì)穩(wěn)定性研究,更具體涉及基于圖神經(jīng)網(wǎng)絡(luò)(graphneuralnetwork,gnn)預(yù)測(cè)蛋白穩(wěn)定性。
背景技術(shù):
1、蛋白質(zhì)通過采用特定的三維結(jié)構(gòu)才能發(fā)揮特定功能,而折疊成相應(yīng)三維結(jié)構(gòu)的能力受到蛋白質(zhì)穩(wěn)定性的影響。(參見ittisoponpisan,sirawit等,2019,“canpredictedprotein3dstructuresprovidereliableinsightsintowhethermissensevariantsarediseaseassociated?”,journalofmolecularbiology431(11):2197–2212以及ofoegbu,tochukwuc.等,2019,“phyrerisk:adynamicwebapplicationtobridgegenomics,proteomicsand3dstructuraldatatoguideinterpretationofhumangeneticvariants”,journalofmolecularbiology431(13):2460–66。在此通過援引,將上述文獻(xiàn)的全部?jī)?nèi)容合并到本公開中,使之成為本公開的內(nèi)容的一部分。)從生物技術(shù)到醫(yī)學(xué)的許多領(lǐng)域中,準(zhǔn)確預(yù)測(cè)突變對(duì)蛋白質(zhì)穩(wěn)定性(折疊自由能)的影響至關(guān)重要。例如,在蛋白質(zhì)工程中,有針對(duì)性的重新設(shè)計(jì)蛋白質(zhì)使優(yōu)化這些蛋白所涉及的生物技術(shù)和生物制藥過程成為可能。(參見coluzza,ivan,2017,“computationalproteindesign:areview”,journalofphysics:condensed?matter29(14):143001以及korendovych,ivanv.,和williamf.degrado,2020,“denovo?proteindesign,aretrospective”,quarterlyreviewsofbiophysics53:e3。在此通過援引,將上述文獻(xiàn)的全部?jī)?nèi)容合并到本公開中,使之成為本公開的內(nèi)容的一部分。)穩(wěn)定性預(yù)測(cè)對(duì)解釋人類遺傳變異的影響也起著關(guān)鍵作用,它可以幫助人們更好地理解這些變異如何導(dǎo)致疾病。(參見gunning,adamc等,2021,“assessingperformanceofpathogenicity?predictorsusingclinicallyrelevantvariantdatasets”,journalofmedicalgenetics58(8):547–55和kopanos,christos等,2019,“varsome:the?human?genomic?variant?search?engine”編jonathan?wren,bioinformatics?35(11):1978–80。在此通過援引,將上述文獻(xiàn)的全部?jī)?nèi)容合并到本公開中,使之成為本公開的內(nèi)容的一部分。)定向進(jìn)化和理性設(shè)計(jì)是兩種常見的蛋白質(zhì)改造策略。定向進(jìn)化策略已經(jīng)被成功應(yīng)用于酶活性、穩(wěn)定性、底物特異性、立體選擇性等酶性質(zhì)的改造,美國(guó)科學(xué)家弗朗西絲·阿諾德(frances?h.arnold)因此拿下2018年諾貝爾化學(xué)獎(jiǎng)。然而,定向進(jìn)化需要構(gòu)建大規(guī)模的突變體文庫,建立高通量篩選手段,會(huì)耗費(fèi)大量的人力,物力以及財(cái)力。定向進(jìn)化方法也難以完成對(duì)序列空間的全面搜索,存在根本缺陷。理性設(shè)計(jì)策略依靠對(duì)蛋白質(zhì)結(jié)構(gòu)與功能關(guān)系的認(rèn)識(shí)預(yù)測(cè)可能的突變型,而后通過定點(diǎn)突變的手段在目的基因中構(gòu)建突變型。從本質(zhì)上說,與定向進(jìn)化相比,理性設(shè)計(jì)改造蛋白質(zhì)的效率更高。另外,理性設(shè)計(jì)方法具有普適性,一種有效的理性設(shè)計(jì)策略可以普遍應(yīng)用于多種蛋白質(zhì)的改造。然而,目前理性設(shè)計(jì)方法的準(zhǔn)確率普遍較低,應(yīng)用范圍遠(yuǎn)沒有定向進(jìn)化廣泛。在過去的幾十年中,許多研究致力于建立更新、更有效的方法,以基于人工智能預(yù)測(cè)突變對(duì)蛋白質(zhì)穩(wěn)定性的影響為最新的研究發(fā)展方向。近年來,人工智能輔助的蛋白質(zhì)工程逐漸發(fā)展成為一種高效的蛋白設(shè)計(jì)新策略,在蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)、功能預(yù)測(cè)、穩(wěn)定性預(yù)測(cè)和抗體親和力預(yù)測(cè)等多個(gè)方面顯現(xiàn)出獨(dú)特的優(yōu)勢(shì),成為繼理性設(shè)計(jì)和定向進(jìn)化之后的又一次技術(shù)浪潮。
2、在過去十年中,人工智能對(duì)各種的蛋白預(yù)測(cè)方法有了前所未有的改進(jìn),從蛋白質(zhì)序列嵌入層預(yù)測(cè)殘基相互作用到預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)和功能。其中,自然語言處理是目前人工智能最熱門的領(lǐng)域之一,常用于文本生成,問答和翻譯。自然語言處理本身適用于分析文本的結(jié)構(gòu)及含義,而生命中最基本的核酸及蛋白質(zhì)均由序列構(gòu)成,這與文本之間存在內(nèi)在的聯(lián)系。這些方法背后的主要概念是將蛋白質(zhì)序列解釋為句子,并將它們的組成部分——氨基酸解釋為單個(gè)單詞。這些方法已經(jīng)能夠直接從蛋白質(zhì)的氨基酸序列中提取特定的特征,克服了標(biāo)準(zhǔn)的基于特征的機(jī)器學(xué)習(xí)(ml)方法的局限性?,F(xiàn)在已經(jīng)開發(fā)出多種基于蛋白質(zhì)的自然語言模型表征蛋白序列的特征,并將其用于下游的蛋白性質(zhì)的預(yù)測(cè),表現(xiàn)出優(yōu)異的性能。(參見rao,roshan等,2019,“evaluating?protein?transfer?learning?with?tape”,advances?in?neural?information?processing?systems?32:9689–9701。在此通過援引,將上述文獻(xiàn)的全部?jī)?nèi)容合并到本公開中,使之成為本公開的內(nèi)容的一部分。)
3、相比之下,幾何深度學(xué)習(xí)方法,特別是是圖神經(jīng)網(wǎng)絡(luò)(gnn),可以通過在蛋白結(jié)構(gòu)上的卷積運(yùn)算來預(yù)測(cè)蛋白質(zhì)的各種性質(zhì)。如果將蛋白質(zhì)的三維結(jié)構(gòu)看作是每個(gè)氨基酸直接按照一定關(guān)系連接成的一張網(wǎng)絡(luò),那么每個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的連接則是某個(gè)氨基酸與周圍其他氨基酸形成的相互作用,這種相互作用正是反應(yīng)了蛋白質(zhì)結(jié)構(gòu)的特性。這種特征一般稱之為圖的邊特征,而權(quán)重則可以通過點(diǎn)與點(diǎn)的距離體現(xiàn),例如,在藥物分子的結(jié)構(gòu)中,兩個(gè)原子之間的邊可以通過它們之間的距離或者化學(xué)鍵的類型來確定權(quán)重。通過考慮邊的特征和權(quán)重,gnn可以更加準(zhǔn)確地捕捉節(jié)點(diǎn)之間的關(guān)系和距離,從而提高模型的表達(dá)能力和性能。gnn在各種問題上都取得了巨大的成功,從定量結(jié)構(gòu)-活性關(guān)系模型的學(xué)習(xí)特征,到預(yù)測(cè)藥物的生化活性,再到預(yù)測(cè)蛋白質(zhì)對(duì)之間的界面。
技術(shù)實(shí)現(xiàn)思路
1、基于以上提到的現(xiàn)階段預(yù)測(cè)突變對(duì)蛋白穩(wěn)定性影響方法存在的問題,本公開提出一種快速準(zhǔn)確的方法用于預(yù)測(cè)突變對(duì)蛋白質(zhì)穩(wěn)定性的影響。它是一種基于最新的自然語言處理方法,采用t5(即,transfer?text-to-text?transformer)預(yù)訓(xùn)練模型提取序列特征,與基于結(jié)構(gòu)的特征結(jié)合,輸入到圖神經(jīng)網(wǎng)絡(luò)模型,優(yōu)選為圖卷積神經(jīng)網(wǎng)絡(luò)模型中,用于預(yù)測(cè)由氨基酸取代引起的折疊自由能的變化,得到蛋白質(zhì)穩(wěn)定性的預(yù)測(cè)結(jié)果。結(jié)果顯示性能較現(xiàn)有方法有了進(jìn)一步的提高。
2、根據(jù)本公開的第一方面,提供了一種預(yù)測(cè)蛋白質(zhì)突變后穩(wěn)定性的方法。所述方法可以包括如下步驟:基于待預(yù)測(cè)蛋白質(zhì)樣本序列信息,使用預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的序列特征;基于待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)信息,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的結(jié)構(gòu)特征;基于所述序列特征和所述結(jié)構(gòu)特征,使用基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型進(jìn)行預(yù)測(cè),確定所述待預(yù)測(cè)蛋白質(zhì)樣本突變后的穩(wěn)定性預(yù)測(cè)結(jié)果。
3、在根據(jù)本公開第一方面的方法中,所述待預(yù)測(cè)蛋白質(zhì)樣本序列信息可以包括所述待預(yù)測(cè)蛋白質(zhì)樣本在突變前的氨基酸序列信息和在突變后的氨基酸序列信息。
4、另一方面,所述待預(yù)測(cè)蛋白質(zhì)樣本序列信息可以包括所述待預(yù)測(cè)蛋白質(zhì)樣本在突變前的氨基酸序列信息和指定突變信息。由此,根據(jù)所述待預(yù)測(cè)蛋白質(zhì)樣本在突變前的氨基酸序列信息和指定突變信息,可以獲得所述待預(yù)測(cè)蛋白質(zhì)樣本在突變后的氨基酸序列信息。
5、優(yōu)選地,所述指定突變信息包括指定突變位點(diǎn)和/或指定突變后氨基酸類型。
6、在根據(jù)本公開第一方面的方法中,所述的基于待預(yù)測(cè)蛋白質(zhì)樣本序列信息,使用預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的序列特征可以進(jìn)一步包括:將所述待預(yù)測(cè)蛋白質(zhì)樣本在突變前的氨基酸序列信息和在突變后的氨基酸序列信息分別使用所述預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得突變前的序列特征信息和突變后的序列特征信息;將所述突變前的序列特征信息和所述突變后的序列特征信息進(jìn)行拼接,得到所述待預(yù)測(cè)蛋白質(zhì)樣本的序列特征。
7、在根據(jù)本公開第一方面的方法中,所述預(yù)訓(xùn)練模型可以采用以下模型中的一種或多種的組合來實(shí)現(xiàn):esm-1b、uniref、proteinbert、tape、protgpt2、prottxl、protbert、protxlnet、protalbert、protelectra、prott5-xl和prott5-xxl;較優(yōu)選地,所述預(yù)訓(xùn)練模型為prott5-xl或prott5-xxl;更優(yōu)選地,所述預(yù)訓(xùn)練模型為prott5-xl。
8、在根據(jù)本公開第一方面的方法中,所述的待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)信息可以包括通過以下數(shù)據(jù)庫或預(yù)測(cè)軟件中的至少一種獲取的待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)信息:pdb數(shù)據(jù)庫、alphafold2、i-tasser、rosettafold、modeller和swiss-model。
9、在根據(jù)本公開第一方面的方法中,所述三維結(jié)構(gòu)信息可以包括相互作用網(wǎng)絡(luò)、二級(jí)結(jié)構(gòu)、氨基酸殘基距離或物理環(huán)境。優(yōu)選地,所述三維結(jié)構(gòu)信息包括相互作用網(wǎng)絡(luò)。
10、優(yōu)選地,所述的待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)信息通過以下方式獲?。韩@取待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)的坐標(biāo);根據(jù)獲取的三維結(jié)構(gòu)的坐標(biāo)計(jì)算蛋白質(zhì)三維結(jié)構(gòu)中氨基酸殘基對(duì)之間的距離;當(dāng)兩個(gè)殘基對(duì)之間的阿爾法碳原子距離小于10埃時(shí),表示節(jié)點(diǎn)之間存在邊的關(guān)系,記為1,否則為0,自身記為0,得到整個(gè)待預(yù)測(cè)蛋白質(zhì)樣本的鄰接矩陣。
11、相應(yīng)地,在根據(jù)本公開第一方面的方法中,所述的基于待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)信息,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的結(jié)構(gòu)特征可以包括:以突變位點(diǎn)為中心,從所述整個(gè)待預(yù)測(cè)蛋白質(zhì)樣本的鄰接矩陣中截取指定大小的鄰接矩陣,作為所述待預(yù)測(cè)蛋白質(zhì)樣本的結(jié)構(gòu)特征;或者,根據(jù)所述整個(gè)待預(yù)測(cè)蛋白質(zhì)樣本的鄰接矩陣中的氨基酸,再計(jì)算所述氨基酸殘基對(duì)之間的距離,當(dāng)兩個(gè)殘基對(duì)之間的阿爾法碳原子距離小于10埃時(shí),表示節(jié)點(diǎn)之間存在邊的關(guān)系,記為1,否則為0,自身記為0,得到待預(yù)測(cè)蛋白質(zhì)樣本的二階鄰接矩陣。在一些實(shí)施方式中,以突變位點(diǎn)為中心,從整個(gè)蛋白質(zhì)的鄰接矩陣中截取n*n(n為大于或等于1的整數(shù))的鄰接矩陣。從整個(gè)蛋白質(zhì)的鄰接矩陣中截取n*n的鄰接矩陣可以是基于突變位點(diǎn)左右兩側(cè)的序列進(jìn)行截取,也可以是基于與突變位點(diǎn)之間的距離進(jìn)行截取。在一個(gè)實(shí)施方式中,以突變位點(diǎn)為中心,選擇整個(gè)待預(yù)測(cè)蛋白質(zhì)樣本的鄰接矩陣中與突變位點(diǎn)距離小于10埃的氨基酸,作為待預(yù)測(cè)蛋白質(zhì)樣本的結(jié)構(gòu)特征。
12、在根據(jù)本公開第一方面的方法中,所述的基于所述序列特征和所述結(jié)構(gòu)特征,使用基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型進(jìn)行預(yù)測(cè),確定所述待預(yù)測(cè)蛋白質(zhì)樣本突變后的穩(wěn)定性預(yù)測(cè)結(jié)果可以進(jìn)一步包括:將所述序列特征和所述結(jié)構(gòu)特征輸入到基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型;通過矩陣相乘與聚合操作,使用若干層圖網(wǎng)絡(luò)結(jié)構(gòu)對(duì)特征進(jìn)行更新后輸出;將若干層圖網(wǎng)絡(luò)結(jié)構(gòu)分別輸出的特征合并;采用池化操作對(duì)特征進(jìn)行壓縮;根據(jù)輸出層分類函數(shù)對(duì)特征進(jìn)行穩(wěn)定性分類。優(yōu)選地,池化操作可以是平均池化、最大池化或k-max池化。
13、在根據(jù)本公開第一方面的方法中,所述的基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型可以通過以下步驟構(gòu)建出來的:獲取訓(xùn)練集,所述訓(xùn)練集包括多個(gè)訓(xùn)練樣本的信息,每個(gè)所述訓(xùn)練樣本的信息包括樣本蛋白質(zhì)的三維結(jié)構(gòu)信息、樣本蛋白質(zhì)突變前和突變后的氨基酸序列信息以及突變穩(wěn)定性標(biāo)簽;基于樣本蛋白質(zhì)突變前和突變后的氨基酸序列信息,通過預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得所述多個(gè)訓(xùn)練樣本的序列特征;基于樣本蛋白質(zhì)的三維結(jié)構(gòu)信息,獲得所述多個(gè)訓(xùn)練樣本的結(jié)構(gòu)特征;基于所述序列特征、所述結(jié)構(gòu)特征以及所述突變穩(wěn)定性標(biāo)簽,對(duì)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得所述的基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型。
14、優(yōu)選地,所述基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型是分類器。
15、優(yōu)選地,所述圖神經(jīng)網(wǎng)絡(luò)是圖卷積網(wǎng)絡(luò)。
16、更優(yōu)選地,所述基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型包括以下模型之一:mgc模型、mgc_f模型、mgc_s模型、ginconv模型和sageconv模型。
17、優(yōu)選地,可以獲取公開數(shù)據(jù)庫中的實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練集。與此同時(shí),可以通過對(duì)公開數(shù)據(jù)庫中的實(shí)驗(yàn)數(shù)據(jù)作反轉(zhuǎn)處理將訓(xùn)練集變?yōu)樵瓉淼膬杀洞笮 ?/p>
18、根據(jù)本公開的第二方面,提供一種蛋白質(zhì)突變后穩(wěn)定性預(yù)測(cè)模型的構(gòu)建方法。所述方法可以包括:獲取訓(xùn)練集,所述訓(xùn)練集包括多個(gè)訓(xùn)練樣本的信息,每個(gè)所述訓(xùn)練樣本的信息包括樣本蛋白質(zhì)的三維結(jié)構(gòu)信息、樣本蛋白質(zhì)突變前和突變后的氨基酸序列信息以及突變穩(wěn)定性標(biāo)簽;基于樣本蛋白質(zhì)突變前和突變后的氨基酸序列信息,通過預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得所述多個(gè)訓(xùn)練樣本的序列特征;基于樣本蛋白質(zhì)的三維結(jié)構(gòu)信息,獲得多個(gè)訓(xùn)練樣本的結(jié)構(gòu)特征;基于所述序列特征、所述結(jié)構(gòu)特征以及所述突變穩(wěn)定性標(biāo)簽,對(duì)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型。
19、在根據(jù)本公開第二方面的方法中,所述的基于樣本蛋白質(zhì)突變前和突變后的氨基酸序列信息,通過預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得所述多個(gè)訓(xùn)練樣本的序列特征可以進(jìn)一步包括:將所述樣本蛋白質(zhì)突變前和突變后的氨基酸序列信息分別使用所述預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得突變前的序列特征信息和突變后的序列特征信息;將所述突變前的序列特征信息和所述突變后的序列特征信息進(jìn)行拼接,得到所述多個(gè)訓(xùn)練樣本的序列特征。
20、在根據(jù)本公開第二方面的方法中,所述預(yù)訓(xùn)練模型可以采用以下模型中的一種或多種的組合來實(shí)現(xiàn):esm-1b、uniref、proteinbert、tape、protgpt2、prottxl、protbert、protxlnet、protalbert、protelectra、prott5-xl和prott5-xxl;較優(yōu)選地,所述預(yù)訓(xùn)練模型為prott5-xl或prott5-xxl;更優(yōu)選地,所述預(yù)訓(xùn)練模型為prott5-xl。
21、在根據(jù)本公開第二方面的方法中,所述的樣本蛋白質(zhì)的三維結(jié)構(gòu)信息可以包括通過以下數(shù)據(jù)庫或預(yù)測(cè)軟件中的至少一種獲取的樣本蛋白質(zhì)的三維結(jié)構(gòu)信息:pdb數(shù)據(jù)庫、alphafold2、i-tasser、rosettafold、modeller和swiss-model。
22、在根據(jù)本公開第二方面的方法中,所述三維結(jié)構(gòu)信息可以包括相互作用網(wǎng)絡(luò)、二級(jí)結(jié)構(gòu)、氨基酸殘基距離或物理環(huán)境。優(yōu)選地,所述三維結(jié)構(gòu)信息包括相互作用網(wǎng)絡(luò)。
23、優(yōu)選地,所述的樣本蛋白質(zhì)的三維結(jié)構(gòu)信息可以通過以下方式獲?。韩@取樣本蛋白質(zhì)的三維結(jié)構(gòu)的坐標(biāo);根據(jù)獲取的三維結(jié)構(gòu)的坐標(biāo)計(jì)算樣本蛋白質(zhì)三維結(jié)構(gòu)中氨基酸殘基對(duì)之間的距離;當(dāng)兩個(gè)殘基對(duì)之間的阿爾法碳原子距離小于10埃時(shí),表示節(jié)點(diǎn)之間存在邊的關(guān)系,記為1,否則為0,自身記為0,得到整個(gè)樣本蛋白質(zhì)的鄰接矩陣。
24、相應(yīng)地,在根據(jù)本公開第二方面的方法中,所述的基于樣本蛋白質(zhì)的三維結(jié)構(gòu)信息,獲得多個(gè)訓(xùn)練樣本的結(jié)構(gòu)特征可以包括:以突變位點(diǎn)為中心,從所述整個(gè)樣本蛋白質(zhì)的鄰接矩陣中截取指定大小的鄰接矩陣,作為所述樣本蛋白質(zhì)的結(jié)構(gòu)特征;或者,根據(jù)所述整個(gè)待預(yù)測(cè)蛋白質(zhì)樣本的鄰接矩陣中的氨基酸,再計(jì)算所述氨基酸殘基對(duì)之間的距離,當(dāng)兩個(gè)殘基對(duì)之間的阿爾法碳原子距離小于10埃時(shí),表示節(jié)點(diǎn)之間存在邊的關(guān)系,記為1,否則為0,自身記為0,得到待預(yù)測(cè)蛋白質(zhì)樣本的二階鄰接矩陣。
25、在根據(jù)本公開第二方面的方法中,所述的基于所述序列特征、所述結(jié)構(gòu)特征以及所述突變穩(wěn)定性標(biāo)簽,對(duì)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型可以包括:將所述序列特征和所述結(jié)構(gòu)特征輸入到圖神經(jīng)網(wǎng)絡(luò);通過矩陣相乘與聚合操作,使用若干層圖網(wǎng)絡(luò)結(jié)構(gòu)對(duì)特征進(jìn)行更新后輸出;將若干層圖網(wǎng)絡(luò)結(jié)構(gòu)分別輸出的特征合并;采用池化操作對(duì)特征進(jìn)行壓縮;根據(jù)輸出層分類函數(shù)對(duì)特征進(jìn)行穩(wěn)定性分類;以所述突變穩(wěn)定性標(biāo)簽作為輸出目標(biāo),對(duì)所述圖神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)節(jié)。優(yōu)選地,池化操作可以是平均池化、最大池化或k-max池化。
26、優(yōu)選地,所述基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型是分類器。
27、優(yōu)選地,所述圖神經(jīng)網(wǎng)絡(luò)是圖卷積網(wǎng)絡(luò)。
28、更優(yōu)選地,所述基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型包括以下模型之一:mgc模型、mgc_f模型、mgc_s模型、ginconv模型和sageconv模型。
29、優(yōu)選地,可以獲取公開數(shù)據(jù)庫中的實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練集。與此同時(shí),可以通過對(duì)公開數(shù)據(jù)庫中的實(shí)驗(yàn)數(shù)據(jù)作反轉(zhuǎn)處理將訓(xùn)練集變?yōu)樵瓉淼膬杀洞笮 ?/p>
30、根據(jù)本公開的第三方面,提供一種預(yù)測(cè)蛋白質(zhì)突變后穩(wěn)定性的系統(tǒng)。所述系統(tǒng)可以包括:獲取模塊,用于獲取待預(yù)測(cè)蛋白質(zhì)樣本序列信息和三維結(jié)構(gòu)信息;處理模塊,用于通過輸入待預(yù)測(cè)蛋白質(zhì)樣本序列信息和三維結(jié)構(gòu)信息,得到所述待預(yù)測(cè)蛋白質(zhì)樣本突變后的穩(wěn)定性預(yù)測(cè)結(jié)果。所述處理模塊進(jìn)一步包括如下子模塊:序列特征子模塊,用于基于所述待預(yù)測(cè)蛋白質(zhì)樣本序列信息,使用預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的序列特征;結(jié)構(gòu)特征子模塊,用于基于所述待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)信息,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的結(jié)構(gòu)特征;模型預(yù)測(cè)子模塊,用于基于所述序列特征和所述結(jié)構(gòu)特征,使用基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型進(jìn)行預(yù)測(cè),確定所述待預(yù)測(cè)蛋白質(zhì)樣本突變后的穩(wěn)定性預(yù)測(cè)結(jié)果。
31、根據(jù)本公開第三方面的基于圖神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)穩(wěn)定性的系統(tǒng)可以通過計(jì)算機(jī)實(shí)現(xiàn),優(yōu)選地,可以通過執(zhí)行計(jì)算機(jī)程序以實(shí)現(xiàn)以下操作:獲取待預(yù)測(cè)蛋白質(zhì)樣本序列信息和三維結(jié)構(gòu)信息;通過輸入待預(yù)測(cè)蛋白質(zhì)樣本序列信息和三維結(jié)構(gòu)信息,得到所述待預(yù)測(cè)蛋白質(zhì)樣本突變后的穩(wěn)定性預(yù)測(cè)結(jié)果,該操作進(jìn)一步包括如下子操作:基于所述待預(yù)測(cè)蛋白質(zhì)樣本序列信息,使用預(yù)訓(xùn)練模型進(jìn)行特征提取,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的序列特征;基于所述待預(yù)測(cè)蛋白質(zhì)樣本的三維結(jié)構(gòu)信息,獲得所述待預(yù)測(cè)蛋白質(zhì)樣本的結(jié)構(gòu)特征;基于所述序列特征和所述結(jié)構(gòu)特征,使用基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型進(jìn)行預(yù)測(cè),確定所述待預(yù)測(cè)蛋白質(zhì)樣本突變后的穩(wěn)定性預(yù)測(cè)結(jié)果。
32、根據(jù)本公開的第四方面,提供一種非瞬時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于存儲(chǔ)計(jì)算機(jī)程序。所述計(jì)算機(jī)程序包括指令。所述指令在由電子設(shè)備的處理器執(zhí)行時(shí)使所述電子設(shè)備實(shí)施根據(jù)本公開的第一方面的預(yù)測(cè)蛋白質(zhì)突變后穩(wěn)定性的方法或根據(jù)本公開的第二方面的蛋白質(zhì)突變后穩(wěn)定性預(yù)測(cè)模型的構(gòu)建方法。
33、根據(jù)本公開的第五方面,提供一種計(jì)算機(jī)系統(tǒng)。所述計(jì)算機(jī)系統(tǒng)包括:處理器、存儲(chǔ)器和計(jì)算機(jī)程序。所述計(jì)算機(jī)程序存儲(chǔ)在所述存儲(chǔ)器中并且被配置為由所述處理器執(zhí)行。所述計(jì)算機(jī)程序包括用于實(shí)施根據(jù)本公開的第一方面的預(yù)測(cè)蛋白質(zhì)突變后穩(wěn)定性的方法或根據(jù)本公開的第二方面的蛋白質(zhì)突變后穩(wěn)定性預(yù)測(cè)模型的構(gòu)建方法的指令。
34、以上的方法基于先進(jìn)的自然語言處理模型結(jié)合圖神經(jīng)網(wǎng)絡(luò),可應(yīng)用于不同的生物領(lǐng)域,并且表現(xiàn)出優(yōu)于早期方法的性能。