本發(fā)明涉及的是一種蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的技術(shù),具體是一種基于氨基酸序列、冷凍電鏡電子密度圖與擴(kuò)散模型的單體蛋白質(zhì)骨架結(jié)構(gòu)預(yù)測方法。
背景技術(shù):
1、目前主流蛋白質(zhì)結(jié)構(gòu)預(yù)測方法僅依賴氨基酸序列,需要進(jìn)行數(shù)據(jù)庫搜索,找到多序列比對與模板信息,精度在信息不足時會嚴(yán)重下降。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種基于冷凍電鏡與擴(kuò)散模型的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,依靠冷凍電鏡信息給出更精確的預(yù)測結(jié)構(gòu),同時通過擴(kuò)散模型反映變化構(gòu)象空間,能夠在低質(zhì)量的預(yù)測結(jié)構(gòu)預(yù)測樣本上提高預(yù)測結(jié)構(gòu)精度,同時提高了基于冷凍電鏡電子密度圖的結(jié)構(gòu)總體預(yù)測精度,反映了預(yù)測結(jié)構(gòu)構(gòu)象的變化。
2、本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
3、本發(fā)明涉及一種基于冷凍電鏡與擴(kuò)散模型的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,從冷凍電鏡電子密度圖中提取出特征點并轉(zhuǎn)化為點云結(jié)構(gòu),根據(jù)點云結(jié)構(gòu)分別通過daq模型預(yù)測得到對應(yīng)的氨基酸種類,通過alphafold2神經(jīng)網(wǎng)絡(luò)對輸入氨基酸序列得到一維、二維張量特征并用于訓(xùn)練構(gòu)造得到的基于條件擴(kuò)散的去噪神經(jīng)網(wǎng)絡(luò),使其支持冷凍電鏡點云結(jié)構(gòu)信息的輸入以及電鏡信息與序列信息的融合,再以訓(xùn)練后的去噪神經(jīng)網(wǎng)絡(luò)配合基于條件擴(kuò)散的采樣過程實現(xiàn)蛋白質(zhì)骨架結(jié)構(gòu)預(yù)測。
4、所述的特征點,通過對冷凍電鏡電子密度圖進(jìn)行聚類計算獲取得到,具體為:對冷凍電鏡電子密度圖通過給定閾值進(jìn)行濾波,將體素尺寸縮放至后,將處理電子密度圖通過meanshift++聚類算法進(jìn)行聚類,取各類的類中心點作為特征點,記錄其坐標(biāo)以點云形式表示,其形式為m×3張量,m為所提取到的特征點個數(shù)后,對此點云進(jìn)行最遠(yuǎn)點采樣,將其降采樣至n×3點云形式張量,n為氨基酸序列的長度。
5、所述的氨基酸種類,利用已訓(xùn)練的daq模型根據(jù)點云結(jié)構(gòu)預(yù)測得到,具體為:將冷凍電鏡電子密度圖輸入訓(xùn)練好的daq神經(jīng)網(wǎng)絡(luò),獲取各個體素處所屬氨基酸種類的概率后,將電子密度圖特征點的各個點坐標(biāo)對應(yīng)到此氨基酸種類分布中,得到各個特征點的氨基酸種類分布,取最大概率的氨基酸種類作為其預(yù)測氨基酸種類。
6、所述的daq模型,采用但不限于terashi,g.等在《residue-wise?local?qualityestimation?for?protein?models?from?cryo-em?maps》(nature?methods,19(9),pp.1116-1125)中記載的技術(shù)實現(xiàn)。
7、所述的一維、二維張量特征是指:將蛋白質(zhì)氨基酸序列輸入alphafold2神經(jīng)網(wǎng)絡(luò),從其結(jié)果中提取其網(wǎng)絡(luò)結(jié)構(gòu)evoformer輸出的一維、二維特征,其中一維特征形式為n×384張量,二維特征形式為n×n×128張量,n為氨基酸序列長度。
8、所述的alphafold2神經(jīng)網(wǎng)絡(luò),采用但不限于jumper,j.等在《highlyaccurateprotein?structure?prediction?withalphafold》(nature,596(7873),pp.583-589)中記載的技術(shù)實現(xiàn)。
9、所述的基于條件擴(kuò)散的去噪神經(jīng)網(wǎng)絡(luò)基于ddpm擴(kuò)散形式,設(shè)置最大時間步數(shù)為t=100,采用余弦時間表[α1,α2,…,αn],根據(jù)輸入的n×1的氨基酸序列、n×3噪聲cα碳原子坐標(biāo)xt、常量時間步t、n×3冷凍電鏡特征點坐標(biāo)、n×1冷凍電鏡特征點氨基酸種類、n×384序列對應(yīng)的alphafold2一維特征以及n×n×128序列對應(yīng)的alphafold2二維特征,預(yù)測得到n×3去噪后cα碳原子坐標(biāo)其中:n為蛋白質(zhì)氨基酸序列長度,xi為第i個cα碳原子坐標(biāo)的三維坐標(biāo),包含(x,y,z)三軸對應(yīng)坐標(biāo),該去噪神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中根據(jù)輸入的含噪聲蛋白質(zhì)cα碳原子坐標(biāo),預(yù)測所添加的坐標(biāo)噪聲;在采樣過程中根據(jù)初始化的隨機(jī)噪聲逐步去噪得到無噪聲的精確蛋白質(zhì)cα碳原子坐標(biāo)。
10、所述的訓(xùn)練過程具體為:從時間步范圍[1,t]內(nèi)隨機(jī)采樣得時間步t,根據(jù)加噪公式得位于時間步t的噪聲坐標(biāo)為∈t為n×3的標(biāo)準(zhǔn)高斯噪聲,將噪聲坐標(biāo)為xt、時間步t以及與t無關(guān)的冷凍電鏡特征點坐標(biāo)、冷凍電鏡特征點氨基酸種類、alphafold2一維、二維特征作為條件共同輸入去噪神經(jīng)網(wǎng)絡(luò),得到其輸出計算預(yù)估噪聲設(shè)損失函數(shù)為其具體形式為各個cα碳原子的坐標(biāo)差平方,與常用蛋白質(zhì)結(jié)構(gòu)距離計算指標(biāo)rmsd相同,通過最小化損失函數(shù)并完成梯度反向傳播實現(xiàn)去噪神經(jīng)網(wǎng)絡(luò)的參數(shù)更新,經(jīng)多次重復(fù)更新實現(xiàn)訓(xùn)練。
11、所述的基于條件擴(kuò)散的采樣過程具體為:初始化蛋白質(zhì)cα碳原子坐標(biāo)為xt,其中xt為n×3的標(biāo)準(zhǔn)高斯噪聲。從t=t開始,將噪聲坐標(biāo)為xt、時間步t以及與t無關(guān)的冷凍電鏡特征點坐標(biāo)、冷凍電鏡特征點氨基酸種類、alphafold2一維、二維特征作為條件共同輸入去噪神經(jīng)網(wǎng)絡(luò),得到其輸出計算預(yù)估噪聲并計算t-1的噪聲坐標(biāo)為其中z為n×3的標(biāo)準(zhǔn)高斯噪聲,此后令t=t-1,重復(fù)上述過程直至t=0,x0即為最終采樣得到的蛋白質(zhì)cα碳原子坐標(biāo)。
12、所述的訓(xùn)練過程和采樣過程中對cα碳原子坐標(biāo)x中的每一個三軸坐標(biāo)值均獨立進(jìn)行計算。
13、所述的去噪神經(jīng)網(wǎng)絡(luò)包括:依次串聯(lián)的特征嵌入子網(wǎng)絡(luò)、特征融合子網(wǎng)絡(luò)和結(jié)構(gòu)構(gòu)建子網(wǎng)絡(luò),其中:特征嵌入子網(wǎng)絡(luò)根據(jù)輸入的n×1的氨基酸序列、n×3噪聲cα碳原子坐標(biāo)xt、常量時間步t、n×3冷凍電鏡特征點坐標(biāo)、n×1冷凍電鏡特征點氨基酸種類、n×384序列對應(yīng)的alphafold2一維特征以及n×n×128序列對應(yīng)的alphafold2二維特征,得到嵌入后n×384一維特征,n×n×128二維特征,n×n×128冷凍電鏡特征,n×n×128相關(guān)性特征;特征融合子網(wǎng)絡(luò)根據(jù)輸入的n×384一維特征,n×n×128二維特征,n×n×128冷凍電鏡特征,n×n×128相關(guān)性特征,通過修改后的alphafold2中evoformer結(jié)構(gòu)將這四種特征進(jìn)行融合更新,得到與輸入維度完全相同的四種更新后特征,經(jīng)重復(fù)更新兩次得到最終的四種更新特征;結(jié)構(gòu)構(gòu)建子網(wǎng)絡(luò)根據(jù)輸入的特征融合子網(wǎng)絡(luò)更新后的n×384一維特征與n×n×128二維特征,以及噪聲cα碳原子坐標(biāo)xt,以xt為坐標(biāo)初始化輸出坐標(biāo),通過對一維特征、二維特征完成坐標(biāo)與特征的更新,重復(fù)循環(huán)四次,輸出最終的去噪后cα碳原子坐標(biāo)
14、所述的n×1的氨基酸序列與時間步t,對于氨基酸序列通過正弦編碼方法對各個氨基酸的索引號、氨基酸種類進(jìn)行編碼得到兩個n×384編碼,對于時間步t進(jìn)行正弦編碼得到1×384編碼并將拓展到n×384,通過線性層與層范數(shù)完成融合這三個編碼得到氨基酸序列特征,此特征與alphafold2一維特征通過線性層與層范數(shù)進(jìn)行融合得到一維特征;輸入噪聲cα碳原子坐標(biāo)xt,基于兩兩點之間的空間距離、各個氨基酸的索引號關(guān)系得到兩個n×n×128編碼,通過線性層與層范數(shù)完成融合得到初步二維特征,此特征與alphafold2二維特征通過線性層與層范數(shù)進(jìn)行融合得到二維特征;輸入冷凍電鏡特征點坐標(biāo),通過兩兩點之間的空間距離進(jìn)行編碼,并經(jīng)過線性層與層范數(shù)計算,得到冷凍電鏡特征;輸入氨基酸序列與冷凍電鏡特征點氨基酸種類,通過兩兩比較相關(guān)性得到相關(guān)性特征。
15、本發(fā)明涉及一種實現(xiàn)上述方法的系統(tǒng),包括:數(shù)據(jù)處理單元、模型構(gòu)建單元以及結(jié)果生成單元,其中:數(shù)據(jù)處理單元對冷凍電鏡電子密度進(jìn)行特征點云提取、降采樣并進(jìn)行對應(yīng)氨基酸種類預(yù)測,對氨基酸序列進(jìn)行alphafold2一維、二維特征提??;模型構(gòu)建單元對基于條件擴(kuò)散的去噪神經(jīng)網(wǎng)絡(luò)完成公式推理、參數(shù)設(shè)定、網(wǎng)絡(luò)架構(gòu)、數(shù)學(xué)形式確定,并通過訓(xùn)練過程完成去噪神經(jīng)網(wǎng)絡(luò)的模型參數(shù)更新;結(jié)果生成單元根據(jù)數(shù)據(jù)處理單元對輸入數(shù)據(jù)進(jìn)行處理得到規(guī)范形式后輸入訓(xùn)練后的去噪神經(jīng)網(wǎng)絡(luò)進(jìn)行采樣得到最終結(jié)果。
16、技術(shù)效果
17、本發(fā)明通過擴(kuò)散模型幫助在小規(guī)模數(shù)據(jù)上完成基于冷凍電鏡信息的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型訓(xùn)練,從而反映可能的蛋白質(zhì)構(gòu)象,利用深度學(xué)習(xí)在深層次完成蛋白質(zhì)序列信息與冷凍電鏡結(jié)構(gòu)信息的跨模態(tài)融合,無需人工干預(yù),高效率、端到端完成蛋白質(zhì)骨架結(jié)構(gòu)預(yù)測;在端到端蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)上引入冷凍電鏡信息,提升了alphafold2在其低精度結(jié)果預(yù)測樣本上的結(jié)構(gòu)預(yù)測精度,相較于領(lǐng)域內(nèi)離散式的基于冷凍電鏡信息的結(jié)構(gòu)構(gòu)建方法在總體預(yù)測精度上也表現(xiàn)更好,計算效率也更高,通過擴(kuò)散模型反映了蛋白質(zhì)結(jié)構(gòu)可能的構(gòu)象變化。