本公開涉及生物信息,具體涉及一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、蛋白質(zhì)的翻譯后修飾(post-translational?modifications,ptms)是蛋白質(zhì)功能調(diào)控的重要機(jī)制之一。ptms通過共價(jià)修飾蛋白質(zhì)的一個(gè)或多個(gè)殘基,或通過蛋白酶切除基團(tuán),改變蛋白質(zhì)的性質(zhì)。這些修飾包括廣為研究的磷酸化、糖基化、乙?;头核鼗?,以及新近發(fā)現(xiàn)的賴氨酸巴豆?;?kcr)。2011年,tan等人首次通過質(zhì)譜分析識(shí)別了kcr,并發(fā)現(xiàn)其在組蛋白中的作用,吸引了廣泛關(guān)注。
2、kcr在多個(gè)生物學(xué)領(lǐng)域具有重要意義。例如,在表觀遺傳學(xué)領(lǐng)域,kcr修飾與生殖調(diào)控密切相關(guān);在疾病研究中,kcr修飾參與了多種信號(hào)通路和核相關(guān)過程,尤其在肺癌、胰腺癌等腫瘤的發(fā)病機(jī)制中發(fā)揮重要作用;在植物學(xué)中,kcr參與光合作用和多種代謝途徑,在植物生長(zhǎng)發(fā)育和代謝調(diào)控中具有關(guān)鍵作用;在微生物學(xué)中,kcr與細(xì)菌和寄生蟲的運(yùn)動(dòng)、宿主入侵和代謝調(diào)控相關(guān)。因此,從蛋白質(zhì)序列數(shù)據(jù)中準(zhǔn)確識(shí)別kcr位點(diǎn)對(duì)基礎(chǔ)研究、藥物開發(fā)和疾病治療具有重要意義。
3、然而,傳統(tǒng)的實(shí)驗(yàn)方法識(shí)別kcr位點(diǎn)耗時(shí)長(zhǎng)、成本高,限制了研究效率和范圍。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),能夠基于esm2模型訓(xùn)練得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的神經(jīng)網(wǎng)絡(luò)模型,從而可以根據(jù)該神經(jīng)網(wǎng)絡(luò)模型快速高效的識(shí)別出對(duì)應(yīng)蛋白質(zhì)序列中的kcr位點(diǎn)。
2、根據(jù)本公開的第一方面,提供了一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法,該方法包括:獲取數(shù)據(jù)集,所述數(shù)據(jù)集中的數(shù)據(jù)為包含kcr位點(diǎn)的蛋白質(zhì)序列數(shù)據(jù);根據(jù)所述數(shù)據(jù)集基于初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,所述初始模型包括esm2模型。
3、在一種可能的實(shí)現(xiàn)方式中,所述初始模型為esm2模型僅保留前四層注意頭構(gòu)成的模型。
4、在另一種可能的實(shí)現(xiàn)方式中,在所述根據(jù)所述數(shù)據(jù)集基于初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型之前,所述方法還包括:
5、將所述數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集;
6、所述根據(jù)所述數(shù)據(jù)集基于初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,包括:
7、根據(jù)所述訓(xùn)練集基于所述初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。
8、在另一種可能的實(shí)現(xiàn)方式中,所述將所述數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集,包括:
9、根據(jù)預(yù)設(shè)比例,將所述數(shù)據(jù)集拆分為所述訓(xùn)練集和所述測(cè)試集。
10、在另一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述訓(xùn)練集基于所述初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,包括:
11、根據(jù)所述初始模型對(duì)所述訓(xùn)練集進(jìn)行特征提取,得到第一特征;
12、根據(jù)k-mer算法對(duì)所述訓(xùn)練集進(jìn)行特征提取,得到第二特征;
13、根據(jù)主分類器基于所述第一特征和所述第二特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;
14、根據(jù)第一輔助分類器基于所述第一特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;
15、根據(jù)第二輔助分類器基于所述第二特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;
16、基于所述主分類器的分類結(jié)果、所述第一輔助分類器的分類結(jié)果以及所述第二輔助分類器的分類結(jié)果,得到損失函數(shù);
17、基于所述損失函數(shù),優(yōu)化所述初始模型以及分類器,得到所述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,所述分類器包括所述主分類器、所述第一輔助分類器以及所述第二輔助分類器。
18、根據(jù)本公開的第二方面,提供了一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練裝置,包括:數(shù)據(jù)處理模塊,用于獲取數(shù)據(jù)集,所述數(shù)據(jù)集中的數(shù)據(jù)為包含kcr位點(diǎn)的蛋白質(zhì)序列數(shù)據(jù);
19、模型訓(xùn)練模塊,用于根據(jù)所述數(shù)據(jù)集基于初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,所述初始模型包括esm2模型。
20、在一種可能的實(shí)現(xiàn)方式中,所述初始模型為esm2模型僅保留前四層注意頭構(gòu)成的模型。
21、在另一種可能的實(shí)現(xiàn)方式中,所述數(shù)據(jù)處模塊,還用于將所述數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集;
22、所述模型訓(xùn)練模塊,具體用于根據(jù)所述訓(xùn)練集基于所述初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。
23、在另一種可能的實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理模塊,具體用于根據(jù)預(yù)設(shè)比例,將所述數(shù)據(jù)集拆分為所述訓(xùn)練集和所述測(cè)試集。
24、在另一種可能的實(shí)現(xiàn)方式中,所述模型訓(xùn)練模塊,具體用于根據(jù)所述初始模型對(duì)所述訓(xùn)練集進(jìn)行特征提取,得到第一特征;根據(jù)k-mer算法對(duì)所述訓(xùn)練集進(jìn)行特征提取,得到第二特征;根據(jù)主分類器基于所述第一特征和所述第二特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;根據(jù)第一輔助分類器基于所述第一特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;根據(jù)第二輔助分類器基于所述第二特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;基于所述主分類器的分類結(jié)果、所述第一輔助分類器的分類結(jié)果以及所述第二輔助分類器的分類結(jié)果,得到損失函數(shù);基于所述損失函數(shù),優(yōu)化所述初始模型以及分類器,得到所述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,所述分類器包括所述主分類器、所述第一輔助分類器以及所述第二輔助分類器。
25、根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行如第一方面提供的方法。
26、根據(jù)本公開的第四方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行根據(jù)第一方面提供的方法。
27、根據(jù)本公開的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)第一方面提供的方法。
28、本公開能夠基于esm2模型訓(xùn)練得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的神經(jīng)網(wǎng)絡(luò)模型,從而可以根據(jù)該神經(jīng)網(wǎng)絡(luò)模型快速高效的識(shí)別出對(duì)應(yīng)蛋白質(zhì)序列中的kcr位點(diǎn),提升蛋白質(zhì)序列中kcr位點(diǎn)識(shí)別的效率,并降低識(shí)別成本。
29、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述初始模型為esm2模型僅保留前四層注意頭構(gòu)成的模型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述數(shù)據(jù)集基于初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型之前,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述訓(xùn)練集基于所述初始模型,得到具有識(shí)別蛋白質(zhì)序列中的kcr位點(diǎn)的功能的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,包括:
6.一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練裝置,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述初始模型為esm2模型僅保留前四層注意頭構(gòu)成的模型。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述數(shù)據(jù)處理模塊,還用于將所述數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集;
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述數(shù)據(jù)處理模塊,具體用于根據(jù)預(yù)設(shè)比例,將所述數(shù)據(jù)集拆分為所述訓(xùn)練集和所述測(cè)試集。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述模型訓(xùn)練模塊,具體用于根據(jù)所述初始模型對(duì)所述訓(xùn)練集進(jìn)行特征提取,得到第一特征;根據(jù)k-mer算法對(duì)所述訓(xùn)練集進(jìn)行特征提取,得到第二特征;根據(jù)主分類器基于所述第一特征和所述第二特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;根據(jù)第一輔助分類器基于所述第一特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;根據(jù)第二輔助分類器基于所述第二特征,輸出當(dāng)前特征對(duì)應(yīng)的蛋白質(zhì)序列位點(diǎn)是否為kcr位點(diǎn)的分類結(jié)果;基于所述主分類器的分類結(jié)果、所述第一輔助分類器的分類結(jié)果以及所述第二輔助分類器的分類結(jié)果,得到損失函數(shù);基于所述損失函數(shù),優(yōu)化所述初始模型以及分類器,得到所述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,所述分類器包括所述主分類器、所述第一輔助分類器以及所述第二輔助分類器。
11.一種電子設(shè)備,包括:
12.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法。