本發(fā)明屬于計(jì)算機(jī)生物學(xué)領(lǐng)域,尤其涉及一種基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法及其系統(tǒng)。
背景技術(shù):
1、藥物靶點(diǎn)交互(drug-target?interaction,dti)是指藥物分子與生物體系中分子靶點(diǎn)之間的特定相互作用。這些交互作用可能通過(guò)多種機(jī)制發(fā)生,如與受體結(jié)合、抑制酶活性或調(diào)節(jié)信號(hào)通路等。理解藥物靶點(diǎn)交互至關(guān)重要,因?yàn)樗兄谖覀兝斫馑幬锏淖饔脵C(jī)制、藥物與靶點(diǎn)分子的結(jié)合方式,以及藥物發(fā)揮治療效應(yīng)的原理。通過(guò)識(shí)別藥物與靶點(diǎn)之間的交互作用,研究人員能夠揭示藥物的作用機(jī)理,進(jìn)而設(shè)計(jì)出更為高效、精準(zhǔn)的靶向治療策略。
2、然而,已知的藥物靶點(diǎn)交互數(shù)據(jù)仍然相對(duì)稀缺,且許多潛在的藥物靶點(diǎn)交互尚未被發(fā)現(xiàn),這對(duì)藥物研發(fā)和疾病治療提出了巨大的挑戰(zhàn)。為了解決這一問(wèn)題,近年來(lái)研究人員提出了多種基于計(jì)算的藥物靶點(diǎn)交互預(yù)測(cè)方法。這些方法大致可分為基于模型的方法和基于深度學(xué)習(xí)的方法。
3、基于模型的方法主要通過(guò)借助藥物和靶點(diǎn)的先驗(yàn)知識(shí)和信息來(lái)預(yù)測(cè)藥物靶點(diǎn)交互。這些方法利用已知的藥物靶點(diǎn)交互數(shù)據(jù),結(jié)合藥物和靶點(diǎn)之間的相似性或其他相關(guān)信息,進(jìn)行數(shù)學(xué)建模來(lái)推斷潛在的藥物靶點(diǎn)交互。例如,使用矩陣分解方法、圖正則化技術(shù)和圖卷積網(wǎng)絡(luò)等,這些方法在一定程度上緩解了數(shù)據(jù)稀缺和多視角學(xué)習(xí)的挑戰(zhàn)。
4、深度學(xué)習(xí)方法則通過(guò)對(duì)藥物和靶點(diǎn)的表示進(jìn)行編碼,提取其中的潛在特征,并結(jié)合這些表示進(jìn)行交互預(yù)測(cè)。深度學(xué)習(xí)方法通常依賴(lài)于多層神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)(gcn)、卷積神經(jīng)網(wǎng)絡(luò)(cnn)、注意力機(jī)制等技術(shù)進(jìn)行建模。這些方法能夠有效捕捉復(fù)雜的非線(xiàn)性關(guān)系,且具有較強(qiáng)的學(xué)習(xí)能力。
5、盡管現(xiàn)有的藥物靶點(diǎn)交互預(yù)測(cè)方法已取得一定的成果,但仍存在許多亟待解決的問(wèn)題。例如,仍然面臨著如何處理數(shù)據(jù)噪聲、優(yōu)化計(jì)算復(fù)雜度和確保模型魯棒性的挑戰(zhàn);交互矩陣中存在噪聲數(shù)據(jù),而傳統(tǒng)的損失函數(shù)(如l2損失)在處理這些噪聲數(shù)據(jù)時(shí)往往表現(xiàn)不佳。此外,多視角學(xué)習(xí)和多種數(shù)據(jù)結(jié)構(gòu)的融合依然是一個(gè)重要的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對(duì)現(xiàn)有藥物靶點(diǎn)交互預(yù)測(cè)任務(wù)中,存在數(shù)據(jù)稀缺、噪聲干擾、多視角信息融合等多重問(wèn)題提出了一種新的藥物靶點(diǎn)交互預(yù)測(cè)方法以克服這些局限性。
2、為達(dá)到上述目的,本發(fā)明采用了下列技術(shù)方案:
3、一種基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法,該方法包括:
4、構(gòu)建目標(biāo)函數(shù),包括關(guān)于預(yù)測(cè)交互矩陣的損失函數(shù),集成學(xué)習(xí)項(xiàng)和正則項(xiàng);
5、以已知交互矩陣、藥物相似核矩陣集合和靶點(diǎn)相似核矩陣集合為訓(xùn)練數(shù)據(jù)訓(xùn)練模型以?xún)?yōu)化所述的目標(biāo)函數(shù);
6、所述藥物相似核矩陣集合包含待測(cè)藥物,靶點(diǎn)相似核矩陣集合包含待測(cè)靶點(diǎn);
7、訓(xùn)練結(jié)束后,模型輸出包含待測(cè)藥物與待測(cè)靶點(diǎn)交互置信度的預(yù)測(cè)交互矩陣。
8、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,所述的藥物相似核矩陣集合和靶點(diǎn)相似核矩陣集合通過(guò)多種核函數(shù)基于已知交互矩陣獲得。
9、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,每一項(xiàng)藥物相似核矩陣還包括藥物副作用相似性數(shù)據(jù),藥物化學(xué)結(jié)構(gòu)相似性數(shù)據(jù)、亞結(jié)構(gòu)相似性數(shù)據(jù);
10、每一項(xiàng)靶點(diǎn)相似核矩陣還包括蛋白質(zhì)序列相似性數(shù)據(jù),蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù),基因本體功能注釋數(shù)據(jù);
11、且所述的核函數(shù)包括高斯相似核、余弦相似核和相關(guān)系數(shù)核;
12、所述的藥物相似核矩陣集合為:
13、?????(4)
14、第一項(xiàng)至第三項(xiàng)分別通過(guò)高斯相似核,余弦相似核,相關(guān)系數(shù)核根據(jù)已知交互矩陣計(jì)算而得;
15、第四項(xiàng)至第六項(xiàng)分別為藥物副作用相似性,藥物化學(xué)結(jié)構(gòu)相似性、亞結(jié)構(gòu)相似性;
16、靶點(diǎn)相似核矩陣集合為:
17、??????(5)
18、第一項(xiàng)至第三項(xiàng)分別通過(guò)高斯相似核,余弦相似核,相關(guān)系數(shù)核根據(jù)已知交互矩陣計(jì)算而得;
19、第四項(xiàng)至第六項(xiàng)分別為蛋白質(zhì)序列相似性,蛋白質(zhì)-蛋白質(zhì)相互作用,基因本體功能注釋。
20、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,在所述的模型中,為每種核矩陣賦予一個(gè)加權(quán)系數(shù)并通過(guò)訓(xùn)練獲得最優(yōu)相似核矩陣:
21、(6)
22、??????(7)
23、和分別為通過(guò)訓(xùn)練更新的第i個(gè)藥物相似核矩陣的加權(quán)系數(shù)和第j個(gè)靶點(diǎn)相似核矩陣的加權(quán)系數(shù)。
24、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,所述的集成學(xué)習(xí)項(xiàng)通過(guò)如下方式構(gòu)建:
25、假設(shè)數(shù)據(jù)中存在四種潛在結(jié)構(gòu):藥物數(shù)據(jù)結(jié)構(gòu)、靶點(diǎn)數(shù)據(jù)結(jié)構(gòu)、藥物-靶點(diǎn)對(duì)數(shù)據(jù)結(jié)構(gòu)和低秩結(jié)構(gòu);
26、分別構(gòu)建四種結(jié)構(gòu)的目標(biāo)函數(shù);
27、通過(guò)加權(quán)組合四個(gè)目標(biāo)函數(shù)得到對(duì)不同結(jié)構(gòu)自適應(yīng)融合的集成學(xué)習(xí)項(xiàng)。
28、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,四種結(jié)構(gòu)的目標(biāo)函數(shù)分別為:
29、,藥物數(shù)據(jù)結(jié)構(gòu)目標(biāo)函數(shù);
30、,靶點(diǎn)數(shù)據(jù)結(jié)構(gòu)目標(biāo)函數(shù);
31、,藥物-靶點(diǎn)對(duì)數(shù)據(jù)結(jié)構(gòu)目標(biāo)函數(shù);
32、,低秩結(jié)構(gòu)目標(biāo)函數(shù);
33、分別表示藥物數(shù)據(jù)、靶點(diǎn)數(shù)據(jù)、藥物-靶點(diǎn)對(duì)數(shù)據(jù)、低秩矩陣的參數(shù),通過(guò)訓(xùn)練更新;
34、是預(yù)測(cè)交互矩陣,f是frobenius范數(shù);
35、通過(guò)加權(quán)組合四個(gè)目標(biāo)函數(shù)得到的集成學(xué)習(xí)項(xiàng)如下:
36、(15)
37、分別為四個(gè)目標(biāo)函數(shù)的加權(quán)項(xiàng),通過(guò)訓(xùn)練更新。
38、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,所述的損失函數(shù)包括魯棒損失函數(shù),用于根據(jù)預(yù)測(cè)交互矩陣較于已知交互矩陣的誤差更新模型參數(shù);
39、所述魯棒損失函數(shù)結(jié)合了損失的精確性和損失的魯棒性。
40、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,所述的正則項(xiàng)包括關(guān)于模型所需學(xué)習(xí)參數(shù)的正則項(xiàng);
41、模型需學(xué)習(xí)的參數(shù)包括藥物數(shù)據(jù)對(duì)應(yīng)的參數(shù)a,靶點(diǎn)數(shù)據(jù)結(jié)對(duì)應(yīng)的參數(shù)b,藥物-靶點(diǎn)對(duì)數(shù)據(jù)的參數(shù)α和低秩矩陣(u,v),關(guān)于四種結(jié)構(gòu)目標(biāo)函數(shù)加權(quán)參數(shù)w的正則項(xiàng),以及藥物相似核矩陣的權(quán)重系數(shù)核靶點(diǎn)相似核矩陣的權(quán)重系數(shù)。
42、在上述的基于魯棒多核集成方法的藥物靶點(diǎn)交互預(yù)測(cè)方法中,魯棒損失函數(shù)定義如下:
43、?(10)
44、其中為預(yù)測(cè)誤差,為控制平滑程度的超參數(shù);
45、本方法模型采用交替優(yōu)化方法訓(xùn)練模型。
46、一種藥物靶點(diǎn)交互預(yù)測(cè)系統(tǒng),包括處理器,用于通過(guò)執(zhí)行所述的藥物靶點(diǎn)交互預(yù)測(cè)方法進(jìn)行藥物靶點(diǎn)交互預(yù)測(cè)。
47、本發(fā)明的優(yōu)點(diǎn)在于:
48、1、本方案實(shí)現(xiàn)了一種高精度、強(qiáng)魯棒性且適用于多種數(shù)據(jù)結(jié)構(gòu)的dti(藥物靶點(diǎn)交互作用)預(yù)測(cè)方法,為藥物研發(fā)和精準(zhǔn)醫(yī)療提供更有力的技術(shù)支持;
49、2、本方案模型利用多核學(xué)習(xí)、多視角信息融合以及集成學(xué)習(xí)策略,結(jié)合魯棒損失函數(shù),在藥物-靶點(diǎn)相互作用矩陣的重建上取得了較高的精度,可通過(guò)對(duì)未知藥物-靶點(diǎn)相互作用的預(yù)測(cè),擴(kuò)展已有的藥物靶標(biāo)數(shù)據(jù)庫(kù);
50、3、本方案模型假設(shè)數(shù)據(jù)符合四種不同的結(jié)構(gòu),包括藥物-靶點(diǎn)對(duì)結(jié)構(gòu)、藥物結(jié)構(gòu)、靶點(diǎn)結(jié)構(gòu)以及低秩結(jié)構(gòu),通過(guò)集成學(xué)習(xí)優(yōu)化這些結(jié)構(gòu)組合權(quán)重,有效降低因噪聲數(shù)據(jù)帶來(lái)的干擾,能夠自適應(yīng)地融合不同結(jié)構(gòu)的信息,提高預(yù)測(cè)的靈活性和適應(yīng)性。