專利名稱:人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)化學(xué)領(lǐng)域,涉及一種應(yīng)用計(jì)算模型預(yù)測(cè)和分析多肽配體與蛋白質(zhì)受體之間親和力大小的方法。
背景技術(shù):
作為生物體系的重要組分之一,蛋白質(zhì)在生命運(yùn)作中發(fā)揮了不可替代的作用并行使著多樣的生物學(xué)功能,如組織構(gòu)建、物質(zhì)運(yùn)輸、反應(yīng)催化和免疫調(diào)控等。蛋白質(zhì)相互作用 (protein- protein interaction, PPI)在信號(hào)轉(zhuǎn)導(dǎo)及其它重要的生物過(guò)程中也扮演著極其重要的角色。通常,PPI由結(jié)構(gòu)域所介導(dǎo)。Src同源結(jié)構(gòu)域3(Src homology domain, SH3)是人類蛋白質(zhì)組中最為豐富的結(jié)構(gòu)域,廣泛存在于各類蛋白如蛋白激酶、脂肪酶、GTP 酶及調(diào)節(jié)蛋白質(zhì)中并引導(dǎo)了多樣細(xì)胞生化過(guò)程。Src同源結(jié)構(gòu)域3由50-70個(gè)氨基酸殘基組成,包含由五個(gè)β折疊組成的兩個(gè)片層結(jié)構(gòu),折疊模式具有高度保守性,傾向于識(shí)別富含脯氨酸的PXXP型肽鏈(P為脯氨酸,X為任意氨基酸)。人雙載蛋白(amphiphysin)有兩種型別amphiphySin 1和amphiphysin 2,它們與包涵素介導(dǎo)的胞吞作用、肌動(dòng)蛋白功能性及信號(hào)通路等過(guò)程密切相關(guān),在諸多生理和病理過(guò)程中扮演了極其重要的角色。既往研究表明,由人雙載蛋白Src同源結(jié)構(gòu)域3介導(dǎo)的PPI與一些腫瘤發(fā)生、增殖和轉(zhuǎn)移過(guò)程以及骨髓增生癥、巨頌癥、多發(fā)性腎病等密切相關(guān)。因此,甄別人類基因組中可以被人雙載蛋白 Src同源結(jié)構(gòu)域3識(shí)別的肽基序,對(duì)于了解人雙載蛋白Src同源結(jié)構(gòu)域3介導(dǎo)的PPI的分子機(jī)制以及開(kāi)發(fā)具有高親和力和特異性的人雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽類抑制劑均非常有益。但是,基于實(shí)驗(yàn)途徑逐個(gè)合成人類基因組編碼的所有可能肽基序(一般為10個(gè)氨基酸殘基)并逐個(gè)檢測(cè)其與人雙載蛋白Src同源結(jié)構(gòu)域3的親和力是一件極度耗時(shí)耗力的工作;而既往文獻(xiàn)報(bào)道的預(yù)測(cè)方法如采用自由能分析法研究Src同源結(jié)構(gòu)域3與不同肽配體的結(jié)合熱力學(xué)行為由于效率很低也不適合于Src同源結(jié)構(gòu)域3結(jié)合肽的高通量篩選。因此,有必要發(fā)展一種有效的基于計(jì)算機(jī)的方法來(lái)精確預(yù)測(cè)和分析人雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力,以實(shí)現(xiàn)具有高親和力的人類雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的高通量篩選,進(jìn)而促進(jìn)具有高親和力和特異性的人類雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽類抑制劑的開(kāi)發(fā)研究。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法,為高通量篩選具有高親和力的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽提供有力的工具,進(jìn)而促進(jìn)具有高親和力和特異性的人類1型雙載蛋白Src 同源結(jié)構(gòu)域3結(jié)合肽類抑制劑的開(kāi)發(fā)研究。為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案
人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法,包含如下步驟a.氨基酸理化性質(zhì)歸類得分的建立
選取氨基酸的電性性質(zhì)參數(shù)、立體性質(zhì)參數(shù)、疏水性質(zhì)參數(shù)和氫鍵性質(zhì)參數(shù),采用主成分分析方法,獲得足以表征氨基酸電性性質(zhì)、立體性質(zhì)、疏水性質(zhì)和氫鍵性質(zhì)的主成分,計(jì)算每個(gè)主成分得分矢量,將其定義為氨基酸理化性質(zhì)歸類得分;
b.肽序列結(jié)構(gòu)的參數(shù)化描述
選擇已知親和力大小的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽,應(yīng)用步驟a建立的氨基酸理化性質(zhì)歸類得分對(duì)肽序列中的每個(gè)氨基酸殘基進(jìn)行表征,獲得組成肽的所有氨基酸殘基的理化性質(zhì)歸類得分,作為肽序列結(jié)構(gòu)參數(shù);
c.與親和力最為密切相關(guān)的特征參數(shù)的選取
采用遺傳算法從步驟b所得的肽序列結(jié)構(gòu)參數(shù)中挑選出與親和力最為密切相關(guān)的特征參數(shù);
d.親和力預(yù)測(cè)及分析模型的建立
采用高斯過(guò)程方法建立步驟c所得特征參數(shù)與親和力的關(guān)系模型即親和力預(yù)測(cè)及分析模型;
e.肽的親和力預(yù)測(cè)及分析
通過(guò)對(duì)步驟d建立的親和力預(yù)測(cè)及分析模型的超參數(shù)進(jìn)行分析,獲得影響肽親和力的結(jié)構(gòu)因素;針對(duì)未知親和力大小的肽,根據(jù)其氨基酸序列計(jì)算出步驟c選出的特征參數(shù)的具體數(shù)值,再輸入步驟d建立的親和力預(yù)測(cè)及分析模型中進(jìn)行計(jì)算,即得到肽與人類1型雙載蛋白Src同源結(jié)構(gòu)域3的親和力值。進(jìn)一步,步驟a中所述電性性質(zhì)參數(shù)包括凈電荷(net charge)、分子極性 (polarity)、區(qū)域電子效應(yīng)(localized electrical effect)禾口極化率(polarizability); 所述立體性質(zhì)參數(shù)包括標(biāo)準(zhǔn)范德瓦耳斯體積(normalized van der Waals volume)、分子尺度(molecular size)、側(cè)鏈體禾只(residue volume)、圖形指數(shù)(graph shape index)禾口柔性參數(shù)(flexibility parameter);所述疏水性質(zhì)參數(shù)包括溶劑化自由能(solvation free energy)、分配系數(shù)(partition coefficient)、色譜保留指數(shù)(retention index)、疏水矩 (hydrophobic moment)禾口溶劑可及面禾只(solvent accessible surface area);所述氧鍵性質(zhì)參數(shù)包括氫鍵給受體數(shù)目(number of hydrogen bond donors/acceptors)和氫鍵貢獻(xiàn)因子(hydrogen bond contribution factor) 進(jìn)一步,步驟c中所述遺傳算法參數(shù)設(shè)置如下初始種群大小為200,收斂標(biāo)準(zhǔn)為 100代循環(huán),變異度為1%,目標(biāo)函數(shù)用留一法交叉驗(yàn)證。進(jìn)一步,步驟d是將肽對(duì)人類1型雙載蛋白Src同源結(jié)構(gòu)域3的親和力指標(biāo)BLU (Boehringer light unit)轉(zhuǎn)換為對(duì)數(shù)形式IogBLU,再以IogBLU作為模型的因變量,使用高斯過(guò)程方法建立特征參數(shù)與該因變量之間的線性/非線性雜化回歸模型,以留一法交叉驗(yàn)證和測(cè)試集外部預(yù)測(cè)驗(yàn)證模型的預(yù)測(cè)能力。本發(fā)明的有益效果在于本發(fā)明基于氨基酸理化性質(zhì)歸類得分和遺傳算法-高斯過(guò)程方法建立了一種人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法。首先,根據(jù)結(jié)構(gòu)決定性質(zhì)的原理,從全面解析肽序列結(jié)構(gòu)角度出發(fā),從目前公開(kāi)的上千種氨基酸物理化學(xué)參數(shù)和形狀幾何指數(shù)中精心選取了 119種指標(biāo),這些指標(biāo)具有意義明確、表征能力強(qiáng)、易于操作等優(yōu)點(diǎn),在此基礎(chǔ)上應(yīng)用主成分分析法建立的氨基酸理化性質(zhì)歸類得分,可以全面、有效地反映氨基酸的理化性質(zhì)信息,繼而實(shí)現(xiàn)對(duì)肽序列結(jié)構(gòu)的參數(shù)化描述;其次,使用具有強(qiáng)大全局搜索能力的遺傳算法挑選特征參數(shù),能夠在較短的時(shí)間內(nèi)從大量肽序列結(jié)構(gòu)參數(shù)中搜尋到全局最優(yōu)解即與親和力最為密切相關(guān)的特征參數(shù)用于后續(xù)建模;最后,考慮到肽序列結(jié)構(gòu)與其生物活性之間存在非常復(fù)雜的關(guān)系,本發(fā)明選用高斯過(guò)程方法(一種線性/非線性雜化的機(jī)器學(xué)習(xí)建模方法)對(duì)特征參數(shù)與親和力之間的內(nèi)在定量關(guān)系進(jìn)行統(tǒng)計(jì)學(xué)習(xí),建立了簡(jiǎn)便可靠的親和力預(yù)測(cè)及分析模型,實(shí)現(xiàn)了根據(jù)肽序列預(yù)測(cè)其親和力的功能,可以為高通量篩選具有高親和力的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽提供有力的工具,進(jìn)而促進(jìn)具有高親和力和特異性的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽類抑制劑的開(kāi)發(fā)研究。
圖1為20個(gè)天然氨基酸在電性性質(zhì)前2個(gè)主成分得分空間中的分布示意圖。圖2為20個(gè)天然氨基酸在立體性質(zhì)前2個(gè)主成分得分空間中的分布示意圖。圖3為20個(gè)天然氨基酸在疏水性質(zhì)前2個(gè)主成分得分空間中的分布示意圖。圖4為20個(gè)天然氨基酸在氫鍵性質(zhì)前2個(gè)主成分得分空間中的分布示意圖。圖5為親和力預(yù)測(cè)及分析模型對(duì)人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)值與實(shí)驗(yàn)值對(duì)比圖。圖6為親和力預(yù)測(cè)及分析模型對(duì)人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)值的95%置信區(qū)間及預(yù)測(cè)值偏離實(shí)驗(yàn)值的程度示意圖。圖7為人類1型雙載蛋白Src同源結(jié)構(gòu)域3與十肽PLPRRPPRAA之間的非鍵作用
示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將以十肽為例,結(jié)合附圖, 對(duì)人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法進(jìn)行詳細(xì)的描述。1、基于主成分分析法建立氨基酸理化性質(zhì)歸類得分
非鍵作用在肽與蛋白質(zhì)相互識(shí)別和結(jié)合過(guò)程中扮演著重要的角色,主要表現(xiàn)為電子、 立體、疏水和氫鍵作用,其它作用如電荷轉(zhuǎn)移、鹽橋等均可視為前幾者的特殊表現(xiàn)形式??紤]到肽和蛋白質(zhì)主要是通過(guò)非鍵作用進(jìn)行結(jié)合,而氨基酸是肽和蛋白質(zhì)的基本結(jié)構(gòu)模塊, 本發(fā)明從各數(shù)據(jù)庫(kù)和文獻(xiàn)報(bào)道的上千種氨基酸理化性質(zhì)參數(shù)中精選出20個(gè)天然氨基酸的 23種電性性質(zhì)參數(shù)、37種立體性質(zhì)參數(shù)、M種疏水性質(zhì)參數(shù)和5種氫鍵性質(zhì)參數(shù)。這些理化性質(zhì)參數(shù)主要反映了氨基酸以下幾方面的信息①電子特征如凈電荷、分子極性、區(qū)域電子效應(yīng)、極化率等;②立體特征如標(biāo)準(zhǔn)范德瓦耳斯體積、分子尺度、側(cè)鏈體積、圖形指數(shù)、 柔性參數(shù)等;③疏水特征如溶劑化自由能、分配系數(shù)、色譜保留指數(shù)、疏水矩、溶劑可及面積等;④氫鍵特征如氫鍵給受體數(shù)目、氫鍵貢獻(xiàn)因子等。將上述精選出的氨基酸電性性質(zhì)參數(shù)、立體性質(zhì)參數(shù)、疏水性質(zhì)參數(shù)和氫鍵性質(zhì)參數(shù)分別組成4個(gè)原始變量矩陣,先采用自定標(biāo)法(autoscaling)對(duì)各原始變量矩陣進(jìn)行標(biāo)準(zhǔn)化處理以消除不同變量之間的單位差異,再采用主成分分析法對(duì)各原始變量矩陣進(jìn)行信息壓縮濾噪處理。結(jié)果發(fā)現(xiàn),電性性質(zhì)原始變量矩陣中前4個(gè)主成分(分別用Vi、V2、V3、V4表示)得分解釋了電性性質(zhì)原始變量矩陣74. 4%的方差;立體性質(zhì)原始變量矩陣中前2 個(gè)主成分(分別用\、V6表示)得分解釋了立體性質(zhì)原始變量矩陣72. 7%的方差;疏水性質(zhì)原始變量矩陣中前2個(gè)主成分(分別用V7、V8表示)得分解釋了疏水性質(zhì)原始變量矩陣 73. 8%的方差;氫鍵性質(zhì)原始變量矩陣中前2個(gè)主成分(分別用\、V10表示)得分解釋了氫鍵性質(zhì)原始變量矩陣77. 2%的方差;據(jù)此可以認(rèn)為,這10個(gè)主成分(V廣Vltl)得分已經(jīng)能夠表征上述4個(gè)原始變量矩陣中的絕大多數(shù)信息。因此,對(duì)于每個(gè)氨基酸,可通過(guò)原始變量值與相應(yīng)主成分得分系數(shù)的乘積分別計(jì)算出這10個(gè)主成分得分矢量,再以這10個(gè)主成分得分矢量作為氨基酸理化性質(zhì)描述子,實(shí)現(xiàn)肽序列結(jié)構(gòu)的參數(shù)化描述。在本發(fā)明中,將上述 10個(gè)主成分得分矢量命名為氨基酸理化性質(zhì)歸類得分。表1所示即為20個(gè)天然氨基酸的理化性質(zhì)歸類得分。 表1 20個(gè)天然氨基酸的理化性質(zhì)歸類得分
權(quán)利要求
1.人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法,其特征在于, 包含如下步驟a.氨基酸理化性質(zhì)歸類得分的建立選取氨基酸的電性性質(zhì)參數(shù)、立體性質(zhì)參數(shù)、疏水性質(zhì)參數(shù)和氫鍵性質(zhì)參數(shù),采用主成分分析方法,獲得足以表征氨基酸電性性質(zhì)、立體性質(zhì)、疏水性質(zhì)和氫鍵性質(zhì)的主成分,計(jì)算每個(gè)主成分得分矢量,將其定義為氨基酸理化性質(zhì)歸類得分;b.肽序列結(jié)構(gòu)的參數(shù)化描述選擇已知親和力大小的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽,應(yīng)用步驟a建立的氨基酸理化性質(zhì)歸類得分對(duì)肽序列中的每個(gè)氨基酸殘基進(jìn)行表征,獲得組成肽的所有氨基酸殘基的理化性質(zhì)歸類得分,作為肽序列結(jié)構(gòu)參數(shù);c.與親和力最為密切相關(guān)的特征參數(shù)的選取采用遺傳算法從步驟b所得的肽序列結(jié)構(gòu)參數(shù)中挑選出與親和力最為密切相關(guān)的特征參數(shù);d.親和力預(yù)測(cè)及分析模型的建立采用高斯過(guò)程方法建立步驟c所得特征參數(shù)與親和力的關(guān)系模型即親和力預(yù)測(cè)及分析模型;e.肽的親和力預(yù)測(cè)及分析通過(guò)對(duì)步驟d建立的親和力預(yù)測(cè)及分析模型的超參數(shù)進(jìn)行分析,獲得影響肽親和力的結(jié)構(gòu)因素;針對(duì)未知親和力大小的肽,根據(jù)其氨基酸序列計(jì)算出步驟c選出的特征參數(shù)的具體數(shù)值,再輸入步驟d建立的親和力預(yù)測(cè)及分析模型中進(jìn)行計(jì)算,即得到肽與人類1型雙載蛋白Src同源結(jié)構(gòu)域3的親和力值。
2.根據(jù)權(quán)利要求1所述的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法,其特征在于,步驟a中所述電性性質(zhì)參數(shù)包括凈電荷、分子極性、區(qū)域電子效應(yīng)和極化率;所述立體性質(zhì)參數(shù)包括標(biāo)準(zhǔn)范德瓦耳斯體積、分子尺度、側(cè)鏈體積、圖形指數(shù)和柔性參數(shù);所述疏水性質(zhì)參數(shù)包括溶劑化自由能、分配系數(shù)、色譜保留指數(shù)、疏水矩和溶劑可及面積;所述氫鍵性質(zhì)參數(shù)包括氫鍵給受體數(shù)目和氫鍵貢獻(xiàn)因子。
3.根據(jù)權(quán)利要求1所述的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法,其特征在于,步驟c中所述遺傳算法參數(shù)設(shè)置如下初始種群大小為200,收斂標(biāo)準(zhǔn)為100代循環(huán),變異度為1%,目標(biāo)函數(shù)用留一法交叉驗(yàn)證。
4.根據(jù)權(quán)利要求1所述的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法,其特征在于,步驟d是將肽對(duì)人類1型雙載蛋白Src同源結(jié)構(gòu)域3的親和力指標(biāo)BLU轉(zhuǎn)換為對(duì)數(shù)形式IogBLU,再以IogBLU作為模型的因變量,使用高斯過(guò)程方法建立特征參數(shù)與該因變量之間的線性/非線性雜化回歸模型,以留一法交叉驗(yàn)證和測(cè)試集外部預(yù)測(cè)驗(yàn)證模型的預(yù)測(cè)能力。
全文摘要
本發(fā)明公開(kāi)了一種人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽的親和力預(yù)測(cè)及分析方法,先選取氨基酸的電性性質(zhì)、立體性質(zhì)、疏水性質(zhì)和氫鍵性質(zhì)參數(shù),采用主成分分析法建立氨基酸理化性質(zhì)歸類得分,再用該得分對(duì)肽序列中的每個(gè)氨基酸殘基進(jìn)行表征,實(shí)現(xiàn)肽序列結(jié)構(gòu)的參數(shù)化描述,再用遺傳算法從肽序列結(jié)構(gòu)參數(shù)中挑選出與親和力密切相關(guān)的特征參數(shù),采用高斯過(guò)程方法建立特征參數(shù)與親和力的關(guān)系模型即親和力預(yù)測(cè)及分析模型,最后通過(guò)分析模型的超參數(shù)獲得影響肽親和力的結(jié)構(gòu)因素,通過(guò)模型預(yù)測(cè)得到肽的親和力值;本發(fā)明可以為高通量篩選具有高親和力的人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽提供有力的工具,進(jìn)而促進(jìn)人類1型雙載蛋白Src同源結(jié)構(gòu)域3結(jié)合肽類抑制劑的開(kāi)發(fā)研究。
文檔編號(hào)G06F19/18GK102509029SQ201110329028
公開(kāi)日2012年6月20日 申請(qǐng)日期2011年10月26日 優(yōu)先權(quán)日2011年10月26日
發(fā)明者任彥榮 申請(qǐng)人:重慶教育學(xué)院