專利名稱:分子構像及組合的分析方法及儀器的制作方法
交叉引用到相關申請參照有關應用涉及本專利申請的優(yōu)先是未受權的美國專利,其專利申請?zhí)枮?0/511,387,其申請名為“分子嵌入計算優(yōu)化硬件系統(tǒng)”,申請日為2003年10月14日,這一專利申請內容都包含在本專利申請內容之中。
本專利內容涉及到如下授權申請/專利美國專利號——————[美國專利申請?zhí)枴蓭熀炋枮?21986-000710US,申請名為“分子原子的方法和儀器”,申請人Adaja等人(本文以后簡稱“Adaja I”)。
上述專利或申請所披露的所有內容全部都包含在本專利之中發(fā)明領域通常本發(fā)明涉及到生物信息,蛋白質組學,分子模型,計算機輔助分子設計,以及更特殊的計算機輔助藥物設計(CADD)和分子組合計算機模擬模型。
背景技術:
對常規(guī)藥物研發(fā)過程及其局限性的闡述,有助于理解本發(fā)明專利。
一種新藥對生物體上治療或治愈作用的發(fā)現(xiàn)是一個漫長且具有昴貴代價的過程,每一種藥物試驗通常需12年,耗費8億甚至10億美元去完成所有藥物試驗。
藥物研發(fā)過程的目的是為了識別并找出一種化合物或配體生物分子特征,如化合物影響一個或多個其它生物組織中生物分子(即一種藥“靶”),通常是生物聚合物通過潛在分子相互作用或者組合實現(xiàn),這里所說的生物聚合物是指一個大分子,包含有一個或多個蛋白質,核苷酸(DNA或RUA),酞鏈或核酐酸系列或者任何這個組合的部分體。生物分子是指一種化學體,它包含有一個或多個生物聚合物、碳水化合物、激素或其它分子,無機物或有機物,它包含有但不僅僅限于合成的、醫(yī)用的、藥物類,或者是一種天然化合物,也可能是任何其它的組合。
藥靶是典型的,它被認為是同疾病相關的靶蛋白質或者核酸,它可導致功能、結構或化學活性的改變,用于治療病人的疾病。另一方面,這種藥靶可在致病體中找到,如病毒、細菌或者寄生蟲,當它們被藥物作用時,將影響到被感染源的生存或活性。而且藥靶可在有缺陷或有害細胞如癌細胞中找到。藥靶是抗原體,其它環(huán)境因素可導致過敏反應或其它被免疫或生物反應。
典型配體是一種小分子藥物或化合物,具有藥物特征,如藥效、低毒性、膜通透性、溶解性、化學/代謝穩(wěn)定性等,另一方面,配體是生物制劑,如蛋白基注射劑或基于肽的藥物,甚至全蛋白制劑。配體是藥靶的底物,可同藥靶共價結合在一起或者是蛋白質的一個組成部分,如蛋白質的第二結構組成部分,或者靠近或包括活性區(qū)蛋白質處,也可是蛋白質四級結構的一部分等。
除非特別指明,在以下討論中,一個(潛在)分子組合包含一個配體或一個靶位,它們是不同的化學體,配體通常為化合物,藥靶是生物蛋白(突變體或野生型)。值得注意的是將來隨著基因治療及致病微生物的發(fā)展,核酸DNA或RNA)作為藥靶的使用頻率將逐年增加。在合適的水溶液環(huán)境中藥靶和配體相互作用時分子組合物是兩者之間的復合狀態(tài)。而潛在的分子組合體是指發(fā)生可能性很低的一個復合狀態(tài),在通常狀態(tài)可能或不可能發(fā)生。
藥物研發(fā)工藝本身通常含有四個步驟(1)藥靶篩選平臺;(2)先導化合物篩選和優(yōu)化;(3)預臨床試驗;(4)臨床試驗和批準。
藥靶篩選平臺步驟要選定一個或多個對病癥有作用的藥靶,它通常需要2年半的時間,藥靶篩選平臺結論包含有藥靶分子在組織中存在或作用,可產生一些效應,如起始,加速,或導致需要治療的病癥,通常自然結合物或底物可通過實驗方法決定。
典型的先導化合物篩選工藝包括藥物化合物的識別,如配體可同靶位分子結合并通過藥靶功能團激活,滅活,催化,抑制改變藥靶的功能,在這一過程中,先導化合物可視為用于藥物工藝的合適候選配體。先導化合物的優(yōu)化是對先導化合物化學和結構的細化調節(jié),以提高同藥靶結合親合力和選擇性,并處理有毒性,溶解性,代謝性。先導化合物篩選和優(yōu)化通常需要3年完成,并得到一個或多個先導化合物以用于下一步試驗。
在先期臨床試驗中,生物測試和動物模型要通過不同的藥物動力學參數(shù)試驗挑選出先導化合物,這些參數(shù)包括藥物吸收,分散,代謝,清除,毒性,負作用及其用量。預臨床試驗通常需要1年的時間,這以后臨床試驗及其批準需要6至8年或更多的時間,所選用的藥物用在人身上要求安全且有效。
合理化藥物設計需采用藥靶結構及其配體信息,以作為有效先導化合物篩選和優(yōu)化設計基準。結構性藥物設計通常采用藥靶三維模型。對于藥靶蛋白質或核酸,其結構可通過X射線結晶法/NMR或其它測量方法得出,也可從同系模型、蛋白質圖形、域保持及蛋白質折疊或核蛋白質同系物計算模型得出。就許多模相關的藥靶蛋白質而言,如GRCRS和離子膜,膜建立結構通常被認為是很有效的,而配體結構也可采用相同方式得出,如果所提供的配體不是生物聚合物,依據(jù)基本物理和化學特征,從頭開始通過2-D化學方式合成出。
合理的藥物設計可采用任何計算方法實現(xiàn)具體化,這些計算方法包括藥靶—配體相互作用及其組合模型,先導化合物優(yōu)化以及藥物擁有的生物計算預測。在藥物設計中使用計算模型可有效避免在生物實驗室試驗或其它試驗中所需要的正常時間和費用,縮短藥物研發(fā)時間,并提高研發(fā)著重點和有效性。
先導化合物篩選中,藥物靶—配體分子組合計算模型包括大量的計算機篩選化合物庫(如庫篩選),或者程序虛擬產生并貯存為一個或多個化合物結構數(shù)據(jù)庫或通過合成化學和有機合成,以同靶分子相關的生物活性計算預期(或類似測試值)作為參照基點,采用計算機方法將篩選的部分配體排序。
本文中,結合模式是一個潛在分子組合的3-D分子結構,它是在或接近最小能量(也就是有最大結合親合力)的結合狀態(tài),其中結合能是指形成潛在分子組合體的分子體系自由能的變化(有時結合能可以同結合自由能相互交換使用或用概念上相反配體的親合力),對于配體和靶位而言,就是從非結合狀態(tài)到一個(潛在)結合狀態(tài)的轉變。有時系統(tǒng)姿態(tài)也用于指定的結合模式,自由能也指焓和熵效應,它們是結構原子和分子鍵相互物理作用(也就是原子間和原子內的相互作用)以及同它們周圍環(huán)境相互作用的結果,自由能的范例是Gibbs自由能,它是在平衡統(tǒng)計機原理最穩(wěn)定的。
通常,給定的藥靶——配體對最佳結合自由能同潛在分子配合物的組合或形成可能性是直接相關的,其中潛在分子配合物在化學平衡的兩分子之間。雖然實際上結合自由能描述的是(假定)復合結構的一個整體,而不僅僅是一個結合模。而在計算模中,自由能的變化被假定是由對應于最小能量的單一結構決定的。對于緊密結合鍵(PK~0.1-10nM)是確定無誤的,但對于弱結合鍵(PK~0.1-100nM),則存在問題。主要結構要考慮到結構模式。在一般情形中,就能量而言,當相關系統(tǒng)狀態(tài)減弱時,有必要考慮到不止一個結合模式。
親合力對于藥物研發(fā)和合理化藥物設計是關鍵的。因為蛋白質和藥靶分子相互作用有助于證實候選藥物能實現(xiàn)這一目標,其中蛋白質是生物工藝或路徑的“一部分,生物工藝或路徑的改進可尋找到候選藥物;而且結合模式一經決定,就可更好地了解藥物作用在靶位上,因此就藥靶而言,為了提高它的藥效,結合特異性(就其它藥靶生物聚合物而言)以及其它化學和代謝性,可進一步改善藥靶的一個或更多的性能。
現(xiàn)已有多種實驗方法測量并估算靶分子和配體間的親合力。首先藥靶可首先被分離出,在體外同配體混合,進行大量生物功能分析并批量篩選,這一方法在大多數(shù)時候是有效的,此時藥靶易于分離,配體易于制備,分子相互作用易于測量;但存在的問題是當藥靶不易分離,即分離會干擾生物或疾病過程,配體難以合成出足夠多的數(shù)量,或者對特殊藥靶或配體了解不清時,在這一過程中,需要做成千上百萬的實驗尋找合理的藥靶和配體組合。這使得實驗方法應用不切實際。
一方面,已有大量嘗試解決這一瓶頸問題,首先根據(jù)靶位(甚至是蛋白質家族相關靶位)的不同化學和生物性能以及一個或多個已知靶位結合物或底物,減少實驗組合數(shù)量,但在很多場合,這雖然是不切實際并且代價昴貴。為了替代實驗室中實際組合和測量實驗結果,另一途徑是在兩個或多個原子之間采用計算機模擬或特征化分子作用(也就是計算機分子組合模型)。評估分子組合和相互作用的計算方法通常可應用于合理性藥物設計的一個或多個步驟中,無論是依據(jù)結構或配體還是兼而有之。
在給定的藥靶-配體對中,計算中模擬潛在分子組合的特性或可能性,實際結合模計算預測通常要通過兩部分完成(a)“嵌入”,其中計算系統(tǒng)預測配體和藥靶的優(yōu)化結合模;(b)“評估”,計算系統(tǒng)改善結合模的結合親合力。在庫篩選中,就藥靶分子而言,評估也可用于預測一個配體對另一個配體相對結合親合力,因此可優(yōu)化配體或設計一個結合模的可能性。
嵌入涉及一個尋找過程或函數(shù)優(yōu)化算法,無論是隨機還是非隨機,可找到一個或多個有更好親合力的系統(tǒng),評估可涉及到更細化的親合力函數(shù)的評價,這一評價可按照一個經驗的、分子機理的、量子機理的或計算的方式或多個組合方式進行,也就是評價函數(shù)。任何評價函數(shù)可結合使用并形成一個可靠的連續(xù)評估模式,它含有不同的計算公式。實際上,在今天的計算藥物設計中有很多不同的嵌入算法和評估模式。
無論采用何種計算方法,在計算的復雜性和計算機資源量之間,皆存在固有的缺陷,其中計算的復雜性包含基本的分子模型和本質數(shù)值算法,計算機資源數(shù)量(時間、CPU數(shù)量、模擬量)必須分配給每一個分子組合,例如,兩分子由水分子包圍的復雜分子動態(tài)模擬(MD)包含一萬億次計算步驟,它可實現(xiàn)潛在分子組合模擬的高準確性,但其結果的計算耗費(也就是時間和計算機功率)太高,這樣即使使用幾個分子組合,這些模擬也難以操作。另一方面采用簡化的模型以及易出錯的模型捷徑和近似法去描述分子相互作用,可產生更多的可接受的計算費用,但必須減弱模型精度和降低預測效果。
本發(fā)明涉及一種計算方法,可有效精確測定分子相互作用或實現(xiàn)分子相互作用的特征化。分子相互作用(計算嵌入和評價方式只是一個子系統(tǒng))的測量或特征化,可涉及到潛在分子化合的形成或可能性的預測、兩個或多個分子結合能或結合親合力的評估,以及藥靶—配體對結合模的評估(甚至是可以增加可挑選的模)或者確定以預測靶分子生物活性為基準的一組配體化先權。
通常,結合親合力(或其等價物)將作為目標數(shù)學函數(shù)(如親合力函數(shù)),這一函數(shù)可很好描述靶位和配體分子之間相互作用而產生的潛在物理和化學特征。雖然還存在其它函數(shù)形式(其它一些形式將在下文中詳細描述),親合力函數(shù)是用于分子相互作用時定性或定量的一種測量方式。
總之,藥物研發(fā)過程要求又快又準地判定最優(yōu)狀態(tài)或結構,也就是兩個分子或部分分子的結合?;蚪Y合能。在藥物研發(fā)過程中,先導化合物篩選和優(yōu)化過程中,其有效性尤其是重要的,對于數(shù)百萬靶位—配體分子組合中,在建議有希望的候選藥進一步分析之前要求精確預測親合模和親合力。要求系統(tǒng)更有效以及分子組合計算模型更精確性,這一點是很清楚的。
參考文獻及先前的技術涉及本發(fā)明專利的先前技術已大量引用,現(xiàn)綜述總結如下Draws[1]綜述了藥物計算過程中常規(guī)進程,在文獻[2]中Abagga和Totror列舉了大量嵌入和評價及其應用。Lamb等人[3]提出了設計、嵌入對蛋白質系的多重組合庫的篩選方法。最后,Waskowycz等人[4]描述了通過將配體組分配給指定計算機,采用多重計算機和加快大型配體庫對特殊靶的篩選。J.Drews,“Drug DiscoveryA Historical perspective”,Science,287,1960-1964(2000).Ruben Abagyan and Maxim Totrov,“High-throughput docking for leadgeneration”,Current Opinion in Chemical Biology,Vol.5,375-382(2001).Lamb,M.L,Burdick,K.W.,Toba,S.,Young,M.M.,Skillman,A.G.dt al.,“Design,docking,and evaluation of multiple libraries against multiple targets”,Proteins,Vol.42,296-318(2001).Waszkowycz,B.,Perkins,T.D.J.,Sykes,R.A.,Li,J.,“Large-scale virtualscreening for discovering leads in the postgenomic era”,IBM Systems Journal,Vol.40,No.2(2001).
已有大量的軟件工具用于嵌入模擬的實例,這些方法涉及大范圍的計算機技術,這些應用包括(a)硬基體模式匹配算法,它是基于表面相互作用,運用幾何分塊,姿態(tài)簇和圖形匹配方法;(b)分段法包括增加結構法或放入和加入操作法;(c)隨機優(yōu)化法包括運用Monte Carlo,同步退火或遺傳法(或模擬法)(d)分子動態(tài)模擬法;(e)以及衍生出來的交叉方法。
早期嵌入軟件工具是一種稱作DOCK的圖形硬體模式匹配算法[5][6][7],1982年后在UCSF發(fā)展為v1.0版本,現(xiàn)已到v5.0版本(包括增加結構法),另一個圖形硬體模式匹配算法包括CLIX[8](轉為使用GRID[9]),F(xiàn)LOG[10]和LIGIN[11]。Shoichet,B.K.,Bodian,D.L.and Kuntz,I.D.,“Molecular docking using shapedescriptors”,J Comp Chem,Vol.13No.3,380-397(1992).Meng,E.C.,Gschwend,D.A.,Blaney,J.M.,and I.D.Kuntz,“Orientationalsampling and rigid-body minimization in molecular docking”,ProteinsStructure,F(xiàn)unction,and Genetics,Vol.17,266-278(1993).Ewing,T.J.A.and Kuntz,I.D.,“Critical Evaluation of Search Algorithms forAutomated Molecular Docking and Database Screening”,J.Computational Chemistry,Vol.18No.9,1175-1189(1997).Lawrence,M.C.and Davis,P.C.;“CLIXA Search Algorithm for Finding NovelLigands Capable of Binding Proteins of Known Three-Dimensional Structure”,Proteins,Vol.12,31-41(1992).Kastenholz,M.A.,Pastor,M.,Cruciani,G.,Haaksma,E.E.J.,F(xiàn)ox,T.,“GRID/CPCAA new computational tool to design selective ligands”,J.MedicinalChemistry,Vol.43,3033-3044(2000).Miller,M.D.,Kearsley,S.K.,Underwood,D.J.and Sheridan,R.P.,“FLOGa system to select′quasi-flexible′ligands complementary to a receptor of known three-dimensional structure”,J.Computer-Aided Molecular Design,Vol.8No.2,153-174(1994).Sobolev,V.,Wade,R.C.,Vriend,G.and Edelman,M.,“Molecular dockingusing surface complementarity”,Proteins,Vol.25,120-129(1996).Other rigid-bodypattern-matching docking software tools include the shape-based correlation methods ofFTDOCK[12]and HEX[13],the geometric hashing of Fischer et al.[14],or the poseclustering of Rarey et al.[15].Aloy,P.,Moont,G.,Gabb,H.A.,Querol,E.,Aviles,F(xiàn).X.,and Sternberg,M.J.E.,“Modeling Protein Docking using Shape Complementarity,Electrostatics andBiochemical Information,”ProteinsStructure,F(xiàn)unction,and Genetics,Vol.33,535-549(1998).Ritchie,D.W.and Kemp.G.J.L,“Fast Computation,Rotation,andComparison of Low Resolution Spherical Harmonic Molecular Surfaces”,ProteinsStructure,F(xiàn)unction,and Genetics,Vol.39,178-194(2000).Fischer,D.,Norel,R.,Wolfson,H.and Nussinov,R.,“Surface motifs by acomputer vision techniquesearehes,detection,and implications for protein-ligandrecognition”,Proteins,Vol.16,278-292(1993).Rarey,M.,Wefing,S.,and Lengauer,T.,“Placement of medium-sizedmolecular fragments into active sites of proteins”,J.Computer-Aided Molecular Design,Vol.10,41-54(1996).
通常,硬基體模式匹配算法皆假定靶位和配體都是硬性的(即不是彈性的),因此適合于嵌入小硬分子(或分子片段)到單一蛋白質中,并可確定幾乎是硬體活性部位。因此這種級別的嵌入工具可適用于從頭開始進行配體設計,組合塊設計,或者從每個配體含有多重類似體的分子庫中直接進行硬基體篩選。
增加結構法是以嵌入軟件工具為基礎的算法,它包括來自Tripos(EHBL許可)的FlexX[16][17],Hammerhead[18],DOCK V4.0[6](作為一種選擇),Leach等人提出的緩和反饋算法[19],再次配體設計中采用增加結構法的程序包括LuDI(來自Accelrys)[20]和GrowMol[21],嵌入軟件工具是基于DesJarlais等人提出的放入加入算法[22]。Kramer,B.,Rarey,M.and Lengauer,T.,“Evaluation of the FlexXincremental construction algorithm for protein-ligand docking”,Proteins,Vol.37,228-241(1999).Rarey,M.,Kramer,B.,Lengauer,T.,and Klebe,G.,“A Fast FlexibleDocking Method Using An Incremental Construction Algorithm”,J.Mol.Biol.,Vol.261,470-489(1996).Welch,W.,Ruppert,J.and Jain,A.N.,“HammerheadFast,fully automateddocking of flexible ligands to protein binding sites”,Chemical Biology,Vol.3,449-462(1996).Leach,A.R.,Kuntz,I.D.,“Conformational Analysis of Flexible Ligands inMacromolecular Receptor Sites”,J.Comp.Chem.,Vol.13,730-748(1992).Bohm,H.J.,“The computer program LUDIa new method for the de novodesign of enzyme inhibitors”,J.Computer-Aided Molecular Design,Vol.6,61-78(1992).Bohacek,R.S.and McMartin,C.,“Multiple Highly Diverse StructuresComplementary to Enzyme Binding SitesResults of Extensive Application of a de NovoDesign Method Incorporating Combinatorial Growth”,J.American Chemical Society,Vol.116,5560-5571(1994).DesJarlais,R.L.,Sheridan,R.P.,Dixon,J.S.,Kuntz,I.D.,andVenkataraghavan,R.,“Docking Flexible Ligands to Macromolecular Receptors byMolecular Shape”,J Med.Chem.,Vol.29,2149-2153(1986).
增加結構法可用于從彈性配體到硬靶位分子的模式嵌入,并保持有較好活性特征。當對一個或更多的靶位篩選彈性配體時,就可應用這一算法,同其它隨機和優(yōu)化算法對比,這一算法有較少的計算強度,其結果準確率也優(yōu)。但是即使是FexX也占用小于1~2分鐘數(shù)量級的時間處理靶位—配體組合,因而依據(jù)數(shù)據(jù)庫的容量大小(也就是1千萬或更多的化合物)計算任務依舊繁重,增加結構法算法通常需選用一個或更多評價函數(shù)評估,并補入不同的系統(tǒng)姿態(tài)。最近,F(xiàn)lex X版本已變?yōu)镕lex E[23]。Claussen,H.,Buning,C.,Rarey,M.,and Lengauer,T.,“FlexEEfficientMolecular Docking Considering Protein Structure Variations”,J.Molecular Biology,Vol.308,377-395(2001).
以隨機優(yōu)化為基礎的計算嵌入軟件包括ICM[24](來自MolSoft),GLIDE[25](來自Schrodinger),以及LigandFit[26]來自Accelrys),上述這些軟件是基于修正的Monte Carlo技術,AutoDock v.2.5[27](來自Scripps Institute),它是基于模擬退火法,而其它基于基團或模擬的算法包括GOLD[28][29],DARWIN[30]和AutoDock v.3.0[31](也來自Scrtpps)。Abagyan,R.A.,Totrov,M.M.,and Kuznetsov,D.N.,“Biased probabilityMonte Carlo conformational searches and electrostatic calculations for peptides andproteins”,J.Comp.Chem.,Vol.15,488-506(1994).Halgren,T.A.,Murphy,R.B.,F(xiàn)riesner,R.A.,Beard,H.S.,F(xiàn)rye,L.L.,Pollard,W.T.,and Banks,J.L.,“Glidea new approach for rapid,accurate docking and scoring.2.Enrichment factors in database screening”,JMed Chem.,Vol.47No.7,1750-1759,(2004).Luty,B.A.,Wasserman,Z.R.,Stouten,P.F.W.,Hodge,C.N.,Zacharias,M.,and McCammon,J.A.,“Molecular Mechanics/Grid Method for the Evaluation ofLigand-Receptor Interactions”,J.Comp.Chem.,Vol.16,454-464(1995).Goodsell,D.S.and Olson,A.J.,“Automated Docking of Substrates toProteins by Simulated Annealing”,ProteinsStructure,F(xiàn)unction,and Genetics,Vol.8,195-202(1990).Jones,G.,Willett,P.and Glen,R.C.,“Molecular Recognition of ReceptorSites using a Genetic Algorithm with a Description of Desolvation”,J.Mol.Biol.,Vol.245,43-53(1995).Jones,G.,Willett,P.,Glen,R.C.,Leach,A.,and Taylor,R.,“Developmentand Validation of a Genetic Algorithm for Flexible Docking”,J.Mol.Biol.,Vol.267,727-748(1997).Taylor,J.S.and Burnett,R.M.,Proteins,Vol.41,173-191(2000).Morris,G.M.,Goodsell,D.S.,Halliday,R.S.,Huey,R.,Hart,W.E.,Belew,R.K.and Olson,A.J.,“Automated Docking Using a Lamarckian Genetic Algorithm andan Empirical Binding Free Energy Function”,J.Comp.Chem.,Vol.19,1639-1662(1998).
隨機優(yōu)化方法也可應用于從彈性配體到靶的模式嵌入。它們通常采用親合力函數(shù)分子機理公式并用選用不同的算法以尋找到一個或更多合適的系統(tǒng)能量最小值。這些通常要有更大的計算強度,甚至比增加結構法有更大的計算強度。它們本質是上隨機的,不同的使用或模擬也經常導致不同的預測結果,傳統(tǒng)上大多數(shù)嵌入軟件工具采用隨機優(yōu)化,假定靶位是接近硬性的(也就是在活性區(qū)氫鍵供體和受體可旋轉),因為不然的話在一定的時間內組合的復雜性顯著增加解決問題的難度。
在本文中分子動力學也可用于靶位—配體復合的計算模型中,這所包含的工具是Di Nola等人[32]和Laty等人[16](以及Monte Carlo)提出的。從機理上,分子動力學可從彈性到任意角度模擬蛋白質。另一方面,它們也要求對許多細節(jié)和時間步驟進行評估,并且它們是相當耗時的(每一個藥靶—配體組合耗用數(shù)小時甚至幾天)。它們也要求使用者參與對直接通道的選擇。在先導化合物發(fā)明過程中,分子動態(tài)模擬的運用非常適合于提供少量候選藥物。Di Nola,A.,Berendsen,H.J.C.,and Roccatano,D.,“Molecular DynamicsSimulation of the Docking of Substrates to Proteins”,Proteins,Vol.19,174-182(1994).
復合方式可首先采用硬體模式匹配技術應用于快速篩選低能量配體組合,然后采用適應姿態(tài)的Monte Carlo扭矩優(yōu)化技術,最后是在選用的幾種配體結構結合一個(潛在)彈性蛋白質活性區(qū)采用分子動態(tài)精細技術。這種嵌入軟件方法應用例可參閱Wang等人的文獻[33]。Wang,J.,Kollman,P.A.and Kuntz,I.D.,Proteins,Vol.36,1-19(1999).
軟件中可運行許多評估函數(shù),可用于評估藥靶—配體親合力,作為每一個庫篩選的排序優(yōu)化考慮不同配體,或對中間嵌入姿態(tài)進行排列以檢測出結合模式。傳統(tǒng)的評估函數(shù)包括三種不同方法(a)經驗評價函數(shù);(b)分子機理表述;(c)知識庫評價函數(shù)或混合方法。
在QSAR研究中,經常應用的線性自由能關系首先采用了衍生的評價函數(shù)(應用于藥靶—配體組合)。早期應用實例是Bhm等人[20][34](用于LUDI),其它經典評價系數(shù)包括SCORE[35](用于Flex X),ChemScore[36],PLP[37],F(xiàn)resno[38],and GlideScore v.2.0+[39](由ChemScore修正,GLIDE使用)[34]Bhm,H.J.,“The Development of a simple empirical scoring function toestimate the binding constant for a protein-ligand complex of known three-dimensionalstructure”,J.Comput-Aided Mol.Des.,Vol.8,243-256(1994).Wang,R.,Gao,Y.and Lai,L.,“A new empirical method for estimating thebinding affinity of a protein-ligand complex.”,J.Molecular Modeling,Vol.4,379(1998).Eldridge,M.D.,Murray,C.W.,Auton,T.R.,Paolini,G.V.,and Mee,R.P.,“Empirical scoring functionsI.The development of a fast empirical scoring function toestimate the binding affinity of ligands in receptor complexes”,J.Computer-AidedMolecular Design,Vol.11,425-445(1997).Gelhaar,D.K.,Bouzida,D.;Rejto,P.A.,In“Rational Drug DesignNovelMethodology and Practical Applications”,Parrill,L.,Reddy,M.R.,Ed.;AmericanChemical SocietyWashington,D.C.,pp.292-311(1999).Rognan D.,Lauemoller S.L.,Holm A.,Buus S.,Schinke V.,J.MedicinalChemistry,Vol.42,4650-4658(1999).Halgren,T.A.,Murphy,R.B.,F(xiàn)riesner,R.A.,Beard,H.S.,F(xiàn)rye,L.L.,Pollard,W.T.,and Banks,J.L.,“Glidea new approach for rapid,accurate docking and scoring.2.Enrichment factors in database screening”,J Med Chem.,Vol.47No.7,1750-1759(2004).
一般,經典評價函數(shù)包括今天大部分使用的評價函數(shù),尤其是用于本專利中大量化合物庫篩選。其基本假定是測定經驗能量模式的線性組合,每一個都被相關數(shù)值重量相乘,每一個都代表了在主評價方程中一組相互作用單元,這一評價方程是嘗試簡化分子組合親合自由能的計算。滿足實驗結合自由能數(shù)據(jù)可吸納數(shù)值重量因子,組成一組修正的藥靶—配體復合物。
分子機理評價函數(shù)首先可在分子模型應用中得以發(fā)展,本專利中應用于分子機理力場的軟件包括有AMBER[40][41],OPLS[42],MMFF[43]和CHARMM[44],分子機理評價函數(shù)實例既包括化學的,也包括能量評價函數(shù),如DOCK v.4.0(基于AMBER[6],用于GOLD的函數(shù)[28][29],Auto Dockv.3.0[31](含有經驗重量),以及FLOG[10]。Pearlman,D.A.,Case,D.A.,Caldwell,J.C.,Ross,W.S.,Cheatham III,T.E.,F(xiàn)erguson,D.M.,Seibel,G.L.,Singh,U.C.,Weiner,P.,Kollman,P.A.AMBER4.1,University of California,San Francisco(1995).Cornell,W.D.,Cieplak,P.,Bayly,C.I.,Goulg,I.R.,Merz,K.M.,F(xiàn)erguson,D.M.,Spellmeyer,D.C.,F(xiàn)ox,T.,Caldwell,J.W.,Kollman,P.A.,“A second-generationforce field for the simulation of proteins,nucleic acids,and organic molecules”,J.American Chemical Society,Vol.117,5179-5197(1995).Jorgensen,W.L.,& Tirado-Rives,J.,J.American Chemical Society,Vol.110,1657-1666(1988).Halgren,T.A.,“Merck Molecular Force Field.I.Basis,F(xiàn)orm,Scope,Parameterization,and Performance of MMFF94”,J.Comp.Chem.,Vol.17,490-519(1996).Brooks,B.R.,Bruccoleri,R.E.,Olafson,B.D.,States,D.J.,Swaminathan,S.and Karplus,M.,“CHARMMA Program for Macromolecular Energy,Minimization,andDynamics Calculations”,J.Comp.Chem.,Vol.4,187-217(1983).
一般,分子基理評價函數(shù)較接近于應用在許多隨機優(yōu)化嵌入系統(tǒng)的目標函數(shù),這些典型函數(shù)要求在一個或多個分子原理動力區(qū)不同性能(如電荷、質量、vdW半徑,鍵平衡常數(shù)等)具有原子(或化學基團)級參變量。在某種條件下,合適配體參數(shù)也可指定用于其它分子模型軟件包中,如配體部分電荷指定用于MOPAC[45],AMPAC[46]或AMSOL[47],它們也包括分子內作用(即分子自身能量)和大量的靜電相互作用。在某些場合中,為了再現(xiàn)配體—靶位復合物,能量組合也可通過數(shù)值重量優(yōu)化完成。Stewart,J.J.P.,Quantum Chemistry Program Exchange,Vol.1086(1990).Liotard,D.A.,Healy,E.F.,Ruiz,J.M.,and Dewar,M.J.S.,QuantumChemistry Program Exchange-no.506,QCPE Bulletin,Vol.9123(1989).AMSOL-version 6.5.1by G.D.Hawkins,D.J.Giesen,G.C.Lynch,C.C.Chambers,I.Rossi,J.W.Storer,J.Li,D.Rinaldi,D.A.Liotard,C.J.Cramer,and D.G.Truhlar,University of Minnesota,Minneapolis(1997).
對于液體模型,知識型評價函數(shù)可用于平均動力統(tǒng)計機理方法中。這里應用例包括DrugScore[48],PMF[49]和BLEEP[50]。Gohlke,H.,Hendlich,M.and Klebe,G.,“Knowledge-based Scoring Functionto Predict Protein-Ligand Interactions”,J.Mol. Biol.,Vol.295,337-356(2000).Muegge,I.and Martin,Y.C.,“A general and fast scoring function forprotein-ligand interactions-a simplified potential approach.”,J.Med.Chem.,Vol.42,791-804(1999).Mitchell,J.B.O.,Laskowski,R.A.,Alex,A.and Thornton,J.M.,“BLEEP-Potential of Mean Force Describing Protein-Ligand Interactions II.Calculation of BindingEnergies and Comparison with Experimental Data”,J.Comp.Chem.,Vol.20,1165-1176(1999).
通常,知識型評價函數(shù)并不要求拆分親合力函數(shù)。但是,它們要求大量使用適宜的分子配合物3-D結構大型數(shù)據(jù)庫。通常,回歸分子配合物的已知實驗結合親合力測試數(shù)據(jù)也常是沒必要的。這些方法是基于一個基本假設,兩原子之間相互作用越有利,在給定的距離內,相對期望值而言,在大量無序媒介中,其發(fā)生越頻繁。這些方案有時被稱為“反Boltzmann”方案,但實際上,大分子和蛋白質折疊鍵存在優(yōu)化的結構,這意味著同距離相關的配對優(yōu)化分布并不受Boltzmann嚴格限制?;谄渌咏庹f符號,引入背心優(yōu)先的概念也是可能的,如為了近似溶解效應,引入了溶劑溶解表面區(qū)域的概念。
復合評價函數(shù)也可是一個或多個不同典型函數(shù)的復合函數(shù)。其中一個函數(shù)例子是VALIDATE[51],它是一種分子機理/經驗復合函數(shù)。其它評價函數(shù)的組合也包括有一致評價概念,其中復合函數(shù)可用于評估每一個分子組合以及一些滿意的決定是基于一組規(guī)則或統(tǒng)計準則得出的,如列舉排序每一個評價函數(shù)(交集基),發(fā)生率最高為10%序列,狀態(tài)有較高的平均序列(平均基)。一個有效的滿意評價系統(tǒng)的討論綜述參見Bissantz等人的文獻[52]。Head,R.D.,Smythe,M.L.,Oprea,T.I.,Waller,C.L.,Green,S.M.andMarshall,G.R.,“VALIDATEA New Method for Receptor-Based Prediction of BindingAffinities of Novel Ligand”,J.American Chemical Society,Vol.118,3959-3969(1996).Bissantz,C.,F(xiàn)olkers,G.,Rognan,D.,“Protein-based virtual screening ofchemical databases.1.Evaluation of different docking/scoring combinations”,JMed Chem,Vol.43,4759-4767(2000).
但是,現(xiàn)有的算法工具沒有一種可以適合于藥靶—配體分子組合,因為在當今藥物研發(fā)過程,為確保進行大范圍地篩選潛在候選藥物,必須有必要的精確和速度。
數(shù)學化描述結構和化學信息存在不同的文件版本,這里藥靶蛋白質及其復合物化學信息是同結構數(shù)據(jù)庫有關的,這些例子包括pdb,molz(來自Tripos)和SMILES版。Westbrook,J.and Fitzgerald,P.M.(2003)Structural Bioinformatics,P.E.Bourne and H.Weissig(editors).Hoboken,NJ,John Wiley&Sons,Inc.pp.161-179.http∥www.tripos.com/custResources/mol2Files/[55]http∥www.daylight.com/dayhtml/smiles/smiles-intro.html[56]Clark,M.,Cramer,R.D.,Opdenbosch,N.V.,“Validation of the GeneralPurpose Tripos 5.2Force Field”,J.Comp.Chem.,Vol.10,982-1012(1989).http∥www2.chemie.uni-erlangen.de/software/corina/index.html
涉及潛在分子組合形成的全靜電場能量計算的討論內容,可在Gilson等人的文獻[59]找到。靜電電勢計算方法在經典理論范圍中有較簡單公式,如涉及同距離相關的絕緣函數(shù)[59],也有較復雜的函數(shù),如涉及Poissin-Boltzman方程,一秒級,通常為非線性簡化偏微分方程。
其它的經典形式可解決靜電包括Generalized Born溶液模型為基準的方程[62][63],以及通過增加溶劑接近或碎片體積和描述反應面效應方法[64][65][66],或者采用分子動態(tài)模擬精確描述溶劑[67][68][69]中。全量子機理靜電相互作用的處理長篇綜述可在Labanowksi等人的文獻[10]中找到。Gilson,M.K.,and Honig,B.,“Calculation of the Total Electrostatic Energyof a Macromolecular SystemSolvation Energies,Binding Energies,and ConformationalAnalysis”,Proteins,Vol.4,7-18(1988).Mehler,E.L.and Solmajer,T.,“Electrostatic effects in proteinscomparisonof dielectric and charge models”Protein Engineering,Vol.4,903-910(1991).Holst,M.,Baker,N.,and Wang,F(xiàn).,“Adaptive Multilevel Finite ElementSolution of the Poisson-Boltzmann Equations I.Algorithms and Examples”,J.Comp.Chem.,Vol.21,No.15,1319-1342(2000).Nicholls,A.,and Honig,B.,“A Rapid Finite Difference Algorithm,UtilizingSuccessive Over-Relaxation to Solve Poisson-Boltzmann Equation”,J.Comp.Chem.,Vol.12,No.4,435-445(1991).Still,W.C.,Tempczyk,A.,Hawley,R.C.and Hendrickson,T.,“A GeneralTreatment of Solvation for Molecular Mechanics”,J.Am.Chem.Soc.,Vol.112,6127-6129(1990).Ghosh,A.,Rapp,C.S.,and Friesner,R.A.,“A Generalized Born ModelBased on Surface Integral Formulation”,J.Physical ChemistryB.,Vol.102,10983-10(1988).Eisenberg,D.,and McLachlan,A.D.,“Solvation Energy in Protein Folding andBinding”,Nature,Vol.31,3086(1986).Privalov,P.L.,and Makhatadze,G.I.,“Contribution of hydration to proteinfolding thermodynamics”,J.Mol.Bio.,Vol.232,660-679(1993).Stouten,P.F.W.,F(xiàn)rmmel,C.,Nakamura,H.,and Sander,C.,“An effectivesolvation term based on atomic occupancies for use in protein simulations”,MolecularSimulation,Vol.10,No.2-6,97-120(1993).Bash,P.,Singh,U.C.,Langridge,R.,and Kollman,P.,“Free EnergyCalculation by Computer Simulation”,Science,Vol.236,564(1987).Jorgensen,W.L.,Briggs,J.M.,and Contreras,M.L.,“Relative PartitionCoefficients for Organic Solutes from Fluid Simulations”,J.Phys.Chem.,Vol.94,1683-1686(1990).Jackson,R.M.,Gabb,H.A.,and Sternberg,M.J.E.,“Rapid Refinement ofProtein Interfaces Incorporating SolvationApplication to the Docking Problem”,J.Mol.Biol.,Vol.276,265-285(1998).Labanowski and J.Andzelm,editors,“Density Functional Methods inChemistry”,Springer-Verlag,New York(1991).
本
發(fā)明內容
概要本發(fā)明內容涉及到一種方法和儀器,它可有效地計算一個分子構象的兩個或更多部分親合力函數(shù),這一個或兩個分子子集是來自一個分子庫中挑選出的大量分子部分,這種計算方式包含有大量的平行路徑。本發(fā)明的其它內容涉及到平行親合力途徑的同步,以最大利用計算處理功率。本發(fā)明進一步內容是涉及到應用信息通道的分配方法,按照信息通道方案,分子解釋信息作為一個或更多的數(shù)據(jù)塊分配給每一個親合力引擎。而且本發(fā)明用于分子組合分析儀器也將討論到,它包括可提供一個或更多輸入構象有效產生新構象,可計算多個構象的親合力函數(shù),為進一步分析逐個選擇處理的構象,以及幾個本專利反復使用的搜索優(yōu)化的設備。而且本發(fā)明其它幾種的硬件設備也將在本文中討論到。
圖形的簡要說明本發(fā)明更完善的正確評價以及其許多優(yōu)點將在文中展示,同時,參照圖形詳細描述將可更好地理解本發(fā)明。
圖1是幾個構型自由度的圖例說明,它涉及到一個分子構象結構的可能變化。
圖2a、2b、2c分別為氨甲蝶呤2-D圖,氨甲蝶呤結構的球和棒以及另一種氨甲蝶呤結構圖,它不同于圖2b的描述,它有2個自由扭矩自由度的變化。
圖3a、3b和3c分別描述在3D坐標Cartesian平面上一種氨甲蝶呤姿態(tài)的球和棒、描述變位和硬體旋轉后的氨甲蝶呤另一種姿態(tài)的球和棒、描述另一種結構變化的氨甲蝶呤姿態(tài)的球和棒。
圖4a、4b、4c描述了表征氨甲蝶呤和蛋白質二氫葉酸還原酶的分子組合。圖4a中的球和棒代表了氨甲蝶呤的一個姿態(tài)的蛋白質二氫葉酸還原酶的一個姿態(tài)。圖4b描述了同一蛋白質姿態(tài)(如圖4a),但不同的氨甲蝶呤姿態(tài)的另一種構象。圖4c描述了另一種不同構象,其中蛋白質和氨甲蝶呤姿態(tài)不同。
圖5是多種氨甲蝶呤分子扭轉自由度的圖示說明。
圖6a、6b、6c分別展示了以pdb格式存在的氨甲蝶呤一個姿態(tài)數(shù)字描述。
另一種以mol2格式文件存在的氨甲蝶呤同一姿態(tài)數(shù)字說明,參照Amber96力場對氨甲蝶呤原子和鍵進行一組物理描述。
圖7是分子組合分析模式系統(tǒng)設備圖示說明。
圖8為構象模型產生設備詳細示意圖,它包括構象信息傳輸設備以及親合力計算器,它是分子組合分析模式系統(tǒng)的一部分。
圖9a表示兩個平行通道的親合力引擎儀器示意圖。
圖9b描述的是一個鍵親合力引擎設備示意圖,按照改性的諧波彎曲電勢,當一個分子構象的一個或多個鍵角度變化時,可有效計算分子內拉伸能量。
圖10,這是一個構象模型器設備部分示意圖,它包括一個信息通道分配法,兩個不同信息通道,描述計算法的兩組平行運行的親合力引擎,一種累積法,以進一步說明路徑同步的概念。
本專利的詳細說明閱讀本內容后,本發(fā)明的許多應用將明朗化。一個計算系統(tǒng)設備描述僅有幾種可能的變化。對于一種常規(guī)技術,其它的應用和變化將是顯而易見的,因此發(fā)明就不會理解為象例子一樣狹窄,但同附加申明緊密相關的。
本發(fā)明設備現(xiàn)在就將描述,但不限于這些設備的例子,可以肯定的是本發(fā)明可以廣泛應用并用于不同場合。
一個分子集是一個分子組成的整體或部分體,其組成可能是單個原子或鍵,原子組和/或鍵組,氨基酸殘基和核苷酸等。一個原子的子集也包含有一個原子,原子的一部分,含有一個或多個原子(或其它生物活性單元),蛋白質,蛋白質的一個或多個子集或域,核酸,一個或多個酞,或一個或多個低聚核苷酸。在另一情形中,一個原子子集也包含一個或多個離子,單個原子,或整個或其它單個原子,如鹽、氣體分子、水分子、基團或甚至有機化合物,如乙醇、酯、酮、糖等。在另一種情形中,分子子集也包含有有機分子、殘基、核苷酸、碳氫物、無機分子或其它化學活性物,這包括合成的,醫(yī)藥的,類藥的或天然化合物。
還有在另一種情形中,分子子集也可能用藥靶通過一個或更多的共價鍵連接或束縛。在其它另一種情形中,分子子集事實上包含有一個或多個藥靶結構單元,如第二結構單元,它形成蛋白質的第三結構單元或蛋白質第四結構亞單元;還有一種情形,分子子集也包含有一個或更多藥靶分子的部分體,如包含有整個或部分活性區(qū)的蛋白質域,一個或多個空間連接蛋白質結構子集,這種子集是從一個或多個蛋白質殘基中選出來的,甚至是不相連的蛋白質子集,它在催化劑或表面殘基與不同分子相互作用時起重要作用。分子子集還包括整個或部分存在的分子配合物,這表明一個分子組合在兩個或多個其它分子子集之間,如一個活性蛋白質或變構的蛋白質。
一個分子組合(有時就能僅是一個組合)是兩個或更多分子子集通過潛在的鍵連接形成一個分子配合物?;蛏踔猎谔厥獾奈锢?、化學、生物環(huán)境中相互作用,一個組合至少指明了兩個或多個分子子集相互作用的同一性。
在許多進一步的事例和說明中,分子組合將描述兩個分子子集典型事件,其中配體生物分子(第一個分子子集)作用于藥靶生物分子(通常為生物聚合物,第二分子子集)。因此一個分子組合的典型分析是找到配體同藥靶分子在特殊環(huán)境中從什么角度相互作用??梢悦靼椎氖浅瞧渌C實,這種事例或解釋將更普遍地應用分子組合中,多于兩個分子子集同另一子集相互作用或鍵合,這表明整個或部分,一個或多個藥靶分子和/或一個或多個配體,或者甚至其它分子同特殊環(huán)境是相關聯(lián)的。
作為一個例子,本發(fā)明中分子組合合可描述藥靶同配體相互作用(即藥靶—配體對),其中分子子集是來自蛋白質和另一個配體。進一步而言,一個分子組合可代表—藥靶—配體對,其中的分子子集是完整配體化物分子,但另一個分子子集只是部分的靶及生物聚合物,它含有一個或多個相關活性區(qū)。
另一方面,分子組合可以多于兩個分子子集為特色,其中一個代表了藥靶(整個或部分),另外兩個對應于兩個不同配體,它們同時作用于同一藥靶。在蛋白質阻聚和鍵合之間存在競爭的熱動力學平衡。另一種情形是上述范例也可能反過來,一個分子組合以兩個靶分子同一個配體生物分子競爭為特征。
還有一個范例是,在一種情形中,分子組合可描述蛋白質與蛋白質的相互作用,它們有兩個分子子集,每一個代表了整個或一個同蛋白質的合適部分。進一步而言,分子組合也代表了蛋白質—蛋白質相互作用,但現(xiàn)在還有潛在多于2個分子子集,每一個代表了一種合適的蛋白質域。
下一個范例是,分子組合可以兩個分子子集為特征,其中代表了靶—配體對和添加的分子子集,它代表了適合于相互作用的其它原子或分子(雜原子或雜分子),例如,但不僅僅限于這些,一個或多個催化或結構金屬離子,一個或多個有秩序的被約束的結構化水分子,一個或多個鹽分子,甚至其它分子,如不同的脂、碳水化合物、酸、堿、mRNA,ATP/ADP等。另一種情形是,分子組合可能以兩個分子子集為代表,它表明藥靶—配體對,以及一個或更多分子子集,它代表了整個或部分細胞膜,如部分脂雙層膜和原子膜集等,整個或部分細胞器管,如線粒體、核糖體和內質網(wǎng)等。
在另一種情形,分子組合也以兩個或更多分子子集力為特征,一個或多個分子子集代表了不同的分子組合的不同部分,另一個子集代表了配體在非占用活性區(qū)同配合物相互作用,如蛋白質與變構活性體復合,或者與含有多個不同活性區(qū)蛋白質復合。
在另一種情形中,分子組合以兩個或多個分子子集為特征,它代表蛋白質鏈或其次級單元作為每一個四級蛋白質結構進行共價作用。在另一個情形中,分子組合以兩個或多個分子子集為特征,它代表了蛋白質第二結構單元相互作用,它是聚酞鏈的四級結構,從蛋白質折疊鏈或誘變衍生。
分子子集有望在不同環(huán)境中具有不同的相互作用,它是許多可能的物理和/或化學因素來控制,這些因素包括,但不限于溫度、PH、壓力、化學勢、膜滲透性、溶解性、偏正性(溶質和溶劑)、粘度、傳導率、絕緣強度、相態(tài)(氣體、液體或固體)變化或混合物,在電荷和/或不同的較高的多電極間靜電勢能,界面表面張力,包圍在溶液中的離子或鹽等。不同環(huán)境也可被分子子集間相互作用區(qū)特征化,如腸胃管,血液,體外實驗室試驗管,肝,細胞膜,細胞質和腫瘤中等。
本發(fā)明一種情形是,一個分子組合可能包括有環(huán)境的限制。兩個不同分子組合可能包含有同樣的一組相互作用的分子子集(如靶—配體對),但這是在不同環(huán)境中。作為一個實例,一個分子組合在真空近似氣相環(huán)境中以藥靶蛋白質—配體為特征;對于另一種分子組合,同—靶蛋白—配體對在以液相形式存在于包圍在溶劑媒質之中,對于另外一種分子組合,同—靶蛋白—配體對在每一次X射線晶體學試驗中也可懸浮在晶體格中。
在許多要來的實例和解釋中,分子組合代替了典型的藥靶—配體對同在水溶液環(huán)境生理pH的另一藥靶—配體對相互作用,這里所指溶液通常是原子,離子和/或簡單分子(如水、鹽、糖)。在一種情形中,某種溶液可以被一種或更多種溶液分子子集表示,在另一種情形下,一種適宜的連續(xù)的固有溶液模型可表征溶劑。
在另一種情形中,分子組合可表征僅僅是一個分子子集同它自身和環(huán)繞的溶劑相互作用,此時一個或更多最佳能量分子構型或蛋白質有一個或更多合適的折疊。在這種說明下,兩個不同分子化合物可表征相同的分子子集,但是在不同的環(huán)境中,在這種情況下,環(huán)境可視為是第二分子子集分子化合物的替身。它有利于決定分子和其它分子部分同其自身的相互作用時的最佳姿態(tài)。
在上上文中已經提到,一個分子組合典型分析可尋找決定出一個配體同靶分子環(huán)境中以什么角度相互作用。在另一情形,分析可包括大量的分子組合,每一個組合對應于一個從分子庫(事實上或偶然)中挑選的不同靶分子,在同一環(huán)境中與同一靶分子復合,這樣是為了找到一個或更多配體,這種配體同靶或甚至是更好性能的靶蛋白活性區(qū)鍵合或成反應。在這些過程中,為了獲得合適生物活性相對比較,有必要設置一個對每一個分子組合評價或排隊系統(tǒng)。
在這一說明中,每一個藥靶—配體是獨立的組合,如果試驗時,幾個配體對一個靶位,分析中將有幾個不同分子配體。在大量的大分子庫中,對一個靶蛋白而言,有必要分析上百萬甚至更多的潛在分子組合。
在另一種情形下,分析可能是相反的,大量的分子組合代表了大量的藥靶分子,每個藥靶在同一環(huán)境下和同一配體生物分子復合。還有一種情形,分子組合可表征多個配體和/或靶同步反應,也就是不止一個藥靶—配體對,也包括不同先前所提到的雜原子或分子。
在給定的分子子集結構可假定有不同的幾何狀態(tài),這意味著在分子子集中的原子、鍵、化學基團的相對位置可以改變,因此一個分子子集結構變化可作為一個構象,在如下大量實例和解釋中,可假定很多很多共價鍵在構象變化時還是保持的,也就是鍵并不打斷或形成,雖然這對其它化合鍵如二硫化物鍵、氫鍵和鹽橋并不是必須的。然而,很明顯當發(fā)明工藝應用時,鍵要打斷或形成,要發(fā)生化學反應,因為在一個特殊分子組合分析中,象明顯要允許分子子集凝固或破裂。
同一個分子子集兩個不同構象可導致鍵長,鍵角,鍵扭矩(準確又不準確)的相對變化,或者其它更復雜的變化如環(huán)變化(如環(huán)角擺動、環(huán)折疊等)。當子集中僅有一個原子變化時,兩個構象間的變化是微妙的,或者當特殊對蛋白質折疊或者多活性殘基側鍵變化時,構象間變化是很大的。當空間幾何并沒有完全實現(xiàn)時,也會有一些構象的變化,這也會導致組成原子或基團的空間不協(xié)調,所允許的構象變化通常是指自由度的變化。
圖1顯示了標準自由度有不同的分子構象,102是一個化學鍵延伸的實例,也就是在兩個相鄰原子104和106之間鍵長度的變化。110是鍵角彎曲實例,也就是鍵角在三個連續(xù)原子112,113和115之間的鍵角變化。120顯示了一個自身扭矩變化實例,也就是在原子122和123間鍵的轉動,或者說由原子121,122和123限制的平面和有122,123,124原限定的平面組成的二面角發(fā)生了變化;值得注意的是,在自身扭矩變化實例中,假定在原子123和124之間鍵周圍原子125和126進行相同的轉動,這樣可保證原子123和124之間的距離一定。
在圖1中,140是一種異常扭矩,也就是由原子141,142和143限定平面和原子141,142和144限制平面組成的二面角發(fā)生了變化;150為“平面折疊”轉象的非芳香族同素環(huán),它是由原子151,152,153,154,155和156限定的。在這種情況下轉象反映了兩個平面間的角度變化,其中一個平面是由原子151,152,153,154組成的,另一個平面是由151,156,155和154組成的。最后,160是同一個芳香族同素環(huán)轉變角擺動,但現(xiàn)在這一轉變表現(xiàn)了兩個平面間的角變化,其中一個平面是由原子151,152,153,156和155組成,另一平面由155,154和153組成。
其它構象自由度也是存在,如(但不限于)順式和反式模之間的轉變,一個或多個手性中心的變化,不同的立體異構,或者其它及更復雜的環(huán)變形,特別是大環(huán)的變化。但是許多(不是所有的)未打斷或形成的原子構象的變化可分解成圖1所列的一個或多個自由度。
在很多條件下,自由度已有許多限制,這表明原子和鍵的運動是有限制的,這些限制也可被本質狀態(tài)或混合狀態(tài)所改變,這些混合狀態(tài)包括化學鍵,結構改變能量場,或甚至更復雜的考慮因素,如涉及到第二結構單元的守恒或者蛋白質結構特征或者不同于原子或其它分子的存在。
在如下許多范例和解釋中,分子子集構象主要由一個或多個自由度有關,而自由度涉及到規(guī)則和不規(guī)則扭矩。因為對于許多系統(tǒng),在標準配體和靶中大多數(shù)化學鍵的鍵長和鍵角在鍵合和非鍵合組合狀態(tài)之間,并沒有顯著的變化,但表征環(huán)鏈(尤其中大環(huán)鏈)的化學基團除外。相反,在許多情形中,分子相關不僅僅單獨限于扭矩自由度。
圖2b是氨甲蝶呤分子200的構象205的球和棒透視圖,其分子式為C2OH22N8O5,其2—D化學結構圖如圖F2a所示。分子子集包含原子220和鍵230。213是小而黑的碳原子。216是細小而白的氫原子。稍大而黑的原子(210)是氧原子,稍大而白的原子(211)是氮原子。圖2a中,223是含有苯基(C6H4)的環(huán),225是含羧基的環(huán)(COO-),227是含有甲基的環(huán)。235是一共價鍵,可連接碳原子213和羧基225。最后237是一共價鍵連接甲基227和氮原子229。
圖2c是同一個氨甲蝶呤分子200的另一個構象260的球和棒透視圖,圖2b和圖2c是鍵235和237僅是因扭矩自由度的扭矩角度值的不同而兩者的構象不同,從而導致甲基(227)和羧基(225)中原子和鍵的位置發(fā)生變化。
給定分子子集構象在全坐標系統(tǒng)上可平移或旋轉,而產生不同的幾何狀態(tài),分子子集構象的這種變化在后面的描述中可以認為是一種姿態(tài)。
圖3a是一個氨甲蝶呤分子一個構象300。320(黑色)是全Cartesian坐標系3-D坐標軸,也就是(x,y,z)。340(白色)時連接分子局部Cartesian框(x′,y′,z′),它通常是沿著整個Cartesian軸320的排列,圖3b為同一構象300,但姿態(tài)不同。現(xiàn)在分子已沿著Cartesian坐標的X軸平移,并以320為中心,Cartesian框340已經旋轉一個角度(a,b,c)。須注意的是構象300怎樣旋轉和平移應用于所有原子中,這樣一個原子或見得相對位置針對另一個就沒有變化。
當限定一個構象時,一個坐標系統(tǒng)的限定用作表示原子和鍵的位置,其實這并不重要,因為構象是同組成原子和鍵的相對位置有關的,并要選擇適宜的坐標系統(tǒng)。但是在考慮到一個姿態(tài)時,坐標系統(tǒng)本身決定原子和鍵位置將怎樣描述包括其它分子子集甚至環(huán)境因數(shù)的所有分子組合的其它部分,進一步而言,坐標系統(tǒng)的選擇將決定旋轉和平移操作將怎樣受到限制,它們在給定的構象中將如何作用。典型的坐標系包括Cartesian坐標,圓柱形坐標,球面極坐標。一個典型的選擇是將Cartesian框添加到分子質量中心或質心上。
對于兩個不同的姿態(tài)可以有同一個構象但僅是它們的相對平移和旋轉不同,這一被認為不同姿態(tài)是由硬體平移造成的。另一方面,兩個姿態(tài)的不同僅是在構象方面,就旋轉和定位而言,并沒有什么差異(對于不同的兩個姿態(tài),Cartesian框添加到分子質量中心是相等的)。當然,考慮到坐標系統(tǒng),無論是構象還是平移和定位,兩個姿態(tài)可能是不同的。圖3c顯示氨甲蝶呤分子現(xiàn)是在不同的姿態(tài)中,這是由于構象及平移和定位都發(fā)生了變化,傳統(tǒng)上,涉及一個構象的平移和定位,總共有6個自由角,3個平移(替代質量的質心或中心)和3個定位(如Euler角)。
作為分子組合,在特定的環(huán)境中包含兩個或多個分子子集,其構象將用于描述所組成分子子集,所以在所選用的坐標系中,一個特殊的分子組合構象用可描述一組所有分子子集結構組成位置以及環(huán)境的所有因數(shù)。
圖4a是一個分子組合的構象,球和棒表征了化學醫(yī)療用藥物氨甲蝶呤400(配體)和一部分蛋白二羥基葉酸還原酶420(靶),它們是通過溶劑接觸表面實現(xiàn)的(標識為黑灰色);圖4b同一分子組合的另一種構象,對于同一個氨甲蝶呤配體400有不同的姿態(tài)440,對于靶蛋白420有相同的姿態(tài);圖4c也是同一分子組合有不同的構象,配體400和靶蛋白420各有不同的姿態(tài),值得注意的是活性區(qū)的“溝”是怎樣形成變化的,幾個活性區(qū)的殘基經重新整理后,其構象發(fā)生了變化。
當分析一個分子組合時,對于每一個相互作用的分子而言,有必要評估表征不同姿態(tài)的不同構象。作為一個例子,我們考慮圖4a到4c的復合物,我們可以假定蛋白質保持不變,配體假定有多種姿態(tài),我們還可進一步假定氨甲蝶呤配體將僅變化它的構象,在分析過程中,扭矩,鍵長,鍵角以及環(huán)的幾何構形都保持不變。
圖5是氨甲蝶呤配體的2-D球和棒示意圖,也為自由度描述扭矩作了注釋。505,510,515,520,525,530,535,540,545,550代表了所允許的扭矩自由度(其中兩個鍵570和575,它們連接三角平面氮基和雜環(huán)585,氨基鍵590被認為是固定的)。這產生了10個自由度以及關于靶蛋白的配體相對平移和定位的6個自由度。
在現(xiàn)在的例子中,在全范圍-180°-+180°內,扭矩值是以10°的間隔在-180°-+180°范圍內表示的,蛋白質體積大約是103,配體平移距離大約為0.5,描述定位的Euler角值為10°,因此組合的可能構象大于6×1023,因此很多姿態(tài)幾乎不可能或很少感到,因為配體之間和同蛋白質之間的空間沖突,姿態(tài)能量不合適,同時另外的同蛋白質并不靠近,無法形成有利的相互作用,但現(xiàn)在的例子將說明構象潛在的重要性。
當分析這一分子組合時,采用一種捷徑工藝但不評估可能的構象,但嘗試有效而智能地查找出可能的子集,在分析子集時假設同一個或更多潛在的鍵合模式相關的構象是相似的,當然還可給分子組合添加更多的構象復雜性,如一個很好的例子是自由度或蛋白質構象的變化,將進一步增加可能構象的數(shù)量,它們對應于同活性區(qū)殘基的側鏈相關的一個或更多的扭矩自由度。
特別是一組描述每一個不同個性的分子描述符可用于區(qū)分不同的構象分子,分子描述符包括如下內容,但不限于這些,a)化學描述符(如元素,原子,化學基團,殘基,鍵類型,混合狀態(tài),手性,立體化學,質子,氫鍵給體和受體能力,芳香化合物等);b)物理描述符(如表面電荷,部分電荷,質量,極化率,電離能量,特征尺寸參數(shù),如van der Waals[vdW]半徑,vdW井深,憎水性,氫鍵勢能參數(shù),溶解性,同鍵能和鍵幾何數(shù)值相關的平衡鍵參數(shù)等);c)幾何描述符(如原子坐標,鍵矢量,鍵長,鍵角,鍵扭矩,合時的結構環(huán)描述符,分子表面和體積描述符,如溶劑接近表面和溶劑排斥體積等);d)環(huán)境描述符(如溫度,pH,離子強度,壓力等)。
化學描述符基于一個或多個有機或無機化學定律或概念的應用,可表示化學結構,它規(guī)定了基本的結構信息,如元素類型,鍵連接(也就是最小是非氫原子連接),還可包括一些坐標信息。這些化學結構可儲存接受大量的信息符號,一個常規(guī)的信息符號是PDB文件,當然許多其它的文件也是可能的,一個完整的PDB文件格式描述可以在Westbrook等人的文獻中找到[53],當前可用于化學描述符適用的軟件包括從SYBYLTM版本到Tripos版本軟件,從ChimeraTM版本到UCSF版本軟件,WhatIf(用于蛋白質)軟件等,正確的化學描述符還包括手性中心補充輸入,立體化學或甚至包括環(huán)境因素,如pH值及其相關的電離態(tài)。
圖6a是采用pdb文件說明在圖5中說明描述的氨甲蝶呤配體構象的化學結構600,它包括首部610,有原子和坐標信息組成的部分620,鍵連接信息部分625。首部610可含有各種注釋或其它信息身份,源,分子特征及其組成;620部分列舉了一系列氨甲蝶呤的所有的33個非氫原子,對于每一個原子它包含有一個化學類型(如原子組成)以及三個空間坐標;例如,對于原子6,其鏈表明它是在MTX化合物(如果是蛋白質,就是殘基)的NA4氮原子,以及在特定的坐標體系的(x,y,z)坐標為(0.821,57.440,21.075),MTX化合物含有鏈A和1的化合物ID(或殘基)。值得注意的是在生物化合物中,化合物或殘基名域對于氨基或核酸而言可能更貼切。
625部分是PDB文件600,有時被稱作PDB文件的連接記錄,它是描述一系列同每一個原子有關的鍵。例如,這一部分的第一行表明原子1是同原子(2),原子(12)鍵合的,第二行表明原子2是同原子(1),原子(3)和原子(4)鍵合的,值得注意的在這一例子中氫原子已經失去,連接每一個原子的鍵并沒有完成。如果氫原子的位置已經確定,完成的不同PDB文件說明版本是可能的,但在很多情況下,化學結構是從實驗觀察得出的,氫原子的位置可能全都不自然或已失去。
圖6顯示了對于圖6a中描述的氨甲蝶呤輸入構象,Tripos mol2文件包含有不同的結構和化學信息,列630列舉了每一個原子的指數(shù),列633列舉了每一原子的原子名(可能并不唯一)。列635,637和639分別為在內坐標系統(tǒng)列舉的每一個原子x,y,z坐標軸。列640按照Tripos力場對每一個原子列舉了一個SYBYL原子類型[56],它可以整理混合狀態(tài),化合類型,氫鍵能量,芳香族化合物屬性,鍵連接和某些情況下的化學基。列642和645列舉了每一原子的殘基ID及其殘基名(適于蛋白質和核酸)。列650列舉了分子子集的所有鍵。691部分列舉了每一個鍵的鍵指數(shù);列652和653列舉了兩個原子由鍵連接的原子指數(shù);列655列舉了鍵的類型,它可能是單鍵,雙鍵,三鍵,移位的,氨基化合物,芳香化合物,或其它特殊共價鍵。在其它情況下,這樣的信息也表征非共價鍵,如鹽橋或氫鍵。值得注意的是在這一例子中已經包括了氫原子。
值得注意的是在這一例子中已經包括了氫原子(這種情況下,它們有合適的位置),這是化學使用化學描述符的結果,在這一實例中,所描述的原子類型包含有已整理的信息,如混合狀態(tài),化合類型,氫鍵能量,芳香族化合物屬性和在某些情況下的化學基。進一步而言,電離作用狀態(tài)可被原子類型和加氫作用共同推導出。其它的例子甚至還包括相關信息和單獨對。
物理描述符依賴于一個或多個化學描述符,并且典型地同原子和/或鍵相關,也可由化學基團和殘基等描述。物理描述符的價值在于可以參照一個或多個參數(shù)組,這個參數(shù)組是同分子機理力場如AMBER[40][41],OPLS[42],MMFF[43],和CHARMM[44]緊密相關的。一些物理描述符也可指定應用一個或多個分子模型軟件包,部分電荷可指定用Mopac[45]或AMPAC[46],如能量相互作用模型化的選擇將規(guī)定物理描述符的類型和形式,它是為每一個分子子集決定的,是為了計算給定分子組合的親合力。
圖6c顯示的一個包含有物理描述符子集的文件,它是為對應于圖5,6a和6b的氨甲蝶呤配體指定用于AMBER96力場(用于部分電荷選用Mopac v7.0)。660部分描述原子的物理描述符,它是同電荷(列662),質量(列663),vdW半徑(列664)和vdW井深(列665)相關,這一原子是原先列于圖6a的同一原子名(列661)。670部分描述鍵的物理描述符,它是同描述在圖5中的10個鍵扭矩相關。這兒列672,674,676和678表示廣義化Pitzer勢場的標準數(shù)值參數(shù),用于估算同二面變換相關的應變能。
幾何描述符是同一個或多個分子組合組成的結構描述相關的。這些幾何描述符包含但不僅限于坐標系或空間信息,如用點來表示原子的中心;矢量表示不同的化學鍵;面來代表不同的化學基團;球體來代表每個原子的范圍和放置;3-D表面用來表示溶質和溶液之界面;體積用來表示溶質的占有量;空間3-D方程用來在3-D體積格中(如探針格柵圖[26][31],圖解微積分的網(wǎng)眼等)表達分散的作用力或勢場,甚至常用的幾何函數(shù)也可用來描述結構,表面,以及體積(如Ritchie等人的球形諧波輻射方程),幾何描述符還可以包含一個或多個幾何變量(如角,扭度(torsion),長度等)用來表達不同姿態(tài)所允許的一個或幾個自由度,如在圖1中描述的一些構型自由度。
一些幾何描述符如點,矢量,面,及球是有自然中的表現(xiàn)形式,雖然它的量是隨著不同的參照關系變化的,而另外的一些幾何描述符如表面,體積,表圖可以有不同的表現(xiàn)方式依據(jù)不同貯存的要求,不同精度的要求,以及不同被表達物體的性質。例如,表面可以表達一個系列的面當量或基本表面斑(psch)的集合,體積可以表達為3-D量點的占有度或簡單幾何物體(球或多形體)的集合。
用來表述自由度的幾何描述符可以是連續(xù)的也可是離散的。這些幾何描述符可以有一個或幾個基本結構或能量上的限制;這些參數(shù)是隨著不同分子子集所選的內部參照系而變化的。這些幾何描述符對區(qū)分同一個分子或分子組合(如構型,姿態(tài),構象)的兩種不同的幾何構象是至關重要的。
幾何描述符是可以由輸入的結構數(shù)據(jù)中衍生出來的。如在表6b(及6a)描述輸入的氨甲蝶呤配體,結構的空間參照系。鍵矢量可以容易地從620部份中空間參照系以及625部份中的連接記錄中取得,鍵角可以從鍵矢量中獲得。扭曲的角度可以由一組連續(xù)的鍵矢量所決定的兩個面的數(shù)據(jù)中推算出來。
環(huán)境描述符要隨著前瞻性的分子組合位點而變的,環(huán)境描述符可能是隨著系統(tǒng)內不同位置而變的三維方程,故而要求選擇一個或多個合適的系統(tǒng)臨界值,對溶劑的選擇可以是直接說明的(如水偶極子的模擬[67][68][69]))或間接的說明(Generalized Born[62][63],Poisson Boltzmann方程[60][61]),對溶劑的選擇直接影響對任一分子組合分子的計算復雜性。
在下文中描述某一特殊分子構型的分子描述符稱為構型記錄。二種構型記錄包括分子子集的分子組合在同一物理環(huán)境中但至少有一個幾何描述符不同。包括不同的分子組合(在同一物理環(huán)境中)二種構型記錄被期待在一個或多個化學的描述符,物理的描述符及空間描述符上有所不同,一個分子的記錄是指構型記錄中描述一個分子子集的參數(shù)部份。
作為分析分子組合的開始,每個分子子集配有一傳輸入分子記錄,經常帶有對這個原子起始狀態(tài)的幾何描述。一個表現(xiàn)形式是起始姿態(tài)可以由輸入3-D(或有些情況是2-D)的化學結構中產生。這些輸入的結構一般由實驗產生或由以前分子模型的姿態(tài)和或構型分析中得到,例如以前分子模型和或構型分析包括蛋白模擬或能量構型最小化模擬分析(如分子動態(tài)模擬,隨機優(yōu)化等),或2-D至3-D的結構轉換工具(如CORINA[57]),在另外一些情況下,輸入的數(shù)據(jù)結構可以是隨機附值的幾何描述符,每個分子子集的起始姿態(tài)可能是通過隨機分派全體平移和/或定位變量而來的初始構象,一般來講,通過隨機優(yōu)化分析分子組合的方法經常需要在優(yōu)化開始以前給一個或幾個幾何描述符附值,在另外一些情況下,初始姿態(tài)是比照一個或多個輸入分子記錄,而這些分子記錄可能是從以前分子模擬個別子集(或用分子組合作用一個整體)作為循環(huán)程序的一部份。
處理一個分子庫時通常需要分析成百萬或上億的不同的分子組合,而每個分子組合又需要分析成百萬或上億的系統(tǒng)構象,作為有效的評估每個系統(tǒng)構象方法的部份,通常希望利用有效產生不同構象,姿態(tài)以及由此產生分子組合的構形方法,以及有效貯存分子及構象的記錄。
在某些情形下,有效地對系統(tǒng)構型結構的修正可通過應用一個或幾個幾何運算而完成。這些幾何運算通常是由一組幾何描述符而定的,通常而言,在分析分子組合過程中對不同分子構象訪問的順序及數(shù)目是由選擇尋找及優(yōu)化的方法來決定的,一種表現(xiàn)方式就是,所有訪問過的構象集合(可能是有序的集合)可以是由對初始構象而開始的,而初始構象包括一個或多個輸入分子記錄,它同每個分子子集相關的輸入結構相關,所選用的幾何操作就可以隨后用來產生一種或多種構象,或以串聯(lián)的方式(如Monte Carlo方案的狀態(tài)軌道)或以并聯(lián)的方式(如遺傳算法中的群體)在一種情形下,可以通過對一個或多個自由度變量的隨機變化來完成的,另一種表現(xiàn)方式可以通過對自由度變量進行集合或順序的轉換來完成(如在圖1中所表示的框架),在另一種情形下是基于遺傳算法中的溝通(crossover)操作,或模擬退火及Monte Carlo為基礎方法中的能量狀態(tài)不同的變異機率。
這種幾何運算的應用對幾何描述符作為分子記錄的部份以及帶有的不同構象的蘊藏有深遠的影響。例如,用貯存一個模板構象(初始或隨機構象中或其余顯著的變形)的參照系來取代在一種構象中每個原子的空間定位,再通過記錄代表模板構象通過一系列幾何操作,凈轉化特定感興趣的構象的相關幾何描述符的值。
作為一種范例,在一種情形下,用幾何描述符來代表圖2c中的構象,通過一個分別PDB記錄(或同等)用和圖b中構象附屬的原始PDB記錄可用兩個扭轉角度來代表鍵角235和237的轉化。就可以表示圖2c的構象而不用兩個單獨的PDB記錄,另外的表示方式就是直接貯存所有原子的參數(shù)。這種方法雖然可行,但如果沒有合適的幾何轉換直接貯存表面和體積參數(shù)(如對分析是必須的),則是是很昂貴的。
在一種情形下,對原子及鍵的物理描述通常是不起變化的,如果是在同一環(huán)境下不同構象,如果將這些物理描述符貯存在鎖住的表格中,并可以通過原子或鍵的目錄來檢索,這樣程序同單獨貯存重復的數(shù)據(jù)比就快捷多了。同樣的道理可以應用到簡化對化學描述符的貯存,應為同一分子組合中同一環(huán)境下的不同構象的化學描述符是大體不變的。
依據(jù)不同模擬方法的復雜程度,環(huán)境描述符貯存的要求變化很大,描述非直接溶劑模型的一組常數(shù)對貯存要求很小,而在直接溶劑模型對3-D函數(shù)的空間變化的表達對貯存的要求都是極大的。
在一種情形下,分子記錄可以貯存為一個或多個文件在一個記錄復制的貯存介質中,分子記錄也可以貯存于一個或多個數(shù)據(jù)庫中,也就是一個或多行數(shù)據(jù)在邏輯數(shù)據(jù)庫數(shù)據(jù)表中,或一個或多個實體數(shù)據(jù)庫中,構象記錄也可以通過簡單的集合代表每個分子子集的分子記錄,構象記錄還可以通過特殊的系統(tǒng)構型的評估面加以額外的輔助,如構型評價或其它量或質的測量。另一種表現(xiàn)方法中分子和構象記錄的數(shù)據(jù)表現(xiàn)作了加工以利于有效的數(shù)據(jù)存取。另一種情形是描述符數(shù)據(jù)(特別是幾何的和化學的)可存在一個或多個特殊的記憶內存依據(jù)Ahuja I所描述的分子表現(xiàn)分配,描述數(shù)據(jù)也可以存于很多標準數(shù)據(jù)結構中,如列、樹、堆、分塊表、方向性圖或其混合法以及如在分子圖型結構中討論的特殊記憶分配結構。
前面提到的測量結合親合力或結合能量是分析分子組合所感興趣的。結合親合力或結合能量的測量通常是由計算親合力的方程,親合力的方程體現(xiàn)了分子子集相互作用的性質以及其相互作用的環(huán)境,親合力方程代表了分子子集之間的相互作用,以及分子子集自身的相互作用,以及與其環(huán)境之間的相互作用,計算親合力方程是根據(jù)每一特定的分子組合構象,涉及各方面的分子描述符如關于分子組合化學的,物理的和幾何結構的描述符,可以包含多個分子記錄或單個構象記錄。在有些情況下,親合力方程可以是一個關于一個或多個能量的數(shù)學方程或評分,這些能量包括結合親合力,結合能,以及分子系統(tǒng)的自由能,在另外的一些情況下,親合函數(shù)可以代表其它量化的測量,包括但不僅限制于形狀互補性的測量,一種評分,一種QSAR預測,一個結合常量,或反應速率或可能性,在有些情況下,親合函數(shù)可以代表各種性質的測量,如分級,分類,或其它分類(如完全反應,高活性,低高活性)。
分子組合的親合函數(shù)通常由一個或多個親合組分組成,這些組分以某種方式復合疊加而得到一個親合力值或分數(shù),在某些情況下,親合組分由一種或多種相互作用類型,親合力公式,以及計算策略所決定的。
一種情況是組成親合力函數(shù)的組成是每一個組分加和,另一種情況是親合力的組成以一種線性方程整合在一起,也就是每個組分加權后再相加,而有些情況下,親合力函數(shù)是非線性的。
親合力的計算是因情況不同而異,有時親合力可以由其組成組分簡單相加而成;有時這些組成組分要進行線性整合,也就是加權后才能相加;有時這些組成組分是以非線性整合;有時親合力是判斷決定的,如親合力的一個組分只有大于某個閾值時才說是有親合力,在另外的一種情形,組成形式可以通過一組實驗測定親合力數(shù)據(jù)回歸分析后而得出,而在有些情況下,親合力可以由模式識別的方法來進行動態(tài)測量,這往往是由神經網(wǎng)絡或支持的矢量機械來完成的。
相互作用在這里是指一個或多個分子子集的一種物理或化學相互作用,這種相互作用發(fā)生在分子子集內(分子之內),或同其它分子子集(分子之間)以及與環(huán)境的組分(環(huán)境的)間。相互作用的類別本質上是熵性的,也可是焓性的,可以反映鍵合的和非鍵合的相互作用。
非成鍵的相互作用包括但不限制于靜電吸引力,隨時間變化雙極動態(tài)間的vdW(排斥力)近范圍的排斥存在于相互交叉的原子軌道,氫鍵,金屬離子間相互作用,和一個或多個有序水分子的相互作用。其它非鍵性相互作用包括一個或多個溶劑作用,如靜電脫除溶劑(包括自身反應領域極化效應,溶劑選擇在電介質中或溶劑基礎的離子環(huán)境),疏水效應,空穴能量以及表面張力。
成鍵相互作用的例子包括但不限于分子內張力,它同平衡鍵長,角,扭矩等的畸變有關,順反式之間或能量間隔,或手相改變能量差焓性的相互作用,包括在結合時或釋放有序水分子而獲得的有益燴值,其它外部的相互作用包括pi-pi重疊,電荷轉移,及其它量子機理現(xiàn)象。
親合力公式是指用能量模型來計算分子組合的一種構象的相互作用的近似值,一般來講,每種相互作用有很多不同的親合力公式或供選擇,選擇親合力公式可以影響對任何一種相互作用的量化近似過程中的錯誤范圍,選擇親合力公式也可涉及到不同水平的模型復雜性以及計算復雜性,一個親合力的公式可能需要評估一個或多個分子描述符,兩種不同的親合公式同時針對同一種相互作用,可能需要一個很不一樣的分子描述符,而其它親合公式可能共享許多分子描述符。
例如,靜電引力可以通過親合公式來模擬,它運用同距離相關的電介質函數(shù)修正的Coulomb’s定律(如文獻[59]描述),通過在選用合適的力場中將一組部分電荷分派給在每一組分子子集原子中心。另一個例子是靜電和靜電脫溶劑相互作用可以參照親合公式并結合Poisson-Boltzmann方程(線性或非線性)而建模[60][61],這種模擬是假設點電荷埋于溶質球體中,其大小由vdW半徑而決定的,溶質球體放置于一個水代表的同質雙極中介體中,并可能象Gilson等人描述的離子環(huán)境[58]。另一種模擬靜電引力的模型是通過量子機理的途徑來解決每個分子子集的電子基狀態(tài)[70],大多數(shù)情況下,用距離修正的Coulomb公式是計算起來簡單但不如Poisson-Boltzmann公式精確,更不用說和量子機理的公式去比了。
更進一步的例子是對vdW力的模擬,基于vdW力可以用親合力公式來模擬,親合公式既可以利用泛化后Lennard-Jones勢場,也可以用Ritchie等人的空間相互性評價[13]。氫鍵的相互作用可以參照親合公式來模擬,其中應用一個12-10的Lennard-Jones勢場及角加權的函數(shù),或也可以在Amber力場中用重新測定氫鍵供體和受體的部分電荷及vdW半徑[40][41]。疏水作用可以用Stouten等人[66]提出的分段體積方式來計算或者Eisenberg等人[64]提出計算溶劑表面可接觸公式來計算,由雙頭變化引起分子內張力可以參照親合公式運用Pitzer勢場或反Gaussian扭矩限制來模擬,另一例子是而不用Poisson Boltzmann公式,構象的靜電脫溶劑運用Generalized Bom近似法參照親合公式來模擬[62][63]。
這里所謂的計算策略是指用于估算一種或多種相互作用類型親合力公式的計算技術。計算策略的選擇是受到可以使用的計算機系統(tǒng),儀器,方法可供使用的計算機記憶內存,以及計算時間等多種因素的影響。
靶—配體之間靜電相互作用的親合力可以做為一個例子來說明不同的計算策略。同距離相關的電介質Coulombic親合力的公式可以通過直接相加的方法來計算。也就是說,對在蛋白質和配體中所有可能帶電荷的原子進行配對計算。如果一個配體有100個原子和一個有3000個原子的蛋白質進行配對計算的話。那么僅分子間距離就要配對計算300K,更不用說不同分子內的配對計算了。
另一種計算策略是替代使用探針格柵圖[26],運用靜電相互作用親合力公式進行近似,蛋白質上電荷的靜電電勢被評估并存儲于坐標系3D格中,以表示其在蛋白質中的位置。對在配體上的每個電荷相應的靜電勢場值可以從記憶內存或其它貯存裝置中取出,電荷和靜電電勢的乘積可以在配體所有電荷面累積,這種方法可以大大減少計算量,尤其是在針對一個靶蛋白質篩選一個配體庫時,這時很多種分子組合都帶有相同的靶蛋白但有不同的配體,當然,探針格柵圖近似需要很多貯存空間以便減少由勢場函數(shù)變異而帶來的數(shù)字錯誤。另外,這種近似方法也只適用于蛋白質上的電荷不隨不同構象而改變的情況。對于有彈性的結合區(qū)的靶蛋白可以采取一種混合的計算策略,用配對計算的方法來算蛋白質中活動的電荷源,同時用探針格柵圖的方法來計算蛋白質的其余部位,這是Luty等人提出的方法[26]。
一般來講,不同的計算策略可以用到不同相互作用類型的親合力的計算。從另一個角度來看,計算策略的選擇受到親合公式及相互作用用類型的限制,例如,用于計算分子間靜電相互作用的計算方法就很難用于計算分子內涉及鍵形成的側鏈部份相互作用。
除了基于配對(也就兩個原子之間配對)和圖及勢場(原子在一個勢場中的作用)的計算策略,還存在其它的計算策略。例如,評估Generalized Born溶劑模型是基于計算相對溶劑被排除的,體積的積分(Still等人[62]),或計算溶劑可接觸表面積的積分(Ghosh等人[63])。另一個例子是許多種成鍵的相互作用可以用一個翻遍一種貯存相關坐標和鍵描述符的可適的數(shù)據(jù)結構。
總的說來,親合函數(shù)是由幾個親合組分組成,這些組分代表了相互作用的類型,親合力的公式,以及計算策略。一個親合組成部份代表了一個或多個分子子集的整體或部份的相互作用,一個親合函數(shù)可能有多個同個作用類型親合組分。例如,兩個親合組分可以代表相同的作用類型,但有不同的親合力計算公式和它們的計算策略。對于任一分子組合,每個不同的分子構象可能產生不同親合組分的結果以及相關的親合函數(shù)。在一種情況下,分子組合的分析基于確定有最佳親合參數(shù)的構象,在另一種情況下,要同時考慮多個適宜于親合函數(shù)的量,對于描述一個或多個潛在結合方式的分子構象的親合函數(shù),幾個適宜于這個函數(shù)的參數(shù)要同時考慮。也有一些情況下,多個親合函數(shù)可用于計算一個或多個分子組合的構象,而后依據(jù)它們的結果來共同作為判斷或措施,諸如在針對靶位來篩選一個分子庫時,每個分子組合都進行小的有限分子構象的共性評價。
圖7描述分析分子組合的模擬系統(tǒng)700。圖示一個構象模擬器702接收一個或多個構象記錄706的輸入信號,這包括一個或多個分子子集,從輸入分子組合數(shù)據(jù)庫704中得到一個或多個分子子集的輸入結構的名稱及分子描述符。構象模擬器702包括一個構象數(shù)據(jù)轉換器708,一個親合力計算器709,及描述符數(shù)據(jù)存貯720,從構象模型器702得到的結果輸出為構象結果記錄而貯存在結果數(shù)據(jù)庫710中。
700模擬系統(tǒng)可用于測定,分析一個或多個分子組合。具體應用包括如下內容但,但不限于這些內容,預測潛在分子組合的可能性,以及與此相關的,評估環(huán)境中分子子集之間結合親合力或結合能;預測分子組合中分子之間結合模式(或其它可選擇的模式);根據(jù)靶生物子集和活性,把分子子集(如配體)優(yōu)先排列;還包括同計算配體與藥靶的嵌入和評價相關的一些用量。
在實際操作中,很多分子組合,每一個可表征很多不同的分子構象,代表不同構象的分子組合都可以模擬.因為所有可能的構象數(shù)目巨大,在模型過程中,700模擬系統(tǒng)可抽樣模擬。即使抽樣,抽樣子集依然很大(如每種組合的構象數(shù)還可能成千上萬),在此情況下,構象取樣的選擇方法也特別,可用一個或多個查詢/優(yōu)化技術(例如最陡降量,結合梯度,修正Newton法,Monte Carlo法,模擬退火,遺傳或模擬算法,完全抽樣,模樣配對,循序建檔,片斷放下和加入,等等)來決定構象抽樣方法。對每一個構象可用一個親合力函數(shù)評估,一個或更多構象結論可記錄在儲存介質中。
構象抽樣結果包括計算親合力函數(shù)值,可用來評估分子組合。如果按序進行,一個分子組合的計算完成以后,另一分子組合的模擬就可以開始。700模擬系統(tǒng)也可以同時模擬多個分子組合。依此類推,在按序模擬每個分子組合時,此系統(tǒng)也同時模擬多個構象。
700模擬系統(tǒng)既可用于專門微處理器ASIC或FPGA,也可用于同一主板上的多個微處理器ASICs或FPGAs,又可用于同一儀器的多個主板。此系統(tǒng)可用于連網(wǎng)的多個儀器,這些儀器含有一個或多個主板,每個主板有一個或多個處理器。
700模擬系統(tǒng)可包括一個或多個用于儲存各種分析中需要或產生的數(shù)據(jù)的存儲器。存儲器或與系統(tǒng)直接聯(lián)機,或與系統(tǒng)分開但連到同一網(wǎng)絡上。一個或更多數(shù)據(jù)庫或文件系統(tǒng)。與系統(tǒng)分開的存儲器的例子有數(shù)據(jù)庫或文件系統(tǒng)。如果700裝有多主板系統(tǒng),它還包含一個或多協(xié)助計算過程的軟件處理器。這些軟件處理器用于連接模擬系統(tǒng)700,或存在于網(wǎng)絡中某個地方。
在某些情形中,710數(shù)據(jù)庫的結果記錄可送到712構象選擇儀進一步處理,根據(jù)各項指標再篩選出一些分子構象,然后被再送到模擬儀702(可能在不同的工作狀態(tài)下)進一步分析(即,反饋周期)。在這種情況下,分子構象以714構象記錄形式輸入到702構象模擬儀中。
在另一些情形中,712構象選擇儀傳送新構象形成指令到構象數(shù)據(jù)轉化引擎,新構象隨后由702構象模擬儀模擬。比如,對每個藥靶配體組合,如果構象模擬儀模擬10個藥靶配體構象,其中兩個構象的親合力明顯比其它8個高,712構象選擇儀會為構象數(shù)據(jù)轉化引擎產生如何組建結構上與原來兩個高親合力構象相似的新構象(就是藥靶配體型狀)的指令,新構象隨后由702構象模擬儀其它的部分進一步處理。有時的指令是從新產生的構象組建,其它時候則由原始輸入構象組建。
在某些情形中,分子組合的分析一旦完成(即,所有預期的構象都被評價),組合后處理儀716可用來從710數(shù)據(jù)庫中篩選一個或多個構象結果記錄,并由此產生用于測量分子組合的定性或定量組合方法,例如組合分數(shù),組合總結,組合級別等等。這些組合方法然后被存放在分子組合組合結果數(shù)據(jù)庫718。有時,組合方法反映了710數(shù)據(jù)庫中擁有最佳親合力的構象記錄,有時,多個高親合力的構象被提交到組合后處理儀716,一組綜合組合方法被儲存在718組合組合結果數(shù)據(jù)庫。在一些具體應用,用于后處理儀716分子構象的選擇參照一個或多個界面值,或其它標準。
在進一步的情形中,分子構象可根據(jù)涉及結構多元化及相似性(例如,考慮構象之間的rmsd,采用基于結構的分組安頓戰(zhàn)略等等)的標準來選擇。另外,輸出到718組合結果數(shù)據(jù)庫的組合方法是根據(jù)對710數(shù)據(jù)庫的構象結果大數(shù)量的采樣進行各種各樣的統(tǒng)計分析而得來的。選擇采樣本身也可以采用統(tǒng)計方法(如主要內容分析、多維集群、多元回歸等)或模式匹配的方法(如神經網(wǎng)絡、支持向量機構等)。
在另一種情形中,儲存在718組合結果數(shù)據(jù)庫的記錄不僅僅包含有關的組合方法,還包括由后處理儀716選出的,部分或全部的,用來構成組合方法的,各式各樣的構象記錄。例如,718數(shù)據(jù)庫的記錄可代表分子組合的預測結合模式,或其它高親合力(可能不同結構)模式。
在另一種情形中,只要構象結果記錄存到710數(shù)據(jù)庫,后處理儀716就可動態(tài)地(就是同一時間)對構象結果進行組合分析。為了存儲按順序排列的分子構象,后處理儀716也可用于710數(shù)據(jù)庫里部分或全部的分子構象的排名。分子庫的篩選可能涉及許多不同的分子組合,為了節(jié)省存儲容量,一旦最后的代表702模擬儀所有的分子組合的組合結果記錄存入718數(shù)據(jù)庫中,710數(shù)據(jù)庫的部分或全部構象記錄就可被刪除。另外,垃圾收集或其它類似的方法可用來動態(tài)的從710數(shù)據(jù)庫中刪除低親合力的分子構象。
分子組合記錄數(shù)據(jù)庫704可包括一個或多個分子記錄數(shù)據(jù)庫(例如平面檔案,關系型數(shù)據(jù)庫,面向對象數(shù)據(jù)庫等),文檔系統(tǒng),對應于每個分子子集的輸入結構,由702模擬儀接受的分子記錄,以及相關環(huán)境的環(huán)境描述符。在模擬藥靶配體的分子組合中,組合記錄數(shù)據(jù)庫704由藥靶數(shù)據(jù)庫和配體(候選藥物)數(shù)據(jù)庫代替。藥靶數(shù)據(jù)庫記錄可由實驗結果(例如,X射線結晶,NMR等等)推導的,最小能量模型設計的3-D蛋白質立體結構。輸入配體分子紀錄代表能量減到最小或被隨機化的3-D結構,或其它由2-D化學表示法轉換而來的3-D結構,甚至是低能量配體的孤立采樣。有時,輸入配體分子紀錄是自然界存在的化合物,是可被或不可被合成的虛擬化合物。
分子構象轉化引擎708可根據(jù)幾何描述符進行各種各樣的幾何操作,把一個或多個分子構象轉變成新的構象。改造成新的分子構象變種由一個或更多一元操作(也就是,作用于一個輸入構象,例如遺傳算法的突變),二元操作(也就是,作用于兩個輸入構象,例如遺傳算法的交叉),或其它的多元操作(也就是,作用于多個輸入構象,比如基于分子構象群體的操作),或多種操作的組合完成。新變形的轉化過程可從一個分子構象產生多個新變種,譬如,用于遺傳算法的適當(通常是隨機的)初始群體的產生。有時侯,708轉化引擎不需要704組合數(shù)據(jù)庫的幾何描述符,可從頭建造一項或多項全新的分子構象,但其它類型的分子描述符仍是必要的。
如上所述,分子組合分析過程中轉化而來的分子構象可根據(jù)控制702模擬儀模擬過程的日程表或采樣計劃,由一個或更多搜索和/或優(yōu)化技術得來。搜索策略或優(yōu)化技術的應用是一個互動過程,此過程中,一個分子或多個構象可產生一個或多個新的分子構象,每個構象的親合力被計算,根據(jù)親合力和/或結構得出結論,然后部分或全部的新構象再作為下一周期的輸入種子,整個過程繼續(xù)直到702模擬儀完成一定數(shù)量的周期或達到其它匯合標準。從分子組合數(shù)據(jù)庫來的構象記錄706僅可用于開創(chuàng)(或從新開始)一個循環(huán)過程。
搜尋策略或優(yōu)化技術本質上也許是隨機的,這就意味著分子組合分析過程中被訪問的分子構象可能包含隨機的組分。因此在模擬對同一分子組合構象的不同運行,被訪問的分子構象也可能是不同的。運行指的是在同一個分子組合分析計算周期中兩個不同的起始。因此,分子組合后處理儀716可根據(jù)不同次運行產生的,存儲于710數(shù)據(jù)庫的構象結果作決定。
構象轉化引擎708可按序地產生新的構象,例如一個與Monte Carlo技術指定周期有關的新的狀態(tài),并按序地把它們傳給親合力計算器709。構象轉化引擎708也可以平行地產生多個新構象,比如一個遺傳算法周期里得到的群體,并平行地把它們傳給709親合力計算器。
有時,構象轉化引擎708沒有產生新的構象,構象模擬儀702僅采用704分子組合數(shù)據(jù)庫的輸入構象來模擬,模擬系統(tǒng)700用于分子構象的評分就屬于這類例子。在這種情況下,構象模擬儀702可以不包括搜尋或優(yōu)化策略,反而被用來演算構象輸入紀錄的親合力。
與一個指定的分子組合構象有關的各種各樣的描述符數(shù)據(jù),以一個或多個存貯(或記憶)分派手段、結構或用具,存放或記憶在720數(shù)據(jù)庫中,為702號構象模擬儀提供高效率的提取和存貯手段。描述符數(shù)據(jù)存儲720也包含與原子、結合鍵、小組,分子有關的化學或物理描述符,還包括與分子子集有關的環(huán)境描述符。
一個分子組合所有構象共同的描述符數(shù)據(jù)可由一個或更多查尋表里的存貯分派手段緊湊地代表。例如,一個分子組合不同分子構象的許多物理或化學描述符可能是一樣的,而它們的幾何描述符卻是不同的。
描述符數(shù)據(jù)存儲720可包含根據(jù)規(guī)定的存貯分派方法,以一個或多個存儲格式排放,與構象相關的幾何描述符。這類格式包括,但不限于,與pdb或mol2文件格式類似的記錄。其它的例子包括各種各樣數(shù)據(jù)結構,比如Ahuja I所敘述的,用來分割分子表示法的數(shù)據(jù)結構。其它可以用來表示原子和鍵的描述符的數(shù)據(jù)結構,包括序列或矩陣里的節(jié)點,或有向指示圖的節(jié)點和連線,部分或全部706輸入構象記錄,構象選擇儀712選出的714選擇構象記錄,可轉化成720描述符數(shù)據(jù)儲備的數(shù)據(jù)記錄。720描述符數(shù)據(jù)儲備里的數(shù)據(jù)體由708構象轉化引擎或709親合力計算器,由構象模擬儀720在計算周期的開設或運行中寫。720描述符數(shù)據(jù)儲備的布局和讀寫方式將由親合力計算器709和構象轉化引擎708的需要來決定。
親合力計算器709也許包括一個或更多處理(即,親合力)引擎,各個親合力引擎,依照早先定義的關于相互作用類型、親合力公式化和計算戰(zhàn)略,致力于一個或多個親合力組分的演算。有時,不同的親合力引擎被分配到各個獨特的親合力組分,有時一個或多個親合力引擎可處理有相同需要的多個親合力組分,其它的時候,為了提高預存貯計劃,減少各種數(shù)據(jù)通道對寬帶網(wǎng)數(shù)量或路徑的需求,不同的親合力引擎也許被編組或被安排在一起去利用共同的必需的輸入數(shù)據(jù)子集。
例如,在另一種情形中,靜電或范德華力相互作用,涉及使用存放的預先產生的探針柵格圖的實地運算戰(zhàn)略,這種相互作用的親合力組分可由同一個親合力引擎計算,也就是說,引擎要求能夠接觸到存貯的兩類型探針柵格地圖和用于評估與兩種不同作用有關的親合力方程的各種各樣的數(shù)字參量。氫鍵和范德華作用可由同一個親合力引擎計算。范德華作用使用親合力方程式來代表Lennard-Jones潛能,這種潛能是根據(jù)配對計算戰(zhàn)略得來的。同樣的兩個親合力組分也由由兩個不同的,但為了分享共同的輸入數(shù)據(jù)而組編在一起的親合力引擎來計算。共同的輸入數(shù)據(jù)包括與空間座標有關的數(shù)據(jù),和相關的化工或物理描述符。
典型的處置流程由一系列的處理單元或引擎構成,它分好幾步完成一項任務,就象工廠的裝配線。每個引擎接收輸入數(shù)據(jù)并用產生輸出。對于一個流程,每個處理單元的結果就是下一個處理單元的輸入數(shù)據(jù),也就是說,一個處理引擎的輸出體就是下一個處理引擎的輸入體。允許處理組分平行運行的流程更有效,如果每個輸入數(shù)據(jù)計算必需在下一個輸入數(shù)據(jù)運算開始之前完成。流程的第一個處理單元經常從儲存器,預存,或上游流程接到輸入數(shù)據(jù)。同樣道理,流程的最后一個處理單元把結果輸出到存儲器,預存,及下游流程。
流程的每一個處理單元同每個流程階段相關聯(lián)。流程階段間期定義為每流程階段所需要的,從輸入產生輸出的時間。流程階段間期以周期(或時鐘周期)為測量單位。周期指計算設備認可的基礎時間單位。周期通常由系統(tǒng)時間率(也叫時鐘周期)確定。
流程階段在流程階段間期的開始閱讀輸入數(shù)據(jù)。流程階段的輸入數(shù)據(jù)預計在階段間隔開始之后,而不是以前可供閱讀。同樣道理,流程階段輸出是在流程階段結束之后,而不是之前可被利用。如果流程階段由于早期階段的輸出而必須等待一段時間才能開始運行,此等待的時間叫流程空檔。在此期間,流程組分是閑置的,因為它已經產生上一組輸入的結果,但還沒有開始閱讀或處理由上游階段產生的另一組輸入。
潛伏期是流程中自然的一部分。潛伏期指第一處理組分接收到第一個輸入數(shù)據(jù)和最后處理組分產生第一輸出數(shù)據(jù)之間的全部時間間隔。潛伏期后,所有流程階段都正常地連續(xù)地處理數(shù)據(jù)。這時的流程達到了穩(wěn)定狀態(tài)。
一個被很好設計的流程,所選的流程間隔使流程空檔達到最小或可忽略不記。一旦流程達到穩(wěn)定狀態(tài),所有處理組分幾乎全被利用。要取得流程的最大利用率,可能需要更長的潛伏期和更復雜的系統(tǒng)構架,以使流程的不同階段更好的同步化。因此不同的輸入在任何流程階段都不互相影響。流程時間表在這里指在流程階段間期,哪個流程階段接受輸入數(shù)據(jù),作不通操作,把結果傳誦到流程下一階段的日程表。
平行流程指流程并肩運行,也就是說,當一個流程處理一套數(shù)據(jù)時,另外的流程同時處理相同的或不同的數(shù)據(jù)。每個流程的第一處理組分的輸入緩存器可以是獨特的,也可是交叉或共享的。同樣道理,最后處理組分的輸出緩存器可以是獨特的,是交叉的或共享的。通常情況下,每個流程的輸入數(shù)據(jù)是以數(shù)據(jù)塊的方式由數(shù)據(jù)路徑分配法或類似的方法傳送。這將在下文中描述。
兩個平行流程是同步的,如果每個流程在很大程度上同步,產生由相應輸入數(shù)據(jù)的得來的結果。在這里”很大程度的同步”指兩個平行流程的同步滯后是比較小的時間間隔,經常用(時鐘)周期單位來測量;同步滯后指的是快流程和慢流程輸出結果的時間間隔。兩個平行流程是完全的同步,如果同步滯后等于零,如果同步滯后,或以時鐘周期測量,或最慢的流程用于產生結果所需的時間相對值來代表都很小,這兩個平行流程被認為是幾乎同步的。
根據(jù)兩條流程設計的特點,同步的特性或許也適用單個數(shù)據(jù)塊,一組數(shù)據(jù)塊,或任何其它的部分。同步(完全的或近似完全)可根據(jù)平衡流程間的處理需要,進一步在流程內部平行作業(yè),或在快的流程內部引入小的潛伏期。但是后一個選擇會沒有效或產生副作用,詳細的同步范例將在下文提到,圖10中討論。
現(xiàn)在接著討論親合力計算器709,多個親合力引擎既可平行作業(yè),也可按序運行,或兩者兼而有之。在某些情形中,多個親合力引擎可排列成同步的平行流程,因此,每個引擎可以幾乎同時完成部分輸入數(shù)據(jù)的親合力計算。并且根據(jù)各種各樣的情況,在同一引擎計算的不同親合力組分也可按序或平行運行。
在某些情形中,為了在親合力引擎庫同時運行和完成親合力計算,尤其是同一流程的運算,引擎可能需要不同數(shù)量的邏輯門,線路,染色區(qū)或其它處理單元;也可有不同的構造,譬如不同的鐘頻,不同的存儲方案,不同的組分布局;甚至應用不同的媒介,比如FPGA,DSP,ASIC??偟膩碚f,親合組分的運算越大或越復雜,親合力引擎就需要更多的處理能力去和其它的引擎平衡。與此有關的內容將在下文說明圖9a,9b,和10中詳細討論。
根據(jù)親合力特定的存儲方法,親合力計算器709還可包括一個或多個,用于貯存與親合力引擎運行有關的特殊數(shù)據(jù)的,存儲組分。這可能包括柵格圖的存儲,以及與親合力組分相關的潛在函數(shù)的存儲。有的時候,親合力特定數(shù)據(jù)存儲也可包括數(shù)字參數(shù),常數(shù),一個或多個數(shù)學函數(shù)或表示查尋表。親合力計算器709也可包括合適的數(shù)據(jù)路徑分配法,用于評估和輸送這些特殊的親合力數(shù)據(jù),以及由構象數(shù)據(jù)轉化引擎708產生的構象數(shù)據(jù)。在某些情形中,這些數(shù)據(jù)路徑分配法有時也負責多個親合引擎運行的時間安排,或明確地平衡把特定大小的數(shù)據(jù)輸送到親合力引擎庫中,以維持(盡可能)流程同步性。
關于構象模擬器702,構象數(shù)據(jù)轉化引擎708,親合力計算器709,描述符數(shù)據(jù)儲存器720,更詳細的討論將在描述圖8時出現(xiàn)。
在某些情形中,構象結果記錄711包括有關用于構象評估的親合力函數(shù)的定量測量。這種測量,有時是一種分數(shù),有時是概率,有時是焓,有時是與自由能相關的各種各樣的熱力學參數(shù)值(就是,標準的,微量標準的,非常標準的),有時是藥效或活性的測量。構象結果記錄711可包括與親合力力函數(shù)有關的定性測量;在一種情形中,它指級別。在另一情形中,它指分類(強,弱,差等等),有時是簡單的通過失敗測量法,如有活性或無活性。
在很多情形中,構象結果記錄711還包括用于指定與親合力測量有關構象的本質和身份。除了代表相互影響的分子子集的身份和有關的化學物理描述符,它也可以用來附注或代表構象的集合狀態(tài)。如在前文對幾何轉換的討論,構象結果記錄,711可用來記錄一組幾何描述符,或與自由度有關的每個分子子集的狀態(tài)變量。這樣一組幾何描述符(可能與每個子集的樣板或參考輸入結構有關知識)可作為構象的標簽,從而區(qū)別已經被訪問的構象。例如,與兩個分子子集剛性體構象變化有關的6個自由度,這個特殊的值可用作適當?shù)臉嬒髽撕?在任何一個子集都沒有構型變化)。但是,如果用模擬系統(tǒng)700來給構象評價,只有親合力的測量是必須的。
構象選擇器712儀可以用親合力函數(shù)代表構象結構的幾何描述符,或其它描述符數(shù)據(jù)來篩選分子構象。構象選擇器712也可包括構象結果處理法,構象選擇法運用構象結果處理法對數(shù)據(jù)庫的構象紀錄進一步分析,這樣構象選擇法使用的選擇標準根據(jù)更多的處理結果做決定。為了把一些構象重新送到模擬器702作進一步的運算,儀器構象選擇儀712可用不同的標準對已經處理過的構象重新模擬。
在一種情形中,選擇標準可由是否高于界面值或其它定性測量手段決定。有些時候,它則基于一界面值或其它定量方法。另外的時候,儀器構象選擇儀712等到一定數(shù)量的采樣后,把這些構象按親合力函數(shù)排名,然后再選排在前面的X%,X代表0和100之間的數(shù)。
在另外一種情形中,選擇標準以定量界面值為基線,這個界面值是由對多個分子構象求平均數(shù),中間值,或其它的基于直方圖的統(tǒng)計運算而來。另外,構象結果處理法,以及篩選標準,可由對710數(shù)據(jù)庫里眾多的構象記錄進行統(tǒng)計學分析來決定。這些分析包括但不限于如下內容主要組分分析,多維整群,Bayesian過濾器、多維分布的回歸分析等;也可由對710數(shù)據(jù)庫里的記錄進行模式匹配分析來定,分析方法包括但不限于如下內容神經網(wǎng)絡,輔助媒介儀器,隱式Markov模型等等;還可以由構象分組來決定。構象分組把結構相似的構象分到同一組,并根據(jù)整群成員的親合力函數(shù)對每個整群成員進行排名和篩選。
在另一種情形中,其中構象模型702使用遺傳的或模擬的算法進行構象取樣,構象選擇器712可以檢查許多構象結果的記錄,它們代表了具有相應親合力測量的不同構象的群體,依據(jù)相對于其余的群體每一個構象的適合度申請一個選擇算符。在另一種情形中,其中構象模型702使用模擬退火或者Monte Carlo方法進行構象取樣,構象選擇器712可以檢查許多構象結果的記錄,它們代表了具有相應親合力測量的不同構象,使用親合力測量,依據(jù)一種或多種可能的分布作出選擇。
在一些情形中,構象數(shù)據(jù)轉換引擎708可以從構象選擇器712接收某些重新發(fā)送的構象,利用它們作為輸入,開始一個新的模型計算循環(huán)。一旦這樣做,依據(jù)重新發(fā)送選擇的構象記錄714,確保產生新一代構象(通過轉換或從頭開始構建)。例如,依據(jù)構象選擇器712的高親合力,從數(shù)據(jù)庫710被選擇出一個特殊的構象。為了更好研究分子組合那部分可能的構象群,構象數(shù)據(jù)轉換引擎708可以產生多個結構類似的構象(即類似但每個分子子集略有不同)。
在其它情形中,由選擇的構象記錄714的重新發(fā)送引起模型計算的新循環(huán),可包括在不同條件系或不同的控制參數(shù)系下構象模型702的操作。進一步的情形中,選擇的構象記錄714使用構象模型702的不同變量,包括使用不同親合力的計算器,或者同時使用不同搜索或優(yōu)化策略,開始新一輪的模型計算。
圖8解釋了構象模型702的更多細節(jié),與每一種情形相關的嵌入、評價或者分子庫篩選。
這里802指輸入構象記錄,它們或來自輸入分子組合數(shù)據(jù)庫或構象選擇器或者同時兩者,如圖7所描述的。輸入構象記錄802被發(fā)送到構象記錄轉換器804。構象記錄轉換器804轉換輸入記錄進入分子代表,它作為存儲方式使用,與一個或多個輸入描述符數(shù)據(jù)存儲器806相關。構象數(shù)據(jù)轉換器也負責分配所有丟失的或從輸入構象數(shù)據(jù)直接衍生的描述符。這里輸入描述符數(shù)據(jù)存儲器806分成四個單元,一個輸入化學描述符數(shù)據(jù)存儲器808,一個輸入物理描述符數(shù)據(jù)存儲器810,一個輸入環(huán)境描述符數(shù)據(jù)存儲器812,和一個輸入結構數(shù)據(jù)存儲器814。在一種情形中,假定相關的化學、物理和環(huán)境描述符在同一分子組合的不同構象間將保持不變,但是當分析一個新組合,描述符將更新。而且在一些情形中,在存儲器814輸入結構參數(shù)包含幾何描述符,描述每個分子子集的一個或多個初始態(tài),它將作為構象數(shù)據(jù)轉換引擎816的種子。
一個構象數(shù)據(jù)轉換引擎816存取儲存在輸入描述符數(shù)據(jù)存儲器806的數(shù)據(jù),產生一個或多個分子組合構象,構象數(shù)據(jù)存儲器818通過存儲分配法,存儲每一個構象,一種情形下,將獲得特征的專門的分子圖象數(shù)據(jù)結構,如Aguja I文獻曾經討論的與分子代表劃分相關的那些結構。注意到構象數(shù)據(jù)轉換引擎816,在構象數(shù)據(jù)存儲器818中,既可以讀也可以寫。輸入描述符數(shù)據(jù)存儲器806和構象數(shù)據(jù)存儲器818的四個單元構成已在圖7討論過的描述符數(shù)據(jù)存儲器(即720)。在一種情形中,輸入描述符數(shù)據(jù)存儲器806和構象數(shù)據(jù)存儲器818是將SRAM存儲器作為銀行工具來使用的。
一種情形中,構象數(shù)據(jù)存儲器818是作為包括一個或多個雙緩沖存儲器的工具來使用的,以便當其它數(shù)據(jù)在生成時,下游處理器能運行存儲的構象。而且一種情形中,相應于每一個分子子集的數(shù)據(jù),一個單獨的構象以固定的最大尺寸的數(shù)據(jù)塊形式被讀出或寫入到構象數(shù)據(jù)存儲器818中,確保有效率的路徑操作。此外,來自不同構象的數(shù)據(jù)塊以并行方式同時被讀出或寫入為了降低操作時間。
預期構象數(shù)據(jù)轉換引擎816,可讀回在存儲器818中包含一個或多個構象的一個構象數(shù)據(jù)子集,為了生成新的進一步的構象作為每一次搜索或最優(yōu)化策略,包含在部分轉換引擎816中。一種情形中,構象數(shù)據(jù)轉換引擎816也利用一個或多個隨機數(shù)發(fā)生器,以便構建或轉換構象作為每一次隨機搜索或最優(yōu)化策略。
一個親合力計算器820由多個組分組成,如圖8陰影部分所示。一個單元是數(shù)據(jù)路徑分配器821處理與中心處理器(或親合力)引擎826連接的多重數(shù)據(jù)路徑822的數(shù)據(jù)配置。數(shù)據(jù)路徑分配器821從構象數(shù)據(jù)存儲器818中記錄構象數(shù)據(jù),一些情形中,數(shù)據(jù)被從構象數(shù)據(jù)存儲器818中存取,以數(shù)據(jù)庫的方式類似于討論過的構象數(shù)據(jù)轉換引擎816所做的數(shù)據(jù)存取。
一種情形中,數(shù)據(jù)路徑分配器821以數(shù)據(jù)塊的形式分配數(shù)據(jù)到親合力引擎826。一個數(shù)據(jù)塊可包括選擇和再排列所有或部分數(shù)據(jù),這些數(shù)據(jù)與從存儲器818讀出的一個或多個構象數(shù)據(jù)塊相關。一個數(shù)據(jù)塊的結構(即在存儲器中包含什么數(shù)據(jù)和怎么排列數(shù)據(jù))可依賴于要被它的目的親合力引擎執(zhí)行的計算本質。一個數(shù)據(jù)塊可被發(fā)送到多于一個的親合力引擎上,以串行或并行的方式。一些情形中,數(shù)據(jù)塊可包含與不只一個分子子集、不只一個分子構象相關的信息。在其它情形中,數(shù)據(jù)塊可以很小,以致每一個數(shù)據(jù)塊只包含一個數(shù)值。兩個數(shù)據(jù)塊可包含常用信息,雖然可能被不同排列以滿足計劃中的親合力引擎的需要。為一個親合力計算器的不同單元制備的數(shù)據(jù)塊,可按照不同親合力組分的不同數(shù)據(jù)、帶寬要求,被區(qū)別處理和組織。一些情形中,一個或多個數(shù)據(jù)塊,依據(jù)數(shù)據(jù)路徑分配法規(guī)定的路徑表被傳送到親合力引擎。這里,數(shù)據(jù)路徑表是指數(shù)據(jù)塊到親合力引擎的傳送和路徑的時間表。一種情形中,數(shù)據(jù)路徑表類似于交通表,交通被數(shù)據(jù)塊所取代,道路被數(shù)據(jù)路徑所取代,目的地被親合力引擎所取代。一種情形中,數(shù)據(jù)路徑表本質上是與一個預調的主時鐘同步的。在另一種情形中,按照handshaking protocol的協(xié)議,數(shù)據(jù)路徑表本質上是異步的,其中一個親合力引擎能通知數(shù)據(jù)路徑分配器為下一次輸入數(shù)據(jù)塊準備好。
例如,考慮圖5的氨甲蝶呤配體,倘若蛋白質保持固定,氨甲蝶呤配體可變,依據(jù)6個剛體和10個轉動自由度,因為圖4a-4c標注的組合,它被估計有超過6×1023個可能的構象。盡管不切實際,但是它是可能的,構象數(shù)據(jù)轉換引擎816通過強力搜索產生所有6×1023個可能的構象,更可能的是構象數(shù)據(jù)轉換引擎816通過分子組合分析將決定產生可能構象群的一個子集,雖然這可能還包含了數(shù)百萬甚至數(shù)億的單個構象。
被評估的構象系可單獨提供給構象數(shù)據(jù)存儲器818,也可提供作為一個簇代表體現(xiàn)多個構象特征,多個構象將被數(shù)據(jù)路徑分配器821分離成一個或多個平行流,每一個具有序列數(shù)據(jù)塊的特征,并被安排和指定到下游處理器。例如,構象數(shù)據(jù)轉換引擎816可每次發(fā)送數(shù)據(jù)塊到構象數(shù)據(jù)存儲器818,其中數(shù)據(jù)塊代表來自100個構象的所有構象數(shù)據(jù)集合。然而,繼續(xù)此例,數(shù)據(jù)路徑分配器821可接著從存儲器818提取構象數(shù)據(jù)形成一個數(shù)據(jù)塊集,每一個數(shù)據(jù)塊包含一百個原子子集,原子子集來自于一個分子子集。另一個可選的例子,每一個數(shù)據(jù)塊可依據(jù)從已存儲在構象數(shù)據(jù)存儲器818中的10個不同的構象獲得的2個分子子集出發(fā),代表可達3個特定的一百個原子子集。
具有典型性的數(shù)據(jù)路徑分配器821將嘗試保持多重數(shù)據(jù)路徑822盡可能地完全充滿,通過并行發(fā)送數(shù)據(jù)塊到每一個親合力引擎。單個數(shù)據(jù)塊沿一條數(shù)據(jù)路徑傳送到它的目的地,親合力引擎的速度將依賴于與相應數(shù)據(jù)路徑相關的數(shù)據(jù)帶寬和目的地親合力引擎的處理器性能。一個或多個數(shù)據(jù)塊的排列、尺寸和時間表可以是動力學構象的,因此可以被調整作為具有不同分子子集特征的不同分子組合,或者作為相同分子組合的不同分析,例如與分子模型702的不同迭代循環(huán)相關。
在一些情形中,數(shù)據(jù)路徑分配器821,按照存儲分配方法,為了滿足目的地親合力引擎826,依據(jù)緊密的路徑時間表,沒有或較少的路徑延遲,可高速存儲一個或多個數(shù)據(jù)塊。在一種情形中,這樣一個高速存儲計劃,可依據(jù)SRAM具有一個或多個專用雙緩沖高速存儲器。在另一種變化中,另一種情形中,為了減輕潛在數(shù)據(jù)路徑安排問題,如可遇到構象模型的ASIC工具問題,一些或所有數(shù)據(jù)高速存儲器可使用文件寄存器作為實現(xiàn)方式。
數(shù)據(jù)路徑分配器821也與一個或多個專用親合力數(shù)據(jù)存儲器824聯(lián)系,它包括一個或多個親合力引擎826的專用數(shù)據(jù)。例如,親合力數(shù)據(jù)存儲器824可包含一個或多個勢場函數(shù)、探針格柵圖、占用三維網(wǎng)格等的數(shù)據(jù)表示。親合力數(shù)據(jù)存儲器824也可包含不同的數(shù)字常數(shù)、數(shù)學函數(shù)查詢表(例如多項式的、三角的、對數(shù)的或特殊函數(shù)查詢表),或其它親合力-特定的參數(shù)或表列函數(shù)。在一些情形中,親合力數(shù)據(jù)存儲器824可在DRAM中存儲大的數(shù)據(jù)構造(因為標準文件I/O可能很慢),而較小的數(shù)據(jù)單位象查詢表和參數(shù)可存儲在SRAM高速存儲器中。在一些情形中,數(shù)據(jù)路徑分配器821可包括一個或多個專用存儲控制器去控制在不同的高速緩沖存儲器或連接存儲器中的讀寫數(shù)據(jù)存取。
數(shù)據(jù)路徑822自身負責路徑安排和傳輸由數(shù)據(jù)路徑分配器821發(fā)送的數(shù)據(jù)塊到不同親合力引擎826中。在一些情形中,不同數(shù)據(jù)路徑可有不同帶寬,依賴于目的地親合力引擎的需要和傳輸數(shù)據(jù)塊的大小。
如以前所討論的圖7是關于親合力計算器709,親合力引擎826的銀行是一個處理器引擎的集合,每一個引擎致力于執(zhí)行與一個或多個親合力組分相關的親合力計算。在圖8中,親合力引擎826的銀行是由N個單獨的親合力引擎組成,分別標為827(第一個引擎)、828(第二個引擎)、829(第N個引擎),在那里省略號代表其它(N-3)親合力引擎,排列在828和829之間。在一種情形中,專用數(shù)據(jù)路徑到數(shù)據(jù)路徑分配器821連接每一個單獨的親合力引擎。每一個親合力引擎完成它的計算,結果被提供給一個親合力組分累加器830。在一種情形中,親合力引擎826的銀行操作并行接收分配的數(shù)據(jù)塊流,由數(shù)據(jù)路徑分配器821并行發(fā)送到數(shù)據(jù)路徑822的集合,這樣為評估所有構象,傳輸所需要的盡可能多的數(shù)據(jù)塊完成所有親合力組分的計算。
在一些情形中,每一個親合力引擎也可以包括一個或多個內存儲器以便合適地存儲來自數(shù)據(jù)路徑分配器821的一個或多個到達的數(shù)據(jù)塊。在一種情形中,這樣的內輸入存儲器可以是雙緩沖的讀寫,也可以是SRAN或文件寄存器或一些組合。
如前面所描述的圖7,親合力計算器709依賴于這種情形。圖8所示每一個親合力引擎可進行一個或多個相關的親合力組分計算或者可以反映親合力引擎群共享一個或多個公用的數(shù)據(jù)路徑和可能的一個或多個公用的內部輸入存儲器或它們中的部分,因此更有效地利用可得到的數(shù)據(jù)帶寬。在一些情形中,每一個親合力引擎826代表一個處理器路徑,由一個或多個處理階段組成,其中每一個階段在輸入數(shù)據(jù)塊的一部分按照緊密路徑時間表在路徑區(qū)間內執(zhí)行一套計算。
此概念被最好地解釋在圖9a,它顯示了一個親合力引擎900的總體示意圖,它致力于分別計算兩個親合力組分,與vdW和靜電作用以及使用場基計算策略相聯(lián)系。在這個例子中,親合力引擎可存取所有必要的勢場函數(shù)數(shù)據(jù)在探針格柵圖和DRAM中,如箭頭902所示。而且在這個例子中,親合力引擎也包括一個內輸入SRAM存儲器904,其保存的一個數(shù)據(jù)塊由一些采用探針格柵圖近似法被存儲的勢場影響原子組成。
在此例中,親合力引擎900的處理器被分成兩個不同的路徑906和914,分別為了vdW和靜電作用的路徑。每一個路徑由一個或多個處理單元組成,每一個相應于一部分計算(即路徑階段)。此例中vdW路徑有7個階段(標為907到913階段),靜電作用的路徑有4個階段(標為915到918階段)。此例中,所有與單個階段相關的處理單元在兩種路徑里以每次10個原子的數(shù)據(jù)塊計算它們自己的計算部分,接收來自前一階段的輸入,輸出中間結果到下一階段(當然除了第一階段和最后階段)。進一步,兩條路徑906和914將并行運行。
在描述兩條路徑的操作中,假設初始只有907和915階段并行工作在第一套10個原子的處理中。假設907階段首先完成,輸出數(shù)據(jù)到908階段,接著開始它自己的操作。同時907開始計算下一套10個原子。在一些點階段915完成第一套計算,把數(shù)據(jù)傳到916階段,接著開始它自己的操作,而915開始計算下一套10個原子。當每一個階段完成后,它發(fā)送數(shù)據(jù)到下一個階段,接著繼續(xù)它自己的運算到下一套10個原子的數(shù)據(jù)。一旦在每一個路徑中最后階段被完成,兩條路徑906和914的最后結果發(fā)送到一個合適的存儲器或累加器,如箭頭910和920所示。
假定有足夠多的10個原子的數(shù)據(jù)塊可利用來保持每一個路徑的穩(wěn)態(tài)運行,最終所有路徑階段在兩條路徑將被滿負荷操作。
典型的目標是設計路徑以這樣的方法,每一個處理器單元是滿負荷操作,運行在穩(wěn)態(tài),一直保持繁忙。在第一個階段的開始在一條路徑在第一套10個原子和第一套結果輸出的時間間隔,也相應于第一套10個原子,在同一條路徑來自最后階段,事實上路徑延遲出現(xiàn)在特殊的路徑上。
在圖9a親合力引擎900的例子中,為了保持路徑流處于穩(wěn)而滿的負荷操作態(tài),內輸入SRAM存儲器904可以是雙緩沖的,意謂著當10個原子的數(shù)據(jù)塊被從第一個(讀緩沖器)讀取作為當前數(shù)據(jù)塊的一部分,新10個原子的數(shù)據(jù)塊相應于下一個數(shù)據(jù)塊正在被穩(wěn)定建立在第二個(寫)緩沖器,以便一旦第一個數(shù)據(jù)塊被兩個路徑906和914全部處理完,第二個緩沖器準備運行,兩個緩沖器的讀寫指派被交換。在每一個路徑的初始階段,開始從新數(shù)據(jù)塊計算10個原子的數(shù)據(jù)塊。有許多其它高速存儲器的標準情形,將產生類似效率。
在一個親合力引擎的一些情形中,包括路徑,例如圖9a的906和914可并行操作,每一個可包括一個或多個專用處理單元諧調工作,在那里每一個專用處理單元在任意路徑可作為下列計算儀器的工具專用的微處理器,F(xiàn)PGAs,ASICs,硬盤,DSPs,或者它們中的任意組合。
作為在親合力引擎內路徑階段的另一個例子,考慮圖9b,描述了一個鍵-基親合力引擎950,計算與分子內應變能相關的親合力組分,應變能依照二次公式與健角變化相聯(lián)系,在那里Ebend=C1·Kθ·(θ-θ0)2·[1-C2·(θ-θ0)4],C1和C2是常數(shù),Kθ和θ0是由分子力學力場指派的物理描述符,根據(jù)包含的共價鍵類型,θ是由兩個相關的鍵矢量決定的夾角。在圖9b中,第一個路徑階段955使用加法器負責計算給定的成鍵電子對的(θ-θ0)的量值。第二個路徑階段960可能包含一個專用的乘法器得到(θ-θ0)2和第三階段970可依據(jù)第二階段960構造(θ-θ0)4。在這點上路徑可形成這樣的分支以便一個階段974計算C1·Kθ·(θ-θ0)2而其它階段978同時計算[1-C2·(θ-θ0)]4。來自兩個分支的結果可接著在最后一個具有乘法器980階段重新聯(lián)合起來,以便獲得一個給定的鍵對Ebend的最終值。而專用乘法器960階段乘以(θ-θ0)2獲得當前鍵對,專用的加法器950階段能計算隨后的電子對的(θ-θ0),等等。路徑階段按照計算容量和功率被分配以致當一個階段完成,下一個階段準備接收新的中間值。在此例中,具有乘法特征的階段,當與只具有加法的第一個階段相比,將在每個時鐘循環(huán)里需要更多的計算路徑。
路徑的情形,在圖9a(或9b)已經討論涉及單個親合力引擎,可推廣應用到構象模型作為部分和全部組分。例如,作為構象數(shù)據(jù)轉換引擎816完成產生一個或多個數(shù)據(jù)塊,發(fā)送它們到構象數(shù)據(jù)存儲器818,數(shù)據(jù)路徑分配器821可制備和傳送一個或多個數(shù)據(jù)塊沿著充分設計的數(shù)據(jù)帶寬的數(shù)據(jù)路徑822,到親合力引擎826的銀行,當構象數(shù)據(jù)轉換引擎816工作產生下一個構象數(shù)據(jù)塊。進一步當數(shù)據(jù)路徑分配器822緩沖或輸送到當前數(shù)據(jù)塊,親合力引擎銀行826可處理親合力組分,作為數(shù)據(jù)塊以前的循環(huán),同時接收當前數(shù)據(jù)塊進入輸入高速存儲器。在一些情形中,構象數(shù)據(jù)和親合力數(shù)據(jù)塊可以是特征數(shù)據(jù)來自不只一個子集甚至不只一個構象。存在許多不同的情形與具有不同的路徑策略作為模型構象,見圖8。
在親合力引擎的一些情形中,與每一條路徑相關階段的處理器資源,可被這樣分配以保證路徑是同步的,因此并行產生的結果作為同一部分的數(shù)據(jù),實質上同時已被定義為并行的路徑。例如再一次考慮圖9a描述的親合力引擎900,假定任一數(shù)據(jù)路徑的所有階段具有相同數(shù)量的計算特點。既然路徑906包含7個階段而路徑914只有4個階段,如果這兩個路徑階段具有相似處理器性能和容量,那么涉及靜電場基親合力組分處理的914路徑將比vdW基部分的906路徑較早地完成一套10個原子的給定數(shù)據(jù)的計算。
在一種情形中,兩個路徑運行較快的將等待一個時間間隔,此例中是914路徑,在完成當前數(shù)據(jù)段的計算開始下一數(shù)據(jù)段的計算前,此例中下一套10個輸入原子數(shù)據(jù)被處理時,要保證兩條處理器路徑同時(或幾乎同時)啟動下一套數(shù)據(jù)的計算。然而,這將意謂著兩條路徑中較快的那條將引入延遲,這樣也意謂一條路徑沒有滿負荷操作,因此比可能的效率要低。
在另一種情形中,多重路徑是通過平衡處理器要求,使每一條路徑保持幾乎或完全同步的。圖9a的此例中,這意謂著貢獻較多或較快的處理器單元到其它較慢的路徑。例如,一種情形中,假定兩條路徑的所有階段具有等價的計算性能,路徑906的處理器單元可調快時鐘1.75倍以保證路徑906的7個階段生成一個結果同時914路徑的4個階段提供的輸入數(shù)據(jù)段被兩條路徑同時收到。另外一個例子,另一種情形中,一個或多個包括在路徑906處理器單元可被設計每單元時間執(zhí)行更多的計算(例如,時鐘循環(huán)或等價的方法)以保證兩條路徑是同步的。在一個芯片或FPGA上執(zhí)行操作的情形中,這意謂著要貢獻較多的染色區(qū),較多的邏輯門,較多的處理單元等,到更多計算強度的路徑處理器單元。當然,另一種情形也包括在較少計算強度的路徑中減慢不同處理器單元的速度。這樣的情形在一個給定的親合力引擎中也可推廣到超過兩條路徑。
一旦一個或多個親合力組分在一個數(shù)據(jù)塊上計算的部分或全部結果,由圖8的單個親合力引擎827至829生成,這些結果被發(fā)送到一個親合力組分累加器830(圖8),即代表親合力累加法。親合力累加法負責完成一個或多個構象的親合力函數(shù)的評估即組分值的組成。在一種情形中,組分值的組成是包含每一個親合力函數(shù)組分的數(shù)均重量的線性組合。
如以前所討論的關于圖7親合力計算器709,在一些情形中(包括優(yōu)先選擇的)通過銀行826親合力引擎的平行操作是同步的,因此實際上同時發(fā)送數(shù)據(jù)到親合力組分累加器840。
在一種情形中,親合力組分累加器830可平行接收來自每一個親合力引擎的親合力組分的結果,可按如下方法操作相應于一個或多個同步數(shù)據(jù)塊的累加的親合力函數(shù)值,實際上被累加器830同時生成。在其它情形中,累加器830可包括一個或多個可選擇的雙緩沖輸入高速存儲器,以便累加器830可工作以路徑化方式處理與一個分子構象相關的組分數(shù)據(jù),同時親合力引擎工作在與下一個分子構象相關的下一部分的數(shù)據(jù)上。在其它情形中,親合力組分累加器830可并行累加一個或多個構象的親合力函數(shù)。
為了進一步舉例說明通過平衡每一條路徑的處理需要和多重路徑同步相關的不同情形,可見圖8單個親合力引擎類似于圖10描述的路徑,在那里制定的規(guī)定是為了平衡親合力引擎的處理需要與內部親合力引擎路徑相反,以保證當處理分子構象或組合時,每一個親合力引擎處于繁忙狀態(tài),或者減少延遲。
在圖10中,由數(shù)據(jù)路徑分配器1004代表的一個數(shù)據(jù)路徑分配方法,規(guī)定包括相關輸入數(shù)據(jù)的數(shù)據(jù)塊輸出到表示為1006和1016項的兩組親合力引擎中的每一個。此例中,第一組親合力引擎1006由兩個分離的引擎組成,進行分子間vdW(1010)和分子子集間氫鍵(1012)的作用的成對的計算。第二組親合力引擎1016僅由一個引擎組成,依據(jù)探針網(wǎng)格圖近似,進行分子間靜電力(1020)的作用的場基計算。
在此例中,一個累加方法由一套單獨的中間累加器1014、1022和一個最后的累加器1040組成,前者貢獻于每一組親合力引擎,后者構造全部的親合力函數(shù)值。所有的親合力引擎采用分配和累加方式在路徑中工作,這樣一個數(shù)據(jù)塊被處理,下一個數(shù)據(jù)塊傳輸至輸入每一組親合引擎指定的高速緩沖存儲器中。
在這個例子里,送到第一組親合器1006的單個的數(shù)據(jù)塊1002包含分子組合中每個分子子集上至100個原子相關的描述符數(shù)據(jù)。每個數(shù)據(jù)塊包含上至100個原子的相關描述符數(shù)據(jù),這100個原子是從分子組合的十個不同的分子構象中每個分子子集中得來(也就是說對于兩組100×10原子,每組代表一個分子子集),送到第二個親合器1016,一個單一的數(shù)據(jù)塊1003包含了相關的描述數(shù)據(jù)。每個數(shù)據(jù)塊包含分子組合的10種不同構象,上至100個非源性原子的描述性數(shù)據(jù)(非源性原子是指受到另外分子子集中一個電荷引起靜電場影響的原子)。
為了簡化在圖10中描述的例子,讓我們來假設一組親合器中每個親合器的計算成本是一樣的,(也就是說,vdw計算器1010和氫鍵計算器1012計算成本是一樣的),要完成數(shù)據(jù)塊1002的計算,分子間vdw器計算器1010和分子間氫鍵計算器1012要處理10×(100×100)對數(shù)據(jù),在這個例子中,對數(shù)據(jù)處理的由1012和1012處理的,處理器成本設為Q,總體成本就為NQ×Q,這里NQ=106是指在數(shù)據(jù)塊1002中處理的數(shù)據(jù)對要完成對數(shù)據(jù)塊1003的計算,基于場的靜電處理器1012要處理10×100原子,在這個例子中,讓每個原子在1020處理器的操作成本為P,這種總的成本就為NP×P,這里NP=103是指在數(shù)據(jù)塊1003中處理的原子數(shù)。
要使三個處理器所在大約相同時間內得到的輸入性數(shù)據(jù)(也就是說在親合處理器同步化,NQ×Q和NP×P就是近似平等相等,也就是說,它們之間的比率接近為1,一般來講,如果不采取特殊的措施,要且讓不同處理的負荷平衡是不可能的。例如Q=40時間單位(clock cycles),P=200鐘擺,NQ=106和NP=103,則第一組處理器要比第二組處理器慢200多倍。
要通過減少時間Q來而取得對原子在vdw處理器(910)和氫鍵處理器(912)中的結果可能是不現(xiàn)實的,因為這些處理是受到連續(xù)加和乘的步驟的限制,另外一方面,P是很容易增加的,而減緩親合處理器1020的速度,例如,P中的主要時間長在進入DRAM或等同的貯存器中收回靜電勢的數(shù)據(jù),那就親合處理器以1/B倍原始速度運行,這里B>1,也就是,要求第二組場基親合處理器就需要B*P循環(huán)而產生,然而,如在目前數(shù)字模型中B=10,就意味著第一組親合處理器1006總體上比第二組慢20倍。
另一種途徑是減少在第一組親合處理器1006總的計算時間。這可以通過用細微平行處理每組配對計算的流水線。讓我們假設每對計算所需的時間為Q,而Q是不易縮短的,但vdw配對親合處理器1010(以及氫鍵處理器1012)可能包括A>1個不同流程,每個流程取得一對計算的結果在Q鐘擺,這樣在Q鐘擺時間內可以處理A對原子,而在親合處理器1020只能處理Q/B×P個原子(B是前文中所提到時間減緩系數(shù),本例中引入親合處理器1020中),如果[NQ×Q/A]和[NP×B×P]的比率是1或很接近1的話,這兩個親合處理器就可說是同時化了,也就是兩個親合處理在大約基本相同的時間由處理完輸入數(shù)據(jù)而得到結果。
我們目前的例子中,如果Q=40鐘擺,P=200鐘擺,NQ=106和NP=103,那么設計親合處理器1016和1012時,每個包括20不同的平行流程,就會使兩組處理器在處理基本上同一時間由完成對每個組輸入數(shù)據(jù)的處理。(也就是說,同步化了的)。在另一個例子中,Q=25鐘擺,P=80鐘擺,NQ=106和NP=103,如果A=40,B=125的話,兩組親合處理器也就可以同步化了。
另種情形要涉及減緩流程中的每步和每個處理器采用更多的流程,為了更好地說明這些情況,讓我們來重新檢查以前提過的例子,與其是用A=40和B=125,我們可以讓A=80以及另外每一組親合處理器的流程中每一步的速度減慢一倍,而還能保持處理器之間的同步。在有些情況下,同樣的方法可用于一組處理器中的個別親合處理器以達到組類處理器之間的運行同步。一種情況是把類似的方法用于保持每個處理器或處理器組中的聚合器組的同步運行。
圖10描繪使親合器同步的一種情況。這里親和計算器709的組分可以完美地同步,也就是說沒有同步延遲,圖10也描繪了親和計算器709的組分,可以接近完全同步,也就是說各處理器幾乎在相同時間內完成對輸入數(shù)據(jù)塊的處理,在某些情況下,這種基本相同的時間可以等同于一個小于組1毫秒同步延遲的限量。因為對于計算不同分子子集的親和函數(shù)的計算平臺或儀器的話,期望其同步延遲小于1毫秒延遲是不太現(xiàn)實的,除非在建造和設計流程時采取措施的保證高忠實度的同步化。在某些情況下,基本相同的時間相當于一個小于或等于十個鐘擺的同步延遲限量,這是同計算平臺或儀器的基本時間單位相關的。而在另一種情況下,基本相同時間等同于小于或等于一個整數(shù)倍的整個流程階段,在一個多平行性流程中同步延遲限量,其一特例是這個整數(shù)倍可以小致為1,而一種情況下,基本相同的時間相當于完成由輸入數(shù)據(jù)塊得到結果的最慢的流程的一半。
回到圖8,通過多個親合器826,累積器830運行累積法,單個輸入數(shù)據(jù)塊可以強化親合結果產生的同步化。在另一種情況下,親合效果的同步化可以在流程的一部份,全部數(shù)據(jù)塊序列上強化,以用來完成對依賴于分子構象部份或整個親合組分的計算。而在其它情況下,結果的同步化是基于完成部份或全部某種分子組合的親合參數(shù),還有的情況下,同步化是在接收親合組分結果用來計算累積平均數(shù)時實行的。在某些情況下,這是由依據(jù)一個或多個計算組分動態(tài)分派數(shù)據(jù)傳輸?shù)念l寬和處理器資源和能力,來保持不同分子組合的不同分子子集之間的同步。
一旦一個數(shù)據(jù)塊累加的親合力函數(shù)值的部分或全部結果由圖8的累加器830生成,也受結果過濾器840的支配。結果過濾器840可根據(jù)輸入親合力函數(shù)值應用不同的決定或選擇標準,以決定特殊分子構象是否應該被存儲在結果數(shù)據(jù)庫圖7的710中。原則上,一個特殊的分子構象可證實沒有或較弱的鍵合親合力,這樣相應的分子構象不是進一步分析所感興趣的,故需要過濾掉這樣差的親合力構象。在一些情形中,結果過濾器可應用選擇標準,類似于已討論過的關于構象選擇器712的一個或多個情形。
前面討論過有關的一些情形,一旦構象結果被存儲在結果數(shù)據(jù)庫710中,一個構象選擇器712可用來選擇一個或多個構象,結果記錄再次發(fā)送到構象數(shù)據(jù)模型702作為迭代循環(huán)的一部分。具有這樣迭代循環(huán)的例子包括很多,但并不局限于下面列出的方法,構象數(shù)據(jù)模型702包括使用一個或多個搜索或優(yōu)化技術,如陡降法,共軛梯度法,改性的牛頓法,Monte Carlo,模擬退火法,遺傳的或隨機的運算法則,強力取樣法,模式匹配法等。
現(xiàn)總結包括迭代這樣的方法,在迭代循環(huán)開始,構象記錄被輸入到構象數(shù)據(jù)模型702,接著受一個或多個構象轉換支配以便生成一個或多個新構象。一套構象(可能由新的和舊的構象組成)接著受一個親合力計算器709的支配以便為每一個構象生成親合力函數(shù)。接著作出決定(例如過濾,選擇等)涉及產生的構象結果記錄和在當前迭代循環(huán)中評估的構象子集,它們被選擇和重新發(fā)送到構象數(shù)據(jù)模型702中,以便開始一個新的迭代循環(huán)計算。處理繼續(xù)直到滿足某些終止條件。終止條件包括達到一個預定的構象訪問量,取得一個預定的迭代數(shù),或者甚至取得親合力好于某一閾值的許多構象,但并不局限于這些方法。
如上面所討論的,搜索或最優(yōu)化策略的選擇表明構象取樣的方案或時間表(即構造新構象)的本質與構象選擇器712的特點。模型系統(tǒng)700能被使用來分析分子組合,其中兩個分子子集僅象每個硬體那樣,彼此相對移動,即6°自由度。關于兩個分子子集的相對轉換和取向,此例中,6°的自由度代表分子間的分離距離。第一個分子子集的三個Euler角(即,滾動角、螺旋角、偏航角)和第二個分子子集的兩個Euler角(即螺旋角、偏航角)。此例中,構象模型702利用的搜索策略是一個強力搜索,依照一個正常的取樣方案,取樣6維度的構型空間。
現(xiàn)在的例子是,假定任一子集的螺旋角和偏航角在單位球體的表面取樣,作為一套正常的間隔點,分子間分離距離在每個分子子集中心的連線上通過正??臻g間隔取樣,第一個分子子集的滾動角通過正常的空間間隔、以園的形式取樣。此例中,強力搜索策略將訪問和評估每一個狀態(tài)(或元素),上面提到的三個取樣方案生成的Cartesian的產品。假定50個徑向樣品點具有分離的距離,第二個分子子集包含翻滾角100個角度樣品點,和1千個樣品點成對的螺旋角和偏航Euler角,對于每一個分子子集,數(shù)量總數(shù)達到由構象模型702訪問的50億個構象。
最初泵入一個輸入?yún)⒖紭嬒螅l(fā)送到構象數(shù)據(jù)轉換引擎圖8中的818,按照取樣計劃,依次生成第一個取樣構象。此構象接著被發(fā)送到親合力計算器709去分析,此例中,有三個親合力引擎,并參照場基計算方法(如探針格柵圖近似,由第二個分子子集的源電荷建造),第一個引擎用于在兩個分子子集分子間靜電作用的計算,存在一個Coulombic能量模型。第二個引擎依據(jù)一個配對計算方法如一個12-6Lennard Jones勢場,用于兩個分子子集的分子間vdW的作用的計算。第三個引擎也依據(jù)一個成對計算方法用于一個修正的12-10的Lennard Jones勢場,致力于計算兩個分子子集間分子間氫鍵作用。
此例中,從每一個分子子集組成達到100個原子的數(shù)據(jù)塊,按照Ahuja I文獻的分子表示區(qū)分方法,然后發(fā)送到親合力引擎。在此例中有成對基引擎(第二個和第三個),每一個引擎偶爾收到2個數(shù)據(jù)塊,一個是每一個分子子集,而場基第一引擎只收到一個數(shù)據(jù)塊,代表在靜電勢影響下第一個分子子集達到100個原子,靜電勢由第二個分子子集生成。親合力引擎彼此并行操作,路徑涉及它們的內部計算與從數(shù)據(jù)路徑分配器821接收到它們的輸入,以及它們的親合力組分輸出到累加器830。進一步而言,它們是同步的,以致每一個數(shù)據(jù)塊的親合力組分結果被同時完成和發(fā)送到累加器830中,它們通過合適的每一個親合力引擎設計實現(xiàn)同步,以保證引擎銀行負載平衡的計算和帶寬容量。
此例中,親合力函數(shù)值在累加器830中累加,接著受結果過濾器840的一個定量的親合力閾值支配。一個傳輸值意謂著一個構象結果記錄將被存儲在構象結果數(shù)據(jù)庫710中。全部計算循環(huán)接著開始一個新迭代或計算循環(huán),其中構象數(shù)據(jù)轉換引擎還產生另一個新的取樣構象,一個親合力函數(shù)值被計算,親合力值的閾值和可能的結果被存儲。迭代工藝繼續(xù),直到所有取樣構象按照前面提到的強力取樣方案被訪問。結果數(shù)據(jù)庫710可進一步分析,為了確定具有高親合力的構象。親合力可代表兩個分子子集間有利的鍵合模式。
在此例的擴展中,代替每次操作一個構象,相應于此例情形的構象數(shù)據(jù)模型器可同時處理多重構象。特別相關的情形是表征搜索最優(yōu)化策略如遺傳算法,一個分子構象的數(shù)量由構象數(shù)據(jù)轉換引擎決定,在每一次迭代中應用交叉和突變算符構造相關數(shù)據(jù)。接下來數(shù)據(jù)被親合力組分引擎銀行所分析,為了產生合適的測量值,依據(jù)累加的親合力函數(shù)和構象選擇器712,應用不同選擇算符,以驅動構象數(shù)據(jù)轉換引擎進行下一次迭代。顯然這樣的例子容易擴展到相應于不同作用包括其它排列和類型的親合力引擎中。
總之,模擬系統(tǒng)700是一個高效率的用于計算存在與兩個或多個分子子集之間親合力函數(shù)的方法,它可作為對一個分子構象的分析一部分。分子組合的分析包括,但不限于,對潛在的分子配合物的形成的預測,對分子子集之間結合親合力或自由能的估計,對分子配合物結合模式的預測,根據(jù)生物活性對分子子集的優(yōu)先排列,并且包括與藥靶/配體銜接記分有關的應用。
模擬系統(tǒng)700包括用于分配一個或多個分子描述符到被抽樣的分子構象的輸入法,用于儲存數(shù)據(jù)的儲存法,用于計算一個或多個親合組分的親合處置引擎,通過多個數(shù)據(jù)渠道把一個或更多數(shù)據(jù)塊遞交給演算法的數(shù)據(jù)路徑分配法,積累各階段親合力函數(shù)的累積法。
根據(jù)各種各樣的具體情況,輸入可包括輸入分子組合數(shù)據(jù)庫(或等效的靶和配體數(shù)據(jù)庫),復試構象紀錄,以及轉換各種各樣的分子轉換法。存儲法包括一個或更多個用于存儲描述符數(shù)據(jù)(包括化學,物理,幾何學/結構,和環(huán)境描述符)的一個或更多存儲媒介(即SRAM,DRAM,記錄文件,等),或在一個或更多存儲介質設備(硬盤、記憶棒、計算機可錄的媒介,等)。存貯法還提供與親合力作用的演算有關各種各樣的數(shù)據(jù)存貯,包括數(shù)字參量、常數(shù)、函數(shù)查尋表,甚至柵格圖或與親合力組分有關的函數(shù)。
多元計算法包括一個或更多親合力引擎,每個致力一個或更多親合力組分的演算。在各種各樣的實例中,每個親合力引擎包括經營平行的一個或更多處理流程,每個處理流程接受沿多元路徑來的數(shù)據(jù)。在某些情形中,不同的親合力引擎也許被分配到各個獨特的親合力組分,在其它一些實例,一個或更多親合力引擎也許計算多種處理要求相似的親合力組分。在其它實例中,為了改進存儲并且/或者減少數(shù)據(jù)帶寬,不同的親合力引擎也許被編組或被安排在一起,所以它們可利用共同的數(shù)據(jù)塊。典型地,描述符數(shù)據(jù)以一個或更多數(shù)據(jù)塊形式被分配到每個親合力引擎,和被傳輸給每個親合力引擎按照數(shù)據(jù)路徑日程表及數(shù)據(jù)路徑分配法。在某些情形中,數(shù)據(jù)塊代表一個或多個各種各樣的分子表示法,這些表示法根據(jù)各種各樣的構建要求,包括記憶存貯,數(shù)據(jù)帶寬,發(fā)送和親合力處理要求,來修建和預定。個體親合力組分價值(或結果)通常由流程運輸方試傳輸給累積法。累積法包括一個或多個累加器,它致力于各個試樣的親合力函數(shù)計算。在某些情形中,計算法和累積法可平行處理多種構象。在別的實例中,輸入數(shù)據(jù)塊也許包括一個或多個分子構象的部分或所有分子子集的描述符數(shù)據(jù)。在其它實例中,一個或更多親合力引擎可致力處理各個分子子集,無論這分子子集是一個分子構象的全部或一部份。
在某些情形中,親合力演算法的處理引擎同步程度非常高,這樣,累積法在同樣時間里收到或預測收到各演算法的結果。如圖10所注明,此同步幾乎是完美的。更重要的是,同步意味著親合力引擎之間的滯后非常有限。幾個相關的例子已在圖10中說明。
對于大量的分子構象,700模擬系統(tǒng)分子組合的分析涉及分子子集的親和力函數(shù)的計算(如虛擬篩選,嵌入,評價等)。關于分子組合分析的實例,700模擬系統(tǒng)可包括基于一個或多個輸入?yún)⒖挤肿訕嬒蟮臉嬒螽a生法。在某些情形中,新的分子構象也可由更改各種各樣的幾何描述符的算符而產生。
如前所述,在某些情形中,構象模擬器702在模擬過程中,根據(jù)日程表或采樣計劃,可產生由現(xiàn)有的分子構象轉換而來的新構象。實例操作中,轉換包括用于遺傳算法搜索、優(yōu)化策略的一元及二元轉化,隨機生成(可能根據(jù)概率偏差分布)的用于Monte Carlo的狀態(tài)轉化函數(shù),或模擬的交合基的搜索或優(yōu)化戰(zhàn)略,或各種各樣影響分子剛體自由度的,分子及結構的變化。構形產生法可系列地(一個一個的)組建和傳遞演算法新的分子構象。構形產生法也可以同時組建多種分子構象和平行地把它們給遞交演算法。
就模擬系統(tǒng)700進一步而言,模擬系統(tǒng)700的實例也包括與分析分子組合相關的部分分子構象親合力函數(shù)計算。此系統(tǒng)也進一步包括用于存儲分子構象數(shù)字記錄的結果存貯法。這些數(shù)碼記錄包括一個或更多與分子構象對應的親合力函數(shù)。
另外,700也包括選擇法。此法根據(jù)選擇標準,從結果存貯法的記錄中選擇一個或更多構象。構象選擇法也可運用構象結果處理法對數(shù)據(jù)庫的構象紀錄進一步分析,這樣構象選擇法使用的選擇標準根據(jù)另外處理的結果做出的決定。各種具體的選擇標準及構象結果處理法已在上文描述就模擬系統(tǒng)700進一步而言,由分子構象選擇法選出的分子構象,可由分子構象產生法計算產生新的分子構象。用新選用的分子構象作為輸入,這些新的分子構象將構造出,新選用的分子構象再開始新的模擬循環(huán),進行構象模擬,構象選擇,反復重復,進一步篩選直到達到最終結果。用于分子組合分析的結構模型具體的循環(huán)操作已在前面討論。
在此,我們描述了一種用于分析和模擬分子組合的新系統(tǒng),此系統(tǒng)有效的運算兩個或兩個以上的化學分子多個構象之間親合力函數(shù)。本文描述雖然具體且沒有限制。許多的發(fā)明對于內行而言顯而易見。因此,本發(fā)明的范圍,不是針對上述說明來確定的,而是要參照以下所附權利要求書及其等值來確定。
權利要求
1.一種用計算機計算系統(tǒng)來計算兩個或多個分子結構之間親合力的方法把一個或更多分子描述符分配給分子子集,每個分子描述符代表一個分子子集;數(shù)據(jù)存儲與分子構象有關的分子描述符數(shù)據(jù);采用多種計算方法來表征一個或多個處理引擎,處理引擎是用于分子構象的一個或多個親合力組分的計算,每個引擎有一個或多個處理路徑;利用多種信息路徑,將描述符數(shù)據(jù)存儲器和計算方法連接起來,將描述符數(shù)據(jù)傳輸給多種計算方法;使用數(shù)據(jù)路徑分配法把描述符數(shù)據(jù)分配到多種數(shù)據(jù)路徑;使用積累法,把多元化計算方式得來的親合力函數(shù)結果積累。
2.如權利要求1所述的方法,其特征在于,親合力處理引擎的計算是同步的,積累在大致同一時間獲得或可望獲得上一步的結果,其輸入來自于大量的計算。
3.如權利要求2所述的方法,其特征在于,同一時間指同步差小于或等于1毫秒。
4.如權利要求2所述的方法,其特征在于,同一時間指同步差小于或等于10個系統(tǒng)時鐘周期。
5.如權利要求2所述的方法,其特征在于,同一時間指同步差小于或等于最大的路徑階段間隔時間。
6.如權利要求2所述的方法,其特征在于,同一時間指同步差小于或等于,處理預先決定的相當數(shù)量數(shù)據(jù),預計慢路徑所用時間與整個過程所需時間的比例。
7.如權利要求6所述的方法,其特征在于,同一時間指同步差小于或等于,處理預先決定的相當數(shù)量數(shù)據(jù),最慢路徑所用時間的50%
8.如權利要求1所述的方法,其特征在于,分子描述符包括一個或多個描述分子子集的化學描述符。
9.如權利要求1所述的方法,其特征在于,分子描述符包括一個或多個描述分子子集的物理描述符。
10.如權利要求1所述的方法,其特征在于,分子描述符包括一個或多個描述分子結構體的幾何描述符。
11.如權利要求1所述的方法,其特征在于,分子描述符包括一個或多個與分子結構有關的環(huán)境描述符。
12.如權利要求1所述的方法,其特征在于,兩個或兩個以上子分子子集代表一個或多個分子在其周圍環(huán)境,分子之間的相互作用,分子及其周圍的環(huán)境的相互影響,每個分子不同型態(tài)親合力函數(shù)的計算。
13.如權利要求1所述的方法,其特征在于,計算機系統(tǒng)用來分析分子組合,計算多元化分子結構的親合力函數(shù)。
14.如權利要求13所述的方法,其特征在于,系統(tǒng)進一步包括構象產生方法,此方法可以構造和/或傳輸,它是基于一個或多個參考構象創(chuàng)建造大量分子構象。
15.如權利要求13所述的方法,其特征在于,可平行進行多種組合親和力函數(shù)計算。
16.如權利要求13所述的方法,其特征在于,計算機系統(tǒng)還包括了用來儲存多個構象記錄(包括親合力函數(shù))數(shù)字數(shù)據(jù)的儲存系統(tǒng)的存儲手段,每個構象記錄對應于多個分子構象。
17.如權利要求16所述的方法,其特征在于,系統(tǒng)還包括一個系統(tǒng)構象方式的選擇,根據(jù)甄選標準從儲存結果中選擇一個或幾個分子構象。
18.如權利要求17所述的方法,其特征在于,甄選標準包括使用臨界值來劃分每個分子構象的親合力函數(shù)。
19.如權利要求18所述的方法,其特征在于,提到的臨界值隨多個親合力函數(shù)統(tǒng)計結果而變化。
20.如權利要求17所述的方法,其特征在于,選出有最佳親合力函數(shù)的分子構象。
21.如權利要求17所述的方法,其特征在于,分子構象紀錄由它們的親合力函數(shù)排列,排在前方的分子構象被選擇。
22.如權利要求17所述的方法,其特征在于,根據(jù)親合力函數(shù)的概率分布或其它依賴于親合力函數(shù)的其它函數(shù),每個分子構象都有相應的概率或適合參數(shù),且隨機地被選擇。
23.如權利要求17所述的方法,其特征在于,選擇構象記錄是基于親合力函數(shù),以及與其它分子構象結構相似性。
24.如權利要求17所述的方法,其特征在于,選出來的分子構象可以被再輸入到構象產生器中,其中一些分子結構的重新構象可能產生新的分子構象。
25.如權利要求24所述的方法,其特征在于,產生的分子構象可開始新的親合力函數(shù)計算和構象選擇的周期,此重復過程反復多次,直到達到一定條件。
26.如權利要求17所述的方法,其特征在于,構象選擇方式把一組如何由一個或多個儲存構象產生新的分子構象的指示傳輸給構象產生方式。
27.如權利要求26所述的方法,其特征在于,新的分子構象開始另一輪的親合力函數(shù)計算和構象選擇,此過程反復多次直到達到一定條件。
28.如權利要求1所述的方法,其特征在于,輸入方試根據(jù)預先測定的分子力學描述符或其它類似的化學描述符,指定一個或多個與分子構象相關的分子描述符。
29.如權利要求1所述的方法,其特征在于,數(shù)據(jù)路徑分派法通過多個數(shù)據(jù)渠道把一個或更多數(shù)據(jù)塊傳輸給計算手段。
30.如權利要求29所述的方法,其特征在于,數(shù)據(jù)塊大小由數(shù)據(jù)塊界限是否與分子的分界相符合來決定。
31.如權利要求29所述的方法,其特征在于,數(shù)據(jù)按計劃由多元化路徑傳送給計算方式。
32.如權利要求31所述的方法,其特征在于,數(shù)據(jù)路徑日程表是同步的。
33.如權利要求31所述的方法,其特征在于,數(shù)據(jù)路徑日程表也是不同步的。
34.如權利要求1所述的方法,其特征在于,作為分子組合分析的一部分,計算機系統(tǒng)可用于計算與大量的分子結構相關的親合力函數(shù),其中數(shù)據(jù)路徑分派法通過多個數(shù)據(jù)渠道把一個或更多數(shù)據(jù)塊遞交給計算法,其中數(shù)據(jù)塊可能包括來自不同構象部分數(shù)據(jù)。
35.如權利要求1所述的方法,其特征在于,儲積手段由多個累加器組成。每個親合引擎有一個專用累加器,以產生累積的中間值。一個分子構象的親合力函數(shù)由中間值累積而成。
36.如權利要求1所述的方法,其特征在于,計算法由多個親合引擎組成,每個親合引擎僅僅計算一個親合組分。
37.如權利要求1所述的方法,其特征在于,計算法由多個親合引擎組成,每個親合引擎僅僅計算一個和僅一個親合力相互作用類型。
38.如權利要求1所述的方法,其特征在于,計算法由多個親合引擎組成,每個親合引擎計算一個和僅一個親合力公式。
39.如權利要求1所述的方法,其特征在于,計算法由多個親合引擎組成,每個親合引擎計算一個和僅一個親合力計算方法。
40.如權利要求1所述的方法,其特征在于,計算法由多個親合引擎組成,每個親合引擎專用于一個分子子集的部分或全部計算。
41.如權利要求1所述的方法,其特征在于,計算機系統(tǒng)由一個或多個一般用途計算機組成,計算機包括計算機軟件執(zhí)行運算平臺,專用硬件,固件,或兩者兼而有之。
全文摘要
本發(fā)明描述一種高效的,用于計算兩個或多個分子構象之間親合力的計算方法和儀器。本方法采用多種平行路徑進行親合力函數(shù)計算,包括同步平行關系引擎,以期最大限度地利用現(xiàn)有的帶寬和數(shù)據(jù)處理能力的計算機系統(tǒng)。本方法更加進一步包括根據(jù)數(shù)據(jù)路徑日程表來分配分子描述符數(shù)據(jù)到各個親合力引擎。通過分子組合的分析,此方法也可用于大量分子構象的親合力函數(shù)計算。
文檔編號G06F19/16GK1886659SQ200480035190
公開日2006年12月27日 申請日期2004年10月14日 優(yōu)先權日2003年10月14日
發(fā)明者A·普拉卡什, D·科塔, E·福爾多 申請人:維頌公司