專利名稱:識別期望特異性序列的結(jié)合蛋白的合理設(shè)計的制作方法
識別期望特異性序列的結(jié)合蛋白的合理設(shè)計
背景技術(shù):
分子生物技術(shù)的長期存在目標(biāo)是設(shè)計和產(chǎn)生在選擇的DNA序列處特異性結(jié)合的 DNA結(jié)合蛋白的能力,而不是依賴于從自然鑒定的那些蛋白質(zhì)結(jié)合的有限組的DNA序列。 為此目的,與它們的DNA靶序列復(fù)合的大量DNA結(jié)合蛋白的構(gòu)建物已經(jīng)通過結(jié)晶學(xué)確定 (Lukacs, et al. Nat. Struct. Biol. 7 134-140 (2000),并且已經(jīng)確定賦予特異性 DNA 堿基 識別的氨基酸殘基(Pingoud,et al. Nucleic Acids Res. 29 :3705_3727 (2001))。然而,迄 今為止,合理設(shè)計實驗——其中特異性氨基酸殘基被改變以形成具有新的、預(yù)確定特異性 的DNA結(jié)合蛋白——沒有成功。例如,產(chǎn)生具有新的DNA識別特異性的限制性內(nèi)切核酸酶 的嘗試沒有實現(xiàn)它們的希望目標(biāo)。結(jié)果,已經(jīng)設(shè)計如此方法,該方法依賴于隨機改變DNA結(jié) 合蛋白,然后從隨機改變的蛋白質(zhì)庫中選擇可與不同DNA序列結(jié)合的那些蛋白質(zhì)。通常這 樣的嘗試產(chǎn)生如此的蛋白質(zhì),其結(jié)合相對于起始蛋白質(zhì)具有松弛特異性,或者與相似的、非 靶DNA序列相比,其對它們的靶DNA結(jié)合序列具有低的特異性。但是,合理設(shè)計結(jié)合蛋白的有效方法將允許擴大可被結(jié)合和作用以產(chǎn)生生物事件 的獨特識別序列的數(shù)目。
發(fā)明內(nèi)容
本發(fā)明的實施方式提供鑒定在結(jié)合蛋白的特定位置處的選擇的氨基酸殘基和結(jié) 合蛋白結(jié)合的識別序列中的模塊之間的關(guān)系的方法。該方法包括使用初始的結(jié)合蛋白在 BLAST檢索中查詢數(shù)據(jù)庫來產(chǎn)生結(jié)合蛋白組。每個結(jié)合蛋白的性質(zhì)包括限定的氨基酸序列, 在BLAST檢索結(jié)果中,在該組中的氨基酸序列對于大于200個氨基酸的序列具有小于e-20 的期望值(E)或?qū)τ谛∮?00個氨基酸的序列具有小于e-10的期望值(E)。另外,結(jié)合蛋 白與包含位置特異性模塊的底物中的特異性靶識別序列結(jié)合。該方法進一步包括比對該蛋 白質(zhì)組中的氨基酸序列。該組中結(jié)合蛋白識別的靶識別序列也被比對,其中該比對可通過 特異性靶識別序列中的位置依賴性特征進行。該識別序列中比對位置特異性模塊與結(jié)合蛋 白的比對氨基酸序列中一個或多個位置特異性氨基酸之間的相關(guān)性被鑒定。在本發(fā)明另外的實施方式中,提供通過使用該結(jié)合蛋白組的成員在另外的BLAST 檢索中查詢數(shù)據(jù)庫來擴大結(jié)合蛋白組的方法。在本發(fā)明另外的實施方式中,提供在該組中多個結(jié)合蛋白內(nèi)鑒定一個氨基酸殘基 或多個氨基酸殘基的類型和位置的方法,所述氨基酸殘基確定在識別序列中的一個或多個 位置特異性模塊的識別。氨基酸殘基的類型和位置可以連同與該結(jié)合蛋白組的一個或多個 比對的識別序列中一個或多個位置特異性模塊的相關(guān)性一起記錄在目錄中。該目錄可用于 合理地修飾比對的結(jié)合蛋白的氨基酸序列以識別改變的特異性靶識別序列。氨基酸序列的 合理修飾可通過在單一結(jié)合蛋白中的相關(guān)位置處非隨機地突變一個或多個氨基酸以引起 結(jié)合蛋白的特異性靶識別序列的可預(yù)測改變來實現(xiàn)。在本發(fā)明另外的實施方式中,提供這樣的方法,其中該組的結(jié)合蛋白成員具有已 知的的氨基酸序列,但是具有未表征的特異性靶識別序列。該方法包括通過下列步驟鑒定識別序列中的位置特異性模塊的步驟(i)檢查比對的結(jié)合蛋白組中結(jié)合蛋白成員的氨基 酸序列的比對;(ii)讀出在目錄中記錄的位置處的氨基酸殘基;和(iii)比較結(jié)合蛋白成 員中的氨基酸殘基與目錄中記錄的氨基酸殘基,以確定結(jié)合蛋白成員的特異性靶識別序 列。在一個另外的實施方式中,每個位置特異性模塊是DNA底物中的一個或多個核苷 酸。另外地,結(jié)合蛋白組可以是一組DNA結(jié)合蛋白,例如MmeI-樣蛋白。在本發(fā)明另外的實施方式中,提供了通過改變MmeI的氨基酸序列中預(yù)確定的一 個位置或多個位置處或MmeI樣DNA結(jié)合蛋白中一個或多個等價的比對位置處的氨基酸殘 基,來改變MmeI樣DNA結(jié)合蛋白的DNA識別序列的方法。作為MmeI結(jié)合蛋白中氨基酸修 飾的標(biāo)靶的預(yù)確定位置的實例是位置751+773、806+808、774+810、774、774+810+809和809 的任一個。這些預(yù)確定位置的改變可進一步包括在DNA識別序列的位置3、4和6的一處或 多處識別的一個或多個核苷酸的改變。本發(fā)明的實施方式提供產(chǎn)生結(jié)合蛋白的方法,所述結(jié)合蛋白識別合理選擇的識別 序列,所述方法包括使用蛋白質(zhì)組的成員蛋白質(zhì)的位點定向誘變在鑒定的與選擇的特異性 靶模塊識別相關(guān)的一個位置或多個位置處用第二氨基酸取代第一氨基酸。本發(fā)明的實施方式提供了自動化上述方案的方法,其包括在計算機可讀存儲器 中的數(shù)據(jù)庫中存儲結(jié)合蛋白的氨基酸序列和通過執(zhí)行儲存在計算機中的指令完成一個或 多個上述步驟。更具體地,提供了自動化在圖25A的方框1、2、3、4、6和7B中描述的一個或 多個功能的方法。提供了自動化圖25B中一個或多個步驟的另外的方法,以便需要濕法化 學(xué)的步驟通過與計算機相連的、能實施濕法化學(xué)的裝置實施。本發(fā)明的實施方式提供MmeI樣酶的組合物,所述MmeI樣酶具有導(dǎo)致在預(yù)確定位 置處至少一個改變的氨基酸殘基的突變,所述預(yù)確定位置具有對于DNA識別序列的特異 性,所述DNA識別序列與未改變的酶的DNA識別序列相比至少一個堿基不同。該至少一個 堿基不同可以是識別序列的長度不同,其對應(yīng)于從識別序列添加或缺失核苷酸,或?qū)?yīng)于 特定位置處的選擇性識別的核苷酸。本發(fā)明的實施方式提供包括存儲指令的存儲器和執(zhí)行指令的計算機的系統(tǒng),當(dāng)指 令被執(zhí)行時,其使用初始的結(jié)合蛋白在BLAST檢索中查詢數(shù)據(jù)庫而產(chǎn)生結(jié)合蛋白組,其中 每個結(jié)合蛋白具有限定的氨基酸序列,所述氨基酸序列對于大于200個氨基酸的序列具有 小于e-20的期望值(E)或?qū)τ谛∮?00個氨基酸的序列具有小于e_10的期望值(E);結(jié) 合蛋白與底物中特異性靶識別序列相結(jié)合,所述靶識別序列包含位置特異性模塊。另外地, 該系統(tǒng)可包括指令,當(dāng)執(zhí)行時,其比對結(jié)合蛋白識別的特異性靶識別序列;和比對該組的結(jié) 合蛋白的氨基酸序列。另外地,該系統(tǒng)可包括指令,當(dāng)執(zhí)行時,其鑒定識別序列中比對的位 置特異性模塊與結(jié)合蛋白的比對氨基酸序列中一個或多個位置特異性氨基酸之間的相關(guān) 性。該系統(tǒng)可進一步包括接收來自蛋白質(zhì)合成和蛋白質(zhì)結(jié)合分析裝置的數(shù)據(jù)并包含指令的 工具,當(dāng)其執(zhí)行時,所述指令使用該數(shù)據(jù),通過證實突變蛋白質(zhì)與預(yù)確定識別序列結(jié)合的預(yù) 測來確認(rèn)該相關(guān)性;和將該數(shù)據(jù)組織成在鑒定位置處確認(rèn)的一個氨基酸或多個氨基酸的目 錄,所述鑒定位置確定識別序列中模塊位置和類型的識別。在本發(fā)明的另一實施方式中,提供具有存儲指令的存儲器和執(zhí)行指令的計算機的 系統(tǒng),當(dāng)指令被執(zhí)行時,其(a)在第一數(shù)據(jù)庫中收集和比對結(jié)合蛋白的氨基酸序列的分選組,并且在第二數(shù)據(jù)庫中收集和比對至少所述結(jié)合蛋白的亞組的識別序列的分選組,其中 第一數(shù)據(jù)庫從氨基酸或核苷酸序列的第三數(shù)據(jù)庫的自動化檢索獲得;(b)鑒定該氨基酸序 列組中選擇的比對位置處的氨基酸和識別序列中選擇的比對模塊位置處的模塊之間的相 關(guān)性;(c)從蛋白質(zhì)合成和蛋白質(zhì)結(jié)合分析儀器接收關(guān)于相關(guān)性的數(shù)據(jù),以使用所述數(shù)據(jù), 通過證實突變蛋白質(zhì)與預(yù)確定識別序列結(jié)合的預(yù)測來確認(rèn)該相關(guān)性;和(d)將該數(shù)據(jù)組織 成在鑒定位置處確認(rèn)的一個氨基酸或多個氨基酸的目錄,所述鑒定位置確定在識別序列中 模塊位置和類型的識別。在本發(fā)明另外的實施方式中,提供具有存儲指令的存儲器和執(zhí)行指令的計算機的 系統(tǒng),所述指令存儲第一結(jié)合蛋白中的一個或多個氨基酸殘基的位置信息,進行靶向突變 以產(chǎn)生第二結(jié)合蛋白,所述第二結(jié)合蛋白在由所述蛋白質(zhì)識別的模塊的序列內(nèi)的序列位置 中具有預(yù)測的模塊改變。這樣的存儲指令的實例在圖7A中提供。附圖簡述
圖1示出了合理改變的MmeI E806K+R808D的切割活性。在圖IA中,泳道2-5示出合理改變的MmeI E806K+R808D酶對多種DNA底物產(chǎn)生 的切割模式。泳道2中的DNA底物是λ DNA,泳道3中-T7DNA,泳道4中-Τ3 DNA和泳道5 中-pBC4DNA。泳道 1 和 6 是 λ -HindIII+PhiX174_HaeIII 大小標(biāo)準(zhǔn)品。在圖IB中,泳道2-7示出合理改變的MmeI E806K+R808D對pBR322 DNA的切割 活性的作圖。泳道2-7是使用合理改變的MmeI E806K+R808D酶加下列單位點酶切割的 PBR322DNA 泳道 2-EcoRI、泳道 3_NruI、泳道 4-PvuII、泳道 5_NdeI、泳道 6-PstI 和泳道 7-僅合理改變的MmeI。泳道1和8是λ -HindIII+PhiX174_HaeIII大小標(biāo)準(zhǔn)品。在圖IC中,該圖顯示在pBR322 DNA中野生型MmeI位點、TCCRAC和合理改變的 MmeI E806K+R808D位點、TCCRAG的位置,連同用于作圖的酶的位置。圖 2 示出合理改變的 NmeAIII K816E+D818R 對 pBR322、PhiX 和 pBC4DNA 的作圖。 泳道2-5是使用合理改變的NmeAIII K816E+D818R酶加下列單位點酶切割的pBR322DNA 泳道2-EcoRI、泳道3-NruI、泳道4-PvuII和泳道5_PstI。泳道7_10是使用合理改變的 NmeAI 11 K816E+D818R酶加下列單位點酶切割的PhiX174DNA 泳道7_PstI、泳道8_SspI、泳 道9-NciI和泳道IO-StuI0泳道12-15和17是使用合理改變的NmeAIII K816E+D818R酶加 下列單位點酶切割的PBC4DNA 泳道12-AvrII、泳道13-PmeI、泳道14_AscI、泳道15_EcoRV 和泳道17-NdeI。泳道1、11和16是λ -HindiII+PhiX-Hael11大小標(biāo)準(zhǔn)品。泳道6是 λ -BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。圖3示出合理改變的Mme4GI =MmeI A774L的切割活性。在圖3A中,泳道2-5示出合理改變的MmeI A774L酶對多種DNA底物產(chǎn)生的切割模 式。泳道2是λDNA、泳道3-T7DNA、泳道4-T3DNA和泳道5-pBR322DNA。泳道7_11示出合 理改變的MmeI A774L對PhiX DNA的切割活性的作圖。泳道7_11是使用合理改變的MmeI A774L酶加下列單位點酶切割的PhiX DNA 泳道7_PstI、泳道8_SspI、泳道9_NciI、泳道 IO-StuI 和泳道 11-僅合理改變的 Mmel。泳道 1、6 和 12 是 λ-HindIII+PhiX174-HaeIII 大小標(biāo)準(zhǔn)品。在圖3B中,泳道2-8示出合理改變的MmeIA774L對pBC4DNA的切割活性的作圖。 泳道2-8是使用合理改變的MmeI A774L酶加下列單位點酶切割的pBC4DNA 泳道2_NdeI、泳道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-僅合理改變 的 MmeI。泳道 1 和 8 是 λ -HindIII+PhiX174_HaeIII 大小標(biāo)準(zhǔn)品。圖4示出合理改變的Mme4CI酶MmeI A774K+R801S的切割活性。在圖4A中,泳道2-4示出合理改變的MmeI A774K+R801S酶對多種DNA底 物產(chǎn)生的切割模式泳道2是λ DNA、泳道3-T7DNA和泳道4-T3DNA。泳道1和5是 λ -HindIII+PhiX174-HaeIII 大小標(biāo)準(zhǔn)品。圖4B示出合理改變的MmeI A774K+R801S對pBC4DNA的切割活性的作圖。泳道2_8 是使用合理改變的MmeI A774K+R801S酶加下列單位點酶切割的pBC4 DNA 泳道2_NdeI、泳 道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-僅合理改變的 MmeI0 泳道 1 和 8 是 λ-HindIII+PhiX174-HaeIII 大小標(biāo)準(zhǔn)品。圖5示出合理改變的Mme3GI酶MmeI E751R+N773D的切割活性。圖5A示出合理改變的MmeI E751R+N773D對pUC19DNA的切割活性的作圖。泳 道2-6是使用合理改變的MmeI E751R+N773D加下列單位點酶切割的pUC19DNA 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-僅 MmeI E751R+N773D 酶。 泳道 1 是 λ -HindIII+PhiX-HaeIII 大小標(biāo)準(zhǔn)品。泳道 7 是 λ -BstEII+pBR322-MspI 大小 標(biāo)準(zhǔn)品。圖5B示出合理改變的MmeI E751R+N773D對pBR322DNA的切割活性的作圖。泳 道2-6是使用合理改變的MmeI E751R+N773D加下列單位點酶切割的pBR322 DNA 泳道 2-EcoRI、泳道 3-NruI、泳道 4-PvuII、泳道 5-PstI 和泳道 6-僅 MmeI E751R+N773D 酶。泳 道 6 是 λ -HindIII+PhiX-HaeIII 大小標(biāo)準(zhǔn)品。泳道 1 是 λ -BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。圖5C示出合理改變的MmeI E751R+N773D對PhiX DNA的切割活性的作圖。泳道 2-6是使用合理改變的MmeI E751R+N773D加下列單位點酶切割的PhiXDNA 泳道2_PstI、 泳道 3-SspI、泳道 4-NciI、泳道 5_StuI、泳道 6-僅 MmeI E751R+N773D 酶。泳道 1 是 λ -HindIII+PhiX-HaeIII 大小標(biāo)準(zhǔn)品。泳道 7 是 λ -BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。圖5D示出合理改變的MmeI E751R+N773D對pBC4 DNA的切割活性的作圖。泳道2_8 是使用合理改變的MmeI E751R+N773D酶加下列單位點酶切割的pBC4DNA 泳道2_NdeI、泳 道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-僅合理改變的 MmeI。泳道 1 是 λ -HindIII+PhiX-HaellI 大小標(biāo)準(zhǔn)品。泳道 8 是 λ -BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。圖6示出合理改變的Mme6RI :MmeI E806G+R808G(+S807N)的切割活性。圖6A示出合理改變的MmeI :E806G+R808G(+S807N)對pUC19DNA的切割活性。泳 道2-5是使用合理改變的MmeI E806G+R808G(+S807N)加下列單位點酶切割的pUC19 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI。泳道 1 是 λ -BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。泳道6是λ -HindIII+PhiX-HaeIII大小標(biāo)準(zhǔn)品。圖 6B 示出合理改變的 MmeI :E806G+R808G (+S807N)對 pBR322 和 PhiX174 DNA 的 切割活性。泳道2-5是使用合理改變的MmeI E806G+R808G(+S807N)加下列單位點酶切割 的pBR322 泳道2-EcoRI、泳道3-NruI、泳道4-PvuII、泳道5-PstI。泳道7-10是使用合 理改變的MmeI E806G+R808G(+S807N)加下列單位點酶切割的PhiX174 泳道7_PstI、泳道8-SspI、泳道 9-NciI 和泳道 IO-StuI。泳道 1 和 11 是 λ -HindIIΙ+PhiX-HaeIII 大小標(biāo)準(zhǔn) 品。泳道7是λ -BstEII+pBR322-MspI大小標(biāo)準(zhǔn)品。圖 7 示出合理改變的 Mme6BI 酶MmeI E806G+R808T 對 pUC19、pBR322 和 PhiX DNA的切割活性。泳道2-6是使用合理改變的MmeI E806G+R808T酶加下列單位點酶切割 的 pUC19DNA 泳道 2-Eco0109I、泳道 3_PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-僅 MmeI E806G+R808T酶。泳道8_12是使用合理改變的MmeI E806G+R808T酶加下列單位點酶切割 的 pBR322DNA 泳道 8_ClaI、泳道 9_NruI、泳道 IO-NdeI、泳道 Il-PstI 和泳道 12-僅 MmeI E806G+R808T酶。泳道14-18是使用合理改變的MmeI E806G+R808T酶加下列單位點酶 切割的PhiXDNA 泳道14-PstI、泳道15-SspI、泳道16-NciI、泳道17-StuI和泳道18-僅 MmeIE806G+R808T 酶。泳道 1 和 13 是 λ -HindIIΙ+PhiX-HaeIII 大小標(biāo)準(zhǔn)品。泳道 7 禾口 19 是 λ-BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。圖8示出合理改變的Mme6NI酶MmeI E806W+R808A對噬菌體ΦΧ DNA的切割活 性。泳道2-4和6-8是使用合理改變的MmeI E806W+R808A酶加下列單位點酶切割的噬菌體 ΦX DNA 泳道 2-PstI、泳道 3-SspI、泳道 4-NciI、泳道 6-StuI、泳道 7-BsiEI 和泳道 8-僅 MmeI E806W+R808A 酶。泳道 1 和 9 是 λ-Hindlll+PhiX-Haelll 大小標(biāo)準(zhǔn)品。泳道 5 是 λ -BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。圖 9 示出合理改變的 SdeA6CI 酶SdeAI K791E+D793R 對 pUC19、pBR322 和 PhiX DNA的切割活性。泳道2-6是使用合理改變的SdeAI K791E+D793R酶加下列單位點酶切割 的 pUC19DNA 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-僅 SdeAI K791E+D793R酶。泳道8_12是使用合理改變的SdeAI K791E+D793R酶加下列單位點酶切 割的 PBR322DNA 泳道 8_EcoRI、泳道 9_NruI、泳道 10-PvuII、泳道 Il-PstI 和泳道 12-僅 SdeAI K791E+D793R酶。泳道14-18是使用合理改變的SdeAI K791E+D793R酶加下列單位點 酶切割的PhiXDNA 泳道14-PstI、泳道15-SspI、泳道16-NciI、泳道17-StuI和泳道18-僅 SdeAIK791E+D793R 酶。泳道 1、13 和 20 是 λ -HindIII+PhiX-HaellI 大小標(biāo)準(zhǔn)品。泳道 7 和 19 是 λ -BstEII+pBR322-MspI 大小標(biāo)準(zhǔn)品。圖10示出在該組的已表征成員的識別序列比對中每一位置處觀測到的DNA堿基。圖IOA在左圖示出含有MmeI作為成員的組(MmeI-樣組)的已表征成員的DNA識 別序列比對。這些識別序列包括BsbI酶,該酶的DNA識別序列和切割位置是已知的,但是 對于該酶,氨基酸序列還沒有確定。右圖示出在DNA識別序列比對中每個位置識別的多種 DNA堿基或堿基組合的計數(shù)。圖IOB在左圖示出MmeI-樣組的20個成員的識別序列的比對。右圖是位置限定 的堿基頻率圖,其示出在該組的已表征成員的識別序列比對中在位置3、4或6處觀測到的 DNA堿基。20個酶的19個識別第六個位置處的G或C。圖IlA示出與在識別序列比對中在位置3、位置4或位置6處的DNA堿基識別相 關(guān)的氨基酸的部分密碼。例如,為了改變該組的成員中比對的識別序列的位置6處的識別, 與MmeI E806和R808相應(yīng)的氨基酸序列比對中的位置是將氨基酸突變?yōu)榫幋a的可選氨基 酸殘基之一以重新設(shè)計DNA堿基識別的靶標(biāo)。例如,將密碼E+R在這些比對位置處插入 MmeI-樣組的成員將引起該酶識別在該酶的識別序列的位置6處的C堿基。隨著組成員增 加,密碼可被擴大,并且檢測它們的氨基酸取代在DNA識別序列特異性方面的變化。
圖IlB示出在比對的氨基酸序列(SEQ ID NOS :64_82)內(nèi)鑒定的位置和占據(jù)這些 位置的氨基酸殘基,其在比對的DNA識別序列中位置3、4或6處確定識別。比對上方的數(shù) 字表示識別序列中的位置,對于該識別序列,該氨基酸位置確定被識別的DNA堿基。酶名稱 和識別的DNA序列被示出。在比對的氨基酸序列之前的數(shù)字表示在該酶的氨基酸序列內(nèi)列 出的第一個氨基酸殘基的位置,而在氨基酸序列行后面的數(shù)字表示在該酶的序列中列出的 最后一個氨基酸殘基的位置。圖12示出SEQ ID NOS 100-131 (MmeI-樣組)的氨基酸序列比對,其中在表征為 確定在識別序列中位置6處識別的位置——其不同于已知的DNA堿基識別決定因素,氨基 酸殘基被鑒定。DNA識別序列未被表征的組的成員包括在該比對中。兩個箭頭表示鑒定出 的位置,其在位置6處(在該缺口 CLUSTALW比對中為位置1073和1077)確定DNA堿基的 識別。有四個序列——其被加下劃線,其中觀測的氨基酸殘基對不與存在于該組的任何先 前表征的成員中的堿基對相匹配。這些位置特異性堿基對是天然發(fā)生的變異,它們是用于 引入已表征的酶的靶標(biāo),作為在靶向DNA堿基識別位置處改變該已表征的酶的特異性的工 具。將兩個觀測的不同的對——GXS (兩次發(fā)生)和G(N)G——引入已表征的酶Mmel,并且 研究所形成的合理改變的酶的DNA識別特異性(參見圖6)。圖13示出進行改變的相關(guān)位置的優(yōu)先化。進行改變以變化該組成員的特異性的 第一優(yōu)先級是在比對中在該位置存在的氨基酸殘基和在查詢的識別序列比對中的位置處 識別的DNA堿基之間顯示出1 1相關(guān)性的那些位置。上圖示出SEQ ID NOS 132-150的氨基酸序列比對,其相對于識別序列比對的位置 6排序,其中在包括MmeI R808的比對位置處(箭頭所示)的殘基與在位置6處識別的DNA 堿基一一相關(guān)。在該位置,識別C——胞嘧啶——的所有酶都具有精氨酸殘基——R,并且 識別G——鳥嘌呤——的所有酶都具有天冬氨酸殘基——D0下圖具有兩個箭頭,一個鑒定上述1:1相關(guān)的位置,第二個指出第二高得分的位 置。該第二位置盡管不是1:1相關(guān)的,但是仍然與位置6處的DNA堿基的識別在統(tǒng)計學(xué)上 顯著相關(guān),如在圖14中所示例的。另外,在識別C的8個酶的7個中和識別G的10個酶的 9個中,該位置處的氨基酸殘基與上述1 1相關(guān)的位置處的殘基共變化,這表示該位置可能 與1:1相關(guān)的位置聯(lián)合來識別所討論的堿基位置。該位置成為進行變化的第二最高優(yōu)先 級,并且可連同第一最高優(yōu)先級位置進行合理改變以實現(xiàn)DNA識別特異性的期望改變。圖14示出對與在比對的識別序列的位置6處堿基識別相關(guān)的氨基酸比對中一個 位置的X平方計算。對于X平方計算,形成一張由行和列組成的表,所述行是所研究的識 別序列比對中該位置處識別的每種不同DNA堿基,所述列是在氨基酸序列比對中給定位置 處存在的每種氨基酸殘基。這里,這樣的表由三行和五列組成,其中每一行是在識別序列比 對的位置6處識別的DNA堿基模式——C、G和R,而每一列是在氨基酸序列比對中查詢位置 處存在的氨基酸殘基。該查詢位置是與MmeI位置E806比對的位置。在該位置處存在的氨 基酸殘基的計數(shù)被顯示。表中計算的χ平方值是38。在該表中存在8個自由度。所得到 的概率值P為0. 0001,這小于0. 05的顯著性的截斷值。該結(jié)果表示,該氨基酸位置與DNA 識別序列比對的位置6處的DNA堿基識別顯著相關(guān)。圖15示出在位置6處比對的DNA識別序列與氨基酸序列比對中兩個位置之間的 相關(guān)性。
在左圖中,比對的DNA識別位點被分組成9種酶——其在位置6具有C,然后是10 種酶——其在該位置具有G,然后是1種酶——其在該位置具有R。在右圖中,MmeI樣組的十九種酶的氨基酸序列的一部分被比對以顯示如此區(qū)域, 在該區(qū)域中在位置6處識別的DNA堿基和在比對的蛋白質(zhì)序列中存在的氨基酸殘基(一種 或多種)之間觀測到相關(guān)性。箭頭表示鑒定的兩個相關(guān)的氨基酸位置。它們相應(yīng)于MmeI 的E806和R808。在缺口比對的位置R808處示出在氨基酸和在位置6處識別的DNA堿基 之間具有1 1對應(yīng),使得每當(dāng)酶識別C堿基時,在該位置具有精氨酸——R,而識別G堿基的 那些酶在該位置具有天冬氨酸殘基(D)。識別R——其是G或A——的酶也在該位置具有天 冬氨酸(D)。E806位置不具有完全的1:1對應(yīng),這是由于生物學(xué)靈活性允許多于一個氨基 酸殘基與位置R808的精氨酸聯(lián)合以識別C堿基(在這種情況中,為E(谷氨酸)或T(蘇氨 酸)),或者與位置R808的天冬氨酸殘基聯(lián)合以識別G堿基(這里為K (賴氨酸)或G (甘氨 酸)),或者與位置R808的精氨酸聯(lián)合以識別R(A或G),其在此是D殘基。正好在該識別R 的酶PspOMII中的該天冬氨酸殘基之前,也具有三個氨基酸殘基插入。圖16-1、16-2和16_3示出通過從該組先前鑒定的成員開始的BLAST檢索可擴大 序列組。這里,SpoDI氨基酸序列被用作查詢序列(query)。BLAST檢索的結(jié)果顯示,通過初始BLAST檢索鑒定的相關(guān)蛋白質(zhì)的組的成員可被 用作查詢序列,用于接下來的BLAST檢索。在這種情況下,從MmeI作為查詢序列開始的 BLAST檢索中鑒定的序列,ref | YP_167160. 1“假設(shè)蛋白質(zhì)SP01926”,被用作查詢序列以進行 接下來的BLAST檢索。使用在ncbi BLAST服務(wù)器的blastp程序的缺省參數(shù);http://www. ncbi.nlm.nih. rov/BLAST/0應(yīng)用該組的不同成員作為BLAST查詢序列導(dǎo)致鑒定出數(shù)個另 外的組成員。例如,當(dāng)使用MmeI序列起始檢索時,通過嚴(yán)格的E < e-20的閾值(E = 5e_17, 圖18-1、18-2和18-3),從該組排除ref I YP_511167. 1〃假設(shè)蛋白質(zhì)Jarm_3225〃序列,但是 當(dāng)使用該組的“SP01926 “成員作為查詢序列進行BLAST檢索時,顯示該Jarm_3225序列是 該組的成員,對于這種情況中,返回的期望值是E = 3e-65。通過檢索該組可被擴大,其中該 組的多個成員用作查詢序列。因為期望截斷值(expectation value cut off)是嚴(yán)格的, 所以該組將不會無休止的擴大,而是將僅僅擴大到包括比從單一起始序列檢索可發(fā)現(xiàn)的更 多的相關(guān)組的成員。圖17示出列出15種不同DNA堿基或DNA堿基組合的DNA堿基識別表,所述DNA 堿基可以在DNA識別序列內(nèi)任意給定位置處被識別。圖18-1、18-2和18-3示出當(dāng)MmeI氨基酸序列被用作查詢時鑒定與MmeI高度相 似的序列組的BLAST檢索結(jié)果。使用在ncbi BLAST 服務(wù)器 http //www, ncbi. nlm. nih. rov/BLAST/ 的 blastp 程 序的缺省參數(shù)。鑒定97種蛋白質(zhì)序列具有E < e-20的期望值E。一個這樣的序列—— ref|YP_167160. 1“假設(shè)蛋白質(zhì)SP01926"——在該檢索中返回E = 6e_47的E值。作為實 例,所述組的該成員可用于接下來的BLAST檢索,以擴大該相關(guān)蛋白質(zhì)的組。這樣的檢索可 通過鑒定總體上與該家族相關(guān)、但是正好與用于第一個BLAST檢索的序列距離遠(yuǎn)到足以使 它們返回恰好在初始檢索的截斷閾值之外的期望值的蛋白質(zhì)來擴大該組。加下劃線于這樣
的序列——ref|YP_511167. I"假設(shè)蛋白質(zhì)Jarm_3225〃--〖合好落在使用MmeI氨基酸序
列進行的檢索的截斷閾值之外,但是當(dāng)通過使用該組的不同的成員"SP01926"序列檢索擴大時,其被包括在該組中(圖16-1、16-2和16-3)。圖19示出通過相關(guān)的DNA結(jié)合蛋白的MmeI樣組的20個已表征成員識別的DNA 識別序列的比對。該比對相對于共同的功能進行。從酶識別的雙鏈DNA選擇用于比對的單 鏈?zhǔn)沁@樣的鏈,該鏈在識別序列3'端被切割。然后,在功能保存的位置5處的共同腺嘌呤 堿基周圍錨定比對,因為其是通過酶的甲基轉(zhuǎn)移酶活性修飾的堿基。圖20-1到20-11示出對該相關(guān)的DNA結(jié)合蛋白的組的19個已表征成員使用算法 PR0MALS 形成的 SEQ ID NOS :42、6、10、4、2、40、8、14、18、12、16、26、34、38、36、20、44、24 和 22的氨基酸序列比對,所述結(jié)合蛋白的識別序列在圖19中示出。圖21示出氨基酸序列比對中比對的位置的X平方計算。X平方值是下列的所 有觀測值(表中的位置)的和((觀測的頻率減去期望頻率)平方)除以期望頻率)。構(gòu) 造列聯(lián)表,其中對于在被查詢的DNA識別序列比對內(nèi)該位置處識別的每一 DNA堿基使用一 行。這些行是通過與在檢查的識別序列比對中該位置處觀測的一樣多的不同DNA堿基觀測 的DNA堿基(Bobsl)。對于在檢查的氨基酸序列比對中給定位置處觀測的每一氨基酸殘基 使用一列。這些列從通過與比對位置處觀測的一樣多的不同氨基酸殘基觀測的第一氨基酸 殘基(AA-obsl)標(biāo)記。觀測的頻率是識別的DNA堿基在比對位置處氨基酸殘基的計數(shù)。期望頻率是觀測 發(fā)生的列的和乘以觀測發(fā)生的行的和,再除以所有觀測的總數(shù)。然后,該表用在氨基酸序列比對中給定位置處存在的氨基酸殘基的觀測計數(shù)填 充,將氨基酸殘基計數(shù)置于與DNA堿基相應(yīng)的行中的具體列中,所述DNA堿基由其中該氨基 酸殘基存在的結(jié)合蛋白識別。從該表計算觀測計數(shù)的X平方值。通過比較X平方值與X平方統(tǒng)計表,獲得X 平方值的統(tǒng)計學(xué)顯著性(P-值),其中自由度等于[(列數(shù)減1)乘以(行數(shù)減1)]。如果 P-值小于預(yù)先設(shè)定的閾值(0. 05是缺省值),該算法報告該氨基酸比對位置與DNA識別序 列的查詢位置顯著相關(guān)。對DNA識別比對的每個位置連同氨基酸識別比對的每個位置重復(fù)分析。圖22示出鑒定氨基酸序列比對中的位置和在該位置的具體氨基酸,其參與識別 Y類N6A DNA甲基轉(zhuǎn)移酶組的比對的DNA識別序列中的第三位置。該圖示出該組成員的 DNA識別序列的比對,其錨定在位置5處的甲基化腺嘌呤靶的周圍。蛋白質(zhì)的比對氨基酸序 列的一部分被示出(SEQ ID N0S:83-99)。每一蛋白質(zhì)的具體氨基酸坐標(biāo)在每種酶的序列 的前面和后面表示。與位置3處所述酶識別的DNA堿基顯著相關(guān)的比對中的位置通過方框 表示,并且在比對上方用“ 3 ”標(biāo)記。圖23A-23N示出具有不同的DNA識別序列的酶的部分列表。針對每一識別序列, 列出在起始酶的序列背景中產(chǎn)生這些酶需要的位置特異性氨基酸。具體而言,描述了用于 識別列出的DNA識別序列的起始蛋白質(zhì)的氨基酸序列內(nèi)的位置和在那些位置需要的氨基 酸。為了使用化學(xué)作用產(chǎn)生在左列中提供的任何特異性,考慮右側(cè)的列,并且如果需要改 變在列出的位置處的氨基酸,那么通過在規(guī)定位置處合理地改變圖的頂部列出的起始蛋 白質(zhì),引入改變。圖23A-23N提供具有下列列出的識別序列的起始酶MmeI (SEQ ID NO 2)、NmeAIII (SEQ ID NO 14)、SdeAI (SEQ ID NO :6)、CstMI (SEQ ID NO : 12)、ApyPI (SEQ ID NO : 18)、PspRI (SEQ ID NO :10)、AquIII、(SEQ ID NO :42)、DrdIV(SEQ ID NO :36)、PspOMII(SEQ ID NO 34)、RpaB5I(SEQ ID NO 26),MaqI(SEQ ID NO 38),NhaXI(SEQ IDNO 24), SpoDI (SEQ ID NO 20)和AquIV (SEQ ID NO :44)。這些酶可在規(guī)定的位置通過定向突 變進行修飾以在規(guī)定的位置提供需要的氨基酸殘基來產(chǎn)生識別所列DNA序列的酶。圖24A-1到24A-22和24B-1到24B-10包含在圖20-1到20-11中的MmeI樣組中 的 19 種已表征蛋白質(zhì)的 DNA 序列(SEQ IDNOS :1、3、5、7、9、11、13、15、17、19、21、23、25、33、 35、37、39、41 和 43)和相應(yīng)的氨基酸序列(2、4、6、8、10、12、14、16、18、20、22、24、26、34、36、 38、40、42 和 44)。圖25A和25B-1到25B-5示出描述所述方法的概括流程圖和詳細(xì)的實例。圖25A描述能識別特異性底物(識別序列)中局部位置特異性限定的模塊的一組 緊密相關(guān)的特異性結(jié)合蛋白的產(chǎn)生(1),其中該組成員的模塊識別序列被比對(2)和該組 成員的氨基酸序列被單獨地比對(3)。鑒定識別序列比對中位置特異性模塊和氨基酸序列 比對中位置特異性氨基酸殘基之間的相關(guān)性(4)。通過使用位點定向誘變在鑒定出的相關(guān) 位置(一個或多個)處將該組成員的氨基酸殘基(一個或多個)改變?yōu)榕c不同靶模塊識 別相關(guān)的殘基(一個或多個),產(chǎn)生結(jié)合蛋白,所述結(jié)合蛋白識別新的合理選擇的模塊序列 (5)。使用步驟1-5,產(chǎn)生規(guī)定在識別比對中一個或多個或每個位置處的具體模塊識別的特 異性氨基酸“密碼”的能力因此得到改善(6)。通過確定待被合理改變的識別序列中模塊的 位置,產(chǎn)生具有新的識別序列的結(jié)合蛋白。與對該位置特異性模塊的結(jié)合特異性相關(guān)的結(jié) 合蛋白中的氨基酸(一個或多個)根據(jù)在編目密碼中的氨基酸殘基(一個或多個)進行合 理改變(7A)。可選地,一個組的未表征的或新的結(jié)合蛋白成員的模塊識別特異性可使用編 目密碼預(yù)測(7B)。任選地,另外地,對于結(jié)合蛋白組的成員,識別序列可延長或縮短(8)。圖25B-1到25B-4示出分析結(jié)合蛋白中氨基酸序列之間的相關(guān)性的多步方法,所 述結(jié)合蛋白結(jié)合該結(jié)合蛋白結(jié)合的特異性識別序列中的位置特異性模塊。在該圖中,依靠 DNA結(jié)合蛋白闡明該方法,但是該方法同樣可用于識別由特異性識別序列中位置特異性模 塊限定的底物的任何結(jié)合蛋白。在步驟1-23中獲得的信息被儲存為編目密碼并用于合理 地設(shè)計新的結(jié)合蛋白(步驟24-30)或表征結(jié)合蛋白的特異性識別序列,所述結(jié)合蛋白的氨 基酸序列已經(jīng)存在于序列數(shù)據(jù)庫中(步驟24-37)。另外,提供步驟以產(chǎn)生DNA識別序列的 堿基對增加或減少的結(jié)合蛋白(步驟38-41)。編號的方框中的文字如下1.產(chǎn)生一組緊密相關(guān)的特異性DNA結(jié)合蛋白。2.擴大該組。3. DNA識別序列是否已知?4.生物化學(xué)確定DNA識別序列。5.牛物信息學(xué)從比對的氨基酸序列鑒定共變氨基酸。6.牛物信息學(xué)在接下來 的分析中應(yīng)用。7.比對DNA識別序列。8.比對氨基酸序列。9.鑒定識別的位置特異性DNA 堿基和位置特異性氨基酸殘基之間的相關(guān)性。10.按照統(tǒng)計學(xué)顯著性排序。11.根據(jù)統(tǒng)計 學(xué)顯著性或識別序列中需要的堿基變化優(yōu)先化相關(guān)的位置。12.在比對的DNA識別序列中 選擇DNA堿基位置,用于將該組成員識別的堿基改變成“靶”堿基(一個或多個)。13.鑒定 對于靶DNA堿基位置具有最高相關(guān)性得分的氨基酸殘基(一個或多個)和位置(一個或多 個)(在第一優(yōu)先級中為1:1對應(yīng))。14.將鑒定出的相關(guān)位置(一個或多個)處的氨基酸 殘基(一個或多個)改變?yōu)榕c不同限定的靶堿基模塊識別相關(guān)的殘基(一個或多個)。進行改變的相關(guān)位置(一個或多個)選自一個或多個氨基酸比對序列位置,所述氨基酸比對 序列位置又選自第一到第N得分位置(參見表1中的實例,其中N = 4)。該表不擬為限制 性的。N可以大于4,例如,N可以高達(dá)20或更大。15.分析在新的預(yù)確定DNA識別序列處 結(jié)合的合理改變的蛋白質(zhì)。16.合理改變的蛋白質(zhì)結(jié)合其最初的DNA識別序列。17.改變 的蛋白質(zhì)結(jié)合該新的預(yù)確定識別序列。18.改變的蛋白質(zhì)結(jié)合新的特異性DNA序列而不是 該新的預(yù)確定識別序列。19.改變的蛋白質(zhì)不結(jié)合該新的預(yù)確定識別序列也不結(jié)合最初的 識別序列。20.新的特異性證明了負(fù)責(zé)在改變的DNA堿基位置處識別的氨基酸位置(一個 或多個),并且該位置用于DNA堿基識別的一部分氨基酸密碼被鑒定。21.選擇第二高得分 位置的氨基酸和/或不同得分位置處的氨基酸的組合。調(diào)查在新位置(一個或多個)處的 選擇,并且繼續(xù)該策略,直到實現(xiàn)結(jié)合。22.新的預(yù)確定特異性的識別證明改變的位置(一 個或多個)是負(fù)責(zé)在識別序列比對中在目標(biāo)位置處的DNA堿基識別的位置。實現(xiàn)該新的預(yù) 確定特異性也顯示靶堿基識別的氨基酸殘基決定子(一個或多個)。23.確定DNA識別序 列中每個位置處不同DNA堿基識別的氨基酸密碼。24.所有可能的DNA堿基和堿基組合是 否存在于該組的已表征DNA結(jié)合蛋白成員的DNA識別序列比對中? 25.對在確定具體位置 特異性DNA堿基或堿基組合的識別的鑒定位置(一個或多個)處的氨基酸殘基(一個或多 個)編目錄。26.形成最小的氨基酸密碼,用于DNA識別序列比對中該位置處的DNA堿基 識別。該密碼可具有多個氨基酸組合以識別給定堿基或堿基組合。27.使用編目錄的氨基 酸密碼以形成新的DNA結(jié)合蛋白,所述DNA結(jié)合蛋白在DNA識別序列中靶位置處識別選擇 的堿基或堿基組合。28.對DNA識別序列比對中所有位置進行重復(fù)。29.以組合方式形成 新的DNA結(jié)合蛋白,選擇在DNA識別序列中的給定位置處待被識別的DNA堿基和使用產(chǎn)生 的氨基酸密碼和位置信息。在單一 DNA序列處結(jié)合的數(shù)以千計新的DNA結(jié)合蛋白可使用本 方法產(chǎn)生。30.檢查該組的另外的成員。31.對鑒定位置(一個或多個)處的氨基酸殘基 (一個或多個)編目錄,所述鑒定出的位置(一個或多個)確定存在于DNA識別比對中堿基 的識別。32.鑒定在該鑒定位置(一個或多個)存在的氨基酸(一個或多個)。33.改變 鑒定位置(一個或多個)的氨基酸殘基為所有可能的氨基酸并檢驗。34.選擇與已知賦予 給定堿基或堿基組合識別的氨基酸殘基(一個或多個)不同的氨基酸殘基(一個或多個) 或殘基組合。這樣的殘基(一個或多個)可從DNA識別特異性未知的組的比對成員鑒定。 35.通過將來自未表征的蛋白質(zhì)的天然存在的氨基酸(一個或多個)在堿基識別先前已經(jīng) 鑒定的相關(guān)氨基酸位置處插入已表征的蛋白質(zhì),來改變該組中已表征的蛋白質(zhì)。36.針對 DNA識別特異性分析該改變的蛋白質(zhì)并確定結(jié)合的DNA識別序列。37.對于該組的給定成 員,該DNA結(jié)合蛋白是否識別與該組的一些其他成員不同的DNA序列,S卩38.更短,39.更 長? 40.增加DNA識別序列的長度。41.減少DNA識別序列的長度。
圖25B-5示出優(yōu)先化一個氨基酸位置或多個氨基酸位置的方案,在所述位置處, 改變一個或多個氨基酸殘基為與在識別序列比對中不同模塊的識別相關(guān)的殘基以便確定 這樣的位置,所述位置確定被研究的識別序列中在該位置處模塊的識別。在氨基酸序列比 對中產(chǎn)生最高相關(guān)性得分即最低P值的位置是檢測的第一個位置,然后是第二高相關(guān)性得 分位置等。因為模塊識別在蛋白質(zhì)中可能需要多于一個氨基酸殘基,所以具有最高相關(guān)性 得分的兩個位置是兩個殘基一起改變的第一優(yōu)選級。如果在前兩個最高得分位置的改變沒 能產(chǎn)生識別改變,那么第一和第三高得分位置可被改變,并且如果需要重復(fù)該過程,如在表2中所示,直到規(guī)定位置特異性模塊識別的位置得以確定。在一些情況中,改變?nèi)齻€或更多 位置以實現(xiàn)識別模塊的改變可能是必需的。實施方式詳細(xì)描述本發(fā)明的實施方式提供合理設(shè)計和制造具有新的識別特異性的酶的方法,所述識 別特異性已經(jīng)預(yù)先被選擇或可靠地預(yù)測。可以產(chǎn)生基于比對的結(jié)合蛋白中位置特異性氨基 酸和底物中它們的識別序列中位置特異性模塊之間的相關(guān)性的目錄。該目錄可通過分析結(jié) 合蛋白組的其它成員來擴大,所述結(jié)合蛋白識別識別序列中的新的模塊組合,或者在氨基 酸序列內(nèi)的相關(guān)位置處含有預(yù)料不到的氨基酸。使用該目錄,基于位置特異性氨基酸突變 的多種組合,可產(chǎn)生大量的新的DNA結(jié)合蛋白。盡管實例描述DNA結(jié)合蛋白,但是本文描述的方法和組合物廣泛地適用于任何結(jié) 合蛋白,所述結(jié)合蛋白識別包含由該結(jié)合蛋白識別的模塊的特征位置特異性序列的底物。本方法的實施方式的步驟綜述在圖25A的流程圖中描述。在圖25B中提供對一組 DNA結(jié)合蛋白進行的分析的多個方法步驟的詳細(xì)描述。本方法的實施方式可應(yīng)用圖25A中 方框1-8的每一個中描述的各個方法步驟的一個或多個,以及圖25B中方框1-41的每一個 中描述的各個方法步驟的一個或多個,并且不限于進行圖25A或25B中完整描述的一套方 法步驟。如在圖25A的流程圖中一般描述的和對圖25B中特異性DNA結(jié)合蛋白更具體描述 的,可以按照下列步驟產(chǎn)生編碼具有改變的底物特異性的結(jié)合蛋白的多核苷酸,所述步驟 包括(a)鑒定一組具有已知的氨基酸序列并優(yōu)選也具有已知的模塊識別特異性的緊密相 關(guān)的結(jié)合蛋白;(b)比對該緊密相關(guān)的結(jié)合蛋白組的識別序列;(c)比對該緊密相關(guān)的結(jié)合 蛋白組的氨基酸序列;(d)鑒定與由該結(jié)合蛋白組的成員識別的位置特異性模塊相關(guān)的位 置特異性氨基酸殘基;和(e)形成特異性識別新的合理選擇的識別序列的新的結(jié)合蛋白, 其通過改變通過相關(guān)性鑒定為識別在識別序列比對中給定位置處的模塊的蛋白質(zhì)的氨基 酸殘基(一個或多個)來形成。該鑒定的氨基酸可被改變?yōu)橥ㄟ^相關(guān)性在這樣的組成員中 鑒定的那些氨基酸殘基(一個或多個),所述組成員識別在識別序列比對中給定位置處的 不同模塊。氨基酸殘基的交換可通過位點定向誘變實現(xiàn)。通過在識別序列內(nèi)的多個位置處 合理改變賦予特異性的氨基酸殘基,可以產(chǎn)生非常大量的對新識別序列具有特異性的蛋白 質(zhì)。本方法的實施方式可通過已被編程以實現(xiàn)圖25A和25B的一個或兩個中列出的步 驟的至少一個的計算機來執(zhí)行。通過計算機分析提供的預(yù)測可使用促進大量突變蛋白質(zhì)檢 驗的高通量技術(shù)進行檢驗,或通過檢查少量合理設(shè)計的蛋白質(zhì)或檢查單一蛋白質(zhì)的實驗室 技術(shù)檢驗。本文描述的系統(tǒng)和方法易于使用實現(xiàn)濕法化學(xué)的已有裝置進行完全自動化,其部 件可以與計算機通信,進行在先指令以及化學(xué)后計算。計算機將計算圖25A中的步驟1_4、6和7A。該裝置將進行圖25A中方框5和7A 必需的化學(xué)處理,將關(guān)于突變蛋白質(zhì)與預(yù)確定識別序列結(jié)合的數(shù)據(jù)發(fā)送回計算機,然后計 算機可以處理該數(shù)據(jù)以證實新的特異性,反復(fù)構(gòu)建目錄,并分析新結(jié)合蛋白的假設(shè)識別序 列。進行濕法化學(xué)步驟的儀器或裝置可進行DNA合成和體外轉(zhuǎn)錄和翻譯步驟,或者可選地通過編程的氨基酸合成直接合成蛋白質(zhì),然后提供本領(lǐng)域已知的高通量分析形式 (Kawahashi, et al. J Biochem 141 19-24 (2007)),以確定多個突變體與預(yù)選擇識別序列 的結(jié)合,以便結(jié)合的分子發(fā)出檢測信號、數(shù)字化和存儲在計算機存儲器中。本文描述的方法可用于能識別含有位置特異性模塊的特異性序列的任何蛋白質(zhì), 其中序列或模塊可由例如核酸、單糖、氨基酸或化學(xué)基團表示。本文描述的方法可最廣泛地 運用于DNA結(jié)合蛋白為其子集的任何結(jié)合蛋白。如本文使用的,“結(jié)合蛋白”可以指與結(jié)合蛋白-特異性識別序列中位置特異性模 塊結(jié)合的蛋白質(zhì)?!敖Y(jié)合”指對特異性底物具有電化學(xué)吸引力或與特異性底物形成共價鍵, 該吸引力或共價鍵足夠支持在無序環(huán)境中的結(jié)合。結(jié)合蛋白的實例包括結(jié)合生物學(xué)的大 分子的那些蛋白質(zhì),例如核酸結(jié)合蛋白如限制性內(nèi)切核酸酶、回歸內(nèi)切核酸酶和鋅指蛋白; RNA結(jié)合蛋白;糖結(jié)合蛋白;糖蛋白結(jié)合蛋白;糖脂結(jié)合蛋白;脂質(zhì)結(jié)合蛋白;和結(jié)合小分 子的結(jié)合蛋白,所述小分子包含以特異性預(yù)確定順序排列的大范圍化學(xué)基團或單一化學(xué)基 團。術(shù)語“模塊”被一般用于描述特異性識別序列中的各個位置特異性組分,所述特異 性識別序列形成結(jié)合蛋白的底物。如本文使用的“底物”指分子,其具有在序列中具有特異性位置的許多模塊,它們 中的一些或所有可對結(jié)合蛋白中的一個或多個特異性氨基酸具有電化學(xué)吸引力或與結(jié)合 蛋白中一個或多個特異性氨基酸形成共價鍵。底物中不同模塊的數(shù)量可從1至高達(dá)20或 更多變化,而底物可由幾個到數(shù)百萬或更多模塊組成?!耙粋€或多個特異性氨基酸”指合理設(shè)計的靶,其中靶的一個或多個任選改變引起 蛋白質(zhì)對底物中至少一個模塊特異性的改變。一個或多個氨基酸可能是結(jié)合底物所需要的 蛋白序列的子集。如本文使用的“預(yù)測”指獲得比對模式再現(xiàn)性的逼近精度的提高?!跋嚓P(guān)性”在本文可用于指兩個隨機變量之間的線性關(guān)系的強度和方向的表示。在 通常的統(tǒng)計學(xué)應(yīng)用中,相關(guān)性或關(guān)聯(lián)性指兩個變量與獨立性的偏離。統(tǒng)計學(xué)顯著相關(guān)性可 以在通過使用多種檢驗的任一種例如X平方檢驗——一種對兩個隨機變量提供測量兩個 標(biāo)量交互依賴性的量的交互信息分析(Gloor,et al. Biochemistry 44 :7156_7165 (2005)) 和皮爾遜積矩相關(guān)系數(shù)(Spiegel, Μ. R. “ Correlation Theory. “ Ch. 14in Theory and Problems of Probability and Statistics,2nded. New York:McGraw_Hill,pp.294-323, 1992)——產(chǎn)生目錄的情況下加以計算?!敖M”在本文用作具有兩個或多個成員的相關(guān)分子組。“目錄”是位置限定的氨基酸的列表,所述位置限定的氨基酸氨基酸確定在底物的 識別序列中的特異性模塊的識別。“識別序列”是底物中模塊的序列,所述序列與結(jié)合蛋白特異性結(jié)合?!癕mel-樣蛋白質(zhì)”是屬于氨基酸序列組的蛋白質(zhì),其中該組中每個氨基酸序列由 結(jié)合蛋白的一部分或全部組成,其中氨基酸序列(i)在使用MmeI作為查詢序列的BLAST檢 索中具有小于e-20的期望值(E);和(ii)與底物中特異性DNA識別序列結(jié)合,所述DNA識 別序列含有位置特異性DNA堿基。該方法的實施方式可包括下列步驟的一個或多個
1)鑒定和收集一組或多組緊密相關(guān)的結(jié)合蛋白,對于所述結(jié)合蛋白,由該蛋白識 別的序列和該蛋白的氨基酸序列都是已知的。這樣的一組序列可以以多種方式鑒定。例如, 可以對在數(shù)據(jù)庫例如Genbank中可獲得的所有序列進行BLAST檢索。一般地,查詢序列是 目的結(jié)合蛋白的氨基酸序列,例如,在一個這樣的實施方式中,本文通過MmeI限制性內(nèi)切 核酸酶示例的DNA結(jié)合蛋白可被用于查詢??蛇x地,與MmeI緊密相關(guān)的氨基酸序列可用于 進行BLAST檢索。圖16示出使用與用于圖18中BLAST檢索的MmeI緊密相關(guān)的SpoDI進 行的BLAST檢索的結(jié)果。該圖表明,檢索結(jié)果是不同的。使用不同的相關(guān)蛋白質(zhì)進行多個 檢索可導(dǎo)致比對氨基酸序列組的擴大??梢赃M行標(biāo)準(zhǔn)BLAST檢索blastp,盡管檢索的參數(shù)可以由本領(lǐng)域技術(shù)人員改變。 因為該方法僅使用緊密相關(guān)的氨基酸序列,標(biāo)準(zhǔn)blastp程序檢索將鑒定可用于本方法的 序列。可以進行BLAST檢索的可選形式,例如使用起始查詢結(jié)合蛋白的氨基酸序列在數(shù)據(jù) 庫中對翻譯的核苷酸序列進行檢索的tblastn。該tblastn檢索特別可用于檢索包含環(huán)境 DNA的數(shù)據(jù)庫,并且當(dāng)在推定的結(jié)合蛋白中存在移碼或終止密碼子——其引起在數(shù)據(jù)庫中 報道的氨基酸序列相對于全長查詢序列縮短——時,該tblastn檢索也可用于鑒定與查詢 結(jié)合蛋白具有相似性的延伸區(qū)域。在BLAST檢索的另一形式中,結(jié)合蛋白的DNA序列可用 于在數(shù)據(jù)庫(tblastp程序)中對蛋白質(zhì)序列檢索,或者在數(shù)據(jù)庫(blastn程序)對核苷酸 序列檢索。來自BLAST檢索的期望值可用于確定該組包括或不包括序列。僅遠(yuǎn)源相關(guān)的蛋 白質(zhì)不可能具有足夠的序列相似性以可靠地比對它們的序列以便觀測與模塊識別相關(guān)的 殘基和位置。對于選擇的序列組內(nèi)內(nèi)含物需要相對嚴(yán)格的BLAST E值閾值以確保排除遠(yuǎn)源 相關(guān)序列。對于相關(guān)序列組內(nèi)內(nèi)含物選擇的期望值受到輸入序列長度的影響。對于氨基酸 序列大于200個氨基酸的結(jié)合蛋白,例如大多數(shù)限制性內(nèi)切核酸酶,使用E < e-20的期望 值。對于較短的序列,使用更大的E值,例如對于長度在100和200個氨基酸之間的序列, E < e-10o在該分析期間,所使用的蛋白序列組可進一步被分成子集,如果這使得在子集內(nèi) 更好地比對序列(更少的缺口和更高的比對得分)的話,因為這將反映子集的成員之間更 近的進化和結(jié)構(gòu)關(guān)系,這將增加在氨基酸殘基和位置特異性模塊(例如DNA堿基)之間可 觀察到統(tǒng)計學(xué)顯著相關(guān)性的可能性。通過BLAST檢索鑒定的序列可被分成具有已知識別序列的序列和所識別的序列 未知的序列。如果具有足以產(chǎn)生統(tǒng)計學(xué)顯著結(jié)果的、具有已知識別序列的蛋白序列,那么可 使用這些序列進行分析。然而,如果沒有足夠的識別序列已知的蛋白序列,那么一些鑒定推 定的結(jié)合蛋白可通過生物化學(xué)確定它們的識別序列(W0 2007/097778)。這是實施例1的情 況,其中MmeI被用于在Genbank中鑒定同源肽。在該檢索中鑒定的大多數(shù)蛋白質(zhì)的功能是 未表征的,這包括在分析開始時它們的DNA識別序列特異性。因此,這些肽的許多被表征以 確定它們各自的DNA識別序列,在這之后,在描述的方法中使用它們以產(chǎn)生新的DNA結(jié)合蛋 白。對于其中識別序列未知的結(jié)合蛋白組的鑒定成員,可通過生物化學(xué)確定識別序列。例 如,結(jié)合蛋白的MmeI樣家族的未表征成員的DNA識別序列可通過分析DNA切割的位置和從 不同DNA底物產(chǎn)生的DNA片段的大小來確定(Schildkraut Genet. Eng. 6 117-140 (1984)), 或者可選地通過分析不同DNA底物中DNA修飾的位置來確定。
對于兩種相關(guān)的限制性內(nèi)切核酸酶-CstMI和NmeAIII,通過表征結(jié)合蛋白活性確 定DNA識別序列的一個實例已被顯示(分別參見美國專利號7,186,538和國際申請?zhí)朠CT/ US07/88522)。2)比對結(jié)合蛋白的識別序列。優(yōu)選比對識別序列以準(zhǔn)確反映結(jié)合蛋白和識別的序 列之間的相互作用的性質(zhì)。為了達(dá)到這一點,將識別序列比對圍繞共同的功能錨定。例如,對于DNA結(jié)合蛋白,DNA識別序列通常由在DNA雙螺旋中兩條鏈的每條鏈上 堿基的不同線性序列組成。例外的情況是識別對稱DNA序列的DNA結(jié)合蛋白的情況,在對 稱DNA序列中,所識別的DNA堿基的線性序列在兩條DNA鏈中從5'到3'是一樣的。選 擇正確的DNA鏈進行比對是重要的,這是因為識別序列的兩條鏈可具有堿基的不同線性序 列。正確的DNA鏈通過選擇用來指導(dǎo)比對的功能屬性(一個或多個)來確定。例如,對于 限制性內(nèi)切核酸酶,能精確比對DNA識別序列的功能屬性可由保守腺嘌呤或胞嘧啶堿基的 甲基化,和/或從識別的靶向特異性DNA序列下游的DNA切割的方向組成。在實施例1中, 使用包含被甲基化的腺嘌呤堿基并且具有位于該鏈上識別序列3'的切割位置的鏈,比對 DNA識別序列。該比對固定在該甲基化靶腺嘌呤周圍。在第二條DNA鏈中的堿基的線性序 列由比對中使用的鏈的序列限定。甲基化位置可通過將標(biāo)記的甲基例如放射性氚甲基引入不同的DNA并對標(biāo)記甲 基位于DNA中的位置進行繪圖來確定。甲基化也可通過防止限制性內(nèi)切核酸酶進行分析, 所述限制性內(nèi)切核酸酶的識別序列覆蓋由被表征的酶產(chǎn)生的甲基化堿基。3)比對高度相似的結(jié)合蛋白組的氨基酸序列。這可以通過使 用多種序列比對程序的任一種進行,例如Clustalff (http://www, ebi. ac.uk/clustalw/)、PROMALS(httpprodata. swmed. edu/promals)、MUSCLE (http://phylogenomics.berkeley. edu/cgi-bin/muscle/input muscle.py)或 T-Coffee (http://www, ebi. ac. uk/t-coffee/)或其他相似的程序。一般而言,可以使用程 序例如ClustalW或PR0MALS算法的缺省比對值。PR0MALS算法較慢,但是提供了改進的比 對結(jié)果。應(yīng)該理解,技術(shù)人員可改變比對程序的參數(shù)以產(chǎn)生最佳的比對結(jié)果,或者技術(shù)人員 可人工地精修比對。因為該方法使用一組緊密相關(guān)的結(jié)合蛋白,所以使用最廣泛使用的比 對程序的缺省設(shè)定可產(chǎn)生適當(dāng)?shù)谋葘?。?dāng)一個或多個輸入結(jié)合蛋白序列與其他的較不相似 時,調(diào)整比對參數(shù)可能是有益的,或者如果一個或多個序列不能與大多數(shù)緊密比對,或者如 果它產(chǎn)生大量的缺口或者以另外方式劣化大多數(shù)序列的比對,那么這樣的序列可以從最初 的比對中排除,以便保持產(chǎn)生的氨基酸序列比對的總體正確性。4)組合包含在識別序列比對和氨基酸蛋白序列比對內(nèi)的信息以鑒定氨基酸位置 和在那些位置存在的氨基酸——其對特異性序列識別負(fù)責(zé)。查詢氨基酸序列比對以鑒定這樣的位置,在該位置中存在的氨基酸殘基與在 比對的DNA識別序列內(nèi)給定位置處結(jié)合蛋白識別的模塊相關(guān)。統(tǒng)計學(xué)顯著——例如P < 0.01—的相關(guān)性表示,特異性模塊識別通過在結(jié)合蛋白的氨基酸序列內(nèi)該位置處存在 的特定氨基酸殘基實現(xiàn)。給定堿基對的識別可需要位于蛋白質(zhì)的線性氨基酸序列內(nèi)的不同 位置處的兩個或更多個氨基酸殘基。這樣的相關(guān)性可使用在實例中描述的計算機程序或其 他相似的程序進行鑒定。技術(shù)人員也可通過眼睛鑒定這樣的相關(guān)性。所提供的方法的實施方式具有鑒定相互作用以識別給定模塊的氨基酸位置的優(yōu)勢,這甚至是當(dāng)所述位置在一級氨基酸序列中遠(yuǎn)離時也是如此。預(yù)測這類遠(yuǎn)離的位置在結(jié) 合蛋白的三維結(jié)構(gòu)中在空間上接近,以便識別給定的模塊。一旦觀測到相關(guān)性,改變各自的氨基酸殘基以便在查詢位置處識別不同的堿基 對,并且檢驗改變的蛋白質(zhì)在預(yù)期的新識別序列處的結(jié)合。賦予模塊特異性的氨基酸殘基 的成功鑒定通過改變的結(jié)合蛋白確認(rèn),特別是通過結(jié)合新的、預(yù)測的識別序列來確認(rèn)(參 見例如圖1-9)。5)合理地改變結(jié)合蛋白以便它們識別新的識別序列。一旦鑒定出賦予對識別序列 內(nèi)給定位置處的給定模塊特異性的氨基酸殘基位置和各個氨基酸殘基,通過位點定向誘變 編碼所鑒定的氨基酸殘基的多核苷酸序列可產(chǎn)生新的結(jié)合蛋白。在這些位置處賦予識別特 異性的氨基酸殘基被特定地改變?yōu)槟切╄b定的殘基,其規(guī)定在識別序列中不同的期望模塊 的識別。這樣的變化導(dǎo)致產(chǎn)生如此結(jié)合蛋白,所述結(jié)合蛋白現(xiàn)在可預(yù)測地識別包含由改變 的殘基識別的位置特異性模塊的新識別序列。通過使用組合方法改變負(fù)責(zé)識別序列內(nèi)不同 位置處位置特異性模塊識別的氨基酸殘基的多種組合,可以合成識別新的識別序列的大量 結(jié)合蛋白ο所述方法的應(yīng)用本方法的實施方式是一種使用新的或已在序列數(shù)據(jù)庫中的序列數(shù)據(jù)的有效工具, 用于挖掘具有特定功能的酶;分析現(xiàn)存蛋白質(zhì)的功能;設(shè)計和產(chǎn)生新的具有期望特異性 的酶;和對某些結(jié)合蛋白提供增加特異性識別序列長度的合理方法,從而賦予增加的特異 性。合理設(shè)計方法可以提供對下列的預(yù)測在一組蛋白質(zhì)中未表征的結(jié)合蛋白的DNA 識別序列;與一組具有限定關(guān)系(defined relationship) (Ε值)的已表征結(jié)合蛋白匹配的 未表征結(jié)合蛋白序列的識別序列的位置特異性部分;和/或合理設(shè)計和產(chǎn)生具有期望的識 別序列的結(jié)合蛋白。識別新序列的新限制性內(nèi)切核酸酶給遺傳操作提供更大的機會和能力。每個新的 獨特的內(nèi)切核酸酶能使科學(xué)家在DNA分子內(nèi)的新位置處精確切割DNA,這提供所有的機會。 這樣的新限制性內(nèi)切核酸酶可使得能夠檢測先前的限制性內(nèi)切核酸酶不能區(qū)分的單核苷 酸多態(tài)性。新識別特異性使得能夠進行新的限制片段連鎖的多態(tài)性分析,以及在需要特異 性DNA切割和重裝配的克隆技術(shù)中提供增加的靈活性。改變的酶的甲基轉(zhuǎn)移酶活性也可用 于將甲基或其他化學(xué)基團在新特異性識別序列處引入DNA。因此,DNA可在多個識別序列處 通過新酶的作用而被特異性標(biāo)記。甲基的引入也可用于阻斷限制性內(nèi)切核酸酶的作用,其 中修飾的位點覆蓋限制性內(nèi)切核酸酶的識別序列。工程化甲基轉(zhuǎn)移酶可提供克隆天然發(fā)生 的限制性內(nèi)切核酸酶的有用資源,對于天然發(fā)生的限制性內(nèi)切核酸酶,已知不存在甲基化 酶來保護轉(zhuǎn)化的宿主細(xì)胞。具有改變的結(jié)合特異性的甲基轉(zhuǎn)移酶可用于將標(biāo)記在特異性位點引入DNA。這些 標(biāo)記可取決于甲基的引入或可選地另一化學(xué)基團的引入。預(yù)測未表征蛋白的結(jié)合特異性在公共數(shù)據(jù)庫例如Genbank中,通常具有給定組的已表征蛋白質(zhì)的大量未表征同 源物。同源物的識別序列通常是未知的。如果沒有所識別的特異性序列的知識,這些蛋白 質(zhì)不能參與本文描述的方法。然而,一旦確定識別的氨基酸序列組內(nèi)的位置(一個或多個)連同由這些位置(一個或多個)處特定氨基酸殘基確定的模塊特異性已知,那么當(dāng)它們的 位置特異性氨基酸序列與在這些位置處賦予已知模塊識別的殘基匹配時,這些未表征的同 源物的識別特異性可被預(yù)測。在天然存在的蛋白序列中可能的新的位置特異性模塊識別序 列的鑒定當(dāng)未表征的同源物的氨基酸殘基與已知識別某些模塊的氨基酸殘基不匹配時,這 些同源物被鑒定為在識別序列中這些位置處識別不同模塊的可能候選物。因此,那些未表 征同源物蛋白質(zhì)的位置特異性氨基酸殘基可被交換為已表征的結(jié)合蛋白的位置特異性氨 基酸殘基,然后可表征該改變的蛋白質(zhì)的結(jié)合特異性,其中預(yù)期其可能與在識別序列內(nèi)該 特定位置處具有改變的模塊特異性的識別序列結(jié)合。已知賦予給定模塊特異性識別的位置特異性氨基酸殘基可被轉(zhuǎn)變?yōu)樵诰哂形粗?識別序列的數(shù)據(jù)庫中的同源蛋白序列中這些比對位置處觀測的可選殘基。這樣的置換反映 天然存在的結(jié)合蛋白的多樣性,而無需預(yù)知每個這樣的蛋白序列的具體識別特異性。用這 樣的方式,在當(dāng)前已知的識別序列中未觀測到的模塊識別可以獲得。該實施方式的一個實 例在實施例2中給出,其中改變MmeI限制性內(nèi)切核酸酶/甲基轉(zhuǎn)移酶以產(chǎn)生識別新的DNA 序列的酶。賦予識別序列的位置6 (E806 (S) R808)處DNA堿基對識別的氨基酸被改變?yōu)樵跀?shù)個 天然存在但是未表征的序列中觀測到的那些殘基——所述殘基與已知的位置特異性殘基 (G(N)G)比對,這導(dǎo)致識別新的DNA結(jié)合序列5' -TCCRAR-3'的限制性內(nèi)切酶的產(chǎn)生(參 見圖6和23)。通過隨機誘變賦予位置特異性模塊特異性的鑒定的氨基酸位置,產(chǎn)生新的位置特 異性模塊識別序列賦予DNA結(jié)合特異性的結(jié)合蛋白序列內(nèi)的位置的鑒定考慮將這些位置處氨基酸 殘基改變?yōu)樗锌赡艿陌被釟埢?參見例如圖23)。這表示鑒定為賦予特異性的那些殘 基的合理靶向突變。然后,如此改變的蛋白質(zhì)可進行生物化學(xué)檢驗以確定它們的識別特異 性而鑒定新的結(jié)合蛋白。該方法的主要益處是改變一些氨基酸位置是容易控制的,例如在 MmeI限制性內(nèi)切核酸酶的位置6處賦予DNA堿基對特異性的兩個位置(實施例1),而完整 蛋白序列或甚至該序列的相對小的子集的隨機誘變立刻變得難以難控制,這是由于需要指 數(shù)量的突變。例如,隨機改變MmeI位置6的兩個鑒定的氨基酸殘基位置將需要20X20個 或400個不同的序列。在鋅指蛋白誘變的情況中,隨機改變被認(rèn)為與DNA相互作用的所有 7個氨基酸位置以形成所識別的三堿基對三聯(lián)體的識別將需要207個或1. 28X IO9個不同 的突變體(Durai, S.et al. NAR 33(18) =5978-5990 (2005)) 對于鋅指組合以識別更長的 DNA堿基對序列,例如6或9個堿基對,需要突變的數(shù)目迅速變?yōu)殡y以控制(對于6個堿基 對,大約IO18個,或者對于9個堿基對,大約IO27個)。使用本文提供的方法鑒定那些與DNA 相互作用以賦予堿基特異性的少數(shù)氨基酸位置,允許進行這些鑒定的殘基的改變,這允許 鑒定識別新的DNA序列的新DNA結(jié)合蛋白。具有增加的模塊結(jié)合特異性的結(jié)合蛋白的產(chǎn)生當(dāng)緊密相關(guān)的結(jié)合蛋白組的一些成員比該組的其他成員特異性識別更多的模塊 時,檢查比對的識別序列和比對的氨基酸序列,以鑒定位置特異性氨基酸序列比對和那些 識別序列之間的相關(guān)性,所述那些識別序列規(guī)定在其他識別序列不識別特異性模塊的位置 處的特定模塊。在MmeI限制性內(nèi)切核酸酶家族的實例中,數(shù)個成員識別七個堿基對序列,而其它成員僅識別六個堿基對。例如,MmeI識別甲基化的腺嘌呤5'端的四個位置中的特 異性DNA堿基,以及該腺嘌呤3'端的一個堿基,但是不識別該甲基化靶腺嘌呤的5'端的 第五位置中的特異性堿基,而除了識別緊接所述甲基化靶腺嘌呤5'端的四個位置中的特 異性堿基和該腺嘌呤3'端的一個堿基之外,SpoDI還識別該甲基化靶腺嘌呤5'的第五位 置中的特異性DNA堿基"G"。在該延伸位置處賦予特異性的氨基酸位置(一個或多個) 和位置特異性氨基酸殘基(一個或多個)通過所描述的相關(guān)性方法加以鑒定,其中相關(guān)性 將由在識別延伸位置處給定DNA堿基的那些序列中的顯著同一性組成,而在該延伸位置處 不規(guī)定任何DNA堿基的那些序列不會顯示這樣的相關(guān)性。使用本文描述的方法,一旦負(fù)責(zé) 特異性識別額外的DNA堿基(一個或多個)的氨基酸位置(一個或多個)和殘基(一個或 多個)被鑒定后,負(fù)責(zé)該額外堿基識別的氨基酸序列可通過位點定向誘變引入到識別更短 的識別序列的相關(guān)DNA結(jié)合蛋白的基因中以擴大它們的特異性來包括另外的堿基對(一個 或多個)。上文和下文引用的所有參考文獻(xiàn),以及2007年6月20日提交的美國臨時申請?zhí)?60/936,504,通過引用被并入本文。
實施例實施例1 特異件識別來自MmeI、NmeAIII、SdeAI和相關(guān)的IIG型限制性內(nèi)切核酸 酶的新DNA序列的新功能性IIG型限制性內(nèi)切核酸酶的合理產(chǎn)生MmeI是與雙鏈DNA序列5' -TCCRAC-3 ‘ /5-GTYGGA-3 ‘特異性結(jié)合的DNA結(jié)合 蛋白。MmeI的功能是甲基化DNA鏈5’-TCCRAC-3’中的腺嘌呤堿基。MmeI也行使內(nèi)切核酸 酶的功能,其切割該雙鏈DNA 從TCCRAC鏈3 ‘端20個核苷酸和從GTYGGA鏈5 ‘端18個 核苷酸處進行切割,留下二堿基3'突出端(1,2)。具有與IIG型限制性內(nèi)切核酸酶MmeI具有高度相似性的成員的多肽組通過使 用blastp程序?qū)嵤〨enbank非冗余數(shù)據(jù)庫的BLAST檢索來鑒定(Altschul et al. J. Mol. Biol. 215 :403-410 (1990) ;Altschul et al. Nucleic Acids Res. 25 3389-3402(1997);禾口 Madden et al. Methods Enzymol. 266 :131_141 (1996))(圖 18 和圖 25B-1 中的 #1)。MmeI 氨基酸序列(美國專利號7,115,407)被用作查詢序列,并且對于包括在期望得分E的數(shù)據(jù) 庫中的截斷值,使用E < e-20。使用NCBI網(wǎng)絡(luò)版blastp程序的缺省參數(shù)(http://www. ncbi. nlm. nih. rov/BLAST/)。大量多肽序列被鑒定為與MmeI高度相似;然而,這些序列中 沒有一個在功能方面得以表征,特別是對于由給定多肽識別的特異性DNA序列。因此,大量 這些假設(shè)序列被克隆并表達(dá)。對表達(dá)的蛋白質(zhì)檢測內(nèi)切核酸酶活性,并且在它們結(jié)合DNA 處的特異性DNA序列被表征(美國專利號7,186,538)。在通過BLAST檢索鑒定為與MmeI 高度相似的序列組中,下列活性II型內(nèi)切核酸酶的特異性DNA識別序列被鑒定。這些酶也 具有DNA甲基轉(zhuǎn)移酶活性。來自Genbank 登陸號 GI 32479387 的 CstMI 識別 DNA 序列 5 ‘ -AAGGAG-3 ‘并在 該鏈上該序列3'端20個核苷酸和相反DNA鏈上互補體5'端18個核苷酸處進行切割,得 到 2 堿基 3'突出端:AAGGAGN20/N18 (7)。來自Genbank登陸號NC_003116、肽編號GI =15794682的NmeAIII通過校正鑒 定為與MmeI高度顯著相似的閱讀框內(nèi)終止密碼子而使其具有活性。發(fā)現(xiàn)NmeAIII識別5' -GCCGAG-3‘,并切割下游GCCGAGN21/m9 (國際申請?zhí)?PCT/US07/88522)。來自Genbank 登陸號 NC_007575. 1、肽編號 YP_392994. 1 的 SdeAI (先前稱為 TdeAI)被克隆、表達(dá)和表征。SdeAI識別DNA序列5 ‘ -CAGRAG-3 ‘并切割下游CAGRAGN21/ N19。來自Genbank 登陸號 AACY01071935. 1 的 EsaSSI 是來自馬尾藻海(SargassoSea) 的環(huán)境的DNA序列,其意味著不存在從其擴增和克隆該基因的可獲得的模板DNA。因此, 編碼EsaSSI的基因被合成制備,并且該肽序列的氨基酸密碼子被優(yōu)化為通常使用的大腸 桿菌(E.Coli)密碼子。合成的基因被裝配并克隆入大腸桿菌,表達(dá)和表征酶活性。發(fā)現(xiàn) EsaSSI 識別 DNA 序列 5' -GACCAC-3'。來自Genbank登陸號NC_003911. 11、肽編號YP_167160的SpoDI被克隆、表達(dá)并表 征以識別DNA序列5 ‘ -GCGGAAG-3并切割下游GCGGAAGN20/N18。來自Genbank登陸號NC_001264. 1、肽編號NP_285443的DraRI被克隆;通過改 變位置2521 (氨基酸位置841)處TAA終止密碼子為GAA密碼子,校正該基因中假終止差 錯。表達(dá)該基因并表征蛋白產(chǎn)物。發(fā)現(xiàn)DraRI識別DNA序列5' -CAAGNAC-3'并切割下游 CAAGNACN20/N18。來自Genbank登陸基因座NC_005206. 1、蛋白質(zhì)編號NP_940747的ApyPI被克隆。 使用與CstMI蛋白的相似性來指導(dǎo)校正位置,校正靠近該蛋白質(zhì)C-末端的移碼。有活性的 全長蛋白質(zhì)和校正的編碼該多肽的DNA序列被報道。該校正的ApyPI酶被表達(dá)并表征以識 別 5 ‘ -ATCGAC-3 ‘和切割下游 ATCGACN20/N18。來自Genbank 登陸基因座 YP_001274371、肽編號 NC_009516. 1 的 PspPRI 被克隆、 表達(dá)并表征以識別5' -CCYCAG-3'和切割下游CCYCAGN21/N19或CCYCAGN20/N18。來自Genbank登陸基因座CP000319. 1、肽編號YP_579008的NhaXI被克隆、表達(dá)并 表征以識別5' -CAAGRAG-3 ‘和切割下游CAAGRAGN20/m8。來自Genbank登陸基因座NC_002935. 2、肽編號NP_940094的CdpI被克隆、表達(dá) 并表征以識別5' -GCGGAG-3'和切割下游GCGGAGN20/N18。來自Genbank登陸基因座NC_007958. 1、肽編號YP_570364的RpaB5I被克隆、表達(dá) 并表征以識別DNA序列5 ‘ -CGRGGAC-3 ‘和切割下游CGRGGACN20/N18。來自乳酰胺奈瑟球菌(Neisseria lactamica) ST640的WaCI被克隆、表達(dá)并表征 以識別 5 ‘ -CATCAC-3 ‘和切割下游 CATCACN19/m7 或 CATCACN20/N18。來自耐輻射奇球菌(Deinococcus Radiodurans)NEB479的DrdIV被克隆、表達(dá)并 表征以識別5' -GCGGAG-3'和切割下游GCGGAGN20/N18。來自假單胞菌屬(Pseudomonas)0M2164種的PspOMII被克隆、表達(dá)并表征以識別 5 ‘ -GCGGAG-3 ‘和切割下游 GCGGAGN20/N18。來自Genbank登陸基因座NC_008738. 2、肽編號YP_956924的MaqI被克隆、表達(dá)并 表征以識別5' -CRTTGAC-3 ‘和切割下游CRTTGACN20/m8。來自Genbank登陸基因座NC_009719. 1、肽編號YP_001413872的PlaDI被克隆、表 達(dá)并表征以識別5' -CATCAG-3'和切割下游CATCAGN20/N18。來自Genbank登陸基因座NC_010475、肽編號YP_001735369的AquIII被克隆、表 達(dá)并表征以識別5' -GAGGAG-3'和切割下游GAGGAGN20/N18。
來自Genbank登陸基因座NC_010475、肽編號YP_001735547的AquIV被克隆、表達(dá) 并表征以識別5 ‘ -GRGGAAG-3 ‘和切割下游GRGGAAGN20/N18。比對MmeI的DNA識別序列和這些新表征的同源物酶。使用包含腺嘌呤堿基的DNA 鏈進行比對,所述腺嘌呤堿基通過這些酶的DNA甲基轉(zhuǎn)移酶活性進行修飾,并且該DNA鏈也 是在DNA識別序列3'端被切割的鏈。DNA序列被比對,以便對每種酶,比對甲基化的腺嘌 呤堿基。DNA識別序列比對在圖10和15以及圖25Β的#_7中給出。從圖10中描述的、具有已知的DNA識別序列的高度相似限制性內(nèi)切核酸酶多肽序 列的一級氨基酸序列構(gòu)建多序列比對。使用比對程序ClustalW :http://www. ebi.ac.uk/ clustalwZο在該算法中使用缺省設(shè)置,只是比對以輸入順序而不是比對得分順序連同序列 一起返回。獲得的多序列比對的一部分在圖13和圖25B的#8中給出。使用更嚴(yán)格的比對 程序 PROMALS (http//prodata. swmed. edu/promals/promals. php)對所形成的酶的全部 氨基酸序列的多序列比對在圖20中示出。根據(jù)在甲基化靶腺嘌呤3'端的位置中識別的DNA堿基的功能,對多肽序列分組。 識別胞嘧啶〃 C"的酶是 Mmel、EsaSS217I、ApyPI, NlaCI, DrdIV、RpaB5I、DraRI 和 MaqI。 在該位置識別鳥嘌呤"G"的酶是 NhaXI、NmeAIII, CdpI, AquIII, CstMI、SdeAI, PspPRI、 PlaDI、SpoDI和AquIV。PspOMII在該位置識別〃 R"。在比對中給定位置處查詢比對氨基 酸殘基,其在C組和G組中是相同的,但是在組間不同。對于一小組序列例如這組,可以人 工地檢查比對或通過計算機程序查詢比對,所述計算機程序可鑒定何時在位置特異性氨基 酸殘基和DNA堿基識別之間具有統(tǒng)計學(xué)顯著的相關(guān)性。這類算法的實例在圖21提供。在 檢查比對后,觀測一個位置,其中該位置處存在的氨基酸殘基和在DNA識別序列比對內(nèi)在 該位置處識別的DNA堿基之間存在100%的相關(guān)性。在該位置處,胞嘧啶由一組具有精氨酸 殘基"R"的氨基酸序列識別,而鳥嘌呤識別組具有天冬氨酸殘基"D"。這兩個殘基都是 帶電的,并且可容易與DNA堿基形成氫鍵。MmeI序列中該殘基的位置是R808,而在NmeAIII 中該殘基是D818。識別胞嘧啶的候選氨基酸殘基——在MmeI中的R808,和識別鳥嘌呤的相當(dāng)位置 殘基——在NmeAIII中的D818,被改變?yōu)槠谕ㄟ^位點定向誘變賦予其他DNA堿基的識別 的氨基酸殘基(對于Mmel,R808改變?yōu)镈 ;而對于NmeAIII,D818改變?yōu)镽)。對于每種酶, 根據(jù)Phusion 位點定向誘變試劑盒方法(NewEngland Biolabs, Ipswich,ΜΑ),合成兩種寡 核苷酸引物進行使用。對于MmeI,引物是正向5 ‘ -pGATTATAGATATTCTGCCAGCCTGGTT-3 ‘ (SEQ ID NO :27),其中ρ是磷酸,反向5, -pACTTTCTAACCTTCCTCCTACATTTCTC-3‘ (SEQ ID N0:28)。正向引物的前三個核苷酸將精氨酸(Mmel的"R808")的氨基酸密碼子改變?yōu)?密碼子〃 GAT",其編碼天冬氨酸〃 D"。改變NmeAIII的寡核苷酸引物是正向5' -pCGCTATCGCTACTCTAATACCGTCGT-3‘ (SEQ ID NO 29)和反向5' -pGCTTTTCAGACGACCTGCAAC-3‘ (SEQ ID NO :30)。正向引物 的前三個核苷酸將在NmeAIII中該位置的編碼D818從"D"改變?yōu)?R"。根據(jù)制造商的 指導(dǎo)進行誘變,并且獲得表達(dá)該期望的改變的氨基酸殘基多肽的多核苷酸。將改變的MmeI 多核苷酸R808D和改變的NmeAIII多核苷酸D818R克隆到大腸桿菌中并進行表達(dá),但是多 肽沒有顯示任何限制性內(nèi)切核酸酶活性。由此我們得出結(jié)論,它們不特異性結(jié)合期望的新 識別序列,它們也不結(jié)合它們最初的DNA識別序列,亦不結(jié)合不同的未預(yù)測的序列。然而,該位置可能涉及DNA識別或者一些關(guān)鍵功能或折疊,因為改變的蛋白質(zhì)已經(jīng)失去了特異性 DNA結(jié)合的功能。因為在其他DNA結(jié)合蛋白中已經(jīng)觀測到特異性堿基對通常由協(xié)同工作的兩個氨 基酸殘基識別,所以進一步檢測該序列的第二殘基,該第二殘基與緊鄰甲基化靶腺嘌呤3' 端的位置處的G或C堿基的識別相關(guān)。觀測到從R或D位置朝向多肽的氨基末端的氨基酸 殘基兩個位置,盡管具有一定程度的可變性,但是與G或C堿基識別相關(guān)。對于識別C堿基 的那些序列,該殘基最通常是谷氨酸"E",而對于識別G堿基的那些,該殘基最通常是賴 氨酸〃 K"。因此,該位置具有與鑒定為與識別的DNA堿基100%相關(guān)的〃 R"或〃 D"位置 的電荷相反的電荷,即對于與C堿基相關(guān)的正電"R"殘基,在該位置具有帶負(fù)電的"E", 而對于與G堿基相關(guān)的負(fù)電"D"堿基,具有帶正電的"K"。兩個最不同的序列—— SpoDI和DraRI,在該位置處都具有與它們組的其他成員不同的殘基,其中DraRI具有蘇氨 酸殘基"T"而不是"E",而SpoDI在緊接該位置的甘氨酸"G"殘基之前具有兩個額外 殘基甘氨酸-纈氨酸〃 GV"的插入。PspOMII在該位置具有〃 D",其在1:1相關(guān)位置處 與〃 D"殘基形成獨特的組合,這與PspOMII的獨特堿基識別"R"相一致。因此,盡管該 位置(MmeIE806)處的殘基在每一堿基識別分組內(nèi)并不相同,但是它們顯示與識別的DNA堿 基顯著相關(guān),并且沒有相同殘基存在于超過一個堿基識別組中的實例。在該第二識別位置 (MmeI E806)處的氨基酸殘基然后連同鑒定的第一位置(Mmel R808)處的氨基酸殘基一起 被改變,以便對于Mmel,將甲基化靶腺嘌呤之后的堿基位置的DNA識別從C改變?yōu)镚,而對 于NmeAIII,從G改變?yōu)镃。MmeI中相關(guān)的氨基酸殘基E806和R808以及NmeAIII中的相當(dāng)位置K816和D818, 通過位點定向誘變改變?yōu)樽R別不同堿基的組的氨基酸殘基,以產(chǎn)生MmeI雙突變體E806K、 R808D,和NmeAIII雙突變體K816E和D818R。對于每種酶,合成兩種寡核苷酸引物并在 Phusion 位點定向誘變試劑盒方法中使用。MmeI引物是正向5' -pGATTATAGATATTCTGC CAGCCTGGTT-3‘ (SEQ ID NO :27),其中 ρ 是磷酸,和反向5' -pACTTTTTAACCTTCCTGCTACAG TTCTCATCCAGCAGTTGTGCA-3‘ (SEQ IDNO 31)。改變NmeAIII 的引物是正向5‘ -pCGCTAT CGCTACTCTMTACCGTCGT-3‘ (SEQ ID NO :29)和反向5' -pGCTTTCCAGACGACCTCCAACGTTACG CATAAAGGCGTTGTG-3‘ (SEQ IDNO :32)。根據(jù)制造商的指導(dǎo)進行誘變。將在它們各自的表達(dá)載體中編碼需要改變的多肽 序列的改變的多核苷酸轉(zhuǎn)化入大腸桿菌宿主細(xì)胞。改變的MmeI和改變的NmeAIII的兩個 單獨的轉(zhuǎn)化體均被接種到30毫升的含有100微克/毫升氨芐青霉素的LB中,并生長至對 數(shù)中期,然后加入IPTG至0. 4mM,并且生長細(xì)胞兩個小時以誘發(fā)改變的蛋白質(zhì)的表達(dá)。通 過離心收獲細(xì)胞,重懸浮在1.5毫升的超聲處理緩沖液SB(20mM Tris, pH7. 5 ;ImM DTT ; 0. ImM EDTA)中,并通過超聲處理裂解。通過離心澄清提取物。為了檢測內(nèi)切核酸酶活性, 在 NEBuffer 4 中,使用用 NdeI 線性化的 pBC4 DNA (New England Biolabs, Inc.,Ipswich, MA)作為DNA底物進行提取物的連續(xù)稀釋。對于改變的Mmel、E806K和R808D和改變的 NmeAIII、K816E和D818R觀察到分離的帶,這表示改變的多核苷酸序列編碼活性內(nèi)切核酸 酶(圖1禾口 2,以及圖25B中#—14和#_17)。改變的MmeI DNA識別序列的表征Iml Heparin HiTrap ft (GE Healthcare, Piscataway, NJ)MmeI的粗提物。將1. 5ml粗提物施加到該柱,所述柱先前已經(jīng)用含有50mM NaCl的緩沖液A(20mM Tris pH7. 5、lmM DTT、0. ImM EDTA)平衡。用5柱體積的含有50mM NaCl的緩沖液A洗滌該 柱,然后應(yīng)用30ml從0. 05M NaCl到IM NaCl的緩沖液A線性梯度,并收集Iml級分。改變 的MmeI在大約0. 48M NaCl下洗脫。預(yù)期該合理改變的MmeI酶將識別5' -TCCRAG-3'。 為了確定對改變的多肽的DNA識別序列,純化酶對pBR322 DNA的切割位置被繪圖(圖1 和圖25B中#17)。用純化的MmeI突變體切割DNA,純化,然后用在已知位置處切割一次的 酶進行切割。該DNA的雙消化產(chǎn)生的獨特片段的大小顯示出已知的酶切割位置的定位到 MmeI突變體酶進行切割的位置的距離。改變的MmeI酶對pBR322的切割位置被繪圖為近 似位置 260,310,1340 和 2790。序列 TCCRAG 發(fā)生在 pBR322 的位置 276,330,1314 和 2772 處,這與觀察的切割位置匹配。野生型MmeI識別序列——TCCRAC,發(fā)生在pBR322的位置 197、283、2662和2846處,其與觀察的切割位置不匹配。測定從噬菌體XDNA、噬菌體T3 DNA、pBC4 (Schildkraut Genet. Eng. 6 117-140 (1984) )·)DNA 和噬菌體 PhiX DNA 的內(nèi)切 核酸酶切割產(chǎn)生的DNA片段的模式,以匹配在新識別序列TCCRAG處的切割(圖1)。這些 結(jié)果顯示在位置6改變的MmeI識別的DNA堿基已經(jīng)從C改變?yōu)镚,如在鑒定為與識別序列 比對中最靠近3'端的位置(3' -most position)處的DNA堿基識別相關(guān)的位置處的氨 基酸殘基的合理位點定向變化所預(yù)測的。改變的MmeI限制性內(nèi)切核酸酶在新的DNA序列 5' -TCCRAG-3'處結(jié)合,并且切割該DNA:從這條鏈上該序列3'端20個核苷酸,和從相反 鏈5' -CTYGGA-3'的互補序列5'端18個核苷酸處進行切割,留下2堿基3‘突出端。該 方法的運用導(dǎo)致產(chǎn)生新的限制性內(nèi)切核酸酶。改變的NmeAIII DNA識別序列的表征改變的NmeAIII的粗提物被直接用于在多種DNA中對該內(nèi)切核酸酶的切割位置進 行作圖。預(yù)測該合理改變的NmeAIII將識別5' -GCCGAC-3'。為了確定改變的多肽的DNA 識別序列,改變的酶對PBR322、PhiX174和pBC4 DNA的切割位置被作圖(圖2和圖19B中 #17)。DNA用改變的NmeAIII酶消化,在離心柱上純化。DNA的雙消化產(chǎn)生的獨特片段的大 小顯示出已知的酶切割位置的定位到NmeAIII突變體酶進行切割的位置的距離。改變的NmeAIII酶在大約位置450和950處切割pBR322。序列GCCGAC發(fā)生在 PBR322的位置446和941,其與觀測的切割位置匹配。野生型NmeAI 11識別序列——GCCGAG, 發(fā)生在PBR322的位置120、1172和3489,這與改變的NmeAIII識別序列不同。類似地,對 于phiX174 DNA,在PhiX174中改變的NmeAIII-切割位置被作圖至大約2300、2675、3435、 4740和5335。期望的NmeAIII-改變的識別序列——GCCGAC,發(fā)生在位置2251、2641、3474、 4710和5298,這與觀測的切割位置匹配。野生型NmeAIII識別序列發(fā)生在PhiX174的位置 1022、3426和4680,這與改變的NmeAIII的識別序列不同。對于pBC4 DNA作圖,獲得相似 的結(jié)果。這些結(jié)果表明,在最終的堿基位置NmeAIII的識別序列從G改為C,如通過我們對 發(fā)現(xiàn)與該位置處識別的DNA堿基相關(guān)的氨基酸殘基進行的合理位點定向改變所預(yù)測的。這 些結(jié)果是一個如何在氨基酸殘基賦予以合理方式改變的DNA堿基特異性以產(chǎn)生可預(yù)測的 新DNA識別特異性的情況下,實現(xiàn)限制性內(nèi)切核酸酶的識別序列的定向改變的例子。SdeAI 的識別特異性也通過運用相同方法從5' -CAGRAG-3'改變?yōu)?' -CAGRAC-3'(圖9)。實施例2 位置特異性誘變以產(chǎn)生新的DNA識別序列在蛋白質(zhì)組的氨基酸序列比對中,確定在比對的識別序列中3’端處第一堿基的識別的兩個位置的鑒定,使得能夠使用兩種方法產(chǎn)生新的限制性內(nèi)切核酸酶。在第一個方法 中,該組所有成員——包括識別序列還沒有確定的那些成員——的氨基酸殘基被比對。在 負(fù)責(zé)識別的鑒定位置處檢查比對,以了解是否存在與已知規(guī)定給定堿基的識別的氨基酸不 匹配的任何天然存在的變化(圖12和圖25B中的#32)。在實施例1表征的酶的情況中, 在比對位置處決定核苷酸“C”的DNA識別序列的3’端第一堿基位置處的識別的氨基酸是 ExR和TxR。那些確定G的識別的氨基酸是KxD和GxD。檢查該組的比對成員,并且觀測到 數(shù)種氨基酸組合,所述氨基酸組合不是這些C或G決定組合之一。使用與實施例1相同的 方法,將這些氨基酸殘基組合的兩個——以Genbank登陸號gi | 28373198觀測到的GxS和 以Genbank登陸號gi | 87198286觀測到的GxG——通過位點定向誘變引MmeI多肽。為了將GxS氨基酸組合的密碼引入編碼MmeI蛋白的多核苷酸,合成兩種寡核苷酸 引物,并用于Phusion 位點定向誘變試劑盒方法中。使用的引物為,正向5' -pCGATATTCT GCCAGCCTGGTTTACAACAC-3‘ (SEQ ID NO 165),其中 ρ 是磷酸,和反向5' -pGTAACTAGTACC TAACCTTCCTCCTACATTTCTCATCCAGCA-3' (SEQ IDNO :166)。反向引物將定向突變引入MmeI 基因。根據(jù)制造商的指導(dǎo)進行誘變。遵循相同的方法以將位置特異性氨基酸殘基的GxG組 合引入 MmeI,使用引物正向5 ‘ -pCGATATTCTGCCAGCCTGGTTTACAACAC-3 ‘ (SEQ ID NO 167),其中 ρ 是磷酸,和反向5 ‘ -pGTAACCGTTACCTAACCTTCCTCCTACATTTCTCATCCAGCA-3 ‘( SEQ IDNO 168) 0將編碼期望的改變的多肽序列的表達(dá)載體pRRS中改變的多核苷酸轉(zhuǎn)化 入大腸桿菌宿主細(xì)胞。每個改變的MmeI的一個單獨的轉(zhuǎn)化體被各自接種到30毫升的含有 100微克/毫升氨芐青霉素的LB中,并生長至對數(shù)中期,然后加入IPTG至0. 4mM,并且生長 細(xì)胞兩個小時以誘導(dǎo)改變的蛋白質(zhì)的表達(dá)。通過離心收獲細(xì)胞,重懸浮在1. 5毫升的超聲 處理緩沖液SB(20mM Tris, pH7. 5 ;ImM DTT ;0. ImM EDTA)中,并通過超聲處理裂解。通過 離心澄清提取物。為了檢測內(nèi)切核酸酶活性,粗提物被用于切割在補充有SAM(80微摩爾濃 度)的 NEBuffer 4 (NewEngland Biolabs, Inc. ,Ipswich,ΜΑ)中的 PhiX174 DNA。根據(jù)制造 商的說明,通過 Zymo Research" DNA Clean and Concentrate"離心柱(Zymo Research, Orange,CA),純化切割的DNA。然后通過用4種不同的已知內(nèi)切核酸酶切割,該純化的切割 DNA被用于作圖。對于兩種改變的MmeI——E806G加R808S以及E806G加R808G構(gòu)建體, 都觀測到分離的條帶,這表明改變的多核苷酸序列編碼活性內(nèi)切核酸酶。改變的MmeI E806G加R808G酶在大約位置1135和1335處切割pUC19 (圖6A和 圖 25B 中的 #36)。序歹Ij TCCRAR 在位置 1105 (TCCRAG)和 1352 (TCCRAA)處存在于 pUC19 中, 這匹配觀測到的切割位置。野生型MmeI識別序列TCCRAC存在于在pUC19中的位置996和 1180處,這與對于改變的酶觀測到的位置不匹配。對于pBR322和phiX174DNA,獲得相似的 結(jié)果(圖6B)。PhiX174中改變的酶的切割位置被作圖于大約25、500、3600、3835和4135。 TCCRAR序列存在于接近這些位置的41、471、518、3588、3606、3857和4143處,這與觀測的切 割位置相匹配。TCCRAR序列也在另外的位置1510、1671、2998、3959和3970處存在。盡管 在這些位置沒有觀測到切割,但是可用于切割的酶的量受到限制,因此DNA消化不完全。作 圖的位點與在TCCRAR處的改變的酶切割相一致,并且與在野生型未改變的特異性TCCRAC 處切割不一致,這表示改變的酶在新的特異性即TCCRAR處切割。實施例3 識別新的DNA識別序列的酶的產(chǎn)生使用在上面實施例1和2中示例的方法,形成和表征特異性識別新的DNA序列的其他的酶。用于位點定向誘變的寡核苷酸引物在表1中示出。通過MmeI的位點定向誘變,使用引物SEQ ID N0:151和SEQ ID N0:152,將丙氨 酸774改變成亮氨酸,形成一種識別5' -TCCGAC-3'的這類酶。該改變的酶的識別特異性 在圖3中顯示。通過MmeI的位點定向誘變,使用引物SEQ IDNO 153和SEQ ID NO 154,將丙氨酸 774改變成賴氨酸,然后通過使用引物SEQ ID N0:155和SEQ ID NO 156將精氨酸810改 變成絲氨酸,形成另一種識別5' -TCCCAC-3'的這類酶。該改變的酶的識別特異性在圖4 中顯示。通過MmeI的位點定向誘變,使用引物SEQ ID N0:157和SEQ ID N0:158,將谷氨 酸751改變成精氨酸和將天冬酰胺773改變?yōu)樘於彼?,形成識別5' -TCGRAC-3'的另一 種新酶。該改變的酶的識別特異性在圖5中顯示。通過MmeI的位點定向誘變,使用引物SEQ ID N0:159和SEQ ID N0:160,將谷氨 酸806改變成甘氨酸和將精氨酸808改變?yōu)樘K氨酸,形成識別5' -TCCRAB-3'的另一種新 酶。該改變的酶的識別特異性在圖7中顯示。通過MmeI的位點定向誘變,使用引物SEQ ID N0:161和SEQ ID N0:162,將谷氨酸 806改變成色氨酸(trytophan)和將精氨酸808改變?yōu)楸彼?,形成識別5 ‘ -TCCRAN-3 ‘ 的另一種新酶。該改變的酶的識別特異性在圖8中顯示。通過SdeAI的位點定向誘變,使用引物SEQ ID N0:163和SEQ ID N0:164,將賴氨 酸791改變成谷氨酸和將天冬氨酸793改變?yōu)榫彼?,形成識別5' -CAGRAC-3'的另一種 新酶。該改變的酶的識別特異性在圖9中顯示。表1 寡核苷酸引物的列表
Mme4GIA774L A774LCTGACGTATCATATTCCTAGTGCTGAACC T(SEQ ID NO: 151) 和 GTTACTTGAAATGACATTTCTATCAACAA AAC (SEQ ID NO: 152))圖3Mme4CIA774K A774KAAGACGTATCATATTCCTAGTGCTGAACC T (SEQ ID NO:153) 和 GTTACTTGAAATGACATTTCTATCAACAA AAC (SEQ ID NO: 154)圖4R810S R810SAGCTATTCTGCCAGCCTGGTTTACA (SEQ ID NO: 155) 和 GTAACGACTTTCTAACCTTCCTCCTACA (SEQ ID NO: 156)Mme3GIE751RCAATTGGAATAAATTGTCTGTTTTCAGAT GATGTGCGAGGTATCAACAGATAGTCCG TATCCG (SEQ ID NO: 157) 和 GTTTTGTTGATAGAAATGTCATTTCAAGT GACGCAACGTATCATATTCCTAGTGCTGA AC (SEQ ID NO: 158)圖5N773DMme6BIE806GGCTGCCTAACCTTCCTCCTACATTTCTCA TCCA (SEQ ID NO: 159) 和 ACCTATAGATATTCTGCCAGCCTGGTTTA CA (SEQ ID NO: 160)圖7R808TMme6NIR808AGTGCCTATAGATATTCTGCCAGCCTGGTT TACA(SEQIDNO:161) 和 TCCATAACCTTCCTCCTACATTTCTCATC CA (SEQ ID NO: 162)圖8E806WSdeA6CID793RCGTTATTCAAATGAAATTGTTTATAACAA CTTCCCT (SEQ ID NO: 163) 和 GTAACGACTTTCTAATCTTCCAGCAACAT ACCGCA (SEQ ID NO:164)圖9K791E總之,通過鑒定DNA結(jié)合蛋白中確定位置特異性DNA堿基識別的位置并且那些位 置改變成在未表征的天然存在的序列中觀察到的不同氨基酸殘基,實施例1、2和3證明了 該DNA結(jié)合蛋白改變來識別新的DNA序列。實施例4 未表征的DNA結(jié)合蛋白的DNA識別特異性的預(yù)測一旦在氨基酸比對內(nèi)的位置(一個或多個)和在那些位置(一個或多個)處賦予 位置特異性DNA堿基識別的具體氨基酸殘基被鑒定,未表征的多肽同源物的DNA識別特異 性可被精確預(yù)測。我們已經(jīng)示出,與MmeI中位置E806-(S)-R808相應(yīng)的氨基酸ExR確定 在DNA識別序列位置中“C"的識別,該DNA識別序列位置緊鄰與MmeI相關(guān)的同源序列家 族中甲基化靶腺嘌呤的3'端。預(yù)測在數(shù)據(jù)庫例如Genbank中發(fā)現(xiàn)的任何同源物——其在 MmeI多肽家族內(nèi)的氨基酸序列比對中在該位置具有相同氨基酸殘基ExR——具有在該位置 識別"C"的高度確定性。相似地,在該位置處殘基"KxD"的存在預(yù)測該多肽將在該位 置識別"G"。氨基酸與識別序列中核苷酸的類型和位置的相關(guān)性的變化可以被包括在該 預(yù)測之內(nèi)。例如,殘基〃 TxR"(來自DraRI)具有預(yù)測的〃 C"識別,而"GVGND“(來自 SpoDI)具有預(yù)測的"G"識別。該預(yù)測方案已對目前表征的組的所有成員所識別的DNA堿 基提供精確預(yù)測,例如EsaSSI,其中DNA識別序列通過實驗被發(fā)現(xiàn)為5' -GACCAC-3',并且 其中C被正確預(yù)測在最靠近3'-端的位置(圖10A)。實施例5 =甲基轉(zhuǎn)移酶家族的裝配:通過收集特異性DNA識別序列已知并且識別REBASE數(shù)據(jù)庫中Y類腺嘌呤甲基轉(zhuǎn)移酶列表的6個DNA堿基的酶的序列,裝配圖22中示出的γ類N6A DNA甲基轉(zhuǎn)移酶。使 用 PR0MALS 算法(http://prodata. swmed. edu/promals/promals. php),比對收集的氨基酸 序列。比對DNA識別序列,將假設(shè)為修飾的腺嘌呤的腺嘌呤放置在比對的位置5處。在通 過方框鑒定的比對的氨基酸序列中的位置與在識別序列比對的位置3處識別的DNA堿基顯 著相關(guān)(X平方P值<0.001)。這是使用所描述的方法鑒定非MmeI-樣家族的蛋白質(zhì)家族 中的識別序列決定因素的實例。
權(quán)利要求
一種方法,其包括(a)使用初始的結(jié)合蛋白在BLAST檢索中查詢數(shù)據(jù)庫來產(chǎn)生結(jié)合蛋白組,其中每個結(jié)合蛋白具有限定的氨基酸序列,使得在BLAST檢索中,對于大于200個氨基酸的序列,所述氨基酸序列的組具有小于e 20的期望值(E),或者對于小于200個氨基酸的序列,具有小于e 10的期望值(E);每個結(jié)合蛋白結(jié)合底物中的特異性靶識別序列,所述靶識別序列含有位置特異性模塊;(b)比對由所述組中所述結(jié)合蛋白識別的靶識別序列;(c)比對所述組的所述結(jié)合蛋白的氨基酸序列;和(d)鑒定所述識別序列中比對的位置特異性模塊和所述結(jié)合蛋白的比對的氨基酸序列中一個或多個位置特異性氨基酸之間的相關(guān)性。
2.根據(jù)權(quán)利要求1所述的方法,其中步驟(b)進一步包括利用所述特異性靶識別序 列中的位置依賴性特征進行比對。
3.根據(jù)權(quán)利要求1所述的方法,進一步包括通過使用所述結(jié)合蛋白組的成員在另外 的BLAST檢索中查詢所述數(shù)據(jù)庫來擴大所述結(jié)合蛋白組。
4.根據(jù)權(quán)利要求1所述的方法,進一步包括在所述組中多個結(jié)合蛋白中鑒定一個氨 基酸殘基或多個氨基酸殘基的位置和類型,所述氨基酸殘基確定在所述識別序列中的一個 或多個位置特異性模塊的識別。
5.根據(jù)權(quán)利要求4所述的方法,進一步包括產(chǎn)生目錄的步驟,所述目錄用于記錄比對 的氨基酸序列中的氨基酸的位置和那些位置處的氨基酸殘基,所述氨基酸殘基確定所述結(jié) 合蛋白組的比對的識別序列中特異性位置處的模塊的特異類型的識別。
6.根據(jù)權(quán)利要求5所述的方法,進一步包括使用所述目錄合理地修飾一個或多個比 對的結(jié)合蛋白的氨基酸序列以識別改變的特異性靶識別序列的步驟。
7.根據(jù)權(quán)利要求4所述的方法,進一步包括在單一結(jié)合蛋白中的相關(guān)位置處非隨機 地突變一個或多個氨基酸以引起所述結(jié)合蛋白的所述特異性靶識別序列的可預(yù)測改變。
8.根據(jù)權(quán)利要求1所述的方法,其中所述組的結(jié)合蛋白成員具有已知的氨基酸序列, 但是具有未表征的特異性靶識別序列,所述方法進一步包括下列步驟(a)通過下列步驟鑒定所述識別序列中的位置特異性模塊(i)檢查比對的結(jié)合蛋白組中所述結(jié)合蛋白成員的氨基酸序列的比對;( )讀出在所述目錄中記錄的位置處的氨基酸殘基;和(iii)比較所述結(jié)合蛋白成員中的氨基酸殘基與所述目錄中記錄的氨基酸殘基;和(b)確定所述結(jié)合蛋白成員的特異性靶識別序列。
9.根據(jù)權(quán)利要求1所述的方法,其中所述位置特異性模塊由DNA底物中的一個或多個 核苷酸組成。
10.根據(jù)權(quán)利要求1所述的方法,其中所述結(jié)合蛋白組是DNA結(jié)合蛋白組。
11.根據(jù)權(quán)利要求9所述的方法,其中所述DNA結(jié)合蛋白組是MmeI-樣蛋白組。
12.根據(jù)權(quán)利要求10所述的方法,進一步包括通過改變MmeI的氨基酸序列中預(yù)確定 的一個位置或多個位置處的氨基酸殘基或在DNA結(jié)合蛋白的MmeI樣蛋白中的等價比對位 置處的氨基酸殘基,來改變所述MmeI樣DNA結(jié)合蛋白的DNA識別序列。
13.根據(jù)權(quán)利要求12所述的方法,其中MmeI的氨基酸序列中的預(yù)確定位置選自751+773、806+808、774+810、774、774+810+809 和 809。
14.根據(jù)權(quán)利要求11所述的方法,其中改變所述識別序列進一步包括改變所述DNA 識別序列的位置3、4和6的一處或多處的核苷酸。
15.根據(jù)權(quán)利要求1所述的方法,進一步包括在計算機可讀存儲器中的數(shù)據(jù)庫中存儲 所述結(jié)合蛋白的氨基酸序列和通過執(zhí)行儲存在計算機中的指令完成步驟(a)、(b)、(c)或 (d)的一個或多個。
16.根據(jù)權(quán)利要求3、4和6的任一個所述的方法,進一步包括通過執(zhí)行儲存在計算機 中的指令完成所述步驟。
17.產(chǎn)生結(jié)合蛋白的方法,所述結(jié)合蛋白識別合理選擇的識別序列,所述方法包括使用蛋白質(zhì)組的成員蛋白質(zhì)的位點定向誘變,在鑒定的與選擇的特異性靶模塊識別相 關(guān)的一個位置或多個位置處用第二氨基酸取代第一氨基酸。
18.自動化圖25A中流程圖的一個或多個步驟的方法,包括利用具有編程指令的計算 機來實現(xiàn)方框1、2、3、4、6和7B中描述的一個或多個功能;和進一步利用能夠進行反應(yīng)以實 現(xiàn)步驟5、7A或8的任一個的裝置。
19.使用執(zhí)行指令的計算機自動化圖25B中流程圖的一個或多個步驟并任選地自動化 包括化學(xué)反應(yīng)在內(nèi)的一個或多個步驟的方法。
20.一種MmeI樣酶,其具有導(dǎo)致在預(yù)確定位置處至少一個改變的氨基酸殘基的突變, 所述預(yù)確定位置具有對于DNA識別序列的特異性,所述DNA識別序列與未改變的酶的DNA 識別序列相比至少一個堿基不同。
21.根據(jù)權(quán)利要求20所述的酶,其中所述至少一個堿基不同由堿基缺失或添加組成。
22.根據(jù)權(quán)利要求20所述的酶,其中所述不同由所述識別序列中鑒定位置處的可選擇 識別的堿基組成。
23.系統(tǒng),其包括存儲指令的存儲器和執(zhí)行指令的計算機,當(dāng)所述指令被執(zhí)行時,其使用初始的結(jié)合蛋白在BLAST檢索中查詢數(shù)據(jù)庫而產(chǎn)生結(jié)合蛋白組,其中每個結(jié)合蛋白具有限定的氨基酸序列,所述氨基酸序列對于大于200個氨基酸的序列具有小于e-20的 期望值(E)或?qū)τ谛∮?00個氨基酸的序列具有小于e-10的期望值(E);所述結(jié)合蛋白與 底物中特異性靶識別序列相結(jié)合,所述靶識別序列包含位置特異性模塊。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),進一步包括指令,當(dāng)執(zhí)行時,其比對所述結(jié)合蛋白識別的特異性靶識別序列;和比對所述組的所述結(jié)合蛋白的氨基酸 序列。
25.根據(jù)權(quán)利要求24所述的系統(tǒng),進一步包括指令,當(dāng)所述指令執(zhí)行時,其鑒定所述識別序列中比對的位置特異性模塊與所述結(jié)合蛋白的比對氨基酸序列中一 個或多個位置特異性氨基酸之間的相關(guān)性。
26.根據(jù)權(quán)利要求25所述的系統(tǒng),進一步包括接收來自蛋白質(zhì)合成和蛋白質(zhì)結(jié)合分 析裝置的數(shù)據(jù)并包含指令的工具,當(dāng)所述指令執(zhí)行時,其使用所述數(shù)據(jù),通過證實突變蛋白質(zhì)與預(yù)確定識別序列結(jié)合的預(yù)測來確認(rèn)所述相關(guān) 性;和將所述數(shù)據(jù)組織成在鑒定位置處確認(rèn)的一個氨基酸或多個氨基酸的目錄,所述鑒定位 置確定所述識別序列中模塊位置和類型的識別。
27.系統(tǒng),其包括存儲指令的存儲器和執(zhí)行所述指令的計算機,當(dāng)所述指令被執(zhí)行 時,其(a)在第一數(shù)據(jù)庫中收集和比對結(jié)合蛋白的氨基酸序列的分選組,并且在第二數(shù)據(jù)庫 中收集和比對至少所述結(jié)合蛋白的亞組的識別序列的分選組,其中所述第一數(shù)據(jù)庫從氨基 酸或核苷酸序列的第三數(shù)據(jù)庫的自動化檢索獲得;(b)鑒定所述氨基酸序列組中選擇的比對位置處的氨基酸和所述識別序列中選擇的比 對模塊位置處的模塊之間的相關(guān)性;(c)從蛋白質(zhì)合成和蛋白質(zhì)結(jié)合分析儀器接收關(guān)于相關(guān)性的數(shù)據(jù),以使用所述數(shù)據(jù),通 過證實突變蛋白質(zhì)與預(yù)確定識別序列結(jié)合的預(yù)測來確認(rèn)所述相關(guān)性;和(d)將所述數(shù)據(jù)組織成在鑒定位置處確認(rèn)的一個氨基酸或多個氨基酸的目錄,所述鑒 定位置確定在所述識別序列中模塊位置和類型的識別。
28.系統(tǒng),其包括存儲指令的存儲器和執(zhí)行所述指令的計算機,當(dāng)所述指令被執(zhí)行 時,其存儲第一結(jié)合蛋白中一個或多個氨基酸殘基的位置信息,進行靶向突變以產(chǎn)生第二結(jié) 合蛋白,所述第二結(jié)合蛋白在由所述蛋白質(zhì)識別的模塊的序列內(nèi)的序列位置中具有預(yù)測的 模塊改變。
29.根據(jù)權(quán)利要求28所述的系統(tǒng),其中所述存儲的指令包括圖7A中的指令。
30.方法或組合物,其包括在所附的說明書中公開的任何特征。
全文摘要
提供產(chǎn)生結(jié)合蛋白的方法和組合物,所述結(jié)合蛋白識別合理選擇的識別序列,在該識別序列中使用與識別序列中選擇的特異性靶模塊的識別相關(guān)的一個或多個鑒定位置處的一組蛋白質(zhì)的成員蛋白的位點定向誘變,將第一氨基酸取代為第二氨基酸。提供一個系統(tǒng),所述系統(tǒng)自動化儲存和操作結(jié)合蛋白中氨基酸殘基位置和類型與靶識別序列中特異性位置處的特異性模塊之間的相關(guān)性,并且所述系統(tǒng)用于設(shè)計和產(chǎn)生具有新特異性的蛋白質(zhì)。
文檔編號C12N15/55GK101933022SQ200880103000
公開日2010年12月29日 申請日期2008年6月20日 優(yōu)先權(quán)日2007年6月20日
發(fā)明者R·D·摩爾根 申請人:新英格蘭生物實驗室公司