,其中該肽區(qū)段與缺乏該肽區(qū)段的多肽相比促進穩(wěn)定性、功能或折疊。
[0058] "嵌合體"是指至少兩個不同的親本蛋白或多肽的至少兩個區(qū)段或結(jié)構(gòu)域的組合。 如本領(lǐng)域技術(shù)人員所理解的,這些區(qū)段不必實際來自每個親本,因為它是相關(guān)的特定序列, 而不是實體核酸或肽本身。例如,嵌合真菌I類纖維二糖水解酶(CBH I纖維素酶)將具有來 自兩個不同的親本CBH I多肽的至少兩個區(qū)段。這兩個區(qū)段是相連的以產(chǎn)生具有纖維二糖 水解酶活性的新多肽。換言之,如果蛋白具有全長親本中任一個的相同序列,那么該蛋白將 不是嵌合體。嵌合多肽能夠包含來自兩個不同親本蛋白的多于兩個區(qū)段。例如,對于每個最 終的嵌合體或嵌合體的文庫來說可能有2、3、4、5-10、10-20個或更多個親本。每個親本多肽 的區(qū)段可以是非常短的或非常長的,區(qū)段的連續(xù)氨基酸的長度范圍可以是蛋白全長的1% 到約90%、95%、98%或99%。在一個實施方案中,最小長度是10個氨基酸,但是長度可以是 15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100個或更多個氨基酸。在一個 實施方案中,確定了兩個親本的一個交叉點。交叉位置確定了一個親本氨基酸區(qū)段停止和 下一個親本氨基酸區(qū)段開始的地方。因而,簡單的嵌合體將只具有一個交叉位置,其中在該 交叉位置之前的區(qū)段屬于第一親本而在該交叉位置之后的區(qū)段屬于第二親本。在一個實施 方案中,嵌合體具有多于一個交叉位置。例如,2、3、4、5、6、7、8、9、10、11-30個或更多個交叉 位置。這些交叉位置如何命名和定義均在以下討論。在其中有兩個交叉位置和兩個親本的 實施方案中,將具有來自第一親本的第一連續(xù)區(qū)段,緊跟著來自第二親本的第二連續(xù)區(qū)段, 緊跟著來自第一親本或又一不同的親本的第三連續(xù)區(qū)段。連續(xù)的旨在表示沒有任何中斷區(qū) 段的含義。這些連續(xù)的區(qū)段相連形成連續(xù)的氨基酸序列。例如,來自嗜熱毛殼菌(此后稱 "Γ )和嗜熱子囊菌(此后稱"2")的在49和94具有兩個交叉點的CBH I嵌合體可具有來自1的 前49個氨基酸,緊跟著來自2的接下來55個氨基酸,緊跟著來自1的剩余氨基酸,所有這些氨 基酸連接在一個連續(xù)氨基酸鏈中。可選地,CBH I嵌合體可具有來自2的前49個氨基酸,來自 1的接下來55個氨基酸以及緊跟著來自2的剩余氨基酸。如本領(lǐng)域技術(shù)人員所理解的,存在 嵌合體的變體以及準確序列。因而,如果是變異的嵌合體,則并非每個區(qū)段的100%必須存 在于最終的嵌合體中??赏ㄟ^額外的殘基或殘基的移除或變化而改變的量將按照術(shù)語變體 所定義的那樣定義。當(dāng)然,如本領(lǐng)域技術(shù)人員所理解的,以上討論不僅適用于氨基酸而且適 用于編碼氨基酸的核酸。
[0059] "保守的氨基酸取代"是指具有類似側(cè)鏈的殘基的可交換性,且因此通常涉及多肽 中的氨基酸由相同或類似定義類別的氨基酸中的氨基酸取代。作為實例而非限制,具有脂 族側(cè)鏈的氨基酸可由另一個脂族氨基酸取代,例如丙氨酸、纈氨酸、亮氨酸、異亮氨酸和甲 硫氨酸;具有羥基側(cè)鏈的氨基酸由具有羥基側(cè)鏈的另一氨基酸取代,例如絲氨酸和蘇氨酸; 具有芳族側(cè)鏈的氨基酸由具有芳族側(cè)鏈的另一氨基酸取代,例如,苯丙氨酸、酪氨酸、色氨 酸和組氨酸;具有堿性側(cè)鏈的氨基酸由具有堿性側(cè)鏈的另一氨基酸取代,例如,賴氨酸、精 氨酸和組氨酸;具有酸性側(cè)鏈的氨基酸由具有酸性側(cè)鏈的另一氨基酸取代,例如,天冬氨酸 或谷氨酸;以及疏水性或親水性氨基酸分別由另一疏水性或親水性氨基酸取代。
[0060] "非保守取代"是指多肽中的氨基酸由具有顯著不同的側(cè)鏈性質(zhì)的氨基酸取代。非 保守取代可使用定義的組之間而不是定義的組之內(nèi)的氨基酸,并影響(a)取代區(qū)域中多肽 骨架的結(jié)構(gòu)(例如,脯氨酸代替甘氨酸),(b)電荷或疏水性,或者(c)側(cè)鏈體積。作為實例而 非限制,示例的非保守取代可以是由堿性或脂族氨基酸取代酸性氨基酸;由小氨基酸取代 芳族氨基酸;以及由疏水性氨基酸取代親水性氨基酸。
[0061] "分離的多肽"是指與其天然伴隨的其他污染物例如蛋白、脂質(zhì)和多核苷酸分離的 多肽。該術(shù)語包括已自其天然存在環(huán)境或表達系統(tǒng)(例如,宿主細胞或體外合成)中移出或 純化的多肽。
[0062] "基本上純的多肽"是指如下組合物:在其中多肽物類是存在的優(yōu)勢物類(即,在摩 爾基礎(chǔ)或重量基礎(chǔ)上它比該組合物中的任何其他個體大分子物類更豐富),并且一般而言 當(dāng)目標物類構(gòu)成存在的大分子物類的按摩爾或重量%計至少約50 %時是基本上純化的組 合物。一般而言,基本上純的多肽組合物將占該組合物中所存在的所有大分子物類的按摩 爾或重量%計的約60 %或更多、約70%或更多、約80%或更多、約90%或更多、約95%或更 多以及約98%或更多。在一些實施方案中,將目標物類純化至基本的均一性(即,通過常規(guī) 檢測方法不能在組合物中檢測出污染物類),其中組合物基本上由單一大分子物類組成。溶 劑物類、小分子(〈500道爾頓)、以及元素離子物類不被認為是大分子物類。
[0063] "參考序列"是指用作序列比較的基礎(chǔ)的限定序列。參考序列可以是較大序列的子 部分,例如,全長基因或多肽序列的區(qū)段。一般而言,參考序列長度可為至少20個核苷酸或 氨基酸殘基,至少25個核苷酸或殘基,至少50個核苷酸或殘基,或核酸或多肽的全長。因為 兩個多核苷酸或多肽可以各自(1)包括在這兩條序列之間相似的序列(即完整序列的一部 分),以及(2)還可以包括在這兩條序列之間相異的序列,所以在兩條(或多條)多核苷酸或 多肽之間的序列比較通常是通過在"比較窗口"上比較這兩條多核苷酸或多肽的序列而進 行的,以識別和比較局部區(qū)域的序列相似性。
[0064] "序列同一性"表示在比較窗口上兩條氨基酸序列基本上相同(即,在逐個氨基酸 的基礎(chǔ)上)。術(shù)語"序列相似性"是指共有相同的生物物理特點的相似氨基酸。術(shù)語"序列同 一性百分比"或"序列相似性百分比"是通過如下方式計算的:在比較窗口上比較兩條最佳 比對的序列,確定兩條多肽序列中存在相同的殘基(或相似的殘基)的位置數(shù)目以得出匹配 的位置數(shù)目,用匹配的位置數(shù)目除以比較窗口中的位置的總數(shù)目(即,窗口大小),并且將結(jié) 果乘以100得出序列同一性百分比(或序列相似性百分比)。關(guān)于多核苷酸序列,術(shù)語序列同 一性和序列相似性具有對于蛋白質(zhì)序列所述的類似的含義,其中術(shù)語"序列同一性的百分 比"指示在比較窗口上兩條多核苷酸序列是相同的(在逐個核苷酸的基礎(chǔ)上)。這樣,還可以 計算多核苷酸序列同一性的百分比(或基于分析算法,多核苷酸序列相似性的百分比,例 如,對于沉默取代或其他取代來說)。最大對應(yīng)可通過使用本文所述的序列算法之一(或本 領(lǐng)域普通技術(shù)人員可用的其他算法)或通過視覺檢查來確定。
[0065] 當(dāng)應(yīng)用于多肽時,術(shù)語基本的同一性或基本的相似性表示當(dāng)諸如通過使用缺省空 位權(quán)重(default gap weight)的程序BLAST、GAP或BESTFIT或通過視覺檢查進行最優(yōu)比對 時,兩條肽序列享有序列同一性或序列相似性。類似地,在應(yīng)用于兩條核酸的上下文時,術(shù) 語基本的同一性或基本的相似性表示當(dāng)諸如通過使用缺省空位權(quán)重的程序BLAST、GAP或 BESTFIT(如本文其他地方描述的)或通過視覺檢查進行最優(yōu)比對時,兩條核酸序列享有序 列同一性或序列相似性。
[0066] 適于確定序列同一性百分比或序列相似性百分比的算法的一個實例是FASTA算 法,它描述于Pearson,W.R.&Lipman,D· J.,( 1988)Proc.Natl ·Acad. Sci .USA 85:2444中。還 參見W.R.Pearson,( 1996)Methods Enzymology 266:227-258。在計算同一性百分比或相似 性百分比的DNA序列的FASTA比對中使用的優(yōu)選的參數(shù)被優(yōu)化,BL50 Matr iX 15 : -5,k-tuple = 2;連接罰分(joining penalty) =40,最優(yōu)= 28;空位罰分-12,空位長度罰分= -2; 以及寬度= 16。
[0067] 有用的算法的另一個實例是PILEUP1ILEUP利用漸進的逐對比對從一組相關(guān)序列 中創(chuàng)建多序列比對來顯示關(guān)系和序列同一性百分比或序列相似性百分比。它還繪制樹或系 統(tǒng)樹圖,顯示用于創(chuàng)建比對的聚類關(guān)系。PILEUP利用Feng&Doolittle,( 1987) J · Mo 1 · Evo 1 · 35 : 351 -360的漸進比對方法的簡化形式。所用的方法與Hi ggins&Sharp, CABI0S 5:151-153,1989所述的方法類似。該程序可比對高達300條序列,各具有5,000個核 苷酸或氨基酸的最大長度。多重比對步驟開始于兩條最相似序列的逐對比對,產(chǎn)生兩條比 對序列的簇。然后這種簇與下一個最相關(guān)的序列或比對序列的簇進行比對。通過兩個個體 序列的逐對比對的簡單延伸對序列的兩個簇進行比對。通過一系列漸進的逐對比對實現(xiàn)最 終的比對。通過指定具體的序列及其序列比對區(qū)域的氨基酸或核苷酸坐標和通過指定程序 參數(shù)來運行該程序。使用PILEUP,利用以下參數(shù)將參考序列與其他測試序列進行比較來確 定序列同一性百分比(或序列相似性百分比)關(guān)系:缺省空位權(quán)重(3.00)、缺省空位長度權(quán) 重(0.10)以及權(quán)重端空位(weighted end gap) JILEUP可以從GCG序列分析軟件包例如7.0 版本獲得(Devereaux等人,(1984)Nuc .Acids Res · 12:387-395) 〇
[0068] 適于多重DNA和氨基酸序列比對的算法的另一個實例是CLUSTALW程序(Thompson, J·D ·等人,(1994)Nuc .Acids Res · 22:4673-4680) XLUSTALW在序列組之間進行多重逐對比 較并且基于序列同一1性將它們裝配成多重比對??瘴婚_放罰分(Gap open penalty)和空位 擴展罰分(Gap extension penalty)分別是10和0.05。對于氨基酸比對來說,BL0SUM算法可 用作蛋白權(quán)重矩陣(protein weight matrix)(Henikoff 和 Henikoff, ( 1992) Proc.Natl·Acad.Sci.USA 89:10915-10919)。
[0069] "功能的"是指如下的多肽,其具有其天然產(chǎn)生的蛋白形式的天然生物活性,或任 何特定的期望的活性,例如,如通過其結(jié)合到配體分子或進行酶促反應(yīng)的能力來判斷。
[0070] 本公開內(nèi)容描述了基于纖維二糖水解酶家族和更具體地纖維二糖水解酶I酶的具 體成員(例如,嗜熱毛殼菌是親本"1"(SEQ ID NO:2),嗜熱子囊菌是親本"2"(SEQ ID NO: 4),紅褐肉座菌是親本"3"(SEQ ID NO:6),嗜熱支頂孢是親本"4"(SEQ ID NO:8)且埃默森 籃狀菌是親本"5"SEQ ID NO: 10))產(chǎn)生纖維二糖水解酶的定向SCHEMA重組文庫。SCHEMA是 用于預(yù)測哪些相關(guān)蛋白的片段可被重組而不影響蛋白的結(jié)構(gòu)完整性的基于計算的方法(參 見,例如,Meyer等人,(2003)Protein Sci ·,12:1686-1693)。這種計算方法鑒定了CBH I親 本蛋白中的七個重組點,從而容許形成CBH I嵌合多肽的文庫,其中每個多肽包含例如從二 至八個區(qū)段。通過利用序列穩(wěn)定性數(shù)據(jù)的線性回歸或通過依賴折疊蛋白與未折疊蛋白的 MSA的共有序列分析而確定每個區(qū)段對總的穩(wěn)定性的加性貢獻,可鑒定具有較高穩(wěn)定性的 嵌合體。SCHEMA重組確保嵌合體通過保留重要的功能殘基同時交換耐受殘基而保持生物功 能并顯不尚的序列多樣性。
[0071] 因而,如通過本文的各種實施方案所顯示的,本公開內(nèi)容提供了包含親本結(jié)構(gòu)域 的嵌合體的CBH I多肽。在一些實施方案中,多肽包含從N端到C端具有不同親本CBH II蛋白 的多個結(jié)構(gòu)域的嵌合體:(區(qū)段1)_(區(qū)段2)_(區(qū)段3)-(區(qū)段4)-(區(qū)段5)-(區(qū)段6)-(區(qū)段7)-(區(qū)段8);
[0072] 其中區(qū)段 1 包含SEQ ID N0:2("1")、SEQ ID N0:4("2")、SEQ ID N0:6("3")、SEQ ID N0:8( "4")或SEQ ID NO: 10( "5")的氨基酸殘基從大約1或從大約18或19到大約x1;區(qū)段 2包含與SEQ ID N0:2("1")、SEQ ID N0:4("2")、SEQ ID N0:6("3")、SEQ ID N0:8("4")或 SEQ ID NO: 10( "5")的氨基酸殘基X1到大約X2至少50-100%相同的序列;區(qū)段3包含與SEQ ID N0:2("1")、SEQ ID N0:4("2")、SEQ ID N0:6("3")、SEQ ID N0:8("4")或SEQ ID N0:10 ("5")的氨基酸殘基x2到大約x3至少50-100%相同的序列;區(qū)段4包含與SEQ ID NO: 2( "1")、 SEQ ID N0:4("2")、SEQ ID N0:6("3")、SEQ ID N0:8("4")或SEQ ID N0:10("5")的氨基酸 殘基X3到大約X4至少50-100%相同的序列;區(qū)段5包含與SEQ ID N0:2("1")、SEQ ID N0:4 ("2")、SEQ ID N0:6("3")、SEQ ID N0:8("4")或SEQ ID 勵:10("5")的氨基酸殘基叉4到大 約 X5 至少 50-100% 相同的序列;區(qū)段 6 包含與 SEQ ID N0:2("1")、SEQ ID N0:4("2")、SEQ ID N0:6("3")、SEQ ID N0:8("4")或SEQ ID N0:10("5")的氨基酸殘基x5到大約X6至少50-100% 相同的序列;區(qū)段 7 包含與 SEQ ID N0:2("1")、SEQ ID N0:4("2")、SEQ ID N0:6 ("3")、SEQ ID NO:8( "4")或SEQ ID NO:10("5")的氨基酸殘基x6到大約X7至少50-100%相 同的序列;及區(qū)段8包含與SEQ ID N0:2("1")、SEQ ID N0:4("2")、SEQ ID N0:6("3")、SEQ ID N0:8( "4")或SEQ ID NO: 10( "5")的氨基酸殘基X7到大約X8至少50-100%相同的序列;
[0073] 其中χ1是SEQ ID N0:2、4、6或8的殘基47、48、49、50、51或52,或是SEQIDN0:10的 殘基 48、49、50、51、52或53;X2是SEQIDN0:2或10的殘基92、93、94、95、96或97,或是SEQID N0:4、6或8的殘基91、92、93、94、95或96 ;X3是SEQIDN0:2的殘基127、128、129、130、131或 132,或是SEQ ID N0:4或6的殘基 125、126、127、128、129或130,或是SEQIDN0:8的殘基 126、127、128、129、130或 131,或是SEQ ID N0:10的殘基 123、124、125、126、127或 128; X4是 SEQ ID N0:2的殘基 175、176、177、178、180或181,或是SEQIDN0:4或SEQIDN0:6的殘基 173、174、175、176、177或 178,或是SEQ ID NO:8的殘基 174、175、176、177、178或 179,或是 SEQ ID N0:10的殘基 171、172、173、174、175或176;X5是SEQIDN0:2的殘基221、222、223、 224、225或226,或是SEQ ID N0:4或SEQ ID N0:6的殘基219、220、221、222、223或224,或是 SEQ ID N0:8的殘基220、221、222、223、224或225,或是SEQIDN0:10的殘基217、218、219、 220、221 或222;X6是SEQ ID N0:2的殘基268、269、270、271、272或273,或是SEQIDN0:4或 SEQ ID N0:6的殘基266、267、268、269、270或271,或是SEQIDN0:8的殘基267、268、269、 270、271或272,或是SEQIDN0:10的殘基264、265、266、267、268或269 ;X7是SEQIDN0:2的 殘基 384、385、386、387、388或389,或是SEQIDN0:4的殘基385、386、387、388、389或390,或 是SEQ ID N0:6的殘基378、379、380、381、382或383,或是SEQIDN0:8或10的殘基383、384、 385、386、387或388;并且X8是對應(yīng)于SEQ ID N0:2的殘基454、SEQ ID N0:4的殘基457、SEQ IDN0:6的殘基458、SEQIDN0:8的殘基453、SEQIDN0:10的殘基455、或者具有序列SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ ID NO:8或SEQ ID NO: 10的多肽的C端的氨基酸 殘基。
[0074] 使用前述結(jié)構(gòu)域參考,產(chǎn)生如表1所列出的大量嵌合結(jié)構(gòu)。
[0075] 表1.二硫鍵配對的CBH I嵌合體以及基礎(chǔ)單體的總酵母分泌MUL活性和T5Q值。T50 值誤差棒代表2個重復(fù)測量的極值,MUL活性值為單一培養(yǎng)物的單一測量,300μΜ MUL,在45 °C下孵育30分鐘。NS表不對于T5Q測量不充足的分泌。
[0076]
[007 /」 穸考上衣,母個數(shù)子指歌甘的(JBil 1多肱的铦構(gòu)頌/兇段。該數(shù)子衣不铦構(gòu)頌/兇段 的親本鏈。例如,具有序列12111 131的嵌合的CBH I多肽表明該多肽從Ν端到C端包含序列: SEQ ID Ν0:2("Γ)的從大約1到1!的氨基酸,連接于SEQ ID Ν0:4("2")的從大約xjljx2的氨 基酸,連接于SEQIDN0:2的從大約x 2到x3的氨基酸,連接于SEQIDN0:2的大約x3到大約x4 的氨基酸,連接于SEQ ID N0:2的從大約X4到大約κ的氨基酸,連接于SEQ ID N0:2的從大約 X5到大約X6的氨基酸,連接于SEQ ID N0:6("3")的從大約X6到X7的氨基酸,連接于SEQ ID NO: 2的從大約X7到χ8(例如,C端)的氨基酸。
[0078] 表2.B7P5嵌合體和相應(yīng)的B7P*5取代的嵌合體的總酵母分泌MUL活性(mol MUL/ (L · s)) X105和T5Q值。T5Q值誤差棒代表2個重復(fù)測量的極值,MUL活性值為單一培養(yǎng)物的單 一測量,300μM MUL,在45°C下孵育30分鐘。
[0079]
[0080] 在一些實施方案中,多肽具有相比于SEQ ID NO: 2、4、6、8或10的野生型多肽的改 善的熱穩(wěn)定性。多肽的活性可以用如實施例中所述的任何一種底物或底物的組合來測量。 如對技術(shù)人員明顯的是,可測試和使用由實施例中討論的化合物所示例的化合物類別中的 其他化合物。
[0081] 在一些實施方案中