專利名稱:人生長(zhǎng)基因和身材矮小基因區(qū)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及新確定的導(dǎo)致人生長(zhǎng)失調(diào)的人類基因,特別是導(dǎo)致矮小身材或Turner綜合癥的基因的分離、鑒定和特征分析,以及對(duì)這些失調(diào)病癥的診斷和治療。
分離得到的基因組DNA或其片段可以用于醫(yī)藥用途,或者作為診斷手段或試劑用于確定或定性分析這些失調(diào)所涉及的遺傳缺陷。本發(fā)明另一個(gè)主題是人類生長(zhǎng)蛋白(轉(zhuǎn)錄因子A、B、C),它們是上述DNA轉(zhuǎn)錄為RNA或mRNA后表達(dá)產(chǎn)生的蛋白,這些蛋白可以用于治療與所述基因內(nèi)的突變有關(guān)的生長(zhǎng)失調(diào)。本發(fā)明還涉及相應(yīng)的cDNA序列,這些cDNA序列可以用來(lái)制備適用于治療這些失調(diào)病癥的重組蛋白。本發(fā)明再一個(gè)主題是用于表達(dá)這些基因的DNA序列的質(zhì)粒載體和合適的含有這些DNA的細(xì)胞。本發(fā)明還有的一個(gè)主題涉及分子藥物領(lǐng)域,即,采用將本發(fā)明的DNA連接在能影響它在哺乳動(dòng)物宿主細(xì)胞中的表達(dá)的啟動(dòng)子下游而制備得到的表達(dá)質(zhì)粒,從而提供治療這些生長(zhǎng)失調(diào)的基因治療手段和方法。
生長(zhǎng)是生物發(fā)育的一項(xiàng)基本內(nèi)容,其調(diào)控系統(tǒng)是高度組織化且復(fù)雜的。身高是一個(gè)多因子性狀,受到環(huán)境和遺傳因子兩方面的影響。與身高相關(guān)的發(fā)育畸形在各種族人群中都是一個(gè)普遍現(xiàn)象。生長(zhǎng)遲緩導(dǎo)致的矮小身材是見于人類的主要先天性缺陷,其發(fā)生率在100人中有3人。
Turner綜合癥是一種常見的染色體紊亂癥,在女性中先天性表型的發(fā)生率為1∶2500(Rosenfeld等,1996)。據(jù)估計(jì)在全部妊娠中有1-2%為45,X并且這些胎兒99%會(huì)夭折(Hall和Gilchrist,1990;Robins,1990)。Turner綜合癥(或Ullrich-Turner綜合癥)患者的表型在臨床上差異顯著(Ullrich,1930;Turner,1938)。但是,矮小身材是總能看到的,它與性腺發(fā)育不全被認(rèn)為是這種染色體紊亂的最重要癥狀。Turner綜合癥是一種真正的多因子紊亂癥。胚胎死亡、矮小身材、性腺發(fā)育不全、獨(dú)特的軀體特征都是由于X、Y染色體上的常規(guī)基因的單倍體化造成的。這些X-Y同源基因的雙倍體性是人體正常發(fā)育所必需的。預(yù)期Turner基因(或反Turner基因)在女性活性的和失活X染色體或Y染色體上均表達(dá),以保證準(zhǔn)確量的基因產(chǎn)物。因此單倍體性缺陷(由于只有單拷貝的活性基因造成的缺陷),應(yīng)被考慮是造成這些疾病的遺傳機(jī)制。
關(guān)于矮小身材的產(chǎn)生機(jī)制已有多種闡述。據(jù)說(shuō)生長(zhǎng)激素和生長(zhǎng)激素受體缺乏以及骨骼發(fā)育障礙是矮小身材表型的原因(Martial等,1979;Phillips等,1981;Leung等,1987;Goddard等,1995)。最近的研究確定三個(gè)人成纖維細(xì)胞生長(zhǎng)因子受體的編碼基因(FGFR1-3)發(fā)生突變是多種骨骼發(fā)育障礙,包括最常見的侏儒癥、軟骨發(fā)育不全的起因(Shiang等,1994;Ruosseau等,1994;Muenke和Schell,1995)。一種眾所周知且常見(1∶2500女性)的染色體紊亂,即Turner綜合癥(45,X),也常與矮小身材關(guān)聯(lián)。但是,所有這些已知原因只能解釋所有矮小患者的一小部分,而絕大部分矮小身材的原因尚待解釋。
性染色體X、Y上帶有影響身高的基因(Ogata和Matsuo,1993),這可以從性染色體異常患者的基因型-表型的相關(guān)性推斷出來(lái)。細(xì)胞遺傳學(xué)研究提供了證據(jù),證明X或Y染色體短臂末端缺失經(jīng)常導(dǎo)致該個(gè)體的矮小身材(Zuffardi等,1982;Curry等,1984)。根據(jù)報(bào)導(dǎo),20多例與Xp和Yp染色體末端缺失相關(guān)的染色體重排,確定導(dǎo)致矮小身材的基因位于假常染色體區(qū)域(PAR1)(Ballabio等,1989,Schaefer等,1993)。上述定位進(jìn)一步被縮窄到PAR1區(qū)域最遠(yuǎn)端700bp DNA范圍內(nèi),其中帶有DXYS15側(cè)翼標(biāo)志序列(Ogata等,1992;1995)。
哺乳動(dòng)物的生長(zhǎng)調(diào)控由一個(gè)復(fù)雜的系統(tǒng)實(shí)施。這就容易想到有多個(gè)生長(zhǎng)促進(jìn)基因(蛋白)以高度有序的方式相互作用。其中一個(gè)控制身高的基因被暫時(shí)定位于假常染色體區(qū)域PAR1(Ballabio等,1989),已知X和Y染色體在該區(qū)域可隨意交換(參見Rappold,1993綜述)。完整的PAR1區(qū)域接近2700kb。
根據(jù)對(duì)發(fā)生缺失的患者進(jìn)行的研究確定了矮小身材基因的關(guān)鍵區(qū)域。當(dāng)整個(gè)700kb區(qū)域被缺失或該關(guān)鍵區(qū)域內(nèi)的一個(gè)特定基因呈現(xiàn)單倍體狀態(tài)、或被阻斷、突變時(shí)就會(huì)產(chǎn)生矮小身材(遺傳性的矮小身材或Turner綜合癥)。世界范圍內(nèi)Turner綜合癥的發(fā)生率是2500位女性中有一位;這種原發(fā)性矮小身材在人群中的發(fā)生率是1∶4000-5000。Turner女性和一些矮小身材個(gè)體通常接受多年至10年以上的非特異性的生長(zhǎng)激素(GH)治療,盡管知道他們的GH水平正常,病因并非是GH缺乏。這些患者的治療費(fèi)用很昂貴(估計(jì)費(fèi)用接近30000USD p.a.)。因此,應(yīng)該考慮一種不使用人GH的替代療法解決現(xiàn)存的問(wèn)題,即提供一種方法和手段能區(qū)別帶有基因缺陷的矮小身材患者和該基因沒有缺陷的患者;屬于基因缺陷的矮小身材患者無(wú)論是由于完全的基因缺失(象Turner綜合癥)還是點(diǎn)突變(象遺傳性矮小身材的情況),應(yīng)能接受這種替代療法,而且目前已經(jīng)可以設(shè)計(jì)這種方法了。
基因型/表型的相關(guān)性支持在Yq近端和Yp遠(yuǎn)端存在生長(zhǎng)基因這一說(shuō)法。矮小身材也常見于Xp末端缺失的個(gè)體。近來(lái)對(duì)假常染色體區(qū)域部分單倍體化的男、女患者進(jìn)行了多方面研究。基于基因型/表型的相關(guān)性,在臨近端粒處確定了一個(gè)700kb DNA的最小共有缺失區(qū)域(Ogata等,1992;Ogata等,1995)。顯示出人們感興趣的這個(gè)區(qū)域位于基因標(biāo)志DXYS20(3cosPP)和DXYS15(113D)之間,PAR1區(qū)域內(nèi)的所有候選生長(zhǎng)調(diào)節(jié)基因(例如,造血生長(zhǎng)因子受體a;CSF2RA)(Gough等,1990)根據(jù)其物理位置就可以將它們排除在外(Rappold等,1992)。這就是說(shuō),生長(zhǎng)基因位于2700kb PAR1區(qū)域的700kb缺失區(qū)域中。
近來(lái)在矮小身材患者中發(fā)現(xiàn)他們的性染色體中的假常染色體區(qū)域(PAR1)發(fā)生缺失,隨后確定出PAR1區(qū)域內(nèi)的700kb的最小共有缺失區(qū)域。利用不同假常染色體標(biāo)志序列對(duì)AK和SS患者的DNA進(jìn)行Southern印跡檢測(cè)鑒定到遠(yuǎn)離DXYS15約700kb處有一個(gè)Xp末端缺失(Ogata等,1992;Ogata等,1995)。
與矮小身材對(duì)應(yīng)的基因區(qū)域已被確定是X、Y染色體PAR1區(qū)域內(nèi)的一個(gè)約500kb的區(qū)域,更好的是約170kb的區(qū)域。在該區(qū)域中已經(jīng)鑒定出矮小身材基因的三個(gè)候選基因。這些基因被定名為SHOX基因(也稱為SHOX93或HOX93)(SHOX=含矮小身材同源異型框的基因),pET92和SHOT(第三染色體上的類SHOX同源異型框的基因)。SHOX基因尤其重要,該基因含有兩個(gè)分開的剪接位點(diǎn),因此有兩種變型(SHOX a和b)。在初步研究中,分析了矮小身材基因核酸序列的必要部分(SEQ ID No 8)??梢灶A(yù)測(cè)出和確定其中的各個(gè)外顯子或組成部分(例如,外顯子Ⅰ[G310];外顯子Ⅱ[ET93];外顯子Ⅳ[G108];pET92)。所獲得的序列信息可以用來(lái)設(shè)計(jì)合適的引物或者能與SHOX基因的一部分或其片段雜交的核酸探針。SHOX基因可以用傳統(tǒng)的方法進(jìn)行分離。對(duì)矮小身材基因的DNA序列進(jìn)一步進(jìn)行分析,可以確定外顯子Ⅰ-Ⅴ的核酸序列(參見
圖1-3)。SHOX基因含有約180bp的一個(gè)同源異型框序列(SEQ ID NO:1)(參見圖2和圖3),從編碼第117個(gè)氨基酸(Q)至編碼第176個(gè)氨基酸(E)的核苷酸,即從CAG(440)到GAG(619)。通過(guò)對(duì)250個(gè)原發(fā)性矮小身材個(gè)體的篩選,鑒定該同源異型框序列即為同源異型框-pET93(SHOX)序列,還分別自一個(gè)德國(guó)(A1)矮小身材患者和一個(gè)日本矮小身材患者體內(nèi)發(fā)現(xiàn)了兩個(gè)點(diǎn)突變。兩個(gè)點(diǎn)突變?cè)谙嗤奈恢?,均?dǎo)致在第195氨基酸處發(fā)生蛋白截?cái)?,提示這里可能存在一個(gè)突變熱點(diǎn)。由于發(fā)現(xiàn)了這兩個(gè)導(dǎo)致蛋白截?cái)嗟耐蛔兪窃谕晃恢?,推測(cè)在外顯子4[G108]中存在一個(gè)重組熱點(diǎn)。因此可以使用如下的外顯子特異性引物,例如GCA CAG CCA ACC ACC TAG(正向)或TGG AAA GGC ATC ATC CGT AAG(反向)。
上述位于170kb間隔區(qū)的新的含同源異型框的基因SHOX,在選擇性剪接后產(chǎn)生兩個(gè)功能不同的蛋白。突變分析和DNA測(cè)序用來(lái)顯示矮小身材可能起因于SHOX的突變。
矮小身材基因關(guān)鍵區(qū)域的鑒定和克隆根據(jù)本發(fā)明如下進(jìn)行對(duì)15名假常染色體區(qū)域(PAR1)部分單倍體化的個(gè)體作精細(xì)的物理圖譜研究。通過(guò)對(duì)照這些個(gè)體的身高與缺失斷裂點(diǎn)的相關(guān)性,確定出約700kb的矮小身材(SS)基因關(guān)鍵區(qū)。隨后利用PAR1區(qū)域構(gòu)建的酵母人工染色體(YACs)(Ried等,1996)通過(guò)粘粒步移將這個(gè)關(guān)鍵區(qū)克隆生成一個(gè)重疊的粘粒連續(xù)克隆系。為了找到位于該間隔區(qū)的SS候選基因,采用多種技術(shù)研究位于粘粒56G10遠(yuǎn)端和51D11近端之間的約600kb區(qū)域。用cDNA選擇、外顯子截留法、CpG島克隆,鑒定到兩個(gè)新基因。
對(duì)三個(gè)一致性身材矮小的更特殊個(gè)體(GA,AT和RY)的特征進(jìn)行研究,可以將矮小身材基因關(guān)鍵間隔區(qū)的位置限定到一個(gè)更小的170kb的DNA間隔區(qū)。為了精確定位這些個(gè)體的重排斷裂點(diǎn),用來(lái)自上述連續(xù)克隆系的粘粒在中期染色體上作熒光原位雜交(FISH)?;颊逩A,其發(fā)生了末端缺失,身高正常,確定出該關(guān)鍵區(qū)域的遠(yuǎn)端界線(斷裂點(diǎn)位于粘粒110E3);患者AT,其X染色體發(fā)生倒位,身高正常,確定出近端界線(斷裂點(diǎn)位于粘粒34F5)。發(fā)現(xiàn)發(fā)生了末端缺失且矮小身材的患者RY的Y-染色體斷裂點(diǎn)也包含在粘粒34F5內(nèi),提示該區(qū)域含有傾向發(fā)生染色體重排的序列。
由Xp/Yp端粒所限定的整個(gè)區(qū)域已被克隆生成一組重疊粘粒。用這些粘粒作熒光原位雜交(FISH),研究6名X染色體發(fā)生了重排的患者,其中3人身高正常,3人身材矮小?;蛐?表型相關(guān)性使我們能將矮小身材基因關(guān)鍵間隔區(qū)縮窄到包含對(duì)人類生長(zhǎng)有重要作用的一個(gè)或一些基因的270kb甚至170kbDNA區(qū)域。橋接該間隔區(qū)的6到8個(gè)粘粒形成的最小蓋瓦式路徑(tiling path)可以應(yīng)用于間期和中期FISH,從而提供了一個(gè)有價(jià)值的原發(fā)性身材矮小癥患者的診斷研究工具。附圖簡(jiǎn)述圖1是SHOX基因的基因圖譜,包括5個(gè)外顯子,標(biāo)記如下外顯子Ⅰ:G310;外顯子Ⅱ:ET93;外顯子Ⅲ: ET45;外顯子Ⅳ:G108;外顯子Ⅴa和Ⅴb。其中Ⅴa和Ⅴb源于SHOX基因的兩個(gè)不同剪接位點(diǎn)。外顯子Ⅱ和Ⅲ含有180個(gè)核苷酸的同源異型框序列。
圖2和3是SHOXa和SHOXb的核苷酸序列和推測(cè)的氨基酸序列SHOXa推測(cè)翻譯起點(diǎn)在第92個(gè)核苷酸處,而閱讀框內(nèi)第一個(gè)終止密碼子(TGA)在第968-970核苷酸,從而形成一個(gè)876bp的開放閱讀框,編碼預(yù)測(cè)為292個(gè)氨基酸的蛋白(分別命名為轉(zhuǎn)錄因子A或SHOXa蛋白)。在第4核苷酸處的閱讀框內(nèi)5’終止密碼子、起始密碼子和推測(cè)的終止密碼子以粗體表示。同源異型框以框線示出(從117號(hào)氨基酸(Q)到176號(hào)氨基酸(E),即核苷酸序列是從CAG到GAG)。內(nèi)含子的位置用箭頭示出。位于3’非翻譯區(qū)的兩個(gè)被推測(cè)為多聚腺苷酸化信號(hào)序列的下面加有下劃線。
SHOXb:876bp的開放閱讀框從第92號(hào)核苷酸對(duì)應(yīng)的第一個(gè)蛋氨酸A到第767-769號(hào)核苷酸對(duì)應(yīng)的閱讀框內(nèi)終止密碼子為止,形成675bp的開放閱讀框,編碼預(yù)計(jì)為225個(gè)氨基酸的蛋白(分別為轉(zhuǎn)錄因子B或SHOXb蛋白)。內(nèi)含子的位置用箭頭示出。外顯子Ⅰ-Ⅳ與SHOXa相同,外顯子Ⅴ是SHOXb特有的。3’非翻譯區(qū)內(nèi)的兩個(gè)被推測(cè)為多聚腺苷酸化信號(hào)序列的下面加有下劃線。
圖4是SHOT的核苷酸序列和推測(cè)的氨基酸序列。推測(cè)翻譯起點(diǎn)在第43個(gè)核苷酸處,而閱讀框內(nèi)第一個(gè)終止密碼子(TGA)在第613-615核苷酸處,從而形成一個(gè)573bp的開放閱讀框,編碼預(yù)測(cè)為190個(gè)氨基酸的蛋白(分別命名為轉(zhuǎn)錄因子C或SHOT蛋白)。同源異型框由框線示出(從11號(hào)氨基酸(Q)到第70號(hào)氨基酸(E),即核苷酸序列是從CAG到GAG)。內(nèi)含子的位置用箭頭示出。3’非翻譯區(qū)內(nèi)的兩個(gè)被推測(cè)為多聚腺苷酸化信號(hào)序列的下面加有下劃線。
圖5給出人類SHOX基因的外顯子/內(nèi)含子組織方式以及各自在核酸序列中的位置。序列簡(jiǎn)述SEQ ID NO.1翻譯后的同源異型框結(jié)構(gòu)域(180 bp)的氨基酸序列SEQ ID NO.2:SHOX基因的外顯子Ⅱ(ET93)SEQ ID NO.3:SHOX基因的外顯子Ⅰ(G310)SEQ ID NO.4:SHOX基因的外顯子Ⅲ(ET45)SEQ ID NO.5:SHOX基因的外顯子Ⅳ(G108)SEQ ID NO.6:SHOX基因的外顯子ⅤaSEQ ID NO.7:SHOX基因的外顯子ⅤbSEQ ID NO.8:SHOX基因的初始核苷酸序列SEQ ID NO.9:ET92基因SEQ ID NO.10:SHOXa序列(亦可參見圖2)SEQ ID NO.11轉(zhuǎn)錄因子A(亦可參見圖2)SEQ ID NO.12:SHOXb序列(亦可參見圖3)SEQ ID NO.13轉(zhuǎn)錄因子B(亦可參見圖3)SEQ ID NO.14:SHOX基因SEQ ID NO.15:SHOT序列(亦可參見圖4)SEQ ID NO.16轉(zhuǎn)錄因子C(亦可參見圖4)因?yàn)樵诒景l(fā)明之前,引起人類生長(zhǎng)失調(diào)的目標(biāo)基因(例如,矮小身材基因區(qū)域)是不為人知的,患者的生物學(xué)和臨床癥狀與這個(gè)缺失的關(guān)系有助于理解這個(gè)基因的功能。在本發(fā)明中,用熒光原位雜交(FISH)檢測(cè)了6名患者的中期和間期淋巴細(xì)胞核。其目的是測(cè)試所有重疊粘粒能否作為FISH探針,以及確定四個(gè)病例的斷裂點(diǎn)區(qū)域,從而確定矮小身材基因最小的關(guān)鍵區(qū)域。
利用小心控制的定量PCR或Southern印跡劑量估計(jì)或者利用RFLP,可以以技術(shù)手段評(píng)估出基因組DNA的復(fù)制和缺失。但一種尤為可信的用于區(qū)別單倍和雙倍劑量標(biāo)志序列的方法是FISH,該技術(shù)已常規(guī)性地用于臨床。間期FISH可以對(duì)分子標(biāo)志序列的存在與否作出估測(cè),中期染色體的FISH可以對(duì)粘粒內(nèi)缺失進(jìn)行半定量測(cè)量。本發(fā)明人已發(fā)現(xiàn)大約10kb的缺失(信號(hào)減少25%)仍能被檢測(cè)到。這有很重要的意義,因?yàn)槭聦?shí)上人類X染色體上的所有疾病基因都與幾千到幾百萬(wàn)堿基對(duì)的或大或小的缺失相關(guān)(Nelson等,1995)。
本發(fā)明主題是人生長(zhǎng)(或矮小身材,如果這些基因發(fā)生遺傳缺陷的話)相關(guān)基因的一部分的DNA序列或片段。鑒定到的三個(gè)與人生長(zhǎng)直接相關(guān)的基因是SHOX、pET92和SHOT。這些基因的DNA序列或片段以及這些基因各自的全長(zhǎng)完整序列可以被轉(zhuǎn)化到合適的載體中,并轉(zhuǎn)染進(jìn)細(xì)胞中。當(dāng)將這些載體以適當(dāng)?shù)姆绞綄?dǎo)入細(xì)胞,使其與健康人體內(nèi)的情況相同,就能有目的地以現(xiàn)代基因治療手段治療包括矮小身材即Turner綜合癥在內(nèi)的多種疾病。例如,治療矮小身材可以采取去除引起矮小身材的突變基因的方法。還可以刺激相關(guān)的能補(bǔ)償與身材矮小直接相關(guān)的基因的活性的基因,即通過(guò)在生長(zhǎng)/身材矮小基因之前、之后或之間插入DNA序列以便提高健康等位基因的表達(dá)?;虮蝗绱诵揎椇螅L(zhǎng)/身材矮小基因?qū)⑾鄳?yīng)激活或沉默。這一目的可通過(guò)在臨近該基因或基因內(nèi)的合適位點(diǎn)插入DNA序列來(lái)實(shí)現(xiàn),這些被插入的DNA序列干擾生長(zhǎng)/矮小基因,從而激活或抑制它們的轉(zhuǎn)錄。也可以在所述生長(zhǎng)基因前插入調(diào)控元件(例如啟動(dòng)子序列)使其活躍表達(dá)。還可以刺激相應(yīng)的啟動(dòng)子序列,在Turner綜合癥情況下使功能正常的等位基因過(guò)表達(dá)以禰補(bǔ)缺失的等位基因?;虻男揎椏梢酝ㄟ^(guò)同源重組而在生長(zhǎng)/矮小基因中插入外源DNA序列來(lái)實(shí)現(xiàn)。
還可用本發(fā)明的DNA序列通過(guò)合適的載體系統(tǒng)對(duì)動(dòng)物,例如哺乳動(dòng)物進(jìn)行轉(zhuǎn)化。得到的轉(zhuǎn)基因動(dòng)物隨后可用于活體內(nèi)研究,用于篩選或鑒定能有效治療涉及矮小身材等疾病的藥物。如果動(dòng)物對(duì)所給的候選化合物或試劑呈陽(yáng)性反應(yīng),則可將該化合物或試劑或其衍生物設(shè)計(jì)成藥物。通過(guò)適當(dāng)?shù)氖侄危景l(fā)明的序列還可以用于其目的在于找到能補(bǔ)償導(dǎo)致身材矮小的基因缺失的方法的遺傳實(shí)驗(yàn)(基因被敲除的動(dòng)物)。
本發(fā)明另一個(gè)方面是,本發(fā)明DNA序列可以用于轉(zhuǎn)化細(xì)胞??捎眠@些細(xì)胞鑒定能有效治療包括矮小身材等疾病的藥物,或篩選這樣的化合物或化合物庫(kù)。在適當(dāng)?shù)膶?shí)驗(yàn)體系中,可以確定這些細(xì)胞的表型或表達(dá)方式的變化,從而在開發(fā)藥物過(guò)程中鑒定到令人感興趣的候選藥劑。
本發(fā)明的DNA序列還可用于設(shè)計(jì)出合適的引物,該引物能與矮小基因片段或區(qū)段在嚴(yán)謹(jǐn)條件下雜交??梢詷?gòu)建合適的引物序列,這些序列可用于診斷由基因缺陷而導(dǎo)致的身材矮小患者。關(guān)于這一點(diǎn),出現(xiàn)在相同位置上的兩個(gè)突變提示有一個(gè)突變熱點(diǎn)存在,這是值得人們注意的。
總體來(lái)說(shuō),應(yīng)該理解的是本發(fā)明的DNA序列還包括根據(jù)遺傳密碼的簡(jiǎn)并性變成所示特定序列的DNA序列,或者與圖示的特定序列在嚴(yán)謹(jǐn)條件下能雜交的DNA序列。
本發(fā)明具體涵蓋以下方面的內(nèi)容a)一種分離的人類核酸分子,該分子編碼的多肽包括60個(gè)氨基酸的同源異型框結(jié)構(gòu)域,該結(jié)構(gòu)域具有SEQ ID NO:1的氨基酸序列,該多肽有調(diào)節(jié)人體生長(zhǎng)的活性。
b)一種分離的DNA分子,該分子所包含的核苷酸序列基本如圖2、3或圖4所示,具體地講如SEQ ID NO:10、SEQ ID NO:12或SEQ IDNO:15所示。
c)能與b)項(xiàng)的DNA分子雜交的DNA分子。
d)c)中能與b)項(xiàng)的DNA分子在60-70℃在標(biāo)準(zhǔn)緩沖液中雜交的DNA分子e)包含與圖示的SEQ ID NO:10、SEQ ID NO:12或SEQ ID NO:15核苷酸序列有70%或更高的同源性的核苷酸序列的DNA分子,該DNA分子編碼具有人體生長(zhǎng)調(diào)節(jié)活性的多肽。
f)具有SEQ ID NO-11、13或16所列氨基酸序列的人生長(zhǎng)蛋白或其功能性片段。
g)用f)項(xiàng)的人生長(zhǎng)蛋白或其抗原性變異體免疫動(dòng)物后得到的抗體。
h)含有人生長(zhǎng)蛋白或其功能性片段的藥物組合物,該組合物可用于治療由人類生長(zhǎng)基因的遺傳突變導(dǎo)致的失調(diào)。
i)一種能有效治療如上h)項(xiàng)所述生長(zhǎng)失調(diào)的物質(zhì)的篩選方法,包括檢測(cè)能與上述a)-e)項(xiàng)的任一DNA分子雜交的信使RNA,以便衡量用該物質(zhì)處理宿主細(xì)胞時(shí)引起的DNA分子表達(dá)水平的提高。
j)含有上述a)-e)項(xiàng)中任意核酸分子的表達(dá)載體或質(zhì)粒,該載體或質(zhì)粒能在哺乳動(dòng)物細(xì)胞中表達(dá)所述DNA分子。
k)一種在生物組織或體液樣品中檢測(cè)引起矮小身材的一個(gè)或一些基因的方法。
在k)項(xiàng)所述方法中,優(yōu)選采用本領(lǐng)域技術(shù)人員熟知的檢測(cè)特異核苷酸序列的核酸擴(kuò)增技術(shù),例如PCR,其詳細(xì)方法描述于,例如,本文引作參考的文獻(xiàn)中,Mullis等,1986,冷泉港研討會(huì)定量生物學(xué),51,263-273,及Saiki等,1988,科學(xué)239,487-491。要確定的矮小身材核苷酸序列主要是SEQ ID NO:2到SEQ ID NO:7所代表的那些。
原則上,所有能用于在生物樣品中擴(kuò)增和檢測(cè)引起生長(zhǎng)停滯的基因缺陷的寡核苷酸引物和探針,都適用于擴(kuò)增矮小身材相關(guān)靶序列。特別是表1給出的適用于本發(fā)明的外顯子特異引物對(duì)。隨后可以進(jìn)行合適的檢測(cè)例如放射性或非放射性標(biāo)記檢測(cè)。
表1
引物中縮寫符號(hào)的含義SP1:ATTTCCAATGGAAAGGCGTAAATAACSP2:ACGGCTTTTGTATCCAAGTCTTTTGSP3:GCCCTGTGCCCTCCGCTCCCSP4:GGCTCTTCACATCTCTCTCTGCTTCSP5:CCACACTGACACCTGCTCCCTTTGSP6:CCCGCAGGTCCAGGCTCAGCTGASP1:CGCCTCCGCCGTTACCGTCCTTGASP2:CCCTGGAGCCGGCGCGCAAAGASP3:CCCCGCCCCCGCCCCCGGASP4:CTTCAGGTCCCCCCAGTCCCGASP5:CTAGGGATCTTCAGAGGAAGAAAAAGASP6:GCTGCGCGGCGGGTCAGAGCCCCAG單鏈RNA也可以作為靶序列。RNA反轉(zhuǎn)錄為cDNA的方法是眾所周知的,這一技術(shù)被描述于Sambrook等,分子克隆實(shí)驗(yàn)室手冊(cè),紐約,冷泉港實(shí)驗(yàn)室1989。另外,優(yōu)選使用耐熱的具有RT活性的DNA聚合酶進(jìn)行反轉(zhuǎn)錄。
另外,可以用以前描述過(guò)的技術(shù)從一群人中挑選其矮小身材是由基因缺陷導(dǎo)致的人,以便結(jié)果進(jìn)行更特異的藥物治療。
在本發(fā)明的另一個(gè)主題中,轉(zhuǎn)錄因子A、B和C可以作為藥物。這些轉(zhuǎn)錄因子在分子水平上啟動(dòng)涉及人體生長(zhǎng)的一系列級(jí)聯(lián)生物學(xué)效應(yīng)。所述蛋白或其功能性片段能促進(jìn)多種細(xì)胞的有絲分裂,特別是它們具有促進(jìn)骨生成的作用。它們可以用于治療骨骼疾病,例如骨質(zhì)疏松癥,尤其是涉及骨骼鈣調(diào)節(jié)失衡的所有疾病。
本文所用的術(shù)語(yǔ)“分離的”是指DNA分子通過(guò)克隆得到的初始衍生物。但應(yīng)該明白,其含義不局限于此,事實(shí)上,正如本領(lǐng)域技術(shù)人員所理解的,本發(fā)明涉及天然存在的和合成制備的序列。
本發(fā)明的DNA分子可以以基因治療劑的形式使用,包括使用表達(dá)質(zhì)粒,該質(zhì)粒的制備是將本發(fā)明中合適的DNA序列連接在能影響它在哺乳動(dòng)物宿主細(xì)胞中的表達(dá)的啟動(dòng)子的下游。合適的宿主細(xì)胞是原核或真核細(xì)胞。原核細(xì)胞例如是大腸桿菌、枯草桿菌等。用于轉(zhuǎn)染宿主細(xì)胞的復(fù)制子是源于適應(yīng)宿主的種類的復(fù)制子,即包含復(fù)制起始位點(diǎn)和調(diào)控序列的質(zhì)粒載體,這樣宿主細(xì)胞就可被期望的基因或cDNA轉(zhuǎn)染。優(yōu)選載體含有一段序列,該序列賦予宿主可被挑選出來(lái)的特性(表型)。例如,常用E.coli K12菌株作為大腸桿菌宿主,載體可以選用質(zhì)粒pBR322或pUC。適用于大腸桿菌的啟動(dòng)子是trp啟動(dòng)子、lac啟動(dòng)子或lpp啟動(dòng)子。如果需要,可以在基因的5’上游連接一段編碼信號(hào)肽的DNA序列,以使表達(dá)產(chǎn)物分泌到細(xì)胞膜外。真核宿主細(xì)胞包括來(lái)源于脊椎動(dòng)物或酵母等的細(xì)胞。如用脊椎動(dòng)物宿主細(xì)胞,可以用COS細(xì)胞(細(xì)胞,1981,23:175-182),或CHO細(xì)胞。優(yōu)選所用啟動(dòng)子位于待表達(dá)基因的5’上游,(所述基因)含有RNA剪接位點(diǎn)、多聚腺苷酸化和轉(zhuǎn)錄終止序列。
本發(fā)明的轉(zhuǎn)錄因子A、B、C可以用于治療由人生長(zhǎng)基因突變引起的失調(diào),也可以作為生長(zhǎng)促進(jìn)劑。基于真核基因的多態(tài)性,一個(gè)或多個(gè)氨基酸可被替代。另外,可以在多肽SEQ ID NO:11、13或16所示氨基酸序列的一或多個(gè)位點(diǎn)中插入或缺失一或多個(gè)氨基酸。此處所述多肽一般是指未被修飾生物學(xué)活性基本保持不變的等效多肽。
本發(fā)明通過(guò)以下實(shí)施例來(lái)說(shuō)明實(shí)施例1患者6名患者均為原發(fā)性染色體異常。
CC是一名核型為45,X/46,X pus dic(X)(Xqter→Xp22.3∷Xp22.3→Xqter)的女孩。在6歲半時(shí)最后一次檢查,她的身高為114厘米(處于第25-50百分位的范圍內(nèi))。其母身高為155厘米,其父未做檢測(cè)。欲知詳細(xì)內(nèi)容,請(qǐng)參見Henke等,1991。
GA是一名核型為46,X der X(3pter→3p23∷Xp22.3→Xqter)的女孩。在17歲時(shí)最后一次檢查,她的身高正常,為159厘米。其母身高為160厘米,其父為182厘米。欲知詳細(xì)內(nèi)容,請(qǐng)參見Kulharya等,1995。
SS是一名核型為46,X rea(X)(Xqter→Xq26∷Xp22.3→Xq26:)的女孩。11歲時(shí)身高仍低于日本女孩生長(zhǎng)曲線的第3百分位;預(yù)計(jì)其成年身高為148.5cm,低于其目標(biāo)身高(163cm)和目標(biāo)身高范圍(155-191cm)。欲知詳細(xì)內(nèi)容,請(qǐng)參見Ogata等,1992。
AK是一名核型為46,X rea(X)(Xqter→Xp22.3∷Xp22.3→Xp21.3)的女孩。13時(shí)身高仍低于日本女孩生長(zhǎng)曲線的第2百分位;預(yù)計(jì)其成年身高為142.8cm,低于其目標(biāo)身高(155.5cm)和目標(biāo)身高范圍(147.5-163.5cm)。欲知詳細(xì)內(nèi)容,請(qǐng)參見Ogata等,1995。
RY一個(gè)環(huán)形Y患者,檢測(cè)100個(gè)淋巴細(xì)胞得其核型為46,X,r(Y)/46,X dic r(Y)/45,X[95∶3∶2];其16歲時(shí)的最終身高為148cm;他的三個(gè)兄弟身高均在正常范圍,分別為170cm(16歲,兄弟1),164cm(14歲,兄弟2)、128cm(9歲,兄弟3)。這個(gè)患者生長(zhǎng)遲緩非常嚴(yán)重,可能是在Yq還缺失了GCY座位。
AT運(yùn)動(dòng)失調(diào)、X染色體有倒位的男孩;7歲身高正常,為116cm,其父母分別為156cm和190cm。
用于突變分析的患者檢測(cè)250名原發(fā)性矮小身材個(gè)體的SHOXa突變?;颊叩倪x擇遵循如下原則其年齡對(duì)應(yīng)的身高低于全國(guó)身高標(biāo)準(zhǔn)的第三百分位,標(biāo)準(zhǔn)誤差為-2(SDS);沒有病原性疾病,特別是相對(duì)妊娠年齡體重(身高)正常,體型正常,沒有慢性器官紊亂,飲食正常,沒有精神失常,沒有骨骼發(fā)育不良,沒有甲狀腺或生長(zhǎng)激素缺乏。
家族A病例1和2是一個(gè)德國(guó)無(wú)血緣關(guān)系家庭的矮小身材子女。男孩(病例1)生于在妊娠38周時(shí)的剖腹產(chǎn)。出生體重為2660克,身高為47cm。他的發(fā)育除生長(zhǎng)情況外均正常。6.4歲時(shí)檢測(cè),他較為矮小(106.8cm,-2.6SDS)和肥胖(22.7kg),但其他方面正常。他的骨骼年齡沒有延遲(6歲),X-射線檢查也排除了骨骼發(fā)育不良。血清中IGF-I和IGFBP-3水平和甲狀腺參數(shù)指示不可能有GH或甲狀腺激素缺陷。女孩(病例2)出生于足月剖腹產(chǎn)。出生體重為2920克,身高為47cm。她的發(fā)育進(jìn)程正常,但在12個(gè)月以前生長(zhǎng)不良是明顯的(身高67cm,-3.0SDS)。4歲時(shí),其身高為89.6cm(-3.6SDS)。沒有明顯的體型畸形或比例失調(diào)。她也不肥胖(13kg)。她的骨骼年齡是3.5歲,排除了骨骼發(fā)育不良。激素參數(shù)正常。有趣的是該男孩和女孩均達(dá)到Turner綜合癥女性生長(zhǎng)曲線的第50百分位。其母親是家族中最矮的,患有輕度肢根比例失調(diào)(142.3cm,-3.8SDS)。她的兩姐妹之一(150cm,-2.5SDS)和該家庭的外婆(153cm,-2.0SDS)均矮小但沒有比例失調(diào)。另一個(gè)姐妹身高正常(167cm,+0.4SDS)。該家庭中父親身高為166cm(-1.8SDS),外公身高165cm(-1.9SDS)。另一個(gè)患者為日本血統(tǒng),顯示有同樣的突變。實(shí)施例2矮小身材基因的鑒定A.原位雜交a)熒光原位雜交(FISH)用粘粒在Xp/Yp假常染色體區(qū)域(PAR1)進(jìn)行熒光原位雜交(FISH)。FISH研究所用粘粒為64/75cos(LLNLc110H032)、E22cos(2e2)、F1/14cos(110A7)、M1/70cos(110E3)、P99F2cos(43C11)、P99cos(LLNLc110P2410)、B6cosb(1CRFc104H0425)、F20cos(34F5)、F21cos(ICRFc104G0411)、F3cos2(9E3)、F3cos1(11E6)、P117cos(29B11)、P6cos1(ICRFc104P0117)、P6cos2(LLNLc110E0625)和E4cos(15G7)、按照Lichter和Cremer,1992方法進(jìn)行該FISH研究。簡(jiǎn)要步驟是,取一毫克各粘??寺∮蒙锼貥?biāo)記,與人中期染色體雜交,所取反應(yīng)條件能抑制重復(fù)DNA序列產(chǎn)生的信號(hào)。用偶聯(lián)FITC的親和素檢測(cè)雜交信號(hào)。用冷的電荷耦合器攝影系統(tǒng)拍攝FITC圖象(Photometrics,Tucson,AZ)。
b)物理圖譜粘粒來(lái)源于Lawrence Livermore國(guó)家實(shí)驗(yàn)室X-和Y-染色體庫(kù)和倫敦皇家癌癥研究基金會(huì)(現(xiàn)為柏林Max P1anck分子遺傳學(xué)研究所)X染色體庫(kù)。用DXYS15遠(yuǎn)端粘粒E4cos、P6cos2、P6cos1、P117cos和F3cos1可以確定仍有兩個(gè)拷貝的E4cos、P6cos2、P6cos1和一個(gè)拷貝的P117cos和F3cos1?;颊逜K和SS的斷裂點(diǎn)確定位于粘粒P6cos1上,相互的最大圖距為10kb??梢缘贸鼋Y(jié)論AK和SS的異常X染色體有約630kb的DNA缺失。
其他粘粒來(lái)自ICRF X染色體特異粘粒庫(kù)(ICRFc104),LawrenceLivermore X染色體特異粘粒庫(kù)(LLNLc110)和Y染色體特異庫(kù)(LLCO3’M)以及自建的包含整個(gè)基因組的粘粒庫(kù)。用所有已知位于這一區(qū)域的探針和用整個(gè)YACs作為探針進(jìn)行雜交以鑒定粘粒。為證實(shí)重疊序列,在用已知探針不能證實(shí)重疊的情況下,要用來(lái)自于幾個(gè)粘粒的末端探針。
c)Southern印跡雜交用不同假常染色體標(biāo)志序列做Southern印跡雜交,證明CC患者的X染色體斷裂點(diǎn)位于DXYS20(3cosPP)和DXYS60(U7A)之間(Henke等,1991)。為了證實(shí)這個(gè)發(fā)現(xiàn)并精確確定斷裂點(diǎn)的位置,用粘粒64/75cos、E22cos、F1/14cos、M1/70cos、F2cos、P99F2cos和P99cos做FISH探針。可以確定患者CC異常X染色體上的斷裂點(diǎn)在E22PAC中,位于粘粒64/75cos(一個(gè)拷貝)和F1/14cos(兩個(gè)拷貝)之間?;颊逤C丟失了接近260-290kb的DNA,身高仍正常。
Southern印跡雜交在高度嚴(yán)謹(jǐn)條件下在Church緩沖液(0.5M NaPipH7.2,7%SDS,1mM EDTA)中進(jìn)行,反應(yīng)溫度65℃,用40mM NaPi,1%SDS于65℃洗滌。
d)FISH檢測(cè)生物素標(biāo)記的粘粒DNA(插入片段為32-45kb)或粘粒片段(10-16kb)與患者的被激活淋巴細(xì)胞的中期染色體雜交,反應(yīng)條件如前所述(Lichter和Cremer,1992)。發(fā)生了雜交的探針用親和素偶聯(lián)的FITC檢測(cè)。
e)PCR擴(kuò)增所有PCR均在50ul反應(yīng)體系中進(jìn)行,所述50ul中含有100pg-200ng模板、各為20pmol的引物、200uM dNTP’s(Pharmacia)、1.5mM MgCl2、75mM Tris/HCl(pH9)、20mM(NH4)2SO4、0.01%(w/v)Tween20和2U的Goldstar DNA聚合酶(Eurogentec)。熱循環(huán)用ThermocyclerGeneE(Techne)做。
f)外顯子擴(kuò)增外顯子擴(kuò)增采用四個(gè)粘粒庫(kù),各含4到5個(gè)來(lái)自粘粒連續(xù)克隆系的克隆。每個(gè)粘粒庫(kù)中的粘粒用Sau3A部分消化。將經(jīng)凝膠純化的4-10kb片段克隆至BamHI消化的pSPL3B載體(Burn等,1995)中,用如以前所描述方法做外顯子擴(kuò)增(Church等,1994)。
g)基因組測(cè)序?qū)蓚€(gè)粘粒LLOYNCO3’M’15D10和LLOYNCO3’M’34F5經(jīng)超聲破碎的斷片分別亞克隆至M13mp18載體中。從每個(gè)粘粒庫(kù)至少挑出1000個(gè)噬菌斑,M13 DNA的制備和測(cè)序用染料-終止劑(dye-terminators)、耐熱測(cè)序酶(Amersham)和通用M13-引物(MWG-BioTech)。在ABI-377測(cè)序儀上跑膠,收集數(shù)據(jù),并用GAP4程序(Staden)進(jìn)行編輯。
6名患者中,GA的染色體斷裂點(diǎn)的特征最不明確。先前用于檢測(cè)它們是否存在于X染色體的最遠(yuǎn)端標(biāo)志物是DXS1060和DXS996,它們與端粒的圖距接近6Mb(Nelson等,1995)。檢測(cè)了幾個(gè)含有PAR1內(nèi)的不同基因序列的粘粒(MIC2、ANT3、CSF2RA和XE7),結(jié)果表明它們?nèi)课挥谝孜蝗旧w上。由矮小身材基因關(guān)鍵區(qū)域例如染色體產(chǎn)生的粘粒斷定易位斷裂點(diǎn)位于粘粒M1/70cos。正常的和重排X染色體之間M1/70cos信號(hào)強(qiáng)度的定量對(duì)比顯示這個(gè)粘粒的約70%缺失。
表2
表2表中總結(jié)了用16個(gè)粘粒在4名患者中檢測(cè)的FISH數(shù)據(jù)[-]一個(gè)拷貝;表明相應(yīng)粘粒在重排X上缺失,但在正常X染色體上存在。兩個(gè)拷貝;表明相應(yīng)粘粒在重排X和正常X染色體上都存在。斷裂點(diǎn)區(qū)域;表明FISH顯示斷裂點(diǎn)在粘粒內(nèi)部。
總之,用熒光標(biāo)記的粘粒探針和原位雜交對(duì)6名X染色體重排的患者進(jìn)行的分子檢測(cè)表明矮小身材基因關(guān)鍵區(qū)可以縮窄到一個(gè)270kb間隔區(qū),該區(qū)由患者GA著絲粒遠(yuǎn)端斷裂點(diǎn)和患者AK和SS的著絲粒近端界定。
基因型-表型相關(guān)性可以提供一定信息,該相關(guān)性已被選擇用于描述在人X和Y染色體上的矮小身材基因關(guān)鍵間隔區(qū)。本研究中,用FISH檢測(cè)患者淋巴細(xì)胞中期染色體(spreads)和間期細(xì)胞核,這些患者的X染色體上有缺失和易位,這些斷裂點(diǎn)位于Xp22.3。斷裂點(diǎn)在四名患者中的兩位(AK和SS)中呈現(xiàn)簇狀結(jié)構(gòu),預(yù)計(jì)是由有染色體重排傾向的序列造成的。發(fā)現(xiàn)另一個(gè)環(huán)形Y患者在270 kb關(guān)鍵區(qū)內(nèi)有中斷,由此使關(guān)鍵間隔區(qū)減小到170kb。
對(duì)照6個(gè)人的身高與缺失斷裂點(diǎn),可以確定170kb間隔區(qū)位于假常染色體區(qū)域,該區(qū)域的存在與否對(duì)身高有顯著的影響。這個(gè)間隔區(qū)由患者GA距離端粒340kb的X染色體斷裂點(diǎn)(Xpte1)和患者AT及RY的510/520kb處的Xptel近端斷裂點(diǎn)界定。這樣將關(guān)鍵間隔區(qū)縮小到其原來(lái)大小(Ogata等,1992;Ogata等,1995)的幾乎四分之一?,F(xiàn)在可以用6到8個(gè)的一組粘粒做FISH試驗(yàn),用于確定大量原發(fā)矮小身材患者中這個(gè)基因組位點(diǎn)的分布優(yōu)勢(shì)和重要性。
B.候選矮小身材基因的鑒定為了找到最小的170kb關(guān)鍵區(qū)中的轉(zhuǎn)錄單位,對(duì)6個(gè)粘粒(110E3、F2cos、43C11、P2410、15D10、34F5)做外顯子截留和cDNA選擇研究。三個(gè)不同的陽(yáng)性克隆(ET93、ET45和G108)由外顯子截留法分離得到,它們又全部定位到粘粒34F5上。以前使用cDNA選擇和過(guò)量使用25個(gè)不同cDNA文庫(kù)的方法經(jīng)證明無(wú)效,這一點(diǎn)提示間隔區(qū)的基因的表達(dá)豐度極低。
為了查明間隔區(qū)內(nèi)的基因是否有丟失,用任意M13方法和染料終止劑化學(xué)測(cè)定PAR1這個(gè)區(qū)域約140kb的核苷酸序列。挑選出的用于序列分析的粘粒相互重疊程度最低,并且它們組合在一起則跨越整個(gè)關(guān)鍵間隔區(qū)。DNA序列分析后,用1.3c版的“X Grail”程序和外顯子截留法程序FEXHB推測(cè)蛋白序列,證實(shí)了先前克隆的3個(gè)外顯子。除先前分離的外,沒有檢測(cè)到其他編碼蛋白質(zhì)的基因。
C.矮小身材候選基因SHOX的分離假定三個(gè)外顯子克隆ET93、ET45和G108都是同一個(gè)基因的一部分,用它們作為探針篩選14個(gè)不同的cDNA文庫(kù),這些文庫(kù)來(lái)自12個(gè)不同的胎兒(肺、肝、腦1和2)和成人組織(卵巢、胎盤1和2、成纖維細(xì)胞、骨骼肌、骨髓、腦、腦干、視丘下部、垂體)。在將近14,000,000個(gè)被鋪板克隆中一個(gè)克隆也沒有檢測(cè)到。做3’和5’RACE來(lái)分離全長(zhǎng)轉(zhuǎn)錄產(chǎn)物。做3’RACE時(shí),來(lái)自外顯子G108的引物用于胎盤、骨骼肌和骨髓成纖維細(xì)胞組織的RNA,結(jié)果顯示G108在這些組織中表達(dá)。所有三種組織均產(chǎn)生兩個(gè)不同的分別為1173和652bp的3’RACE克隆,提示有兩個(gè)不同的3’外顯子存在。命將這兩種不同的形式命名為SHOXa和SHOXb。
為了提高分離到表達(dá)豐度極低的該基因的完整5’外顯子的機(jī)會(huì),用視黃酸和波佛酯PMA處理Hela細(xì)胞系。用該經(jīng)誘導(dǎo)的細(xì)胞系的RNA和胎盤、骨骼肌的RNA構(gòu)建一個(gè)“馬拉松cDNA文庫(kù)”。從所有三種組織中均分離到相同的5’RACE cDNA克隆。
實(shí)驗(yàn)步驟RT-PCR和cDNA文庫(kù)構(gòu)建從Clontech購(gòu)得人心臟、胰腺、胎盤、骨骼肌、胎兒腎臟和肝的polyA+RNA。從骨髓成纖維細(xì)胞系用TRIZOL試劑(Gibco-BRL)按照廠商的說(shuō)明分離總RNA。cDNA第一鏈的合成采用Superscript cDNA第一鏈合成試劑盒(Gibco-BRL),用寡(dT)-接合體引物(GGCCACGCGTCGACTAGTAC[dT]20N),反應(yīng)以100ng polyA+RNA或者10ug總RNA起始。cDNA第一鏈合成后,將反應(yīng)體系稀釋1/10。5ul稀釋液用于以下PCR試驗(yàn)。
按照廠商描述的馬拉松cDNA擴(kuò)增試劑盒(Clontech)使用方法,由胎盤、骨骼肌的RNA構(gòu)建“馬拉松cDNA文庫(kù)”。
胎兒腦(Catalog#HL5015b)、肺(HL3022)、卵巢(HL1098a)、垂體(HL1097v)和視丘下部(HL1172b)cDNA文庫(kù)購(gòu)自Clontech。腦、腎臟、肝和肺cDNA文庫(kù)是Clontech快速篩選(型)人cDNA文庫(kù)組群(panel)的一部分。胎兒肌肉cDNA文庫(kù)自UK人類基因組圖譜計(jì)劃信息中心獲得。
D.序列分析和SHOX基因結(jié)構(gòu)分析5’和3’RACE衍生克隆的序列,得到SHOXa和SHOXb(1349和1870bp)的一個(gè)共有序列。鑒定到1870bp(SHOXa)和1349bp(SHOXb)的唯一開放閱讀框,分別產(chǎn)生292(SHOXa)和225(SHOXb)個(gè)氨基酸的蛋白。轉(zhuǎn)錄產(chǎn)物a和b有相同的5’末端,但3’末端的外顯子不同,這個(gè)發(fā)現(xiàn)提示所用的剪接信號(hào)是不同的。將兩個(gè)cDNA和來(lái)自粘粒LL0YNCO3’M’15D10、LL0YNC3’M’34F5的基因組DNA序列進(jìn)行完全的序列對(duì)比,從而建立外顯子-內(nèi)含子結(jié)構(gòu)(圖4)?;蚝写笮≡?8bp(外顯子Ⅲ)-1146bp(外顯子Ⅴa)的6個(gè)外顯子。外顯子Ⅰ含有一個(gè)CpG島、起始密碼子和5’區(qū)。每個(gè)選擇性剪接的外顯子Ⅴa和Ⅴb都帶有一個(gè)終止密碼子和3’-非編碼區(qū)。實(shí)施例3在160kb的矮小身材基因關(guān)鍵區(qū)域內(nèi)鑒定到兩個(gè)cDNA。這兩個(gè)cDNA對(duì)應(yīng)著基因SHOX和pET92。兩者是通過(guò)粘粒亞克隆與cDNA文庫(kù)雜交鑒定到的。
完全涵蓋所述關(guān)鍵區(qū)的一套粘??寺〗o我們提供了鑒定矮小身材發(fā)生基因的遺傳材料。用外顯子截留法和cDNA選擇技術(shù)實(shí)施目的在于從該區(qū)域分離基因的定位克隆計(jì)劃。根據(jù)它們位于假常染色體區(qū)內(nèi),可以設(shè)想這些基因逃脫了X-失活并且具有劑量效應(yīng)。
對(duì)在其丟失或不完善時(shí)將導(dǎo)致矮小身材的基因的克隆,提供了通過(guò)例如單鏈構(gòu)象多態(tài)性在該基因內(nèi)進(jìn)行突變分析的基礎(chǔ),這代表著進(jìn)一步提高了診斷準(zhǔn)確性。另外,這個(gè)基因的克隆以及隨后的生化性質(zhì)研究開辟了通往對(duì)參與生長(zhǎng)調(diào)控的生物過(guò)程有更深理解的道路。
本發(fā)明的DNA序列提供了第一個(gè)分子檢測(cè)手段,在復(fù)雜的不同種類的原發(fā)矮小身材患者中確認(rèn)特異性遺傳紊亂的個(gè)體。實(shí)施例4SHOXa和SHOXb的表達(dá)方式用單個(gè)外顯子作雜交探針進(jìn)行的Northern印跡分析顯示每個(gè)外顯子表達(dá)圖案各不相同,這一點(diǎn)強(qiáng)烈提示不同大小和強(qiáng)度的條帶代表與其他富含GC的基因序列發(fā)生交叉雜交形成的產(chǎn)物。為了得到基因SHOXa和SHOXb的更真實(shí)的表達(dá)概況,用來(lái)自不同組織的RNA做RT-PCR。在骨骼肌、胎盤、胰腺、心臟和骨髓成纖維細(xì)胞中觀察到SHOXa的表達(dá),而SHOXb僅在胎兒腎臟、骨骼肌和骨髓成纖維細(xì)胞中表達(dá),且在骨髓成纖維細(xì)胞中的表達(dá)遠(yuǎn)遠(yuǎn)超過(guò)其他組織,表達(dá)最強(qiáng)。
由胎兒腦、肺和肌肉以及成人腦、肺和垂體制備的幾個(gè)cDNA文庫(kù)中的SHOXa的表達(dá),以及SHOXb在測(cè)試文庫(kù)中均不表達(dá),再次證明一種剪接形式(SHOXa)表達(dá)更廣泛,而另一種(SHOXb)主要以組織特異性方式表達(dá)。
我們用由不同細(xì)胞系提取的RNA做RT-PCR來(lái)評(píng)測(cè)X和Y染色體上SHOXa和SHOXb的轉(zhuǎn)錄活性,所述細(xì)胞系所含有的人染色體只有活性X、失活X或者Y染色體。所有細(xì)胞系均顯示預(yù)期中的119bp(SHOXa)和541bp(SHOXb)的擴(kuò)增產(chǎn)物,明確說(shuō)明SHOXa和SHOXb都逃脫了X-失活。
SHOXa和SHOXb編碼新的同源結(jié)構(gòu)域蛋白。SHOX是從哺乳動(dòng)物到魚類和兩翼昆蟲高度保守的基因。除同源結(jié)構(gòu)域外,5’最末端和3’最末端是人和鼠之間可能的保守區(qū),表明它在功能上的重要性。人和鼠之間那些氨基酸區(qū)域的差異在進(jìn)化過(guò)程沒有發(fā)生累積。
實(shí)驗(yàn)步驟a)5’和3’RACE為了克隆SHOXa和SHOXb轉(zhuǎn)錄產(chǎn)物的5’末端,用我們構(gòu)建的“馬拉松cDNA文庫(kù)”做5’RACE。所用寡核苷酸引物如下SHOXB反向,GAAAGGCATCCGTAAGGCTCCC(位置697-71 8,反向鏈)和接合體引物AP1。按如下參數(shù)完成PCR:94℃、2分鐘,94℃、30秒,70℃、30秒,72℃、2分鐘,5個(gè)循環(huán)。94℃、30秒,66℃、30秒,72℃、2分鐘,5個(gè)循環(huán)。94℃、30秒,62℃、30秒,72℃、2分鐘,25個(gè)循環(huán)。第二輪擴(kuò)增采用1/100的PCR產(chǎn)物和以下巢式寡核苷酸引物SHOX A反向,GACGCCTTTATGCATCTGATTCTC(位置617-640,反向鏈)和接合體引物AP2。做35個(gè)PCR循環(huán),退火溫度為60℃。
為了克隆SHOXa和SHOXb轉(zhuǎn)錄產(chǎn)物的3’末端,按照以前的描述(Frohman等,1988)用寡聚(dT)接合體引導(dǎo)合成的第一鏈cDNA做3’RACE。所用寡核苷酸引物如下SHOX A正向,GAATCAGATGCATAAAGGCGTC(位置619-640)和寡聚(dT)接合體。按如下參數(shù)完成PCR:94℃、2分鐘,94℃、30秒,62℃、30秒,72℃、2分鐘,35個(gè)循環(huán)。二輪擴(kuò)增采用1/100的PCR產(chǎn)物和以下巢式寡核苷酸引物SHOX B正向,GGGAGCCTTACGGATGCCTTTC(位置697-718)和寡聚(dT)接合體。做35個(gè)PCR循環(huán),退火溫度為62℃。
為了確定SHOXa和SHOXb轉(zhuǎn)錄產(chǎn)物的序列,用一個(gè)5’寡核苷酸引物和一個(gè)3’寡核苷酸引物做PCR。針對(duì)SHOXa所用引物如下G310正向,AGCCCCGGCTGCTCGCCAGC(位置59-78)和SHOX D反向,CTGCGCGGCGGGTCAGAGCCCCAG(位置959-982,反向鏈)。針對(duì)SHOXb所用引物如下G310正向,AGCCCCGGCTGCTCGCCAGC和SHOX2A反向,GCCTCAGCAGCAAAGCAAGATCCC(位置1215-1238,反向鏈)。兩個(gè)PCR參數(shù)均為94℃、2分鐘,94℃、30秒,70℃、30秒,72℃、2分鐘,5個(gè)循環(huán)。94℃、30秒,68℃、30秒,72℃、2分鐘,5個(gè)循環(huán)。94℃、30秒,65℃、30秒,72℃、2分鐘,35個(gè)循環(huán)。產(chǎn)物經(jīng)凝膠純化并克隆用于序列分析。
b)SSCP檢測(cè)按照以前描述的方法(Orita等,1989)對(duì)患者基因組擴(kuò)增DNA做SSCP檢測(cè)。1到5ul PCR產(chǎn)物與5ul含有95%Formamid和10mM EDTApH8變性溶液混勻,于95℃變性10分鐘。將樣品立即置冰上冷卻,上樣到含2%甘油和1xTBE的10%聚丙烯酰胺凝膠(丙烯酰胺∶甲叉丙烯酰胺=37.5∶1和29∶1;Multislotgel,TGGE base,Qiagen)。于15℃,500V跑膠3到5小時(shí),按TGGE手冊(cè)所述進(jìn)行銀染(Qiagen,1993)。
c)PCR產(chǎn)物的克隆和測(cè)序用Amersham公司出品的pMOSBlueT-載體試劑盒將PCR產(chǎn)物克隆至pMOSBlue。將單克隆的過(guò)夜培養(yǎng)物在100ul H2O中煮沸10分鐘予以裂解。裂解液作為PCR模板,用特異引物制備克隆PCR產(chǎn)物。PCR產(chǎn)物的SSCP能夠鑒定含不同等位基因的克隆。被克隆的序列用CY5標(biāo)記的載體引物Uni和T7,按照廠商所述循環(huán)測(cè)序方法(耐熱測(cè)序酶試劑盒(Amersham))在ALF快速自動(dòng)測(cè)序儀(Pharmacia)上進(jìn)行測(cè)定。
d)cDNA文庫(kù)的PCR篩選為了檢測(cè)SHOXa和SHOXb的表達(dá),用SHOXa和SHOXb的特異引物對(duì)幾個(gè)cDNA文庫(kù)和第一鏈cDNA進(jìn)行PCR篩選。對(duì)cDNA文庫(kù)使用等于5x108pfu的DNA。對(duì)SHOXa,所用引物為SHOXE反向,GCTGAGCCTGGACCTGTTGGAAAGG(位置713-737,反向鏈)和SHOXa正向。對(duì)SHOXb,所用引物為SHOXB正向和SHOX2A反向。兩個(gè)PCR參數(shù)均為94℃、2分鐘,94℃、30秒,68℃、30秒,72℃、40秒,5個(gè)循環(huán)。94℃、30秒,65℃、30秒,72℃、40秒,5個(gè)循環(huán)。94℃、30秒,62℃、30秒,72℃、40秒,35個(gè)循環(huán)。
e)cDNA文庫(kù)的PCR篩選為了檢測(cè)SHOXa和SHOXb的表達(dá),用SHOXa和SHOXb的特異引物對(duì)幾個(gè)cDNA文庫(kù)和第一鏈cDNA進(jìn)行PCR篩選。對(duì)cDNA文庫(kù)使用等于5×108pfu的DNA。對(duì)SHOXa,所用引物為SHOXE反向,GCTGAGCCTGGACCTGTTGGAAAGG(位置713-737,反向鏈)和SHOXa正向。對(duì)SHOXb,所用引物為SHOXB正向和SHOX2A反向。兩個(gè)PCR參數(shù)均為94℃、2分鐘,94℃、30秒,68℃、30秒,72℃、40秒,5個(gè)循環(huán)。94℃、30秒,65℃、30秒,72℃、40秒,5個(gè)循環(huán)。94℃、30秒,62℃、30秒,72℃、40秒,35個(gè)循環(huán)。實(shí)施例5SHOX和SHOT的鼠等同基因OG12的表達(dá)方式用第5p.c.天到18,5p.c.天之間的鼠胚胎以及胎兒和新生鼠做原位雜交確定基因的表達(dá)方式。在發(fā)育中的肢芽、將來(lái)形成鼻子和味覺的鼻中胚層、眼瞼、大動(dòng)脈、發(fā)育中的女性生殖腺、發(fā)育中的脊髓(僅限于分化中的運(yùn)動(dòng)神經(jīng)細(xì)胞)和腦中觀察到表達(dá)?;谶@樣的表達(dá)方式以及該基因的人等同基因SHOT的圖譜位置,SHOT可能是有矮小身材癥狀的Cornelia de Lange綜合癥的候選基因。實(shí)施例6第3號(hào)染色體上的一個(gè)與人生長(zhǎng)/矮小身材相關(guān)的新的類似SHOX同源異形基因SHOT的分離由人體分離到的一個(gè)新基因SHOT(第3號(hào)染色體上的SHOX等同基因),與鼠OG12基因和人SHOX基因同源性最高。人SHOT基因與鼠OG12基因同源性極高,在蛋白水平達(dá)到99%相同。盡管還未證實(shí),但鑒于SHOT和SHOX之間的驚人的同源性(僅在同源結(jié)構(gòu)相同),很可能SHOT也是一個(gè)與矮小身材或人生長(zhǎng)相關(guān)的基因。
用EMBL數(shù)據(jù)庫(kù)的兩個(gè)新的人類EST(HS1224703和HS126759)獲得的引物分離SHOT,以便從骨髓成纖維細(xì)胞系(Rao等,1997)擴(kuò)增逆轉(zhuǎn)錄RNA。通過(guò)RACE-PCR由骨髓成纖維細(xì)胞庫(kù)制備SHOT的5’和3’末端,該細(xì)胞庫(kù)是按照Rao等(1997)的方法構(gòu)建的。經(jīng)FISH檢測(cè),確定SHOT位于染色體3q25/q26,是鼠第3號(hào)染色體的同線區(qū)域的等同基因?;谑蟮韧騉G12的表達(dá)方式,SHOT可能是CorneliadeLange綜合癥(表現(xiàn)為矮小身材和其他癥狀,包括顱面部異常)的相關(guān)基因,位于3q25/26。實(shí)施例7尋找原發(fā)性矮小身材患者的突變本發(fā)明的DNA序列用于PCR、LCR和其他已知技術(shù)以確定矮小身材個(gè)體是否有小片段缺失或矮小身材基因內(nèi)的點(diǎn)突變。
對(duì)總共91個(gè)(在250名個(gè)體中)不相關(guān)的男性和女性原發(fā)性矮小身材患者(原發(fā)性矮小身材在人群中的發(fā)生率為2-2.5%)進(jìn)行了小片段重排或SHOXa基因點(diǎn)突變的檢測(cè)。設(shè)計(jì)6套PCR引物以擴(kuò)增外顯子及外顯子側(cè)翼序列和5’UTR的一小部分。對(duì)最大的外顯子,外顯子Ⅰ,另外制備兩個(gè)外顯子內(nèi)部引物。用于PCR的引物如表2所示。
對(duì)所有大小在120到295bp的擴(kuò)增外顯子產(chǎn)物均做單鏈構(gòu)象多態(tài)性(SSCP)檢測(cè)。只在兩名矮小身材患者中(Y91和A1)識(shí)別到條帶遷移變化。將SSCP模式發(fā)生了改變的片段(獨(dú)特的SSCP構(gòu)象子)克隆和測(cè)序。為了避免PCR和測(cè)序時(shí)產(chǎn)生的人為假象,測(cè)序用兩個(gè)獨(dú)立的PCR反應(yīng)在兩條鏈上進(jìn)行?;颊遈91的突變位于5’UTR起始密碼子5’方向28bp處,包括一個(gè)胞嘧啶到鳥嘌呤的置換。為了證實(shí)這個(gè)突變是否代表一種罕見的多態(tài)性,或者是否是通過(guò)例如減弱翻譯起始因子的結(jié)合來(lái)調(diào)節(jié)基因表達(dá)而造成這樣的表型,又檢測(cè)了其父母和一個(gè)姐妹。因?yàn)樵摻忝煤推涓干砀哒5灿型瑯拥腟SCP變型(結(jié)果未發(fā)表),這個(gè)堿基代表一種罕見的多態(tài)性而與表型無(wú)關(guān)。
將患者A1的獨(dú)特SSCP構(gòu)象子進(jìn)行克隆和測(cè)序,顯示有一個(gè)胞嘧啶到胸腺嘧啶的轉(zhuǎn)換(核苷酸第674位),在預(yù)計(jì)的225和292個(gè)氨基酸的序列中在氨基酸第195位的位點(diǎn)處引入一個(gè)終止密碼子。為了確定這個(gè)無(wú)義突變是否與該家族矮小身材有遺傳上關(guān)聯(lián),進(jìn)行家譜分析。發(fā)現(xiàn)所有6名矮小個(gè)體(身高標(biāo)準(zhǔn)誤差低于2)都有一個(gè)異常SSCP遷移和胞嘧啶到胸腺嘧啶的轉(zhuǎn)換。身高正常的父親、一個(gè)阿姨和外公都沒有這個(gè)突變,表明祖母將突變等位基因傳給了兩個(gè)女兒和兩個(gè)外孫。因此這個(gè)家族的突變等位基因和矮小身材間有相關(guān)性。
在一個(gè)日本血統(tǒng)的矮小身材患者中發(fā)現(xiàn)了與以上所述相同的情況。實(shí)施例8將本發(fā)明的DNA序列用于確定這個(gè)或這些基因的功能特點(diǎn)。所述DNA序列可以做為檢索核酸或氨基酸數(shù)據(jù)庫(kù)的檢索式以確認(rèn)相關(guān)的基因或基因產(chǎn)物。我們已經(jīng)用SHOX93的部分氨基酸序列作為氨基酸數(shù)據(jù)庫(kù)的檢索式,結(jié)果顯示與許多已知的同源異型框蛋白高度同源。本發(fā)明的cDNA可以用來(lái)重組制備肽。本領(lǐng)域技術(shù)人員所知道的多種表達(dá)系統(tǒng)可以用來(lái)生產(chǎn)重組蛋白。
利用傳統(tǒng)的肽合成方法(Merrifield蛋白合成方法),合成了具有CSKSFDQKSKDGNGG序列的肽,并按照標(biāo)準(zhǔn)操作程序從兔和雞中制備了多克隆抗體。
參考文獻(xiàn)文中引用以下參考文獻(xiàn)Ashworth A,Rastan S,Lovell-Badge R,Kay G(1991):X染色體的失活可能解釋X0人和鼠生存力的差異。自然351:406-408。
Ballabio A.,Bardoni A,Carrozzo R,Andria G,Bick D,Campbell L,Hamel B,Ferguson-Smith MA,Gimelli G,Fraccaro M,Maraschio P,Zuffardi O,Guilo S,Camerino G(1989)人X染色體短臂遠(yuǎn)端缺失導(dǎo)致的鄰近基因綜合癥。美國(guó)科學(xué)院學(xué)報(bào)86:10001-10005。
Blagowidow N,Page DC,Huff D,Mennuti MT(1989)一個(gè)Y染色體性別決定部位缺失的XY女性胎兒的Ullrich-Tumer綜合癥。美國(guó)醫(yī)學(xué)遺傳學(xué)雜志34:159-162。
Cantrell MA,Bicknell JN,Pagon RA等(1989):46,XY女性的分子檢測(cè)和一個(gè)新Y染色體特異性探針的區(qū)域?qū)Ρ取H祟愡z傳學(xué)83:88-92。
Connor JM,Loughlin SAR(1989):Turner綜合癥的分子遺傳學(xué)。 ActaPediatr.Scand.(增刊)356:77-80。
Disteche CM。Casanova M,Saal H,Friedmen C,Sybert V,Graham J,Thuline H,Page DC,Fellous M(1986):46,XY女性的Y染色體短臂的小段缺失。美國(guó)科學(xué)院學(xué)報(bào)83:7841-7844。
Ferguson-Smith MA(1965)性腺發(fā)育不全中的核型-表型相關(guān)性和該相關(guān)性在畸形發(fā)病機(jī)理中的意義。醫(yī)學(xué)遺傳學(xué)雜志2:142-155。
Ferrari D,Kosher RA,Dealy CN(1994)由于促腫瘤波佛酯處理其軟骨分化被抑制的肢間充質(zhì)細(xì)胞繼續(xù)維持含有同源異型框的基因MSX1的表達(dá),但不能進(jìn)行間隙連接通訊。生物化學(xué)和生物物理學(xué)研究通訊205(1):429-434。
Fischer M,Bur-Romero P,Brown LG等(1990)人X-和Y-染色體上逃脫了X-失活的同源核糖體蛋白基因以及用于Turner綜合癥的可行性。細(xì)胞63:1205-1218。
Freund C,Horsford DJ,McInnes RR(1996)轉(zhuǎn)錄因子基因和眼睛的發(fā)育一個(gè)遺傳學(xué)觀點(diǎn)。人類分子遺傳學(xué)5:1471-1488。
Gehring WJ,Qian YQ,Billeter M,Furukubo-TokunagaK,Schier A F,Resendez-Perez D,Affolter M,Otting G,Wuthrich K(1994)同源結(jié)構(gòu)域-DNA識(shí)別。細(xì)胞78:211-223。
Gough NM,Gearing DP,Nicola NA,Baker E,Pritchard M,Callen DF,Sutherland GR(1990)人GM-CSF受體基因在X-Y假常染色體區(qū)域的定位。自然345:734-736。
Grumbach MM,Conte FA(1992)性別分化紊亂。Williams內(nèi)分泌學(xué)教程,第八版,Wilson JD,Foster DW編,853-952頁(yè),Philadelphia,WBSaunders。
Hall JG,Gilchrist DM(1990):Turner綜合癥及其變型。Pedriatr.Clin.North Am.37:1421-1436。
Henke A,Wapenaar M,van Ommen G-J,Maraschio P,Camerino Q,Rappold GA(1991)假常染色體區(qū)域的缺失幫助定位了三個(gè)新標(biāo)志物以及該缺乏可能對(duì)線性生長(zhǎng)起到作用。美國(guó)人類遺傳學(xué)雜志49:811-819。
Hemandez D,Fisher EMC(1996):Down綜合癥遺傳學(xué)揭開一個(gè)多因子紊亂的秘密。人類分子遺傳學(xué)5:1411-1416。
Kenyon C(1994)為什么鳥能飛,我們不能?同源基因與進(jìn)化。細(xì)胞78:175-180。
KrumlaufR(1994):Hox基因在脊椎動(dòng)物發(fā)育中的作用。細(xì)胞78:191-201。
Kulharya AS,Roop H,Kukolich MK,Nachtman RG,Belmont JW,Garcia-Heras J(1995):Xpter→Xp22.3缺失和3pter→3p23重復(fù)的輕度表型效應(yīng)。美國(guó)醫(yī)學(xué)遺傳學(xué)雜志56:16-21。
Lawrence PA,Morata G,(1994)同源異型框基因在果蠅屬卵裂和泛型形成中的作用。細(xì)胞78:181-189。
Lehrach H,Drmnac R,Hoheisel JD,Latin Z,Lemon G,Monaco AP,Nizetic D等,基因組作圖和測(cè)序中的雜交指紋。Davies KE,Tilghman S編,基因組分析1990:39-81,冷泉港,紐約。
Levilliers J,Quack B,Weissenbach J,Petit C(1989)人XY女性的X-和Y-染色體短臂末端部分的交換。美國(guó)科學(xué)院學(xué)報(bào)86:2296-2300。
Lichter P,Cremer T,人類細(xì)胞遺傳學(xué)一個(gè)可行的方法,IRL 1992,Oxford,New York,Tokyo。
Lippe BM(1991):Turner綜合癥。北美臨床內(nèi)分泌代謝20:121-152。
Magenis RE,Tochen ML Holahan KP,Carey T,Allen L,BrownMG(1984):Y染色體短臂部分缺失導(dǎo)致的Turner綜合癥男性決定基因的定位。兒科學(xué)雜志105:916-919。
Nelson DL,Ballabio A,Cremers F,Monaco AP,Schlessinger D(1995)。第6次國(guó)際X染色體圖譜會(huì)議報(bào)告。細(xì)胞遺傳學(xué)71:308-342。
Ogata T,Goodfellow P,Petit C,Aya M,Matsuo N(1992)一個(gè)DXYS15遠(yuǎn)端的Xp末端缺失的女孩的矮小身材假常染色體區(qū)域內(nèi)的一個(gè)生長(zhǎng)基因。醫(yī)學(xué)遺傳學(xué)雜志29:455-459。
Ogata T,Tyler-Smith C,Purvis-Smith S,Turner G(1993):Turner特征基因在Yp染色體上的位置。醫(yī)學(xué)遺傳學(xué)雜志30:918-922。
Ogata T,Yoshizawa A,Muroya K,Matsuo N,Fukushima Y,RappoldGA,Yokoya S(1995):DXYS15遠(yuǎn)端的假常染色體區(qū)域部分單倍體化女孩的矮小身材假常染色體生長(zhǎng)基因關(guān)鍵區(qū)域排布的進(jìn)一步證據(jù)。醫(yī)學(xué)遺傳學(xué)雜志32:831-834。
Ogata T,Matsuo N(1995):Turner綜合癥和女性性染色體失常參與臨床特征發(fā)育的關(guān)鍵因子的推測(cè)。人類遺傳學(xué)95:607-629。
Orita M,Suzuki Y,Sekiya T,Hayashi K(1989):PCR快速靈敏地檢測(cè)點(diǎn)突變和多態(tài)性?;蚪M5:874-879。
Pohlschmidt M,Rappold GA,Krause M,Ahlert D,Hosenfeld D,Weissenbach J,Gal A(1991)環(huán)形Y染色體用DNA探針確定分子特征。細(xì)胞遺傳學(xué)56:65-68。
Qiagen(1993)TGGE手冊(cè),Diagen GmbH,TGMA 4112 3/93。
Rao E,Weiss B,Mertz A等(1995)構(gòu)建跨越位于假常染色體區(qū)域PAR1的矮小身材基因候選區(qū)域的粘粒連續(xù)克隆系。從生命觀點(diǎn)看Turner綜合癥研究和臨床發(fā)現(xiàn)。第四次國(guó)際Turner綜合癥研討會(huì)紀(jì)要,Gothenburg,Sweden,1995年5月18-21日。Albertsson-Wikland K,Ranke MB編輯,19-24頁(yè),Elsevier。
Rao E,Weiss B,Fukami M,Rump A,Niesler B,Mertz A,Muroya K,Binder G,Kirsch S,Winkelmann M,Nordsiek G,Heinrich U,Breuning MH,Ranke MB,Rosenthal A,Ogata T,Rappold GA(1997)導(dǎo)致原發(fā)性矮小身材和Turner綜合癥中生長(zhǎng)障礙的包含一個(gè)新同源異型框基因的假常染色體缺失。自然遺傳學(xué)15:54-62。
Rappold GA(1993)人類性染色體的假常染色體區(qū)域。人類遺傳學(xué)92:315-324。
Rappold GA,Willson TA,Henke A,Gough NM(1992)位于X-Y假常染色體區(qū)域的人GM-CSF受體α鏈基因CSF2RA的排列和位置。基因組14:455-461。
Ried K,Mertz A,Nagaraja R,Trusnich M,Riley J,Anand R,Page D,Lehrach H,Elliso J,Rappold GA(1995)跨假常染色體區(qū)域的酵母人工染色體連續(xù)克隆系的特性?;蚪M29:787-792。
Robinson A(1990):Turner綜合癥的人口統(tǒng)計(jì)學(xué)和流行率。Turner綜合癥,Rosenfeld RG,Gmmbach MM編,93-100頁(yè),New York,MarcelDekkerRosenfeld RG(1992):Turner綜合癥醫(yī)師指南,第二版。Turner綜合癥學(xué)會(huì)。
Rosenfeld RG,Tesch L-G,Rodriguez-Rigau LJ,McCauley E,Albertsson-Wikland K,Asch R,Cara J,Conte F,Hall JG,Lippe B,NagelTC,Neely EK,Page DC,Ranke M,Saenger P,Watkins JM,WilsonDM(1994)對(duì)Turner綜合癥個(gè)體診斷、治療和處理的建議。內(nèi)分泌學(xué)家4(5):351-358。
Rovescalli AC,Asoh S,NirenbergM(1996)四個(gè)鼠同源異型框基因的克隆和特性研究。美國(guó)科學(xué)院學(xué)報(bào)93:10691-10696。
Schaefer L,Ferrero GB,Grillo A,Bassi MT,Roth EJ,Wapenaar MC,van Ommen GJB,Mohandas TK,Rocchi M,Zoghbi HY,BallabioA(1993)人類染色體Xp22的高分辨率缺失圖譜。自然遺傳學(xué)4:272-279。
Shalet SM(1993)生長(zhǎng)激素治療兒童白血病。兒科內(nèi)分泌學(xué)雜志6:109-11。
Vimpani GV,Vimpani AF,Lidgard GP,Cameron EHD,FarquharJW(1977),嚴(yán)重生長(zhǎng)激素缺乏癥的流行率。英國(guó)醫(yī)學(xué)雜志2:427-430。
Zinn AR,Page DC,Fisher EMC(1993):Turner綜合癥丟失性染色體的病例。TIG9(3):90-93。
序列表(1)一般資料(ⅰ)申請(qǐng)人(A)姓名Rappold-Hoerbrand,Gudnm,Dr.
(B)街道Hausackerweg14(C)城市Heidelberg(E)國(guó)家德國(guó)(F)郵政編碼69118(A)姓名Rao,Ercole(B)街道Odenwnldstrasse11(C)城市Riedstadt-Erfelden(E)國(guó)家德國(guó)(F)郵政編碼64560(ⅱ)發(fā)明題目人生長(zhǎng)基因和身材矮小基因區(qū)(ⅲ)序列數(shù)16(ⅳ)計(jì)算機(jī)可讀形式(A)介質(zhì)類型軟盤(B)計(jì)算機(jī)IBMPC兼容機(jī)(C)操作系統(tǒng)PC-DOS/MS-DOS(D)軟件Patentln Release#1.0,Version#1.30(EPO)(ⅵ)在先申請(qǐng)資料(A)申請(qǐng)?zhí)朥S60/027633(B)申請(qǐng)日1996年10月1日(ⅵ)在先申請(qǐng)資料(A)申請(qǐng)?zhí)朎P97100583.0(B)申請(qǐng)日1997年1月16日(2)SEQ ID NO:1的資料(ⅰ)序列特征(A)長(zhǎng)度60個(gè)氨基酸(B)類型氨基酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型多肽(ⅹⅰ)序列描述SEQ ID NO:1:Gln Arg Arg Ser Arg Thr Asn Phe Thr Leu Glu Gln Leu Asn Glu Leu1 5 10 15Glu Arg Leu Phe Asp Glu Thr His Tyr Pro Asp Ala Phe Het Arg Glu20 25 30Glu Leu ser Gln Arg Leu Gly Leu ser Glu Ala Arg Val Gln Val Trp35 40 45Phe Gln Asn Arg Arg Ala Lys Cys Arg Lys Gln Glu50 55 60(2)SEQ ID NO:2的資料(ⅰ)序列特征(A)長(zhǎng)度209個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“外顯子Ⅱ:ET93”(ⅴ)片段類型線性(ⅹⅰ)序列描述SEQ ID NO:2:GGATTTATGA ATGCAAAGAG AAGCGCGAGG ACGTGAAGTC GGAGGACGAG GACGGGCAGA 60CCAAGCTGAA ACAGAGGCGC AGCCGCACCA ACTTCACGCT GGAGCAGCTG AACGAGCTCG 120AGCGACTCTT CGACGAGACC CAT ACCCCG ACGCCTTCAT GCGCGAGGAG CTCAGCCAGC 180GCCTGGGGCT CTCCGAGGCG CGCGTGCAG209(2)SEQ ID NO:3的資料(ⅰ)序列特征(A)長(zhǎng)度368個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“外顯子Ⅰ:G310”(ⅹⅰ)序列描述SEQ ID NO:3:GTGATCCACC CGCGCGCACG GGCCGTCCTC TCCGCGCGGG GAGACGCGCG CATCCACCAG 60CCCCGGCTGC TCGCCAGCCC CGGCCCCAGC CATGGAAGAG CTCACGGCTT TTGTATCCAA 120GTCTTTTGAC CAGAAAAGCA AGGACGGTAA CGGCGGAGGC GGAGGCGGCG GAGGTAAGAA 180GGATTCCATT ACGTACCGGG AAGTTTTGGA GAGCGGACTG GCGCGCTCCC GGGAGCTGGG 240GACGTCGGAT TCCAGCCTCC AGGACATCAC GGAGGGCGGC GGCCACTGCC CGGTGCATTT 300GTTCAAGGAC CACGTAGACA ATGACAAGGA GAAACTGAAA GAATTCGGCA CCGCGAGAGT 360GGCAGAAG 368(2)SEQ ID NO:4的資料(ⅰ)序列特征(A)長(zhǎng)度58個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“外顯子Ⅲ:ET45”(ⅹⅰ)序列描述SEQID NO:4:GTTTGGTTCC AGAACCGGAG AGCCAAGTGC CGCAAAGAAG AGAATCAGAT GCATAAAG58(2)SEQ ID NO:5的資料(ⅰ)序列特征(A)長(zhǎng)度89個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“外顯子Ⅳ:G108”(ⅹⅰ)序列描述SEQ ID NO:5:GCGTCATCTT GGGCACAGCC AACCACCTAG ACGCCTGCCG AGTGGCACCC TACGTCAACA 60TGGGAGCCTT ACGGATGCCT TTCCAACAG89(2)SEQ ID NO:6的資料(ⅰ)序列特征(A)長(zhǎng)度1166個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“外顯子Ⅴa”(ⅹⅰ)序列描述SEQ ID NO:6:GTCCAGGCTC AGCTGCAGCT GGAAGGCGTG GCCCACGCGC ACCCGCACCT GCACCCGCAC 60CTGGCGGCGC ACGCGCCCTA CCTGATGTTC CCCCCGCCGC CCTTCGGGCT GCCCATCGCG 120TCGCTGGCCG AGTCCGCCTC GGCCGCCGCC GTGGTCGCCG CCGCCGCCAA AAGCAACAGC 180AAGAATTCCA GCATCGCCGA CCTGCGGCTC AAGGCGCGGA AGCACGCGGA GGCCCTGGGG 240CTCTGACCCG CCGCGCAGCC CCCCGCGCGC CCGGACTCCC GGGCTCCGCG CACCCCGCCT 300GCACCGCGCG TCCTGCACTC AACCCCGCCT GGAGCTCCTT CCGCGGCCAC CGTGCTCCGG 360GCACCCCGGG AGCTCCTGCA AGAGGCCTGA GGAGGGAGGC TCCCGGGACC GTCCACGCAC 420GACCCAGCCA GACCCTCGCG GAGATGGTGC AGAAGGCGGA GCGGGTGAGC GGCCGTGCGT 488CCAGCCCGGG CCTCTCCAAG GCTGCCCGTG CGTCCTGGGA CCCTGGAGAA GGGTAAACCC 540CCGCCTGGCT GCGTCTTCCT CTGCTATACC CTATGCATGC GGTTAACTAC ACACGTTTGG 600AAGATCCTTA GAGTCTATTG AAACTGCAAA GATCCCGGAG CTGGTCTCCG ATGAAAATGC 660CATTTCTTCG TTGCCAACGA TTTTCTTTAC TACCATGCTC CTTCCTTCAT CCCGAGAGGC 720TGCGGAACGG GTGTGGATTT GAATGTGGAC TTCGGAATCC CAGGAGGCAG GGGCCGGGCT 780CTCCTCCACC GCTCCCCCGG AGCCTCCCAG GCAGCAATAA GGAAATAGTT CTCTGGCTGA 840GGCTGAGGAC GTGAACCGCG GGCTTTGGAA AGGGAGGGGA GGGAGACCCG AACCTCCCAC 900GTTGGGACTC CCACGTTCCG GGGACCTGAA TGAGGACCGA CTTTATAACT TTTCCAGTGT 960TTGATTCCCA AATTGGGTCT GGTTTTGTTT TGGATTGGTA TTTTTTTTTT TTTTTTTTTT 1020TGCTGTGTTA CAGGATTCAG ACGCAAAAGA CTTGCATAAG AGACGGACGC GTGGTTGCAA 1080GGTGTCATAC TGATATGCAG CATTAACTTT ACTGACATGG AGTGAAGTGC AATATTATAA 1140ATATTATAGA TTAAAAAAAA AATAGC 1166(2)SEQ ID NO:7的資料(ⅰ)序列特征(A)長(zhǎng)度625個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“外顯子Ⅴb(ⅹⅰ)序列描述SEQ ID NO:7:ATGGAGTTTT GCTCTTGTCG CCCAGGCTGG AGTATAATGG CATGATCTCG ACTCACTGCA 60ACCTCCGCCT CCCGAGTTCA AGCGATTCTC CTGCCTCAGC CTCCCGAGTA GCTGGGATTA 120CAGGTGCCCA CCACCATGTC AAGATAATGT TTGTATTTTC AGTAGAGATG GGGTTTGACC 180ATGTTGGCCA GGCTGGTCTC GAACTCCTGA CCTCAGGTGA TCCACCCGCC TTAGCCTCCc 240AAAGTGCTGG GATGACAGGC GTGAGCCCCT GCGCCCGGCC TTTGTAACTT TATTTTTAAT 300TTTTTTTTTT TTTTAAGAAA GACAGAGTCT TGCTCTGTCA CCCAGGCTGG AGCACACTGG 360TGCGATCATA GCTCACTGCA GCCTCAAACT CCTGGGCTCA AGCAATCCTC CCACCTCAGC 420CTCCTGAGTA GCTGGGACTA CAGTCACCCA CCACCACACC CAGCTAATTT TTTTGATTTT 480TACTAGAGAC GGGATCTTGC TTTGCTGCTG AGGCTGGTCT TGAGCTCCTG AGCTCCAAAG 540ATCCTCTCAC CTCCACCTCC CAAAGTGTTA GAATTACAAG CATGAACCAC TGCCCGTGGT 600CTCCAAAAAA AGGACTGTTA CGTGG625(2)SEQ ID NO:8的資料(ⅰ)序列特征(A)長(zhǎng)度15577個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“外顯子HOX93”(ⅸ)特征(A)名字/關(guān)鍵詞外顯子(B)位置1498-1807(D)其他信息/功能=“外顯子Ⅰ(G310)的一部分”(ⅸ)特征(A)名字/關(guān)鍵詞misc-特征(B)位置3844-4068(D)其他信息/功能=“pET92區(qū)(第一部分)”(ⅸ)特征(A)名字/關(guān)鍵詞misc-特征(B)位置4326-4437(D)其他信息/功能=“pET92區(qū)(第二部分)”(ⅸ)特征(A)名字/關(guān)鍵詞misc-特征(B)位置4545-4619(D)其他信息/功能=“pET92區(qū)(第三部分)”(ⅸ)特征(A)名字/關(guān)鍵詞外顯子(B)位置5305-5512(D)其他信息/功能=“外顯子Ⅱ(ET93)的一部分”(ⅸ)特征(A)名字/關(guān)鍵詞外顯子(B)位置11620--11729(D)其他信息/功能=“外顯子Ⅳ(G108)的一部分”(ⅹⅰ)序列描述SEQID NO:8:CTCTCCCTGT TGTGTCTCTC TTTCTCTCTC TCCATCTCTC TCCGTCTTTC CCCCTCTGTC 60TCTTTCTCTG TCTCCATCCC TCTGTCTCTC CCTTTCTCTC TGTCTTTCCT TGTCTCTCTC 120TTTCTCTCTC TCTCTCCATC TCTCTCTCTC CCGGTCTCTC TCTCTCCATC TCCCCGTCTC 180TCCGTTTCTC TCTCTGCCTC TCCCTGTCTG TCTCTCTCTT TGTGTGTGTT ACACACACCC 240CAACCCACCG TCACTCATGT CCCCCCACTG CTGTGCCATC TCACACAAGT TCACAGCTCA 300GCTGTCATCC TGGGTCCCCA GGCCCCGCCG GGGAGGAAGA TGCGCCGTGG GGTTACGGGA 360GGAAGGGGAC TCCGGGACTC CTGGTGCCCC ACTTTATTTG CAGAAGGTCC TTGGCAGGAA 420CCGTGACGCG TTTGGTTTCC AGGACTTGGA AAACGAATTT CAGGTCGCGA TGGCGAGCAC 480CGGCTTCCCC TGAAGCACAT TCAATAGCGA GAGCCGGGAG GGAGCGAGCA GGAGCATCCC 540ACCATGAAAA CCAAAAACAC AAGTATTTTT TTCACCCGGT AAATACCCCA GACGCCAGGG 600TGACAGCGCG GCGCTAAGGG AGGAGGCCTC GCGCCGGGGT CCGCCGGGAT CTGGCGCGGG 660CGGAAAGAAT ATAGATCTTT ACGAACCGGA TCTCCCGGGG ACCTGGGCTT CTTTCTGCGG 720GCGCTGGAAA CCCGGGAGGC GGCCCCGGGG ATCCTCGGCC TCCGCCGCCG CCGCCTCCCA 780AGCGCCCGCG TCCCGGTTTG GGGACACCCG GCCCCTTCTT CTCACTTTCG GGGATTCTCC 840AGCCGCGTTC CATCTCACCA ACTCTCCATC CAAGGGCGCG CCGCCACCAA CTTGGAGCTC 900ATCTTCTCCC AAAATCGTGC GTCCCCGGGG CGCCCGGGTC CCCCCCCTCG CCATCTCAAC 960CCCGGCGCGA CCCGGGCGCT TCCTGGAAAG ATCCAGGCGC CGGGCTCTGC GCTCCTCCCG 1020GGAGCGAGGG CGGCCGGACA ACTGGGACCC TCCTCTCTCC AGCCGTGAAC TCCTTGTCTC 1080TCTGTCTCTC TCTGCAGGAA AACTGGAGTT TGCTTTTCCT CCGGCCACGG AAAGAACGCG 1140GGTAACCTGT GTGGGGGGCT CGGGCGCCTG CGCCCCCCTC CTGCGCGCGC GCTCTCCCTT 1200CCAAAAATGG GATCTTTCCC CCTTCGCACC AAGGTGTACG GACGCCAAAC AGTGATGAAA 1260TGAGAAGAAA GCCAATTGCC GGCCTGGGGG GTGGGGGAGA CACAGCGTCT CTGCGTGCGT 1320CCGCCGCGGA GCCCGGAGAC CAGTAATTGC ACCAGACAGG CAGCGCATGG GGGGCTGGGC 1380GAGGTCGCCG CGTATAAATA GTGAGATTTC CAATGGAAAG GCGTAAATAA CAGCGCTGGT 1440GATCCACCCG CGCGCACGGG CCGTCCTCTC CGCGCGGGGA GACGCGCGCA TCCACCAGCC 1500CCGGCTGCTC GCCAGCCCCG GCCCCAGCCA TGGAAGAGCT CACGGCTTTT GTATCCAAGT 1560CTTTTGACCA GAAAAGCAAG GACGGTAACG GCGGAGGCGG AGGCGGCGGA GGTAAGAAGG 1620ATTCCATTAC GTACCGGGAA GTTTTGGAGA GCGGACTGGC GCGCTCCCGG GAGCTGGGGA 1680CGTCGGATTC CAGCCTCCAG GACATCACGG AGGGCGGCGG CCACTGCCCG GTGCATTTGT 1740TCAAGGACCA CGTAGACAAT GACAAGGAGA AACTGAAAGA ATTCGGCACC GCGAGAGTGG 1800CAGAAGGTAA GTTCCTTTGC GCGCCGGCTC CAGGGGGGCC CTCCTGGGGT TCGGCGCCTC 1860CTCGCCACGG AGTCGGCCCC GCGCGCCCCT CGCTGTGCAC ATTTGCAGCT CCCGTCTCGC 1920CAGGGTAAGG CCCGGGCCGT CAGGCTTTGC CTAAGAAAGG AAGGAAGGCA GGAGTGGACC 1980CGACCGGAGA CGCGGGTGGT GGGTAGCGGG GTGCGGGGGG ACCCAGGGAG GGTCGCAGCG 2040GGGGCCGCGC GCGTGGGCAC CGACACGGGA AGGTCCCGGG CTGGGGTGGA TCCGGGTGGC 2100TGTGCCTGAA GCCGTAGGGC CTGAGATGTC TTTTTCATTT TCTTTTTCTT TCCTTTCCTT 2160TTTTTGTTTG TTTGTTTGTT TGTTTGAGAC AGAGTCTCGC TCTGTCCCCC AGGCTGGAGT 2220GCAGTGGTGC GATCTCGGCT CACTGCAACC TCCGCCTCCT GGGTTCAAGC GATTCTCCTG 2280CCTCAGCCTC CCCAGTAGCT GGGATTACAG GCATGCACCA CCACGCCTGG CTAATTTTTG 2340TGCTTTTAGT AAAGACGGGG ATTCACCATG TTGGCCAGGC TGGTCTCGAA CTCCTGACCT 2400CAGGTGATCC ACCCGCCTCG GCCTCCCAAA GTGCTGGGAT GACAGGCGTG AGGCACCGCG 2460CCCGGCCTGG GTCCTGACGG CTTAGGATGT GTGTTTCTGT CTCTGCCTGT CTGCCTTGTA 2520TTTACGGTCA CCCAGACGCA CAGAGGAGCC GTCTCCACGC GCCTTCCCAG CGCTCAGCGC 2580CTGCCGGGCC CCCGGAGATC ACGGGAAGAC TCGAGGCTGC GTGGTAGGAG ACGGGAAGGC 2640CCCGGGTCAG CTCGGTTCTG TTTCNCTTTA AGGAACCCTT CATTATTATT TCATTGTTTT 2700CCTTTGAACG TCGAGGCTTG ATCTTGGCGA AAGCTGTTGG GTCCATAAAA ACCACTCCCG 2760TGAGCGGAGG TGGCCGGGAT CTGGATGGGG CGCGAGGGGC CCCGGGGAAG CTGGCGGCTT 2820CGCGGGCGCG TCCTAAGTCA AGGTTGTCAG AGCGCAGCCG GTTGTGCGCG GCCCGGGGGN 2880AGCTCCCCTC TGGCCCTTCC TCCTGAGACC TCAGTGGTGG GTCGTCCCGT GGTGGAAATC 2940GGGGAGTAAG AGGCTCAGAG AGAGGGGCTG GCCCCGGGGA TCTCTGTGCA CACACGACAA 3000CTGGGCGGCA TACATCTTAA GAATAAAATG GGCTGGCTGT GTCGGGGCAC AGCTGGAGAC 3060GGCTATGGAC GCCTGTTATG TTTTCATTAC AAAGACGCAG AGAATCTAGC CTCGGCTTTT 3120GCTGATTCGC AAAGTTGAGG TGCGAGGGTG AATGCCCCAA AGGTAATTCT TCCTAAGACT 3180CTGGGGCTAC CTGCTCTCCG GGGCCCTGCA TTTGGGGTGT GGAGTGGCCC CGGGAAATAG 3240CCCTTGTATT CGTAGGAGGC ACCAGGCAGC TTCCCAAGGC CCTGACTTTG TCGAAGCAGA 3300AAGCTGTGGC TACGGTTTAC AAAGCAGTGC CCGGTTTCTG ACCGTCTAAG AGGCAGGAGC 3360CCAGCCTGCC TTTGACAGTG AGAGGAGTTC CTCCCTACAC ACTGCTGCGG GCACCCGGCA 3420CTGTAATTCA TACACAGAGA GTTGGCCTTC CTGGACGCAA GGCTGGGAGC CGCTTGAGGG 3480CCTGCGTGTA ATTTAAGAGG GTTCGCANGC CCCCGGCGGC CGCTTCTATT GGGGTTGCTT 3540TTTGGTTGTC CTTCNGCAAA CACCGTTTTG CTCCTCTNGN AACTCTCTCT TNCTCCCCCN 3600TGGCCNGTNG GACCCGGGNA NGAGCAAAGT GTCCTCCAGA CCNTTTTGAA ANGTGAGAGG 3660AAAATAAAGA CCAGGCCAAA NNGACCCAGG GCCACAGGAG AGGAGACAGA GAGTCCCCGT 3720TACATTTTNC CCCTTGGCTG GGTGCAGAAA GACCCCCGGG CCAGGACTGC CACCCAGGCT 3780ACTATTTATT CATCAGATCC AAGTTAAATC GAGGTTGGAG GGCAGGGGAG AGTCTGAGGT 3840TACCGTGGAA GCCTGGAGTT TTTGGGNAAC AGCGTGTccc CGCCGAGCCT GGGAGCCCGT 3900GGGTTCTGCA AAGCCTGCGG GTGTTTGAGG ACTTTGAAGA CCAGTTTGTC AGTTGGGCTC 3960AATTNCCTGG GGTTCAGACT TAGAGAAATG AAGGAGGGAG AGCTGGGGTC GTCTCCAGGA 4020AACGATTCAC TTGGGGGGAA GGAATGGAGT GTTCTTGCAG GCACATGTCT GTTAGGAGGT 4080GAAACAGAAT GTGAAATCCA CGTTGGAGTA AGCGTCCAGC GCTGAATGTA GCTCGGGGTG 4140GGGTGGGAGG GCCCTGGTGT GGATCGTGGA AGGNAAGAAA GACAGAACAG GGTGCTAGTA 4200TTTACCCCGT TNCCCTGTAG ACACCCTGGA TTTGTCAGCT TTGCAAGCTT CTTGGTTGCA 4260GCGGCCTTGC CTGTGCCCCT TTGAGACTGT TTCCAGACTA AACTTCCAAA TGTCAGCCCC 4320TTACCCTTGA CAGCAAGGGA CATCTCATTA GGGCATCGCG TGCTTCTCAT CTGTGNCTCA 4380GCAGGCCCNG AGATAGGAAN CANGAGGGGC NGTTGGNAGA TGCNCACTTC CACCAGCCCT 4440GGGNTTGAAG GGGANGCGAN GGGANGACHA CCTTTTANCT TAAACCCCTN GAGCTTGGTN 4500CAGAGAGGNC TGAATGTCTA AAATGAGGAA GAAAAGGTTT TTCACCTGGA AACGCTTGAG 4560GGCTGAGTCT TCTGCCCNTT CTGACNTCCC CCAGCAAATA CAGACAGGTC ACCAANCTAC 4620TGGAGATGAG AAAGTGCCAT TTTTGGCACA CTCTGGTGGG GTAGGTGCCC GACCGCGTGT 4680GAAAAANGTG GGAANNGGAG AGATTTCTGN CGCACGCGGT TCAGCCCCCA GGCGCGGNTG 4740GCNGCATTCN AGGNTACTCA GACGCGGTTC TGCTGTTCTG CTGAGAAACA GGCTTCGGGT 4800AGGGGCTCCT AGCTCCGCCA GATCGCGGAG GGACCCCCAG CCCTCCTGCG CTGCAGCGGT 4860GGGGATAGCG TCTCTCCGTA GGCCTAGAAT CTGCAACCCG CCCCGGGTCC TCCCCGTGTC 4920CTTCCCGGGC GTCCCGCCGG GGATCCCACA GTTGGCAGCT CTTCCTCAAA TTCTTTCCCT 4980TAAAAATAGG ATTTGACACC CCACTCTCCT TAAAAAAAAA AAATAAGAAA AAAAGGTTAG 5040GTTATGTCAA CAGAGGTGAA GTGGATAATT GAGGAAACGA TTCTGAGATG AGGCCAAGAA 5100AACAACGCTC GTGCAAAGCC CAGGTTTTTG GGAAAGCAGC GAGTATCCTC CTCGGCTTTT 5160GCGTTATGGA CCCCACGCAG TTTTTGCGTC AAAGCGCATT GGTTTTCGAG GGCCCCCTTT 5220CCACCGCGGG ATGCACGAAG GGGTTCGCCA CGTTGCGCAA AACCTCCCCG GCCTTAGCCC 5280TGTGCCCTCC GCTCCCCACG CAGGGATTTA TGAATGCAAA GAGAAGCGCG AGGACGTGAA 5340GTCGGAGGAC GAGGACGGGC AGACCAAGCT GAAACAGAGG CGCAGCCGCA CCAACTTCAC 5400GCTGGAGCAG CTGAACGAGC TCGAGCGACT TTTTGACGAG ACCCATTACC CCGACGCCTT 5460CATGCGCGAG GAGCTCAGCC AGCGCCTGGG GCTTTCCGAG GCGCGCGTGC AGGTAGGAAC 5520CCGGGGGCGG GGGCGGGGGG CCCGGAGCCA TCGCCTGGTC CTCGGGAGCG CACAGCACGC 5580GTACAGCCAC CTGCGCCCGG GCCGCCGCCG TCCCCTTCCC GGAGCGCGGG GAGGTTGGGT 5640GAGGGACGCG CTGGGGTTCC TGGACTTTTG GAGACGCCTG AGGCCTGTAG GATGGGTTCA 5700TTGCGTTTGT TTTTCACCAA CAGCAAACAA ATATATATAC ATATATATTA TACAAATAAC 5760AAATAAATAT ATATGTTATA CAGATGGGTA TATTGTATAT ATTATAGATA TTTGTTCGTC 5820CTTGGTGCAA AGACACCCGG TGAACCCATA TATTGGCTCC TGACTGCCTT CGGTTCCCCT 5880GGGATTGGTT ATAGGGGCAA CACATGCAAA CAAAACTTTC CCTGGATTAT ACTTAGGAGA 5940CGAAGCTACA GATGCGTTTG ATCCAGAGTG TTTTACAAGA TTTTTCATTT AAAAAAAAAT 6000GTGTCTTTTG GCCCCTGATT CCCCTCCGTC TTCCCGTGTG GCTGCATTGA AAAGGTTTCC 6060TTAGGATGAA AGGAGAGGGG TGTCCTCTGT CCCTAGGTGG AGAGAAACAG GGTCTTCTCT 6120TTCCTCCGTT TTTTCACCTA CCGTTTCTAT CTCCCTCCTC CCCTCTCCAG CCCTGTCCTC 6180TGCTACAAAC CACCCCCTCC TCCCTCCGGC TGTGGGGAGC GCAGGAGCAC GTTGGGCATC 6240TGGATGAGCG GHAGACTATT AGCGGGGCAC GGGGGCTCCC CGAGGAGCGC GCGAATTCAC 6300GCTGCCCCAT GAGACCAGGC ACCGGGGGGC GGAGGGGCCT TGGGTGTCCG CAGAGGGACG 6360GGCGGGCAGA GCCTTCCTCC GCATTCTAAA CATTCACTTA AAGGTATGAG TTTANTTTCA 6420GGGGTGCTGC TGGGAGAGCC TCCAAATGGC TTCTTCCAGC CCCTGCCTGA CAGTTCAGCT 6480CCCCTGGAAG GTCAACTCCT CTAGTCCTTT CTCCTGGTTC TGGGCAGGAC AGAAGTGGGG 6540GGAGGGAGAG AGAGAGAGAG AGAGAGAGAG ACGGTCAGGA TCCCCGGACC CTGGGGAACC 6600CGTCAAAAAT AAATGAAATT AAGATTGCCG ACCAGAGAGA GAACCGTGAC AAAGCAAACG 6660GCGTTCAAAG CAAAGAGACG AACTGAAAGC CCGTTCCCGT AGGACTGGTT ATGAGGTCAA 6720CACATTCAAA CACAGCTTGC TCTGGATTTT GCTGAGCAGA GGAAGATACA GATGCATTTG 6780ATCCAAAGTG TGTTACATCT TTCATTATAT GTGTGTCTAT ATATATAAAC ATATATAAAT 6840ATATAAACAT ACATAAATGT ATGTAAATAT ATATAATCTA TATACATATA TAAATATATA 6900AACACATATA TAATATATAA ATCTATAAAC ATATATAATA TATAAACATA AATATATAAA 6960CATATATAAT ATATAAATAT ATTAACATAT ATAAAATATG TATAAATATA TATAAACATA 7020TAAACATATA TAAATATATA AACATATAAA TATATAAACA TATATAAATA TATACAAACA 7080TATTGTATAT ATATAAATAT ATATAAAAAC ATATATATAC ATATAAAAAT ATATATAAAC 7140ATATATACAT ATAAAGAAAT ATATATAAAC ATATATACAT ATAAATATAC ATATATAAAC 7200ATATATATAC ATAAAATATA TATAAACATA TATACATATA AAAATATATA TATATTAACA 7260TATATATACA TATAAAAATA TATATATTAA CATATATATA CATATAAAAA TATATATATA 7320TTTTTGGCCC CTGATTCCCT TCGGTTCCTG TGGGATGGGT GATTGAGTCA ACACATTCAA 7380ACACAACTTT TCCATCGATG TTGCTTAGGA GATGAGGATA CAGATGCGTT TGATGGAGAG 7440GGTTTTACAA GCTCTTTCAT TTAAATATAT ATATATATAT ATATATATTT TTTGGCTCCT 7500GATTCTCTTC CGTCTTCCCA TGTGGCTGCA TTTTAAAAGG CTTCCCTAAG ATCGTTACGA 7560TTAAATCAAC CCTCCCCAGG CATCTTTACC GAGGGCTGTG GTCCCCAAAG CGATACAGCC 7620CAGGAGGGAG AGAGGCTTTG GTGACTTGGA GGAAGGACTG TGTCCCTCCT TAGGGCGTCT 7680GTGGCCTCAG TGAGGGAAGG AAGCTGCATC AGACAGGGGT TTCCTCGCTG TCCACCCCTC 7740TGGCAGAAGA TGGATTGGGC TGCCCCGNTA TAAATTAATG AAAAGATTAA AGTTTCGCTA 7800AAGGGGACAT CGAGTTTATG TGTCATCTCC TGGTGNTCTG TGTGCCNTGG GATNCTGCAA 7860TATATCCCAN NGCCCTTGAT GNNNTACTGT TTNCTATAAA AANNTAAATN TACTTGTNNA 7920ATTTAANTTC CNNNACACTA TTTNCTTTCC NNGTNAGTCT NATTANCCGA NCGAGAGCAN 7980CGNTTAGTTN CAGCTNGCGG AAAATTGGTT GTGGGGTGTG TGCGGACCCC NGAGNAACGC 8040CCNNTAAAAT NAAAGACAAA NTCNGGGGAC AAGNCTNGGG GGTTATCGNN ATTGCNNAGG 8100GGTCGNCATG AAAANTTTAA CGACGGTAAA TAATAATAAA AANNCAAACA TGGGAATGNC 8160AATAAAAGAC ATAATTCTCC NNATCGCCGC GGGGGGAAAG GATCCTATAG TAAAGGCGAG 8220TGCGCTTTGA GGGGTCATAA AAATCAATTA GTTCCAACAC CCACGTCCCG CGTTGAGGGG 8280ACGGGGACGA GCAGGGACAG AAAAAGAAAC CATATTTGAA TCCCATCTCT CTGTGAATTC 8340TTGGGTCACA TGCGTCTCAG TACAGCCCGT CCCGTGCTGT GACCGGATAG AGTTTCAATT 8400TACTGTGGAA ATTTGCTGTA AATAAATTGA GCATCCGATA GAAGCTGTTG CTGATTAACC 8460TTTTATTTTT AGCGTGGCCC TGCAAAGTCG TATCACCCAG CTGTCAGGCT TCTAATCGAA 8520AGTTATGAGA CCACGGTGAG GGGCAGGCGG TAATTTAATT ACAACAAATA TCTTTGGGTT 8580TATGGCGCAG AGCTAAATTA AATGTCATTA TTCACTGTCT GTNAATGGNA AATCAAAANN 8640GGAAATCGCA NTTACGGNCA TTTGGGNNAA ANGAAAGCGG GGNAGTGCTC TTTAATNGAA 8700NNGAAATAAC TGTCTTAAGC AGTGTCACAC ACTTCACTTA CCATATTCGN GGCCTNAATT 8760GGAANNTGGA TCGTNNGAAT CACTCCNAAG ACTNGATTTA TTANGCGCTT CACGNCAGCN 8820NGGCNTAATT CATCNACTTN NGTATTCTTC ATCNNNNATT TTTTTTTTTC CTCTCNNGCC 8880GTGTTNNGAA GGGAGAGTGA ATGAGGCTTT CCACGTTTCA GGAGGATTTT CTTTTTTGAA 8940AAATGCCCTT CCAGAGGCTT TTGGGTGGCT GGCTTGCTTT CTGGGCCCTG GAGGANGACA 9000GGCGGANGAG TCCAGGTGGG CATGGAGAGG CACAGTGGCA GGTCACCTGG ATGGTCAGTG 9060GAGGTGGAGG TCTGAAGGCG CCAGCTTTGG AAATTATTGG TGAATTTCGA TGTCAGCACC 9120AGGNCAGGGG CCTTTTTGGC GGGGGTGTGA GGGANGGATG ANCTTTGCTG GGAAANNCAG 9180GATCAGGTTC TCCAGGCGCA CTGCAGCCCG GTAGGACCCA CTTTGGAAAT GAAAAGCCAG 9240TTNCCGAAAG CTGGGCTGGA AGCTTCCGTG TTGGGTTCAA GAGCAAGTTC ACGTTGCGCT 9300GTGTAGACTC CTGGCTGCTC CCAAACTCTG AGGGTTTTCT GAGGTTCCCT TCATAGGGGC 9360ACCGGCCCTG GGCCATGCAC AGTGCGTAAG GGTGGCTGTG GGCCGAGGGA CCCAGCACGT 9420GTTTTGCCCA CAACAGCCGG AGTGACTGGT TCACTCACCG CCTTGGCGGA GGACGCCTGT 9480TCTCTGGACG AATCATTTCT CTTGGGTGGT GACTGCCTTG TGGGTCAAGG TGCAGGTTTT 9540CTGCCACAGA AAACCTGTTA GGAGGAATTA AGCGACTAAG ACTGTCAGGG AGGTGGTGGT 9600GGGGGANGAG GNAGGGGGTG GTGTCCAGAT TACCAGGCAT AGGCTAAACT GCCTGCACTC 9660TCCAGCTGGT CTGTCTGTGG AGGAGGGGAT TGTCAATACT GGGAGAGCAG AGGAGGCTCG 9720TAGGAGGTGA GAGGGGGTGG AATTTGCATG CAAATCTTCA CATGAGGCCT GTGTGAATTT 9780CTCCAGCCTC CTGAGGGTCC CCTGCGCTAT TGCACTCAAC TTCTTGATAG TTTACCCCAA 9840GACTCAGAAG TCCTTAGAGG GGCAGAATGC CCCCACCACA AAGCCTGCTA TCCTTGGGCG 9900TCCTCAGGAC CCTTGGTCAT GAATGGGACC CTTTCATGTA TGGGGACCCT TGGTAATATG 9960AATGGGACGC CTTCAGCTCC CCAGGGCTTC CGAGGAGGCC GAGAAGGGCA AAGACACTTC10020CGAGGAGGCC GAGAAGGGCA AAGACATTTT CTGGGCTTGG TGTGTCAAGA GCTAGATTGG10080AGAAGGGGCT GGATTTGGAA CTCTTTAGCC ATCAGCTCAC CCTCTCCGTT TGTGGCTAAA10140GTCTGAAGGT GGAAACTTCG GTTCTCCTAC AGGGTCTACA GGAGTTGGGG GGCGGGGCGC10200CCACACAGAA CGCTGGAAAG TTCGACAGTC CACTTCCACT GGCTCGGAAC TCACTTTTTC10260ACCTTAAGTT CATCAGCGGT AACGCATAGG TCTCACTTAG GCAGGGCACG GATGATTTAA10320CAATTTCTAC TTCTAGGTCA GGTGCGGTGG CTCACACCTC TAATCCCAGC ACTTTGGGAG10380GCCCAGGAGG GTGGATCGCT TGAGGTCAGG AGTTTGAGAC CAGCCTGGCC AACATGGTGA10440AACCCCGTCT CTACTAAAAT ACGAAAATTA GCCAGGCATG GTGGTGAGCA CCTGTAATTC10500CAGCTACTCG GGAGGCTGAG GCAGGAGAAT CGCTTGAACC TGGGAGGTGG ACGTTGCAGT10560GAGGTGAGAT CACACCACTG CACTCCAGCC TGGATGAGAG AGCAAGACTC TGTCTCAAAA10620ACAAAATAAA ACAAAAACAA AACAAAAATC AAAAAAGAAA ACCCAATTTC CAGTTCTAGG10680CCAGGTGCAG TGGCTCACGC CTGTCATCCC AGCACTTTGG GAGGCCCAGG AGGGTGGATC10740GCTTGAGGTC AGGAGTTCGA GACCAGCCTG GCCAACATGG TGAAACCCCA TCTTTACTAA10800AAATACAAAC GTTAGCTGGG TGTGGTGGTG TGCGCCTGTA ATCCCAGCTA CTCGGGAAGC10860TGAGGCTGGA GAATTGCTTG AATCTGGGAG GTGGAGGTTG CAGGGAGGCG AGATAGTGCC10920ACTGCAGTCC AGCCTGGACC AGAGAGCAAG ACTCCGTCTC AAAAACAAAA GAAAGCAAAA10980ACAAAAAACA AGAGACCAGC CTGGCCAACA TGGTGAAACC GCGTCTTTAC TAAAATACAA11040AATTAGCCGG GCATGGTGGT GGGCACCTGT AGTCCCAGCT ACTCGGGAGG CTGAGGCAGG11100AGAATGGCTT GAACCTGGGA GGTGGAGCTT GCAGTGAGCC GAGATAGTGC CACTGCACTC11160CAGCCTGGGC GACAGAGCGA GACTTGATTT CAGAACCACC ACCACCACAA CAAAACAAAA11220CAAAAAATCC AAAAAAACCC CAATTTCCAG TACTAGGTAG TCAGTGATGC AGGGCTGGAG11280ACAGAGGGGC GGTAAGTGTC TGGGCGCCCA CCATCCGTCA CCTCCCAGCT CCCANGAGGT11340GCAAAGTGCT TGGTTCAGCC TCATGGGAAG GATGCTCCCT GGGGAGGCTG GGCTGGGTTC11400ACAGGGCTCT TCACATCTCT CTCTGCTTCT NCCCCAAGGT TTGGTTNCCA GAACCGGAGA11460GCCAAGTGCC GNCAAACAAG AGAATCAGAT GCATAAAGGT GGGTGTCGGG ACTGGGGGGA11520CCTGAAGCTG GGGGATCCTG CTCCAGGAGG GATGGGGTCG ACAAGGTGCT GGCTACACCC11580AGGACCACCA CACTGACACC TGCTCCCTTT GGACACAGGC GTCATCTTGG GCACAGCCAA11640CCACCTAGAC GCCTGCCNGA GTGGCACCCT ACGTCAACAT GGGAGCCTTA CGGATGCCTT11700TCCAACAGGT AGCTCACTTT TTCTTCCTCT GNAAGATCCC TAGGGACCTG CTGCTCCCTT11760CCCCTTTCCC CTATTTGCTG CCGCATCCTG ACACTCCTAG TCCCTCCCTG CCCCTGCAGA11820CTTCTCAGCT GGCCCTTAGA AAAAAAGCCT CTTTTCCGAG GAGGCATTTA CAGGCACCTT11880GGCACCTATG AAATCAGGCT GGGCCAGGCG GGGTGGCTCA CACCTGTCAT CCCAGCACTT11940TGGGAGGCCA AGGTTAGGAG TTTGAGACCA GCCTGGAGAA CATAGCAAAA GCCTGTCTCT12000ACTAAAAATA CAAAAAAAAA TTAACAGGGA GTGGTGGTGG GCACCTGTAA TCCCAGCTAC12060TTGGGAGGCT GAGGCAGGAG AATCACTTGA ACCCGGGAGG CCGAGGTTGC GGTGAGCCGA12120GATCGTGCCA TTGCACTCCA GGCTGGGCGA CAGAGTGAGA CTCTGTCTCA AAAAATAAAT12180AAATAAATAA ATGTAAAAAA ATAAAAATAG GTCGGGCACG GTGGCTCACG TCTGTAATCC12240CAGCACTTTG GAAGGCCGAG GTGGGTGGAT GACAGGGTCA AGAGATTGAG ACCATCCTGG12300CCAACATGGC AAAATGCCGT CTCTACTAAA AAATACAAAA ATTAGGCGGG CGTGGTGGCG12360GGTGCCTGTA ATCCCAGCTA CTCGGGAGGC TGAGGCAGGA GAATCGGTTG AACCCGGGAT12420GCGGAGGTTG CAGTGAGCGG AGATCACATC ACTGCACTCC AGGCTGGGCA ACAAGAGCGA12480AACTGCGTCT TACAATAAAT AAATAGATAA ATAAATAAAC AAATAAACTT TACTTTAGAA12540ACAAATCCCT GTCCGTGTTT GTCTTTTCAC CTGTCCTGCA GGGAAAACAA AACATAAAAT12600GTCAAGGCAA ATAGTAGTGA TTTCATTCCG GGAAAAAGAA AGTGGATGTT TGCCTTCACC12660CTTTCTCGTC CTTCCTCTGG TGCTCCTCAN GGCCCANGGG NAGAGGGTGG AAAGTNCAGA12720GGAAGAAAGA CGGGGCTGGG GGGGGGGTCC CGTGGGGACC CAGGCAGGCA TGTTCCCNAT12780TTCCNTGTCT TCACNTTCAA AGNAGGGGCC CCTCGNCTCT GGAATGAGGC CTACGGTTTC12840CTTTCCCNGA AGAGTTNCCC CTTTGTGAGC TTACGGCTTC GGAGTGAACC TCGGTGCAAC12900CTGTTATTAA AACACACAGA GGCTAATGCC AGCAAAAACA CGCCCCCCGC TCCTGGTTTC12960AGAGGGAAGA AAAAAATTCA TAAGCACGGC CATGCTTTTC TAATAAAAAT TCATTAAATA13020ATCGTTATAA GGGATGAAGC CGGGAGGGGA GAGGAGAGGA ACACAATCAA GAGACTTTCT13080TTGAACTTTT TCTCCCTGCT TCAAATACAA AGCAATCTTC TGTGGGCCTG GGCCTGGGGG13140GTTTCCCCCT TTCTCTGCAG CCCATTGGGA GGAAGAAAAT GCTTCCCTGA ANGTTGCTGC13200AAAATTGTTT CTGTTTTTCT TTTCTTTTTC TTTTTTTTTT TTTTTTGAGA CGGAGTCTCG13260CTCTGTCACC AGGCTGGAGT GCAATGGTAT GATCTCAGCT CACTGCAACC TCCACGTTCC13320TGTTTCAAGT CATTCTCCTG CCTCAGCCTC CTGAGTAGCT GGGACTACAG GCGCCCGCCA13380CCACGCCCGG CTAGTGTTTG TATTTTTAGA AAAGACAGGG TTTCCCCATG TTGGCCAGGC13440TGGTCTTGAA CTCCTGTCCT CAAGTGATCT GCCTGCCTCG GCCTCCCAAA GTGCTGTGTT13500TCTGTTTTTC TTTCCCCGCT TTCTTAGGAG GCCATCGGGA AGAATAAAAT GCTTTCCTTG13560AAGTTGATGC AAAATTGTTT CTGTTTTTCT TTTCTCTTTT CTTTCTTTTT GAGATGGAGT13620CTCGCTCTTT CACCCAGGCT GGAGGGCAGT GGCGCGACCT CGGCTCACTG CAACCTCCGC13680CTCCCGGGTT CAAGCGATTC TCCTGCCTCA GCCTCCGGAG TAGCTGGGAT TACAGGCACC13740TGCCACTATG CCTGGCTAAT TTTATTATTT TTAGTAGAGA CGGGGTTTCA CCATGTTGGC13800CAGGCTGGTC TCAAACTCCT GACCTCAGGT GATCCGCCCG CCTCGCCTCC CAAAGTGATG13860GGATGANCAG GNCATNGAGC NCACCGTGCC CGGCCCTCTA ACTCTTTACC AGACATAAAG13920TCTCCNNTTC CCCTTTCTAA ATGTATATAT TGTGTTTTTA AAAGTTAACA GCAGGGATCC13980CACCTCATTN CCCCGCTNCT CTCCCCAAGA CCTGTCCTGC ACGTTGCACA CAGCAGGTGT14040GCCCTGGACA TATCCCAAAC CCACGCTGAA AGAAAGAGGG TCTCACTACA CGTATGATAT14100CTGTGNATCC TTTAAACATC TCCGTGGCTT CCAGGCAACA CAGCCATAAA TAGGAATCTC14160ATGTCTGACA TGATACCGGG ACCATGTATG GGNAAATTCT GGGTGTGAAG TTCCAGCTAC14220CCCCGCAGAG GCANCCATTG CATACCCTCC AGAAACTCCC CTGCCGTTNC AAGCCAAAGA14280CACAACACAA ACAGCNTCCG AGAGAGGGTG TCATTGAAAA TCAATACCAT CATAAGAGCA14340CACAGCACCG TCTTTCTCTT CTGCCCGTTG ATACACAATT ATGAGCAATT TGCTAACACT14400GACAACTCGT GGCAAGAACA GGTCGTGTTG ATACGGTTGC CTCGTGAGGA CCCATCTGTC14460TTCTGGGGTC TTGCCTGGAA CGGAGATCGG AGTTCAGGGT GGCTAATAGA ATCATTACTC14520ACCTAGGGAC ACAGAATNAT GAGGGTTACC CCCAGTTAAG TGCATACAGT CAAACGGACG14580GCTGCTCTGG AAGGTACAGT GACGTGAACA GCTTTTATGA AATGCCTAGA TCTGGACCTT14640CCATACCTGA GCCACCGTTC CAAAGCACTG GGCGTTTTTC AGATACTTTC ATGAGAAATG14700TTGTCAACAC CGCAAGTTTG CAGTACACAG TCTGAAAGAT ATTCTTGTAT ATGTAGATGT14760CTGTAGATGC CCTGAAGGTG TGTAGACTTT AGACACCCAG AAGGTGTGTA GATGTCTGTA14820GACACCTTCT ATGTGTGTAG ATGTCTGTAG ACGCCCTGCA GGTGTGTAGA TATATCTAGA14880TGGTCTGCCT GTGTATGATA CAGGCTAAAA AGACATTTGT GGTGGACACT AGTTGATTAT14940TTAGGACTAT GAGATGGGAA AGGAAGNAGC AACCAGCAGT GAAAGGCATG TGGTGGGTGG15000GGGGTTGGCA TTGCAGTGGG GTCCTCNTGA NGCAGGTGAC ACCCACTATA GGGCTGCCCT15060TGGNATGGAC GCTTTGTNGA AGCTGTTTGA TTTCACCACA CCAAGCCTGG AGGCACGGAC15120ATTCCAGGAT GGTGAGGAGT CTGCAAAGGA GGAGATTGGA GGAGGTGCAA TATCCCTAGA 15180GTACGAGAGA TGAGATAGGA GAGCTGTATA AATAGCACTA CCAGCCGGAT GCGGTGGCTC 15240ACGCCTGTCA TCCCAGCACT TTAGGAGGCT GAGGCAGGCG GATCACCTGA GGTCAGGAGT 15300TCCAGAACAG CCTGGCCAAC ACAATGAAAC CCCATCTTTA CTAAAAATAC AAGATTAGCT 15360GGGCACGGTG TCTCACGCCT GTCATCCCTG CACTTTGGGA GGTCGAGGTG CGCAGATCAT 15420GAGGTCAGTT TGGCCAACGC GGCGAAACCC CGTCTCTACT AAAAATACAA AAAAGTAGCC 15480GGGCGTGGTG GTGGGCACCT GTAGTCCCAG CTACTAGGGA GGCTGAGGCA GGAGAATCGC 15540TTGAACCCGG ATGCGGACAT TGCAGTGAGC CGAGATC15577(2)SEQ ID NO:9的資料(ⅰ)序列特征(A)長(zhǎng)度753個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/Desc=“ET92基因區(qū)段”(ⅹⅰ)序列描述SEQ ID NO:9:CGTGGAAGCC TGGAGTTTTT GGGAACAGCG TGTCCCCGCC GAGCCTGGGA GCCCGTGGGT 60TCTGCAAAGC CTGCGGGTGT TTGAGGACTT TGAAGACCAG TTTGTCAGTT GGGCTCAATT 120CCTGGGGTTC AGACTTAGAG AAATGAAGGA GGGAGAGCTG GGGTCGTCTC CAGGAAACGA 180TTCACTTGGG GGGAAGGAAT GGAGTGTTCT TGCAGGCACA TGTCTGTTAG GAGGTGAAAC 240AGAATGTGAA ATCCACGTTG GAGTAAGCGT CCAGCGCTGA ATGTAGCTCG GGGTGGGGTG 300GGAGGGCCCT GGTGTGGATC GTGGAAGGAA GAAAGACAGA ACAGGGTGCT AGTATTTACC 360CCGTTCCCTG TAGACACCCT GGATTTGTCA GCTTTGCAAG CTTCTTGGTT GCAGCGGCCT 420TGCCTGTGCC CCTTTGAGAC TGTTTCCAGA CTAAACTTCC AAATGTCAGC CCCTTACCCT 480TGACAGCAAG GGACATCTCA TTAGGGCATC GCGTGCTTCT CATCTGTGCT CAGCAGGCCC 540GAGATAGGAA CAGAGGGGCG TTGGAGATGC CACTTCCACC AGCCCTGGGT TGAAGGGGAG 600CGAGGGAGAC ACCTTTTACT TAAACCCCTG AGCTTGGTCA GAGAGGCTGA ATGTCTAAAA 660TGAGGAAGAA AAGGTTTTTC ACCTGGAAAC GCTTGAGGGC TGAGTCTTCT GCCCTTCTGA 720CTCCCCCAGC AAATACAGAC AGGTCACCAA CTA 753(2)SEQ ID NO:10的資料(ⅰ)序列特征(A)長(zhǎng)度1890個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸
(A)說(shuō)明/desc=“SHOXa”(ⅸ)特征(A)名字/關(guān)鍵詞CDS(B)位置91-968(ⅹⅰ)序列描述SEQID NO:10:GTGATCCACC CGCCGCACGG GCCGTCCTCT CCGCGCGGGG AGACGCGCGC ATCCACCAGC60CCCGGCTGCT CGCCAGCCCC GGCCCCAGCC ATG GAA GAG CTC ACG GCT TTT GTA114Met Glu Glu Leu Thr Ala Phe Val1 5TCC AAG TCT TTT GAC CAG AAA AGC AAG GAC GGT AAC GGC GGA GGC GGA 162Ser Lys Ser Phe Asp Gln Lys Ser Lys Asp Gly Asn Gly Gly Gly Gly10 15 20GGC GGC GGA GGT AAG AAG GAT TCC ATT ACG TAC CGG GAA GTT TTG GAG 210Gly Gly Gly Gly Lys Lys Asp Ser Ile Thr Tyr Arg Glu Val Leu Glu25 30 35 40AGC GGA CTG GCG CGC TCC CGG GAG CTG GGG ACG TCG GAT TCC AGC CTC 258Ser Gly Leu Ala Arg Ser Arg Glu Leu Gly Thr Ser Asp Ser Ser Leu45 50 55CAG GAC ATC ACG GAG GGC GGC GGC CAC TGC CCG GTG CAT TTG TTC AAG 306Gln Asp Tle Thr Glu Gly Gly Gly His Cys Pro Val His Leu Phe Lys60 65 70GAC CAC GTA GAC AAT GAC AAG GAG AAA CTG AAA GAA TTC GGC ACC GCG 354Asp His Val Asp Asn Asp Lys Glu Lys Leu Lys Glu Phe Gly Thr Ala75 80 85AGA GTG GCA GAA GGG ATT TAT GAA TGC AAA GAG AAG CGC GAG GAC GTG 402Arg Val Ala Glu Gly Ile Tyr Glu Cys Lys Glu Lys Arg Glu Asp Val90 95 100AAG TCG GAG GAC GAG GAC GGG CAG ACC AAG CTG AAA CAG AGG CGC AGC 450Lys Ser Glu Asp Glu Asp Gly Gln Thr Lys Leu Lys Gln Arg Arg Ser105 110 115 120CGC ACC AAC TTC ACG CTG GAG CAG CTG AAC GAG CTC GAG CGA CTC TTC 498Arg Thr Ash Phe Thr Leu Glu Gln Leu Asn Glu Leu Glu Arg Leu Phe125 130 135GAC GAG ACC CAT TAC CCC GAC GCC TTC ATG CGC GAG GAG CTC AGC CAG 546Asp Glu Thr His Tyr Pro Asp Ala Phe Met Arg Glu Glu Leu Ser Gln140 145 150CGC CTG GGG CTC TCC GAG GCG CGC GTG CAG GTT TGG TTC CAG AAC CGG 594Arg Leu Gly Leu Ser Glu Ala Arg Val Gln Val Trp Phe Gln Asn Arg155 160 165AGA GCC AAG TGC CGC AAA CAA GAG AAT CAG ATG CAT AAA GGC GTC ATC 642Arg Ala Lys Cys Arg Lys Gln Glu Asn Gln Met His Lys Gly Val Ile170 175 180TTG GGC ACA GCC AAC CAC CTA GAC GCC TGC CGA GTG GCA CCC TAC GTC 690Leu Gly Thr Ala Asn His Leu Asp Ala Cys Arg Val Ala Pro Tyr Val185 190 195 200AAC ATG GGA GCC TTA CGG ATG CCT TTC CAA CAG GTC CAG GCT CAG CTG 738Asn Met Gly Ala Leu Arg Met Pro Phe Gln Gln Val Gln Ala Gln Leu
205 210 215CAG CTG GAA GGC GTG GCC CAC GCG CAC CCG CAC CTG CAC CCG CAC CTG786Gln Leu Glu Gly Val Ala His Ala His Pro His Leu His Pro His Leu220 225 230GCG GCG CAC GCG CCC TAC CTG ATG TTC CCC CCG CCG CCC TTC GGG CTG834Ala Ala His Ala Pro Tyr Leu Met Phe Pro Pro Pro Pro Phe Gly Leu235 240 245CCC ATC GCG TCG CTG GCC GAG TCC GCC TCG GCC GCC GCC GTG GTC GCC882Pro Ile Ala Ser Leu Ala Glu Ser Ala Ser Ala Ala Ala Val Val Ala250 255 260GCC GCC GCC AAA AGC AAC AGC AAG AAT TCC AGC ATC GCC GAC CTG CGG930Ala Ala Ala Lys Ser Asn Ser Lys Asn Ser Ser Ile Ala Asp Leu Arg265270 275 280CTC AAG GCG CGG AAG CAC GCG GAG GCC CTG GGG CTC TG ACCCGCCGCG 978Leu Lys Ala Arg Lys His Ala Glu Ala Leu Gly Leu285 290CAGCCCCCCG CGCGCCCGGA CTCCCGGGCT CCGCGCACCC CGCCTGCACC GCGCGTCCTG 1038CACTCAACCC CGCCTGGAGC TCCTTCCGCG GCCACCGTGC TCCGGGCACC CCGGGAGCTC 1098CTGCAAGAGG CCTGAGGAGG GAGGCTCCCG GGACCGTCCA CGCACGACCC AGCCAGACCC 1158TCGCGGAGAT GGTGCAGAAG GCGGAGCGGG TGAGCGGCCG TGCGTCCAGC CCGGGCCTCT 1218CCAAGGCTGC CCGTGCGTCC TGGGACCCTG GAGAAGGGTA AACCCCCGCC TGGCTGCGTC 1278TTCCTCTGCT ATACCCTATG CATGCGGTTA ACTACACACG TTTGGAAGAT CCTTAGAGTC 1338TATTGAAACT GCAAAGATCC CGGAGCTGGT CTCCGATGAA AATGCCATTT CTTCGTTGCC 1398AACGATTTTC TTTACTACCA TGCTCCTTCC TTCATCCCGA GAGGCTGCGG AACGGGTGTG 1458GATTTGAATG TGGACTTCGG AATCCCAGGA GGCAGGGGCC GGGCTCTCCT CCACCGCTCC 1518CCCGGAGCCT CCCAGGCAGC AATAAGGAAA TAGTTCTCTG GCTGAGGCTG AGGACGTGAA 1578CCGCGGGCTT TGGAAAGGGA GGGGAGGGAG ACCCGAACCT CCCACGTTGG GACTCCCACG 1638TTCCGGGGAC CTGAATGAGG ACCGACTTTA TAACTTTTCC AGTGTTTGAT TCCCAAATTG 1698GGTCTGGTTT TGTTTTGGAT TGGTATTTTT TTTTTTTTTT TTTTTTGCTG TGTTACAGGA 1758TTCAGACGCA AAAGACTTGC ATAAGAGACG GACGCGTGGT TGCAAGGTGT CATACTGATA 1818TGCAGCATTA ACTTTACTGA CATGGAGTCA AGTGCAATAT TATAAATATT ATAGATTAAA 1878AAAAAAATAG CA 1890(2)SEQ ID NO:11的資料(ⅰ)序列特征(A)長(zhǎng)度292個(gè)氨基酸(B)類型氨基酸(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型蛋白質(zhì)(ⅹⅰ)序列描述SEQID NO:11:Met Glu Glu Leu Thr Ala Phe Val Ser Lys Ser Phe Asp Gln Lys Ser1 5 10 15Lys Asp Gly Asn Gly Gly Gly Gly Gly Gly Gly Gly Lys Lys Asp Ser20 25 30Ile Thr Tyr Arg Glu Val Leu Glu Ser Gly Leu Ala Arg Ser Arg Glu35 40 45Leu Gly Thr Ser Asp Ser Ser Leu Gln Asp Ile Thr Glu Gly Gly Gly50 55 60His Cys Pro Val His Leu Phe Lys Asp His Val Asp Asn Asp Lys Glu65 70 75 80Lys Leu Lys Glu Phe Gly Thr Ala Arg Val Ala Glu Gly Ile Tyr Glu85 90 95Cys Lys Glu Lys Arg Glu Asp Val Lys Ser Glu Asp Glu Asp Gly Gln100 105 110Thr Lys Leu Lys Gln Arg Arg Ser Arg Thr Ash Phe Thr Leu Glu Gln115 120 125Leu Asn Glu Leu Glu Arg Leu Phe Asp Glu Thr His Tyr Pro Asp Ala130 135 140Phe Met Arg Glu Glu Leu Ser Gln Arg Leu Gly Leu Ser Glu Ala Arg145 150 155 160Val Gln Val Trp Phe Gln Asn Arg Arg Ala Lys Cys Arg Lys Gln Glu165 170 175Asn Gln Met His Lys Gly Val Ile Leu Gly Thr Ala Asn His Leu Asp180 185 190Ala Cys Arg Val Ala Pro Tyr Val Asn Met Gly Ala Leu Arg Met Pro195 200 205Phe Gln Gln Val Gln Ala Gln Leu Gln Leu Glu Gly Val Ala His Ala210 215 220His Pro His Leu His Pro His Leu Ala Ala His Ala Pro Tyr Leu Met225 230 235 240Phe Pro Pro Pro Pro Phe Gly Leu Pro Ile Ala Ser Leu Ala Glu Ser245 250 255Ala Ser Ala Ala Ala Val Val Ala Ala Ala Ala Lys Ser Asn Ser Lys260 265 270Asn Ser Ser Ile Ala Asp Leu Arg Leu Lys Ala Arg Lys His Ala Glu275 280 285Ala Leu Gly Leu290(2)SEQ ID NO:12的資料(ⅰ)序列特征(A)長(zhǎng)度1354個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=SHOXb(ⅸ)特征(A)名稱/關(guān)鍵詞CDS(B)位置91..768(ⅹⅰ)序列描述SEQID NO:12:GTGATCCACC CGCCGCACGG GCCGTCCTCT CCGCGCGGGG AGACGCGCGC ATCCACCAGC 60CCCGGCTGCT CGCCAGCCCC GGCCCCAGCC ATG GAA GAG CTC ACG GCT TTT GTA114Met Glu Glu Leu Thr Ala Phe Val295 300TCC AAG TCT TTT GAC CAG AAA AGC AAG GAC GGT AAC GGC GGA GGC GGA 162Ser Lys Ser Phe Asp Gln Lys Ser Lys Asp Gly Asn Gly Gly Gly Gly305 310 315GGC GGC GGA GGT AAG AAG GAT TCC ATT ACG TAC CGG GAA GTT TTG GAG 210Gly Gly Gly Gly Lys Lys Asp Ser Ile Thr Tyr Arg Glu Val Leu Glu320 325 330AGC GGA CTG GCG CGC TCC CGG GAG CTG GGG ACG TCG GAT TCC AGC CTC 258Ser Gly Leu Ala Arg Ser Arg Glu Leu Gly Thr Ser Asp Ser Ser Leu335 340 345CAG GAC ATC ACG GAG GGC GGC GGC CAC TGC CCG GTG CAT TTG TTC AAG 306Gln Asp Ile Thr Glu Gly Gly Gly His Cys Pro Val His Leu Phe Lys350 355 360GAC CAC GTA GAC AAT GAC AAG GAG AAA CTG AAA GAA TTC GGC ACC GCG 354Asp His Val Asp Asn Asp Lys Glu Lys Leu Lys Glu Phe Gly Thr Ala365 370 375 380AGA GTG GCA GAA GGG ATT TAT GAA TGC AAA GAG AAG CGC GAG GAC GTG 402Arg Val Ala Glu Gly Ile Tyr Glu Cys Lys Glu Lys Arg Glu Asp Val385 390 395AAG TCG GAG GAC GAG GAC GGG CAG ACC AAG CTG AAA CAG AGG CGC AGC 450Lys Ser Glu Asp Glu Asp Gly Gln Thr Lys Leu Lys Gln Arg Arg Ser400 405 410CGC ACC AAC TTC ACG CTG GAG CAG CTG AAC GAG CTC GAG CGA CTC TTC 498Arg Thr Asn Phe Thr Leu Glu Gln Leu Asn Glu Leu Glu Arg Leu Phe415 420 425GAC GAG ACC CAT TAC CCC GAC GCC TTC ATG CGC GAG GAG CTC AGC CAG 546Asp Glu Thr His Tyr Pro Asp Ala Phe Met Arg Glu Glu Leu Ser Gln430 435440CGC CTG GGG CTC TCC GAG GCG CGC GTG CAG GTT TGG TTC CAG AAC CGG 594Arg Leu Gly Leu Ser Glu Ala Arg Val Gln Val Trp Phe Gln Asn Arg445 450 455 460AGA GCC AAG TGC CGC AAA CAA GAG AAT CAG ATG CAT AAA GGC GTC ATC 642Arg Ala Lys Cys Arg Lys Gln Glu Asn Gln Met His Lys Gly Val Ile465 470 475TTG GGC ACA GCC AAC CAC CTA GAC GCC TGC CGA GTG GCA CCC TAC GTC 690Leu Gly Thr Ala Asn His Leu Asp Ala Cys Arg Val Ala Pro Tyr Val480 485 490AAC ATG GGA GCC TTA CGG ATG CCT TTC CAA CAG ATG GAG TTT TGC TCT 738Asn Het Gly Ala Leu Arg Het Pro Phe Gln Gln Met Glu Phe Cys Ser495 500 505TGT CGC CCA GGC TGG AGT ATA ATG GCA TGA TCTCGACTCA CTGCAACCTC 788Cys Arg Pro Gly Tgp Ser Ile Met Ala *
510 515CGCCTCCCGA GTTCAAGCGA TTCTCCTGCC TCAGCCTCCC GAGTAGCTGG GATTACAGGT 848CCCCACCACC ATGTCAAGAT AATGTTTGTA TTTTCAGTAG AGATGGGGTT TGACCATGTT 908GGCCAGGCTG GTCTCGAACT CCTGACCTCA GGTGATCCAC CCGCCTTAGC CTCCCAAAGT 968GCTGGGATGA CAGGCGTGAG CCCCTGCGCC CGGCCTTTGT AACTTTATTT TTAATTTTTT 1028TTTTTTTTTA AGAAAGACAG AGTCTTGCTC TGTCACCCAG GCTGGAGCAC ACTGGTGCGA 1088TCATAGCTCA CTGCAGCCTC AAACTCCTGG GCTCAAGCAA TCCTCCCACC TCAGCCTCCT 1148GAGTAGCTGG GACTACAGGC ACCCACCACC ACACCCAGCT AATTTTTTTG ATTTTTACTA 1208GAGACGGGAT CTTGCTTTGC TGCTGAGGCT GGTCTTGAGC TCCTGAGCTC CAAAGATCCT 1268CTCACCTCCA CCTCCCAAAG TGTTAGAATT ACAAGCATGA ACCACTGCCC GTGGTCTCCA 1328AAAAAAGGAC TGTTACGTGG AAAAAA 1354(2)SEQ ID NO:13的資料(ⅰ)序列特征(A)長(zhǎng)度226個(gè)氨基酸(B)類型氨基酸(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型蛋白質(zhì)(ⅹⅰ)序列描述SEQ ID NO:13:Met Glu Glu Leu Thr Ala Phe Val Ser Lys Ser Phe Asp Gln Lys Ser15 10 15Lys Asp Gly Asn Gly Gly Gly Gly Gly Gly Gly Gly Lys Lys Asp Ser20 25 30Ile Thr Tyr Arg Glu Val Leu Glu Ser Gly Leu Ala Arg Ser Arg Glu35 40 45Leu Gly Thr Ser Asp Ser Ser Leu Gln Asp Ile Thr Glu Gly Gly Gly50 55 60His Cys Pro Val His Leu Phe Lys Asp His Val Asp Asn Asp Lys Glu65 70 75 80Lys Leu Lys Glu Phe Gly Thr Ala Arg Val Ala Glu Gly Ile Tyr Glu85 90 95Cys Lys Glu Lys Arg Glu Asp Val Lys Ser Glu Asp Glu Asp Gly Gln100 105 110Thr Lys Leu Lys Gln Arg Arg Ser Arg Thr Asn Phe Thr Leu Glu Gln115 120 125Leu Asn Glu Leu Glu Arg Leu Phe Asp Glu Thr His Tyr Pro Asp Ala130 135 140Phe Met Arg Glu Glu Leu Ser Gln Arg Leu Gly Leu Ser Glu Ala Arg145 150 155 160Val Gln Val Trp Phe Gln Asn Arg Arg Ala Lys Cys Arg Lys Gln Glu165 170 175Asn Gln Met His Lys Gly Val Ile Leu Gly Thr Ala Asn His Leu Asp
180 185 190Ala Cys Arg Val Ala Pro Tyr Val Asn Met Gly Ala Leu Arg Met Pro195 200 205Phe Gln Gln Met Glu Phe Cys Ser Cys Arg Pro Gly Trp Ser Ile Met210 215 220Ala *225(2)SEQ ID NO:14的資料(ⅰ)序列特征(A)長(zhǎng)度32367個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/desc=“粘粒LLNOYCO3’M’34F5”(ⅹⅰ)序列描述SEQID NO:14:TTTCTCTGTC TCCATCCCTC TGTCTCTCCC TTTCTCTCTG TCTTTCCTTG TCTCTCTCTT60TCTCTCTCTC TCTCCATCTC TCTCTCTCCC TGTCTCTCTC TCTCCATCTC CCCGTCTCTC 120CGTTTCTCTC TCTGCCTCTC CCTGTCTGTC TCTCTCTTTC TGTGTCTTAC ACACACCCCA 180ACCCACCGTC ACTCATGTCC CCCCACTGCT GTGCCATCTC ACACAAGTTC ACAGCTCAGC 240TGTCATCCTG GGTCCCCAGG CCCCGCCGGG GAGGAAGATG CGCCGTGGGG TTACGGGAGG 300AAGGGGACTC CGGGCCTCCT GGTGCCCCAC TTTATTTGCA GAAGGTCCTT GGCAGGAACC 360GTGACGCGTT TGGTTTCCAG GACTTGGAAA ACGAATTTCA GGTCGCGATG GCGAGCACCG 420GCTTCCCCTG AAGCACATTC AATAGCGAGA GGCGGGAGGG AGCGAGCAGG AGCATCCCAC 480CATGAAAACC AAAAACACAA GTATTTTTTT CACCCGGTAA ATACCCCAGA CGCCAGGGTG 540ACAGCGCGGC GCTAAGGGAG GAGGCCTCGC GCCGGGGTCC GCCGGGATCT GGCGCGGGCG 600GAAAGAATAT AGATCTTTAC GAACCGGATC TCCCGGGGAC CTGGGCTTCT TTCTGCGGGC 660GCTGGAGACC CGGGAGGCGG CCCCGGGGAT CCTCGGCCTC CGCCGCCGCC GCCTCCCAAG 720CGCCCGCGTC CCGGTTTGGG GACACCCGGC CCCTTCTTCT CACTTTCGGG GATTCTCCAG 780CCGCGTTCCA TCTCACCAAC TCTCCATCCA AGGGCGCGCC GCCACCAACT TGGAGCTCAT 840CTTCTCCCAA GATCGTGCGT CCCCGGGGCG CCCGGGTCCC CCCCCTCGCC ATCTCAACCC 900CGGCGCGACC CGGGCGCTTC CTGGAAAGAT CCAGGCGCCG GGCTCTGCGC TCCTCCCGGG 960AGCGAGGGCG GCCGGACGAC TGGGACCCTC CTCTCTCCAG CCGTGAACTC CTTGTCTCTC 1020TGTCTCTCTC TGCAGGAAAA CTGGAGTTTG CTTTTCCTCC GGCCACGGAG AGAACGCGGG 1080TAACCTGTGT GGGGGGGTCG GGCGCCTGCG CCCCCCTCCT GCGCGCGCGC TCTCCCTTCC 1140AAAAATGGGA TCTTTCCCCC TTCGCACCAA GGTGTACGGA CGCCAAACAG TGATGAAATG 1200AGAAGAAAGC CAATTGCCGG CCTGGGGGGT GGGGGAGACA CAGCGTCTCT GCGTGCGTCC 1260GCCGCGGAGC CCGGAGACCA GTAATTGCAC CAGACAGGCA GCGCATGGGG GGCTGGGCGA 1320GGTCGCCGCG TATAAATAGT GAGATTTCCA ATGGAAAGGC GTAAATAACA GCGCTGGTGA 1380TCCACCCGCG CGCACGGGCC GTCCTCTCCG CGCGGGGAGA CGCGCGCATC CACCAGCCCC 1440GGCTGCTCGC CAGCCCCGGC CCCAGCCATG GAAGAGCTCA CGGCTTTTGT ATCCAAGTCT 1500TTTGACCAGA AAAGCAAGGA CGGTAACTGC GGAGGCGGAG GCGGCGGAGG TAAGAAGGAT 1560TCCATTACGT ACCGGGAAGT TTTGGAGAGC GGACTGGCGC GCTCCCGGGA GCTGGGGACG 1620TCGGATTCCA GCCTCCAGGA CATCACGGAG GGCGGCGGCC ACTGCCCGGT GCATTTGTTC 1680AAGGACCACG TAGACAATGA CAAGGAGAAA CTGAAAGAAT TCGGCACCGC GAGAGTGGCA 1740GAAGGTAAGT TCCTTTGCGC GCCGGCTCCA GGGGGGCCCT CCTGGGGTTC GGCGCCTCCT 1800CGCCACGGAG TCGGCCCCGC GCGCCCCTCG CTGTGCACAT TTGCAGCTCC CGTCTCGCCA 1860GGGTAAGGCC CGGGCCGTCA GGCTTTGCCT AAGAAAGGAA GGAAGGCAGG AGTGGACCCG 1920ACCGGAGACG CGGGTGGTGG GTAGCGGGGT GCGGGGGGAC CCAGGGAGGG TCGCAGCGGG 1980GGCCGCGCGC GTGGGCACCG ACACGGGAAG GTCCCGGGCT GGGGTGGATC CGGGTGGCTG 2040TGCCTGAAGC CGTAGGGCCT GAGATGTCTT TTTCATTTTC TTTTTCTTTC CTTTCCTTTT 2100TTTGTTTGTT TGTTTGTTTG TTTGAGACAG AGTCTCGCTC TGTCCCCCAG GCTGGAGTGC 2160AGTGGTGCGA TCTCGGCTCA CTGCAACCTC CGCCTCCTGG GTTCAAGCGA TTCTCCTGCC 2220TCAGCCTCCC CAGTAGCTGG GATTACAGGC ATGCACCACC ACGCCTGGCT AATTTTTGTG 2280CTTTTAGTAA AGACGGGGAT TCACCATGTT GGCCAGGCTG GTCTCGAACT CCTGACCTCA 2340GGTGATCCAC CCGCCTCGGC CTCCCAAAGT GCTGGGATGA CAGGCGTGAG GCACCGCGCC 2400CGGCCTGGGT CCTGACGGCT TAGGATGTGT GTTTCTGTCT CTGCCTGTCT GCCTTGTATT 2460TACGGTCACC CAGACGCACA GAGGAGCCGT CTCCACGCGC CTTCCCAGCG CTCAGCGCCT 2520GCCGGGCCCC CGGAGATCAC GGGAAGACTC GAGGCTGCGT GGTAGGAGAC GGGAAGGCCC 2580CGGGTCAGCT CGGTTCTGTT TCCTTTAAGG AACCCTTCAT TATTATTTCA TTGTTTTCCT 2640TTGAACGTCG AGGCTTGATC TTGGCGAAAG CTGTTGGGTC CATAAAAACC ACTCCCGTGA 2700GCGGAGGTGG CCGGGATCTG GATGGGGCGC GAGGGGCCCC GGGGAAGCTG GCGGCTTCGC 2760GGGCGCGTCC TAAGTCAAGG TTGTCAGAGC GCAGCCGGTT GTGCGCGGCC CGGGGGAGCT 2820CCCCTCTGGC CCTTCCTCCT GAGACCTCAG TGGTGGGTCG TCCCGTGGTG GAAATCGGGG 2880AGTAAGAGGC TCAGAGAGAG GGGCTGGCCC CGGGGATCTC TGTGCACACA CGACAACTGG 2940GCGGCATACA TCTTAAGAAT AAAATGGGCT GGCTGTGTCG GGGCACAGCT GGAGACGGCT 3000ATGGACGCCT GTTATGTTTT CATTACAAAG ACGCAGAGAA TCTAGCCTCG GCTTTTGCTG 3060ATTCGCAGAG TTGAGGTGCG AGGGTGAATG CCCCAAAGGT AATTCTTCCT AAGACTCTGG 3120GGCTACCTGC TCTCCGGGGC CCTGCATTTG GGGTGTGGAG TGGCCCCGGG AAATAGCCCT 3180TGTATTCGTA GGAGGCACCA GGCAGCTTCC CAAGGCCCTG ACTTTGTCGA AGCAGAAAGC 3240TGTGGCTACG GTTTACAAAG CAGTCCCCGG TTTCTGACCG TCTAAGAGGC AGGAGCCCAG 3300CCTGCCTTTG ACAGTGAGAG GAGTTCCTCC CTACACACTG CTGCGGGCAC CCGGCACTGT 3360AATTCATACA CAGAGAGTTG GCCTTCCTGG ACGCAAGGCT GGGAGCCGCT TGAGGGCCTG 3420CGTGTAATTT AAGAGGGTTC GCAGCGCCCG GCGGCCGCTT CTGTGGGGTT GCTTTTTGGT 3480TGTCCTTCGC AGACACCGTT TTGCTCCTCT GAACTCTCTC TTCTCCCCCT GGCCGTGGAC 3540CCGGGAGAGC AAAGTGTCCT CCAGACCTTT TGAAAGTGAG AGGAAAATAA AGACCAGGCC 3600AAAGACCCAG GGCCACAGGA GAGGAGACAG AGAGTCCCCG TTACATTTTC CCCTTGGCTG 3660GGTGCAGAAA GACCCCCGGG CCAGGACTGC CACCCAGGCT ACTATTTATT CATCAGATCC 3720AAGTTAAATC GAGGTTGGAG GGCAGGGGAG AGTCTGAGGT TACCGTGGAA GCCTGGAGTT 3780TTTGGGAACA GCGTGTCCCC GCCGAGCCTG GGAGCCCGTG GGTTCTGCAA AGCCTGCGGG 3840TGTTTGAGGA CTTTGAAGAC CAGTTTGTCA GTTGGGCTCA ATTCCTGGGG TTCAGACTTA 3900GAGAAATGAA GGAGGGAGAG CTGGGGTCGT CTCCAGGAAA CGATTCACTT GGGGGGAAGG 3960AATGGAGTGT TCTTGCAGGC ACATGTCTGT TAGGAGGTGA AACAGAATGT GAAATCCACG 4020TTGGAGTAAG CGTCCAGCGC TGAATGTAGC TCGGGGTGGG GTGGGAGGGC CCTGGTGTGG 4080ATCGTGGAAG GAAGAAAGAC AGAACAGGGT GCTAGTATTT ACCCCGTTCC CTGTAGACAC 4140CCTGGATTTG TCAGCTTTGC AAGCTTCTTG GTTGCAGCGG CCTTGCCTGT GCCCCTTTGA 4200GACTGTTTCC AGACTAAACT TCCAAATGTC AGCCCCTTAC CCTTGACAGC AAGGGACATC 4260TCATTAGGGC ATCGCGTGCT TCTCATCTGT GCTCAGCAGG CCCGAGATAG GAACAGAGGG 4320GCGTTGGAGA TGCCACTTCC ACCAGCCCTG GGTTGAAGGG GAGCGAGGGA GACACCTTTT 4380ACTTAAACCC CTGAGCTTGG TCAGAGAGGC TGAATGTCTA AAATGAGGAA GAAAAGGTTT 4440TTCACCTGGA AACGCTTGAG GGCTGAGTCT TCTGCCCTTC TGACTCCCCC AGCAAATACA 4500GACAGGTCAC CAACTACTGG AGATGAGAAA GTGCCATTTT TGGCACACTC TGGTGGGGTA 4560GGTGCCCGAC CGCGTGTGAA AAAGTGGGAA GGAGAGATTT CTGCGCACGC GGTTCAGCCC 4620CCAGGCGCGG TGGCGCATTC AGGTACTCAG ACGCGGTTCT GCTGTTCTGC TGAGAAACAG 4680GCTTCGGGTA GGGGCTCCTA GCTCCGCCAG ATCGCGGAGG GACCCCCAGC CCTCCTGCGC 4740TGCAGCGGTG GGGATAGCGT CTCTCCGTAG GCCTAGAATC TGCAACCCGC CCCGGGTCCT 4800CCCCGTGTCC TTCCCGGGCG TCCCGCCGGG GATCCCACAG TTGGCAGCTC TTCCTCAAAT 4860TCTTTCCCTT AAAAATAGGA TTTGACACCC CACTCTCCTT AAAAAAAAAA AATAAGAAAA 4920AAAGGTTAGG TTATGTCAAC AGAGGTGAAG TGGATAATTG AGGAAACGAT TCTGAGATGA 4980GGCCAAGAAA ACAACGCTCG TGCAAAGCCC AGGTTTTTGG GAAAGCAGCG AGTATCCTCC 5040TCGGCTTTTG CGTTATGGAC CCCACGCAGT TTTTGCGTCA AAGCGCATTG GTTTTCGAGG 5100GCCCCCTTTC CACCGCGGGA TGCACGAAGG GGTTCGCCAC GTTGCGCAAA ACCTCCCCGG 5160CCTCAGCCCT GTGCCCTCCG CTCCCCACGC AGGGATTTAT GAATGCAAAG AGAAGCGCGA 5220GGACGTGAAG TCGGAGGACG AGGACGGGCA GACCAAGCTG AAACAGAGGC GCAGCCGCAC 5280CAACTTCACG CTGGAGCAGC TGAACGAGCT CGAGCGACTC TTCGACGAGA CCCATTACCC 5340CGACGCCTTC ATGCGCGAGG AGCTCAGCCA GCGCCTGGGG CTCTCCGAGG CGCGCGTGCA 5400GGTAGGAACC CGGGGGCGGG GGCGGGGGGC CCGGAGCCAT CGCCTGGTCC TCGGGAGCGC 5460ACAGCACGCG TACAGCCACC TGCGCCCGGG CCGCCGCCGT CCCCTTCCCG GAGCGCGGGG 5520AGGTTGGGTG AGGGACGGGC TGGGGTTCCT GGACTTTTGG AGACGCCTGA GGCCTGTAGG 5580ATGGGTTCAT TGCGTTTGTT TTTCACCAAC AGCAAACAAA TATATATACA TATATATTAT 5640ACAAATAACA AATAAATATA TATGTTATAC AGATGGGTAT ATTGTATATA TTATAGATAT 5700TTGTTCGTCC TTGGTGCAAA GACACCCGGT GAACCCATAT ATTGGCTCCT GACTGCCTTC 5760GGTTCCCCTG GGATTGGTTA TAGGGGCAAC ACATGCAAAC AAAACTTTCC CTGGATTATA 5820CTTAGGAGAC GAAGCTACAG ATGCGTTTGA TCCAGAGTGT TTTACAAGAT TTTTCATTTA 5880AAAAAAAATG TGTCTTTTGG CCCCTGATTC CCCTCCGTCT TCCCGTGTGG CTGCATTGAA 5940AAGGTTTCCT TAGGATGAAA GGAGAGGGGT GTCCTCTGTC CCTAGGTGGA GAGAAACAGG 6000GTCTTCTCTT TCCTCCGTTT TTTCACCTAC CGTTTCTATC TCCCTCCTCC CCTCTCCAGC 6060CCTGTCCTCT GCTACAAACC ACCCCCTCCT CCCTCCGGCT GTGGGGAGCG CAGGAGCACG 6120TTGGGCATCT GGATGAGCGG AGACTATTAG CGGGGCACGG GGGCTCCCCG AGGAGCGCGC 6180GAATTCACGC TGCCCCATGA GACCAGGCAC CGGGGGGCGG AGGGGCCTTG GGTGTCCGCA 6240GAGGGACGGG CGGGCAGAGC CTTCCTCCGC ATTCTAAACA TTCACTTAAA GGTATGAGTT 6300TATTTCAGGG GTGCTGCTGG GAGAGCCTCC AAATGGCTTC TTCCAGCCCC TGCCTGACAG 6360TTCAGCTCCC CTGGAAGGTC AACTCCTCTA GTCCTTTCTC CTGGTTCTGG GCAGGACAGA 6420AGTGGGGGGA GGGAGAGAGA GAGAGAGAGA GAGAGAGACG GTCAGGATCC CCGGACCCTG 6480GGGAACCCGT CAAAAATAAA TGAAATTAAG ATTGCCGACC AGAGAGAGAA CCGTGACAAA 6540GCAAACGGCG TTCAAAGCAA AGAGACGAAC TGAAAGCCCG TTCCCGTAGG ACTGGTTATG 6600AGGTCAACAC ATTCAAACAC AGCTTGCTCT GGATTTTGCT GAGCAGAGGA AGATACAGAT 6660GCATTTGATC CAAAGTGTGT TACATCTTTC ATTATATGTG TGTCTATATA TATAAACATA 6720TATAAATATA TAAACATACA TAAATGTATG TAAATATATA TAATCTATAT ACATATATAA 6780ATATATAAAC ACATATATAA TATATAAATC TATAAACATA TATAATATAT AAACATAAAT 6840ATATAAACAT ATATAATATA TAAATATATT AACATATATA AAATATGTAT AAATATATAT 6900AAACATATAA ACATATATAA ATATATAAAC ATATAAATAT ATAAACATAT ATAAATATAT 6960ACAAACATAT TGTATATATA TAAATATATA TAAAAACATA TATATACATA TAAAAATATA 7020TATAAACATA TATACATATA AAGAAATATA TATAAACATA TATACATATA AATATACATA 7080TATAAACATA TATATACATA AAATATATAT AAACATATAT ACATATAAAA ATATATATAT 7140ATTAACATAT ATATACATAT AAAAATATAT ATATTAACAT ATATATACAT ATAAAAATAT 7200ATATATATTT TTGGCCCCTG ATTCCCTTCG GTTCCTGTGG GATGGGTGAT TGAGTCAACA 7260CATTCAAACA CAACTTTTCC ATCGATGTTG CTTAGGAGAT GAGGATACAG ATGCGTTTGA 7320TGGAGAGGGT TTTACAAGCT CTTTCATTTA AATATATATA TATATATATA TATATTTTTT 7380GGCTCCTGAT TCTCTTCCGT CTTCCCATGT GGCTGCATTT TAAAAGGCTT CCCTAAGATC 7440GTTACGATTA AATCAACCCT CCCCAGGCAT CTTTACCGAG GGCTGTGGTC CCCAAAGCGA 7500TACAGCCCAG GAGGGAGAGA GGCTTTGGTG ACTTGGAGGA AGGACTGTGT CCCTCCTTAG 7560GGCGTCTGTG GCCTCAGTGA GGGAAGGAAG CTGCATCAGA CAGGGGTTTC CTCGCTGTCC 7620ACCCCTCTGG CAGAAGATGG ATTGGGCTGC CCCGTATAAA TTAATGAAAA GATTAAAGTT 7680TCGCTAAAGG GGACATCGAG TTTATGTGTC ATCTCCTGGT GTCTGTGTGC CTGGGATCTG 7740CAATATATCC CAGCCCTTGA TGTACTGTTT CTATAAAAAT AAATTACTTG TAATTTAATT 7800CCACACTATT TCTTTCCGTA GTCTATTACC GACGAGAGCA CGTTAGTTCA GCTGCGGAAA 7860ATTGGTTGTG GGGTGTGTGC GGACCCCGAG AACGCCCTAA AATAAAGACA AATCGGGGAC 7920AAGCTGGGGG TTATCGATTG CAGGGGTCGC ATGAAAATTT AACGACGGTA AATAATAATA 7980AAAACAAACA TGGGAATGCA ATAAAAGACA TAATTCTCCA TCGCCGCGGG GGGAAAGGAT 8040CCTATAGTAA AGGCGAGTGC GCTTTGAGGG GTCATAAAAA TCAATTAGTT CCAACACCCA 8100CGTCCCGCGT TGAGGGGACG GGGACGAGCA GGGACAGAAA AAGAAACCAT ATTTGAATCC 8160CATCTCTCTG TGAATTCTTG GGTCACATGC GTCTCAGTAC AGCCCGTCCC GTGCTGTGAC 8220CGGATAGAGT TTCAATTTAC TGTGGAAATT TGCTGTAAAT AAATTGAGCA TCCGATAGAA 8280GCTGTTGCTG ATTAACCTTT TATTTTTAGC GTGGCCCTGC AAAGTCGTAT CACCCAGCTG 8340TCAGGCTTCT AATCGAAAGT TATGAGACCA CGGTGAGGGG CAGGCGGTAA TTTAATTACA 8400ACAAATATCT TTGGGTTTAT GGCGCAGAGC TAAATTAAAT GTCATTATTC ACTGTCTGTA 8460ATGGAAATCA AAAGGAAATC GCATTACGGC ATTTGGGAAA GAAAGCGGGG AGTGCTCTTT 8520AATGAAGAAA TAACTGTCTT AAGCAGTGTC ACACACTTCA CTTACCATAT TCGGGCCTAA 8580TTGGAATGGA TCGTGAATCA CTCCAAGACT GATTTATTAG CGCTTCACGC AGCGGCTAAT 8640TCATCACTTG TATTCTTCAT CATTTTTTTT TTTCCTCTCG CCGTGTTGAA GGGAGAGTGA 8700ATGAGGCTTT CCACGTTTCA GGAGGATTTT CTTTTTTGAA AAATGCCCTT CCAGAGGCTT 8760TTGGGTGGCT GGCTTGCTTT CTGGGCCCTG GAGGAGACAG GCGGAGAGTC CAGGTGGGCA 8820TGGAGAGGCA CAGTGGCAGG TCACCTGGAT GGTCAGTGGA GGTGGAGGTC TGAAGGCGCC 8880AGCTTTGGAA ATTATTGGTG AATTTCGATG TCAGCACCAG GCAGGGGCCT TTTTGGCGGG 8940GGTGTGAGGG AGGATGACTT TGCTGGGAAA CAGGATCAGG TTCTCCAGGC GCACTGCAGC 9000CCGGTAGGAC CCACTTTGGA AATGAAAAGC CAGTTCCGAA AGCTGGGCTG GAAGCTTCCG 9060TGTTGGGTTC AAGAGCAAGT TCACGTTGCG CTGTGTAGAC TCCTGGCTGC TCCCAAACTC 9120TGAGGGTTTT CTGAGGTTCC CTTCATAGGG GCACCGGCCC TGGGCCATGC ACAGTGCGTA 9180AGGGTGGCTG TGGGCCGAGG GACCCAGCAC GTGTTTTGCC CACAACAGCC GGAGTGACTG 9240GTTCACTCAC CGCCTTGGCG GAGGACGCCT GTTCTCTGGA CGAATCATTT CTCTTGGGTG 9300GTGACTGCCT TGTGGGTCAA GGTGCAGGTT TTCTGCCACA GAAAACCTGT TAGGAGGAAT 9360TAAGCGACTA AGACTGTCAG GGAGGTGGTG GTGGGGGAGA GGAGGGGGTG GTGTCCAGAT 9420TACCAGGCAT AGGCTAAACT GCCTGCACTC TCCAGCTGGT CTGTCTGTGG AGGAGGGGAT 9480TGTCAATACT GGGAGAGCAG AGGAGGCTCG TAGGAGGTGA GAGGGGGTGG AATTTGCATG 9540CAAATCTTCA CATGAGGCCT GTGTGAATTT CTCCAGCCTC CTGAGGGTCC CCTGCGCTAT 9600TGCACTCAAC TTCTTGATAG TTTACCCCAA GACTCAGAAG TCCTTAGAGG GGCAGAATGC 9660CCCCACCACA AAGCCTGCTA TCCTTGGGCG TCCTCAGGAC CCTTGGTCAT GAATGGGACC 9720CTTTCATGTA TGGGGACCCT TGGTAATATG AATGGGACGC CTTCAGCTCC CCAGGGCTTC 9780CGAGGAGGCC GAGAAGGGCA AAGACACTTC CGAGGAGGCC GAGAAGGGCA AAGACATTTT 9840CTGGGCTTGG TGTGTCAAGA GCTAGATTGG AGAAGGGGCT GGATTTGGAA CTCTTTAGCC 9900ATCAGCTCAC CCTCTCCGTT TGTGGCTAAA GTCTGAAGGT GGAAACTTCG GTTCTCCTAC 9960AGGGTCTACA GGAGTTGGGG GGCGGGGCGC CCACACAGAA CGCTGGAAAG TTCGACAGTC10020CACTTCCACT GGCTCGGAAC TCACTTTTTC ACCTTAAGTT CATCAGCGGT AACGCATAGG10080TCTCACTTAG GCAGGGCACG GATGATTTAA CAATTTCTAC TTCTAGGTCA GGTGCGGTGG10140CTCACACCTC TAATCCCAGC ACTTTGGGAG GCCCAGGAGG GTGGATCGCT TGAGGTCAGG10200AGTTTGAGAC CAGCCTGGCC AACATGGTGA AACCCCGTCT CTACTAAAAT ACGAAAATTA10260GCCAGGCATG GTGGTGAGCA CCTGTAATTC CAGCTACTCG GGAGGCTGAG GCAGGAGAAT10320CGCTTGAACC TGGGAGGTGG ACGTTGCAGT GAGGTGAGAT CACACCACTG CACTCCAGCC10380TGGATGAGAG AGCAAGACTC TGTCTCAAAA ACAAAATAAA ACAAAAACAA AACAAAAATC10440AAAAAAGAAA ACCCAATTTC CAGTTCTAGG CCAGGTGCAG TGGCTCACGC CTGTCATCCC10500AGCACTTTGG GAGGCCCAGG AGGGTGGATC GCTTGAGGTC AGGAGTTCGA GACCAGCCTG10560GCCAACATGG TGAAACCCCA TCTCTACTAA AAATACAAAC GTTAGCTGGG TGTGGTGGTG10620TGCGCCTGTA ATCCCAGCTA CTCGGGAAGC TGAGGCTGGA GAATTGCTTG AATCTGGGAG10680GTGGAGGTTG CAGGGAGGCG AGATAGTGCC ACTGCAGTCC AGCCTGGACC AGAGAGCAAG10740ACTCCGTCTC AAAAACAAAA GAAAGCAAAA ACAAAAAACA AGAGACCAGC CTGGCCAACA10800TGGTGAAACC GCGTCTCTAC TAAAATACAA AATTAGCCGG GCATGGTGGT GGGCACCTGT10860AGTCCCAGCT ACTCGGGAGG CTGAGGCAGG AGAATGGCTT GAACCTGGGA GGTGGAGCTT10920GCAGTGAGCC GAGATAGTGC CACTGCACTC CAGCCTGGGC GACAGAGCGA GACTTGATTT10980CAGAACCACC ACCACCACAA CAAAACAAAA CAAAAAATCC AAAAAAACCC CAATTTCCAG11040TACTAGGTAG TCAGTGATGC AGGGCTGGAG ACAGAGGGGC GGTAAGTGTC TGGGCGCCCA11100CCATCAGTCA CCTCCCAGCT CCCAGAGGTG CAAAGTGCTT GGTTCAGCCT CATGGGAAGG11160ATGCTCCCTG GGGAGGCTGG GCTGGGTTCA CAGGGCTCTT CACATCTCTC TCTGCTTCTC11220CCCAAGGTTT GGTTCCAGAA CCGGAGAGCC AAGTGCCGCA AACAAGAGAA TCAGATGCAT11280AAAGGTGGGT GTCGGGACTG GGGGGACCTG AAGCTGGGGG ATCCTGCTCC AGGAGGGATG11340GGGTCGACGA GGTGCTGGCT ACACCCAGGA CCACCACACT GACACCTGCT CCCTTTGGAC11400ACAGGCGTCA TCTTGGGCAC AGCCAACCAC CTAGACGCCT GCCGAGTGGC ACCCTACGTC11460AACATGGGAG CCTTACGGAT GCCTTTCCAA CAGGTAGCTC ACTTTTTCTT CCTCTGAAGA11520TCCCTAGGGA CCTGCTGCTC CCTTCCCCTT TCCCCTATTT GCTGCCGCAT CCTGACACTC11580CTAGTCCCTC CCTGCCCCTG CAGACTTCTC AGCTGGCCCT TAGAAAAAAA GCCTCTTTTC11640CGAGGAGGCA TTTACAGGCA CCTTGGCACC TATGAAATCA GGCTGGGCCA GGCGGGGTGG11700CTCACACCTG TCATCCCAGC ACTTTGGGAG GCTGAGGAGG GTGCATCACC TGAGATCAGG11760AGTTCAAGAC CAGCCTGGCC AACTTAACGA AACCCCGTCT ATTAAAAATA CAAAATGGGT11820GTGGTGGCTC ACGCCTGTCA TCCCAGCACT TTGGGAGGCC GAGGCAGGTG GATCACCTGA11880GGTCAGGAAT TCGAGACCAG CCTGACCAAC ATGCTGAAAC CCCGTCTCTA CTGAAAACAC11940AAAGCTTAGC CGGGCGTGGT GGTGCACACC TGTGATCCCA GGTACTTGGG AGGGAGAATC12000ACTTGAACCT GGGAGGTGGA GGTTGCCGTG AGCCAATATC GCGCCACTGC ACTCCACTCT12060GGGTGACAGA GTGAGACTCC AAGACTCCAT CTCAAAAAAA AAAAAAAAAA TCAGGCTGTA12120AAAATCCACT TTTGGGAAGG TGAACACACA CAAGCCCAAA CAGAAATCTG ACAAAAACCA12180GAGGGGTGAA AAGTCCACAC AGTCAGGCAC CCCCACCTGG CTTGCTGCCT GGTTAAGAAG12240GGCGCAGATG CCTGTGCCTG GATACCAGAG ATGGGACAGA CACCCATTCC CTTTTCATCA12300CCACCCCCGA GTGCCCGAGG GCCTGGGGCG TCTGCCTGGC CCCTGGCCCC TGGCTTGGGC12360TCTGCACCTC TGAACTGGAG ACACCCTACT CAGCTCCCCA CTTACTTTGG AGTGAGCAGC12420GCTTGGGTGC CCAGCGTGGA TTTGGGGCTT CCAGGGAGTC GGGGTTCGGT CGCGGAGCCC12480AAGCTTCCCA AGGGCGCCCC CCCCCTGCCC TGGCTTAGTG GTGGGGATGG GATGGGGGGA12540AACGGGGAGC TGCGTGGAAG GAGGTGAAGG GTCACAGGAG GAGAGAGCGC AGCGCCCACG12600TGCGCCCTGC CTGAACGCGC AGCGCAGCGC CCGGCTGCGG TGCCCCTTGC CCCTTCGGTC12660CCTAATTTGG GGATCGGGAG TGCATGCGCG GGCGGAACGG GCTTGGGGGG GGGGCTCTGG12720CAGGGCGGAC GCGTGGCCTC CCTTCTTCAC CGTTTTATTC CAAGGGGACA GGCTGGGGAT12780TGTATTTGGG CGCGTGTTTG GCTGAGGGTG CAGGGACTTG GGGGGTGGCG GTGGGGAGCG12840CGGAAGGTAT AAACGTATAA ATCATAAGTA AACAACTCAG AAATGGACCC CGAGCGCTGG12900TCGCCGCTAG CTCTCCAGCT CTCCCTGGCC CAGGCCCGAA GGAGAGGGGT CCGCATCCCT12960CCGCGGTTCT CCTCTCCTGG GTACCTGGCC TTGAGGTGGG GGAACGAGCC TACTTCTTGT13020ACCGTCTTTT GCCGACGGCG GGACCCAGTG AAATTAGGCC GTTGGAGCCC GCAGGCCTGC13080CTGGCTTTGC GCACCGGAGT CTTGGGGACC TGGTGTCCCC GGGAAAAACT TGGGGACCTG13140GTATCCCCGG GAGAGGCTTG GGGACCTGGT GTCCCGGGAG AGGCTTGGGT ACCTGGTTTC13200TCTGGAAGAG GCTTGGACAC CTGGTGTCCT GGGAGGGCCT TTGGGACCTG GTGTCCTGGG13260AGAGGCTTGG AGATCTGTTG TCCTGGGAGA GGCTTGGGGA CCTGGTGTCC CTGGAGAGGC13320TTGGGGACCT GGTGACCTTG GAGAGGCTTG GAGACCTGGT GTTCTGGGAG AGGCTTGGGG13380ACCTGGTGTT CTGGGAGAGG CTTGGGGACC TGGTGTCTCT GGAAGAGGCT TGGACACCTG13440GTGACCCGGG AGGGCCTTGG GGATCTGGTG TCCCGGGAGA GCCTTGGGGA CCTGGTGTCC13500TGGGAGAGGC TTGGGGACCT GGTGACCTTG GAGAGGCTTG GGGACCTGGT GTCCTGAGAG13560AGCCTTGGGG ATCTGGTGTC CCAGGAGAGG CTTGGGGACC TGGTGTCTCT GGAAGAGGCT13620TGGACACCTG GTGTCCTGGG GAGAGGCTTG GGGACCTGGT GTCCTGGGAG AGGCTTGGGG13680ACCTGGTGTC CTGGGAGAGG CTTGGAGATC TGGTGAGCCG GGAGAGGCTT GGGGACCTGG13740TGTCCCGGGA GAGGCTTGGG GACTTGGTGT CCCGGGAGAG GCTTGAACAC CTGGTGTCCC13800AGGAGAGGCT TGGGGACCTG GTGACCTTGG AGAGGCCTGG GGACCTGGTG ACCCGGGAGA13860GCCTTGGGGA CCTGGTGTCC TGGGGAGAGC CTTGGGGACC TGGTGACCTT GGAGAGGCTT13920GGGGACCTGG TGTCTCGGGA GTGCCTTGGG GACCTAGTGA CCCGGGAGAG GCTTGGGGAC13980CTGGTGTCCC GGGAGAGGCT TGGGGACCTG GTGTCCTGGG AGAGCCTTGG GGATCTGGTG14040TCCTGGGGAG AGGCTGGGGG ACCTGGTGTC TCGGGAGAGA GCCTTGGGGA CCTGGTGACC14100CGGGAGAGGC TTGGACACCT GGTGTCCCGG GAGAGTCTTG GGGACCTGGT GACCCGGGAG14160AGCCTTGGGG ACCTGGTGTC CTGGGGAGAG GCTGGGGGAC CTGGTGTCTC GGGAGAGAGC14220CTTGGGGACC TGGTGACCCG GGAGAGGCTT GGACACCTGG TGTCCCGGGA GAGGCTTGGG14280AGCCTGGTGT CCCGGGAGAG CCTTGGGGAC CAGGTGACCT TGGAGAGGCT TGGGGACCTG14340GTGATCTTGG AGAGGCTTGG GGACCTGGTG TCTCGGGAGA GGTTACGGGG GCTGGTTGGG14400GGAGAGAACG TTGTGAGCCA AAGTCCCTGA ATCCCTGCGA AAAGAGCGCA TCGGGAGCTC14460CCCCTGAGGG CGTTCCATTT GTGGACCCCC CTCCCATGCG CTTTGCAGGG AGCTGTTCGG14520ATTCCCCTGG CCCGGCTCCC GCGGATGCAT CCAGTGGCAG CGCCAATTCT GGGCCAGGGG14580GAAGGAGGAA AGGCGGGTGT GGGGTGGTCT CCACGGCTGG AGAAGGGGCG ACGCTCCCTA14640GGGGAGAAGA GGCACGTTGG GGGTTTCCGG GGGCGCGGGG CGGAGCAGGC CCCCCAGTCC14700CCATCCTGCG CCCTCACCCC GCCGGGTCCG CTCCCGCAGG TCCAGGCTCA GCTGCAGCTG14760GAAGGCGTGG CCCACGCGCA CCCGCACCTG CACCCGCACC TGGCGGCGCA CGCGCCCTAC14820CTGATGTTCC CCCCGCCGCC CTTCGGGCTG CCCATCGCGT CGCTGGCCGA GTCCGCCTCG14880GCCGCCGCCG TGGTCGCCGC CGCCGCCAAA AGCAACAGCA AGAATTCCAG CATCGCCGAC14940CTGCGGCTCA AGGCGCGGAA GCACGCGGAG GCCCTGGGGC TCTGACCCGC CGCGCAGCCC15000CCCGCGCGCC CGGACTCCCG GGCTCCGCGC ACCCCGCCTG CACCGCGCGT CCTGCACTCA15060ACCCCGCCTG GAGCTCCTTC CGCGGCCACC GTGCTCCGGG CACCCCGGGA GCTCCTGCAA15120GAGGCCTGAG GAGGGAGGCT CCCGGGACCG TCCACGCACG ACCCAGCCAG ACCCTCGCGG15180AGATGGTGCA GAAGGCGGAG CGGGTGAGCG GCCGTGCGTC CAGCCCGGGC CTCTCCAAGG15240CTGCCCGTGC GTCCTGGGAC CCTGGAGAAG GGTAAACCCC CGCCTGGCTG CGTCTTCCTC15300TGCTATACCC TATGCATGCG GTTAACTACA CACGTTTGGA AGATCCTTAG AGTCTATTGA15360AACTGCAAAG ATCCCGGAGC TGGTCTCCGA TGAAAATGCC ATTTCTTCGT TGCCAACGAT15420TTTCTTTACT ACCATGCTCC TTCCTTCATC CCGAGAGGCT GCGGAACGGG TGTGGATTTG15480AATGTGGACT TCGGAATCCC AGGAGGCAGG GGCCGGGCTC TCCTCCACCG CTCCCCCGGA15540GCCTCCCAGG CAGCAATAAg GAAATAGTTC TCTGGCTGAG GCTGAGGACG TGAACCGCGG15600GCTTTGGAAA GGGAGGGGAG GGAGACCCGA ACCTCCCACG TTGGGACTCC CACGTTCCGG15660GGACCTGAAT GAGGACCGAC TTTATAACTT TTCCAGTGTT TGATTCCCAA ATTGGGTCTG15720GTTTTGTTTT GGATTGGTAT TTTTTTTTTT TTTTTTTTTT GCTGTGTTAC AGGATTCAGA15780CGCAAAAGAC TTGCATAAGA GACGGACGCG TGGTTGCAAG GTGTCATACT GATATGCAGC15840ATTAACTTTA CTGACATGGA GTGAAGTGCA ATATTATAAA TATTATAGAT TAAAAAAAAA15900ATAGCCGTGC ACTCTTGACC CCGTCAACGT CCAACGTGGA AAAGGCGTTA CCTCTTCTCC15960CAGCGCTGGC CGCCTGGCCA CTGAGGGCCC TTTGCAAAAA TCACGGGTGT AGAGATGGCC16020CTGGGCGCGC TGGGAGTGTG GTTGTGTTTC TGAAGGGGAT AAAAGAGGGC ACGGTGGTGC16080CAAGATATCA GTTTGGTACC TGAGCTGTTT CTGGTTGGGA AGCGTAAAAG CCAGGGAGAG16140ATCCAGAGAG TTTTCAAGTT TTTGCAGATG TAGGTGGTTC CAGCTTTTCT TTCTCCCCTA16200CTCCATCTTC TGCGTTCCCC CAGTTCTTTT ATTTCTTTGT TTTTTATTTT TGAGACAGAG16260ACTTGCTTTG TCGCCCAGGC TGGAGTGCAG TGGCGCAATG TCAGCTCACT GCCACCTCCA16320CCTCCCGGGT TCAAGCGATG CTCCTGCCTC AGCCTCCCGA GTAGCTGGGA CTACAGGCAC16380CTGCCACCAC CCCCGGCTAA TTTTTTGTAT TTATAGTAGA GACGGGGTTT CACCGTGTTG16440GCCAGGCTCG TCTCGAACTC CTGACCTCAG GTGATCTGCC CGCCTCGGCC TCCCAACGTG16500CCCCCAGTTT TATAAACAGC ACATAGCAAC TTGTCGTCAC AGCTGGCATG GGCTGGACAG16560TTGCTTGAAA TGACCTAACC AAAAACATTC AAGGGTTCTG CCCCCAGATT TCGGGAGATC16620CACGTTCCAT GTTCTGATTG GTTTTCTGGG AACACAGCAA GGGGTTTGGT GACCTCCGAG16680AAGATCCATC TGCATGATTG GCATTAGTTA CCACAGCCTG CCCAGAGAGA AACTATCTTC16740TCCCAACATT TACTAACATC CACTGGTCAA CTCTCTTATT TCCATAACAC ATTTGCATCT16800TTCTGGATTC AAGCTTGGTG GTTTTCTTTC CTAACTTCTG ATTTAGATAC TTCTCCCTGA16860GGTGGGGATA AAAGAAAAAA AAAAAACAAC TTCTTTTTTT CTTCCGCATA ACACTTTCTA16920TCTTGTCACT GAGCTGAACT GTAGATCCAT TTGGACCCGT CTCATTTGTA TCTTCTGATA16980TTCTTTATAC AAACCAAAAG TCCCCTTCAA CATTTTTTAT GTCAAAATGT TACAACCGCT17040GTAAAATGAC GGAGAGAGAG AGAAAGAATC CCAGACATTA ACGGTATTAG AGAGTTTGCC17100TCATTCATCC ATTTTTCTTA AAAGCTGGAA ATTAAAAAAA AAAAAGAGAG AGAGAGGCTT17160TAATAGTTAA GCTGAAATTT TTATCGAAAA GAAGAATTGC ATTTTGAATC TTTGGGAAGT17220AGGTTCATTC ATCAGAGTAT GTAACCCTTT GGAAAAGTGG TTGGTAAGAT ATGTACAGCC17280CTAGATTTTT TTTTTTTTAA CCAAAAAGGC TGAGTAATTT TGAAAAATCG AAACATAACA 17340GTGTGTCATC ATTTCCTCCC AAGAAAAAGC TCACTCCACG TGAGTAGAAA GACATCTACC 17400TGGTCCCTGT AGAATCTGAA CGTTTCTCTT TAGAGACGGA ATTTCAATCT TGTTGCCCAG 17460GCTGGAGTGC AGTGGCACAA TCTCGGCTCA CCGCAACCTC CGCCTCCCGG GTTCAAGCCA 17520TTCTCCTGCC TCAGTCTCCC GAGTAGCTGG GATTACAGGC ACCTGCCACC AGGCCTGGGT 17580AACTTTCTGG TATTTTTAGT AGAGACAGGG TTTCAGCCTC CCGAGTAGCT GGGATTACAG 17640GCACCTGCCA CCAGGCCTGG GTAACTTTCT GGTATTTTTA GTAGAGACAG GGTTTCAGCC 17700TCCCGAGTAG CTGGGATTAC AGGCACCTGC CACCAGGCCT GGGTAACTTT CTGGTAGTTT 17760TAGTAGAGAC AGGGTTTCGG CCTCCCGAGT AGCTGGGATT ACAGGCACCT GCCACCAGGC 17820CTGGGTAACT TTCTGGTATT TTTAGTAGAG ACAGGGTTTC GGCCTCCCGA GTAGCTGGGA 17880TTACAGGCAC CTGCCACCAG GCCTGGGTAA CTTTCTGGTA TTTTTAGTAC AGACAGGGTT 17940TCGGCCTCCT GAGTAGCTGG GATTACAGGC ACCTGCCACC AGGCCTGGGT AACTTTCTGG 18000TAGTTTTAGT AGAGACAGGG TTTCAGCCTC CCGAGTAGCT GGGATTACAG GCACCTGCCA 18060CCAGGCCTGG GTAATTTTTT TGCATTTTTG GTAGAGACAG GTTTTTGCCG TGTTGGCCCG 18120GCTGGTCTCA AACTCCTGAC CTCAGGTTGA CCTGCCCGCT TTGTCCCTCG CAAAGTGCTG 18180GGATTACAGG CGTGAGCCAC CACACCTGGC CTGAATCTGA ACTTTTAAAA GGGAGTTACT 18240GACTCTCAAC TGTGCGGGGA CGGTTTCACT TTGATTTAAT ATGGAAAGAG GGCCAAGTGT 18300CATCCTCACA AATGGGTCCC CGAAGCAGAT CAAACGCAGA GAACTGTGAG GGTGGGACAC 18360GAGTGTCTGT GGACACTGGC TGCCTTTGGC TTTTCTCCTG CGAGAGAAGT TGGGTGACTT 18420TCTGTAGGTG GATGAGTGAT CCCTGAATGA GTGTGGGGTA CGTGTATGCT AGCTGCTTCT 18480TTCTCCCTGA AACTCTCGGA TGGAAGGAAG TAAGAAATTC AGCTTGGGCT GTGACCAGTT 18540CTCACCACCA ACGCCCTCTT CTCTCTCCCT TCTCCTTCCT TCCTTCCTTC CTTCCTTTCT 18600TTCTTTTTCT TTCTTTCTCT CTTTCTTTCT TTTCTTTCTT TCTGTTTCTT TCCTTTTTAT 18660CTTTCTCTCT TTTTCTTTCT CTTTTCCTTT TTTGTTTCTT TCTTTCTTTT TCTTTCTTTC 18720TTTTTCTTTC TTCTTTCTTT CTTCGATGAA GTCTCACTCT GTCACCCAGG CTGGAGTGCA 18780GTGGTGCAAT CCCAGCTCAC TGCATCCTCT ACCTCCTGGC TTCAAGAAAT TCTCCTGCCT 18840CAGCCTCCCA AGTAGCTGGG ATGACAGGCA CCCACCACCA TTCCCGGATA ATTTTTGTAT 18900TTTTTAGTAG AGACTGGGTT TCGCCATGTT GGCCAGGCTG GTCTTGAACT CCTGACCTCA 18960CATGATCCAC CCGCCTCAGC CTCCCAGAGT GCTGGGATTA CGGGGTGAGG CACCGCGCCC 19020GGCCTCCTCT CTCTTTTTCT GAGATGTTTA GGAAGGACTG GGCTGATGGG GACCCTCTGT 19080ATGTGATGTG CGTGGGTTTG GTTTCCCGGA AGGCCCTCCA GAGACACGTT TGCGTGAACA 19140TTCAGCATGG AAACAACATA CGTCTCTCCA CAGGAGGTGA GAAATTGAAT TTATGGGGTG 19200GGTGTACGCT GGCGATTCTT GGTGCTTTTT GCTCAAAACA AGGTTCTTTT GAAAGTCACG 19260TTCCTGCTTT CCCTGTGGCT TCCCGGTGAG CTCGCTCGCA GAGCAAGGAA TACCACCCAG 19320AGAGCAACGT GGGCTGTGTT CCGTTGTAAC GCCGTTGCAG AGAGAGGATT TGGTGTGTGA 19380GATCCGTACC AGCTCCAGCA CACTGATAGG AACACGTTGC TGGCCGAACT GAACGATGCT 19440GGGTTGGGTC CTGATTGATA CGTATTTTCT TCCCTCCTCT CCCCAAAACT TGGCCAAATA 19500GTCCGTGGAG GGTTGTCAGT CGCCGCAGTT GAGCAAAAAA CACTTCTTCC TTTGAGTGGC 19560TGTTCTGGTG AAATCTGTTT CTGACATATC CACTTTTCTC TCTCTTTTCT CTCTCTCTGA 19620CTGCGAAGCA CCCACAGGGA GAAGGAATTG GATGTATCGG ATGTTGGTAT TAGATTTTCT 19680TTCTCCGTTC GAGTCTCTGA CTGGTGCATA CTTTGCAAAG GTGTGTTCCT GGCAATTGCC 19740AAGAGTTAGA AAAATGCACC TTCTCTGGTG GCCGTTGGGG TGTTGTTTCA CAGGCAGTGG 19800TGACAGGGCC CCTTGGCTGT GGCTGTCTTC TCCAGCGCCG TGGATAAAGA GACGGGACAG 19860ATTCTGTGCC TCTGTACGAT TTAGAGCGTA ACTGACCGCG TCCAACACCC GTTTTTCCAC 19920TTACAAAGCT GGTGGTGCGA CGGGCTTGGT GTCTCCCGTA CGGGAAGGAG GCCTTTGGGC 19980CGCTCCAAAG ACGCCCTGTC GTAGGAATGG CCTCTCCATC CCGCCAAAGT CCAGCCAGGC 20040CCCCGAAATG GTCCCATTTC CTTGGAAGCC TGAGTTTCTG TTCTGGTCTT GCTGCTGTCC 20100TTGGCCACGT CAGCACGTGG GAGCATCTGT GGATACCGCA GAGTCTGGGG ACAGCTGGGC 20160GTTTAACCGA AATGAAGCCG AGACGGGTTT CAGGTTTTGG TGCCAAGCTC TGGTCAGGAT 20220GAAAGGGAAA TACCAGAGTC CTCTGTCCTC GCCTCTGGGT TTCATGCTGA CCTTTCTAAC 20280ATTTGTTTTC CCCTAAGAAC AAGCAGAAGC CTCCAGCTCC CTTTAGCTCC ACAGTTTTCC 20340CGGGGACATA GCGAGGATGG CACACGGCAG CCACTCCCAC GACACACATT TCGGAGGCAC 20400TTTGCTGGAA GCCGCTTGTC TCCTCCAGCT TTGGGAGGTC TGGGGAGGAG AGAGGCTTTC 20460GGTGGACACG TTTGACATTA AAAAAAAAAA AAAAAAAAAA AAAAAAACTG GTGCCTAATT 20520TATTAAAGAG AATTAGCTTA GCGAGTATAT GCTGATATTC TTCGACACAC GTGGGTAAGT 20580TGATGCCATT TATAAATGTT TTATTGAAAT TTGATATTTA ATGAGAAGCC GGTTAAGGAA 20640TGTAGACAAT ATCCCGTTTC AAAGCTATGA AATGTGCTAT TTATTGAAAG GGGATGTGGC 20700TTCACGAGTT CAGCCCATTG TACGTGCAGG TCCCGTGGGA AGGAGGCAAA AGCCCCTGCT 20760TCTTACTTTG TGATGTATGT GCATTTGTTA TTTATTTTTT TTTCCTTGGT CGGACGTTCA 20820TAAATATGTA CTATTTTAAT TATGTCGAGT GTAAATTTGA CATCGCGTTG CATTTATTTT 20880TATATTTCTG AAAACTGTTG CTTTTTCTTT TTCCCTCCCC CATTGACGAC ATAGCGGCCC 20940CCGCGTCCGG GTTACAAATA CATCTACAGA TATTTTCAGG GATTGCTTCA GATGAAAACA 21000AATCACACAC CGTTTCCCAA ACCAACAGTC TTCACATTTC TATCCCTCTG TTATTGTCGG 21060CAGGCGGTGA GGGGTAGAAA AAAAACAAAC AAACAAACAG AAAAAAAAAC CAAAAAAAAC 21120CACCCTGAGT TTCTCTGGTG ACGCCCTCAT TCTCCTAACG TTCAATAATC TCAATGTTGA 21180GTTGCAGCAA CAGACTGTAT TTTTGTGACG CCCCGTAGTA TGAATGTACA TCTTGTAAAA 21240CTGAGATATA AATAAACTTA TAAATATTTG TATTCAAGTG TTAAAAAAAA AAAAATTCTC 21300AACCTCTCCC CTGAGGACAG GCTTATTGGA AAAAAAAAAA AAAAAAAAAA ATCCTGAGTC21360GGCCGTGGCT GAACACAGAG TGTTGTTCTG CTCCGTGCAT TTCCAGGGTG GGTACCCAGT21420GTTGCCCCCC AGCCTTAGAT CGGGAGGTAC CATTGACTTT TGCTTGTATC CCATCCCCTT21480CCTTTACTGA AACCTACCTC CCCGCTTCTC AGCCAACGTC CCCCCAGAAG GTGGCAAAAA21540AAACAGAGGA AAAAGCCCTG ATTTGAATCA AGTCAGAGCT GCTAATTCTC CACTTTCTTT21600AATTAATTAA TTTATTTTTT TTTTTGAGAC TGAGTCTCGC TCTGTCGCCC AGGCCGGAGG21660AGTGCAGGGG CGCGATCTCG GCTCACCGCG ACCTCCGCCT CCCGGGTTCA AGCGACTCTC21720CTGCCTCAGC CTCCCGAGTA GCTGGGATGA CAGTCACCTG CACCACCGCG CCCGGCTCAT21780TTTTGTATTT TTAGTAGCAA TGGGGTTTCA CCGTGTTGGT CAGGCTGGTC TCGAACTCCT21840GACCTCGTGA TCCACCCGCG TCTGGGCCCG GCCGGTGATG TGTGTGCTTT TAACTTTTAT21900TTTGTTCCAG TTTTCGACAG TGGCACGGAT TTTCCAGCAC GGTCTTGCAA GGATGATTGA21960GTCATTTTTG AGACAAAAAA TATAATAATA ATAAATGGAA AAAGAAATCG ACTTTTAAAA22020ATGACAAATT TTTTTTTTTT TTTTTTGCAT AGATTTTTCT CTCTTTATGT AAAGGAAAGT22080TCATGATTGG ATTTGGCCGG CCTGACTGCT TCCCGGCTGT GATAAAAAAC ACATGTGAGC22140TGGGAGGGAA GTGGGGGAGG GACACAGCTG CCCACACAGG GTTCCCACCG CGGTTACAGG22200GTGGGCAGTG CTGGGGGAGC TTTCTCTGTG GGGGGCTCAG AGCCTGAGGA CAGGTGAGCC22260TCTCCGACAC CTCCCCAGTT GCCTGGAGTC TAAACCGTCC GTTGTCTGTA CCGTCCGTTC22320TTCCTGCTGA CTCCTGGTAG TTCCTGAAAG CTTCTCTTGG CCAGAGAAGG GGTTTCAGAG22380GCCGTGTGTC CAGGCCATTC TGCAAAGTGC AACTTGACCG TTCCTTTCCT TTTCTGGCCT22440GCGTGGTCTG AAGCTCAGAG CCCTCTCTTC ACCCAGCCTG TGTGTGTCTT GCCGGACAGA22500AGAAAAATGG TGCTTTTTGC GTGTTAGCAG AGGTGCTTTT CATGGCTGAC CTCAACGCGT22560CCATCTCCAG CCTTGACCAA GCTGTTTTTT AGGGGCAAAC GCAGGCAAGT TCTGAATGCA22620CACAGTTATT TCATGGTTAA ACTATTCAGC TTTGGCCGGG CGCAGTGTGG CTCTCACGCC22680TGTCATCCCA GCACTTTGGG AGGCCGAGGC GGGTGGATCA CCTGAGGTCA GGAGTTCGAG22740ACCAGCCTGG CCAACACGGT GAAACTCTAT CTCTACTAAA AATACAAAAA TTAGCCGGGC22800GTGGTGGTGT GTATCTGTAA TCCCAGCTAC TCAGGAAGCT GAGGCAGGAG AATCGCTTGG22860ACCCAGGAGG CGGAGGTTGC ACTGAGCCGA GATCGCGCCA TTGCACTCCA GCCTGGGCGA22920CAGAGCCAGA CGCTGTCTCA AAAAAATGAA TAATAAAATA AAATAACAGG AACTAAATAA22980AATAAAACGT TCAGCTTTGT TCTGCAAATC CACTCCTATT GTTTTACGTG GTTTGAGAGA23040CTCTGTCCCT TAGAAATAGA TGTTTGTTGC CAATTGTAAT GAATCTGTTT CAAAAATGAA23100CAGAATATTC AAATGGTTTG AGAGATCTTT TCCCTTAGAA ATAGCTTGTT GCCAATCACA23160AAGAATGTTT TTCAAAAATG AATGGAATCT TCCTGGATAT CGCTTCCAGA TCTTCATTTT23220TTTTGCATAG TTCAACCTGA AAAGTAAGTG TCTCAGCCCT GAATTTCTTT CTGATTTTTC23280CATGGGTTGT CTTGCAGACT TCTCTGGACT TGACCACATT TAAAAAAAAA AAAATTAACT23340TTTTCACACG GACACGGTTT CAATAGGAAT GAGATCTTTG AGTTTTTATG TAACAGATTC23400TTACCATCAG TTCTCAGATT CCCAAATTAC ACACAAAAAG CCACGGACTT CGCCTCCTGC23460TAACATGTCC TTCTGTTTCT GAGGCTTCTG TTGGTGTTAG ACTTTCATGT TTAATAGCAG23520ACAATGTAGG GATTTAAAGA AAAATGCAGA GAAAGCAAAA ACACTGACCA AACACACGGA23580GATAAGCTTT CTAAAGCCTT TGTTCTTGGA GTTGTCGTTA AAAAAAAAAA GTTGTTTTAA23640ACTTTGCAAG CATGCCTATA TTGAACTCAT AAGCAAGAGA GCCAAGAAAA ATAGTGTCGG23700TCGTCTACTC TACACGTTTT CCCAAAACAG ACGTATTTTA ATTTCTTTTG TTTGAACTCA23760CAGATGCTGA GAGTTAAAAG TTAAATTTTT GTCATGAACA ATAGTGGCCA AAACCACAGT23820TACTTTTGCA CTATAGCATA ATAAGAAAAA TACAGGCTGG GCTCGGTGGC TCACACCTGT23880AATCAAAGCA CTTTTGGAGG CGAAACAGCC AGATCCCTTG AGCCCAGGAG ATTGAGACCA23940GCCTGGGCAA CATAGCGAGA CCCTCATCTC TACAAAAAAG GTTTGTTACA TATGTAACAA24000ACCTGCACAT TGTGCACATG TACCCTAAAA CTTAAAGTAT AATAATAAAA AAATTAAAAA24060AAAATTCACC AATCAACTGC CTGCTGGTGC CTTCAAGAGA CTCACCTAAC ACATAAGGAC24120TTGCATAAAC TTATAAAACA ATTCAATGGA AGAATCCTTG AAAGTATTCT GAGAAGACAG24180TATAATAAAC TGATTTCTAA AAAGGCTATA AAAAATTGAA TAAATCATTG TTGGGCATCC24240TGTGCTGAAA TATAATGCAG CCAATAAAAA TTACAAAATG AATAAACATT TTATAACAAT24300AAAAAAAAGT CAAATAATTA GGCAGGCATG GTGGTGCTCT CCTACGGTTG AAGCTATTCA24360GCAGGCAAGA GGaTACTTTG TTTTTGTTTT TTAATTTTTT TTGAGACAGA GTCTCGCTCT24420GTTGCCAGGC TGGAGTGCAG TGGCGTGATC TCAGCTCACT GTAATTTCTG CCTCCCGGGT24480TCAAGCGATT TTCCTGCCCC AGCCTCCCGA GTAGCTGGGA TTACAGGTGC CCGCCACCAC24540ACCTGGCTAA TTTCTTTTGT ATTTTTAGTA GAGACGAGGT TTCCCCATGT TGGCCAGGCT24600GGTTTTGAGC TCCCGACCTC GGGTGATCCA CCCGCCTCAG CCTCCCAAAG TGCTGGGATG24660ACAGGCGTGA GCCACCGCGC CTGGCCCAGG AGGATTATTT GATCCCAGGA GGTGGAGGCT24720GCAGGAAGCC ATGATTGCaC CACTGCACTC CAGCCTGGCT GACAGAGTGA GACCACATCT24780CTAAaTAAAT GAATAAATAC AGGCAGAAAC TTTTTTTGTT TTGTTTTGAT GGAGTCTTGC24840TCTGTCACCA GGCAGGAGTG CAGTGGTGCC ATCTCAGCTC ACTGCAACCT CCACCTCCTG24900GGTTCAAGCA ATCCTCCTGC CTCAGCCTCC CGAGTAGCTG GGATTACAGG TGCCCGCCAC24960CACGCCCGGC TAATTTTTTG TATGTTTAGT AGAGACGGGA TTTCACCGTG TTAGCCAGGA25020TGGTCTTGAT CTCTTGACTT TGTGATCTGC CTGCCTCAGC CTCCCAAAGT GCtGGGATTA25080CAGGCATGAG CCCAGGAGTT CAAGACCAGC CTCAGCAACA AAGTGAGACC TTTTCTCTCC25148AAAAAATCAA AAATTTAGCC AGCTGTGGTG GCTCCTGCCC GTGATCCCAG TACTGTGGGA25200GGCTGAGGCA GAATTGCTTG AGCCCAGGAG TTCGAGACCA ACCTCAGCAA AAAGGACTCT25260CTCTCTCTCT CTCTCTCTCT CTCTCTCTCT CTCTCTATAT ATATATATAT ATATATATAT25320GAGTTTCAAA AATTGCTGGG TGACCAGCTC ATCTACTGGT TTTCCCCTTG GGAAAGTGAA25380ATTGTCATGT ATTGAAGATT TCCAAGGAAG TTGTATTGAA TGAGAAACAA ACTCAATCTG25440TTCGTGTTTA AAGAGCTGCA GTGCGTTTGC TGTGTTTCCC ATAAAACTGC ACTTCCAAAA25500GACACGCTGA GAAAGGAGAC CAGGATTTGT AATTCAGAAA TTGGAAAGCA AGTTAGGCTG25560GACGTGGTAG CTCATGCTTG TTGTAATCTC AGCACTCTGG GAGGCTGAGG CAGGAGGATC25620ACTTGAGCCC AGGAGTTCAA GACAGCCCCG TGCCACATGG TGAAACCCTG TCTCTCCAAA25680AAATAAAACA TTTAGCCAGA TGTGGTGACT CATGCCTGTA ATCCCGGTAT TCTGGGAGGC25740TGAGGCAGAG TTGCTTGAGC CCAGGAGTTC AAGACCAGCC TCGGCAACAA AGTGAGACCC25800TGTCTCTCCA AAAAATAAAA CATTTAGCCA GCTGTGGTGA CTCATGCCTG TAATCTCAGT25860ACTCTGGGAG GCTGGGGCAG AATGGCTTGA GCCCAGGAGT TCGAGACCAA CCTCAGCAAC25920AAAGTGAGAT CTTGTTTCTC CAAAAAATCA AAAATTTAGC CAGCTGTGCT GGCTCATGCC25980TGTAATCCCG GTACTCTGGG AGGCTGAGGC AGAATCGTTT GAGCCCAGGA GTTCGAGACC26040AACCTCAGCA ACAAAGTGAG ATCTTGTTTC TCCAAAAAAA TCAAAAATTT AGCCAGCTGT26100GCTGGCTGGT GCCTGTAATC CCGGTACTCT GGGAGGCTGA GGCGGAATTG CTTGAGCCCA26160GGAGTTCAAG ACCAGCCTCA GCAACAAAGT GAGATCTTGT TTCTCCAAAA AATAAAACAT26220TTAGTCAGCT GTGGTGGCTC AAGCCTGTGA TCCCAGCATT TTGGGAGGCC GAGGCGGGCG26280GATCACGAGG TCATGAGATC GAGACCATCC TGGCTAACAC GGTGAAACCC CGTCTCTACT26340AAAAATACAA AGAAAATTAG CCGGGCGTGG TGGCGGGCGC CTGTAGTCCC AGCTACTCAG26400GAGGCTGAGG CAGGAGAATG CCGTGAGCCT GGGAGGCGGA CCATGCAGTG AGTCAAGATC26460GCGCCACTGC CCTCCAGCCT GGGCCACAGA GCAAGACTCC GTCTCAAAAA AAAAAAAAAA26520AAAACTGCTG CCCAACCTGT GTTTGCACCA CTGCCCTCCA GCCTGGGCAA CAGAGCAAGA26580CTCCGTCTCA AAAAAAAAAA AATGCTGCCC AAGCTGTGTT TGCACCACTG CCCTCCAGCC26640TGGGCAACAG AGCAAGACTC CGTCTCAAAA AAAAAAAAAA AAAATGCTGC CCAAGCTGTG26700TTTGCACCAC TGCCCTCCAG CCTGGGCAAC AGAGCAAGAC TCTGTCTCAA AAAAAAAAAA26760AATGCTGCCC AAGCTGTGTT TGCACCACTG CCCTCCGGCC TGGGCAACAG AGCAAGACTC26820CGTCTCAAAA AAAAAAAAAA AATGCTGCCC AAGCTGTGTT TGCACCACTG CCCTCCAGCC26880TGGGCAACAA AGCAAGCCTC AGCTTTCTGC CATCTCCACA ACCAAGAAAG CAATTCACAC26940AGAAATCAGT GCATCGTGCA GTGACCTCTT CAGAAAACCA ATGAGTTTTC CACCTGAGGA27000ACTGTTTCTG AGCCCCATTC AGAAAAACAC ATCCCTGTAA CTGCAGGGCA GATTTACTCA27060CTGTATGCCT GTTTAAATAA AGCTTCCAGC CTCTGCATGG GGTCTGTCTG GAAGCTCCTG27120TATCTGTCCC ACATTCTTGG AATCACAATG CACCCTTGGG AGGAAGATAT GTATTTAAAG27180GGAGTGGATG TTATGGTGAG AAAATGCTGC CCATCCTTCT AGAAGACAAA AGCCACACAA27240AATACATCAC AAGAACCAGT TTTTTTCAGA GAAGAACCTG CACAAAGAAC CTGCTCCCCC27300CACACCCCCA CACACAGGTG AATTAACAGG ATGTATGTTT TATCATAAAA GCACAGGTTT27360GTTTCCTATG CACTCTCTGA GGATTTGGCC ATATGCAAAG ATGTACAAAA ACCTTCTCTT27420TCCCCAGGGA ACCGTAACCC GTCTGAAAAG ATGCCCTTCT CAGAAGCGAG TTGAACGATT27480GTTGGAAAAG ATAAAATACG ACGTGCACAC ACACAGTAGA GAAATGTCAC CCATGCAAAT27540TATGTGTTTG AATGGAACAC ATTCAGGAAG CTAAATGGGG TATGACCACA CATTTGGGTT27600GATTTATTTG ACGAGTGGAA GGGGCAGATG GAAATGAATA CTGCTGTTTT CCTTTGGAAG27660GCCATATATG GGAATACCAA GAGGATTACT TTGGAAGTTT AGCTTCTCCA GGTGGTCTCT27720CTCTCTCTCT CTTTTTTTGA GACAGAGTCT CACTCTGTCA CCCAGGCTGC AGTGCAATGG27780CGTGCTCTCG GCTCACTGCA ACCTCAGCCT CCCAGGTACA AGCGATTCTC CTGCCTCAGC27840CTCCCGAGTA GCTGGGATCA CAGGTGTGCA CCACCACGCC TGGCTAATGT TTGTATTTTC27900AGTAGAGATG AGGTTTTACC ATGTTGGCCA GGCTGGTCTT GAACTCCTGA CCTCAGGTGA27960TCCGCCTGCC TCGGCCTCCC AAAGTGCTGG GATGACAGAC ATGAGCTAGC ACGCCCGGCC28020CCAGGTGGTC TTTTTAGCGG GTATTAAAGC AGCTTTCTCT CTGAGCCTTA AACCATGAAG28080ATAGACAGAC TCAGTGTATG GGTTTTAGAG TTGTAATTTT ATAAAAATAA GAAAAAGTCG28140ACCTATCATT GATGGTTAGT ATTTTTTGTA GCAGTTGCAT GCAATATTAG GATAAGGCAT28200GTTCTCAAAA AGAACTCTTT TTTTTTTTTT TTTGAGACGG AGTCTCGCTC TGTCACCCAG28260GCTGGAGTGC AGTGGCACGA TCTCCGCTCA CTGCAAGCTC CTCTTCCCGG GTTCACGCCA28320TTCTCCTGCC TCAGCCTCCC CAGTAGCTGG GACTACAGGC GCCCGCCACC ACGCCCGGCT28380AATTTTTTGT ATTTTTAGTA GAGACGGGGT TTCACCATGT TAGCCAGGAA GGTCTCGATC28440TCCTGACCTC ATGATCCGTC CGCCTCAGCC TCCCAAAGTG CTGGGACTAC AGGCGTGAGC28500CACTGCACTT GGCCTTTTTT TTTTTTTAGA TGGAGTTTTG CTCTTGTCGC CCAGGCTGGA28560GTATAATGGC ATGATCTCGA CTCACTGCAA CCTCCGCCTC CCGAGTTCAA GCGATTCTCC28620TGCCTCAGCC TCCCGAGTAG CTGGGATTAC AGGTGCCCAC CACCATGTCA AGATAATGTT28680TGTATTTTCA GTAGAGATGG GGTTTGACCA TGTTGGCCAG GCTGGTCTCG AACTCCTGAC28740CTCAGGTGAT CCACCCGCCT TAGCCTCCCA AAGTGCTGGG ATGACAGGCG TGAGCGCCTG28800CGCCCGGCCT TTGTAACTTT ATTTTTAATT TTTTTTTTTT TTTAAGAAAG ACAGAGTCTT28860GCTCTGTCAC CCAGGCTGGA GCACACTGGT GCGATCATAG CTCACTGCAG CCTCAAACTC28920CTGGGCTCAA GCAATCCTCC CACCTCAGCC TCCTGAGTAG CTGGGACTAC AGGCACCCAC28980CACCACACCC AGCTAATTTT TTTGATTTTT ACTAGAGACG GGATCTTGCT TTGCTGCTGA29040GGCTGGTCTT GAGCTCCTGA GCTCCAAAGA TCCTCTCACC TCCACCTCCC AAAGTGTTAG29100AATTACAAGC ATGAACCACT GCCCGTGGTC TCCAAAAAAA GGACTGTTAC GTGGATGTTC29160TAGCTTCCTG TTCTCGTCTT TTCTTTGTTA ATTGTACAGT TTGAGGGTGT GTGTGCGTGT29220GCGCACGTGT GTGTGTGCAG TCTCCTGATT TCATGTATTT AATTGTTATT ACCACCACCT2928GCCATCTCTCA TTCCTTCTTA CCCTCACTGT GTAAAGATAC ATGTTGTTTT TAAATTTTAT29340GTATTTATAT TTATTTATTT GTATTTCTGA GACAGAGTCT CACTCTGTTG CCCAGGCTAG29400TGGCATGATC TCAGCTCACA GCAACCTTTG CCTCCTGGGT TCAAGCGATT CTCCTGCCTC29460AGCCTCCCGA GTAGCTGAGA TTACAGGCAC ACACCACCAC ACCCGGCTAG TTTTGTTTTG29520AGACGGAGTC TCGCTCTGTT GCAGGCTGCA GTGCAGTGGC GTGATCCTGG CTCACTGCAA29580CCTCTGCCTC CTGGATTCAA GCGATTCTCC TGCCTCAGCC TCCCAAGTAG CTGGGATTAC29640AGGCGCCCAC CGCCACACCT GGCTAATTTT TTATTGGTAG TAGAGACGGG GTTTCTCCAT29700GTTGACCAGA CTGGTCTTGA ACTCCCAACC TCGGGTGATC CACCCACCTG GGCCTCCCAA29760AGTGCTGGGA TGACAGGCGA GGGCCACCGC GTCCAGCCTT CTTCTTCTTC TTCTTTTTTT29820TTTTTTTAAG ATGGAGTTTC ACTCTGTTGC CCAGGCTGGA GTGCAGTGGT GCAATCTCGG29880CTCCCTGCAA CCTCCACCTC CCAGGTTCAA GAAATTCTTT TGCCTCAGCC TCCCGAGTAG29940CTGGGACTAC AGGTGCCCGC CACCACACCC ACCTAATGTT TGTATTTTTT TGGTAGAGAC30000GGGGCTTCAC CACATTGGCC AGGCTGGTCT TGAACTCCTG ACTTCAGATG ATCCTCCTGC30060CTCAGCCTCC CAGAGTGTTG GGATTACAGG CGTGAGCCAC GGTGCCCGGC CAGACGTCAT30120GTCTTAGGAA ATCAGAAAGT GGGTAGTTTC CGCACTCTGA GGAGAAAAAG AGACGTCCGG30180CGAAGAGAAA GGAGAGTGAA AGGATGTCTC CTCTTGTCTG TAGCCTGTTC TCAATCGTGA30240GTGAGCCAAT TGCCAGAAAC TGAGGGTGCT TCATTTGGCC AGGCAAGCTT CTCAACAGAA30300TGTCTAAGTA CTTGTTAATG CTGAGAAGCT CTCCAAGCTA CTGCACTCCA GCCTGGGTGA30360CAGAGCACGA CCTTGTCTGA AAACAATTAA TTAATCAATT AATTAATATA ATGAAATCAT30420ACTGAACTCA GGAGACCATT GGGGTGGGCA GGGCTGGGGT TGGAAAGGAA CATAAAATAT30480GGTGCAATGG ACTTTGCTCC AGTCTCCCTC CCCATCTCTT CTCGCCAAGA GTCTCTGGAG30540GGAGCATGGG GAAGATGCTT TGGGAATCTG TAACTTCTTG TCTTGTAAAC AGAATATCTA30600AGTAATTGTT AATGCTGAGA AGTTATAGAT TTCCAAAGCC TTTCTCCAGG CTACGGACAA30660GGGTCATGGG TTACTCAGTG TTACAGAAAG AATGACATGG AGATGTTTGT TACATCTTAA30720GGAACCATGA GGGGCCAGAG TATTTTACTC TAAGTGTAGA TGGTACATTG GCCACGCCTG30780TCCCAACACC ACCAATGGTG GCACCTAACT TTTGTGTTTG TGCCCCACAT TTCTTCTTCT30840TTTCTGACGT AAATGCAAGT GATATTCCTT GGAAACCATG CTGCAGCAAG AGGCCATCTG30900ACTACTAGTG ATACCCTGTA GCTCACCTAC AGCAGCTCAC TTGAAGCAGC TCACCCATAG30960CTCAGGTATA GCTCACCTGC AGCGGCTCAC CTGTAGCTCA CGTGTAGCTC ACTTGTAGCA31020GCTCACTGGT AGCTCACCTG CAGCAGCTCA CCTGTACCTC ACCTGTACCT CACCTGCAGC31080AGCTCACCTG TAGCTCACCT GTACGTGAGC CACCGTACCC GGCCAGCAAG ACCCCATTTC31140TAAAATAAAT ACACAAAAAT TAGCCGGACG CGGTGGCGCG TGTCTGTAGT TGTAGCTACT31200CAGGAGGCTG AGGTGGGAGG ATTGCTGGAG GCTGGGAGGT AGAGGCTGCA GTGAACCGTG31260ATCCAGCCAC TGTACTCTAG CCTGGATGAC ATAGCAAAAC CTTGTCTCAA AAAACAAAAA31320CAAAAAACAA AACAAAGAAA CAAACAAAAA ACCCACACAC ACCGGAAAAC AAAACAAAAA31380GCAAAAAGGA AAGAAAAGAG AGCCAGGTCC CAAATATATA TTTCCTTGGA GAACCATTTG31440CAAAGAGCAC ACTTAAGGCC GGGCGCGGTG GCTCACGCCT GTCATCCCGG CACTTTGGGA31500GGCCGAGGTG GGTGGATCAC GAGGTTGGGA GATCGAGACC ATCCTGGCCA ACATGGCGAA31560ACCCCATCTC TACTAAAAAT ACAAAAAATC AGCCAGGTGC TGAGGCAGGT GCCTGTAGTC31620CCAGCCACTC AGGAGGCTGA GGCAGGAGAA TGGCATGAAC CTGGGAGGTG GAGGTTGCAG31680TGAGCCGAGA TCGCGCCCCT GCACTCCAGC CTGGGCGACA GAGCGAGACT CCTTCTCAAA31740TAAATAAATA AATAAATAAC AAAGAGCAAA CTTAAAATTG TCTCAGAAAT CCCACAAAAT31800ATTGGATCTC CCTCATGCCT ATCTGATGAC ACTTTGAGTG TCTGGGGCCC CGTGCCTATT31860TTCTGGGGTT CCCAGAAGCT GCCGTTCTGA AAGTGTGGCT CTCGGGGACG TGGCACAGGT31920GTGGATGTCT GTTTTAAATG TCAGGCGTTT GGACGTTGAG GAACGTGAGG CTGAAGGTCG31980CCTTCGCCGA CCCCCTGAGT TTAGGGTCCT GCCTTTTAAA ATCTTCCCAG CACTCTGTTG32040TTCACGCAAG CGTCCCATCT GTTTGGGTGG CCGTGCCGTC TGCATCTGTC TCGAACCTTC32100ACAGCTTTGC AGAATATCCT GTTTCTCAAT ACGGATGGAG AAACACGAGA CGCGTTTTCT32160GGGTTATTTT AGCCGTCACG GAGAACCCCA GACTCATGTG TGCTAATGAC CTCATTAATG32220ATACTCTGAG GCAGACAGCC CTGCCTGATC TTAACAACAT TTTTTAAATT TCTTTTTTTG32280TTGTTGTTGT TACAGCATCA TTCATATAAC GTAGGAAACC GTGATCAGTA GCTTTTAGGA32340TATTTGCAAC AGGGTGTAAC ADAAABD32367(2)SEQ ID NO:15的資料(ⅰ)序列特征(A)長(zhǎng)度806個(gè)堿基對(duì)(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型其他核酸(A)說(shuō)明/dosc=“SHOT”(ⅸ)特征(A)名稱/關(guān)鍵詞CDS(B)位置43..615(ⅹⅰ)序列描述SEQ ID NO:15:GTGTCCCCGG AGCTGAAAGA TCGCAAAGAG GATGCGAAAG GGATGGAGGA CGAAGGCCAG 60ACCAAAATCA AGCAGAGGCG AAGTCGGACC AATTTCACCC TGGAACAACT CAATGAGCTG 120GAGAGGCTTT TTGACGAGAC CCACTATCCC GACGCCTTCA TGCGAGAGGA ACTGAGCCAG 180CGACTGGGCC TGTCGGAGGC CCGAGTGCAG GTTTGGTTTC AAAATCGAAG AGCTAAATGT 240AGAAAACAAG AAAATCAACT CCATAAAGGT GTTCTCATAG GGGCCGCCAG CCAGTTTGAA 300GCTTGTAGAG TCGCACCTTA TGTCAACGTA GGTGCTTTAA GGATGCCATT TCAGCAGGTT 360CAGGCGCAGC TGCAGCTGGA CAGCGCTGTG GCGCACGCGC ACCACCACCT GCATCCGCAC 420CTGGCCGCGC ACGCGCCCTA CATGATGTTC CCAGCACCGC CCTTCGGACT GCCGCTCGCC 480ACGCTGGCCG CGGATTCGGC TTCCGCCGCC TCGGTAGTGG CGGCCGCAGC AGCCGCCAAG 540ACCACCAGCA AGGACTCCAG CATCGCCGAT CTCAGACTGA AAGCCAAAAA GCACGCCGCA 600GCCCTGGGTC TGTGACVCCA ACGCCAGCAC CAATGTCGCG CCTGTCCCGC GGCACTCAGC 660CTGCASNCCC TNDDKANMCG TTRCTYHTCM ATTACACTTT GGGACCYCGG GDBAGVCCTT 720TTNNAGACTT YVATKGGSCW CSCTGGBCCC TBPKGAVVAC TTGSGHYCGR GAACCGAKHT 780GCCCABAYGA GGACCRGTTT GGAKDG 806(2)SEQ ID NO:16的資料(ⅰ)序列特征(A)長(zhǎng)度190個(gè)氨基酸(B)類型氨基酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ⅱ)分子類型肽(ⅹⅰ)序列描述SEQ ID NO:16:Met Glu Asp Glu Gly Gln Thr Lys Ile Lys Gln Arg Arg Ser Arg Thr1 5 10 15Asn Phe Thr Leu Glu Gln Leu Asn Glu Leu Glu Arg Leu Phe Asp Glu20 25 30Thr His Tyr Pro Asp Ala Phe Met Arg Glu Glu Leu Ser Gln Arg Leu35 40 45Gly Leu Ser Glu Ala Arg Val Gln Val Trp Phe Gln Asn Arg Arg Ala50 55 60Lys Cys Arg Lys Gln Glu Asn Gln Leu His Lys Gly Val Leu Ile Gly65 70 75 80Ala Ala Ser Gln Phe Glu Ala Cys Arg Val Ala Pro Tyr Val Asn Val85 90 95Gly Ala Leu Arg Met Pro Phe Gln Gln Val Gln Ala Gln Leu Gln Leu100 105 110Asp Ser Ala Val Ala His Ala His His His Leu His Pro His Leu Ala115 120 125Ala His Ala Pro Tyr Met Met Phe Pro Ala Pro Pro Phe Gly Leu Pro130 135 140Leu Ala Thr Leu Ala Ala Asp Ser Ala Ser Ala Ala Ser Val Val Ala145 150 155 160Ala Ala Ala Ala Ala Lys Thr Thr Ser Lys Asp Ser Ser Ile Ala Asp165 170 175Leu Arg Leu Lys Ala Lys Lys His Ala Ala Ala Leu Gly Leu180 185 190
權(quán)利要求
1.一種分離的人類核酸分子,該分子編碼包含SEQ ID NO:1所列氨基酸序列的60個(gè)氨基酸的同源異型框結(jié)構(gòu)域的多肽,該多肽具有人體生長(zhǎng)調(diào)節(jié)活性。
2.根據(jù)權(quán)利要求1的核酸分子,選自下組a)一種分離的DNA分子,該分子包含(ⅰ)這樣的核苷酸序列,即編碼包含SEQ ID NO:1所列60個(gè)氨基酸的同源異型框結(jié)構(gòu)域的多肽的核苷酸序列,所述多肽具有人體生長(zhǎng)調(diào)節(jié)活性,或(ⅱ)這樣的核苷酸序列,該序列所編碼的多肽包含SEQ ID NO:1所列60個(gè)氨基酸中除了有一或幾個(gè)氨基酸殘基的缺失、增加或取代外的同源異型框結(jié)構(gòu)域,所述多肽仍具有人體生長(zhǎng)調(diào)節(jié)活性;b)一種分離的DNA分子,含有SHOX ET93[SEQ ID NO:2]和SHOXET45[SEQ ID NO:4]的核苷酸序列或其片段;c)能與a)或b)的DNA分子雜交的核酸分子;d)核苷酸序列與a)或b)的核酸分子具有70%或更高同源性的DNA分子。
3.根據(jù)權(quán)利要求2的DNA分子,該分子所編碼的多肽具有在SEQID NO:1所列60個(gè)氨基酸的同源異型框結(jié)構(gòu)域之外延伸的N-末端和/或C-末端。
4.根據(jù)權(quán)利要求3的DNA分子,編碼長(zhǎng)度為150到350個(gè)氨基酸的多肽。
5.根據(jù)權(quán)利要求2到4任一項(xiàng)的DNA分子,還包含SHOXG310[SEQ ID NO:3]的核苷酸序列。
6.根據(jù)權(quán)利要求2到5任一項(xiàng)的DNA分子,還包含SHOXG108[SEQ ID NO:5]的核苷酸序列。
7.根據(jù)權(quán)利要求2到6任一項(xiàng)的DNA分子,還包含SHOX Va[SEQID NO:6]或SHOX Vb[SEQ ID NO:7]的核苷酸序列。
8.根據(jù)權(quán)利要求1到4任一項(xiàng)的DNA分子,編碼選自下組的多肽a)基本具有[SEQ ID NO:11]所列氨基酸序列的轉(zhuǎn)錄因子A;b)基本具有[SEQ ID NO:13]所列氨基酸序列的轉(zhuǎn)錄因子B;和c)基本具有[SEQ ID NO:15]所列氨基酸序列的轉(zhuǎn)錄因子C。
9.包含SHOX ET93[SEQ ID NO:2]的核苷酸序列的DNA序列。
10.根據(jù)權(quán)利要求9的DNA序列,還包含SHOX G310[SEQ IDNO:3]的核苷酸序列。
11.根據(jù)權(quán)利要求9或10的DNA序列,還包含SHOX ET45[SEQ IDNO:4]的核苷酸序列。
12.根據(jù)權(quán)利要求9到11任一項(xiàng)的DNA序列,還包含SHOXG108[SEQ ID NO:5]的核苷酸序列。
13.根據(jù)權(quán)利要求9到12任一項(xiàng)的DNA序列,還包含SHOXVa[SEQ ID NO:6]或SHOX Vb[SEQ ID NO:7]的核苷酸序列。
14.根據(jù)權(quán)利要求9的DNA序列,包含SHOX ET93[SEQ ID NO:2]和SHOX ET45[SEQ ID NO:4]的核苷酸序列。
15.根據(jù)權(quán)利要求9的DNA序列,包含SHOX ET93[SEQ IDNO:2]、SHOX ET45[SEQ ID NO:4]和SHOX G108[SEQ ID NO:5]的核苷酸序列。
16.根據(jù)權(quán)利要求9到15任一項(xiàng)的DNA序列,包含SHOXG310[SEQ ID NO:3]、SHOX ET93[SEQ ID NO:2]、SHOX ET45[SEQ IDNO:4]和SHOX G108[SEQ ID NO:5]的核苷酸序列。
17.根據(jù)權(quán)利要求16的DNA序列,包含SHOX Va[SEQ ID NO:6]的核苷酸序列。
18.根據(jù)權(quán)利要求16的DNA序列,包含SHOX Vb[SEQ ID NO:7]的核苷酸序列。
19.根據(jù)權(quán)利要求9的DNA序列,基本由[SEQ ID NO:14]所列的分離出的PAR1區(qū)基因組序列組成。
20.一種包含SHOX ET92[SEQ ID NO:9]的核苷酸序列的DNA序列。
21.根據(jù)權(quán)利要求9到20任一項(xiàng)的DNA序列,所述DNA是負(fù)責(zé)調(diào)控人體生長(zhǎng)的基因組DNA或分離的DNA。
22.根據(jù)權(quán)利要求9到21任一項(xiàng)的DNA序列,所述DNA是cDNA。
23.根據(jù)權(quán)利要求22的cDNA,基本由SHOXa[SEQ ID NO:10]或SHOXb[SEQ ID NO:12]的核苷酸序列組成。
24.根據(jù)權(quán)利要求22的cDNA,基本由SHOT[SEQ ID NO:14]的核苷酸序列組成。
25.一種具有SEQ ID NO:11所列氨基酸序列的人生長(zhǎng)蛋白(轉(zhuǎn)錄因子SHOXa)或其功能性片段。
26.一種具有SEQ ID NO:13所列氨基酸序列的人生長(zhǎng)蛋白(轉(zhuǎn)錄因子SHOXb)或其功能性片段。
27.一種具有SEQ ID NO:15所列氨基酸序列的人生長(zhǎng)蛋白(轉(zhuǎn)錄因子SHOT)或其功能性片段。
28.編碼權(quán)利要求25、26或27所述蛋白的eDNA。
29.包含權(quán)利要求25到27任一項(xiàng)所述蛋白的藥物組合物。
30.一種治療矮小身材的方法,包括對(duì)需要給藥的個(gè)體施用治療有效量的權(quán)利要求25到27所述的蛋白。
31.權(quán)利要求25到27所述蛋白用于制備治療矮小身材的藥物組合物的用途。
32.權(quán)利要求1到24所述DNA序列用于制備治療由矮小身材基因突變導(dǎo)致的紊亂的藥物組合物的用途。
33.權(quán)利要求1到24任一項(xiàng)所述DNA序列用于制備一種試劑盒的用途,該試劑盒能夠鑒定出帶有導(dǎo)致人體生長(zhǎng)減弱的基因缺陷的個(gè)體。
34.權(quán)利要求33所述DNA序列的用途,用于鑒定矮小身材基因。
35.基于RNA或DNA分子確定矮小身材的方法,其中在兩個(gè)與SEQ ID NO:2到SEQ ID NO:7中的任一DNA序列完全或部分互補(bǔ)的探針存在的情況下,對(duì)待測(cè)生物樣品分子進(jìn)行擴(kuò)增,隨后用合適的檢測(cè)系統(tǒng)進(jìn)行確定。
36.權(quán)利要求35所述的方法用于鑒定帶有矮小身材遺傳缺陷的人。
37.一種轉(zhuǎn)基因動(dòng)物,是用包含權(quán)利要求1到24任一項(xiàng)所述DNA序列的導(dǎo)致矮小身材的基因轉(zhuǎn)化的。
38.用權(quán)利要求1到24任一項(xiàng)所述DNA序列轉(zhuǎn)化的細(xì)胞。
39.鑒定、篩選可用于治療人矮小身材的藥物的檢測(cè)系統(tǒng),包含權(quán)利要求38所述的轉(zhuǎn)化細(xì)胞。
40.可用于治療與矮小身材基因突變有關(guān)的紊亂的藥物的鑒定、篩選方法,包括提供權(quán)利要求39所述的檢測(cè)系統(tǒng),并在候選藥物與所述細(xì)胞接觸后,確定所述細(xì)胞表型的改變或所述細(xì)胞表達(dá)產(chǎn)物的變化。
41.包含權(quán)利要求1-8所述DNA分子的表達(dá)載體,該載體使所編碼多肽得到表達(dá)。
42.人生長(zhǎng)紊亂的體內(nèi)基因療法,所述生長(zhǎng)紊亂與SHOX或SHOT基因內(nèi)的至少一個(gè)突變有關(guān),該方法包括向人細(xì)胞導(dǎo)入一種表達(dá)質(zhì)粒,該質(zhì)粒中權(quán)利要求1-8任一項(xiàng)所述的DNA分子被連接在影響其在人宿主細(xì)胞中表達(dá)的啟動(dòng)子的下游。
43.根據(jù)權(quán)利要求42所述的方法,用于治療Turner綜合癥或矮小身材。
44.一種抗體,該抗體是用轉(zhuǎn)錄因子A、B或C或者它們的抗原性片段免疫哺乳動(dòng)物,并從這些動(dòng)物中分離出所述抗體而獲得的。
全文摘要
本發(fā)明主題是一種分離的人類核酸分子,它編碼的多肽包含由60個(gè)氨基酸組成、具有SEQIDNO:1的氨基酸序列的同源異型框區(qū)域,該分子具有人體生長(zhǎng)調(diào)節(jié)活性。在X和Y染色體上約500kb矮小身材關(guān)鍵區(qū)內(nèi)鑒定到三個(gè)新基因。至少其中之一導(dǎo)致矮小身材表型。對(duì)應(yīng)該基因的cDNA可以用于診斷手段,或者進(jìn)一步確定矮小身材表型的分子基礎(chǔ)。另外,該基因的基因產(chǎn)物的鑒定,提供了新的途徑和方法以便開發(fā)出矮小身材更好的治療方法。
文檔編號(hào)A61P5/02GK1232499SQ97198471
公開日1999年10月20日 申請(qǐng)日期1997年9月29日 優(yōu)先權(quán)日1996年10月1日
發(fā)明者居德倫·拉波爾德-赫爾布蘭德, 埃爾科萊·拉奧 申請(qǐng)人:居德倫·拉波爾德-赫爾布蘭德