專利名稱::采用高通量測序技術(shù)的改進(jìn)的轉(zhuǎn)錄譜描述策略的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及分子生物學(xué)和遺傳學(xué)領(lǐng)域。本發(fā)明涉及基于采用高通量測序技術(shù)而確定轉(zhuǎn)錄本序列的改進(jìn)的策略。本發(fā)明還涉及用于無偏(unbiased)轉(zhuǎn)錄譜描述(transcriptprofiling)的改進(jìn)策略。
背景技術(shù):
:轉(zhuǎn)錄特征描述是現(xiàn)代生物技術(shù)研究中所用的基礎(chǔ)性技術(shù)之一。轉(zhuǎn)錄譜描述的主要應(yīng)用領(lǐng)域是發(fā)現(xiàn)復(fù)雜性狀所涉及的基因。這包括多種生物現(xiàn)象,如發(fā)現(xiàn)(人類)疾病所涉及的基因以鑒定靶標(biāo)用于開發(fā)對疾病的療法(靶標(biāo)發(fā)現(xiàn))、闡明控制生物分子合成的生物化學(xué)途徑(發(fā)酵工業(yè))、剖析植物或動(dòng)物育種中的復(fù)雜性狀(基因發(fā)現(xiàn))、以及很多其它現(xiàn)象。第二種應(yīng)用領(lǐng)域遵循相反的途徑,g卩,將轉(zhuǎn)錄譜描述用于(所選的亞組)基因的轉(zhuǎn)錄譜(transcriptprofile)的常規(guī)診斷測定,以預(yù)測復(fù)雜的表型。該類中的例子是人乳腺癌(VandeVijver等,2002,N.Engl.J.Med.,第347巻)25:1999-2009;van'tVeer等,2002,BreastCancerRes.,第5巻(1):57-8;w輕.agendia.com)和乳頭狀腎細(xì)胞癌((Yang等,2005))的分子分型、診斷和臨床預(yù)后的預(yù)測。Schadt及其同事描述了鑒定相關(guān)基因的方法,該方法基于從分離的群體中收集的轉(zhuǎn)錄譜描述數(shù)據(jù)(2005,Sci.STKE,第296巻pe40)。簡言之,轉(zhuǎn)錄譜描述在生命科學(xué)研究中極其重要。過去十年中,快速發(fā)展了用于轉(zhuǎn)錄譜描述的技術(shù)。直到九十年代早期(在PCR廣泛可用后不久),(一直)用RNA印跡分析或RNA酶保護(hù)實(shí)驗(yàn)來進(jìn)行轉(zhuǎn)錄譜描述。雖然這些技術(shù)相當(dāng)特異和靈敏(尤其是RNA酶保護(hù)實(shí)驗(yàn)),這些技術(shù)的限制在于當(dāng)時(shí)只能分析一個(gè)或少數(shù)幾個(gè)基因(低通量),而其操作冗長乏味又耗時(shí)。此外,這兩種方法都需要使用對健康有害的放射性標(biāo)記技術(shù)。隨著1992年差異展示(DD)技術(shù)(Liang&Pardee,1992,Science,第257巻(5072):967-71)的出現(xiàn)和DD的很多改進(jìn)和完善(例如,有序差異展示(OrderedDifferentialDisplay),Matz等,1997,Nucl.Acids.Res.,第25巻(12):2541-2),邁出了通向多路(multiplexed)轉(zhuǎn)錄譜描述的第一步。DD的特征在于,通過隨機(jī)設(shè)計(jì)的PCR引物和待分析cDNA樣品的低嚴(yán)緊性退火而耙定隨機(jī)亞組的基因,導(dǎo)致含有與所用PCR引物高同源性的序列的表達(dá)轉(zhuǎn)錄本的優(yōu)選擴(kuò)增。然后,用測序凝膠分辨擴(kuò)增的產(chǎn)物,產(chǎn)生指紋圖譜,其代表了被轉(zhuǎn)錄的基因亞組。雖然相對于腦A印跡和RNA酶保護(hù)實(shí)驗(yàn),DD方法具有較高的通量,但限制在于這些技術(shù)的可重現(xiàn)性/耐用性(robustness)相當(dāng)?shù)?。這部分是因?yàn)樗秒S機(jī)PCR引物的非特異性退火。因此,用不同的隨機(jī)引物產(chǎn)生的指紋圖譜沒有系統(tǒng)性地靶定不同(互補(bǔ))的轉(zhuǎn)錄本亞組。另一個(gè)缺點(diǎn)是DD方法需要制備板凝膠(slab-gel)或用毛細(xì)管凝膠電泳檢測。還有另外一個(gè)限制是指紋圖譜中觀察到的條帶的基因來源是未知的,需要切膠、稀釋、重新擴(kuò)增和DNA測序才能發(fā)現(xiàn);其它基于指紋圖譜的轉(zhuǎn)錄譜描述方法也存在后一種限制。最后,由于在每個(gè)凝膠泳道或毛細(xì)管軌跡上檢測50-100個(gè)片段,使該技術(shù)具有中等的多路性(multiplexed)。cDNA-AFLP方法(Bachem等,1996,PlantJ.,第9巻(5):745-53)解決了DD技術(shù)的主要限制中的兩種,即可重現(xiàn)性/耐用性()和從用不同PCR引物產(chǎn)生的指紋中獲得信息的互補(bǔ)性。因?yàn)椴捎眠x擇性AFU^(關(guān)鍵基因股份有限公司(KeygeneN.V.),荷蘭;見,例如,EP0534858和VosP.,等(1995).AFLP:一種用于DNA指紋的新技術(shù)(AFLP:anewtechniqueforDNAfingerprinting.),NucleicAcidsResearch,第23巻,No.21,p.4407-4414)引物在高嚴(yán)緊性條件下發(fā)生接頭連接的限制性片段的擴(kuò)增,產(chǎn)生重現(xiàn)性高的指紋圖譜,因此cDNA-AFLP的有效性和可重現(xiàn)性很高。此外,使用具有不同的選擇性核苷酸的選擇性AFLP引物能確保獲得含有互補(bǔ)信息的指紋。因此,cDNA-AFLP技術(shù)使得能夠?qū)D(zhuǎn)錄組(transcriptome)亞組進(jìn)行可重復(fù)的取樣(sampling)。(c麗A-)AFLP(以及DD)的另一個(gè)優(yōu)勢是事先不需要知道序列信息,因此,該技術(shù)可應(yīng)用于多種生物體。c麗A-AFLP的限制是每個(gè)泳道/軌跡上多路性水平中等,并且不能直接知道各條帶的基因來源(也參見DD)。SAGE(基因表達(dá)系列分析();Velculescu等,1995,Science,第270巻(5235):484-7)和大規(guī)模平行信號(hào)特征測序(MassivelyParallelSignatureSequencing)(MPSS:Brenner等,2000,NatureBiotechnology,第18巻(6):630-4;Meyers等,2004,NatureBiotechnology,第22巻(8):1006-11)均解決了上述轉(zhuǎn)錄譜描述方法中多路性水平的限制。像cDNA-AFLP—樣,這兩種方法均采用IIS型限制性酶切割樣品cDNA,然后用接頭連接。SAGE中,接下來連接接頭-連接的片段并用桑格(Sanger)測序法測序。從桑格測序軌跡中提取短的、14-20bp的序列標(biāo)簽,提供被轉(zhuǎn)錄基因的定量信息("數(shù)字化Northern")。通過比較各樣品間標(biāo)簽的頻率,獲得研究的各樣品間相對表達(dá)水平的信息,而不需事先知道序列信息。雖然這可(精確)測定不同樣品中的相對轉(zhuǎn)錄豐度,但除非已獲得了被研究生物體的大量EST庫或全基因組序列,或者可對標(biāo)簽序列進(jìn)行同源性搜索如BLAST(基礎(chǔ)本地比對搜索工具(BasicLocalAlignmentSearchTool))分析,否則對于獲得的短序列標(biāo)簽,很難評價(jià)從哪些基因衍生了這些標(biāo)簽。因此,雖然SAGE具有高度多路性、可重現(xiàn)性和耐用性,但其價(jià)值限于基因組已測序的生物體。另外一種限制是由于大規(guī)模桑格測序的成本,該方法不是很適于處理大量樣品(低通量)。與SAGE不同,MPSS基于固相測序反應(yīng)。然而,MPSS基本上與SAGE受到同樣的限制,即,獲得了很短的序列標(biāo)簽(約20bp),這嚴(yán)重限制了在可利用的(基因組)序列有限的生物體中對感興趣序列標(biāo)簽的進(jìn)一步跟進(jìn)(基因鑒定/試驗(yàn)轉(zhuǎn)換)??傊m然SAGE和MPSS是有效的(robust)、高度多路性的轉(zhuǎn)錄譜描述技術(shù),它們不需要使用事先已知的序列信息,但實(shí)際應(yīng)用中它們的價(jià)值限于全基因組序列已確定或大量EST庫已可用的生物體,以將序列標(biāo)簽與基因相聯(lián)系。這兩種方法均是低通量的,并且技術(shù)上較復(fù)雜。概念上很強(qiáng)的觀點(diǎn)是,這兩種方法均依賴于轉(zhuǎn)錄本庫的統(tǒng)計(jì)抽樣(產(chǎn)生"數(shù)字化Northerns")和精確的序列測定,其同時(shí)提供很多基因的(相對)轉(zhuǎn)錄水平的無偏評估,以及轉(zhuǎn)錄譜描述不受與固體支持物上探針的交叉雜交限制這一事實(shí)。1995年,引入了基因表達(dá)微陣列(Schena等,1995,Science,巻270(5235):467-70),其代表了轉(zhuǎn)錄譜描述領(lǐng)域的一種典范性的(paradigm)轉(zhuǎn)換。雖然一開始時(shí)使用了含有EST-衍生的PCR產(chǎn)物作為探針的所謂"點(diǎn)狀"微陣列,但接下來很多年中,焦點(diǎn)轉(zhuǎn)移到寡核苷酸DNA芯片上(Pease等,1994,Proc.Nat.Ac.Sci.USA,巻91(11):5022-6),因?yàn)樗鼈兙哂懈叩哪陀眯院涂s放靈活性(scalingflexibility)。當(dāng)前,轉(zhuǎn)錄譜描述市場上占優(yōu)勢的是各供應(yīng)商(例如昂飛(Affymetrix)、寧博根(Nimblegen)、安捷倫(Agilent),等)提供的寡核苷酸DNA芯片。DNA芯片的能力在于大量DM序列可結(jié)合在其表面上或在其表面上合成,從而能夠進(jìn)行大規(guī)模平行轉(zhuǎn)錄譜描述,允許對例如所有已知人類基因的轉(zhuǎn)錄譜描述(=基因的高度多路水平)。此外,芯片制做和雜交的過程可為自動(dòng)化和可控制,從而分別允許高通量和高耐用性。因此,DNA芯片是伊斯蘭教紀(jì)元(anno)2005年轉(zhuǎn)錄譜描述的技術(shù)狀態(tài)。然而,雖然多路能力、通量和耐用性是DNA芯片非常重要的優(yōu)勢,但基于芯片的轉(zhuǎn)錄譜描述有非常重要的兩個(gè)限制,即,需要序列信息從而能夠建立芯片、高度同源性序列(如衍生自重復(fù)的基因家族的成員序列)之間的交叉雜交可能會(huì)影響結(jié)果的準(zhǔn)確性。后一種限制很難監(jiān)測/排除,因?yàn)樗腔陔s交的檢測方法的內(nèi)在特征。因?yàn)檫@些事實(shí),很難將用不同供應(yīng)商提供的DNA芯片(反映不同的潛在(underlying)生產(chǎn)技術(shù)和應(yīng)用程序)獲得的結(jié)果進(jìn)行比較(Yauk等,2005,NucleicAcidsResearch,巻32(15):el24)。在一個(gè)平臺(tái)中,需要用獨(dú)立的方法例如實(shí)時(shí)PCR試驗(yàn)(例如泰克曼,英瓦德(TaqMan,Invader))來驗(yàn)證獲得的結(jié)果。因此,DNA芯片提供的數(shù)據(jù)不適合數(shù)字化Northern的概念,但是當(dāng)對所有樣品采用同一平臺(tái)時(shí),DNA對于測定相對表達(dá)水平是有用的。理想地,轉(zhuǎn)錄譜描述技術(shù)是髙度多路性的(即,可同時(shí)研究很多基因)、高通量、非常耐用和可重現(xiàn)、高度精確(不受限于交叉雜交)并且其應(yīng)用不需要事先知道序列信息。下文描述的發(fā)明提供了適合這些標(biāo)準(zhǔn)的方法。發(fā)明概述本發(fā)明的發(fā)明人現(xiàn)已發(fā)現(xiàn),可用一種不同的策略解決所述問題,可在轉(zhuǎn)錄譜描述中有效地使用高通量測序技術(shù)。本發(fā)明包括采用優(yōu)選將轉(zhuǎn)錄組分成可重現(xiàn)的亞組的技術(shù)。對這些亞組進(jìn)行測序并裝配成對應(yīng)于各個(gè)轉(zhuǎn)錄本的毗連群(contig)。重復(fù)該步驟,從而提供不同的可重現(xiàn)的亞組,獲得不同組的毗連群。這些不同的毗連群用于裝配轉(zhuǎn)錄本的草擬(draft)序列。本發(fā)明不需要序列的任何信息,并可用于任何復(fù)雜性的轉(zhuǎn)錄本。本發(fā)明還可用于轉(zhuǎn)錄本的組合,例如,從相同生物體的不同組織或不同生物體衍生的轉(zhuǎn)錄本組合。本發(fā)明提供一種獲得感興趣的任何轉(zhuǎn)錄本的更迅速、可信和更快的方法,因此提供了對轉(zhuǎn)錄本更快速的分析。本發(fā)明還涉及不需要基因的序列信息而(無偏)測定基因的相對轉(zhuǎn)錄水平。在這方面,通過對某cDNA樣品復(fù)雜性減低的文庫進(jìn)行測序,并進(jìn)行序列比對以確定該文庫中所述序列被鑒定到的次數(shù),從而確定該cDNA樣品中所述序列的(出現(xiàn))頻率。可對第二個(gè)cDNA樣品重復(fù)上述操作,如果需要,可標(biāo)準(zhǔn)化兩個(gè)cDNA樣品的頻率并進(jìn)行比較以確定相對轉(zhuǎn)錄水平。定義下文描述和實(shí)施例中用到了一些術(shù)語。為了提供對說明書和權(quán)利要求(包括這些術(shù)語限定的范圍)的清楚、一致的理解,提供了以下定義。除非本文另有定義,所用所有技術(shù)和科學(xué)術(shù)語具有與本發(fā)明所屬
技術(shù)領(lǐng)域:
普通技術(shù)人員常規(guī)理解相同的含義。通過參考,整體引入所有出版物、專利申請、專利和其它參考文獻(xiàn)的內(nèi)容。核酸根據(jù)本發(fā)明,核酸可包括嘌呤和嘧啶堿基(優(yōu)選分別是胞嘧啶、胸腺嘧啶、尿嘧啶、腺嘌呤和鳥嘌呤)的任何多聚體或寡聚體(見AlbertL.Lehninger,生物化學(xué)原理(PrinciplesofBiochemistry),793-800(沃斯出版社,WorthPub.1982),通過參考整體引入本文用于所有目的)。本發(fā)明考慮任何脫氧核糖核苷酸、核糖核苷酸或肽核酸成分,及其任何化學(xué)變體,如這些堿基的甲基化、羥甲基化、或糖基化形式,等。這些多聚體或寡聚體在組成上可以是異質(zhì)或同質(zhì)的,可從天然來源分離得到,或通過人工或合成生產(chǎn)。此外,核酸可以是DNA或RNA,或其組合,可以單鏈或雙鏈形式(包括同源雙鏈、異源雙鏈或雜交狀態(tài))永久或瞬時(shí)存在。復(fù)雜性降低法(complexityreduction):術(shù)語復(fù)雜性降低法用于表示一種方法,其中通過產(chǎn)生樣品的亞組來降低核酸樣品(如基因組DNA)的復(fù)雜性。所述亞組可代表整個(gè)(g卩,復(fù)雜的)樣品,并且優(yōu)選是可重現(xiàn)的亞組。該上下文中的可重現(xiàn)(r印roducible)表示當(dāng)用同樣的方法降低同樣的樣品的復(fù)雜性時(shí),獲得同樣的、或至少是相當(dāng)?shù)膩喗M。用于復(fù)雜性降低法的方法可以是本領(lǐng)域已知用于復(fù)雜性降低法的任何方法。用于復(fù)雜性降低法的方法的非限制性例子包括AFLP(關(guān)鍵基因股份有限公司,荷蘭;見,例如EP0534858),Dong描述的方法(見,例如WO03/012118、W000/24939),索引連接(indexedlinking)(Unrau等,1994,Gene,145:163-169),US2005/260628、W003/010328、US2004/10153中所述的方法,基因組分部(portioning)(見,例如W02004/022758),基因表達(dá)的系列分析(SAGE;見,例如Velculescu等,1995,見上,和Matsumura等,1999,ThePlantJournal,巻20(6):719-726)和SAGE的改動(dòng)形式(見,例如Powell,1998,NucleicAcidsResearch,巻26(14):3445—3446;Kenzelmann禾隨uhleraann,1999,NucleicAcidsResearch,巻27(3):917-918)微SAGE(見,例如Datson等,1999,NucleicAcidsResearch,巻27(5):1300-1307),大規(guī)模平行信號(hào)特征測序(MPSS;見,例如Brenner等,2000,NatureBiotechnology,巻18:630-634禾口Bre匿r等,2000,PNAS,巻97(4):1665-1670),自我差減(self-subtracted)cDNA文庫(Laveder等,2002NucleicAcidsResearch,巻30(9):e38),實(shí)時(shí)多路連接依賴性探針擴(kuò)增(RT-MLPA;見,例如Eldering等,2003,巻31(23):el53),高覆蓋性表達(dá)譜(HiCEP;見,例如Fukumura等,2003,NucleicAcidsResearch,巻31(16):e94),Roth等,2004,NatureBiotechnology,巻22(4):418-426描述的通用微陣列系統(tǒng),轉(zhuǎn)錄組差減方法(見,例如Li等,NucleicAcidsResearch,第33巻(16):el36),和片段展示(見,例如Metsis等,2004,NucleicAcidsResearch,巻32(16):el27)。本發(fā)明中所用復(fù)雜性降低法有一個(gè)共同點(diǎn),即它們是可重現(xiàn)的。這種意義上可重現(xiàn)的意思是當(dāng)用同樣的方式降低同樣的樣品的復(fù)雜性時(shí),獲得該樣品的同樣的亞組,這與更具隨機(jī)性的復(fù)雜性降低法相反,更具隨機(jī)性的復(fù)雜性降低法例如O代表在所選組織中轉(zhuǎn)錄的一部分基因組的mRNA(cDNA)(其可重現(xiàn)性依賴于組織的選擇、分離的時(shí)間等)或顯微切害'J(microdissection)。加標(biāo)簽術(shù)語"加標(biāo)簽"指將標(biāo)簽加到核酸樣品以使其能夠與第二種或其它核酸樣品區(qū)分。加標(biāo)簽可例如通過在復(fù)雜性降低法的過程中加入序列識(shí)別子來進(jìn)行或通過本領(lǐng)域已知的任何其它手段進(jìn)行。這些序列識(shí)別子可例如是獨(dú)特的堿基序列,其獨(dú)特地用于鑒定特定核酸樣品并具有可變但確定的長度。其典型例子為例如ZIP序列。利用這種標(biāo)簽,可通過進(jìn)一步處理來確定樣品的來源。如果將來自不同核酸樣品的經(jīng)處理的產(chǎn)物混合在一起,則需要用不同的標(biāo)簽來鑒定不同的核酸樣品。加標(biāo)簽的文庫術(shù)語"加標(biāo)簽的文庫"指加標(biāo)簽核酸的文庫。測序術(shù)語"測序"指確定核酸樣品(例如DNA或RNA)中核苷酸(堿基序列)的順序。做比對或比對術(shù)語"做比對"和"比對"指基于兩個(gè)或多個(gè)核苷酸序列存在短或長的相同或類似核苷酸節(jié)段而對這兩個(gè)或多個(gè)核苷酸序列進(jìn)行比較。本領(lǐng)域已知比對核苷酸序列的幾種方法,下文也將進(jìn)一步解釋。有時(shí)術(shù)語"裝配"('assembling')或聚類('clustering')用作同義詞,雖然這些術(shù)語在技術(shù)上是不同的。比對是基于對最大同源性的比較,而裝配指基于重疊而制備毗連群。高通量篩選高通量篩選常??s寫為HTS,是一種與生物和化學(xué)領(lǐng)域尤為相關(guān)的科學(xué)實(shí)驗(yàn)方法。通過現(xiàn)代機(jī)器人技術(shù)和其它專門的實(shí)驗(yàn)室硬件的組合,這種方法允許研究者同時(shí)有效地篩選大量樣品。高通量測序用高通量技術(shù)確定核苷酸序列的序列。限制性內(nèi)切酶限制性內(nèi)切酶或限制性酶指識(shí)別雙鏈DNA分子中特定的核苷酸序列(耙位點(diǎn))并在各耙位點(diǎn)切割DNA分子的兩條鏈的酶。限制性片段用限制性內(nèi)切酶消化而產(chǎn)生的DNA分子稱為限制性片段。任何給定基因組(或核酸,不管其來源)都可被特定的限制性內(nèi)切酶消化成不連續(xù)的限制性片段組。限制性內(nèi)切酶切割產(chǎn)生的麗A片段可進(jìn)一步用于多種技術(shù),可通過例如凝膠電泳來檢測。凝膠電泳為了檢測限制性片段,可需要基于大小對雙鏈DNA分子分級(jí)的分析方法。實(shí)現(xiàn)這種分級(jí)的最常用技術(shù)是(毛細(xì)管)凝膠電泳。DNA片段在這種凝膠中移動(dòng)的速率取決于它們的分子量;因此,隨著片段長度增加,移動(dòng)的距離減少。如果電泳圖譜中包括的片段數(shù)目足夠小,可用染色方法,例如銀染或溴化乙錠染色,直接觀察用凝膠電泳分級(jí)的麗A片段?;蛘撸怉片段的進(jìn)一步處理中可在片段中摻入可檢測的標(biāo)記,例如熒光團(tuán)或放射性標(biāo)記。連接由連接酶催化的、將兩條雙鏈麗A分子共價(jià)結(jié)合在一起的酶反應(yīng)稱為連接。一般,兩條DNA鏈共價(jià)結(jié)合在一起,但也可能通過對兩個(gè)鏈末端中的一個(gè)進(jìn)行化學(xué)或酶學(xué)修飾而阻止兩條鏈中的一條發(fā)生連接。這種情況下,兩條DNA鏈中只有一條發(fā)生共價(jià)結(jié)合。合成的寡核苷酸可化學(xué)合成的、優(yōu)選具有約10-50個(gè)堿基的單鏈DNA分子*、稱為合成的寡核苷酸。一般,設(shè)計(jì)這些合成的DNA分子使其具有獨(dú)特的或所需的核苷酸序列,但也有可能合成具有相關(guān)序列但在核苷酸序列的特定位置具有不同核苷酸組成的分子家族。術(shù)語合成的寡核苷酸用于指具有設(shè)計(jì)的或所需的核苷酸序列的DNA分子。接頭具有有限數(shù)目的堿基對(例如長度約10-30個(gè)堿基對)的短、雙鏈DNA分子,經(jīng)設(shè)計(jì)可連接于限制性片段末端。接頭通常由兩個(gè)合成的寡核苷酸組成,這兩個(gè)合成的寡核苷酸具有彼此部分互補(bǔ)的核苷酸序列。合適條件下在溶液中混合這兩個(gè)合成的寡核苷酸時(shí),它們彼此退火,形成雙鏈結(jié)構(gòu)。退火后,設(shè)計(jì)接頭分子的一端使其與限制性片段的末端相容并能與其連接;可設(shè)計(jì)接頭的另一端使其不能連接,但不一定必需這樣(雙連接接頭)。接頭連接的限制性片段已經(jīng)通過連接反應(yīng)而端接有接頭的限制性片段。引物一般,術(shù)語引物指可引發(fā)DNA合成的DNA鏈。DNA聚合酶不能在沒有引物的情況下從頭合成DNA:它只能延伸反應(yīng)中已存在的DNA鏈,該反應(yīng)中將互補(bǔ)鏈用作模板,指導(dǎo)待裝配的核苷酸順序。我們將用于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)中的合成寡核苷酸分子稱為引物。DNA擴(kuò)增術(shù)語麗A擴(kuò)增通常用于指用PCR體外合成雙鏈DNA分子。注意,存在其它擴(kuò)增方法,它們可用于本發(fā)明中而不脫離本發(fā)明的本質(zhì)。發(fā)明詳述本發(fā)明提供一種確定cDNA核苷酸序列的方法,所述方法包括步驟(a)提供cDNA;(b)對所述cDNA的至少一部分施用復(fù)雜性降低法,以獲得包含cDNA片段的第一cDNA文庫;(c)用高通量測序確定所述第一文庫中cDNA片段的至少部分核苷酸序列;(d)比對步驟d)中所述第一文庫的cDNA片段的核苷酸序列,以產(chǎn)生所述第一文庫的毗連群;和(e)確定c而A的核苷酸序列。迄今,在測序
技術(shù)領(lǐng)域:
,還沒有公開或暗示將cDNA的高通量測序與這種復(fù)雜性降低法相結(jié)合來描述轉(zhuǎn)錄本的用途。在該方法的步驟(a)中,提供cDNA。本領(lǐng)域公知如何制備cDNA。下文描述了一種制備方法。然而,可采用任何制備cDNA的方法。通常用反轉(zhuǎn)錄酶從mRNA制備cDNA(互補(bǔ)DNA)。這種情況下,如果提供與RNA堿基配對并含有游離3'-0h基團(tuán)的引物,則反轉(zhuǎn)錄酶合成與該RNA模板互補(bǔ)的DNA鏈。該引物可例如是與大多數(shù)真核mRNA分子3'末端的聚-A序列配對的寡聚-dT引物。然后可在四種三磷酸脫氧核糖核甙存在下合成c簡A鏈的其余部分。然后,通過例如提高pH,水解所得RNA-DNA鏈中的RNA鏈。與RNA不同,DNA耐堿性水解,因此DNA鏈保持完整。另一種可選的引物是隨機(jī)引物。當(dāng)反轉(zhuǎn)錄酶不能完全轉(zhuǎn)錄mRM模板或如果存在二級(jí)結(jié)構(gòu),則cDNA的隨機(jī)引發(fā)可能是有利的。另一種可選的引物可以是序列特異性引物。分子生物學(xué)領(lǐng)域熟知從生物體的組織細(xì)胞或從生物體本身分離RNA的方法。而且,可購得用于cDNA合成的很多商業(yè)化試劑盒,例如可購自,AB基因(ABgene)、安比恩(Ambion)、應(yīng)用生物系統(tǒng)(AppliedBiosystems)、生物鏈(BioChain)、生物輻射(Bio-Rad)、克隆技術(shù)(Clontech)、GE健康護(hù)理(GEHealthcare)、基因選擇(GeneChoice)、英杰(Invitrogen)、諾華根(Novagen)、恰根(Qiagen)、羅氏應(yīng)用科學(xué)(RocheAppliedScience),層基因(Stratagene),等.這些方法描述于,例如,Sambrook等(Sambrook,J.,F(xiàn)ritsch,EF.,和Maniatis,T.,分子克隆實(shí)驗(yàn)室手冊.冷泉港實(shí)驗(yàn)室出版社,紐約,巻l,2,3(1989))??蓮膸追N來源(例如細(xì)胞培養(yǎng)物、組織等)分離RNA。在本發(fā)明方法的步驟(b)中,對所述cDNA的至少一部分進(jìn)行復(fù)雜性降低法,以獲得包含cDNA片段的第一cDNA文庫。如定義部分所述,本領(lǐng)域已知很多用于復(fù)雜性降低法的方法。在本發(fā)明一種實(shí)施方式中,核酸樣品的復(fù)雜性降低法的步驟包括酶學(xué)切割核酸樣品成為限制性片段,分離所述限制性片段和選擇限制性片段的特定的庫。任選地,然后將所選片段連接于含有PCR引物模板/結(jié)合序列的接頭序列。在復(fù)雜性降低法的一種實(shí)施方式中,用ns型內(nèi)切酶消化核酸樣品,將限制性片段選擇性連接到接頭序列。接頭序列在待連接的凸出部分可含有各種核苷酸,只有在凸出部分具有相配核苷酸組的接頭才被連接到所述片段并隨后擴(kuò)增。本領(lǐng)域?qū)⑦@種技術(shù)描述為"索引連接"。這種原理的例子可見例如Unrau和Deugau(1994)Gene145:163-169。在一種實(shí)施方式中,復(fù)雜性降低法利用具有不同靶位點(diǎn)和頻率的限制性內(nèi)切酶和兩種不同接頭序列來提供接頭連接的限制性片段,如在AFLP中。在本發(fā)明一種實(shí)施方式中,復(fù)雜性降低法的步驟包括在樣品中進(jìn)行任意引發(fā)PCR(ArbitrarilyPrimedPCR)。在本發(fā)明一種實(shí)施方式中,復(fù)雜性降低法的步驟包括通過DNA變性和重新退火然后去除雙鏈物來去除重復(fù)序列。在本發(fā)明某些實(shí)施方式中,復(fù)雜性降低法的步驟包括將核酸樣品與磁珠雜交,所述磁珠結(jié)合到含有所需序列的寡核苷酸探針。該實(shí)施方式還可包括使雜交的樣品接觸單鏈DNA核酸酶以去除單鏈DNA,連接含有IIs型限制酶的接頭序列以釋放磁珠。該實(shí)施方式可包括或不包括分離的DNA序列的擴(kuò)增。而且,接頭序列可用作或不用作PCR寡核苷酸引物的模板。該實(shí)施方式中,接頭序列可包含或不包含序列識(shí)別子或標(biāo)簽。在本發(fā)明某些實(shí)施方式中,復(fù)雜性降低法利用差異展示技術(shù)或READS(基因邏輯(GeneLogic))技術(shù)。在本發(fā)明某些實(shí)施方式中,復(fù)雜性降低法包括使DNA樣品接觸錯(cuò)配結(jié)合蛋白,先用3'-5'核酸外切酶、然后用單鏈核酸酶消化樣品。該實(shí)施方式可包括或不包括使用結(jié)合于所述錯(cuò)配結(jié)合蛋白的磁珠。在本發(fā)明一種實(shí)施方式中,復(fù)雜性降低法包括本文另有描述的CHIP方法,或設(shè)計(jì)針對例如以下保守基序的PCR引物例如SSRs、NBS區(qū)(核苷酸滯留區(qū)(nucleotidebidingregions))、啟動(dòng)子/增強(qiáng)子序歹(J、端米立(telomer)共有序列、MADS盒基因、ATP-酶基因家族和其它基因家族。步驟(c)中,用高通量測序確定所述第一文庫中cDNA片段的至少部分核苷酸序列。高通量測序方法的非限制性例子描述于WO03/004690、WO03/054142、W02004/069849、WO2004/070005、WO2004/070007和W02005/003375(均在454公司名下(454Corporation",Seo等(2004)Proc.Natl.Acad.Sci.USA101:5488-93,以及太陽神(Helios),索萊薩(Solexa),美國基因組學(xué)(USGenomics)公司等的技術(shù),均通過參考引入本文。最優(yōu)選采用WO03/004690、WO03/054142、WO2004/069849、WO2004/070005、WO2004/070007禾口W02005/003375(均在454公司名下(454Corporation))中所描述(納入本文作為參考)的設(shè)備和/或方法來進(jìn)行測序。所述技術(shù)允許單次運(yùn)行中對4千萬個(gè)堿基測序,比基于桑格測序和現(xiàn)有的毛細(xì)管電泳儀器如MegaBACE(GE健康護(hù)理)或ABI3700(xl)(應(yīng)用生物系統(tǒng))便宜并且快100倍。該測序技術(shù)大致由4個(gè)步驟組成l)麗A斷裂和將特定接頭連接到單鏈DNA(ssDNA)文庫;2)ssDNA退火到珠子上,珠子在油包水微反應(yīng)器中乳化;3)將載有DNA的珠子置于PicoTiterPlate;和(4)通過產(chǎn)生焦磷酸鹽光信號(hào)(pyrophosphatelightsignal)對多孔同時(shí)測序。下文將更詳細(xì)地解釋該方法。步驟(d)中,比對步驟(d)第一文庫中的cDNA片段核苷酸序列以產(chǎn)生第一文庫的毗連群。通過由序列產(chǎn)生毗連群,裝配過程從計(jì)算角度講復(fù)雜性要更低,因此執(zhí)行更快。通過比對文庫中的序列,對于各引物組合,可建立限制性片段組中各限制性片段的毗連群。這產(chǎn)生一組毗連群,各對應(yīng)特定的限制性片段。因此,現(xiàn)在,cDNA被至少一個(gè)限制性核酸內(nèi)切酶限制性(切割)獲得的各片段具有確定的(毗連群)序列。本領(lǐng)域熟知用于比較目的的序列比對方法。多種非限制性程序和比對算法描述于Smith禾口Waterman(1981),Adv.Appl.Math.2:482;Needleman禾口Wunsch(1970)JMoI.Biol.48:443;Pearson禾口Lipman(1988)Proc.Natl.Acad.Sci.USA85:2444;Higgins禾口Sharp(1988)Gene73:237—244;Higgins禾口Sharp(1989)CABIOS5:151-153;Corpet等(1988)Nucl.AcidsRes.16:10881-90;H腿g等(1992)ComputerAppl.intheBiosci.8:155-65;以及Pearson等(1994)Meth.Mol.Biol.24:307-31,通過參考納入本文。Altschul等(1994)NatureGenet.6:119-29(通過參考納入本文)提供了關(guān)于序列比對方法和同源性計(jì)算的更詳細(xì)信息??蓮膬簜€(gè)來源包括國家生物信息中心(NCBI,Bethesda,Md.)以及因特網(wǎng)上獲得NCBI基礎(chǔ)本地比對搜索工具(BLAST)(Altschul等,1990),可與序列分析程序blastp、blastn、blastx、tblastn、禾口tblastx聯(lián)合運(yùn)用??捎伞磆ttp:〃www.ncbi.nlm.nih.gov/BLAST/〉獲得??稍凇磆ttp://驛w.ncbi.nlm.nih.gov/BLAST/blast—help,html〉獲得如何用該程序確定序列同一性的描述。另一個(gè)應(yīng)用可在小衛(wèi)星發(fā)掘(microsatellitemining)(見Varshney等.(2005)TrendsinBiotechn.23(1):48-55)中。在一種實(shí)施方式中,在已對接頭/引物和/或識(shí)別子調(diào)整過但具有重新構(gòu)建的限制性酶識(shí)別序列的序列數(shù)據(jù)上進(jìn)行了比對,即,僅采用得自來源為所述cDNA的片段的序列信息。通常,獲得的序列信息用于鑒定片段的來源(即來自哪個(gè)樣品),從數(shù)據(jù)中去除衍生自接頭和/或識(shí)別子的序列,在經(jīng)調(diào)整的組上進(jìn)行比對。在步驟(e)中,通過例如裝配序列來確定cDNA的核苷酸序列。所述方法例如可用于確定cDNA或所述cDNA復(fù)雜性降低的部分中存在的不同序列的數(shù)目,或者發(fā)現(xiàn)某些基因的表達(dá)。在一種實(shí)施方式中,步驟(a)包括步驟i)提供生物樣品;ii)從所述生物樣品分離總RNA或mRNA;iii)從總西A或mRNA合成cDNA。在一種實(shí)施方式中,在固體支持物例如珠子上進(jìn)行高通量測序(見,例如W003/004690,W003/054142,W02004/069849,W02004/070005,W02004/070007,和WO2005/003375(均在454公司名下,通過參考納入本文)。此類測序方法尤其適于既便宜又高效地同時(shí)測序很多樣品。在另一種實(shí)施方式中,高通量測序基于"通過合成測序(Sequencing-by-Synthesis)",優(yōu)選焦磷酸測序(Pyrosequencing)。焦磷酸測序是本領(lǐng)域已矢口的,描述于例如www.biotagebio.com;ww.pyrosequencing.com/sectiontechnology。該技術(shù)進(jìn)一步應(yīng)用于例如WO03/004690,WO03/054142,WO2004/069849,WO2004/070005,WO2004/070007,和WO2005/003375(均在454生命科學(xué)(454LifeSciences)名下,通過參考納入本文。這是一種尤其適于高通量測序的快速、高可重現(xiàn)性的技術(shù)。在優(yōu)選實(shí)施方式中,高通量測序包括步驟(cl)將測序接頭連接到片段;(C2)使測序接頭連接的片段與珠子退火,各珠子與一個(gè)片段退火;(C3)在油包水微反應(yīng)器中乳化珠子,各油包水微反應(yīng)器含有一個(gè)珠子;(C4)進(jìn)行乳劑PCR,以在珠子表面上擴(kuò)增所述測序接頭連接的片段;(C5)選擇/富集含有擴(kuò)增的測序接頭連接片段的珠子;(C6)將珠子加載到孔中,各孔含有一個(gè)珠子;和(c7)產(chǎn)生焦磷酸鹽信號(hào)。步驟cl)中,將測序接頭連接到文庫中的片段。所述測序接頭至少包括用于與珠子退火的"關(guān)鍵"區(qū)、測序引物區(qū)和PCR引物區(qū)。因此,獲得了加有接頭的(adapted)片段。步驟c2)中,使測序接頭連接的片段與珠子退火,各珠子與一個(gè)片段退火。向測序接頭連接的片段的庫中加入過量的珠子以保證大多數(shù)珠子中的每一個(gè)均與單個(gè)加有接頭的片段退火(泊松分布)。步驟c3)中,在油包水微反應(yīng)器中乳化珠子,各油包水微反應(yīng)器含有一個(gè)珠子。步驟c4)中,進(jìn)行乳劑PCR,以在珠子表面上擴(kuò)增所述測序接頭連接的片段。PCR試劑存在于油包水微反應(yīng)器中,允許PCR反應(yīng)在微反應(yīng)器中發(fā)生。步驟c5)中,選擇/富集含有擴(kuò)增的測序接頭連接片段的珠子。步驟c6)中,將珠子加載到孔中,各孔含有一個(gè)珠子。所述孔優(yōu)選是允許同時(shí)測序大量片段的PicoTite,板的一部分。加入載有酶的珠子后,用焦磷酸測序確定片段序列。步驟c7)中,產(chǎn)生焦磷酸鹽信號(hào)。后續(xù)步驟中,PicoTiterTM板、珠子和珠子中的酶在常規(guī)測序試劑存在下接觸(subjectedto)不同的脫氧核糖核苷酸,摻入脫氧核糖核苷酸后,產(chǎn)生光信號(hào)并記錄。摻入正確的核苷酸將產(chǎn)生可用本領(lǐng)域已知方法檢測到的焦磷酸測序信號(hào)。在本發(fā)明方法的優(yōu)選實(shí)施方式中,復(fù)雜性降低法通過包括以下步驟的方法進(jìn)行i)用至少一種限制性核酸內(nèi)切酶消化cDNA使其斷裂成限制性片段;ii)將所述限制性片段與至少一個(gè)雙鏈合成寡核苷酸接頭連接,以產(chǎn)生接頭連接的限制性片段,所述接頭一端與限制性片段的一端或兩端相容;iii)在雜交條件下,將所述接頭連接的(片段)與一個(gè)或多個(gè)寡核苷酸引物接觸,所述一個(gè)或多個(gè)寡核苷酸引物的引物序列包括與至少一個(gè)接頭的一部分互補(bǔ)或與限制性核酸內(nèi)切酶識(shí)別序列其余部分的一部分互補(bǔ)的核苷酸序列節(jié)段;和16iv)通過延伸所述雜交的一個(gè)或多個(gè)寡核苷酸引物來擴(kuò)增所述接頭連接的限制性片段。用于復(fù)雜性降低法的上述方法也稱為AFLP⑧(關(guān)鍵基因股份有限公司(KeygeneN.V.),荷蘭;見,例如,EP0534858和Vos等(1995).AFLP:—種用于DNA指紋的新技術(shù)(AFLP:anewtechniqueforDNAfingerprinting.),NucleicAcidsResearch,第23巻,No.21,4407-4414,通過參考全文納入本文)。AFLP是一種用于復(fù)雜性降低法的可重現(xiàn)性很高的方法,因此特別適用于本發(fā)明方法。AFLP是一種用于選擇性限制性片段擴(kuò)增的方法。AFLP不需要事先知道任何序列信息,可在任何起始cDNA上進(jìn)行。因此,AFLP提供了接頭連接的片段的可重現(xiàn)性亞組。AFLP技術(shù)的一種有用變化形式采用非選擇性核苷酸(即,+0/+0引物),有時(shí)稱為連接子(linker)-PCR。其也提供了一種合適的復(fù)雜性降低法,尤其是對于轉(zhuǎn)錄本和由此獲得的cDNA。步驟i)中,用至少一種限制性核酸內(nèi)切酶消化cDNA以將其斷裂成限制性片段。在某些實(shí)施方式中,使用至少兩種限制性核酸內(nèi)切酶。在其它實(shí)施方式中,采用三種或多種限制性核酸內(nèi)切酶。限制性核酸內(nèi)切酶可以是頻繁切割的酶,(即,通常是4和5切割的酶,即,識(shí)別序列分別是4或5個(gè)核苷酸的限制性核酸內(nèi)切酶),或是較少切割的酶(即,通常其識(shí)別位點(diǎn)分別有6個(gè)或更多核苷酸),或其組合。在某些實(shí)施方式中,可采用較少切割和頻繁切割的酶的組合。限制性核酸內(nèi)切酶可以是任何類型,包括切割識(shí)別序列之外的cDNA的IIs和IISa型,它們可在識(shí)別序列一側(cè)或兩側(cè)切割。步驟ii)中,將所述限制性片段與至少一個(gè)雙鏈合成寡核苷酸接頭連接,以產(chǎn)生接頭連接的限制性片段,所述接頭一端與限制性片段的一端或兩端相容。優(yōu)選所述接頭在接頭連接后不恢復(fù)核酸內(nèi)切酶識(shí)別位點(diǎn)。如果步驟i)中使用兩種或多種限制性核酸內(nèi)切酶,則還可能使用兩種或多種不同的接頭。該連接步驟產(chǎn)生接頭連接的限制性片段。接頭可以是鈍端的或可含有凸出部分,這取決于步驟i)中所用的限制性核酸內(nèi)切酶。在一些實(shí)施方式中,接頭可以是已知為索引連接子的一組接頭(Unrau等,1994,Gene,145:163-169)。步驟iii)中,在雜交條件下將所述接頭連接的限制性片段與一個(gè)或多個(gè)寡核苷酸引物接觸。所述一個(gè)或多個(gè)寡核苷酸引物的引物序列包括與至少一個(gè)接頭的一部分或限制性核酸內(nèi)切酶識(shí)別序列其余部分的一部分互補(bǔ)的核苷酸序列節(jié)段。標(biāo)準(zhǔn)雜交條件是用于選擇性雜交的條件。選擇性雜交涉及在嚴(yán)緊性雜交條件下,相對于與非靶核酸序列雜交,核酸序列與特定核酸耙序列雜交的程度高至可檢測的程度(例如,至少高于背景2倍),這種雜交基本排除了非耙核酸。術(shù)語"嚴(yán)緊性條件"或"嚴(yán)緊性雜交條件"包括指在這種條件下探針與其耙序列的雜交相對于其它序列高至可檢測的水平(例如,至少高于背景2倍)。嚴(yán)緊性條件是序列-依賴性的,在不同環(huán)境下嚴(yán)緊性條件也不同。通過控制雜交和/或洗滌條件的嚴(yán)緊性,可鑒定與探針100%互補(bǔ)的靶序列(同源性探測)?;蛘?,可調(diào)整嚴(yán)緊性條件以允許序列中有一些錯(cuò)配,從而檢測到較低程度的相似性(異源探測)。一般,探針長度小于約100個(gè)核苷酸,優(yōu)選不多于50或25個(gè)核苷酸。通常,在嚴(yán)緊性條件中,pH7.0-8.3時(shí),鹽濃度小于約1.5MNa離子,通常為約0.01-1.0MNa離子濃度(或其它鹽),對于短探針(例如10-50個(gè)核苷酸)溫度至少約3(TC,對于長探針溫度至少約6(TC(例如,大于50個(gè)核苷酸)。也可通過加入去穩(wěn)定劑(如甲酰胺)來獲得嚴(yán)緊性條件。示例性低嚴(yán)緊性條件包括在37°C下、以下緩沖溶液中雜交30-35%甲酰胺,1MNaCl,1%SDS(十二垸基硫酸鈉),,在50-55°C、lx-2xSSC(20xSSO3.0MNaC1/0.3M檸檬酸三鈉)條件下洗滌。示例性中等嚴(yán)緊性條件包括在37。C、以下緩沖溶液中雜交40-45%甲酰胺,1MNaCl,1%SDS,,在55-60°C、0.5x-lxSSC中洗滌。示例性高嚴(yán)緊性條件包括在37°C、以下緩沖溶液中雜交50%甲酰胺,1MNaCl,1%SDS,,在60-65°C、0.lxSSC中洗滌。特異性通常是雜交后洗滌(條件)的函數(shù),關(guān)鍵因子是最終洗滌溶液的離子強(qiáng)度和溫度。對于DNA-DNA雜合體,Tm可由Meinkoth和Wahl,Anal,Biochem.,138:267-284(1984)所述方程估算Tm=81.5。C+16.6(logM)+0.41(%GC)-0.61(%甲酰胺)-500/L;其中,M是單價(jià)陽離子的摩爾濃度,。/。GC是DNA中鳥嘌呤和胞嘧啶核苷酸的百分?jǐn)?shù),%甲酰胺是雜交溶液中甲酰胺的百分?jǐn)?shù),L是雜合體的堿基長度。Tm表示溫度(在確定的離子強(qiáng)度和pH下),在該溫度下50%的互補(bǔ)靶序列與完全配對的探針雜交。每lX的錯(cuò)配將使Tm降低約rC;因此,可調(diào)節(jié)Tm、雜交和/或洗滌條件以調(diào)節(jié)雜交于具有所需同一性的序列。例如,如果搜尋>90%同一性的序列,Tm可降低l(TC。一般,選擇嚴(yán)緊性條件使其比具體序列在確定的離子強(qiáng)度和pH下與其互補(bǔ)物的熱解鏈溫度(Tm)低5"。然而,極嚴(yán)緊的條件可在比熱解鏈溫度(Tm)低l、2、3或4。C的溫度下雜交和/或洗滌;中等嚴(yán)緊性條件可在比熱解鏈溫度(Tm)低6、7、8、9或l(TC的溫度下雜交和/或洗滌;低嚴(yán)緊性條件可在比熱解鏈溫度(Tm)低ll、12、13、14、15或2(TC的溫度下雜交和/或洗滌。利用所述方程,雜交和洗滌組合,和所需的Tm,本領(lǐng)域普通技術(shù)人員將理解,內(nèi)在描述了雜交和/或洗滌溶液嚴(yán)緊性的各種變化。如果所需的錯(cuò)配程度使Tm低于45。C(水溶液)或32XM甲酰胺溶液),優(yōu)選增加SSC濃度以能夠使用更高的溫度??稍谝韵挛墨I(xiàn)中找到關(guān)于核酸雜交的詳細(xì)指南Tijssen,《生物化學(xué)和分子生物學(xué)的實(shí)驗(yàn)室技術(shù)一與核酸探針雜交》(LaboratoryTechniquesinBiochemistryandMolecularBiology-HybridizationwithNucleicAcidProbes),第一部分,第2章,"雜交原理和核酸探針試驗(yàn)策略綜述"("Overviewofprinciplesofhybridizationandthestrategyofnucleicacidprobeassays"),愛兒斯威爾(Elsevier),紐約.(1993);和《分子生物學(xué)現(xiàn)代技術(shù)》(CurrentProtocolsinMolecularBiology),第2章,Ausubel,等主編,格林出版和威勒-英特科學(xué)出版公司(GreenePublishingandWiley-Interscience),紐約(1995)。當(dāng)采用兩種或多種限制性核酸內(nèi)切酶時(shí),步驟iii)中有可能使用兩種或多種寡核苷酸引物,這取決于核酸內(nèi)切酶的識(shí)別位點(diǎn)。一種或多種寡核苷酸引物的序列包括與至少一個(gè)接頭、或限制性核酸內(nèi)切酶識(shí)別序列其余部分的一部分(可任選加上限制性核酸內(nèi)切酶的識(shí)別序列的其余部分)互補(bǔ)的核苷酸序列節(jié)段,這在EP0534858和Vos等((1995).AFLP:—種用于DNA指紋的新技術(shù),NucleicAcidsResearch,第23巻,No.21,4407-4414)中有更詳細(xì)的解釋。通常,識(shí)別序列的部分是序列經(jīng)限制性核酸內(nèi)切酶的限制性消化后剩余的部分。所以,總而言之,引物至少與接頭連接的限制性片段的已知部分互補(bǔ)。步驟iv)中,通過使雜交的一個(gè)或多個(gè)寡核苷酸引物延伸來擴(kuò)增所述接頭連接的限制性片段。優(yōu)選用PCR進(jìn)行擴(kuò)增,其是本領(lǐng)域公知的技術(shù)。在本發(fā)明一種優(yōu)選實(shí)施方式中,引物還含有在引物序列3'末端的所選序列,該所選序列含有1-IO個(gè)選擇性核苷酸,所述核苷酸與限制性核酸內(nèi)切酶識(shí)別序列的其余部分恰好毗連的節(jié)段互補(bǔ)。通常,識(shí)別序列的部分是序列經(jīng)限制性核酸內(nèi)切酶的限制性消化后剩余的部分。引物的3'末端優(yōu)選含有所選序列。所述所選序列含有預(yù)先選擇的一組1-10個(gè)核苷酸,優(yōu)選1-8個(gè)所選核苷酸,優(yōu)選1-5個(gè),更優(yōu)選1-3個(gè)。示例性引物可含有以下示例性結(jié)構(gòu)(對于2個(gè)選擇性核苷酸(AC))"5,-接頭特異性區(qū)一限制性序列特異性區(qū)一AC-3,"。因此,該示例性引物含有兩個(gè)選擇性核苷酸AC,其僅擴(kuò)增含有互補(bǔ)的TG的接頭連接的片段,所述TG是接在接頭連接的限制性片段的已知部分之后的頭兩個(gè)核苷酸,即在限制性核酸內(nèi)切酶識(shí)別位點(diǎn)的其余部分之后。關(guān)于AFLP的進(jìn)一步描述、其優(yōu)點(diǎn)、實(shí)施方式以及其中所用的技術(shù)、酶、接頭、引物和其它化合物和工具,可參考US6,045,994、EP-B-0534858、EP976835和EP974672、W001/88189和Vos等NucleicAcidsResearch,1995,23,4407-4414,均全文納入本文。在一種實(shí)施方式中,所述接頭還包含識(shí)別子序列。這種識(shí)別子序列可以是例如用于說明復(fù)雜性降低法獲得的文庫的來源的長度不同的、獨(dú)特的堿基序列。本發(fā)明還涉及一種確定核苷酸序列出現(xiàn)頻率的方法,包括步驟a)提供cDNA;b)對所述cDNA的至少一部分運(yùn)用復(fù)雜性降低法,以獲得包含cDNA片段的第一cDNA文庫;(c)測序確定所述第一文庫中cDNA片段的至少部分核苷酸序列;和(d)確定核苷酸序列的出現(xiàn)頻率。該方法的步驟(a)中,提供cDNA。本領(lǐng)域公知如何制備cDNA,上文提供了合適的方法??蓮娜魏蝸碓传@得cDNA,上文也已描述。該方法的步驟(b)中,對所述cDNA的至少一部分進(jìn)行復(fù)雜性降低,以獲得包含cDNA片段的第一cDNA文庫??捎帽绢I(lǐng)域已知的任何方法進(jìn)行復(fù)雜性降低法,如上文所述。根據(jù)本發(fā)明方法的步驟(c)中,測序確定所述第一文庫中cDNA片段的至少部分核苷酸序列。可用本領(lǐng)域已知的任何方法進(jìn)行測序,包括公知的桑格(雙脫氧)方法。在優(yōu)選實(shí)施方式中,用高通量測序法測序,其允許同時(shí)對多個(gè)樣品測序。上文描述了高通量測序的優(yōu)選方法。在本發(fā)明方法的步驟(d)中,確定核苷酸序列的出現(xiàn)頻率。核苷酸序列的出現(xiàn)頻率可通過例如下述方法來確定。可利用cDNA片段的核苷酸序列比對來收集從相同的轉(zhuǎn)錄基因衍生的核苷酸序列,并計(jì)數(shù)這些核苷酸序列。仍然用序列之間的同源性來確立核苷酸序列是否衍生自相同的轉(zhuǎn)錄基因。用于本發(fā)明的目的,當(dāng)核苷酸序列在至少IO,優(yōu)選至少15,更優(yōu)選至少20,再更優(yōu)選至少25、30、40、50、100、150、200個(gè)核苷酸的長度上至少95%、96%、97%、98%、99%或100%同源時(shí),推定這些核苷酸序列衍生自相同的轉(zhuǎn)錄基因。可通過統(tǒng)計(jì)學(xué)釋義(如T-測驗(yàn))協(xié)助所述方法,以證明統(tǒng)計(jì)上不同的頻率。還有可能基于鑒定到的序列數(shù)目來進(jìn)行簡單的分級(jí)。假設(shè)在樣品l中,(未知)基因"X"的核苷酸序列被檢測到10次(10是具有例如98%同源性的核苷酸序列的數(shù)目),樣品2中同樣的序列被檢測到20次。這種情況下,如果樣品1和樣品2被測定的序列總數(shù)相同,則有可能基因X在樣品2中的轉(zhuǎn)錄水平是在樣品1中的兩倍;因此,精確的轉(zhuǎn)錄譜描述可能需要在樣品之間進(jìn)行標(biāo)準(zhǔn)化(normalization)或者比較源自基因"X"序列的出現(xiàn)頻率和稱為持家基因的出現(xiàn)頻率,假定認(rèn)為持家基因的相對轉(zhuǎn)錄水平在多個(gè)樣品中是恒定的。與樣品的表型特征相關(guān)聯(lián)地對樣品間相對轉(zhuǎn)錄譜進(jìn)行分級(jí),提供了哪個(gè)基因影響不同表型發(fā)生的信息。術(shù)語表型包括生物體所有類型的特征,例如,疾病狀態(tài)等。對于每個(gè)基因中核苷酸序列數(shù)目的統(tǒng)計(jì)學(xué)評價(jià)(即數(shù)字化Northern),確保c面A片段的冗余(redimdant)測序是很重要的。因此,在進(jìn)行實(shí)驗(yàn)之前確立序列文庫復(fù)雜性和調(diào)整獲得足夠的序列所需的序列讀出數(shù)可能是有用的。例如,通常c麗A樣品含有8,000-16,000個(gè)不同的轉(zhuǎn)錄本。如果采用+0/+1c畫-AFLP,假定使用的兩種限制性核酸內(nèi)切酶識(shí)別4核苷酸的序列,其靶向轉(zhuǎn)錄本總數(shù)的約80%,則復(fù)雜性降低的樣品含有約l,600-3,200個(gè)轉(zhuǎn)錄本。當(dāng)使用20倍的冗余測序時(shí),這對應(yīng)于每個(gè)樣品需要32,000-64,OOO次讀出。這也足夠用于確定相對低水平表達(dá)的基因的轉(zhuǎn)錄水平。一種非常適合用于確定序列文庫復(fù)雜性的方法描述于WO03/010328,納入本文作為參考。本發(fā)明還涉及一種用于確定cDNA樣品中核苷酸序列的相對轉(zhuǎn)錄水平的方法,包括步驟a)通過在第一cDNA樣品上進(jìn)行如權(quán)利要求2所述的方法,確定所述第一cDNA樣品中核苷酸序列的出現(xiàn)頻率;b)通過在第二和/或其它c(diǎn)DNA樣品上進(jìn)行如權(quán)利要求2所述的方法,確定所述第二和/或其它c(diǎn)DNA樣品中相同核苷酸序列的出現(xiàn)頻率;和c)將所述核苷酸序列在所述第一cDNA樣品中的出現(xiàn)頻率和相同核苷酸序列在所述第二和/或其它c(diǎn)DNA樣品中的出現(xiàn)頻率進(jìn)行比較,以獲得該核苷酸序列的相對轉(zhuǎn)錄水平。本方法的步驟(a)中,通過在第一cDNA樣品上進(jìn)行如權(quán)利要求2所述的方法,確定所述第一cDNA樣品中核苷酸序列的出現(xiàn)頻率。本方法的步驟(b)中,通過在第二和/或其它c(diǎn)DNA樣品上進(jìn)行如權(quán)利要求2所述的方法,確定所述第二和/或其它c(diǎn)DNA樣品中相同核苷酸序列的出現(xiàn)頻率。本方法的步驟(c)中,將所述核苷酸序列在所述第一cDNA樣品中的出現(xiàn)頻率和相同核苷酸序列在所述第二和/或其它c(diǎn)DNA樣品中的出現(xiàn)頻率進(jìn)行比較,以獲得該核苷酸序列的相對轉(zhuǎn)錄水平。如上所述,對這種相對轉(zhuǎn)錄水平的了解可能對于確立對某些表型很重要的轉(zhuǎn)錄本來說是很重要的。本發(fā)明還涉及一種用于確定cDNA樣品中核苷酸序列的相對轉(zhuǎn)錄水平的方法,包括步驟a)提供第一cDNA樣品;b)在所述第一cD織樣品上運(yùn)用復(fù)雜性降低法,以獲得第一文庫;c)給所述第一文庫加標(biāo)簽,以獲得加標(biāo)簽的第一文庫;d)用第二和/或其它c(diǎn)DNA樣品順序或同時(shí)進(jìn)行步驟(a)和(b),優(yōu)選對各cDNA樣品用不同的標(biāo)簽,以獲得加標(biāo)簽的第二和/或其它文庫;e)將所述加標(biāo)簽的第一文庫和加標(biāo)簽的第二和/或其它文庫混合,以獲得混合文庫;f)通過測序確定所述混合文庫的至少部分核苷酸序列;g)確定所述第一cDNA樣品和第二和/或其它DNA樣品中核苷酸序列的出現(xiàn)頻率;和h)將所述核苷酸序列在所述第一cDNA樣品中的出現(xiàn)頻率和所述核苷酸序列在所述第二和/或其它c(diǎn)麗A樣品中的出現(xiàn)頻率進(jìn)行比較,以獲得cDNA樣品中該核苷酸序列的相對轉(zhuǎn)錄水平。步驟(a)中,提供第一cDNA樣品??扇缟纤霁@得cDNA樣品。步驟(b)中,在所述第一cDNA樣品上運(yùn)用復(fù)雜性降低法,以獲得第一文庫??捎萌魏渭夹g(shù)進(jìn)行復(fù)雜性降低法,但優(yōu)選用關(guān)鍵基因公司的AFLP0技術(shù)。步驟(c)中,給所述第一文庫加標(biāo)簽,以獲得加標(biāo)簽的第一文庫。加標(biāo)簽可以和步驟(b)的復(fù)雜性降低法同時(shí)進(jìn)行??衫缤ㄟ^AFLP、采用包含對于各樣品獨(dú)特的(核苷酸)識(shí)別子的接頭來實(shí)現(xiàn)這種同時(shí)加標(biāo)簽。當(dāng)兩個(gè)或多個(gè)cDNA樣品的兩個(gè)或多個(gè)復(fù)雜性降低文庫被混合以獲得混合文庫時(shí),加標(biāo)簽是為了區(qū)分不同來源例如來自不同植物品系的樣品。因此,制備加標(biāo)簽的第一cDNA樣品文庫和第二或其它c(diǎn)DNA樣品文庫時(shí),優(yōu)選使用不同的標(biāo)簽。當(dāng)例如使用五種核酸樣品時(shí),預(yù)期獲得五種加有不同標(biāo)簽的文庫,五種不同標(biāo)簽代表各個(gè)來源的樣品。標(biāo)簽可以是本領(lǐng)域已知用于區(qū)分核酸序列的任何標(biāo)簽,但優(yōu)選短的識(shí)別子序列。這種識(shí)別子序列可例如是不同長度的獨(dú)特堿基序列,用于說明提供復(fù)雜性降低法獲得的文庫的來源。因?yàn)椴恍枰~外的步驟來給文庫加標(biāo)簽,因此將寡核苷酸標(biāo)簽摻入接頭或引物是很方便的。這類識(shí)別子序列的長度可不同,取決于待比較的核酸樣品數(shù)目。約4個(gè)堿基的長度(44=256種可能的不同標(biāo)簽序列)足夠區(qū)分有限數(shù)目的樣品來源(至多256種),但優(yōu)選標(biāo)簽序列在待區(qū)分的樣品之間相差多于l個(gè)堿基??筛鶕?jù)需要相應(yīng)調(diào)整標(biāo)簽序列的長度。步驟(d)中,用第二和/或其它c(diǎn)DNA樣品順序或同時(shí)進(jìn)行步驟(a)和(b),優(yōu)選對各cDNA樣品用不同的標(biāo)簽,以獲得加標(biāo)簽的第二和/或其它文庫。cDNA樣品可獲自例如不同來源,例如不同的植物品系,從而可比較這些植物品系的轉(zhuǎn)錄譜?;蛘?,cDNA樣品可獲自同一植物品系的不同發(fā)育階段,以比較植物發(fā)育過程中的轉(zhuǎn)錄譜。為了提高效率,也有可能在完全不相關(guān)的cDNA樣品上進(jìn)行本發(fā)明的方法。步驟(e)中,將所述加標(biāo)簽的第一文庫和加標(biāo)簽的第二和/或其它文庫混合,以獲得混合文庫??蓪υ摶旌衔膸爝M(jìn)行同時(shí)測序,以提供高效的過程。步驟(f)中,通過測序,優(yōu)選高通量測序(優(yōu)選如上所述),確定所述混合文庫的至少部分核苷酸序列。步驟(g)中,確定所述第一cDNA樣品和第二和/或其它DNA樣品中核苷酸序列的出現(xiàn)頻率。通過使用標(biāo)簽,可區(qū)分第一文庫的核苷酸序列和第二和/或其它文庫的核苷酸序列。這種情況下,可在已針對僅具有重建的限制性酶識(shí)別序列的、已調(diào)整過接頭/引物和/或識(shí)別子的序列信息上進(jìn)行比對,即,僅采用得自來源為所述cDNA的片段的序列信息。通常,獲得的序列信息用于鑒定片段的來源(即來自哪個(gè)樣品),從數(shù)據(jù)中去除衍生自接頭和/或識(shí)別子的序列,在經(jīng)調(diào)整的序列數(shù)據(jù)組上進(jìn)行比對。步驟(h)中,將所述核苷酸序列在所述第一cDNA樣品中的出現(xiàn)頻率和所述核苷酸序列在所述第二和/或其它c(diǎn)DNA樣品中的出現(xiàn)頻率進(jìn)行比較,以獲得cDNA樣品中該核苷酸序列的相對轉(zhuǎn)錄水平。由于所用的加標(biāo)簽策略,可同時(shí)確定不同cDNA樣品中核苷酸序列的轉(zhuǎn)錄水平,這是非常有利的。如上所述,該方法非常適于快速鑒定某表型性狀中涉及的轉(zhuǎn)錄本。在優(yōu)選實(shí)施方式中,用不同的標(biāo)簽對第一文庫和第二或其它文庫加標(biāo)簽。如上所述,優(yōu)選各cDNA樣品文庫通過它自己的標(biāo)簽來鑒定。附圖簡述圖l:從胡椒品系PSP11和PI201234中獲得的、加標(biāo)簽的(A/C)cDNA-AFLP產(chǎn)物。來自兩個(gè)品系的兩個(gè)樣品各一式兩份加載在1%的瓊脂糖凝膠上。M100bp標(biāo)記物1cDNA-AFLPPSP11樣品12cDNA-AFLPPSP11樣品13cDNA-AFLPPSP11樣品24cDNA-AFLPPSP11樣品25cDNA-AFLPPI201234-樣口叩16cDNA-AFLPPI201234-樣叩17cDNA-AFLPPI201234-樣叫28cDNA—AFLPPI201234-樣叩2圖2:圖示為用含有4bp的5引發(fā)(5prime)標(biāo)簽序列的AFLP引物擴(kuò)增后的胡椒AFLP+1/+1擴(kuò)增產(chǎn)物擴(kuò)增3序列文庫制備的流程。擴(kuò)增413次序列讀出的示例性輸出。擴(kuò)增5Blast結(jié)果。擴(kuò)增6顯示上調(diào)的原始數(shù)據(jù)。擴(kuò)增7顯示上調(diào)的原始數(shù)據(jù)。實(shí)施例利用例如RNA雜交或DNA微陣列表達(dá)應(yīng)用等方法己累積了關(guān)于高等植物中基因表達(dá)的時(shí)空調(diào)控的大量實(shí)例。后一種技術(shù)允許同時(shí)監(jiān)測上千種基因的表達(dá)。與這些分析方法不同,可直接用高通量測序技術(shù)對加標(biāo)簽的轉(zhuǎn)錄本測序來實(shí)現(xiàn)基因表達(dá)譜的數(shù)字化分析。從某樣品的具體轉(zhuǎn)錄本中獲得的序列數(shù)目反映了該特定序列的轉(zhuǎn)錄水平。在多個(gè)樣品間比較這些數(shù)目,同時(shí)計(jì)入測序深度,使得可精確檢測這些樣品間的轉(zhuǎn)錄水平。該技術(shù)似乎是發(fā)現(xiàn)與某些表達(dá)譜相關(guān)的新的、未知特性(quality)標(biāo)記物的強(qiáng)大工具。本文描述了cDNA的高通量測序,所述cDNA衍生自兩種胡椒品系的mRNA部分,其中已用AFLP技術(shù)降低了所述cDNA的復(fù)雜性。通過對加標(biāo)簽的cDNA片段直接測序,可產(chǎn)生表達(dá)譜。<formula>formulaseeoriginaldocumentpage25</formula>25單位的大腸桿菌多聚酶0.8單位的RNA酶H(lU/ul)力口MQ-水至總體積為80ul。12。C溫育l小日寸22。C溫育l小時(shí)然后,用恰根QiaquickPCR膜純化試劑盒(商品號(hào):28104)純化cDNA樣品。用30W洗脫緩沖液(5raMTris-HC1,p朋.5)洗脫。用加標(biāo)簽的AFLP引物制備cDNA-AFLP模板如Zabeau&Vos,1993:選擇性限制性片段擴(kuò)增;DNA指紋的一般方法(Selectiverestrictionfragmentamplification;ageneralmethodforDNAfingerprinting)、EP0534858-Al,Bl;美國專利6045994)和Vos等(Vos,P.,Hogers,R.,Bleeker,M.,Reijans,M.,vandeLee,T.,Hornes,M.,FrijtersA.,Pot,J.,Peleman,J.,Kuiper,M.等(1995)AFLP:—種用于DNA指紋的新技術(shù),Nucl.AcidsRes.,21,4407-4414)所述,用限制性核酸內(nèi)切酶組合Taql/Msel制備所產(chǎn)生的胡椒母系PSPll和PI-201234()cDNA的AFLP模板。c鵬艦纖激眾;贈(zèng)麥體通過兩個(gè)步驟進(jìn)行消化;第一步用TaqI消化(最高的溫育溫度),然后用MseI消化(最低的溫育溫度)。如下所述用TaqI和MseI限制性消化cDNA:"朋游銜劍絲,眾將以下物質(zhì)加在一起250ngc薩10單位的Taql8ul5xRL緩沖液,5xRL緩沖液是50mMTris-HAc、50mMMgAc、250mMKAc、25mMDTT、250ngMBSA;pH7.5),加MQ水至終濃度為40W65'C溫育2小時(shí)。用TaqI限制性消化后,加入10單位的Msel2Pl5xRL緩沖液加MQ水至終濃度為50W37"C溫育2小時(shí)。麥關(guān)遂麥向消化混合物中加入以下組分1W10mMATPT4麗A連接酶1WTaql接頭(50pmo1/W)CTCGTAGACTGCGTAC/CGGTACGCAGTCTMsel接頭(50pmo1/Pl)GACGATGAGTCCTGAG/TACTCAGGAACTCAT5xRL緩沖液加MQ水至終濃度為60W37""C溫育3小時(shí)。c鵬-肌,潛限制性消化-連接后,將該限制性消化/連接反應(yīng)產(chǎn)物用作非選擇性擴(kuò)增步驟中的模板。然后,將這些非選擇性八?1^產(chǎn)物用作選擇性擴(kuò)增(+1/+1)中的模板。通過進(jìn)行+2/+3選擇性擴(kuò)增來檢査+1/+1產(chǎn)物的質(zhì)量。在4.5%測序凝膠上檢查后一次擴(kuò)增的產(chǎn)物。*T^,遂遂/7^戶遂荼絲c"朋-j凡尸f潛,5W未稀釋的限制性(消化)-連接混合物1.5PlTagl-引物(50ng/W)(CTCGTAGACTGCGTACCGA)1.5WMsel-引物(50ng/W)(GATGAGTCCTGAGTAA)2Pl5mMdNTP1單位的Taq.多聚酶5W10XPCR緩沖液加MQ水至終體積為50Pl用具有金或銀區(qū)塊(block)的PE9700進(jìn)行PCR擴(kuò)增,條件如下30個(gè)循環(huán)的(94。C30秒,56°C60秒,72°C120秒)。*7S^遂H肯簽,^/遂f遂摔絲cZ朋-對于從胡椒品系PSPll得到的非選擇性cDNA-AFLP產(chǎn)物5ul600x稀釋的非選擇性產(chǎn)物1.5ulTr01ACAC引物(+A)*(50ng/Pg)(ACACGTAGACTGCGTACCGAA)1.5ulM02ACAC引物(+C)*(50ng/Pg)(ACACGATGAGTCCTGAGTAAC)2ul5mMdNTP1.5單位的AmpliTaq-Gold多聚酶5ul10xPCR緩沖液加MQ水至終體積為50u1對于從胡椒品系PI201234獲得的非選擇性cDNA-AFLP0/0產(chǎn)物5ul600x稀釋的非選擇性產(chǎn)物1.5ulTr01AGCT引物(+A)*(50ng/Pg)(AGCTGTAGACTGCGTACCGAA)1.5ulM02AGCT引物(+C)*(50ng/Pg)(AGCTGATGAGTCCTGAGTAAC)2ul5mMdNTP1.5單位AmpliTaq-Gold多聚酶5ul10xPCR緩沖液加MQ水至終體積為50ul用具有金區(qū)塊的PE9700進(jìn)行PCR擴(kuò)增,條件如下94°C,12分鐘,l個(gè)循環(huán)(熱啟動(dòng)),94°C30秒,65°C30秒,72°C60秒;23個(gè)循環(huán)-在12個(gè)循環(huán)中,每個(gè)循環(huán)降低退火溫度O.7°C-13個(gè)循環(huán)的降落(touchdown)階段-94°C30秒,56°C30秒,72°C60秒。在1%瓊脂糖凝膠上檢查所產(chǎn)生的+1/+1產(chǎn)物的質(zhì)量,用IOO堿基的分子梯(ladder)檢查片段長度分布(見圖l)。選擇性引物在5引發(fā)端含有4bp的標(biāo)簽(上文加下劃線的),以在測序結(jié)束時(shí)區(qū)分從各個(gè)胡椒品系來源的擴(kuò)增產(chǎn)物。圖2顯示了根據(jù)該方法產(chǎn)生加標(biāo)簽的cDNA-AFLPPCR產(chǎn)物的方案。測序文庫的制備和高通量測序如Margulies等,(Margulies等,Nature437,376-380頁以及在線補(bǔ)充材料)所述,用45d生命科學(xué)公司/羅氏GS20測序技術(shù)對來自兩個(gè)胡椒品系的加標(biāo)簽的cDNAAFLP產(chǎn)物進(jìn)行高通量測序。首先將加標(biāo)簽的cDNAAFLPPCR產(chǎn)物純化并連接至'J經(jīng)修飾的接頭(CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGT/CTGAGACAGGGAGGGAACAGATGG禾口BI0-TEG-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGT/P-CTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGATAGG)以有助于乳劑-PCR擴(kuò)增(emulsion-PCR)和隨后的片段測序,如Margulies及其同事所述。乳劑PCR引物、測序引物和測序反應(yīng)條件均如Margulies及其同事所述。圖3顯示了測序文庫的制備步驟。在荷蘭瓦格寧根(Wageningen)的關(guān)鍵基因股份有限公司的實(shí)驗(yàn)室中進(jìn)行高通量GS20測序。g,霧教游必^用生物信息學(xué)流水線(pipeline)(關(guān)鍵基因股份有限公司)處理從一半GS20測序(即可從GS20PicoTiterPlate上獲得的兩個(gè)通路中的一個(gè))中獲得的序列數(shù)據(jù)。具體說,將原始的基礎(chǔ)(basecalled)測序讀出轉(zhuǎn)換為FASTA形式,然后用BLAST算法檢查加標(biāo)簽的AFLP接頭序列的存在。經(jīng)與己知的加標(biāo)簽AFLP引物序列進(jìn)行高置信度匹配之后,調(diào)整序列,恢復(fù)限制性核酸內(nèi)切酶位點(diǎn)并分配給合適的標(biāo)簽。然后,用megaBLAST程序基于總體序列同源性,將大于33個(gè)堿基的所有經(jīng)調(diào)整的序列集簇。接下來,用CAP3多重比對算法將這些簇裝配成一個(gè)或多個(gè)毗連群/簇。"汰^/6賣^6^^激^游實(shí)嚴(yán)激.-嚴(yán),用粗體表示樣品2ID標(biāo)簽(AGTC)。樣品lID標(biāo)簽(ACAC)加下劃線。見圖4。表l示出了測序反應(yīng)的整體統(tǒng)計(jì)學(xué)分析表l:cDNA-AFLP的整體統(tǒng)計(jì)學(xué)分析<table>tableseeoriginaldocumentpage29</column></row><table><table>tableseeoriginaldocumentpage30</column></row><table>解釋步驟l)"樣品測序深度標(biāo)準(zhǔn)化系數(shù)"是2.45,定義為從樣品2獲得的總讀出除以從樣品l獲得的總讀出(123822/50599=2.45)。將每個(gè)毗連群中樣品2衍生的讀出數(shù)目除以2.45,以將其轉(zhuǎn)錄水平同樣品l比較。步驟2)通過確定作為內(nèi)參的"持家"基因的"表達(dá)"來進(jìn)行第二步的"持家基因標(biāo)準(zhǔn)化"。為此,選擇了番茄精氨酸脫羧酶基因。將番茄精氨酸脫羧酶序列相對用CAP3多重比對方法獲得的毗連群序列進(jìn)行BLAST,以確定樣品l和樣品2中胡椒精氨酸脫羧酶基因轉(zhuǎn)錄本的出現(xiàn)頻率。然后,在首先應(yīng)用"樣品測序深度標(biāo)準(zhǔn)化系數(shù)"(步驟l)之后,計(jì)算樣品1和2中觀察到的這些轉(zhuǎn)錄本的比率。該實(shí)施例中,樣品1/樣品2的比率(二持家基因標(biāo)準(zhǔn)化系數(shù))是17/14=1.2。(表l)。錄家基厲r潘i潸富麼厲遂朦,樹^膽遂遂療說w:r潛襲游,嚴(yán)賴。參考Altschul,StephenF.,ThomasL.Madden,AlejandroA.Schaffer,JinghuiZhang,ZhengZhang,WebbMiller,和DavidJ.Upman(1997),"間隙BLAST和PSI-BLAST:新一代蛋白質(zhì)數(shù)據(jù)庫搜索程序"(〃Ga卯edBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms"),NucleicAcidsRes.25:3389-3402.詢問(Query):gi1295349|gb|L16582.1|T0MARGDECA番茄精氨酸脫羧酶mRNA,全長cds(2060個(gè)字母)數(shù)據(jù)庫taggedReads-fna174,421個(gè)序列;15,408,192個(gè)總字母。結(jié)果見圖5。表2.基于番茄精氨酸脫羧酶基因的胡椒同源物豐度計(jì)算持家基因標(biāo)準(zhǔn)化系數(shù)1.2(樣品1/樣品2)<table>tableseeoriginaldocumentpage31</column></row><table>步驟3)對于實(shí)際的表達(dá)譜描述,僅考慮含有大于10個(gè)讀出的毗連群。選擇每個(gè)毗連群最低水平為10個(gè)讀出,以避免由于測序深度不夠而導(dǎo)致轉(zhuǎn)錄特征描述不準(zhǔn)確。表2顯示在上述三步法過程之后(獲得的)PSP11(樣品l)與PI201234(樣品2)相比中差異表達(dá)的兩個(gè)轉(zhuǎn)錄本的相對mRNA表達(dá)水平。具體說,簇2215代表樣品l中的轉(zhuǎn)錄上調(diào),簇847代表樣品1中的轉(zhuǎn)錄下調(diào);表3顯示了這些轉(zhuǎn)錄本相對轉(zhuǎn)錄水平的計(jì)算。最后,表4綜述了基于上述方案在整個(gè)數(shù)據(jù)組中差異轉(zhuǎn)錄的基因的數(shù)目。實(shí)施例樣品l上調(diào)-原始數(shù)據(jù).簇2215。粗體表示樣品2ID標(biāo)簽(AGTC)。圖6中,樣品lID標(biāo)簽(ACAC)加下劃線。實(shí)施例樣品l下調(diào)-原始數(shù)據(jù).集簇847。粗體表示樣品2ID標(biāo)簽(AGTC)。圖7中,樣品lID標(biāo)簽(ACAC)加下劃線。柳歲表游綠本柳存就,<table>tableseeoriginaldocumentpage32</column></row><table>表4A尸67^7,/或尸/iWi^粼,'淳^/游、莽玄f^^7。f或^"多^/y游敏_^#*游存錄本游/^#存錄/大乎^^^<table>tableseeoriginaldocumentpage32</column></row><table>權(quán)利要求1.一種確定cDNA核苷酸序列的方法,所述方法包括步驟(a)提供cDNA;(b)對所述cDNA的至少一部分運(yùn)用復(fù)雜性降低法,以獲得包含cDNA片段的第一cDNA文庫;(c)用高通量測序確定所述第一文庫中cDNA片段的至少部分核苷酸序列;(d)比對步驟d)中所述第一文庫的cDNA片段的核苷酸序列,以產(chǎn)生所述第一文庫的毗連群;和(e)確定所述cDNA的核苷酸序列。2.—種確定核苷酸序列出現(xiàn)頻率的方法,所述方法包括步驟(a)提供cDNA;(b)對所述cDNA的至少一部分運(yùn)用復(fù)雜性降低法,以獲得包含cDNA片段的第一cDNA文庫;(c)測序確定所述第一文庫中cDNA片段的至少部分核苷酸序列;和(d)確定核苷酸序列的出現(xiàn)頻率。3.—種用于確定cDNA樣品中核苷酸序列的相對轉(zhuǎn)錄水平的方法,所述方法包括步驟(a)通過在第一cDNA樣品上進(jìn)行如權(quán)利要求2所述的方法,確定所述第一cDNA樣品中核苷酸序列的出現(xiàn)頻率;(b)通過在第二和/或其它c(diǎn)DNA樣品上進(jìn)行如權(quán)利要求2所述的方法,確定所述第二和/或其它c(diǎn)DNA樣品中相同核苷酸序列的出現(xiàn)頻率;和(c)將所述核苷酸序列在所述第一cDNA樣品中的出現(xiàn)頻率和相同核苷酸序列在所述第二和/或其它c(diǎn)DNA樣品中的出現(xiàn)頻率進(jìn)行比較,以獲得該核苷酸序列的相對轉(zhuǎn)錄水平。4.一種用于確定cDNA樣品中核苷酸序列的相對轉(zhuǎn)錄水平的方法,所述方法包括步驟(a)提供第一cDNA樣品;(b)在所述第一cDNA樣品上運(yùn)用復(fù)雜性降低法,以獲得第一文庫;(c)給所述第一文庫加標(biāo)簽,以獲得加標(biāo)簽的第一文庫;(d)用第二和/或其它c(diǎn)DNA樣品順序或同時(shí)進(jìn)行步驟(a)和(b),優(yōu)選對各cDNA樣品使用不同的標(biāo)簽,以獲得加標(biāo)簽的第二和/或其它文庫;(e)將所述加標(biāo)簽的第一文庫和加標(biāo)簽的第二和/或其它文庫混合,以獲得混合文庫;(f)通過測序確定所述混合文庫的至少部分核苷酸序列;(g)確定所述第一cDNA樣品和第二和/或其它c(diǎn)DNA樣品中核苷酸序列的出現(xiàn)頻率;和(h)將所述核苷酸序列在所述第一cDNA樣品中的出現(xiàn)頻率和所述核苷酸序列在所述第二和/或其它c(diǎn)DNA樣品中的出現(xiàn)頻率進(jìn)行比較,以獲得所述cDNA樣品中該核苷酸序列的相對轉(zhuǎn)錄水平。5.如前述權(quán)利要求中的任一項(xiàng)所述的方法,其特征在于,通過選自下組的方法來進(jìn)行所述復(fù)雜性降低法擴(kuò)增片段長度多態(tài)性技術(shù)、索引連接、基因組分部、基因表達(dá)的系列分析及其改動(dòng)形式、大規(guī)模平行信號(hào)特征測序、實(shí)時(shí)多路連接依賴性探針擴(kuò)增、高覆蓋性表達(dá)譜、通用微陣列系統(tǒng)、轉(zhuǎn)錄組差減方法、片段展示、差異展示和有序差異展示。6.如權(quán)利要求2-5中任一項(xiàng)所述的方法,其特征在于,通過高通量測序進(jìn)行所述測序。7.如前述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,在固體支持物例如珠子上進(jìn)行所述高通量測序。8.如權(quán)利要求6或7中任一項(xiàng)所述的方法,其特征在于,所述高通量測序基于通過合成測序,優(yōu)選焦磷酸測序。9.如權(quán)利要求6-7中任一項(xiàng)所述的方法,其特征在于,所述高通量測序包括步驟(cl)將測序接頭連接到片段;(c2)使測序接頭連接的片段與珠子退火,各珠子與一個(gè)片段退火;(c3)在油包水微反應(yīng)器中乳化珠子,各油包水微反應(yīng)器含有一個(gè)珠子;(c4)進(jìn)行乳劑PCR,以在珠子表面上擴(kuò)增所述測序接頭連接的片段;(c5)選擇/富集含有擴(kuò)增的測序接頭連接的片段的珠子;(c6)將珠子加載到孔中,各孔含有一個(gè)珠子;和(c7)產(chǎn)生焦磷酸鹽信號(hào)。10.如前述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,所述復(fù)雜性降低法通過包括以下步驟的方法進(jìn)行(a)用至少一種限制性核酸內(nèi)切酶消化cDNA使其斷裂成限制性片段;(b)將所述限制性片段與至少一個(gè)雙鏈合成寡核苷酸接頭連接,以產(chǎn)生接頭連接的限制性片段,所述接頭一端與限制性片段的一端或兩端相容;(c)在雜交條件下,將所述接頭連接的限制性片段與一個(gè)或多個(gè)寡核苷酸引物接觸,所述一個(gè)或多個(gè)寡核苷酸引物的引物序列包括與至少一個(gè)接頭的一部分互補(bǔ)和與限制性核酸內(nèi)切酶識(shí)別序列的其余部分的一部分互補(bǔ)的核苷酸序列節(jié)段;和(d)通過延伸所述雜交的一個(gè)或多個(gè)寡核苷酸引物來擴(kuò)增所述接頭連接的限制性片段。11.如權(quán)利要求10所述的方法,其特征在于,所述引物還含有在引物序列3'末端的所選序列,該所選序列含有1-10個(gè)選擇性核苷酸,所述核苷酸與和限制性核酸內(nèi)切酶識(shí)別序列的其余部分恰好毗連的節(jié)段互補(bǔ)。12.如權(quán)利要求10或U中任一項(xiàng)所述的方法,其特征在于,引物序列3'末端的所選序列包含l-8個(gè)選擇性核苷酸,優(yōu)選l-5個(gè),更優(yōu)選l-3個(gè)。13.如權(quán)利要求10-12中任一項(xiàng)所述的方法,其特征在于,所述接頭還包含識(shí)別子序列。14.如權(quán)利要求4所述的方法,其特征在于,所述標(biāo)簽是識(shí)別子序列。全文摘要描述了確定cDNA中核苷酸序列以及確定cDNA樣品中核苷酸序列頻率的方法,還描述了不需基因的序列信息即可(無偏)確定這些基因的相對轉(zhuǎn)錄水平的方法,所述方法采用復(fù)雜性降低和(高通量)測序。文檔編號(hào)C12Q1/68GK101365803SQ200680048630公開日2009年2月11日申請日期2006年12月21日優(yōu)先權(quán)日2005年12月22日發(fā)明者M(jìn)·J·T·范艾杰克申請人:關(guān)鍵基因股份有限公司