專利名稱:用于癌癥診斷的寡核苷酸的制作方法
技術領域:
本發(fā)明涉及用于評價細胞內(nèi)基因轉錄物水平的寡核苷酸探針,其可用于分析技術,特別是診斷技術。探針以試劑盒形式被方便地提供。不同的探針組可用于制作基因表達模式和鑒定、診斷或檢測不同癌癥或其分期的技術中。
確立用于例如診斷應用的快速和簡便的樣本分析方法仍是許多研究者的目標。終端使用者尋求經(jīng)濟有效、產(chǎn)生有統(tǒng)計意義的結果且不需要高技術人員就可以常規(guī)實施的方法。
細胞內(nèi)基因表達的分析已用于提供關于所述細胞的狀態(tài),以及重要地,關于所述細胞來源的個體狀態(tài)的信息。已經(jīng)確認,細胞內(nèi)各種基因的相對表達反映著機體內(nèi)的特定狀態(tài)。例如,已知癌細胞可表現(xiàn)有各種蛋白質(zhì)的表達改變,轉錄物或表達蛋白可因此用作所述疾病狀態(tài)的標記物。
因此,可對活檢組織分析這些標記物的存在,可通過所述標記物的存在鑒定機體其他組織或體液中源于疾病部位的細胞。此外,表達改變的產(chǎn)物可釋放至血流,可對這些產(chǎn)物進行分析。另外,已接觸疾病細胞的細胞可因其與這些細胞直接接觸導致基因表達改變而受累,同樣可對其表達或表達產(chǎn)物進行分析。
然而,這些方法有幾種限制。例如,鑒定癌癥的特定腫瘤標記物的使用具有許多缺陷,比如缺少特異性或靈敏性,標記物除與癌癥的特定類型相關還與疾病狀態(tài)相關,以及對無癥狀個體的檢測困難。
除了對一種或兩種標記轉錄物或蛋白質(zhì)的分析,最近,已對基因表達模式(expression pattern)進行分析。疾病診斷中涉及大規(guī)?;虮磉_分析的大多數(shù)工作,需要來自疾病組織或細胞的臨床樣本。例如,證明基因表達數(shù)據(jù)可用來區(qū)別相似癌癥類型的幾個最新出版物,使用了來自疾病組織或細胞的臨床樣本(Alon等,1999,PNAS,96,p6745-6750;Golub等,1999,Science,286,p531-537;Alizadeh等,2000,Nature,403,p503-511;Bittner等,2000,Nature,406,p536-540)。
然而,這些方法依賴于對含有疾病細胞或這些疾病細胞的產(chǎn)物或被疾病細胞接觸過的細胞的樣本進行分析。這些樣本的分析依賴于疾病的存在以及其位置的知識,而這在無癥狀的患者中可能是困難的。此外,樣本往往并不總能從疾病部位得到,例如在腦疾病中。
在重大意義的發(fā)現(xiàn)中,本發(fā)明的發(fā)明人確認了機體所有細胞先前未使用的潛能,以提供與細胞來源的生物體狀態(tài)相關的信息。WO98/49342描述了遠離疾病部位的細胞基因表達的分析,例如分析遠離癌癥部位收集的外周血液。通過引用并入本文的PCT/GB03/005102,描述了用于診斷乳腺癌和阿耳茨海默氏病的特異性探針,并且描述了鑒定用于該目的及診斷其他疾病的其他合適探針的方案。
該發(fā)現(xiàn)基于這樣一個前提即生物體的不同部分相互之間存在動態(tài)地相互作用。當疾病影響到機體的一個部分時,機體的其他部分也會受到影響。這種相互作用源自疾病部位釋放并影響機體其他部位的多種生物化學信號。盡管釋放信號所誘導的生物化學和生理學變化的性質(zhì)在不同的機體部位可不同,但是這些變化可以在基因表達水平被檢測并用于診斷用途。
生物體內(nèi)細胞的生理狀態(tài)取決于基因在細胞內(nèi)的表達模式。該表達模式依賴于所述細胞所受的內(nèi)部和外部生物學刺激,這些刺激的程度或性質(zhì)的任何變化都會引起細胞內(nèi)的不同基因表達模式的變化。人們越來越認識到,通過分析生物樣本中細胞的基因表達模式的系統(tǒng)變化,有可能提供有關作用于細胞的生物刺激的類型和性質(zhì)的信息。因此,例如,通過檢測樣本中細胞大量基因的表達,就有可能確定其基因是否是以一種特定的疾病、病癥或其分期的特有模式而表達。因此,檢測細胞例如來自組織或體液的細胞的基因的行為變化,作為疾病診斷的有力工具已經(jīng)開始嶄露頭角。
這些方法有許多優(yōu)點。通常,從疾病機體的某些部位獲得臨床樣本是困難的,而且可能涉及不希望機體侵入,例如經(jīng)常使用活檢來獲得癌癥樣本。在一些情況下,例如阿耳茨海默氏病,疾病腦樣本只能在死后獲得。另外,所獲得的組織樣本通常是非同質(zhì)的,可含有疾病的和非疾病細胞的混合物,使得所產(chǎn)生的基因表達數(shù)據(jù)的分析變得復雜和困難。
已有資料表明,在腫瘤形態(tài)學表現(xiàn)上似乎具有病理遺傳同質(zhì)性的一組腫瘤組織,在分子水平上可能是高度異質(zhì)的(Alizadeh,2000,同上),而且事實上可包含代表基本不同疾病的腫瘤(Alizadeh,2000,同上;Golub,1999,同上)。為了鑒定疾病、病癥或其分期,不需要直接源自疾病組織或細胞的臨床樣本的任何方法都是非常理想的,這是因為表現(xiàn)細胞類型均勻混合的臨床樣本可以從容易達到的機體部位獲得。
我們已鑒定了一個序列家族,其可以衍生出一組探針,所述探針對于鑒定癌癥特別是乳腺癌具有驚人的效用。因此,現(xiàn)在我們描述多個基因家族,所述基因家族的表達在癌癥患者血液樣本的細胞中發(fā)生了改變,所述基因家族可用于產(chǎn)生鑒定、診斷或檢測癌癥或其分期的探針。
在本發(fā)明的工作中,發(fā)明人檢測了癌癥患者相對于正?;颊叩拇罅炕虻谋磉_水平。結果發(fā)現(xiàn),不僅大量基因顯示出表達改變,而且那些表達改變的基因根據(jù)其功能屬于不同的基因家族。這樣,這些基因提供了一個基因群,從所述基因群可產(chǎn)生對應的探針,所述探針可共同地用于產(chǎn)生個體中這些基因的表達指紋。因為這些基因的表達在癌癥患者中會有所改變,并可因此認為其可提供該狀態(tài)的信息,自探針集合產(chǎn)生的指紋相對于正常狀態(tài)可指征疾病。
已確認在癌癥患者中差異表達的基因家族總結如下(i)涉及蛋白質(zhì)合成和/或穩(wěn)定性的蛋白質(zhì)編碼基因;(ii)涉及防御調(diào)節(jié)和/或染色質(zhì)重塑的蛋白質(zhì)編碼基因。
基因家族(i)包括(a)核糖體蛋白和核糖體活化蛋白(即包含核糖體蛋白的成分或編碼涉及其功能修飾的蛋白質(zhì),其被發(fā)現(xiàn)在癌癥患者中下調(diào))的基因,其編碼的蛋白質(zhì)包括核糖體蛋白L1-L56、L7A、L10A、L13A、L18A、L23A、L27A、L35A、L36A、L37A、P0、P1、P2、S2-S29、S31、S33-S36、S3A、S15A、S18A、S18B、S18C、S27A、63、115(和假基因),核糖體蛋白激酶(例如S6激酶)、核糖核酸酶、推定的S1 RNA結合區(qū)蛋白質(zhì)、真核翻譯起始因子和鳥嘌呤核苷酸結合蛋白G;(b)編碼翻譯抑制和起始因子(即涉及mRNA翻譯成蛋白質(zhì)產(chǎn)物的蛋白質(zhì),發(fā)現(xiàn)其在癌癥患者中下調(diào))的基因,其編碼的蛋白質(zhì)包括真核的翻譯延伸因子、tRNA合成酶、RNA結合蛋白、聚腺苷酸化元件結合蛋白、酪氨酸磷酸酶、真核的翻譯起始因子,及RNA聚合酶I,III轉錄因子;(c)編碼轉錄或翻譯的其他調(diào)節(jié)因子的基因,例如細胞周期蛋白D-型結合蛋白和鳥嘌呤核苷酸結合蛋白。
基因家族(ii)包括
(a)編碼免疫應答相關蛋白(即響應于免疫刺激而上調(diào)的蛋白質(zhì),其包括響應于炎癥或在產(chǎn)生炎癥應答的反應中上調(diào)的蛋白質(zhì),其被發(fā)現(xiàn)在癌癥患者中上調(diào))的基因,其編碼的蛋白質(zhì)包括T-細胞受體和相關組分,例如蛋白激酶,各種細胞因子,包括白細胞介素及其受體(例如IL-1、IL-2、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-11、IL-12、IL-13、IL-15 IL-17、IL-18 IL-20、IL-22、IL-24),腫瘤壞死因子及其受體及其超家族(例如TNF超家族成員TNF2、TNF3、TNF4、TNF5、TNF6、TNF7、TNF8、TNF9、TNF11、TNF12、TNF13、TNF14、TNF15),干擾素調(diào)節(jié)因子,制瘤素M,白血病抑制因子,趨化因子配體及受體家族(例如編號1-28),補體組分,干擾素刺激因子例如轉錄因子,MHC(例如HLA)I類或II類(或相關組分)(例如DQ、DR、DO、DP、DMα或DMβ),黏著蛋白(例如CD1A、CD1C、CD1D、CD3Z、CD6、CD8、CD11、CD14、CD18、CD24、CD27、CD28、CD29、CD40、CD44、CD50、CD54、CD59、CD74、CD79B、CD80、CD81、CD83、CD86、CD96、ICAM),B-細胞中κ多肽基因增強子的核因子,髓鞘堿性蛋白,組織蛋白酶,toll-樣受體,蛋白體亞基,鐵蛋白,蛋白激酶或磷酸酶及其活化劑和抑制劑,白細胞免疫球蛋白樣受體,免疫球蛋白組分,例如重鏈或Fc片斷(例如IgG、IgB或IgA或其超家族的重鏈或Fc片斷),防衛(wèi)素,催產(chǎn)素,S100鈣結合蛋白,凝集素及其受體和超家族,瘦蛋白,磷脂酶,以及生長因子(例如內(nèi)皮細胞生長因子或紅細胞生成素);(b)編碼TNF-誘導蛋白(即在個體內(nèi)在暴露于TNF時相應地被誘導的蛋白質(zhì),其被發(fā)現(xiàn)在癌癥患者上調(diào))的基因,其編碼的蛋白質(zhì)包括TNFα-誘導蛋白8,整聯(lián)蛋白,B-細胞中κ輕鏈多肽基因增強子抑制物,TNF-相關因子2、TNF-相關因子5,B-細胞中κ輕鏈多肽基因增強子的核因子,MAP激酶,蛋白激酶C,遍在型激酶(ubiquitous kinase),鈣黏著蛋白,胱天蛋白酶(caspases),細胞周期蛋白D1,超氧化物歧化酶和白細胞介素;(c)編碼低氧誘導蛋白(即當個體或其部分在低氧狀態(tài)下時被誘導的蛋白質(zhì),發(fā)現(xiàn)其在癌癥患者上調(diào))的基因。其編碼的蛋白質(zhì)包括sestrin,E1A結合蛋白p300,內(nèi)皮縮血管肽,毛細血管擴張性共濟失調(diào)和Rad3相關蛋白,己糖激酶2,TEK酪氨酸激酶,DNA斷裂因子,胱天蛋白酶,纖溶酶原激活物,低氧誘導因子1(hypoxia inducible factor 1)及葡糖磷酸異構酶;
(d)氧化應激蛋白(即當個體或其部分在氧化應激狀態(tài)下而被誘導的蛋白質(zhì),發(fā)現(xiàn)其在癌癥患者上調(diào))的編碼基因,其編碼的蛋白質(zhì)包括超氧化物歧化酶,谷胱甘肽合成酶,過氧化氫酶,乳過氧化物酶,甲狀腺過氧化物酶,髓過氧化物酶,嗜酸性粒細胞過氧化物酶,氧抗性1(oxidation resistance1),過氧化物氧還蛋白,細胞色素P450,清道夫受體,對氧磷酶,谷胱甘肽還原酶,NAD(P)H脫氫酶,谷胱甘肽S-轉移酶,聯(lián)蛋白,谷氧還蛋白,熱休克蛋白(例如熱休克轉錄因子),有絲分裂原活化蛋白激酶,烯醇化酶,硫氧還蛋白還原酶及過氧化物氧還蛋白;(e)編碼染色質(zhì)重塑有關蛋白(即有助于維持或修飾染色質(zhì)結構,并為基因調(diào)節(jié)所必需的蛋白質(zhì))的基因。其編碼的蛋白質(zhì)包括組蛋白置換蛋白(histone replacement proteins),例如H3.3A或H3.3B家族。
屬于上述家族的合適基因序列可通過使用如家族名的關鍵字查詢而確認,如在挪威國家生物技術信息中心(National Centre for BiotechnologyInformation,Norway)的基因或蛋白質(zhì)數(shù)據(jù)庫中使用“免疫反應”。為證實所述基因序列對于開發(fā)用于本發(fā)明所述試驗的寡核苷酸的效用,可對試驗癌癥患者與正?;颊哌M行比較評估特定基因序列的表達。在對照水平之上或之下的表達差異提示所述序列對于探針衍生是有效用的。
通常,在癌癥患者中,相對于正?;颊撸鲜黾易?i)的編碼基因下調(diào),而家族(ii)中的編碼基因上調(diào)。
推測在癌癥患者中,涉及核糖體產(chǎn)生和翻譯控制的基因表達的系統(tǒng)性減少,提示血細胞通過減少蛋白質(zhì)合成的速率對所述患者中的新情況作出反應,這可能是對低氧和能量缺乏環(huán)境的細胞適應。這可受到下述觀察結果的支持即在癌癥樣本中,涉及防御活性氧類別(ROS)的基因,例如MnSOD和鐵蛋白上調(diào)。低的紅細胞生成素可解釋癌癥患者中的低氧水平。由于已知TNF上調(diào)如鐵蛋白、防衛(wèi)素、MnSOD及鈣粒蛋白B的表達,TNF活化也被認為是上述基因家族變化的一種途徑。TNF還可抑制EPO產(chǎn)生,EPO自身可造成血液環(huán)境中的低氧狀況。已知低氧誘導TNF水平。這些變化可被進入血流的血管生成因子(angiogenic factors)觸發(fā)。雖然不希望受理論限制,在表1中描述了解釋上述效應的假說。
因此,本發(fā)明提供對應于細胞中表達受影響的基因的寡核苷酸探針組,所述基因表達是以特定癌癥或其分期特有的模式被影響的,其中所述基因受所述癌癥或其分期系統(tǒng)地影響。優(yōu)選地,所述基因組成性地中度或高度表達,優(yōu)選地,所述基因在樣本細胞中,但不在疾病細胞或已接觸所述疾病細胞的細胞中中度或高度表達。
這些探針,特別當從與遠離疾病部位的細胞分離時,不依賴于疾病的發(fā)展達到臨床可識別的水平,使得人們在所述癌癥發(fā)病之后很早的時期內(nèi),甚至在其他主觀或客觀癥狀出現(xiàn)之前幾年,就可以檢測癌癥或其分期。
本發(fā)明使用的“系統(tǒng)地”受影響的基因,是指機體中未直接接觸疾病細胞或疾病部位而表達受影響的基因,而且所研究的細胞不是疾病細胞。
本發(fā)明所述的“接觸”是指細胞互相接近以致可觀察到一個細胞對其他細胞的直接作用,如免疫反應,其中這些反應不是通過第一細胞所釋放的遠距離影響第二細胞的次級分子來介導的。優(yōu)選地“接觸”是指物理接觸,或空間上可能的最接近的接觸,方便地,互相接觸的細胞出現(xiàn)在同一單位體積中,如1cm3內(nèi)。
“疾病細胞”是表現(xiàn)表型變化并在其生存期中的某段時間存在于疾病部位的細胞,如腫瘤部位的腫瘤細胞或從腫瘤播散的腫瘤細胞,或者,就腦癌而言為腦細胞。
“中度地或高度”表達的基因是指以超過30-100拷貝/細胞的拷貝數(shù)(假設細胞中具有平均3×105mRNA分子)存在于靜息細胞中的基因。
本發(fā)明提供具有上述性質(zhì)的特異性探針。
因此,在一個方面,本發(fā)明提供寡核苷酸探針組,所述寡核苷酸探針組包括選自下述的至少10種寡核苷酸對應于上文定義的家族(i)或家族(ii)的基因序列或從這些序列衍生的寡核苷酸,或具有互補序列的寡核苷酸,或功能上等同的寡核苷酸。
本發(fā)明還提供一種制備用于本發(fā)明所述方法的寡核苷酸組的方法,其包括下述步驟選擇對應于家族(i)的基因序列的一種或多種寡核苷酸及對應于家族(ii)基因序列的一種或多種寡核苷酸。優(yōu)選地從每個家族(如從不同的亞家族)選取多于1種寡核苷酸,并且所選的寡核苷酸來自本發(fā)明所述的優(yōu)選基因。
本發(fā)明還提供一種或多種寡核苷酸探針,其中各寡核苷酸探針選自列于表2、3或4(如自表2)的寡核苷酸,或從表2、3或4所述序列衍生的寡核苷酸,或其互補序列。所述衍生的寡核苷酸包括與上述表中提供的序列對應的基因,如表2、5或6(參見登錄號)所述基因衍生的寡核苷酸,或其互補序列。所述探針在本發(fā)明的產(chǎn)品和方法中的用途,形成本發(fā)明的其他方面。
本發(fā)明所述的“寡核苷酸”是一種核酸分子,其聚合結構中具有至少6個單體,即核苷酸或其修飾形式。核酸分子可為DNA、RNA或PNA(肽核酸),或其雜交形式,或其修飾形式,如通過甲基化或在合成過程中由修飾堿基或非天然堿基組成的化學修飾形式,如LNA(鎖定核酸),只要它們保留其結合互補序列的能力。根據(jù)本發(fā)明,所述寡核苷酸用于探測目標序列,因此在本發(fā)明還稱其為寡核苷酸探針或直接稱為探針。
對應于家族(i)或家族(ii)的基因序列的寡核苷酸是指對應于所述基因序列或其轉錄物的全部或部分的寡核苷酸。當使用基因序列的部分時,其滿足本發(fā)明所述寡核苷酸探針的要求,如長度和功能。優(yōu)選地所述部分具有下文所述的大小。該寡核苷酸在下文中稱為“基本寡核苷酸”?!把苌墓押塑账帷笔侵缸鳛榛竟押塑账岬牟糠?,但滿足本發(fā)明所述探針要求的寡核苷酸。
優(yōu)選地,形成所述寡核苷酸探針組的寡核苷酸探針為至少15個堿基長度以允許目標分子結合。尤其優(yōu)選地,所述寡核苷酸探針為20個至200個堿基長度,如30個至150個堿基,優(yōu)選50-100個堿基長度。
本發(fā)明所述術語“互補序列”是指具有連續(xù)互補堿基(即TA,GC)的序列,并且所述互補序列因此能通過它們的互補性互相結合。
“10種寡核苷酸”是指10種不同的寡核苷酸。雖然來自本發(fā)明所述的基因序列家族的寡核苷酸、衍生的寡核苷酸及其功能上的等同物被看作不同的寡核苷酸,但不將互補的寡核苷酸看作不同的寡核苷酸。但是優(yōu)選地,所述至少10種寡核苷酸對應于所述基因序列家族中的10種不同基因序列(或衍生的寡核苷酸或其功能上的等同物)。因此,所述10種不同寡核苷酸優(yōu)選地能結合10種不同的轉錄物。
優(yōu)選地,所述至少10種寡核苷酸由家族(i)和家族(ii)的寡核苷酸的組合組成,例如可以使用來自每個家族的5種寡核苷酸,或來自一個家族的4種和來自另一家族的6種。這樣就有利地讓與正?;颊呦啾仍诎┌Y患者中上調(diào)或下調(diào)的基因的使用成為可能。方便地,可以使用來自不同的亞家族的一種或多種寡核苷酸,如來自(i)a、(i)b、(i)c、(ii)a和(ii)b的各2種探針。尤其優(yōu)選地,所述寡核苷酸組包括來自家族(i)a、(ii)和(ii)e的寡核苷酸。
家族(i)a基因編碼的優(yōu)選蛋白質(zhì)是核糖體蛋白,并且,優(yōu)選地,各組包括來自所述蛋白質(zhì)的編碼基因的寡核苷酸。
家族(ii)a基因編碼的優(yōu)選的免疫反應蛋白包括黏著蛋白家族,白細胞介素及其受體和超家族,TNF及其受體和超家族,免疫球蛋白組分和紅細胞生成素。
特別優(yōu)選地,所述寡核苷酸組包括來自編碼一種或多種核糖體蛋白和任選地一種或多種組蛋白和任選地鐵蛋白的基因的寡核苷酸。
優(yōu)選地,所述寡核苷酸如表2或3所示,或衍生自表2或3所示,例如表2所示的序列。所述寡核苷酸組還可包括如表4所列的,或者自表4所示序列衍生的一種或多種寡核苷酸探針,或其互補序列。所述衍生的寡核苷酸包括衍生自所述表中提供的序列對應的基因,如表2、5或6(參見登錄號)所述基因衍生的寡核苷酸,或其互補序列。
所述“組”是指獨特的寡核苷酸探針(即具有異于其它的序列)的集合,并且優(yōu)選地由少于1000種寡核苷酸探針,尤其是少于500種探針,如優(yōu)選地10至500種,如10至100種,200或300種,尤其優(yōu)選地20至100種,如30至100種探針組成。在某些情況下,可使用少于10種探針,如2至9種探針,如5至9種探針。
應該知道,增加探針的數(shù)量,可以通過與能類似地改變所述特定基因表達的其他疾病比較,而防止做出不良分析例如誤診的可能性。本發(fā)明未描述的其他寡核苷酸探針也可存在,尤其是如果它們有助于所述組寡核苷酸探針的最終用途。但是,優(yōu)選地,所述組只由本發(fā)明所述的寡核苷酸或其亞組(如上述大小的組)組成。
每組中可存在每種獨特的寡核苷酸探針的多個拷貝,如10個或更多拷貝,但這些拷貝僅構成單獨一種探針。
寡核苷酸探針組優(yōu)選地可以固定化在固體載體上或者具有這樣固定化的工具,這樣的探針組包括選自上述的那些中的至少10種寡核苷酸探針。如上面指出的,這10種探針必須是獨特的,并具有不同的序列。但是,識別相同的基因但反映不同的剪接事件的兩種不同的探針是可以使用的。不過優(yōu)選的是互補于并結合于不同的基因的寡核苷酸探針。
本文中使用的“功能上等同的”或衍生的寡核苷酸是指這樣的寡核苷酸,它能夠與來自本文所述的基因序列家族中的序列的寡核苷酸識別相同的基因,即,它可以和所述基本寡核苷酸或所述衍生的寡核苷酸(或其互補序列)結合轉錄自基因(目標核酸分子)的相同的mRNA分子(或DNA)。
因此,在優(yōu)選的方面中,所述衍生的或功能上等同的寡核苷酸是表2、5或6中定義的基因序列的部分,或其互補序列。優(yōu)選地,所述功能上等同的寡核苷酸序列與基本寡核苷酸或衍生的寡核苷酸能夠識別即結合相同的剪接產(chǎn)物。優(yōu)選地,所述mRNA分子是對應于所述基本核苷酸或衍生寡核苷酸的全長mRNA分子。
本發(fā)明所述的“能結合”或“結合”是指在下文所述條件下雜交的能力。
或者可以這樣表述,功能上等同的寡核苷酸(或互補的序列)與目標分子的區(qū)域具有序列同一性或如下文所述地與目標分子的區(qū)域雜交,其中基本寡核苷酸或衍生的寡核苷酸或互補寡核苷酸與所述目標分子結合。優(yōu)選地,功能上等同的寡核苷酸(或它們的互補序列)在下文所述的條件下,與對應于基本寡核苷酸或衍生的寡核苷酸的mRNA序列之一雜交,或者與對應于基本寡核苷酸或衍生的寡核苷酸的mRNA序列之一的部分具有序列同一性。這里“部分”是指至少5個,例如至少10或20個堿基,如5到100個,例如10到50個或10到30個堿基的序列段。
在一個特別優(yōu)選的方面,功能上等同的寡核苷酸結合基本寡核苷酸或衍生的寡核苷酸所結合的目標核酸分子(mRNA或cDNA)的所有或部分區(qū)域?!澳繕恕焙怂岱肿邮腔蜣D錄物或相關產(chǎn)物如mRNA,或cDNA,或其擴增產(chǎn)物。所述基本寡核苷酸或衍生的寡核苷酸結合的所述目標分子的所述“區(qū)域”為存在互補性的序列段。該區(qū)域最大是基本寡核苷酸或衍生的寡核苷酸的全長,但如果整個基本序列或衍生的寡核苷酸不是整個地與目標序列的區(qū)域互補,那么該區(qū)域可能會短些。
優(yōu)選地,所述目標分子的所述區(qū)域的所述部分是至少5個堿基,如至少10或20個堿基,例如5至100個堿基,如10至50個或15至30個堿基的范圍。這可例如通過有幾個堿基與基本寡核苷酸或衍生的寡核苷酸的堿基相同的所述功能上一致的寡核苷酸實現(xiàn)。這些堿基可以在連續(xù)的序列段上,例如功能上等同的寡核苷酸的部分中一致,也可非連續(xù)地存在,但提供充足的互補性以允許結合目標序列。
因此,在一個優(yōu)選的方面,所述功能上等同的寡核苷酸在高嚴緊條件下與基本寡核苷酸或衍生的寡核苷酸或其互補序列雜交?;蛘呖梢赃@樣表述,所述功能上等同的寡核苷酸表現(xiàn)與基本寡核苷酸的全部或部分具有高的序列同一性。優(yōu)選地,所述功能上等同的寡核苷酸與基本寡核苷酸的全部或其部分具有至少70%序列同一性,優(yōu)選地至少80%,如至少90%、95%、98%或99%。這里所使用的“部分”是指在所述基本寡核苷酸中的至少5個,如至少10或20個堿基,例如5至100個,如10至50個或15至30個堿基的序列段。尤其優(yōu)選地,當僅與所述基本寡核苷酸的一部分存在序列同一性時,序列同一性是高的,如上述的至少80%。
滿足上述功能要求的功能上等同的寡核苷酸,包括衍生自基本寡核苷酸的寡核苷酸,還包括這樣的寡核苷酸它們通過單個或多個核苷酸堿基的置換、添加和/或缺失而被修飾,但仍保留功能活性,例如它們與基本寡核苷酸或衍生寡核苷酸結合相同的目標分子,其中它們是從所述基本寡核苷酸或衍生寡核苷酸進一步衍生或修飾而成的。優(yōu)選地,所述修飾是1到50,例如10到30,優(yōu)選1到5個堿基的修飾。特別優(yōu)選地,只存在次要的修飾,例如少于10個堿基中的改變,例如少于5個堿基的改變。
“添加”等同物的意義中包括這樣的寡核苷酸,其包含與目標分子上連續(xù)的堿基序列段互補的附加序列,而所述基本寡核苷酸或衍生的寡核苷酸與所述連續(xù)的堿基序列段結合。或者,所述添加可包含不同的、非相關的序列,其例如可賦予另外的性質(zhì),例如提供固定化的工具,如接頭(linker),來將寡核苷酸探針固定到固相載體上。
特別優(yōu)選天然存在的等同物,例如生物變體,例如等位、地理或異型變體,例如對應于基因變體,例如存在于別的物種中的。
功能等同物包括帶有修飾過的堿基,如使用非天然存在的堿基的寡核苷酸。所述衍生物可在合成過程中或通過生產(chǎn)后修飾進行制備。
在低嚴緊的條件下結合的“雜交”序列是那些在非嚴緊條件下(例如,室溫、6×SSC/50%甲酰胺)結合,并且當在低嚴格條件下(2×SSC、室溫,更優(yōu)選2×SSC、42℃)被洗滌時仍保持結合的序列。在高嚴緊條件下雜交是指上述條件中在2×SSC、65℃(其中SSC=0.15M NaCl,0.015M檸檬酸鈉,pH7.2)進行洗滌。
本發(fā)明所述的“序列同一性”是指當使用ClustalW(Thompson等,1994,Nucl.Acids Res.,22,p4673-4680)評估時獲得的值,使用下述參數(shù)配對比對(pairwise alignment)參數(shù)-方法(Method)準確(accurate),矩陣(Matrix)IUB,空位罰分(Gap open penalty)15.00,空位延伸罰分(Gapextension penalty)6.66;多重比對(multiple alignment)參數(shù)-矩陣IUB,空位罰分15.00,延遲同一性%(%identity for delay)30,負矩陣(Negative matrix)無,空位延伸罰分6.66,cDNA轉換加權(DNA transitions weighting)0.5。
特定堿基的序列同一性意在包括僅被衍生的相同堿基。
本發(fā)明還延伸至由表2、3或4的寡核苷酸或表2、3或4衍生的寡核苷酸(如具有表2、5或6定義的序列或其互補序列)結合的mRNA序列編碼的多肽。本發(fā)明進一步延伸至結合任何所述多肽的抗體。
如上所述,方便地,所述寡核苷酸探針組可被固定在一種或多種固體載體上。各特異性探針的單一或優(yōu)選地多個拷貝結合至所述固體載體,如10個或更多,如存在至少100個拷貝的各特異性探針。
一種或多種獨特的寡核苷酸探針可聯(lián)結不同的固體載體,其一起形成固定于多個固體載體上的探針組,如一種或多種特異性探針可被固定于多個小珠、膜、過濾器材(filter)、生物芯片(biochip)等之上,一起形成探針組,這些探針組一起形成下文所述的試劑盒組件。雖然與各探針(如下文所述產(chǎn)生的)關聯(lián)的信號必須是可分別確定的,不同組件的固體載體方便地物理結合?;蛘撸结樋杀还潭ㄓ谙嗤腆w載體上的不連續(xù)的部分,如各種獨特的寡核苷酸探針,例如以多個拷貝的形式,可被固定于單個過濾器材或膜的不同及不連續(xù)部分或區(qū)域,如以產(chǎn)生陣列。
也可使用所述技術的組合,如可使用幾種固體載體,其中每種固定幾種獨特的探針。
術語“固體載體”是指能通過疏水、離子或共價橋(bridge)結合寡核苷酸的任何固體材料。
本發(fā)明使用的“固定”是指通過所述的結合作用所述探針與所述固體載體可逆或不可逆的聯(lián)結。如果是可逆的,所述探針與所述固體載體保持聯(lián)結足夠的時間以實施本發(fā)明方法。
根據(jù)本發(fā)明適于作為固定部分的許多固體載體為本領域公知,并且廣泛描述于文獻中,一般而言,固體載體可為當前廣泛用于或被建議用于化學或生物化學方法中的固定、分離等的任何公知載體或基質(zhì)。所述材料包括,但不限于,任何合成有機聚合物例如聚苯乙烯,聚氯乙烯,聚乙烯;或硝酸纖維素和乙酸纖維素;或甲苯磺?;罨谋砻?;或攜帶適于共價偶聯(lián)核酸的基團的玻璃或尼龍或任何表面。固定部分可采取顆粒、薄片、凝膠、過濾器材、膜、微纖維小條、試管或平板,纖維或毛細管的形式,可用例如聚合材料如瓊脂糖、纖維素、藻酸鹽或酯、聚四氟乙烯、膠乳或聚苯乙烯或磁性小珠制造??梢猿尸F(xiàn)陣列,優(yōu)選單維陣列的固體載體是優(yōu)選的,如薄片、過濾器材、膜、平板或生物芯片。
核酸分子對固體載體的附著(attachment)可直接或間接進行。例如,如果使用過濾器材,可通過UV誘導的交聯(lián)進行附著。或者,附著可通過寡核苷酸探針和/或固體載體上所帶的附著部分間接進行。因此,例如,可使用一對親和結合配偶體(affinity binding partners),例如抗生物素蛋白、鏈霉抗生物素蛋白或生物素、DNA或DNA結合蛋白質(zhì)(如lac I阻遏蛋白或其所結合的lac操縱子序列)、抗體(可為單克隆或多克隆抗體),抗體片段或抗體的表位或半抗原。在這些情況下,結合對中的一個配偶體附著于固體載體(或為其固有部分),而另一個配偶體附著于核酸分子(或為其固有部分)。
如本發(fā)明使用的“親和結合對”是指特異地(即優(yōu)先于結合其他分子)相互識別和結合的兩種組分。所述結合對當結合在一起時形成復合物。
合適的功能基團對固體載體的附著可通過本領域公知方法進行,包括例如通過羥基、羧基、醛基或氨基基團的附著,這些基團可通過處理固體載體以提供合適的表面包被來提供。呈現(xiàn)供結合配偶體附著的合適部分的固體載體,可通過本領域已知的常規(guī)方法制備。
合適的功能基團對本發(fā)明寡核苷酸探針的附著,可通過連接進行或在合成或擴增過程中引入,例如使用攜帶合適部分例如生物素或用于捕獲的特定序列的引物。
方便地,上文所述的探針組以試劑盒形式提供。
因此,從另一方面來看,本發(fā)明提供了一種試劑盒,其包括上文所述的寡核苷酸探針組,所述探針被固定于一種或多種固體載體上。
優(yōu)選地,所述探針被固定于單一固體載體,并且每種獨特的探針附著于所述固體載體的不同區(qū)域。但是,當附著于多種固體載體時,所述多種固體載體形成組成試劑盒的組件。尤其優(yōu)選地所述固體載體是薄片、過濾器材、膜、平板或生物芯片。
任選地試劑盒還可包含下述與正?;蚣膊颖井a(chǎn)生的信號相關的信息(如下文有關試劑盒使用的更詳細討論),標準化材料,如用于對照的來自正常和/或疾病樣本的mRNA或cDNA,供摻入cDNA的標記物,用于引入供擴增的核酸序列的連接物,用于擴增的引物和/或合適的酶,緩沖液和溶液。任選地,所述試劑盒還可包含描述如何實施本發(fā)明方法的說明書,任選地提供用于解析實施發(fā)明時獲得的結果的標準圖、數(shù)據(jù)或軟件。
所述試劑盒用于生成如下文所述的標準診斷基因轉錄物模式的用途,構成本發(fā)明的另一方面。
本發(fā)明所述的探針組有多種用途。但它們主要用于評估檢測細胞的基因表達狀態(tài)以提供與所述細胞來源的生物體相關的信息。因此,探針可用于診斷、鑒定或監(jiān)測生物體中的癌癥或其分期。
因此,在另一方面,本發(fā)明提供上文所述的寡核苷酸探針組或試劑盒用于確定細胞的基因表達模式的用途,該模式反映了所述寡核苷酸探針結合的基因的基因表達水平,包括至少下述步驟a)從所述細胞分離mRNA,所述mRNA可任選地逆轉錄為cDNA;b)使步驟(a)的mRNA或cDNA與本發(fā)明定義的寡核苷酸探針組或試劑盒雜交;及c)評估與所述各探針雜交的mRNA或cDNA數(shù)量以產(chǎn)生所述模式。
該方法及下文方法中所述的mRNA和cDNA,包含所述分子的衍生物或拷貝,例如所述分子的拷貝,例如這樣的拷貝其通過互補鏈的擴增或制備所產(chǎn)生,但保留mRNA序列的同一性,即可基于所述分子中至少某個區(qū)域上的精確互補性或序列同一性與直接轉錄物(或其互補序列)雜交。應該知道,當使用了可能截短轉錄物或引入新序列的技術,例如通過引物擴增的技術時,互補性不會在整個區(qū)域上都存在。為方便起見,所述mRNA或cDNA優(yōu)選地在步驟b)之前被擴增。如同本發(fā)明所述寡核苷酸一樣,所述分子可被修飾,如通過在合成過程中,在保留互補性的條件下使用非天然堿基。所述分子還可攜帶其他部分如信號或固定工具。
涉及制作所述模式的方法的多個步驟在下文更詳細描述。
本發(fā)明使用的“基因表達”是指特定基因的轉錄以產(chǎn)生特定mRNA產(chǎn)物(即特定剪接產(chǎn)物)?;虮磉_的水平可通過評估被轉錄的mRNA分子,或自mRNA分子逆轉錄的cDNA分子,或那些分子衍生的產(chǎn)物的水平來確定,例如利用擴增手段。
該技術創(chuàng)造的“模式”是指,例如,可以用表格或圖解形式表示的信息,該信息傳達關于兩種或更多種寡核苷酸相關信號的信息。優(yōu)選地,所述模式表示為與各探針相關的表達水平有關的數(shù)組。
優(yōu)選地,所述模式使用以下線性模型建立y=Xb+f公式1其中,X是基因表達數(shù)據(jù)矩陣,并且y是反應變量(response variable),b是回歸系數(shù)向量,f是估計的殘差向量。雖然許多不同的方法可用于建立公式1提供的關系,尤其優(yōu)選地偏最小二乘法回歸(PLSR)方法用于建立公式1中的關系。
因此使用探針來產(chǎn)生反映其分離時細胞的基因表達的模式。表達的模式反映了細胞所處的環(huán)境的特征,并且依賴于細胞所受到的影響。因此,可制作來自患有特定癌癥的個體的細胞的特征性基因轉錄物模式標準或指紋(標準探針模式),并用它來與待測細胞的轉錄物模式比較。這對于生物體是否患有特定癌癥或其分期的診斷、監(jiān)測或鑒定具有明確的適用性。
標準模式是通過測定來自細胞的總mRNA(或cDNA或相關產(chǎn)品)與探針結合的程度來制作的,其中所述細胞來自患有癌癥或其分期的一種或多種生物體的樣本。這反映了對應于各種獨特探針的轉錄物存在的水平。評估結合不同探針的核酸物質(zhì)的量,該信息共同形成所述癌癥或其分期的基因轉錄物模式標準。每個這樣的標準模式都反映所述癌癥或其分期的特征。
因此,在另一方面中,本發(fā)明提供一種制作反映生物體中癌癥或其分期的特征的標準基因轉錄物模式的方法,其至少包括如下步驟a)從患有癌癥或其分期的一種或多種生物的樣本的細胞分離mRNA,所述mRNA可任選地被反轉錄為cDNA;b)使步驟(a)的mRNA或cDNA與本發(fā)明定義的寡核苷酸探針組或試劑盒組件雜交,所述寡核苷酸探針組或試劑盒組件對于與所研究的生物體或其樣本相對應的生物體或其樣本中的所述癌癥或其分期是特異性的。
及c)評估與所述各探針雜交的mRNA或cDNA的數(shù)量以產(chǎn)生特征性模式,所述特征性模式反映了癌癥或其分期樣本中所述寡核苷酸結合的基因的基因表達水平。
為方便起見,優(yōu)選將所述寡核苷酸固定于一種或多種固體載體上。
使用特定探針所得的多種癌癥及其不同分期的標準模式可積累于數(shù)據(jù)庫中,并可供實驗室索取。
本發(fā)明所述的“疾病”樣本和生物體,或“癌癥”樣本和生物體,是指具有異常細胞增殖,例如在實體中,如腫瘤中的異常細胞增殖的生物體(或相同來源的樣本)。稱所述生物體患有或表現(xiàn)有所研究的癌癥或分期。
其“分期”是指癌癥的不同分期,其可表現(xiàn)或不表現(xiàn)特定生理性或代謝性變化,但其表現(xiàn)基因水平上的變化,所述基因水平上的變化可作為基因表達的改變而被檢測出。應該知道,在癌癥過程中不同轉錄物的表達可變化。因此,在不同的分期中,與“正?!睒颖颈容^,特定的轉錄物可能不顯示表達的改變。但是,可以將癌癥病程中的一個或多個分期顯示表達改變的幾種轉錄物的信息組合起來,提供指征癌癥的特定分期的特征性模式。因此,可鑒定例如癌癥的不同分期,如I前期,I期,II期,II期或IV期。
本發(fā)明使用的“正常的”是指用作對照的生物體或樣本。優(yōu)選地,這些生物體或樣本是“正常的”,意思是其不表現(xiàn)可影響基因表達的任何疾病或病癥的指征,或者被認為不具有影響基因表達的任何疾病或病癥,特別是對于要用它們作為正常標準的癌癥而言。但是應該理解,可能會在癌癥的不同分期之間作比較,在這樣的情況下,“正常”樣本可對應于癌癥的較早期。
本發(fā)明使用的“樣本”是指從生物體,如所研究的人類或非人類動物獲得的任何材料,其含有細胞,并包括組織、體液或身體廢物,或在原核生物情況下為生物體本身?!绑w液”包括血液、唾液、脊髓液、精液、淋巴液?!吧眢w廢物”包括尿、咳出物(肺相關患者)、糞便等。“組織樣本”包括通過活檢、手術介入或其他途徑如胎盤獲得的組織。但是優(yōu)選地,被檢測的樣本來自不受癌癥明顯影響的身體區(qū)域。這樣的樣本中的細胞不是疾病細胞,即癌細胞,未與所述疾病細胞接觸,并且非起源于癌癥的部位?!凹膊〔课弧北徽J為是以可客觀確定的方式表現(xiàn)疾病如腫瘤的身體部分。因此,例如,外周血液可用于非造血系統(tǒng)癌癥的診斷,并且血液不需要其中存在來自癌癥的惡性細胞或播散細胞。同樣,在由于血腦屏障而在血液中未發(fā)現(xiàn)疾病細胞的腦疾病中,外周血液也可用于本發(fā)明的方法。
然而,應該知道,制作標準轉錄模式的方法和本發(fā)明的其他方法還可適用于真核生物體的有生命部分,例如細胞系和器官培養(yǎng)物及外植體。
如本發(fā)明所使用,“對應的”樣本等是指優(yōu)選地來自相同組織、體液或身體廢物的細胞,但也包括來自對制作標準模式或檢測模式而言足夠相似的組織、體液或身體廢物的細胞。當用于指與探針“對應的”基因時,是指探針在序列上相關(可為互補的)的基因,盡管所述探針可反映表達的不同剪接產(chǎn)物。
本發(fā)明使用的“評估”是指定量和定性評估,其可以在絕對或相對的意義上測定。
本發(fā)明可實施如下。
為了制作特定癌癥或其分期的標準轉錄模式,根據(jù)已知技術從患病個體或生物的組織、體液或身體廢物的細胞提取mRNA樣本(參見例如Sambrook等,(1989),Molecular CloningA laboratory manual,第二版,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.)。
由于操作RNA的困難,在此階段優(yōu)選將RNA逆轉錄為第一鏈cDNA。然而,在本發(fā)明的這個方法或其他方法中,cDNA的克隆或cDNA文庫的篩選或使用都不是必需的。優(yōu)選地,合成第一鏈cDNA的互補鏈,即第二鏈cDNA,但這將取決于哪條相關鏈存在于寡核苷酸探針中。然而,可選地,RNA可不需要逆轉錄而直接使用,并且如果需要可進行標記。
優(yōu)選地,通過已知擴增技術例如聚合酶鏈式反應(PCR)使用合適的引物擴增cDNA鏈??蛇x地,可使用載體對cDNA鏈進行克隆,用該載體轉化細菌如大腸桿菌(E.coli),然后可以培養(yǎng)所述大腸桿菌而擴增所述核酸分子。當cDNAs的序列未知時,引物可針對引入的核酸分子的區(qū)域。因此,例如,可以將銜接子(adapter)連接到cDNA分子和指向這些區(qū)域的引物以擴增cDNA分子??蛇x地,在真核樣本情況下,可利用多聚A尾和RNA帽制備合適的引物。
為產(chǎn)生特定癌癥或其分期的標準診斷基因轉錄物模式或指紋,使用上述的寡核苷酸探針探測疾病樣本的mRNA或cDNA,以產(chǎn)生與各特定寡核苷酸探針種類,即各個獨特探針雜交的信號。如果需要,還可使用正常樣本的mRNA或cDNA制作標準對照基因轉錄物模式。因此,使得mRNA或cDNA在合適的條件下與寡核苷酸探針接觸以允許雜交。
當探測多個樣本時,可以使用相同的探針,例如在一種或多種固體載體即探針試劑盒組件上的相同探針連續(xù)進行,或通過同時與對應的探針,例如對應的探針試劑盒的組件雜交進行。
為確定雜交發(fā)生和獲得結合寡核苷酸探針的轉錄物/cDNA分子數(shù)量的指征,有必要鑒定轉錄物(或相關的分子)雜交時產(chǎn)生的信號(如通過檢測雙鏈核酸分子,或者在去除未結合分子,例如通過洗滌去除未結合分子之后,檢測結合的分子)。
為了獲得雜交的信號,雜交的組分之一或兩者(即探針和轉錄物)均攜帶或形成信號工具或其部分。該“信號工具”是能夠通過信號的產(chǎn)生或存在直接或間接檢測的部分。信號可以是任何可檢測的物理特征,例如由下面的性質(zhì)所賦予的特征輻射發(fā)射性質(zhì)、散射或吸收性質(zhì)、磁性質(zhì),或其他物理性質(zhì)如電荷、存在的分子(如標記物)的大小或結合特性,或可產(chǎn)生的分子(如氣體排放等)。
優(yōu)選允許信號擴增的技術,例如從單個活性結合位置產(chǎn)生多信號事件,例如通過酶催化反應產(chǎn)生多個可檢測的產(chǎn)物的技術。
方便地,信號工具可為自身提供可檢測信號的標記物。方便地,這可通過使用放射性標記物或其他標記物而實現(xiàn),其中所述放射性標記物或其他標記物可在cDNA產(chǎn)生過程中、互補cDNA鏈制備過程中、目標mRNA/cDNA擴增過程中摻入目標核酸分子,或者被直接添加至目標核酸分子。
合適的標記物是那些直接地或間接允許檢測或測定轉錄物/cDNA存在的標記物。所述標記物包括例如放射性標記物、化學標記物,例如發(fā)色團或熒光基團(例如熒光素和羅丹明染料),或高電子密度的試劑例如鐵蛋白、血藍蛋白或膠體金?;蛘?,標記物可為酶,例如過氧化物酶或堿性磷酸酶,其中酶的存在通過其與合適的實體如底物相互作用而顯現(xiàn)。所述標記物還可構成信號對(signally pair)的部分,其中所述信號對的另一成員可存在于轉錄物/cDNA結合的寡核苷酸探針上或與其接近,例如,可使用熒光化合物和淬滅熒光底物。標記物還可以在不同實體上,例如抗體上提供,所述實體物質(zhì)識別附著于轉錄物/cDNA的肽部分,例如附著到合成或擴增過程中使用的堿基的肽部分。
可在雜交步驟之前、之中或之后引入標記物而獲得信號。可選地,雜交轉錄物的存在可通過其他物理性質(zhì)如其吸光度而鑒定,并且在此情況下,信號工具是復合物本身。
然后評估與各寡核苷酸探針相關聯(lián)的信號數(shù)量。所述評估可為定量或定性的,并可基于單一轉錄物種類(或相關的cDNA或其他產(chǎn)物)與每種探針的結合,或多個轉錄物種類與每種獨特探針的多個拷貝的結合來進行??梢岳斫猓摱拷Y果經(jīng)過編輯將提供癌癥轉錄物指紋的進一步的信息。該數(shù)據(jù)可以絕對值(在宏陣列(macroarray)情況下)表示,或可相對于特定標準或參考物,如正常對照樣本而確定。
此外,應該理解,可使用一種或多種疾病樣本(以及正常樣本,如果使用的話)進行雜交步驟來制作標準診斷基因模式轉錄物,來獲得不偏向特定個體基因表達差異的模式。
使用所述探針制作標準模式,及使用由此制作的標準診斷基因轉錄模式鑒定或診斷或監(jiān)測特定生物體中的特定癌癥或其分期,構成了本發(fā)明的另一個方面。
一旦使用所選寡核苷酸探針確定了某個特定癌癥或其分期的標準診斷指紋或模式,即可使用該信息來鑒定其它檢測生物體或個體中所述癌癥的存在、不存在或其程度或分期。
為測定待測樣本的基因表達模式,從所研究的患者或生物體獲得與用于制作標準模式的樣本對應的含有細胞的組織、體液或身體廢物的待測樣本。然后如上文所述有關標準模式的制作來制作檢測基因轉錄模式。
因此,在另一方面,本發(fā)明提供了一種制作待測的基因轉錄模式的方法,其至少包括下述步驟a)從所述待測生物體的樣本的細胞分離mRNA,所述mRNA可任選地被逆轉錄為cDNA;b)使步驟(a)的mRNA或cDNA與上文所述的寡核苷酸探針組或試劑盒組件雜交,所述寡核苷酸探針組或試劑盒組件對于與被研究的生物體或其樣本相對應的生物體或其樣本中的所述癌癥或其分期是特異性的;及
c)評估與所述各種探針雜交的mRNA或cDNA數(shù)量以生成所述模式,所述模式反映了在所述待測樣本中所述寡核苷酸結合的基因的基因表達水平。
然后,可將該檢測模式與一種或多種標準模式比較,來評估樣本是否包含癌癥或其分期的細胞。
因此,從另一方面來看,本發(fā)明提供了一種診斷或鑒定或監(jiān)測生物體中的癌癥或其分期的方法,其包括下述步驟a)從所述生物體樣本分離mRNA,所述mRNA可任選地被逆轉錄為cDNA;b)使步驟(a)的mRNA或cDNA與上文所述的寡核苷酸探針組或試劑盒組件雜交,所述寡核苷酸探針組或試劑盒組件對于與被研究的生物體或其樣本相對應的生物體或其樣本中的所述癌癥或其分期是特異性的;;c)評估與所述各種探針雜交的mRNA或cDNA數(shù)量以生成特征性模式,所述模式反映了在所述樣本中所述寡核苷酸結合的基因的基因表達水平;以及d)將所述模式與標準診斷模式對照,確定所研究生物體中所述癌癥或其分期的存在,其中所述標準診斷模式是使用與所研究的生物體及樣本對應的生物體的樣本,根據(jù)本發(fā)明的方法制作的。
直到及包括步驟c)的方法為如上所述的檢測模式的制作。
如本發(fā)明所述,“診斷”是指確定生物體中癌癥或其分期的出現(xiàn)(presence)或存在(existence)。“監(jiān)測”是指確定(establish)癌癥的程度,特別當已知個體患有癌癥時,例如監(jiān)測治療的作用或癌癥的發(fā)展,如以確定治療的適合性或提供預后。
癌癥或其分期的存在可通過確定標準樣本和待測樣本的模式之間的相關程度而確定。這有必要考慮到所獲得的正常和疾病樣本的數(shù)值范圍。雖然這可能通過獲得與探針結合的幾種代表性樣本的標準偏差而形成標準來確定,但是可以理解,如果待測樣本表現(xiàn)與所述標準足夠相近的相關性,單獨的樣本可能足以產(chǎn)生鑒定癌癥的標準模式。方便地,通過將與待測樣本中信息性探針的表達水平相關的數(shù)據(jù)插入根據(jù)公式1建立的標準診斷探針模式,可預測檢測樣本中癌癥或其分期的存在、不存在或程度。
可以使用各種技術,從最基本的視覺表現(xiàn)(如關于強度)到更復雜的數(shù)據(jù)操作,來分析使用上述方法得到的數(shù)據(jù),以鑒定其背后的模式,該模式反映不同探針結合的各個基因表達水平的相互關系,并且可以數(shù)學地定量或表示。方便的,由此得到的原始數(shù)據(jù)可通過下文所述的數(shù)據(jù)處理和統(tǒng)計方法進行操作,特別是歸一化和標準化所述數(shù)據(jù)并對所述數(shù)據(jù)適用分類模型,以確定所述測試數(shù)據(jù)是否反映特定癌癥或其分期的模式。
本發(fā)明所述方法可用于鑒定,監(jiān)測或診斷寡核苷酸探針對其而言是信息性的癌癥或其分期或進展。如本發(fā)明所述的“信息性”探針是指這樣的探針,它們反映在所述癌癥或其特定分期中表達改變的基因。本發(fā)明的探針當單獨使用時對于診斷目的可能不足夠具有信息性,但當用作幾種探針的其中之一以提供特征性模式時,其可為信息性的,如在上文所述的探針組中使用。
優(yōu)選地,所述探針對應于受所述癌癥或其分期系統(tǒng)性影響的基因。特別優(yōu)選地,衍生結合本發(fā)明探針的轉錄物的所述基因,被中度或高度表達。使用針對中度或高度表達基因的探針的優(yōu)點是,要得到必要的基因表達數(shù)據(jù)集所需的樣本較小,如小于1ml的血樣。
此外,已發(fā)現(xiàn)已被活躍地轉錄的所述基因傾向于更易于受新刺激的正性或負性影響。另外,因為轉錄物以通常可檢測的水平產(chǎn)生,如不需要達到某個可檢測閾值,即可容易檢測所述水平的小變化。
在本發(fā)明的優(yōu)選方法中,本發(fā)明的探針組對于多種不同癌癥或其分期是信息性的。本發(fā)明所述的探針亞組可用于診斷、鑒定或監(jiān)測特定癌癥或其分期。
可用所述探針診斷、鑒定或監(jiān)測的癌癥包括胃癌、肺癌、乳腺癌、前列腺癌、腸(bowel)癌、皮膚癌、結腸癌和卵巢癌。特別優(yōu)選地,所述探針用于乳腺癌分析。
所述診斷方法可單獨使用來替代其他診斷技術,或者在這些技術之外附加使用。例如,本發(fā)明的方法可用作使用成像技術的診斷的替代性或附加性診斷措施,所述成像技術如磁共振成像(MRI)、超聲波成像、核成像(nuclear imaging)或X-射線成像,例如在腫瘤的鑒定和/或診斷中。
本發(fā)明的方法可在來自原核或真核生物的細胞上實施,所述真核生物可為任何真核生物,例如人類、其他哺乳動物和獸類、鳥、昆蟲、魚和植物,和任何原核生物,例如細菌。
可實施本發(fā)明方法的優(yōu)選非人類動物包括,但不限于,哺乳動物, 特別是靈長類動物、家養(yǎng)動物(domestic animals)、家畜(livestock)和實驗動物。因此,用于診斷的優(yōu)選動物包括小鼠、大鼠、豚鼠、貓、狗、豬、家牛(cows)、山羊、綿羊、馬。特別優(yōu)選地診斷、鑒定或監(jiān)測人類癌癥。
如上所述,研究樣本可為可從生物體獲得的任何方便樣本。然而,優(yōu)選地,如上所述,樣本可從遠離疾病部位的部位獲得,并且所述樣本中的細胞非疾病細胞,未與所述疾病細胞接觸以及非來源于疾病部位。在這些情況下,樣本可能含有,雖然優(yōu)選沒有不符合這些標準的細胞。但是,因為本發(fā)明的探針是與在滿足這些標準的細胞中表達改變的轉錄物相關的,因此,所述探針也是特異性地檢測這些細胞的轉錄水平的變化,即使存在其他本底細胞時也是如此。
已發(fā)現(xiàn)這些樣本的細胞在大量基因的基因表達中顯示顯著的和信息性的差異。因此可能會發(fā)現(xiàn),同一探針(或數(shù)種探針),基于與該探針結合的轉錄物的特定水平或與所述探針結合的程度相對于與其他探針結合程度的相互關系,在有關兩種和更多癌癥或其分期的測定中具有信息性。因此,使用相對較小數(shù)量的探針篩選多種癌癥是可能的。這對于探針的選擇具有重要意義,對于用于多種診斷的單組探針的使用也具有重要意義。
因此,本發(fā)明還提供了用于診斷、鑒定或監(jiān)測兩種或多種癌癥或其分期的探針組,其中至少一種所述探針適于所述診斷、鑒定或監(jiān)測至少兩種所述癌癥或其分期,并提供了使用所述多組探針的試劑盒和方法。優(yōu)選地,至少5種探針,如5至15種探針,用于至少兩種診斷中。
因此,在另一優(yōu)選的方面,本發(fā)明提供了一種如上文所述的診斷或鑒定或監(jiān)測方法,用于診斷或鑒定或監(jiān)測生物體中兩種或更多種癌癥或其分期,其中在步驟d)中,將該診斷方法步驟c)中產(chǎn)生的所述檢測模式,與上文所述制作的至少兩種標準診斷模式進行對比,其中各標準診斷模式是為不同癌癥或其分期生成的模式。
雖然在優(yōu)選的方面中所述評估方法涉及生成待測樣本的基因轉錄物模式并將該模式與標準模式進行對照,還可通過檢測表達產(chǎn)物和所述產(chǎn)物的水平來測定某些標記物表達的提高或降低。因此,可產(chǎn)生與表達產(chǎn)物有關的標準模式。
在這些方法中,分析由基本寡核苷酸或衍生的寡核苷酸結合的基因編碼的一組多肽的表達水平。
多種診斷方法可用于評估存在的多肽的量(或其片段)??蓹z測多肽的存在或濃度,例如通過使用所述多肽的結合配偶體(如抗體),其中所述結合配偶體可被固定,以從所述樣本中分離所述多肽,然后可測定該多肽的量。
所述多肽的“片段”是指所述多肽的結構域或區(qū)域,如抗原性片段,其可被識別為所述多肽的衍生物,以允許特異性結合配偶體的結合。優(yōu)選地,這樣的片段包括所述多肽的顯著的部分并對應于正常的合成后加工的產(chǎn)物。
因此,在另一方面,本發(fā)明提供了一種制作生物體癌癥或其分期的特征性標準基因轉錄模式的方法,其包括至少下述步驟a)從患有癌癥或其分期的一種或多種生物體的樣本釋放出目標多肽;b)使所述多肽與一種或多種結合配偶體接觸,其中每種結合配偶體為特異性針對基本寡核苷酸(或衍生序列)結合的基因編碼的標記多肽(或其片段),使得所述結合配偶體可以與所述目標多肽結合,其中所述標記多肽對對于與被研究的生物體或其樣本相對應的生物體或其樣本中的所述癌癥是特異性的;及c)評估與所述結合配偶體結合的目標多肽以產(chǎn)生特征性模式,所述特征性模式反映了帶有所述癌癥或其分期的樣本中表達所述標記多肽的基因的基因表達水平。
本發(fā)明使用的“目標多肽”是指存在于樣本中的待檢測多肽,“標記多肽”是基本寡核苷酸或衍生的寡核苷酸結合的基因即基因家族中的基因編碼的多肽。目標多肽和標記多肽相同或至少具有高相似性的區(qū)域,如抗原表位區(qū),以允許結合配偶體的識別和結合。
目標多肽的“釋放”是指適當處理樣本以提供所述多肽,其中該多肽是對于結合配偶體的結合而言可及的形式,例如通過裂解存在這些多肽的細胞。在這種情況下,使用的樣本不一定需要包括細胞,這是因為目標多肽可從細胞被釋放至周圍的組織或液體,可分析所述組織或液體,如尿液或血液。然而,優(yōu)選地,使用本發(fā)明所述的優(yōu)選樣本。“結合配偶體”包共同形成如上所述的親和結合對的各個實體,其中所述結合對的一個配偶體為目標多肽或標記多肽,另一個配偶體,例如抗體,特異性結合所述多肽。
可考慮多種配置用于檢測形成的結合對的量。可使用最簡單的形式-夾心型(sandwich type)測定,例如免疫測定,如ELISA;這樣的測定中,對所述多肽特異的、并攜帶標記物(如本文他處所述)的抗體可與結合對(如第一抗體多肽對)結合,然后可檢測標記物的量。
可類似地修改本發(fā)明所述的其他方法,以分析蛋白表達產(chǎn)物,而非基因轉錄物和相關的核酸分子。
因此,本發(fā)明的另一方面提供了一種制作待測基因轉錄模式的方法,其至少包括下述步驟a)從所述檢測生物體樣本中釋放出目標多肽;b)使所述目標多肽與一種或多種結合配偶體接觸,其中每種結合配偶體特異性地針對由基本寡核苷酸(或衍生序列)所結合的基因編碼的標記多肽(或其片段),以使所述結合配偶體能夠與所述目標多肽結合,其中所述標記多肽對于與被研究的生物體或其樣本相對應的生物體或其樣本中的所述癌癥是特異性的;及c)評估與所述結合配偶體結合的目標多肽以產(chǎn)生特征性模式,所述模式反映了所述待測樣本中表達所述標記多肽的基因的基因表達水平。
本發(fā)明的另一方面提供了一種診斷或鑒定或監(jiān)測生物體中的癌癥或其分期的方法,其包括下述步驟a)從所述檢測生物體的樣本中釋放出目標多肽;b)使所述目標多肽與一種或多種結合配偶體接觸,其中每種結合配偶體特異性針對基本寡核苷酸(或衍生序列)所結合的基因編碼的標記多肽(或其片段),以使得所述結合配偶體能夠與所述目標多肽結合,其中所述標記多肽對于與被研究的生物體或其樣本相對應的生物體或其樣本中的所述癌癥是特異性的;及c)評估與所述結合配偶體結合的目標多肽以產(chǎn)生特征性模式,所述模式反映了所述檢測樣本中表達所述標記多肽的基因的基因表達水平;及d)將所述模式與標準診斷模式比較以確定相關程度,該相關程度指征所研究的生物體中所述癌癥或其分期的存在,其中所述標準診斷模式是按照上文所述,使用與所研究的生物體及樣本對應的生物體的樣本制作的。
產(chǎn)生標準模式和檢測模式的方法和診斷技術依賴于使用信息性寡核苷酸探針以產(chǎn)生基因表達數(shù)據(jù)。某些情況下,可能需要從可用的探針中選擇這些信息探針,來用于特定的方法,例如診斷特定的癌癥;所述可用的探針有例如表2和/或表3的寡核苷酸、表2和/或表3中衍生的寡核苷酸、其互補序列和功能上等同的寡核苷酸,以及任選地表4的寡核苷酸、其衍生的寡核苷酸、互補序列和功能上等同的寡核苷酸。所述衍生的寡核苷酸包括從與這些表格中提供的序列對應的基因,如在表2、表5或表6(參見登錄號)中所述基因衍生的寡核苷酸,或其互補序列。下述方法學描述了一種鑒定所述信息性探針的方便方法,或者更具體地說,如何從本發(fā)明所述探針中選擇合適的探針亞組的方法。
用于特定癌癥或其分期分析的探針,可使用現(xiàn)有技術中已知的許多方法進行鑒定,包括通過差異表達或通過文庫差減(library subtraction)(參見例如WO98/49342)。如PCT/GB03/005102和下文所述,考慮到大多數(shù)轉錄物的高信息含量,作為起點,也可以直接分析對應于本發(fā)明所述序列家族的mRNA或cDNA種類的隨機亞組,并從所述亞組挑選最有信息性的探針。下述方法描述了使用結合不同樣本的mRNA(或相關分子)的固定寡核苷酸探針(如本發(fā)明的探針),以鑒定哪條探針對于鑒定特定類型的癌癥,例如疾病樣本,是最有信息性的。
固定的探針可來自多種無親緣關系或有親緣關系的生物體;唯一的要求是,在待測生物體中,固定的探針應該特異性結合其同源對應物。探針還可來自商業(yè)來源的或公共的數(shù)據(jù)庫并固定于固體載體。所選擇的探針有必要對應于本發(fā)明所述基因序列家族中的基因中的一種,但目的探針可從整個家族群體中隨機選擇。
固定于固體載體的探針長度應該足夠長以允許與目標序列特異結合。固定的探針可為DNA、RNA或其修飾的產(chǎn)物或PNAs(肽核酸)的形式。優(yōu)選地,固定的探針應該特異性結合其代表待測生物體中高度和中度表達的基因的同源對應物。方便地,所使用的探針為本發(fā)明所述的探針。
生物樣本中細胞的基因表達模式可使用現(xiàn)有技術,例如下述的微陣列或宏陣列,或使用本發(fā)明所述方法產(chǎn)生。目前已開發(fā)了幾種用于同時監(jiān)測生物樣本中大量基因表達水平的技術,例如,高密度寡陣列(oligoarray)(Lockhart等,1996,Nat.Biotech.,14,p1675-1680)、cDNA微陣列(Schena等,1995,Science,270,p467-470)及cDNA宏陣列(Maier E等1994,Nucl.Acids Res.,22,p3423-3424;Bernard等,1996,Nucl.Acids Res.,24,p1435-1442)。
在高密度寡陣列和cDNA微陣列中,成百上千的探針寡核苷酸或cDNAs被點樣在載玻片或尼龍膜上,或在生物芯片上被合成。通過使用紅色或綠色熒光染料逆轉錄來標記從待測樣本和參考樣本分離的mRNA,混合,再與微陣列雜交。在洗滌以后,利用激光器檢測結合的熒光染料,產(chǎn)生兩種圖像,每種染料一種圖像。結果產(chǎn)生的兩種圖像上紅色和綠色點的比例提供了關于待測樣本和參考樣本中基因表達水平變化的信息。或者,還可進行單通道或多通道微陣列研究。
在cDNA宏陣列中,將不同的cDNA點樣在固體載體,例如尼龍膜上,所述cDNA相對于可與各點雜交的待測mRNA的量是過量的。從待測樣本分離的mRNA通過逆轉錄被放射性標記,并與固定的探針cDNA雜交。在洗滌以后,檢測并定量與固定的探針cDNA特異性雜交的標記物的相關信號。宏陣列中所得的數(shù)據(jù)含有待測樣本中存在的轉錄物的相對水平的信息。宏陣列僅適于監(jiān)測有限數(shù)量基因的表達,而微陣列可用于監(jiān)測幾千種基因的同時表達,因此后者是大規(guī)?;虮磉_研究的優(yōu)先選擇。
用產(chǎn)生基因表達數(shù)據(jù)集的宏陣列技術描述了本發(fā)明所述的探針鑒定方法。為此目的,從目的樣本中分離mRNA,并用其制備標記的目標分子,如上述的mRNA或cDNA。然后使標記的目標分子與固定于固體載體的探針雜交。如前所述,多種固體載體可用于該目的。在雜交以后,去除未結合的目標分子并對來自與固定探針雜交的目標分子的信號進行定量。如果進行放射性標記,可使用PhosphoImager產(chǎn)生可用于產(chǎn)生原始數(shù)據(jù)集的圖象文件。根據(jù)所選擇用于標記目標分子的標記物的性質(zhì),還可使用其他儀器,例如,當使用熒光進行標記時,可使用FluoroImager從雜交的目標分子產(chǎn)生圖像文件。
對應于各點中信號的平均強度、中間值強度或體積的原始數(shù)據(jù),可使用商品化的圖像分析軟件從圖像文件獲得。然而,由于幾種因素可影響雜交信號的質(zhì)量和數(shù)量,所獲取的數(shù)據(jù)需要對于背景信號進行校正并在分析前進行歸一化。例如,樣本間分離的mRNA的質(zhì)量和數(shù)量差異,各反應過程中標記目標分子的效率細微差異,及不同的宏陣列間非特異結合的數(shù)量差異,均對所獲得的數(shù)據(jù)集的噪音有貢獻,所述數(shù)據(jù)集的噪音必須在分析前進行校正。
背景校正可使用多種方法進行。背景扣除可使用點內(nèi)的最低像素強度,或使用點輪廓周圍的像素線的平均值或中值。也可以基于陰性對照產(chǎn)生的信號定義出代表背景強度的區(qū)域,并將該區(qū)域的平均強度用于背景扣除。
然后可對背景校正的數(shù)據(jù)進行變換以穩(wěn)定數(shù)據(jù)結構中的變差,并針對探針強度的差異將其歸一化。幾種變換技術已描述于文獻中,簡要綜述可見Cui、Kerr及Churchill http://www.jax.org/research/churchill/research/expression/Cui-Transform.pdf)??梢杂妹總€點的強度除以宏陣列中所有點或宏陣列中一組點的集體強度、平均強度或中值強度來進行歸一化,來獲得與宏陣列中的探針雜交的信號的相對強度。用于標準化基因表達數(shù)據(jù)的幾種方法已有描述(Richmond和Somerville,2000,Current Opin.Plant Biol.,3,p108-116;Finkelstein等,2001,In″Methods of Microarray DataAnalysis.Papersfrom CAMDA,Eds.Lin & Johnsom,Kluwer Academic,p57-68;Yang等,2001,In″Optical Technologies and Informatics″,Eds.Bittner,Chen,Dorsel &Dougherty,Proceedings of SPIE,4266,p141-152;Dudoit等,2000,J.Am.Stat.Ass.,97,p77-87;Alter等,2000,supra;Newton等,2001,J.Comp.Biol.,8,p37-52)。通常,首先計算換算系數(shù)或函數(shù)以校正強度影響,并用其對強度進行歸一化。還有人建議使用外標以改進標準化。
在大規(guī)?;虮磉_分析中遇到的另一個主要挑戰(zhàn)是對于從不同時間進行的實驗所收集的數(shù)據(jù)進行標準化。我們觀察到,相同實驗中獲得的樣本基因表達數(shù)據(jù)經(jīng)過背景校正和歸一化后,可以得到高效的比較。然而,從不同時間進行的實驗獲得的樣本數(shù)據(jù)在分析前需要進一步標準化。這是因為在不同的實驗之間實驗參數(shù)的細微差異,例如在不同時間提取的mRNA的質(zhì)量和數(shù)量上的差異,用于標記目標分子的時間的差異,雜交時間或曝光時間差異,可影響測定值。并且,例如所研究的轉錄物序列的性質(zhì)(其GC含量)及其相互之間的相對量等因素,決定了它們?nèi)绾问軐嶒炦^程中細微差異的影響。它們決定了例如第一鏈合成過程中對應于特定轉錄物的第一cDNA鏈以怎樣的效率被轉錄和標記,或在雜交過程中對應的標記的目標分子以怎樣的效率結合其互補序列。在印刷的過程中批間差異也是所產(chǎn)生的表達數(shù)據(jù)差異的一個主要因素。
如果這樣的影響得不到合適的處理和矯正,就會導致這樣的情況實驗系列之間的差異,可能會掩蓋基因表達數(shù)據(jù)集中包含的主要目的信息,即來自不同實驗系列的組合數(shù)據(jù)內(nèi)的差異。因此,當需要時,在數(shù)據(jù)分析前應該分批調(diào)整(batch-adjust)表達數(shù)據(jù)。
對數(shù)個樣本中的大量基因的表達監(jiān)測產(chǎn)生大量太復雜而不易解釋的數(shù)據(jù)。已經(jīng)證明幾種監(jiān)督和非監(jiān)督的多變量數(shù)據(jù)分析可用于從這些大數(shù)據(jù)集提取重要的生物信息。聚類分析是基因表達分析的最常用的技術,并已被用來鑒定相似地受調(diào)節(jié)的基因,和/或使用基因表達模式鑒定新的/未知的腫瘤類型(Eisen等,1998,PNAS,95,p14863-14868,Alizadeh等,2000,supra,Perou等,2000,Nature,406,p747-752;Ross等,2000,Nature Genetics,24(3),p227-235;Herwig等,1999,Genome Res.,9,p1093-1105;Tamayo等,1999,Science,PNAS,96,p2907-2912)。
在聚類方法中,根據(jù)表達模式將基因編組入功能類別(群),其滿足二個標準同質(zhì)性-相同類群的基因相互間在表達上具有高相似性;及區(qū)分性-不同群的基因相互間在表達上具有低相似性。
已用于基因表達分析的多種聚類技術的例子包括分級聚類(hierarchicalclustering)(Eisen等,1998,同上;Alizadeh等,2000,同上;Perou等,2000,同上;Ross等,2000,同上),K方法聚類(K-means clustering)(Herwig等,1999,同上;Tavazoie等,1999,Nature Genetics,22(3),p.281-285),基因削除(gene shaving)(Hastie等,2000,Genome Biology,1(2),research0003.1-0003.21),分塊聚類(block clustering)(Tibshirani等,1999,Tech reportUniv Stanford.),Plaid模型(Lazzeroni,2002,Stat.Sinica,12,p61-86),和自組織圖(Tamayo等,1999,同上)。另外,多變量統(tǒng)計分析相關方法,例如使用單數(shù)值分解的方法(Alter等,2000,PNAS,97(18),p10101-10106;Ross等,2000,同上)或多維量表法(multidimensional scaling)可有效減小研究對象的維度。
但是,例如聚類分析和單數(shù)值分解等方法僅僅是探索性的,并僅提供數(shù)據(jù)內(nèi)部結構的大致概況。它們是非監(jiān)督的方法,在該方法中,涉及被研究的類型的性質(zhì)的可獲得的信息未用于分析中。通常,特定樣本經(jīng)受的生物性擾動的性質(zhì)是已知的。例如,通常已知分析基因表達模式的樣本是來自疾病個體還是健康個體。在這些情況下,可使用判別分析來根據(jù)樣本的基因表達數(shù)據(jù)將樣本分成多個組。
在這樣的分析中,通過訓練數(shù)據(jù),可構建能夠區(qū)別給定類型的成員和非成員的分類器(classifier)。然后,可以用受過訓練的分類器預測未知樣本的類型。
已描述于文獻中的鑒別方法的例子包括支持矢量機(Support VectorMachines)(Brown等,2000,PNAS,97,p262-267)、最短距離(NearestNeighbour)(Dudoit等,2000,supra)、分類樹(Classification trees)(Dudoit等,2000,supra)、選舉分類(Voted classification)(Dudoit et al.,2000,supra)、加權基因選舉(Weighted Gene voting)(Golub等,1999,supra),及Bayesian分類(Keller等,2000,Tec report Univ of Washington)。另外,首先使用PLS(部份最小二乘)回歸分析減少基因表達數(shù)據(jù)集的因次,然后使用logistic判別分析和二次判別分析(quadratic discriminant analysis)(LD和QDA)進行分類的一種技術最近已有描述(Nguyen & Rocke,2002,Bioinformatics,18,p39-50和1216-1226)。
基因表達數(shù)據(jù)對經(jīng)典的判別方法的挑戰(zhàn)是對其表達進行分析的基因的數(shù)量與所分析的樣本的數(shù)量相比是非常大的。然而,在大多數(shù)情況下,這些基因中只有小部分在判別分析問題中具有信息性。另外存在無關基因的噪音掩蓋或歪曲信息性基因的信息的危險。文獻中已提出了幾種用于鑒定和選擇宏陣列的信息性基因的方法,例如,t-統(tǒng)計(Dudoit等,2002,J.Am.Stat.Ass.,97,p77-87)、方差分析(Kerr等,2000,PNAS,98,p8961-8965)、鄰近性分析(Neighbourhood analysis)(Golub等,1999,同上)、組間與組內(nèi)平方和之比(Dudoit等,2002,同上)、非參數(shù)評分(Park等,2002,PacificSymposium on Biocomputing,p52-63)及似然選擇(likelihood selection)(Keller等,2000,同上)。
在本文所述的方法中,使用偏最小二乘回歸(PLSR)分析已歸一化和標準化的基因表達數(shù)據(jù)。雖然PLSR主要是一種用于連續(xù)數(shù)據(jù)的回歸分析的方法(參見附錄A),它也可用作使用基于二進制編碼的虛擬反應矩陣的模型建立和判別分析的方法。歸類是根據(jù)簡單二分區(qū)分,例如乳腺癌(1類)/健康(2類),或基于多疾病診斷的多重區(qū)分,例如乳腺癌(1類)/卵巢癌(2類)/健康(3類)。要分類的疾病列表可根據(jù)其他癌癥或階段相應的可獲得的樣本而增加。
用作分類方法的PLSR稱為PLS-DA(DA代表判別分析)。PLS-DA是PLSR算法的引伸,其中Y矩陣是包含n行(對應于樣本的數(shù)量)和K列(對應于類的數(shù)量)的虛擬矩陣(dummy matrix)。Y矩陣是這樣建立的在第k行插入1,并在所有其他列插入-1,如果對應的x的第i個對象屬于k類。通過Y至X的回歸,通過選擇與擬合的y^(x)=(y^1(x),y^2(x),...,y^k(x))]]>中最大的成員對應的組而實現(xiàn)新樣本的歸類。因此,在-1/1反應矩陣中,小于0的預測值表明樣本屬于被指定為-1的類,而大于0的預測值表明樣本屬于被指定為1的類。
PLSR-DA的優(yōu)點是所獲得的結果可容易地以兩種不同的圖(plots),即評分(score)和載入(loading)圖的形式表示。評分圖表示樣本在主成分上的投影(projection),并顯示樣本在分類模型中的分布及其相互關系。載入圖顯示數(shù)據(jù)集中變量的相互關系。
由于PLS-DA其能夠處理共線性數(shù)據(jù),通常推薦其用作分類問題的起點,并推薦PLSR用作降維技術。一旦滿足了這個目的,就可以使用其他方法例如已顯示可有效用于提取其他信息的線性判別分析(linear discriminantanalysis)LDA Indahl等(1999,Chem.and Imell.Lab.Syst.,49,p19-31)。這種方法基于首先使用PLS-DA分解數(shù)據(jù),然后使用評分矢量(代替原始變量)作為對LDA的輸入。有關LDA的其他細節(jié)可見Duda和Hart(Classificationand Scene Analysis,1973,Wiley,USA)。
模型建立之后下一步是模型驗證。該步驟被認為是多變量分析最重要的方面之一,其檢測已建立的校準模型(calibration model)的“優(yōu)良度”(goodness)。在此工作中,使用了交叉驗證(cross validation)方法進行驗證。在該方法中,當根據(jù)保留數(shù)據(jù)使用完全交叉驗證建立模型時,在各段(segment)之外留出一個或少數(shù)樣本。然后將留出的樣本用于預測/分類。重復該簡單的交叉驗證幾次,同時對每次交差驗證留出不同的樣本,即產(chǎn)生所謂的雙重交叉驗證方法。該方法已顯示使用有限量的數(shù)據(jù)作用良好,如本文中一些實施例中的情況。另外,由于重復幾次交叉驗證步驟,減輕了模型偏倚(model bias)和過擬合(overfitting)的危險。
一旦建立和驗證了校準模型,就可以用現(xiàn)有技術中已有描述的變量選擇(variable selection)技術(如別處所述)來選擇這樣的基因該基因所顯示的表達模式,對于描述模型中的所需信息而言是最相關的。變量選擇有助于減小最終模型的復雜性,提供節(jié)約型模型,并因此產(chǎn)生可用于預測的可靠模型。另外,使用較少的基因來提供診斷,將降低診斷產(chǎn)品的成本。這樣,可鑒定結合相關基因的信息性探針。
我們發(fā)現(xiàn)在建立校準模型之后,可以使用基于再抽樣方法學的統(tǒng)計技術如Jackknife(Effon,1982,The Jackknife,the Bootstrap and other resamplingplans.Society for Industrial and Applied mathematics,Philadelphia,USA)來高效地選擇或確證顯著性變量(信息性探針)。PLS回歸系數(shù)B的近似不確定性變差(approximate uncertainty variance)可通過下述估計S2B=Σm=1M((B-Bm)g)2]]>其中S2B=所估計的B的不確定性方差;B=使用所有N對象在交叉驗證的列A的回歸系數(shù);Bm=使用除在交叉驗證段m留出的對象外的所有對象,在秩(rank)A下的回歸系數(shù);及g=定標系數(shù)(scaling coefficient)(此處g=1)。
在我們的方法中,Jackknife與交叉驗證一起應用。對于每一變量,首先計算交叉驗證亞模型(sub-model)中的B系數(shù)Bi與總模型的Btot之間的差異。然后計算所有亞模型中差異的平方和以獲得變量的Bi估計值的方差的表達式。Bi估計的顯著性使用t檢驗進行計算。因此,結果所產(chǎn)生的回歸系數(shù)可使用對應于2標準差的不確定性極限表示,并由此不確定性極限檢測到顯著性變量。
由于該步驟已于商品化軟件(The Unscrambler,CAMO ASA,Norway)中實現(xiàn),未提供關于該步驟的實施或使用的其他細節(jié)。另外,關于使用Jackknife的變量選擇的細節(jié)可見Westad和Martens(2000,J.NearIn Spectr.,8,p117-124)。
下述方法可用于從基因表達數(shù)據(jù)集選擇信息性探針a)每交叉驗證段留出一特異樣本(包括其重復,如果該數(shù)據(jù)集中存在的話);
b)使用PLSR-DA在其余樣本上建立校準模型(交叉驗證段);c)使用Jackknife準則選擇步驟b)的模型的顯著性基因;d)重復上述3個步驟直到數(shù)據(jù)集中的所有獨特樣本被留出一次(如步驟a所述)。例如,如果數(shù)據(jù)集中存在75個特異樣本,則建立75個不同的校準模型,產(chǎn)生共75個不同的顯著性探針組;e)使用出現(xiàn)頻率準則,在步驟d)中產(chǎn)生的顯著性探針組中選擇最顯著的變量。例如,出現(xiàn)在所有組(100%)中的一組探針比在僅50%的步驟d)中產(chǎn)生的組中出現(xiàn)的探針更具有信息性。
一旦已選擇了一種疾病的信息性探針,便制作并驗證最終模型。驗證該模型的兩種最常用方法是交叉驗證(CV)和檢驗集(test set)驗證。在交叉驗證中,數(shù)據(jù)被劃分成k個亞組。然后將所述模型訓練k次,每次留出一個亞組不訓練,但僅使用這個被留出的亞組計算誤差準則,即RMSEP(均方根預測誤差)。如果k等于樣本大小,則稱為“留出一”(“l(fā)eave-one-out”)交叉驗證。每一驗證段留出一個或幾個樣本的想法僅在各實驗之間的協(xié)方差為0的情況下有效。因此,在含有重復的情形下,每次一個樣本的方法不能證明有效,只留出重復中的一個將向我們的分析中引入系統(tǒng)偏倚。這樣的情況下,正確的方法是每次將同一樣本的所有重復都留出,因為這樣可以滿足CV段間協(xié)方差為零的假設。
模型驗證的第二種方法是使用單獨的檢驗集以驗證校準模型。這需要單獨進行一組實驗作為檢驗集。假如可獲得真實的檢驗數(shù)據(jù),這將是優(yōu)選方法。
然后,用最終的模型鑒定待測樣本中的癌癥或其分期。為此目的,自待測樣本產(chǎn)生所選的信息性基因的表達數(shù)據(jù),然后,用最終的模型確定樣本屬于疾病類型還是非疾病類型,或是否具有癌癥或其分期。
優(yōu)選地,通過使用根據(jù)上述方法鑒定的探針有關的數(shù)據(jù)產(chǎn)生用于分類目的的模型。優(yōu)選地,樣本如前文所述。優(yōu)選地,于步驟(a)中固定的寡核苷酸隨機地選自上文所述的家族,但作為選擇,可選擇代表不同家族的寡核苷酸,例如通過選擇不同家族的編碼相同功能的蛋白質(zhì)的基因所對應的一種或多種寡核苷酸。尤其優(yōu)選地,所述選擇包括衍生自家族(i)和家族(ii)的基因的寡核苷酸。所述寡核苷酸可具有相當?shù)拈L度,例如,如果使用cDNA(包括在術語“寡核苷酸”范圍內(nèi))。這樣的cDNA被鑒定為有用的探針,從而可以開發(fā)出更短的寡核苷酸,它們保留cDNA分子的特異性,但更容易制造和操作。然后,上述的模型可用于產(chǎn)生和分析待測樣本的數(shù)據(jù),并因此可用于本發(fā)明的診斷方法。在這些方法中,基因表達數(shù)據(jù)集由待測樣本產(chǎn)生的數(shù)據(jù)提供,并如上所述被歸一化和標準化。然后,所述數(shù)據(jù)適用于上述的校準模型以提供分類。
本發(fā)明所述方法還可用于同時選擇幾種癌癥的信息性探針。根據(jù)哪些癌癥已包括在校準組或訓練組,可選擇用于所述癌癥的信息性探針。所選的用于一種癌癥的信息性探針可與所選的另一種感興趣的癌癥的信息性探針相似或不相似。所選基因在癌癥或其分期過程中彼此相對的表達的模式?jīng)Q定了所選基因對于所述癌癥或其分期是否為信息性的。
換句話說,根據(jù)在所研究癌癥或其分期產(chǎn)生的反應的影響下信息性基因的表達與其他所選信息性基因的表達如何互相關聯(lián)而選擇信息性基因。
為同時分離信息性探針或鑒定幾種癌癥和其分期的目的,基因表達數(shù)據(jù)集必須包含關于當受試者具有所研究的癌癥或其分期時基因如何表達的信息。該數(shù)據(jù)集從一組健康或疾病樣本產(chǎn)生,其中特定樣本可包含僅一種癌癥或其分期的信息,或還可包含關于多種癌癥或其分期的信息。因此,該方法還教導了一種有效的實驗設計,以通過選擇代表多于一種癌癥或其分期的樣本而減少分離信息性探針所需的樣本數(shù)量。
如上所述,考慮到轉錄物的高信息含量,用于診斷、監(jiān)測或鑒定特定癌癥或其分期的信息性探針的驗證和選擇可得到顯著地簡化。因此,可以從根本上減少用于從中選擇鑒定信息性探針的基因群。
不同于從細胞中正被表達的數(shù)以千計的基因的群體中選擇信息性探針(例如在微陣列中)的現(xiàn)有技術,在本文描述的方法中,信息性探針選自如前文所述的基因序列家族中的有限數(shù)量的基因。從這些家族中,可隨機選擇目的探針。
因此,在優(yōu)選的方面,所述寡核苷酸組隨機地選自上文所述的基本寡核苷酸。
如本發(fā)明所述的“隨機”是指選擇不基于轉錄物所攜帶的關于被研究的癌癥或生物體的信息的程度而偏倚,即不偏向它們作為信息性探針的可能的效用。雖然可以從已具有偏倚的,例如偏向高度或中度表達的轉錄物的轉錄物(或相關產(chǎn)物)庫中進行隨機選擇,但優(yōu)選從非偏倚的,或者根據(jù)基于序列的準則選擇過的轉錄物庫中進行隨機選擇。因此,較大的組可能包含對應于高度和中度表達的基因的寡核苷酸,或者可以富集對應于高度和中度表達的基因的寡核苷酸。
從高度和中度表達的基因的隨機選擇可使用多種方法實現(xiàn)。例如,通過從被研究的生物樣本構建的、包含對應于上述基因序列家族的克隆的cDNA文庫中選擇顯著數(shù)目的克隆。由于在cDNA文庫中,以高度或中度的量大量或中等量存在的轉錄物所對應的cDNA克隆比以低度的量存在的cDNA所對應的轉錄物更常存在,因此前者較后者更常被選擇。通過該方法,可以分離富集了對應于高度或中度表達的基因的轉錄物的cDNA庫。
為了從分離的群體中鑒定以高度或中度的量表達的基因用于本發(fā)明的方法,可以使用多種現(xiàn)有的技術來生成目標樣本中它們的轉錄物水平的信息。為此,可以使用不基于序列的方法,例如差異顯示或RNA指紋法,也可使用基于序列的方法,例如微陣列和宏陣列法。作為選擇,可以設計針對高度和中度表達的基因的特異性引物序列和例如定量RT-PCR等方法來確定高度和中度表達的基因的水平。因此,技術人員可使用本領域已知的多種技術確定生物樣本中mRNA的相對水平。
尤其優(yōu)選地,上述方法中的用于mRNA分離的樣本如上文所述,并優(yōu)選地非來自疾病部位,所述樣本中的細胞非疾病細胞,且未接觸過疾病細胞,例如外周血液樣本用于檢測非造血系統(tǒng)癌癥,如乳腺癌。
下述實施例僅僅是為了舉例說明,其中所述圖如下
圖1顯示導致乳腺癌個體中表達變化的各因素間可能的相互作用;圖2顯示102個正常(包括良性)和乳腺癌樣本在PLSR-DA產(chǎn)生的分類模型上的投影,使用35個信息性基因的數(shù)據(jù),其中PC是主成分,并且N和C分別是正常和乳腺癌樣本;圖3顯示了使用35個cDNA的數(shù)據(jù)基于3個主成分的預測圖;及圖4顯示用于乳腺癌預測的35個基因的平均表達水平。
實施例1乳腺癌的診斷方法血液樣本在挪威地方倫理委員會(Regional Ethical Committee of Norway)批準下,從知情并同意的供者采集血液樣本。在分析過程中所有供者被匿名處理。在知道第一次篩查過程中所觀察到的異常是良性還是惡性之前,從具有可疑的初始乳房X線照片的女性,包括患有乳腺癌的女性和具有不正常乳房X線照片的女性抽取血液。在所有情況中,在8a.m.和4p.m.之間抽取血液樣本。由熟練技術人員從每位女性抽取10ml血液至含EDTA作為抗凝血劑的真空管(vacutainer tube)(Becton Dickinson,Baltimore,美國)中或直接至PAXgeneTM管(PreAnalytiX,Hombrechtikon,瑞士)中。將收集在EDTA試管中的血液立即儲存在-80℃,而將PAX管放置過夜,然后將其儲存在-80℃?zhèn)溆谩?br>
cDNA陣列的制備從550位健康個體全血構建的質(zhì)粒文庫隨機選擇1435個cDNA克隆(Clontech,Palo Alto,USA)。約20%隨機選擇的克隆冗余。為擴增插入物,在包含50μg/ml羧芐青霉素的150μl LB的微量滴定板中培養(yǎng)細菌克隆,37℃攪拌過夜培養(yǎng)。為裂解細胞,將5μl的每份培養(yǎng)物用50μl H2O稀釋,并在95℃溫育12min。用40μpmol的5’-和3’-測序引物,在1.5mM MgCl2存在下對2μl的該混合物進行PCR反應,使用下列循環(huán)方案進行PCR反應在RoboCycler Temperature Cycler(Stratagene,La Jolla,美國)或DNAEngine Dyad Peltier Thermal Cycler(MJ Research Inc.,Waltham,美國)中,首先95℃ 4min,然后94℃ 1min,60℃ 1min,72℃ 3min,25個循環(huán)。使用NaOH(0.2M,終濃度)變性擴增產(chǎn)物30分鐘,再根據(jù)廠商(BioRobotics Ltd,Cambridge England)的說明,使用MicroGrid II工作站將其點至Hybond-N+膜(Amersham Pharmacia Biotech,Little Chalfont,英國)上。使用紫外交聯(lián)劑將固定化的cDNA固定(Hoefer Scientific Instruments,San Francisco,美國)。
除1435個cDNA之外,印刷的陣列還包含了用于評價測定的背景水平、一致性和敏感性的對照。這些對照被點在多處位置,并包括如PCR混合物(無任何插入物)的對照;SpotReportTM10陣列驗證系統(tǒng)(Stratagene,La Jolla,美國)的對照及對應于組成性表達基因例如β-肌動蛋白、γ-肌動蛋白、GAPDH、HOD及親環(huán)蛋白的cDNAs。
RNA提取、探針合成和雜交在37℃融解收集在EDTA管中的血液并將其轉移至PAX管,根據(jù)供應商的說明(PreAnalytiX,Hombrechtikon,瑞士)純化總RNA。如上所述從直接收集在PAX管的血液提取總RNA,其中提取RNA在上述管中進行而不轉移至任何新管中。使用無DNA試劑盒(DNA-free kit)(Ambion,Inc.Austin,USA)通過DNAase I處理從分離的RNA中去除污染的DNA。通過瓊脂糖凝膠電泳后觀察28S和18S核糖體帶的完整性目測確定RNA的質(zhì)量。只有提取的RNA質(zhì)量優(yōu)良的樣本才被用于本項研究。在我們的經(jīng)驗中,EDTA管中采集的血液產(chǎn)生的RNA質(zhì)量經(jīng)常較差,而PAX管中采集的血液幾乎總是產(chǎn)生質(zhì)量優(yōu)良的RNA。所提取的RNA的濃度和純度通過測量在260nm和280nm的吸光度而確定,根據(jù)供應商的說明(Dynal AS,Oslo,挪威)使用Dynabeads分離總mRNA。
分16批進行了標記和雜交實驗。每批測定的樣本的數(shù)量為六到九個不等。為使印刷中批間差異造成的噪音最小化,每批中僅使用同次印刷制備的陣列。當樣本被測定超過一次時(重復),使用來自相同mRNA庫的等份進行探針合成。對于探針合成,將對應于4-5μg總RNA的等份mRNA與寡脫氧胸苷酸25Nv(oligodT25Nv)(0.5μg/μl)和SpotReportTM10陣列驗證系統(tǒng)(10 pg;Spike 2,1 pg)的mRNA spikes混合在一起,加熱至70℃,然后于冰上冷卻。探針制備在35μl反應混合物中,在50Ci[α33p]dATP,3.5μMdATP,dCTP、dTTP、dGTP各0.6mM,200單位的SuperScript逆轉錄酶(Invitrogen,LifeTechnologies)和0.1M DTT的存在下通過逆轉錄在42℃標記1.5小時。在合成以后,在70℃ 10min使酶失活,并在37℃使用4單位Ribo H(Promega,Madison美國)溫育反應混合物20min去除mRNA。使用ProbeQuant G 50柱(Amersham Biosciences,Piscataway,美國)去除未摻入的核苷酸。
在室溫下4x SSC中平衡膜2個小時,并在10ml預雜交溶液(4x SSC,0.1M NaH2PO4,1mM EDTA,8%硫酸葡聚糖,10x Denhardt′s溶液,1%SDS)中65℃過夜預雜交。將新鮮制備的探針添加至5ml相同的預雜交溶液中,在65℃繼續(xù)過夜雜交。在65℃以遞增的嚴緊度(2x 30min,分別在2x SSC,0.1%SDS;1x SSC,0.1%SDS;0.1x SSC,0.1%SDS中)洗膜。
雜交信號的定量將雜交過的膜暴露于Phosphoscreen(超分辨率)兩天,使用PhosphoImager(Cyclone,Packard,Meriden,美國)產(chǎn)生圖像文件。雜交信號的鑒定和定量及局部背景值的扣除使用Phoretix軟件(Non Linear Dynamics,UK)進行。從各點中評估的信號強度中扣除各點輪廓周圍的象素線的中值來進行背景扣除。
數(shù)據(jù)分析從1435個扣除背景的表達數(shù)據(jù)中,從每個膜上去除67個基因的信號以排除高度差異表達的基因。這包括從每個膜上去除1.25%的最低和最高的信號。對于歸一化,首先用各個點的值除以每個陣列的信號的平均值,然后對所有的點進行立方根變換(cube root transformation)。然后使用單向方差分析法(ANOVA)對歸一化的數(shù)據(jù)進行分批調(diào)整。
然后通過下述步驟將預先處理的數(shù)據(jù)用于分離信息性探針a)建立交叉驗證PLSR模型,其中每交叉驗證段留出一獨特樣本(包括所選樣本的所有重復)。
b)使用Jackknife準則選擇步驟a)模型的顯著性基因的組。
c)使用步驟b)選擇的基因,如步驟a)建立交叉驗證PLSR-DA模型。
d)再次使用Jackknife準則選擇步驟c)模型的最具顯著性的基因的組。
步驟b)產(chǎn)生125個基因。
步驟d)選擇了35個顯著性基因。根據(jù)這些基因構建了最終的分類模型。
使用基于出現(xiàn)準則(occurrence criterion)的所選的信息性探針構建分類模型。根據(jù)35種探針的分類模型的結果示于表2,其中可見這些基因的表達模式能將大多數(shù)乳腺癌婦女和無乳腺癌婦女區(qū)分為不同的組。在該圖中,PC1和PC2代表從數(shù)據(jù)統(tǒng)計衍生的兩種主成分,其最好地定義了所述數(shù)據(jù)中存在的系統(tǒng)變化性(systemic variability)。這允許各個樣本及樣本的標記的第一鏈cDNA所結合的各信息性探針的數(shù)據(jù)在分類模型上表現(xiàn)為單個點,該點是樣本在主成分上的投影——評分圖。
圖3顯示使用35個顯著性基因的預測圖。在所示預測圖中,癌癥樣本顯示在x軸上+1處,非癌癥樣本顯示在-1處。y軸表示預測的分類隸屬關系。在預測過程中,如果預測是正確的,癌癥樣本應該落在零之上,并且非癌癥樣本應該落在零以下。在每種情況中,幾乎所有樣本都得到了正確的預測。對于交叉驗證,102個實驗樣本被劃分成60個交叉驗證段,其中每段代表一種獨特的樣本,并且包括其重復,如果有的話。
實現(xiàn)了大多數(shù)乳腺癌細胞的正確預測。22位癌癥患者中有19人被正確預測,正常患者35人中有34人被正確預測。所檢測的個體的全部詳細情況及預測的準確性示于表1。表2提供35個信息性基因的詳細情況、公共數(shù)據(jù)庫中與它們顯示具有序列相似性的基因及其推定的生物學功能。它們的序列在實施例后列出。
圖4顯示35個基因的表達水平,可見與正?;颊叩谋磉_相比,某些表達過量,其它的表達過低。
實施例2其他信息性探針的鑒定及其在乳腺癌診斷中的應用方法所使用的鑒定和分析方法基本如實施例1所述,除了不是制備cDNA陣列,而是使用商業(yè)上可獲得的大規(guī)?;虮磉_分析平臺(Agilent 22K芯片)分析樣本。
分析了大量樣本,包括總共122個樣本(78個對照和44個有乳腺癌的)。如上文所述使用PLSR分析了數(shù)據(jù)。通過10折交叉驗證(10-fold crossvalidation)方法選擇目的基因。為此,將122個樣本的數(shù)據(jù)分成10個組,各組包含12-13個樣本。在9個組上建立校準模型,并留出1個組。通過Jackknife技術鑒定了該內(nèi)建(built-in)模型的顯著性基因。對所有10個組重復了這些步驟,其中每組至少被留出一次。然后根據(jù)出現(xiàn)頻率準則鑒定信息性基因。在所有10個校準模型中,發(fā)現(xiàn)109個基因具有信息性。
結果用上述109個基因和3個其他基因預測122個所使用樣本的分類。結果如下表所示。
109個信息性基因可被劃分成三個類別,即屬于本發(fā)明所述家族(i)和家族(ii)的那些基因及其他基因。表3提供對應的基因屬于家族(i)和家族(ii)的信息性探針的詳細情況,并且提供Agilent對這些探針的編號。類似地,表4提供其對應的基因似乎不屬于家族(i)和家族(ii)的信息性探針的詳細情況。表5和6提供表3和4的探針與其顯示序列相似性的基因的詳細情況,其已知的推測的生物功能和及所述基因的登錄號。
附錄A偏最小二乘回歸(PLSR)多變量回歸模型定義為Y=XB+F其中X是具有N個預測變量(基因)的NxP矩陣;Y(NxJ)是J個被預測的變量。在這里,Y代表包含虛擬變量的矩陣;B是回歸系數(shù)矩陣;及F是殘差NxJ矩陣。
PLSR模型的結構可寫成X=TPT+EA,及Y=TQT+FA,其中T(NxA)是評分向量的矩陣,所述評分向量是x個變量的線性組合;P(PxA)是以x載入向量pa作為列的矩陣;Q(JxA)是以y載入向量qa作為列的矩陣;Ea(NxP)是X在A個因素之后的矩陣;及Fa(NxJ)是Y在A個因素之后的矩陣。
PLSR的準則是最大化[X,Y]的被解釋的協(xié)方差。這通過載入加權向量Wa+1實現(xiàn),其為EaTFaFaTEa的第一特征向量(Ea和Fa是在a個因素或PLS組分之后壓縮的X和Y)。
回歸系數(shù)通過下式給出
B=W(PTW)-1QT滿秩的,即成員數(shù)最大的PLSR模型與MLR方法等價。PLSR的其他詳細情況可見Marteus & Naes,1989,Multivariate Calibration,John Wiley &Sons,Inc.,USA和Kowalski和Seasholtz,1991,同上。
通過Jackknife選擇的34/35個基因的核苷酸序列克隆識別號及其序列I-30CTTTTCCTCCCGCTGTCCCCCACGGAGGGGACTGCTCTCCCCCGCTGCATCCTTTCTGTGAGGTACCTTACCCACCTCAGCACCTGAGAGGGTGAAATAGAATTCTAACCTCGACATTCGGGAAGTGTTTTTGAGAAGTCTCGGTCGGTAAGGGAAGTCTTCCAAGTCCGTGCAGCACTAACGTATTGGCACCTGCCTCCTCTTCGGCCACCCCCCAGATGAGGCAGCTGTGACTGTGTCAAGGGAAGCCACGACTCTGACCATAGTCTTCTCTCAGCTTCCACTGCCGTCTCCACAGGAAACCCAGAAGTTCTGTGAACAAGTCCATGCTGCCATCAAGGCATTTATTGCAGTGTACTATTTGCTTCCAAAGGATCAGGCCCTGAGAACAATGACCTTATTTCCTACAACAGTGTCTGGGTTGCGTGCCAGCAGATGCCTCAGATACCAAGAGATAACAAAGCTGCAGCTCTTTTGATGCTGACCAAGAATGTGGATTTTGTGAAGGATGCACATGAAGAAATGGAGCAGGCTGTGGAAGAATGTGACCCTTACTCTGGCCTCTTGAATGATACTGAGGAGAACAACTCTGACAACCACAATCATGAGGATGATGTGTTGGGGTTTCCCAGCAATCAGGACTTGTATTGGTCAGAGGACGATCAAGAGCTCATAATCCCATGCCTTGCGCTGGTGAGAGCATCCAAAGCCTGCCTGAAGAAAATTCGGATGTTAGTGGCAGAGAATGGGAAGAAGGATCAGGTGGCACAGCTGGATGACATTGTGGATATTTCTGATGAAATCAGCCCTAGTGTGGATGATTTGGCTCTGAGCATATATCCACCTATGTGTCACCTGACCGTGCGAATCAATTCTGCGAAACTTGTATCTGTTTTAAAGAAGGCACTTGAAATTACAAAAGCAAGTCATGTGACCCCTCAGCCAGAAGATAGTTGGATCCCTTTACTTATTAATGCCATTGATCATTGCATGAATAGAATCAAGGAGCTCACTCAGAGTGAACTTGAATTATGACTTTTCAGGCTCATTTGTACTCTCTTCCCCTCTCATCGTCATGGTCAGGCTCTGATACCTGCTTTTAAAATGGAGCTAGAATGCTTGCTGGATTGAAAGGGAGTGCCTATCTATATTTAGCAAGAGACACTATTACCAAAGATTGTTGGTTAGGCCAGATTGACACCTATTTATAAACCATATGCGTATATTTTTCTGTGCTATATATGAAAAATAATTGCATGATTTCTCATTCCTGAGTCATTTCTCAGAGATTCCTAGGAAAGCTGCCTTATTCTCTTTTTGCAGTAAAGTATGTTGTTTTCATTGTAAAGATGTTGATGGTCTCAATAAAATGCTAACTTGCCAGTGAAAAAAAAAAAAAAIII-02AGGATCTAAGACCAGCCTGGCAGCCACCAGATGGTGATTCTAGTCCTGGCTCAGTCAGTAATAGGTCACTGACCCCAGAGAAATCAATTCAGCCTCCCCAGGTCCTTGGATTTCTTTCTGTGAAAATGAAAGCATAGGTAGGAATTTCCCATGGAACAGCTAGCAGAGGAGAAATATTAAAAGTCAGGAGACTCATGCTATAGTTTTCATACTTCA
TTACAACAATGTTGTTTAGGACAAGTGAGTTAACCTGTTAGCTTCCTCTATATAAAATGGAAAGTCATTAAAAACCTACATAGCAGGGTTCTTGTGAAGATCAAGTGATAATGTAGGAAGCATGTACAAATGTCACATTCTGCCGTCACGTAATGGTCCTCACAGCTTGAGGTAGCATTTAGCATGTGTCATGATTTAGTACAAGGGTTGGCAAACTGTTGCTCTTGGATTAAGTCTGGCTCATTGCCTGTTTTTCAAAGAAAAAAATTGTATATGTGTGTATATATGTTATATATAGGTACACACACATATGTGCTATATATAGCATATATACACACATAATATATAAACATGTACATATATAGCATTATATATATACGTGTATAATATCTCCAGTCCTCATGACCAGCCATGCTTGTTCATTTACATTTGCATACTCTATGATTGCTTTCATGCAACAATGGCAGAGTTGAGTGATTGTTTTGCAACAGAGACTGTATGGCCCACTAAACCTAAAATATTTAGTCTCTGACCCTGAAATGTAAGATTGATAGCCCAGGACCAGGCGTGGTGGCTCACACTTGTAATCCTAGCACTTTGGCAGGCCAAGGAGGGTGGATCACCTGAGGTCAGGAGTTAAAGACCAGCCTGGCCAACATGGTGAAACCCTGACTCTACTAAAAATACAGAAATTAGCTGGGCGTGGTAATGGGTGCCTGCAATCCAAGCTACTCTGGAGGCTGAGGCAGGAGAATCACTTGAACCCAGGAGGCAGAAGTTACAGTGAGCTGAGATGGTGCCACTGCACTCCAGCCTGGACGACAGAGTGAGACTCCATCTCAAAAAIII-27CCATTCTCCTGCCTCAGCCTCTCAAGTAGCTGGGACTACAGGCGCCCACAACCACGCCCGGCTAATGTTTTTGGTATTTTTCGTAGAGACGGGGTTTCACCTTGTTAGCCAGGATGGTCTTGATCTCCTGACCTCGTGATCTGCCTGCCTCGGCCTCCCAAAGTGTTGGGATTACAGGCACATTTTTCACAATTTTTTAACACTTAAGAATGACTTAACTGAATCATGCCTTTAGAAGAAACTTTCTGTTTAAAAAAAAAAAAAAAIII-60CTGCCGCCGCCCCCAGCTCCCCCGCCTCGGGGAGGGCACCAGGTCACTGCAGCCAGAGGGGTCCAGAAGAGAGAGGAGGCACTGCCTCCACTACAGCAACTGCACCCACGATGCAGAGCATCAAGTGCGTGGTGGTGGGTGATGGGGCTGTGGGCAAGACGTGCCTGCTCATCTGCTACACAACTAACGCTTTCCCCAAAGAGTACATCCCCACCGTGTTCGACAATTACAGCGCGCAGAGCGCAGTTGACGGGCGCACAGTGAACCTGAACCTGTGGGACACTGCGGGCCAGGAGGAGTATGACCGCCTCCGTACACTCTCCTACCCTCAGACCAACGTTTTCGTCATCTGTTTCTCCATTGCCAGTCCGCCGTCCTATGAGAACGTGCGGCACAAGTGGCATCCAGAGGTGTGCCACCACTGCCCTGATGTGCCCATCCTGCTGGTGGGCACCAAGAAGGACCTGAGAGCCCAGCCTGACACCCTACGGCGCCTCAAGGAGCAGGGCCAGGCGCCCATCACACCGCAGCAGGGCCAGGCACTGGCCAAGCAGATCCACGCTGTGCGCTACCTCGAATGCTCAGCCCTGCAACAGGATGGTGTCAAGGAAGTGTTCGCCGAGGCTGTCCGGGCTGTGCTCAACCCCA
CGCCGATCAAGCGTGGGCGGTCCTGCATCCTCTTGTGACCCTGGCACTTGGCTTGGAGGCTGCCCCTGCCCTCCCCCCACCAGTTGTGCCTTGGTGCCTTGTCCGCCTCAGCTGTGCCTTAAGGACTAATTCTGGCACCCCTTTCCAGGGGGTTCCCTGAATGCCTTTTTCTCTGAGTGCCTTTTTCTCCTTAAGGAGGCCTGCAGAGAAAGGGGCTTTGGGCTCTGCCCCCCTCTGCTTGGGAACACTGGGTATTCTCATGAGCTCATCCAAGCCAAGGTTGGACCCCTCCCCAAGAGGCCAACCCAGTGCCCCCTCCCATTTTCCGTACTGACCAGTTCATCCAGCTTTCCACACAGTTGTTGCTGCCTATTGTGGTGCCGCCTCAGGTTAGGGGCTCTCAGCCATCTCTAACCTCTGCCCTCGCTGCTCTTGGAATTGCGCCCCCAAGATGCTCTCTCCCTTCTCCAATGAGGGAGCCACAGAATCCTGAGAAGGTGAATGTGCCCTAACCTGCTCCTCTGTGCCTAGGCCTTACGCATTTGCTGACTGACTCAGCCCCCATGCTTCTGGGGACCTTTCCTACCCCCATCAGCATCAATAAAACCTCCTGTCTCCAGTGAIV-26CAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCCCGCCGCCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCCGCCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAGAGGCCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATCTCATGAGGAGAGGGAACATGCTGAGAAACTGATGAAGCTGCAGAACCAACGAGGTGGCCGAATCTTCCTTCAGGATATCAAGAAACCAGACTGTGATGACTGGGAGAGCGGGCTGAATGCAATGGAGTGTGCATTACATTTGGAAAAAAATGTGAATCAGTCACTACTGGAACTGCACAAACTGGCCACTGACAAAAATGACCCCCATTTGTGTGACTTCATTGAGACACATTACCTGAATGAGCAGGTGAAAGCCATCAAAGAATTGGGTGACCACGTGACCAACTTGCGCAAGATGGGAGCGCCCGAATCTGGCTTGGCGGAATATCTCTTTGACAAGCACACCCTGGGAGACAGTGATAATGAAAGCTAAGCCTCGGGCTAATTTCCCCATAGCCGTGGGGTGACTTCCCTGGTCACCAAGGCAGTGCATGCATGTTGGGGTTTCCTTTACCTTTTCTATAAGTTGTACCAAAACATCCACTTAAGTTCTTTGATTTGTACCATTCCTTCAAATAAAGAAATTTGGTACCCAAAAAAAAIV-41GCCATTTCTAAGACCTACAGCTACCTGACCCCCGACCTCTGGAAGGAGACTGTATTCACCAAGTCTCCCTATCAGGAGTTCACTGACCACCTCGTCAAGACCCACACCAGAGTCTCCGTGCAGCGGACTCAGGCTCCAGCTGTGGCTACAACATAGGGTTTTTATACAAGAAAAATAAAGTGAATTAAGCGTGAAAAIV-51
ATTTCTGTGGATACAGTGCCCACCGCCCTCCTCCACTTGGAAACGGTATCCTCCCTGCCCATCCGTCTGTCTGTCGCCCTTCTCCCGGCCCTCACTAAGCCCCGGCACTTCTAGTGGTCTCACCTGGAGGCAAGAGGGAGGGGACAGAGGCCCTGCCACGTCCCGCTGCCTCCTGCTCTCTGGAGGTACTGAGACAGGGTGCTGATGGGAAGGAGGGGAGCCTTTGGGGGGCCACCCGGGGCCTGGACCTATGCAGGGAGGCCACGTCCCACCCCACCTCTTGTTTCTGGGTCCCTGCTCCCCTTTGGGGGTGTGTGTGTGTGTTTTAATTTTCTTTATGGAAAAATTGACAAAAAAAAATAGAGAGAGAGGTATTTAACTGCAATAAACTGGCCCCATGTGGCCCCCGCCTTGTCAAAAAAAAAAV-09TGGATTCCCGTCGTAACTTAAAGGGAAACTTTCACAATGTCCGGAGCCCTTGATGTCCTGCAAATGAAGGAGGAGGATGTCCTTAAGTTCCTTGCAGCAGGAACCCACTTAGGTGGCACCAATCTTGACTTCCAGATGGAACAGTACATCTATAAAAGGAAAAGTGATGGCATCTATATCATAAATCTCAAGAGGACCTGGGAGAAGCTTCTGCTGGCAGCTCGTGCAATTGTTGCCATTGAAAACCCTGCTGATGTCAGTGTTATATCCTCCAGGAATACTGGCCAGAGGGCTGTGCTGAAGTTTGCTGCTGCCACTGGAGCCACTCCAATTGCTGGCCGCTTCACTCCTGGAACCTTCACTAACCAGATCCAGGCAGCCTTCCGGGAGCCACGGCTTCTTGTGGTTACTGACCCCAGGGCTGACCACCAGCCTCTCACGGAGGCATCTTATGTTAACCTACCTACCATTGCGCTGTGTAACACAGATTCTCCTCTGCGCTATGTGGACATTGCCATCCCATGCAACAACAAGGGAGCTCACTCAGTGGGTTTAATGTGGTGGATGCTGGCTCGGGAAGTTCTGCGCATGCGTGGCACCATTTCCCGTGAACACCCATGGGAGGTCATGCCTGATCTGTACTTCTACAGAGATCCTGAAGAGATTGAAAAAGAAGAGCAGGCTGCTGCTGAGAAGGCAGTGACCAAGGAGGAATTTCAGGGTGAATGGACTGCTCCCGCTCCTGAGTTCACTGCTACTCAGCCTGAGGTTGCAGACTGGTCTGAAGGTGTACAGGTGCCCTCTGTGCCTATTCAGCAATTCCCTACTGAAGACTGGAGCGCTCAGCCTGCCACGGAAGACTGGTCTGCAGCTCCCACTGCTCAGGCCACTGAATGGGTAGGAGCAACCACTGACTGGTCTTAAGCTGTTCTTGCATAGGCTCTTAAGCAGCATGGAAAAATGGTTGATGGAAAATAAACATCAGTTTCTV-38GTTTAAATTTGACAAACTAAAGCTAATTACTGCTATAAGAGTAATAACTGCTCATTTTCCATAACTCATTCTTAAAGTTTTAGTAATGTAAAAGTTATTTTTTTGCAGTAAGTTATAATGATAGAAGCTTACATGTTTTTTCATGCCTCATCTGTTTCCCCTTAAAACTATAATTATCAGTAAAGTCCTGTGGTATTTTTCAATTTGTAAGAAACTAGGCTATATATACATTGGGAAAAACAGCCTTCATTTGTCAATGCACTAGTGTTCCAAAGGTTTCTGGTAATTGTGTGCTATTGCTTTTTGTTGACTTGCAAAAAAAAA
AAAAAAAAAATTACTATGACTTGTGGTAGCCCTGCAACCTTCGGAAGTGCTTAGCCCAGTCTGACCATACATTTATATTTAGAATGCTTAGGTAAATAAATAATATGCCTAAACCCAATGCTATAAGATACTATATAATATCTCATAATTTTAAAAATCACTGTTTTGTATAATAATAAAACAAGGCAGGCAAGCTGTTCTACAATGACTGTTGGTAAGGGTGCTGAGGAAGAAAAACAAACAATCTTGATTCAGGGATAGTGAATAGACAAAAAATGTCCTAATCAATGAAGCTGTGTGATGATTCTGATTGACAGAGAGTGCTGCCACAAGATTCTTAGGCTACACTCAAATCAGCAGAAAAAGTGCTACAATAAATTAGAAGTGACTATTACAGGTGCAGATGAGGGTTGGTAGTACCTGTTTGCCATTTCTCTTCTAATCTTATATTTTCTGACCCTCCTACTGTAAGTCGCGCGGAGGCGGAGGCTTGGGTGCGTTCAAGATTCAACTTCACCCGTAACCCACCGCCATGGCCGAGGAAGGCATTGCTGCTGGAGGTGTAATGGACGTTAATACTGCTTTACAAGAGGTTCTGAAGACTGCCCTCATCCACGATGGCCTAGCACGTGGAATTCGCGAAGCTGCCAAAGCCTTAGACAAGCGCCAAGCCCATCTTTGTGTGCTTGCATCCAACTGTGATGAGCCTATGTATGTCAAGTTGGTGGAGGCCCTTTGTGCTGAACACCAAATCAACCTAATTAAGGTTGATGACAACAAGAAACTAGGAGAATGGGTAGGCCTTTGTAAAATTGACAGAGAGGGGAAACCCCGTAAAGTGGTTGGTTGCAGTTGTGTAGTAGTTAAGGACTATGGCAAGGAGTCTCAGGCCAAGGATGTCATTGAAGAGTATTTCAAATGCAAGAAATGAAGAAATAAATCTTTGGCTCACAAAVI-44GAGAATGGCTTGAACCCAGTAGGCAGAGGTTGTAGTGAGCCGAGATTGGGCCACTGCACTTTAGCCTGGGTGACAGAGTGAGACTCTGTCTCAAAAAAAAAAAAAAAAAATTTAAATAAAATAAAAAACCTTTACTTATTTTTAAATTGGGTTGTCTTTTTGGTATTGAGTTGTTAAAGTTCTTTATATATTTTAGGTACAAATCCCTTATGAGATACGTGATTTGAAAATATTTTCTCCCATTCTGTGGGTTGCTTTTTCACTTTCTTGGTTGTATCCTTTGAAGCACAGAAGTTTTAAATTTTGATGAAGTCCAGTTTATTTATTTTTTTGCTGTTGTTTCTGCTCATACTTTTGAGGTCATGTCTGAGAAACCATTGTCAAATCCAAGGTCGTGATGACTTACCCCTGTGTTTTCTTCTAAGAGTTTTAAAGGCATCTGAAGCTTAATGTGCACTAGATGGATTCTAAATATCATCTCATCCAAAACCTGCTATATATACTACCTTCCTCATCTCAGTTGAAGGCAAGTCCATTGTTTCAATTGCCTGGGCAAAAAATATTCTAAATAATTCATAATTTTTCCTCAACTCCACATCTATTGGTAAATCCTGTGGGTTCTCCTTTTAAAACATATCCAAAATAGAATCATTTCTCACTATCATTCCACTGCAGGCACCAAGTCTCAATAGTCTCCTAGCAGATAATCATGTCTACATTTATTCTCAATGTAGCAGCTAGAGAGCTTTTTGVI-49GCGGTCGTAAGGGCTGAGGATTTTTGGTCCGCACGCTCCTGCTCCTGACTCACC
GCTGTTCGCTCTCGCCGAGGAACAAGTCGGTCAGGAAGCCCGCGCGCAACAGCCATGGCTTTTAAGGATACCGGAAAAACACCCGTGGAGCCGGAGGTGGCAATTCACCGAATTCGAATCACCCTAACAAGCCGCAACGTAAAATCCTTGGAAAAGGTGTGTGCTGACTTGATAAGAGGCGCAAAAGAAAAGAATCTCAAAGTGAAAGGACCAGTTCGAATGCCTACCAAGACTTTGAGAATCACTACAAGAAAAACTCCTTGTGGTGAAGGTTCTAAGACGTGGGATCGTTTCCAGATGAGAATTCACAAGCGACTCATTGACTTGCACAGTCCTTCTGAGATTGTTAAGCAGATTACTTCCATCAGTATTGAGCCAGGAGTTGAGGTGGAAGTCACCATTGCAGATGCTTAAGTCAACTATTTTAATAAATTGATGACCAGTTGTTAAAAAAAAAAAAAAAAVI-52GAAAAGGGNTNGCNCCCAANGGGCAGAGGTTGGGCTGATGCCGATATTGGGCCNCTGCNCTNCANACCTGGGTGACATGAATGAAACTCTGTCTCACATAAAAACCCAAAAAANCTAAATGAAATAAAAGACCTTTGCTTATTNCTAANTTGGGTACGCVII-15CCCATCCCCTCGACCGCTCGCGTCGCATTTGGCCGCCTCCCTACCGCTCCAAGCCCAGCCCTCAGCCATGGCATGCCCCCTGGATCAGGCCATTGGCCTCCTCGTGGCCATCTTCCACAAGTACTCCGGCAGGGAGGGTGACAAGCACACCCTGAGCAAGAAGGAGCTGAAGGAGCTGATCCAGAAGGAGCTCACCATTGGCTCGAAGCTGCAGGATGCTGAAATTGCAAGGCTGATGGAAGACTTGGACCGGAACAAGGACCAGGAGGTGAACTTCCAGGAGTATGTCACCTTCCTGGGGGCCTTGGCTTTGATVII-32AATTAGAGAGGTGAGGATCTGGTATTTCCTGGACTAAATTCCCCTTGGGGAAGACGAAGGGATGCTGCAGTTCCAAAAGAGAAGGACTCTTCCAGAGTCATCTACCTGAGTCCCAAAGCTCCCTGTCCTGAAAGCCACAGACAATATGGTCCCAAATGACTGACTGCACCTTCTGTGCCTCAGCCGTTYTTGACATCAAGAATCTTCTGTTCCACATCCACACAGCCAATACAATTAGTCAAACCACTGTTATTAACAGATGTAGCAACATGAGAAACGCTTATGTTACAGGTTACATGAGAGCAATCATGTAAGTCTATATGACTTCAGAAATGTTAAAATAGACTAACCTCTAACAACAAATTAAAAGTGATTGTTTCAAGGTGATGCAATTATTGATGACCTATTTTATTTTTCTATAATGATCATATATTACCTTTGTAATAAAACATTATAACCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
VII-48CTTAAGTATGCCCTGACAGGAGATGAAGTAAAGAAGATTTGCATGCAGCGGTTCATTAAAATCGATGGCAAGGTCCGAACTGATATAACCTACCCTGCTGGATTCATGGATGTCATCAGCATTGACAAGACGGGAGAGAATTTCCGTCTGATCTATGACACCAAGGGTCGCTTTGCTGTACATCGTATTACACCTGAGGAGGCCAAGTACAAGTTGTGCAAAGTGAGAAAGATCTTTGTGGGCACAAAAGGAATCCCTCATCTGGTGACTCATGATGCCCGCACCATCCGCTACCCCGATCCCCTCATCAAGGTGAATGATACCATTCAGATTGATTTAGAGACTGGCAAGATTACTGATTTCATCAAGTTCGACACTGGTAACCTGTGTATGGTGACTGGAGGTGCTAACCTAGGAAGAATTGGTGTGATCACCAACAGAGAGAGGCACCCTGGATCTTTTGACGTGGTTCACGTGAAAGATGCCAATGGCAACAGCTTTGCCACTCGACTTTCCAACATTTTTGTTATTGGCAAGGGCAACAAACCATGGATTTCTCTTCCCCGAGGAAAGGGTATCCGCCTCACCATTGCTGAAGAGAGAGACAAAAGACTGGCGGCCAAACAGAGCAGTGGGTGAAATGGGTCCCTGGGTGACATGTCAGATCTTTGTACGTAATTAAAAATATTGTGGCAGGATTAATAGCCVII-76AGACACACGAGCATATTTCACCTCCGCTACCATAATCATCGCTATCCCCACCGGCGTCAAAGTATTTAGCTGACTCGCCACACTCCACGGAAGCAATATGAAATGATCTGCTGCAGTGCTCTGAGCCCTAGGATTCATCTTTCTTTTCACCGTAGGTGGCCTGACTGGCATTGTATTAGCAAACTCATCACTAGACATCGTACTACACGACACGTACTACGTTGTAGCCCACTTCCACTATGTCCTATCAATAGGAGCTGTATTTGCCATCATAGGAGGCTTCATTCACTGATTTCCCCTATTCTCAGGCTACACCCTAGACCAAACCTACGCCAAAATCCATTTCACTATCATATTCATCGGCGTAAATCTAACTTTCTTCCCACAACACTTTCTCGGCCTATCCGGAATGCCCCGACGTTACTCGGACTACCCCGATGCATACACCACATGAAACATCCTATCATCTGTAGGCTCATTCATTTCTCTAACAGCAGTAATATTAATAATTTTCATGATTTGAGAAGCCTTCGCTTCGAAGCGAAAAGTCCTAATAGTAGAAGAACCCTCCATAAACCTGGAGTGACTATATGGATGCCCCCCACCCTACCACACATTCGAAGAACCCGTATACATIX-24AGAGTGCAAGACGATGACTTGCAAAATGTCGCAGCTGGAACGCAACATAGAGACCATCATCAACACCTTCCACCAATACTCTGTGAAGCTGGGGCACCCAGACACCCTGAACCAGGGGGAATTCAAAGAGCTGGTGCGAAAAGATCTGCAAAATTTTCTCAAGAAGGAGAATAAGAATGAAAAGGTCATAGAACACATCATGGAGGACCTGGACACAAATGCAGACAAGCAGCTGAGCTTCGAGGAGTTCATCATGCTGATGGCGAGGCTAACCTGGGCCTCCCACGAGAAGATGCACGAGGGTGACGAGGGCCCTGGCCACCA
CCATAAGCCAGGCCTCGGGGAGGGCACCCCCTAAGACCACAGTGGCCAAGATCACAGTGGCCACGGCCACGGCCACAGTCATGGTGGCCACGGCCACAGCCACTAATCAGGAGGCCAGGCCACCCTGCCTCTACCCAACCAGGGCCCCGGGGCCTGTTATGTCAAACTGTCTTGGCTGTGGGGCTACGGGCTGGGGCCAAATAAAGTCTCTTCCTCCAAAAAAAAIX-39CTTGGCTCCTGTGGAGGCCTGCTGGGAACGGGACTTCTAAAAGGAACTATGTCTGGAAGGCTGTGGTCCAAGGCCATTTTTGCTGGCTATAAGCGGGGTCTCCGGAACCAAAGGGAGCACACAGCTCTTCTTAAAATTGAAGGTGTTTACGCCCGAGATGAAACAGAATTCTATTTGGGCAAGAGATGCGCTTATGTATATAAAGCAAAGAACAACACAGTCACTCCTGGCGGCAAACCAAACAAAACCAGAGTCATCTGGGGAAAAGTAACTCGGGCCCATGGAAACAGTGGCATGGTTCGTGCCAAATTCCGAAGCAATCTTCCTGCTAAGGCCATTGGACACAGAATCCGAGTGATGCTGTACCCCTCAAGGATTTAAACTAACGAAAAATCAATAAATAAATGTGGATTTGTGCTCTTGTAIX-46ACGCGAGATGGCAGTGCAAATATCCAAGAAGAGGAAGTTTGTCGCTGATGGCATCTTCAAAGCTGAACTGAATGAGTTTCTTACTCGGGAGCTGGCTGAAGATGGCTACTCTGGAGTTGAGGTGCGAGTTACACCAACCAGGACAGAAATCATTATCTTAGCCACCAGAACACAGAATGTTCTTGGTGAGAAGGGCCGGCGGATTCGGGAACTGACTGCTGTAGTTCAGAAGAGGTTTGGCTTTCCAGAGGGCAGTGTAGAGCTTTATGCTGAAAAGGTGGCCACTAGAGGTCTGTGTGCCATTGCCCAGGCAGAGTCTCTGCGTTACAAACTCCTAGGAGGGCTTGCTGTGCGGAGGGCCTGCTATGGTGTGCTGCGGTTCATCATGGAGAGTGGGGCCAAAGGCTGCGAGGTTGTGGTGTCTGGGAAACTCCGAGGACAGAGGGCTAAATCCATGAAGTTTGTGGATGGCCTGATGATCCACAGCGGAGACCCTGTTAACTACTACGTTGACACTGCTGTGCGCCACGTGTTGCTCAGACAGGGTGTGCTGGGCATCAAGGTGAAGATCATGCTGCCCTGGGACCCAACTGGTAAGATTGGCCCTAAGAAGCCCCTGCCTGACCACGTGAGCATTGTGGAACCCAAAGATGAGATACTGCCCACCACCCCCATCTCAGAACAGAAGGGTGGGAAGCCAGAGCCGCCTGCCATGCCCCAGCCAGTCCCCACAGCATAACAGGGTCTCCTTGGCAGCTGTATTCTGGAGTCTGGATGTTGCTCTCTAAAGACCTTTAATAAAATTTTGTIX-50GTCCATCCTGCAGGCCACAAGCTCTGGATGAGGAACTTGAGGCAAGTCACCAGCCCCTGATCATTTCGCCTAAAAGAGCAAGGACTAGAGTTCCTGACCTCCAGGCCAGTCCCTGATCCCTGACCTAATGTTATCGCGGAATGATGATATATGTATCTACGG
GGGCCTGGGGCTGGGCGGGCTCCTGCTTCTGGCAGTGGTCCTTCTGTCCGCCTGCCTGTGTTGGCTGCATCGAAGAGTAAAGAGGCTGGAGAGGAGCTGGGCCCAGGGCTCCTCAGAGCAGGAACTCCACTATGCATCTCTGCAGAGGCTGCCAGTGCCCAGCAGTGAGGGACCTGACCTCAGGGGCAGAGACAAGAGAGGCACCAAGGAGGATCCAAGAGCTGACTATGCCTGCATTGCTGAGAACAAACCCACCTGAGCACCCCAGACACCTTCCTCAACCCAGGCGGGTGGACAGGGTCCCCCTGTGGTCCAGCCAGTAAAAACCATGGTCCCCCCACTTCTGTGTCTCAGTCCTCTCAGTCCATCTCGAGCCTCCGTTCAAAATGATCATCATCAAAACTTATGTGGCTTTTTGACCTTTGAATAGGGAATTTTTTAAATTTTTTAAAAATTAAAATAAAAAAAACACATGGCTCACCCTTCCACCCAAAAAAAAAAX-77CCTCCCGGGCTCTTAAGCCCCTCTCTTTCTCTAACAGAAAAAGCGGATGGTGGTTCCTGCTGCCCTCAAGGTCGTGCGTCTGAAGCCTACAAGAAAGTTTGCCTATCTGGGGCGCCTGGCTCACGAGGTTGGCTGGAAGTACCAGGCAGTGACAGCCACCCTGGAGGAGAAGAGGAAAGAGAAAGCCAAGATCCACTACCGGAAGAAGAAACAGCTCATGAGGCTACGGAAACAGGCCGAGAAGAACGTGGAGAAGAAAATTGACAAATACACAGAGGTCCTCAAGACCCACGGACTCCTGGTCTGAGCCCAATAAAGACTGTTAATTCCTCATGCGTTGCCTGCCCTTCCTCCATTGTTGCCCTGGAATGTACGGGACCCAGGGGCAGCAGCAGTCCAGGTGCCACAGGCAGCCCTGGGACATAGGAAGCTGGGAGCAAGGAAAGGGTCTTAGTCACTGCCTCCCGAAGTTGCTTGAAAGCACTCGGAGAATTGTGCAGGTGTCATTTATCTATGACCAATAGGAAGAGCAACCAGTTACTATGAGTGAAAGGGAGCCAGAAGACTGATTGGAGGGCCCTATCTTGTGAGTGGGGCATCTGTTGGACTTTCCACCTGGTCATATACTCTGCAGCTGTTAGAATGTGCAAGCACTTGGGGACAGCATGAGCTTGCTGTTGTACACAGGGTATTXI-13CTGCCAACATGGTGTTCAGGCGCTTCGTGGAGGTTGGCCGGGTGGCCTATGTCTCCTTTGGACCTCATGCCGGAAAATTGGTCGCGATTGTAGATGTTATTGATCAGAACAGGGCTTTGGTCGATGGACCTTGCACTCAAGTGAGGAGACAGGCCATGCCTTTCAAGTGCATGCAGCTCACTGATTTCATCCTCAAGTTTCCGCACAGTGCCCACCAGAAGTATGTCCGACAAGCCTGGCAGAAGGCAGACATCAATACAAAATGGGCAGCCACACGATGGGCCAAGAAGATTGAAGCCAGAGAAAGGAAAGCCAAGATGACAGATTTTGATCGTTTTAAAGTTATGAAGGCAAAGAAAATGAGGAACAGAATAATCAAGAATGAAGTTAAGAAGCTTCAAAAGGCAGCTCTCCTGAAAGCTTCTCCCAAAAAAGCACCTGGTACTAAGGGTACTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTAAAGTTCCAGCAAAAAAGATCACCGCCGCGAGTAAAA
AGGCTCCAGCCCAGAAGGTTCCTGCCCAGAAAGCCACAGGCCAGAAAGCAGCGCCTGCTCCAAAAGCTCAGAAGGGTCAAAAAGCTCCAGCCCAGAAAGCACCTGCTCCAAAGGCATCTGGCAAGAAAGCATAAGTGGCAATCATAAAAAGTAATAAAGGTTCTTTTTGACCTGTTAAAAAAXI-49GATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATCTCATGAGGAGAGGGAACATGCTGAGAAACTGATGAAGCTGCAGAACCAACGAGGTGGCCGAATCTTCCTTCAGGATATCAAGAAACCAGACTGTGATGACTGGGAGAGCGGGCTGAATGCAATGGAGTGTGCATTACATTTGGAAAAAAATGTGAATCAGTCACTACTGGAACTGCACAAACTGGCCACTGACAAAAATGACCCCCATTTGTGTGACTTCATTGAGACACATTACCTGAATGAGCAGGTGAAAGCCATCAAAGAATTGGGTGACCACGTGACCAACTTGCGCAAGATGGGAGCGCCCGAATCTGGCTTGGCGGAATATCTCTTTGACAAGCACACCCTGGGAGACAGTGATAATGAAAGCTAAGCCTCGGGCTAATTTCCCCATAGCCGTGGGGTGACTTCCCTGGTCACCAAGGCAGTGCATGCATGTTGGGGTTTCCTTTACCTTTTCTATAAGTTGTACCAAAACATCCACTTAAGTTCTTTGATTTGTACCATTCCTTCAAATAAAGAAATTTGGTACCCXI-81AGAGCAGCAGCCATGGCCCTACGCTACCTATGGCCGTGGGCCTCAACAAGGGCCACAAAGTGACCAAGAACGTGAGCAAGCCCAGGCACAGCCGACGCCGCGGGCGTCTGACCAAACACACCAAGTTCGTGCGGGACATGATTCGGGAGGTGTGTGGCTTTGCCCCGTACGAGCGGCGCGCCATGGAGTTACTGAAGGTCTCCAAGGACAAACGGGCCCTCAAATTTATCAAGAAAAGGGTGGGGACGCACATCCGCGCCAAGAGGAAGCGGGAGGAGCTGAGCAACGTACTGGCCGCCATGAGGAAAGCTGCTGCCAAGAAAGACTGAGCCCCTCCCCTGCCCTCTCCCTGAAATAAAXII-35CTCTCCTGTCAACAGCGGCCAGCCTCCCAACTACGAGATGCTCAAGGAGGAGCAGGAAGTGGCTATGCTGGGGGCGCCCCACAACCCTGCTCCCCCGACGTCCACCGTGATCCACATCCGCAGCGAGACCTCCGTGCCCGACCATGTCGTCTGGTCCCTGTTCAACACCCTCTTCATGAACACCTGCTGCCTGGGCTTCATAGCATTCGCCTACTCCGTGAAGTCTAGGGACAGGAAGATGGTTGGCGACGTGACCGGGGCCCAGGCCTATGCCTCCACCGCCAAGTGCCTGAACATCTGGGCCCTGATTTTGGGCATCTTCATGACCATTCTGCTCGTCATCATCCCAGTGTTGGTCGTCCAGGCCCAGCGATAGATCAGGAGGCATCATTGAGGCCAGGAGCTCTGCCCGTGACCTGTATCCCACGTACT
CTATCTTCCATTCCTCGCCCTGCCCCCAGAGGCCAGGAGCTCTGCCCTTGACCTGTATTCCACTTACTCCACCTTCCATTCCTCGCCCTGTCCCCACAGCCGAGTCCTGCATCAGCCCTTTATCCTCACACGCTTTTCTACAATGGCATTCAATAAAGTGTATATGTTTCTGGTGCTGCTGTGACTTCAAXII-77GTAAGAAAGCCCTTAAATAAAGAAGGTAAGAAACCTAGGACCAAAGCACCCAAGATTCAGCGTCTTGTTACTCCACGTGTCCTGCAGCACAAACGGCGGCGTATTGCTCTGAAGAAGCAGCGTACCAAGAAAAATAAAGAAGAGGCTGCAGAATATGCTAAACTTTTGGCCAAGAGAATGAAGGAGGCTAAGGAGAAGCGCCAGGAACAAATTGCGAAGAGACGCAGACTTTCCTCTCTGCGAGCTTCTACTTCTAAGTCTGAATCCAGTCAGAAATAAGATTTTTTGAGTAACAAATAAATAAGATCAGACTCTGAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAXIII-29CTCGCTCACGCAGCACTCGTGGCAGTCCCTGAAGGACCGCTACCTCAAGCACCTGCGGGGCCAGGAGCATAAGTACCTGCTGGGGGACGCGCCGGTGAGCCCCTCCTCCCAGAAGCTCAAGCGGAAGGCGGAGGAGGACCCGGAGGCCGCGGATAGCGGGGAACCACAGAATAAGAGAACTCCAGATTTGCCTGAAGAAGAGTATGTGAAGGAAGAAATCCAGGAGAATGAAGAAGCAGTCAAAAAGATGCTTGTGGAAGCCACCCGGGAGTTTGAGGAGGTTGTGGTGGATGAGAGCCCTCCTGATTTTGAAATACATATAACTATGTGTGATGATGATCCACCCACACCTGAGGAAGACTCAGAAACACAGCCTGATGAGGAGGAAGAAGAAGAAGAAGAAAAAGTTTCTCAACCAGAGGTGGGAGCTGCCATTAAGATCATTCGGCAGTTAATGGAGAAGTTTAACTTGGATCTATCAACAGTTACACAGGCCTTCCTAAAAAATAGTGGTGAGCTGGAGGCTACTTCCGCCTTCTTAGCGTCTGGTCAGAGAGCTGATGGATATCCCATTTGGTCCCGACAAGATGACATAGATTTGCAAAAAGATGATGAGGATACCAGAGAGGCATTGGTCAAAAAATTTGGTGCTCAGAATGTAGCTCGGAGGATTGAATTTCGAAAGAAATAATTGGCAAGATAATGAGAAAAGAAAAAAGTCATGGTAGGTGAGGTGGTTAAAAAAAATTGTGACCAATGAACTTTAGAGAGTTCTTGCATTGGAACTGGCACTTATTTTCTGACCATCGCTGCTGTTGCTCTGTGAGTCCTAGATTXIII-84ATTATCCTCAGTTCCCAAGAGCAATCATACTTTTCCACACATACCGTGTGTCTCATGTTAGGTAAATGTATTTTTACAATGAGCACCACTTCTGTGGAAAAAGTTCCCTGCACGGGGAGGTCCAGCTTCCAGACTGCTCCATCGCATAAGGACTTCCCCATTCCCCTAAATGCTGCTCTGTCAGAACCTGCCCAGGTAATGGTAATGACCCTAGAG
AGATGATTTCTGAACCGCAATTTTGAGCCCATTAGAAGGTGTGTGGTGGGCATTTATTTCATCCTGATGCTCTGGTGAGAATCTTTGCAGACGCACTAGATCCAGAAGCTGTTAATCTTGGTGCATTTATTTTCCTACCTAAAAGAACCAAGCAGCTCAGAGGCAGTGACTGTACAGGATGCAGTGTTTATAATAATGCTGAGCTTGCTGGTCTGGAACCCCACACTTCAGCAATCCCAGCATTGTTCCTGTTTATGAAGTTGACAAAGTGACCAGGGCAAGGGGGTATTATCATTAAATACACTCTAGGAGAGGCAGAACACATGAGGGCAATGTTTTTCAGAGGTCTTTAGGCCACCGCATCAGATTCTCCTGGAGCATAAAGCAAATGCTTTATGAGTCCAGGGCCCCTGCAGACCTACTGTATACTAGTATACAGCTCCCTCTTAGTGGATCTCAAGCTTGTTTCCAAAAAGTCATTACACTCCTTACCAAAGCCCATGACACATTCATACAGATTCATCCAGACATAACCCACTGCATGGTCCAGTGCATGCTTGTGTGCTTAACTTATTATAGATCAAGTGTTATTTAAGTCCAACATATTAAACGTGACTGAATATTXV-49AAGTCTGCCCAGAAAGCTCAGAAGGCTAAATGAATATTATCCCTAATACCTGCCACCCCACTCTTAATCAGTGGTGGAAGAACGGTCTCAGAACTGTTTGTTTCAATTGGCCATTTAAGTTTAGTAGTAAAAGACTGGTTAATGATAACAATGCATCGTAAAACCTTCAGAAGGAAAGGAGAATGTTTTGTGGACCACTTTGGTTTTCTTTTTTGCGTGTGGCAGTTTTAAGTTATTAGTTTTTAAAATCAGTACTTTTTAATGGAAACAACTTGACCAAAAATTTGTCACAGAATTTTGAGACCCATTAAAAAAGTTAAATGAGXV-54AAGAGCAGGTCTCTGGAGGCTGAGTTGCATGGGGCCTAGTAACACCAAGCCAGTGAGCCTCTAATGCTACTGCGCCCTGGGGGCTCCCAGGGCCTGGGCAACTTAGCTGCAACTGGCAAAGGAGAAGGGTAGTTTGAGGTGTGACACCAGTTTGCTCCAGAAAGTTTAAGGGGTCTGTTTCTCATCTCCATGGACATCTTCAACAGCTTCACCTGACAACGACTGTTCCTATGAAGAAGCCACTTGTGTTTTAAGCAGAGGCAACCTCTCTCTTCTCCTCTGTTTCGTGAAGGCAGGGGACACAGATGGGAGAGATTGAGCCAAGTCAGCCTTCTGTTGGTTAATATGGTATAATGCATGGCTTTGTGCACAGCCCAGTGTGGGATTACAGCTTTGGGATGACCGCTTACAAAGTTCTGTTTGGTTAGTATTGGCATAGTTTTTCTATATAGCCATAAATGCGTATATATACCCATAGGGCTAGATCTGTATCTTAGTGTAGCGATGTATACATATACACATCCACCTACATGTTGAAGGGCCTAACCAGCCTTGGGAGTATTGACTGGTCCCTTACCTCTTATGGCTAAGTCTTTGACTGTGTTCATTTACCAAGTTGACCCAGTTTGTCTTTTAGGTTAAGTAAGACTCGAGAGTAAAGGCAAGGAGGGGGGCCAGCCTCTGAATGCGGCCACGGATGCCTTGCTGCTGCAACCCTTTCCCCAGCTGTCCACTGAAACGTGAAGTCCTGTTTTGAATGCCAAACCCACCATTCACTGGTGCTGACTACATAGAATGGGGTTGAGAGAAGATCAGTTTGGGCTTCACAGTGTCATTTGAAAACGTTTTTTGTTTTGTTTTGTA
ATTATTGTGGAAAACTTTCAAGTGAACAGAAGGATGGTGTCCTACTGTGGATGAGGGATGAACAAGGGGATGGCTTTGATCCAATGGAGCCTGGGAGGTGTGCCCAGAAAGCTTGTCTGTAGCGGGTTTTGTGAGAGTGAACACTTTCCACTTTTTGACACCTTATCCTGATGTATGGTTCCAGGATTTGGATTTTGATTTTCCAAATGTAGCTTGAAATTTCAATAAACTTTGCTCTGTTTTTCTAAAAATAAAAAAAAAAAAAAAAAAAAAAAAAAXV-75AGCAGATGACCCTTCGTGGCACCCTCAAGGGCCACAACGGCTGGGTAACCCAGATCGCTACTACCCCGCAGTTCCCGGACATGATCCTCTCCGCCTCTCGAGATAAGACCATCATCATGTGGAAACTGACCAGGGATGAGACCAACTATGGAATTCCACAGCGTGCTCTGCGGGGTCACTCCCACTTTGTTAGTGATGTGGTTATCTCCTCAGATGGCCAGTTTGCCCTCTCAGGCTCCTGGGATGGAACCCTGCGCCTCTGGGATCTCACAACGGGCACCACCACGAGGCGATTTGTGGGCCATACCAAGGATGTGCTGAGTGTGGCCTTCTCCTCTGACAACCGGCAGATTGTCTCTGGATCTCGAGATAAAACCATCAAGCTATGGAATACCCTGGGTGTGTGCAAATACACTGTCCAGGATGAGAGCCACTCAGAGTGGGTGTCTTGTGTCCGCTTCTCGCCCAACAGCAGCAACCCTATCATCGTCTCCTGTGGCTGGGACAAGCTGGTCAAGGTATGGAACCTGGCTAACTGCAAGCTGAAGACCAACCACATTGGCCACACAGGCTATCTGAACACGGTGACTGTCTCTCCAGATGGATCCCTCTGTGCTTCTGGAGGCAAGGATGGCCAGGCCATGTTATGGGATCTCAACGAAGGCAAACACCTTTACACGCTAGATGGTGGGGACATCATCAACGCCCTGTGCTTCAGCCCTAACCGCTACTGGCTGTGTGCTGCCACAGGCCCCAGCATCAAGATCTGGGATTTAGAGGGAAAGATCATTGTAGATGAACTGAAGCAAGAAGTTATCAGTACCAGCAGCAAGGCAGAACCACCCCAGTGCACCTCCCTGGCCTGGTCTGCTGATGGCCAGACTCTGTTTGCTGGCTACACGGACAACCTGGTGCGAGTGTGGCAGGTGACCATTGGCACACGCTAGAAGTTTATGGCAGAGCTTTACAAATAAAAAAAAAACTGGCTTTTCTGACAAAAAAAAAAXV-86GCAAAATGTCGCAGCTGGAACGCAACATAGAGACCATCATCAACACCTTCCACCAATACTCTGTGAAGCTGGGGCACCCAGACACCCTGAACCAGGGGGAATTCAAAGAGCTGGTGCGAAAAGATCTGCAAAATTTTCTCAAGAAGGAGAATAAGAATGAAAAGGTCATAGAACACATCATGGAGGACCTGGACACAAATGCAGACAAGCAGCTGAGCTTCGAGGAGTTCATCATGCTGATGGCGAGGCTAACCTGGGCCTCCCACGAGAAGATGCACGAGGGTGACGAGGGCCCTGGCCACCACCATAAGCCAGGCCTCGGGGAGGGCACCCCCTAAGACCACAGTGGCCAAGATCACAGTGGCCACGGCCACGGCC
ACAGTCATGGTGGCCACGGCCACAGCCACTAATCAGGAGGCCAGGCCACCCTGCCTCTACCCAACCAGGGCCCCGGGGCCTGTTATGTCAAACTGTCTTGGCTGTGGGGCTAGGGGCTGGGGCCAAATAAAGTCTCTTCCTCCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAXVI-74CGCCGCCGCGCCGCCGTCGCTCTCCAACGCCAGCGCCGCCTCTCGCTCGCCGAGCTCCAGCCGAAGGAGAAGGGGGGTAAGTAAGGAGGTCTCTGTACCATGGCTCGTACAAAGCAGACTGCCCGCAAATCGACCGGTGGTAAAGCACCCAGGAAGCAACTGGCTACAAAAGCCGCTCGCAAGAGTGCGCCCTCTACTGGAGGGGTGAAGAAACCTCATCGTTACAGGCCTGGTACTGTGGCGCTCCGTGAAATTAGACGTTATCAGAAGTCCACTGAACTTCTGATTCGCAAACTTCCCTTCCAGCGTCTGGTGCGAGAAATTGCTCAGGACTTTAAAACAGATCTGCGCTTCCAGAGCGCAGCTATCGGTGCTTTGCAGGAGGCAAGTGAGGCCTATCTGGTTGGCCTTTTTGAAGACACCAACCTGTGTGCTATCCATGCCAAACGTGTAACAATTATGCCAAAAGACATCCAGCTAGCACGCCGCATACGTGGAGAACGTGCTTAAGAATCCACTATGATGGGAAACATTTCATTCTCAAAAAAAAAAAAAAAAAATTTCTCTTCTTCCTGTTATTGGTAGTTCTGAACGTTAGATATTTTTTTTCCATGGGGTCAAAAGGTACCTAAGTATATGATTGCGAGTGGAAAAATAGGGGACAGAAATCAGGTATTGGCAGTTTTTCCATTTTCATTTGTGTGTGAATTTTTAATATAAATGCGGAGACGTAAAGCATTAATGCAAGTTAAAATGTTTCAGTGAACAAGTTTCAGCGGTTCAACTTTATAATAATTATAAATAAACCTGTTAAATTTTTCTGGACAATGCCAGCATTTGGATTTTTTTAAAACAAGTAAATTTCTTATTGATGGCAACTAAATGGTGTTTGTAGCATTTTTATCATACAGTAGATTCCATCCATTCACTATACTTTTCTAACTGAGTTGTCCTACATGCAAGTACATGTTTTTAATGTTGTCTGTCTTCTGTGCTGTTCCTGTAAGTTTGCTATTAAAATACATTAAACTATAAAAAAAAAAAAAAAAAAAXVII-77CAGACACCCTGAACCAGGGGGAATTCAAAGAGCTGGTGCGAAAAGATCTGCAAAATTTTCTCAAGAAGGAGAATAAGAATGAAAAGGTCATAGAACACATCATGGAGGACCTGGACACAAATGCAGACAAGCAGCTGAGCTTCGAGGAGTTCATCATGCTGATGGCGAGGCTAACCTGGGCCTCCCACGAGAAGATGCACGAGGGTGACGAGGGCCCTGGCCACCACCATAAGCCAGGCCTCGGGGAGGGCACCCCCTAAGACCACAGTGGCCAAGATCACAGTGGCCACGGCCACGGCCACAGTCATGGTGGCCACGGCCACAGCCACTAATCAGGAGGCCAGGCCACCCTGCCTCTACCCAACCAGGGCCCCGGGGCCTGTTATGTCAAACTGTCTTGGCTGTGGGGCTAGGGGCTGGGGCCAAATAAAGTCTCTTCCTCCAAAAAAAxII-78無可得序列表1樣本詳細資料。0期,原位癌;I期,浸潤性癌,腫瘤大?。?0mm;II期,浸潤性癌,腫瘤大?。?0-50mm;III期,浸潤性癌,腫瘤大?。?0mm。IV期,癌癥傳播至遠部位。IDC,浸潤性導管癌;DCIS,原位導管癌;ILC,浸潤性小葉癌。n.a.,不可得。ND,未確定*。連續(xù)五周從同一女性取血液樣本。
亞組A2初始乳房X線照片異常的女性
亞組A3無乳腺異常的女性
表2通過Jackknife所選擇的35個顯著性基因的詳細資料。顯示了它們在陣列中的位置,克隆識別號,與其匹配的公共數(shù)據(jù)庫中序列的登錄號,及其已知或推定的細胞功能。
上調(diào)基因
下調(diào)基因
表3乳腺癌的信息性探針-家族(i)和(ii)基因
表4乳腺癌的信息性探針-非家族(i)和(ii)基因
表5乳腺癌的信息性探針-家族(i)和(ii)基因
登錄號1和2提供了基因的可選登錄號。相關序列可見NCBI數(shù)據(jù)庫(www.ncbi.nlm.nih.gov)
表6乳腺癌信息性基因-非家族(i)和家族(ii)基因
登錄號如表5中所定義。
權利要求
1.一種制作生物體癌癥或其分期特征性的標準基因轉錄物模式的方法,其包括至少如下步驟a)從患有癌癥或其分期的一種或多種生物體的樣本的細胞分離mRNA,所述mRNA可任選地被逆轉錄為cDNA;b)使步驟(a)的mRNA或cDNA與寡核苷酸探針組雜交,所述寡核苷酸探針組對于與所研究的生物體及其樣本對應的生物體及其樣本中的所述癌癥或其分期是特異性的,其中所述探針組包括至少10種寡核苷酸,其中各寡核苷酸選自與來自下述的基因序列對應的寡核苷酸編碼與蛋白質(zhì)合成和/或穩(wěn)定性有關的蛋白質(zhì)的家族(i)基因;或編碼與防御調(diào)節(jié)和/或染色質(zhì)重塑有關的蛋白質(zhì)的家族(ii)基因;或從所述序列衍生,或是具有互補序列的寡核苷酸,或功能上等同的寡核苷酸;及c)評估與所述各探針雜交的mRNA或cDNA數(shù)量以產(chǎn)生特征性模式,所述特征性模式反映了癌癥或其分期樣本中所述寡核苷酸所結合的基因的基因表達水平。
2.一種制作待測基因轉錄模式的方法,其至少包括下述步驟a)從所述待測生物體的樣本的細胞分離mRNA,所述mRNA可任選地被逆轉錄為cDNA;b)使步驟(a)的mRNA或cDNA與權利要求1所定義的寡核苷酸探針組雜交,所述寡核苷酸探針組對于與所研究的生物體及其樣本對應的生物體及其樣本中的癌癥或其分期是特異性的;及c)評估與所述各探針雜交的mRNA或cDNA數(shù)量以產(chǎn)生所述模式,所述模式反映了在所述待測樣本中所述寡核苷酸所結合的基因的基因表達水平。
3.一種診斷或鑒定或監(jiān)測生物體的癌癥或其分期的方法,其包括下述步驟a)從所述生物體的樣本的細胞分離mRNA,所述mRNA可任選地被逆轉錄為cDNA;b)使步驟(a)的mRNA或cDNA與權利要求1所定義的寡核苷酸探針組雜交,所述寡核苷酸探針組對于與所研究的生物體及其樣本對應的生物體及其樣本中的所述癌癥或其分期是特異性的;c)評估與各所述探針雜交的mRNA或cDNA數(shù)量以產(chǎn)生特征性模式,所述模式反映了在所述樣本中所述寡核苷酸所結合的基因的基因表達水平;以及d)將所述模式與根據(jù)權利要求1的方法使用與所研究的生物體及其樣本對應的生物體的樣本制作的標準診斷模式進行比較,以確定所研究的生物體中所述癌癥或其分期的存在。
4.根據(jù)權利要求1至3任一項所述的方法,其中所述編碼與蛋白合成和/或穩(wěn)定性有關的蛋白質(zhì)的家族(i)基因包括(a)編碼核糖體蛋白和核糖體活化蛋白,優(yōu)選編碼下述蛋白質(zhì)的基因核糖體蛋白L1-L56、L7A、L10A、L13A、L18A、L23A、L27A、L35A、L36A、L37A、P0、P1、P2、S2-S29、S31、S33-S36、S3A、S15A、S18A、S18B、S18C、S27A、63、115(和假基因),核糖體蛋白激酶、核糖核酸酶、推定的S1 RNA結合結構域蛋白質(zhì)、真核翻譯起始因子和鳥嘌呤核苷酸結合蛋白G;(b)編碼翻譯抑制和起始因子,優(yōu)選編碼下述蛋白質(zhì)的基因真核翻譯延伸因子、tRNA合成酶、RNA結合蛋白、聚腺苷酸化元件結合蛋白、酪氨酸磷酸酶、真核翻譯起始因子,及RNA聚合酶I、III轉錄因子;以及(c)編碼轉錄或翻譯的其他調(diào)節(jié)因子,優(yōu)選編碼細胞周期蛋白D-型結合蛋白和鳥嘌呤核苷酸結合蛋白的基因。
5.根據(jù)權利要求1至4任一項所述的方法,其中所述編碼與防御調(diào)節(jié)和/或染色質(zhì)重塑有關的蛋白質(zhì)家族的家族(ii)基因包括(a)編碼免疫應答相關蛋白,優(yōu)選編碼下述蛋白質(zhì)的基因T-細胞受體和相關組分,各種細胞因子,干擾素調(diào)節(jié)因子,制瘤素M,白血病抑制因子,趨化因子配體及受體家族,補體組分,干擾素刺激因子,MHC I類或II類(或相關組分),黏著蛋白,B-細胞中κ多肽基因增強子的核因子,髓鞘堿性蛋白,組織蛋白酶,toll-樣受體,蛋白體亞基,鐵蛋白,蛋白激酶或磷酸酶及其活化物和抑制物,白細胞免疫球蛋白樣受體,免疫球蛋白組分,防衛(wèi)素,催產(chǎn)素,S100鈣結合蛋白,凝集素及其受體和超家族,瘦蛋白,磷脂酶以及生長因子;(b)編碼TNF-誘導蛋白,優(yōu)選編碼下述蛋白質(zhì)的基因TNFα-誘導蛋白8,整聯(lián)蛋白,B-細胞中κ輕鏈多肽基因增強子抑制物,TNF-相關因子2、5,B-細胞中κ輕鏈多肽基因增強子的核因子,MAP激酶,蛋白激酶C,遍在型激酶,鈣黏著蛋白,胱天蛋白酶,細胞周期蛋白D1,超氧化物歧化酶及白細胞介素;(c)編碼低氧誘導蛋白,優(yōu)選編碼下述蛋白質(zhì)的基因sestrin,E1A結合蛋白p300,內(nèi)皮縮血管肽,毛細血管擴張性共濟失調(diào)和Rad3相關蛋白,己糖激酶2,TEK酪氨酸激酶,DNA斷裂因子,胱天蛋白酶,纖溶酶原激活物,低氧誘導因子1及葡糖磷酸異構酶;(d)編碼氧化應激蛋白,優(yōu)選編碼下述蛋白質(zhì)的基因超氧化物歧化酶,谷胱甘肽合成酶,過氧化氫酶,乳過氧化物酶,甲狀腺過氧化物酶,髓過氧化物酶,嗜酸性粒細胞過氧化物酶,氧抗性1,過氧化物氧還蛋白,細胞色素P450,清道夫受體,對氧磷酶,谷胱甘肽還原酶,NAD(P)H脫氫酶,谷胱甘肽 S-轉移酶,聯(lián)蛋白,谷氧還蛋白,熱休克蛋白,促分裂原活化蛋白激酶,烯醇化酶,硫氧還蛋白還原酶及過氧化物氧還蛋白;以及(e)編碼染色質(zhì)重塑有關蛋白的基因,優(yōu)選為編碼組蛋白置換蛋白的基因。
6.根據(jù)權利要求5所述的方法,其中(i)所述細胞因子為白細胞介素或其受體(優(yōu)選IL-1、2、3、4、5、6、7、8、9、10、11、12、13、15、17、18、20、22或24)或腫瘤壞死因子或其受體或其超家族(優(yōu)選TNF超家族成員2、3、4、5、6、7、8、9、11、12、13、14或15);和/或(ii)所述黏著蛋白為CD1A、CD1C、CD1D、CD3Z、6、8、11、14、18、24、27、28、29、40、44、50、54、59、74、79B、80、81、83、86、96或ICAM);和/或(iii)所述免疫球蛋白組分為重鏈或Fc片斷,優(yōu)選IgG、IgE或IgA或其超家族的重鏈或Fc片斷;和/或(iv)所述生長因子為內(nèi)皮細胞生長因子或紅細胞生成素。
7.根據(jù)權利要求1至6任一項所述的一種方法,其中由家族(ii)基因編碼的所述免疫反應蛋白為黏著蛋白,白細胞介素、其受體或超家族,TNF、其受體或超家族,免疫球蛋白組分或紅細胞生成素。
8.根據(jù)權利要求1至7任一項所述的方法,其中在癌癥患者中,相對于正?;颊?,編碼家族(i)的基因下調(diào),編碼家族(ii)的基因上調(diào)。
9.根據(jù)權利要求1至8任一項所述的方法,其中所述探針對應于系統(tǒng)地受所述癌癥或其分期影響的基因。
10.根據(jù)權利要求1至9任一項所述的方法,其中所述基因為組成性中度或高度表達。
11.根據(jù)權利要求1至9任一項所述的方法,其中所述探針組包括來自家族(i)和家族(ii)的寡核苷酸的組合。
12.根據(jù)權利要求4至11任一項所述的方法,其中所述探針組包括來自家族(i)a、家族(ii)a和家族(ii)e的寡核苷酸。
13.根據(jù)權利要求1至12任一項所述的方法,其中所述組包括來自基因的寡核苷酸,所述基因編碼一種或多種核糖體蛋白和任選的一種或多種組蛋白和任選的鐵蛋白。
14.根據(jù)權利要求1至13任一項所述的方法,其中所述各寡核苷酸探針選自表2或3所列的寡核苷酸,或衍生自表2或3所述序列的寡核苷酸,或其互補序列。
15.根據(jù)權利要求14所述的方法,其中所述各寡核苷酸探針選自表2所列的寡核苷酸,或衍生自表2所述序列的寡核苷酸,或其互補序列。
16.根據(jù)權利要求14所述的方法,其中所述各寡核苷酸探針選自表3所列的寡核苷酸,或衍生自表3所述序列的寡核苷酸,或其互補序列。
17.根據(jù)權利要求14至16任一項所述的方法,其中所述組還包括一種或多種寡核苷酸探針,所述一種或多種寡核苷酸探針選自表4所列的寡核苷酸、或衍生自表4所述序列的寡核苷酸,或其互補序列。
18.根據(jù)權利要求14至17任一項所述的方法,其中所述表2、3或4的衍生的寡核苷酸分別為表2、5或6中其登錄號所描述的基因的部分,或其互補序列。
19.根據(jù)權利要求1至18任一項所述的方法,其中所述組由10至500種探針組成。
20.根據(jù)權利要求1至19任一項所述的方法,其中所述探針組固定于一種或多種固體載體上。
21.根據(jù)權利要求1至20任一項所述的方法,其中所述細胞不是疾病細胞,未接觸過疾病細胞,且非源自疾病部位。
22.根據(jù)權利要求1至21任一項所述的方法,其中所述樣本從遠離所述疾病部位的部位獲得。
23.根據(jù)權利要求1至22任一項所述的方法,其中所述樣本為組織、體液或身體廢物。
24.根據(jù)權利要求23所述的方法,其中所述樣本為外周血液。
25.根據(jù)權利要求1至24任一項所述的方法,其中所述癌癥為胃、肺、乳腺、前列腺、腸、皮膚、結腸或卵巢癌,優(yōu)選乳腺癌。
26.根據(jù)權利要求1至25任一項所述的方法,其中所述生物體為哺乳動物,優(yōu)選人類。
27.根據(jù)權利要求1至26任一項所述的方法,其中所述探針組中的至少一種所述探針適于診斷、鑒定或監(jiān)測至少兩種所述癌癥或其分期。
28.用于診斷、鑒定或監(jiān)測生物體中兩種或更多種癌癥或其分期的根據(jù)權利要求3至27任一項所述的診斷、鑒定或監(jiān)測方法,其中診斷方法步驟c)中產(chǎn)生的所述待測模式在步驟d)中與如權利要求1或4至27任一項所定義而制作的至少兩種標準診斷模式進行比較,其中各標準診斷模式是對不同癌癥或其分期生成的模式。
29.根據(jù)權利要求1至28任一項所述的寡核苷酸探針組。
30.一種實施權利要求1至28任一項所述方法的試劑盒,其包括權利要求29所定義的寡核苷酸探針組,所述寡核苷酸探針固定于一種或多種固體載體上。
31.根據(jù)權利要求30所述的試劑盒,其還包括詳細說明應如何實施所述方法的說明書。
32.根據(jù)權利要求29至31任一項所定義的寡核苷酸探針組或試劑盒用于測定細胞的基因表達模式的用途,所述模式反映了所述寡核苷酸探針所結合的基因的基因表達水平,至少包括下述步驟(a)從所述細胞分離mRNA,所述mRNA可任選地逆轉錄為cDNA;(b)使步驟(a)的mRNA或cDNA與權利要求29至31任一項所定義的寡核苷酸探針組或試劑盒雜交;及(c)評估與所述各探針雜交的mRNA或cDNA的數(shù)量以產(chǎn)生所述模式。
33.制作生物體中癌癥或其分期的特征性的標準基因轉錄物模式的方法,其至少包括下述步驟a)從患有癌癥或其分期的一種或多種生物體的樣本釋放出目標多肽;b)使所述目標多肽與一種或多種結合配偶體接觸,其中每種結合配偶體對于標記多肽(或其片段)是特異性的,以使得所述結合配偶體可與所述目標多肽結合,所述標記多肽(或其片段)由權利要求1至27的任一項所定義的寡核苷酸所結合的基因所編碼,且其中所述標記多肽對于與所研究的生物體及其樣本對應的生物體及其樣本中的所述癌癥是特異性的;及c)評估與所述結合配偶體結合的目標多肽以產(chǎn)生特征性模式,所述特征性模式反映了具有所述癌癥或其分期的樣本中表達所述標記多肽的基因的基因表達水平。
34.一種制作待測基因轉錄物模式的方法,其至少包括下述步驟a)從所述待測生物體的樣本中釋放出目標多肽;b)使所述目標多肽與一種或多種結合配偶體接觸,其中每種結合配偶體對于標記多肽(或其片段)是特異性的,以使得所述結合配偶體可與所述目標多肽結合,所述標記多肽(或其片段)由權利要求1至27的任一項所定義的寡核苷酸所結合的基因所編碼,且其中所述標記多肽對于與所研究的生物體及其樣本對應的生物體及其樣本中的所述癌癥是特異性的;及c)評估與所述結合配偶體結合的目標多肽以產(chǎn)生特征性模式,所述模式反映了所述待測樣本中表達所述標記多肽的基因的基因表達水平。
35.一種診斷或鑒定或監(jiān)測生物體中的癌癥或其分期的方法,其包括下述步驟a)從所述檢測生物體樣本中釋放出目標多肽;b)使所述目標多肽與一種或多種結合配偶體接觸,其中每種結合配偶體對于標記多肽(或其片段)是特異性的,以使得所述結合配偶體可與所述目標多肽結合,所述標記多肽(或其片段)由權利要求1至27的任一項所定義的寡核苷酸所結合的基因所編碼,且其中所述標記多肽對于與所研究的生物體及其樣本對應的生物體及其樣本中的所述癌癥是特異性的;及c)評估與所述結合配偶體結合的目標多肽以產(chǎn)生特征性模式,所述模式反映了所述待測樣本中表達所述標記多肽的基因的基因表達水平;及d)將所述模式與根據(jù)權利要求33的方法使用與所研究的生物體和樣本對應的生物體的樣本制作的標準診斷模式進行比較,以確定相關程度,該相關程度表征所研究的生物體中所述癌癥或其分期的存在。
全文摘要
本發(fā)明提供了用于制作轉錄模式,特別是癌癥診斷的轉錄模式的寡核苷酸組,這些寡核苷酸對應于涉及蛋白質(zhì)合成和/或穩(wěn)定性的蛋白質(zhì)編碼基因或涉及防御調(diào)節(jié)和/或染色質(zhì)重塑的蛋白質(zhì)編碼基因。本發(fā)明還延伸至所述幾組寡核甘酸和含有所述幾組寡核甘酸的試劑盒以及相關方法,所述方法依據(jù)所述基因編碼的標記多肽分析開發(fā)特征性表達模式。
文檔編號C12Q1/68GK101027410SQ200580026265
公開日2007年8月29日 申請日期2005年6月2日 優(yōu)先權日2004年6月2日
發(fā)明者普拉維恩·沙瑪, 安德斯·郎內(nèi)博格 申請人:迪亞吉尼克公司