本發(fā)明涉及癌癥診斷以及為此的診斷方式領(lǐng)域。
甲狀腺結(jié)節(jié)為碘缺乏地區(qū)的地方病,如歐洲的高山地區(qū),在那里其流行率為10-20%。其根據(jù)其組織學,分類為2種良性類型——結(jié)節(jié)性甲狀腺腫(Struma nodosa,SN)和濾泡性甲狀腺腺瘤(Follicular Thyroid Adenoma,F(xiàn)TA),以及惡性實體——濾泡性甲狀腺癌(Follicular Thyroid Carcinoma,F(xiàn)TC),乳突狀甲狀腺癌(Papillary Thyroid Carcinoma,PTC),髓樣甲狀腺癌(Medullary Thyroid Carcinoma,MTC)及未分化甲狀腺癌(Anaplastic Thyroid Carcinoma,ATC)。傳統(tǒng)地,良性和惡性甲狀腺結(jié)節(jié)之間的區(qū)分是通過閃爍掃描法以及細針抽吸后進行組織學檢驗而完成。盡管在甲狀腺結(jié)節(jié)和甲狀腺癌的診斷和治療上有很多進展,這些方法缺少特異性是眾人皆知的,尤其在區(qū)分FTA和FTC上,這導致大量的病人不必要地被當作惡性疾病治療。
由于先前的方法有診斷限制性,尤其是細針抽吸后進行細胞學檢驗,許多研究者已經(jīng)進行了表達譜研究,希望鑒定出新的診斷工具。這些分析嘗試用大規(guī)模轉(zhuǎn)錄水平表達譜技術(shù)如cDNA微陣列、寡核苷酸陣列以及基因表達系列分析(Serial Analysis of Gene Expression,SAGE)鑒定在疾病發(fā)展或進程中具有重要作用的差異性表達蛋白質(zhì)。典型地,鑒定出數(shù)十或數(shù)百種基因,其中許多預期為假陽性,只有一小部分能用作診斷/預后標志物或治療靶標(Griffith等人,J Clin Oncol 24(31):5043-5051(2006))。
在其他類型的癌癥中,已經(jīng)顯示基因表達譜能為區(qū)分不同臨床相關(guān)的腫瘤實體增添重要價值。例如US 2006/183141 A描述了來自核心血清應答簽名(core serum response signature)的腫瘤標志物的分類。不同研究已經(jīng)嘗試基于基因表達譜為不同甲狀腺癌實體分類,每項研究都對5種實體中的2種進行區(qū)分。然而,這些研究沒有或很少有共同的基因,而且將來自一項研究的分類物應用于來自另一項研究的數(shù)據(jù)一般產(chǎn)生很差的分類結(jié)果。
本發(fā)明的一個目標是提供可靠的區(qū)別性標志物用于癌癥的診斷,尤其是辨別良性甲狀腺結(jié)節(jié)和惡性濾泡性甲狀腺癌(FTC)以及乳突狀甲狀腺癌(PTC)。
因此,本發(fā)明提供了特異于至少3種腫瘤標志物的部分的組,所述腫瘤標志物選自腫瘤標志物PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,fi-1到fi-147,PIV-1到PIV-9,優(yōu)選地為PIV-4或PIV-5,以及PV-1到PV-11,優(yōu)選地為PV-1,PV-2和PV-4到PV-11。這些腫瘤標志物涉及腫瘤中異常表達的不同基因,并且在表1-6中給出,能通過其基因鑒定標記、其描述性基因名稱而對其鑒定,但最清楚的是通過其UniGeneID或其在常用序列數(shù)據(jù)庫如NCBI GenBank,EMBL-EBI數(shù)據(jù)庫,EnsEMBL或日本DNA數(shù)據(jù)庫中參考特定序列的登記號。這些標志物已經(jīng)以優(yōu)選組(PI到PV,FI)的形式鑒定出來,但能以任何形式作為發(fā)明組的靶標而合并。
表1:PTC標志物組PI-1到PI-33
表2:PTC標志物組PII-1到PII-64
表3:PTC標志物組PIII-1到PIII-70
表4:FTC標志物組FI-1到FI-147
表5:PTC標志物組PIV-1到PIV-9
表6:PTC標志物組PV-1到PV-11
本發(fā)明的組能用于檢測癌癥或腫瘤細胞,尤其是甲狀腺癌,甚至可用于區(qū)分良性甲狀腺結(jié)節(jié)和惡性濾泡性甲狀腺癌(FTC)以及乳突狀甲狀腺癌(PTC)。在優(yōu)選的實施方式中,組包括特異于至少3種腫瘤標志物的部分,所述腫瘤標志物選自腫瘤標志物PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,以及PIV-1到PIV-9,優(yōu)選地為PIV-4或PIV-5以及PV-1到PV-11,優(yōu)選地為PV-1、PV-2以及PV-4到PV-11,尤其選自腫瘤標志物PI-1到PI-33。這些標志物對乳突狀甲狀腺瘤(PTC)和經(jīng)診斷被定性為PTC的甲狀腺癌具有特異性。
在類似的優(yōu)選實施方式中,組包括特異于選自腫瘤標志物FI-1到FI-147的至少3種腫瘤標志物的部分。這些標志物對濾泡性甲狀腺瘤(FTC)和經(jīng)診斷被定性為FTC的甲狀腺癌具有特異性。
尤其優(yōu)選地,組包括特異于腫瘤標志物SERPINA1(絲氨酸(或半胱氨酸)蛋白酶抑制子,A分枝(α-1抗蛋白酶,抗胰蛋白酶),成員1;NM_000295,NM_001002236,NM_001002235)的部分,其為PTC的一種非常有效的標志物。此標志物作為該組的單個成員能區(qū)分PTC和良性狀態(tài)。
優(yōu)選地,組包括至少5種或至少10種,優(yōu)選地至少15種,更優(yōu)選地至少20中,尤其優(yōu)選地至少25種,最優(yōu)選地至少30種特異于以上表1-6的腫瘤標志物的部分。組可選自特異于任何至少3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,25,30,33,35,40,45,50,55,60,64,65,70,75,80,85,90,95,100,110,120,130,140,145,147,150,160,170,180,190或200種以上腫瘤標志物的部分,例如,選自PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,FI-1到FI-147,PIV-1到PIV-9,優(yōu)選地PIV-4或PIV-5,及PV-1到PV-11,優(yōu)選地PV-1,PV-2及PV-4到PV-11,具體而言選自PI-1,PI-2,PI-3,PI-4,PI-5,PI-6,PI-7,PI-8,PI-9,PI-10,PI-11,PI-12,PI-13,PI-14,PI-15,PI-16,PI-17,PI-18,PI-19,PI-20,PI-21,PI-22,PI-23,PI-24,PI-25,PI-26,PI-27,PI-28,PI-29,PI-30,PI-31,PI-32,PI-33,PII-1,PII-2,PII-3,PII-4,PII-5,PII-6,PII-7,PII-8,PII-9,PII-10,PII-11,PII-12,PII-13,PII-14,PII-15,PII-16,PII-17,PII-18,PII-19,PII-20,PII-21,PII-22,PII-23,PII-24,PII-25,PII-26,PII-27,PII-28,PII-29,PII-30,PII-31,PII-32,PII-33,PII-34,PII-35,PII-36,PII-37,PII-38,PII-39,PII-40,PII-41,PII-42,PII-43,PII-44,PII-45,PII-46,PII-47,PII-48,PII-49,PII-50,PII-51,PII-52,PII-53,PII-54,PII-55,PII-56,PII-57,PII-58,PII-59,PII-60,PII-61,PII-62,PII-63,PII-64,PIII-1,PIII-2,PIII-3,PIII-4,PIII-5,PIII-6,PIII-7,PIII-8,PIII-9,PIII-10,PIII-11,PIII-12,PIII-13,PIII-14,PIII-15,PIII-16,PIII-17,PIII-18,PIII-19,PIII-20,PIII-21,PIII-22,PIII-23,PIII-24,PIII-25,PIII-26,PIII-27,PIII-28,PIII-29,PIII-30,PIII-31,PIII-32,PIII-33,PIII-34,PIII-35,PIII-36,PIII-37,PIII-38,PIII-39,PIII-40,PIII-41,PIII-42,PIII-43,PIII-44,PIII-45,PIII-46,PIII-47,PIII-48,PIII-49,PIII-50,PIII-51,PIII-52,PIII-53,PIII-54,PIII-55,PIII-56,PIII-57,PIII-58,PIII-59,PIII-60,PIII-61,PIII-62,PIII-63,PIII-64,PIII-65,PIII-66,PIII-67,PIII-68,PIII-69,PIII-70,FI-1,FI-2,FI-3,FI-4,FI-5,FI-6,FI-7,FI-8,FI-9,FI-10,FI-11,FI-12,FI-13,FI-14,FI-15,FI-16,FI-17,FI-18,FI-19,FI-20,FI-21,FI-22,FI-23,FI-24,FI-25,FI-26,FI-27,FI-28,FI-29,FI-30,FI-31,FI-32,FI-33,FI-34,FI-35,FI-36,FI-37,FI-38,FI-39,FI-40,FI-41,FI-42,FI-43,FI-44,FI-45,FI-46,FI-47,FI-48,FI-49,FI-50,FI-51,FI-52,FI-53,FI-54,FI-55,FI-56,FI-57,FI-58,FI-59,FI-60,FI-61,FI-62,FI-63,FI-64,FI-65,FI-66,FI-67,FI-68,FI-69,FI-70,FI-71,FI-72,FI-73,FI-74,FI-75,FI-76,FI-77,FI-78,FI-79,FI-80,FI-81,FI-82,FI-83,FI-84,FI-85,FI-86,FI-87,FI-88,FI-89,FI-90,FI-91,FI-92,FI-93,FI-94,FI-95,FI-96,FI-97,FI-98,FI-99,FI-100,FI-101,FI-102,FI-103,FI-104,FI-105,FI-106,FI-107,FI-108,FI-109,FI-110,FI-111,112,FI-113,FI-114,FI-115,FI-116,FI-117,FI-118,FI-119,FI-120,FI-121,FI-122,FI-123,FI-124,FI-125,FI-126,FI-127,FI-128,FI-129,FI-130,FI-131,FI-132,FI-133,FI-134,FI-135,FI-136,FI-137,FI-138,FI-139,FI-140,FI-141,FI-142,FI-143,FI-144,FI-145,FI-146,FI-147,PIV-1,PIV-2,PIV-3,PIV-4,PIV-5,PIV-6,PIV-7,PIV-8,PIV-9,PV-1,PV-2,PV-3,PV-4,PV-5,PV-6,PV-7,PV-8,PV-9,PV-10,PV-11的任何一個。優(yōu)選地,組特異于選自PI,PII,PIII,PIV,PV或FI的任何完整亞組。然而,還可能從這些亞組或合并的組中挑出任何小的數(shù)量,因為還能以可接受的確定性進行良性和惡性狀態(tài)之間的區(qū)別或癌癥的診斷。例如在一個優(yōu)選的實施方式中,發(fā)明的組包括至少5種(或以上提到的任何數(shù)量)的特異于選自FI-1到FI-147的腫瘤標志物的部分。圖4和5顯示對于PTC和FTC的這種診斷分類概率。例如,特異于來自表2(PII亞組)任何數(shù)量的組,特異于5種標志物,只有4%的誤差容限,即所有情況中96%會正確分類。用至少20個成員達到1%的誤差值(99%確定性)。在FTC特異性標志物的情況下,用選自FI亞組的至少11種不同的標志物能達到穩(wěn)定的8%的誤差值。
根據(jù)本發(fā)明的部分為適合于特異性識別發(fā)明的標志物的分子。這種分子識別可以是在核苷酸、肽或蛋白質(zhì)水平上的。優(yōu)選地,所述部分為特異于腫瘤標志物核酸的核酸,尤其是寡核苷酸或引物。在另一種實施方式中,所述部分為抗體(單克隆或多克隆)或抗體片段,優(yōu)選地選自Fab,Fab'Fab2,F(ab')2或scFv(單鏈可變片段),其特異于腫瘤標志物蛋白質(zhì)。根據(jù)本發(fā)明,只要促進分子識別,核酸的哪個序列部分或蛋白質(zhì)的哪些表位被該部分識別并不是至關(guān)重要的。本領(lǐng)域已知的部分,尤其是本文引用的參考文獻(其全部作為參考并入本文)中公開的,都是合適的。
在一個優(yōu)選的實施方式中,將組的部分固定在固相支持物上,優(yōu)選地以微陣列或納米陣列的形式。術(shù)語“微陣列”,同樣地“納米陣列”,用于描述微觀排列的陣列(納米陣列用于納米規(guī)模的陣列)或指包括這種陣列的載體。兩個定義不互相矛盾,且能在本發(fā)明的意義中應用。優(yōu)選地,組在芯片上提供,在其上對部分進行固定。芯片可以是合適于生物分子例如部分的固定化的任何材料,包括玻璃修飾的玻璃(乙醛化修飾)或金屬芯片。
根據(jù)本發(fā)明,提供了特異地用于腫瘤診斷的組。然而還可能提供更大的組,其中包括用于其他目的附加部分,具體而言在微陣列建立中,其中可能固定化大量寡核苷酸。然而優(yōu)選的是提供有成本效益的組,其中包括用于單一目的的有限數(shù)量的部分。
因此,在一個優(yōu)選的實施方式中,組包括至少10%,至少15%,至少20%,至少25%,至少30%,至少35%,至少40%,至少45%,至少50%,至少55%,至少60%,至少65%,至少70%,至少75%,至少80%,至少85%,至少90%,至少95%,尤其優(yōu)選地至少100%的組的總分析物結(jié)合部分,其為特異于選自PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,FI-1到FI-147,PIV-1到PIV-9,以及PV-1到PV-11(所有標志物在以上表1-6中公開),或選自PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,FI-1到FI-147,PIV-1到PIV-9,PV-1到PV-11的任何一個的組中至少一組或其任何組合的腫瘤標志物的部分。這些優(yōu)選的組合為例如組PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,PIV-1到PIV-9,以及PV-1到PV-11中的所有標志物,尤其適合于PTC診斷。如本文使用的,“分析物結(jié)合部分”指能用于特異性檢測標志物的所有部分,所述標志物具體而言是標志物基因或基因產(chǎn)物,包括mRNA或表達的蛋白質(zhì)?;騼?yōu)選地為哺乳類的基因,具體而言為人的基因。部分包括在能有多種診斷靶標的任何“分析物結(jié)合部分”的該類術(shù)語中。例如,在微陣列的實施方式中,陣列包括至少10%的特異于本發(fā)明標志物的寡核苷酸。根據(jù)目前的技術(shù),用于在芯片上的基因(核酸分子,如分別為DNA-EST或互補DNA-EST)的檢測方式使得陣列設(shè)計更簡單,更強大,使用DNA分子(用于檢測樣品中表達的mRNA)的基因芯片為本發(fā)明的優(yōu)選的實施方式。這些基因芯片還使得能夠檢測大量的基因產(chǎn)品,而使用蛋白質(zhì)芯片檢測(例如抗體芯片)大量的蛋白質(zhì)更困難。蛋白質(zhì)檢測通常使用ELISA技術(shù)(即,基于-微量滴定板、珠子或芯片的ELISA)作為蛋白質(zhì)芯片的一種實施方式進行。蛋白質(zhì)芯片可包括用于特異性結(jié)合來自根據(jù)表1-6的列表的基因的基因產(chǎn)品的合適方式,例如親和分子如單克隆或多克隆抗體或凝集素。
在進一步的實施方式中,組包括多至50000種分析物結(jié)合部分,優(yōu)選地多至40000,多至35000,多至30000,多至25000,多至20000,多至15000,多至10000,多至7500,多至5000,多至3000,多至2000,多至1000,多至750,多至500,多至400,多至300,或甚至更優(yōu)選地多至200種任何種類的分析物結(jié)合部分,如特異于任何基因或基因產(chǎn)物的寡核苷酸。
在一個進一步的方面,本發(fā)明涉及用于在樣品中檢測一種或多種甲狀腺癌癥標志物的方法,包括使用發(fā)明的組和檢測樣品中腫瘤標志物的存在或測量其發(fā)生量。所檢測的標志物的發(fā)生率或模式能特異性鑒定這些標志物的存在,所述標志物能與癌癥診斷相關(guān)或作為健康樣品的參考,或簡單地作為受試者的遺傳調(diào)查。
優(yōu)選地,樣品包括細胞,優(yōu)選地為哺乳類細胞,尤其優(yōu)選地為人細胞,其能由活檢組織或體液提供。具體而言腫瘤標志物的存在或量在例如細胞破碎之后在這些細胞中檢測或測量。
所述方法包括通過RNA-表達分析的檢測或測量,優(yōu)選地通過微陣列或定量PCR,或蛋白質(zhì)分析,優(yōu)選地通過組織微陣列檢測,蛋白質(zhì)微陣列檢測,mRNA微陣列檢測,ELISA,多重測定法,免疫組化,或DNA分析,比較基因組雜交(CGH)-陣列或單核酸多態(tài)性(SNP)-分析。這些方法在本領(lǐng)域已知,并易于用于本發(fā)明的方法,如遺傳標志物分析的廣泛領(lǐng)域的實例。
在另一方面,本發(fā)明提供了用于在病人中診斷癌癥的方法,包括提供病人的樣品,優(yōu)選地為病人的細胞樣品,通過使用根據(jù)本發(fā)明的組測量檢測腫瘤標志物信號而檢測一種或多種腫瘤標志物,將所測量的腫瘤標志物的信號值與健康樣品中腫瘤標志物的值進行比較,并且如果超過50%,優(yōu)選地超過60%,更優(yōu)選地超過70%,最優(yōu)選地超過80%的值與健康樣品的值相比的差異至少為測量方法的標準差,優(yōu)選地兩倍的標準差,甚至更優(yōu)選地三倍的標準差,診斷為癌癥?;疾∈茉囌吆徒】凳茉囌邩悠分g的遺傳表達的差異可以為任何種類,包括上調(diào)(例如原癌基因)或下調(diào)(例如腫瘤抑制基因)。有可能在健康樣品中,基因不被表達,而在患病樣品中發(fā)生表達。相反地,還可能是基因在患病樣品中不表達而在健康樣品中發(fā)生表達。
如果超過50%,優(yōu)選地超過60%,更優(yōu)選地超過70%,最優(yōu)選地超過80%的樣品的值與健康樣品的值的差異為至少1.5倍,至少2倍,至少3倍或至少4倍,也可以診斷為癌癥。通常腫瘤標志物表達產(chǎn)物上調(diào)或下調(diào)2-6倍,但60倍的差異也是可能的。
在另一方面,本發(fā)明涉及用于鑒定基本特異性標志物(例如在表1-6中給出的)的方法,優(yōu)選地為基因或基因表達模式,包括:
●提供至少兩種不同表達數(shù)據(jù)組的多種潛在的疾病特異性基因的基因表達數(shù)據(jù),
●確定數(shù)據(jù)組的共同基因,
●將每個基因表達數(shù)據(jù)組標準化,優(yōu)選地通過局部加權(quán)回歸散點平滑法(lowess)或分位數(shù)標準化,
●將基因表達數(shù)據(jù)組合并為合并數(shù)據(jù)組,優(yōu)選地將合并數(shù)據(jù)組標準化,并整合合并數(shù)據(jù)組,
●通過確定最近縮小重心(shrunken centroid)確定合并數(shù)據(jù)組的基因,其包括確定將基因分配到疾病的交叉證實的誤差值及通過減少合并(優(yōu)選地為標準化的)數(shù)據(jù)組成員數(shù)量而使誤差值最小化,
其中減少的數(shù)據(jù)組的基因為特異于疾病的標志物。交叉證實能使用例如留一法(leave-one-out)。優(yōu)選地,確定步驟(分類步驟)包括通過交叉-證實確定每個基因標準化的表達值與重心值的差異的最大閾值。然后具有低于閾值的標準化表達值的基因從減少(或縮小)組中移除,具有與重心相比大于閾值的值的基因?qū)υ摷膊∮刑禺愋浴Mㄟ^縮小重心(shrunken centrois)方法進行的分類由例如Tibshirani等人(PNAS USA 99(10):105-114(2004)),Shen等人(Bioinformatics 22(22)(2006):2635-42)及Wang等人(Bioinformatics 23(8)(2007):972-9)公開,這些公開并入本文作為參考。
通過留出得自每個先前步驟的標志物能多次重復進行確定步驟。最近縮小重心法會產(chǎn)生特異于該疾病的進一步標志物的新的結(jié)果組。優(yōu)選地,確定步驟重復2,3,4,5,6,7,8,9,10或更多次。根據(jù)合并數(shù)據(jù)組的大小,會給出進一步的特異性標志物。優(yōu)選地,在每個結(jié)果上進行交叉證實。能重復進行確定直到交叉證實指出的誤差值為例如低于50%,60%,70%或80%。在較低的值上,預期所有標志物都鑒定出來。
起始的基因表達數(shù)據(jù)組為原始的表達譜,例如得自多遺傳微陣列分析的每個組。預期大多數(shù)所測量的基因不涉及疾病,且本發(fā)明的方法能夠從至少兩個,優(yōu)選地至少三個,至少四個,至少五個,至少六個,至少七個或至少八個表達數(shù)據(jù)組中鑒定特征性的標志物基因。因此起始數(shù)據(jù)組的表達數(shù)據(jù)優(yōu)選地包括至少兩個不同微陣列數(shù)據(jù)組的數(shù)據(jù),具體而言具有研究或平臺特異性偏差。這些偏差是通過在測量表達數(shù)據(jù)過程中只使用一個特異設(shè)置而發(fā)生的,例如微陣列,其能顯著的區(qū)別于其他數(shù)據(jù)組的設(shè)置。本發(fā)明具有的優(yōu)點是在這些組的合并過程中,克服了這些測量偏差的問題。進一步,所得的(起始)基因表達數(shù)據(jù)是原始的,未處理的基因表達數(shù)據(jù),即,在本發(fā)明的方法之前沒有進行提煉或數(shù)據(jù)轉(zhuǎn)換。
優(yōu)選地,疾病為遺傳障礙,優(yōu)選地為具有基因表達改變的障礙,尤其優(yōu)選地為癌癥。具有基因表達改變的其他類型的障礙可以為例如病原體感染,具體而言為病毒(包括逆病毒)感染,輻射損傷和年齡相關(guān)障礙。
合并及整合合并的數(shù)據(jù)組的步驟去除了研究特異性偏差。在優(yōu)選的實施方式中,此步驟通過逐步地,每步合并兩個的基因表達數(shù)據(jù)組以及整合合并的數(shù)據(jù)而進行,優(yōu)選地通過DWD(距離加權(quán)判別法,Distance Weighted Discrimination)。例如在3個數(shù)據(jù)組的情況下,首先將組1與組2合并,融合的組1+2與組3合并。整合例如可以包括計算整合的數(shù)據(jù)組的正常向量,接著計算將數(shù)據(jù)組(例如起始數(shù)據(jù)組的)數(shù)據(jù)值的聚類分開的超平面,以及減去數(shù)據(jù)組平均值,如DWD方法中的。原則上,任何移除偏差的數(shù)據(jù)整合方法能用于本發(fā)明的方法。
優(yōu)選地至少一個,優(yōu)選地兩個,三個,四個,五個,六個,七個或八個所得的表達數(shù)據(jù)組包括至少10,優(yōu)選地至少20,更優(yōu)選地至少30,甚至更優(yōu)選地至少40,至少50,至少70,至少100,至少120,至少140,至少160或甚至至少200種不同基因的數(shù)據(jù)。本發(fā)明的方法尤其適合于從大的數(shù)據(jù)組中進行過濾并鑒定其中的特征性標志物。所得的這些標志物的組還稱為“分類物”。
鑒定癌癥特異性標志物的此方法,以及因此特異于癌癥的部分,例如寡核苷酸或抗體,還能用在診斷癌癥的以上方法中。即,對應于用于診斷方法的部分的組的標志物是根據(jù)以上方法鑒定(也叫做“分類”)的,所述方法包括提煉及建立起始數(shù)據(jù)組的測量值的重心值。此模式然后能用于診斷癌癥,如果病人樣品值更接近于腫瘤標志物的聚類的重心值。因此,提供了用于在病人中進行癌癥診斷的方法,包括提供來自病人的樣品,優(yōu)選地為細胞樣品,通過使用根據(jù)本發(fā)明的組進行測量腫瘤標志物信號來檢測一種或多種腫瘤標志物,通過以上提到的鑒定方法將腫瘤標志物的所測量信號值與癌癥樣品中的腫瘤標志物的值比較,并且如果對于至少50%,優(yōu)選地至少60%,更優(yōu)選地至少70%或甚至至少80%,最優(yōu)選地為90%的組的標志物,病人樣品的值的最近縮小重心在對用癌癥樣品鑒定出的腫瘤標志物的最近縮小重心的測量方法的標準差,優(yōu)選地為兩倍的標準差,甚至更優(yōu)選地為三倍的標準差之內(nèi),診斷為癌癥。
本發(fā)明進一步通過以下圖和實例進行示例說明,而不特異性限制于其中。所有此處引用的參考文獻并入本文作為參考。
圖:
圖1:DWD-整合前后的第一批兩種主要的組分。根據(jù)圖例,數(shù)據(jù)組用顏色編碼,腫瘤實體由字母編碼。
圖2:所有基因的DWD整合數(shù)據(jù)的系統(tǒng)樹圖。系統(tǒng)樹圖的樹枝顏色指示對應樣品的數(shù)據(jù)組,樹葉-標簽的顏色指示了腫瘤實體。
圖3:乳突狀癌癥和良性結(jié)節(jié)之間在四個不同數(shù)據(jù)組的差異只有一個基因(SERPINA1)
圖4顯示了來自表2的標志物的演繹組(分類物)的PTC分類中平均誤差概率的圖表。
圖5顯示了來自表4的標志物的演繹組(分類物)的FTC分類中平均誤差概率的圖表。
實施例
實施例1:數(shù)據(jù)組
數(shù)據(jù)組從網(wǎng)站下載或者來自公共知識庫(GEO,ArrayExpress)。表7顯示了在本研究中使用的數(shù)據(jù)組的總結(jié)(He等人,PNAS USA 102(52):19075-80(2005);Huang等人PNAS USA 98(26):15044-49(2001);Jarzab Cancer Res 65(4):1587-97(2005);Lacroix Am J Pathol 167(1):223-231(2005);J Clin Endocrinol Metab 90(5):2512-21(2005))。這里,使用了三種不同類別的非-癌癥組織:對側(cè)(contralateral,c.lat)用于與腫瘤樣品配對的健康周圍組織,其他疾病(other disease,o.d.)用于對其他疾病操作的甲狀腺組織和SN(結(jié)節(jié)性甲狀腺腫)用于良性甲狀腺結(jié)節(jié)。對于所有隨后分析,將這些合并為健康的。
表7:用于趨勢分析的微陣列數(shù)據(jù)
實施例2:找到基因重疊
微陣列數(shù)據(jù)的任何趨勢分析(meta-analysis)的第一步是找到分析中所用的所有微陣列平臺所共享的基因的組。傳統(tǒng)地,通過找到共同的UniGene識別號來評估重疊。然而這不考慮研究中基因的所有可能的剪接變異。例如,如果一個基因有2種剪接變體,其中之一種實驗中有差異表達而另一種沒有,以及如果一個平臺包括只對該差異表達變體有特異性的寡核苷酸而另一個平臺只有對另一種變體的寡核苷酸,則基于UniGene的匹配將融合測量不同事務的探針。
要克服這個問題,此處采用的手段僅僅融合了注解于RefSeq識別號的相同組的探針。為此,對于每個探針(組),通過Bioconductor注解包(hgu133a,hgu95a及hgu133plus2;在網(wǎng)站www.bioconductor.org上可得)或通過在NCBI數(shù)據(jù)庫BLAST搜索序列下載所有匹配的RefSeq。然后,對于每個探針進行RefSeq的分類和和連結(jié)。這是陣列上所測量的實體的最精確的代表。如果一組RefSeq由陣列上多種探針所代表,則使用中值。在所有陣列上存在RefSeq的5707個不同組。
實施例3:預處理及數(shù)據(jù)整合
首先,如為每個平臺所推薦的(局部加權(quán)回歸散點平滑法用于雙色實驗,分位數(shù)標準化用于單色實驗)(Bolstad等人Bioinformatics 19(2):185-193(2003);Smyth等人Methods 31(4):265-273(2003)),對每個數(shù)據(jù)組分別進行背景校正及標準化,然后將其融合并一起進行分位數(shù)標準化。盡管都進行了預處理,但顯示不同微陣列平臺上產(chǎn)生的數(shù)據(jù)或相同平臺的不同產(chǎn)生的數(shù)據(jù)可能由于平臺的特異性偏差而不可比(Eszlinger等人Clin Endocrinol Metab 91(5):1934-1942(2006))。這從融合的數(shù)據(jù)的主要組分分析中也很明顯,如圖1中所顯示的。為了對這些偏差進行校正,開發(fā)了用于微陣列數(shù)據(jù)整合的方法。這些方法中的一種就是距離加權(quán)判別法(Distance Weighted Discrimination,DWD),其在別處有詳細描述(Benito等人Bioinformatics 20(1):105-114(2004))。簡言之,DWD將數(shù)據(jù)點投射到一類(數(shù)據(jù)組)的正常向量上——如通過修改的支持向量機(Support Vector Machine,SVM)計算的分離超平面并減去這類(數(shù)據(jù)組)平均值。因此,對于多類問題(要融合超過2個數(shù)據(jù)組),數(shù)據(jù)組需要順序進行融合。對于6個數(shù)據(jù)組,這產(chǎn)生720種不同的可能性用于融合,不包括樹結(jié)構(gòu)的手段,例如,不是(((1+2)+3)+4),而是考慮((1+2)+(3+4))。此處應用的融合順序是按更相似及更大的數(shù)據(jù)組應當首先合并,更不同的后合并,這一一般理念進行選擇的。還值得注意的是,將樣品加到DWD融合的數(shù)據(jù)組將改變整個數(shù)據(jù)組,就像將一個新數(shù)字加到許多數(shù)字的向量會改變其平均值一樣。
通過DWD的數(shù)據(jù)整合在圖1中闡述,其顯示了在最先的兩個重要組分上的數(shù)據(jù)整合方法的效應。在該分析中,DWD能夠去除數(shù)據(jù)組之間的分離,如通過PC-作圖及通過混合系統(tǒng)樹圖中樹枝(見圖2)所顯示的。然而甚至在DWD-整合的數(shù)據(jù)組中,Lacroix數(shù)據(jù)仍然部分地與其他數(shù)據(jù)分離。這最可能是平臺的緣故;lacroix-數(shù)據(jù)是來自非-Affymetrix平臺的唯一數(shù)據(jù)。圖2顯示了各個整合的數(shù)據(jù)組的系統(tǒng)樹圖。而且,DWD整合似乎不妨礙在腫瘤實體間進行區(qū)分(見下列表8)。
實施例4:分類
對于探針選擇,選擇了分類及交叉-證實最近縮小重心方法(Tibshirani等人PNAS USA 99(10):105-114(2004))(在Bioconductor包pamr中施行)。由于如下幾個原因選擇了它:其允許多類別分類且一次運行特征選擇、分類和交叉-證實。簡言之,其使用不同收縮閾值(即,不同的基因數(shù)目)計算幾個不同的可能分類物,并從交叉-證實中找到最好的閾值。如果超過一個閾值產(chǎn)生相同的交叉-證實結(jié)果,則挑選具有最小基因數(shù)量(最大閾值)的分類物。
實施例5:乳突狀甲狀腺癌(PTC)
首先,作為對于每項研究的質(zhì)量測量,分開取出每個數(shù)據(jù)組(在DWD-整合之前)并進行pamr分類和留一法交叉-證實(leave-one-out cross-validation,loocv)。交叉-證實的結(jié)果幾乎完美,只有單個樣品分類錯誤。然而來自He數(shù)據(jù)組的分類物是例外,這些分類物中沒有一個能應用于任何其他數(shù)據(jù)組。分類結(jié)果幾乎不會比根據(jù)機會所預期的高。然而如果使用DWD-整合的數(shù)據(jù)(下文),分類物則已經(jīng)適合地更好(見表8)。
表8:將來自一項研究的分類物應用于另一項研究的分類結(jié)果。數(shù)據(jù)整合之前(左)及DWD整合之后(右)
然后為完整的DWD-整合的數(shù)據(jù)組建立pamr-分類物并在留一法交叉-證實中進行證實。這鑒定了一個(!)基因分類物,其在loocv中正確分類了99%的樣品。區(qū)分的基因為SERPINA1。圖3顯示了在DWD之前和之后PTC對SN的區(qū)分。能將多至422個基因加到分類物并仍然產(chǎn)生99%的精確度(來自loocv)。如果將SERPINA1-探針從分析中移除,能在loocv中再次以99%的精確度建立一個分類物(隨后命名的分類物),這次使用的是一個9-基因簽名(見表3)。移除這9個基因產(chǎn)生另一種9-基因分類物,其具有相似的表現(xiàn)(99%精確度),并且進一步產(chǎn)生一種具有99%精確度的11-基因分類物。這些進一步的分類物在例如用于PTC表1-3,5和6(上文)中給出。
然而在非-整合的數(shù)據(jù)上進行相同分析得到類似的結(jié)果。考慮到PCA的結(jié)果(圖1),其中不同數(shù)據(jù)組所解釋的方差顯然比腫瘤實體所解釋的方差大得多,可以想象由數(shù)據(jù)組引入的偏差有助于(或妨礙)分類。因此進行了研究-交叉證實,由此順序地將一項研究從數(shù)據(jù)組中取出,分類物從剩余樣品中建立并在消除的數(shù)據(jù)組上測試。在DWD-整合的數(shù)據(jù)中,預測精確度分別從分類物中留出He,Huang,Jarzab和Reyes為100,100,98及100%。對于非-整合的數(shù)據(jù),結(jié)果是類似的(100,100,94及100%)。
表9:分類物2中的基因(留出SERPINA1后)
實施例6:濾泡性癌
對于FTC數(shù)據(jù)也進行了類似的分析,但交叉證實受到妨礙,因為得到數(shù)據(jù)非常受限。再一次地,為每個數(shù)據(jù)組建立分類物(Lacroix和Weber)。他們在25和3997個基因上達到了96%(Weber)及100%(Lacroix)的loocv-精確度。Lacroix-數(shù)據(jù)中的基因數(shù)量已經(jīng)暗示了過度擬合,這通過其他數(shù)據(jù)組(分別為25和35%的精確度)的交叉-證實得到確定。而且,這兩種分類物之間的基因-重疊很低(根據(jù)閾值,在0-10%之間)。然而如果使用DWD將這2個數(shù)據(jù)組合并,能建立147-基因分類物(上文表4),其能夠正確鑒定樣品(具有92%精確度)。
實施例7:討論
本發(fā)明代表了迄今分析的甲狀腺癌微陣列數(shù)據(jù)的最大同期組群。其利用新型的合并方法,使用用于微陣列數(shù)據(jù)整合和分類的最新算法。然而,微陣列數(shù)據(jù)的趨勢分析仍然提出了一個挑戰(zhàn),主要因為單個微陣列研究的目標為至少部分不同的問題,且因此使用不同的實驗設(shè)計。此外,迄今可得到甲狀腺腫瘤微陣列數(shù)據(jù)的數(shù)量仍然相對較低(例如,相比于乳腺癌)。因此,在做趨勢分析時被迫使用所有可得的數(shù)據(jù),甚至如果病人同期群組代表著相當異質(zhì)且潛在有偏差的群體。更特異地,難以得到對照材料(來自健康病人)的均質(zhì)集合。這些通常取自因為其他甲狀腺疾病做過手術(shù)的病人,其反過來很可能引起在微陣列上測量時基因表達發(fā)生變化。由于得到病人數(shù)據(jù),例如年齡、性別、遺傳背景等受限,均質(zhì)的病人同期組群的產(chǎn)生進一步受到妨礙。
在做微陣列數(shù)據(jù)的趨勢分析時,許多研究者將其手段基于了比較來自已發(fā)表的研究的基因列表上(Griffith等人,上文引用的)。這非常有用,因為能包括分析中的所有研究,且不限于可得到原始數(shù)據(jù)的研究。然而這些研究一般遵照了非常不同的分析策略,一些比其他更嚴密。作者如何作出基因列表這不在趨勢分析者的控制之下。因此這些分析可能有偏差。
考慮到數(shù)據(jù)整合,根據(jù)原始的DWD文章,當每個數(shù)據(jù)組至少存在25-30個樣品時DWD表現(xiàn)最好。在本研究中,6個數(shù)據(jù)組中有4個包括少于20個樣品。在去除平臺偏差上DWD仍然表現(xiàn)相對好(見表8)。
將來自一項研究的分類物應用于另一項研究時,DWD極大地改進了PCA的結(jié)果(圖1),分級聚類(圖2)以及分類精確度(表8)。在此基礎(chǔ)上,令人驚奇地看到非-整合的數(shù)據(jù)在交叉證實研究中相比于DWD-整合的數(shù)據(jù)表現(xiàn)地同樣好。其一個解釋為任何研究-特異性偏差在評估更多研究時會變得不那么重要。鑒于研究偏差對一些基因的影響超過其他,由于研究-偏差引入的方差,受影響更多的基因更不可能經(jīng)受pamr-閾值的界定。然而如上文顯示的,有大量基因區(qū)分PTC和良性結(jié)節(jié)。只要這些基因中的一個(或幾個)不受研究偏差的影響,它(它們)就能經(jīng)受閾值界定,并且腫瘤實體間的區(qū)分仍然是可能的。
從圖3中看到有個明顯的矛盾:在DWD之前,PTC樣品具有更高的SERPINA1表達,而DWD之后則相反。然而如材料和方法部分強調(diào)的,DWD從每個樣品減去類的平均數(shù)。這簡單地意味著在DWD之前,SERPINA1的研究偏差高于腫瘤類之間的表達差異。這還解釋了為何在非-整合的數(shù)據(jù)中,SERPINA1不是工作很好的分類物。
一項近期的由Griffith等人進行的趨勢分析及趨勢回顧(Meta-Review)(上文引用的)總結(jié)了在甲狀腺疾病背景中具有診斷潛能的基因。他們發(fā)表了在分析甲狀腺疾病的超過一項高通量研究(微陣列,SAGE)中出現(xiàn)的基因列表,并應用了排序系統(tǒng)。在他們的分析中,SERPINA1打分為第三高,TFF3(留出SERPINA1時為分類物2的一部分)打分為第二。來自分類物2的九個基因中的四個出現(xiàn)在Griffith等人的列表中(LRP4,TFF3,DPP4和FABP4)。
這些列表的大多數(shù)從微陣列分析中產(chǎn)生。然而甚至當將分類物中基因與用獨立技術(shù)(像cDNA文庫產(chǎn)生)產(chǎn)生的基因列表相比時,有實質(zhì)性的重疊。SERPINA1以及來自分類物2的九個基因中的四個(TFF3,DPP4,CHI3L1和LAMB3)出現(xiàn)在他們的列表中。
對于濾泡性甲狀腺疾病的情況,建立強大的分類物更難。這主要因為得到數(shù)據(jù)受限。而且,這兩個數(shù)據(jù)組在所使用平臺方面非常不同;所有其他數(shù)據(jù)組都在不同產(chǎn)生的Affymetrix GeneChips微陣列上產(chǎn)生,而Lacroix數(shù)據(jù)在自定義的安捷倫(Agilent)平臺上產(chǎn)生。然而表4的分類物(組)能夠在loocv中正確鑒定大多數(shù)樣品。
此處采用的趨勢分析手段的效力由對于乳突狀甲狀腺癌和良性結(jié)節(jié)之間區(qū)別的99%的loocv-精確度(交叉證實研究中97.9%的加權(quán)平均精確度)所證實。迄今這在最大、最分散的數(shù)據(jù)組上實現(xiàn)了(來自4項不同研究的99個樣品)。
一個樣品被錯誤分類,盡管不可能正確地將此分析的樣品分析對原始分析進行作圖,錯誤分類的樣品來自與原始分析中被錯誤分類的樣品相同的組(PTC,證實組)。根據(jù)Jarzab等人,樣品是異常值,因為其只包括≈20%腫瘤細胞。