(施等,2008)和TCGA數(shù)據(jù)集(TCGA,2011)中的let-7成員的 相關(guān)矩陣。每個格中的數(shù)字表示在P值<0.05的情況下的肯德爾t等級(Kendalltau) 相關(guān)系數(shù)值??瞻赘癖硎灸菍iRNA的肯德爾t等級相關(guān)是不顯著的(p值>0.05)。每 個圖中上方的左三角示出了來自TCGA數(shù)據(jù)集的數(shù)據(jù)的相關(guān)矩陣,而每個圖中下方的右三 角示出了來自施氏數(shù)據(jù)集的數(shù)據(jù)的相關(guān)矩陣。
[0029] 圖8示出了 :
[0030](A-B) (A)TCGA數(shù)據(jù)集和(B)施氏數(shù)據(jù)集的let-7成員與141個miRNA之間的相關(guān) 值的熱點圖。
[0031] (C-D) (C)TCGA數(shù)據(jù)集和(D)施氏數(shù)據(jù)集的let-7成員與21個顯著miRNA之間的 相關(guān)值的熱點圖。
[0032] (E-F)由lDDg和SWVg生成的(E)TCGA數(shù)據(jù)集和(F)GSE27290數(shù)據(jù)集的卡普蘭-邁 耶生存曲線。在圖E和圖F中,示出了低風險(L)、中風險(I)和高風險(H)亞組的曲線。
[0033] 熱點圖中灰色分別表示miRNA-mRNA探針對兒的相關(guān)值。深灰和淺灰分別表示正 相關(guān)和負相關(guān)。
[0034] 圖9示出了let-7家族成員的相關(guān)基因的分析,并包括下列:
[0035] (A)與let-7家族以及由2571080個miRNA-mRNA對兒(136個miRNA對兒對比 18905個mRNA)構(gòu)成的整個背景相比,每個let-7家族成員的所有364個樣本的肯德爾t 等級相關(guān)系數(shù)的頻率分布圖。位于t= -0. 122和+0. 122處的垂直虛線指定了統(tǒng)計顯著 的錯誤發(fā)現(xiàn)率(FDR)截斷值為0.01。
[0036] (B)用于基因本體(G0)分析和通路分析的提取顯著探針集的流程圖。強制本杰 明-霍赫貝格(Benjamini-Hochberg)校正的p值(FDR或q-值)為0. 01,并提取在正向和 負向中與let-7b顯著相關(guān)的2971個mRNA探針。對let-7b的正相關(guān)基因和負相關(guān)基因執(zhí) 行G0分析(生物信息學(xué)(Bioinformatics,DAVID))。顯著G0術(shù)語的韋恩圖是明顯的,該 韋恩圖揭示了與正相關(guān)基因和負相關(guān)基因相關(guān)(q值<〇.〇5)的基因功能。
[0037] (C)使用GeneGo有限公司的Metacore?對各組探針執(zhí)行通路富集分析。從顯著 通路中(q_值<〇? 〇〇1)提取了總共162個基因(相當于238個探針)以用于進一步的生 存預(yù)測分析和標記選擇。
[0038] (D)使用一維數(shù)據(jù)驅(qū)動分組(DDg)法評估162個基因中每一個基因的生存顯著性。 通過統(tǒng)計加權(quán)投票分組(SWVg)生成生存基因標記來進一步評估最頂級(top-ranked)的 生存顯著基因。根據(jù)SWVg推導(dǎo)出的總生存(os)的卡普蘭-邁耶生存曲線,并通過將卡普 蘭-邁耶生存曲線中P值最小化為P值=1. 27E-19,與NDA損傷修復(fù)、細胞周期、細胞粘附、 上皮間充質(zhì)轉(zhuǎn)化的調(diào)控及免疫反應(yīng)有關(guān)的36個mRNA預(yù)后標記能夠提供很強的患者分層。 示出了使用36-mRNA標記分層而成的低風險亞組(L)、中風險亞組(I)和高風險亞組(H)的 生存曲線。
[0039] 圖10為示出了與let-7家族的9個miRNA顯著相關(guān)的mRNA探針的聚類的熱點圖。 在這一聚類分析中只考慮示出了與9個let-7miRNA的至少一個顯著相關(guān)(FDR彡0. 01)的 mRNA探針。應(yīng)用分層聚類算法(聚類算法:質(zhì)心連鎖;相似性度量:肯德爾t等級)。灰 度分別表示miRNA-mRNA探針對兒的相關(guān)值。深灰和淺灰分別表示正相關(guān)和負相關(guān)。
[0040] 圖11示出了S0C疾病的臨床指示物(圖11A-圖11E)和傳統(tǒng)生物標記物(圖 11F-圖111)的卡普蘭-邁耶生存曲線。由TCGA數(shù)據(jù)集的lDDg分析得到圖11F-圖111的 生存曲線。圖11J示出了文獻中TCGA數(shù)據(jù)分析的基于4個基因的聚類的卡普蘭-邁耶生 存曲線(TCGA組,自然474:609-15,2011)。在圖11A中,曲線1101表示I-II期的腫瘤, 而曲線1102表示III-IV期的腫瘤;在圖11B中,曲線1103表示低級別(1,2),而曲線1104 表示高級別(3, 4);在圖11C中,曲線1105表示患有腫瘤大小> 1mm的殘留疾病的患者,而 曲線1106表示肉眼不可見疾病的患者;在圖11D中,曲線1107表示對基本化療具有完全應(yīng) 答的患者,曲線1108表示部分應(yīng)答,曲線1109表示進展性疾病,而曲線1110表示穩(wěn)定性疾 ??;在圖11E中,曲線1111表示區(qū)域復(fù)發(fā),而曲線1112表示轉(zhuǎn)移。在圖11F-圖111的每幅 圖中,H表示高風險組而L表示低風險組。
[0041] 圖12涉及TCGA數(shù)據(jù)集中36-mRNA預(yù)后標記的驗證,并示出了我們的36-mRNA 預(yù)后標記的對數(shù)秩P值與具有同樣大小的隨機生成的標記的對數(shù)秩P值的對比(FDR= 3. 01e_03) 〇
[0042] 圖13示出了 36-mRNA預(yù)后標記的獨立評估和函數(shù)分析,并包括下列:
[0043] (A)-(C) 36-mRNA預(yù)后標記的獨立評估。使用通過我們的方法由癌癥基因組圖譜 (TCGA)數(shù)據(jù)集所生成的預(yù)測模型預(yù)測了獨立數(shù)據(jù)集的3個亞組(具有相同的基因設(shè)計和加 權(quán))。分別由230個GSE9899腫瘤樣本、130個GSE26712腫瘤樣本、和157個GSE13876腫 瘤樣本得到圖A、B和C的生存曲線。數(shù)據(jù)集GSE13876中36個基因(TUBB)中的一個缺失 了。因此,使用35個基因生成SWVg分層模型。L=低風險、1=中風險、H=高風險。
[0044] (D)典型生存預(yù)后標記(SPS)基因的log2表達水平的箱形圖,其中,所述基因作 為按照我們的投票算法所選出來的是生存顯著的,且還在通過SPS限定的顯著預(yù)后(和風 險)組之間是不同表達的。
[0045] (E)HG-SOC預(yù)后化療應(yīng)答和總患者生存期中l(wèi)et_7b調(diào)節(jié)的轉(zhuǎn)錄調(diào)控模型。
[0046] 圖14示出了EMT通路,其中,7個EMT通路被包括在36-mRNA預(yù)后標記中。7EMT 基因中的每個基因,例如HGF和FZD1,在疾病演變的環(huán)境中均表現(xiàn)出顯著致癌模式:這些基 因的過表達與TCGA的S0C患者的預(yù)后差相關(guān)(見圖15)。
[0047] 圖15示出了包括在36-mRNA預(yù)后標記中的7個EMT基因的生存模式。7個EMT基 因中的每一個基因均在TCGA的S0C患者中表現(xiàn)出顯著的致癌模式。H=高表達,L=低表 達。
[0048]詳細說明
[0049] 為方便起見,將本說明書中提及的參考文獻以引用列表形式列出,并添加在實施 例的后面。這些參考文獻的全部內(nèi)容通過引用并入本文。
[0050] 本發(fā)明人從E0C數(shù)據(jù)集的計算分析中已經(jīng)發(fā)現(xiàn),let_7b是let-7家族中表現(xiàn)出 原癌基因特征且直接涉及HG-E0C演變的一個重要成員?;诖?,本發(fā)明實施例:(i)識 別了與let-7b顯著相關(guān)的21個非編碼微RNA; (ii)識別了與let-7b相關(guān)的一個子集基 因,該基因在生物學(xué)通路中顯著富集,所述生物學(xué)通路對癌癥演變和患者生存預(yù)后至關(guān)重 要;(iii)識別了來自(ii)的、與let-7b相關(guān)的36個蛋白質(zhì)編碼基因預(yù)后標記,所述36 個蛋白質(zhì)編碼基因預(yù)后標記能夠?qū)G-E0C患者分層為三個生存顯著的臨床亞組(低、中 和高疾病預(yù)后風險亞組),這些亞組在總生存(0S)分析中通過將K-M曲線的可相互比較的 P值最小化來顯著區(qū)分,且根據(jù)涉及特定生物學(xué)通路的基因的富集統(tǒng)計學(xué)顯著性價值,認為 這些亞組相對應(yīng)的腫瘤是有區(qū)別的,且對基本治療的敏感性是不同的。為了預(yù)測臨床環(huán)境 中個體HG-E0C患者的總生存時間和治療結(jié)果,在試劑盒中或預(yù)后分析中,實施例還使用了 (i-iii)的結(jié)果,并提出使用let-7b和/或與let-7b有關(guān)的21-miRNA預(yù)后標記和/或 與let-7b有關(guān)的36-mRNA預(yù)后標記。
[0051] 本發(fā)明的發(fā)明人已經(jīng)發(fā)現(xiàn),36-mRNA預(yù)后標記的基因都與免疫反應(yīng)通路、細胞粘附 通路、DNA損傷修復(fù)通路、細胞周期通路以及上皮間充質(zhì)轉(zhuǎn)化的調(diào)控通路有關(guān),這些基因可 能獨立地或以各種組合構(gòu)成HG-E0C的小尺寸的生存預(yù)測標記。
[0052] 目前,診斷為III - IV期HG-E0C的患者具有預(yù)后差,他們在5年后只有20-30%的生 存率。然而,本發(fā)明實施例可以進一步將這些患者分層為三個疾病預(yù)后風險亞組,其中,低 風險組具有65-72%相對好的5年生存率。另一方面,中風險亞組和高風險亞組分別具有 20-35%和0-10%的5年生存率。此外,高風險亞組與間充質(zhì)分子亞型顯著相關(guān),該間充質(zhì) 分子亞型往往表現(xiàn)出化療耐藥不利于治療的干細胞樣特性,這促進了非常嚴重的死亡率。 高風險亞組也與基本治療后的大腫瘤殘留尺寸或患者應(yīng)答不佳顯著相關(guān)。與此相反,低風 險亞組與增生亞型顯著相關(guān),該增生亞型快速分裂的腫瘤細胞可能對化療比較敏感。實施 例使用生物學(xué)上和臨床上相關(guān)的36-mRNA預(yù)后標記作為高可信度的預(yù)后工具,以將HG-E0C 患者顯著分層為生存顯著、分子不同及臨床上不同的三個亞類,這樣可以改善患者的風險 評估、管理和咨詢,并且提供用于在臨床環(huán)境中優(yōu)化治療人類卵巢癌的個性化醫(yī)療策略的 解決方案。實施例涉及一種基于患者腫瘤樣本中微RNAlet-7b、與let-7b有關(guān)的21個 miRNA和與let-7b有關(guān)的36個mRNA的測量結(jié)果的高級別上皮性卵巢癌(HG-E0C)預(yù)后及 結(jié)果預(yù)測的方法。
[0053] 實施例涉及識別和使用所得的基因或微RNA標記的方法。
[0054] 實施例可以包括一個或多個下述特征:
[0055] i)識別let_7b為HG-E0C中l(wèi)et-7家族的重要的主調(diào)控因子和原癌基因 (pro-oncogenic)miRNA。該方法使用微陣列信號,基于腫瘤細胞中l(wèi)et-7b的表達水平、以 及l(fā)et-7家族成員的基因表達與HG-E0C患者轉(zhuǎn)錄組所界定的直接和間接靶基因的表達水 平的相關(guān)性,基于修正的數(shù)據(jù)驅(qū)動分組(DDg)分析方法來預(yù)測患者的生存率。DDg是一種計 算方法,通過由各個基因的最優(yōu)表達截斷值生成的兩個(或三個)卡普蘭-邁耶生存曲線 之間的統(tǒng)計學(xué)差異的優(yōu)化將患者分類為低風險亞組和高風險亞組?;谠诙鄠€患者樣本中 基因的表達數(shù)據(jù)生成那個基因的截斷值。
[0056] ii)使用表達相關(guān)性分析來確定與let_7b顯著相關(guān)的微RNA。在特定實施例中, 表達相關(guān)性分析能產(chǎn)生21-miRNA標記。
[0057] iii)使用表達相關(guān)性分析和通路富集分析來確定與let-7b相關(guān)的mRNA基因的代 表性子集,該mRNA基因與所有HG-E0C患者中的let-7b均顯著相關(guān),并參與到統(tǒng)計學(xué)上最 顯著富集的、對癌癥演變和轉(zhuǎn)移至關(guān)重要的生物學(xué)通路中。
[0058] iv)使用DDg和統(tǒng)計加權(quán)投票分組(SWVg)方法從(iii)中識別在生物學(xué)上有意 義的和生存顯著的一個子集基因,所述基因可以提供在臨床上明顯的、統(tǒng)計學(xué)上顯著的對 HG-E0C患者的分層方法,并將患者分為由SWVg方法所界定的低、中和高風險亞組,用于生 存預(yù)測分析。SWVg是計算疾病結(jié)果的預(yù)測方法,執(zhí)行擬合優(yōu)度分析將患者群體分為屬于 不同K-M曲線的兩個或多個亞組。使用多變量Cox比例模型在生存分析中構(gòu)建K-M曲線。 SWVg用于從由DDg方法中生成的分組信息(例如,基于個體生存顯著的基因的組)中獲取 一致的分組決策。通過SWVg對多變量總生存數(shù)據(jù)分析中K-M曲線可相互比較的p值所作 的評估進行最小化來評估原始患者群體的分隔性能