發(fā)明領(lǐng)域
本發(fā)明的領(lǐng)域是組學(xué)分析,且尤其是當(dāng)本發(fā)明的領(lǐng)域涉及癌癥診斷和治療中的RNA組學(xué)。
發(fā)明背景
本背景描述包括可以用于理解本發(fā)明的信息。本背景并不是承認(rèn)本文提供的任何信息是現(xiàn)有技術(shù)或與目前要求保護(hù)的本發(fā)明相關(guān),或不承認(rèn)具體或隱含引用的出版物是現(xiàn)有技術(shù)。
隨著可負(fù)擔(dān)得起的且相對(duì)快速的全基因組測(cè)序的出現(xiàn),已經(jīng)獲得了有關(guān)DNA層面上的大量詳實(shí)的知識(shí)。然而,在大多數(shù)情形中,因數(shù)量龐大的信息以及缺乏基礎(chǔ)結(jié)構(gòu)和計(jì)算算法阻礙了對(duì)數(shù)據(jù)進(jìn)行有意義的分析。如果額外的組學(xué)信息可用于分析,且尤其是組織水平的且甚至細(xì)胞水平的RNA組學(xué)和蛋白組學(xué),那么這樣的困難被進(jìn)一步加重。因而,整合這種額外的數(shù)據(jù)在許多預(yù)測(cè)、診斷和治療方法中成為限速步驟。
最近,且例如,如US 2012/0059670和US 2012/0066001中描述的,用于基因組數(shù)據(jù)的高處理量的序列分析通過(guò)增量差分比對(duì)(incremental differential alignment)和患者腫瘤與匹配的健康組織的比較已經(jīng)變得明顯更有效。這樣的信息隨后可以使用如先前也描述在WO/2011/139345和WO/2013/062505中的通路識(shí)別算法被進(jìn)一步分析。然而,即使借助這些先進(jìn)的工具,腫瘤基因組中存在特定系列的突變也不一定能預(yù)測(cè)到突變基因?qū)嶋H上被表達(dá),且如果這樣,也不一定能預(yù)測(cè)到突變可能具有的影響。雖然來(lái)自RNA組學(xué)的發(fā)現(xiàn)本身可能是有幫助的,但這樣的獨(dú)立的結(jié)果通常將不具有高的信息價(jià)值且沒(méi)有來(lái)自基因組學(xué)和蛋白組學(xué)的上下文的額外數(shù)據(jù)。
因而,即使用于分析組學(xué)數(shù)據(jù)的許多系統(tǒng)和方法是本領(lǐng)域已知的,但是仍存在對(duì)改善組學(xué)分析和整合從不同組學(xué)平臺(tái)搜集的信息的需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明主題涉及整合RNA組學(xué)信息與各種分析系統(tǒng)且尤其是基因組學(xué)分析以及識(shí)別用于腫瘤疾病的各種標(biāo)記的系統(tǒng)和方法。更具體地,發(fā)明人已經(jīng)發(fā)現(xiàn)基因組或外顯子組水平的患者和腫瘤特異性突變可以用相應(yīng)的RNA的轉(zhuǎn)錄水平的分析而被文字化,如果突變是具有與惡性腫瘤已知的關(guān)聯(lián)性的選定基因內(nèi)的無(wú)義突變時(shí)尤其如此。
在本發(fā)明主題的一個(gè)方面中,一種處理組學(xué)數(shù)據(jù)的方法,包括步驟:使數(shù)據(jù)庫(kù)與分析引擎在信息上連接(informationally coupling),其中數(shù)據(jù)庫(kù)存儲(chǔ)基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合。在通常設(shè)想的方法中,基因組數(shù)據(jù)集合代表患者的患病組織(如癌組織)中的至少一個(gè)基因的突變,其中突變是相對(duì)于患者的正常組織,且轉(zhuǎn)錄組數(shù)據(jù)集合代表患者的患病組織中的至少一個(gè)基因的突變和表達(dá)水平,其中突變和表達(dá)水平是相對(duì)于患者的正常組織。在所設(shè)想的方法的另一個(gè)步驟中,序列分析引擎用于使用突變(如,當(dāng)突變處于同一位置時(shí))使轉(zhuǎn)錄組數(shù)據(jù)集合與基因組數(shù)據(jù)集合相關(guān)聯(lián),并用于識(shí)別突變?yōu)闊o(wú)義突變。當(dāng)識(shí)別突變?yōu)闊o(wú)義突變時(shí),序列分析引擎被進(jìn)一步用于識(shí)別在至少一個(gè)基因的3’-端部分內(nèi)的突變位置,且用于識(shí)別至少一個(gè)基因的表達(dá)水平。在所設(shè)想的方法的另一個(gè)步驟中,分析引擎利用突變的位置和表達(dá)水平更新或生成組學(xué)數(shù)據(jù)庫(kù)中的組學(xué)記錄。
雖然不限于本發(fā)明的主題,進(jìn)一步設(shè)想的方法可以包括步驟:使序列數(shù)據(jù)庫(kù)或測(cè)序設(shè)備與序列分析引擎在信息上連接,和使用序列分析引擎生成轉(zhuǎn)錄組數(shù)據(jù)集合和基因組數(shù)據(jù)集合的另一個(gè)步驟。更通常但不一定地,轉(zhuǎn)錄組數(shù)據(jù)集合和基因組數(shù)據(jù)集合是不同的序列對(duì)象。通常進(jìn)一步設(shè)想的,轉(zhuǎn)錄組數(shù)據(jù)由cDNA或多聚A+RNA獲得。
在所設(shè)想的方法的另外的方面,當(dāng)所識(shí)別的位置是在基因的3-端部分(如端3外顯子、端2外顯子)中的位置時(shí)和/或當(dāng)所識(shí)別的表達(dá)水平在高于相對(duì)于正常組織的表達(dá)水平時(shí),將更新組學(xué)記錄。在被設(shè)想的其他基因中,示例性的合適的基因包括CDKN2A、ARID1A、FAT1、TP53、PTEN、AHNAK、SRRM2、RASA1、PIK3R1以及MRPL32。
因此,且從另一個(gè)角度看,組學(xué)記錄計(jì)算機(jī)系統(tǒng)將包括至少一個(gè)處理器和與處理器連接的至少一個(gè)存儲(chǔ)器且存儲(chǔ)器被配置成存儲(chǔ)(1)代表患者的患病組織中的至少一個(gè)基因的突變的基因組數(shù)據(jù)集合,其中突變是相對(duì)于患者的正常組織,和(2)代表患者的患病組織中的至少一個(gè)基因的突變和表達(dá)水平的轉(zhuǎn)錄組數(shù)據(jù)集合,其中突變和表達(dá)水平是相對(duì)于患者的正常組織。所設(shè)想的系統(tǒng)還將包括分析引擎,該分析引擎在信息上連接于組學(xué)數(shù)據(jù)庫(kù),且能夠根據(jù)存儲(chǔ)在至少一個(gè)存儲(chǔ)器中的軟件指令在至少一個(gè)處理器上執(zhí)行,且處理器配置成(a)利用突變使基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合相關(guān)聯(lián);(b)識(shí)別突變?yōu)闊o(wú)義突變,且當(dāng)識(shí)別突變?yōu)闊o(wú)義突變時(shí):識(shí)別在至少一個(gè)基因的3’-端部分內(nèi)的突變位置;且識(shí)別至少一個(gè)基因的表達(dá)水平;(c)利用所識(shí)別的位置和表達(dá)水平來(lái)更新組學(xué)數(shù)據(jù)庫(kù)中的組學(xué)記錄。
在所設(shè)想的計(jì)算機(jī)系統(tǒng)的另外的方面,轉(zhuǎn)錄組數(shù)據(jù)集合和基因組數(shù)據(jù)集合中的至少一個(gè)是不同的序列對(duì)象,和/或患病組織是癌組織。更通常地,轉(zhuǎn)錄組數(shù)據(jù)集合基于多聚A+RNA或cDNA的分析。正如上面已經(jīng)注意到的,當(dāng)所識(shí)別的位置是基因的3-端部分中的位置時(shí)和/或當(dāng)所識(shí)別的表達(dá)水平在高于相對(duì)于正常組織的表達(dá)水平時(shí),可以更新組學(xué)記錄。
還設(shè)想基因是癌癥相關(guān)的基因,例如CDKN2A、ARID1A、FAT1、TP53、PTEN、AHNAK、SRRM2、RASA1、PIK3R1和/或MRPL32。因此,組學(xué)記錄可以被更新以證實(shí)診斷(如腫瘤疾病的)或提議治療選項(xiàng)(如,對(duì)于腫瘤疾病)。
從下面的優(yōu)選實(shí)施方案的詳細(xì)描述以及附圖,本發(fā)明主題的各種目的、特征、方面以及優(yōu)勢(shì)將變得更明顯,在附圖中相同的數(shù)字表示相同的部件。
附圖說(shuō)明
圖1是根據(jù)本發(fā)明主題的組學(xué)記錄計(jì)算機(jī)系統(tǒng)的示例性示意圖。
圖2是闡釋了選定癌癥的體細(xì)胞突變曲線的圖。
圖3是提供了特定癌癥的選定基因中的突變類型和發(fā)生的詳細(xì)視圖的圖。
圖4是描繪了同義突變相對(duì)于所有突變的突變等位基因分?jǐn)?shù)(DNA對(duì)RNA)的散點(diǎn)圖。
圖5是描繪了錯(cuò)義突變相對(duì)于所有突變的突變等位基因分?jǐn)?shù)(DNA對(duì)RNA)的散點(diǎn)圖。
圖6是描繪了無(wú)義突變相對(duì)于所有突變的突變等位基因分?jǐn)?shù)(DNA對(duì)RNA)的散點(diǎn)圖。
圖7是闡釋了同義突變的表達(dá)水平隨突變位置變化的圖。
圖8是闡釋了錯(cuò)義突變的表達(dá)水平隨突變位置變化的圖。
圖9是闡釋了無(wú)義突變的表達(dá)水平隨突變位置變化的圖。
圖10是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于CDKN2A基因中的無(wú)義突變的位置的圖。
圖11是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于ARID1A基因中的無(wú)義突變的位置的圖。
圖12是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于FAT1基因中的無(wú)義突變的位置的圖。
圖13是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于TP53基因中的無(wú)義突變的位置的圖。
圖14是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于PTEN基因中的無(wú)義突變的位置的圖。
具體實(shí)施方式
發(fā)明人發(fā)現(xiàn)癌組織中的基因組突變并不同等地轉(zhuǎn)錄成RNA,而是癌癥相關(guān)基因中的選定突變類型,且尤其是無(wú)義突變以較高的比率被轉(zhuǎn)錄,如果突變位于癌癥相關(guān)基因的3-端部分內(nèi)尤其如此。甚至更值得注意的,發(fā)現(xiàn)這樣高轉(zhuǎn)錄的基因涉及了不止一種癌癥種類。因此,發(fā)明人設(shè)想了基于整合的基因組信息和轉(zhuǎn)錄組信息來(lái)檢測(cè)用于診斷并治療各種癌癥的分子標(biāo)記的系統(tǒng)和方法。從另一個(gè)角度看,患者特異性的高轉(zhuǎn)錄的突變RNA(且尤其是無(wú)義突變RNA)可以被識(shí)別為和/或被用作針對(duì)各種癌癥的存在、治療和/或預(yù)防的診斷工具。為此,下面更詳細(xì)地設(shè)想并討論了處理組學(xué)數(shù)據(jù)的各種方法和組學(xué)記錄計(jì)算機(jī)系統(tǒng)。
應(yīng)注意到,涉及計(jì)算機(jī)的任何表述應(yīng)該被理解為包括計(jì)算設(shè)備的任何合適的組合,計(jì)算設(shè)備包括服務(wù)器、接口、系統(tǒng)、數(shù)據(jù)庫(kù)、代理、同位體(peer)、引擎、控制器、模塊或單獨(dú)操作或集中操作的其它類型的計(jì)算設(shè)備。應(yīng)理解,計(jì)算設(shè)備包括處理器,該處理器被配置成執(zhí)行存儲(chǔ)在有形的、永久性的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(如硬驅(qū)、FPGA、PLA、固態(tài)驅(qū)動(dòng)器、RAM、flash、ROM等)上的軟件指令。軟件指令配置或另外編程計(jì)算設(shè)備以提供正如下面關(guān)于所公開的裝置所討論的作用、職責(zé)或其它功能。此外,所公開的技術(shù)可以具體體現(xiàn)為包括永久性計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)使處理器執(zhí)行所公開的與基于計(jì)算機(jī)的算法、過(guò)程、方法或其它指令的執(zhí)行相關(guān)的步驟的軟件指令。在一些實(shí)施方案中,各種服務(wù)器、系統(tǒng)、數(shù)據(jù)庫(kù)或接口使用可能基于HTTP、HTTPS、AES、公鑰-私鑰交換、web服務(wù)API、已知的財(cái)務(wù)交易協(xié)議或其它電子信息交換方法的標(biāo)準(zhǔn)協(xié)議或算法來(lái)交換數(shù)據(jù)。設(shè)備中的數(shù)據(jù)交換可以通過(guò)下述網(wǎng)絡(luò)進(jìn)行:分組交換網(wǎng)絡(luò)、互聯(lián)網(wǎng)、LAN、WAN、VPN或其它類型的分組交換網(wǎng)絡(luò);電路交換網(wǎng)絡(luò);蜂窩交換網(wǎng)絡(luò);或其它類型的網(wǎng)絡(luò)。
正如在本文的說(shuō)明書和下面的整個(gè)權(quán)利要求中使用的,當(dāng)系統(tǒng)、引擎、服務(wù)器、設(shè)備、模塊或其他計(jì)算元件被描述為配置成對(duì)存儲(chǔ)器中的數(shù)據(jù)施行或執(zhí)行功能,“配置成”或“編程為”被定義為由存儲(chǔ)在計(jì)算元件的存儲(chǔ)器中的軟件指令集合編程的計(jì)算元件的一個(gè)或多個(gè)處理器或核以執(zhí)行功能集合或?qū)Υ鎯?chǔ)在存儲(chǔ)器中的目標(biāo)數(shù)據(jù)或數(shù)據(jù)對(duì)象操作。
例如,圖1顯示了組學(xué)記錄計(jì)算機(jī)系統(tǒng)和處理組學(xué)數(shù)據(jù)的方法的一種所設(shè)想的實(shí)施。此處,組學(xué)記錄計(jì)算機(jī)系統(tǒng)100包括存儲(chǔ)器110和連接至存儲(chǔ)器的處理器140。存儲(chǔ)器110中存儲(chǔ)的是基因組數(shù)據(jù)集合120和轉(zhuǎn)錄組數(shù)據(jù)集合130??蛇x擇地或另外,基因組和/或轉(zhuǎn)錄組數(shù)據(jù)集合還可以由分析引擎150的數(shù)據(jù)集合生成器151提供。在這樣的情形中,原始序列數(shù)據(jù)可以由序列數(shù)據(jù)庫(kù)和/或產(chǎn)生組學(xué)數(shù)據(jù)的測(cè)序設(shè)備170提供。不考慮基因組數(shù)據(jù)集合120和轉(zhuǎn)錄組數(shù)據(jù)集合130的來(lái)源,設(shè)想軟件指令112被存儲(chǔ)在用于存儲(chǔ)器中以便對(duì)處理器140執(zhí)行以將處理器配置成作為分析引擎150來(lái)操作,分析引擎150提供對(duì)數(shù)據(jù)集合的各種功能和操作。例如,分析引擎150包括用于數(shù)據(jù)集合相關(guān)聯(lián)152的模塊以利用突變使基因組數(shù)據(jù)集合與轉(zhuǎn)錄組數(shù)據(jù)集合相關(guān)聯(lián)(如使數(shù)據(jù)集合與基因組內(nèi)的共同位置中的突變成對(duì)或以其他方式使兩者相關(guān)聯(lián))。分析引擎還可以包括識(shí)別突變類型(如為同義突變或無(wú)義突變)的突變識(shí)別模塊154、識(shí)別基因或轉(zhuǎn)錄物內(nèi)的突變位置的位置識(shí)別模塊156以及識(shí)別突變的轉(zhuǎn)錄物的表達(dá)水平(如,相對(duì)于同一患者的匹配的未突變的轉(zhuǎn)錄物)的表達(dá)水平識(shí)別模塊158。當(dāng)識(shí)別的突變?yōu)闊o(wú)義突變時(shí),突變位置被識(shí)別(如位于基因的3'-端部分內(nèi))且基因的表達(dá)水平被識(shí)別。最后,識(shí)別位置和表達(dá)水平隨后用于更新組學(xué)數(shù)據(jù)庫(kù)160中的組學(xué)記錄。
本文設(shè)想的基因組數(shù)據(jù)集合可以包括各種信息且可以以多種方式被格式化。因此,合適的基因組數(shù)據(jù)集合可以包括來(lái)自測(cè)序設(shè)備或原始數(shù)據(jù)存儲(chǔ)設(shè)備的原始數(shù)據(jù)。當(dāng)然,應(yīng)理解,原始數(shù)據(jù)可以以多種方式被處理。例如,原始數(shù)據(jù)可以被預(yù)處理以便改進(jìn)數(shù)據(jù)傳輸(如,正如PCT/US14/65562中描述的)和/或被格式化以有利于下游處理。特別優(yōu)選的格式包括BAM、SAM以及FASTA格式。如果原始數(shù)據(jù)或預(yù)處理的數(shù)據(jù)被提供,那么數(shù)據(jù)集合生成器可以將這樣的數(shù)據(jù)轉(zhuǎn)換成如上所述的合適的格式。在一些方面中,基因組數(shù)據(jù)集合是包括患病組織和健康組織兩者的匹配的DNA序列信息的數(shù)據(jù)集合。雖然這樣的數(shù)據(jù)集合中的特定序列長(zhǎng)度并不被限制到本發(fā)明的主題,但是應(yīng)注意到,數(shù)據(jù)集合可以包括相對(duì)小的片段(如30直至100、30直至300、30直至500、30直至700等),或較長(zhǎng)的片段(如lkb直至10kb、l0kb直至100kb、100kb直至500kb、500kb直至2mb、2mb直至10mb等。)的比對(duì)。在其他方面,基因組數(shù)據(jù)集合是不同的序列對(duì)象,通常從正如在US20120059670和US20120066001中討論的BAM文件的同步且增量的比對(duì)獲得的。特別設(shè)想的不同的序列對(duì)象將包括突變(如轉(zhuǎn)換、顛換、缺失、插入、重排等)的識(shí)別,通常關(guān)于基因組或外顯子組中的特定位置(如關(guān)于染色體上的堿基位置、特定基因內(nèi)的位置、特定外顯子內(nèi)的位置等),其中突變是相對(duì)于來(lái)自同一位患者的匹配的相應(yīng)樣品(如突變是同一供體的患病組織對(duì)相應(yīng)的健康組織)。應(yīng)進(jìn)一步認(rèn)識(shí)到,基因組數(shù)據(jù)集合可以從許多來(lái)源材料生成,且優(yōu)選的來(lái)源材料包括全基因組序列和富集外顯子組的基因組序列(或經(jīng)由電腦模擬計(jì)算的外顯子組序列)。不考慮來(lái)源材料,所設(shè)想的基因組數(shù)據(jù)集合將包括至少一種,且更通常至少兩種序列信息、位置信息、基因信息、參考基因組的參考信息、拷貝數(shù)、讀長(zhǎng)支撐(read support)以及質(zhì)量分?jǐn)?shù)?;蚪M數(shù)據(jù)集合將優(yōu)選包括匹配序列的這樣的信息,匹配序列即患病組織的序列和健康組織的相應(yīng)序列。從不同的角度看,基因組數(shù)據(jù)集合將提供關(guān)于從同一位患者的健康組織和患病組織獲得的DNA序列的差異的特異性的不同信息。
類似地,設(shè)想轉(zhuǎn)錄組數(shù)據(jù)集合可以顯著變化,且可以包括來(lái)自測(cè)序設(shè)備或原始數(shù)據(jù)存儲(chǔ)設(shè)備的原始數(shù)據(jù)。正如之前的,這樣的數(shù)據(jù)可以被預(yù)處理用于分組,正如描述在PCT/US14/65562中的或被格式化以有利于下游處理。特別優(yōu)選的格式包括BAM、SAM以及FASTA格式。如果提供原始數(shù)據(jù)或預(yù)處理過(guò)的數(shù)據(jù),數(shù)據(jù)集合生成器可以將這樣的數(shù)據(jù)轉(zhuǎn)換成如上所述的合適的格式。在一些方面,轉(zhuǎn)錄組數(shù)據(jù)集合是包括患病組織和健康組織兩者的匹配的RNA序列信息的數(shù)據(jù)集合。雖然在這樣的數(shù)據(jù)集合中的特定的序列長(zhǎng)度并未被限制到本發(fā)明的主題,但是應(yīng)注意到,數(shù)據(jù)集合可以包括相對(duì)小的片段(如30直至100、30直至300、30直至500、30直至700等)或較長(zhǎng)的片段(如lkb直至5kb、5kb直至20kb、20kb直至100kb等)的比對(duì)。在其他方面,基因組數(shù)據(jù)集合是不同的序列對(duì)象,通常從正如在US20120059670和US20120066001中討論的BAM文件的同步且增量的比對(duì)獲得的。正如上文,特別設(shè)想的不同序列對(duì)象將包括突變(如轉(zhuǎn)換、顛換、缺失、插入、重排等)的識(shí)別,通常關(guān)于RNA、mRNA或原發(fā)性RNA轉(zhuǎn)錄物中的特定位置(如關(guān)于染色體或原發(fā)性轉(zhuǎn)錄物上的堿基位置、特定基因內(nèi)的位置、特定外顯子內(nèi)的位置,特定剪接變異體等),其中突變是相對(duì)于來(lái)自同一患者的匹配的相應(yīng)樣品(如,突變是同一供體的患病組織對(duì)相應(yīng)的健康組織)。轉(zhuǎn)錄組數(shù)據(jù)集合可以從許多源材料產(chǎn)生,優(yōu)選的材料是(優(yōu)選逆轉(zhuǎn)錄的)mRNA和原發(fā)性轉(zhuǎn)錄物(hnRNA)。RNA序列信息從逆轉(zhuǎn)錄多聚A+-RNA獲得,這又從同一位患者的腫瘤樣品和匹配的正常(健康)樣品獲得。此外,應(yīng)注意到,同一位患者樣品還可以被用于DNA分析以及基于組織或細(xì)胞的蛋白組學(xué)分析。類似地,應(yīng)注意到,雖然多聚A+-RNA是通常優(yōu)選的轉(zhuǎn)錄組的代表,但其他形式的RNA(hn-RNA、非聚腺苷酸化的RNA、siRNA、miRNA等)也被適合于用在本文。不考慮材料,轉(zhuǎn)錄組數(shù)據(jù)集合將包括至少序列信息、位置信息、基因信息、參考基因組的參考信息、拷貝數(shù)、讀長(zhǎng)支撐以及質(zhì)量分?jǐn)?shù)等。此外,轉(zhuǎn)錄組數(shù)據(jù)集合通常將包括匹配序列的這樣的信息,匹配序列即同一位患者的患病組織的序列和健康組織的相應(yīng)序列。
在仍另外設(shè)想的方面,基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合可以被合并成包括患病組織和對(duì)應(yīng)的健康組織(通常來(lái)自同一供體/患者)的DNA和RNA序列信息的單個(gè)數(shù)據(jù)集合。在這樣的情形中,特別優(yōu)選的是合并的組學(xué)數(shù)據(jù)集合由位置同步增量比對(duì)中的各自的DNA BAM文件和RNA BAM文件制備,產(chǎn)生了含有患病組織和匹配的健康組織的DNA序列和RNA序列兩者的關(guān)于至少序列、突變位置、拷貝數(shù)、表達(dá)水平等的特定序列或基因的差異的不同的序列對(duì)象。
關(guān)于生成基因組數(shù)據(jù)集合和/或轉(zhuǎn)錄組數(shù)據(jù)集合的特別設(shè)想的方面,因此,設(shè)想利用如描述在US 2012/0059670和US 2012/0066001(它們?cè)诖送ㄟ^(guò)引用并入)中的算法和方法來(lái)優(yōu)先進(jìn)行腫瘤和匹配的RNA的同時(shí)分析。此外,應(yīng)理解腫瘤和匹配的DNA分析可以利用同一位患者的樣品來(lái)進(jìn)行,因而提供了同一位患者的且來(lái)自同一份樣品的基因組數(shù)據(jù)和轉(zhuǎn)錄組(RNA組學(xué))數(shù)據(jù)。這些數(shù)據(jù)隨后可以利用如描述在WO/2011/139345和WO/2013/062505(它們?cè)诖送ㄟ^(guò)引用并入)中的系統(tǒng)和方法被進(jìn)一步處理以獲得通路相關(guān)的數(shù)據(jù)。因而,應(yīng)注意到,針對(duì)一位患者的單通路分析可以由單個(gè)患者的樣品和匹配的對(duì)照來(lái)進(jìn)行,這將比單個(gè)組學(xué)分析顯著改善并完善分析數(shù)據(jù)。此外,同樣的分析方法可以借助額外的組學(xué)數(shù)據(jù)(如蛋白組學(xué)數(shù)據(jù))和/或患者特異性的歷史數(shù)據(jù)(如先前的組學(xué)數(shù)據(jù)、當(dāng)前的或過(guò)去的藥物治療等)被進(jìn)一步完善。此外,應(yīng)注意到,還可以從多種其它來(lái)源獲得進(jìn)一步的數(shù)據(jù),這些來(lái)源包括各種商業(yè)測(cè)序中心和/或?qū)W術(shù)機(jī)構(gòu)?;谶@些數(shù)據(jù),可以做出更準(zhǔn)確的診斷或預(yù)測(cè),以及基于完善的通路分析的治療選項(xiàng)。
關(guān)于本文的系統(tǒng)和方法中使用的相應(yīng)的組織,通常設(shè)想至少兩種不同的組織來(lái)用于生成基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合。例如,如果第一組織是患病組織(如,腫瘤的、癌癥的、受感染的、受創(chuàng)傷的等),那么第二組織是可以從或可以不從同一個(gè)器官或組織類型獲得的非患病組織??蛇x擇地或另外,第一組織和第二組織可以都是患病的且來(lái)自不同的部位,以便及時(shí)識(shí)別或表征治療效果、疾病進(jìn)展或逆轉(zhuǎn)等。
所設(shè)想的分析引擎通常將包括用于數(shù)據(jù)集合相關(guān)聯(lián)的模塊,該模塊利用突變使基因組數(shù)據(jù)集合與轉(zhuǎn)錄組數(shù)據(jù)集合相關(guān)聯(lián)(如,使基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合與基因組內(nèi)的共同位置中的突變成對(duì)或以其他方式使兩者相關(guān)聯(lián))。從另一角度看,基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合被比對(duì),從而可以比較基因組數(shù)據(jù)集合與轉(zhuǎn)錄組數(shù)據(jù)集合之間對(duì)應(yīng)的序列或位置,且從而基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合包括共同的突變。因而,相關(guān)聯(lián)模塊使患病組織和健康組織兩者的DNA信息通常與相應(yīng)的RNA信息保持一致,或如果提供不同的序列對(duì)象,那么相關(guān)聯(lián)模塊使患病組織的DNA和健康組織的DNA之間的不同序列對(duì)象中的相應(yīng)突變與患病組織的相應(yīng)RNA序列和健康組織的相應(yīng)RNA序列之間的不同序列對(duì)象保持一致。這樣,應(yīng)理解,關(guān)于特定位置的特異性突變的所有相關(guān)的信息(如突變類型、突變的序列信息、拷貝數(shù)信息、轉(zhuǎn)錄水平信息等)可以被相關(guān)聯(lián)以便用于進(jìn)一步的分析。
所設(shè)想的分析引擎還將包括用于突變識(shí)別的模塊,該模塊識(shí)別和/或分類基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合中的任何突變,其中識(shí)別和分類包括識(shí)別至少無(wú)義突變,且進(jìn)一步識(shí)別錯(cuò)義突變和/或同義突變。當(dāng)然,應(yīng)注意到,也可以識(shí)別和/或分類與突變相關(guān)聯(lián)的額外的信息,且這樣的額外信息的典型示例包括移碼信息、易位信息、選擇性剪接信息、重排信息等。
在本發(fā)明主題的進(jìn)一步設(shè)想的方面中,分析引擎將包括被配置成識(shí)別在受突變影響的基因內(nèi)的所識(shí)別的突變的位置的模塊和被配置成識(shí)別攜帶突變的基因的表達(dá)(轉(zhuǎn)錄)水平的另外的模塊(通常利用轉(zhuǎn)錄組數(shù)據(jù)集合中提供的信息)。例如,且正如下面更詳細(xì)描述的,位置識(shí)別可能與評(píng)估突變是無(wú)義突變時(shí)的突變的重要性相關(guān)。因此,位置信息可以包括識(shí)別或證實(shí)突變位于基因和/或轉(zhuǎn)錄物的3'-端部分內(nèi)。正如在本文中使用的,術(shù)語(yǔ)“在3'-端部分內(nèi)”指的是具有序列的3'-端50%、或3'-端40%、或3'-端30%、或3'-端20%或3'-端10%的位置。從另一個(gè)角度看,術(shù)語(yǔ)“在3'-端部分內(nèi)”還可以指3'-端外顯子或最后兩個(gè)3'-端外顯子或最后三個(gè)3'-端外顯子。
基于下面的發(fā)明人的發(fā)現(xiàn),患者的組學(xué)記錄可以基于從相配合的基因組/轉(zhuǎn)錄物組學(xué)分析獲得的信息來(lái)更新或生成。例如,如果基因組和轉(zhuǎn)錄組中的突變是基因中的無(wú)義突變且如果該基因的轉(zhuǎn)錄水平大于相應(yīng)的未突變基因的轉(zhuǎn)錄水平,那么可以更新組學(xué)記錄。合適的組學(xué)數(shù)據(jù)庫(kù)通常將包括來(lái)自多位患者的組學(xué)記錄且可以用于存儲(chǔ)組學(xué)原始數(shù)據(jù)或處理過(guò)的數(shù)據(jù)、基因組數(shù)據(jù)集合、轉(zhuǎn)錄組數(shù)據(jù)集合、不同的序列對(duì)象、BAM文件等。
因此,鑒于上文和下面的實(shí)施例,應(yīng)該認(rèn)識(shí)到,所設(shè)想的系統(tǒng)和方法將易于提供一條新的途徑來(lái)基于基因組信息和轉(zhuǎn)錄組信息識(shí)別用于治療和診斷癌癥的潛在的分子標(biāo)記。從不同的角度看,發(fā)明人設(shè)想通過(guò)患者特異性地識(shí)別基因組突變和相應(yīng)的RNA表達(dá)水平,那么高轉(zhuǎn)錄的突變RNA(且尤其是無(wú)義突變RNA)可以被證實(shí)作為和/或用作各種癌癥的存在、治療或預(yù)防的診斷工具。
例如,正如表1中示例性顯示的,TCGA提供了針對(duì)13種不同種類癌癥的大量的外顯子對(duì)數(shù)據(jù)(總共>5,000)以及相應(yīng)的RNA序列(總共>3,900)。利用這些數(shù)據(jù),可以進(jìn)行正如下面更詳細(xì)描述的許多DNA/匹配的RNA的分析。
表1
來(lái)自TCGA的數(shù)據(jù)的進(jìn)一步分析提供了上面的表1中列出的癌癥的各種體細(xì)胞突變曲線,且每Mb的突變頻率示例性地描繪在圖2中。正如可以看到的,大多數(shù)突變頻率在一個(gè)數(shù)量級(jí)內(nèi)且具有基本上類似的s形分布圖案。圖3示例性地提供了癌癥種類內(nèi)的選定基因的體細(xì)胞突變曲線的更詳細(xì)視圖,矩形圖中列出了具有各突變類型(錯(cuò)義、無(wú)義、移碼、整碼)的每一種腫瘤類型的受影響最大的基因。此外,圖3還闡釋了在受影響最大的基因中的單個(gè)腫瘤種類中的突變類型的潛在關(guān)聯(lián)。正如可以看到的,在整個(gè)所有腫瘤種類中,沒(méi)有看到明顯的偏倚或特異性的關(guān)聯(lián)。
關(guān)于轉(zhuǎn)錄,發(fā)明人注意到,正如從下面的表2獲得的,基因組中的大量(>80%)的突變也被表達(dá)/存在于轉(zhuǎn)錄組中,且沒(méi)有對(duì)特定類型(如同義、錯(cuò)義、無(wú)義)的突變具有表觀上明顯的偏好或反對(duì)。正如可以從表2獲得的,無(wú)義突變的總分?jǐn)?shù)是全部檢測(cè)到的突變的約5%,同義突變的總分?jǐn)?shù)是全部檢測(cè)到的突變的約28%以及錯(cuò)義突變的總分?jǐn)?shù)是全部檢測(cè)到的突變的約67%。正如本文中使用的,術(shù)語(yǔ)“檢測(cè)到的”意指在RNA-序列數(shù)據(jù)中存在至少一個(gè)支持突變等位基因的讀長(zhǎng),而術(shù)語(yǔ)“不存在”意指在RNA-序列數(shù)據(jù)中未檢測(cè)到突變等位基因。此外,表2中的數(shù)據(jù)僅僅考慮了具有置信度>=20的突變,且至少20個(gè)讀長(zhǎng)覆蓋RNA-序列中的位置。
表2
圖4-6提供了同義突變(圖4)、錯(cuò)義突變(圖5)以及無(wú)義突變(圖6)的DNA突變等位基因分?jǐn)?shù)(MAF)對(duì)RNA的基因組寬度分析,表明與所有突變相比,在轉(zhuǎn)錄中沒(méi)有對(duì)無(wú)義突變和錯(cuò)義突變明顯的偏好。然而,應(yīng)注意到,正如從上面的表2中反映出來(lái)的,一部分突變DNA并未被轉(zhuǎn)錄成RNA,正如在圖5中也具體標(biāo)示的。值得注意的是,圖6描繪了對(duì)較低轉(zhuǎn)錄/不轉(zhuǎn)錄的突變DNA的中等偏好,這引導(dǎo)發(fā)明人對(duì)這樣明顯的偏好分析可能的機(jī)理。令人驚奇地,當(dāng)繪制轉(zhuǎn)錄比率對(duì)每一種突變類型的突變位置的圖時(shí),發(fā)明人注意到,正如可以從圖7-9看到的,觀察到對(duì)同義突變和錯(cuò)義突變同樣缺乏顯著的偏好,但正如圖9中顯示的,在無(wú)義突變的情形中,在基因的3'-端部分內(nèi)且尤其是最后兩個(gè)端外顯子,無(wú)義突變是明顯高表達(dá)的。
在更密切的研究后,且當(dāng)研究涉及基因組寬度的轉(zhuǎn)錄時(shí),與表觀上缺乏偏好的突變類型相比,癌癥樣品中的若干個(gè)選定基因的確顯示出明顯高表達(dá)的圖案,其中基因具有無(wú)義突變,正如下面的表3中列出的。
表3
令人驚奇地,這些突變基因中的大部分與鱗狀細(xì)胞惡性腫瘤相關(guān)聯(lián)。圖10-14示例性地描繪了轉(zhuǎn)錄比率高于正常值且這樣的高表達(dá)與位于基因/轉(zhuǎn)錄物的3-端部分內(nèi)的無(wú)義突變相關(guān)聯(lián)的選定基因的分析。在這些附圖中,虛線表示高表達(dá)基因的閾值,(即突變體讀長(zhǎng)支撐排名高于參考的50%)。基于這些數(shù)據(jù),應(yīng)理解,上述突變基因?qū)⒁子谄鸬较嚓P(guān)癌癥的預(yù)測(cè)或診斷標(biāo)記的作用。因此,應(yīng)理解,高轉(zhuǎn)錄的無(wú)義突變(尤其是突變位于基因的3-端部分內(nèi)時(shí))可以被用在檢測(cè)用于診斷和治療各種癌癥的分子標(biāo)記的系統(tǒng)和方法中。
因而,已經(jīng)公開了組學(xué)分析方法的具體實(shí)施方案和應(yīng)用。對(duì)本領(lǐng)域技術(shù)人員應(yīng)該明顯的是,除了已經(jīng)描述的之外的許多更多的改變是可能的而并不偏離本文的本發(fā)明的構(gòu)想。因此,除了在所附權(quán)利要求的范圍內(nèi),本發(fā)明的主題并不受限制。此外,在解釋說(shuō)明書和權(quán)利要求時(shí),所有的術(shù)語(yǔ)應(yīng)該以與上下文一致的、盡可能寬泛的方式被解釋。具體地,術(shù)語(yǔ)“包括(comprises)”和“包括(comprising)”應(yīng)該被解釋為以非唯一的方式涉及要素、部件或步驟,表示所涉及的要素、部件或步驟可以存在或利用或與未明確涉及的其他要素、部件或步驟結(jié)合。如果說(shuō)明書和權(quán)利要求涉及選自由A、B、C…以及N組成的組中的至少一者的情況下,那么該文字應(yīng)被解釋為僅要求該組中的一個(gè)要素,而不是A加上N或B加上N等。