用于疾病關(guān)聯(lián)的人類基因組變異分析和報(bào)告的系統(tǒng)及方法
【專利說(shuō)明】用于疾病關(guān)聯(lián)的人類基因組變異分析和報(bào)告的系統(tǒng)及方法
[0001] 受限版權(quán)授權(quán)
[0002] 本專利文獻(xiàn)的公開(kāi)內(nèi)容中的一部分包括受版權(quán)保護(hù)的資料。當(dāng)該受版權(quán)保護(hù)的資 料出現(xiàn)在專利商標(biāo)局的專利文件或記錄中時(shí),版權(quán)所有人不反對(duì)任何人對(duì)專利文件或?qū)@?公開(kāi)內(nèi)容中的任一者進(jìn)行復(fù)制,但在其他方面仍保留所有版權(quán)。
【背景技術(shù)】 陽(yáng)00引相關(guān)技術(shù)的描述
[0004] 可W使用包括基因組變異的基因組測(cè)序結(jié)果的計(jì)算分析來(lái)預(yù)測(cè)疾病的可能性。
【發(fā)明內(nèi)容】
陽(yáng)〇化]根據(jù)本公開(kāi)內(nèi)容的一些方面的計(jì)算機(jī)系統(tǒng)可W包括:一個(gè)或更多個(gè)計(jì)算機(jī)處理 器;W及有形存儲(chǔ)設(shè)備,該有形存儲(chǔ)設(shè)備存儲(chǔ)有變異分析模塊、驗(yàn)證模塊、報(bào)告模塊和用于 疾病風(fēng)險(xiǎn)預(yù)測(cè)的一個(gè)或更多個(gè)統(tǒng)計(jì)模塊。所述模塊可W被配置成用于由一個(gè)或更多個(gè)計(jì)算 機(jī)處理器來(lái)執(zhí)行。所述模塊可W被配置成接收和提取疾病相關(guān)變異信息。所述模塊還可W 被配置成將疾病相關(guān)變異信息存儲(chǔ)在第一數(shù)據(jù)結(jié)構(gòu)中。針對(duì)與個(gè)人相關(guān)聯(lián)的多個(gè)基因組序 列中的每個(gè)基因組序列,可W經(jīng)由變異分析模塊來(lái)識(shí)別多個(gè)基因組變異。可W將多個(gè)基因 組變異存儲(chǔ)在第二數(shù)據(jù)結(jié)構(gòu)中??蒞經(jīng)由一個(gè)或更多個(gè)統(tǒng)計(jì)模塊中的至少一個(gè)統(tǒng)計(jì)模塊W 及被存儲(chǔ)在第一數(shù)據(jù)結(jié)構(gòu)中的疾病相關(guān)變異信息來(lái)確定與多個(gè)基因組變異中的至少一個(gè) 或更多個(gè)基因組變異相關(guān)聯(lián)的一個(gè)或更多個(gè)疾病概率。針對(duì)多個(gè)基因組變異中的具有大于 闊值的至少一個(gè)疾病概率的至少一個(gè)或更多個(gè)基因組變異,可W使用驗(yàn)證模塊來(lái)獲得對(duì)多 個(gè)基因組變異中的至少一個(gè)基因組變異的驗(yàn)證。響應(yīng)于確定出獲得對(duì)多個(gè)基因組變異中的 至少一個(gè)基因組變異的驗(yàn)證,可W經(jīng)由報(bào)告模塊來(lái)創(chuàng)建報(bào)告。該報(bào)告可W至少包括疾病和 該疾病的可能性。該疾病的可能性可W至少部分基于一個(gè)或更多個(gè)統(tǒng)計(jì)模塊W及被存儲(chǔ)在 第一數(shù)據(jù)結(jié)構(gòu)中的疾病相關(guān)變異信息來(lái)確定。
【附圖說(shuō)明】
[0006] 通過(guò)結(jié)合附圖來(lái)參照下面的詳細(xì)描述,前述方面和許多伴隨優(yōu)點(diǎn)將變得更好理 解,從而將更容易領(lǐng)會(huì),在附圖中:
[0007] 圖1是示出在用于基因組測(cè)序和比對(duì)的說(shuō)明性操作環(huán)境中的數(shù)據(jù)流的一個(gè)實(shí)施 方式的流程圖。
[0008] 圖2是示出在接收到基因組測(cè)序結(jié)果之后的序列處理步驟的一個(gè)實(shí)施方式的流 程圖。
[0009] 圖3是示出數(shù)據(jù)庫(kù)查詢、變異分析、疾病的可能性的統(tǒng)計(jì)預(yù)測(cè)、驗(yàn)證和定制報(bào)告的 過(guò)程的一個(gè)實(shí)施方式的系統(tǒng)圖和流程圖。
[0010] 圖4是可W被生成并且呈現(xiàn)給用戶W使用戶能夠生成定制的變異分析和疾病可 能性報(bào)告的說(shuō)明性用戶界面,該變異分析和疾病可能性報(bào)告包括關(guān)于對(duì)運(yùn)樣的分析和/或 報(bào)告的驗(yàn)證的信息。
[0011]圖5是示出用于計(jì)算和呈現(xiàn)基因組序列變異分析數(shù)據(jù)和疾病可能性數(shù)據(jù)的系統(tǒng) 的一個(gè)實(shí)施方式的框圖。 陽(yáng)01引圖6A是可W包括例如疾病風(fēng)險(xiǎn)、載體狀態(tài)、性狀和/或藥物反應(yīng)的信息的臨床報(bào) 告的實(shí)施方式。
[0013] 圖6B是包括例如變異、疾病關(guān)聯(lián)、疾病的可能性和受影響的基因的信息的報(bào)告的 實(shí)施方式。
[0014] 圖6C是可W被生成并且呈現(xiàn)給用戶W示出與一個(gè)或更多個(gè)基因組變異相關(guān)聯(lián)的 特定疾病風(fēng)險(xiǎn)的用戶界面的實(shí)施方式。
[0015] 圖抓是與患者的基因組變異有關(guān)的細(xì)節(jié)的實(shí)施方式。
[0016] 圖7是示出可能與疾病有關(guān)的祖先相關(guān)信息的界面的實(shí)施方式。
[0017] 圖8是使與患者的基因組序列數(shù)據(jù)有關(guān)的基因組測(cè)序變異文件顯現(xiàn)的報(bào)告的實(shí) 施方式。
[0018] 圖9A是可W被生成并且呈現(xiàn)給用戶的具有疾病概率的警告的疾病預(yù)測(cè)報(bào)告模板 的實(shí)施方式,該疾病預(yù)測(cè)報(bào)告模板可W包括突變和關(guān)聯(lián)疾病風(fēng)險(xiǎn)的條形圖表示。
[0019] 圖9B是可W被生成并且呈現(xiàn)給用戶W指示疾病的風(fēng)險(xiǎn)的疾病預(yù)測(cè)報(bào)告模板的實(shí) 施方式,該疾病預(yù)測(cè)報(bào)告模板可W包括基因型數(shù)據(jù)和關(guān)聯(lián)疾病風(fēng)險(xiǎn)的散點(diǎn)圖表示。
【具體實(shí)施方式】
[0020] 下面將參照附圖對(duì)系統(tǒng)、方法、過(guò)程W及數(shù)據(jù)結(jié)構(gòu)的各種實(shí)施方式進(jìn)行描述。還將 對(duì)表示其他實(shí)施方式的系統(tǒng)、方法、過(guò)程和數(shù)據(jù)結(jié)構(gòu)的變型進(jìn)行描述。系統(tǒng)、方法、過(guò)程和數(shù) 據(jù)結(jié)構(gòu)的某些方面、優(yōu)點(diǎn)和新穎特征在本文中被描述。應(yīng)該理解的是,根據(jù)任何特定實(shí)施方 式未必可W實(shí)現(xiàn)所有運(yùn)樣的優(yōu)點(diǎn)。因此,系統(tǒng)、方法、過(guò)程和/或數(shù)據(jù)結(jié)構(gòu)可下述方式 來(lái)實(shí)施或?qū)崿F(xiàn):實(shí)現(xiàn)如本文所教導(dǎo)的一個(gè)優(yōu)點(diǎn)或一組優(yōu)點(diǎn),而未必實(shí)現(xiàn)如本文可W教導(dǎo)或 建議的其他優(yōu)點(diǎn)。
[0021] 可W對(duì)基因組測(cè)序數(shù)據(jù)進(jìn)行比對(duì),使得通過(guò)將個(gè)體的基因組序列與一個(gè)或更多個(gè) 參考序列進(jìn)行比較來(lái)檢測(cè)該個(gè)體的基因組序列中的變異??蒞應(yīng)用統(tǒng)計(jì)和/或機(jī)器學(xué)習(xí)方 法W基于W下信息來(lái)預(yù)測(cè)疾病的可能性:基因組變異信息W及關(guān)于基因組變異與疾病之間 的可能關(guān)系的信息。
[0022] 本文公開(kāi)了用于基因組變異分析、疾病可能性預(yù)測(cè)、分析和預(yù)測(cè)驗(yàn)證W及定制報(bào) 告生成的系統(tǒng)和方法。運(yùn)樣的系統(tǒng)和方法可W用于為臨床醫(yī)生、研究人員和/或患者作出 高可信度的基于變異的疾病可能性分析和預(yù)測(cè)。
[0023] 基因測(cè)序和比對(duì)過(guò)程示例
[0024] 圖1是示出在用于基因組測(cè)序和比對(duì)的說(shuō)明性操作環(huán)境中的數(shù)據(jù)流的一個(gè)實(shí)施 方式的流程圖。如圖1中所示,可W從多個(gè)患者110獲得DNA樣本。在一些實(shí)施方式中,一 次可W批量地獲得和處理超過(guò)90例患者的DNA樣本。在一些實(shí)施方式中,可W從胎兒獲得 DNA樣本。在一些其他實(shí)施方式中,可W從各種其他生物樣本獲得DNA樣本。例如,生物樣 本可W包括大量樣本,例如人類(包括嬰兒)組織、動(dòng)物組織和具有大量細(xì)胞的細(xì)胞系。還 可W從有限的資源一一例如稀缺資源并且在一些情況下珍貴資源(包括例如具有較少且有 限數(shù)量細(xì)胞的細(xì)胞系)一-獲得DNA樣本。甚至可W從單個(gè)細(xì)胞或者在出于各種目的某些 純化和其它處理過(guò)程之后獲得DNA樣本。根據(jù)實(shí)施方式,圖1的方法可W包括更少的塊或 附加的塊,并且可WW與所示出的順序不同的順序來(lái)執(zhí)行塊。
[00巧]根據(jù)實(shí)施方式,可W通過(guò)例如多重置換擴(kuò)增("MDA")技術(shù)來(lái)對(duì)所獲得的DNA樣本 進(jìn)行擴(kuò)增。MDA擴(kuò)增技術(shù)能夠迅速將所獲得的DNA樣本擴(kuò)增至足W進(jìn)行基因組分析的合理 的數(shù)量。相比于傳統(tǒng)的PCR擴(kuò)增技術(shù),MDAW通常較低的錯(cuò)誤頻率來(lái)生成較大尺寸的產(chǎn)品。 [00%] 在一些實(shí)施方式中,MDA過(guò)程設(shè)及W下步驟:例如DNA產(chǎn)品的樣本制備、調(diào)整、終止 反應(yīng)化及純化。在MDA擴(kuò)增過(guò)程完成之后,可W獲得經(jīng)擴(kuò)增的DNA樣本120。
[0027] 根據(jù)本公開(kāi)內(nèi)容的一些實(shí)施方式,經(jīng)擴(kuò)增的DNA樣本可W經(jīng)歷庫(kù)構(gòu)造過(guò)程。在庫(kù) 構(gòu)造過(guò)程期間,可W用條形碼對(duì)包含經(jīng)擴(kuò)增的DNA樣本120的試管進(jìn)行標(biāo)記。例如,如果總 共有96個(gè)經(jīng)擴(kuò)增的DNA樣本,則可W用條形碼1至條形碼96對(duì)包含經(jīng)擴(kuò)增的DNA樣本120 的試管進(jìn)行標(biāo)記。因此可W構(gòu)造經(jīng)擴(kuò)增的DNA樣本120的庫(kù)130。如果DNA樣本從大量樣 本例如人類(包括嬰兒)組織、動(dòng)物組織和具有大量細(xì)胞的細(xì)胞系來(lái)獲得,則可W使用DNA 片段化方法(例如剪切)和基于PCR擴(kuò)增的庫(kù)構(gòu)造方法來(lái)構(gòu)造庫(kù)130。如果DNA樣本從有 限的資源例如單個(gè)細(xì)胞或者具有較少且有限數(shù)量細(xì)胞的細(xì)胞系來(lái)獲得,則可W使用其它方 法來(lái)構(gòu)造庫(kù)130,所述其他方法包括例如多重置換擴(kuò)增(MDA)W及基于多重退火環(huán)狀循環(huán) 擴(kuò)增(MBLAC)的擴(kuò)增方法。在一些實(shí)施方式中,樣本的條形碼可W包含另外的相關(guān)信息。
[0028] 在一些實(shí)施方式中,經(jīng)擴(kuò)增的DNA樣本120作為庫(kù)130可W經(jīng)歷測(cè)序過(guò)程。在一 些實(shí)施方式中,測(cè)序儀例如IonProton?系統(tǒng)可W被用于測(cè)序。在一些其他實(shí)施方式中, 其它最先進(jìn)的測(cè)序系統(tǒng)可W用于測(cè)序目的。可W獲得來(lái)自各種測(cè)序方法一一例如鳥(niǎo)槍法測(cè) 序、單分子實(shí)時(shí)測(cè)序、離子半導(dǎo)體測(cè)序、焦憐酸測(cè)序、合成法測(cè)序、結(jié)扎法測(cè)序、鏈終止法測(cè) 序一一的數(shù)據(jù)并且所述數(shù)據(jù)可W用于獲得原始數(shù)據(jù)140。
[0029] 在一些實(shí)施方式中,為了保證測(cè)序覆蓋的質(zhì)量和深度,庫(kù)130中的每個(gè)樣本可W 被測(cè)序達(dá)一定的測(cè)序深度,W產(chǎn)生20x至50x的覆蓋。在一些實(shí)施方式中,在測(cè)序處理中可 W實(shí)現(xiàn)更多覆蓋或更少覆蓋。針對(duì)被測(cè)序的每個(gè)樣本創(chuàng)建更多覆蓋的目的是為了確保所檢 測(cè)的基因