欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置制造方法

文檔序號(hào):6636458閱讀:526來(lái)源:國(guó)知局
檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置。該方法包括以下步驟:S1,對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì),得到所有SNP位點(diǎn)的數(shù)據(jù);S2,篩選出發(fā)生在剪接位點(diǎn)上和外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一SNP位點(diǎn)集;S3,去除第一SNP位點(diǎn)集中千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn),得到第三SNP位點(diǎn)集;以及S5,從第三SNP位點(diǎn)集中篩選出支持序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法實(shí)現(xiàn)了利用單一樣品對(duì)體細(xì)胞突變的檢測(cè),降低了成本。
【專利說(shuō)明】檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及高通量測(cè)序領(lǐng)域,具體而言,涉及一種檢測(cè)體細(xì)胞單核苷酸突變的方 法和裝置。

【背景技術(shù)】
[0002] 個(gè)體的每個(gè)細(xì)胞中都可能會(huì)攜帶有兩種類型的突變:種系突變和體細(xì)胞突變,種 系突變是指在生殖細(xì)胞中發(fā)生的可遺傳突變,也稱為生殖細(xì)胞突變。假如種系突變發(fā)生,則 個(gè)體中的所有細(xì)胞都會(huì)攜帶該種系突變。種系突變之外的突變?yōu)轶w細(xì)胞突變,這些突變并 不是從親代遺傳得到,而是受環(huán)境和其他因素影響而發(fā)生了改變。
[0003] 使用高通量測(cè)序的方式可以測(cè)到覆蓋樣本中所有基因的序列,結(jié)合相關(guān)變異檢測(cè) 軟件可檢測(cè)到樣本中目標(biāo)基因上存在的所有變異信息。目前能夠用來(lái)檢測(cè)體細(xì)胞突變的方 法是使用mutect軟件,它在檢測(cè)體細(xì)胞突變時(shí),需要一組成對(duì)的樣品,即可能帶有體細(xì)胞 突變的待檢樣品和可以提供種系突變的對(duì)照樣品。將兩個(gè)樣品進(jìn)行比對(duì),當(dāng)突變?cè)诖龣z樣 品中出現(xiàn),而未在對(duì)照樣品中出現(xiàn),則認(rèn)為該突變?yōu)榇龣z樣品中的一個(gè)體細(xì)胞突變。使用該 方法檢測(cè)體細(xì)胞突變時(shí)需要對(duì)兩個(gè)樣品分別進(jìn)行兩次高通量測(cè)序,增加了成本。
[0004] 目前使用單個(gè)樣本做變異檢測(cè)的軟件,對(duì)于檢測(cè)結(jié)果往往不區(qū)分種系突變和體細(xì) 胞突變。而提供體細(xì)胞突變信息的軟件,如mutect又需要一組成對(duì)的樣品。因而,現(xiàn)有技 術(shù)中還未開(kāi)發(fā)出既能采用單個(gè)樣本進(jìn)行檢測(cè)從而降低檢測(cè)成本又能檢測(cè)到體細(xì)胞突變的 檢測(cè)方法,仍需要對(duì)現(xiàn)有技術(shù)進(jìn)行改進(jìn),以滿足行業(yè)內(nèi)對(duì)上述體細(xì)胞突變的檢測(cè)要求。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明的主要目的在于提供一種檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置,不僅能 夠利用單個(gè)樣品實(shí)現(xiàn)體細(xì)胞突變的檢測(cè),而且降低檢測(cè)成本。
[0006] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種檢測(cè)體細(xì)胞單核苷酸突 變的方法,該方法包括以下步驟:S1,對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對(duì),得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置 信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息;S2,從所有SNP位 點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非 同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集;S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的 SNP位點(diǎn),得到第三SNP位點(diǎn)集;以及S5,從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0007] 進(jìn)一步地,在步驟Sl中,來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)包括全基因組DNA測(cè)序數(shù) 據(jù)或目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)。
[0008] 進(jìn)一步地,當(dāng)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)時(shí),來(lái)源于 體細(xì)胞的DNA測(cè)序數(shù)據(jù)的制備步驟包括:對(duì)來(lái)源于體細(xì)胞的DNA通過(guò)液相雜交捕獲的方法 制備成目標(biāo)區(qū)域的DNA測(cè)序文庫(kù);對(duì)目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序,得到來(lái)源于體細(xì)胞 的DNA測(cè)序數(shù)據(jù)。
[0009] 進(jìn)一步地,步驟S3包括:將第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到比 對(duì)數(shù)據(jù);從比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集。
[0010] 進(jìn)一步地,步驟S4包括:將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩 選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到過(guò)濾SNP位點(diǎn);對(duì)過(guò)濾SNP位點(diǎn) 與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到第 三SNP位點(diǎn)集。
[0011] 進(jìn)一步地,步驟S4中:?jiǎn)魏塑账岫鄳B(tài)性數(shù)據(jù)庫(kù)和Clinvar數(shù)據(jù)庫(kù)中來(lái)源于體細(xì)胞 突變的SNP位點(diǎn)的SAO值為2或3。
[0012] 進(jìn)一步地,步驟S5包括:對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn) 行統(tǒng)計(jì),得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列 的第二總序列數(shù);計(jì)算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值,得到同 一位置的測(cè)序序列的突變頻率;從第三SNP位點(diǎn)集中篩選出突變頻率低于75%的SNP位 點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0013] 根據(jù)本發(fā)明的另一方面,提供了一種檢測(cè)體細(xì)胞單核苷酸突變的裝置,該裝置包 括以下模塊:序列比對(duì)模塊,用于對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行 比對(duì),得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信 息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息;第一篩選模塊:用 于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或/和發(fā)生在外顯子上且 導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集;第二篩選模塊;用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;第三篩選模塊: 用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn),得到第三SNP位點(diǎn)集;第四篩 選模塊:用于從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75% 的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0014] 進(jìn)一步地,裝置還包括測(cè)序模塊,測(cè)序模塊包括:全基因組DNA測(cè)序子模塊:用于 對(duì)來(lái)源于體細(xì)胞的全基因組DNA測(cè)序文庫(kù)進(jìn)行測(cè)序,得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù);或 者目標(biāo)區(qū)域DNA測(cè)序子模塊:用于對(duì)來(lái)源于體細(xì)胞的目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序,得 到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
[0015] 進(jìn)一步地,目標(biāo)區(qū)域DNA測(cè)序子模塊中還包括:液相雜交捕獲單元:用于對(duì)來(lái)源于 體細(xì)胞的DNA進(jìn)行雜交捕獲,得到目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)。
[0016] 進(jìn)一步地,第二篩選模塊還包括:第一比對(duì)子模塊:用于將第一 SNP位點(diǎn)集與人類 千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到比對(duì)數(shù)據(jù);第一篩選子模塊:用于從比對(duì)數(shù)據(jù)中去除千 人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集。
[0017] 進(jìn)一步地,第三篩選模塊還包括:第二比對(duì)子模塊:用于將第二SNP位點(diǎn)集與單核 苷酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到 過(guò)濾SNP位點(diǎn);第三比對(duì)子模塊:用于對(duì)過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出 過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到第三SNP位點(diǎn)集。
[0018] 進(jìn)一步地,第四篩選模塊還包括:統(tǒng)計(jì)子模塊:對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因組同一 位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì),得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹 配含有SNP位點(diǎn)的序列的第二總序列數(shù);計(jì)算子模塊:計(jì)算第二總序列數(shù)占第一總序列數(shù) 和第二總序列數(shù)之和的比值,得到同一位置的測(cè)序序列的突變頻率;第三篩選子模塊:用 于從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的 SNP位點(diǎn)。
[0019] 應(yīng)用本發(fā)明的技術(shù)方案,通過(guò)僅利用來(lái)源體細(xì)胞的測(cè)序數(shù)據(jù)與參考基因組進(jìn)行比 對(duì),并將篩選出所有來(lái)源于體細(xì)胞的SNP位點(diǎn),接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位 點(diǎn)篩選出來(lái),然后對(duì)這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選,便可得 到體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡(jiǎn)單且實(shí)現(xiàn)了單一樣品對(duì)體細(xì)胞突變的檢測(cè), 而且降低了檢測(cè)成本。

【專利附圖】

【附圖說(shuō)明】
[0020] 構(gòu)成本申請(qǐng)的一部分的說(shuō)明書(shū)附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示 意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0021] 圖1示出了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測(cè)體細(xì)胞單核苷酸突變的方法 流程示意圖;以及
[0022] 圖2示出了了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測(cè)體細(xì)胞單核苷酸突變的裝 置結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0023] 需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0024] 正如【背景技術(shù)】部分所提到的,現(xiàn)有技術(shù)中檢測(cè)體細(xì)胞突變的方法需要至少對(duì)兩個(gè) 樣品進(jìn)行測(cè)序,檢測(cè)成本較高,而采用單個(gè)樣品測(cè)序時(shí),又無(wú)法檢測(cè)出體細(xì)胞突變。針對(duì)上 述缺陷,在本發(fā)明一種典型的實(shí)施方式中,提供了一種檢測(cè)體細(xì)胞單核苷酸突變的方法,如 圖1所示,該方法包括以下步驟:S1,對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對(duì),得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置 信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息;S2,從所有SNP位 點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非 同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集;S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的 SNP位點(diǎn),得到第三SNP位點(diǎn)集;以及S5,從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0025] 本發(fā)明的上述方法,通過(guò)僅利用來(lái)源體細(xì)胞的測(cè)序數(shù)據(jù)與參考基因組進(jìn)行比對(duì), 并將篩選出所有來(lái)源于體細(xì)胞的SNP位點(diǎn),接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn) 篩選出來(lái),然后對(duì)這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選,便可得到 體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡(jiǎn)單且實(shí)現(xiàn)了單一樣品對(duì)體細(xì)胞突變的檢測(cè),而 且降低了檢測(cè)成本。
[0026] 本發(fā)明的上述方法中,步驟S2可以根據(jù)各SNP位點(diǎn)所在的染色體的功能區(qū)域進(jìn)行 篩選,發(fā)生在染色體的外顯子區(qū)域的屬于非同義突變的SNP位點(diǎn),會(huì)導(dǎo)致其編碼的氨基酸 發(fā)生改變,其結(jié)果是導(dǎo)致蛋白質(zhì)發(fā)生突變,可能會(huì)影響蛋白質(zhì)的功能,因此篩選具有上述特 點(diǎn)的位點(diǎn);發(fā)生在剪接位點(diǎn)處的SNP位點(diǎn)可能會(huì)影響氨基酸的編碼,因此這樣的位點(diǎn)也需 要保留。在本發(fā)明一種優(yōu)選的實(shí)施例中,可以利用Knowngene數(shù)據(jù)庫(kù)注釋出的功能(func) 信息即可篩選得到符合上述要求的SNP位點(diǎn)。
[0027] 本發(fā)明的上述方法中,上述步驟Sl中,來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)包括全基因 組DNA測(cè)序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)。在本發(fā)明一種優(yōu)選的實(shí)施例中,當(dāng)來(lái)源于體 細(xì)胞的DNA測(cè)序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)時(shí),來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)的制備 步驟包括:對(duì)來(lái)源于體細(xì)胞的DNA通過(guò)液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測(cè)序文 庫(kù);對(duì)目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序,得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。當(dāng)需要對(duì)全 基因組的體細(xì)胞突變進(jìn)行分析時(shí),則不需要進(jìn)行液相雜交捕獲的步驟,直接將全基因組制 備成測(cè)序文庫(kù)進(jìn)行測(cè)序即可。
[0028] 在本發(fā)明一種具體的實(shí)施例中,上述待檢的樣品可以是腫瘤組織,也可以是外周 血中的游離DNA。上述樣品制備成測(cè)序文庫(kù)的步驟中,根據(jù)樣本的不同,使用不同的手段進(jìn) 行DNA的提取。使用自動(dòng)聚焦聲波樣本處理儀(covaris)將DNA隨機(jī)打斷成雙鏈DNA,雙鏈 DNA的主峰在150-200bp。在隨機(jī)打斷的DNA的3'段添加上一個(gè)"A"堿基,生成一個(gè)單堿 基的粘性末端,對(duì)3端加"A"的DNA進(jìn)行adapter的連接。將連接有接頭的DNA片段使用 PCR技術(shù)進(jìn)行DNA富集。取富集后的DNA樣品750ng進(jìn)行雜交捕獲,在此過(guò)程中按照美國(guó) 安捷倫公司的SureSelect人類基因組外顯子捕獲試劑盒提供的說(shuō)明書(shū)進(jìn)行操作。在本發(fā) 明中,采用高通量測(cè)序?qū)χ苽涞臏y(cè)序文庫(kù)進(jìn)行測(cè)序,具體測(cè)序平臺(tái)可以選擇Illumina公司 的 Hiseq2000、Hiseq2500、Nextseq500、Miseq,Life Technology 公司的 Ion torrent、Ion Proton等。各個(gè)測(cè)序平臺(tái)采用的測(cè)序方式雖不盡相同,最終都能夠得到來(lái)源于待測(cè)樣品的 體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
[0029] 在本發(fā)明的上述方法中,上述步驟S3可以根據(jù)所得到的第一 SNP位點(diǎn)集中各SNP 位點(diǎn)的信息的不同,通過(guò)選擇并比對(duì)合適的數(shù)據(jù)庫(kù)即可將符合體細(xì)胞突變特點(diǎn)的SNP位點(diǎn) 進(jìn)行去除。在本發(fā)明一種優(yōu)選的實(shí)施例中,上述步驟S3包括:將第一 SNP位點(diǎn)集與人類千 人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到比對(duì)數(shù)據(jù);從比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP 位點(diǎn),得到第二SNP位點(diǎn)集。體細(xì)胞突變?cè)谌祟惽嘶蚪M數(shù)據(jù)庫(kù)(即IOOOg數(shù)據(jù)庫(kù))中多 為低頻突變,因而,如果第一 SNP位點(diǎn)集中某一 SNP位點(diǎn)的突變頻率小于5%或在上述數(shù)據(jù) 庫(kù)中沒(méi)有注釋出突變頻率信息,即該SNP位點(diǎn)的突變?yōu)榈皖l突變,屬于體細(xì)胞突變的特征, 因而需要保留。另外,若在IOOOg數(shù)據(jù)庫(kù)中沒(méi)有給出相應(yīng)的信息,有可能該突變位點(diǎn)屬于新 的突變位點(diǎn),因而也需要保留此類SNP位點(diǎn)。
[0030] 在本發(fā)明的上述方法中,上述步驟S4同樣可以通過(guò)選擇合適的數(shù)據(jù)庫(kù)進(jìn)行比對(duì), 只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可得到上述第三SNP位點(diǎn)集。 在本發(fā)明一種優(yōu)選的實(shí)施例中,上述步驟S4包括:將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù) 據(jù)庫(kù)進(jìn)行比對(duì),篩選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到過(guò)濾SNP位 點(diǎn);對(duì)過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變 的SNP位點(diǎn),得到第三SNP位點(diǎn)集。
[0031] dbSNP 數(shù)據(jù)庫(kù)(http://www. ncbi. nlm. nih. gov/projects/SNP/)是單核苷酸多 態(tài)性數(shù)據(jù)庫(kù)的簡(jiǎn)稱,該數(shù)據(jù)庫(kù)不僅包含單核苷酸多態(tài)性信息,也包含其他類型的突變信息, 如小片段的插入和缺失多態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性,這些突變?cè)谶@個(gè)數(shù)據(jù)庫(kù) 中會(huì)給出特定的參考SNP編號(hào)(reference SNP ID)用以識(shí)別每一個(gè)突變,該數(shù)據(jù)庫(kù)給出 的位點(diǎn)不一定與疾病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫(kù)同時(shí)會(huì)給出突變的來(lái)源,表現(xiàn)形式是給出 SAO(Variant Allele Origin,突變來(lái)源)的值。
[0032] Clinvar 數(shù)據(jù)庫(kù)(http://www. ncbi. nlm. nih. gov/clinvar/)能夠提供與致病性 相關(guān)的突變。Clinvar數(shù)據(jù)庫(kù)能夠給出人類突變信息,同時(shí)解釋這些突變與人類健康的關(guān) 系,如果該突變與人類疾病發(fā)生相關(guān),數(shù)據(jù)庫(kù)會(huì)給出相關(guān)疾病的名稱,并給出相應(yīng)的支持證 據(jù)。通過(guò)Clinvar數(shù)據(jù)庫(kù)注釋出的信息,我們能夠判斷突變是否有致病性。Clinvar同時(shí) 會(huì)注釋出突變的來(lái)源,表現(xiàn)形式是給出SAO的值,SAO為0時(shí)表示該突變來(lái)源未知,SAO為1 時(shí)表示該突變?yōu)榉N系細(xì)胞突變,SAO為2時(shí)表示該突變?yōu)轶w細(xì)胞突變,SAO為3時(shí)表示該突 變既是種系突變也是體細(xì)胞突變。
[0033] 本發(fā)明的上述實(shí)施例,通過(guò)利用上述兩個(gè)數(shù)據(jù)庫(kù)中的信息即可篩選出具有體細(xì)胞 特征的SNP位點(diǎn),從而去除掉明顯不屬于體細(xì)胞突變的SNP位點(diǎn)。優(yōu)選上述步驟S4中單 核苷酸多態(tài)性數(shù)據(jù)庫(kù)和Clinvar數(shù)據(jù)庫(kù)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)的SAO(Variant Allele Origin)值為2或3,將SAO為2或3的SNP位點(diǎn)保留下來(lái),即保留了具有體細(xì)胞特 征的SNP位點(diǎn),為篩選得到真正的SNP位點(diǎn)提供了較大可能性。
[0034] 在本發(fā)明的一種優(yōu)選的實(shí)施例中,上述步驟S5包括:對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因組 同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì),得到同一位置上匹配參考基因組序列的第一總序列數(shù) 和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù);計(jì)算第二總序列數(shù)占第一總序列數(shù)和第二總 序列數(shù)之和的比值,得到所述同一位置的測(cè)序序列的突變頻率;從第三SNP位點(diǎn)集中篩選 出突變頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0035] 在上述測(cè)序數(shù)據(jù)中,測(cè)序信息包含以下四個(gè)數(shù)值,支持匹配參考基因型正鏈序列 數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序列數(shù)目和支持匹配 突變基因型負(fù)鏈的序列數(shù)目,如果(匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈 序列數(shù)目V(匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型 正鏈reads+匹配突變基因型負(fù)鏈reads)的比值小于0. 75,即某SNP位點(diǎn)的突變頻率小于 0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0036] 本發(fā)明的上述方法已經(jīng)能夠相對(duì)準(zhǔn)確地檢測(cè)到來(lái)源于單個(gè)樣本的體細(xì)胞單核苷 酸突變,為了進(jìn)一步提高檢測(cè)的準(zhǔn)確性,在本發(fā)明一種更優(yōu)選的實(shí)施例中,上述方法還包 括將在上述各篩選步驟中不符合條件的SNP位點(diǎn)進(jìn)行再次篩選,利用靶向數(shù)據(jù)庫(kù)(來(lái)自 MyCancerGenome)中的包括SNP和indel突變類型信息對(duì)上述不符合條件的SNP位點(diǎn)進(jìn)行 過(guò)濾。根據(jù)染色體、位置、參考基因型和突變基因型的信息進(jìn)行比對(duì)篩選,如果某SNP位點(diǎn) 的存在于靶向數(shù)據(jù)庫(kù),則將該SNP位點(diǎn)加入到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)中。另 夕卜,若上述不符合條件的SNP位點(diǎn)出現(xiàn)在高頻突變數(shù)據(jù)庫(kù)(CLINSIG. pathogenic)中,則表 明該SNP位點(diǎn)屬于人群頻率大于5%且為致病基因的位點(diǎn),則該位點(diǎn)也加入到上述包含體 細(xì)胞單核苷酸突變的SNP位點(diǎn)中。
[0037] 在本發(fā)明另一種典型的實(shí)施方式中,提供了一種檢測(cè)體細(xì)胞單核苷酸突變的裝 置,如圖2所示,該裝置包括以下模塊:序列比對(duì)模塊,用于對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù) 據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì),得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP 位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類 型信息;第一篩選模塊:用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位 點(diǎn)或/和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集; 第二篩選模塊;用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二 SNP位點(diǎn)集;第三篩選模塊:用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn), 得到第三SNP位點(diǎn)集;第四篩選模塊:用于從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0038] 本發(fā)明的上述裝置,通過(guò)序列比對(duì)模塊僅利用來(lái)源體細(xì)胞的測(cè)序數(shù)據(jù)與參考基因 組進(jìn)行比對(duì),篩選出所有來(lái)源于體細(xì)胞的SNP位點(diǎn),接著利用第一篩選模塊將發(fā)生在外顯 子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來(lái),然后利用第二篩選模塊和第三篩選模塊對(duì)這些SNP 位點(diǎn)按照已知的種系細(xì)胞突變和體細(xì)胞突變的特征進(jìn)行篩選,最后通過(guò)第四篩選模塊,測(cè) 序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變 的SNP位點(diǎn)。該裝置不僅實(shí)現(xiàn)了利用單一樣品對(duì)體細(xì)胞突變的檢測(cè),而且降低了檢測(cè)成本。
[0039] 在本發(fā)明的上述裝置中,第一篩選模塊可以根據(jù)現(xiàn)有的篩選模塊進(jìn)行合理改進(jìn), 只要能夠?qū)崿F(xiàn)將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來(lái)的功能即可適用于本發(fā) 明。在本發(fā)明一種優(yōu)選的實(shí)施例中,上述裝置還包括測(cè)序模塊,該測(cè)序模塊包括:全基因組 DNA測(cè)序子模塊:用于對(duì)來(lái)源于體細(xì)胞的全基因組DNA測(cè)序文庫(kù)進(jìn)行測(cè)序,得到來(lái)源于體細(xì) 胞的DNA測(cè)序數(shù)據(jù);目標(biāo)區(qū)域DNA測(cè)序子模塊:用于對(duì)來(lái)源于體細(xì)胞的目標(biāo)區(qū)域的DNA測(cè)序 文庫(kù)進(jìn)行測(cè)序,得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
[0040] 在本發(fā)明另一種優(yōu)選的實(shí)施例中,上述目標(biāo)區(qū)域DNA測(cè)序子模塊中還包括:液相 雜交捕獲單元:用于對(duì)來(lái)源于體細(xì)胞的DNA進(jìn)行雜交捕獲,得到目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)。 通過(guò)液相雜交捕獲單元根據(jù)想要捕獲的目標(biāo)區(qū)域的DNA序列而預(yù)先設(shè)計(jì)好的探針與修復(fù) 好的帶有接頭序列的DNA片段進(jìn)行雜交,即可將所感興趣的目標(biāo)區(qū)域DNA片段從全基因組 DNA片段中捕獲出來(lái),然后連上測(cè)序引物序列就形成了目標(biāo)區(qū)域DNA測(cè)序文庫(kù),這樣的文庫(kù) 能夠從全基因組中把感興趣的目的區(qū)域富集出來(lái),從而提高了目標(biāo)區(qū)域突變位點(diǎn)的檢出效 率。采用液相雜交捕獲單元能夠提高目標(biāo)區(qū)域DNA的捕獲效率。
[0041] 在本發(fā)明的上述裝置中,第二篩選模塊還包括:第一比對(duì)子模塊:用于將第一 SNP 位點(diǎn)集與人類千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到比對(duì)數(shù)據(jù);第一篩選子模塊:用于從比對(duì) 數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集。該實(shí)施例中第二篩選 模塊通過(guò)第一比對(duì)子模塊將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到比對(duì) 數(shù)據(jù),然后利用第一篩選子模塊從比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到 第二SNP位點(diǎn)集。人類千人基因組數(shù)據(jù)庫(kù)中包括了 1000個(gè)人類全基因組測(cè)序數(shù)據(jù)中出現(xiàn) 的低頻突變或高頻突變的SNP位點(diǎn),對(duì)于突變頻率高于5%的SNP位點(diǎn),由于其在人類群體 中出現(xiàn)頻率較高,通常認(rèn)為是類似于種系細(xì)胞突變所引起的突變或者是遺傳引起的突變, 而非因環(huán)境或其他因素引起的種系細(xì)胞分化之后的體細(xì)胞突變,因而通過(guò)與上述數(shù)據(jù)庫(kù)進(jìn) 行比對(duì),可以把某個(gè)體細(xì)胞來(lái)源的第一 SNP位點(diǎn)集中不屬于高頻突變位點(diǎn)的SNP位點(diǎn)保留 下來(lái),從而得到可能真正引起功能突變的第二SNP位點(diǎn)集。
[0042] 在本發(fā)明的上述裝置中,上述第三篩選模塊通過(guò)選擇合適的篩選模塊進(jìn)行比對(duì), 只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可。在本發(fā)明一種優(yōu)選的實(shí)施 例中,上述第三篩選模塊包括:第二比對(duì)子模塊:用于將第二SNP位點(diǎn)集與單核苷酸多態(tài)性 數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到過(guò)濾SNP位 點(diǎn);第三比對(duì)子模塊:用于對(duì)過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出過(guò)濾SNP位 點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到第三SNP位點(diǎn)集。
[0043] 上述第二比對(duì)子模塊和第三比對(duì)子模塊通過(guò)將第二SNP位點(diǎn)集與dbSNP數(shù)據(jù)庫(kù) (http://www. nebi. nlm. nih. gov/projects/SNP/)和 Clinvar 數(shù)據(jù)庫(kù)進(jìn)行比對(duì),dbSNP 數(shù)據(jù) 庫(kù)不僅包含單核苷酸多態(tài)性信息,也包含其他類型的突變信息,如小片段的插入和缺失多 態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性,這些突變?cè)谶@個(gè)數(shù)據(jù)庫(kù)中會(huì)給出特定的參考SNP編 號(hào)(reference SNP ID,簡(jiǎn)稱RS號(hào))用以識(shí)別每一個(gè)突變,該數(shù)據(jù)庫(kù)給出的位點(diǎn)不一定與疾 病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫(kù)同時(shí)會(huì)給出突變的來(lái)源,表現(xiàn)形式是給出SAO(Variant Allele Origin,突變來(lái)源)的值;同樣,Clinvar數(shù)據(jù)庫(kù)能夠給出人類突變信息,同時(shí)解釋這些突變 與人類健康的關(guān)系,如果該突變與人類疾病發(fā)生相關(guān),數(shù)據(jù)庫(kù)會(huì)給出相關(guān)疾病的名稱,并給 出相應(yīng)的支持證據(jù)。通過(guò)Clinvar數(shù)據(jù)庫(kù)注釋出的信息,我們能夠判斷突變是否有致病性。 Clinvar同時(shí)會(huì)注釋出突變的來(lái)源,表現(xiàn)形式是給出SAO的值,SAO為0時(shí)表示該突變來(lái)源 未知,SAO為1時(shí)表示該突變?yōu)榉N系細(xì)胞突變,SAO為2時(shí)表示該突變?yōu)轶w細(xì)胞突變,SAO為 3時(shí)表示該突變既是種系突變也是體細(xì)胞突變。因而與上述兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行比對(duì)即可將符 合于體細(xì)胞突變特征的SNP位點(diǎn)進(jìn)行篩除,保留上述數(shù)據(jù)庫(kù)中未出現(xiàn)的SNP位點(diǎn)和上述數(shù) 據(jù)庫(kù)中表明符合體細(xì)胞特征的SNP位點(diǎn)。
[0044] 在本發(fā)明的上述裝置中,第四篩選模塊可以根據(jù)測(cè)序數(shù)據(jù)的不同,對(duì)常用的統(tǒng)計(jì) 和計(jì)算模塊進(jìn)行改進(jìn)即可得到。在本發(fā)明中,上述第四篩選模塊還包括:統(tǒng)計(jì)子模塊:對(duì)測(cè) 序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì),得到同一位置上匹配參考基因 組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù);計(jì)算子模塊:計(jì)算第 二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值,得到同一位置的測(cè)序序列的突變 頻率;第三篩選子模塊:用于從第三SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn),得 到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0045] 上述實(shí)施例中,第四篩選模塊首先通過(guò)利用統(tǒng)計(jì)子模塊對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因 組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì),得到基因組同一位置上的總比對(duì)序列數(shù)目;然后利 用計(jì)算子模塊計(jì)算包含各SNP位點(diǎn)的測(cè)序序列的數(shù)目占總比對(duì)序列數(shù)目的頻率,最后第三 篩選子模塊從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷 酸突變的SNP位點(diǎn)。其中,統(tǒng)計(jì)子模塊利用測(cè)序數(shù)據(jù)中所包含的以下四個(gè)數(shù)值:支持匹配參 考基因型正鏈序列數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序 列數(shù)目和支持匹配突變基因型負(fù)鏈的序列數(shù)目,即可統(tǒng)計(jì)出基因組同一位置上的總比對(duì)序 列數(shù)目。然后計(jì)算模塊通過(guò)計(jì)算(匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈序 列數(shù)目)八匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型正鏈 reads+匹配突變基因型負(fù)鏈reads)的比值,當(dāng)該比值小于0. 75時(shí),即某SNP位點(diǎn)的突變頻 率小于0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0046] 需要說(shuō)明的是,本發(fā)明主要用于檢測(cè)基因外顯子或剪接位點(diǎn)處的體細(xì)胞單核苷酸 突變。高通量測(cè)序后會(huì)得到非常多的單核苷酸突變,本方法和裝置可以從眾多的單核苷酸 突變中篩選比較有意義的體細(xì)胞單核苷酸突變。篩選得到的體細(xì)胞單核苷酸突變是否與疾 病發(fā)生有直接或間接的關(guān)系,有待進(jìn)一步的驗(yàn)證,所以本方法和裝置僅適用于科研和學(xué)術(shù) 基礎(chǔ)研宄之用,而不適用于臨床上疾病的診斷。
[0047] 以下通過(guò)具體的實(shí)施例來(lái)進(jìn)一步說(shuō)明本發(fā)明的有益效果。
[0048] 提取7個(gè)不同個(gè)體的肺癌組織體細(xì)胞和血中的白細(xì)胞,并提取DNA進(jìn)行測(cè)序分析。 然后利用mutect檢測(cè)方法和本發(fā)明的檢測(cè)方法分別對(duì)來(lái)源于肺癌組織的體細(xì)胞進(jìn)行單核 苷酸突變檢測(cè)。下列實(shí)施例中所用到的試劑、儀器或裝置除有特殊說(shuō)明外,其余均來(lái)自美國(guó) 安捷倫公司。詳細(xì)檢測(cè)步驟如下:
[0049] 實(shí)驗(yàn)一:文庫(kù)制備
[0050] 分別提取肺癌癥組織和白細(xì)胞中的DNA,經(jīng)過(guò)使用covaris破碎儀(美國(guó)Covaris 公司)將DNA隨機(jī)打斷成雙鏈DNA,打斷片段的主帶在150bp-200bp之間;然后使用末端修 復(fù)酶將DNA片段進(jìn)行末端修復(fù),得到帶有平末端的片段混合物,并在DNA的3'端添加一個(gè) "A"堿基生成粘性末端。接下來(lái)將接頭連接到帶有粘性末端的DNA片段上,每個(gè)接頭都帶有 一個(gè)"T"堿基,能提高接頭連接的效率,需要在T4DNA連接酶的催化下進(jìn)行。為了保證后續(xù) 分析有足夠量的DNA,連接上接頭的DNA片段需要使用PCR富集。
[0051] PCR 反應(yīng)體系為:98°C,2min ;98°C,30s 變性;65°C,30s 退火;72°C,lmin 延伸; 72 °C,IOmin延伸,約進(jìn)行4-7個(gè)PCR循環(huán);4 °C,保溫。富集完成后使用bioanalyzer DNAlOOOchip (美國(guó)安捷倫公司2100bioanalyzer)進(jìn)行定量。
[0052] 經(jīng)過(guò)擴(kuò)增的DNA樣品使用安捷倫公司的Agencourt AMPure XP磁珠純化體系,特 異的將帶有接頭的DNA片段進(jìn)一步純化。
[0053] 實(shí)驗(yàn)二:雜交捕獲并分別在每個(gè)文庫(kù)上的DNA片段上添加特異的標(biāo)簽序列
[0054] 取出富集純化之后的DNA約750ng (最大體積不能超過(guò)3. 4ul),使用安捷倫 SureSelect XT液相捕獲系統(tǒng)進(jìn)行目標(biāo)序列捕獲。本實(shí)施例分析的是人483個(gè)基因的外顯 子區(qū)域上的體細(xì)胞突變,假如需要分析全基因組的體細(xì)胞突變,則不需要進(jìn)行雜交捕獲的 步驟。
[0055] 分別對(duì)7個(gè)上述構(gòu)建好的DNA文庫(kù)單獨(dú)地進(jìn)行雜交和捕獲,然后再通過(guò)PCR反應(yīng) 引入標(biāo)簽序列,得到各樣品的目標(biāo)區(qū)域的測(cè)序文庫(kù)。
[0050] 實(shí)驗(yàn)三:上機(jī)測(cè)序
[0057] 將各樣品測(cè)序文庫(kù)稀釋到2nM,根據(jù)各文庫(kù)所需數(shù)據(jù)量進(jìn)行混池,獲得濃度為2nM 的文庫(kù)稀釋液。在文庫(kù)稀釋液中加入〇. 2N NaOH溶液,使文庫(kù)中的DNA變性成為單鏈的DNA。 之后使用illumina Nextseq500測(cè)序平臺(tái)對(duì)混池之后的文庫(kù)進(jìn)行上機(jī)測(cè)序,測(cè)序的長(zhǎng)度為 雙端 75bp(PE 75)。
[0058] 實(shí)驗(yàn)四:測(cè)序數(shù)據(jù)質(zhì)控及比對(duì)
[0059] 1.原始測(cè)序數(shù)據(jù)以fastq文件格式存儲(chǔ)(文件名:*. fq),在進(jìn)行下一步分析之前 需要進(jìn)行常規(guī)的數(shù)據(jù)過(guò)濾步驟,過(guò)濾方法如下:
[0060] (1)過(guò)濾掉含有接頭序列的測(cè)序序列(reads);
[0061] (2)當(dāng)雙端測(cè)序序列中的某一單端序列中含有的不確定堿基N的含量超過(guò)該條序 列總長(zhǎng)度比例的10%時(shí),需要去除此對(duì)雙端測(cè)序序列;
[0062] (3)當(dāng)雙端測(cè)序序列中的某一單端序列中含有的低質(zhì)量(Q〈 = 5)堿基數(shù)超過(guò)該條 序列長(zhǎng)度比例的50%時(shí),需要去除此對(duì)雙端測(cè)序序列。
[0063] 2.經(jīng)過(guò)對(duì)測(cè)序數(shù)據(jù)的嚴(yán)格過(guò)濾,得到高質(zhì)量的有效數(shù)據(jù)(Clean data)。有效數(shù) 據(jù)通過(guò) BWA(Burrows_Wheeler Alignment tool)軟件比對(duì)到 NCBI build 37/hgl9 參考 基因組上,比對(duì)時(shí)的參數(shù)為:"-t l〇-k 32-M"。比對(duì)結(jié)果使用samtools sort(http:// samtools. sourceforge. net/)功能進(jìn)行排序,并經(jīng) picard(http://broadinstitute. github. io/picard/)去除重復(fù),過(guò)濾掉錯(cuò)配堿基數(shù)目超過(guò)5的序列。
[0064] 實(shí)驗(yàn)五:使用mutect軟件檢測(cè)肺癌組織細(xì)胞中存在的體細(xì)胞突變
[0065] Mutect軟件是美國(guó)broad研宄院開(kāi)發(fā)的一款可以準(zhǔn)確的使用高通量測(cè)序發(fā)現(xiàn)體 細(xì)胞單核苷酸突變的軟件。使用mutect軟件尋找體細(xì)胞突變時(shí)需要輸入待檢細(xì)胞測(cè)序結(jié) 果的比對(duì)文件和對(duì)照細(xì)胞測(cè)序結(jié)果的比對(duì)文件,mutect使用了兩個(gè)貝葉斯分類器:一個(gè)識(shí) 別待檢樣品中存在的突變,另一個(gè)用于檢測(cè)對(duì)照樣品中是否存在該突變。通過(guò)兩個(gè)分類器, mutect即可發(fā)現(xiàn)待檢樣品中存在的體細(xì)胞突變。
[0066] 在本發(fā)明的實(shí)施例中,待檢樣品是每個(gè)個(gè)體中提取的肺癌組織細(xì)胞,而對(duì)照樣品 則是每個(gè)個(gè)體中提取的白細(xì)胞。在運(yùn)行mutect時(shí),分別輸入這兩個(gè)樣品測(cè)序結(jié)果各自與參 考基因組的比對(duì)文件,mutect運(yùn)行時(shí)使用hg37版人類基因組,并指定能夠記錄目標(biāo)基因在 參考基因組上位置的bed文件。Bed文件中含有待檢測(cè)基因在參考基因組上的位置。采用 Mutect直接檢測(cè)的體細(xì)胞突變結(jié)果統(tǒng)計(jì)如下表1。
[0067] 表 1 :
[0068]

【權(quán)利要求】
1. 一種檢測(cè)體細(xì)胞單核巧酸突變的方法,其特征在于,所述方法包括w下步驟: S1,對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì),得到所有SNP位點(diǎn)的 數(shù)據(jù);其中,所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信息和所述SNP位點(diǎn) 導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息; 52, 從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上 且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集; 53, 去除所述第一 SNP位點(diǎn)集中千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn) 集; 54, 從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn),得到第S SNP位點(diǎn) 集;W及 55, 從所述第S SNP位點(diǎn)集中篩選出所述測(cè)序數(shù)據(jù)中包含所述SNP位點(diǎn)的序列的頻率 低于75%的SNP位點(diǎn),得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S1中,所述來(lái)源于體細(xì)胞的 DNA測(cè)序數(shù)據(jù)包括全基因組DNA測(cè)序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)為目 標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)時(shí),所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)的制備步驟包括: 對(duì)來(lái)源于體細(xì)胞的DNA通過(guò)液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測(cè)序文庫(kù); 對(duì)所述目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序,得到所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3包括: 將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到比對(duì)數(shù)據(jù); 從所述比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到所述第二SNP位點(diǎn)集。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4包括: 將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出所述第二SNP位點(diǎn) 集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到過(guò)濾SNP位點(diǎn); 對(duì)所述過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出所述過(guò)濾SNP位點(diǎn)中來(lái)源于 體細(xì)胞突變的SNP位點(diǎn),得到所述第S SNP位點(diǎn)集。
6. 根據(jù)權(quán)利要求1或5所述的方法,其特征在于,所述步驟S4中;所述單核巧酸多態(tài) 性數(shù)據(jù)庫(kù)和所述Clinvar數(shù)據(jù)庫(kù)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)的SAO值為2或3。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S5包括: 對(duì)所述測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì),得到同一位置上 匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù); 計(jì)算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的比值,得到所 述同一位置的測(cè)序序列的突變頻率; 從所述第S SNP位點(diǎn)集中篩選出所述突變頻率低于75%的SNP位點(diǎn),得到包含所述體 細(xì)胞單核巧酸突變的SNP位點(diǎn)。
8. -種檢測(cè)體細(xì)胞單核巧酸突變的裝置,其特征在于,所述裝置包括W下模塊: 序列比對(duì)模塊,用于對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì),得 到所有SNP位點(diǎn)的數(shù)據(jù);其中,所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信 息和所述SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息; 第一篩選模塊,用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或 /和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集; 第二篩選模塊,用于從所述第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn), 得到第二SNP位點(diǎn)集; 第S篩選模塊,用于從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn),得到 第;5^位點(diǎn)集;化及 第四篩選模塊,用于從所述第S SNP位點(diǎn)集中篩選出所述測(cè)序數(shù)據(jù)中包含所述SNP位 點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括測(cè)序模塊,所述測(cè)序模塊 包括: 全基因組DNA測(cè)序子模塊,用于對(duì)來(lái)源于體細(xì)胞的全基因組DNA測(cè)序文庫(kù)進(jìn)行測(cè)序,得 到所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù);或者 目標(biāo)區(qū)域DNA測(cè)序子模塊,用于對(duì)來(lái)源于體細(xì)胞的目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序, 得到所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述目標(biāo)區(qū)域DNA測(cè)序子模塊中還包 括: 液相雜交捕獲單元,用于對(duì)來(lái)源于體細(xì)胞的DNA進(jìn)行雜交捕獲,得到所述目標(biāo)區(qū)域的 DNA測(cè)序文庫(kù)。
11. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第二篩選模塊還包括: 第一比對(duì)子模塊,用于將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到比 對(duì)數(shù)據(jù);W及 第一篩選子模塊,用于從所述比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到 所述第二SNP位點(diǎn)集。
12. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第=篩選模塊還包括: 第二比對(duì)子模塊,用于將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩 選出所述第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到過(guò)濾SNP位點(diǎn);W及 第S比對(duì)子模塊,用于對(duì)所述過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì),篩選出所述過(guò) 濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn),得到所述第S SNP位點(diǎn)集。
13. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第四篩選模塊還包括: 統(tǒng)計(jì)子模塊,對(duì)所述測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì),得 到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總 序列數(shù); 計(jì)算子模塊,計(jì)算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的 比值,得到所述同一位置的測(cè)序序列的突變頻率擬及 第S篩選子模塊,用于從所述第S SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn), 得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
【文檔編號(hào)】G06F19/22GK104462869SQ201410708748
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】張?zhí)m英, 于海燕, 張廣鑫, 龐行云, 孟雪紅, 曹銀川, 吳曉朦, 李林, 宋欠欠, 張燕艷 申請(qǐng)人:天津諾禾致源生物信息科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
连山| 睢宁县| 沙坪坝区| 卢湾区| 宾阳县| 桂平市| 赫章县| 易门县| 乌拉特前旗| 阳高县| 珠海市| 鄂托克前旗| 武平县| 临夏市| 黑山县| 甘南县| 离岛区| 敖汉旗| 威远县| 金平| 紫阳县| 健康| 楚雄市| 江北区| 即墨市| 水城县| 乳山市| 洛隆县| 沂水县| 贵定县| 福建省| 武山县| 绥阳县| 文安县| 秦皇岛市| 三门县| 玉山县| 庆元县| 农安县| 海口市| 平昌县|