檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置制造方法

文檔序號(hào)：6636458閱讀：526來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置。該方法包括以下步驟：S1，對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì)，得到所有SNP位點(diǎn)的數(shù)據(jù)；S2，篩選出發(fā)生在剪接位點(diǎn)上和外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一SNP位點(diǎn)集；S3，去除第一SNP位點(diǎn)集中千人突變頻率高于5％的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；S4，從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn)，得到第三SNP位點(diǎn)集；以及S5，從第三SNP位點(diǎn)集中篩選出支持序列的頻率低于75％的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法實(shí)現(xiàn)了利用單一樣品對(duì)體細(xì)胞突變的檢測(cè)，降低了成本。
【專利說(shuō)明】檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及高通量測(cè)序領(lǐng)域，具體而言，涉及一種檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置。

【背景技術(shù)】
[0002] 個(gè)體的每個(gè)細(xì)胞中都可能會(huì)攜帶有兩種類型的突變：種系突變和體細(xì)胞突變，種系突變是指在生殖細(xì)胞中發(fā)生的可遺傳突變，也稱為生殖細(xì)胞突變。假如種系突變發(fā)生，則個(gè)體中的所有細(xì)胞都會(huì)攜帶該種系突變。種系突變之外的突變?yōu)轶w細(xì)胞突變，這些突變并不是從親代遺傳得到，而是受環(huán)境和其他因素影響而發(fā)生了改變。
[0003] 使用高通量測(cè)序的方式可以測(cè)到覆蓋樣本中所有基因的序列，結(jié)合相關(guān)變異檢測(cè) 軟件可檢測(cè)到樣本中目標(biāo)基因上存在的所有變異信息。目前能夠用來(lái)檢測(cè)體細(xì)胞突變的方法是使用mutect軟件，它在檢測(cè)體細(xì)胞突變時(shí)，需要一組成對(duì)的樣品，即可能帶有體細(xì)胞突變的待檢樣品和可以提供種系突變的對(duì)照樣品。將兩個(gè)樣品進(jìn)行比對(duì)，當(dāng)突變?cè)诖龣z樣品中出現(xiàn)，而未在對(duì)照樣品中出現(xiàn)，則認(rèn)為該突變?yōu)榇龣z樣品中的一個(gè)體細(xì)胞突變。使用該方法檢測(cè)體細(xì)胞突變時(shí)需要對(duì)兩個(gè)樣品分別進(jìn)行兩次高通量測(cè)序，增加了成本。
[0004] 目前使用單個(gè)樣本做變異檢測(cè)的軟件，對(duì)于檢測(cè)結(jié)果往往不區(qū)分種系突變和體細(xì) 胞突變。而提供體細(xì)胞突變信息的軟件，如mutect又需要一組成對(duì)的樣品。因而，現(xiàn)有技術(shù)中還未開(kāi)發(fā)出既能采用單個(gè)樣本進(jìn)行檢測(cè)從而降低檢測(cè)成本又能檢測(cè)到體細(xì)胞突變的檢測(cè)方法，仍需要對(duì)現(xiàn)有技術(shù)進(jìn)行改進(jìn)，以滿足行業(yè)內(nèi)對(duì)上述體細(xì)胞突變的檢測(cè)要求。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的主要目的在于提供一種檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置，不僅能夠利用單個(gè)樣品實(shí)現(xiàn)體細(xì)胞突變的檢測(cè)，而且降低檢測(cè)成本。
[0006] 為了實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明的一個(gè)方面，提供了一種檢測(cè)體細(xì)胞單核苷酸突變的方法，該方法包括以下步驟：S1，對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對(duì)，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；S2,從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的 SNP位點(diǎn)，得到第三SNP位點(diǎn)集；以及S5,從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0007] 進(jìn)一步地，在步驟Sl中，來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)包括全基因組DNA測(cè)序數(shù) 據(jù)或目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)。
[0008] 進(jìn)一步地，當(dāng)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)時(shí)，來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)的制備步驟包括：對(duì)來(lái)源于體細(xì)胞的DNA通過(guò)液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)；對(duì)目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
[0009] 進(jìn)一步地，步驟S3包括：將第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，得到比對(duì)數(shù)據(jù)；從比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。
[0010] 進(jìn)一步地，步驟S4包括：將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到過(guò)濾SNP位點(diǎn)；對(duì)過(guò)濾SNP位點(diǎn) 與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0011] 進(jìn)一步地，步驟S4中：?jiǎn)魏塑账岫鄳B(tài)性數(shù)據(jù)庫(kù)和Clinvar數(shù)據(jù)庫(kù)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)的SAO值為2或3。
[0012] 進(jìn)一步地，步驟S5包括：對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn) 行統(tǒng)計(jì)，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計(jì)算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值，得到同一位置的測(cè)序序列的突變頻率；從第三SNP位點(diǎn)集中篩選出突變頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0013] 根據(jù)本發(fā)明的另一方面，提供了一種檢測(cè)體細(xì)胞單核苷酸突變的裝置，該裝置包括以下模塊：序列比對(duì)模塊，用于對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì)，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；第一篩選模塊：用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或/和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；第二篩選模塊；用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；第三篩選模塊：用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn)，得到第三SNP位點(diǎn)集；第四篩選模塊：用于從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75% 的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0014] 進(jìn)一步地，裝置還包括測(cè)序模塊，測(cè)序模塊包括：全基因組DNA測(cè)序子模塊：用于對(duì)來(lái)源于體細(xì)胞的全基因組DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)；或者目標(biāo)區(qū)域DNA測(cè)序子模塊：用于對(duì)來(lái)源于體細(xì)胞的目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
[0015] 進(jìn)一步地，目標(biāo)區(qū)域DNA測(cè)序子模塊中還包括：液相雜交捕獲單元：用于對(duì)來(lái)源于體細(xì)胞的DNA進(jìn)行雜交捕獲，得到目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)。
[0016] 進(jìn)一步地，第二篩選模塊還包括：第一比對(duì)子模塊：用于將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，得到比對(duì)數(shù)據(jù)；第一篩選子模塊：用于從比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。
[0017] 進(jìn)一步地，第三篩選模塊還包括：第二比對(duì)子模塊：用于將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到過(guò)濾SNP位點(diǎn)；第三比對(duì)子模塊：用于對(duì)過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0018] 進(jìn)一步地，第四篩選模塊還包括：統(tǒng)計(jì)子模塊：對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì)，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計(jì)算子模塊：計(jì)算第二總序列數(shù)占第一總序列數(shù) 和第二總序列數(shù)之和的比值，得到同一位置的測(cè)序序列的突變頻率；第三篩選子模塊：用于從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的 SNP位點(diǎn)。
[0019] 應(yīng)用本發(fā)明的技術(shù)方案，通過(guò)僅利用來(lái)源體細(xì)胞的測(cè)序數(shù)據(jù)與參考基因組進(jìn)行比對(duì)，并將篩選出所有來(lái)源于體細(xì)胞的SNP位點(diǎn)，接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來(lái)，然后對(duì)這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選，便可得到體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡(jiǎn)單且實(shí)現(xiàn)了單一樣品對(duì)體細(xì)胞突變的檢測(cè)，而且降低了檢測(cè)成本。

【專利附圖】

【附圖說(shuō)明】
[0020] 構(gòu)成本申請(qǐng)的一部分的說(shuō)明書(shū)附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解，本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中：
[0021] 圖1示出了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測(cè)體細(xì)胞單核苷酸突變的方法流程示意圖；以及
[0022] 圖2示出了了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測(cè)體細(xì)胞單核苷酸突變的裝置結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0023] 需要說(shuō)明的是，在不沖突的情況下，本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0024] 正如【背景技術(shù)】部分所提到的，現(xiàn)有技術(shù)中檢測(cè)體細(xì)胞突變的方法需要至少對(duì)兩個(gè) 樣品進(jìn)行測(cè)序，檢測(cè)成本較高，而采用單個(gè)樣品測(cè)序時(shí)，又無(wú)法檢測(cè)出體細(xì)胞突變。針對(duì)上述缺陷，在本發(fā)明一種典型的實(shí)施方式中，提供了一種檢測(cè)體細(xì)胞單核苷酸突變的方法，如圖1所示，該方法包括以下步驟：S1，對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對(duì)，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；S2,從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的 SNP位點(diǎn)，得到第三SNP位點(diǎn)集；以及S5,從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0025] 本發(fā)明的上述方法，通過(guò)僅利用來(lái)源體細(xì)胞的測(cè)序數(shù)據(jù)與參考基因組進(jìn)行比對(duì)，并將篩選出所有來(lái)源于體細(xì)胞的SNP位點(diǎn)，接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn) 篩選出來(lái)，然后對(duì)這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選，便可得到體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡(jiǎn)單且實(shí)現(xiàn)了單一樣品對(duì)體細(xì)胞突變的檢測(cè)，而且降低了檢測(cè)成本。
[0026] 本發(fā)明的上述方法中，步驟S2可以根據(jù)各SNP位點(diǎn)所在的染色體的功能區(qū)域進(jìn)行篩選，發(fā)生在染色體的外顯子區(qū)域的屬于非同義突變的SNP位點(diǎn)，會(huì)導(dǎo)致其編碼的氨基酸發(fā)生改變，其結(jié)果是導(dǎo)致蛋白質(zhì)發(fā)生突變，可能會(huì)影響蛋白質(zhì)的功能，因此篩選具有上述特點(diǎn)的位點(diǎn)；發(fā)生在剪接位點(diǎn)處的SNP位點(diǎn)可能會(huì)影響氨基酸的編碼，因此這樣的位點(diǎn)也需要保留。在本發(fā)明一種優(yōu)選的實(shí)施例中，可以利用Knowngene數(shù)據(jù)庫(kù)注釋出的功能（func) 信息即可篩選得到符合上述要求的SNP位點(diǎn)。
[0027] 本發(fā)明的上述方法中，上述步驟Sl中，來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)包括全基因組DNA測(cè)序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)。在本發(fā)明一種優(yōu)選的實(shí)施例中，當(dāng)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)時(shí)，來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)的制備步驟包括：對(duì)來(lái)源于體細(xì)胞的DNA通過(guò)液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)；對(duì)目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。當(dāng)需要對(duì)全基因組的體細(xì)胞突變進(jìn)行分析時(shí)，則不需要進(jìn)行液相雜交捕獲的步驟，直接將全基因組制備成測(cè)序文庫(kù)進(jìn)行測(cè)序即可。
[0028] 在本發(fā)明一種具體的實(shí)施例中，上述待檢的樣品可以是腫瘤組織，也可以是外周血中的游離DNA。上述樣品制備成測(cè)序文庫(kù)的步驟中，根據(jù)樣本的不同，使用不同的手段進(jìn) 行DNA的提取。使用自動(dòng)聚焦聲波樣本處理儀（covaris)將DNA隨機(jī)打斷成雙鏈DNA，雙鏈 DNA的主峰在150-200bp。在隨機(jī)打斷的DNA的3'段添加上一個(gè)"A"堿基，生成一個(gè)單堿基的粘性末端，對(duì)3端加"A"的DNA進(jìn)行adapter的連接。將連接有接頭的DNA片段使用 PCR技術(shù)進(jìn)行DNA富集。取富集后的DNA樣品750ng進(jìn)行雜交捕獲，在此過(guò)程中按照美國(guó) 安捷倫公司的SureSelect人類基因組外顯子捕獲試劑盒提供的說(shuō)明書(shū)進(jìn)行操作。在本發(fā) 明中，采用高通量測(cè)序?qū)χ苽涞臏y(cè)序文庫(kù)進(jìn)行測(cè)序，具體測(cè)序平臺(tái)可以選擇Illumina公司的 Hiseq2000、Hiseq2500、Nextseq500、Miseq，Life Technology 公司的 Ion torrent、Ion Proton等。各個(gè)測(cè)序平臺(tái)采用的測(cè)序方式雖不盡相同，最終都能夠得到來(lái)源于待測(cè)樣品的體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
[0029] 在本發(fā)明的上述方法中，上述步驟S3可以根據(jù)所得到的第一 SNP位點(diǎn)集中各SNP 位點(diǎn)的信息的不同，通過(guò)選擇并比對(duì)合適的數(shù)據(jù)庫(kù)即可將符合體細(xì)胞突變特點(diǎn)的SNP位點(diǎn) 進(jìn)行去除。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述步驟S3包括：將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，得到比對(duì)數(shù)據(jù)；從比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP 位點(diǎn)，得到第二SNP位點(diǎn)集。體細(xì)胞突變?cè)谌祟惽嘶蚪M數(shù)據(jù)庫(kù)（即IOOOg數(shù)據(jù)庫(kù)）中多為低頻突變，因而，如果第一 SNP位點(diǎn)集中某一 SNP位點(diǎn)的突變頻率小于5%或在上述數(shù)據(jù) 庫(kù)中沒(méi)有注釋出突變頻率信息，即該SNP位點(diǎn)的突變?yōu)榈皖l突變，屬于體細(xì)胞突變的特征，因而需要保留。另外，若在IOOOg數(shù)據(jù)庫(kù)中沒(méi)有給出相應(yīng)的信息，有可能該突變位點(diǎn)屬于新的突變位點(diǎn)，因而也需要保留此類SNP位點(diǎn)。
[0030] 在本發(fā)明的上述方法中，上述步驟S4同樣可以通過(guò)選擇合適的數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可得到上述第三SNP位點(diǎn)集。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述步驟S4包括：將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù) 據(jù)庫(kù)進(jìn)行比對(duì)，篩選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到過(guò)濾SNP位點(diǎn)；對(duì)過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0031] dbSNP 數(shù)據(jù)庫(kù)（http://www. ncbi. nlm. nih. gov/projects/SNP/)是單核苷酸多態(tài)性數(shù)據(jù)庫(kù)的簡(jiǎn)稱，該數(shù)據(jù)庫(kù)不僅包含單核苷酸多態(tài)性信息，也包含其他類型的突變信息，如小片段的插入和缺失多態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性，這些突變?cè)谶@個(gè)數(shù)據(jù)庫(kù) 中會(huì)給出特定的參考SNP編號(hào)（reference SNP ID)用以識(shí)別每一個(gè)突變，該數(shù)據(jù)庫(kù)給出的位點(diǎn)不一定與疾病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫(kù)同時(shí)會(huì)給出突變的來(lái)源，表現(xiàn)形式是給出 SAO(Variant Allele Origin，突變來(lái)源）的值。
[0032] Clinvar 數(shù)據(jù)庫(kù)（http://www. ncbi. nlm. nih. gov/clinvar/)能夠提供與致病性相關(guān)的突變。Clinvar數(shù)據(jù)庫(kù)能夠給出人類突變信息，同時(shí)解釋這些突變與人類健康的關(guān) 系，如果該突變與人類疾病發(fā)生相關(guān)，數(shù)據(jù)庫(kù)會(huì)給出相關(guān)疾病的名稱，并給出相應(yīng)的支持證據(jù)。通過(guò)Clinvar數(shù)據(jù)庫(kù)注釋出的信息，我們能夠判斷突變是否有致病性。Clinvar同時(shí) 會(huì)注釋出突變的來(lái)源，表現(xiàn)形式是給出SAO的值，SAO為0時(shí)表示該突變來(lái)源未知，SAO為1 時(shí)表示該突變?yōu)榉N系細(xì)胞突變，SAO為2時(shí)表示該突變?yōu)轶w細(xì)胞突變，SAO為3時(shí)表示該突變既是種系突變也是體細(xì)胞突變。
[0033] 本發(fā)明的上述實(shí)施例，通過(guò)利用上述兩個(gè)數(shù)據(jù)庫(kù)中的信息即可篩選出具有體細(xì)胞特征的SNP位點(diǎn)，從而去除掉明顯不屬于體細(xì)胞突變的SNP位點(diǎn)。優(yōu)選上述步驟S4中單核苷酸多態(tài)性數(shù)據(jù)庫(kù)和Clinvar數(shù)據(jù)庫(kù)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)的SAO(Variant Allele Origin)值為2或3,將SAO為2或3的SNP位點(diǎn)保留下來(lái)，即保留了具有體細(xì)胞特征的SNP位點(diǎn)，為篩選得到真正的SNP位點(diǎn)提供了較大可能性。
[0034] 在本發(fā)明的一種優(yōu)選的實(shí)施例中，上述步驟S5包括：對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì)，得到同一位置上匹配參考基因組序列的第一總序列數(shù) 和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計(jì)算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值，得到所述同一位置的測(cè)序序列的突變頻率；從第三SNP位點(diǎn)集中篩選出突變頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0035] 在上述測(cè)序數(shù)據(jù)中，測(cè)序信息包含以下四個(gè)數(shù)值，支持匹配參考基因型正鏈序列數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序列數(shù)目和支持匹配突變基因型負(fù)鏈的序列數(shù)目，如果（匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈序列數(shù)目V(匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型正鏈reads+匹配突變基因型負(fù)鏈reads)的比值小于0. 75,即某SNP位點(diǎn)的突變頻率小于 0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0036] 本發(fā)明的上述方法已經(jīng)能夠相對(duì)準(zhǔn)確地檢測(cè)到來(lái)源于單個(gè)樣本的體細(xì)胞單核苷酸突變，為了進(jìn)一步提高檢測(cè)的準(zhǔn)確性，在本發(fā)明一種更優(yōu)選的實(shí)施例中，上述方法還包括將在上述各篩選步驟中不符合條件的SNP位點(diǎn)進(jìn)行再次篩選，利用靶向數(shù)據(jù)庫(kù)（來(lái)自 MyCancerGenome)中的包括SNP和indel突變類型信息對(duì)上述不符合條件的SNP位點(diǎn)進(jìn)行過(guò)濾。根據(jù)染色體、位置、參考基因型和突變基因型的信息進(jìn)行比對(duì)篩選，如果某SNP位點(diǎn) 的存在于靶向數(shù)據(jù)庫(kù)，則將該SNP位點(diǎn)加入到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)中。另夕卜，若上述不符合條件的SNP位點(diǎn)出現(xiàn)在高頻突變數(shù)據(jù)庫(kù)（CLINSIG. pathogenic)中，則表明該SNP位點(diǎn)屬于人群頻率大于5%且為致病基因的位點(diǎn)，則該位點(diǎn)也加入到上述包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)中。
[0037] 在本發(fā)明另一種典型的實(shí)施方式中，提供了一種檢測(cè)體細(xì)胞單核苷酸突變的裝置，如圖2所示，該裝置包括以下模塊：序列比對(duì)模塊，用于對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù) 據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì)，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP 位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；第一篩選模塊：用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或/和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；第二篩選模塊；用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二 SNP位點(diǎn)集；第三篩選模塊：用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn)，得到第三SNP位點(diǎn)集；第四篩選模塊：用于從第三SNP位點(diǎn)集中篩選出測(cè)序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0038] 本發(fā)明的上述裝置，通過(guò)序列比對(duì)模塊僅利用來(lái)源體細(xì)胞的測(cè)序數(shù)據(jù)與參考基因組進(jìn)行比對(duì)，篩選出所有來(lái)源于體細(xì)胞的SNP位點(diǎn)，接著利用第一篩選模塊將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來(lái)，然后利用第二篩選模塊和第三篩選模塊對(duì)這些SNP 位點(diǎn)按照已知的種系細(xì)胞突變和體細(xì)胞突變的特征進(jìn)行篩選，最后通過(guò)第四篩選模塊，測(cè) 序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該裝置不僅實(shí)現(xiàn)了利用單一樣品對(duì)體細(xì)胞突變的檢測(cè)，而且降低了檢測(cè)成本。
[0039] 在本發(fā)明的上述裝置中，第一篩選模塊可以根據(jù)現(xiàn)有的篩選模塊進(jìn)行合理改進(jìn)，只要能夠?qū)崿F(xiàn)將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來(lái)的功能即可適用于本發(fā) 明。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述裝置還包括測(cè)序模塊，該測(cè)序模塊包括：全基因組 DNA測(cè)序子模塊：用于對(duì)來(lái)源于體細(xì)胞的全基因組DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到來(lái)源于體細(xì) 胞的DNA測(cè)序數(shù)據(jù)；目標(biāo)區(qū)域DNA測(cè)序子模塊：用于對(duì)來(lái)源于體細(xì)胞的目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
[0040] 在本發(fā)明另一種優(yōu)選的實(shí)施例中，上述目標(biāo)區(qū)域DNA測(cè)序子模塊中還包括：液相雜交捕獲單元：用于對(duì)來(lái)源于體細(xì)胞的DNA進(jìn)行雜交捕獲，得到目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)。通過(guò)液相雜交捕獲單元根據(jù)想要捕獲的目標(biāo)區(qū)域的DNA序列而預(yù)先設(shè)計(jì)好的探針與修復(fù) 好的帶有接頭序列的DNA片段進(jìn)行雜交，即可將所感興趣的目標(biāo)區(qū)域DNA片段從全基因組 DNA片段中捕獲出來(lái)，然后連上測(cè)序引物序列就形成了目標(biāo)區(qū)域DNA測(cè)序文庫(kù)，這樣的文庫(kù) 能夠從全基因組中把感興趣的目的區(qū)域富集出來(lái)，從而提高了目標(biāo)區(qū)域突變位點(diǎn)的檢出效率。采用液相雜交捕獲單元能夠提高目標(biāo)區(qū)域DNA的捕獲效率。
[0041] 在本發(fā)明的上述裝置中，第二篩選模塊還包括：第一比對(duì)子模塊：用于將第一 SNP 位點(diǎn)集與人類千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，得到比對(duì)數(shù)據(jù)；第一篩選子模塊：用于從比對(duì) 數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。該實(shí)施例中第二篩選模塊通過(guò)第一比對(duì)子模塊將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，得到比對(duì) 數(shù)據(jù)，然后利用第一篩選子模塊從比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。人類千人基因組數(shù)據(jù)庫(kù)中包括了 1000個(gè)人類全基因組測(cè)序數(shù)據(jù)中出現(xiàn) 的低頻突變或高頻突變的SNP位點(diǎn)，對(duì)于突變頻率高于5%的SNP位點(diǎn)，由于其在人類群體中出現(xiàn)頻率較高，通常認(rèn)為是類似于種系細(xì)胞突變所引起的突變或者是遺傳引起的突變，而非因環(huán)境或其他因素引起的種系細(xì)胞分化之后的體細(xì)胞突變，因而通過(guò)與上述數(shù)據(jù)庫(kù)進(jìn) 行比對(duì)，可以把某個(gè)體細(xì)胞來(lái)源的第一 SNP位點(diǎn)集中不屬于高頻突變位點(diǎn)的SNP位點(diǎn)保留下來(lái)，從而得到可能真正引起功能突變的第二SNP位點(diǎn)集。
[0042] 在本發(fā)明的上述裝置中，上述第三篩選模塊通過(guò)選擇合適的篩選模塊進(jìn)行比對(duì)，只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述第三篩選模塊包括：第二比對(duì)子模塊：用于將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到過(guò)濾SNP位點(diǎn)；第三比對(duì)子模塊：用于對(duì)過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0043] 上述第二比對(duì)子模塊和第三比對(duì)子模塊通過(guò)將第二SNP位點(diǎn)集與dbSNP數(shù)據(jù)庫(kù) (http://www. nebi. nlm. nih. gov/projects/SNP/)和 Clinvar 數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，dbSNP 數(shù)據(jù) 庫(kù)不僅包含單核苷酸多態(tài)性信息，也包含其他類型的突變信息，如小片段的插入和缺失多態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性，這些突變?cè)谶@個(gè)數(shù)據(jù)庫(kù)中會(huì)給出特定的參考SNP編號(hào)（reference SNP ID，簡(jiǎn)稱RS號(hào)）用以識(shí)別每一個(gè)突變，該數(shù)據(jù)庫(kù)給出的位點(diǎn)不一定與疾病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫(kù)同時(shí)會(huì)給出突變的來(lái)源，表現(xiàn)形式是給出SAO(Variant Allele Origin，突變來(lái)源）的值；同樣，Clinvar數(shù)據(jù)庫(kù)能夠給出人類突變信息，同時(shí)解釋這些突變與人類健康的關(guān)系，如果該突變與人類疾病發(fā)生相關(guān)，數(shù)據(jù)庫(kù)會(huì)給出相關(guān)疾病的名稱，并給出相應(yīng)的支持證據(jù)。通過(guò)Clinvar數(shù)據(jù)庫(kù)注釋出的信息，我們能夠判斷突變是否有致病性。 Clinvar同時(shí)會(huì)注釋出突變的來(lái)源，表現(xiàn)形式是給出SAO的值，SAO為0時(shí)表示該突變來(lái)源未知，SAO為1時(shí)表示該突變?yōu)榉N系細(xì)胞突變，SAO為2時(shí)表示該突變?yōu)轶w細(xì)胞突變，SAO為 3時(shí)表示該突變既是種系突變也是體細(xì)胞突變。因而與上述兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行比對(duì)即可將符合于體細(xì)胞突變特征的SNP位點(diǎn)進(jìn)行篩除，保留上述數(shù)據(jù)庫(kù)中未出現(xiàn)的SNP位點(diǎn)和上述數(shù) 據(jù)庫(kù)中表明符合體細(xì)胞特征的SNP位點(diǎn)。
[0044] 在本發(fā)明的上述裝置中，第四篩選模塊可以根據(jù)測(cè)序數(shù)據(jù)的不同，對(duì)常用的統(tǒng)計(jì) 和計(jì)算模塊進(jìn)行改進(jìn)即可得到。在本發(fā)明中，上述第四篩選模塊還包括：統(tǒng)計(jì)子模塊：對(duì)測(cè) 序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì)，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計(jì)算子模塊：計(jì)算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值，得到同一位置的測(cè)序序列的突變頻率；第三篩選子模塊：用于從第三SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0045] 上述實(shí)施例中，第四篩選模塊首先通過(guò)利用統(tǒng)計(jì)子模塊對(duì)測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì)，得到基因組同一位置上的總比對(duì)序列數(shù)目；然后利用計(jì)算子模塊計(jì)算包含各SNP位點(diǎn)的測(cè)序序列的數(shù)目占總比對(duì)序列數(shù)目的頻率，最后第三篩選子模塊從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。其中，統(tǒng)計(jì)子模塊利用測(cè)序數(shù)據(jù)中所包含的以下四個(gè)數(shù)值：支持匹配參考基因型正鏈序列數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序列數(shù)目和支持匹配突變基因型負(fù)鏈的序列數(shù)目，即可統(tǒng)計(jì)出基因組同一位置上的總比對(duì)序列數(shù)目。然后計(jì)算模塊通過(guò)計(jì)算（匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈序列數(shù)目）八匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型正鏈 reads+匹配突變基因型負(fù)鏈reads)的比值，當(dāng)該比值小于0. 75時(shí)，即某SNP位點(diǎn)的突變頻率小于0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0046] 需要說(shuō)明的是，本發(fā)明主要用于檢測(cè)基因外顯子或剪接位點(diǎn)處的體細(xì)胞單核苷酸突變。高通量測(cè)序后會(huì)得到非常多的單核苷酸突變，本方法和裝置可以從眾多的單核苷酸突變中篩選比較有意義的體細(xì)胞單核苷酸突變。篩選得到的體細(xì)胞單核苷酸突變是否與疾病發(fā)生有直接或間接的關(guān)系，有待進(jìn)一步的驗(yàn)證，所以本方法和裝置僅適用于科研和學(xué)術(shù) 基礎(chǔ)研宄之用，而不適用于臨床上疾病的診斷。
[0047] 以下通過(guò)具體的實(shí)施例來(lái)進(jìn)一步說(shuō)明本發(fā)明的有益效果。
[0048] 提取7個(gè)不同個(gè)體的肺癌組織體細(xì)胞和血中的白細(xì)胞，并提取DNA進(jìn)行測(cè)序分析。然后利用mutect檢測(cè)方法和本發(fā)明的檢測(cè)方法分別對(duì)來(lái)源于肺癌組織的體細(xì)胞進(jìn)行單核苷酸突變檢測(cè)。下列實(shí)施例中所用到的試劑、儀器或裝置除有特殊說(shuō)明外，其余均來(lái)自美國(guó) 安捷倫公司。詳細(xì)檢測(cè)步驟如下：
[0049] 實(shí)驗(yàn)一：文庫(kù)制備
[0050] 分別提取肺癌癥組織和白細(xì)胞中的DNA，經(jīng)過(guò)使用covaris破碎儀（美國(guó)Covaris 公司）將DNA隨機(jī)打斷成雙鏈DNA，打斷片段的主帶在150bp-200bp之間；然后使用末端修復(fù)酶將DNA片段進(jìn)行末端修復(fù)，得到帶有平末端的片段混合物，并在DNA的3'端添加一個(gè) "A"堿基生成粘性末端。接下來(lái)將接頭連接到帶有粘性末端的DNA片段上，每個(gè)接頭都帶有一個(gè)"T"堿基，能提高接頭連接的效率，需要在T4DNA連接酶的催化下進(jìn)行。為了保證后續(xù) 分析有足夠量的DNA，連接上接頭的DNA片段需要使用PCR富集。
[0051] PCR 反應(yīng)體系為：98°C，2min ;98°C，30s 變性；65°C，30s 退火；72°C，lmin 延伸； 72 °C，IOmin延伸，約進(jìn)行4-7個(gè)PCR循環(huán)；4 °C，保溫。富集完成后使用bioanalyzer DNAlOOOchip (美國(guó)安捷倫公司2100bioanalyzer)進(jìn)行定量。
[0052] 經(jīng)過(guò)擴(kuò)增的DNA樣品使用安捷倫公司的Agencourt AMPure XP磁珠純化體系，特異的將帶有接頭的DNA片段進(jìn)一步純化。
[0053] 實(shí)驗(yàn)二：雜交捕獲并分別在每個(gè)文庫(kù)上的DNA片段上添加特異的標(biāo)簽序列
[0054] 取出富集純化之后的DNA約750ng (最大體積不能超過(guò)3. 4ul)，使用安捷倫 SureSelect XT液相捕獲系統(tǒng)進(jìn)行目標(biāo)序列捕獲。本實(shí)施例分析的是人483個(gè)基因的外顯子區(qū)域上的體細(xì)胞突變，假如需要分析全基因組的體細(xì)胞突變，則不需要進(jìn)行雜交捕獲的步驟。
[0055] 分別對(duì)7個(gè)上述構(gòu)建好的DNA文庫(kù)單獨(dú)地進(jìn)行雜交和捕獲，然后再通過(guò)PCR反應(yīng) 引入標(biāo)簽序列，得到各樣品的目標(biāo)區(qū)域的測(cè)序文庫(kù)。
[0050] 實(shí)驗(yàn)三：上機(jī)測(cè)序
[0057] 將各樣品測(cè)序文庫(kù)稀釋到2nM，根據(jù)各文庫(kù)所需數(shù)據(jù)量進(jìn)行混池，獲得濃度為2nM 的文庫(kù)稀釋液。在文庫(kù)稀釋液中加入〇. 2N NaOH溶液，使文庫(kù)中的DNA變性成為單鏈的DNA。之后使用illumina Nextseq500測(cè)序平臺(tái)對(duì)混池之后的文庫(kù)進(jìn)行上機(jī)測(cè)序，測(cè)序的長(zhǎng)度為雙端 75bp(PE 75)。
[0058] 實(shí)驗(yàn)四：測(cè)序數(shù)據(jù)質(zhì)控及比對(duì)
[0059] 1.原始測(cè)序數(shù)據(jù)以fastq文件格式存儲(chǔ)（文件名：*. fq)，在進(jìn)行下一步分析之前需要進(jìn)行常規(guī)的數(shù)據(jù)過(guò)濾步驟，過(guò)濾方法如下：
[0060] (1)過(guò)濾掉含有接頭序列的測(cè)序序列（reads);
[0061] (2)當(dāng)雙端測(cè)序序列中的某一單端序列中含有的不確定堿基N的含量超過(guò)該條序列總長(zhǎng)度比例的10%時(shí)，需要去除此對(duì)雙端測(cè)序序列；
[0062] (3)當(dāng)雙端測(cè)序序列中的某一單端序列中含有的低質(zhì)量（Q〈 = 5)堿基數(shù)超過(guò)該條序列長(zhǎng)度比例的50%時(shí)，需要去除此對(duì)雙端測(cè)序序列。
[0063] 2.經(jīng)過(guò)對(duì)測(cè)序數(shù)據(jù)的嚴(yán)格過(guò)濾，得到高質(zhì)量的有效數(shù)據(jù)（Clean data)。有效數(shù) 據(jù)通過(guò) BWA(Burrows_Wheeler Alignment tool)軟件比對(duì)到 NCBI build 37/hgl9 參考基因組上，比對(duì)時(shí)的參數(shù)為："-t l〇-k 32-M"。比對(duì)結(jié)果使用samtools sort(http:// samtools. sourceforge. net/)功能進(jìn)行排序，并經(jīng) picard(http://broadinstitute. github. io/picard/)去除重復(fù)，過(guò)濾掉錯(cuò)配堿基數(shù)目超過(guò)5的序列。
[0064] 實(shí)驗(yàn)五：使用mutect軟件檢測(cè)肺癌組織細(xì)胞中存在的體細(xì)胞突變
[0065] Mutect軟件是美國(guó)broad研宄院開(kāi)發(fā)的一款可以準(zhǔn)確的使用高通量測(cè)序發(fā)現(xiàn)體細(xì)胞單核苷酸突變的軟件。使用mutect軟件尋找體細(xì)胞突變時(shí)需要輸入待檢細(xì)胞測(cè)序結(jié) 果的比對(duì)文件和對(duì)照細(xì)胞測(cè)序結(jié)果的比對(duì)文件，mutect使用了兩個(gè)貝葉斯分類器：一個(gè)識(shí) 別待檢樣品中存在的突變，另一個(gè)用于檢測(cè)對(duì)照樣品中是否存在該突變。通過(guò)兩個(gè)分類器， mutect即可發(fā)現(xiàn)待檢樣品中存在的體細(xì)胞突變。
[0066] 在本發(fā)明的實(shí)施例中，待檢樣品是每個(gè)個(gè)體中提取的肺癌組織細(xì)胞，而對(duì)照樣品則是每個(gè)個(gè)體中提取的白細(xì)胞。在運(yùn)行mutect時(shí)，分別輸入這兩個(gè)樣品測(cè)序結(jié)果各自與參考基因組的比對(duì)文件，mutect運(yùn)行時(shí)使用hg37版人類基因組，并指定能夠記錄目標(biāo)基因在參考基因組上位置的bed文件。Bed文件中含有待檢測(cè)基因在參考基因組上的位置。采用 Mutect直接檢測(cè)的體細(xì)胞突變結(jié)果統(tǒng)計(jì)如下表1。
[0067] 表 1 :
[0068]

【權(quán)利要求】
1. 一種檢測(cè)體細(xì)胞單核巧酸突變的方法，其特征在于，所述方法包括w下步驟： S1，對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì)，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信息和所述SNP位點(diǎn) 導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息； 52, 從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集； 53, 去除所述第一 SNP位點(diǎn)集中千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn) 集； 54, 從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn)，得到第S SNP位點(diǎn) 集；W及 55, 從所述第S SNP位點(diǎn)集中篩選出所述測(cè)序數(shù)據(jù)中包含所述SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述步驟S1中，所述來(lái)源于體細(xì)胞的 DNA測(cè)序數(shù)據(jù)包括全基因組DNA測(cè)序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測(cè)序數(shù)據(jù)時(shí)，所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)的制備步驟包括：對(duì)來(lái)源于體細(xì)胞的DNA通過(guò)液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)；對(duì)所述目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S3包括：將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，得到比對(duì)數(shù)據(jù)；從所述比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到所述第二SNP位點(diǎn)集。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S4包括：將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出所述第二SNP位點(diǎn) 集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到過(guò)濾SNP位點(diǎn)；對(duì)所述過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出所述過(guò)濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到所述第S SNP位點(diǎn)集。
6. 根據(jù)權(quán)利要求1或5所述的方法，其特征在于，所述步驟S4中；所述單核巧酸多態(tài) 性數(shù)據(jù)庫(kù)和所述Clinvar數(shù)據(jù)庫(kù)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)的SAO值為2或3。
7. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S5包括：對(duì)所述測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì)，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計(jì)算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的比值，得到所述同一位置的測(cè)序序列的突變頻率；從所述第S SNP位點(diǎn)集中篩選出所述突變頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
8. -種檢測(cè)體細(xì)胞單核巧酸突變的裝置，其特征在于，所述裝置包括W下模塊：序列比對(duì)模塊，用于對(duì)來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對(duì)，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信息和所述SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；第一篩選模塊，用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或 /和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；第二篩選模塊，用于從所述第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；第S篩選模塊，用于從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來(lái)源的SNP位點(diǎn)，得到第；5^位點(diǎn)集；化及第四篩選模塊，用于從所述第S SNP位點(diǎn)集中篩選出所述測(cè)序數(shù)據(jù)中包含所述SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
9. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括測(cè)序模塊，所述測(cè)序模塊包括：全基因組DNA測(cè)序子模塊，用于對(duì)來(lái)源于體細(xì)胞的全基因組DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)；或者目標(biāo)區(qū)域DNA測(cè)序子模塊，用于對(duì)來(lái)源于體細(xì)胞的目標(biāo)區(qū)域的DNA測(cè)序文庫(kù)進(jìn)行測(cè)序，得到所述來(lái)源于體細(xì)胞的DNA測(cè)序數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述目標(biāo)區(qū)域DNA測(cè)序子模塊中還包括：液相雜交捕獲單元，用于對(duì)來(lái)源于體細(xì)胞的DNA進(jìn)行雜交捕獲，得到所述目標(biāo)區(qū)域的 DNA測(cè)序文庫(kù)。
11. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述第二篩選模塊還包括：第一比對(duì)子模塊，用于將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，得到比對(duì)數(shù)據(jù)；W及第一篩選子模塊，用于從所述比對(duì)數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到所述第二SNP位點(diǎn)集。
12. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述第=篩選模塊還包括：第二比對(duì)子模塊，用于將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出所述第二SNP位點(diǎn)集中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到過(guò)濾SNP位點(diǎn)；W及第S比對(duì)子模塊，用于對(duì)所述過(guò)濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，篩選出所述過(guò) 濾SNP位點(diǎn)中來(lái)源于體細(xì)胞突變的SNP位點(diǎn)，得到所述第S SNP位點(diǎn)集。
13. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述第四篩選模塊還包括：統(tǒng)計(jì)子模塊，對(duì)所述測(cè)序數(shù)據(jù)中比對(duì)到基因組同一位置上的測(cè)序序列數(shù)進(jìn)行統(tǒng)計(jì)，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計(jì)算子模塊，計(jì)算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的比值，得到所述同一位置的測(cè)序序列的突變頻率擬及第S篩選子模塊，用于從所述第S SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
【文檔編號(hào)】G06F19/22GK104462869SQ201410708748
【公開(kāi)日】2015年3月25日申請(qǐng)日期:2014年11月28日優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】張?zhí)m英, 于海燕, 張廣鑫, 龐行云, 孟雪紅, 曹銀川, 吳曉朦, 李林, 宋欠欠, 張燕艷申請(qǐng)人:天津諾禾致源生物信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張?zhí)m英;于海燕;張廣鑫;龐行云;孟雪紅;曹銀川;吳曉朦;李林;宋欠欠;張燕艷;
技術(shù)所有人：天津諾禾致源生物信息科技有限公司;
我是此專利的發(fā)明人

上一篇：功耗控制方法和裝置制造方法
上一篇：一種極化sar目標(biāo)散射成分的分解方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

體細(xì)胞突變相關(guān)技術(shù)

體細(xì)胞高頻突變相關(guān)技術(shù)

單核苷酸突變相關(guān)技術(shù)

體細(xì)胞突變學(xué)說(shuō)相關(guān)技術(shù)

腫瘤體細(xì)胞突變的類型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

檢測(cè)體細(xì)胞單核苷酸突變的方法和裝置制造方法