單核苷酸多態(tài)性的檢測方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基因組學(xué)及生物信息學(xué)技術(shù)領(lǐng)域,具體涉及一種單核苷酸多態(tài)性的檢 測方法及裝置。
【背景技術(shù)】
[0002] 隨著測序技術(shù)的發(fā)展,高通量測序技術(shù)被廣泛的應(yīng)用到生命科學(xué)的各個 領(lǐng)域,高通量測序技術(shù)(High-throughput sequencing)又稱"下一代"測序技術(shù) (〃Next_generation〃sequencing technology),能一次并行對幾十萬到幾百萬條脫氧核糖 核酸(DNA,Deoxyribonucleic acid)分子進行序列測定和一般讀長(reads)較短等為標 志,亦能用于核糖核酸(RNA,Ribonucleic Acid)測序(RNA-seq,RNA sequencing)。目前 高通量測序平臺有多種,包括 Illumina Solexa/Hiseq、Roche454、Life Technologies ABI SOLiD/Ion Torren,PacBio、Helicos單分子測序平臺以及納米孔測序平臺等。不同測序平 臺的測序原理有所不同,但步驟基本包括文庫制備,測序等。
[0003] 對測序數(shù)據(jù)的處理分析包括變異的識別檢測,根據(jù)結(jié)構(gòu)的大小,變異可分為單 核苷酸多態(tài)性(single nucleotide polymorphism,SNP)、插入缺失(indel)、拷貝數(shù)變異 (cope number variants, CNVs)、重復(fù)、倒置、平衡/非平衡易位和染色體非整倍性等多種 類型。SNP是指單個核苷酸變異,是人類可遺傳變異中最常見的一種,包括置換、顛換、缺失 和插入,理論上每一個SNP位點都可以有4種不同的變異形式,但實際發(fā)生的只有轉(zhuǎn)換和顛 換。SNP在基因組中分布相當(dāng)廣泛,譬如在人類基因組中約每1000堿基就出現(xiàn)一次。研究 表明,SNP可能與個體表型差異、對藥物或疾病的易感性等等相關(guān)。目前的高通量測序中, 在連續(xù)相同堿基處容易發(fā)生測序錯誤。譬如Ion Proton測序平臺,其測序原理是當(dāng)DNA聚 合酶把核苷酸聚合到延伸的DNA鏈上時,會釋放出一個氫離子導(dǎo)致反應(yīng)池中的pH發(fā)生改 變,位于池下的離子感受器感受到信號,再把化學(xué)信號直接轉(zhuǎn)化為數(shù)字信號,從而讀出DNA 序列;對于連續(xù)η個相同堿基,則DNA聚合酶將連續(xù)η核苷酸結(jié)合的時候,釋放出來的H+離 子信號強度并不是結(jié)合單個核苷酸的釋放出來的完整的η倍,在測讀連續(xù)堿基時易發(fā)生錯 誤,對后續(xù)變異檢測的準確性造成影響。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種SNP的檢測方法及裝置,以提高測序分析結(jié)果的準確率。
[0005] 依據(jù)本發(fā)明的一方面提供一種SNP的檢測方法,其特征在于,
[0006] 獲取含有核酸序列信息的讀段序列;
[0007] 將讀段序列與參考序列進行比對,獲取比對上的讀段序列;
[0008] 將比對上的讀段序列按照5'端比對位置劃分為不同的冗余讀段序列組;
[0009] 對不同冗余讀段序列組中的每個冗余讀段序列組中的每個讀段序列進行計分,依 據(jù)讀段序列的得分從一個冗余讀段序列組中得到一個代表讀段序列組;
[0010] 判斷代表讀段序列組是否存在支持假陰性單核苷酸多態(tài)性SNP的讀段序列,
[0011] 若判斷結(jié)果為是,則從代表讀段序列組中去除支持假陰性SNP的代表讀段序列, 獲得不支持假陰性SNP的代表讀段序列組;若判斷結(jié)果為否,則代表讀段序列組為不支持 假陰性SNP的代表讀段序列組;
[0012] 依據(jù)不支持假陰性SNP的代表讀段序列組進行SNP檢測。
[0013] 依據(jù)本發(fā)明的另一方面提供一種SNP的檢測裝置,包括:數(shù)據(jù)輸入單元,用于輸入 數(shù)據(jù);數(shù)據(jù)輸出單元,用于輸出數(shù)據(jù);存儲單元,用于存儲數(shù)據(jù),其中包括可執(zhí)行的程序;處 理器,與數(shù)據(jù)輸入單元、數(shù)據(jù)輸出單元及存儲單元數(shù)據(jù)連接,用于執(zhí)行存儲單元中存儲的可 執(zhí)行的程序,該程序的執(zhí)行包括完成上述SNP的檢測方法。
[0014] 本發(fā)明的有益效果是:通過判斷堿基是否存在假陰性SNP以去除假陽性SNP,從而 提高測序分析結(jié)果準確率。
【附圖說明】
[0015] 圖1為本發(fā)明實施例一的高通量測序流程圖;
[0016] 圖2為本發(fā)明實施例一的流程圖;
[0017] 圖3為本發(fā)明實施例二的流程圖。
【具體實施方式】
[0018] 下面通過【具體實施方式】結(jié)合附圖對本發(fā)明作進一步詳細說明。
[0019] 現(xiàn)有的高通量測序平臺有多種,包括Roche454,Ion PGM和Ion Proton等。本發(fā) 明中的實施例以Ion Proton測序平臺作說明。本發(fā)明提供的方法適用于DNA或RNA的SNP 檢測,因此將分別以實施例作闡述。實施例中樣本DNA或RNA的提取、構(gòu)建文庫等均可利用 現(xiàn)有技術(shù)進行,測序文庫構(gòu)建步驟一般包括打斷、末端修復(fù)、加 proton接頭、擴增等,請參 考圖1,RNA樣本的文庫構(gòu)建一般還包括將RNA反轉(zhuǎn)錄為DNA來進行文庫構(gòu)建,測序步驟及 參數(shù)可以根據(jù)測序平臺、樣本種類等有所調(diào)整,不構(gòu)成對本發(fā)明的限制。實施例中未注明具 體條件的,按照常規(guī)條件或制造商建議的條件進行;所用試劑或儀器未注明生產(chǎn)廠商的,均 為可以通過市面購買獲得的常規(guī)產(chǎn)品。
[0020] 實施例一:
[0021] 本實施例采用RNA樣本構(gòu)建文庫。RNA樣本使用人組織混合液RNA的微陣列 質(zhì)量控制標準品(UHRR-MAQC,Universal Human Reference RNA-MicroArray Quality Control)和人腦混合液RNA微陣列質(zhì)量控制標準品(HBRR-MAQC,Human Brain Reference RNA-MicroArray Quality Control),其中 UHRR-MAQC 標準品米購自安捷倫公司(Agilent Technologies, Inc. ),HBRR-MAQC購自Ambion公司。在其他【具體實施方式】中,亦可以使用 其他種類的RNA標準品,或是采購自其他公司所生產(chǎn)的RNA標準品,對本發(fā)明不構(gòu)成限制。
[0022] 本實施例構(gòu)建文庫的過程如下:取總RNA樣品,用DEPCXdiethyl pyrocarbonate, 焦碳酸二乙酯)水稀釋,混勻,65°C變性,使用dT (Dynalbeads 01igo)25·珠將總RNA中的 信使RNA(mRNA)調(diào)取出來并純化;將所得mRNA與打斷試劑混合得到打斷的mRNA,再與試劑 I混合進行一鏈合成反應(yīng);將一鏈合成反應(yīng)后的體系與試劑II混合,進行二鏈合成反應(yīng),反 應(yīng)完成后,用Ampure XP磁珠純化二鏈產(chǎn)物;所得二鏈產(chǎn)物與試劑III混合進行末端修復(fù), 并用Ampure XP磁珠純化末端修復(fù)產(chǎn)物;所得末端修復(fù)產(chǎn)物與試劑IV混合進行加接頭,并 用Ampure XP磁珠純化加接頭產(chǎn)物;采用PCR儀擴增,并用Ampure XP磁珠純化PCR產(chǎn)物, 獲得測序文庫。構(gòu)建轉(zhuǎn)錄本文庫或其它RNA文庫亦可利用現(xiàn)有方法,文庫構(gòu)建并不構(gòu)成本 發(fā)明的限制。
[0023] 試劑 I :0· 5 μ 1 的 IOOmM 二硫蘇糖(DTT,DL-Dithiothreitol)、0· 5 μ 1 的 IOmM 脫 氧核糖核苷三憐酸(dNTP Mix,deoxy-ribonucleoside triphosphate)、0·5μ1 的 RNases 抑制劑(RNase Inhibitor)。
[0024] 試劑 II :10μ I GEX Second Strand Buffer、2y IlOmM dNTP Mix,0· 2μ 1 逆轉(zhuǎn)錄 酶 RNaseH、2.5yl DNA 聚合酶 I (DNA Pol I)。
[0025] 試劑 III :5μ IlOX 末端修復(fù)緩沖液(End R印air Buffer)、0.4y 125mM dNTP Μ?χ、1·2μ1 T4DNA 聚合酶(T4DNA Polymerase)、0.2yl Klenow DNA 聚合酶(Klenow DNA Polymerase)、I. 2μ I T4 多聚核苷酸激酶(T4PNK)。
[0026] 試劑 IV :2 μ I T4DNA 連接酶(T4DNA Ligase)、2 μ I proton Adapter Oligo Mix(12um),25μ 12X Rapid T4DNA Ligase Buffer0
[0027] 利用Agilent2100質(zhì)檢構(gòu)建得的文庫,上機測序,獲得測序序列,即獲得讀段序列 (reads)。
[0028] 請參考圖2,本實施例提供的SNP檢測方法的實現(xiàn)流程具體包括:
[0029] SlOO :獲取含有核酸序列信息的讀段序列reads
[0030] SlOl :將讀段序列與參考序列進行比對,獲取比對上的讀段序列
[0031] 本實施例中利用reads與參考基因進行比對,從而提高比對準確性及比對效率。 對于真核生物,基因是由基因組中的外顯子拼接而成,而測序平臺測出來的是拼接之后的 序列,直接和參考基因進行比對可以較為直接、準確。另外,在輸出比對結(jié)果時,本實施例是 輸出所有的匹配結(jié)果,而不是一般地只輸出唯一匹配的reads。一個基因包括多個轉(zhuǎn)錄本, 很多轉(zhuǎn)錄本是來自外顯子的不同組合方式,所以有些轉(zhuǎn)錄本會有許多同源序列,所以有許 多序列會比對到多個轉(zhuǎn)錄本上,因此保留所有這些堿基序列,用來判斷這