本發(fā)明屬于高通量測序領(lǐng)域,更具體涉及一種快速和高效對文庫進(jìn)行質(zhì)控的引物序列組及方法。
背景技術(shù):
:隨著二代測序技術(shù)的發(fā)展,常規(guī)的液相捕獲流程分為:打斷、建庫和捕獲。此過程從基因組的打斷、捕獲和上機(jī)測序和數(shù)據(jù)分析至少需要6-7天時間,目前除了qbit和2100分別對文庫濃度和片段大小進(jìn)行質(zhì)控外,沒有一種有效快速的方法可以對建庫結(jié)果的好壞進(jìn)行評判。而文庫質(zhì)量的好壞對測序結(jié)果具有至關(guān)重要的作用,為了對文庫質(zhì)量進(jìn)行效地判斷,從而節(jié)約時間和測序成本,因此本領(lǐng)域急需快速質(zhì)檢文庫的技術(shù)。技術(shù)實(shí)現(xiàn)要素:針對本領(lǐng)域中存在的問題。本發(fā)明人通過對基因組的gc含量為高、中和低三個區(qū)域設(shè)計(jì)3對引物,以基因組作為對照組,對建好的文庫和基因組進(jìn)行qpcr實(shí)驗(yàn),根據(jù)低gc擴(kuò)增倍數(shù)/中g(shù)c擴(kuò)增倍數(shù)的比值與1的關(guān)系對文庫的質(zhì)量好壞進(jìn)行判斷。因此,在第一方面,本發(fā)明提供了一種快速對文庫進(jìn)行質(zhì)控的方法,所述方法包括:1)通過ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物打斷的對參照dna和待測文庫進(jìn)行qpcr實(shí)驗(yàn),檢測每對引物對應(yīng)于參照dna和待測文庫的6個ct值ct1-ct6,其中:ct1是指ngs-lqc-l1這對引物對參照dna進(jìn)行qpcr擴(kuò)增之后的ct值;ct4是指ngs-lqc-l1這對引物對待測文庫進(jìn)行qpcr擴(kuò)增之后的ct值;ct2是指ngs-lqc-m1這對引物對參照dna進(jìn)行qpcr擴(kuò)增之后的ct值;ct5是指ngs-lqc-m1這對引物對要檢測文庫進(jìn)行qpcr擴(kuò)增之后的ct值;ct3是指ngs-lqc-h1這對引物對參照dna進(jìn)行qpcr擴(kuò)增之后的ct值;ct6是指ngs-lqc-h1這對引物對要檢測文庫進(jìn)行qpcr擴(kuò)增之后的ct值;2)計(jì)算m=低gc擴(kuò)增倍數(shù)/中g(shù)c擴(kuò)增倍數(shù)低,n=高gc擴(kuò)增倍數(shù)/中g(shù)c擴(kuò)增倍數(shù)的值,計(jì)算公式為m=2(ct1-ct4)/2(ct2-ct5),n=2(ct3-ct6)/2(ct2-ct5),3)待測文庫均一性判斷:m值在0.3以上,優(yōu)選在0.37以上,并且越接近1,表示待測文庫的均一性越好;同時n>1。在一個實(shí)施方案中,參照dna優(yōu)選是基因組dna。在一個實(shí)施方案中,打斷的對參照dna打斷后的片段大小為150bp-200bp。在第二方面,本發(fā)明提供了一種快速對文庫進(jìn)行質(zhì)控的方法,所述方法包括:1)通過ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對待測文庫進(jìn)行qpcr實(shí)驗(yàn),檢測每對引物對應(yīng)于待測文庫的3個ct值ct4-ct6,ct4是指ngs-lqc-l1這對引物對待測文庫進(jìn)行qpcr擴(kuò)增之后的ct值;ct5是指ngs-lqc-m1這對引物對要檢測文庫進(jìn)行qpcr擴(kuò)增之后的ct值;ct6是指ngs-lqc-h1這對引物對要檢測文庫進(jìn)行qpcr擴(kuò)增之后的ct值;;2)計(jì)算m=低gc擴(kuò)增倍數(shù)/中g(shù)c擴(kuò)增倍數(shù)低,n=高gc擴(kuò)增倍數(shù)/中g(shù)c擴(kuò)增倍數(shù)的值,計(jì)算公式為m=2(ct1-ct4)/2(ct2-ct5),n=2(ct3-ct6)/2(ct2-ct5),其中ct1、ct2和ct3分別是約21、約21和約18,3)待測文庫均一性判斷:m值在0.37以上,越接近1,均一性越好;同時n>1。在一個實(shí)施方案中,待測文庫的建庫片段大小為150bp-200bp。在第三方面,本發(fā)明還提供了一種快速和高效質(zhì)檢文庫的引物序列組:ngs-lqc-l1-f,ngs-lqc-l1-r;ngs-lqc-m1-f,ngs-lqc-m1-r;ngs-lqc-h1-f,ngs-lqc-h1-r。本發(fā)明的方法和引物序列組的優(yōu)點(diǎn):1)設(shè)計(jì)低gc的含量為20%,中g(shù)c含量為50%,高gc含量為80%,通過對基因組上每隔100個堿基的gc含量進(jìn)行分析,對高、中和低三個區(qū)域分別設(shè)計(jì)100對引物,通過序列比對發(fā)現(xiàn),高中低各有3對引物擴(kuò)增產(chǎn)物單一,通過實(shí)驗(yàn)發(fā)現(xiàn)ngs-lqc-l1-f、ngs-lqc-l1-r;ngs-lqc-m1-f、ngs-lqc-m1-r;和ngs-lqc-h1-f、ngs-lqc-h1-r引物具有較好的特異性。2)巧妙地設(shè)計(jì)了文庫質(zhì)量評判標(biāo)準(zhǔn)公式,m值越接近于1,說明文庫的均一性越好。具體實(shí)施方式在本發(fā)明中,優(yōu)選使用本發(fā)明第一方面的方法,將參照dna與待測文庫進(jìn)行qpcr實(shí)驗(yàn),這樣能夠有效避免實(shí)驗(yàn)的偏差。在出于節(jié)約原因或出于其他原因不包括參照dna的情況,也可以使用發(fā)明人長期實(shí)驗(yàn)獲得的經(jīng)驗(yàn)參照dna的ct值,即ct1、ct2和ct3分別是約21、約21和約18,這里的“約”是指基準(zhǔn)值上下浮動5%。本發(fā)明人研發(fā)出一種快速質(zhì)檢文庫的方法,通過對基因組、文庫均一性在20%以上和20%以下的高中低3個區(qū)域分別設(shè)計(jì)3對引物,然后進(jìn)行實(shí)時定量pcr實(shí)驗(yàn),分別計(jì)算出高中低3個區(qū)域相對于基因組ct值而言的擴(kuò)增倍數(shù)之后,計(jì)算出m和n的大小,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)對于均一性在20%以上的文庫來說,m大小在0.37以上,而對于基因組而言,比值大約為1,而n>1,其原因在于,qpcr聚合酶對高gc區(qū)域的擴(kuò)增具有偏好性,很難找到規(guī)律。因此通過比較m與1的關(guān)系,來對文庫質(zhì)量進(jìn)行質(zhì)控。實(shí)施例1)進(jìn)行如下的引物篩選:對基因組gc含量分別為20%,50%和80%的三個區(qū)域進(jìn)行引物設(shè)計(jì)100對引物,然后通過序列比對發(fā)現(xiàn)這3個區(qū)域各有3對引物擴(kuò)增產(chǎn)物單一(所述9對引物見表1),分別用這9對引物進(jìn)行pcr實(shí)驗(yàn),結(jié)果發(fā)現(xiàn),ngs-lqc-l1-f,ngs-lqc-l1-r;ngs-lqc-m1-f,ngs-lqc-m1-r;和ngs-lqc-h1-f,ngs-lqc-h1-r引物具有較好的特異性。表1:9對引物形成三個引物序列表組:(1)seqidno.1和seqidno.4;seqidno.2和seqidno.5;seqidno.3和seqidno.6;(2)seqidno.7和seqidno.10;seqidno.11和seqidno.5;seqidno.9和seqidno.12;(3)seqidno.13和seqidno.16;seqidno.17和seqidno.5;seqidno.15和seqidno.18。2)通過ngs-lqc-l1(即seqidno.1和seqidno.4)、ngs-lqc-m1(即seqidno.2和seqidno.5)和ngs-lqc-h1(即seqidno.3和seqidno.6)這3對引物對基因組gdna、117r01129、117r01134和文庫117r01128-lib、117r01129-lib和117r01134-lib進(jìn)行qpcr實(shí)驗(yàn)。基因組gdna、117r01129和117r01134通過基因提取、打斷,通過超聲打斷儀bioruptorpico,待冷循環(huán)儀溫度降至4℃后,設(shè)置參數(shù)on30s,off30s為1個循環(huán),每10循環(huán)為一輪,共進(jìn)行3輪,每組結(jié)束后將樣品置于振蕩器上充分混勻,短暫離心后進(jìn)行下一輪打斷,打斷后的片段大小為150bp-200bp。待測文庫117r01128-lib、117r01129-lib和117r01134-lib的建庫過程如下:通過基因提取、打斷,通過超聲打斷儀bioruptorpico,待冷循環(huán)儀溫度降至4℃后,設(shè)置參數(shù)on30s,off30s為1個循環(huán),每10循環(huán)為一輪,共進(jìn)行3輪,每組結(jié)束后將樣品置于振蕩器上充分混勻,短暫離心后進(jìn)行下一輪打斷,打斷后的片段大小為150bp-200bp、對打斷片段進(jìn)行末端修復(fù)和加a、連接、pcr擴(kuò)增、捕獲117r01128-lib、117r01129-lib和117r01134-lib這3個文庫。本實(shí)施例的具體設(shè)計(jì)方案如下:分別配置3管含有ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物,2×itaqtmuniversalsybrgreensupermix的60份混合物,混勻之后,把這3管混合物分別加入到qpcr板中,每孔加入18ul,每管加入18個孔,共54個孔,之后把2ul,濃度為5ng/ul的gdna、117r01129、117r01134和文庫117r01128-lib、117r01129-lib和117r01134-lib這個6個模板分別加入到含有ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物的孔中,同一個模板對應(yīng)的同一對引物,需要做3個復(fù)孔,重復(fù)實(shí)驗(yàn)的結(jié)果在后文中使用的是平均值。3)根據(jù)每個孔內(nèi)加入的樣品,設(shè)置qpcr反應(yīng)程序,進(jìn)行每個孔的ct值檢測,對同一個樣品中的對應(yīng)同一對引物的3個不同的ct值求平均值,即為6個樣品對應(yīng)于ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物的ct值。4)數(shù)據(jù)分析:m=2(ct低gc基因組-ct低gc待測樣品)/2(ct中g(shù)c基因組-ct中g(shù)c待測樣品),n=2(ct高基因組-ct高gc待測樣品)/2(ct中g(shù)c基因組-ct中g(shù)c待測樣品)ct值:指在基線上方可產(chǎn)生可檢測的統(tǒng)計(jì)學(xué)上顯著的熒光發(fā)射時所對應(yīng)的pcr循環(huán)數(shù)?;€范圍從第3個循環(huán)起到ct值前3個循環(huán)結(jié)束,基線范圍內(nèi)熒光強(qiáng)度標(biāo)準(zhǔn)差的10倍即為閾值,而閾值所在的橫線與pcr擴(kuò)增曲線的交點(diǎn)就是ct值,一般取3-15個循環(huán)之間,ct值與起始模板的關(guān)系研究表明,每個模板的ct值與該模板的起始拷貝數(shù)的對數(shù)存在線性關(guān)系,起始拷貝數(shù)越多,ct值越小。ct低gc基因組是指ngs-lqc-l1這對引物對基因組進(jìn)行qpcr擴(kuò)增之后的ct值;ct低gc待測文庫是指ngs-lqc-l1這對引物對待測樣品進(jìn)行qpcr擴(kuò)增之后的ct值;ct中g(shù)c基因組是指ngs-lqc-m1這對引物對基因組進(jìn)行qpcr擴(kuò)增之后的ct值;ct中g(shù)c待測文庫是指ngs-lqc-m1這對引物對要檢測樣品進(jìn)行qpcr擴(kuò)增之后的ct值;ct高gc基因組是指ngs-lqc-h1這對引物對基因組進(jìn)行qpcr擴(kuò)增之后的ct值;ct高gc待測文庫是指ngs-lqc-h1這對引物對要檢測樣品進(jìn)行qpcr擴(kuò)增之后的ct值;基因組指的是gdna,gdna是通過購買于promega公司的標(biāo)準(zhǔn)品。待測樣品是指基因組117r01129、117r01134和對應(yīng)文庫117r01129-lib,117r01134-lib和單獨(dú)文庫117r01128-lib這5個樣品;117r01129、117r01134、117r01128-lib、117r01129-lib和117r01134-lib均來自于不同健康志愿者的白細(xì)胞基因組,通過按前文提供的方法制備得到。對基因組gdna、117r01129、117r01134和對應(yīng)文庫117r01129-lib、117r01134-lib單獨(dú)文庫117r01128-lib,通過ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物對這個6個樣本分別進(jìn)行qpcr實(shí)驗(yàn),復(fù)孔數(shù)為3。對h1、m1和l1這3對引物配置為混合物,體系按照樣本數(shù)量×3+2=20。反應(yīng)體系如下:進(jìn)行qpcr擴(kuò)增,反應(yīng)程序如下:95℃3min40個循環(huán):95℃5s62℃30s讀取熒光信號反應(yīng)結(jié)束后,導(dǎo)出ct值進(jìn)行統(tǒng)計(jì)分析。文庫信息:編號平均深度兩側(cè)10%深度的目標(biāo)區(qū)域比率117r01128-lib32.98%117r01129-lib23.5%117r01134-lib7.53%平均深度兩側(cè)10%深度的目標(biāo)區(qū)域比率:代表測序數(shù)據(jù)的均一性,比值越高,說明文庫的均一性越高,說明文庫里含有多種不同種類的片段。通過上表可以看出,117r01134-lib文庫的平均深度兩側(cè)10%深度的目標(biāo)區(qū)域比率為7.53%,屬于不合格文庫,即為差文庫。這個比率一般至少要求在15%以上,才屬于合格文庫,更嚴(yán)格取>約20%的值。通過實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)對于測序均一性在23.5%以上的文庫來說,m在0.369078601-1之內(nèi),而n>1,這是由于itaqtmuniversalsybrgreensupermix對高gc區(qū)域的擴(kuò)增具有偏好性,規(guī)律不明顯。所以可以以m作為文庫好壞判斷的依據(jù),當(dāng)比值越接近1,說明文庫的均一性越高,測序質(zhì)量越高。基于上述,m值在約0.37對應(yīng)于23.5%的均一性。對于>約20%的均一性值,取m值大于約0.3。sequencelisting<110>艾吉泰康生物科技(北京)有限公司<120>一種快速和高效質(zhì)檢文庫的引物序列組及方法<130>cp20170651<160>18<170>patentinversion3.5<210>1<211>54<212>dna<213>人工序列<400>1atcagtggaaaaatagcctcaattcttaccgcctgaaaaagtaagtatgaagag54<210>2<211>25<212>dna<213>人工序列<400>2ggtaatttctggtgctctcccttat25<210>3<211>18<212>dna<213>人工序列<400>3gactccgcactcacctgc18<210>4<211>30<212>dna<213>人工序列<400>4acatcatgttcaataccttaaatatagaca30<210>5<211>22<212>dna<213>人工序列<400>5agtacaggagaagtggtccaca22<210>6<211>15<212>dna<213>人工序列<400>6cccagggccttgcgc15<210>7<211>30<212>dna<213>人工序列<400>7ataatctcttctaggtgatatgatgacatt30<210>8<211>25<212>dna<213>人工序列<400>8ctctgcataactcccttcttctgaa25<210>9<211>17<212>dna<213>人工序列<400>9ccatcccatcccggcca17<210>10<211>29<212>dna<213>人工序列<400>10catattacccatcctttaagttttagcaa29<210>11<211>23<212>dna<213>人工序列<400>11gaagttccaagtctcctcacctc23<210>12<211>17<212>dna<213>人工序列<400>12ccatcccatcccggcca17<210>13<211>30<212>dna<213>人工序列<400>13ggaaattgagttacataacatagcaattga30<210>14<211>26<212>dna<213>人工序列<400>14ctgattcatctgtgacaaaggtgatg26<210>15<211>15<212>dna<213>人工序列<400>15cgcgggcgccatgaa15<210>16<211>30<212>dna<213>人工序列<400>16agttttgcttttatcaaacaataattcaca30<210>17<211>22<212>dna<213>人工序列<400>17gacagagaagaacatggcccat22<210>18<211>16<212>dna<213>人工序列<400>18gcgccaggtagagcag16當(dāng)前第1頁12