欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

組織相容性抗原決定簇基因高通量測序的hla基因分型方法

文檔序號:423322閱讀:511來源:國知局
專利名稱:組織相容性抗原決定簇基因高通量測序的hla基因分型方法
技術領域
本發(fā)明涉及一種基因測序及分型方法,尤其涉及一種組織相容性抗原決定簇基因的高通量測序及HLA基因分型方法。
背景技術
HLA所在位點超過200個基因,在人類免疫系統(tǒng)中有著關鍵的作用。HLA具有高度的多態(tài)性,包括約7000個已知的等位基因(http://www.eb1.ac.uk/imgt/hla/)。在骨髓和其它器官移植中,供者和受者之間HLA基因型的匹配程度越高,排斥反應的發(fā)生率就越低,移植成功率和移植器官長期存活率就越高。反之,就越容易發(fā)生排斥反應。Stephanie J.Lee等人在2007年的一項大規(guī)模研究中,分析了美國國家骨髓庫(National Marrow DonorsProgram)記錄的自1988年到2003年的3857起移植數(shù)據(jù),發(fā)現(xiàn)8個HLA相關等位基因完全匹配的患者存活率最高。這8個等位基因分別為HLA-A、-B、-C、-DRB1、-DQB1、-DQA1、-DPBI和-DPA1,其中HLA-A、-B、-C或-DRBl中任意一個的不匹配,都會帶來較高的致死率:1年內(nèi)的存活率從8個完全匹配時的52%降到43%。而兩個或更多位點的不匹配,會顯著加劇這種風險(Lee, Klein et al.2007)。與此同時,移植的時間,同樣對患者移植后的效果很重要。Stephanie J.Lee等人還發(fā)現(xiàn),只有6個HLA基因位點匹配的病人,如果在患病的早期進行移植,其效果仍然比8個基因完全匹配但卻是在疾病發(fā)展到高級階段時移植的好。這是因為,在移植時疾病的狀態(tài),是唯一能夠被醫(yī)生掌握的因素,盡早的移植恐怕是能夠影響患者存活率的最重要步驟(Lee,Klein et al.2007)。因此,準確而又快速的HLA分型技術,對需要進行骨髓或器官移植的病人而言,就顯得尤為關鍵。HLA基因型除了在臨床上被大量地用于器官移植中的供體和受體配型外,也與許多特定的疾病如自身免疫疾病、傳染疾病以及一些癌癥等存在密切的關聯(lián)。例如,HLA_DRB1*04:01 被證實與風濕性關節(jié)炎(Angelini, Morozzi et al.1992)、I 型糖尿病(Windsor, Puschendorf et al.2005),多發(fā)性硬化癥(Laroni, Calabrese et al.2006)等密切相關。而HLA-B*57:01則能夠保護人類不易受HIV的感染(Fellay,Shianna et al.2007)。此外,盡管存在許多基因影響乳腺癌的易感性,而且這些基因都與HLA不相關,但在白種人中,仍然發(fā)現(xiàn)HLA II型基因HLA-DQB*03032和HLA_DRB1*11可能對人類乳腺癌具有保護性的作用(Chaudhuri, Cariappa et al.2000)。因此,HLA分型技術還能夠用來預測人類對某些特定疾病的抗性或易感性。藥物不良反應(ADR)是指患者在使用正常劑量的某種藥物用于預防、診斷、治療疾病或調節(jié)生理機能時出現(xiàn)的有害的和與用藥目的無關的作用。其中許多都屬于T細胞對藥物免疫反應所引起的藥物過敏綜合征,而且其中一些如Stevens-Johnson綜合征(Stevens-Johnson’ s syndrome, SJS)和中 毒性表皮壞死松解癥(toxic epidermalnecrolysis, TEN)甚至會帶來嚴重的后果。研究發(fā)現(xiàn),許多T細胞調控的藥物不良反應與特定的HLA等位基因型有關,例如,Allopurinol (—種用于治療痛風和高尿酸血癥的藥物)與某些漢族人中攜帶的HLA-B*58:02基因,Carbamazepine (一種治療癲癇癥的抗痙攣藥)與某些漢族、印度和泰國人中攜帶HLA-B*15:02基因(Thorsby 2011; Bharadwaj, Illinget al.2012)。攜帶某些特定HLA基因標記的病人對某種藥物發(fā)生ADR的風險,相比正常人,能高出500-1000倍,而這遠遠高出了已知的HLA與疾病之間的關系(Thorsby 2011)。在個性化醫(yī)療即將到來的時代,基于高通量高分辨率的HLA分型技術,預先檢測特定的HLA等位基因能夠幫助臨床醫(yī)生判斷患者服用一些藥物所發(fā)生不良反應的風險??傊?,研究HLA分型的高通量方法,不僅在臨床上具有十分重要的意義,而且在疾病的預防和控制方面,也能發(fā)揮積極的效果。所以組織相容性抗原決定簇基因高通量測序檢測技術一是可以應用在與手術移植有關(如器官骨髓移植等)的臨床上;二是與個性化醫(yī)療中有關的疾病預防與控制或藥物不良反應評估上;三則是器官(或骨髓)捐獻和移植庫對眾多捐獻者的常規(guī)HLA分型檢測等等。HLA分型技術的發(fā)展經(jīng)歷了兩個階段:血清學分型階段和DNA分型階段。近來,隨著PCR技術的成熟,血清學分型已基本被放棄,HLA分型全面進入DNA分型階段。與血清學相比較,DNA分型分辨率高,錯誤率少(Dunn 2011)。目前已經(jīng)建立起來的HLA分型技術包括以下三種:PCR-SSP (PCR with sequence-specific primers,序列特異引物PCR), PCR-SSOP (PCR with sequence-specific oligonucleotide probes, PCR 寡核苷酸探針)和 PCR-SBT (PCR with genomic DNA sequencing-based typing, PCR 產(chǎn)物直接測序分型)(Lind, Ferriola et al.2010; Dunn 2011)。由于HLA等位基因數(shù)目的不斷增加,PCR-SSP和PCR-SSOP方法越來越難以適應新的標準,許多實驗室已經(jīng)停止使用這些技術,PCR-SBT方法逐漸成為人們可接受的標準方法(Dunn 2011)。理論上,由于采用了Sanger測序,PCR-SBT是最直觀、最準確的方法,同時也是唯一用來定義新的等位基因的方法(Gabriel, Danzer et al.2009; Lind, Ferriola et al.2010),因此對每一個 HLA分型實驗室而言,該方法顯得至關重要。PCR-SBT是一種簡單快速的序列分型方法,首先利用PCR擴增獲得DNA片段,再基于Sanger測序得到擴增片段的DNA序列。據(jù)此建立的HLA基因分型技術不但能得到高分辨率結果,還可顯示HLA基因間高度可變區(qū)的全部核苷酸序列,但有時也會產(chǎn)生模棱兩可的結果(Gabriel, Danzer et al.2009; Lind, Ferriolaet al.2010; Dunn 2011)。其主要原因有:(I)測序區(qū)域內(nèi)(通常,對HLA I型基因而言為外顯子2和3,II型為外顯子2)的等位基因序列相同,而等位基因多態(tài)性位點位于分析區(qū)以外;(2)在Sanger測序反應中,核苷酸同時摻入到所有的DNA模板中,2個等位基因被一起擴增測序,導致PCR-SBT分型技術測出順/反模棱兩可的結果,有時不同等位基因間的組合可得到相同的雜合子序列,無法得到確定唯一的HLA基因型,如A*01:01:01:01+ 02:01:01:01 = A*01:14 + 92:21 = A*36:04 + 02:36 (Adams, Barracchini et al.2004; Listgarten, Brumme et al.2008; Lind, Ferriola et al.2010)。與之相應的是,絕大多數(shù)的HLA I/II型等位基因序列多態(tài)性,通常是源于基因轉化(gene conversion)、重組(recombination)和外顯子改組(exon shuffling)事件(Adams, Barracchini etal.2004) ο因此,在同一個外顯子中,特定位置上可能存在多種序列motif,這些motif可以被不同亞型或不同座位的等位基因同時使用(Adams, Barracchini et al.2004),即每個等位基因的特異性其實是由這些motif的唯一組合而形成。等位基因越多,產(chǎn)生模棱兩可結果的概率越大。解決PCR-SBT法產(chǎn)生模棱兩可配型的結果,一方面是可以基于 group-specific 的 PCR 方法(PCR-GSSP) (Dunn 2011; Lebedeva, Mastromarino etal.2011)或者 haplotypes-specific extraction (Dapprich, Ferriola et al.2008;Gabriel, Danzer et al.2009),另一方面則是基于群體統(tǒng)計學計算的方法,對模棱兩可性的結果依據(jù)不同地區(qū)或人種對某些特定HLA等位基因型的連鎖不平衡,推斷出最有可能的等位基因型(Listgarten, Brumme et al.2008),該方法尤其對數(shù)據(jù)庫中的一些歷史數(shù)據(jù)有效。但無論如何,PCR-SBT分型法都顯得繁雜且單位成本較高,同時花費時間較長(Lank, Wiseman et al.2010; Erlich, Jia et al.2011)。隨著技術的發(fā)展,人們逐漸認識到焦磷酸測序(pyrosequencing)或許可以解決這個問題(Ramon, Braden et al.2003;Ringquist, Styche et al.2007; Lu, Boehm et al.2009)。不同于 Sanger 測序,焦憐酸測序能夠對核苷酸加入順序進行程序化,可以設計出不同的核苷酸加入順序進行反應,即對于得到模棱兩可分型結果的HLA等位基因模板,可以使用異相核苷酸摻入方式,使核苷酸只摻入其中一個等位基因,從而使這個等位基因的測序反應早于另一個等位基因,從原理上解決Sanger法帶來的等位基因順/反模糊。HLA分型的高通量研究,目前主要基于Roche 454 GS FLX測序儀進行。由454GS FLX提供的高通量測序技術可一次性對多個樣本直接鑒別外顯子水平的HLA多態(tài)性,達到單次的高分辨率基因型測定,消除了為測定某個復雜的等位基因型而多次對某一片段進行的重復測定,相比于PCR-SBT方法大大簡化了實驗流程的復雜性。同時454 HLA實驗的結果還允許第三方基因型分型軟件如Conexio Genomics公司的GAssign-ATF 454來進行快速的實驗與數(shù)據(jù)分析,從而得到高分辨的檢測結果(Bentley, Higuchi et al.2009;Gabriel, Danzer et al.2009; Lind, Ferriola et al.2010; Holcomb, Hoglund etal.2011)。此外,由于454測序結果數(shù)據(jù)的高通量性(可同時產(chǎn)生數(shù)百萬條reads序列,讀長> 250bp),也使得發(fā)現(xiàn)個體樣本中罕見的等位基因成為可能(Bentley, Higuchi etal.2009; Holcomb, Hoglund et al.2011)。然而,盡管GAssign-ATF 454軟件能夠整合所有樣本的位點和序列并將其與IGMTHLA序列數(shù)據(jù)庫進行比對自動輸 出HLA的等位基因型,但該軟件是一款商業(yè)軟件,而且其用戶界面顯得較為復雜,限制了其廣泛應用。另外,從目前的文獻信息來看,該軟件只見于與Roche/454測序結果有關的分析中,對于其他的測序平臺如illumina公司的Solexa,尚未見到相關報道。因此,開發(fā)更通用的軟件并使之能夠適用不同的測序平臺,顯得尤為必要。通常,確定HLA的等位基因型可以直接基于序列相似性進行同源性搜索比對,如 BLAST (Wiseman, Karl et al.2009; Kita, Ando et al.2011; Lee, Hur et al.2011)或BLAT (Lank, Wiseman et al.2010),將454測序得到的reads片段或拼接后的contigs片段比對到IGMT/HLA序列數(shù)據(jù)庫。該數(shù)據(jù)庫是人類主要組織相容性復合物系統(tǒng)序列的一個專題數(shù)據(jù)庫,包括了 WHO HLA系統(tǒng)因子命名委員會正式認可并命名的全部HLA序列(Robinson, Mistryetal.2011)。因此,對于已知的大多數(shù)HLA等位基因類型,該方法能夠進行準確的鑒定。但基于同源比對的方法仍然存在一個與PCR-SBT分型方法類似的局限性,即若等位基因多態(tài)性位點位于測序區(qū)域外,仍然可能出現(xiàn)模棱兩可的結果。當然,若是針對HLA基因的全部區(qū)域進行完整測序,同源性比對方法如BLAST能夠減少這種模糊性,但對于常規(guī)HLA分型,是否需要對HLA的完整基因組,包含內(nèi)含子以及外顯子進行測序,仍然存在爭議,畢竟至少就內(nèi)含子而言,大多處于內(nèi)含子內(nèi)的位點多態(tài)性事實上并不影響等位基因的表達,對等位基因的分型并沒有實際的意義,但同時的確也存在一些內(nèi)含子突變又導致了 HLA 等位基因無法正常表達(Eisner, Bernard et al.2002; Lind, Ferriolaet al.2010)。另一個值得關注的問題是,現(xiàn)時的IGMT/HLA序列參考數(shù)據(jù)庫并不是足夠完善的(Robinson, Mistry et al.2011),將會增加錯誤比對的概率(Lind, Ferriola etal.2010) ο隸屬于MIT和Harvard的Broad Institute 基于GATKXGenome Analysis Toolkit)開發(fā)出了一款通用程序HLACaller (Erlich, Jia et al.2011),可針對HLA的每一個基因座位,基于三個方面的信息來計算染色體上HLA等位基因對的后驗概率:(I)每一個堿基位置上的基因型;(2)臨近變異位點的相位信息;(3)群體特異的等位基因頻率。基本的思路:(A)基于GATK計算HLA基因座位上觀察到的每一個堿基基因型的概率,并將所有位置的概率相乘;(B)基于二項分布,計算特定HLA等位基因對中每一對臨近多態(tài)位點的相位方向與對應位點的序列數(shù)據(jù)一致的概率。該概率是基于與HLA等位基因對的臨近多態(tài)位點相位相匹配的reads數(shù)目以及總的reads數(shù)目,應用二項分布計算出來的,其中估計的測序錯誤率(estimated sequencing error rate,Z7err)被假定為1%,同(A),每一對臨近多態(tài)位點的概率相乘;(C)將(A)、(B)中的概率與群體等位基因頻率相乘,便得到了針對每一對等位基因對的后驗概率,其中概率值最大的作為HLACaller算法的最后結果。該算法的優(yōu)點是,充分整合了群體等位基因頻率信息。Lank等人(Lank, Wisemanet al.2010)分析認為,對HLA I型抗原基因A、B、C,基于外顯子2、3、4理論上只能高分辨率地區(qū)分85%的等位基因,剩下的15%則只能在中/低度分辨率上進行分型。因此,HLACaller在整合了群體的等位基因頻率信息后,即便只針對外顯子2和3進行測序分析,也仍然能夠高分辨率對HLA等位基因分型,且分型的準確度達到了 96%以上。對于那些少數(shù)無法進行高精度分型的HLA基因型樣本,HLA仍然能夠給出一批潛在的具有較高幾率的結果。該問題可以在額外測序其他的外顯子后得到有效解決。但HLACaller算法仍然存在許多局限性,如群體等位基因頻率信息本身存在的偏好性以及準確性。前者可能會導致HLAcaller的分型結果偏好某些特定的HLA等位基因,后者則直接帶來錯誤的判斷結果。同時,由于針對HLA II型抗原基因設計特定的引物存在挑戰(zhàn),該算法還未在HLA II型上使用,甚至由于未知的原因,該算法已經(jīng)被Broad Institute停止更新維護。事實上,HLACaller仍然是基于454測序進行分型預測的。盡管緣于454測序技術的讀長幾乎能覆蓋整個HLA基因的外顯子區(qū)域,但454技術仍有一個明顯的缺陷,即無法準確測量同聚物(homopoIymer )的長度,造成測序結果不準確,也正是因為這個原因,454測序常常會出現(xiàn)與核苷酸的插入或缺失有關的錯誤。相比之下,高通量測序的其他代表平臺如 illumina 公司的 Solexa 測序技術或 Life Technologies 公司的 1n torrent PGM 測序技術要好上很多。與此同時,Solexa或1n torrent PGM測序技術在測序的通量上遠遠高于454技術,其相對測序成本也低于454技術。因此,發(fā)展基于illumina Solexa或LifeTechnologies 1n torrent PGM測序的HLA分型技術,就顯得十分有必要。

發(fā)明內(nèi)容
鑒于上述現(xiàn)有技術存在的缺陷,本發(fā)明的目的是提出一種組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,解決HLA基因分型效率及成本問題。
本發(fā)明上述目的的一種技術實現(xiàn)方案為:組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,針對已知并已被收錄的HLA等位基因型,其特征在于包括步驟:1、采用高通量測序平臺擴增測序得到reads序列片段;
I1、以最新的IMGT/HLA數(shù)據(jù)庫中包含的HLA等位基因為參考序列,將步驟I測序得到的reads序列片段與參考序列采用核酸序列比對工具進行比對,得到比對結果;
II1、對比對結果進行錯配、最佳匹配、長度和/或尾端匹配的多重篩選、過濾優(yōu)化;
IV、定義centralreads、所有reads的最小測序覆蓋深度MCOR、central reads的最小測序覆蓋深度MCCR,計算經(jīng)步驟III過濾后每條參考序列的MCOR和MCCR值,并舍棄MCOR小于20且MCCR小于10的參考序列,對余下的參考序列,列出同一 HLA基因座位所有的可能組合,包括單一序列的純合子及兩兩組合的雜合子,計算每種組合的不同reads的數(shù)目,reads數(shù)目最多的組合判定為相應的HLA等位基因型,其中central reads指的是在某個給定位點,參與比對的reads在給定位點左邊的序列長度與右邊的長度之比在0.5^2之間。進一步地,其所分析對象包括但不局限于人類。進一步地,所述高通量測序平臺至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。進一步地,所述核酸序列比對工具至少為BLASTN。進一步地,步驟III中所述錯配篩選是指去除比對中含有錯配或者空位的比對結果;所述最佳匹配篩選是指只保留比對分值高于一定閥值的比對結果;所述長度篩選包括一剔除外顯子長度超過50個堿基而比對長度小于50個比對堿基的比對結果,二剔除外顯子長度小于50個堿基但比對長度卻小于外顯子長度的所有結果;所述尾端匹配篩選是指剔除參考序列只能比對到paired-end read中的一端,與此同時又存在其它參考序列能匹配到其兩端的比對結果。進一步地,步驟IV中對于純合子的參考序列,其計算所得reads數(shù)目需乘以一經(jīng)驗值1.05。本發(fā)明上述目的的另一種技術完善方案為:組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,針對新的未被收錄的HLA等位基因型,其特征在于包括步驟:1、采用高通量測序平臺擴增測序得到reads序列片段,在測序reads長度不能覆蓋整個HLA等位基因外顯子區(qū)域的情況下采用從頭拼接方法得到重疊群序列,并保留測序reads長度足以覆蓋整個外顯子區(qū)域的reads序列;
I1、以最新的IMGT/HLA數(shù)據(jù)庫中包含的HLA等位基因為參考序列,將步驟I得到的reads序列或重疊群序列與參考序列采用核酸序列比對工具進行比對,得到比對結果;
II1、根據(jù)序列比對分值最大判定最相近的HLA等位基因型,并確定其差異,發(fā)現(xiàn)新的等位基因型。進一步地,其所分析對象包括但不局限于人類。進一步地,所述高通量測序平臺至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。進一步地,所述核酸序列比對工具至少為BLASTN。相比傳統(tǒng)的PCR-SBT方法測序方法, 高通量測序技術無論在經(jīng)濟成本還是時間成本上,均具有顯著的優(yōu)勢。高通量測序技術只需通過一次實驗就能夠讀取數(shù)千份樣本的HLA序列數(shù)據(jù),并一次性達到HLA分型的高分辨率,同時還可發(fā)現(xiàn)新的等位基因。在檢測通量、數(shù)據(jù)質量、成本控制等方面都有質的飛躍,真正做到了 “低分價格,高分數(shù)據(jù)”,能避免多次配型給患者造成的額外經(jīng)濟負擔,同時快捷的分型方法,也能減少查找與患者HLA匹配的供者的周期,為治療爭取了寶貴的時間。


圖1是在已有文獻中驗證過的測序所需HLA引物示意圖。
具體實施例方式本技術方案主要分為兩個部分,分別針對已知的已被收錄的和新的還未被收錄的HLA等位基因型,并使之能夠適用于各種高通量測序平臺。I)對于已被收錄的HLA等位基因型:
標準的判斷基因型的方法,是將擴增測序所得到的序列片段比對到參考數(shù)據(jù)庫,如IGMT/HLA (http://www.eb1.ac.uk/imgt/hla/),如果序列片段能夠與參考數(shù)據(jù)庫中的特定參考序列完美匹配,那就能確定所測樣本的等位基因型與參考序列基因型一致。而進行序列比對,首選來自NCBI的BLASTN(http://blast, ncb1.nlm.nih.gov/)核酸序列比對工具。本HLA基因分型的方法,正是從BLASTN的比對開始的。在2012-04-12發(fā)布的3.8.0版本中,MGT/HLA數(shù)據(jù)庫共包含7527個HLA等位基因,其中I型A、B、C座位,分別包含1884、2490、1384個等位基因,II型DRB1、DQB1則分別包含1094、165個等位基因。其中,在這些等位基因序列中,只有少部分是含有基因組序列的,更多的只是等位基因的外顯子核苷酸序列,這與擴增的產(chǎn)物片段主要是外顯子區(qū)域是一致的。這些等位基因序列,構成了此次BLASTN比對的參考數(shù)據(jù)庫,BLASTN比對的過程中相應參數(shù)均采用默認參數(shù)。將高通量測序獲 得的reads序列基于BLASTN比對到參考數(shù)據(jù)庫MGT/HLA后,比對結果按照如下的順序進行處理:
i)錯配篩選:去除比對中含有錯配(mismatch)或者空位的結果(gaps);
ii)最佳匹配篩選:即只有比對分值(bitscore)最大的才會被保留;
iii)長度篩選:一是剔除外顯子長度超過50個堿基而比對長度小于50個堿基的結果,二是剔除外顯子長度小于50個堿基但比對長度卻小于外顯子長度的所有結果;以及
iv)paired-end篩選(如果是paired-end測序):剔除那些參考序列只能比對到paired-end read中的一端,與此同時又存在其他參考序列能匹配到其兩端的比對結果。需要注意的是,當測序reads比對到一條正確的參考序列上時,這些reads會形成一個覆蓋整個測序區(qū)域的、連續(xù)的瓦片式(continuous tiling)形狀;而如果比對上的不是正確的參考序列,則會在測序區(qū)域的某些位置,變成一種錯開的瓦片式(staggeredtiling)形狀。為定量化這種比對的差異,首先定義“central reads”:在某個給定的位點,參與比對的reads,在位點左邊的序列長度與右邊的長度之比在0.5^2之間,這樣的reads被稱作“central reads”。在進行HLA基因分型之前,還需假設,比對到正確的參考序列的reads數(shù)目,應該比非正確參考序列的reads多。如此,就可采取窮舉法,列出所有的參考序列組合,并針對每一對組合數(shù)出參與比對的reads數(shù)目。當然,由于參考序列眾多,其組合數(shù)目也相當?shù)拇?,這種方法并不可取。所以,采取啟發(fā)式的策略,首先排除那些明顯不可能的參考序列。這里,再次定義兩個概念:MCOR(minimum coverage of overall reads,所有 reads 的最小測序覆蓋深度)和 MCCR (minimum coverage of central reads, centralreads的最小測序覆蓋深度)。其中:MC0R是指在針對參考序列的每個位點中,比對過濾后覆蓋到這些位點的最小reads數(shù)目,而MCCR則是指在針對參考序列的每個位點中(忽略掉參考序列中內(nèi)含子外顯子邊界處的30個堿基位點),比對過濾后覆蓋到這些位點的最小central reads數(shù)目。對每條參考序列,分別計算MCOR和MCCR值,舍棄MCOR小于20并且MCCR小于10的參考序列。對于剩下的參考序列,列出同一 HLA基因座位所有的可能組合(純合子為單一序列,雜合子為兩兩組合),并計算出每種組合的不同reads的數(shù)目??紤]到純合子等位基因的組合只有一條參考序列,reads數(shù)目會乘以一個經(jīng)驗值1.05。reads數(shù)目最對的參考序列組合,被認為是相應的HLA等位基因型。2)對于新的HLA等位基因型:
顯然,上述基于參考序列比對的方法,只能對HLA等位基因型已知的樣本進行分析,新的未被數(shù)據(jù)庫收錄的等位基因型,則顯得無能為力。因此,為了能夠對新的等位基因型進行分析,需要設計額外的方法。類似于Velvet軟件對短小reads進行從頭拼接的原理,開發(fā)拼接軟件,以拼接那些未能全部比對或未能比對到參考序列的reads。簡單說來,將這些reads,以Ibp為位移單位,分成長度為40個堿基的片段。然后構建一個有方向及權重的圖,其中每個40bp的片段作為節(jié)點,并將來自同一 read的連續(xù)的兩個片段連接起來,邊的權重設定為含有兩個節(jié)點片段的reads數(shù)目。在圖上,這些權重和最大的一條路徑,就是拼接得到的contig。將contig比對到參考序列上,就能得到與contig最接近的參考序列并確定其差異。基于該方法, 便能發(fā)現(xiàn)新的等位基因型。以上技術方案由于BLASTN序列比對以及測序reads從頭拼接的通用性,故而能夠方便地擴展到幾乎所有的新一代高通量測序平臺。同時,由于額外考慮了針對新的未被收錄的HLA等位基因型的處理辦法,使得上述方案不再簡單地受制于現(xiàn)有HLA等位基因數(shù)據(jù)庫自身不完善的限制,再次極大地提高了該方案的使用范圍。以下便結合實施例附圖,對本發(fā)明的具體實施方式
作進一步的詳述,以使本發(fā)明技術方案更易于理解、掌握。1、引物設計
454測序所需HLA引物,是直接采用的Bentley等人在文獻中驗證過的可用引物(G.Bentley et al.2009),如附圖1所示。這些引物在設計時,都盡量保證能夠擴增出所有的等位基因型,同時又保持其基因座位的特異性。此次實驗,暫時只對HLA I型A、B、C的外顯子2、3,以及HLA II型DRB1、DQB1外顯子2進行擴增。2、樣本
此次實驗一共有來自瑞金醫(yī)院的10個正常人的血液檢測樣本,其HLA A、B、C、DRB1、DQBl等5個位點的等位基因型已經(jīng)由上海市血液檢測中心基于標準PCR-SBT方法得到。所有10個樣本都被送往454 Life Sciences GS FLX進行測序。3、HLA基因高通量測序
10個樣本的8個外顯子,分別進行PCR擴增。利用Agencourt AMPure system(Agencourt Bioscience Corporation, Beverly, MA),短的非特異以及引物二聚體擴增產(chǎn)物被清除。隨后,在一個微板分光突光計上基于Quant-1T PicoGreen assay (InvitrogenCorporation)對這些被純化的擴增子進行定量。稀釋到合適的濃度后,按照454 GS FLX測序方法的要求,進行 Emulsion PCR、bead recovery 和 pyrosequencing。最終,得到 10 個樣本8個外顯子的454高通量測序數(shù)據(jù),其測序深度從2(Γ500不等。4、HLA基因分型
用作HLA基因分型的參考序列數(shù)據(jù)庫,采用2012-04-12發(fā)布的3.8.0版本IMGT/HLA(http://www.eb1.ac.uk/imgt/hla/),并從中提取 HLA I 型 A、B、C 的外顯子 2、3 核苷酸片段,以及HLA II型DRB1、DQBl的外顯子2核苷酸片段。依據(jù)上述“發(fā)明內(nèi)容”中的“技術路線”部分,首先基于NCBI本地版BLASTN工具,將這10個樣本的8個外顯子測序reads數(shù)據(jù),分別比對到參考序列數(shù)據(jù)庫中。然后,對BLASTN比對結果依次進行錯配篩選、最佳匹配篩選以及長度篩選。由于此次測序是基于454 GS FLX的single-end測序,故而無需進行paired-end篩選。接著,采用啟發(fā)式策略排除明顯不可能的參考序列后,針對同一 HLA基因座位所有的可能等位基因組合(純合子為單一序列,雜合子為兩兩組合),分別計算出每種組合的不同reads的數(shù)目。最后,reads數(shù)目最多的組合被認定為相應的樣本HLA等位基因型。結果顯示,10個樣本中5個HLA等位基因位點絕大多數(shù)都能被正確分型。本發(fā)明基于各種高通量測序平臺數(shù)據(jù)的圖形化HLA分型軟件,在臨床或生物醫(yī)學上均具有重要的意義。相比傳統(tǒng)的PCR-SBT方法測序方法,高通量測序技術無論在經(jīng)濟成本還是時間成本上,均具有顯著的優(yōu)勢。高通量測序技術只需通過一次實驗就能夠讀取數(shù)千份樣本的HLA序列數(shù)據(jù),并一次性達到HLA分型的高分辨率,同時還可發(fā)現(xiàn)新的等位基因。在檢測通量、數(shù)據(jù)質量、成本控制等方面都有質的飛躍,真正做到了 “低分價格,高分數(shù)據(jù)”,能避免多次配型給患者造成的額外經(jīng)濟負擔,同時快捷的分型方法,也能減少查找與患者HLA匹配的供者的周期,為治療爭取了寶貴的時間。其主要創(chuàng)新體現(xiàn)如下。1、第一個可針對多種高通量測序平臺如Roche 454、illumina Solexa和LifeTechnologies 1n torrent PGM技術進行高通量分析的HLA分型軟件; 2、相比經(jīng)典的PCR-SBT,高通量測序的時間成本和經(jīng)濟成本均大幅降低;
3、同時,高通量測序檢測的分辨率和準確度也顯著提高,可一次性達到HLA配型所需的高分辨率,預測準確率在95%以上;
4、易圖形化,使得沒有計算機背景的臨床醫(yī)生或生物學家能夠快速地掌握其使用方
法;
5、可發(fā)現(xiàn)新的等位基因;
6、HLA基因數(shù)據(jù)庫更新后,可以再次進行結果分析,即分型結果可以更新。
權利要求
1.組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,針對已知并已被收錄的HLA等位基因型,其特征在于包括步驟: I.采用高通量測序平臺擴增測序得到reads序列片段; I1、以最新的IMGT/HLA數(shù)據(jù)庫中包含的HLA等位基因為參考序列,將步驟I測序得到的reads序列片段與參考序列采用核酸序列比對工具進行比對,得到比對結果; II1、對比對結果進行錯配、最佳匹配、長度和/或尾端匹配的多重篩選、過濾優(yōu)化; IV、定義centralreads、所有reads的最小測序覆蓋深度MCOR、central reads的最小測序覆蓋深度MCCR,計算經(jīng)步驟III過濾后每條參考序列的MCOR和MCCR值,并舍棄MCOR小于20且MCCR小于10的參考序列,對余下的參考序列,列出同一 HLA基因座位所有的可能組合,包括單一序列的純合子及兩兩組合的雜合子,計算每種組合的不同reads的數(shù)目,reads數(shù)目最多的組合判定為相應的HLA等位基因型,其中central reads指的是在某個給定位點,參與比對的reads在給定位點左邊的序列長度與右邊的長度之比在0.5^2之間。
2.根據(jù)權利要求1所述的組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,其特征在于:所述高通量測序平臺至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。
3.根據(jù)權利要求1所述的組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,其特征在于:所述核酸序列比對工具至少為BLASTN。
4.根據(jù)權利要求1所述的組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,其特征在于:步驟III中所述錯配篩選是指去除比對中含有錯配或者空位的比對結果;所述最佳匹配篩選是指只保 留比對分值高于一定閥值的比對結果;所述長度篩選包括一剔除外顯子長度超過50個堿基而比對長度小于50個比對堿基的比對結果,二剔除外顯子長度小于50個堿基但比對長度卻小于外顯子長度的所有結果;所述尾端匹配篩選是指剔除參考序列只能比對到paired-end read中的一端,與此同時又存在其它參考序列能匹配到其兩端的比對結果。
5.根據(jù)權利要求1所述的組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,其特征在于:步驟IV中對于純合子的參考序列,其計算所得reads數(shù)目需乘以一經(jīng)驗值1.05。
6.組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,針對新的未被收錄的HLA等位基因型,其特征在于包括步驟:1、采用高通量測序平臺擴增測序得到reads序列片段,在測序reads長度不能覆蓋整個HLA等位基因外顯子區(qū)域的情況下采用從頭拼接方法得到重疊群序列,并保留測序reads長度足以覆蓋整個外顯子區(qū)域的reads序列; I1、以最新的IMGT/HLA數(shù)據(jù)庫中包含的HLA等位基因為參考序列,將步驟I得到的reads序列或重疊群序列與參考序列采用核酸序列比對工具進行比對,得到比對結果; II1、根據(jù)序列比對分值最大判定最相近的HLA等位基因型,并確定其差異,發(fā)現(xiàn)新的等位基因型。
7.根據(jù)權利要求6所述的組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,其特征在于:所述高通量測序平臺至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。
8.根據(jù)權利要求6所述的組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,其特征在于:所述核酸序列比對工具至少為BLASTN。
全文摘要
本發(fā)明揭示了一種組織相容性抗原決定簇基因高通量測序的HLA基因分型方法,基于各種高通量測序平臺數(shù)據(jù)的圖形化HLA分型軟件,在臨床或生物醫(yī)學上均具有重要的意義。相比傳統(tǒng)的PCR-SBT方法測序方法,高通量測序技術無論在經(jīng)濟成本還是時間成本上,均具有顯著的優(yōu)勢。高通量測序技術只需通過一次實驗就能夠讀取數(shù)千份樣本的HLA序列數(shù)據(jù),并一次性達到HLA分型的高分辨率,同時還可發(fā)現(xiàn)新的等位基因。在檢測通量、數(shù)據(jù)質量、成本控制等方面都有質的飛躍,真正做到了“低分價格,高分數(shù)據(jù)”,能避免多次配型給患者造成的額外經(jīng)濟負擔,同時快捷的分型方法,也能減少查找與患者HLA匹配的供者的周期,為治療爭取了寶貴的時間。
文檔編號C12Q1/68GK103074444SQ201310058260
公開日2013年5月1日 申請日期2013年2月25日 優(yōu)先權日2013年2月25日
發(fā)明者王申俊, 其他發(fā)明人請求不公開姓名 申請人:蘇州晶因生物科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
襄樊市| 枞阳县| 沁源县| 夏邑县| 湘乡市| 交城县| 荣昌县| 科尔| 洛隆县| 肇源县| 英超| 资阳市| 襄樊市| 喜德县| 泽库县| 漠河县| 平定县| 磐石市| 绥中县| 鲁山县| 峡江县| 惠东县| 宁强县| 杂多县| 嵊州市| 绥滨县| 微山县| 龙井市| 崇明县| 旬阳县| 万源市| 台前县| 于田县| 阿图什市| 始兴县| 达孜县| 城口县| 滦平县| 汉中市| 邛崃市| 石柱|