本發(fā)明涉及生物技術(shù)領(lǐng)域,具體地,本發(fā)明涉及一種超級(jí)芯片及其制備方法和應(yīng)用。
背景技術(shù):全基因組測(cè)序是對(duì)已知基因組序列的物種進(jìn)行不同個(gè)體的基因組測(cè)序,并在此基礎(chǔ)上對(duì)個(gè)體或群體進(jìn)行差異性分析。一般來(lái)講,全基因組測(cè)序包括以下步驟:提取基因組DNA,隨機(jī)打斷,電泳回收所需長(zhǎng)度的DNA片段(0.2-5Kb),加接頭,進(jìn)行基因簇制備或電子擴(kuò)增,對(duì)片段進(jìn)行測(cè)序,通過(guò)生物信息手段,分析不同個(gè)體基因組間的結(jié)構(gòu)差異,完成SNP或基因組結(jié)構(gòu)性變異查找和注釋。全基因組測(cè)序雖然在最近幾年內(nèi)的價(jià)格大幅下降,但其作為大規(guī)模的檢測(cè)變異的方法,價(jià)格仍然不菲。外顯子重測(cè)序漸漸成為一種檢驗(yàn)和疾病相關(guān)的基因的標(biāo)準(zhǔn)工具,但現(xiàn)有的芯片覆蓋的基因組的范圍較小,很多區(qū)域無(wú)法捕獲到,致使和疾病相關(guān)的一些基因無(wú)法通過(guò)外顯子測(cè)序研究。目前本領(lǐng)域內(nèi)尚缺乏能檢測(cè)多種疾病的芯片及其制備方法,因此嚴(yán)重阻礙了疾病的篩選和診斷。因此本領(lǐng)域迫切需要開(kāi)發(fā)針對(duì)多種疾病檢測(cè)和診斷的芯片及其制備方法。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是提供一種超級(jí)芯片及其應(yīng)用。本發(fā)明的另一目的是提供一種超級(jí)芯片的制備方法。在本發(fā)明的第一方面,提供了一種超級(jí)芯片,所述超級(jí)芯片包括核酸檢測(cè)區(qū),各核酸檢測(cè)區(qū)包括多個(gè)檢測(cè)點(diǎn),各檢測(cè)點(diǎn)固定有用于與待檢測(cè)核酸雜交的寡核苷酸探針,所述的檢測(cè)區(qū)包括:(a)外顯子檢測(cè)區(qū);(b)Tag-SNP檢測(cè)區(qū);和(c)白細(xì)胞抗原檢測(cè)區(qū)。在另一優(yōu)選例中,所述芯片具有固相載體,較佳地,所述的固相載體為基片或微球,更佳地,所述的固相載體為熒光微球,最佳地為聚苯乙烯微球。在另一優(yōu)選例中,所述芯片為:包括探針組合物的液相芯片。在另一優(yōu)選例中,所述檢測(cè)區(qū)還包括:(d)單基因病檢測(cè)區(qū)。在另一優(yōu)選例中,所述的單基因病選自下組:3β-羥類固醇脫氫酶缺陷癥;3-甲基巴豆酰輔酶A羧化酶缺乏癥;3-羥酰輔酶A脫氫酶缺乏癥;Alagille綜合癥(先天性膽道閉鎖綜合癥);Alport綜合征(遺傳性腎炎);Apert綜合征;Arts綜合征;Diamond-Blackfan貧血(先天性純紅細(xì)胞再生障礙性貧血);Emery-Dreifuss型肌營(yíng)養(yǎng)不良;Friedreich共濟(jì)失調(diào);Gilbert綜合癥;Jackson-Weiss顱縫早閉綜合征;Joubert綜合癥;Marshall綜合癥;Meckel綜合征;Pallister-Hall綜合征;QT間期延長(zhǎng)綜合征;Waardenburg綜合征;Weissenbacher-Zweymuller綜合征;Wolfram綜合征1型;X連鎖鐵粒幼細(xì)胞貧血;紅細(xì)胞生成性原卟啉癥;先天性角化不全癥;X連鎖型魚鱗病;X連鎖性視網(wǎng)膜色素變性3型;X連鎖隱性耳聾;X連鎖重癥聯(lián)合免疫缺陷;β地中海貧血;氨甲酰磷酸合成酶缺乏癥;巴特綜合征;半胱氨酸尿癥;半乳糖血癥;丙二酰輔酶A脫羧酶缺乏癥;丙酸血癥;丙酮酸羧化酶缺乏癥;丙酮酸脫氫酶復(fù)合物E3結(jié)合蛋白缺乏癥;丙酮酸脫氫酶磷酸酶缺乏癥;丙酮酸脫羧酶缺乏癥;長(zhǎng)鏈酰基輔酶A脫氫酶缺陷癥;常染色體顯性非綜合征型耳聾;常染色體顯性營(yíng)養(yǎng)不良性大皰性表皮松解;常染色體隱性多囊性腎??;常染色體隱性非綜合征型耳聾;成骨不全;丑胎(丑角樣魚鱗病);板層性魚鱗?。粏渭冃匀穷^畸形;短鏈羥?;o酶A脫氫酶缺乏癥;短鏈?;o酶A脫氫酶缺乏癥;多巴反應(yīng)性肌張力障礙(張力障礙);多發(fā)性內(nèi)分泌腺瘤?。欢喾N?;o酶A脫氫酶缺乏癥;苯丙酮尿癥;法布瑞氏癥;范可尼貧血;非酮癥性高甘氨酸血癥;腓骨肌萎縮癥;楓糖尿病(支鏈酮酸尿癥);肝豆?fàn)詈俗冃?;高脯氨酸血癥II型;高脯氨酸血癥I型;高甲硫氨酸血癥;高鳥(niǎo)氨酸血癥;各型魚鱗?。还矟?jì)失調(diào)伴選擇性維生素E缺乏癥;共濟(jì)失調(diào)性毛細(xì)血管擴(kuò)張癥;骨硬化癥;瓜胺酸血癥;赫爾勒綜合征(粘多糖貯積病1H型);黑斑息肉綜合征;活化蛋白C抵抗引起的易栓癥;肌-眼-腦??;極長(zhǎng)鏈酰基輔酶A脫氫酶缺乏癥;脊髓性肌萎縮(脊肌萎縮癥,SMA);家族性腺瘤性息肉病;甲基丙二酸血癥;假性軟骨發(fā)育不全;漸凍人癥;交界型大皰性表皮松解癥,赫利茨型;角化癥掌跖病紋狀體;結(jié)節(jié)性硬化病;進(jìn)行性肌陣攣性癲癇;進(jìn)行性家族性肝內(nèi)膽汁瘀積;進(jìn)行性假肥大性肌營(yíng)養(yǎng)不良癥;精氨酸琥珀酸尿癥;精氨酸酶缺乏癥;脛骨肌營(yíng)養(yǎng)不良癥;局灶性節(jié)段性腎小球硬化癥;克拉伯?。焕野彼崃u化酶缺乏癥(Segawa綜合征);酪氨酸血癥;硫解酶缺乏癥;馬凡綜合癥;囊性纖維化;尼曼-皮克病;尼曼-皮克病(磷脂貯積癥);年齡相關(guān)性黃斑變性;胼胝體發(fā)育不全及周圍神經(jīng)病變;葡萄糖-6-磷酸脫氫酶缺乏癥;強(qiáng)直性肌營(yíng)養(yǎng)不良1型;肉毒堿棕櫚酰轉(zhuǎn)移酶I缺乏癥;II缺乏癥;肉堿棕櫚酰轉(zhuǎn)移酶Ⅱ缺乏癥;肉堿棕櫚酰轉(zhuǎn)移酶I缺乏癥;沙勒沃伊-薩格奈常染色體隱性遺傳痙攣性共濟(jì)失調(diào);神經(jīng)節(jié)苷脂貯積癥;神經(jīng)纖維瘤病;神經(jīng)元蠟樣質(zhì)脂褐質(zhì)沉積癥1型;腎病型胱胺酸癥;史蒂克勒氏綜合征;視網(wǎng)膜色素變性;舒-戴二氏綜合癥;雙氫嘧啶脫氫酶缺乏癥;糖原累積??;特雷徹-柯林斯綜合征;天冬氨酰葡萄糖胺尿癥;同型半胱氨酸尿癥;同型瓜氨酸尿癥綜合癥;透克氏癥;瓦登伯格綜合征;戊二酸血癥I型;先天性純巨核細(xì)胞再障血小板減少癥;先天性膽汁淤積;先天性耳聾伴甲狀腺腫大(Pendred綜合征);先天性肌強(qiáng)直;先天性肌弛緩;先天性甲狀腺功能減退癥;先天性軟骨發(fā)育不全;先天性視網(wǎng)膜劈裂癥;先天性糖蛋白糖基化缺陷Ia型;顯性多發(fā)性骨骺發(fā)育異常(MED);小兒異染性腦白質(zhì)營(yíng)養(yǎng)不良;新生兒永久性糖尿?。恍律鷥褐旅能浌前l(fā)育不良;新生兒重癥腦病;血友??;牙本質(zhì)發(fā)育不全;延森氏綜合征;Mohr-Tranebjaerg綜合征;眼白化??;遺傳性X連鎖性痙攣性截癱;遺傳性多發(fā)性外生骨疣;軟骨肉瘤;遺傳性非息肉病性結(jié)直腸癌(Lynch綜合征);遺傳性非息肉性結(jié)直腸癌2型;遺傳性共濟(jì)失調(diào)性多發(fā)性神經(jīng)炎樣病(Refsum綜合征);遺傳性果糖不耐癥;遺傳性家族性顱面骨發(fā)育不全;遺傳性酪氨酸血癥1型;遺傳性乳腺癌;遺傳性顯性痙攣性截癱;遺傳性眼球萎縮??;遺傳性隱性痙攣性截癱;異戊酸血癥;隱性多發(fā)性骨骺發(fā)育異常(MED);尤塞氏綜合癥;有汗型外胚層發(fā)育不良;幼嬰癲癇性腦??;原發(fā)性高草酸鹽尿癥2型;早年衰老綜合癥;擴(kuò)張型心肌病1A型;肢帶型肌營(yíng)養(yǎng)不良癥;粘多糖貯積癥Ⅱ型;掌跖角化病(掌跖硬化病);肢帶型進(jìn)行性肌肉萎縮癥;中鏈?;o酶A脫氫酶缺乏癥;侏儒-面部毛細(xì)血管擴(kuò)張綜合征(布盧姆綜合征);綜合征型耳聾;組氨酸血癥;家族性腺瘤樣息肉??;軟骨發(fā)育不良;家族性高膽固醇血癥;多指畸形;馬凡綜合癥;遺傳性舞蹈??;禿發(fā);胱氨酸尿癥;遺傳性高度近視;抗D佝僂??;血友??;節(jié)性腦硬化綜合癥;杜氏肌營(yíng)養(yǎng)不良;進(jìn)行性肌營(yíng)養(yǎng)不良;多囊腎綜合癥;性別決定基因突變所致的性反轉(zhuǎn),或其組合。在另一優(yōu)選例中,所述外顯子檢測(cè)區(qū)覆蓋20-100M大小的基因組區(qū)域。在另一優(yōu)選例中,所述外顯子檢測(cè)區(qū)覆蓋35M-70M大小的基因組區(qū)域,較佳地,覆蓋45M大小的基因組區(qū)域。在另一優(yōu)選例中,所述檢測(cè)區(qū)的探針特異性地針對(duì)人或非人哺乳動(dòng)物的核苷酸序列。在另一優(yōu)選例中,所述的Tag-SNP檢測(cè)區(qū)用于檢測(cè)在個(gè)人基因組中存在的SNP。在另一優(yōu)選例中,所述的用于檢測(cè)Tag-SNP的寡核苷酸探針是對(duì)泛基因組的SNP進(jìn)行聚類并挑選Tag-SNP而獲得的。在另一優(yōu)選例中,Tag-SNP的寡核苷酸探針包括序列如SEQIDNO.1-SEQIDNO.10任一所示的探針。在本發(fā)明的第二方面,提供了本發(fā)明第一方面所述超級(jí)芯片的用途,所述超級(jí)芯片用于獲取人基因組的核苷酸序列信息。在另一優(yōu)選例中,所述的核苷酸序列信息包括SNP信息。在本發(fā)明的第三方面,提供了一種超級(jí)芯片的制備方法,包括步驟:將寡核苷酸探針組成包括多個(gè)檢測(cè)點(diǎn)的檢測(cè)區(qū),所述檢測(cè)區(qū)包括:(a1)外顯子檢測(cè)區(qū);(b1)Tag-SNP檢測(cè)區(qū);和(c1)白細(xì)胞抗原檢測(cè)區(qū)。在另一優(yōu)選例中,所述檢測(cè)區(qū)還包括:(d1)單基因病檢測(cè)區(qū)。在另一優(yōu)選例中,所述芯片具有固相載體,較佳地,所述固相載體為基片或微球,更佳地,所述固相載體為熒光微球,最佳地為聚苯乙烯微球。在另一優(yōu)選例中,所述芯片為:包括探針組合物的液相芯片。在另一優(yōu)選例中,所述方法還包括位于在點(diǎn)樣之前的以下步驟:(i)從數(shù)據(jù)庫(kù)中過(guò)濾篩選SNP,獲得初始SNP數(shù)據(jù)集;(ii)從初始SNP數(shù)據(jù)集中選擇標(biāo)簽SNP(Tag-SNP);(iii)合成針對(duì)標(biāo)簽SNP的寡核苷酸。在另一優(yōu)選例中,步驟(i)中的初始SNP滿足下述條件:在數(shù)據(jù)庫(kù)所選人群中多態(tài)性堿基型為二種的位點(diǎn);在數(shù)據(jù)庫(kù)所選人群中,數(shù)據(jù)缺失率<0.1的位點(diǎn);等位基因堿基型出現(xiàn)次數(shù)大于一次的位點(diǎn)。在另一優(yōu)選例中,步驟(ii)中的Tag-SNP包括:標(biāo)準(zhǔn)的Tag-SNP部分;和Y染色體Tag-SNP部分。在另一優(yōu)選例中,標(biāo)準(zhǔn)的Tag-SNP是通過(guò)最優(yōu)聚類,根據(jù)連鎖不平衡數(shù)據(jù),將群體多態(tài)位點(diǎn)聚類并挑選獲得的。在本發(fā)明的第四方面,提供了一種篩選標(biāo)簽SNP(Tag-SNP)的方法,包括步驟:(A)從數(shù)據(jù)庫(kù)中過(guò)濾篩選SNP,獲得初始SNP數(shù)據(jù)集;(B)從初始SNP數(shù)據(jù)集中,通過(guò)最優(yōu)聚類,根據(jù)連鎖不平衡數(shù)據(jù),將群體多態(tài)位點(diǎn)聚類獲得,從而選出標(biāo)簽SNP。在本發(fā)明的第五方面,提供了一種試劑盒,包括一容器以及位于所述容器內(nèi)的本發(fā)明第一方面所述的超級(jí)芯片。在另一優(yōu)選例中,試劑盒還包括任選自下組的試劑:測(cè)序用引物;PCR反應(yīng)試劑及純化試劑;測(cè)序芯片;或其組合。應(yīng)理解,在本發(fā)明范圍內(nèi)中,本發(fā)明的上述各技術(shù)特征和在下文(如實(shí)施例)中具體描述的各技術(shù)特征之間都可以互相組合,從而構(gòu)成新的或優(yōu)選的技術(shù)方案。限于篇幅,在此不再一一累述。附圖說(shuō)明下列附圖用于說(shuō)明本發(fā)明的具體實(shí)施方案,而不用于限定由權(quán)利要求書所界定的本發(fā)明范圍。圖1顯示了群體多態(tài)SNP位點(diǎn),各個(gè)點(diǎn)代表孤點(diǎn)。圖2顯示了孤點(diǎn)初始化結(jié)果,黑線代表的是連接數(shù)(此時(shí)R2閾值為0.99),點(diǎn)1-3代表tag-SNP。圖3顯示了最優(yōu)聚類的結(jié)果,點(diǎn)1-3代表tag-SNP,孤點(diǎn)和孤點(diǎn)發(fā)生連接,直接聚集成一個(gè)新的簇,并挑選假定tag-SNP(圖3標(biāo)“a”處);簇和孤點(diǎn)發(fā)生連接,如果可以產(chǎn)生符合條件的tag-SNP,則簇將孤點(diǎn)吞并,并更新tag-SNP,否則,不發(fā)生任何吞并(圖3標(biāo)“b”處);簇和簇發(fā)生連接,如果可以產(chǎn)生符合條件的tag-SNP,則簇的合并,并更新tag-SNP,否則,不發(fā)生任何吞并(圖3標(biāo)“c”處)。圖4顯示了最終聚類結(jié)果,包括每個(gè)簇的組成、假定tag-SNP等信息,虛線段代表R2超過(guò)最低閾值,但是不滿足合并條件。圖5顯示了在本發(fā)明的一個(gè)優(yōu)選例中,超級(jí)芯片(ALLINONE)的基本組成。圖6顯示了本發(fā)明超級(jí)芯片(ALLINONE)和對(duì)照組芯片(Asiom_GW_ASI)對(duì)基因組覆蓋程度檢測(cè)結(jié)果,結(jié)果表明,本發(fā)明的超級(jí)芯片對(duì)全基因組的覆蓋度會(huì)比對(duì)照(Asiom_GW_ASI)要高。圖7顯示了本發(fā)明的超級(jí)芯片(ALLINONE)和對(duì)照組芯片(Asiom_GW_ASI)的MAF分布的檢測(cè)結(jié)果,結(jié)果表明,超級(jí)芯片的MAF比對(duì)照組要低,特別在2.5%~10%這個(gè)區(qū)間尤為集中,表明超級(jí)芯片對(duì)流行病學(xué)的研究非常有利。圖8顯示了本發(fā)明的超級(jí)芯片(ALLINONE)和對(duì)照組芯片對(duì)tag-SNP覆蓋度的檢測(cè)結(jié)果。圖9顯示了超級(jí)芯片(ALLINONE)和對(duì)照組芯片對(duì)tag-SNP之間距離檢測(cè)結(jié)果,結(jié)果表明,超級(jí)芯片(ALLINONE)的tag-SNP之間的距離更接近1kb,探針距離分布比較接近SNP的自然發(fā)生距離,而且明顯比對(duì)照組Asiom_GW_ASI更密集。圖10顯示了tag-SNP單堿基深度分布圖。具體實(shí)施方式本發(fā)明人經(jīng)過(guò)廣泛而深入的研究,首次開(kāi)發(fā)了一種能夠篩選群體特異性和代表性位點(diǎn)的超級(jí)芯片(ALLINONE),所述超級(jí)芯片至少包括外顯子檢測(cè)區(qū),Tag-SNP檢測(cè)區(qū),人類白細(xì)胞抗原(HLA)檢測(cè)區(qū)。所述超級(jí)芯片能夠在短時(shí)間內(nèi)檢測(cè)多種疾病,與現(xiàn)有芯片相比,疾病覆蓋率大,大大提高捕獲區(qū)域,并顯著降低了檢測(cè)成本。本發(fā)明還提供了所述芯片的制備方法和用途。在此基礎(chǔ)上完成了本發(fā)明。術(shù)語(yǔ)如本文所用,術(shù)語(yǔ)“含有”包括“具有(comprise)”、“基本上由…構(gòu)成”和“由…構(gòu)成”。如本文所用,術(shù)語(yǔ)“以上”和“以下”包括本數(shù),例如“80%以上“指≥80%,“2%以下”指≤2%。單核苷酸多態(tài)性(SNP)SNP是指在基因組上單個(gè)核苷酸的變異,包括置換、顛換等情況。SNP形成的遺傳標(biāo)記數(shù)量很多,多態(tài)性豐富。轉(zhuǎn)換和顛換二者之比一般為2:1。SNP在CG序列上出現(xiàn)最為頻繁,而且多是C轉(zhuǎn)換為T,原因是CG中的C常為甲基化的,自發(fā)地脫氨后即成為胸腺嘧啶。它是人類可遺傳的變異中最常見(jiàn)的一種,占所有已知多態(tài)性的90%以上。正因?yàn)槿绱?,SNP成為第三代遺傳標(biāo)志,人體的許多表型差異,如對(duì)藥物或疾病的易感性等都可能與SNP有關(guān)。SNP檢測(cè)作為一個(gè)強(qiáng)有力的工具,可用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計(jì)和測(cè)試以及生物學(xué)的基礎(chǔ)研究等。大量存在的SNP位點(diǎn),使人們有機(jī)會(huì)發(fā)現(xiàn)與各種疾病,包括腫瘤相關(guān)的基因組突變;從實(shí)驗(yàn)操作來(lái)看,通過(guò)SNP發(fā)現(xiàn)疾病相關(guān)基因突變要比通過(guò)家系來(lái)得容易;有些SNP并不直接導(dǎo)致疾病基因的表達(dá),但由于它與某些疾病基因相鄰,而成為重要的標(biāo)記。SNP在基礎(chǔ)研究中也發(fā)揮了巨大的作用,近年來(lái)對(duì)Y染色體SNP的分析,使得在人類進(jìn)化、人類種群的演化和遷徙領(lǐng)域取得了一系列重要成果。SNP既有可能在基因序列內(nèi),也有可能在基因以外的非編碼序列上,位于編碼區(qū)內(nèi)的SNP(codingSNP,cSNP)比較少,但它在遺傳性疾病研究中卻具有重要意義,因此cSNP的研究更受關(guān)注。SNP自身的特性決定了它非常適合于對(duì)復(fù)雜性狀與疾病的遺傳解剖以及基于群體的基因識(shí)別等方面的研究:1.SNP數(shù)量多,分布廣泛。據(jù)估計(jì),人類基因組中每1000個(gè)核苷酸就有一個(gè)SNP,人類30億堿基中共有300萬(wàn)以上的SNPs;2.SNP適于規(guī)?;Y查,由于SNP的二態(tài)性,非此即彼,在基因組篩選中SNPs往往只需+/-的分析,而不用分析片段的長(zhǎng)度,這就利于發(fā)展自動(dòng)化技術(shù)篩選或檢測(cè)SNPs;3.SNP等位基因頻率容易估計(jì);4.易于基因分型等。單基因病如本文所用,“單基因病”一詞是指由一對(duì)等位基因控制的疾病或病理性狀,又稱孟德?tīng)栠z傳病,可以分為常染色體顯性遺傳病、常染色體隱性遺傳病、x伴性遺傳病、Y伴性遺傳病。常染色體顯性遺傳病致病基因定位于常染色體上,常見(jiàn)的亞型:完全顯性:正常純合子和雜合子的患者在表型上無(wú)差異;不完全顯性:雜合子表現(xiàn)介于顯性純合子患者和正常人之間,常表現(xiàn)為輕病型;不規(guī)則顯型:由于某種原因可使雜合子的顯性基因不表現(xiàn)出相應(yīng)的癥狀;共顯性:等位基因之間無(wú)顯性與隱性之分,在雜合體時(shí)都能表現(xiàn)兩種基因作用;延遲顯性:雜合子在生命早期顯性基因不表達(dá),待一定年齡后才表達(dá);從性顯性:雜合子的表達(dá)受性別的影響,在某一性別表達(dá)出相應(yīng)的表現(xiàn)型,在另一性別不表達(dá)相應(yīng)表現(xiàn)型。常染色體隱性遺傳病的常染色體上的致病基因在雜合狀態(tài)時(shí)不表現(xiàn)相應(yīng)的疾病,而只在純合子時(shí)才致病。定位于X染色體上的致病基因隨X染色體而遺傳疾病,包括X連鎖顯性遺傳和X連鎖隱性遺傳。定位于Y染色體上的致病基因隨Y染色體而遺傳疾病。適用于本發(fā)明超級(jí)芯片的單基因病包括但不限于:在另一優(yōu)選例中,所述的單基因病選自下組:3β-羥類固醇脫氫酶缺陷癥;3-甲基巴豆酰輔酶A羧化酶缺乏癥;3-羥酰輔酶A脫氫酶缺乏癥;Alagille綜合癥(先天性膽道閉鎖綜合癥);Alport綜合征(遺傳性腎炎);Apert綜合征;Arts綜合征;Diamond-Blackfan貧血(先天性純紅細(xì)胞再生障礙性貧血);Emery-Dreifuss型肌營(yíng)養(yǎng)不良;Friedreich共濟(jì)失調(diào);Gilbert綜合癥;Jackson-Weiss顱縫早閉綜合征;Joubert綜合癥;Marshall綜合癥;Meckel綜合征;Pallister-Hall綜合征;QT間期延長(zhǎng)綜合征;Waardenburg綜合征;Weissenbacher-Zweymuller綜合征;Wolfram綜合征1型;X連鎖鐵粒幼細(xì)胞貧血;紅細(xì)胞生成性原卟啉癥;先天性角化不全癥;X連鎖型魚鱗??;X連鎖性視網(wǎng)膜色素變性3型;X連鎖隱性耳聾;X連鎖重癥聯(lián)合免疫缺陷;β地中海貧血;氨甲酰磷酸合成酶缺乏癥;巴特綜合征;半胱氨酸尿癥;半乳糖血癥;丙二酰輔酶A脫羧酶缺乏癥;丙酸血癥;丙酮酸羧化酶缺乏癥;丙酮酸脫氫酶復(fù)合物E3結(jié)合蛋白缺乏癥;丙酮酸脫氫酶磷酸酶缺乏癥;丙酮酸脫羧酶缺乏癥;長(zhǎng)鏈?;o酶A脫氫酶缺陷癥;常染色體顯性非綜合征型耳聾;常染色體顯性營(yíng)養(yǎng)不良性大皰性表皮松解;常染色體隱性多囊性腎病;常染色體隱性非綜合征型耳聾;成骨不全;丑胎(丑角樣魚鱗病);板層性魚鱗病;單純性三角頭畸形;短鏈羥?;o酶A脫氫酶缺乏癥;短鏈?;o酶A脫氫酶缺乏癥;多巴反應(yīng)性肌張力障礙(張力障礙);多發(fā)性內(nèi)分泌腺瘤病;多種?;o酶A脫氫酶缺乏癥;苯丙酮尿癥;法布瑞氏癥;范可尼貧血;非酮癥性高甘氨酸血癥;腓骨肌萎縮癥;楓糖尿病(支鏈酮酸尿癥);肝豆?fàn)詈俗冃?;高脯氨酸血癥II型;高脯氨酸血癥I型;高甲硫氨酸血癥;高鳥(niǎo)氨酸血癥;各型魚鱗病;共濟(jì)失調(diào)伴選擇性維生素E缺乏癥;共濟(jì)失調(diào)性毛細(xì)血管擴(kuò)張癥;骨硬化癥;瓜胺酸血癥;赫爾勒綜合征(粘多糖貯積病1H型);黑斑息肉綜合征;活化蛋白C抵抗引起的易栓癥;肌-眼-腦病;極長(zhǎng)鏈酰基輔酶A脫氫酶缺乏癥;脊髓性肌萎縮(脊肌萎縮癥,SMA);家族性腺瘤性息肉??;甲基丙二酸血癥;假性軟骨發(fā)育不全;漸凍人癥;交界型大皰性表皮松解癥,赫利茨型;角化癥掌跖病紋狀體;結(jié)節(jié)性硬化病;進(jìn)行性肌陣攣性癲癇;進(jìn)行性家族性肝內(nèi)膽汁瘀積;進(jìn)行性假肥大性肌營(yíng)養(yǎng)不良癥;精氨酸琥珀酸尿癥;精氨酸酶缺乏癥;脛骨肌營(yíng)養(yǎng)不良癥;局灶性節(jié)段性腎小球硬化癥;克拉伯?。焕野彼崃u化酶缺乏癥(Segawa綜合征);酪氨酸血癥;硫解酶缺乏癥;馬凡綜合癥;囊性纖維化;尼曼-皮克??;尼曼-皮克病(磷脂貯積癥);年齡相關(guān)性黃斑變性;胼胝體發(fā)育不全及周圍神經(jīng)病變;葡萄糖-6-磷酸脫氫酶缺乏癥;強(qiáng)直性肌營(yíng)養(yǎng)不良1型;肉毒堿棕櫚酰轉(zhuǎn)移酶I缺乏癥;II缺乏癥;肉堿棕櫚酰轉(zhuǎn)移酶Ⅱ缺乏癥;肉堿棕櫚酰轉(zhuǎn)移酶I缺乏癥;沙勒沃伊-薩格奈常染色體隱性遺傳痙攣性共濟(jì)失調(diào);神經(jīng)節(jié)苷脂貯積癥;神經(jīng)纖維瘤??;神經(jīng)元蠟樣質(zhì)脂褐質(zhì)沉積癥1型;腎病型胱胺酸癥;史蒂克勒氏綜合征;視網(wǎng)膜色素變性;舒-戴二氏綜合癥;雙氫嘧啶脫氫酶缺乏癥;糖原累積??;特雷徹-柯林斯綜合征;天冬氨酰葡萄糖胺尿癥;同型半胱氨酸尿癥;同型瓜氨酸尿癥綜合癥;透克氏癥;瓦登伯格綜合征;戊二酸血癥I型;先天性純巨核細(xì)胞再障血小板減少癥;先天性膽汁淤積;先天性耳聾伴甲狀腺腫大(Pendred綜合征);先天性肌強(qiáng)直;先天性肌弛緩;先天性甲狀腺功能減退癥;先天性軟骨發(fā)育不全;先天性視網(wǎng)膜劈裂癥;先天性糖蛋白糖基化缺陷Ia型;顯性多發(fā)性骨骺發(fā)育異常(MED);小兒異染性腦白質(zhì)營(yíng)養(yǎng)不良;新生兒永久性糖尿病;新生兒致命的軟骨發(fā)育不良;新生兒重癥腦??;血友病;牙本質(zhì)發(fā)育不全;延森氏綜合征;Mohr-Tranebjaerg綜合征;眼白化病;遺傳性X連鎖性痙攣性截癱;遺傳性多發(fā)性外生骨疣;軟骨肉瘤;遺傳性非息肉病性結(jié)直腸癌(Lynch綜合征);遺傳性非息肉性結(jié)直腸癌2型;遺傳性共濟(jì)失調(diào)性多發(fā)性神經(jīng)炎樣病(Refsum綜合征);遺傳性果糖不耐癥;遺傳性家族性顱面骨發(fā)育不全;遺傳性酪氨酸血癥1型;遺傳性乳腺癌;遺傳性顯性痙攣性截癱;遺傳性眼球萎縮??;遺傳性隱性痙攣性截癱;異戊酸血癥;隱性多發(fā)性骨骺發(fā)育異常(MED);尤塞氏綜合癥;有汗型外胚層發(fā)育不良;幼嬰癲癇性腦?。辉l(fā)性高草酸鹽尿癥2型;早年衰老綜合癥;擴(kuò)張型心肌病1A型;肢帶型肌營(yíng)養(yǎng)不良癥;粘多糖貯積癥Ⅱ型;掌跖角化病(掌跖硬化病);肢帶型進(jìn)行性肌肉萎縮癥;中鏈?;o酶A脫氫酶缺乏癥;侏儒-面部毛細(xì)血管擴(kuò)張綜合征(布盧姆綜合征);綜合征型耳聾;組氨酸血癥;家族性腺瘤樣息肉??;軟骨發(fā)育不良;家族性高膽固醇血癥;多指畸形;馬凡綜合癥;遺傳性舞蹈?。欢d發(fā);胱氨酸尿癥;遺傳性高度近視;抗D佝僂??;血友??;節(jié)性腦硬化綜合癥;杜氏肌營(yíng)養(yǎng)不良;進(jìn)行性肌營(yíng)養(yǎng)不良;多囊腎綜合癥;性別決定基因突變所致的性反轉(zhuǎn),或其組合。外顯子及外顯子組如本文所用,“外顯子”一詞是指在成熟mRNA中被保留下的部分,即成熟mRNA對(duì)應(yīng)于基因中的部分。內(nèi)含子是在mRNA加工過(guò)程中被剪切掉的部分,在成熟mRNA中不存在。外顯子和內(nèi)含子都是對(duì)于基因而言的,編碼的部分為外顯子,不編碼的為內(nèi)含子,內(nèi)含子沒(méi)有遺傳效應(yīng)。如本文所用,“外顯子組”一詞是指樣本在一定的時(shí)刻所有表達(dá)的外顯子的組合。人類白細(xì)胞抗原(HLA)人類白細(xì)胞抗原HLA是具有高度多態(tài)性的同種異體抗原,其化學(xué)本質(zhì)為一類糖蛋白,由一條α重鏈(被糖基化的)和一條β輕鏈非共價(jià)結(jié)合而成,其肽鏈的氨基端向外(約占整個(gè)分子的3/4),羧基端穿入細(xì)胞質(zhì),中間疏水部分在胞膜中。HLA按其分布和功能分為Ⅰ類抗原和Ⅱ類抗原。HLA的多態(tài)性極為突出。保守估計(jì),至少存在1300個(gè)不同的單體型,相應(yīng)地約有17×107個(gè)基因型。這就是除同卵雙生子以外幾乎無(wú)HLA相同者的遺傳基礎(chǔ),從而HLA可視作個(gè)體的“身份證”,作為疾病檢測(cè)的標(biāo)志。泛基因組(pan-genome)如本文所用,“泛基因組”一詞是某一物種全部基因的總稱,泛基因組包括核心基因組(coregenome)以及非必須基因組。核心基因組是在某一物種的群體中普遍存在的基因;非必須基因組是在部分群體中存在的基因。在實(shí)際研究中,泛基因組也可以分成核心基因組(在所有群體中都存在的基因)、非必須基因組(在2個(gè)以及2個(gè)以上的群體中存在的基因),以及群體特有基因(strains-specificgene,即僅在某一個(gè)群體中存在的基因)。根據(jù)物種的泛基因組大小與群體數(shù)目的關(guān)系,將物種的泛基因組分為開(kāi)放型(open)泛基因組和閉合型(close)泛基因組。開(kāi)放型的泛基因組是指,隨著測(cè)序的基因組數(shù)目的增加,物種的泛基因組大小也不斷增加。閉合性的泛基因組是指,隨著測(cè)序的基因組數(shù)目增加,物種的泛基因組大小增加到一定的程度后收斂于某一值。本發(fā)明的超級(jí)芯片包括了通過(guò)pan-genome分析策略獲得的SNP數(shù)據(jù),用于疾病檢測(cè)和篩選。芯片本發(fā)明提供了一種芯片及其制備方法。芯片包括核酸檢測(cè)區(qū),各核酸檢測(cè)區(qū)包括多個(gè)檢測(cè)點(diǎn),各檢測(cè)點(diǎn)固定有用于與待檢測(cè)核酸雜交的寡核苷酸探針,所述的檢測(cè)區(qū)包括:外顯子檢測(cè)區(qū)、Tag-SNP檢測(cè)區(qū)和白細(xì)胞抗原檢測(cè)區(qū)。在本發(fā)明另一優(yōu)選例中,所述芯片具有固相載體,較佳地,固相載體為基片或微球,更佳地,所述固相載體為熒光微球,最佳地為聚苯乙烯微球。在本發(fā)明的另一優(yōu)選例中,所述芯片為包括探針組合物的液相芯片。超級(jí)芯片(ALLINONE)本發(fā)明提供了一種超級(jí)芯片,所述芯片表面的探針?lè)N類可達(dá)上百萬(wàn)種,能一次對(duì)同一個(gè)待測(cè)樣品檢測(cè)多種疾病。該超級(jí)芯片能覆蓋人類的外顯子區(qū)域和多達(dá)幾百種疾病相關(guān)的基因,大約150M的基因區(qū)域。該超級(jí)芯片具有外顯子檢測(cè)區(qū),Tag-SNP檢測(cè)區(qū),人類白細(xì)胞抗原(HLA)檢測(cè)區(qū),在一個(gè)優(yōu)選例中,還包括單基因病致病基因檢測(cè)區(qū)。本發(fā)明超級(jí)芯片的外顯子檢測(cè)區(qū)包括目前最新的約50M大小的基因組區(qū)域,提供功能基因相關(guān)變異信息;Tag-SNP檢測(cè)區(qū)涵蓋人種中的代表性信息,該部分通過(guò)對(duì)現(xiàn)有公共SNP數(shù)據(jù)以及泛基因組(pan-genome)分析策略獲得的數(shù)據(jù)進(jìn)行篩選得到,對(duì)挖掘研究樣品中群體特異性基因組信息有顯著價(jià)值;ALLINONE還整合了整個(gè)HLA區(qū)域的信息。由于該區(qū)域和疾病的發(fā)生以及免疫具有密切關(guān)系,因此該部分信息的涵蓋無(wú)論對(duì)人類疾病的機(jī)理研究還是藥物研發(fā)具有重要意義。在一個(gè)優(yōu)選例中,還可以把已經(jīng)確認(rèn)的致病基因,尤其是孟德?tīng)柤膊≈虏』蛭稽c(diǎn)設(shè)計(jì)到ALLINONE中,從而提供更豐富的數(shù)據(jù)。本發(fā)明還提供了一種超級(jí)芯片的制備方法,包括步驟:將寡核苷酸探針組成包括多個(gè)檢測(cè)點(diǎn)的檢測(cè)區(qū),所述檢測(cè)區(qū)包括:(a1)外顯子檢測(cè)區(qū);(b1)Tag-SNP檢測(cè)區(qū);和(c1)白細(xì)胞抗原檢測(cè)區(qū)。在另一優(yōu)選例中,所述檢測(cè)區(qū)還包括:(d1)單基因病檢測(cè)區(qū)。在另一優(yōu)選例中,所述芯片具有固相載體,較佳地,固相載體包括基片或微球,更佳地,所述微球?yàn)闊晒馕⑶颍罴训貫榫郾揭蚁┪⑶?。在另一?yōu)選例中,所述芯片為包括探針組合物的液相芯片。外顯子數(shù)據(jù)來(lái)源基于ensembl,refgene,CCDS及genecode數(shù)據(jù)的庫(kù)整合。ensembl:ftp://ftp.ensembl.org/pub/current/gtf/homo_sapiens/Homo_sapiens.GRCh37.61.gtf.gzrefgene:ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/refGene.txt.gzCCDS:ftp://ftp.ncbi.nih.gov/pub/CCDS/current_human/CCDS.current.txtgenecode:ftp://ftp.sanger.ac.uk/pub/gencode/exome/GENCODE_exome_design_target.gtf.gzHLA區(qū)域數(shù)據(jù)來(lái)源:http://www.ebi.ac.uk/imgt/hla/單基因病致病基因區(qū)域數(shù)據(jù)來(lái)源于孟德?tīng)栐诰€:http://www.ncbi.nlm.nih.gov/omim,http://omim.org/這些外顯子、HLA區(qū)域以及單基因病致病基因區(qū)域的數(shù)據(jù)庫(kù)的信息可通過(guò)公開(kāi)途徑獲得。在一個(gè)優(yōu)選例中,所述方法還包括位于在點(diǎn)樣之前的以下步驟:i.從數(shù)據(jù)庫(kù)中過(guò)濾篩選SNP,獲得初始SNP數(shù)據(jù)集;ii.從初始SNP數(shù)據(jù)集中選擇標(biāo)簽SNP;iii.合成針對(duì)標(biāo)簽SNP的寡核苷酸。在步驟(i)中,初始SNP滿足下列三個(gè)條件:在數(shù)據(jù)庫(kù)所選人群中多態(tài)性堿基型為二種的位點(diǎn);在數(shù)據(jù)庫(kù)所選人群中,數(shù)據(jù)缺失率<0.1的位點(diǎn);等位基因堿基型出現(xiàn)次數(shù)大于一次的位點(diǎn)。在步驟(ii)中,Tag-SNP包括標(biāo)準(zhǔn)的Tag-SNP部分和Y染色體Tag-SNP部分。探針如本文所用,“探針”一詞是指能夠檢測(cè)互補(bǔ)核酸序列的簡(jiǎn)單DNA或RNA分子。探針必須是純凈的,而且不受其他不同序列核酸的影響。典型的探針是克隆的DNA序列或通過(guò)PCR擴(kuò)增獲得的DNA,人工合成的寡核苷酸或從體外轉(zhuǎn)錄克隆DNA序列后獲得的RNA,也可以作為探針。探針長(zhǎng)度可以從20-120mer,較佳地50-100mer,更佳地60-90mer。探針設(shè)計(jì)和合成方法為本領(lǐng)域技術(shù)人員所熟知,根據(jù)單基因病的已知的致病基因的外顯子及其前后兩端序列(較佳地前后200bp左右),設(shè)計(jì)探針。在一個(gè)優(yōu)選例中,探針長(zhǎng)度50-80mer??梢允褂萌斯せ瘜W(xué)合成法合成探針或使用市售探針。本發(fā)明的核酸探針根據(jù)Tag-SNP設(shè)計(jì)而來(lái),如,Tag-SNP的寡核苷酸探針包括序列如SEQIDNO.1-SEQIDNO.10任一所示的探針。引物如本文所用,術(shù)語(yǔ)“引物”指的是能與模板互補(bǔ)配對(duì),在DNA聚合酶的作用合成與模板互補(bǔ)的DNA鏈的寡聚核苷酸的總稱。引物可以是天然的RNA、DNA,也可以是任何形式的天然核苷酸,引物甚至可以是非天然的核苷酸如LNA或ZNA等。引物“大致上”(或“基本上”)與模板上一條鏈上的一個(gè)特殊的序列互補(bǔ)。引物必須與模板上的一條鏈充分互補(bǔ)才能開(kāi)始延伸,但引物的序列不必與模板的序列完全互補(bǔ)。比如,在一個(gè)3’端與模板互補(bǔ)的引物的5’端加上一段與模板不互補(bǔ)的序列,這樣的引物仍大致上與模板互補(bǔ)。只要有足夠長(zhǎng)的引物能與模板充分的結(jié)合,非完全互補(bǔ)的引物也可以與模板形成引物-模板復(fù)合物,從而進(jìn)行擴(kuò)增。高通量測(cè)序基因組的“再測(cè)序”使得人類能夠盡早地發(fā)現(xiàn)與疾病相關(guān)基因的異常變化,有助于對(duì)個(gè)體疾病的診斷和治療進(jìn)行深入的研究。本領(lǐng)域技術(shù)人員通??梢圆捎萌N第二代測(cè)序平臺(tái)進(jìn)行高通量測(cè)序:454FLX(Roche公司)、SolexaGenomeAnalyzer(Illumina公司)和AppliedBiosystems公司的SOLID等。這些平臺(tái)共同的特點(diǎn)是極高的測(cè)序通量,相對(duì)于傳統(tǒng)測(cè)序的96道毛細(xì)管測(cè)序,高通量測(cè)序一次實(shí)驗(yàn)可以讀取40萬(wàn)到400萬(wàn)條序列,根據(jù)平臺(tái)的不同,讀取長(zhǎng)度從25bp到450bp不等,因此不同的測(cè)序平臺(tái)在一次實(shí)驗(yàn)中,可以讀取1G到14G不等的堿基數(shù)。其中,Solexa高通量測(cè)序包括DNA簇形成和上機(jī)測(cè)序兩個(gè)步驟:PCR擴(kuò)增產(chǎn)物的混合物與固相載體上固定的測(cè)序探針進(jìn)行雜交,并進(jìn)行固相橋式PCR擴(kuò)增,形成測(cè)序簇;對(duì)所述測(cè)序簇用“邊合成-邊測(cè)序法”進(jìn)行測(cè)序,從而得到樣本中核酸分子的核苷酸序列。DNA簇的形成是使用表面連有一層單鏈引物(primer)的測(cè)序芯片(flowcell),單鏈狀態(tài)的DNA片段通過(guò)接頭序列與芯片表面的引物通過(guò)堿基互補(bǔ)配對(duì)的原理被固定在芯片的表面,通過(guò)擴(kuò)增反應(yīng),固定的單鏈DNA變?yōu)殡p鏈DNA,雙鏈再次變性成為單鏈,其一端錨定在測(cè)序芯片上,另一端隨機(jī)和附近的另一個(gè)引物互補(bǔ)從而被錨定,形成“橋”;在測(cè)序芯片上同時(shí)有上千萬(wàn)個(gè)DNA單分子發(fā)生以上的反應(yīng);形成的單鏈橋,以周圍的引物為擴(kuò)增引物,在擴(kuò)增芯片的表面再次擴(kuò)增,形成雙鏈,雙鏈經(jīng)變性成單鏈,再次成為橋,稱為下一輪擴(kuò)增的模板繼續(xù)擴(kuò)增;反復(fù)進(jìn)行了30輪擴(kuò)增后,每個(gè)單分子得到1000倍擴(kuò)增,稱為單克隆的DNA簇。DNA簇在Solexa測(cè)序儀上進(jìn)行邊合成邊測(cè)序,測(cè)序反應(yīng)中,四種堿基分別標(biāo)記不同的熒光,每個(gè)堿基末端被保護(hù)堿基封閉,單次反應(yīng)只能加入一個(gè)堿基,經(jīng)過(guò)掃描,讀取該次反應(yīng)的顏色后,該保護(hù)集團(tuán)被除去,下一個(gè)反應(yīng)可以繼續(xù)進(jìn)行,如此反復(fù),即得到堿基的精確序列。在Solexa多重測(cè)序(MultiplexedSequencing)過(guò)程中會(huì)使用Index(標(biāo)簽)來(lái)區(qū)分樣品,并在常規(guī)測(cè)序完成后,針對(duì)Index部分額外進(jìn)行7個(gè)循環(huán)的測(cè)序,通過(guò)Index的識(shí)別,可以在1條測(cè)序甬道中區(qū)分12種不同的樣品。Tag-SNP的篩選方法此外,本發(fā)明還提供了一種Tag-SNP的篩選方法。在一個(gè)優(yōu)選例中,所述方法包括步驟:i.從數(shù)據(jù)庫(kù)中過(guò)濾篩選SNP,獲得初始SNP數(shù)據(jù)集;ii.從初始SNP數(shù)據(jù)集中,通過(guò)最優(yōu)聚類,根據(jù)連鎖不平衡數(shù)據(jù),將群體多態(tài)位點(diǎn)聚類獲得,從而選出Tag-SNP。試劑盒本發(fā)明還提供了一種試劑盒,所述試劑盒包括:容器以及位于容器內(nèi)本發(fā)明的超級(jí)芯片。在本發(fā)明的一個(gè)優(yōu)選例中,試劑盒還包括任選自下組的試劑:測(cè)序用引物;PCR反應(yīng)試劑及純化試劑;測(cè)序芯片;或其組合。本發(fā)明的主要優(yōu)點(diǎn)1.本發(fā)明的超級(jí)芯片整合多種檢測(cè)區(qū)域,如外顯子檢測(cè)區(qū),Tag-SNP檢測(cè)區(qū),人類白細(xì)胞抗原(HLA)檢測(cè)區(qū),以及單基因病檢測(cè)區(qū)等;2.該超級(jí)芯片疾病覆蓋率大,能夠在短時(shí)間內(nèi)檢測(cè)多達(dá)300種或更多種類的疾病。與現(xiàn)有芯片相比,大大提高捕獲區(qū)域,疾病覆蓋率大,檢測(cè)完全;3.與全基因測(cè)序相比,大大降低了檢測(cè)成本。下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍。下列實(shí)施例中未注明具體條件的實(shí)驗(yàn)方法,通常按照常規(guī)條件如Sambrook等人,分子克?。簩?shí)驗(yàn)室手冊(cè)(NewYork:ColdSpringHarborLaboratoryPress,1989)中所述的條件,或按照制造廠商所建議的條件。實(shí)施例1原始數(shù)據(jù)準(zhǔn)備從千人SNP數(shù)據(jù)庫(kù)(http://www.1000genomes.org/,release/20100804)中挑選93個(gè)中國(guó)人(68個(gè)北方漢族人和25個(gè)南方漢族人)的SNP數(shù)據(jù),并將挑選出的SNP數(shù)據(jù)集按以下三個(gè)條件過(guò)濾:在數(shù)據(jù)庫(kù)所選人群中多態(tài)性堿基型為二種的位點(diǎn);在數(shù)據(jù)庫(kù)所選人群中,數(shù)據(jù)缺失率<0.1的位點(diǎn);等位基因堿基型出現(xiàn)次數(shù)大于一次的位點(diǎn)。滿足以上3個(gè)條件的位點(diǎn)將構(gòu)成初始的SNP數(shù)據(jù)集。實(shí)施例2選取tag-SNP1.標(biāo)準(zhǔn)tag-SNP部分利用haploview軟件計(jì)算兩兩tag-snp位點(diǎn)之間的連鎖不平衡R2值。參數(shù)如下:java-jarhaploview.jar-n-memory25000-dprime-blockoutputALL-maxDistance100-minMAF0.01-pairwiseTagging通過(guò)最優(yōu)聚類,根據(jù)連鎖不平衡數(shù)據(jù),將群體多態(tài)位點(diǎn)聚類,然后再?gòu)木垲惤Y(jié)果中挑選合適的位點(diǎn)充當(dāng)tag-SNP。最優(yōu)聚類過(guò)程為:將基因組中沒(méi)有個(gè)群體多態(tài)SNP位點(diǎn)理解為“孤點(diǎn)”(point),當(dāng)兩個(gè)SNP之間的R2達(dá)到預(yù)定閾值后,則認(rèn)為此兩點(diǎn)之間有“關(guān)聯(lián)”(linkage),可以用線段連接,然后通過(guò)特定條件“聚集”,形成“簇”(cluster);當(dāng)R2閾值從大到小,一直遞減至預(yù)設(shè)值,簇之間無(wú)法再發(fā)生吞并,整個(gè)最優(yōu)聚類結(jié)束。所有能成功設(shè)置探針的標(biāo)準(zhǔn)tag-SNP在配套結(jié)果文件中,標(biāo)注為“Reason=R0”。詳細(xì)過(guò)程如下:a.讀入所有多態(tài)SNP位點(diǎn)的信息,包括位置、等位基因頻率和R2(只記錄大于或等于預(yù)定R2閾值的信息),得到散在的孤點(diǎn)圖。圖1中黑點(diǎn)代表群體多態(tài)SNP位點(diǎn)。b.初始化:將所有兩兩R2大于或等于0.99的所有孤點(diǎn)連接(完全不考慮在基因組中的位置關(guān)系),并默認(rèn)為最初的簇,在這個(gè)簇中挑選假定的tag-SNP(圖2)。圖2中黑線代表的是連接數(shù)(此時(shí)R2閾值為0.99),點(diǎn)1-3代表tag-SNP。c.最優(yōu)聚類:降低一個(gè)步長(zhǎng)的R2閾值,從染色體起點(diǎn)到終點(diǎn),將可能出現(xiàn)新的連接,出現(xiàn)的新的連接可以歸為下述三類:孤點(diǎn)和孤點(diǎn)發(fā)生連接,直接聚集成一個(gè)新的簇,并挑選假定tag-SNP;(圖3標(biāo)“a”處);簇和孤點(diǎn)發(fā)生連接,如果可以產(chǎn)生符合條件的tag-SNP,則簇將孤點(diǎn)吞并,并更新tag-SNP,否則,不發(fā)生任何吞并(圖3標(biāo)“b”處);簇和簇發(fā)生連接,如果可以產(chǎn)生符合條件的tag-SNP,則簇的合并,并更新tag-SNP,否則,不發(fā)生任何吞并(圖3標(biāo)“c”處)。循環(huán)直到在給定R2閾值內(nèi)沒(méi)有出現(xiàn)任何吞并現(xiàn)象;進(jìn)入下一個(gè)R2閾值。d.輸出最終聚類結(jié)果,包括每個(gè)簇的組成、假定tag-SNP等信息。圖4中虛線段代表R2超過(guò)最低閾值,但是不滿足合并條件。e.挑選tag-SNP不考慮所有無(wú)法合并到“簇”的孤點(diǎn),直接選取假定的tag-SNP,或者根據(jù)聚類信息重新選取tag-SNP。2.挑選假定tag-SNP的標(biāo)準(zhǔn)挑選假定tag-SNP的標(biāo)準(zhǔn),條件按優(yōu)先級(jí)從高到低排列:在本簇中,連接最多,而且代表率=(連接數(shù)+1)/本簇的孤點(diǎn)數(shù),代表率>預(yù)設(shè)值;次等位基因頻率(MAF)最接近0.1;對(duì)基因組的覆蓋度最大。3.相關(guān)參數(shù)R2下限:0.8;MAF最小值0.05;代表率最小值0.85。4.其他補(bǔ)全或者過(guò)濾部分由于除去外顯子區(qū)的標(biāo)準(zhǔn)tag-SNP(一些并不是隨機(jī)的自由組合,而是更加傾向于連在一起連鎖不平衡的位點(diǎn)形成的區(qū)域,這個(gè)區(qū)域中比較有代表性的單核苷酸多態(tài)性位點(diǎn)),對(duì)基因組的覆蓋度有限,為了提供更好基因組覆蓋度,本發(fā)明人將所有剩余的孤點(diǎn),按照其對(duì)全基因組的覆蓋率排序,取其前若干作為補(bǔ)充;結(jié)果文件中標(biāo)記為“Reason=R1”。在過(guò)濾外顯子區(qū)tag-SNP(一些并不是隨機(jī)的自由組合,而是更加傾向于連在一起連鎖不平衡的位點(diǎn)形成的區(qū)域,這個(gè)區(qū)域中比較有代表性的單核苷酸多態(tài)性位點(diǎn))時(shí),因?yàn)椴槐仡~外設(shè)計(jì)探針,會(huì)將部分位點(diǎn)刪除;結(jié)果文件中標(biāo)記為“Reason=R3”。在第一輪設(shè)計(jì)的時(shí)候,將tag-SNP(一些并不是隨機(jī)的自由組合,而是更加傾向于連在一起連鎖不平衡的位點(diǎn)形成的區(qū)域,這個(gè)區(qū)域中比較有代表性的單核苷酸多態(tài)性位點(diǎn))集合與以往基于黃種人的GWAS(全基因組關(guān)聯(lián)分析)(全基因組關(guān)聯(lián)分析)結(jié)果進(jìn)行了比較,在覆蓋度達(dá)到99%以上的情況下,剩余的1%則沒(méi)有出現(xiàn)在7Mb多態(tài)位點(diǎn)中(可能MAF(次等位基因頻率)太低);直接將這1%的位點(diǎn)補(bǔ)全到第二輪設(shè)計(jì)里面,在結(jié)果文件中標(biāo)記為“Reason=R4”。在第一輪設(shè)計(jì)后,將tag-SNP(一些并不是隨機(jī)的自由組合,而是更加傾向于連在一起連鎖不平衡的位點(diǎn)形成的區(qū)域,這個(gè)區(qū)域中比較有代表性的單核苷酸多態(tài)性位點(diǎn))集合與基于此7Mb多態(tài)位點(diǎn)Haploview運(yùn)行結(jié)果中的tag-snp(一些并不是隨機(jī)的自由組合,而是更加傾向于連在一起連鎖不平衡的位點(diǎn)形成的區(qū)域,這個(gè)區(qū)域中比較有代表性的單核苷酸多態(tài)性位點(diǎn))結(jié)果進(jìn)行比較,在覆蓋度達(dá)到75%以上的情況下,剩余的部分補(bǔ)全到第二輪設(shè)計(jì)里面,在結(jié)果文件中標(biāo)記為“Reason=R5”。如果兩個(gè)SNP(單核苷酸多態(tài)性)之間的距離小于60-bp,則會(huì)去掉MAF(次等位基因頻率)比較小的那個(gè);因?yàn)樵诓东@時(shí)也能正常被捕獲,故結(jié)果文件中未有標(biāo)注。Tag-SNP成簇歸類的例子cluster的格式>92472[block起點(diǎn)]94288[block終點(diǎn)]snp=3[SNP數(shù)目]M_rs6560827[建議tag]0.279569892473118[建議tag的MAF]M_rs6560827[SNP編號(hào)]10[染色體]93603[位置]2[能代表的SNP數(shù)]MAF=0.279569892473118[MAF]5.Y染色體部分直接引用了Hapmap3在Y染色體上的所有多態(tài)位點(diǎn)。實(shí)施例31.基本評(píng)估為了得到更加科學(xué)可觀的結(jié)果,本實(shí)施例的評(píng)估引用了Agilent公司(美國(guó))基于千人中亞洲人的數(shù)據(jù)研發(fā)的GWAS芯片Asiom_GW_ASI(598K)作為對(duì)照。2.芯片基本組成本實(shí)施例中芯片的基本組成見(jiàn)表1。圖5顯示了芯片的基本能組成結(jié)構(gòu)。表13.對(duì)基因組覆蓋程度檢測(cè)對(duì)基因組覆蓋程度檢測(cè)結(jié)果(圖6)表明,芯片對(duì)全基因組的覆蓋度比對(duì)照(Asiom_GW_ASI)要高,可能的原因在于:一方面基于的數(shù)據(jù)集以及設(shè)計(jì)選取tag-snp的方法不一樣,另一方面由于評(píng)價(jià)所用的tag-snp位點(diǎn)數(shù)的差異。4.MAF分布檢測(cè)對(duì)MAF分布的檢測(cè)結(jié)果(圖7)表明,總體而言,本發(fā)明芯片的MAF比對(duì)照組Agilent公司的Asiom_GW_ASI要低,特別在2.5%~10%這個(gè)區(qū)間尤為集中,對(duì)流行病學(xué)的研究非常有利。5.tag-SNP之間距離檢測(cè)圖8顯示了本發(fā)明的超級(jí)芯片(ALLINONE)和對(duì)照組芯片對(duì)tag-SNP覆蓋度的檢測(cè)結(jié)果。圖9顯示了超級(jí)芯片(ALLINONE)和對(duì)照組芯片對(duì)tag-SNP之間距離檢測(cè)結(jié)果,結(jié)果表明,超級(jí)芯片(ALLINONE)的tag-SNP之間的距離更接近1kb,探針距離分布比較接近SNP的自然發(fā)生距離,而且明顯比對(duì)照組Asiom_GW_ASI更密集。實(shí)施例4驗(yàn)證1.實(shí)驗(yàn)材料:1MtagSNP液相芯片(130M)參考序列基因組:人類hg19參考序列2.方法:從千人SNP數(shù)據(jù)庫(kù)中挑選93個(gè)中國(guó)人(68個(gè)北方漢族人和25個(gè)南方漢族人)的SNP數(shù)據(jù),并將挑選出的SNP數(shù)據(jù)集按照以下三個(gè)條件過(guò)濾:在數(shù)據(jù)庫(kù)所選人群中多態(tài)性堿基型為二種的位點(diǎn);在數(shù)據(jù)庫(kù)所選人群中,數(shù)據(jù)缺失率<0.1的位點(diǎn);等位基因堿基型出現(xiàn)次數(shù)大于一次的位點(diǎn)。3.挑選tag-SNP,得到1Mtag-SNP的液相芯片,本實(shí)施例的芯片可以捕獲大概130M的人類基因組區(qū)域。用此芯片捕獲YH(炎黃)樣本并分析得到如表2所述的信息數(shù)據(jù)。表2Tag-SNP單堿基深度分布如圖10所示。根據(jù)圖10及表2數(shù)據(jù)可以看出挑選的區(qū)域被覆蓋情況良好。因此本方法挑選出的位點(diǎn)設(shè)計(jì)而成的芯片捕獲區(qū)域大大提高,成本又大為降低。實(shí)施例5試劑盒本發(fā)明還提供了一種試劑盒,所述試劑盒包括:(1)第一容器以及位于容器內(nèi)的超級(jí)芯片;(2)第二容器以及位于容器內(nèi)的測(cè)序用引物;(3)第三容器以及位于容器內(nèi)的測(cè)序用接頭;(4)第四容器以及位于容器內(nèi)的測(cè)序芯片;(5)第五容器以及位于容器內(nèi)的PCR反應(yīng)試劑;(6)檢測(cè)說(shuō)明書。在本發(fā)明提及的所有文獻(xiàn)都在本申請(qǐng)中引用作為參考,就如同每一篇文獻(xiàn)被單獨(dú)引用作為參考那樣。此外應(yīng)理解,在閱讀了本發(fā)明的上述講授內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等價(jià)形式同樣落于本申請(qǐng)所附權(quán)利要求書所限定的范圍。