X-染色體失活逃脫基因及其應(yīng)用的制作方法
【專利摘要】本發(fā)明涉及基于高通量數(shù)據(jù)大規(guī)模的研究,能否證實(shí)或發(fā)現(xiàn)正常細(xì)胞株基因逃脫X失活。本發(fā)明利用永生B淋巴細(xì)胞的RNA測(cè)序數(shù)據(jù),基于高通量數(shù)據(jù)大規(guī)模研究,揭示了一些新的正常細(xì)胞株基因逃脫X失活的基因,并研究了這些基因的群體間或個(gè)體間基因逃脫差異。
【專利說(shuō)明】χ-染色體失活逃脫基因及其應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物技術(shù)和遺傳性領(lǐng)域;更具體地,本發(fā)明涉及X-染色體失活逃脫基 因及其應(yīng)用。
【背景技術(shù)】
[0002] 為了保持兩性之間X染色體基因表達(dá)計(jì)量的平衡,哺乳動(dòng)物進(jìn)化出了一種機(jī)制來(lái) 失活一條女性的X染色體。雖然人類大部分的X連鎖基因?qū)⒈皇Щ?,但至少?5%[1]的基 因認(rèn)為可以逃脫X失活,在女性中呈現(xiàn)一條活躍的X(Xa)和一條"不活躍"X(Xi)染色體。 逃脫基因在人類X染色體上分布在集中[1,2],這說(shuō)明逃脫的調(diào)控可能由染色質(zhì)的區(qū)域效 應(yīng)調(diào)控,并且大多數(shù)的逃脫基因已經(jīng)被證明是位于X染色體短臂上的[3]。這反映了一種約 束機(jī)制:基因距離X失活中心(Xic)遙遠(yuǎn),其受到失活的影響越小,例如失活中心遠(yuǎn)端X長(zhǎng) 臂的基因,當(dāng)然異染色質(zhì)的著絲粒也可能是阻斷XIST RNA轉(zhuǎn)播失活效應(yīng)的障礙。
[0003] 考慮到哺乳動(dòng)物X染色體基因含量的保守性,可以推測(cè)能夠逃脫X失活可能是一 種進(jìn)化的特征。這個(gè)問(wèn)題通過(guò)對(duì)比老鼠和人類[1,4,5]的X染色體失活基因有所了解。例 如,Yong et al. [5]利用RNA測(cè)序技術(shù),結(jié)合單核苷酸多態(tài)性(SNP)識(shí)別,來(lái)推斷小鼠逃脫 概況并且比較與人類的不同。老鼠的X逃脫情況和人類的有顯著差異,在基因數(shù)量和整體 狀態(tài)都不相同,但是為什么人類的較之老鼠逃脫更普遍,原因不明。
[0004] 這種人類的逃脫X失活的普遍性可能與人類的X多倍體的相對(duì)嚴(yán)重程度相關(guān)。X 染色體多倍型目前與眾多的表型相關(guān),包括引起精神發(fā)育遲滯和對(duì)增長(zhǎng)的影響[6]。通常, 當(dāng)超過(guò)一個(gè)X染色體存在時(shí),其他所有的X染色體都會(huì)失活[7,8]。因此,逃脫失活基因是 目前研究與X多倍體有關(guān)的劑量介導(dǎo)的表型紊亂的重要候選基因[9,10],確定哪些基因逃 脫X失活具有潛在臨床意義。
[0005] 目前X多倍體的研究也說(shuō)明了,即使有相同的染色體組型的表型,但個(gè)體之間仍 然有明顯的多樣性[6,9,11]。事實(shí)上,盡管許多XXX女性未被確診[9,12],她們已經(jīng)有明 顯的表型多樣性[11]。這可能反映了不同程度的鑲嵌性[9]。然而,它還可能反映個(gè)體逃 脫X失活的差異。這與目前的發(fā)現(xiàn)一致,人類不同的個(gè)體基因逃脫X失活可以有不同的表 達(dá)水平[1,13],這些表達(dá)有差異的基因估計(jì)占到X連鎖基因10%或更多。
[0006] 之前的研究,通過(guò)采用基于熒光的定量分析及單核苷酸引物延伸的技術(shù)發(fā)現(xiàn)了人 類的逃脫基因[1],為確定人類基因的X失活狀態(tài)做出巨大貢獻(xiàn)。該研究檢測(cè)了成纖維細(xì)胞 有限的X連鎖基因(N=94),總共發(fā)現(xiàn)有35%的基因表現(xiàn)出某種形式的逃脫,而其中15%表現(xiàn) 為在所有樣本中逃脫[1]。鑒于這個(gè)細(xì)胞株的有限的基礎(chǔ)分析,同一作者又使用一個(gè)更系統(tǒng) 化的體細(xì)胞雜交系統(tǒng)(超過(guò)600X連鎖的轉(zhuǎn)錄本),確認(rèn)了 94個(gè)轉(zhuǎn)錄本總是逃脫失活和另外 61在樣本中是雜合的。
[0007] 雖然體細(xì)胞雜交數(shù)據(jù)已經(jīng)呈現(xiàn)與成纖維細(xì)胞數(shù)據(jù)相對(duì)一致的結(jié)果[1],但仍然值 得探討是,基于高通量數(shù)據(jù)大規(guī)模的研究,能否證實(shí)或發(fā)現(xiàn)正常細(xì)胞株基因逃脫X失活。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的在于提供X-染色體失活逃脫基因及其應(yīng)用。
[0009] 在本發(fā)明的第一方面,提供一種X-染色體失活逃脫基因,所述基因包括:ABCB7、 AIFM1、ALG13、APEX2、ΑΡ00、ARHGAP4、ARMCX3、ATP6AP1、ATP6AP2、ATP7A、BCOR、BTK、CCDC22、 CD99L2、CDK16、CTPS2、CX0RF21、CX0RF38、CX0RF40A、CYBB、DDX26B、DDX3X、DKC1、DMD、 DNASE1L1、D0CK11、EBP、EDA2R、EIF1AX、EIF2S3、ELF4、ELK1、FAM3A、FLNA、FTSJ1、G6PD、 ⑶II、GEMIN8、GPR174、GRIPAP1、HAUS7、HCFC1、HDHD1、HUWE1、IDS、IGBP1、IRAKI、LAMP2、 L0C550643、MAGED1、MAGED2、MAGEH1、MAP7D2、MAP7D3、MBNL3、MED12、MED14、MID1IP1、 M0RF4L2、MPP1、MSL3、MTMR1、NSDHL、P2RY10、PDHA1、PDK3、PGK1、PIM2、PIN4、PIR、PJA1、 PLXNA3、PQBP1、PRKX、RBM3、RENBP、RNF113A、RPL10、SASH3、SAT1、SEPT6、SH3BGRL、SH3KBP1、 SLC25A43、SLC25A5、SLC38A5、SMC1A、SNX12、STS、SUV39H1、SYN1、TAZ、TBC1D25、TBL1X、 TCEAL4、TLR7、TMEM187、TRAPPC2、TSIX、TSR2、TXLNG、UBA1、UBL4A、USP9X、UTP14A、VBP1、 WWC3、XIAP、XIST、ZC4H2、ZFX、ZMYM3、ZNF275 或 ZNF75D。
[0010] 在一個(gè)優(yōu)選例中,所述基因包括:ARHGAP4、CX0RF21、CYBB、ELF4、⑶II、GPR174、 HAUS7、L0C550643、MAGED1、P2RY10、SLC25A43、TAZ、TLR7 或 TSIX。
[0011] 在另一優(yōu)選例中,所述基因包括:DMD、PDHA1、HCFC1、BCOR、ATP6AP2、FLNA、SYN1、 PGK1、⑶II、MED12、DKC1、IDS、PQBP1、SMC1A、HUWE1、NSDHL、IGBP1、LAMP2、ATP7A、FTSJ1、 RPL10 或EIF2S3。
[0012] 在本發(fā)明的另一方面,提供所述的X-染色體失活逃脫基因作為X-連鎖精神發(fā)育 遲滯(XLMR)或智力殘疾(ID)疾病研究靶點(diǎn)的用途。
[0013] 在本發(fā)明的另一方面,提供所述的失活逃脫基因的用途,用于分析人群中傾向基 因逃脫的差異或個(gè)體間基因逃脫差異。
[0014] 在本發(fā)明的另一方面,提供所述的失活逃脫基因的用途,用于分析個(gè)體間基因逃 脫差異。
[0015] 本發(fā)明的其它方面由于本文的公開(kāi)內(nèi)容,對(duì)本領(lǐng)域的技術(shù)人員而言是顯而易見(jiàn) 的。
【專利附圖】
【附圖說(shuō)明】
[0016] 圖1、本發(fā)明人將RNA測(cè)序的讀段比對(duì)到參考基因組,并計(jì)算每個(gè)外顯子的讀段覆 蓋度。外顯子區(qū)域是根據(jù)X染色體編碼基因的信息確定。a) GSE16921的數(shù)據(jù)有更高的覆蓋 深度和廣度,表明該數(shù)據(jù)的測(cè)序和比對(duì)結(jié)果質(zhì)量較高。b) GSE19480是中等的覆蓋度,而且有 些區(qū)域是比較低的測(cè)序深度。覆蓋度低的區(qū)域的分析結(jié)果肯定是不可靠的,所以這些區(qū)域 將不會(huì)被考慮。c)GSE25030中大部分樣本的覆蓋度不高,所以GSE25030中高覆蓋度的區(qū)域 被保留,作為GSE16921數(shù)據(jù)集的補(bǔ)充。
[0017] 圖2、CEU和YRI人群中至少有兩個(gè)個(gè)體中確定的逃脫失活基因在X染色體上分布 的概貌,這與已報(bào)道的人類X染色體逃脫失活基因在X染體上呈現(xiàn)聚集分布的結(jié)論是一致 的。在至少三個(gè)中并且是大于潛在逃脫個(gè)體總數(shù)的50%的個(gè)體中發(fā)現(xiàn)的逃脫基因標(biāo)為常見(jiàn) 逃脫(紅色),其他的基因被定義為罕見(jiàn)逃脫(藍(lán)色)。
[0018] 圖3、本發(fā)明人統(tǒng)計(jì)了每個(gè)個(gè)體與XLMR相關(guān)的逃脫失活基因的個(gè)數(shù),并按其數(shù)目 從大到小依次畫(huà)出與XLMR相關(guān)的基因的數(shù)目。
[0019] 圖4、在CEU、YRI兩人群中有顯著差異的基因在X染色體上的位置。
【具體實(shí)施方式】
[0020] 本發(fā)明利用永生B淋巴細(xì)胞的RNA測(cè)序數(shù)據(jù),基于高通量數(shù)據(jù)大規(guī)模研究,發(fā)現(xiàn)了 一些新的正常細(xì)胞株基因逃脫X失活的基因。
[0021] 本發(fā)明首次提出使用高通量技術(shù)尋找正常人中逃脫X染色體失活的基因,確定了 76個(gè)新基因,發(fā)現(xiàn)它們呈現(xiàn)一定種程度的逃脫失活。同時(shí)利用相同的數(shù)據(jù),也可以發(fā)現(xiàn)個(gè)體 之間逃脫失活的異質(zhì)性。會(huì)有一些人表現(xiàn)出易于常人的逃脫(hyper-escapees)么,允許比 別人更多的基因逃脫么?不同人群在逃脫數(shù)量和程度上會(huì)不同么?為了解決這些問(wèn)題,本 發(fā)明人研究了兩種群的逃脫X失活基因的概況,兩種人群分別是擁有北方和西部的歐洲血 統(tǒng)的美國(guó)居民(CEU)和尼日利亞Yoruban人群(YRI)。本發(fā)明人找到了有力的證據(jù),證明兩 個(gè)人群之間或人與人之間存在顯著的異質(zhì)性。并且,第一個(gè)發(fā)現(xiàn)這些易逃脫失活基因與智 力發(fā)育基因高度相關(guān),智力差異的數(shù)量性狀可能由于逃脫失活的程度決定。這些結(jié)果對(duì)藥 物基因組學(xué)的病因分析和X染色體倍數(shù)性破壞表型的研究具有重要作用。
[0022] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說(shuō)明本發(fā)明 而不用于限制本發(fā)明的范圍。下列實(shí)施例中未注明具體條件的實(shí)驗(yàn)方法,通常按照常規(guī)條 件如J.薩姆布魯克等編著,分子克隆實(shí)驗(yàn)指南,第三版,科學(xué)出版社,2002中所述的條件, 或按照制造廠商所建議的條件。除非另外說(shuō)明,否則百分比和份數(shù)按重量計(jì)算。
[0023] 分析方法:
[0024] 數(shù)據(jù)收集
[0025] RNA測(cè)序的數(shù)據(jù)時(shí)從NCBI GE0數(shù)據(jù)庫(kù)[3]下載(CEU:GSE16921和 GSE25030, YRI :GSE19480)。使用了其中所有的女性樣本,并隨機(jī)選取一些男性作為對(duì)照。樣 本GSE25030中的NA10847和NA12414被提出,因?yàn)檫@兩個(gè)樣本沒(méi)有在HapMap數(shù)據(jù)庫(kù)中注 釋的SNP?;蛞约白⑨屝畔?lái)自UCSC的人類基因注釋信息(hgl9, GRCh37)。
[0026] 覆蓋度分析
[0027] 本發(fā)明人用BEDt〇〇ls[31]來(lái)計(jì)算全基因組的覆蓋度。
[0028] 將測(cè)序Reads比對(duì)到參考基因組
[0029] 用Tophat [32]軟件將Reads比對(duì)到參考基因組序列(build hgl9)。比對(duì)過(guò)程中 選擇Tophat默認(rèn)的分析Illumina測(cè)序儀結(jié)果的默認(rèn)參數(shù)。
[0030] 尋找雜合位點(diǎn)
[0031] 利用SAMT00LS軟件[33],根據(jù)貝葉斯推斷檢測(cè)雜合位點(diǎn),其中QUAL值小于20或 Reads數(shù)小于6的被去除。同時(shí)考慮5'和3'的測(cè)序變差不同,本發(fā)明人要求必須有正鏈和 負(fù)鏈共同覆蓋雜合位點(diǎn),并且找到的雜合位點(diǎn)不能位于3'末端,因?yàn)?'末端測(cè)序質(zhì)量明顯 下降。
[0032] 實(shí)施例1、策略和質(zhì)量控制
[0033] 因?yàn)閄失活發(fā)生在胚胎發(fā)育早期[14、15],所有的細(xì)胞都是來(lái)源于同一個(gè)細(xì)胞系, 所以都應(yīng)該只是表達(dá)的兩個(gè)等位基因的其中某一個(gè)。那么,雜合(同時(shí)表達(dá)兩個(gè)等位基因) 的轉(zhuǎn)錄本信息就可能預(yù)示該基因逃脫了 X染色體失活。為了識(shí)別哪些基因同時(shí)表達(dá)來(lái)自父 本和來(lái)自母本的轉(zhuǎn)錄本,本發(fā)明人分析了來(lái)自CEU和YRI的正常女性的RNA-seq高通量測(cè) 序數(shù)據(jù)。RNA-seq測(cè)序的Reads比對(duì)到人類參考基因組。比對(duì)上的Reads條數(shù)反映了基因 的表達(dá)量[16]。X染色體兩等位基因共同表達(dá)的位置,根據(jù)比對(duì)上的Reads的堿基序列確 定,并且去掉已驗(yàn)證的SNP位點(diǎn)以外的位點(diǎn)。
[0034] 雖然這種方法的原理簡(jiǎn)單直接,但測(cè)序的深度和覆蓋的廣度,會(huì)明顯影響數(shù)據(jù)的 可靠性和雙等位基因表達(dá)的明顯程度式。因此,為了減少噪音,低覆蓋度的區(qū)域應(yīng)該被刪 除。為此,本發(fā)明人基于X染色體的外顯子注釋信息,計(jì)算了測(cè)序的覆蓋程度和深度(圖 1)。YRI的Reads覆蓋度略低于CEU的,這可能會(huì)阻礙在YRI中有效逃脫位點(diǎn)的觀測(cè)。然而 標(biāo)準(zhǔn)化后,X染色體和常染色體的Reads豐度沒(méi)有顯示出顯著的偏差,除了 GSE25030的數(shù) 據(jù)。所以,GSE25030的數(shù)據(jù)只能被用來(lái)作為GSE16921補(bǔ)充。本發(fā)明人認(rèn)為,在研究中超過(guò) 6x的深度足夠發(fā)現(xiàn)雜合位點(diǎn),其他低的覆蓋區(qū)域?qū)⒈怀ァ?br>
[0035] 沉默的等位基因的低量Reads,會(huì)引起一定程度上的假陽(yáng)性雜合,為了避免這種錯(cuò) 誤,需要較少等位等位基因至少要占較多的等位等位基因的10%以上(這個(gè)標(biāo)準(zhǔn)被用來(lái)識(shí) 別人類基因逃脫[1])。注意,這里較少的比較多的頻率是指等位基因在轉(zhuǎn)錄組內(nèi)的比值,而 不是在人群中的比值。根據(jù)這個(gè)定義可以排除一部分人為的假雜合的錯(cuò)誤,但也可能會(huì)錯(cuò) 誤地增加一些不逃脫基因(假陰性)。
[0036] 由國(guó)際人類基因組單體型圖計(jì)劃發(fā)布的dbSNP134中CEU和YRI的變異位點(diǎn)[17] 作為驗(yàn)證的變異位點(diǎn),來(lái)識(shí)別本發(fā)明測(cè)序數(shù)據(jù)中的雜合位點(diǎn)。共有73792和89732X-連鎖 的SNP位點(diǎn)分別在CEU人群和YRI中注釋出。其中,分別有21087和26413個(gè)SNP位點(diǎn)是 在CEU和YRI的基因內(nèi)(平均每個(gè)基因有31. 24和37. 41個(gè)SNP)。大多數(shù)SNP是分布在 內(nèi)含子區(qū)域,對(duì)于尋找X染色體逃脫基因沒(méi)有作用。X連鎖基因已知有1001個(gè)(其中包括 823已知的人類蛋白質(zhì)編碼基因和178個(gè)非蛋白編碼基因[18]),分別CEU和YRI中有675 和706個(gè)基因包含至少一個(gè)外顯子SNP的,被認(rèn)為是確定逃脫失活的潛在基因。
[0037] 實(shí)施例2、比對(duì)錯(cuò)誤罕見(jiàn)
[0038] 即使有上述質(zhì)量控制,比對(duì)錯(cuò)誤仍然不可避免。這種錯(cuò)誤在重復(fù)基因中尤為明顯。 假設(shè)我們只關(guān)注X染色體基因,但對(duì)于某些X連鎖基因,至少在某些個(gè)體中,基因組中存在 我們關(guān)注的基因相似序列的同源基因,但這個(gè)同源基因沒(méi)有在參考基因組中注釋。在這種 情況下,我們將會(huì)無(wú)意識(shí)的將我們不關(guān)注的這一同源基因的轉(zhuǎn)錄本比對(duì)到我們關(guān)注的X染 色體基因上來(lái)。這個(gè)時(shí)候,如果兩個(gè)重復(fù)的基因的某些堿基不同,那么可能會(huì)錯(cuò)誤地推斷關(guān) 注的基因逃脫失活了。因此,為了確??梢员苊膺@種問(wèn)題,我們使用人類基因組單體型圖中 描述的X染色體基因中的SNP作為確定逃脫的候選位點(diǎn),這樣就可以很大程度上解決這個(gè) 問(wèn)題(任何隨機(jī)突變?nèi)绻l(fā)生在非關(guān)注的基因中,將不會(huì)將其考慮為雜合性的證據(jù))。當(dāng)然 不一定能夠完全消除這一方面的錯(cuò)誤。這種錯(cuò)誤是現(xiàn)在高通量測(cè)序數(shù)據(jù)比對(duì)到基因組是時(shí) 普遍面臨的問(wèn)題。
[0039] 通過(guò)采用男性細(xì)胞系作為陰性對(duì)照,檢測(cè)基因在男性中的表達(dá)(男性應(yīng)該只能表 達(dá)一份,所以不會(huì)出現(xiàn)雜合),我們可以檢驗(yàn)這種錯(cuò)誤發(fā)生的頻率。如果這種不正確的比對(duì) 發(fā)生,并且關(guān)注基因和非關(guān)注基因都表達(dá),那么男性也應(yīng)該出現(xiàn)在X染色體上的"雜合"。我 們發(fā)現(xiàn)男性樣本中X染色體基因僅有少量的"雜合"(CEU3個(gè)和YRI2個(gè)),表明女性樣品中 極少會(huì)產(chǎn)生比對(duì)錯(cuò)誤帶來(lái)的假陽(yáng)性。這些男性中發(fā)現(xiàn)的"雜合"基因有STS,F(xiàn)TX,PLXNA3, CXorf4B和MTMR1。STS PLXNA3和MTMR1在兩個(gè)人群中都出現(xiàn),CXorf40B只出現(xiàn)在YRI。這 些錯(cuò)誤可能是由于基因組未知區(qū)域或CNVs的Reads比對(duì)到了目標(biāo)基因。
[0040] 還應(yīng)注意,在男性中存在的這些"雜合的"x-連鎖基因并不意味著比對(duì)問(wèn)題??赡?還會(huì)出現(xiàn)這樣的情況,在細(xì)胞培養(yǎng)中一個(gè)X連鎖基因突變,并且和已知的SNP -樣(雖然這 可能不能夠解釋重復(fù)的雜合)。由于RNA-Seq數(shù)據(jù)來(lái)自細(xì)胞群(而不是在單細(xì)胞),因此低 頻率的由突變衍生的雜合性是可以預(yù)見(jiàn)的。進(jìn)一步的分析中我們刪除這些男性中"雜合"的 位點(diǎn),它們?cè)谂钥赡軐?dǎo)致錯(cuò)誤的分析。
[0041] 隨后我們進(jìn)一步的陰性控制,排除比對(duì)問(wèn)題引起的錯(cuò)誤。如果發(fā)生比對(duì)錯(cuò)誤,我們 也應(yīng)在女性中檢測(cè)到X-連鎖基因有三個(gè)或三個(gè)以上的等位基因。37CEU女性里285個(gè)基因 中,我們只檢測(cè)到26個(gè)位置,40YRI女性的510個(gè)基因只有14個(gè)位置被判定為具有2個(gè)以 上等位基因。在進(jìn)一步分析中,這些位點(diǎn)也被刪除了。
[0042] 在原則上,擬常基因的分析可以作為陽(yáng)性對(duì)照。但在人類基因組單體型計(jì)劃中未 給出這19個(gè)假體染色體基因的SNP[19],除了 XG,然而,XG卻沒(méi)有足夠的Reads覆蓋度。
[0043] 根據(jù)上述的質(zhì)量控制,本發(fā)明人考慮同一個(gè)基因內(nèi)不同SNP的雜合和純合的信號(hào) 應(yīng)該是一致。在這兩個(gè)群體中,有些基因(CEU和YRI分別為32和44個(gè))包含至少兩個(gè) SNP。在這些包含多個(gè)信息位點(diǎn)的基因中,大部分基因(CEU和90. 3%,90.9%在YRI)內(nèi)的 SNP表現(xiàn)一致的結(jié)果,S卩RNA-seq的Reads在所有潛在的雜合位點(diǎn)要么都是純合,要么都雜 合。例外的情況下,一個(gè)位點(diǎn)是雜合子,另一些不是雜合,是由于這些位置的測(cè)序深度不夠 引起的??偣灿?643個(gè)基因有足夠的測(cè)序深度,并且包含有多個(gè)潛在的雜合位點(diǎn)。其中, 只有75個(gè)基因(〈5%)至少有一個(gè)位點(diǎn)是不與其他基因內(nèi)的位置保持一致的。
[0044] 實(shí)施例3、確定新的X-染色體失活逃脫基因
[0045] 本發(fā)明人從UCSC提取注釋基因的轉(zhuǎn)錄信息,將雙等位基因位點(diǎn)定位到注釋基因。 由于從失活的X染色體表達(dá)的量應(yīng)該低于活性X染色體,所以我們認(rèn)為較少的Reads值的 等位基因是來(lái)自"沉默的"X染色體,較多的Reads值的等位基因是"活性"等位基因。根據(jù) 雜合10%的閾值[1],總共發(fā)現(xiàn)了 CEU的37個(gè)人中有113個(gè)基因表現(xiàn)出逃脫失活,YRI的40 個(gè)人中103個(gè)基因逃脫失活。
[0046] 本發(fā)明人只認(rèn)為具有重復(fù)證據(jù)的基因是"驗(yàn)證"的逃脫基因。重復(fù)是指兩個(gè)或兩 個(gè)以上的個(gè)人或一個(gè)人兩個(gè)或多個(gè)SNP位點(diǎn),表明基因逃脫(表1)(初步認(rèn)為逃脫的基因, 沒(méi)有重復(fù)證據(jù)的基因見(jiàn)表1')。允許這兩種判定重復(fù)的方法之間重疊時(shí),我們發(fā)現(xiàn),其中有 38個(gè)與先前報(bào)道的通過(guò)嚙齒動(dòng)物/人的體細(xì)胞雜交法和初級(jí)人類細(xì)胞系測(cè)定[1]的逃脫 基因一致。此外,我們觀察到76個(gè)新的逃脫失活的基因。在我們正常個(gè)體的B淋巴細(xì)胞系 中總共發(fā)現(xiàn)了 114個(gè)確定逃脫失活的基因(表1)。其中14個(gè)在先前未被報(bào)道是逃脫基因 (而不是根本就沒(méi)有研究)。這14個(gè)基因里面有4個(gè)是滿足在不同個(gè)體間的一致性并且基 因內(nèi)SNP位點(diǎn)雜合性也一致的要求。我們提供了更多的支持人類X染色體逃脫的證據(jù),但 也有23個(gè)基因,之前被證實(shí)[1]在一定程度上會(huì)逃脫失活,我們這里無(wú)法確認(rèn)是逃脫的。
[0047] 表1、114個(gè)逃脫基因及重復(fù)證據(jù)
[0048]
【權(quán)利要求】
1. 一種X-染色體失活逃脫基因,其特征在于,所述基因包括:ABCB7、AIFM1、ALG13、 APEX2、APOO、ARHGAP4、ARMCX3、ATP6AP1、ATP6AP2、ATP7A、BCOR、BTK、CCDC22、CD99L2、CDK16、 CTPS2、CX0RF21、CX0RF38、CX0RF40A、CYBB、DDX26B、DDX3X、DKC1、DMD、DNASE 1L1、D0CK11、 EBP、EDA2R、EIF1AX、EIF2S3、ELF4、ELK1、FAM3A、FLNA、FTSJ1、G6PD、⑶11、GEMIN8、GPR174、 GRIPAP1、HAUS7、HCFC1、HDHD1、HUWE1、IDS、IGBP1、IRAKI、LAMP2、L0C550643、MAGED1、 MAGED2、MAGEH1、MAP7D2、MAP7D3、MBNL3、MED12、MED14、MID1IP1、M0RF4L2、MPP1、MSL3、 MTMR1、NSDHL、P2RY10、PDHA1、PDK3、PGK1、PM2、PIN4、PIR、PJA1、PLXNA3、PQBP1、PRKX、 RBM3、RENBP、RNF113A、RPL10、SASH3、SAT1、SEPT6、SH3BGRL、SH3KBP1、SLC25A43、SLC25A5、 SLC38A5、SMC1A、SNX12、STS、SUV39H1、SYN1、TAZ、TBC1D25、TBL1X、TCEAL4、TLR7、TMEM187、 TRAPPC2、TSIX、TSR2、TXLNG、UBA1、UBL4A、USP9X、UTP14A、VBP1、WWC3、XIAP、XIST、ZC4H2、 ZFX、ZMYM3、ZNF275 或 ZNF75D。
2. 如權(quán)利要求1所述的X-染色體失活逃脫基因,其特征在于,所述基因包括: ARHGAP4、CX0RF21、CYBB、ELF4、⑶11、GPR174、HAUS7、L0C550643、MAGED1、P2RY10、SLC25A43、 TAZ、TLR7 或 TSIX。
3. 如權(quán)利要求1所述的X-染色體失活逃脫基因,其特征在于,所述基因包括:DMD、 PDHA1、HCFC1、BCOR、ATP6AP2、FLNA、SYN1、PGK1、⑶II、MED12、DKC1、IDS、PQBP1、SMC1A、 HUWE1、NSDHL、IGBP1、LAMP2、ATP7A、FTSJ1、RPL10 或 EIF2S3。
4. 權(quán)利要求3所述的X-染色體失活逃脫基因作為X-連鎖精神發(fā)育遲滯(XLMR)或智 力殘疾(ID)疾病研究靶點(diǎn)的用途。
5. 權(quán)利要求1-3任一所述的失活逃脫基因的用途,用于分析人群中傾向基因逃脫的差 異或個(gè)體間基因逃脫差異。
6. 權(quán)利要求1-3任一所述的失活逃脫基因的用途,用于分析個(gè)體間基因逃脫差異。
【文檔編號(hào)】C12Q1/68GK104152456SQ201310176159
【公開(kāi)日】2014年11月19日 申請(qǐng)日期:2013年5月13日 優(yōu)先權(quán)日:2013年5月13日
【發(fā)明者】孔祥銀, 張宇超, 胡蘭靛, 朱于非 申請(qǐng)人:中國(guó)科學(xué)院上海生命科學(xué)研究院