本發(fā)明涉及醫(yī)學(xué)基因組學(xué)和計(jì)算生物學(xué)領(lǐng)域,具體涉及一種利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的方法。
背景技術(shù):
基因是遺傳的基本單位。它決定了生物的性狀以及生物的生長(zhǎng)與發(fā)育,基因與疾病以及生理特征之間有著極密切的關(guān)系?!叭祟惢蚪M計(jì)劃”的目標(biāo)就是要闡明人類基因的全部序列,從整體上破譯人類遺傳信息,從而使人類可以第一次從分子水平上全面認(rèn)識(shí)自身?!叭祟惢蚪M”的研究,已從“結(jié)構(gòu)基因組”階段進(jìn)入“功能基因組”階段,主要通過海量生物學(xué)數(shù)據(jù)分析,進(jìn)一步闡明基因組的生物學(xué)功能。因此,生物信息學(xué)是一門集生命科學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理學(xué)為一身的多學(xué)科交叉的前沿學(xué)科。公共數(shù)據(jù)庫(kù)是開展生物信息學(xué)研究的重要工具。目前,國(guó)際上公共數(shù)據(jù)庫(kù)發(fā)展極快,利用高通量測(cè)序、計(jì)算方法預(yù)測(cè)、文獻(xiàn)挖掘等技術(shù)產(chǎn)生了海量的數(shù)據(jù)資源,平均每15個(gè)月就會(huì)增長(zhǎng)一倍,并且這些數(shù)據(jù)庫(kù)大部分是開放的,是免費(fèi)提供各國(guó)科學(xué)家使用的。如何充分利用這些免費(fèi)資源、高效整合數(shù)據(jù)、深入挖掘分析已成為生物信息學(xué)的一個(gè)重要課題。
隨著高通量檢測(cè)技術(shù)的發(fā)展,我們可以從全基因組水平定量或定性檢測(cè)基因轉(zhuǎn)錄產(chǎn)物mrna。由于生物體中的細(xì)胞種類繁多,同時(shí)基因表達(dá)具有時(shí)空特異性,因此,基因表達(dá)數(shù)據(jù)與基因組數(shù)據(jù)相比,要更為復(fù)雜,數(shù)據(jù)量更大,數(shù)據(jù)的增長(zhǎng)速度更快。基因表達(dá)數(shù)據(jù)中蘊(yùn)含著基因活動(dòng)的信息,可以反映細(xì)胞當(dāng)前的生理狀態(tài),例如細(xì)胞是處于正常還是惡化狀態(tài)、藥物對(duì)腫瘤細(xì)胞是否有效等。據(jù)統(tǒng)計(jì),全球每年新增癌癥患者達(dá)700萬人,死于癌癥的病人達(dá)500萬人,60%的患者確診后只能存活5年。目前已知的癌癥有200多種,但是,無論什么癌癥,在腫瘤的特殊類別(分型)或發(fā)展的不同分期方面都發(fā)現(xiàn)有基因組的特異變化,而正是基因組的改變(突變)導(dǎo)致了細(xì)胞分化、發(fā)育和生長(zhǎng)通路的不正常,從而引發(fā)細(xì)胞不正常地失控增殖、生長(zhǎng)。人類的基因個(gè)數(shù)超過3萬,每種疾病相關(guān)的基因各不相同,有些疾病相關(guān)基因已經(jīng)被發(fā)現(xiàn),但是大多數(shù)的相關(guān)基因有待進(jìn)一步研究。對(duì)基因表達(dá)數(shù)據(jù)的分析可以獲取基因功能和基因表達(dá)調(diào)控信息,基因表達(dá)水平的差異可以識(shí)別癌癥相關(guān)基因,基因的功能分析包括研究基因的共同功能、相互作用以及協(xié)同調(diào)控,可直觀的看到基因功能間的所屬關(guān)系和作用模式,能夠發(fā)現(xiàn)預(yù)測(cè)基因與現(xiàn)有的癌癥基因間的關(guān)聯(lián)性、與重要基因之間存在的風(fēng)險(xiǎn)通路,這些關(guān)聯(lián)性和通路聯(lián)系可能是導(dǎo)致疾病發(fā)生的根源,從而可以闡釋復(fù)雜疾病的致病機(jī)理。因此,將差異表達(dá)基因分組進(jìn)行功能分析,并嘗試推斷潛在的基因調(diào)控網(wǎng)絡(luò)是目前生物信息學(xué)領(lǐng)域研究癌癥mrna表達(dá)數(shù)據(jù)最前沿的分析方法之一,是生物信息學(xué)的重大挑戰(zhàn),也是高通量技術(shù)能夠在生物醫(yī)學(xué)領(lǐng)域中廣泛應(yīng)用的一個(gè)關(guān)鍵原因。
直腸癌是消化道最常見的惡性腫瘤之一,因其位置深入盆腔,解剖關(guān)系復(fù)雜,手術(shù)不易徹底,術(shù)后復(fù)發(fā)率高。我國(guó)直腸癌發(fā)病年齡中位數(shù)在45歲左右,青年人發(fā)病率有升高的趨勢(shì)。直腸癌的病因目前仍不十分清楚,與多種因素有關(guān)。利用現(xiàn)有技術(shù)分析直腸癌mrna大數(shù)據(jù),預(yù)測(cè)與疾病相關(guān)基因,研究其潛在功能和致病機(jī)理是該領(lǐng)域目前最重要的問題。但是,在我國(guó)從事癌癥相關(guān)研究的科研人員大多不具備生物信息學(xué)背景,單純的實(shí)驗(yàn)和臨床技術(shù)手段無法解析日益增長(zhǎng)的高通量數(shù)據(jù),也不能從宏觀水平綜合分析基因的表達(dá)變化和相互作用。其次,因?yàn)榭蒲谐杀镜葐栴},很多研究人員缺乏資金支持,不能負(fù)擔(dān)實(shí)驗(yàn)所需費(fèi)用,也不能承受高通量技術(shù)服務(wù)費(fèi)特別是大樣本量的高通量檢測(cè)費(fèi)用,而生物信息學(xué)研究所需的投資有限卻可以做出高水平的工作,而且很多數(shù)據(jù)庫(kù)的信息是基于文獻(xiàn)驗(yàn)證的,能直接給相同領(lǐng)域的研究提供實(shí)驗(yàn)支持,這是面臨同樣困境的工作者能夠繼續(xù)研究工作的最佳解決方案。海量的數(shù)據(jù)資源雖然大多公開免費(fèi),質(zhì)量卻層次不齊,給科研人員帶來極大不便,而且絕大多數(shù)的數(shù)據(jù)庫(kù)在線服務(wù)全面具體,可是提供下載供本地化分析的數(shù)據(jù)都是原始數(shù)據(jù),不能直接使用,需要進(jìn)行再次或多次處理才可以。甚至不同數(shù)據(jù)庫(kù)使用的基因組注釋信息來源不同、標(biāo)準(zhǔn)不同,很多數(shù)據(jù)庫(kù)還會(huì)專門使用自己數(shù)據(jù)庫(kù)的特殊命名,也給工作者整合多個(gè)數(shù)據(jù)庫(kù)信息的工作帶來很大難度。因此,怎樣進(jìn)行有效的數(shù)據(jù)收集、預(yù)處理和分析是科研人員特別是無生物信息學(xué)背景的實(shí)驗(yàn)、臨床人員面臨的最大難點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的方法,以解決不擅長(zhǎng)整合現(xiàn)有網(wǎng)絡(luò)資源以及不能獨(dú)立完成基因相關(guān)的生物信息學(xué)分析的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
一種利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的方法,包括如下步驟:
步驟1,樣本數(shù)據(jù)下載和整理:獲取基因表達(dá)數(shù)據(jù),選定目標(biāo)疾病直腸癌和測(cè)序平臺(tái),下載數(shù)據(jù),下載的數(shù)據(jù)包含疾病樣本和對(duì)應(yīng)的正常樣本;
步驟2,對(duì)步驟1得到的基因表達(dá)數(shù)據(jù)去極值并分析;
步驟3,對(duì)經(jīng)過步驟2處理后的基因表達(dá)數(shù)據(jù)進(jìn)行篩選差異表達(dá)分析基因;
步驟4,對(duì)步驟3得到的基因進(jìn)行功能分析并找出與疾病相關(guān)的條目;
步驟5,互作基因分析,構(gòu)建網(wǎng)絡(luò)示意圖。
優(yōu)選的,所述步驟1具體包括如下步驟:
步驟1.1,進(jìn)入r語(yǔ)言工作界面,載入tcgabiolinks包;
步驟1.2,設(shè)定目標(biāo)疾病、測(cè)序平臺(tái)和mrna文件類型;
步驟1.3,批量下載所需的標(biāo)準(zhǔn)化數(shù)據(jù),得到單個(gè)樣本數(shù)據(jù);
步驟1.4,將上述步驟得到的單個(gè)樣本數(shù)據(jù)進(jìn)行合并。
優(yōu)選的,所述步驟1.1中,tcgabiolinks包是一個(gè)最新的數(shù)據(jù)庫(kù)表達(dá)數(shù)據(jù)下載分析語(yǔ)言包。
優(yōu)選的,所述步驟2中,所述基因表達(dá)數(shù)據(jù)去極值并分析的步驟中的極值數(shù)據(jù)為:作為rna表達(dá)值的標(biāo)準(zhǔn)化測(cè)序片段數(shù)目為零的數(shù)據(jù)。
優(yōu)選的,所述步驟3中,篩選差異表達(dá)分析基因選取1.5倍或者2倍的差異倍數(shù),選用三個(gè)標(biāo)準(zhǔn)benjamini–hochberg方法、fdr方法或者bonforroni方法校正p-value得到差異表達(dá)的mrna。
優(yōu)選的,所述步驟4中,基因進(jìn)行功能分析基于david數(shù)據(jù)庫(kù)信息,包括基因本體分析,代謝通路分析,疾病相關(guān)分析和調(diào)控網(wǎng)絡(luò)的構(gòu)建;
所述基因本體分析的步驟采用david數(shù)據(jù)庫(kù)信息從生物過程、分子功能和細(xì)胞組分三個(gè)成分進(jìn)行注釋和富集分析;
所述代謝通路分析的步驟采用david數(shù)據(jù)庫(kù)信息包含的kegg、reactome數(shù)據(jù)庫(kù)信息進(jìn)行分析;
所述疾病相關(guān)分析的步驟采用david數(shù)據(jù)庫(kù)信息包含的gad_disease、gad_disease_class和omim_disease數(shù)據(jù)庫(kù)信息進(jìn)行分析。
優(yōu)選的,所述步驟5中,所述互作基因分析的步驟整合基于文獻(xiàn)驗(yàn)證或是算法預(yù)測(cè)的網(wǎng)絡(luò)蛋白互作數(shù)據(jù)庫(kù)string、dip、hprd、intact和mint,構(gòu)建數(shù)據(jù)量最大最全的預(yù)測(cè)及驗(yàn)證信息相結(jié)合的蛋白互作數(shù)據(jù)集,得到能夠相互作用的基因?qū)?,其分析結(jié)果能夠圖形化展示。
本發(fā)明的另一個(gè)目的是提供一種利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng),技術(shù)方案如下:
一種利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng),該系統(tǒng)包括:
樣本數(shù)據(jù)下載和整理模塊,用于獲取基因表達(dá)數(shù)據(jù),包含疾病樣本和對(duì)應(yīng)的正常樣本;
基因表達(dá)數(shù)據(jù)去極值并分析模塊,用于對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行表達(dá)分析,統(tǒng)計(jì)差異顯著性,此過程需排除零值等極值影響;
篩選差異基因模塊,用于將差異表達(dá)的mrna按照差異倍數(shù)絕對(duì)值和校正的p-value作為篩選條件,挑選出待研究mrna;
功能分析模塊,用于根據(jù)選中的mrna,采用david數(shù)據(jù)庫(kù)信息進(jìn)行基因本體分析,代謝通路分析和疾病相關(guān)分析;
互作基因注釋模塊,用于整合基于文獻(xiàn)驗(yàn)證或是算法預(yù)測(cè)的網(wǎng)絡(luò)現(xiàn)有的蛋白互作數(shù)據(jù)庫(kù)找出預(yù)測(cè)或驗(yàn)證的互作基因并圖形化展示。
本發(fā)明的再一個(gè)目的是提供上述利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng)的應(yīng)用。
所述的應(yīng)用包括:
應(yīng)用所述利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng)的生物靶向治療系統(tǒng)。
應(yīng)用所述利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng)的生物藥物研制工藝。
應(yīng)用所述利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng)的致病機(jī)理系統(tǒng)。
應(yīng)用所述利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng)的致病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)。
有益效果:本發(fā)明提供的利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的方法,基于公共數(shù)據(jù)資源例如癌癥基因組圖譜tcga(thecancergenomeatlas)下的直腸癌mrna測(cè)序數(shù)據(jù),運(yùn)用生物信息學(xué)方法,對(duì)mrna表達(dá)數(shù)據(jù)進(jìn)行分析處理,識(shí)別與直腸癌相關(guān)的mrna。本發(fā)明發(fā)現(xiàn)與直腸癌等癌癥復(fù)雜疾病相關(guān)的多個(gè)重要通路和風(fēng)險(xiǎn)基因,對(duì)復(fù)雜疾病的生物靶向治療、生物藥物研制、致病機(jī)理闡釋及風(fēng)險(xiǎn)預(yù)測(cè)等都有重要意義。本發(fā)明能解決不擅長(zhǎng)整合現(xiàn)有網(wǎng)絡(luò)資源、不熟悉mrna相關(guān)的最常用數(shù)據(jù)庫(kù)及前沿分析方法以及不能獨(dú)立完成mrna表達(dá)譜相關(guān)的生物信息學(xué)分析等問題。本發(fā)明采用豐富多樣的生物信息學(xué)手段,整合多個(gè)權(quán)威性強(qiáng)普及率高的公共網(wǎng)絡(luò)資源構(gòu)建數(shù)據(jù)量最大最全的結(jié)合預(yù)測(cè)及驗(yàn)證信息的蛋白互作數(shù)據(jù)集,形成了一套完整的前沿的基因功能分析和互作分析流程,可有效利用公共數(shù)據(jù)庫(kù)的海量高通量數(shù)據(jù)和實(shí)驗(yàn)驗(yàn)證數(shù)據(jù),降低科研成本,提高分析效率。合理靈活使用不同類型的公共資源,既可以免費(fèi)獲得所需大數(shù)據(jù)進(jìn)行分析為實(shí)驗(yàn)、臨床人員提供研究思路和前期科研基礎(chǔ),也可為實(shí)驗(yàn)結(jié)果提供最新最全的證據(jù)支持。作為開放性的數(shù)據(jù)分析方法,不僅適用于各種癌癥mrna表達(dá)數(shù)據(jù),也適用于其他公共平臺(tái)的測(cè)序數(shù)據(jù),還可以整合不同類型的公共數(shù)據(jù)庫(kù)資源進(jìn)行最詳盡專業(yè)的功能分析和蛋白互作分析,發(fā)現(xiàn)疾病相關(guān)重要通路和風(fēng)險(xiǎn)基因,預(yù)測(cè)功能基因作用模式。本發(fā)明能發(fā)現(xiàn)與直腸癌等復(fù)雜疾病相關(guān)的多個(gè)風(fēng)險(xiǎn)通路和基因,對(duì)復(fù)雜疾病的生物靶向治療、生物藥物研制、致病機(jī)理闡述及風(fēng)險(xiǎn)預(yù)測(cè)都有重要意義。其分析流程思路清晰,實(shí)現(xiàn)方法簡(jiǎn)單,可廣泛應(yīng)用于生物學(xué)研究工作中,也可用于臨床相關(guān)應(yīng)用。
附圖說明
圖1是本發(fā)明提供的利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的方法的分析流程圖;
圖2是代謝通路示意圖,顯示直腸癌的差異表達(dá)基因主要富集的代謝通路;
圖3是重要疾病相關(guān)示意圖,顯示已被驗(yàn)證的與直腸癌差異表達(dá)基因相關(guān)的重要疾病;
圖4是直腸癌相關(guān)基因互作網(wǎng)絡(luò)示意圖,基因間有連線的,表明被連接的兩個(gè)基因有互作關(guān)系,未連接的證明彼此間沒有相互作用關(guān)系。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作更進(jìn)一步的說明。
如圖1所示,本發(fā)明的一種利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的方法,包括如下步驟:
步驟1,樣本數(shù)據(jù)下載和整理:獲取mrna表達(dá)數(shù)據(jù),選定目標(biāo)疾病和測(cè)序平臺(tái),數(shù)據(jù)包含疾病樣本和對(duì)應(yīng)的正常樣本;
步驟2,整合基因表達(dá)數(shù)據(jù)并分析;
步驟3,篩選差異表達(dá)分析基因;
步驟4,對(duì)基因進(jìn)行功能分析并找出與疾病相關(guān)的條目。
步驟5,互作分析,構(gòu)建網(wǎng)絡(luò)示意圖。
其中,步驟1具體包括如下步驟:
步驟1.1,進(jìn)入r語(yǔ)言工作界面,載入tcgabiolinks包;
步驟1.2,設(shè)定目標(biāo)疾病、測(cè)序平臺(tái)和mrna文件類型;
步驟1.3,批量下載所需的標(biāo)準(zhǔn)化數(shù)據(jù);
步驟1.4,將上述步驟得到多個(gè)表達(dá)數(shù)據(jù)文件進(jìn)行合并。
如圖1所示,步驟3中,差異表達(dá)mrna的篩選包括選取1.5倍或者2倍的差異倍數(shù)(foldchange),選用國(guó)際最通用的三個(gè)標(biāo)準(zhǔn)benjamini–hochberg方法、fdr方法或者bonforroni方法校正p-value得到差異表達(dá)的mirna。
如圖1所示,步驟4中,mrna的功能性分析包括基因本體分析,代謝通路分析和疾病相關(guān)分析。
如圖1所示,步驟5中,互作分析是整合網(wǎng)絡(luò)蛋白互作數(shù)據(jù)庫(kù)string等數(shù)據(jù)信息進(jìn)行注釋并圖形化展示。
在本發(fā)明的一個(gè)實(shí)施方案中,在r平臺(tái),使用tcgabiolinks軟件包下載所需研究數(shù)據(jù)。
在本發(fā)明的一個(gè)實(shí)施方案中,在r平臺(tái),對(duì)mrna的結(jié)果進(jìn)行錯(cuò)誤發(fā)現(xiàn)率矯正??梢圆捎胋enjamini–hochberg,fdr和bonferroni方法。
benjamini–hochberg方法
上式中,α是給定的顯著性閥值;k代表樣本容量;m代表從小到大的排列順序。
fdr方法
上式中,m0代表零假設(shè)是真的時(shí)候的樣本總數(shù);m代表樣本容量;q為顯著性閥值。
bonferroni方法
p=α/k
上式中,α是給定的顯著性閥值;k是樣本容量。
在本發(fā)明的一個(gè)實(shí)施方案中,對(duì)篩選的差異表達(dá)基因采用david數(shù)據(jù)庫(kù)信息從生物過程、分子功能和細(xì)胞組分三個(gè)成分進(jìn)行基因本體注釋和富集分析,差異顯著可以用benjamini–hochberg,bonferroni和fdr方法。
david數(shù)據(jù)庫(kù)
基因的功能注釋在表達(dá)數(shù)據(jù)分析中是必需且關(guān)鍵的步驟。生物學(xué)知識(shí)的分布式性質(zhì)經(jīng)常需要研究者瀏覽很多可通過網(wǎng)絡(luò)訪問的數(shù)據(jù)庫(kù)而收集的信息,一次一個(gè)基因。一個(gè)更明智更便利的方法是提供基于查詢的對(duì)一個(gè)整合數(shù)據(jù)庫(kù)的訪問,該數(shù)據(jù)庫(kù)散布跨大量數(shù)據(jù)集的生物學(xué)上富集的信息,并顯示功能信息的圖形化摘要。david就是這樣一個(gè)集注釋、可視化和整合發(fā)現(xiàn)于一身的數(shù)據(jù)庫(kù),通過4個(gè)基于網(wǎng)絡(luò)的分析模塊:1)注釋工具——從多個(gè)公共數(shù)據(jù)庫(kù)中,對(duì)數(shù)個(gè)列表中的基因快速添加描述性數(shù)據(jù);2)gocharts——基于用戶選擇的分類和術(shù)語(yǔ)特異性水平,將基因分配到基因本體論功能分類中;3)keggcharts——將基因分配到kegg代謝過程中,并使用戶在生物化學(xué)通路圖環(huán)境中查看基因成為可能;及4)domaincharts——根據(jù)pfam保守型蛋白質(zhì)域?qū)⒒蜻M(jìn)行分組。分析結(jié)果和圖形化展示仍然動(dòng)態(tài)的鏈接到原始數(shù)據(jù)和額外數(shù)據(jù)庫(kù),因此提供深入及廣泛的數(shù)據(jù)覆蓋。由david提供的功能通過促進(jìn)從數(shù)據(jù)收集到生物學(xué)意義的轉(zhuǎn)換,加速了基因組范圍的數(shù)據(jù)集的分析。
在本發(fā)明的一個(gè)實(shí)施方案中,對(duì)篩選的差異表達(dá)基因采用david數(shù)據(jù)庫(kù)信息整合的kegg和reactome數(shù)據(jù)庫(kù)信息進(jìn)行代謝通路分析,差異顯著可以用benjamini–hochberg、bonferroni和fdr方法。
kegg數(shù)據(jù)庫(kù)
kegg由日本京都大學(xué)生物信息學(xué)中心的kanehisa實(shí)驗(yàn)室于1995年建立。是國(guó)際最常用的生物信息數(shù)據(jù)庫(kù)之一,以“理解生物系統(tǒng)的高級(jí)功能和實(shí)用程序資源庫(kù)”著稱,也是代謝分析領(lǐng)域應(yīng)用最廣最權(quán)威的數(shù)據(jù)庫(kù)。大致分為系統(tǒng)信息、基因組信息和化學(xué)信息三大類。進(jìn)一步可細(xì)分為16個(gè)主要的數(shù)據(jù)庫(kù)。例如,基因組信息存儲(chǔ)在genes數(shù)據(jù)庫(kù)里,包括完整和部分測(cè)序的基因組序列;更高級(jí)的功能信息存儲(chǔ)在pathway數(shù)據(jù)庫(kù)里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;kegg的另一個(gè)數(shù)據(jù)庫(kù)ligand,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。
reactome數(shù)據(jù)庫(kù)
反應(yīng)組學(xué)(reactome)是一個(gè)匯集了由專家撰寫,經(jīng)同行評(píng)閱的有關(guān)人體內(nèi)各項(xiàng)反應(yīng)及生物學(xué)路徑的文獻(xiàn)的數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)相當(dāng)于一個(gè)有效的數(shù)據(jù)資源以及電子圖書。該庫(kù)目前發(fā)布了共計(jì)2975個(gè)人類蛋白、2907項(xiàng)生物學(xué)反應(yīng)以及4455個(gè)引用文獻(xiàn)。該數(shù)據(jù)庫(kù)為人們提供了一個(gè)全新的從整體水平上對(duì)生物學(xué)途徑進(jìn)行研究的工具,同時(shí),它也是一個(gè)改良的搜索及數(shù)據(jù)挖掘工具,可以簡(jiǎn)化與生物學(xué)途徑相關(guān)的數(shù)據(jù)搜索與研究。此外,對(duì)用戶提供的高通量數(shù)據(jù)組進(jìn)行分析,也變得更為簡(jiǎn)單。
在本發(fā)明的一個(gè)實(shí)施方案中,對(duì)篩選的差異表達(dá)基因采用david數(shù)據(jù)庫(kù)信息包含的gad_disease、gad_disease_class和omim_disease信息進(jìn)行疾病相關(guān)分析,差異顯著可以用benjamini–hochberg、bonferroni和fdr方法。
gad數(shù)據(jù)庫(kù)
疾病關(guān)聯(lián)數(shù)據(jù)庫(kù)(gad)收集了多種復(fù)雜疾病與相關(guān)基因關(guān)系的數(shù)據(jù)庫(kù)。研究人員可以從數(shù)據(jù)庫(kù)免費(fèi)獲取基因突變信息和基因與復(fù)雜疾病關(guān)系信息,為臨床大規(guī)模snp篩查,突變研究疾病相關(guān)等提供便利。
在本發(fā)明的一個(gè)實(shí)施方案中,對(duì)篩選的差異表達(dá)基因特別是參與重要通路或與疾病相關(guān)的基因進(jìn)行互作分析,整合了基于文獻(xiàn)驗(yàn)證或是算法預(yù)測(cè)的網(wǎng)絡(luò)蛋白互作數(shù)據(jù)庫(kù)string、dip、hprd、intact和mint,構(gòu)建數(shù)據(jù)量最大最全的預(yù)測(cè)及驗(yàn)證信息相結(jié)合的蛋白互作數(shù)據(jù)集,得到可以相互作用的基因?qū)Γ浞治鼋Y(jié)果可圖形化展示。
string數(shù)據(jù)庫(kù)
string是用來瀏覽和分析基因間的基因組相關(guān)性的一個(gè)預(yù)計(jì)算的全局資源,預(yù)測(cè)的相互作用的數(shù)目是非常大的,能夠評(píng)估并比較個(gè)別預(yù)測(cè)的顯著性。因此,string包含了一種獨(dú)特的基于對(duì)一個(gè)常用參考數(shù)據(jù)集的不同類型相關(guān)性基準(zhǔn)的打分框架,整合為每個(gè)預(yù)測(cè)的一個(gè)單個(gè)置信分?jǐn)?shù)。推斷的、加權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò)的圖形化展示提供了功能鏈接的一個(gè)高水平查看,促進(jìn)了生物過程中的模塊化分析。string是持續(xù)更新的,當(dāng)前包括了89種完全測(cè)序的基因組中的261033個(gè)直系同源。
dip蛋白相互作用數(shù)據(jù)庫(kù)
dip(databaseofinteractingprotein)研究生物反應(yīng)機(jī)制的重要工具。dip可以用基因的名字等關(guān)鍵詞查詢,使用上較方便。查詢的結(jié)果列出節(jié)點(diǎn)(node)與連結(jié)(link)兩項(xiàng),節(jié)點(diǎn)是敘述所查詢的蛋白質(zhì)的特性,包括蛋白質(zhì)的功能域(domain)、指紋(fingerprint)等,若有酶的代碼或出現(xiàn)在細(xì)胞中的位置,也會(huì)一并批注。連結(jié)所指的是可能產(chǎn)生的相互作用,dip對(duì)每一個(gè)相互作用都會(huì)說明證據(jù)(實(shí)驗(yàn)的方法)與提供文獻(xiàn),此外,也記錄除巨量分析外,支持此相互作用的實(shí)驗(yàn)數(shù)量。dip還可以用序列相似性(blast)、模式(pattern)等查詢。
hprd數(shù)據(jù)庫(kù)
hprd(humanproteinreferencedatabase)是包含蛋白質(zhì)注釋、蛋白蛋白互作(ppi)、轉(zhuǎn)錄后修飾、亞細(xì)胞定位等多種信息的綜合數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)只收錄人的ppis,目前已包含25000多個(gè)蛋白質(zhì)和37000多條相互作用信息,是來源于文獻(xiàn)挖掘的最大的人ppi數(shù)據(jù)庫(kù)。hprd對(duì)ppi數(shù)據(jù)有2種分類方式。一是根據(jù)相互作用的拓?fù)浣Y(jié)構(gòu)和與數(shù)目,將ppi分成二元相互作用和復(fù)雜相互作用(復(fù)合物);二是根據(jù)實(shí)驗(yàn)類型,將ppi分為體內(nèi)(invivo),體外(invitro)和酵母雙雜交(y2h)3類相互作用。
intact數(shù)據(jù)庫(kù)
intact(molecularinteractiondatabase)也是一個(gè)存儲(chǔ)和分析生物分子間相互作用的公共數(shù)據(jù)庫(kù)。主要記錄二元相互作用及其實(shí)驗(yàn)方法、實(shí)驗(yàn)條件和相互作用結(jié)構(gòu)域,包括人、酵母、果蠅、大腸桿菌等物種。intact數(shù)據(jù)庫(kù)分基本查詢和高級(jí)查詢,基本查詢可以根據(jù)蛋白質(zhì)名稱、pubmedid等進(jìn)行簡(jiǎn)單搜索;高級(jí)查詢根據(jù)實(shí)驗(yàn)方法和intact自定義的控制詞匯(controlledvocabularies)進(jìn)行查詢,查詢結(jié)果更加精確。intact支持psi-mixml1.0和2.5格式,提供ppi網(wǎng)絡(luò)的可視化在線分析,同時(shí)支持cytoscape、proviz等第3方網(wǎng)絡(luò)構(gòu)建軟件。
mint數(shù)據(jù)庫(kù)
mint(molecularinteractiondatabase)數(shù)據(jù)庫(kù)建立的目標(biāo)是提取文獻(xiàn)信息,存儲(chǔ)經(jīng)實(shí)驗(yàn)證實(shí)的生物分子相互作用。目前,mint主要存儲(chǔ)蛋白質(zhì)物理相互作用,尤其強(qiáng)調(diào)哺乳動(dòng)物的ppis,同時(shí)包含部分酵母、果蠅、病毒的ppis。在查詢時(shí),mint可根據(jù)蛋白質(zhì)名稱、各數(shù)據(jù)庫(kù)id(如uniprotkb、pdb、ensembl、flybase、omim)、關(guān)鍵詞等進(jìn)行基本查詢,也可與dip數(shù)據(jù)庫(kù)一樣,按照序列blast查找同源相互作用。mint支持平面文件格式、psi2mi格式、osprey格式,提供基于java語(yǔ)言的網(wǎng)絡(luò)可視化應(yīng)用工具“mintviewer”。
在本發(fā)明的一個(gè)實(shí)施方案中,在得到基因的基因本體、代謝、疾病相關(guān)和互作基因?qū)螅珊羞@些信息的網(wǎng)絡(luò)文件。可以用cytoscape軟件打開,圖形化展示。
一種利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng),該系統(tǒng)包括:
樣本數(shù)據(jù)下載和整理模塊,用于獲取基因表達(dá)數(shù)據(jù),包含疾病樣本和對(duì)應(yīng)的正常樣本;
基因表達(dá)數(shù)據(jù)去極值并分析模塊,用于對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行表達(dá)分析,統(tǒng)計(jì)差異顯著性,此過程需排除零值等極值影響;
篩選差異基因模塊,用于將差異表達(dá)的mrna按照差異倍數(shù)絕對(duì)值和校正的p-value作為篩選條件,挑選出待研究mrna;
功能分析模塊,用于根據(jù)選中的mrna,采用david數(shù)據(jù)庫(kù)信息進(jìn)行基因本體分析,代謝通路分析和疾病相關(guān)分析;
互作基因注釋模塊,用于整合基于文獻(xiàn)驗(yàn)證或是算法預(yù)測(cè)的網(wǎng)絡(luò)現(xiàn)有的蛋白互作數(shù)據(jù)庫(kù)找出預(yù)測(cè)或驗(yàn)證的互作基因并圖形化展示。
上述的利用公共數(shù)據(jù)資源發(fā)現(xiàn)并整合直腸癌相關(guān)基因及其功能分析的系統(tǒng)能夠用于生物靶向治療系統(tǒng)、生物藥物研制工藝、致病機(jī)理系統(tǒng)、致病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)。
以下結(jié)合具體實(shí)施例對(duì)上述方案做進(jìn)一步說明。應(yīng)理解,這些實(shí)施例是用于說明本發(fā)明而不是限制本發(fā)明的范圍。實(shí)施例中采用的實(shí)施條件可以根據(jù)具體應(yīng)用要求的條件做進(jìn)一步調(diào)整,未注明的實(shí)施條件通常為常規(guī)實(shí)驗(yàn)中的條件。
實(shí)施例
首先對(duì)原始數(shù)據(jù)進(jìn)行過濾處理,然后去除低質(zhì)量的數(shù)據(jù),得到有效的mrna標(biāo)準(zhǔn)化的表達(dá)值?;趍rna表達(dá)數(shù)據(jù)差異分析結(jié)果,進(jìn)行功能性分析和基因互作分析。在上述分析的基礎(chǔ)上,可進(jìn)行一系列的統(tǒng)計(jì)學(xué)和可視化分析。
1.mrna表達(dá)值文件如表1所示
分析平臺(tái):r平臺(tái)
分析軟件:tcgabiolinks
表1
列名解釋:
2.mrna表達(dá)分析結(jié)果如表2所示
分析平臺(tái):r平臺(tái)
分析軟件:tcgabiolinks
表2
列名解釋:
3.差異表達(dá)的mrna結(jié)果如表3所示
分析平臺(tái):r平臺(tái)
分析軟件:tcgabiolinks
表3
列名解釋:
4.功能性分析
利用david數(shù)據(jù)庫(kù)的信息對(duì)靶基因從生物過程、分子功能和細(xì)胞組成進(jìn)行基因本體分析,代謝通路分析和疾病相關(guān)分析。能夠發(fā)現(xiàn)預(yù)測(cè)基因與癌癥基因間的關(guān)聯(lián)性、與重要基因之間存在的風(fēng)險(xiǎn)通路。這些關(guān)聯(lián)分析和通路聯(lián)系可能是導(dǎo)致疾病發(fā)生的根源。
分析軟件:david
結(jié)果所示:
表4生物通路富集分析
列名解釋
表5分子功能富集分析
列名解釋:
表6細(xì)胞組分富集分析
列名解釋:
表7代謝通路富集分析
列名解釋:
表8疾病相關(guān)分析
列名解釋:
5.基因互作分析及互作網(wǎng)絡(luò)構(gòu)建
蛋白質(zhì)間的功能鏈接通常能夠從編碼它們的基因間的基因組相關(guān)性中推斷,通過整合公共網(wǎng)絡(luò)含驗(yàn)證和預(yù)測(cè)蛋白蛋白互作的數(shù)據(jù)庫(kù)信息,對(duì)差異表達(dá)的基因特別是參與重要通路和疾病相關(guān)的基因進(jìn)行互作分析。使用的數(shù)據(jù)庫(kù)通常有string、dip、hprd、intact和mint等。
分析平臺(tái):r平臺(tái)
圖形化軟件:cytoscape
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)例的限制,上述實(shí)例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等同物界定。