欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng)的制作方法

文檔序號(hào):10655810閱讀:830來源:國(guó)知局
一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),包括過濾模塊,用于外顯子組處理流程中的vcf文件以及ANNOVAR注釋軟件的輸出文件;分析模塊,用于進(jìn)行不同實(shí)驗(yàn)組突變位點(diǎn)的描述性分析;匯總模塊,用于對(duì)每個(gè)樣本的突變基因進(jìn)行匯總,依據(jù)實(shí)驗(yàn)組突變基因列表構(gòu)建突變基因矩陣;挖掘模塊,用于對(duì)生成的突變基因矩陣進(jìn)行依據(jù)Fisher精確檢驗(yàn)的互斥以及共突變分析,確定互斥與共突變基因。本發(fā)明通過使用突變位點(diǎn)的注釋信息以及測(cè)序read數(shù)、位點(diǎn)測(cè)序深度等基本參數(shù)對(duì)突變位點(diǎn)進(jìn)行過濾,然后對(duì)于得到的突變位點(diǎn)進(jìn)行不同實(shí)驗(yàn)組突變模式的描述性分析以及共突變、互斥突變基因集合的挖掘。
【專利說明】
-種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于基因信息數(shù)據(jù)處理領(lǐng)域,特別是設(shè)及到一種腫瘤突變位點(diǎn)篩選及互斥 基因挖掘的系統(tǒng)。
【背景技術(shù)】
[0002] 腫瘤是由環(huán)境因素與遺傳因素共同誘發(fā)的惡性疾病,其中遺傳誘因設(shè)及到大量基 因的功能異常(突變、甲基化改變)。而基因突變認(rèn)為是腫瘤發(fā)生發(fā)展的最主要驅(qū)動(dòng)因素。最 近一些W二代測(cè)序?yàn)橹饕侄蔚难芯宽?xiàng)目成功地在多種腫瘤類型中掲示了大量的潛在腫 瘤驅(qū)動(dòng)基因。因此,對(duì)二代測(cè)序數(shù)據(jù)的有效分析是進(jìn)一步了解腫瘤病理生理學(xué)特性、實(shí)現(xiàn)對(duì) 腫瘤的早期診斷、祀向治療的關(guān)鍵。
[0003] 對(duì)腫瘤病人基因突變進(jìn)行全局性描述,主要的二代測(cè)序技術(shù)手段有全基因組測(cè)序 W及全外顯子組測(cè)序兩種方法。雖然對(duì)于每個(gè)堿基而言,二代測(cè)序的成本在快速下降,但是 對(duì)大量樣本進(jìn)行全基因組測(cè)序仍然是一個(gè)耗費(fèi)巨大的工作。已有研究證實(shí)有約85%的腫瘤 相關(guān)突變坐落于蛋白質(zhì)編碼區(qū)。因此,外顯子組測(cè)序是一種經(jīng)濟(jì)成本相對(duì)較低,同時(shí)基本可 W完整反應(yīng)腫瘤突變模式的測(cè)序手段。
[0004] 在腫瘤突變基因中,存在互斥突變基因 W及共突變基因兩種特殊情況?;コ馔蛔?基因指的是兩個(gè)基因在同一樣本中傾向不同時(shí)突變,而共突變基因傾向于兩個(gè)基因在一定 數(shù)量樣本中同時(shí)突變。通常認(rèn)為互斥突變基因更加傾向于腫瘤的驅(qū)動(dòng)基因,運(yùn)些互斥突變 基因往往負(fù)責(zé)同一生物學(xué)通路的功能行使。而共突變基因往往設(shè)及到腫瘤需要影響的多個(gè) 生物學(xué)過程。因此鑒別腫瘤個(gè)體樣本中具有互斥W及共突變關(guān)系的基因集合對(duì)于理解腫瘤 的發(fā)病機(jī)制W及生物學(xué)表現(xiàn)具有重要作用。
[0005] 目前挖掘腫瘤突變位點(diǎn)的方法W及軟件工具往往篩選條件不夠直觀。篩選過程對(duì) 于使用者呈現(xiàn)一種"黑箱子"狀態(tài)。運(yùn)樣不利于使用者對(duì)于找到的突變位點(diǎn)進(jìn)行進(jìn)一步的生 物學(xué)解讀。

【發(fā)明內(nèi)容】

[0006] 有鑒于此,本發(fā)明提出一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),通過使用 突變位點(diǎn)的注釋信息W及測(cè)序read數(shù)、位點(diǎn)測(cè)序深度等基本參數(shù)對(duì)突變位點(diǎn)進(jìn)行過濾,然 后對(duì)于得到的突變位點(diǎn)進(jìn)行不同實(shí)驗(yàn)組突變模式的描述性分析W及共突變、互斥突變基因 集合的挖掘。
[0007] 為達(dá)到上述目的,本發(fā)明的技術(shù)方案是運(yùn)樣實(shí)現(xiàn)的:一種腫瘤突變位點(diǎn)篩選及互 斥基因挖掘的系統(tǒng),包括:
[0008] 過濾模塊,用于外顯子組處理流程中的VCf文件W及ANNOVAR注釋軟件的輸出文 件,得到感興趣組織和對(duì)照組織的突變位點(diǎn)的突變r(jià)ead數(shù)、位點(diǎn)測(cè)序深度、突變頻率;
[0009] 分析模塊,用于進(jìn)行不同實(shí)驗(yàn)組突變位點(diǎn)的描述性分析,找到實(shí)驗(yàn)組間的交疊突 變位點(diǎn)W及特異性的突變位點(diǎn),所述特異性的突變位點(diǎn)是指該突變位點(diǎn)在一個(gè)實(shí)驗(yàn)組出現(xiàn) 而不在另外一個(gè)實(shí)驗(yàn)組中出現(xiàn);
[0010] 匯總模塊,用于對(duì)每個(gè)樣本的突變基因進(jìn)行匯總,依據(jù)實(shí)驗(yàn)組突變基因列表構(gòu)建 突變基因矩陣;
[0011] 挖掘模塊,用于對(duì)生成的突變基因矩陣進(jìn)行依據(jù)Fisher精確檢驗(yàn)的互斥W及共突 變分析,確定互斥與共突變基因;
[0012 ]所述過濾模塊、分析模塊、匯總模塊、挖掘模塊依次連接。
[0013] 進(jìn)一步的,所述過濾模塊包括VCf文件過濾單元和ANNOVAR注釋軟件輸出文件過濾 單元;
[0014] 所述VCf文件過濾單元用于根據(jù)VCf文件過濾標(biāo)準(zhǔn)進(jìn)行過濾,所述VCf文件過濾標(biāo) 準(zhǔn)為:對(duì)于感興趣組織的突變r(jià)ead數(shù)〉=3,位點(diǎn)測(cè)序深度〉=8,突變頻率〉=0.1;對(duì)于對(duì)照 組織要求突變r(jià)ead數(shù)<3,位點(diǎn)測(cè)序深度〉=8,突變頻率<0.1;
[0015] 所述ANNOVAR注釋軟件輸出文件過濾單元的過濾標(biāo)準(zhǔn)為:突變位于外顯子區(qū)域;突 變位點(diǎn)不能位于染色體高度重復(fù)區(qū)域;esp數(shù)據(jù)庫(kù)中的群體變異頻率低于5%;在千人基因 組計(jì)劃中的變異頻率低于5%。
[0016] 進(jìn)一步的,所述分析模塊包括突變位點(diǎn)發(fā)現(xiàn)單元和制圖單元,所述突變位點(diǎn)發(fā)現(xiàn) 單元用于找到實(shí)驗(yàn)組之間特異性的突變位點(diǎn)W及實(shí)驗(yàn)組之間共同的突變位點(diǎn),所述制圖單 元用于將突變位點(diǎn)通過Venn圖的方式進(jìn)行展示。
[0017] 更進(jìn)一步的,所述突變位點(diǎn)發(fā)現(xiàn)單元包括交疊突變位點(diǎn)子單元和特異突變位點(diǎn)子 單元、W及統(tǒng)計(jì)子單元;所述交疊突變位點(diǎn)子單元用于發(fā)現(xiàn)出現(xiàn)在兩個(gè)實(shí)驗(yàn)組同一病人樣 本中的突變位點(diǎn)集合;所述特異突變位點(diǎn)子單元用于發(fā)現(xiàn)在一實(shí)驗(yàn)組中病人樣本中出現(xiàn)而 不在另一實(shí)驗(yàn)組同一病人樣本中出現(xiàn)的突變位點(diǎn);所述統(tǒng)計(jì)子單元對(duì)經(jīng)過交疊或特異性分 析的病人突變位點(diǎn)文件進(jìn)行個(gè)數(shù)統(tǒng)計(jì)。
[0018] 更進(jìn)一步的,所述制圖單元包括集合子單元和可視化子單元;所述集合子單元用 于將每個(gè)病人通過一些列運(yùn)算得到的最終突變位點(diǎn)集合匯總成實(shí)驗(yàn)組群體樣本的突變位 點(diǎn)集合;所述可視化子單元用于通過韋恩圖對(duì)集合匯總子單元的數(shù)據(jù)進(jìn)行可視化關(guān)系分 析。
[0019] 進(jìn)一步的,所述匯總模塊包括基因匯總單元和矩陣構(gòu)成單元;所述基因匯總單元 用于對(duì)每個(gè)樣本的突變基因進(jìn)行匯總,所述矩陣構(gòu)成單元用于構(gòu)建突變基因矩陣信息,輸 出結(jié)果每一行對(duì)應(yīng)一個(gè)實(shí)驗(yàn)組突變基因,每一列對(duì)應(yīng)一個(gè)樣本,0表示未突變,1表示突變。
[0020] 相對(duì)于現(xiàn)有技術(shù),本發(fā)明所述的腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng)具有W 下優(yōu)勢(shì):
[0021] 本發(fā)明結(jié)合外顯子組處理流程中的VCf文件W及MNOVAR注釋軟件的輸出文件對(duì) 樣本基因突變位點(diǎn)進(jìn)行基于突變r(jià)ead數(shù)、位點(diǎn)測(cè)序深度、突變頻率W及突變對(duì)蛋白質(zhì)影響 等方面的過濾。同時(shí)可W對(duì)不同組病人突變位點(diǎn)進(jìn)行描述性分析W及獲得同一實(shí)驗(yàn)組中共 突變W及互斥突變的基因集合,篩選條件W及篩選過程對(duì)于使用者直觀呈現(xiàn)。有利于使用 者對(duì)于找到的突變位點(diǎn)進(jìn)行進(jìn)一步的生物學(xué)解讀。
【附圖說明】
[0022] 構(gòu)成本發(fā)明的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0023] 圖1為本發(fā)明的分析流程示意圖。
[0024] 圖2為本發(fā)明實(shí)施例中Gl樣本生成的頻率文件局部截圖。
[002引圖3為本發(fā)明實(shí)施例中樣本群體隨過濾頻率變化的曲線。
[0026] 圖4為本發(fā)明實(shí)施例中腫瘤組織與正常組織的突變位點(diǎn)韋恩圖。
[0027] 圖5為本發(fā)明實(shí)施例中案例樣本群體中突變部分基因列表。
[00%]圖6為本發(fā)明實(shí)施例中突變基因矩陣示例。
[0029] 圖7為本發(fā)明實(shí)施例中互斥與共突變基因關(guān)系展示。
【具體實(shí)施方式】
[0030] 需要說明的是,在不沖突的情況下,本發(fā)明的實(shí)施例及實(shí)施例中的特征可W相互 組合。
[0031 ]下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0032] 本發(fā)明的方法原理如下:
[0033] 基因突變的發(fā)生是腫瘤發(fā)生的前提條件,通過外顯子組測(cè)序數(shù)據(jù)對(duì)突變基因(基 因位點(diǎn))進(jìn)行鑒定是生物醫(yī)學(xué)研究的重要手段之一。對(duì)細(xì)胞生理狀態(tài)影響較大的是那些對(duì) 基因所翻譯蛋白質(zhì)具有一定影響的基因,故為了鑒別出腫瘤相關(guān)突變基因(基因位點(diǎn)),我 們首先對(duì)常用注釋軟件ANNOVAR生成的注釋文件進(jìn)行蛋白質(zhì)功能過濾。
[0034] 接下來由于二代測(cè)序技術(shù)存在一定的測(cè)序錯(cuò)誤可能性,因此需要對(duì)測(cè)序錯(cuò)誤導(dǎo)致 的假陽(yáng)性突變位點(diǎn)進(jìn)行甄別。大量研究證實(shí)通過校正突變位點(diǎn)read改變個(gè)數(shù)、突變位點(diǎn)測(cè) 序深度、突變位點(diǎn)的突變頻率W及對(duì)照組織的此位點(diǎn)的read改變個(gè)數(shù)、測(cè)序深度W及突變 頻率可W較好的控制假陽(yáng)性突變位點(diǎn)的數(shù)量,從而更有利于發(fā)現(xiàn)具有生物學(xué)意義的突變基 因。結(jié)合注釋文件里面突變對(duì)蛋白質(zhì)翻譯的影響W及突變頻率信息可W得到較為可信的疾 病相關(guān)突變基因。
[0035] Fisher精確檢驗(yàn)是統(tǒng)計(jì)互斥突變W及共表達(dá)基因的常用手段,本軟件通過此方法 計(jì)算得到的互斥與突變基因具有較高的可信度。
[0036] 依據(jù)上述原理,構(gòu)建系統(tǒng)軟件如下:
[0037] 運(yùn)行平臺(tái):Windows ,Linux [003引編程語(yǔ)言:Perl, R
[0039] 軟件依賴:需安裝R軟件包Vennerable
[0040] 本軟件設(shè)有過濾模塊、分析模塊、匯總模塊、挖掘模塊,共包含:Filter_anno.pl、 Extract_frequency.pi、Make_R_fre.R、FRE_FILTER.R、Process_format.pi、Setdiff_ SNV. pi、Intersect_SNV. pi、Stat_snv_number. pi、Pool_group_SNV.R、Visualize_group_ raltaions.R、Test_different-frequncy.R、SNV2Gene. pi、Make_snv_matrix. pi、Ex_Co_ mu1:ation. R共14個(gè)子程序。
[0041 ]其中過濾模塊中,對(duì)注釋文件進(jìn)行過濾的程序(ANNOVAR注釋軟件輸出文件過濾單 元)為Filter_anno.pl;
[0042] 對(duì)vcf文件進(jìn)行過濾的程序(vcf文件過濾單元)有Extract_frequency .pi、Make_ R_f re.R、FRE-FILTER.R、Proces s_format.PI;
[0043] 分析模塊中有特異突變位點(diǎn)子單元Setdiff_SNV.pl、交疊突變位點(diǎn)子單元 Intersect_SNV. pi、統(tǒng)計(jì)子單元 Stat_snv_numbe;r. pi、集合子單元化ol_g;roup_SNV. R、可視 化子單元Visualize_邑roup_raltaions.R、?J試子單元Test_different_frequncy.R;
[0044] 匯總模塊中,基因匯總單元的程序有SNV2Gene.pl,矩陣構(gòu)成單元的程序有Make_ snv_m曰trix.pl;
[0045] 挖掘模塊有程序Ex_Co_mu化tion. R。
[0046] 1對(duì)上述程序詳細(xì)說明
[0047] 1.1過濾注釋文件
[004引對(duì)ANNOVAR生成的注釋結(jié)果進(jìn)行過濾需使用Fi 1 te;r_anno .pi函數(shù)。Filte;r_ anno. pi的輸入?yún)?shù)有兩個(gè)。第一個(gè)輸入?yún)?shù)為存放同一實(shí)驗(yàn)組注釋文件的文件夾路徑,第 二個(gè)輸入?yún)?shù)為過濾結(jié)果的輸出路徑。每一個(gè)注釋文件需W "anno.txt"為文件結(jié)尾,否則 將會(huì)報(bào)錯(cuò)。輸入文件的列應(yīng)按表1進(jìn)行排列。
[0049] 表lFilte;r_anno.pl輸入文件列信息 [(K)加 ]
[0化2]
[0053]過濾指標(biāo)有ExonicF'unc . refGene、genomicS叩erD叩S、esp6500si v2_al I、 1000g2014oct_all幾項(xiàng),具體條件可W在函數(shù)內(nèi)部更改。
[0化4] 1.2過濾VCf文件
[0化日]對(duì)VCf文件的過濾需要順序使用多個(gè)函數(shù)。第一個(gè)函數(shù)Ex化act_frequency.pl需 要4個(gè)參數(shù)。第一個(gè)參數(shù)為存放VCf文件的文件夾路徑。第二個(gè)參數(shù)為得到的下一個(gè)函數(shù)可 W處理文件的輸出目錄。第=個(gè)參數(shù)為感興趣組織的樣本標(biāo)簽后綴。最后一個(gè)參數(shù)為對(duì)照 組織樣本標(biāo)簽后綴。結(jié)果文件對(duì)于每一個(gè)樣本輸出一個(gè)7列的文件。每一列對(duì)應(yīng)的意義見表 2。
[0056] 表沈xtract_frequen巧.pi輸出文件的列信息 [0化7]
[0化引
[0059] 生成好頻率文件需要使用Make_R_fre.R函數(shù)讀入到R語(yǔ)言中,進(jìn)行下一步處理。 Make_R_fre.R需要輸入的參數(shù)為Ex1:ract_frequency .pi結(jié)果所在文件目錄。輸出結(jié)果為R 語(yǔ)言中類型為list的數(shù)據(jù),其中包含n個(gè)(n =樣本個(gè)數(shù))子list,每個(gè)子list為此樣本的頻 率等f目息。
[0060] 接下來使用FRE_FILTER.R程序?qū)Ψ衔覀儣l件的突變位點(diǎn)進(jìn)行過濾。FRE_ FILT邸.R輸入的6個(gè)參數(shù)分別為:fre(Make_R_fre. R中生成的數(shù)據(jù))、vcf_foldeH存放VCf 文件的文件夾路徑Koutfolder (過濾后文件的存放文件夾)、blood_fi Iter (對(duì)照組織的過 濾參數(shù))、tumor_f ilter(目標(biāo)組織的過濾參數(shù))。此函數(shù)輸出結(jié)果為每個(gè)樣本符合對(duì)照組織 W及目標(biāo)組織過濾條件的突變位點(diǎn)。Process_format. Pl為將FRE_FILTER. R輸出結(jié)果進(jìn)行 處理的函數(shù)。其輸入?yún)?shù)為FRE_FILT邸.R的OUtfO Ider文件夾路徑。
[0061] 經(jīng)過對(duì)MNOVAR注釋文件的過濾W及VCf文件的過濾我們分別得到了對(duì)應(yīng)的過濾 結(jié)果。想要找到同時(shí)復(fù)合兩個(gè)過濾條件的病人突變位點(diǎn)需使用Intersect_SNV.pl函數(shù)。由 于Intersect_SNV.pl會(huì)在下一小結(jié)提及,故此處不再寶述。
[0062] 通常突變頻率對(duì)過濾結(jié)果影響較大,運(yùn)里可W通過Test_different_frequncy.R 函數(shù)輔助使用者進(jìn)行頻率闊值的選擇。其輸入?yún)?shù)分別為Make_R_打e.R讀入的樣本突變位 點(diǎn)頻率文件W及過濾得到的注釋文件。
[0063] 1.3進(jìn)行不同實(shí)驗(yàn)組突變位點(diǎn)的描述性分析
[0064] 生物學(xué)研究中往往檢測(cè)了同意樣本不同組織,進(jìn)行對(duì)比分析。對(duì)于兩個(gè)W及多個(gè) 實(shí)驗(yàn)組樣本間的突變位點(diǎn)的描述性分析,最主要的分析操作就是找到實(shí)驗(yàn)組間的交疊突變 位點(diǎn)W及特異性(在一個(gè)實(shí)驗(yàn)組而不在另外一個(gè)實(shí)驗(yàn)組中出現(xiàn))的突變位點(diǎn)。
[00化]Intersect_SNV.pl用來發(fā)現(xiàn)出現(xiàn)在兩個(gè)實(shí)驗(yàn)組(Al, A2)同一病人a中的突變位點(diǎn) 集合。輸入?yún)?shù)為Al實(shí)驗(yàn)組過濾后文件路徑和A2實(shí)驗(yàn)組過濾后路徑。
[0066] Setdiff _SNV.pl用來發(fā)現(xiàn)在Al實(shí)驗(yàn)組中病人a中出現(xiàn)而不在A2實(shí)驗(yàn)組a病人樣本 中出現(xiàn)的突變位點(diǎn)。Setdiff_SNV.pl輸入的參數(shù)1為Al實(shí)驗(yàn)組病人過濾得到的突變位點(diǎn)文 件,輸入?yún)?shù)2為A2實(shí)驗(yàn)組病人過濾得到的突變位點(diǎn)文件。
[0067] 函數(shù)Stat_snv_numbe;r .pi可W對(duì)經(jīng)過交疊或特異性分析的病人突變位點(diǎn)文件進(jìn) 行個(gè)數(shù)統(tǒng)計(jì)。輸入?yún)?shù)為存儲(chǔ)過濾文件的文件夾路徑。
[006引當(dāng)我們要探討群體間突變位點(diǎn)集合的時(shí)候,可W使用化ol_group_SNV.R函數(shù),W 及Vi Siial i ze_g;roup_re 11:ai ons. R函數(shù)。其中化O l_g;roup_SNV. R函數(shù)可W將每個(gè)病人通過 一些列運(yùn)算得到的最終突變位點(diǎn)集合匯總成實(shí)驗(yàn)組群體樣本的突變位點(diǎn)集合。其輸入?yún)?shù) 為存放每個(gè)樣本突變位點(diǎn)文件的文件夾路徑。生成R語(yǔ)言中群體突變位點(diǎn)信息,格式為 "chrl 1000 OG T"。使用Visualize_g;roup_relations.R函數(shù)可W通過韋恩圖對(duì)實(shí)驗(yàn)組之間 突變位點(diǎn)的可視化關(guān)系分析。輸入?yún)?shù)為不同組間化0l_group_SNV.R生成的數(shù)據(jù)。
[0069] 1.4互斥與共突變基因的確定
[0070] 為了確定互斥與共突變基因,首先需要使用SNV2Gene.pl對(duì)每個(gè)樣本的突變基因 進(jìn)行匯總。5^266116.91的參數(shù)有:輸入過濾后的突變位點(diǎn)文件夾;--6曰油5曰1]1916選項(xiàng)如果 選擇on則輸出每個(gè)病人的突變基因集合,反之off則不輸出。接下來使用Make_snv_ matrix.Pl依據(jù)實(shí)驗(yàn)組突變基因列表構(gòu)建突變基因矩陣信息。輸出結(jié)果每一行對(duì)應(yīng)一個(gè)實(shí) 驗(yàn)組突變基因,每一列對(duì)應(yīng)一個(gè)樣本,0表示未突變,1表示突變。之后通過Ex_Co_ mutation. R對(duì)生成的突變基因矩陣進(jìn)行依據(jù)Fisher精確檢驗(yàn)的互斥W及共突變分析。輸入 參數(shù)為突變基因矩陣文件。輸出結(jié)果為統(tǒng)計(jì)學(xué)顯著的互斥W及突變基因?qū)Α?br>[0071] 2運(yùn)行實(shí)例數(shù)據(jù)描述
[0072] 本發(fā)明的具體分析步驟如圖1所示。
[0073] 實(shí)例中包含了 3例胃癌組織外顯子組測(cè)序數(shù)據(jù)W及對(duì)應(yīng)樣本的癌旁正常組織的外 顯子組測(cè)序數(shù)據(jù)。胃癌組織數(shù)據(jù)和正常組織數(shù)據(jù)均W配對(duì)血液樣本作為參考得到VCf文件。 胃癌組織和正常組織的突變位點(diǎn)文件經(jīng)過ANNOVAR注釋軟件進(jìn)行注釋。
[0074] 2.1注釋文件過濾
[0075] 3例胃癌組織W及對(duì)應(yīng)的癌旁正常組織的注釋文件進(jìn)行過濾分別得到對(duì)應(yīng)樣本的 突變信息見表3。
[0076] 表 3Filte;r_anno.pl 的過濾效能
[0077]
[0078] 2.2Vcf文件過濾
[00巧]依次使用扣1:扣。1:_打69116]1。7.口1、]\1日46_1?_打6.1?、尸1?6_尸1^61?.1?、?1'0。633_ format, pi幾個(gè)函數(shù)對(duì)VCf文件進(jìn)行過濾。圖2為Gl樣本生成的頻率截圖。
[0080]經(jīng)過FRE_FILTER.R過濾后的VCf文件中突變位點(diǎn)數(shù)量見表4。突變頻率為衡量突變 可靠性的重要指標(biāo),可W通過Test_differentjrequncy .R函數(shù)進(jìn)行變化頻率對(duì)突變位點(diǎn) 個(gè)數(shù)的分析。其中T'est_different_frequncy .R輸入?yún)?shù)為Make_R_fre.R讀入的頻率文件, W及過濾的注釋文件。根據(jù)圖3的輸出圖形可W選擇合適的頻率闊值。
[0081 ]表 4FRE_FILTER.R 的過濾效能
[0082]
[0083] 使用 Intersect_SNV. pi 取FRE_FILTER. R 和Fi I ter_anno. pi 過濾結(jié)果的交疊突變 位點(diǎn)數(shù)量見表5。
[0084] 表5注釋與VCf雙重過濾突變位點(diǎn)個(gè)數(shù)
[0085]
[0086] 2.3進(jìn)行不同實(shí)驗(yàn)組突變位點(diǎn)的描述性分析
[0087] 使用化O l_group_SNV. R對(duì)腫瘤組織W及正常組織進(jìn)行突變位點(diǎn)的匯總。對(duì)于腫瘤 組織得到了722個(gè)突變位點(diǎn),對(duì)于正常組織得到了507個(gè)突變位點(diǎn)。通過Visualize_g;roup_ relations.R對(duì)兩種組織交疊突變位點(diǎn)進(jìn)行韋恩圖繪制得到結(jié)果(圖4)。
[0088] 2.4互斥與共突變分析
[0089] 首先通過SNV2Gene.pl得到實(shí)驗(yàn)組突變基因的總和,前10個(gè)基因結(jié)果如圖5所示。
[0090] 接下來分別使用Make_snv_mat;rix.pl依照突變基因列表生成突變基因矩陣,如圖 6所示。
[0091] 接下來使用Ex_Co_mu化tion.R函數(shù)進(jìn)行基因與基因之間互斥關(guān)系的判斷。運(yùn)一步 由于每一個(gè)基因?qū)ψ有枰褂胒isher精確檢驗(yàn)進(jìn)行一次比較,故計(jì)算時(shí)間往往較長(zhǎng)。本例 中由于樣本量較少,故計(jì)算出的統(tǒng)計(jì)P值較大。圖7為部分結(jié)果展示。
[0092] W上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用W限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),其特征在于,包括: 過濾模塊,用于外顯子組處理流程中的vcf文件以及ANNOVAR注釋軟件的輸出文件,得 到感興趣組織和對(duì)照組織的突變位點(diǎn)的突變r(jià)ead數(shù)、位點(diǎn)測(cè)序深度、突變頻率; 分析模塊,用于進(jìn)行不同實(shí)驗(yàn)組突變位點(diǎn)的描述性分析,找到實(shí)驗(yàn)組間的交疊突變位 點(diǎn)以及特異性的突變位點(diǎn),所述特異性的突變位點(diǎn)是指該突變位點(diǎn)在一個(gè)實(shí)驗(yàn)組出現(xiàn)而不 在另外一個(gè)實(shí)驗(yàn)組中出現(xiàn); 匯總模塊,用于對(duì)每個(gè)樣本的突變基因進(jìn)行匯總,依據(jù)實(shí)驗(yàn)組突變基因列表構(gòu)建突變 基因矩陣; 挖掘模塊,用于對(duì)生成的突變基因矩陣進(jìn)行依據(jù)Fisher精確檢驗(yàn)的互斥以及共突變分 析,確定互斥與共突變基因; 所述過濾模塊、分析模塊、匯總模塊、挖掘模塊依次連接。2. 根據(jù)權(quán)利要求1所述的一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),其特征在于, 所述過濾模塊包括vcf文件過濾單元和ANNOVAR注釋軟件輸出文件過濾單元; 所述vcf文件過濾單元用于根據(jù)vcf文件過濾標(biāo)準(zhǔn)進(jìn)行過濾,所述vcf文件過濾標(biāo)準(zhǔn)為: 對(duì)于感興趣組織的突變r(jià)ead數(shù)> =3,位點(diǎn)測(cè)序深度> =8,突變頻率> = 0.1;對(duì)于對(duì)照組織要 求突變r(jià)ead數(shù)〈3,位點(diǎn)測(cè)序深度> =8,突變頻率〈0.1; 所述ANNOVAR注釋軟件輸出文件過濾單元的過濾標(biāo)準(zhǔn)為:突變位于外顯子區(qū)域;突變位 點(diǎn)不能位于染色體高度重復(fù)區(qū)域;esp數(shù)據(jù)庫(kù)中的群體變異頻率低于5% ;在千人基因組計(jì) 劃中的變異頻率低于5 %。3. 根據(jù)權(quán)利要求1所述的一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),其特征在于, 所述分析模塊包括突變位點(diǎn)發(fā)現(xiàn)單元和制圖單元,所述突變位點(diǎn)發(fā)現(xiàn)單元用于找到實(shí)驗(yàn)組 之間特異性的突變位點(diǎn)以及實(shí)驗(yàn)組之間共同的突變位點(diǎn),所述制圖單元用于將突變位點(diǎn)通 過Venn圖的方式進(jìn)行展示。4. 根據(jù)權(quán)利要求3所述的一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),其特征在于, 所述突變位點(diǎn)發(fā)現(xiàn)單元包括交疊突變位點(diǎn)子單元和特異突變位點(diǎn)子單元、以及統(tǒng)計(jì)子單 元;所述交疊突變位點(diǎn)子單元用于發(fā)現(xiàn)出現(xiàn)在兩個(gè)實(shí)驗(yàn)組同一病人樣本中的突變位點(diǎn)集 合;所述特異突變位點(diǎn)子單元用于發(fā)現(xiàn)在一實(shí)驗(yàn)組中病人樣本中出現(xiàn)而不在另一實(shí)驗(yàn)組同 一病人樣本中出現(xiàn)的突變位點(diǎn);所述統(tǒng)計(jì)子單元對(duì)經(jīng)過交疊或特異性分析的病人突變位點(diǎn) 文件進(jìn)行個(gè)數(shù)統(tǒng)計(jì)。5. 根據(jù)權(quán)利要求3所述的一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),其特征在于, 所述制圖單元包括集合子單元和可視化子單元;所述集合子單元用于將每個(gè)病人通過一些 列運(yùn)算得到的最終突變位點(diǎn)集合匯總成實(shí)驗(yàn)組群體樣本的突變位點(diǎn)集合;所述可視化子單 元用于通過韋恩圖對(duì)集合匯總子單元的數(shù)據(jù)進(jìn)行可視化關(guān)系分析。6. 根據(jù)權(quán)利要求1所述的一種腫瘤突變位點(diǎn)篩選及互斥基因挖掘的系統(tǒng),其特征在于, 所述匯總模塊包括基因匯總單元和矩陣構(gòu)成單元;所述基因匯總單元用于對(duì)每個(gè)樣本的突 變基因進(jìn)行匯總,所述矩陣構(gòu)成單元用于構(gòu)建突變基因矩陣信息,輸出結(jié)果每一行對(duì)應(yīng)一 個(gè)實(shí)驗(yàn)組突變基因,每一列對(duì)應(yīng)一個(gè)樣本,0表示未突變,1表示突變。
【文檔編號(hào)】G06F19/24GK106022001SQ201610319437
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】薛成海, 李連碩, 劉婷婷
【申請(qǐng)人】萬康源(天津)基因科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿克苏市| 衡阳县| 韶山市| 深州市| 历史| 安顺市| 海宁市| 新竹县| 营口市| 鹿邑县| 武平县| 承德市| 秦安县| 新泰市| 丰县| 景洪市| 凌源市| 彝良县| 黄浦区| 大英县| 永昌县| 和静县| 维西| 巴林左旗| 海宁市| 达孜县| 汝阳县| 新营市| 奉化市| 台前县| 宁南县| 额尔古纳市| 沭阳县| 丰城市| 清河县| 黄石市| 三河市| 百色市| 凤阳县| 广河县| 通许县|