高通量測序數(shù)據(jù)后期處理方法
【專利摘要】本發(fā)明涉及一種高通量測序數(shù)據(jù)后期處理方法,屬于分子生物學【技術(shù)領(lǐng)域】。該方法根據(jù)用戶需要,對高通量測序數(shù)據(jù)后期進行高效的數(shù)據(jù)平滑、數(shù)據(jù)縮放、組間標準化、特定數(shù)據(jù)行提取、組間數(shù)據(jù)量平衡等操作,并支持任何測序平臺生成的實驗數(shù)據(jù),特別適用于存放有多個樣本組數(shù)據(jù)的矩陣文件,從而能夠從而減少數(shù)據(jù)分析人員的工作負擔,降低數(shù)據(jù)處理的難度,且本發(fā)明的高通量測序數(shù)據(jù)后期處理方法的應(yīng)用范圍也較為廣泛。
【專利說明】高通量測序數(shù)據(jù)后期處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及分子生物學【技術(shù)領(lǐng)域】,特別涉及染色質(zhì)測序數(shù)據(jù)分析【技術(shù)領(lǐng)域】,具體是指一種高通量測序數(shù)據(jù)后期處理方法。
【背景技術(shù)】
[0002]新一代高通量測序技術(shù)的出現(xiàn)極大地豐富了人們利用分子生物學手段研究細胞內(nèi)變化規(guī)律的方案。目前眾多高通量測序技術(shù)都有相關(guān)的分析方法或分析流程作為參考幫助科研人員進行高通量數(shù)據(jù)處理。但是,現(xiàn)有工具對這些高通量測序數(shù)據(jù)的后期加工和整合仍然缺乏系統(tǒng)性的總結(jié)。目前,在后期數(shù)據(jù)加工中,沒有專門數(shù)據(jù)處理方法會涉及到的諸如平滑、縮放和組間標準化、特定數(shù)據(jù)行提取等常用操作,這無形中增加了數(shù)據(jù)分析人員的工作負擔,加大了數(shù)據(jù)處理的難度。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)中的缺點,提供一種支持任何測序平臺生成的實驗數(shù)據(jù),對于存放有多個樣本組數(shù)據(jù)的矩陣文件能夠進行高效的數(shù)據(jù)平滑、數(shù)據(jù)縮放、組間標準化、特定數(shù)據(jù)行提取、組間數(shù)據(jù)量平衡等操作,從而減少數(shù)據(jù)分析人員的工作負擔,降低數(shù)據(jù)處理的難度,且應(yīng)用范圍較為廣泛的高通量測序數(shù)據(jù)后期處理方法。
[0004]為了實現(xiàn)上述的目的,本發(fā)明的高通量測序數(shù)據(jù)后期處理方法包括以下步驟:
[0005](I)系統(tǒng)獲得高通量測序數(shù)據(jù)的矩陣文件,通過用戶設(shè)置的矩陣最大值和最小值,生成經(jīng)尺寸變換處理的新的矩陣文件;
[0006](2)系統(tǒng)對所述的新的矩陣文件的列或行進行分位數(shù)規(guī)范化處理,形成統(tǒng)一的列向量或行向量之間的值域范圍;
[0007](3)系統(tǒng)對所述的新的矩陣文件進行壓縮處理,保持所述的新的矩陣文件特征不變,并降低新的矩陣文件的容量大??;
[0008](4)系統(tǒng)根據(jù)用戶操作獲取關(guān)鍵字段文件、模版文件及所述模版文件中關(guān)鍵字段所屬列,通過對模版文件中特定關(guān)鍵字段的信息提取,篩選出符合條件的模版文件子集并輸出;
[0009](5)系統(tǒng)根據(jù)用戶操作高通量數(shù)據(jù)序列比對結(jié)果文件,并根據(jù)設(shè)定的隨機重抽樣文件的個數(shù)和單個重抽樣文件的序列比對結(jié)果記錄條數(shù),生成預設(shè)數(shù)量的模擬格式高通量數(shù)據(jù)序列比對結(jié)果文件;
[0010](6)系統(tǒng)根據(jù)所述的新的矩陣文件、模版文件子集和模擬格式高通量數(shù)據(jù)序列比對結(jié)果文件生成前景數(shù)據(jù)處理結(jié)果文件和背景數(shù)據(jù)處理文件,通過逐一比較每個信號值在前景數(shù)據(jù)處理結(jié)果文件和背景數(shù)據(jù)處理結(jié)果文件中的數(shù)量分布,生成經(jīng)驗性假陽性率分布,并對每個前景信號的假陽性概率進行估計,生成前景信號假陽性概率;
[0011](7)系統(tǒng)根據(jù)所述的特定格式的高通量測序數(shù)據(jù)的矩陣文件及預設(shè)的預期聚合酶鏈反應(yīng)冗余片段在總樣本中所占比例,生成聚合酶鏈反應(yīng)冗余片段閾值并在所述的高通量測序數(shù)據(jù)的矩陣文件中標記所述的聚合酶鏈反應(yīng)冗余片段位置。
[0012]其中,所述的特定格式的高通量測序數(shù)據(jù)的矩陣文件中其第一列為染色體序號,第二列位位置信息,第三列為該位點正鏈上的序列個數(shù),第四列為該位點負鏈上的序列個數(shù)。
[0013]該高通量測序數(shù)據(jù)后期處理方法中,所述的高通量測序數(shù)據(jù)的矩陣文件為存放有多個樣本組數(shù)據(jù)的矩陣文件。
[0014]采用了該發(fā)明的高通量測序數(shù)據(jù)后期處理方法,其能夠根據(jù)用戶需要,對高通量測序數(shù)據(jù)進行高效的數(shù)據(jù)平滑、數(shù)據(jù)縮放、組間標準化、特定數(shù)據(jù)行提取、組間數(shù)據(jù)量平衡等操作,并支持任何測序平臺生成的實驗數(shù)據(jù),特別適用于存放有多個樣本組數(shù)據(jù)的矩陣文件,從而能夠從而減少數(shù)據(jù)分析人員的工作負擔,降低數(shù)據(jù)處理的難度,且本發(fā)明的高通量測序數(shù)據(jù)后期處理方法的應(yīng)用范圍也較為廣泛。
【專利附圖】
【附圖說明】
[0015]圖1為本發(fā)明的高通量測序數(shù)據(jù)后期處理方法的步驟流程圖。
【具體實施方式】
[0016]為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容,特舉以下實施例詳細說明。
[0017]請參閱圖1所示,為本發(fā)明的高通量測序數(shù)據(jù)后期處理方法的步驟流程圖。
[0018]在【具體實施方式】中,該方法如圖1所示包括以下步驟:
[0019](I)系統(tǒng)獲得高通量測序數(shù)據(jù)的矩陣文件,通過用戶設(shè)置的矩陣最大值和最小值,生成經(jīng)尺寸變換處理的新的矩陣文件,所述的高通量測序數(shù)據(jù)的矩陣文件為存放有多個樣本組數(shù)據(jù)的矩陣文件;
[0020](2)系統(tǒng)對所述的新的矩陣文件的列或行進行分位數(shù)規(guī)范化處理,形成統(tǒng)一的列向量或行向量之間的值域范圍;
[0021](3)系統(tǒng)對所述的新的矩陣文件進行壓縮處理,保持所述的新的矩陣文件特征不變,并降低新的矩陣文件的容量大??;
[0022](4)系統(tǒng)根據(jù)用戶操作獲取關(guān)鍵字段文件、模版文件及所述模版文件中關(guān)鍵字段所屬列,通過對模版文件中特定關(guān)鍵字段的信息提取,篩選出符合條件的模版文件子集并輸出;
[0023](5)系統(tǒng)根據(jù)用戶操作高通量數(shù)據(jù)序列比對結(jié)果文件,并根據(jù)設(shè)定的隨機重抽樣文件的個數(shù)和單個重抽樣文件的序列比對結(jié)果記錄條數(shù),生成預設(shè)數(shù)量的模擬格式高通量數(shù)據(jù)序列比對結(jié)果文件;
[0024](6)系統(tǒng)根據(jù)所述的新的矩陣文件、模版文件子集和模擬格式高通量數(shù)據(jù)序列比對結(jié)果文件生成前景數(shù)據(jù)處理結(jié)果文件和背景數(shù)據(jù)處理文件,通過逐一比較每個信號值在前景數(shù)據(jù)處理結(jié)果文件和背景數(shù)據(jù)處理結(jié)果文件中的數(shù)量分布,生成經(jīng)驗性假陽性率分布,并對每個前景信號的假陽性概率進行估計,生成前景信號假陽性概率;
[0025](7)系統(tǒng)根據(jù)所述的特定格式的高通量測序數(shù)據(jù)的矩陣文件及預設(shè)的預期聚合酶鏈反應(yīng)(polymerase chain reaction,PCR duplicates)樣本在總樣本中所占比例,生成聚合酶鏈反應(yīng)冗余片段閾值并在所述的高通量測序數(shù)據(jù)的矩陣文件中標記所述的聚合酶鏈反應(yīng)冗余片段位置;其中,所述的特定格式的高通量測序數(shù)據(jù)的矩陣文件中其第一列為染色體序號,第二列位位置信息,第三列為該位點正鏈上的序列個數(shù),第四列為該位點負鏈上的序列個數(shù)。
[0026]在實際應(yīng)用中,本發(fā)明的方法所利用的工具包共包含3個Python腳本代碼和4個R腳本代碼,每個腳本名稱如下:
[0027](I)PROGRAM_row_selection.py
[0028](2)PROGRAM_QC_PCR_dupIicates_cutoff.py
[0029](3)PROGRAM_sam_random_sampling.py
[0030](4)PROGRAM_FDR_calculation_based_on_data.r
[0031](5)PROGRAM_matrix_data_bin_smooth.r
[0032](6)PROGRAM_matrix_data_resacle.r
[0033](7)PR0GRAM_matrix_dataquant iIe_norm.r
[0034]上述每個腳本既能夠獨立執(zhí)行,也可以嵌入到已有的數(shù)據(jù)分析流程中,使用非常靈活。
[0035]每個腳本的代碼編寫基于Python和R語言,可以在Windows、Linux、MacOS等多種系統(tǒng)平臺下使用。代碼運行過程中,耗費系統(tǒng)資源少,能夠在任意一臺個人PC、工作站和或服務(wù)器上進行使用。
[0036]每個腳本都應(yīng)對高通量數(shù)據(jù)分析后期經(jīng)常所需的操作進行設(shè)計。
[0037]1、PROGRAM_matrix_data_rescale.r,以數(shù)值類型矩陣文件作為輸入數(shù)據(jù),通過設(shè)置新生成數(shù)值矩陣的最大值和最小值,幫助用戶獲得經(jīng)過rescaling處理的矩陣文件。
[0038]2、PROGRAM_matrix_data_quantile_norm.r,以數(shù)值類型矩陣文件作為輸入數(shù)據(jù),可以設(shè)置對列或?qū)π羞M行分位數(shù)規(guī)范化(quantile normalization),從而統(tǒng)一列向量或行向量之間的值域范圍。
[0039]3、PROGRAM_matrix_data_bin_smooth.r,以數(shù)值類型矩陣文件作為輸入數(shù)據(jù),通過設(shè)置加和窗口的大小和平滑窗口的大小對輸入矩陣數(shù)據(jù)進行先加和后平滑的數(shù)據(jù)處理方式,最終輸出一個經(jīng)過壓縮的數(shù)值矩陣文件,在保證總體特征不變的前提下,降低文件容量大小,以便于后續(xù)的圖形化處理。
[0040]4、PROGRAM_row_selection.py,要求提供關(guān)鍵字段文件和模版文件作為輸入文件,要求提供模版文件中關(guān)鍵字段所屬列,通過對模版文件中特定關(guān)鍵字段的信息提取,最終篩選出符合條件的模版文件子集并輸出,用戶可以根據(jù)輸出文件設(shè)計后續(xù)的數(shù)據(jù)處理流程。
[0041]5>PROGRAM_sam_random_sampling, py 以.sam 格式高通量數(shù)據(jù) reads 比對結(jié)果文件作為輸入文件,通過設(shè)置隨機重抽樣文件的個數(shù)和單個重抽樣文件的reads比對結(jié)果記錄條數(shù),最終生成用戶規(guī)定數(shù)量的模擬.sam格式的高通量數(shù)據(jù)reads比對結(jié)果文件,為后續(xù)的算法開發(fā)和不同軟件工具之間的優(yōu)劣比較提供測試用數(shù)據(jù)。
[0042]6、PR0GRAM_FDR_calculation_based_on_data.r 的運行要求提供前景數(shù)據(jù)處理結(jié)果文件和背景數(shù)據(jù)處理文件,通過逐一比較每個信號值在前景和背景中的數(shù)量分布,生成經(jīng)驗性假陽性率分布,并對每個前景信號的假陽性概率進行估計,最終為用戶提供統(tǒng)計學一類錯誤的假陽性指標的篩選參考。[0043]7、PROGRAM_QC_PCR_duplicates_cutoff.py,以特定格式文件(第一列為染色體序號,第二列位位置信息,第三列為該位點正鏈上的reads個數(shù),第四列為該位點負鏈上的reads個數(shù))作為輸入,通過設(shè)置預期PCR duplicates在樣本中的所占比例,最終向用戶提供具體的PCRduplicates的具體閾值并對PCR duplicates所處的位置進行標記,幫助用戶對這些位置上的PCR duplicates進行識別和后續(xù)操作。
[0044]此外,通過這7個獨立腳本之間的不同組合能夠幫助用戶決解一系列高通量數(shù)據(jù)后期分析操作難題。
[0045]在應(yīng)用過程中,上述腳本會返回一系列詳細的參數(shù)設(shè)置和對應(yīng)的參數(shù)說明,指導數(shù)據(jù)分析人員正確使用這些方法。其中,參數(shù)分為兩種類型:必要參數(shù)和可選參數(shù)。必要參數(shù)要求由數(shù)據(jù)分析人員提供輸入值,無默認值。可選參數(shù)的默認值有預設(shè)值,分析人員也可以結(jié)合實際需求進行調(diào)整,具有靈活性。
[0046]采用了該發(fā)明的高通量測序數(shù)據(jù)后期處理方法,其能夠根據(jù)用戶需要,對高通量測序數(shù)據(jù)進行高效的數(shù)據(jù)平滑、數(shù)據(jù)縮放、組間標準化、特定數(shù)據(jù)行提取、組間數(shù)據(jù)量平衡等操作,并支持任何測序平臺生成的實驗數(shù)據(jù),特別適用于存放有多個樣本組數(shù)據(jù)的矩陣文件,從而能夠從而減少數(shù)據(jù)分析人員的工作負擔,降低數(shù)據(jù)處理的難度,且本發(fā)明的高通量測序數(shù)據(jù)后期處理方法的應(yīng)用范圍也較為廣泛。
[0047]在此說明書中,本發(fā)明已參照其特定的實施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說明書和附圖應(yīng)被認為是說明性的而非限制性的。
【權(quán)利要求】
1.一種高通量測序數(shù)據(jù)后期處理方法,其特征在于,所述的方法包括以下步驟: (1)系統(tǒng)獲得高通量測序數(shù)據(jù)的矩陣文件,通過用戶設(shè)置的矩陣最大值和最小值,生成經(jīng)尺寸變換處理的新的矩陣文件; (2)系統(tǒng)對所述的新的矩陣文件的列或行進行分位數(shù)規(guī)范化處理,形成統(tǒng)一的列向量或行向量之間的值域范圍; (3)系統(tǒng)對所述的新的矩陣文件進行壓縮處理,保持所述的新的矩陣文件特征不變,并降低新的矩陣文件的容量大?。? (4)系統(tǒng)根據(jù)用戶操作獲取關(guān)鍵字段文件、模版文件及所述模版文件中關(guān)鍵字段所屬列,通過對模版文件中特定關(guān)鍵字段的信息提取,篩選出符合條件的模版文件子集并輸出; (5)系統(tǒng)根據(jù)用戶操作高通量數(shù)據(jù)序列比對結(jié)果文件,并根據(jù)設(shè)定的隨機重抽樣文件的個數(shù)和單個重抽樣文件的序列比對結(jié)果記錄條數(shù),生成預設(shè)數(shù)量的模擬格式高通量數(shù)據(jù)序列比對結(jié)果文件; (6)系統(tǒng)根據(jù)所述的新的矩陣文件、模版文件子集和模擬格式高通量數(shù)據(jù)序列比對結(jié)果文件生成前景數(shù)據(jù)處理結(jié)果文件和背景數(shù)據(jù)處理文件,通過逐一比較每個信號值在前景數(shù)據(jù)處理結(jié)果文件和背景數(shù)據(jù)處理結(jié)果文件中的數(shù)量分布,生成經(jīng)驗性假陽性率分布,并對每個前景信號的假陽性概率進行估計,生成前景信號假陽性概率; (7)系統(tǒng)根據(jù)所述的特定格式的高通量測序數(shù)據(jù)的矩陣文件及預設(shè)的預期聚合酶鏈反應(yīng)冗余片段在總樣本中所占比例,生成聚合酶鏈反應(yīng)冗余片段閾值并在所述的高通量測序數(shù)據(jù)的矩陣文件中標記所述的聚合酶鏈反應(yīng)冗余片段位置。
2.根據(jù)權(quán)利要求1所述的高通量測序數(shù)據(jù)后期處理方法,其特征在于,所述的特定格式的高通量測序數(shù)據(jù)的矩陣文件中其第一列為染色體序號,第二列位位置信息,第三列為該位點正鏈上的序列個數(shù),第四列為該位點負鏈上的序列個數(shù)。
3.根據(jù)權(quán)利要求1或2所述的高通量測序數(shù)據(jù)后期處理方法,其特征在于,所述的高通量測序數(shù)據(jù)的矩陣文件為存放有多個樣本組數(shù)據(jù)的矩陣文件。
【文檔編號】G06F19/20GK103853937SQ201310610912
【公開日】2014年6月11日 申請日期:2013年11月27日 優(yōu)先權(quán)日:2013年11月27日
【發(fā)明者】王立山, 曹鑫愷, 臧衛(wèi)東, 王媛媛 申請人:上海豐核信息科技有限公司