待變異檢測文件的處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種待變異檢測文件的處理方法及裝置。其中,該方法包括:根據待變異檢測文件來獲取比對數據;對比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據;對用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果;獲取變異檢測結果進行深度處理后的輸出結果。通過本發(fā)明,能夠實現為多種類型的比對數據提供了變異檢測方法,并簡化了變異檢測設計和操作。
【專利說明】待變異檢測文件的處理方法及裝置
【技術領域】
[0001]本發(fā)明涉及生物信息處理領域,具體而言,涉及一種待變異檢測文件的處理方法及裝置。
【背景技術】
[0002]現有的變異檢測軟件,例如Samtools、SOAPsnp、DIndel、realSFS、GATK等,主要設計形式通常有以下三種:一是輸入比對數據后產生基本的用于變異檢測的信息統(tǒng)計,前期比對數據的處理、中期變異檢測的執(zhí)行、后期變異數據的過濾等都需要依賴其它工具和自行設計;二是輸入比對數據后可進行單一的變異檢測方法的執(zhí)行并產生冗余的變異數據結果,但前期的比對數據的處理和后期的變異數據的過濾仍需要依賴其它工具和自行設計;三是提供一些獨立的功能模塊可分別用于輸入比對數據的處理、變異檢測的執(zhí)行、變異數據的后期過濾和分析等,但各模塊之間沒有關聯,一些功能模塊適用范圍有限,或者需要依賴已知的變異數據,完整的變異檢測方案仍需要依賴其它工具和自行設計。
[0003]在變異檢測的設計實現上,本領域常用的技術手段是針對具體需求設計幾個獨立的模塊,分別用于比對數據生成和前期處理、變異檢測的執(zhí)行、變異數據的后期過濾和分析。近年來,由于二代測序技術的飛速發(fā)展,變異檢測的應用范圍已越來越廣,由從最初的只針對單樣本二倍體生物的高深度的DNA數據設計,到現在的需要考慮到多樣本數據、非二倍體生物的數據、低深度的數據、RNA數據等不同情況下的設計,難度越來越大。但是現有的變異檢測方法功能單一、操作復雜、設計難度大、標準不統(tǒng)一,當用戶在使用了不當的比對數據處理方法、不當的變異檢測方法或者不當的變異數據后期過濾方法后,都會導致變異檢測效力低下或假陽性太高的問題。所以,如何進行變異檢測方法的設計,在保證檢測效力和降低假陽性的前提下,以應對不同類型數據情況下的變異檢測是一個需要解決的技術問題。
[0004]目前針對相關技術的針對復雜類型的比對數據的變異檢測方法功能單一、操作復雜的問題,目前尚未提出有效的解決方案。
【發(fā)明內容】
[0005]針對相關技術的針對復雜類型的比對數據的變異檢測方法功能單一、操作復雜的問題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種待變異檢測文件的處理方法及裝置,以解決上述問題。
[0006]為了實現上述目的,根據本發(fā)明的一個方面,提供了一種待變異檢測文件的處理方法,該方法包括:根據待變異檢測文件來獲取比對數據;對比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據;對用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果;獲取變異檢測結果進行深度處理后的輸出結果。
[0007]為了實現上述目的,根據本發(fā)明的另一方面,提供了一種待變異檢測文件的處理裝置,該裝置包括:第一獲取模塊,用于根據待變異檢測文件來獲取比對數據;處理模塊,用于對比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據;變異檢測模塊,用于對用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果;第二獲取模塊,用于獲取變異檢測結果進行深度處理后的輸出結果。
[0008]通過本發(fā)明,采用根據待變異檢測文件來獲取比對數據;對比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據;對用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果;獲取變異檢測結果進行深度處理后的輸出結果,解決了相關技術的針對復雜類型的比對數據的變異檢測方法功能單一、操作復雜的問題,進而實現為多種類型的比對數據提供了變異檢測方法,并簡化了變異檢測設計和操作的效果。
【專利附圖】
【附圖說明】
[0009]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0010]圖1是根據本發(fā)明實施例的待變異檢測文件的處理方法的流程圖;
[0011]圖2是根據本發(fā)明實施例的待變異檢測文件的處理方法的詳細流程圖;
[0012]圖3是根據本發(fā)明實施例的待變異檢測文件的處理裝置的結構示意圖;以及
[0013]圖4是根據本發(fā)明實施例的待變異檢測文件的處理裝置的詳細結構示意圖。
【具體實施方式】
[0014]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本發(fā)明。
[0015]實施例一:
[0016]在其最基本的配置中,圖1是根據本發(fā)明實施例的待變異檢測文件的處理方法的流程圖;圖2是根據本發(fā)明實施例的待變異檢測文件的處理方法的詳細流程圖。
[0017]如圖1所示,該待變異檢測文件的處理方法包括如下步驟:
[0018]步驟S10,根據待變異檢測文件來獲取比對數據。
[0019]步驟S30,對比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據。具體的,該步驟實現對比對數據進行預處理,得到可用于初期的變異檢測分析的比對數據,然后根據訓練數據集進一步優(yōu)化比對結果,得到最終用于變異檢測的比對數據。
[0020]步驟S50,對用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果。具體的,上述步驟通過對高質量的比對數據進行變異檢測得到變異檢測結果,該過程中可以對變異數據進行分類和過濾。
[0021]步驟S70,獲取變異檢測結果進行深度處理后的輸出結果。具體的,該步驟的深度處理操作可以是對變異檢測結果進行分類和過濾,以及相應的格式轉換和進一步過濾,必要時進行變異注釋。
[0022]本申請上述實施例提供了一種多功能的變異檢測方法,通過為變異檢測文件中各種類型的比對數據提供相應的變異檢測處理過程,對于多種類型的數據都可以進行變異檢測,因此,簡化了人工進行變異檢測設計和操作的過程,其中,對比對數據進行預處理和/或校正處理,使得后續(xù)的變異檢測處理過程成功率提高,從而在保證檢測效力和降低假陽性的前提下,簡化了用戶進行變異檢測設計和操作的難度。由此可知,本申請上述實施例解決了相關技術的針對復雜類型的比對數據的變異檢測方法功能單一、操作復雜的問題,進而實現為多種類型的比對數據提供了變異檢測方法,并簡化了變異檢測設計和操作的效果,同時,上述方案提供的檢測方案設計難度降低、同一了標準。
[0023]需要說明的是,本申請在進行變異檢測之前,系統(tǒng)需要獲取輸入文件和參數的屬性值,根據屬性值決定是否需要進行比對、決定是否需要產生訓練數據集、決定變異檢測的方法、決定是否可以進行變異注釋。上述方法中的屬性值可以包括:輸入文件類型、是否有已知變異數據、基因組染色體倍數、是否有基因編碼框(coding sequence,簡稱為⑶S)注釋數據。
[0024]本申請上述實施例中,如圖2所示,步驟S10,根據待變異檢測文件來獲取比對數據的步驟可以包括如下步驟:
[0025]步驟S101,系統(tǒng)準備輸入文件,輸入文件可以包括:參考基因組序列和變異檢測序列。
[0026]具體的,輸入文件類型可以分為fq格式的原始測序序列和sam或bam格式的比對數據,可以是單樣本數據或者是多樣本數據,基因組染色體倍數分為二倍體和非二倍體的任意整倍體。
[0027]步驟S102,在系統(tǒng)開始啟動執(zhí)行時,獲取輸入文件,即獲取參考基因組序列和變異檢測序列的數據文件信息,該變異檢測序列可以是測序序列。
[0028]步驟S103,該步驟判斷變異檢測序列的類型,其中,如果變異檢測序列的類型是原始測序序列,則執(zhí)行步驟S104,否則執(zhí)行步驟S105。
[0029]步驟S104,將原始測序序列往參考基因組序列上進行比對,生成比對數據,否則變異檢測序列為比對數據。
[0030]具體的,上述步驟中,將原始測序序列往參考基因組序列上進行比對,生成比對數據的步驟可以包括如下實現過程:首先,獲取參考基因組序列,參考基因組序列包括:參考基因組索引和參考基因組索引對應的參考基因組;然后,將原始測序序列與參考基因組索引對應的參考基因組進行比對,生成比對數據,其中,原始測序序列的類型包括單端測序序列和雙端測序序列,采用單端測序序列對應的對比策略或雙端測序序列對應的對比策略來將原始測序序列進行比對處理。單端比對策略為:建立比對序列索引,與參考基因組進行比對并輸出比對結果;雙端比對策略為:兩端分別建立比對序列索引,同時與參考基因組進行比對并輸出比對結果。
[0031]上述過程中,需要構建參考基因組索引,并將原始測序序列往構建好的參考基因組索引的參考基因組上比對,最終整理的比對結果可以為sam格式的比對數據文件。
[0032]進一步地,將原始測序序列往構建好的參考基因組索引的參考基因組上比對時,根據原始測序序列類型,需采取不同的比對策略進行比對。前述的原始測序序列類型分為單端測序和雙端測序。
[0033]步驟S105,獲取到比對數據,比對數據可以是上述步驟S101-S104生成的數據,也可以是輸入系統(tǒng)的比對數據文件。例如,bam/sam格式的比對數據。
[0034]本申請上述實施例中提供的對比數據進行預處理可以包括如下任意一個或多個處理方式:對比對數據進行排序處理(例如將比對數據中的序列按照其比對到染色體上的坐標位置進行排序)、對比對數據進行篩選處理(例如去除某些情況下存在于比對數據中的次要比對的序列信息)、對比對數據進行去重處理(例如去掉比對數據中重復出現多次的序列)、對比對數據進行重新排序處理(例如根據參考基因組染色體順序對比對數據進行重新排序)、對比對數據預定片斷區(qū)域內的序列進行重新比對處理(例如對比對數據中小片段插入/缺失(insertion/deletions,簡稱為InDel)附近的區(qū)域進行重新比對)。上述預處理過程中,還可以在比對數據中添加樣本分類信息即RG標簽。預處理結果是得到可用于變異檢測的初始比對數據。
[0035]需要說明的是,上述各種預處理方式的實施步驟次序不限,可以存在多種組合。下面就其中一種本申請優(yōu)選的預處理過程進行詳細描述。
[0036]如圖2所示,本申請上述實施例中,對比對數據進行預處理的步驟可以包括如下步驟:
[0037]步驟S106,對比對數據進行排序處理,并在排序后的對比數據中添加樣本分類信息,得到分類后的對比數據。具體的,該步驟可以包括如下實施過程:按照比對數據中的序列比對到染色體上的坐標位置將比對數據中的序列進行排序,生成排序后的對比數據。由此,該步驟實現了對比對數據文件進行排序和加RG標簽。
[0038]上述步驟將比對數據中的序列按照其比對到染色體上的坐標位置進行排序和在比對數據中添加樣品分類信息即RG標簽的目的在于,變異檢測算法需要處理排序好的比對數據并需要區(qū)分測序序列的樣本屬性情況。
[0039]步驟S107,對比對數據進行篩選處理。具體的,該步驟可以包括如下實施過程:去除分類后的對比數據中的次要比對數據,生成篩選后的比對數據。由此,該步驟實現了去除比對數據中的次要比對序列。
[0040]上述步驟去除某些情況下存在于比對數據中的次要比對的序列信息的目的在于,某些比對程序或方法可能會在比對數據中產生次要比對的序列信息,這一信息對變異檢測沒有用處,反而可能會引起后面的變異檢測步驟失效。
[0041]步驟S108,對比對數據進行去重處理。具體的,該步驟可以包括如下實施過程:刪除篩選后的對比數據中重復的比對數據,生成去重后的比對數據。由此,該步驟實現了去掉比對數據中重復多次的序列;
[0042]上述步驟去掉比對數據中重復出現多次的序列的目的在于,比對數據中重復出現多次的序列很可能是由于測序聚合酶鏈式反應(Polymerase Chain Reaction,簡稱為PCR)擴增引起的,這樣的序列如果存在測序錯誤,則很容易通過過濾算法的檢測,從而形成假陽性變異位點,必須去除。
[0043]步驟S109,對比對數據進行重新排序處理,即根據參考基因組染色體對比對數據進行重新排序。具體的,該步驟可以包括如下實施過程:根據參考基因組序列的染色體序列對去重后的比對數據進行重新排序,生成重新排序后的比對數據。由此,該步驟實現了根據參考基因組染色體對比對數據進行重新排序。
[0044]上述步驟根據參考基因組染色體順序對比對數據進行重新排序的目的在于,某些非標準的參考基因組排序可能會與比對數據的染色體排序出現不一致的情況,而這一情況會導致后面的變異檢測步驟失效。
[0045]步驟S110,對比對數據預定片斷區(qū)域內的序列進行重新比對處理,該步驟包括:提取重新排序后的比對數據中的預定片斷,將靠近預定片斷的預定區(qū)域內的比對數據進行重新比對,生成預選比對數據。由此,該步驟實現了識別可能的小片段插入/缺失(insertion/deletions,簡稱為InDel)區(qū)域并對比對數據中InDel附近的序列進行重新比對。
[0046]上述步驟對比對數據中InDel附近的區(qū)域進行重新比對的目的在于,InDel附近區(qū)域很容易產生錯誤的比對,導致連續(xù)變異位點的檢出,此過程進一步包括:根據比對數據的特點檢出可能出現InDel的區(qū)域和對這些區(qū)域的序列進行重比對。
[0047]在完成上述步驟S106-S110之后,進入步驟SI 11,產生可用于變異檢測的比對數據,即可以獲取生成的預選比對數據。
[0048]如圖2所示,本申請上述實施例中,在完成對比對數據進行預處理的步驟之后,可以對比對數據進行校正處理,校正處理的步驟可以包括如下步驟:首先,根據預選比對數據獲取訓練數據集,或者從外部獲取訓練數據集;然后,根據訓練數據集合對預選比對數據進行堿基質量值的重新校正,生成用于變異檢測的比對數據。
[0049]堿基質量值重校正具體包括如下步驟:首先,根據訓練集數據集和比對數據堿基質量值信息構建錯誤率模型,然后根據錯誤率模型對比對結果堿基質量值進行校正。上述方案實現了根據訓練數據集合進一步優(yōu)化預選比對數據,即通過產生的訓練數據集合和根據訓練數據集對比對數據進行堿基質量值重校正。
[0050]在上述方案中,待變異檢測文件還可以包括:已知變異位點信息。由此,如圖2所示,根據預選比對數據獲取訓練數據集合的步驟可以通過如下實施過程實現:
[0051]步驟S112,判斷預選比對數據是否是二倍體基因組,在預選比對數據是二倍體基因組的情況下,進入步驟S113,在預選比對數據為非二倍體基因組的情況下,進入步驟S114。
[0052]步驟S113,對二倍體基因組進行去冗余和/或壓縮操作,生成含有變異位點的比對數據,在對含有變異位點的比對數據進行變異檢測之后,獲取變異檢測訓練結果。上述步驟實現了在確定預選比對數據是二倍體基因組之后,可以對比對數據進行去冗余壓縮,從而提聞后續(xù)變異檢測效率。
[0053]步驟S114,檢測是否獲取到已知變異位點信息,即判斷是否輸入已知變異位點信息,在獲取到已知變異位點信息的情況下,執(zhí)行步驟S115,否則執(zhí)行步驟S116。
[0054]步驟SI 15,將已知變異位點信息作為變異檢測訓練結果,
[0055]步驟S116,在沒有獲取到已知變異位點信息的情況下,對非二倍體基因組進行變異檢測,獲取變異檢測訓練結果。
[0056]由此可知,上述步驟實現了針對二倍體基因組和非二倍體基因組分別采取不同的方法進行變異檢測。
[0057]步驟S117,針對上述步驟中的變異檢測訓練結果進行分類,并將分類后的變異檢測訓練結果中質量低的變異位點數據進行刪除,生成訓練數據集合。該步驟對變異檢測結果進行分類,并通過嚴格的質量值進行變異位點過濾,由此可以實現,獲取已知的變異位點數據或通過前步產生的變異位點數據,作為訓練數據集合。
[0058]由此可知,上述步驟S111-S117產生的訓練數據集合可以為輸入已知變異位點信息作為訓練數據集合以及從頭產生訓練數據集合。前述從頭產生訓練數據集的過程進一步可以包括:使用上述可用于變異檢測的比對數據進行變異檢測、對原始的變異檢測結果進行分類和進行嚴格質量過濾。
[0059]更進一步地,從頭產生訓練數據集的過程中進行變異檢測的方法分為二倍體的檢測方法和非二倍體的檢測方法。其中二倍體檢測方法是優(yōu)化的,首先對比對數據進行去冗余和壓縮,只保留含有變異位點的區(qū)域,然后對壓縮后的數據進行變異檢測,這樣有效提高了檢測的速度和降低了資源消耗;二倍體的變異檢測方法是對變異區(qū)域的比對序列構建德布魯因圖,通過拼接并引入隱馬模型進行檢測,可同時得到變異區(qū)域所有變異類型信息;而非二倍體的變異檢測方法則是基于貝葉斯模型,獨立考慮各個變異位點的發(fā)生變異類型的可能性。
[0060]更進一步地,從頭產生訓練數據集的過程中對原始變異結果進行分類指的是將原始變異結果分為單核苷酸多態(tài)性(single nucleotide polymorphism,簡稱為SNP)集合和小片段插入/缺失(insertion/deletions,簡稱為InDel)集合;進行嚴格質量過濾指的是設置嚴格的質量值標準,以消除質量值偏低的變異位點容易導致假陽性變異檢出的可能性,得到高質量的變異集合,作為訓練數據集合。
[0061]優(yōu)選地,在上述方案中,如圖2所示,根據訓練數據集合對預選比對數據進行堿基質量值的重新校正,生成用于變異檢測的比對數據的步驟可以包括如下實施過程:
[0062]步驟S118,讀取訓練數據集合中的變異位點數據,生成校正值列表。該步驟實施過程中,依賴于訓練數據集合,對步驟111中可用于變異檢測的比對數據進行堿基質量值的重新校正。
[0063]步驟S119,根據校正值列表對預選比對數據進行校正,輸出校正后的用于變異檢測的比對數據。由此,在重新校正之后產生高質量的最終用于變異檢測的比對數據。
[0064]具體的,上述實施例根據訓練數據集合對對比對數據進行堿基質量值重校正的目的在于二代測序儀產生的測序序列的質量值是不準確的和有偏性的,如果直接用原始的質量值進行一般質量值的變異檢測,質量值較低的變異位點會在一定程度上導致檢測結果不準確;依賴于已知的準確的變異位點信息,考慮到測序循環(huán)數等因素,通過計算協(xié)方差和線性擬合的方法對比對數據中序列的堿基質量值進行重新校正。此過程進一步包括:產生校正值列表、根據列表數據進行校正、輸出校正后的比對數據。
[0065]本申請上述實施例中,如圖2所示,步驟S50,對用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果的步驟可以包括如下步驟:
[0066]步驟S120,判斷用于變異檢測的比對數據是否是二倍體基因組,在用于變異檢測的比對數據是二倍體基因組的情況下,執(zhí)行步驟S121,在預選比對數據為非二倍體基因組的情況下,執(zhí)行步驟S122。
[0067]步驟S121,對二倍體基因組進行去冗余和/或壓縮操作。該步驟實現了針對二倍體基因組,可以將比對數據進行去冗余壓縮,從而提高后續(xù)變異檢測效率。
[0068]步驟S122,對二倍體基因組和/或非二倍體基因組進行變異檢測,獲取變異檢測結果。上述步驟中,針對二倍體基因組和非二倍體基因組可以分別采取不同的方法進行變異檢測。
[0069]由上可知,上述方案中的對高質量的比對數據進行變異檢測,并對變異數據進行分類和過濾的步驟與上述方法中根據訓練數據集合進一步優(yōu)化比對結果中從頭產生訓練數據集的方法幾乎一致,不同之處有二:一是于用于輸入的是經過堿基質量值重校正后獲得的高質量的最終用于變異檢測的比對數據,二是過濾條件為一般的質量值過濾。這樣處理可有效提高變異位點的檢出效力,特別是針對測序深度較低的數據類型,尤其適用于RNA數據的變異檢測。
[0070]上述方法中對變異數據進行格式轉換和進一步過濾包括提取有效變異位點的基因型和深度信息、過濾間距過小的變異位點和對變異檢測結果進行基本統(tǒng)計。
[0071]優(yōu)選地,在本申請所提供的各個實施例的方案中,待變異檢測文件還可以包括:CDS注釋信息,由此,如圖2所示,獲取變異檢測結果進行深度處理后的輸出結果的步驟可以通過如下實施過程實現:
[0072]步驟S123,對變異檢測結果進行分類,并通過嚴格的質量值進行變異位點過濾,具體的采用將分類后的變異檢測結果中質量低的變異位點數據進行刪除的方式進行過濾。
[0073]步驟S124,生成SNP數據集合以及InDel數據集合。該步驟產生了可用于后續(xù)分析的SNP集合和InDel集合。
[0074]步驟S125,對前述變異集合進行格式轉換,包括SNP數據集合以及InDel數據集
入
口 ο
[0075]步驟S126,將SNP數據集合以及InDel數據集合中間距小于預定值的變異位點進行刪除,獲取變異位點集合。該步驟實現了過濾間距過小的變異位點,同時,同時可以對變異位點進行基本信息統(tǒng)計。
[0076]步驟S127,同上述步驟產生最終的變異位點集合和變異位點信息統(tǒng)計圖表。
[0077]步驟S128,判斷是否獲取到⑶S注釋信息,即判斷是否輸入已知基因⑶S注釋信息,其中,在獲取到CDS注釋的情況下,執(zhí)行步驟S129,否則變異檢測流程結束。
[0078]步驟S129,對SNP數據集合中的位點進行同義非同義注釋和轉換顛換統(tǒng)計,生成注釋和統(tǒng)計信息。
[0079]步驟S130,獲取上述步驟產生的SNP位點同義非同義注釋和轉換顛換統(tǒng)計信息。該步驟獲取了注釋和統(tǒng)計信息。
[0080]由此可知,必要時需要進行變異注釋,具體指的是在已知基因⑶S注釋信息的情況下,分別對SNP位點進行同義非同義注釋和轉換顛換統(tǒng)計。
[0081]步驟S131,輸出結果,至此,完成變異檢測流程。
[0082]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0083]此處需要說明的是,本申請上述實施例中,對于fq格式的文件,獲取比對數據的比對步驟也可用其它輸出bam/sam格式的比對軟件(如Bowtie2、TopHat2等)代替BWA實現。另外,比對過程可以通過外部裝置實現,再將比對數據文件直接作為輸入當前系統(tǒng)即可。
[0084]優(yōu)選地,上述示例中的排序也可通過picardtools軟件包中的SortSam模塊實現,但加RG標簽還是需要AddOrReplaceReadGroup模塊完成,比較來說本申請上述排序方法更簡潔。
[0085]優(yōu)選地,上述實施例中的二倍體變異檢測也可以通過UnifiedGenotyper模塊實現,或者不經過去冗余和壓縮的步驟也可直接進行變異檢測,比較本申請上述變異檢測方法執(zhí)行效率和準確性相對降低。
[0086]實施例二:
[0087]在描述本發(fā)明的各實施例的細節(jié)過程中,將參考圖3來描述可用于實現本發(fā)明的原理的一個合適的計算體系結構。在以下描述中,除非另外指明,否則將參考由一個或多個計算機執(zhí)行的動作和操作的符號表示來描述本發(fā)明的各實施例。由此,可以理解,有時被稱為計算機執(zhí)行的這類動作和操作包括計算機的處理單元對以結構化形式表示數據的電信號的操縱。這一操縱轉換了數據或在計算機的存儲器系統(tǒng)中的位置上維護它,這以本領域的技術人員都理解的方式重配置或改變了計算機的操作。維護數據的數據結構是具有數據的格式所定義的特定屬性的存儲器的物理位置。然而,盡管在上述上下文中描述本發(fā)明,但它并不意味著限制性的,如本領域的技術人員所理解的,后文所描述的動作和操作的各方面也可用硬件來實現。
[0088]轉向附圖,其中相同的參考標號指代相同的元素,本發(fā)明的原理被示為在一個合適的計算環(huán)境中實現。以下描述基于所述的本發(fā)明的實施例,并且不應認為是關于此處未明確描述的替換實施例而限制本發(fā)明。
[0089]圖3是根據本發(fā)明實施例的待變異檢測文件的處理裝置的結構示意圖;圖4是根據本發(fā)明實施例的待變異檢測文件的處理裝置的詳細結構示意圖。出于描述的目的,所繪的體系結構僅為合適環(huán)境的一個示例,并非對本發(fā)明的使用范圍或功能提出任何局限。也不應將該計算系統(tǒng)解釋為對圖2所示的任一組件或其組合具有任何依賴或需求。
[0090]本發(fā)明的原理可以使用其它通用或專用計算或通信環(huán)境或配置來操作。適用于本發(fā)明的眾所周知的計算系統(tǒng)、環(huán)境和配置的示例包括但不限于,個人計算機、服務器,多處理器系統(tǒng)、基于微處理的系統(tǒng)、小型機、大型計算機、以及包括任一上述系統(tǒng)或設備的分布式計算環(huán)境。
[0091]如圖3所示,該待變異檢測文件的處理裝置可以包括:第一獲取模塊20、處理模塊40、變異檢測模塊60和第二獲取模塊80。
[0092]其中,第一獲取模塊20,用于根據待變異檢測文件來獲取比對數據;處理模塊40,用于對比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據;變異檢測模塊60,用于對用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果;第二獲取模塊80,用于獲取變異檢測結果進行深度處理后的輸出結果。
[0093]本申請上述實施例提供了一種多功能的變異檢測裝置,通過為變異檢測文件中各種類型的比對數據提供相應的變異檢測處理過程,對于多種類型的數據都可以進行變異檢測,因此,簡化了人工進行變異檢測設計和操作的過程,其中,對比對數據進行預處理和/或校正處理,使得后續(xù)的變異檢測處理過程成功率提高,從而在保證檢測效力和降低假陽性的前提下,簡化了用戶進行變異檢測設計和操作的難度。由此可知,本申請上述實施例解決了相關技術的針對復雜類型的比對數據的變異檢測方法功能單一、操作復雜的問題,進而實現為多種類型的比對數據提供了變異檢測方法,并簡化了變異檢測設計和操作的效果,同時,上述方案提供的檢測方案設計難度降低、同一了標準。
[0094]需要說明的是,本申請在進行變異檢測之前,系統(tǒng)需要獲取輸入文件和參數的屬性值,根據屬性值決定是否需要進行比對、決定是否需要產生訓練數據集、決定變異檢測的方法、決定是否可以進行變異注釋。上述方法中的屬性值可以包括:輸入文件類型、是否有已知變異數據、基因組染色體倍數、是否有基因編碼框(coding sequence,簡稱為⑶S)注釋數據。
[0095]如圖4所示,本申請上述實施例中的第一獲取模塊20可以包括比對模塊202,處理模塊40可以包括預處理模塊203和校正模塊204,變異檢測模塊60可以包括檢測模塊205,第二獲取模塊80可以包括后處理模塊206和注釋模塊207。
[0096]優(yōu)選地,本申請上述實施例還可以包括控制模塊201,該控制模塊201,用于控制輸入輸出、獲取文件和參數屬性值、控制其它模塊的調用和決定變異檢測方法的設計。進一步地,上述裝置中的控制模塊201的控制其它模塊的調用和決定變異檢測流程的方案可以如下:決定是否調用比對模塊并選擇恰當的比對方式、是否生成訓練數據集、是否進行SNP注釋、是否進行比對數據去冗余壓縮、選擇恰當的變異檢測模塊。
[0097]具體的,控制模塊201,控制整個變異檢測流程的設計和執(zhí)行。首先,根據輸入文件屬性值進行判斷,如果是原始測序數據,則調用比對模塊202,否則調用預處理模塊203 ;其次,在未輸入已知變異數據的情況下,調用變異檢測模塊和后處理模塊從頭產生訓練數據集;再次根據染色體倍數控制變異檢測方法的選擇;最后,控制SNP注釋模塊的調用。
[0098]上述裝置中的控制模塊201的屬性值包括:輸入文件類型、是否有已知變異數據、基因組染色體倍數、是否有基因CDS注釋數據。可選地,如上述裝置中的控制模塊201的屬性值還可以包括:輸入輸出路徑、指定樣品名稱、輸出樣品名稱、比對使用線程數。
[0099]其中,比對模塊202,用于將原始測序序列往參考基因組上比對,生成比對數據。具體的,如果被控制模塊調用,則進行將原始測序序列往參考基因組上做比對。
[0100]預處理模塊203,用于將比對數據處理成可用于變異檢測的水平。具體的,針對對比對數據進行一系列處理,產生可用于變異檢測的比對數據。
[0101 ] 校正模塊204,用于將比對數據的質量值進行重新校正以獲得高質量的比對數據。具體的,對比對數據進行堿基質量值重校正,需要依賴于訓練數據集。
[0102]檢測模塊205,用于變異檢測的執(zhí)行。具體的,根據控制模塊指示選擇合適的變異檢測方法進行變異檢測。
[0103]后處理模塊206,用于變異檢測結果的分類、過濾,以及格式轉換和基本統(tǒng)計。具體的,對變異數據進行分類,并根據控制模塊指示選擇不同的質量值過濾參數進行變異位點過濾,還負責變異數據格式轉換和統(tǒng)計等過程。
[0104]注釋模塊207,用于SNP數據的同義非同義注釋和轉換顛換統(tǒng)計。具體的,如果被控制模塊調用,則進行SNP位點的同義非同義注釋和轉換顛換統(tǒng)計。
[0105]綜上可見,本發(fā)明提出的一種多功能的變異檢測裝置內置了多項功能模塊,其中控制模塊可根據不同的數據類型自動設計最適的變異檢測流程,自動完成相應模塊的調用和整合,進行高效的變異檢測。該變異檢測方法和裝置方法嚴謹、功能全面、操作簡單。
[0106]優(yōu)選地,本申請上述實施例中的第一獲取模塊20可以包括:第一子獲取模塊,用于獲取輸入文件,輸入文件包括:參考基因組序列和變異檢測序列;第一判斷模塊,用于判斷變異檢測序列的類型;比對模塊202,用于如果變異檢測序列的類型是原始測序序列,則將原始測序序列往參考基因組序列上進行比對,生成比對數據,否則變異檢測序列為比對數據。
[0107]優(yōu)選地,本申請上述實施例中的比對模塊可以包括:構建參考基因組的索引單元,索引單元保存參考基因組序列;第二子獲取模塊,用于獲取參考基因組序列,參考基因組序列包括:參考基因組索引和參考基因組索引對應的參考基因組;子比對模塊,用于將原始測序序列與參考基因組索引對應的參考基因組進行比對,生成比對數據,其中,原始測序序列的類型包括單端測序序列和雙端測序序列,采用單端測序序列對應的對比策略或雙端測序序列對應的對比策略來將原始測序序列進行比對處理。
[0108]優(yōu)選地,本申請上述實施例中,對對比數據進行預處理包括如下任意一個或多個處理方式:對比對數據進行排序處理、對比對數據進行篩選處理、對比對數據進行去重處理、對比對數據進行重新排序處理、對比對數據預定片斷區(qū)域內的序列進行重新比對處理。
[0109]優(yōu)選地,本申請上述實施例中的處理模塊可以包括:排序處理模塊,用于按照比對數據中的序列比對到染色體上的坐標位置將比對數據中的序列進行排序,生成排序后的對比數據;分類模塊,用于在排序后的對比數據中添加樣本分類信息,得到分類后的對比數據;篩選處理,用于去除分類后的對比數據中的次要比對數據,生成篩選后的比對數據;去重處理,用于刪除篩選后的對比數據中重復的比對數據,生成去重后的比對數據;重新排序處理,用于根據參考基因組序列的染色體序列對去重后的比對數據進行重新排序,生成重新排序后的比對數據;重新比對處理,用于提取重新排序后的比對數據中的預定片斷,將靠近預定片斷的預定區(qū)域內的比對數據進行重新比對,生成預選比對數據。
[0110]優(yōu)選地,本申請上述實施例中的處理模塊還可以包括:第三子獲取模塊,用于根據預選比對數據獲取訓練數據集合;校正模塊,用于根據訓練數據集合對預選比對數據進行堿基質量值的重新校正,生成用于變異檢測的比對數據。
[0111]優(yōu)選地,本申請上述實施例中,待變異檢測文件還包括:已知變異位點信息,其中,第三子獲取模塊可以包括:第二判斷模塊,用于判斷預選比對數據是否是二倍體基因組;第一子處理模塊,用于在預選比對數據是二倍體基因組的情況下,對二倍體基因組進行去冗余和/或壓縮操作,生成含有變異位點的比對數據,在對含有變異位點的比對數據進行變異檢測之后,獲取變異檢測訓練結果;第二子處理模塊,用于在預選比對數據為非二倍體基因組的情況下,檢測是否獲取到已知變異位點信息,在獲取到已知變異位點信息的情況下,將已知變異位點信息作為變異檢測訓練結果,在沒有獲取到已知變異位點信息的情況下對,對非二倍體基因組進行變異檢測,獲取變異檢測訓練結果;子分類模塊,用于對變異檢測訓練結果進行分類,并將分類后的變異檢測訓練結果中質量低的變異位點數據進行刪除,生成訓練數據集合。
[0112]優(yōu)選地,本申請上述實施例中的校正模塊可以包括:讀取模塊,用于讀取訓練數據集合中的變異位點數據,生成校正值列表;校正處理模塊,用于根據校正值列表對預選比對數據進行校正,輸出校正后的用于變異檢測的比對數據。
[0113]優(yōu)選地,本申請上述實施例中的變異檢測模塊可以包括:第三判斷模塊,用于判斷用于變異檢測的比對數據是否是二倍體基因組;第一子變異檢測模塊,用于在用于變異檢測的比對數據是二倍體基因組的情況下,在對二倍體基因組進行去冗余和/或壓縮操作之后,執(zhí)行變異檢測,獲取變異檢測結果;第二子變異檢測模塊,用于在預選比對數據為非二倍體基因組的情況下,對非二倍體基因組進行變異檢測,獲取變異檢測結果。
[0114]優(yōu)選地,本申請上述實施例中,待變異檢測文件還包括:CDS注釋信息,其中,第二獲取模塊可以包括:分類篩選模塊,用于對變異檢測結果進行分類,并將分類后的變異檢測結果中質量低的變異位點數據進行刪除,生成SNP數據集合以及InDel數據集合;刪除模塊,用于將SNP數據集合以及InDel數據集合中間距小于預定值的變異位點進行刪除,獲取變異位點集合;注釋統(tǒng)計模塊,該注釋統(tǒng)計模塊包括:同義非同義注釋單元、轉換顛換統(tǒng)計單元,用于判斷是否獲取到CDS注釋信息,其中,在獲取到CDS注釋的情況下,對SNP數據集合中的位點進行同義非同義注釋和轉換顛換統(tǒng)計,生成注釋和統(tǒng)計信息。
[0115]由上可知,本申請?zhí)岢龅囊环N多功能的變異檢測方法和裝置,控制模塊可以根據輸入文件和參數的屬性值自動設計變異檢測方法,調用其它功能模塊自動完成整個變異檢測流程。本發(fā)明適用于單本數據檢測、多樣本數據檢測、二倍體數據檢測、非二倍體的其它整倍體數據檢測、有訓練集數據檢測、無訓練集數據檢測、DNA數據檢測、RNA數據檢測、不同深度的測序數據檢測、原始測序數據檢測、比對數據檢測等多種類型的輸入數據,解決了現有變異檢測方法和裝置功能單一、操作復雜、設計難度大、標準不統(tǒng)一的問題,簡化了用戶進行變異檢測設計和操作的難度。
[0116]從以上的描述中,可以看出,本發(fā)明實現了如下技術效果:加入了生成訓練集的步驟,有效解決了在沒有已知變異數據的前提下如何用GATK2進行堿基質量值重校正的問題;增加了去除次要比對序列和重排序的步驟,有效解決了在一些特殊比對結果文件(如TopHat2的比對結果)和參考基因組染色體排序混亂的情況下,程序會意外中止的問題;±曾加了一些自寫模塊(如間距過濾、樣本統(tǒng)計、SNP注釋)對變異結果進行統(tǒng)計和注釋,在增加了結果準確性的同時,還免去了用戶變異檢測后續(xù)數據處理的煩惱;優(yōu)化了參數設置,可以針對DNA和RNA數據進行變異檢測;可以針對二倍體和非二倍體進行變異檢測。
[0117]由此可知,本申請自動化、流程化程度高、簡單易用、不需要專業(yè)知識即可得到完整專業(yè)的分析結果,極大提高了變異檢測的工作效率。
[0118]通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現。基于這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品可以存儲在存儲介質中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執(zhí)行本申請各個實施例或者實施例的某些部分的方法。
[0119]本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
[0120]本申請可用于眾多通用或專用的計算系統(tǒng)環(huán)境或配置中。例如:個人計算機、服務器計算機、手持設備或便攜式設備、平板型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費電子設備、網絡PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設備的分布式計算環(huán)境等等。
[0121]顯然,本領域的技術人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現。這樣,本發(fā)明不限制于任何特定的硬件和軟件結合。
[0122]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.一種待變異檢測文件的處理方法,其特征在于,包括: 根據待變異檢測文件來獲取比對數據; 對所述比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據; 對所述用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果; 獲取所述變異檢測結果進行深度處理后的輸出結果。
2.根據權利要求1所述的方法,其特征在于,根據待變異檢測文件來獲取比對數據的步驟包括: 獲取輸入文件,所述輸入文件包括:參考基因組序列和變異檢測序列; 判斷所述變異檢測序列的類型,其中,如果所述變異檢測序列的類型是原始測序序列,則將所述原始測序序列往所述參考基因組序列上進行比對,生成所述比對數據,否則所述變異檢測序列為所述比對數據。
3.根據權利要求2所述的方法,其特征在于,將所述原始測序序列往所述參考基因組序列上進行比對,生成所述比對數據的步驟包括: 獲取所述參考基因組序列,所述參考基因組序列包括:參考基因組索引和所述參考基因組索引對應的參考基因組; 將所述原始測序序列與所述參考基因組索引對應的參考基因組進行比對,生成所述比對數據,其中,所述原始測序序列的類型包括單端測序序列和雙端測序序列,采用所述單端測序序列對應的對比策略或所述雙端測序序列對應的對比策略來將所述原始測序序列進行比對處理。
4.根據權利要求1至3中任意一項所述的方法,其特征在于,對所述對比數據進行預處理包括如下任意一個或多個處理`方式:對所述比對數據進行排序處理、對所述比對數據進行篩選處理、對所述比對數據進行去重處理、對所述比對數據進行重新排序處理、對所述比對數據預定片斷區(qū)域內的序列進行重新比對處理。
5.根據權利要求4所述的方法,其特征在于,對所述比對數據進行預處理的步驟包括: 對所述比對數據進行排序處理,該步驟包括:按照所述比對數據中的序列比對到染色體上的坐標位置將所述比對數據中的序列進行排序,生成排序后的對比數據; 在所述排序后的對比數據中添加樣本分類信息,得到分類后的對比數據; 對所述比對數據進行篩選處理,該步驟包括:去除所述分類后的對比數據中的次要比對數據,生成篩選后的比對數據; 對所述比對數據進行去重處理,該步驟包括:刪除所述篩選后的對比數據中重復的比對數據,生成去重后的比對數據; 對所述比對數據進行重新排序處理,該步驟包括:根據參考基因組序列的染色體序列對所述去重后的比對數據進行重新排序,生成重新排序后的比對數據; 對所述比對數據預定片斷區(qū)域內的序列進行重新比對處理,該步驟包括:提取所述重新排序后的比對數據中的所述預定片斷,將靠近所述預定片斷的預定區(qū)域內的比對數據進行重新比對,生成預選比對數據。
6.根據權利要求5所述的方法,其特征在于,對所述比對數據進行校正處理的步驟包括: 根據所述預選比對數據獲取訓練數據集合;根據所述訓練數據集合對所述預選比對數據進行堿基質量值的重新校正,生成所述用于變異檢測的比對數據。
7.根據權利要求6所述的方法,其特征在于,所述待變異檢測文件還包括:已知變異位點信息,其中,根據所述預選比對數據獲取訓練數據集合的步驟包括: 判斷所述預選比對數據是否是二倍體基因組; 在所述預選比對數據是二倍體基因組的情況下,對所述二倍體基因組進行去冗余和/或壓縮操作,生成含有變異位點的比對數據,在對所述含有變異位點的比對數據進行變異檢測之后,獲取變異檢測訓練結果; 在所述預選比對數據為非二倍體基因組的情況下,檢測是否獲取到所述已知變異位點信息,在獲取到所述已知變異位點信息的情況下,將所述已知變異位點信息作為所述變異檢測訓練結果,在沒有獲取到所述已知變異位點信息的情況下對所述,對所述非二倍體基因組進行變異檢測,獲取所述變異檢測訓練結果; 對所述變異檢測訓練結果進行分類,并將分類后的所述變異檢測訓練結果中質量低的變異位點數據進行刪除,生成所述訓練數據集合。
8.根據權利要求7所述的方法,其特征在于,根據所述訓練數據集合對所述預選比對數據進行堿基質量值的重新校正,生成所述用于變異檢測的比對數據的步驟包括: 讀取所述訓練數據集合中的變異位點數據,生成校正值列表; 根據所述校正值列表對所述預選比對數據進行校正,輸出校正后的所述用于變異檢測的比對數據。
9.根據權利要求8所述的方法,其特征在于,對所述用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果的步驟包括: 判斷所述用于變異檢測的比對數據是否是二倍體基因組; 在所述用于變異檢測的比對數據是二倍體基因組的情況下,在對所述二倍體基因組進行去冗余和/或壓縮操作之后,執(zhí)行變異檢測,獲取變異檢測結果; 在所述預選比對數據為非二倍體基因組的情況下,對所述非二倍體基因組進行變異檢測,獲取變異檢測結果。
10.根據權利要求9所述的方法,其特征在于,所述待變異檢測文件還包括:CDS注釋信息,其中,獲取所述變異檢測結果進行深度處理后的輸出結果的步驟包括: 對所述變異檢測結果進行分類,并將分類后的所述變異檢測結果中質量低的變異位點數據進行刪除,生成SNP數據集合以及InDel數據集合; 將所述SNP數據集合以及InDel數據集合中間距小于預定值的變異位點進行刪除,獲取變異位點集合; 判斷是否獲取到所述CDS注釋信息,其中,在獲取到所述CDS注釋的情況下,對所述SNP數據集合中的位點進行同義非同義注釋和轉換顛換統(tǒng)計,生成注釋和統(tǒng)計信息。
11.一種待變異檢測文件的處理裝置,其特征在于,包括: 第一獲取模塊,用于根據待變異檢測文件來獲取比對數據; 處理模塊,用于對所述比對數據進行預處理和/或校正處理,獲取用于變異檢測的比對數據; 變異檢測模塊,用于對所述用于變異檢測的比對數據進行變異檢測,獲取變異檢測結果; 第二獲取模塊,用于獲取所述變異檢測結果進行深度處理后的輸出結果。
12.根據權利要求11所述的裝置,其特征在于,所述第一獲取模塊包括: 第一子獲取模塊,用于獲取輸入文件,所述輸入文件包括:參考基因組序列和變異檢測序列; 第一判斷模塊,用于判斷所述變異檢測序列的類型; 比對模塊,用于如果所述變異檢測序列的類型是原始測序序列,則將所述原始測序序列往所述參考基因組序列上進行比對,生成所述比對數據,否則所述變異檢測序列為所述比對數據。
13.根據權利要求12所述的裝置,其特征在于,所述比對模塊包括: 第二子獲取模塊,用于獲取所述參考基因組序列,所述參考基因組序列包括:參考基因組索引和所述參考基因組索引對應的參考基因組; 子比對模塊,用于將所述原始測序序列與所述參考基因組索引對應的參考基因組進行比對,生成所述比對數據,其中,所述原始測序序列的類型包括單端測序序列和雙端測序序列,采用所述單端測序序列對應的對比策略或所述雙端測序序列對應的對比策略來將所述原始測序序列進行比對處理。
14.根據權利要求11至13中任意一項所述的裝置,其特征在于,對所述對比數據進行預處理包括如下任意一個或多個處理方式:對所述比對數據進行排序處理、對所述比對數據進行篩選處理、對所述比對數據進行去重處理、對所述比對數據進行重新排序處理、對所述比對數據預定片斷區(qū)域內的序列進行重新比對處理。
15.根據權利要求14所述的裝置,其特征在于,所述處理模塊包括: 排序處理模塊,用于按照所述比對數據中的序列比對到染色體上的坐標位置將所述比對數據中的序列進行排序,生成排序后的對比數據; 分類模塊,用于在所述排序后的對比數據中添加樣本分類信息,得到分類后的對比數據; 篩選處理,用于去除所述分類后的對比數據中的次要比對數據,生成篩選后的比對數據; 去重處理,用于刪除所述篩選后的對比數據中重復的比對數據,生成去重后的比對數據; 重新排序處理,用于根據參考基因組序列的染色體序列對所述去重后的比對數據進行重新排序,生成重新排序后的比對數據; 重新比對處理,用于提取所述重新排序后的比對數據中的所述預定片斷,將靠近所述預定片斷的預定區(qū)域內的比對數據進行重新比對,生成預選比對數據。
16.根據權利要求15所述的裝置,其特征在于,所述處理模塊還包括: 第三子獲取模塊,用于根據所述預選比對數據獲取訓練數據集合; 校正模塊,用于根據所述訓練數據集合對所述預選比對數據進行堿基質量值的重新校正,生成所述用于變異檢測的比對數據。
17.根據權利要求16所述的裝置,其特征在于,所述待變異檢測文件還包括:已知變異位點信息,其中,所述第三子獲取模塊包括:第二判斷模塊,用于判斷所述預選比對數據是否是二倍體基因組; 第一子處理模塊,用于在所述預選比對數據是二倍體基因組的情況下,對所述二倍體基因組進行去冗余和/或壓縮操作,生成含有變異位點的比對數據,在對所述含有變異位點的比對數據進行變異檢測之后,獲取變異檢測訓練結果; 第二子處理模塊,用于在所述預選比對數據為非二倍體基因組的情況下,檢測是否獲取到所述已知變異位點信息,在獲取到所述已知變異位點信息的情況下,將所述已知變異位點信息作為所述變異檢測訓練結果,在沒有獲取到所述已知變異位點信息的情況下對所述,對所述非二倍體基因組進行變異檢測,獲取所述變異檢測訓練結果; 子分類模塊,用于對所述變異檢測訓練結果進行分類,并將分類后的所述變異檢測訓練結果中質量低的變異位點數據進行刪除,生成所述訓練數據集合。
18.根據權利要求17所述的裝置,其特征在于,所述校正模塊包括: 讀取模塊,用于讀取所述訓練數據集合中的變異位點數據,生成校正值列表; 校正處理模塊,用于根據所述校正值列表對所述預選比對數據進行校正,輸出校正后的所述用于變異檢測的比對數據。
19.根據權利要求18所述的裝置,其特征在于,所述變異檢測模塊包括: 第三判斷模塊,用于判斷所述用于變異檢測的比對數據是否是二倍體基因組; 第一子變異檢測模塊,用于在所述用于變異檢測的比對數據是二倍體基因組的情況下,在對所述二倍體基因組進行去冗余和/或壓縮操作之后,執(zhí)行變異檢測,獲取變異檢測結果; 第二子變異檢測模塊,用于在所述預選比對數據為非二倍體基因組的情況下,對所述非二倍體基因組進行變異檢測,獲取變異檢測結果。
20.根據權利要求19所述的裝置,其特征在于,所述待變異檢測文件還包括:CDS注釋信息,其中,所述第二獲取模塊包括: 分類篩選模塊,用于對所述變異檢測結果進行分類,并將分類后的所述變異檢測結果中質量低的變異位點數據進行刪除,生成SNP數據集合以及InDel數據集合; 刪除模塊,用于將所述SNP數據集合以及InDel數據集合中間距小于預定值的變異位點進行刪除,獲取變異位點集合; 注釋統(tǒng)計模塊,用于判斷是否獲取到所述CDS注釋信息,其中,在獲取到所述CDS注釋的情況下,對所述SNP數據 集合中的位點進行同義非同義注釋和轉換顛換統(tǒng)計,生成注釋和統(tǒng)計信息。
【文檔編號】G06F19/18GK103617256SQ201310629728
【公開日】2014年3月5日 申請日期:2013年11月29日 優(yōu)先權日:2013年11月29日
【發(fā)明者】閆軍, 吳俊 , 張鈺 申請人:北京諾禾致源生物信息科技有限公司