欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

重測(cè)序數(shù)據(jù)的處理方法和處理裝置制造方法

文檔序號(hào):6633158閱讀:568來源:國知局
重測(cè)序數(shù)據(jù)的處理方法和處理裝置制造方法
【專利摘要】本發(fā)明公開了一種重測(cè)序數(shù)據(jù)的處理方法和處理裝置。該處理方法包括:步驟A,確定基因組的重測(cè)序數(shù)據(jù)的文件路徑;步驟B,使用重測(cè)序數(shù)據(jù)的文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件;步驟C,接收用戶輸入的查詢條件,查詢條件至少包括如下任意一種或多種條件:基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽;步驟D,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息;以及步驟E,顯示基因組中滿足查詢條件的屬性信息。該處理方法根據(jù)用戶感興趣的查詢條件進(jìn)行查詢并快速顯示符合查詢條件的屬性信息,且操作簡單,方便客戶自行查詢,又能滿足客戶多樣化的查詢需求。
【專利說明】重測(cè)序數(shù)據(jù)的處理方法和處理裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及高通量測(cè)序數(shù)據(jù)的處理領(lǐng)域,具體而言,涉及一種重測(cè)序數(shù)據(jù)的處理方法和處理裝置。

【背景技術(shù)】
[0002]隨著高通量測(cè)序技術(shù)的發(fā)展,基因測(cè)序的成本和效率分別大幅降低和提高,越來越多的科研項(xiàng)目通過高通量測(cè)序的方法研究基因相關(guān)的課題?;驕y(cè)序領(lǐng)域還沒專門針對(duì)重測(cè)序結(jié)果進(jìn)行個(gè)性化查詢的軟件,是一個(gè)很大的空缺。
[0003]在得到海量測(cè)序數(shù)據(jù)后,對(duì)其進(jìn)行有效篩選和顯示的軟件很少,且功能不全,針對(duì)性不強(qiáng)。例如 DNAStar 軟件,該軟件由 EditSeq MegAlign、GeneQuest MapDrawPrimerSelect Protean SeqMan II七個(gè)模塊組成,功能主要有:序列的格式轉(zhuǎn)換,序列拼接和重疊克隆群的處理;基因?qū)ふ遥坏鞍踪|(zhì)結(jié)構(gòu)域的查找;多重序列的比較和兩兩序列比較;寡核苷酸設(shè)計(jì)(PCR引物,測(cè)序引物,探針)。這樣的生物學(xué)輔助軟件,無法讓科研工作者進(jìn)行根據(jù)自己的需要對(duì)樣本以及樣本間進(jìn)行更多樣化的查詢或比較,如果想獲取這些信息還需要專門的機(jī)構(gòu)進(jìn)行分析,費(fèi)時(shí)費(fèi)力,成本較高,而且受限于技術(shù)、思路、溝通等因素,不一定能得到科研人員期望的結(jié)果。
[0004]針對(duì)現(xiàn)有技術(shù)中在對(duì)重測(cè)序數(shù)據(jù)處理時(shí),客戶操作難度大且處理操作功能單一,從而導(dǎo)致客戶無法按照自己的需求或興趣對(duì)該重測(cè)序數(shù)據(jù)進(jìn)行自行處理的問題,目前尚未提出有效的解決方案。


【發(fā)明內(nèi)容】

[0005]針對(duì)現(xiàn)有技術(shù)中在對(duì)重測(cè)序數(shù)據(jù)處理時(shí),客戶操作難度大且處理操作功能單一,從而導(dǎo)致客戶無法按照自己的需求或興趣對(duì)該重測(cè)序數(shù)據(jù)進(jìn)行自行處理的問題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種重測(cè)序數(shù)據(jù)的處理方法和裝置,以滿足客戶對(duì)重測(cè)序數(shù)據(jù)的多樣化處理需求。
[0006]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種重測(cè)序數(shù)據(jù)的處理方法,該處理方法包括:步驟A,確定基因組的重測(cè)序數(shù)據(jù)的文件路徑;步驟B,使用重測(cè)序數(shù)據(jù)的文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件;步驟C,接收用戶輸入的查詢條件,查詢條件至少包括如下任意一種或多種條件:基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽;步驟D,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息;以及步驟E,顯示基因組中滿足查詢條件的屬性信息。
[0007]進(jìn)一步地,在變異信息標(biāo)簽為SNP的情況下,查詢條件至少還包括:與SNP對(duì)應(yīng)的至少一個(gè)基因區(qū)域或至少一種密碼子變異類型;在變異信息標(biāo)簽為INDEL的情況下,查詢條件至少還包括--與INDEL對(duì)應(yīng)的至少一個(gè)基因區(qū)域或者INDEL是否存在漂移;在變異信息標(biāo)簽為SV的情況下,查詢條件至少還包括:與SV對(duì)應(yīng)的如下至少一個(gè)參數(shù):SV閾值、SV類型和SV大??;在變異信息標(biāo)簽為CNV的情況下,查詢條件至少還包括:與CNV對(duì)應(yīng)的如下至少一個(gè)參數(shù):CNV閾值、CNV類型和CNV大小。
[0008]進(jìn)一步地,在變異信息標(biāo)簽為SNP的情況下,查詢條件至少包括如下任意一個(gè)或多個(gè)基因區(qū)域:內(nèi)含子區(qū)域、外顯子區(qū)域、剪接體區(qū)域、下游區(qū)域、上游區(qū)域以及基因間區(qū)域,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)基因區(qū)域?qū)Φ谝晃募M(jìn)行篩選,得到與一個(gè)或多個(gè)基因區(qū)域相對(duì)應(yīng)的屬性信息,屬性信息為第一數(shù)據(jù)表;第一數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:對(duì)應(yīng)全基因組注釋文件中的行號(hào)、SNP變異所在的基因區(qū)域、SNP變異類型、SNP變異所在的染色體編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP所對(duì)應(yīng)的參考序列的喊基類型、SNP所在的檢測(cè)樣本的喊基類型、檢測(cè)樣本中SNP所在基因的基因型、SNP變異檢測(cè)質(zhì)量、SNP堿基覆蓋深度和SNP所在測(cè)序序列的比對(duì)質(zhì)量。
[0009]進(jìn)一步地,在變異信息標(biāo)簽為SNP的情況下,查詢條件至少包括如下任意一種或多種密碼子變異類型:密碼子同義突變、密碼子非同義突變、獲得終止密碼子突變、喪失終止密碼子突變,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一種或多種密碼子變異類型對(duì)第一文件進(jìn)行篩選,得到與一種或多種密碼子變異類型相對(duì)應(yīng)的屬性信息,屬性信息為第二數(shù)據(jù)表;第二數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=SNP變異所在的基因區(qū)域、SNP變異位置對(duì)應(yīng)的基因名稱、SNP變異所在的染色體的編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP所對(duì)應(yīng)的參考序列的堿基類型、SNP所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中SNP所在基因的基因型、SNP變異檢測(cè)質(zhì)量、SNP堿基覆蓋深度和SNP所在測(cè)序序列的比對(duì)質(zhì)量。
[0010]進(jìn)一步地,在變異信息標(biāo)簽為INDEL的情況下,查詢條件至少包括如下任意一個(gè)或多個(gè)基因區(qū)域:內(nèi)含子區(qū)域、外顯子區(qū)域、剪接體區(qū)域、下游區(qū)域、上游區(qū)域以及基因間區(qū)域,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)基因區(qū)域?qū)Φ谝晃募M(jìn)行篩選,得到與一個(gè)或多個(gè)基因區(qū)域相對(duì)應(yīng)的屬性信息,屬性信息為第三數(shù)據(jù)表;第三數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=INDEL變異所在的基因區(qū)域、INDEL變異位置對(duì)應(yīng)的基因名稱、INDEL變異所在的染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中INDEL所在的基因的基因型、INDEL變異檢測(cè)質(zhì)量、INDEL堿基覆蓋深度和含有INDEL的測(cè)序序列的比對(duì)質(zhì)量。
[0011]進(jìn)一步地,在變異信息標(biāo)簽為INDEL的情況下,查詢條件至少包括INDEL是否存在漂移,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用INDEL是否存在漂移對(duì)第一文件進(jìn)行篩選,得到與INDL是否存在漂移相對(duì)應(yīng)的屬性信息,屬性信息為第四數(shù)據(jù)表;第四數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=INDEL變異對(duì)應(yīng)于全基因組注釋文件中的行號(hào)、INDEL所在的基因區(qū)域、INDEL變異信息、INDEL變異所在的染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中INDEL所在的基因的基因型、INDEL變異檢測(cè)質(zhì)量、INDEL堿基覆蓋深度和含有INDEL的測(cè)序序列的比對(duì)質(zhì)量。
[0012]進(jìn)一步地,在變異信息標(biāo)簽為SV的情況下,查詢條件至少還包括如下任意一種或幾種參數(shù):sv閾值、SV類型和SV大??;其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)參數(shù)對(duì)第一文件進(jìn)行篩選,得到與參數(shù)相對(duì)應(yīng)的屬性信息,屬性信息為第五數(shù)據(jù)表;第五數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=SV變異所在的第一染色體的編號(hào)、SV變異所在的第一染色體的第一位置、比對(duì)在第一位置上的含有SV序列的正負(fù)鏈的第一信息、SV變異所在的第二染色體的編號(hào)、SV變異所在的第二染色體的第二位置、比對(duì)在第二位置上的含有SV序列的正負(fù)鏈的第二信息、SV變異類型、SV變異長度、SV變異檢測(cè)的分?jǐn)?shù)、支持SV變異的雙端測(cè)序序列的數(shù)目、支持SV變異的雙端測(cè)序序列的文件來源、SV所在基因的等位基因的估算頻率和SV變異位置的基因名稱。
[0013]進(jìn)一步地,在變異信息標(biāo)簽為CNV的情況下,查詢條件至少還包括如下任意一種或幾種參數(shù)=CNV閾值、CNV類型和CNV大??;其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)參數(shù)對(duì)第一文件進(jìn)行篩選,得到與參數(shù)對(duì)應(yīng)的屬性信息,屬性信息為第六數(shù)據(jù)表;第六數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=CNV變異所在的基因區(qū)域、CNV變異位置的基因名稱、CNV變異所在的染色體編號(hào)、CNV變異的起始位置、CNV變異的終止位置和CNV變異類型。
[0014]進(jìn)一步地,在確定基因組的重測(cè)序數(shù)據(jù)的文件路徑之后,處理方法還包括:判斷基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效,其中,在基因組的重測(cè)序數(shù)據(jù)的文件路徑有效的情況下,執(zhí)行讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件的步驟,否則,重新確定有效的文件路徑或者結(jié)束處理流程。
[0015]進(jìn)一步地,在查詢條件包括基因名稱和至少兩個(gè)樣本的變異信息標(biāo)簽,或者,查詢條件包括染色體區(qū)間和至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,在從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件之后,處理方法還包括:讀取接收到的用于處理重測(cè)序數(shù)據(jù)文件的處理指令,處理指令包括:查詢指令和比對(duì)指令;在處理指令為比對(duì)指令的情況下,通過每個(gè)樣本執(zhí)行上述步驟C和步驟D,來獲取每個(gè)樣本在基因組中滿足查詢條件的屬性信息;比對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息,生成比對(duì)結(jié)果。
[0016]進(jìn)一步地,比對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息,生成比對(duì)結(jié)果的步驟包括:在變異信息標(biāo)簽為SNP的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與SNP對(duì)應(yīng)的至少一個(gè)基因區(qū)域或至少一種密碼子變異類型相對(duì)應(yīng)的屬性信息,生成SNP比對(duì)結(jié)果,SNP比對(duì)結(jié)果為第七數(shù)據(jù)表,第七數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=SNP變異所在染色體編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP對(duì)應(yīng)的參考序列的喊基類型、SNP所在的檢測(cè)樣本的喊基類型和檢測(cè)樣本中SNP所在基因的基因型;在變異信息標(biāo)簽為INDEL的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與INDEL對(duì)應(yīng)的至少一個(gè)基因區(qū)域或者INDEL是否存在漂移相對(duì)應(yīng)的屬性信息,生成INDEL比對(duì)結(jié)果,比對(duì)結(jié)果為第八數(shù)據(jù)表,第八數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下之一的數(shù)據(jù)屬性中的一種=INDEL變異所在染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型和檢測(cè)樣本中INDEL所在基因的基因型;在變異信息標(biāo)簽為SV的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與SV對(duì)應(yīng)的如下至少一個(gè)參數(shù):SV閾值、SV類型和SV大小,比對(duì)結(jié)果為第九數(shù)據(jù)表,第九數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:SV變異所在的第一染色體的編號(hào)、SV變異所在的第一染色體的第一位置、SV變異所在的第二染色體的編號(hào)、SV變異所在的第二染色體的第二位置、比較樣本的SV變異類型和比較樣本的SV變異位置的基因名稱;在變異信息標(biāo)簽為CNV的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與CNV對(duì)應(yīng)的如下至少一個(gè)參數(shù)=CNV閾值、CNV類型和CNV大小,比對(duì)結(jié)果為第十?dāng)?shù)據(jù)表,第十?dāng)?shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=CNV變異所在染色體編號(hào)、CNV變異的起始位置、CNV變異的終止位置、比較樣本的CNV變異類型和比較樣本的CNV變異位置的基因名稱。
[0017]根據(jù)本發(fā)明的另一方面,提供了一種重測(cè)序數(shù)據(jù)的處理裝置,該處理裝置包括:路徑模塊,用于確定基因組的重測(cè)序數(shù)據(jù)的文件路徑;文件讀取模塊,用于使用重測(cè)序數(shù)據(jù)的文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件;接收模塊,用于接收用戶輸入的查詢條件,查詢條件至少包括如下任意一種或多種條件:基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽;查詢模塊,用于根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,以獲取基因組中滿足查詢條件的屬性信息;以及顯示模塊,用于顯示基因組中滿足查詢條件的屬性信息。
[0018]進(jìn)一步地,在執(zhí)行路徑模塊之后,處理裝置還包括:判斷模塊,用于判斷基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效;第一處理模塊,用于在基因組的重測(cè)序數(shù)據(jù)的文件路徑有效的情況下,執(zhí)行讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件的步驟;第二處理模塊,用于在基因組的重測(cè)序數(shù)據(jù)的文件路徑無效的情況下,重新確定有效的文件路徑或者結(jié)束處理流程。
[0019]進(jìn)一步地,在接收模塊接收到的查詢條件包括:基因名稱和至少兩個(gè)樣本的變異信息標(biāo)簽,或者,查詢條件包括:染色體區(qū)間和至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,在執(zhí)行文件讀取模塊后,處理裝置還包括:指令讀取模塊:用于讀取接收到的用于處理重測(cè)序數(shù)據(jù)文件的處理指令,處理指令包括:查詢指令和比對(duì)指令;以及比對(duì)模塊,用于比對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息,生成比對(duì)結(jié)果。
[0020]應(yīng)用本發(fā)明的技術(shù)方案,通過確定基因組的重測(cè)序數(shù)據(jù)的文件路徑,然后按照該文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件,接收用戶輸入的查詢條件,根據(jù)用戶輸入的至少包括基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽中的任意一種或多種查詢條件,從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,以獲取基因組中滿足查詢條件的屬性信息;最后將基因組中滿足查詢條件的屬性信息顯示出來。本發(fā)明的處理方法,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對(duì)重測(cè)序數(shù)據(jù)進(jìn)行查詢,可以快速地顯示基因組中符合上述查詢條件的屬性信息,該處理方法對(duì)重測(cè)序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的查詢需求。

【專利附圖】

【附圖說明】
[0021]構(gòu)成本申請(qǐng)的一部分的說明書附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0022]圖1示出了根據(jù)本發(fā)明的實(shí)施例的重測(cè)序數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;
[0023]圖2示出了根據(jù)本發(fā)明的實(shí)施例的重測(cè)序數(shù)據(jù)處理方法的流程圖;
[0024]圖3示出了根據(jù)本發(fā)明的實(shí)施例的重測(cè)序數(shù)據(jù)處理方法的詳細(xì)流程圖;以及
[0025]圖4示出了根據(jù)圖2所示的實(shí)施例中查詢條件包括SNP信息標(biāo)簽情況下的重測(cè)序數(shù)據(jù)處理方法的示意圖。

【具體實(shí)施方式】
[0026]需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0027]在本發(fā)明中,SNP(single nucleotide polymorphism)代表單核苷酸多態(tài)性;INDEL (insert and delet1n)代表插入缺失;SV (structure variat1n)代表結(jié)構(gòu)變異;CNV (copy number variat1n)代表拷貝數(shù)異常;PE reads (pair-end reads)雙端測(cè)序的序列;上述詞語均為本領(lǐng)域的常規(guī)術(shù)語。剪接體區(qū)域是指將真核RNA的內(nèi)含子除去,將外顯子連接起來形成具有連續(xù)的編碼序列的mRNA分子。
[0028]圖1是根據(jù)本發(fā)明實(shí)施例的重測(cè)序數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖。如圖1所示,該處理裝置包括:路徑模塊,用于確定基因組的重測(cè)序數(shù)據(jù)的文件路徑;文件讀取模塊,用于使用重測(cè)序數(shù)據(jù)的文件路徑;接收模塊,用于接收用戶輸入的查詢條件,查詢條件至少包括如下任意一種或多種條件:基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽;查詢模塊,用于根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,以獲取基因組中滿足查詢條件的屬性信息;顯示模塊,用于顯示基因組中滿足查詢條件的屬性信息。
[0029]采用本發(fā)明的重測(cè)序數(shù)據(jù)的處理裝置,通過路徑模塊確定基因組的重測(cè)序數(shù)據(jù)的文件路徑,然后文件讀取模塊按照該文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件,之后接收模塊接收用戶輸入的查詢條件,查詢模塊根據(jù)用戶輸入的至少包括基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽中的任意一種或多種查詢條件,從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,以獲取基因組中滿足查詢條件的屬性信息;最后顯示模塊將基因組中滿足查詢條件的屬性信息顯示出來。本發(fā)明的處理裝置,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對(duì)重測(cè)序數(shù)據(jù)進(jìn)行查詢,可以快速地顯示基因組中符合上述查詢條件的屬性信息,該處理裝置對(duì)重測(cè)序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的查詢需求。
[0030]具體地,基因名稱可以是一個(gè)或多個(gè),當(dāng)基因名稱是多個(gè)時(shí),每行一個(gè)。染色體區(qū)間可以是某條染色體的編號(hào),也可以是該染色體編號(hào)下對(duì)應(yīng)的物理位置區(qū)間,比如:3號(hào)染色體或者3號(hào)染色體上的35687bp至61235bp。變異信息標(biāo)簽包括基因組上各種可能的變異情況,包括SNP (單核苷酸多態(tài)性)、INDEL (插入缺失)、SV (結(jié)構(gòu)變異)以及CNV (拷貝數(shù)變異)。
[0031]根據(jù)本發(fā)明的上述實(shí)施例,在執(zhí)行路徑模塊之后,處理裝置還包括:判斷模塊,用于判斷基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效;第一處理模塊,用于在基因組的重測(cè)序數(shù)據(jù)的文件路徑有效的情況下,執(zhí)行讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件的步驟;第二處理模塊,用于在基因組的重測(cè)序數(shù)據(jù)的文件路徑無效的情況下,重新確定有效的文件路徑或者結(jié)束處理流程。
[0032]上述實(shí)施例中,判斷模塊能夠判斷待處理的基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效,若在確定基因組的重測(cè)序數(shù)據(jù)的文件路徑有效的情況下,則通過第一處理模塊執(zhí)行讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件的步驟;若在確定重測(cè)序數(shù)據(jù)的文件路徑無效的情況下,則通過第二處理模塊重新確定有效的文件路徑或者結(jié)束處理流程。
[0033]其中,判斷模塊通過檢測(cè)需要處理的基因組的重測(cè)序數(shù)據(jù)的文件是否存在于重測(cè)序數(shù)據(jù)庫中,來確定需要處理的基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效。
[0034]在本發(fā)明的上述實(shí)施例中,在接收模塊接收到的查詢條件包括:基因名稱和至少兩個(gè)樣本的變異信息標(biāo)簽,或者,查詢條件包括:染色體區(qū)間和至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,在執(zhí)行接收模塊后,處理裝置還包括:指令讀取模塊:用于讀取接收到的用于處理重測(cè)序數(shù)據(jù)文件的處理指令,處理指令包括:查詢指令和比對(duì)指令;以及比對(duì)模塊,用于比對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息,生成比對(duì)結(jié)果。
[0035]其中,當(dāng)接受模塊接收的查詢條件包括基因名稱和至少兩個(gè)樣本的變異信息標(biāo)簽,或者,查詢條件包括:染色體區(qū)間和至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,在執(zhí)行接收模塊后,通過指令讀取模塊讀取接收到用于處理重測(cè)序數(shù)據(jù)文件的處理指令,處理指令包括查詢指令和比對(duì)指令;然后查詢模塊根據(jù)查詢指令從基因組的重測(cè)序數(shù)據(jù)文件中查詢并獲得滿足接受模塊中的查詢條件的屬性信息;最后比對(duì)模塊根據(jù)比對(duì)指令,通過比對(duì)查詢模塊獲得的基因組中滿足查詢條件的屬性信息,比對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息,生成比對(duì)結(jié)果通過顯示模塊進(jìn)行顯示。
[0036]圖2是根據(jù)本發(fā)明實(shí)施例的重測(cè)序數(shù)據(jù)的處理方法的流程圖。圖3是根據(jù)本發(fā)明實(shí)施例的重測(cè)序數(shù)據(jù)的處理方法的詳細(xì)流程圖。如圖2和圖3所示,該處理方法包括如下步驟:
[0037]步驟A,確定基因組的重測(cè)序數(shù)據(jù)的文件路徑;
[0038]步驟B,使用重測(cè)序數(shù)據(jù)的文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件;
[0039]步驟C,接收用戶輸入的查詢條件,查詢條件至少包括如下任意一種或多種條件:基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽;
[0040]具體地,基因名稱可以是一個(gè)或多個(gè),當(dāng)基因名稱是多個(gè)時(shí),每行一個(gè)。染色體區(qū)間可以是某條染色體的編號(hào),也可以是該染色體編號(hào)下對(duì)應(yīng)的物理位置區(qū)間,比如:3號(hào)染色體或者3號(hào)染色體上的35687bp至61235bp。變異信息標(biāo)簽包括基因組上各種可能的變異情況,包括SNP (單核苷酸多態(tài)性)、INDEL (插入缺失)、SV (結(jié)構(gòu)變異)以及CNV (拷貝數(shù)變異)。
[0041]步驟D,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息;
[0042]步驟E,顯示基因組中滿足查詢條件的屬性信息。
[0043]采用本發(fā)明的重測(cè)序數(shù)據(jù)的處理方法,通過確定基因組的重測(cè)序數(shù)據(jù)的文件路徑,然后按照該文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件,接收用戶輸入的查詢條件,根據(jù)用戶輸入的至少包括基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽中的任意一種或多種查詢條件,從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,以獲取基因組中滿足查詢條件的屬性信息;最后將基因組中滿足查詢條件的屬性信息顯示出來。本發(fā)明的處理方法,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對(duì)重測(cè)序數(shù)據(jù)進(jìn)行查詢,可以快速地顯示基因組中符合上述查詢條件的屬性信息,該處理方法對(duì)重測(cè)序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的查詢需求。
[0044]在上述實(shí)施例中,當(dāng)接收到的查詢條件僅為基因名稱時(shí),本發(fā)明的上述處理方法能夠顯示重測(cè)序數(shù)據(jù)文件中與該基因名稱相對(duì)應(yīng)的所有屬性信息,比如基因ID號(hào)、所在的染色體編號(hào)、基因序列、基因的外顯子區(qū)域、基因內(nèi)含子區(qū)域、上下游區(qū)域、基因的SNP變異、INDEL變異、SV變異、CNV變異以及各種變異發(fā)生的具體位置等詳細(xì)信息。當(dāng)接收到的查詢條件僅為染色體區(qū)間時(shí),上述處理方法能夠顯示重測(cè)序數(shù)據(jù)文件中與該染色體區(qū)間相對(duì)應(yīng)的所有屬性信息。當(dāng)接收到的查詢條件僅為染色體而未選擇區(qū)間時(shí),查詢條件默認(rèn)為是整條染色體,上述處理方法能夠顯示重測(cè)序數(shù)據(jù)文件中與該條染色體相對(duì)應(yīng)的所有屬性信息。當(dāng)接收到的查詢條件為基因名稱和染色體區(qū)間時(shí),在基因名稱在該染色體區(qū)間上或者該染色體區(qū)間屬于該基因上的序列一部分的情況下,上述處理方法顯示與對(duì)應(yīng)基因的相應(yīng)染色體區(qū)間上的所有屬性信息,或者,顯示與對(duì)應(yīng)染色體區(qū)間內(nèi)的與查詢的基因名稱相對(duì)應(yīng)的基因的所有屬性信息。當(dāng)接收到的查詢條件是基因名稱與變異信息標(biāo)簽時(shí),上述處理方法能夠顯示基因組中與基因名稱相對(duì)應(yīng)的變異信息的相關(guān)屬性信息。當(dāng)接收到的查詢條件是染色體區(qū)間與變異信息標(biāo)簽時(shí),上述處理方法能夠顯示基因組中與染色體區(qū)間相對(duì)應(yīng)的變異信息的相關(guān)屬性信息。
[0045]根據(jù)變異信息標(biāo)簽的不同,上述實(shí)施例中接受到的用戶輸入的查詢條件也各不相同。在實(shí)際處理過程中,具體的查詢條件可根據(jù)變異信息標(biāo)簽的不同進(jìn)行合理調(diào)整。在本發(fā)明一種優(yōu)選的實(shí)施例中,在變異信息標(biāo)簽為SNP的情況下,查詢條件至少還包括:與SNP對(duì)應(yīng)的至少一個(gè)基因區(qū)域或至少一種密碼子變異類型;在變異信息標(biāo)簽為INDEL的情況下,查詢條件至少還包括--與INDEL對(duì)應(yīng)的至少一個(gè)基因區(qū)域或者INDEL是否存在漂移;在變異信息標(biāo)簽為SV的情況下,查詢條件至少還包括--與SV對(duì)應(yīng)的如下至少一個(gè)參數(shù):SV閾值、SV類型和SV大小;在變異信息標(biāo)簽為CNV的情況下,查詢條件至少還包括:與CNV對(duì)應(yīng)的如下至少一個(gè)參數(shù):CNV閾值、CNV類型和CNV大小。
[0046]上述優(yōu)選的實(shí)施例中,根據(jù)SNP、INDEL、SV以及CNV各種變異信息標(biāo)簽的不同,進(jìn)一步根據(jù)用戶自己感興趣的各種變異信息所具有的詳細(xì)特點(diǎn)或出于研究目的不同而對(duì)不同的變異信息進(jìn)行查詢而設(shè)置的查詢條件,通過上述更詳細(xì)的查詢條件能夠從測(cè)序數(shù)據(jù)文件中獲取并顯示符合客戶要求基因組中的各變異信息的屬性信息,滿足客戶多樣化需求。
[0047]在上述優(yōu)選實(shí)施例中,根據(jù)變異信息標(biāo)簽的不同以及查詢條件的不同,具體的查詢步驟也不相同。在變異信息標(biāo)簽為SNP的情況下,如圖4所示,查詢條件至少包括如下任意一個(gè)或多個(gè)基因區(qū)域:內(nèi)含子區(qū)域、外顯子區(qū)域、剪接體區(qū)域、下游區(qū)域、上游區(qū)域以及基因間區(qū)域,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)基因區(qū)域?qū)Φ谝晃募M(jìn)行篩選,得到與一個(gè)或多個(gè)基因區(qū)域相對(duì)應(yīng)的屬性信息,屬性信息為第一數(shù)據(jù)表;第一數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:對(duì)應(yīng)全基因組注釋文件中的行號(hào)、SNP變異所在的基因區(qū)域、SNP變異類型、SNP變異所在的染色體編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP所對(duì)應(yīng)的參考序列的堿基類型、SNP所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中SNP所在基因的基因型、SNP變異檢測(cè)質(zhì)量、SNP堿基覆蓋深度和SNP所在測(cè)序序列的比對(duì)質(zhì)量。
[0048]在變異信息標(biāo)簽為SNP的情況下,查詢條件至少包括如下任意一種或多種密碼子變異類型:密碼子同義突變、密碼子非同義突變、獲得終止密碼子突變、喪失終止密碼子突變,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一種或多種密碼子變異類型對(duì)第一文件進(jìn)行篩選,得到與一種或多種密碼子變異類型相對(duì)應(yīng)的屬性信息,屬性信息為第二數(shù)據(jù)表;第二數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=SNP變異所在的基因區(qū)域、SNP變異位置對(duì)應(yīng)的基因名稱、SNP變異所在的染色體的編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP所對(duì)應(yīng)的參考序列的喊基類型、SNP所在的檢測(cè)樣本的喊基類型、檢測(cè)樣本中SNP所在基因的基因型、SNP變異檢測(cè)質(zhì)量、SNP堿基覆蓋深度和SNP所在測(cè)序序列的比對(duì)質(zhì)量。
[0049]上述實(shí)施例中,當(dāng)變異信息標(biāo)簽為SNP的情況下,如圖4所示,查詢條件可以根據(jù)客戶關(guān)注的基因區(qū)域的不同或密碼子變異信息的不同進(jìn)行分別查詢或同時(shí)進(jìn)行查詢,可以獲取到滿足客戶各種查詢條件的屬性信息。
[0050]在變異信息標(biāo)簽為INDEL的情況下,查詢條件至少包括如下任意一個(gè)或多個(gè)基因區(qū)域:內(nèi)含子區(qū)域、外顯子區(qū)域、剪接體區(qū)域、下游區(qū)域、上游區(qū)域以及基因間區(qū)域,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)基因區(qū)域?qū)Φ谝晃募M(jìn)行篩選,得到與一個(gè)或多個(gè)基因區(qū)域相對(duì)應(yīng)的屬性信息,屬性信息為第三數(shù)據(jù)表;第三數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=INDEL變異所在的基因區(qū)域、INDEL變異位置對(duì)應(yīng)的基因名稱、INDEL變異所在的染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中INDEL所在的基因的基因型、INDEL變異檢測(cè)質(zhì)量、INDEL堿基覆蓋深度和含有INDEL的測(cè)序序列的比對(duì)質(zhì)量。
[0051]在變異信息標(biāo)簽為INDEL的情況下,查詢條件至少包括INDEL是否存在漂移,其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用INDEL是否存在漂移對(duì)第一文件進(jìn)行篩選,得到與INDL是否存在漂移相對(duì)應(yīng)的屬性信息,屬性信息為第四數(shù)據(jù)表;第四數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=INDEL變異對(duì)應(yīng)于全基因組注釋文件中的行號(hào)、INDEL所在的基因區(qū)域、INDEL變異信息、INDEL變異所在的染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中INDEL所在的基因的基因型、INDEL變異檢測(cè)質(zhì)量、INDEL堿基覆蓋深度和含有INDEL的測(cè)序序列的比對(duì)質(zhì)量。
[0052]上述實(shí)施例中,在變異信息標(biāo)簽為SV的情況下,查詢條件至少還包括如下任意一種或幾種參數(shù):sv閾值、SV類型和SV大??;其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)參數(shù)對(duì)第一文件進(jìn)行篩選,得到與參數(shù)相對(duì)應(yīng)的屬性信息,屬性信息為第五數(shù)據(jù)表;第五數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:sv變異所在的第一染色體的編號(hào)、SV變異所在的第一染色體的第一位置、比對(duì)在第一位置上的含有SV序列的正負(fù)鏈的第一信息、SV變異所在的第二染色體的編號(hào)、SV變異所在的第二染色體的第二位置、比對(duì)在第二位置上的含有SV序列的正負(fù)鏈的第二信息、SV變異類型、SV變異長度、SV變異檢測(cè)的分?jǐn)?shù)、支持SV變異的雙端測(cè)序序列的數(shù)目、支持SV變異的雙端測(cè)序序列的文件來源、SV所在基因的等位基因的估算頻率和SV變異位置的基因名稱。
[0053]上述實(shí)施例中,在變異信息標(biāo)簽為SV的情況下,查詢條件至少還包括如下任意一種或幾種參數(shù):sv閾值、SV類型和SV大小,其中,SV閾值包括SV檢測(cè)的分?jǐn)?shù)以及支持該SV的PE序列數(shù)目,具體SV檢測(cè)的分?jǐn)?shù)以及支持該SV的PE序列數(shù)目,用戶可以根據(jù)不同的研究目的進(jìn)行合理設(shè)置。SV類型包括SV缺失(DEL)、SV插入(INS)、倒置(INV)、染色體內(nèi)部遷移(ITX)以及染色體間遷移(CTX)。SV大小包括SV的長度。
[0054]上述實(shí)施例中,在變異信息標(biāo)簽為CNV的情況下,查詢條件至少還包括如下任意一種或幾種參數(shù)=CNV閾值、CNV類型和CNV大??;其中,根據(jù)用戶輸入的查詢條件從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取基因組中滿足查詢條件的屬性信息的步驟包括:利用基因名稱或染色體區(qū)間從重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)參數(shù)對(duì)第一文件進(jìn)行篩選,得到與參數(shù)對(duì)應(yīng)的屬性信息,屬性信息為第六數(shù)據(jù)表;第六數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=CNV變異所在的基因區(qū)域、CNV變異位置的基因名稱、CNV變異所在的染色體編號(hào)、CNV變異的起始位置、CNV變異的終止位置和CNV變異類型。
[0055]上述實(shí)施例中,在變異信息標(biāo)簽為CNV的情況下,查詢條件至少還包括如下任意一種或幾種參數(shù):CNV閾值、CNV類型和CNV大小;其中,CNV閾值用缺失或重復(fù)的比例來表示,其中“O”表示完全缺失,“O?I”表示部分缺失,“>1”表示重復(fù)值。CNV類型包括CNV重復(fù)和CNV缺失。CNV大小表示CNV變異的長度。
[0056]根據(jù)本發(fā)明的上述實(shí)施例,在執(zhí)行步驟A之后,還可以執(zhí)行圖3所示的步驟:判斷基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效,其中,在基因組的重測(cè)序數(shù)據(jù)的文件路徑有效的情況下,執(zhí)行讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件的步驟,否則,重新確定有效的文件路徑或者結(jié)束處理流程。
[0057]具體地,根據(jù)待處理的基因組的重測(cè)序數(shù)據(jù)的文件是否保存在從測(cè)序數(shù)據(jù)庫中來確定重測(cè)序數(shù)據(jù)文件路徑是否有效。
[0058]上述實(shí)施例中,當(dāng)步驟C中接收到的查詢條件包括基因名稱和至少兩個(gè)樣本的變異信息標(biāo)簽,或者,查詢條件包括染色體區(qū)間和至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,執(zhí)行步驟B之后,處理方法還包括:如圖3所示,讀取接收到的用于處理重測(cè)序數(shù)據(jù)文件的處理指令,處理指令包括:查詢指令和比對(duì)指令;在處理指令為比對(duì)指令的情況下,通過每個(gè)樣本執(zhí)行上述步驟C和步驟D,來獲取每個(gè)樣本在基因組中滿足查詢條件的屬性信息;然后執(zhí)行步驟H:比對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息,生成比對(duì)結(jié)果。
[0059]其中,查詢條件中包括了至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,上述方法能夠接收客戶的比對(duì)指令,并根據(jù)查詢條件中的比對(duì)樣本的變異信息標(biāo)簽和其他查詢條件執(zhí)行上述步驟C和D,得到每個(gè)樣本在基因組中的滿足查詢條件的屬性信息,接著執(zhí)行步驟E,對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息進(jìn)行比對(duì),生成比對(duì)結(jié)果。上述實(shí)施例的上述方法還能夠?qū)崿F(xiàn)樣本間的基因注釋信息、變異位置信息以及變異類型等屬性信息的獲取和比較。
[0060]在上述實(shí)施例中,比對(duì)任意兩個(gè)樣本在基因組中滿足查詢條件的屬性信息,生成比對(duì)結(jié)果的步驟包括:在變異信息標(biāo)簽為SNP的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與SNP對(duì)應(yīng)的至少一個(gè)基因區(qū)域或至少一種密碼子變異類型相對(duì)應(yīng)的屬性信息,生成SNP比對(duì)結(jié)果,SNP比對(duì)結(jié)果為第七數(shù)據(jù)表,第七數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:SNP變異所在染色體編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP對(duì)應(yīng)的參考序列的堿基類型、SNP所在的檢測(cè)樣本的堿基類型和檢測(cè)樣本中SNP所在基因的基因型;
[0061]在上述實(shí)施例中,在變異信息標(biāo)簽為INDEL的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與INDEL對(duì)應(yīng)的至少一個(gè)基因區(qū)域或者INDEL是否存在漂移相對(duì)應(yīng)的屬性信息,生成INDEL比對(duì)結(jié)果,比對(duì)結(jié)果為第八數(shù)據(jù)表,第八數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下之一的數(shù)據(jù)屬性中的一種=INDEL變異所在染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型和檢測(cè)樣本中INDEL所在基因的基因型;
[0062]在上述實(shí)施例中,在變異信息標(biāo)簽為SV的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與SV對(duì)應(yīng)的如下至少一個(gè)參數(shù):SV閾值、SV類型和SV大小,比對(duì)結(jié)果為第九數(shù)據(jù)表,第九數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:sv變異所在的第一染色體的編號(hào)、SV變異所在的第一染色體的第一位置、SV變異所在的第二染色體的編號(hào)、SV變異所在的第二染色體的第二位置、比較樣本的SV變異類型和比較樣本的SV變異位置的基因名稱;
[0063]在上述實(shí)施例中,在變異信息標(biāo)簽為CNV的情況下,比對(duì)任意兩個(gè)樣本在基因組中滿足與CNV對(duì)應(yīng)的如下至少一個(gè)參數(shù):CNV閾值、CNV類型和CNV大小,比對(duì)結(jié)果為第十?dāng)?shù)據(jù)表,第十?dāng)?shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:CNV變異所在染色體編號(hào)、CNV變異的起始位置、CNV變異的終止位置、比較樣本的CNV變異類型和比較樣本的CNV變異位置的基因名稱。
[0064]下面結(jié)合圖3和圖4,以水稻基因組重測(cè)序數(shù)據(jù)為例來詳細(xì)說明本發(fā)明的處理方法。首先,執(zhí)行步驟S101,從重測(cè)序數(shù)據(jù)保存文件夾中獲取水稻基因組重測(cè)序數(shù)據(jù)文件的保存路徑,即圖4所示的項(xiàng)目路徑中;然后執(zhí)行步驟S102,判斷基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效,如果讀取的水稻基因組重測(cè)序數(shù)據(jù)文件的路徑無效,則需要結(jié)束處理流程或重新輸入水稻重測(cè)序數(shù)據(jù)文件的保存路徑;如果讀取的水稻基因組重測(cè)序數(shù)據(jù)文件路徑有效,則執(zhí)行步驟103,從重測(cè)序數(shù)據(jù)庫中讀取水稻基因組重測(cè)序數(shù)據(jù)文件,然后執(zhí)行步驟S104,讀取處理指令,當(dāng)處理指令為查詢指令的情況下,執(zhí)行步驟S105,選擇要查詢的任意一個(gè)樣本,然后執(zhí)行步驟S106,讀取用戶輸入的要查詢的該樣本的查詢條件,查詢條件包括基因名稱、染色體區(qū)間、變異信息標(biāo)簽以及各變異信息標(biāo)簽內(nèi)部的篩選條件,接著,執(zhí)行步驟S107,根據(jù)接收到的查詢條件,從水稻基因組重測(cè)序數(shù)據(jù)文件中查詢滿足查詢條件的水稻基因組的屬性信息,以查詢水稻基因組中的SNP變異信息為例,如圖4所示,若用戶輸入的查詢條件為:樣本1、3號(hào)染色體從2523410bp至2528465bp、外顯子區(qū)域以及非同義密碼子突變,則根據(jù)上述四個(gè)查詢條件,對(duì)水稻基因組重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢處理,從而獲取得到樣本I中第3號(hào)染色體的2523410bp至2528465bp的染色體區(qū)域發(fā)生在基因的外顯子區(qū)域的SNP變異且導(dǎo)致三聯(lián)體密碼子編碼的氨基酸發(fā)生改變(即密碼子非同義突變)的SNP相關(guān)的屬性信息,最后執(zhí)行S108,顯示出符合上述查詢條件的屬性信息。
[0065]在上述圖3中,當(dāng)步驟S104,讀取到的處理指令為比對(duì)指令時(shí),步驟S105中接收用戶輸入的樣本至少為兩個(gè),步驟S106的查詢條件同樣為3號(hào)染色體從2523410bp至2528465bp、外顯子區(qū)域以及非同義密碼子突變時(shí),對(duì)待比對(duì)的兩個(gè)樣本執(zhí)行上述相同的查詢指令的步驟,即S107和S108的步驟,得到兩個(gè)對(duì)比樣本的各自符合上述條件的所有SNP相關(guān)的屬性信息,然后再執(zhí)行比對(duì)步驟(圖3中未示出),從而得到比對(duì)結(jié)果。
[0066]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0067]從以上的描述中,可以看出,本發(fā)明上述的實(shí)施例實(shí)現(xiàn)了如下技術(shù)效果:采用本發(fā)明的重測(cè)序數(shù)據(jù)的處理方法和裝置,通過確定基因組的重測(cè)序數(shù)據(jù)的文件路徑,然后按照該文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件,之后接收用戶輸入的查詢條件,根據(jù)用戶輸入的至少包括基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽中的任意一種或多種查詢條件,從重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,以獲取基因組中滿足查詢條件的屬性信息;最后將基因組中滿足查詢條件的屬性信息顯示出來。本發(fā)明的處理方法和裝置,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對(duì)重測(cè)序數(shù)據(jù)進(jìn)行查詢,可以快速地顯示基因組中符合上述查詢條件的屬性信息,該處理裝置對(duì)重測(cè)序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的查詢需求。
[0068]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0069]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種重測(cè)序數(shù)據(jù)的處理方法,其特征在于,所述處理方法包括: 步驟A,確定基因組的重測(cè)序數(shù)據(jù)的文件路徑; 步驟B,使用所述重測(cè)序數(shù)據(jù)的文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含所述重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件; 步驟C,接收用戶輸入的查詢條件,所述查詢條件至少包括如下任意一種或多種條件:基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽; 步驟D,根據(jù)所述用戶輸入的查詢條件從所述重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取所述基因組中滿足所述查詢條件的屬性信息;以及 步驟E,顯示所述基因組中滿足所述查詢條件的屬性信息。
2.根據(jù)權(quán)利要求1所述的處理方法,其特征在于, 在所述變異信息標(biāo)簽為SNP的情況下,所述查詢條件至少還包括:與所述SNP對(duì)應(yīng)的至少一個(gè)基因區(qū)域或至少一種密碼子變異類型; 在所述變異信息標(biāo)簽為INDEL的情況下,所述查詢條件至少還包括:與所述INDEL對(duì)應(yīng)的至少一個(gè)基因區(qū)域或者所述INDEL是否存在漂移; 在所述變異信息標(biāo)簽為SV的情況下,所述查詢條件至少還包括:與所述SV對(duì)應(yīng)的如下至少一個(gè)參數(shù):SV閾值、SV類型和SV大小; 在所述變異信息標(biāo)簽為CNV的情況下,所述查詢條件至少還包括:與所述CNV對(duì)應(yīng)的如下至少一個(gè)參數(shù):CNV閾值、CNV類型和CNV大小。
3.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述變異信息標(biāo)簽為SNP的情況下,所述查詢條件至少包括如下任意一個(gè)或多個(gè)基因區(qū)域:內(nèi)含子區(qū)域、外顯子區(qū)域、剪接體區(qū)域、下游區(qū)域、上游區(qū)域以及基因間區(qū)域,其中,根據(jù)所述用戶輸入的所述查詢條件從所述重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取所述基因組中滿足所述查詢條件的屬性信息的步驟包括: 利用所述基因名稱或所述染色體區(qū)間從所述重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)基因區(qū)域?qū)λ龅谝晃募M(jìn)行篩選,得到與所述一個(gè)或多個(gè)基因區(qū)域相對(duì)應(yīng)的屬性信息,所述屬性信息為第一數(shù)據(jù)表; 所述第一數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:對(duì)應(yīng)全基因組注釋文件中的行號(hào)、SNP變異所在的基因區(qū)域、SNP變異類型、SNP變異所在的染色體編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP所對(duì)應(yīng)的參考序列的堿基類型、SNP所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中SNP所在基因的基因型、SNP變異檢測(cè)質(zhì)量、SNP堿基覆蓋深度和SNP所在測(cè)序序列的比對(duì)質(zhì)量。
4.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述變異信息標(biāo)簽為SNP的情況下,所述查詢條件至少包括如下任意一種或多種密碼子變異類型:密碼子同義突變、密碼子非同義突變、獲得終止密碼子突變、喪失終止密碼子突變,其中,根據(jù)所述用戶輸入的所述查詢條件從所述重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取所述基因組中滿足所述查詢條件的屬性信息的步驟包括: 利用所述基因名稱或所述染色體區(qū)間從所述重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一種或多種密碼子變異類型對(duì)所述第一文件進(jìn)行篩選,得到與所述一種或多種密碼子變異類型相對(duì)應(yīng)的屬性信息,所述屬性信息為第二數(shù)據(jù)表; 所述第二數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=SNP變異所在的基因區(qū)域、SNP變異位置對(duì)應(yīng)的基因名稱、SNP變異所在的染色體的編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP所對(duì)應(yīng)的參考序列的堿基類型、SNP所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中SNP所在基因的基因型、SNP變異檢測(cè)質(zhì)量、SNP堿基覆蓋深度和SNP所在測(cè)序序列的比對(duì)質(zhì)量。
5.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述變異信息標(biāo)簽為INDEL的情況下,所述查詢條件至少包括如下任意一個(gè)或多個(gè)基因區(qū)域:內(nèi)含子區(qū)域、外顯子區(qū)域、剪接體區(qū)域、下游區(qū)域、上游區(qū)域以及基因間區(qū)域,其中,根據(jù)所述用戶輸入的所述查詢條件從所述重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取所述基因組中滿足所述查詢條件的屬性信息的步驟包括: 利用所述基因名稱或所述染色體區(qū)間從所述重測(cè)序數(shù)據(jù)文件篩選得到第一文件;利用任意一個(gè)或多個(gè)基因區(qū)域?qū)λ龅谝晃募M(jìn)行篩選,得到與所述一個(gè)或多個(gè)基因區(qū)域相對(duì)應(yīng)的屬性信息,所述屬性信息為第三數(shù)據(jù)表; 所述第三數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=INDEL變異所在的基因區(qū)域、INDEL變異位置對(duì)應(yīng)的基因名稱、INDEL變異所在的染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中INDEL所在的基因的基因型、INDEL變異檢測(cè)質(zhì)量、INDEL堿基覆蓋深度和含有INDEL的測(cè)序序列的比對(duì)質(zhì)量。
6.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述變異信息標(biāo)簽為INDEL的情況下,所述查詢條件至少包括所述INDEL是否存在漂移,其中,根據(jù)所述用戶輸入的所述查詢條件從所述重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取所述基因組中滿足所述查詢條件的屬性信息的步驟包括: 利用所述基因名稱或所述染色體區(qū)間從所述重測(cè)序數(shù)據(jù)文件篩選得到第一文件; 利用所述INDEL是否存在漂移對(duì)所述第一文件進(jìn)行篩選,得到與所述INDL是否存在漂移相對(duì)應(yīng)的屬性信息,所述屬性信息為第四數(shù)據(jù)表; 所述第四數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=INDEL變異對(duì)應(yīng)于全基因組注釋文件中的行號(hào)、INDEL所在的基因區(qū)域、INDEL變異信息、INDEL變異所在的染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型、檢測(cè)樣本中INDEL所在的基因的基因型、INDEL變異檢測(cè)質(zhì)量、INDEL堿基覆蓋深度和含有INDEL的測(cè)序序列的比對(duì)質(zhì)量。
7.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述變異信息標(biāo)簽為SV的情況下,所述查詢條件至少還包括如下任意一種或幾種參數(shù):sv閾值、SV類型和SV大??;其中,根據(jù)所述用戶輸入的所述查詢條件從所述重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取所述基因組中滿足所述查詢條件的屬性信息的步驟包括: 利用所述基因名稱或所述染色體區(qū)間從所述重測(cè)序數(shù)據(jù)文件篩選得到第一文件; 利用任意一個(gè)或多個(gè)參數(shù)對(duì)所述第一文件進(jìn)行篩選,得到與所述參數(shù)相對(duì)應(yīng)的屬性信息,所述屬性信息為第五數(shù)據(jù)表; 所述第五數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)所述數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:SV變異所在的第一染色體的編號(hào)、SV變異所在的第一染色體的第一位置、比對(duì)在第一位置上的含有SV序列的正負(fù)鏈的第一信息、SV變異所在的第二染色體的編號(hào)、SV變異所在的第二染色體的第二位置、比對(duì)在第二位置上的含有SV序列的正負(fù)鏈的第二信息、SV變異類型、SV變異長度、SV變異檢測(cè)的分?jǐn)?shù)、支持所述SV變異的雙端測(cè)序序列的數(shù)目、支持所述SV變異的雙端測(cè)序序列的文件來源、SV所在基因的等位基因的估算頻率和SV變異位置的基因名稱。
8.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述變異信息標(biāo)簽為CNV的情況下,所述查詢條件至少還包括如下任意一種或幾種參數(shù):CNV閾值、CNV類型和CNV大??;其中,根據(jù)所述用戶輸入的所述查詢條件從所述重測(cè)序數(shù)據(jù)文件中進(jìn)行查詢,獲取所述基因組中滿足所述查詢條件的屬性信息的步驟包括: 利用所述基因名稱或所述染色體區(qū)間從所述重測(cè)序數(shù)據(jù)文件篩選得到第一文件; 利用任意一個(gè)或多個(gè)參數(shù)對(duì)所述第一文件進(jìn)行篩選,得到與所述參數(shù)對(duì)應(yīng)的屬性信息,所述屬性信息為第六數(shù)據(jù)表; 所述第六數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)所述數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:CNV變異所在的基因區(qū)域、CNV變異位置的基因名稱、CNV變異所在的染色體編號(hào)、CNV變異的起始位置、CNV變異的終止位置和CNV變異類型。
9.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,在確定基因組的重測(cè)序數(shù)據(jù)的文件路徑之后,所述處理方法還包括: 判斷所述基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效,其中,在所述基因組的重測(cè)序數(shù)據(jù)的文件路徑有效的情況下,執(zhí)行讀取包含所述重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件的步驟,否貝1J,重新確定有效的文件路徑或者結(jié)束處理流程。
10.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,在所述查詢條件包括基因名稱和至少兩個(gè)樣本的變異信息標(biāo)簽,或者,所述查詢條件包括染色體區(qū)間和至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,在從重測(cè)序數(shù)據(jù)庫中讀取包含所述重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件之后,所述處理方法還包括: 讀取接收到的用于處理所述重測(cè)序數(shù)據(jù)文件的處理指令,所述處理指令包括:查詢指令和比對(duì)指令; 在所述處理指令為所述比對(duì)指令的情況下,通過每個(gè)樣本執(zhí)行上述步驟C和步驟D,來獲取所述每個(gè)樣本在所述基因組中滿足所述查詢條件的屬性信息; 比對(duì)任意兩個(gè)樣本在所述基因組中滿足所述查詢條件的屬性信息,生成比對(duì)結(jié)果。
11.根據(jù)權(quán)利要求10所述的處理方法,其特征在于,比對(duì)任意兩個(gè)樣本在所述基因組中滿足所述查詢條件的屬性信息,生成比對(duì)結(jié)果的步驟包括: 在所述變異信息標(biāo)簽為SNP的情況下,比對(duì)任意兩個(gè)樣本在所述基因組中滿足與所述SNP對(duì)應(yīng)的至少一個(gè)基因區(qū)域或至少一種密碼子變異類型相對(duì)應(yīng)的屬性信息,生成SNP比對(duì)結(jié)果,所述SNP比對(duì)結(jié)果為第七數(shù)據(jù)表,所述第七數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)所述數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種=SNP變異所在染色體編號(hào)、SNP變異的起始位置、SNP變異的終止位置、SNP對(duì)應(yīng)的參考序列的堿基類型、SNP所在的檢測(cè)樣本的堿基類型和檢測(cè)樣本中SNP所在基因的基因型; 在所述變異信息標(biāo)簽為INDEL的情況下,比對(duì)任意兩個(gè)樣本在所述基因組中滿足與所述INDEL對(duì)應(yīng)的至少一個(gè)基因區(qū)域或者所述INDEL是否存在漂移相對(duì)應(yīng)的屬性信息,生成INDEL比對(duì)結(jié)果,所述比對(duì)結(jié)果為第八數(shù)據(jù)表,所述第八數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)所述數(shù)據(jù)列用于表征如下之一的數(shù)據(jù)屬性中的一種=INDEL變異所在染色體編號(hào)、INDEL變異的起始位置、INDEL變異的終止位置、INDEL對(duì)應(yīng)的參考序列的堿基類型、INDEL所在的檢測(cè)樣本的堿基類型和檢測(cè)樣本中INDEL所在基因的基因型; 在所述變異信息標(biāo)簽為SV的情況下,比對(duì)任意兩個(gè)樣本在所述基因組中滿足與所述SV對(duì)應(yīng)的如下至少一個(gè)參數(shù):SV閾值、SV類型和SV大小,所述比對(duì)結(jié)果為第九數(shù)據(jù)表,所述第九數(shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)所述數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:SV變異所在的第一染色體的編號(hào)、SV變異所在的第一染色體的第一位置、SV變異所在的第二染色體的編號(hào)、SV變異所在的第二染色體的第二位置、比較樣本的SV變異類型和比較樣本的SV變異位置的基因名稱; 在所述變異信息標(biāo)簽為CNV的情況下,比對(duì)任意兩個(gè)樣本在所述基因組中滿足與所述CNV對(duì)應(yīng)的如下至少一個(gè)參數(shù):CNV閾值、CNV類型和CNV大小,所述比對(duì)結(jié)果為第十?dāng)?shù)據(jù)表,所述第十?dāng)?shù)據(jù)表包括多個(gè)數(shù)據(jù)列,每個(gè)所述數(shù)據(jù)列用于表征如下數(shù)據(jù)屬性中的一種:CNV變異所在染色體編號(hào)、CNV變異的起始位置、CNV變異的終止位置、比較樣本的CNV變異類型和比較樣本的CNV變異位置的基因名稱。
12.—種重測(cè)序數(shù)據(jù)的處理裝置,其特征在于,所述處理裝置包括: 路徑模塊,用于確定基因組的重測(cè)序數(shù)據(jù)的文件路徑; 文件讀取模塊,用于使用所述重測(cè)序數(shù)據(jù)的文件路徑,從重測(cè)序數(shù)據(jù)庫中讀取包含所述重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件; 接收模塊,用于接收用戶輸入的查詢條件,所述查詢條件至少包括如下任意一種或多種條件:基因名稱、染色體區(qū)間以及至少一個(gè)樣本的變異信息標(biāo)簽; 查詢模塊,用于根據(jù)所述用戶輸入的查詢條件對(duì)所述重測(cè)序數(shù)據(jù)文件進(jìn)行查詢,以獲取所述基因組中滿足所述查詢條件的屬性信息;以及 顯示模塊,用于顯示所述基因組中滿足所述查詢條件的屬性信息。
13.根據(jù)權(quán)利要求12所述的處理裝置,其特征在于,在執(zhí)行所述路徑模塊之后,所述處理裝置還包括: 判斷模塊,用于判斷所述基因組的重測(cè)序數(shù)據(jù)的文件路徑是否有效; 第一處理模塊,用于在所述基因組的重測(cè)序數(shù)據(jù)的文件路徑有效的情況下,執(zhí)行讀取包含所述重測(cè)序數(shù)據(jù)的重測(cè)序數(shù)據(jù)文件的步驟; 第二處理模塊,用于在所述基因組的重測(cè)序數(shù)據(jù)的文件路徑無效的情況下,重新確定有效的文件路徑或者結(jié)束處理流程。
14.根據(jù)權(quán)利要求12所述的處理裝置,其特征在于,在所述接收模塊接收到的所述查詢條件包括:基因名稱和至少兩個(gè)樣本的變異信息標(biāo)簽,或者,所述查詢條件包括:染色體區(qū)間和至少兩個(gè)樣本的變異信息標(biāo)簽的情況下,在執(zhí)行所述文件讀取模塊后,所述處理裝置還包括: 指令讀取模塊:用于讀取接收到的用于處理所述重測(cè)序數(shù)據(jù)文件的處理指令,所述處理指令包括:查詢指令和比對(duì)指令;以及 比對(duì)模塊,用于比對(duì)任意兩個(gè)樣本在所述基因組中滿足所述查詢條件的屬性信息,生成比對(duì)結(jié)果。
【文檔編號(hào)】G06F19/00GK104462211SQ201410613754
【公開日】2015年3月25日 申請(qǐng)日期:2014年11月4日 優(yōu)先權(quán)日:2014年11月4日
【發(fā)明者】牛青山, 曹銀川, 閆軍 申請(qǐng)人:北京諾禾致源生物信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
莒南县| 丹东市| 新和县| 常熟市| 临海市| 武胜县| 乳源| 和田县| 汉寿县| 布尔津县| 称多县| 兰坪| 子洲县| 清涧县| 麦盖提县| 竹溪县| 玉林市| 石泉县| 无棣县| 民县| 永春县| 格尔木市| 福贡县| 梨树县| 柳林县| 鲁甸县| 平谷区| 随州市| 德钦县| 温州市| 大田县| 普陀区| 库伦旗| 墨江| 井冈山市| 广平县| 苏尼特右旗| 南康市| 宁化县| 徐水县| 阿拉善盟|