本發(fā)明屬于生物信息學技術(shù)領(lǐng)域,更確切的是涉及一種基因組序列的指紋圖譜的景觀分析方法及用途。
背景技術(shù):
如何辨識基因組不同組裝版本的序列的差異,如何校驗基因組序列的組裝質(zhì)量,如何檢測基因組序列中的大尺度重復序列,是亟待解決的技術(shù)問題。
建立一種新方法,集中展示待比較的基因組序列的指紋圖譜,觀察比較指紋圖譜的景觀差異,是解決上述技術(shù)問題的一種技術(shù)方案,有廣泛應用前景。
我們之前的專利文獻公告CN103106353A公開“一種基因組序列的指紋特征曲線的構(gòu)造方法”,具體包括建立基因組序列中的每個堿基所對應的三維空間坐標值(xn, yn, zn)(n=1, 2, …, N;N為基因組序列的長度)的方法;依據(jù)三維空間坐標值,繪制1個三維空間曲線(xn~yn~zn)的方法;依據(jù)三維空間坐標值,分別繪制獨立存在的6個(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn) 二維平面軌跡曲線的方法。
本發(fā)明采用該專利文獻公告CN103106353A作為對比文件,以其公開的技術(shù)作為現(xiàn)有的對比技術(shù)。本發(fā)明以此對比技術(shù)為基礎(chǔ),進一步建立新方法及新用途。
技術(shù)實現(xiàn)要素:
本發(fā)明的內(nèi)容是,公開2個新方法及3個新用途。
首先,本發(fā)明的方法是,組合構(gòu)造2個基因組序列的指紋圖譜,包括1個基因組序列的指紋圖譜(a map of genome fingerprints)及1組(含2個或2個以上的)基因組序列的指紋圖譜云圖(a galaxy of genome fingerprints maps)。以下將采用中英文對照,以確切體現(xiàn)2個新概念的內(nèi)涵。
本發(fā)明所稱謂的“基因組序列的指紋圖譜(a map of genome fingerprints)”,是一幅組合圖;包含1個基因組序列的指紋組合。意指采用專利文獻公告CN103106353A公開的技術(shù)方法,先計算1個基因組序列中的每個堿基所對應的三維空間坐標值(xn, yn, zn)(n=1, 2, …, N;N為基因組序列的長度);再依據(jù)三維空間坐標值,在同一幅組合圖中繪制1個基因組序列所對應的1個三維空間曲線圖(xn~yn~zn);再依據(jù)三維空間坐標值,在同一幅組合圖中同時繪制1個基因組序列所對應的6個二維平面軌跡曲線圖(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn),共同構(gòu)成1幅組合圖,代表1個基因組序列的指紋組合。
本發(fā)明所稱謂的“基因組序列的指紋圖譜云圖(a galaxy of genome fingerprints maps)”,是一幅組合圖;包含1組(含2個或2個以上的)基因組序列的指紋圖譜的組合。意指在同一幅組合圖中同時繪制2個或2個以上的基因組序列的所有指紋圖譜的組合,共同構(gòu)成1幅組合圖,代表1組(含2個或2個以上的)基因組序列的指紋組合。簡言之,1組(含2個或2個以上的)基因組序列的“指紋圖譜(a map of genome fingerprints)”共同組合而成“指紋圖譜云圖(a galaxy of genome fingerprints maps)”。
其次,本發(fā)明的用途是,依據(jù)比較分析本發(fā)明所組合構(gòu)造的指紋圖譜的綜合景觀差異,實現(xiàn)3個用途:(1)辨識同一個基因組不同組裝版本的序列的差異;(2)校驗基因組序列的組裝質(zhì)量;(3)檢測基因組序列中的大尺度重復序列。
為了解決上述的技術(shù)問題,本發(fā)明公開的技術(shù)方案包括建立2個新方法以及實現(xiàn) 3個新用途。具體描述如下。
首先,建立2個新方法。組合構(gòu)造1個基因組序列的指紋圖譜(a map of genome fingerprints);組合構(gòu)造1組(含2個或2個以上的)基因組序列的指紋圖譜云圖(a galaxy of genome fingerprints maps)。目的是全局集中展示待比較的1個基因組序列之內(nèi)的指紋圖譜或者是1組(含2個或2個以上的)基因組序列之間的指紋圖譜云圖。
方法之1:組合構(gòu)造1個基因組序列的指紋圖譜(a map of genome fingerprints), 針對給定的1個基因組序列,首先采用專利文獻公告CN103106353A公開的技術(shù)方法,計算每個堿基的三維空間坐標值(xn, yn, zn)(n=1, 2, …, N;N為基因組序列的長度);然后采用繪圖軟件,依據(jù)三維空間坐標值,在同一幅組合圖中同時繪制6個二維平面軌跡曲線圖(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn);還可以在同一幅組合圖中同時繪制1個三維空間曲線圖(xn~yn~zn)。這種組合圖,全局展示1個基因組序列的指紋圖譜,觀察和比較的視野開闊。例如,實施例1中提及的圖1,注意圖1中基因組序列的長度n被表示為Genome Length。又例如,實施例6中提及的圖6。
方法之2:組合構(gòu)造1組(含2個或2個以上的)基因組序列的指紋圖譜云圖(a galaxy of genome fingerprints maps),針對給定的1組(含2個或2個以上的)基因組序列,首先逐一選擇每個基因組序列,并采用專利文獻公告CN103106353A公開的技術(shù)方法,計算每個堿基的三維空間坐標值(xn, yn, zn)(n=1, 2, …, N;N為基因組序列的長度));然后采用繪圖軟件,分別依據(jù)所獲得的每個基因組序列的三維空間坐標值,在同一幅組合圖中同時繪制每個基因組序列所對應的6個二維平面軌跡曲線圖(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn);還可以在同一幅組合圖中同時繪制每個基因組序列所對應的1個三維空間曲線圖(xn~yn~zn)。這種組合圖,全局展示1組(含2個或2個以上的)基因組中的所有基因組序列的指紋圖譜,觀察和比較的視野更開闊。例如,實施例3中提及的圖3,注意圖3中基因組序列的長度n被表示為Genome Length。
其次,實現(xiàn)3個新用途。觀察如前述的本發(fā)明所組合構(gòu)造的指紋圖譜和指紋圖譜云圖,比較和分析指紋圖譜的綜合景觀的差異。目的是判定:(1)辨識同一個基因組的不同組裝版本之間的序列的差異;(2)校驗基因組序列的組裝質(zhì)量;(3)檢測基因組序列中的大尺度重復序列。
用途之1:辨識同一個基因組的不同組裝版本之間的序列差異,例如,實施實例1中提及圖1,辨識同一個基因組的2個組裝版本之間的序列差異,結(jié)果發(fā)現(xiàn)顯示完全不同的指紋圖譜云圖。又例如,實施實例2中提及圖2,辨識同一個基因組的3次更新的組裝版本之間的序列差異,結(jié)果顯示完全相同的指紋圖譜云圖。
用途之2:校驗基因組序列的組裝質(zhì)量, 例如,實施實例3中提及圖3,辨識同一個物種大猩猩中2個個體GGO3和Susie3之間的第4號染色體的基因組序列的差異,結(jié)果顯示它們的指紋圖譜略有不同,但是相近似;符合個體水平的差異程度。但是,又例如,實施實例4中提及圖4,辨識2個近緣的物種的第4號染色體大猩猩GGO3.chr4與黑猩猩PTR2.chr4之間基因組序列的差異,結(jié)果發(fā)現(xiàn)大猩猩GGO3.chr4在指紋圖譜上存在大尺度的異常直線(注意觀察(y~x),(x~Genome Length),(z~x),(y~ Genome Length),(z~y)分圖)(圖4),提示可能存在大尺度的組裝錯誤,達到校驗基因組序列的組裝質(zhì)量的目的。又例如,實施例6中提及的圖6。
用途之3:檢測基因組序列中的大尺度重復序列,檢測基因組序列中的大尺度重復序列,推測可能導致大尺度的的組裝錯誤;刪除大尺度重復序列,可以校正組裝錯誤;校正后的組裝版本與組裝正確的近緣的物種基因組顯示相似的指紋圖譜。確認校驗基因組序列的組裝質(zhì)量。例如,實施實例5中提及圖5(注意觀察(y~x),(x~Genome Length),(z~x),(y~ Genome Length),(z~y)分圖)(圖5)。又例如,實施例6中提及的圖6。
與專利文獻公告CN103106353A公開的現(xiàn)有的對比技術(shù)相比,本發(fā)明以此為基礎(chǔ),建立了新方法及新用途,取得了有益效果。本發(fā)明的方法是組合構(gòu)造2個新型的指紋圖譜,即1個基因組序列的指紋圖譜和1組(含2個或2個以上的)基因組序列的指紋圖譜云圖,由此全局集中展示待比較的1個基因組序列之內(nèi)、或者1組(含2個或2個以上的)基因組序列之間的指紋圖譜,觀察比較指紋圖譜的綜合景觀的差異,視野更開闊,結(jié)論更客觀。更進一步地,本發(fā)明的用途包括3個方面,依據(jù)指紋圖譜的綜合景觀分析,可以判定(1)辨識同一個基因組的不同組裝版本的序列的差異;(2)校驗基因組序列的組裝質(zhì)量;(3)檢測基因組序列中的大尺度重復序列。這些都體現(xiàn)了本發(fā)明的新穎性、創(chuàng)造性和實用性。
附圖說明
下面結(jié)合附圖和具體實施方式對本發(fā)明做進一步詳細的說明。
圖1是2個不同版本的人類Y染色體序列的指紋圖譜云圖。包括2個版本Y染色體序列GRCh37p13.chrY和GRCh38p1.chrY的6個二維平面軌跡曲線圖(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。辨識同1個基因組的2個不同組裝版本之間的序列差異,顯示完全不同的指紋圖譜云圖。
圖2是3個不同版本的人類Y染色體序列的指紋圖譜云圖。包括人類基因組Y染色體的3次更新版本GRCh38p1.chrY、GRCh38p2.chrY和GRCh38p7.chrY。辨識同1個基因組的3個不同組裝版本(3次更新)之間的序列差異,顯示完全相同的指紋圖譜云圖。
圖3是大猩猩中2個不同個體GGO3和Susie3基因組的第4號染色體序列GGO3.chr4和Susie3.chr4的指紋圖譜云圖。顯示指紋圖譜云圖不同,但是相近似。
圖4是近緣的大猩猩與黑猩猩的第4號染色體GGO3.chr4與PTR2.chr4的指紋圖譜云圖。GGO3.chr4在指紋圖譜云圖上存在大尺度的異常直線,提示可能存在大尺度的組裝錯誤。提示校驗基因組序列的組裝質(zhì)量。
圖5是黑猩猩PTR2.chr4與校正后大猩猩reass.GGO3.chr4的指紋圖譜云圖。顯示校正后的組裝版本與組裝正確的近緣的物種基因組相似的指紋圖譜。
圖6是大猩猩GGO3的基因組(共24條染色體)序列的指紋圖譜云圖(是三維曲線圖)。檢測到第4號染色體GGO3.chr4存在大尺度直線(上圖),提示可能存在大尺度組裝錯誤(上圖)。定位刪除大尺度直線所對應的序列,可校正組裝錯誤(下圖)。校正后第4號染色體reass.GGO3.chr4的組裝版本與組裝正確的其他染色體顯示相匹配的指紋圖譜(下圖)。
具體實施方式
實施實例1:辨識同一個基因組的不同組裝版本之間的序列差異,例如,人類基因組的Y染色體有GRCh37p13.chrY版本(GENBANK NC_000024.9)和GRCh38p1.chrY版本(GENBANK NC_000024.10)。分別選擇1個Y染色體版本,采用專利文獻公告CN103106353A公開的技術(shù)方法,計算每個堿基的三維空間坐標值(xn, yn, zn)(n=1, 2, …, N;N為基因組序列的長度);采用繪圖軟件,依據(jù)2個版本序列的三維空間坐標值,在同一幅組合圖中同時繪制2個版本的Y染色體序列GRCh37p13.chrY和GRCh38p1.chrY的6個二維平面軌跡曲線圖(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此構(gòu)造2個不同版本的Y染色體序列的指紋圖譜云圖(圖1),結(jié)果顯示完全不同的指紋圖譜,說明同一個Y染色體的兩個版本之間的發(fā)生很大的變化,反映該Y染色體的初始組裝質(zhì)量不穩(wěn)定。注意圖1中基因組序列的長度n被表示為Genome Length。
實施實例2:辨識同一個基因組的不同組裝版本之間的序列差異,例如,人類基因組的Y染色體有3次更新版本GRCh38p1.chrY(GENBANK NC_000024.10)、GRCh38p2.chrY(GENBANK NC_000024.10)、GRCh38p7.chrY(GENBANK NC_000024.10)。分別選擇1個更新版本的Y染色體序列,采用專利文獻公告CN103106353A公開的技術(shù)方法,計算每個堿基的三維空間坐標值(xn, yn, zn)(n=1, 2, …, N;N為基因組序列的長度);采用繪圖軟件,依據(jù)3個版本序列的三維空間坐標值,在同一幅組合圖中同時繪制3個更新版本序列的6個二維平面軌跡曲線圖(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此構(gòu)造3個更新版本的Y染色體序列的指紋圖譜云圖(圖2)。結(jié)果顯示它們之間具有完全相同的指紋圖譜(圖2),反映所標記的3次更新版本中實際上該Y染色體序列并沒有更新變化。注意圖2中基因組序列的長度n被表示為Genome Length。
實施實例3:辨識同一個物種內(nèi)的2個不同個體的基因組序列之間的差異,例如,從大猩猩中2個不同個體GGO3和Susie3基因組序列中分別選擇第4號染色體GGO3.chr4序列(GENBANK NC_018428.1)與Susie3.chr4序列(GENBANK FR853097.2),采用專利文獻公告CN103106353A公開的技術(shù)方法,分別計算每個堿基的三維空間坐標值(xn, yn, zn)(n=1, 2, …, N;N為基因組序列的長度);采用繪圖軟件,依據(jù)這2個染色體序列的三維空間坐標值,在同一幅組合圖中同時繪制這2個染色體序列的6個二維平面軌跡曲線圖(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此構(gòu)造2個染色體序列的指紋圖譜云圖(圖3)。結(jié)果顯示它們具有不同的、卻近似的指紋圖譜(圖3)。注意圖3中基因組序列的長度n被表示為Genome Length。
實施實例4:校驗基因組序列的組裝質(zhì)量;同時辨識近緣的2個物種內(nèi)的2個不同個體的基因組序列之間的差異,例如,大猩猩GGO3與黑猩猩PTR2是近親,它們的基因組序列本來應該很相似。按照本發(fā)明如前所述的方法,構(gòu)造其中的2個染色體序列的指紋圖譜云圖,預期也應該很相似。但是,實際上,第4號染色體GGO3.chr4(GENBANK NC_018428.1)與PTR2.chr4(GENBANK NC_006471.3)顯示完全不同的指紋圖譜(圖4)。尤其是GGO3.chr4中存在大尺度的直線,提示GGO3.chr4可能存在大尺度的組裝錯誤(圖4)。注意圖4中基因組序列的長度n被表示為Genome Length。
實施實例5:檢測基因組序列中大尺度重復序列;同時提示校正基因組序列的錯誤組裝,例如,本發(fā)明實施實例4中比較近緣的大猩猩GGO3與黑猩猩PTR2中第4號染色體,GGO3.chr4(GENBANK NC_018428.1)與PTR2.chr4(GENBANK NC_006471.3),發(fā)現(xiàn)它們的指紋圖譜完全不同;GGO3.chr4存在大尺度的直線(圖4)。依此指引,定位刪除從49632030至59639020堿基約10292967個堿基的大尺度序列,可以校正該組裝錯誤(圖5)。校正后的組裝版本reass.GGO3.chr4恢復了與組裝正確的近緣的物種的PTR2.chr4具有相似的指紋圖譜(圖5)。經(jīng)過進一步分析確認:被定位刪除的序列實際上是大尺度重復序列;正是該大尺度的重復序列導致GGO3.chr4(GENBANK NC_018428.1)染色體序列中存在大尺度組裝錯誤。注意圖5中基因組序列的長度n被表示為Genome Length。
實施實例6:檢測基因組序列中大尺度重復序列;提示校正基因組序列的錯誤組裝,例如,大猩猩GGO3 全基因組共含有24條染色體。按照本發(fā)明所述的方法繪制大猩猩GGO3共24條染色體序列的1個三維空間曲線圖(xn~yn~zn),即是全部指紋圖譜云圖(圖6)。發(fā)現(xiàn)GGO3.chr4(GENBANK NC_018428.1),GGO3.chr10(GENBANK NC_018434.1),GGO3.chr21(NC_018445.1)等指紋圖譜與眾完全不同,都存在大尺度的直線(圖6),提示可能存在大尺度的組裝錯誤。依此指引,分別定位刪除10292967個,120924個,163127個堿基的大尺度序列,可以校正這3個染色體的大尺度組裝錯誤(圖6)。校正后的組裝版本reass.GGO3.chr4,reass.GGO3.chr10,reass.GGO3.chr21恢復了與組裝正確的其余21條染色體序列相匹配的指紋圖譜,包括GGO3.chr1,GGO3.chr2A,GGO3.chr2B,GGO3.chr3,GGO3.chr5,GGO3.chr6,GGO3.chr7,GGO3.chr8,GGO3.chr9,GGO3.chr11,GGO3.chr12,GGO3.chr13,GGO3.chr14,GGO3.chr15,GGO3.chr16,GGO3.chr17,GGO3.chr18,GGO3.chr19,GGO3.chr20, GGO3.chr22,GGO3.chrX等(圖6)。經(jīng)過進一步分析確認被定位刪除的3個大尺度序列實際上都是大尺度的重復序列;正是這些大尺度的重復序列導致GGO3.chr4,GGO3.chr10,GGO3.chr21等3個染色體的大尺度的組裝錯誤。