本發(fā)明涉及一種利用SNP聚類信息和PAV變異信息進(jìn)行育種親本選擇的基因組信息輔助育種方法。該方法屬于作物分子育種領(lǐng)域,適用于在水稻等作物中高效的進(jìn)行育種親本的選擇。
背景技術(shù):
基因組技術(shù)與信息技術(shù)的結(jié)合,使得科研人員可以方便的獲取所需要的海量的基因數(shù)據(jù)并深入的挖掘相關(guān)的遺傳信息;數(shù)據(jù)庫(kù)平臺(tái)使得育種家能夠?qū)A繑?shù)據(jù)進(jìn)行存儲(chǔ)和深入的挖掘并實(shí)現(xiàn)信息共享。親本選擇是作物育種中至關(guān)重要的一個(gè)步驟,直接決定一個(gè)育種周期(3-5年)內(nèi)全部工作的成敗。隨著基因組時(shí)代的到來(lái),分子育種已經(jīng)向基于全基因組信息的方向演進(jìn);育種親本的選擇也不僅僅根據(jù)表型數(shù)據(jù),更要包括目標(biāo)性狀關(guān)鍵基因的重要基因組信息數(shù)據(jù)?;蚪M信息的強(qiáng)大支持,也將使得育種工作的可重復(fù)性大大增強(qiáng),育種工作的效率大大提高。
SNP信息是基因組中多態(tài)性最好的分子標(biāo)記,其在基因組中廣泛存在,既可以出現(xiàn)在基因內(nèi)區(qū)域,也可以出現(xiàn)在基因間區(qū)域;利用足夠量的SNP信息進(jìn)行育種親本材料的聚類分析無(wú)疑是十分準(zhǔn)確的。PAV變異(Presence/Absence Variation,存在/缺失變異,或譯作獲得/缺失變異)是近年來(lái)在基因組變異研究中新興的一種研究尺度,它比通常的插入缺失(InDel,20bp以下)的尺寸要大(通常在50-2000bp),因此PAV變異對(duì)于基因功能的影響要更加顯著。二者相結(jié)合,能夠較好的反應(yīng)個(gè)體基因組在不同尺度的變異水品和相似性。
通過(guò)大規(guī)模全基因組測(cè)序和生物信息學(xué)分析,一方面我們可以獲取海量的SNP和PAV變異信息;另一方面,對(duì)于個(gè)別重要的PAV變異,我們可以進(jìn)一步將其開(kāi)發(fā)成單個(gè)的基于PCR(聚合酶鏈?zhǔn)椒磻?yīng))的育種用分子標(biāo)記,應(yīng)用于標(biāo)記輔助選擇育種。在人類、動(dòng)物以及大豆、高粱和玉米上,PAV變異都得到了比較充分的挖掘和利用;反觀水稻,PAV變異的應(yīng)用還比較少。
隨著基因組測(cè)序技術(shù)飛速發(fā)展,伴隨著測(cè)序成本的急劇下降和大量基因組數(shù)據(jù)的便于獲 取,如何將基因組數(shù)據(jù)與育種實(shí)踐有效結(jié)合,成為擺在分子育種工作者面前的一個(gè)重要命題。在作物育種過(guò)程中,僅僅通過(guò)表型,即便是易于觀察的抽穗期等表型,來(lái)篩選所需親本也是一個(gè)繁重且周期較長(zhǎng)的任務(wù)。到目前為止,全球測(cè)序的水稻品種已經(jīng)不下5000份;其中由中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所負(fù)責(zé)與華大基因及國(guó)際水稻研究所合作,完成了全球3000余份水稻種質(zhì)資源的測(cè)序工作。如何從海量的數(shù)據(jù)中獲取與育種相關(guān)的重要選擇指標(biāo),有效的縮小表型鑒定的范圍是一個(gè)重要的研究課題。如果能夠?qū)⒒蚪M信息與表型鑒定相結(jié)合,借助基因組手段縮小用于表型鑒定材料范圍,無(wú)疑能夠極大的提高育種工作表型鑒定的效率。以我國(guó)北方粳稻特別是東北粳稻的親本選擇為例,由于育種目標(biāo)是選育感溫性強(qiáng)而感光性弱甚至于無(wú)感光性的品種,因此可以選用的親本在與感光性相關(guān)的基因位點(diǎn)上是否具有合適的基因型,是一個(gè)非常重要的選擇指標(biāo)。
技術(shù)實(shí)現(xiàn)要素:
(一)技術(shù)問(wèn)題
本發(fā)明針對(duì)上述研究背景,利用基因組測(cè)序技術(shù),通過(guò)對(duì)候選育種親本進(jìn)行基因組SNP和PAV變異數(shù)據(jù)的采集和分析,構(gòu)建基于SNP信息的聚類樹(shù),獲取重要目標(biāo)性狀基因位點(diǎn)的PAV變異信息,建立候選育種親本的基于SNP聚類的親緣關(guān)系信息和PAV變異信息數(shù)據(jù)庫(kù),利用該數(shù)據(jù)庫(kù)對(duì)育種親本有效的進(jìn)行基于基因組數(shù)據(jù)的輔助選擇,主要應(yīng)用于水稻等作物的育種。
(二)技術(shù)方案
1.一種利用SNP聚類信息和PAV變異信息進(jìn)行育種親本選擇的基因組信息輔助育種方法,按照如下步驟進(jìn)行:
1)通過(guò)基因組重測(cè)序獲得候選育種親本的大量基因組reads信息;
2)通過(guò)常規(guī)的序列比對(duì)方法與參考基因組進(jìn)行比對(duì),獲取物理位置信息,然后提取SNP信息數(shù)據(jù)集;通過(guò)設(shè)置參數(shù),過(guò)濾SNP信息數(shù)據(jù)集,獲得缺失數(shù)據(jù)最少的高質(zhì)量SNP數(shù)據(jù)亞集;
3)在高質(zhì)量SNP數(shù)據(jù)亞集的基礎(chǔ)上,通過(guò)常規(guī)的方法計(jì)算獲得候選育種親本的遺傳距離矩陣,利用常規(guī)方法構(gòu)建SNP聚類樹(shù),根據(jù)候選育種親本的SNP聚類信息,判斷 候選育種親本之間的親緣關(guān)系遠(yuǎn)近;
4)通過(guò)Denovo組裝,形成候選育種親本的contig,然后將其通過(guò)常規(guī)的序列比對(duì)分析方法定位到參考基因組,獲得相應(yīng)候選育種親本contig的物理位置;
5)根據(jù)育種計(jì)劃所設(shè)定的目標(biāo)性狀,選擇重要的相關(guān)基因位點(diǎn),根據(jù)該基因的物理位置區(qū)間,分析候選育種親本contig中目標(biāo)性狀控制基因?qū)?yīng)區(qū)間序列的PAV變異基因型;
6)根據(jù)PAV變異分析的結(jié)果和基于SNP聚類的親緣關(guān)系信息,從大量候選育種親本中篩選獲得用于表型鑒定的親本子集;
7)結(jié)合親本子集的表型重復(fù)鑒定結(jié)果最終確定育種計(jì)劃所需的入選育種親本。
該方法可以在水稻及其它作物的基因組信息輔助育種中應(yīng)用。
(三)有益效果
本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點(diǎn)及效果:
1.通過(guò)將PAV變異信息、SNP聚類信息與表現(xiàn)型篩選相結(jié)合,能夠比較準(zhǔn)確有效的獲得目標(biāo)性狀所需的入選育種親本。
2.能夠從大量候選育種親本中比較有效的縮小進(jìn)一步表型鑒定的親本材料范圍,減少表型鑒定的工作量,提高育種工作效率;
3.本發(fā)明獲得的育種親本SNP聚類信息和DTH8基因位點(diǎn)為代表的PAV變異信息可用于早熟粳稻育種親本的基因型選擇,有效地鑒別弱感光性且與粳稻親緣關(guān)系較遠(yuǎn)的候選育種親本,便于及時(shí)的雜交轉(zhuǎn)育,加快育種進(jìn)程。
附圖說(shuō)明
圖1 通過(guò)基因ID檢索DTH8基因的基本信息示例。
圖2 DTH8基因的PAV變異信息及其在不同育種親本SNP聚類樹(shù)上的分布示例。
圖3 不同類型的候選育種親本中的DTH8基因PAV變異圖示示例,左側(cè)為基于SNP的聚類樹(shù),右側(cè)為PAV變異。
具體實(shí)施方式
下面結(jié)合具體實(shí)施實(shí)例,進(jìn)一步闡述本發(fā)明。其中所用方法如無(wú)特別說(shuō)明均為常規(guī)方法。以下示例不以任何形式限定本發(fā)明。
(一)親本材料的基因組信息獲取
1.供試材料
育種家的任意候選育種親本材料。
2.DNA提取及全基因組高通量測(cè)序
參考Temnykh等(2000年)的DNA提取方法,對(duì)各單株分別提取基因組DNA。
考慮成本,基因組測(cè)序可以采用基于shot-gun測(cè)序技術(shù),建庫(kù)和測(cè)序方法都同常規(guī)。獲得質(zhì)量較好的數(shù)據(jù)覆蓋度建議在10X以上。為了保證測(cè)序數(shù)據(jù)的質(zhì)量,原始數(shù)據(jù)中如果某個(gè)Read超過(guò)50%的堿基quality值小于5的或者有接頭污染,則予以過(guò)濾淘汰。
(二)SNP信息提取及育種親本聚類分析
考慮到育種親本在目標(biāo)性狀適宜的情況下,有必要盡可能的保持其多樣性,因此,我們對(duì)于候選育種親本的親緣關(guān)系要有一個(gè)基本的了解。
我們?cè)诨蚪MDNA測(cè)序數(shù)據(jù)的基礎(chǔ)上,將每個(gè)樣本獲得的reads與參考基因組(例如Os-Nipponbare-Reference-IRGSP-1.0,IRGSP-1.0)利用免費(fèi)分析工具如BWA等進(jìn)行比對(duì)分析,將比對(duì)的結(jié)果生成BAM格式文件。在BAM文件的基礎(chǔ)上,利用免費(fèi)分析工具如Genome Analysis Toolkit(GATK)等提取SNP信息。為了提高SNP信息提取的可靠性,質(zhì)量控制參數(shù)設(shè)置為:每個(gè)位點(diǎn)的mapping質(zhì)量值大于20、變異質(zhì)量值大于50,而且每個(gè)堿基至少有來(lái)自2個(gè)以上reads數(shù)據(jù)的支持,MAF值>0.001。從提取的SNP數(shù)據(jù)集中隨機(jī)挑選缺失數(shù)據(jù)最少的高質(zhì)量SNP數(shù)據(jù)亞集,總數(shù)不超過(guò)200K,用于下一步的育種親本聚類分析。
在上述高質(zhì)量SNP數(shù)據(jù)亞集的基礎(chǔ)上,計(jì)算育種親本的遺傳距離矩陣,免費(fèi)工具如Tree BeST構(gòu)建聚類樹(shù),展示候選育種親本之間的親緣關(guān)系,boot straps參數(shù)設(shè)置為1000。
(三)PAV信息的提取和數(shù)據(jù)庫(kù)的構(gòu)建
經(jīng)過(guò)過(guò)濾的高質(zhì)量reads數(shù)據(jù)利用拼接軟件,例如SOAP denovo等進(jìn)行從頭拼接,獲得不同長(zhǎng)度的Contig/Scaffold。
將所有測(cè)序親本的Contig/Scaffold分別用免費(fèi)工具BLAT(Kent 2002)與參考基因組(例如Os-Nipponbare-Reference-IRGSP-1.0或者多個(gè)基因組數(shù)據(jù)整合成的Pan-genome)進(jìn)行序列快速比對(duì),獲得每個(gè)Contig/Scaffold的物理位置;在此基礎(chǔ)上,通過(guò)免費(fèi)工具LASTZ(http://www.bx.psu.edu/miller_lab/)將Contig/Scaffold比對(duì)定位到參考基因組上。對(duì)于沒(méi)有比對(duì)上的Contig/Scaffold可以進(jìn)一步用免費(fèi)工具BLASTn(Altschul et al.1990)做進(jìn)一步的比對(duì)。
在50-2,600bp范圍內(nèi)或者以某個(gè)基因全長(zhǎng)的85%或編碼區(qū)的95%作為閾值判斷該基因 位點(diǎn)是否屬于PAV變異。將相應(yīng)的PAV變異信息依照不同的候選育種親本創(chuàng)建數(shù)據(jù)庫(kù),便于檢索和訪問(wèn)。PAV變異圖示的方式可以采用開(kāi)源的JBrowse等瀏覽器技術(shù)進(jìn)行實(shí)現(xiàn)。
(四)目標(biāo)性狀相關(guān)關(guān)鍵基因位點(diǎn)(僅以感光性為例)的PAV變異分析
以下分析可以通過(guò)依據(jù)上述步驟創(chuàng)建的類似http://www.rmbreeding.cn/pan3k的數(shù)據(jù)庫(kù)網(wǎng)站來(lái)完成。
已經(jīng)知道DTH8是控制感光性的關(guān)鍵基因位點(diǎn);我們選擇該基因位點(diǎn)(RAP-DB的登錄ID號(hào):Os08g0174500)作為PAV變異的主要分析對(duì)象。首先在檢索中輸入基因ID號(hào),獲得相應(yīng)的基因PAV變異信息(圖1)。檢索表明DTH8在不同基因組間存在PAV變異,其中主要在粳稻(JAP)中攜帶,其最高基因頻率可達(dá)96.8%(圖2)。
(五)確定入選育種親本
下一步我們要篩選對(duì)光照長(zhǎng)度不敏感的育種親本,那么就要對(duì)DTH8基因位點(diǎn)有缺失的個(gè)體進(jìn)行選擇。首先我們依據(jù)SNP聚類樹(shù)的結(jié)果,隨機(jī)挑選了8個(gè)分屬不同聚類群即親緣關(guān)系盡可能較遠(yuǎn)的樣本(圖3)作為操作范例進(jìn)行說(shuō)明,實(shí)際可以同時(shí)選取的樣本數(shù)可以達(dá)到50個(gè)以上。接著,點(diǎn)擊“提交(submit)”按鈕,展示這8個(gè)親本的DTH8基因的圖示PAV變異基因型。我們發(fā)現(xiàn),其中有兩個(gè)親本(CX106和B026)具備DTH8基因全長(zhǎng),而其它6個(gè)(B024、IRIS_313-11275、B060、B067、B112和IRIS_313-11859)都有不同大小的DTH8基因缺失。這樣我們就能夠?qū)⒂糜诒硇丸b定的候選育種親本數(shù)減少25%,從而減少了25%的表型鑒定工作量。
最后,我們將依據(jù)前期收集的這6份親本在中國(guó)北方長(zhǎng)日照條件下的抽穗期,我們選取了B024——既具備DTH8的缺失類型的PAV變異所導(dǎo)致日照長(zhǎng)度不敏感(無(wú)感光性),同時(shí)其與普通粳稻的親緣關(guān)系又比較遠(yuǎn),適合作為北方粳稻育種改良的親本使用。