專利名稱:候選基因的統(tǒng)計(jì)確認(rèn)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及植物分子遺傳學(xué),特別地涉及用于評(píng)估植物種群中遺傳標(biāo)記與表現(xiàn)型之間的關(guān)聯(lián)的方法。
背景技術(shù):
發(fā)展了多重實(shí)驗(yàn)范式以鑒定和分析數(shù)量性狀基因座OiTL)(參見例如, Jansen (1996) Trends Plant Sci 1 :89)。數(shù)量性狀基因座(QTL)是基因組的一個(gè)區(qū)域,該區(qū)域?qū)σ环N或多種蛋白質(zhì)進(jìn)行編碼并且解釋了顯著比例的可以受多個(gè)基因和環(huán)境條件控制的定性性質(zhì)的一種給定表型的變異性。對(duì)于作物種類中的QTL作圖的大多數(shù)公開報(bào)告是基于雙親雜交的使用。典型地,這些范式包括將一個(gè)或多個(gè)親本對(duì)進(jìn)行雜交,這一個(gè)或多個(gè)親本對(duì)可以是例如衍生自兩個(gè)近交系的單個(gè)對(duì)、或不同近交品系或系的多個(gè)相關(guān)的或無關(guān)的親本,它們各自展示出相對(duì)于感興趣的表型性狀的不同的特征。典型地,這個(gè)實(shí)驗(yàn)計(jì)劃包括從兩個(gè)分叉的近交系的單個(gè)雜交衍生的100至300個(gè)分離子代(例如,被選擇以最大化系之間的表型和分子標(biāo)記差異)。對(duì)于跨越基因組的一組均勻分布的標(biāo)記基因座將這些親代和分離子代進(jìn)行基因分型并且評(píng)價(jià)了一個(gè)至若干個(gè)數(shù)量性狀(例如抗病性)。然后將QTL 鑒定為在分離子代中基因型值與表型變異性之間的顯著統(tǒng)計(jì)關(guān)聯(lián)。用于確定標(biāo)志物是否是遺傳連接到一個(gè)QTL上(或連接到另一個(gè)標(biāo)志物上) 的眾多的統(tǒng)計(jì)方法對(duì)于本領(lǐng)域的普通技術(shù)人員是已知的,并且包括例如標(biāo)準(zhǔn)線性模型如 ANOVA或回歸作圖(Haley and Knott (1992) Heredity69 :315)、最大相似法如期望最大算法(例如 Lander and Botstein (1989) Genetics 121 :185-199 Jansen (1992) Theor. Appl. Genet. ,85 :252-260 Jansen (1993)Biometrics 49 :227-231 Jansen(1994)In J. W. van Ooijen and J. Jansen(eds. ),Biometrics in Plant breeding !applications of molecular markers, pp.116-124, CPR0-DL0 Metherlands ;Jansen(1996)Genetics 142 305-311 ;以及 Jansen and Stam (1994) Genetics 136 :1447-1455) 示例性的統(tǒng)計(jì)方法包括單點(diǎn)標(biāo)記分析、區(qū)間作圖(Lander and Botstein(1989)Genetics 121 :185)、復(fù)合區(qū)間作圖、懲罰回歸分析、復(fù)合譜系分析、MCMC分析、MQM分析(Jansen(1994)Genetics 138 871) ,HAPLO-IM+ 分析、HAPL0-MQM 分析、以及 HAPL0-MQM+ 分析、貝葉斯 MCMC、嶺回歸(ridge regression)、血源同一分析、以及 Haseman-Elston 回歸。聯(lián)合作圖或不平衡作圖使用處于種群水平的關(guān)聯(lián)。聯(lián)合作圖是一種用于檢測(cè)基于連鎖不平衡(LD)的基因效應(yīng)的方法,連鎖不平衡被發(fā)現(xiàn)于具有多樣遺傳物質(zhì)的大量存在的種群(或種質(zhì))中。通過檢查可以歸因于跨越一組多樣種質(zhì)的遺傳連鎖標(biāo)記與功能多態(tài)性之間的連鎖不平衡強(qiáng)度的標(biāo)志-性狀關(guān)聯(lián),聯(lián)合作圖鑒定了數(shù)量性狀基因座WTLs)。 在用于分子植物育種的工具的發(fā)展中,聯(lián)合作圖補(bǔ)充了 QTL分析。它具有兩個(gè)主要的優(yōu)于傳統(tǒng)連鎖作圖方法的優(yōu)點(diǎn)。首先,不需要系譜或雜交的事實(shí)經(jīng)常使得它更易于收集數(shù)據(jù)。 其次,由于不相關(guān)個(gè)體之間共享的單體型的程度反映了經(jīng)歷非常大的數(shù)量的世代的重組作用,聯(lián)合作圖相比于連鎖作圖具有若干數(shù)量級(jí)的更高的分辨率。發(fā)明概述
在此提供了用于評(píng)估或確認(rèn)在植物種群中在候選基因與一種感興趣的性狀之間的關(guān)聯(lián)的方法。在本發(fā)明的不同實(shí)施方案中,該植物種群包括育種材料,特別是早期育種材料。這些方法包括獲得對(duì)于一個(gè)或多個(gè)標(biāo)記的基因型值并且使該基因型值與感興趣的性狀相關(guān)聯(lián)??梢允褂貌煌年P(guān)聯(lián)模型來評(píng)價(jià)關(guān)聯(lián),包括不同的通用線性模型和混合線性模型。使用與植物育種種群的結(jié)構(gòu)相關(guān)的統(tǒng)計(jì)方法發(fā)展了本發(fā)明的模型。在一些實(shí)施方案中,通過使用主成分分析,在關(guān)聯(lián)模型中說明了種群結(jié)構(gòu)。這種分析可以單獨(dú)使用或與關(guān)聯(lián)模型中其他說明種群結(jié)構(gòu)的方法結(jié)合使用。在某些方面,適合關(guān)聯(lián)模型的主成分的數(shù)目是依賴于主成分與感興趣的性狀的相關(guān)的。在此進(jìn)一步提供的是用于在早期育種材料中使用一種基于傳送不平衡的方法學(xué)的聯(lián)合作圖的一種新穎的統(tǒng)計(jì)方法。這種方法可以適用于任何種類并且在發(fā)現(xiàn)和確認(rèn)與感興趣的表型連鎖的標(biāo)記中是有用的。這個(gè)回歸模型(定量近交系譜不平衡試驗(yàn)2,或 “QIPDT2”)可以被改進(jìn)以說明位置效應(yīng)和/或測(cè)試物效應(yīng),并且提供了對(duì)于所討論的標(biāo)記的遺傳效應(yīng)和表型貢獻(xiàn)的估計(jì)。這個(gè)模型可以與主成分分析聯(lián)合使用以說明種群結(jié)構(gòu)。在此還描述了用于選擇適當(dāng)?shù)闹参锓N群用于關(guān)聯(lián)研究的新穎方法。該方法包括評(píng)價(jià)在發(fā)育的多個(gè)階段跨越多個(gè)環(huán)境條件的基因型數(shù)據(jù)和表型數(shù)據(jù),并且選擇與感興趣的性狀最相關(guān)的植物種群。使用本發(fā)明的方法所鑒定的標(biāo)記可以用于標(biāo)記輔助育種和選擇中、作為用于構(gòu)建遺傳連鎖圖譜的遺傳標(biāo)記以分離在基因編碼或非編碼DNA序列周圍的基因組DNA序列,從而鑒定促成感興趣的性狀的基因,并且用于產(chǎn)生具有所希望的性狀的轉(zhuǎn)基因植物。附圖簡(jiǎn)述
圖1是用于位置選擇的示例性方法的流程圖。圖2是用于匯編表型數(shù)據(jù)文件用于關(guān)聯(lián)分析的示例性方法的流程圖。圖3是用于匯編基因型數(shù)據(jù)文件用于關(guān)聯(lián)分析的示例性方法的流程圖。圖4是用于QIPDT2分析的示例性方法的流程圖。圖5顯示了用于七個(gè)線性模型的ρ值的累積分布的比較,用于鑒定SNP標(biāo)記與顆粒產(chǎn)率之間的關(guān)聯(lián)。對(duì)角灰色線顯示了均勻分布。接近于均勻的分布應(yīng)當(dāng)包含較少的假陽性關(guān)聯(lián)。GLM 通用線性模型,MLM 混合線性模型,PC 主成分(principal component),Q 用于亞群的k數(shù)目的結(jié)構(gòu)輸出,K:親緣關(guān)系矩陣,psh 作為共享的等位基因的比例的親緣關(guān)系,SELECT 根據(jù)它們與所分析的性狀的相關(guān)所選擇的PC。圖6顯示了在完全的、只有測(cè)試物的、以及只有位置的模型下對(duì)于來自TASSEL、 QIPDTl以及QIPDT2的產(chǎn)量的關(guān)聯(lián)ρ值的結(jié)果。在每個(gè)曲線圖中的均勻線顯示了在基因組上無關(guān)聯(lián)的無效假設(shè)下的P值。假定數(shù)目的關(guān)聯(lián)的標(biāo)記是基因組上所有標(biāo)記的非常小的部分,關(guān)聯(lián)P值曲線應(yīng)該接近于均勻線。大的偏差表明更高的假陽性率。如在曲線圖中所示, TASSEL產(chǎn)生了一致地更高的假陽性率,而QIPDTl具有一致地更高的陰性率,但是在這三種中顯示出QIPDT2是最好的。圖7代表了 QIPDT檢驗(yàn)統(tǒng)計(jì)量。發(fā)明詳述概述數(shù)量性狀基因座(QTL)的位置和效應(yīng)的估計(jì)對(duì)于標(biāo)記輔助選擇是最為重要的。迄今,這是通過經(jīng)典的QTL作圖方法來實(shí)現(xiàn)的(Lander and Botstein (1989)Genetics 121 185-199)。這些必要的實(shí)驗(yàn)要求建立連同大的作圖種群的表型和基因型并且因此是非常地成本和時(shí)間密集的(Parisseaux andBernardo (2004) Theor Appl Genet 109 :508-514)。這些限制可以通過使用植物育種計(jì)劃中常規(guī)收集的表型和基因型數(shù)據(jù)應(yīng)用優(yōu)異種質(zhì)中的聯(lián)合作圖法來克服(Jansen et al. (2003)Crop Sci 43 =829-834) 此外,來自聯(lián)合作圖的結(jié)果在育種中是直接使用的,因?yàn)檠芯苛苏麄€(gè)優(yōu)異種質(zhì)中存在的等位基因變異。在此描述的是一種發(fā)現(xiàn)或確認(rèn)一種或多種遺傳標(biāo)記與一種感興趣的表型性狀之間的關(guān)聯(lián)的方法。在不同實(shí)施方案中,該方法包括用于評(píng)價(jià)關(guān)聯(lián)的新穎模型,包括用于早期育種材料中的關(guān)聯(lián)分析的QIPDT2模型。這些方法進(jìn)一步包括通過使用主成分分析用于在關(guān)聯(lián)分析中說明種群結(jié)構(gòu)的新方法,其中使用與感興趣的性狀最顯著相關(guān)的主成分作為關(guān)聯(lián)模型中的協(xié)變量。如在此所使用的,術(shù)語“與......關(guān)聯(lián)”與遺傳標(biāo)記(SNP,單體型、插入/缺失、串
聯(lián)重復(fù),等等)與表型之間的關(guān)系有關(guān)是指標(biāo)記頻率關(guān)于表型的數(shù)量范圍或質(zhì)量等級(jí)的在統(tǒng)計(jì)學(xué)上顯著的依賴性。當(dāng)標(biāo)記與性狀連鎖并且該標(biāo)記的存在指示了所希望的性狀或性狀形式將發(fā)生在包含該標(biāo)記的生物中時(shí),則該標(biāo)記與該性狀“正”相關(guān)。當(dāng)標(biāo)記與性狀連鎖并且當(dāng)該標(biāo)記的存在指示了所希望的性狀或性狀形式?jīng)]有發(fā)生在包含該標(biāo)記的植物中時(shí),則該標(biāo)記與該性狀負(fù)相關(guān)。出于本發(fā)明的目的,術(shù)語“標(biāo)記”是指任何被用來測(cè)試與感興趣的性狀相關(guān)聯(lián)的遺傳元件,并且不必要地表示該標(biāo)記是與所感興趣的性狀正相關(guān)或負(fù)相關(guān)。因此,當(dāng)標(biāo)記基因型和性狀表型相比于如果該標(biāo)記基因型和性狀表型分離地分開更頻繁地在一種生物的子代中被一起發(fā)現(xiàn)時(shí),則該標(biāo)記與感興趣的性狀是相關(guān)聯(lián)的。短語 “表型性狀”是指生物的外觀或其他特征,產(chǎn)生于其基因組與環(huán)境的相互作用。術(shù)語“表型” 是指一種生物的任何可見的、可檢出的或另外地可測(cè)量的特性。術(shù)語“基因型”是指一種生物的遺傳組成。這可以整體考慮,或關(guān)于單基因的等位基因(即在給定的基因座)進(jìn)行考慮。在一些實(shí)施方案中,這些標(biāo)記是在已知的或被猜想有待直接可歸因于表型性狀的基因或遺傳元件之內(nèi)的(即,“候選基因”)。例如,直接可歸因于淀粉累積的遺傳元件可以是直接涉及淀粉代謝的基因??商娲兀摌?biāo)記可以發(fā)現(xiàn)于與感興趣的表型性狀相關(guān)聯(lián)的基因座之內(nèi)?!盎蜃笔侨旧w區(qū)域,其中一種多態(tài)核酸、性狀決定簇、基因或標(biāo)記在這里定位。因此,例如,“基因座”是物種的基因組中的特定的染色體部位,其中可以發(fā)現(xiàn)特定的基因。在不同的實(shí)施方案中,使用在此披露的這些方法所鑒定的這些標(biāo)記可以與數(shù)量性狀基因座(QTL)相關(guān)聯(lián)。術(shù)語“數(shù)量性狀基因座”或“QTL”是指具有至少兩個(gè)等位基因的多態(tài)基因座,該至少兩個(gè)等位基因有差別地影響表型性狀在至少一個(gè)遺傳背景中(例如在至少一個(gè)育種種群或子代中)的表達(dá)。在一些方面中,特別有用的分子標(biāo)記是連鎖到或緊密連鎖到QTL標(biāo)記上的那些標(biāo)記。短語“緊密連鎖”在本申請(qǐng)中表示在兩個(gè)連鎖位點(diǎn)之間以等于或小于大約10%的頻率 (即在遺傳圖譜中被分開不大于IOcM)發(fā)生重組。換言之,緊密連鎖的位點(diǎn)在至少90%的時(shí)間共分離。在本發(fā)明中,當(dāng)標(biāo)記位點(diǎn)證明與所希望的性狀共分離(連鎖)的顯著可能性時(shí),這些標(biāo)記位點(diǎn)是特別有用的。在一些方面,這些標(biāo)記可以稱為連鎖的QTL標(biāo)記。兩個(gè)最常用的用于詳細(xì)分析復(fù)雜性狀的工具是連鎖分析以及聯(lián)合作圖(Rischand Merikangas, Science 1996,273 :1516-1517 ;Mackay, Annu RevGenet 2001,35: 303-339)。連鎖分析利用了功能多態(tài)性的共享遺傳特征以及已知祖先的家族或系譜之內(nèi)的鄰近標(biāo)記。典型地用衍生自雙親雜交的實(shí)驗(yàn)種群來進(jìn)行植物中的連鎖分析。雖然基于與連鎖分析相同的遺傳重組基本原理,聯(lián)合作圖檢查了這個(gè)共享的遺傳特征用于經(jīng)常具有未觀察到的祖先的個(gè)體的收集。由于未觀察到的祖先可以延伸數(shù)千個(gè)世代,在重組的這些多個(gè)世代之后,所共享的遺傳特征僅對(duì)于鄰近的基因座持續(xù)。實(shí)質(zhì)上,聯(lián)合作圖利用了種群水平的歷史和進(jìn)化重組(Thornsberry et al. (2001)Nat Genet28 :286-289 ;Remington et al. (2001)Proc Natl Acad Sci USA 98 :11479-11484)。在此提供的是用于在早期育種材料中使用基于傳遞不平衡的方法學(xué)的聯(lián)合作圖的一種新穎的統(tǒng)計(jì)方法。這種方法在此稱為定量近交系譜不平衡試驗(yàn)2 0HPDT2)。QIPDT2 可以適用于任何種類并且在發(fā)現(xiàn)并確認(rèn)與感興趣的表型連鎖的標(biāo)記中是有用的。在本發(fā)明的不同實(shí)施方案中,使用在此披露的這些方法所鑒定的標(biāo)記被用來選擇個(gè)體(例如植物)并且富集對(duì)于具有所希望的性狀的個(gè)體的種群。通過鑒定顯示了與所希望的表型共分離的統(tǒng)計(jì)顯著的可能性的標(biāo)記等位基因,人們可以有利地使用分子標(biāo)記以鑒定所希望的個(gè)體。通過鑒定并選擇與所希望的表型相關(guān)聯(lián)的標(biāo)記等位基因(或來自多個(gè)標(biāo)記的所希望的等位基因),通過選擇合適的分子標(biāo)記等位基因,人們能夠快速選擇所希望的表型。雖然使用植物種群對(duì)在此披露的這些方法進(jìn)行了例證并說明,這些方法同樣適用于動(dòng)物種群,例如人類和非人類動(dòng)物,如實(shí)驗(yàn)動(dòng)物、家養(yǎng)家畜、伴侶動(dòng)物,等等。在此披露的這些方法結(jié)合了多種統(tǒng)計(jì)檢驗(yàn)和模型,這些統(tǒng)計(jì)檢驗(yàn)和模型可能在此沒有被明確描述。標(biāo)準(zhǔn)的統(tǒng)計(jì)檢驗(yàn)的詳盡描述可以發(fā)現(xiàn)于統(tǒng)計(jì)學(xué)基礎(chǔ)教科書中, 例如 像,Dixon, W. J. et al.,Introduction to Statistical Analysis, New York, McGraw-Hill(1969)或Steel R. G. D. et al. ,Principles andProcedures of Statistics with Special Reference to the Biological Sciences,NewYork,McGraw-Hill(1960)。 還存在多種對(duì)于本領(lǐng)域的普通技術(shù)人員已知的軟件程序用于統(tǒng)計(jì)分析。植物種群對(duì)于作物種類中的QTL基因作圖的大多數(shù)公開報(bào)告是基于雙親雜交的使用 (Lynch and Walsh(1997)Genetics and Analysis of Quantitative Traits, Sinauer Associates, Sunderland)。典型地,這個(gè)實(shí)驗(yàn)計(jì)劃包括從兩個(gè)分叉的近交系(例如被選擇以最大化系之間的表型和分子標(biāo)記差異)的單次雜交衍生出100至300個(gè)分離子代。將分離子代對(duì)于多個(gè)標(biāo)記位點(diǎn)進(jìn)行基因分型并且評(píng)估了在多種環(huán)境下的一個(gè)至多個(gè)數(shù)量性狀。 然后鑒定QTL作為在分離子代中基因型值與表型變異性之間的顯著統(tǒng)計(jì)關(guān)聯(lián)。在此披露的這些方法有對(duì)于發(fā)現(xiàn)或確認(rèn)在任何植物種群中的標(biāo)記性狀關(guān)聯(lián)是有用的。術(shù)語“植物種群”或“植物的種群”表示一群植物,例如,從這群植物中取得樣品用于評(píng)估、和/或從這群植物中選擇植物用于育種目的。在本發(fā)明的優(yōu)選實(shí)施方案中,該植物種群涉及植物的育種種群。育種種群是植物種群,從該植物種群中選擇成員并且使之雜交以在育種計(jì)劃中產(chǎn)生子代。然而,根據(jù)本發(fā)明,從其評(píng)估這些標(biāo)記的種群成員不必是與最終選擇用于育種以獲得子代植物(例如用于后續(xù)分析周期的子代植物)的種群成員相同。在本發(fā)明的一些情況下,植物種群可以包括親本植物連同從這些親本植物衍生的一個(gè)或多個(gè)子代植物。在一些情況下,植物種群是衍生自單次雙親雜交,例如再兩個(gè)親本植物之間的雜交的子代種群??商娲?,植物種群包括衍生自兩次或多次雜交的成員,這些雜交涉及相同或不同的親本植物。該群體可以由重組近交系、回交系、測(cè)交系等組成。在本發(fā)明的不同實(shí)施方案中,該植物種群由早期育種材料組成。對(duì)于“早期”育種材料,預(yù)期的是這些植物是在F2至F3代。早期育種材料的使用發(fā)現(xiàn)的優(yōu)點(diǎn)是,可供使用的育種材料的數(shù)量是大的;表型數(shù)據(jù)對(duì)于育種系是可供使用的;并且基因作圖結(jié)果可以直接幫助選擇。在育種早期,在多個(gè)位置測(cè)試了多個(gè)系。由于早期育種階段涉及評(píng)價(jià)從多個(gè)雜交衍生的大數(shù)量的子代,這些育種材料提供了必要的表型數(shù)據(jù)用于鑒定并確認(rèn)對(duì)于寬范圍性狀的標(biāo)記。因此,通過使用從多個(gè)育種雜交衍生出的系以及通過雜種雜交獲得的表型數(shù)據(jù),本發(fā)明克服了對(duì)于大數(shù)量的單次雜交子代的需要。通過將標(biāo)記分析集合到現(xiàn)有的育種計(jì)劃中,可以獲得與大數(shù)量子代相關(guān)聯(lián)的功效、精度和準(zhǔn)確度。此外,本發(fā)明考慮到跨越該育種計(jì)劃而不是限于來自單次雜交的子代的樣品有待作出關(guān)于標(biāo)記關(guān)聯(lián)的推論。在本發(fā)明的上下文中,術(shù)語“雜交的”或“雜交”表示配子通過授粉而從而產(chǎn)生子代(例如細(xì)胞、種子或植物)的融合。該術(shù)語包括有性雜交(一個(gè)植物由另一個(gè)授粉)和自交(自花授粉,例如當(dāng)花粉和胚珠是來自相同的植物時(shí))兩者。短語“雜種植物”是指從遺傳上相異的個(gè)體之間的雜交產(chǎn)生的植物。短語“近交植物”是指從遺傳上相關(guān)的植物之間的雜交衍生的植物。在本發(fā)明的上下文中,術(shù)語“系”是指通過自花授粉一種近交植物而衍生的相關(guān)植物的家族。術(shù)語“子代”是指特定植物(自花授粉的)或植物對(duì)(異花授粉的)的后代。這些后代例如可以是F1、F2或任何后續(xù)世代。在不同的實(shí)施方案中,植物種群包括或組成為從一個(gè)或多個(gè)近交系與一個(gè)或多個(gè)測(cè)交系之間的雜交產(chǎn)生的種群。短語“測(cè)交系”是指這樣的系,該系與一組它所雜交的系是無關(guān)的或遺傳上不同的。在有性雜交中使用測(cè)交親本允許本領(lǐng)域的普通技術(shù)人員確定在雜種組合中表型性狀與數(shù)量性狀基因座的表達(dá)的關(guān)聯(lián)。短語“雜種組合”是指將一種單個(gè)的測(cè)交親本雜交到多個(gè)系上的過程。產(chǎn)生此類雜交的目的在于評(píng)價(jià)該系在雜種子代中產(chǎn)生所希望的表型的能力,通過測(cè)交這些雜種子代而衍生自該系。在此披露的這些方法進(jìn)一步包括在測(cè)交系與優(yōu)異系之間的雜種雜交?!皟?yōu)異系”或 “優(yōu)異品系”是農(nóng)藝學(xué)上優(yōu)越的系,它產(chǎn)生于多個(gè)育種周期以及對(duì)于優(yōu)越的農(nóng)藝學(xué)性能的選擇。相比之下,“外來品系”或“外來種質(zhì)”是從不屬于種質(zhì)的可獲得的優(yōu)異植物系或品系的植物衍生的品系或種質(zhì)。眾多的優(yōu)異系是可獲得的并且對(duì)于植物育種領(lǐng)域的普通技術(shù)人員是已知的?!皟?yōu)異種群”是優(yōu)異個(gè)體或系的分類,就給定的作物種類的農(nóng)藝學(xué)優(yōu)越的基因型而言,它可以用來代表技術(shù)狀態(tài)。類似地,“優(yōu)異種質(zhì)”或種質(zhì)的優(yōu)異品系是農(nóng)藝學(xué)上優(yōu)越的種質(zhì),典型地衍生自和/或能夠產(chǎn)生一種具有優(yōu)越的農(nóng)藝學(xué)性能的植物。術(shù)語“種質(zhì)”是指?jìng)€(gè)體(例如植物)的或來自個(gè)體的遺傳物質(zhì)、一群個(gè)體(例如,植物系、種類或家族)、或來自系、種類、種系、或培養(yǎng)物的克隆。種質(zhì)可以是生物或細(xì)胞的一部分,或可以從該生物或細(xì)胞中分離。通常,種質(zhì)提供了具有特定的分子結(jié)構(gòu)的遺傳物質(zhì),該分子結(jié)構(gòu)提供了對(duì)于生物或細(xì)胞培養(yǎng)物的一些或所有遺傳品質(zhì)的物理基礎(chǔ)。在另一個(gè)實(shí)施方案中,育種材料的種群由近交植物組成,根據(jù)共同親本將這些近交植物分類成系譜?!跋底V結(jié)構(gòu)”定義了后代與產(chǎn)生該后代的每個(gè)祖先之間的關(guān)系。系譜結(jié)構(gòu)可以跨越一個(gè)或多個(gè)世代,記述了在后代與其親代、祖親代、曾祖親代等之間的關(guān)系。
本發(fā)明的方法總體上適用于生物體并且實(shí)質(zhì)上還適用于任何植物種群或種類。優(yōu)選的植物包括農(nóng)藝學(xué)上和園藝學(xué)上重要的種類,包括例如產(chǎn)生可食用的花的作物,例如花椰菜(甘藍(lán))(cauliflower (Brassica oleracea))、朝鮮薊(菜薊) (artichoke (Cynara scolvmus))、以及紅花(紅花屬,例如紅花)(saff lower (Carthamus, e. g. tinctorius)) ;/K果,例如蘋果(蘋果屬,例如蘋果)(fruits such as apple (Malus, e. g. domesticus))、香蕉(15蕉屬,例如小果里予蕉)(banana(Musa, e. g. acuminata))、菜果(例如茶薦子屬植物,茶薦子屬,例如紅醋栗)(berries (such as the currant,Ribes, e. g. rubrum))、櫻桃類(例如甜櫻桃,李屬,例如歐洲甜櫻桃)(cherries (such as the sweet cherry, Prunus, e. g. avium))、黃瓜(黃瓜屬,例如黃瓜)(cucumber (Cucumis, e. g. sativus))、葡萄(葡萄屬,例如葡萄)(grape (Vitis,e. g. vinifera))、檸檬(黎檬) (Iemon(CitrusIimon))JIijl (Cucumis melo)、堅(jiān)果(例如胡桃,胡桃屬,例如胡桃;花生, 落花生)(nuts (such as the walnut, Juglans, e. g. regia ;peanut, Arachishypoaeae))、 橙(柑桔屬,例如柚)(orange (Citrus,e. g. maxima))、桃(李屬,例如桃)(peach(Prunus, e. g. persica))、梨(梨屬(Pyra),例如西洋梨)(pear (Pyra, e. g. communis))、胡椒 (茄屬,例如珊瑚櫻)(P印per (Solanum, e. g. capsicum))、李子(李屬,例如歐洲李) (plum(Prunus, e. g. domestica))、草莓(草莓屬,例如廣香草莓)(strawberry (Fragaria, e. g. moschata))、番爺(番屬,例如番) (tomato (Lycopersicon, e. g. esculentum));葉類,例如苜蓿(苜蓿屬,例如紫苜蓿)(leafs,such as alfalfa(Medicago, e. g. sativa))、 甘蔴(甘蔴屬)(sugar cane (Saccharum))、甘藍(lán)(例如 Brassica oleracea)、菊苣(菊苣屬,例如菊苣)(endive (Cichoreum, e. g. endivia))、韭(蔥屬,例如韭蔥)(leek (Allium, e. g. porrum))、萵苣(萵苣屬,例如萵苣)(lettuce (Lactuca, e. g. sativa))、菠菜(菠菜屬,例如菠菜(oleraceae)) (spinach (Spinacia e. g. oleraceae))、煙草(煙草屬, 例如煙草)(tobacco (Nicotiana, e. g. tabacum));根類,例如竹芋(竹芋屬,例如竹芋)(arrowroot (Maranta, e. g. arundinacea))、舌甘菜(舌甘菜屬,例如舌甘菜)(beet (Beta, e. g. vulgaris))、胡蘿卜(胡蘿卜屬,例如里予胡蘿卜)(carrot (Daucus, e. g. carota))、 木薯(木薯屬,例如木薯)(cassava(Manihot,e. g. esculenta))、蕪菁(蕓苔屬,例如蕪青)(turnip (Brassica, e. g. rapa))、蘿卜(蘿卜屬,例如蘿卜)(radish (Raphanus, e. g. sativus))、山藥(薯截屬,例如山藥)(yam(Dioscorea, e. g. esculenta))、甘薯 (Ipomoea batatas);種子,例如豆(菜豆屬,例如菜豆)((Phaseolus, e. g. vulgaris)) > 豌豆(豌豆屬,例如豌顯)(pea (Pisum, e. g. sativum))、大顯(大顯屬,例如大顯) (soybean(Glycine, e. g. max))、小麥(小麥屬,例如普通小麥)(wheat (Triticum, e. g. aestivum))、大麥(大麥屬,例如大麥)(barley (Hordeum, e. g. vulgare))、玉米(玉蜀黍?qū)?,例如玉蜀?(corn (Zea,e. g. mays))、稻(稻屬,例如亞洲栽培稻)(rice (Oryza, e. g. sativa));草類,例如芒草(芒屬,例如巨芒)(Miscanthus grass (Miscanthus, e. g., giganteus))以及柳枝稷(黍?qū)?,例如柳枝?(switchgrass (Panicum,e. g. virgatum)); 樹,例如白楊(楊屬,例如歐洲山楊)(poplar (Populus,e. g. tremula))、松樹(松屬) (pine (Pinus));灌木,例如棉花(例如陸地棉)(shrubs,such as cotton (e. g. ,Gossypium hirsutum));以及塊莖,例如甘藍(lán)(蕓苔屬,例如甘藍(lán)(oleraceae)) (kohlrabi (Brassica,e. g. oleraceae))、馬鈴薯(5H屬,例如洋芋)(potato (Solanum, e. g. tuberosum))、以及類似物。與任何給定種群相關(guān)聯(lián)的種類可以是轉(zhuǎn)基因種類、非轉(zhuǎn)基因種類種、或任何遺傳修飾的種類。可替代地,還可以使用給定的在荒野天然發(fā)生的種類的植物產(chǎn)品。植物位置的選擇本發(fā)明對(duì)于植物育種是特別有價(jià)值的。通過舉例,雖然本發(fā)明的方法是特別有用于評(píng)價(jià)從多個(gè)育種位置得到的植物種群中的標(biāo)記性狀關(guān)聯(lián),可以有利地選擇某些位置用于評(píng)價(jià)所感興趣的具體性狀。在此提供了用于選擇植物位置的新穎方法用于標(biāo)記性狀關(guān)聯(lián)研究。這些方法包括從在多種不同環(huán)境條件下生長(zhǎng)的植物中收集與感興趣的性狀相關(guān)的數(shù)據(jù)。然后根據(jù)與這些條件相關(guān)的用戶定義的數(shù)值范圍,將這些植物分成幾個(gè)組。例如,其中溫度條件跨越被測(cè)試的位置而變化時(shí),這些植物可以分成幾個(gè)溫度范圍(例如,A組可以由生長(zhǎng)在具有15-20°C的日平均溫度的區(qū)域內(nèi)的植物組成,B組可以由生長(zhǎng)在具有21-25°C 的日平均溫度的區(qū)域內(nèi)的植物組成,C組可以由生長(zhǎng)在具有的日平均溫度的區(qū)域內(nèi)的植物組成,等等)。用于位置選擇的方法的示例性流程圖描述于圖1中。可以收集對(duì)于任何相關(guān)的環(huán)境條件(例如,總降雨、日照小時(shí)、相對(duì)濕度、土壤條件、風(fēng),等等)的數(shù)據(jù)。在不同的實(shí)施方案中,在植物的多個(gè)發(fā)育階段收集與感興趣的性狀相關(guān)的數(shù)據(jù)。使用玉米作為一個(gè)非限制性實(shí)例,可以在每個(gè)幼苗階段、營(yíng)養(yǎng)生長(zhǎng)階段、開花階段、以及籽粒灌漿階段收集數(shù)據(jù)。在收集對(duì)于位置和發(fā)育階段的所有數(shù)據(jù)后,對(duì)每個(gè)植物指定對(duì)應(yīng)于在每個(gè)發(fā)育階段的環(huán)境條件的評(píng)分。例如,如果將以上參考的情景中的植物在幼苗和營(yíng)養(yǎng)生長(zhǎng)階段暴露于從15°C至20°C的溫度,在開花階段暴露于從21°C至25°C的溫度,并且在籽粒灌漿階段暴露于從15°C至20°C的溫度,則這種植物將收到AABA的評(píng)分。將認(rèn)識(shí)到的是,任何有關(guān)的值、 范圍或數(shù)值范圍可以用來將植物指定到個(gè)體組中,并且這些值可以是定量的或定性的。對(duì)于標(biāo)記性狀關(guān)聯(lián),可以根據(jù)被評(píng)估的性狀來選擇植物,并且這種選擇可以依賴于在某些發(fā)育階段的暴露。例如,如果在幼苗和營(yíng)養(yǎng)生長(zhǎng)期時(shí)的耐熱性是感興趣的性狀,具有CCAA評(píng)分的植物將勝過具有AACC評(píng)分的植物而被選擇。因此,就標(biāo)記性狀關(guān)聯(lián)而言, 植物的選擇是基于該植物的特定發(fā)育階段期間的相對(duì)環(huán)境條件,并且適當(dāng)條件的選擇是對(duì)于研究下的性狀進(jìn)行優(yōu)化的。這種類型的位置選擇的具體優(yōu)點(diǎn)是,它消除了或補(bǔ)充了對(duì)于受控制的實(shí)驗(yàn)的需要,這些受控的實(shí)驗(yàn)可以是昂貴的并且有時(shí)是難以實(shí)現(xiàn)的。從生長(zhǎng)在具有所希望的測(cè)試條件的位置中的植物收集數(shù)據(jù)實(shí)質(zhì)上模仿了這樣一種受控實(shí)驗(yàn)。使用多種工具,可以對(duì)于一個(gè)或多個(gè)環(huán)境條件收集數(shù)據(jù)。例如,在種植位置處或種植位置附近的大田站點(diǎn)處的工人可能能夠測(cè)量實(shí)際的環(huán)境條件??商娲?,或另外地,可以使用對(duì)于種植位置處的或種植位置附近的條件的歷史數(shù)據(jù)。在不同的實(shí)施方案中,可以從實(shí)際的種植位置、或從種植位置大約1英里、大約2英里、大約3英里、大約4英里、大約5 英里、大約10英里、大約20英里、大約30英里、或更大范圍之內(nèi)的位置收集數(shù)據(jù)。在又一個(gè)實(shí)施方案中,可以使用地理信息系統(tǒng)(GIQ技術(shù)獲得數(shù)據(jù)。一種GIS是能夠獲得、儲(chǔ)存、分析、并且顯示地理參考信息(即,根據(jù)位置鑒定的數(shù)據(jù))的計(jì)算機(jī)系統(tǒng)。GIS 的效能來自在空間背景下建立不同信息的的關(guān)系并且得出關(guān)于這種關(guān)系的結(jié)論的能力。關(guān)于世界的大部分信息包含位置參考,將該信息安置在地球的某一點(diǎn)。例如,當(dāng)收集降雨信息時(shí),重要的是知道降雨位于何處。這是通過使用位置參考系統(tǒng)(如經(jīng)度和緯度,并且或許是海拔)來完成的??梢灾苯颖惠斎隚IS中的多數(shù)計(jì)算機(jī)數(shù)據(jù)庫(kù)是由聯(lián)邦、州、部落、以及地方政府、私營(yíng)公司、學(xué)術(shù)界、以及非營(yíng)利機(jī)構(gòu)產(chǎn)生的。處于圖譜形式的不同種類的數(shù)據(jù)可以被輸入GIS中。GIS還可以將現(xiàn)有的數(shù)字信息(它可能還沒有處于圖譜形式)轉(zhuǎn)化成它可以識(shí)別并使用的形式。例如,可以分析數(shù)字衛(wèi)星圖像來產(chǎn)生關(guān)于土地使用和土地覆蓋的數(shù)字信息圖譜。同樣,普查或水文表列數(shù)據(jù)可以被轉(zhuǎn)化成圖譜樣形式并且充當(dāng)GIS中的主題 fn息層。因此,關(guān)于環(huán)境條件的信息通過多重基于GIS的資源是可獲得的。例如,環(huán)境條件可以獲自國(guó)家氣候數(shù)據(jù)中心(www. ncdc. noaa. gov/oa/ncdc. html),它通過國(guó)家海洋和大氣機(jī)構(gòu)、以及國(guó)家干旱減災(zāi)中心(www. drought, unl. edu/)是可獲得的。遺傳標(biāo)記雖然編碼蛋白質(zhì)的特異DNA序列跨越種類是相當(dāng)保守的,其他的DNA區(qū)域(典型地是非編碼的)趨于累積多態(tài)性,并且因此在相同屬種的個(gè)體之間是可變的。這些區(qū)域提供了對(duì)于眾多分子遺傳標(biāo)記的基礎(chǔ)。在此披露的這些方法中,在選擇植物種群之后,對(duì)于種群中的多個(gè)植物獲得了對(duì)于多個(gè)標(biāo)記的基因型值(參見圖幻。該基因型值相應(yīng)于該遺傳標(biāo)記的定量或定性測(cè)量。術(shù)語“標(biāo)記”是指可識(shí)別的DNA序列,該序列對(duì)于種群內(nèi)的不同個(gè)體是可變的(多態(tài)的),并且有助于研究性狀或基因的遺傳特征。在DNA序列水平的標(biāo)記可以與對(duì)于個(gè)體的基因型獨(dú)特的特定的染色體位置連鎖,并且以一種可預(yù)測(cè)的方式遺傳。該遺傳標(biāo)記典型地是DNA序列,該DNA序列在可以在實(shí)驗(yàn)室中測(cè)量的染色體上具有特定的位置。術(shù)語“遺傳標(biāo)記”還可以用于是指例如由基因組序列編碼的cDNA和/或 mRNA、連同該基因組序列。為了是有用的,標(biāo)記必須具有兩個(gè)或更多個(gè)等位基因或變體。標(biāo)記可以是或者直接的,即,位于所感興趣的基因或基因座(即候選基因)之內(nèi),或間接的, 即,與所感興趣的基因或基因座緊密連鎖(可推測(cè)地,由于緊鄰于感興趣的基因或基因座但是沒有在其內(nèi)部的位置)。此外,標(biāo)記還可以包括或者修飾了或者沒修飾基因的氨基酸序列的序列。通常,在子代中分離的任何有差別地遺傳的多態(tài)性狀(包括核酸多態(tài)性)都是潛在的標(biāo)記。術(shù)語“多態(tài)性”是指在種群中存在兩個(gè)或更多個(gè)等位基因變體。術(shù)語“等位基因”或“等位基因的”或“標(biāo)記變體,,是指在標(biāo)記或特異的標(biāo)記序列之內(nèi)的特定位置處存在的變異;在SNP的情況下,出現(xiàn)的是實(shí)際的核苷酸;對(duì)于SSR,是重復(fù)序列的數(shù)目;對(duì)于肽序列,出現(xiàn)的是實(shí)際的氨基酸;在標(biāo)記單體型的情況下,是在特異組合中的兩個(gè)或更多個(gè)個(gè)體的標(biāo)記變體的組合。“關(guān)聯(lián)的等位基因”是指在多態(tài)基因座處的等位基因,它與所感興趣的特定表型相關(guān)聯(lián)。此類等位基因變體包括在單個(gè)堿基處的序列變異,例如單核苷酸多態(tài)性(SNP)。多態(tài)性可以是存在于位點(diǎn)處的單個(gè)核苷酸的差異,或可以是插入或缺失一個(gè)、少數(shù)幾個(gè)或多個(gè)連續(xù)的核苷酸。將認(rèn)識(shí)到的是,雖然本發(fā)明的這些方法最初是通過檢測(cè)SNP 來例證的,可以類似地使用當(dāng)前已知的或者此后發(fā)展或發(fā)現(xiàn)的方法來鑒定其他類型的多態(tài)性,這典型地涉及多于一種核苷酸。基因組變異性可以具有任何起因,例如,插入、缺失、復(fù)制、重復(fù)元件、點(diǎn)突變、重組事件、或轉(zhuǎn)座因子的存在和順序。該標(biāo)記可以作為DNA序列多態(tài)性來直接測(cè)量,如一種單核苷酸多態(tài)性(SNP)、限制性片段長(zhǎng)度多態(tài)性(RFLP)或短串聯(lián)重復(fù)(STR),或間接測(cè)量為一種DNA序列變體,如單鏈構(gòu)型多態(tài)性(SSCP)。標(biāo)記還可以是處于一種DNA衍生的產(chǎn)品的水平的變體,如RNA多態(tài)性/豐度、蛋白多態(tài)性或細(xì)胞代謝產(chǎn)物多態(tài)性,或與基礎(chǔ)DNA變體 (underlying DNA variant)或基因產(chǎn)物具有直接關(guān)系的任何其他生物學(xué)特征。在標(biāo)記輔助育種方案中經(jīng)常使用兩種類型的標(biāo)記,稱為單序列重復(fù)(SSR,也成為微衛(wèi)星(microsatellite))標(biāo)記,以及單核苷酸多態(tài)性(SNP)標(biāo)記。術(shù)語SSR通常是指導(dǎo)致長(zhǎng)度變異性的任何類型的分子異質(zhì)性,并且最典型地是短的(長(zhǎng)達(dá)幾百個(gè)堿基對(duì))DNA區(qū)段,該DNA區(qū)段由兩個(gè)或三個(gè)堿基對(duì)序列的多個(gè)串聯(lián)重復(fù)組成。由于差的復(fù)制保真性,例如由聚合酶滑脫引起,這些重復(fù)序列導(dǎo)致了可變長(zhǎng)度的高度多態(tài)的DNA區(qū)域。SSRs顯得是通過基因組隨機(jī)分散的并且總體上是由保守區(qū)域側(cè)翼的。SSR標(biāo)記還可以得自RNA序列(處于cDNA、部分cDNA或EST的形式)連同基因組物質(zhì)。在一個(gè)實(shí)施方案中,該分子標(biāo)記是一種單核苷酸多態(tài)性。發(fā)展了不同技術(shù)用于檢測(cè)SNP,包括等位基因特異雜交(ASH;參見,例如,Coryell et al.,(1999) Theor. Appl. Genet. ,98 :690-696)。還可以廣泛使用另外類型的分子標(biāo)記,包括但不局限于表達(dá)序列標(biāo)簽(EST)和衍生自EST序列的SSR標(biāo)記、擴(kuò)增片段長(zhǎng)度多態(tài)性(AFLP)、隨機(jī)擴(kuò)增多態(tài)性 DNA(RAPD)、以及同工酶標(biāo)記。對(duì)于檢測(cè)這種變異性,寬范圍的方案對(duì)于本領(lǐng)域的普通技術(shù)人員是已知的,并且這些方案對(duì)于它們被設(shè)計(jì)來檢測(cè)的多態(tài)性的類型而言經(jīng)常是特異的。 例如,可以使用PCR擴(kuò)增、單鏈構(gòu)型多態(tài)性(SSCP)以及自動(dòng)維持序列擴(kuò)增(3SR;參見Chan and Fox, Reviews in Medical Microbiology 10:185-196)。可以收集用于標(biāo)記分析的遺傳物質(zhì)(例如DNA或RNA)并且在任何方便的組織(如新植物可以從其生長(zhǎng)的細(xì)胞、種子或組織)中或植物部位(如可以被培養(yǎng)成整個(gè)植物的葉、 莖、花粉、或細(xì)胞)中進(jìn)行篩選。獲得了足夠數(shù)目的細(xì)胞以提供足夠量的遺傳物質(zhì)用于分析,雖然僅需要最小樣本容量,其中評(píng)分是通過擴(kuò)增核酸進(jìn)行的。可以從細(xì)胞樣品通過本領(lǐng)域普通技術(shù)人員已知的標(biāo)準(zhǔn)核酸分離技術(shù)來分離遺傳物質(zhì)。在一個(gè)實(shí)施方案中,這些基因型值對(duì)應(yīng)于位于一個(gè)或多個(gè)候選基因之內(nèi)或附近的 SNP。在另一個(gè)實(shí)施方案中,這些基因型值對(duì)應(yīng)于對(duì)于高密度的全基因組SNP圖譜的實(shí)質(zhì)上所有的、或所有SNP所獲得的值。這種方法具有的勝過傳統(tǒng)方法的優(yōu)點(diǎn)在于,由于它包括整個(gè)基因組,它鑒定了從位于基因組任何處的基因表達(dá)的基因組產(chǎn)物的潛在相互作用, 而不要求預(yù)先存在關(guān)于基因組產(chǎn)物之間的一種可能相互作用的知識(shí)。高密度、整個(gè)基因組SNP圖譜的實(shí)例是具有至少大約1個(gè)SNP/10,OOOWk至少1個(gè)SNP/5001A或大約10個(gè) SNP/5001A、或至少大約25SNP或更多/5001Λ的圖譜。標(biāo)記的密度的定義可以跨越基因組而改變并且是由基因組區(qū)域之內(nèi)的連鎖不平衡的程度來確定的。此外,許多遺傳標(biāo)記篩選平臺(tái)現(xiàn)在是可商購(gòu)的,并且可以被用來獲得對(duì)于現(xiàn)存方法的過程所要求的遺傳標(biāo)記數(shù)據(jù)。在多種情況下,這些平臺(tái)可以采取遺傳標(biāo)記試驗(yàn)陣列 (微陣列)的形式,它允許成千上萬個(gè)遺傳標(biāo)記的同時(shí)測(cè)試。例如,這些陣列可以測(cè)試的遺傳標(biāo)記數(shù)目是大于1,000、大于1,500、大于2,500、大于5,000、大于10,000、大于15,000、 大于20,000、大于25,000、大于30,000、大于35,000、大于40,000、大于45,000、大于 50,000 或大于 100,000、大于 250,000、大于 500,000、大于 1,000,000、大于 5,000,000、大于10,000, 000或大于15,000, 000。這樣一種可商購(gòu)的產(chǎn)物的實(shí)例是那些由AffymetrixInc (www. affymetrix. com)或 Illumina(www. illumina. com)推向市場(chǎng)的。在一個(gè)實(shí)施方案中,基因型值是從至少2個(gè)基因標(biāo)記獲得的。將理解的是,由于這種信息的性質(zhì),過濾或預(yù)處理數(shù)據(jù)即數(shù)據(jù)的質(zhì)量控制可能是需要的。例如,可以根據(jù)特定的標(biāo)準(zhǔn)(例如數(shù)據(jù)復(fù)制或低頻率;參見,例如knger et. al (2007)Anim Genet. 38(1) :7-14)來排除標(biāo)記數(shù)據(jù)。這樣的過濾的實(shí)例在以下進(jìn)行了描述,雖然還可以采用被普通技術(shù)人員理解的過濾數(shù)據(jù)的其他方法來獲得工作數(shù)據(jù)集,在該工作數(shù)據(jù)集上確定了標(biāo)記關(guān)聯(lián)。在本發(fā)明的一個(gè)實(shí)施方案中,當(dāng)特定標(biāo)記的等位基因頻率是小于大約0. 01、或小于大約0. 05時(shí),從分析中排除標(biāo)記數(shù)據(jù)?!暗任换蝾l率”是指等位基因存在于個(gè)體之內(nèi)、系之內(nèi)、或系的種群之內(nèi)的基因座處的頻率(比例或百分比)。例如,對(duì)于等位基因“A”,具有基因型“AA”、“Aa”、或“aa”的二倍體個(gè)體具有的等位基因頻率各自是1. 0,0. 5、或0. 0。人們可以通過將來自系的個(gè)體樣本的等位基因頻率進(jìn)行平均來估計(jì)系之內(nèi)的等位基因頻率。 類似地,人們可以通過將組成種群的系的等位基因頻率進(jìn)行平均來計(jì)算系的種群之內(nèi)的等位基因頻率。對(duì)于具有有限數(shù)目的個(gè)體或系的種群,等位基因頻率可以表達(dá)為包含該等位基因的個(gè)體或系(或任何其他特定的組)的計(jì)數(shù)。在本發(fā)明的不同實(shí)施方案中,被評(píng)價(jià)感興趣的具體性狀的標(biāo)記的集合可以是如上所述的任意標(biāo)記,或可以是在不同植物種類中已經(jīng)顯示出或被猜想是與感興趣的性狀相關(guān)聯(lián)的標(biāo)記。對(duì)于不同種類的大數(shù)量的分子標(biāo)記在本領(lǐng)域中是已知的并且可以在不同種類中使用在此披露的方法來確認(rèn)。例如,在玉米中基于候選基因的分子功能和/或性能所鑒定的一組候選基因可以在大豆中進(jìn)行測(cè)試。因此,在此所述的模型對(duì)于在不同植物種類中確認(rèn)這些候選基因的效應(yīng)是有用的。當(dāng)評(píng)價(jià)一組候選標(biāo)記時(shí),具有無已知關(guān)聯(lián)的普通隨機(jī)標(biāo)記(generally random marker)也被包括在該分析之中。感興趣的性狀本發(fā)明的這些方法適用于具有基礎(chǔ)遺傳組分的任何表型,即任何可遺傳的性狀。 “性狀”是生物的特征,它以表型顯示了自身,并且涉及一種生物、性能或任何其他可測(cè)量的一種或多種特征。性狀可以是能在生物樣品或組織之中或從生物樣品或組織進(jìn)行量化的任何實(shí)體,并且然后它可以被單獨(dú)使用或與一個(gè)或多個(gè)其他定量的實(shí)體組合使用。“表型”是一種生物的一種外觀形態(tài)或其他可見的特征并且涉及生物的一種或多種性狀。因此,對(duì)于感興趣的種群中的每個(gè)個(gè)體,對(duì)于感興趣的性狀收集了表型值(參見圖2)。多種不同的性狀可以通過在此披露的方法推論出。表型值對(duì)于裸眼或通過本領(lǐng)域中已知的任何其他評(píng)價(jià)方法(例如顯微術(shù)、生物化學(xué)分析法、基因組分析、對(duì)于特定抗病性的測(cè)定,等等)是可觀察的。在一些情況下,表型是由一個(gè)單個(gè)的基因或基因座來直接控制的,即一種“單基因性狀”。在其他情況下,表型是多個(gè)基因的結(jié)果?!皵?shù)量性狀基因座”(QTL)是多態(tài)的并且影響表型的遺傳區(qū)域,該表型能夠以定量術(shù)語來描述,例如高度、重量、油含量、發(fā)芽天數(shù)、抗病性等等,并且因此可以被指定對(duì)應(yīng)于對(duì)于表型性狀的數(shù)量值的 “表型值”。對(duì)于任何性狀,“相對(duì)高”特征表明高于平均,并且“相對(duì)低”特征表明低于平均。例如“相對(duì)高的產(chǎn)量”表明對(duì)于特定的植物種群比平均產(chǎn)量更豐富的植物產(chǎn)量。相反地,“相對(duì)低產(chǎn)量”表明對(duì)于特定的植物種群不如平均產(chǎn)量豐富的產(chǎn)量。
在示例性植物育種計(jì)劃的背景下,定量表型包括產(chǎn)量(例如谷物產(chǎn)量、青貯產(chǎn)量)、脅迫(例如,旺季脅迫(mid-season stress)、終點(diǎn)脅迫、水分脅迫、熱脅迫等)抗性、 抗病性、抗蟲性、對(duì)密度的抗性、核數(shù)目、核大小、穗大小、穗數(shù)目、莢果數(shù)目、每個(gè)莢果中種子的數(shù)目、成熟度、開花時(shí)間、對(duì)于開花的熱單位、開花天數(shù)、根倒伏抗性、莖倒伏抗性、穗高度、籽粒水分含量、測(cè)試重量、淀粉含量、籽粒組成、淀粉組成、油組成、蛋白質(zhì)組成、營(yíng)養(yǎng)保健品含量,等等。此外,以下的表型值可以與感興趣的標(biāo)記相關(guān)顏色、大小、形狀、皮厚度、果肉密度、色素含量、油沉積、蛋白質(zhì)含量、酶活性、脂質(zhì)含量、糖和淀粉含量、葉綠素含量、礦物、鹽含量、刺激性、香氣和香味以及此類其他特征。對(duì)于這些指數(shù)中的每一個(gè),對(duì)于每個(gè)樣品,通過確定與樣品中的每個(gè)項(xiàng)目相關(guān)的特征(例如重量)并且然后從分布中測(cè)量平均值和標(biāo)準(zhǔn)偏差值來確定參數(shù)的分布。類似地,這些方法同樣適用于連續(xù)可變的性狀,例如,谷物產(chǎn)量、高度、油含量、對(duì)于脅迫(例如終點(diǎn)脅迫或旺季脅迫)的反應(yīng)等等,或適用于多類別的計(jì)數(shù)性狀(但是就像它們是連續(xù)可變一樣可以被分析),例如發(fā)芽天數(shù)、開花天數(shù)或結(jié)果天數(shù),并且適用于以不連續(xù)的(間斷的)或分離的方式分布的性狀。然而,應(yīng)該理解的是,在任何感興趣的生物之內(nèi),可以使用在此描述的這些方法對(duì)類似的或其他獨(dú)特的性狀進(jìn)行表征。除了通過裸眼直接可評(píng)價(jià)的表型以外,在有或沒有一種或多種人工裝置或自動(dòng)裝置(包括例如顯微鏡、秤、尺子、測(cè)徑器等)的輔助下,還可以使用生物化學(xué)和/或分子方法來評(píng)價(jià)許多表型。例如,可以評(píng)定油含量、淀粉含量、蛋白質(zhì)含量、營(yíng)養(yǎng)保健品含量、連同它們的成分組成,任選地接著使用一種或多種化學(xué)測(cè)定法或生物化學(xué)測(cè)定法進(jìn)行一個(gè)或多個(gè)分離或純化步驟。分子表型,如代謝物譜或表達(dá)譜(或者在蛋白質(zhì)水平亦或在RNA水平) 同樣可順從于根據(jù)本發(fā)明的這些方法的評(píng)價(jià)。例如,代謝物譜(無論是小分子代謝物還是由代謝途徑產(chǎn)生的大的生物分子)提供了關(guān)于農(nóng)藝學(xué)上感興趣的表型的有價(jià)值的信息。此類代謝物譜可以被評(píng)價(jià)為感興趣的表型的直接或間接量度。類似地,表達(dá)譜可以充當(dāng)表型的間接量度,或它們本身可以直接充當(dāng)經(jīng)受出于標(biāo)記相關(guān)的目的的分析的表型。表達(dá)譜經(jīng)常在RNA表達(dá)產(chǎn)物水平進(jìn)行評(píng)估,例如以一種陣列格式,但是同樣可以在蛋白質(zhì)水平使用抗體或其他結(jié)合蛋白進(jìn)行評(píng)估。此外,在一些情況下,所希望的是采用一種表型屬性之間的數(shù)學(xué)關(guān)系而不是獨(dú)立于感興趣的多個(gè)表型的相關(guān)標(biāo)記信息。例如,育種計(jì)劃的最終目標(biāo)可以是獲得在低水(即干旱)條件下產(chǎn)生高產(chǎn)量的作物。而不是獨(dú)立地將對(duì)于產(chǎn)量的標(biāo)記與對(duì)于低水條件的抗性進(jìn)行關(guān)聯(lián),可以將在水條件上的產(chǎn)量以及產(chǎn)量的穩(wěn)定性的數(shù)學(xué)指示與標(biāo)記進(jìn)行相關(guān)。這樣一種數(shù)學(xué)指示可以采用以下形式,包括基于來自多個(gè)單獨(dú)性狀的加權(quán)貢獻(xiàn)的統(tǒng)計(jì)學(xué)衍生的指數(shù)值,或變量,該變量是跨越多個(gè)環(huán)境條件的植物性狀反應(yīng)的作物生長(zhǎng)和發(fā)育模型或生態(tài)生理模型(共同稱為作物生長(zhǎng)模型)的分量。這些作物生長(zhǎng)模型在本領(lǐng)域是已知的并且已經(jīng)被用來研究對(duì)于植物性狀的遺傳變異的效應(yīng)以及對(duì)于植物性狀反應(yīng)的圖譜 QTL0 ^=JiLlilHammer et al. 2002. European Journal ofAgronomy 18 :15-31, Chapman et al. 2003. Agronomy Journal 95:99-113,以及 Reymond et al. 2003. Plant Physiology 131 :664-675的參考文獻(xiàn)。關(guān)聯(lián)分析
種群結(jié)構(gòu)在此披露的這些方法對(duì)于發(fā)現(xiàn)或確認(rèn)在植物種群中的遺傳標(biāo)記與一種感興趣的表型性狀之間的關(guān)聯(lián)是有用的。這些方法包括應(yīng)用一個(gè)或多個(gè)統(tǒng)計(jì)模型來檢測(cè)或確認(rèn)這種關(guān)聯(lián),特別在育種種群中。這些方法包括用于評(píng)價(jià)這種關(guān)聯(lián)(例如QIPDT2)的新穎模型、連同對(duì)于現(xiàn)有的用于在關(guān)聯(lián)分析中說明種群結(jié)構(gòu)的方法的改進(jìn)(例如,通過使用顯著關(guān)聯(lián)的原理組分作為聯(lián)系模型中的協(xié)變量)。這些方法對(duì)于改進(jìn)標(biāo)記鑒定和確認(rèn)中的準(zhǔn)確度和效率是有用的(部分通過降低假陽性結(jié)果的數(shù)目)。對(duì)于關(guān)聯(lián)作圖的潛在嚴(yán)重的障礙是被種群結(jié)構(gòu)所混淆。由關(guān)聯(lián)作圖所提供的相對(duì)高的分辨率是依賴于跨過基因組的連鎖不平衡(LD)的結(jié)構(gòu)。連鎖不平衡(LD)是在指遺傳位點(diǎn)之間的等位基因的非隨機(jī)關(guān)聯(lián)。多種遺傳和非遺傳因素,包括重組、漂移、選擇、雜交模式、以及混合(即,具有不同等位基因頻率的亞群的種群),影響了 LD的結(jié)構(gòu)(Flint-Garcia et al. , AnnuRev Plant Biol 2003,54 :357-374 ;Gaut and Long, Plant Cell 2003,15 1502-1506)。關(guān)聯(lián)作圖的關(guān)鍵是在物理連鎖的功能位點(diǎn)與標(biāo)記之間的LD。所熟知的是,種群結(jié)構(gòu)可以引起偽相關(guān),導(dǎo)致了假陽性率的提高(Lander andSchork(1994) Science 265 2037-2048)。關(guān)于種群結(jié)構(gòu)所關(guān)心的是,LD可以由亞群的混合引起,在統(tǒng)計(jì)分析中如果沒有正確控制,這導(dǎo)致了假陽性結(jié)果(即I類錯(cuò)誤)。當(dāng)在亞群中對(duì)于具有平行表型差異的性狀測(cè)試具有不同頻率的隨機(jī)遺傳標(biāo)記時(shí),出現(xiàn)這種假陽性。在玉米(Liu et al. Genetics 2003,165 :2117-2128 ;Flint-Garcia et al. PlantJ 2005,44 1054-1064)和其他屬禾中(Nordborg et al. PLoS Biol 2005,3:el96 ;Garris et al.Genetics 2005,169 1631-1638)中復(fù)雜的進(jìn)化和育種歷史無庸置疑地創(chuàng)造了種群結(jié)構(gòu)和復(fù)雜家族關(guān)系兩者。為了降低這種風(fēng)險(xiǎn),種群結(jié)構(gòu)的估計(jì)必須包括在關(guān)聯(lián)分析中。已經(jīng)設(shè)計(jì)了不同的統(tǒng)計(jì)方法來處理對(duì)于不同關(guān)聯(lián)樣本的種群結(jié)構(gòu)問題(Yu et al. Nat Genet 2006,38 :203-208)。 在本發(fā)明的一個(gè)實(shí)施方案中,在此披露的這些方法包括用于降低由于種群結(jié)構(gòu)的混淆的手段,這是通過使用基于模型的貝葉斯聚類算法(STRUCTURE)首先將個(gè)體分配到亞群中,然后以推論的分配為條件進(jìn)行所有的分析。參見,例如,Pritchard et al. (2000)Am J Hum Genet 67 170-181,將其通過引用以其全部?jī)?nèi)容結(jié)合在此。在本發(fā)明的另一個(gè)實(shí)施方案中,使用基因組控制(GC)和結(jié)構(gòu)關(guān)聯(lián)(SA)方法著手解決了種群結(jié)構(gòu)。用GC,使用一組隨機(jī)標(biāo)記來估計(jì)由種群結(jié)構(gòu)產(chǎn)生的檢驗(yàn)統(tǒng)計(jì)量的膨脹程度,假定這種結(jié)構(gòu)對(duì)所有位點(diǎn)具有類似的影響(Devlin and Roeder,Biometrics 1999,55 997-1004)。相比之下,SA分析首先使用了一組隨機(jī)標(biāo)記來評(píng)價(jià)種群結(jié)構(gòu)⑴),并且然后將這個(gè)估計(jì)結(jié)合到進(jìn)一步的統(tǒng)計(jì)分析中(Pritchard and Rosenberg,Am J Hum Genet 1999, 65 :220-228 ;Pritchard et al. Genetics 2000,155 :945-959 ;Falush et al. Genetics 2003,164 :1567-1587) 在此還包括了用邏輯回歸變更 SA(Thornsberry et al. NatGenet 2001,28 :286-289 ;Wilson et al. Plant Cell 2004,16 :2719-2733)。這種方法的通用線性模型版本在TASSEL (www. maizegenetics. net)中是可獲得的。最近,已經(jīng)先前發(fā)展了一種用于說明多水平相關(guān)性的關(guān)聯(lián)作圖的統(tǒng)一混合模型方法(Yu et al. Nat Genet 2006,38 =203-208)并且可以用在此處所披露的方法中。在這種方法中,使用隨機(jī)標(biāo)記來評(píng)價(jià)Q和相對(duì)親緣關(guān)系矩陣(K),然后將它們擬合在混合模型框架中以測(cè)試標(biāo)記-性狀關(guān)聯(lián)。在本發(fā)明中,親緣關(guān)系系數(shù)被計(jì)算為對(duì)于每對(duì)個(gè)體共享的等位基因的比例(共享的Kp)而不是如在^iao et al. (2007)中所述的共享的單體型的比例。 K系數(shù)的矩陣可以包括在一些關(guān)聯(lián)模型中以評(píng)定對(duì)于由于種群中的系的緊密相互關(guān)系的偽關(guān)聯(lián)的控制。將對(duì)于每個(gè)k值的數(shù)據(jù)ft· (X| K)的對(duì)數(shù)概率進(jìn)行作圖以選擇適當(dāng)數(shù)目的亞群以包括在協(xié)方差矩陣中。有待用在關(guān)聯(lián)模型中的亞群的數(shù)目能夠以經(jīng)驗(yàn)為主進(jìn)行測(cè)定,或可以使用本領(lǐng)域已知的方法進(jìn)行計(jì)算。例如,幾位作者報(bào)告了關(guān)于STRUCTURE檢測(cè)亞群的實(shí)數(shù)(k)的能力(這些亞群的實(shí)數(shù)組成了數(shù)據(jù)集)以及得到該k值的途徑(Evarmo et al., 2005 ;Camus-Kulandaivelu et al. ,2007) Evanno et al. (2005)提出,Ak(與數(shù)據(jù)的對(duì)數(shù)概率的變化的二級(jí)率有關(guān)的特別量)是該數(shù)據(jù)集中的聚類的實(shí)數(shù)的良好預(yù)測(cè)。一種廣泛使用的尺寸減小的方法是主成分分析(PCA),這發(fā)現(xiàn)了數(shù)據(jù)的線性組合, 這樣使得方差被最大化。主成分分析(PCA)是一種用于在高維度數(shù)據(jù)中提取主要關(guān)系并且減小數(shù)據(jù)集以降低用于分析的尺寸的統(tǒng)計(jì)方案。通常其操作可以被認(rèn)為以這樣一種方式揭示了數(shù)據(jù)的內(nèi)部結(jié)構(gòu),該方式最好地解釋了數(shù)據(jù)中的方差。當(dāng)與其他方法對(duì)比時(shí),將這種新方法應(yīng)用在玉米數(shù)量性狀和人類基因表達(dá)數(shù)據(jù)中導(dǎo)致了改進(jìn)的I類和II類錯(cuò)誤率兩者的控制。PCA被算術(shù)地定義為一種正交線性變換,它將數(shù)據(jù)轉(zhuǎn)化到新的坐標(biāo)系,從而由任何數(shù)據(jù)投射的最大方差到達(dá)并位于第一坐標(biāo)(稱為第一主成分)上,第二最大方差位于第二坐標(biāo)上,等等。在最小二乘項(xiàng)(least square term)中,PCA理論上是對(duì)于給定數(shù)據(jù)的最優(yōu)變換。通過保留數(shù)據(jù)集的那些對(duì)其方差貢獻(xiàn)最大的特征(通過保持較低級(jí)的主成分并且忽略較高級(jí)的主成分),PCA可以用于在數(shù)據(jù)集中維度減小。參見,例如Ralael and Woods Digital imageprocessing. Addison Wessley Publishing Company, 1992。術(shù)語"低維空間”是指,對(duì)于具有多個(gè)變量和未知量的信息數(shù)據(jù)庫(kù)、亞組的具有減小數(shù)目的變量和未知量的信息數(shù)據(jù)庫(kù)。然而,低維數(shù)空間保留了實(shí)質(zhì)上所有的信息或?qū)嵸|(zhì)上所有的信息數(shù)據(jù)庫(kù)中的信息之間的關(guān)系。PCA采用了安排在多維空間中的復(fù)雜相關(guān)數(shù)據(jù)并且將高維度數(shù)據(jù)還原成更簡(jiǎn)單的線性化的軸,同時(shí)盡可能多地保留了原始變化。樣品數(shù)據(jù)的所有相關(guān)成分將形成相關(guān)矩陣,其中沿著一個(gè)軸(特征矢量)的經(jīng)轉(zhuǎn)換、標(biāo)準(zhǔn)化的數(shù)據(jù)的方差是主成分。這些軸對(duì)應(yīng)于在數(shù)據(jù)的最大變化的方向的最大特征值??梢允褂镁哂蓄愃迫萘康腟MARTPCA軟件包或軟件來獲得PC。通過線性建模的選擇可以應(yīng)用在可獲得的大多數(shù)統(tǒng)計(jì)軟件中(例如SAS、JMP、R,S-Plus等)。其他適當(dāng)?shù)慕y(tǒng)計(jì)軟件包從多種公共和商業(yè)來源是可獲得的,并且對(duì)于本領(lǐng)域的普通技術(shù)人員是已知的。經(jīng)典地,使用了利用對(duì)應(yīng)于旋轉(zhuǎn)矩陣的排的特征值方法,為的是選擇主成分的數(shù)目從而用作關(guān)聯(lián)模型中的協(xié)變量。這包括方法如保持具有特征值大于單位值(unity)的主成分、碎石圖(Scree plot)、Horn' s程序、回歸方法、Bartlett ‘ s檢驗(yàn)和分隔線段 (broken-stick)檢驗(yàn)(參見,例如 Johnson and ffichern. 1988. Applied Multivariate Analysis. 2d ed. , Englewood Cliffs, NJ :Prentice_Hall ; 以及 Sharma, Applied Multivariate Techniques, Wiley, 1996) 因此,在本發(fā)明的一個(gè)實(shí)施方案中,根據(jù)由每個(gè) PC所說明的方差的比例來對(duì)PC進(jìn)行分級(jí),并且在關(guān)聯(lián)模型中使用最高1、2、3、4、5、6、7、8、 9、10個(gè)或更多個(gè)PC??商娲?,在本發(fā)明的另一個(gè)實(shí)施方案中,在每個(gè)PC與感興趣的表型性狀之間計(jì)算了統(tǒng)計(jì)相關(guān)性。根據(jù)PC與表型性狀的的相關(guān)性,將PC排序,從而適配到關(guān)聯(lián)模型中的第一個(gè)PC是最與表型性狀相關(guān)的。在不同的實(shí)施方案中,對(duì)于表型性狀具有在第五百分位數(shù)的P值的所有PC被包括在關(guān)聯(lián)模型中。在另一個(gè)實(shí)施方案中,具有第一、第二、第三、第四、 第五、第六、第七、第八、第九、或第十百分位數(shù)的P值的所有PC都被適配到關(guān)聯(lián)模型中。因此,在本發(fā)明中,對(duì)于由 Patterson et al. (2006 ;PLos Genetics 2:2074-2093)提出的關(guān)聯(lián)作圖的模型中,主成分(PC)分析或分子標(biāo)記數(shù)據(jù)的特征分析的使用被PC的感興趣的性狀特異性選擇增強(qiáng),這些PC顯著促成所觀察的感興趣的性狀的變異。這種方法是一種新穎的用于確定有待用于關(guān)聯(lián)模型中的主成分的數(shù)目的方法,它與以上描述的PC選擇方法是不同的。在選擇適當(dāng)數(shù)目的PC的任一方法中,可以將多個(gè)PC同時(shí)加入到模型中,或可以使用前向逐步回歸來建立該模型。在前向逐步回歸中,所加入的第k個(gè)PC是加入最多信息的 PC,條件是已經(jīng)適配了先前的(k-Ι)個(gè)PC。關(guān)聯(lián)樽型在此披露了用于發(fā)現(xiàn)或確認(rèn)在標(biāo)記與一種感興趣的性狀之間的統(tǒng)計(jì)相關(guān)的方法。 可以使用下文中披露的新穎QIPDT2方法來建立相關(guān),或可以使用在此披露的(或總體上本領(lǐng)域已知的)其他統(tǒng)計(jì)方法來建立相關(guān),目的是評(píng)估標(biāo)記與表型之間的關(guān)聯(lián)強(qiáng)度,例如確定基因?qū)τ诒硇捅磉_(dá)的貢獻(xiàn)的大小和/或確定標(biāo)記與影響感興趣的表型的基因之間的連鎖的鄰近。如在此所使用的,術(shù)語“連鎖”用于描述標(biāo)記基因座與感興趣的性狀“相關(guān)聯(lián)”的程度。用于進(jìn)行關(guān)聯(lián)分析的示例性方法描述于圖4的流程圖中。標(biāo)記基因座可以與性狀關(guān)聯(lián)(連鎖),例如,標(biāo)記基因座可以與感興趣的性狀關(guān)聯(lián) (當(dāng)該標(biāo)記基因座與該性狀是處于連鎖不平衡時(shí))。例如,分子標(biāo)記與感興趣的性狀的連鎖的程度被測(cè)量為該分子標(biāo)記與該表型的共分離的統(tǒng)計(jì)概率。關(guān)聯(lián)作圖(通常稱為連鎖不平衡作圖)已經(jīng)成為一種用來揭示復(fù)雜性狀的遺傳控制的強(qiáng)大工具。關(guān)聯(lián)作圖依賴于大數(shù)量的世代,以及因此在一個(gè)種類的歷史中允許去除QTL與任何不緊密連接到其上的標(biāo)記之間的關(guān)聯(lián)的的重組機(jī)會(huì)(Jannink and Walsh,2001)。在本發(fā)明的不同實(shí)施方案中,可以使用一種固定效應(yīng)模型來評(píng)估一種標(biāo)記性狀關(guān)聯(lián)。在該固定效應(yīng)模型中,使用家族的成員或全部同胞來確定在遺傳標(biāo)記與表型性狀之間的關(guān)聯(lián)。如在此所使用的,術(shù)語“固定效應(yīng)”優(yōu)選是指引起對(duì)表型的系統(tǒng)效應(yīng)的季節(jié)性、 空間、地理、環(huán)境或管理影響,或是指具有被實(shí)驗(yàn)者有意安排的水平的那些效應(yīng),或是指一致跨越被評(píng)估的種群的基因或標(biāo)記的效應(yīng)。Soller & Genizi首先提供了固定效應(yīng)模型用于使用全同胞和半同胞種群結(jié)構(gòu)來鑒定 QTL(Soller & Genizi,Biometrics 34:47(1978))。使用該模型的關(guān)于 QTL 效應(yīng)和從表型性狀與遺傳標(biāo)記之間的關(guān)聯(lián)衍生出的基因組位點(diǎn)的推論對(duì)于用于評(píng)價(jià)的系和子代樣本是特異的。這些推論不能延伸到其他家族或子代中,因?yàn)楣潭ㄐ?yīng)模型不將基因型和表型數(shù)據(jù)視為來自更大的種群的代表性樣本。由于個(gè)體家族的成員通常是遺傳相關(guān)的并且僅代表在育種種群之內(nèi)所有可能雜交的樣本,需要適用于更大的育種種群的模型。因此,使用一種隨機(jī)效應(yīng)模型,該標(biāo)記性狀關(guān)聯(lián)可以在相關(guān)個(gè)體的種群中進(jìn)行評(píng)價(jià)。一個(gè)隨機(jī)效應(yīng)模型不同于固定效應(yīng)模型之處在于,不存在估計(jì)的標(biāo)記效應(yīng)。更確切地,估計(jì)是由表型變異性的比例組成,這可以歸于在這些標(biāo)記中的變異性。與固定效應(yīng)模型不同,在未檢驗(yàn)的子代中的QTL處,有可能預(yù)測(cè)對(duì)于取樣的標(biāo)記的基因型效應(yīng)。同樣,與固定效應(yīng)模型不同,可以將預(yù)測(cè)的表型延伸到在該育種種群中的其他相關(guān)家族。對(duì)于人類系譜(Goldgar,Am. J. Hum. Genet. 47 :957(1990))中的全同胞和半同胞家族結(jié)構(gòu)以及對(duì)于一般遠(yuǎn)交系種群(Xu & Atchley,Genetics 141 1198 (1995)),已經(jīng)制備了隨機(jī)效應(yīng)模型。然而,隨機(jī)效應(yīng)模型不允許測(cè)試物效應(yīng)。因?yàn)榇_切地選擇了測(cè)試物,它們對(duì)于子代的表型的效應(yīng)是固定的。因此,在本發(fā)明的一些實(shí)施方案中,得到的模型由混和的隨機(jī)和固定效應(yīng)組成。如在此所使用的,術(shù)語“混合模型方程”是指用于解決隨機(jī)效應(yīng)和固定效應(yīng)兩者的方程的模型。術(shù)語隨機(jī)效應(yīng)用于表示對(duì)于性狀具有一種非系統(tǒng)影響的因素,該性狀具有可以代表隨機(jī)分布的水平。隨機(jī)效應(yīng)將典型地具有從可能的樣本的群體中取樣的水平。 合并了固定效應(yīng)和隨機(jī)效應(yīng)兩者的線性模型被稱為混合線性模型?;旌暇€性模型在本領(lǐng)域中是已知的并且在此處描述的關(guān)聯(lián)分析中是有用的。如在此所使用的,關(guān)聯(lián)模型的輸出(它描述了分子標(biāo)記與表型之間的連鎖關(guān)系) 被給定為“概率”或“調(diào)節(jié)的概率”。概率值是統(tǒng)計(jì)可能性,即,表型與特定標(biāo)記等位基因的存在或不存在的特定組合是隨機(jī)的。因此,該概率評(píng)分越低,表型和特定標(biāo)記共分離的可能性越大。在一些方面,概率評(píng)分被認(rèn)為是“顯著的”或“非顯著的”。在一些實(shí)施方案中,隨機(jī)分類的概率評(píng)分0. 05 (p = 0. 05,或5%的概率)被認(rèn)為是顯著的共分離的指示。然而, 本發(fā)明不限于這個(gè)特定標(biāo)準(zhǔn),并且可接受的概率可能是小于50% (p = 0. 5)的任何概率。 例如,一個(gè)顯著的概率可以是小于0. 25、小于0. 20、小于0. 15、或小于0. 1。示例性的關(guān)聯(lián)模型包括以下這些TASSEL 模型在不同的實(shí)施方案中,可以使用基于java的軟件TASSEL(通過關(guān)聯(lián)、進(jìn)化和連鎖的性狀分析)來測(cè)定標(biāo)記性狀關(guān)聯(lián)。參見Yu et al. (2005)NatureGenetics 38:203-208, 通過引用結(jié)合在此。TASSEL利用先進(jìn)的統(tǒng)計(jì)方法來最大化統(tǒng)計(jì)效能用于發(fā)現(xiàn)QTL。這種方法使用一種結(jié)構(gòu)關(guān)聯(lián)方法(Pritchard et al (2000)Am J Human Genet 67:170-181; Thornsberry et al. (2001)NatureGenetics 28 :286-289)和統(tǒng)一混合模型方法兩者來最小化假陽性的風(fēng)險(xiǎn)(通過整合種群結(jié)構(gòu)和種群內(nèi)的家族相關(guān)性)。TASSEL允許連鎖不平衡統(tǒng)計(jì)被計(jì)算并且用圖形來可視化。連鎖不平衡是通過標(biāo)準(zhǔn)化的不平衡系數(shù)D'、連同r2和P值來估計(jì)的。多樣性分析工具同樣是可得的,其中多樣性估計(jì)包括平均成對(duì)散度(η )和分離位點(diǎn)。TASSEL的其他特征包括序列比對(duì)查看器、從比對(duì)中提取SNP和插入缺失(插入&缺失)、鄰位相連進(jìn)化樹(neighbor-joining cladogram)、 以及多個(gè)數(shù)據(jù)圖形化功能。TASSEL能夠?qū)碜圆煌瑏碓吹臄?shù)據(jù)合并到單個(gè)的分析數(shù)據(jù)集中,歸因于缺失數(shù)據(jù),使用k-最近鄰算法(Cover and Hart (1967)Proc IEEE TransInform Theory 13),并且進(jìn)行主成分分析(PCA)來減少一組相關(guān)表型。對(duì)于 TASSEL 軟件包的開放源代碼在 sourceforge. net/projects/tassel 是可獲得的。該軟件包使用標(biāo)準(zhǔn) PAL 文庫(kù)(iubio. bio. indiana. edu/soft/molbio/java/pal/ doc/)、COLT 文庫(kù)(dsd. lbl. gov/ hoschek/colt/)、以及 jFreeChart (www. jfree. org/ jfreechart/)。數(shù)據(jù)庫(kù)訪問可以通過GDPC中間件(www.maizegenetics.net/gdpc)來時(shí)間實(shí)現(xiàn)。對(duì)于TASSEL的用戶手冊(cè)可以發(fā)現(xiàn)于網(wǎng)址maizegenetics. net/tassel。
TASSEL被設(shè)計(jì)用于與不相關(guān)的樣品一起使用并且能夠控制中等的至弱的種群結(jié)構(gòu)。種群結(jié)構(gòu)(Q)和/或親緣關(guān)系(K)估計(jì)可以被結(jié)合到模型中以降低假陽性的數(shù)目。還可能由PCA矩陣(特征值)來代替Q (結(jié)構(gòu))矩陣(Price et al.,2006 ;Zhao et al.,2007)。 在TASSEL中所使用的模型可以是一種通用線性模型或一種結(jié)合PCA的混合線性模型,或可以是一種通用線性模型或一種結(jié)合PCA和親緣關(guān)系分析的混合線性模型。在TASSEL中的通用線性模型(GLM)程序包括進(jìn)行排列以找到實(shí)驗(yàn)誤差率的選項(xiàng),用于當(dāng)進(jìn)行多重比較時(shí)校正假陽性的累積?;旌暇€性模型(MLM)程序不包括對(duì)于多重試驗(yàn)的校正。在這個(gè)模型中, 邦弗朗尼校正可以用來避免假陽性的積累。QIPDT用TASSEL來檢測(cè)系譜等級(jí)是困難的,并且TASSEL對(duì)于早期育種材料不是最佳的。 因此,在本發(fā)明的一些實(shí)施方案中,使用了數(shù)量近交系譜不平衡檢驗(yàn)0HPDT)。QIPDT是用來自植物育種計(jì)劃的近交系的對(duì)于基于家族的關(guān)聯(lián)作圖的檢驗(yàn)。參見Mich et al. (2006) Theor Appl Genet 113 :1121-1130 ;通過引用結(jié)合在此。QIPDT是一種對(duì)于在植物育種計(jì)劃中常規(guī)收集的數(shù)據(jù)的QTL檢測(cè)方法。QIPDT是一種可適用于親本近交系的基因型信息以及它們的后代近交體的基因型和表型信息的基于家族的關(guān)聯(lián)檢驗(yàn)。QIPDT延伸了 QPDT,一種基于家族的關(guān)聯(lián)檢驗(yàn)。核心家庭由兩個(gè)親本近交系所組成并且至少一個(gè)后代近交系可以被組合到延伸的系譜中OlIPDT的基礎(chǔ),如果涉及不同核心家庭的親本系時(shí))。QIPDT還將 Martin et al. (2001) Am J Hum Genet68 :1065-1067中關(guān)于系譜不平衡檢驗(yàn)的校正考慮在內(nèi)。QIPDT的一個(gè)主要優(yōu)點(diǎn)是,該方法可以用于來自早期育種階段(例如階段2和3) 的材料,并且因此是有成本效益的,因?yàn)樵谶@些材料上的表型數(shù)據(jù)已經(jīng)出于育種目的而進(jìn)行了收集。QIPDT是一種檢驗(yàn)統(tǒng)計(jì)量T,如在Mich et al. 2006中所述對(duì)它進(jìn)行了計(jì)算。對(duì)于每個(gè)標(biāo)記計(jì)算了 T值,并且其ρ值是從標(biāo)準(zhǔn)正態(tài)分布找到的。QIPDT2雖然QIPDT對(duì)于測(cè)試關(guān)聯(lián)的統(tǒng)計(jì)顯著性是有用的,它并不提供標(biāo)記效應(yīng)的大小的估計(jì),也不提供對(duì)于總的表型方差的相對(duì)遺傳貢獻(xiàn)。因此,本發(fā)明提供了使用回歸模型的改進(jìn)的方法,在此它被稱為QIPDT2。QIPDT2是一種新穎的方法,該方法對(duì)于編碼標(biāo)記和表型調(diào)節(jié)采用了與QIPDT所使用的相同的方法,具有兩個(gè)改進(jìn)1)回歸模型與標(biāo)記和表型數(shù)據(jù)適配,這允許了對(duì)于所討論的標(biāo)記的遺傳效應(yīng)和表型貢獻(xiàn)的估計(jì);以及幻將該方法延伸到近交雜種(具有在多個(gè)位置生長(zhǎng)的不同測(cè)試物),同時(shí)最初的QIPDT方法僅適用于近交體。 這種延伸是通過提取來自混合模型的近交體的遺傳值來實(shí)現(xiàn),這種模型說明了測(cè)試物效應(yīng)以及非遺傳效應(yīng)(例如位置)。對(duì)于QIPDT2的模型可以寫成yik = iViVik+eJk其中yki是對(duì)于系譜k中的個(gè)體i的調(diào)節(jié)的表型值;Xki是編碼的標(biāo)記基因型值; β 0是截距;β !是所討論的遺傳標(biāo)記的回歸系數(shù)或遺傳效應(yīng)。用于調(diào)節(jié)表型值并且編碼標(biāo)記基因型的方法與Mich et al. (2006)所使用的相同。對(duì)于雙等位基因SNP標(biāo)記,對(duì)于等位基因中的一個(gè)采用-1并且對(duì)于另一個(gè)采用1(假定這兩個(gè)親本具有不同的基因型)或采用0(如果這兩個(gè)親本具有相同的基因型或該基因型數(shù)據(jù)對(duì)于它們中的一個(gè)是缺失的。通過本發(fā)明的這個(gè)模型,可以獲得對(duì)于每個(gè)標(biāo)記的遺傳效應(yīng)和R2兩者的估計(jì)。該模型的決定系數(shù)(R2)提供了標(biāo)記的表型貢獻(xiàn)的估計(jì)。在一些實(shí)施方案中,在對(duì)系譜結(jié)構(gòu)進(jìn)一步調(diào)節(jié)之前,該表型數(shù)據(jù)被預(yù)調(diào)節(jié)以排除來自測(cè)試物和/或位置的影響。用于預(yù)調(diào)節(jié)的這些方法在本申請(qǐng)的其他地方進(jìn)行了披露。當(dāng)在與一組測(cè)試物的近交體的雜種上收集表型數(shù)據(jù)時(shí),將混合模型進(jìn)行適配以提取近交體的遺傳效應(yīng)。如果在不同的位置進(jìn)行實(shí)驗(yàn),將一種位置效應(yīng)加入到該模型中。這將產(chǎn)生以下完全型模型Yijk = μ + θ i+ τ J+ δ k+eiJk,其中yijk是在近交體i和測(cè)試物j之間的雜種上在位置k(假定在每個(gè)位置重復(fù)1 次,如果進(jìn)行了重復(fù),則更多的效應(yīng)將被加入)處的原始表型觀察。在混合模型中,測(cè)試物效應(yīng)(τ j)被處理為固定效應(yīng),并且近交體(θ J和位置效應(yīng)(δ k)被處理為隨機(jī)效應(yīng)。最佳線性無偏預(yù)測(cè)(BLUP)被用來預(yù)測(cè)所有近交體的遺傳值(Qi),這些遺傳值有待被用于計(jì)算來自如以上所述的系譜法的偏差。表型調(diào)節(jié)在本發(fā)明的不同實(shí)施方案中,在其中評(píng)價(jià)了標(biāo)記性狀關(guān)聯(lián)的植物種群包括從近交系與測(cè)交系之間的雜交產(chǎn)生的雜種種群。然而,對(duì)于在近交系上的數(shù)據(jù)設(shè)計(jì)了許多統(tǒng)計(jì)方法(TASSEL和QIPDT),對(duì)于每個(gè)系這要求獨(dú)特的性狀值。為了獲得可能與其表型比較的對(duì)于每個(gè)近交系的獨(dú)特的性狀值,有必要作出有助于控制測(cè)試物和/或位置的效應(yīng)的表型調(diào)節(jié)。還可以在從不同地理位置處生長(zhǎng)的植物中獲得的數(shù)據(jù)上進(jìn)行表型調(diào)節(jié)。當(dāng)對(duì)于測(cè)試物效應(yīng)和位置效應(yīng)兩者進(jìn)行調(diào)節(jié)時(shí),對(duì)于表型調(diào)節(jié)的“完全型模型” 是表型=位置效應(yīng)(隨機(jī))+系效應(yīng)(隨機(jī))+測(cè)試物效應(yīng)(固定的)+誤差項(xiàng)如下所示可以將該“依照位置”的模型用于對(duì)于位置進(jìn)行調(diào)節(jié)表型=系效應(yīng)(隨機(jī))+測(cè)試物效應(yīng)(固定的)+誤差項(xiàng)如下所示可以將該“依照測(cè)試物”的模型用于與特定測(cè)試物雜交的系表型=位置效應(yīng)(隨機(jī))+系效應(yīng)(隨機(jī))+誤差項(xiàng)計(jì)算機(jī)實(shí)現(xiàn)的方法用于評(píng)估一種標(biāo)記性狀關(guān)聯(lián)的上述這些方法可以完全地或部分地使用計(jì)算機(jī)程序或計(jì)算機(jī)實(shí)現(xiàn)的方法來進(jìn)行。這些計(jì)算機(jī)程序被合適地配置以進(jìn)行在此所述的操作。本發(fā)明的計(jì)算機(jī)程序或計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可用介質(zhì),該介質(zhì)具有一種保存在其中的控制邏輯用于引起計(jì)算機(jī)執(zhí)行在此所述的這些算法。本發(fā)明的計(jì)算機(jī)系統(tǒng)包括處理器(其操作用于確定、接受、檢查、以及顯示數(shù)據(jù))、連接到所述處理器上的用于存儲(chǔ)數(shù)據(jù)的內(nèi)存、連接到所述處理器上用于顯示數(shù)據(jù)的顯示器、連接到所述處理器上的用于輸入外部數(shù)據(jù)的輸入設(shè)備;以及一種可由所述處理器執(zhí)行的具有至少兩個(gè)操作模式的計(jì)算機(jī)可讀腳本。計(jì)算機(jī)可讀腳本可以是本發(fā)明的實(shí)施方案的計(jì)算機(jī)程序或計(jì)算機(jī)程序產(chǎn)品的控制邏輯。對(duì)于本發(fā)明不是關(guān)鍵的是,計(jì)算機(jī)程序以任何特定計(jì)算機(jī)語言來編寫或在計(jì)算機(jī)系統(tǒng)或操作系統(tǒng)的任何特定類型上進(jìn)行操作。計(jì)算機(jī)程序可以被寫成例如C++、java、peri、 Pyth0n、Ruby、PaSCal、或Basic程序語言。應(yīng)當(dāng)理解的是,人們可以用許多不同的程序語言之一創(chuàng)造這樣一種程序。在本發(fā)明的一個(gè)方面,該程序被編寫以在使用Linux操作系統(tǒng)的計(jì)算機(jī)上運(yùn)行。在本發(fā)明的另一個(gè)方面,該程序被編寫以在使用MS Windows或MacOS操作系統(tǒng)的計(jì)算機(jī)上運(yùn)行。本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解的是,根據(jù)本發(fā)明,只要順序遵循合乎邏輯的流程,能夠以任何順序或同時(shí)地執(zhí)行這些代碼。標(biāo)記物的下游使用使用在此披露的這些方法鑒定的標(biāo)記可以用于基于基因組的診斷和選擇技術(shù);用于追蹤生物的子代;用于確定生物的雜種性;用于鑒定連鎖的表型性狀、mRNA表達(dá)性狀、或表型和mRNA表達(dá)性狀兩者的變異;作為遺傳標(biāo)記用于構(gòu)建遺傳連鎖圖譜;用于鑒定來自雜交的個(gè)體子代,其中該子代具有來自親本供體、受體親本、或親本供體和受體親本兩者的所希望的遺傳貢獻(xiàn);用于分離編碼基因的或非編碼DNA序列周圍的基因組DNA序列,例如,但不局限于啟動(dòng)子或調(diào)節(jié)序列;在標(biāo)記輔助選擇、基于圖譜的克隆、雜種證明、指紋圖譜、基因分型和等位基因特異性標(biāo)記;并且作為感興趣的生物中的標(biāo)記。從植物育種者的觀點(diǎn)來看,用于發(fā)展分子標(biāo)記技術(shù)的最初動(dòng)因是通過標(biāo)記輔助育種來增加育種效率的可能性。在通過上述的統(tǒng)計(jì)模型鑒定陽性標(biāo)記之后,對(duì)應(yīng)的遺傳標(biāo)記等位基因可以被使用來鑒定在多位點(diǎn)處含有所希望的表型的植物,并且將被預(yù)期與所希望的表型一起將所希望的基因型轉(zhuǎn)移到其子代。證實(shí)了具有所希望的表型性狀的連鎖不平衡的分子標(biāo)記等位基因(例如,數(shù)量性狀基因座,或QTL)提供了用于在植物種群中選擇所希望的性狀(即標(biāo)記輔助育種)的有用的工具。“標(biāo)記基因座”是可以用來追蹤第二連鎖基因座的存在的基因座,例如編碼或貢獻(xiàn)于表型性狀的表達(dá)的連鎖基因座。例如,標(biāo)記基因座可以用來監(jiān)控在基因座(如QTL)處的等位基因的分離,這些等位基因遺傳地或物理地連鎖到該標(biāo)記基因座上。因此,“標(biāo)記等位基因”可替代地“標(biāo)記基因座的等位基因”是發(fā)現(xiàn)于種群中的標(biāo)記基因座處的多個(gè)多態(tài)核苷酸序列之一,它對(duì)于該標(biāo)記基因座是多態(tài)的。在一些方面,本發(fā)明提供了用于鑒定和確認(rèn)與感興趣的表型性狀相關(guān)的標(biāo)記基因座的方法。每個(gè)鑒定的標(biāo)記被預(yù)期是緊密地物理和遺傳鄰近于遺傳元件(例如促成感興趣的性狀的QTL)的(導(dǎo)致物理和/或遺傳連鎖)。在展示出優(yōu)選的表型性狀的植物的基因組中,特定遺傳標(biāo)記等位基因的存在和/ 或不存在是通過以上所列出的方法來確定的,例如RFLP、AFLP, SSR、可變序列的擴(kuò)增、以及 ASH。如果來自植物的核酸與對(duì)于所希望的遺傳標(biāo)記特異的探針雜交,該植物可以被自交以創(chuàng)造真正的具有相同基因組的育種系或它可以被滲入到或多個(gè)感興趣的系中。術(shù)語“基因滲入”是指遺傳基因座處的所希望的等位基因從一個(gè)遺傳背景傳送到另一個(gè)遺傳背景中。 例如,通過相同屬種的兩個(gè)親本之間的有性雜交,在一個(gè)特定基因座處的所希望的等位基因的基因滲入可以傳送到至少一個(gè)子代中,其中至少一個(gè)親本在其基因組中具有所希望的等位基因??商娲兀?,等位基因的傳送可以通過兩個(gè)供體基因組之間的重組而發(fā)生, 例如在融合的原生質(zhì)體中,其中至少一個(gè)供體原生質(zhì)體在其基因組中具有所希望的等位基因。所希望的等位基因可以是例如,標(biāo)記的經(jīng)選擇的等位基因、QTL、轉(zhuǎn)基因、等等。在任何情況下,包括所希望的等位基因的后代可以重復(fù)地與具有所希望的遺傳背景的系回交,并且對(duì)于所希望的等位基因進(jìn)行選擇,從而導(dǎo)致該等位基因變得在所選擇的遺傳背景中是固定的。
使用本發(fā)明的這些方法所鑒定的標(biāo)記基因座還可以用來創(chuàng)造分子標(biāo)記的密度遺傳圖譜。“遺傳圖譜”是在給定的種類之內(nèi)的一個(gè)或多個(gè)染色體(或連鎖群)上的基因座之間的遺傳連鎖關(guān)系的描述,通常以圖表或表列形式進(jìn)行描繪。“遺傳圖譜”是通過使用遺傳標(biāo)記、用于這些標(biāo)記的種群的分離、以及重組頻率的標(biāo)準(zhǔn)遺傳原理來確定基因座的連鎖關(guān)系的方法?!斑z傳圖譜位置”是相對(duì)于相同連鎖群上的周圍遺傳標(biāo)記的遺傳圖譜上的位置,其中在給定的種類之內(nèi)可以發(fā)現(xiàn)特定的標(biāo)記。相比之下,該基因組的物理圖譜是指絕對(duì)距離(例如,在堿基對(duì)中測(cè)量的或分離的,并且重疊的相鄰遺傳片段,例如重疊群)?;蚪M的物理圖譜不考慮在物理圖譜上的不同點(diǎn)之間的遺傳行為(例如重組頻率)。在某些應(yīng)用中,制造或克隆大的核酸來鑒定更遠(yuǎn)地連接到給定標(biāo)記上的核酸,或分離連接到或負(fù)責(zé)如在此所鑒定的QTL的核酸是有利的。應(yīng)當(dāng)理解的是,遺傳連接到多態(tài)性核苷酸序列上的核酸任選地位于距離該多態(tài)性核酸高達(dá)約50厘摩,盡管取決于特定染色體區(qū)域的交換頻率可以改變。距離多態(tài)性核苷酸的典型距離是在1-50厘摩的范圍內(nèi),例如,通常為小于1厘摩、小于約1-5厘摩,約1-5、1、5、10、15、20、25、30、35、40、45或50厘摩、等。制造大的重組RNA以及DNA核酸的多種方法(包括重組質(zhì)粒、重組λ噬菌體、黏粒、酵母人工染色體(YAC)、Pl人工染色體、細(xì)菌人工染色體(BAC)、以及類似物)是已知的。對(duì)于作為人工染色體的YAC、BAC、PAC、以及MAC的一般介紹描述于Monaco & Larin, Trends Biotechnol. 12 :280-286 (1994)中。用于制造大的核酸的適當(dāng)?shù)目寺〖夹g(shù)的實(shí)例,以及足以指導(dǎo)普通技術(shù)人員完成多種克隆操作的說明也可以在例如Sambrook et al., (1989)MolecularCloning :A Laboratory Manual,Cold Spring Harbor Laboratory,Cold SpringHarbor 中找到。此外,在此所述的任何克隆或擴(kuò)增策略對(duì)于產(chǎn)生重疊克隆的重疊群是有用的,由此提供了重疊核酸,這些重疊核酸在遺傳連接的核酸的分子水平上顯示出物理關(guān)系。在全生物測(cè)序計(jì)劃中找到這種策略的通常的實(shí)例,在這些測(cè)序計(jì)劃中對(duì)重疊克隆進(jìn)行測(cè)序從而提供染色體的整個(gè)序列。在這個(gè)步驟中,根據(jù)所描述的標(biāo)準(zhǔn)步驟(例如,在以上的參考文獻(xiàn)中)制造生物的cDNA或基因組DNA的文庫(kù)。將單獨(dú)的克隆分離出來并且進(jìn)行測(cè)序,并且對(duì)重疊序列信息進(jìn)行排序從而提供該生物的序列。一旦已經(jīng)鑒定出與感興趣的基因的表達(dá)顯著相關(guān)的一個(gè)或多個(gè)QTL,則還可以將這些位點(diǎn)和連接的標(biāo)記的每一個(gè)進(jìn)一步表征以確定與感興趣的基因的表達(dá)相關(guān)的一個(gè)或多個(gè)基因(例如,使用基于圖譜的克隆方法,這對(duì)于本領(lǐng)域的普通技術(shù)人員應(yīng)該是已知的)。例如,可以將一個(gè)或多個(gè)已知的調(diào)節(jié)基因進(jìn)行基因作圖以確定這些基因的基因位置是否與控制感興趣的基因的mRNA表達(dá)的QTL相一致。使用本領(lǐng)域的標(biāo)準(zhǔn)技術(shù)(例如,但不限于,基因轉(zhuǎn)化、基因互補(bǔ)或基因敲除技術(shù)、或過量表達(dá))可以獲得以下證實(shí),即這種一致的調(diào)節(jié)基因正在影響感興趣的一個(gè)或多個(gè)基因的表達(dá)。還可以通過在本領(lǐng)域中已知的基于圖譜的克隆方法(由此定位在QTL的標(biāo)記被用來通過使用大的插入基因組克隆的重疊群步移到感興趣的基因處)使用遺傳連鎖圖來分離調(diào)節(jié)基因(包括任何新的調(diào)節(jié)基因)。定位克隆是這樣一種技術(shù)方法,即如Martin等人所述(Martin et al.,1993,Science 262 1432-1436 ;通過引用將其結(jié)合在此)可以使用它來分離一種或多種調(diào)節(jié)基因?!岸ㄎ换蚩寺 笔褂靡环N遺傳標(biāo)記的接近來物理定義克隆的染色體片段,該片段被連接到使用在此所述的統(tǒng)計(jì)方法而鑒定的QTL上。連接的核酸的克隆具有多種用途,包括作為遺傳標(biāo)記用來在隨后的標(biāo)記輔助育種方案中鑒別連接的QTL以及用于提高在重組植物(其中轉(zhuǎn)基因植物中克隆序列的表達(dá)影響所鑒定的性狀)中所希望的特性。令人希望地克隆的普通連接序列包括多個(gè)開放閱讀框(例如,編碼核酸或蛋白,這些核酸或蛋白為觀察的QTL提供了分子基礎(chǔ))。如果標(biāo)記接近于開放閱讀框,它們可以與給定的DNA克隆進(jìn)行雜交,由此鑒定出開放閱讀框位于其上的克隆。如果側(cè)翼的標(biāo)記距離更遠(yuǎn),可以通過構(gòu)建重疊克隆的重疊群來鑒定包含開放閱讀框的片段。然而,如本領(lǐng)域普通技術(shù)人員所知道的, 還可以使用其他適合的方法。而且,通過基因轉(zhuǎn)化以及互補(bǔ)或通過以下描述的敲除技術(shù)可以獲得以下證實(shí),即這種一致的調(diào)節(jié)基因正在影響感興趣的一種或多種基因的表達(dá)。當(dāng)鑒定一種或多種基因負(fù)責(zé)或促成了感興趣的性狀時(shí),可以產(chǎn)生轉(zhuǎn)基因植物來實(shí)現(xiàn)所希望的性狀。可以通過育種或通過普通基因工程技術(shù)將展示感興趣的性狀的植物并入植物系中。育種的方法和技術(shù)在本領(lǐng)域中是已知的。參見例如Wfelsh J. R. ,Fundamentals of Plant Genetics and Breeding, John Wiley & Sons, NY(1981) ;Crop Breeding, Wood D. R. (Ed. ) American Society of Agronomy Madison, Wis. (1983) ;Mayo 0. , The Theory of Plant Breeding, Second Edition, Clarendon Press, Oxford(1987) ;Singh, D. P., Breeding for Resistance to Diseases and Insect Pests,Springer-Verlag,NY(1986); 以及Wricke and Weber, Quantitative Genetics and Selection Plant Breeding,Walter de Gruyter and Co.,Berlin(1986)。相關(guān)的技術(shù)包括但不限于雜交、近交、回交育種、多系育種、雙單倍體近交、品種共混(variety blend)、種間雜交、非整倍體技術(shù),等等。在一些實(shí)施方案中,使用植物工程的常規(guī)方法來對(duì)植物進(jìn)行基因修飾以獲得感興趣的性狀可能是必要的。在這個(gè)實(shí)例中,可以將一個(gè)或多個(gè)與感興趣的性狀相關(guān)聯(lián)的核酸序列引入植物中。對(duì)于該一種或多種核酸序列,這些植物可以是純合的或雜合的。這種序列的表達(dá)(或者轉(zhuǎn)錄和/或翻譯)導(dǎo)致了展示感興趣的性狀的植物。用于植物轉(zhuǎn)化的方法在本領(lǐng)域中是熟知的。以下實(shí)例是作為說明而并不是作為限制而提供的。 實(shí)施例實(shí)施例1 選擇干旱狀態(tài)的位置分析方法將生長(zhǎng)季期間所收集的天氣信息插入生長(zhǎng)位置中。使用作物模型來使天氣條件與玉米發(fā)育階段同步。通過“鑰匙模型”工具來完成這項(xiàng)任務(wù)。開發(fā)這個(gè)模型,以此從遠(yuǎn)離實(shí)際種植位置的位置處所收集到的信息來外推天氣信息以及相關(guān)的條件??梢允褂美缭撐恢玫臍v史數(shù)據(jù)來外推相關(guān)的信息。使用由這個(gè)工具提供的水平衡來定義對(duì)于幼苗(SD)、生長(zhǎng)(VG)、開花(FL)、以及籽粒灌漿(GF)發(fā)育階段的干旱狀態(tài)。使用MS Excel將這些水平衡標(biāo)準(zhǔn)化為ζ值。根據(jù)某一階段中干旱情況的ζ值,產(chǎn)生了 4個(gè)組(假定水平衡將具有正態(tài)分布)。干旱情況“Α”被定義為ζ值大于1 ;干旱情況 “B”將具有1與-1之間的ζ值;干旱情況“C”被定義為ζ值小于-1 ;并且干旱情況“D”被定義為ζ值小于-1. 65。選擇具有在干旱條件下的試驗(yàn)與在最佳條件下的對(duì)比試驗(yàn)的實(shí)驗(yàn)并且然后對(duì)相應(yīng)的條目進(jìn)行鑒定。
結(jié)果對(duì)總計(jì)144個(gè)位置進(jìn)行鑒定,所有階段2和3的實(shí)驗(yàn)生長(zhǎng)在這些位置。然而,102 個(gè)位置是非灌溉的并且因此用于本分析。不包括未報(bào)告的或無坐標(biāo)的位置。水平衡的估計(jì)使用鑰匙模型工具來對(duì)土壤水平衡進(jìn)行估計(jì)。為了運(yùn)行該鑰匙模型,有必要獲得位置ID、位置坐標(biāo)、成熟期組、土壤含水量以及種植日期。使用ARCGIS 9. 2來對(duì)每個(gè)非灌溉位置處的土壤含水量進(jìn)行估計(jì)。對(duì)于一些位置(例如USHE、USA0、以及USJA位置)缺少這些變量中的一些。從而,使用這些位置的歷史信息,并且當(dāng)這種信息不能得到時(shí),使用從最近的可能的位置可獲得的信息。此外,該模型包括對(duì)于第一個(gè)150cm的土壤剖面的土壤有效含水量(AWC)的信息。AWC取決于土壤剖面的屬性,例如土壤質(zhì)地、土壤結(jié)構(gòu)以及土壤有機(jī)質(zhì)。作物的水平衡可以被AWC顯著地影響。例如,如果具有相同的降水量以及相同的大氣需水量的兩個(gè)不同位置在AWC方面不同,則它們?cè)谒胶夥矫婵梢燥@著不同。如果位置具有非常多沙的土壤剖面(具有低AWC),與土壤剖面中具有更少砂質(zhì)的位置相比,它變得更快地缺水 (waterstressed)??梢栽?geostac. tamu. edu 的 NRCS STATGO 土壤數(shù)據(jù)庫(kù)得到該第一個(gè) 150cm的土壤剖面的AWC。使用新的AWC信息來修改并且運(yùn)行該鑰匙模型,假定土壤剖面處于種植的田間持水量。該鑰匙模型對(duì)處于幼苗、生長(zhǎng)、開花以及籽粒灌漿發(fā)育階段的每個(gè)位置的水平衡進(jìn)行了估計(jì)。基于水平衡的位置選擇基于水平衡來選擇位置的標(biāo)準(zhǔn)與最初提出的(參考分析方法)是不同的。最初提出的模型是一種基于平均值和標(biāo)準(zhǔn)差估計(jì)的參數(shù)方法。它假定水平衡的分布是正態(tài)的。盡管如此,觀察的水平衡具有非正態(tài)分布,因?yàn)樗鼈冊(cè)诘椭凳遣粚?duì)稱的并且是尖峰的。因此該平均值小于中位數(shù)。這個(gè)偏移影響了該方法對(duì)位置進(jìn)行分類的有效性并且可以對(duì)處于干旱下位置的數(shù)量造成低估。為了克服這個(gè)問題,使用了一種基于十分位數(shù)的非參數(shù)方法。這個(gè)方法不需要對(duì)平均數(shù)以及標(biāo)準(zhǔn)差進(jìn)行估計(jì)。它是基于水平衡的實(shí)際頻率。已經(jīng)使用類似的方法來定義澳大利亞的干旱情況(Gibbs and Maher,1967)。在這個(gè)實(shí)例中,將對(duì)于開花或籽粒灌漿階段該第一個(gè)百分之十五的最負(fù)水平衡歸類為“嚴(yán)重干旱”。類似地,將對(duì)于這些階段在百分之十五至百分之三十之間的負(fù)平衡的位置歸類為具有“中等干旱”的位置。該分析顯示存在16個(gè)具有水平衡的位置,這些水平衡在對(duì)于開花或籽粒灌漿發(fā)育階段之一的最低的百分之十五之內(nèi)。選定位置的確認(rèn)使用干旱指示物來證實(shí)這些干旱脅迫位置。修改的帕默爾干旱指數(shù)(MPDSI)考慮了以前的土壤條件并且表現(xiàn)出長(zhǎng)期波動(dòng)。相比之下,水分距平指數(shù)(MAI)關(guān)注降水異常并且表現(xiàn)出短期波動(dòng)。通過NOAA下的國(guó)家氣候數(shù)據(jù)中心(NCDC)對(duì)兩個(gè)指數(shù)進(jìn)行了估計(jì)。此外,用由國(guó)家干旱減災(zāi)中心(NDMC)提出的2006個(gè)干旱圖確認(rèn)了多個(gè)位置。該位置列表被大田站點(diǎn)管理員(field Station Manager)進(jìn)一步證實(shí)并且作為結(jié)果
存在最初被認(rèn)為是處于溫和脅迫(該溫和脅迫被更新為嚴(yán)重脅迫)下的多個(gè)位置。存在最初被認(rèn)為是嚴(yán)重脅迫位置(這些位置沒有被確認(rèn))的多個(gè)位置。因此,將它們排除在外。在給定的水平衡分析,干旱指數(shù)、以及站點(diǎn)管理員反饋下,使用14個(gè)位置進(jìn)行分析。實(shí)驗(yàn)、試驗(yàn)以及條目鑒定在9個(gè)位置中存在階段2試驗(yàn)并且在12個(gè)位置中存在階段3試驗(yàn)。存在具有476 個(gè)試驗(yàn)的296個(gè)階段3實(shí)驗(yàn)。結(jié)論貫穿該生長(zhǎng)季對(duì)多個(gè)位置的干旱狀態(tài)進(jìn)行了評(píng)估以形成對(duì)干旱的描述。選擇在該季節(jié)的最重要時(shí)刻具有所希望的干旱嚴(yán)重性的位置。使用現(xiàn)有的階段2和3的產(chǎn)量數(shù)據(jù)對(duì)存在于這些位置中的條目進(jìn)行鑒定以證實(shí)候選基因與干旱條件下優(yōu)良育種材料的產(chǎn)量之間的關(guān)聯(lián)。該分析鑒定了 14個(gè)位置、440個(gè)以及14059個(gè)條目。參考文獻(xiàn)WJ Gibbs, JV Maher. Rainfall deciles as drought indicators. Bureau of Meteorology Bulletin No. 48, Commonwealth of Australia, Melbourne,1967.實(shí)施例2 :使用主成分的基于性狀的選擇作為線性模型的協(xié)變量用于聯(lián)合作圖的步驟la)從設(shè)計(jì)的田間試驗(yàn)來獲得表型數(shù)據(jù)或lb)從育種試驗(yàn)來獲得機(jī)會(huì)表型數(shù)據(jù)。2)表型數(shù)據(jù)的質(zhì)量控制。避免具有高百分比的缺失數(shù)據(jù)的位置(例如,缺失數(shù)據(jù) >20%)。將異常值去除。3)通過線性模型進(jìn)行表型調(diào)節(jié)。如果是雜交體的數(shù)據(jù),應(yīng)當(dāng)將試驗(yàn)儀的作用考慮在這些模型中。如果是多個(gè)位置的近交或雜交數(shù)據(jù),應(yīng)當(dāng)將位置的作用考慮在這些模型中, 或可以分開地對(duì)不同的位置進(jìn)行分析。重復(fù)是令人希望的以增加對(duì)條目的作用以及方差分量的估計(jì)的準(zhǔn)確性。4)表型輸入文件的制備。表型輸入文件應(yīng)當(dāng)包含對(duì)于有待分析的每種性狀的條目的效應(yīng)的估計(jì)(例如,最小二乘法或最佳線性無偏預(yù)測(cè)(BLUP))。5)獲得近交體條目或親本近交體的種子用于有待植入溫室的雜交體來發(fā)芽以及組織采樣。6) DNA 提取。7)選擇基因分型平臺(tái)以及分子標(biāo)記。不同的選項(xiàng)包括例如候選SNP測(cè)定的基于熒光探針的基因分型、基于珠粒的SNP陣列、高通量重測(cè)序、等。8)基因型數(shù)據(jù)的質(zhì)量控制。應(yīng)當(dāng)將具有高百分比的缺失數(shù)據(jù)的標(biāo)記物(例如,缺失數(shù)據(jù)>15%)去除或重復(fù)。9)制備基因型輸入文件。每個(gè)近交條目應(yīng)當(dāng)具有用于每個(gè)篩選的分子標(biāo)記的值 (例如,用于SNP標(biāo)記的A、T、C或G)。應(yīng)當(dāng)將雜合數(shù)據(jù)作為缺失數(shù)據(jù)進(jìn)行處理。
10)制備注釋文件。相關(guān)文件的最小部件是標(biāo)記的名字,它位于其中的染色體以及在共有的基因圖或物理圖中的位置。另外的信息可以是該標(biāo)記是否位于編碼區(qū)、基因的功能、代謝途徑、等。11)用于標(biāo)記的主成分分析。應(yīng)當(dāng)從基因型輸入文件中提取出對(duì)于近交條目(例如,約1000個(gè)SNP標(biāo)記)可用的的所有基因型標(biāo)記的樣品并且將其格式化以用于所希望的統(tǒng)計(jì)分析程序中。應(yīng)當(dāng)從注釋文件中提取出用于標(biāo)記的圖信息。輸出文件可以包括矩陣, 該矩陣具有希望數(shù)量的特征值的特征向量或?qū)τ谶@些近交條目的每一個(gè)的主成分。這個(gè)文件被稱為PCA文件。12)使用近交輸入項(xiàng)名字,應(yīng)當(dāng)將表型輸入文件和PCA文件合并成單一的文件,在該文件中每個(gè)條目(行)必須具有一系列的列,這些列中的一些可以是表型或性狀,并且其余的可以是特征向量。這個(gè)合并的文件必須被格式化以被能夠分析混合線性模型、方差的分析、和/或皮爾遜相關(guān)的統(tǒng)計(jì)軟件(例如,R、JMP、SAS、SPSS、S-Plus、等)讀取。13)主成分的基于性狀的選擇。應(yīng)當(dāng)分開地分析每個(gè)表型或性狀。這種分析的目標(biāo)是用于鑒定所有主成分或特征值中的哪一個(gè)與該性狀是顯著相關(guān)的。13a)用每個(gè)主成分來計(jì)算每個(gè)性狀的皮爾遜成對(duì)相關(guān)。檢驗(yàn)相關(guān)系數(shù)的顯著性并且鑒定該顯著性P值(例如,P值< 0. 05)。13b)運(yùn)行用于每個(gè)主成分的方差測(cè)試分析將其作為在表型的性狀中觀察到的方差變化的來源。鑒定F檢驗(yàn)的顯著性ρ值(例如,ρ值< 0. 05)。13c)對(duì)于每個(gè)性狀運(yùn)行線性模型。該性狀可以是因變量并且這些主成分是預(yù)測(cè)變量??梢詫⑦@些預(yù)測(cè)變量合并到該模型中起固定或隨機(jī)效應(yīng)。如果該模型被認(rèn)為是隨機(jī)的,則該模型是一種混合線性模型。鑒定每個(gè)預(yù)測(cè)變量的檢驗(yàn)的顯著性P值(例如,P值
<0. 05)。14)從PCA文件中去除非顯著性主成分或特征值?,F(xiàn)在這個(gè)文件被稱為選定的PCA 輸入文件。15)對(duì)親緣關(guān)系系數(shù)或加性關(guān)系矩陣進(jìn)行估計(jì)。存在一些可供使用的分析選項(xiàng)例如SPAGeDi和TASSEL。應(yīng)當(dāng)從該基因型輸入文件中提取出對(duì)于近交條目(例如,約1000個(gè) SNP標(biāo)記)可用的所有基因型標(biāo)記的樣品。這個(gè)文件應(yīng)當(dāng)被格式化以被SPAGeDi或TASSEL 讀取。該輸出文件是具有親緣關(guān)系系數(shù)的方陣。這個(gè)文件將被稱為親緣關(guān)系矩陣文件。16)選擇用于聯(lián)合作圖或連鎖不平衡分析的軟件。對(duì)于聯(lián)合作圖分析存在幾個(gè)選項(xiàng),例如 TASSEL、R、Helix Tree、SAS、ASREML、MTDFREML。TASSEL 是公開可獲得的軟件并且是用于在植物中進(jìn)行聯(lián)合作圖的最流行的軟件之一。17)應(yīng)當(dāng)將表型輸入文件、基因型數(shù)據(jù)輸入文件、選定的PCA文件、以及親緣矩陣文件格式化以被TASSEL讀取。18) 一旦這些文件進(jìn)入TASSEL,通過運(yùn)行通用線性模型來啟動(dòng)分析,在該通用線性模型中表型或性狀是因變量,分子標(biāo)記(例如,SNP)是預(yù)測(cè)固定變量,并且選定的主成分或特征值是用于調(diào)節(jié)種群結(jié)構(gòu)的余因子。可以要求TASSEL來計(jì)算每個(gè)標(biāo)記的實(shí)驗(yàn)性ρ 值,該P(yáng)值校正F檢驗(yàn)的ρ值以避免由于多重檢驗(yàn)造成的假陽性。根據(jù)(例如,實(shí)驗(yàn)性ρ值
<0. 05)來確定實(shí)驗(yàn)性ρ值的閾值用來鑒定顯著性標(biāo)記性狀關(guān)聯(lián)。19)除了線性模型,將表型或性狀考慮為因變量,將分子標(biāo)記(例如,SNP)作為預(yù)測(cè)固定變量,將選定的主成分或特征值作為用于調(diào)節(jié)種群結(jié)構(gòu)的余因子,并且將親緣關(guān)系矩陣或加性關(guān)系矩陣作為幫助進(jìn)一步精化這些近交條目的種群結(jié)構(gòu)關(guān)系的隨機(jī)項(xiàng)的分量來進(jìn)行后驗(yàn)分析。由于將隨機(jī)項(xiàng)結(jié)合到該模型中,這變成了混合線性模型。使用P值的邦佛倫尼校正可以對(duì)每個(gè)標(biāo)記的P值進(jìn)行校正以避免由于多重檢驗(yàn)造成的假陽性。對(duì)校正的 P值的閾值進(jìn)行定義并且對(duì)顯著性標(biāo)記性狀關(guān)聯(lián)進(jìn)行鑒定。實(shí)施例3 與在玉米中的乙醇生產(chǎn)相關(guān)的性狀的聯(lián)合作圖背景標(biāo)記輔助選擇(MAS)已經(jīng)成為在育種中的一種通常的實(shí)踐。然而,MAS的效率取決于檢測(cè)緊密地連接到QTL上的標(biāo)記的精確度。在檢測(cè)QTL中聯(lián)合作圖已經(jīng)被廣泛用作連鎖作圖的替代方案。這種方法是基于連鎖的基因座之間的連鎖不平衡(LD)。由于LD通常僅存在于顯著地更窄的染色體區(qū)域中,能夠以比連鎖作圖高得多的分辨率來對(duì)QTL作圖。 然而,LD可能出現(xiàn)在未連鎖基因座之間,這是不希望的,并且可能由種群結(jié)構(gòu)以及基因分型誤差等引起假LD。其結(jié)果是,為了可靠地檢測(cè)到在封閉連鎖基因座之間的真LD,需要復(fù)雜的統(tǒng)計(jì)方法來將不同種類的假陽性降至最低。TASSEL是可以實(shí)現(xiàn)這個(gè)目的的軟件包之一。 TASSEL是基于混合線性模型,在這些模型中種群結(jié)構(gòu)與遺傳相關(guān)被明確地控制。這個(gè)包被用于在這個(gè)報(bào)告中的具有乙醇數(shù)據(jù)的關(guān)聯(lián)分析。方法和結(jié)果表型數(shù)據(jù)提供了具有近交系的表型信息的兩組數(shù)據(jù)(1765個(gè)條目)??捎糜诜治龅男誀钍堑矸?、蛋白、油、含水量、密度、干磨標(biāo)準(zhǔn)(DGQ-24、DGS-48、W&DGS-72。與預(yù)期的一樣,在淀粉與DGS性狀之間存在著正的并且顯著的相關(guān)。在蛋白和淀粉與DGS性狀之間存在著負(fù)相關(guān)。基因型數(shù)據(jù) 基于熒光探針的SNP (TaqMan )在2052個(gè)近交系中對(duì)總計(jì)496個(gè)TaqMan SNP進(jìn)行評(píng)分,這些近交系被包括在相關(guān)平臺(tái)列表中。將這些SNP用于關(guān)聯(lián)以及種群結(jié)構(gòu)分析?;谥榱5母咄縎NP (Illumina GoldenGate )將包括1536個(gè)SNP的Goldenfeite陣列用于基因型485近交系中。在去除低質(zhì)量的數(shù)據(jù)以及無信息SNP之后,選擇了 1158個(gè)SNP用于分析。親緣關(guān)系分析親緣關(guān)系被計(jì)算為共享的等位基因的比例。使用496個(gè)Taqman SNP測(cè)定的基因型數(shù)據(jù)來進(jìn)行親緣關(guān)系分析。PCA 分析主成分分析(PCA)或“特征值分析”已經(jīng)被提出作為Mructure的替代物以從基因型數(shù)據(jù)中推斷出種群結(jié)構(gòu)(Patterson et al.,2006)。PCA比Structure具有一些優(yōu)點(diǎn),例如對(duì)于大數(shù)據(jù)集的處理速度并且避免了選擇特定數(shù)量的亞種群的需要。使用來自 GoldenGate陣列的數(shù)據(jù)使用軟件SMARTPCA (它是EIGENSTRAT的一部分)來進(jìn)行PCA。第一個(gè)三個(gè)PC(根據(jù)特征值列出)以與基于歷史的雜優(yōu)類群分組類似的方式將這些近交系分類。對(duì)于這些系的每一個(gè),該第一 50個(gè)特征值中選擇的PC以及它們相應(yīng)的特征向量被用作TASSEL的關(guān)聯(lián)模型的另一個(gè)協(xié)變量系列?;谂c感興趣的性狀的關(guān)聯(lián)選擇PC在基于線性模型的聯(lián)合作圖中利用PC作為協(xié)變量是依賴于以下假定,即第一 PC是最好的協(xié)變量,因?yàn)樗鼈兘忉屃擞脴?biāo)記發(fā)現(xiàn)的遺傳變異中的大多數(shù)(Zhao et al., 2007)。然而,在模型中具有最大方差的PC不必是最好的協(xié)變量,因?yàn)檩^小的PC可能是與感興趣的性狀高度相關(guān)的(Aguilera et al.,2006)。使用GLM和MLM兩者用來評(píng)定這些 50個(gè)PC中每一個(gè)的顯著性并且用來估計(jì)由它們解釋的變化的百分比。PC與表型之間的相關(guān)取決于性狀并且有時(shí)大的PC(即,具有較大特征值的PC)不能解釋多數(shù)的這樣的變化,而較小的PC( S卩,具有較小特征值的PC)解釋了某些性狀的變化的相當(dāng)大的百分比。使用TASSEL進(jìn)行聯(lián)合分析■ ψ java 白勺 ^K # TASSEL (Trait Analysis by association, Evolution andLinkage)結(jié)合了線性模型(通用的和混合的兩者)方法以在控制種群和家族結(jié)構(gòu)的同時(shí)建立標(biāo)記與表型之間的關(guān)聯(lián)(Bradbury et al.,2007)??梢詫⒎N群結(jié)構(gòu)(Q)和/或親緣性(K)估計(jì)結(jié)合到這些模型中以降低假陽性的數(shù)量。還可能用PCA矩陣(特征值)來替換 Q(Structure)矩陣(Price et al.,2006 ;Zhaoet al.,2007)。TASSEL中的聯(lián)合模型用于TASSEL中的這些模型包括1)通用線性模型表型=標(biāo)記+選定的PC(特征值);以及2)混合線性模型表型=標(biāo)記+選定的PC(特征值)+K(ρ共享的)“選定的PC”是這樣的PC,該P(yáng)C是基于它與感興趣的性狀的關(guān)聯(lián)而選定的。多重檢驗(yàn)的調(diào)節(jié)TASSEL中的GLM程序包括執(zhí)行排列以發(fā)現(xiàn)實(shí)驗(yàn)誤差率的選項(xiàng),當(dāng)進(jìn)行多重比較時(shí)該誤差率校正了假陽性的積累。使用總計(jì)1,000個(gè)排列。MLM程序不包括對(duì)于多重檢驗(yàn)的校正。使用軟件QVALUE (Morey,2002)來計(jì)算q值以控制假發(fā)現(xiàn)率(FDR)。q值與ρ值是類似的,因?yàn)樗鼈円阅骋徽`差率的方式為每個(gè)假設(shè)檢驗(yàn)給出顯著性的測(cè)量值。對(duì)于將顯著性的測(cè)量值指定到許多同時(shí)完成的檢驗(yàn)的每一個(gè)而言,這些q值是有用的。 在近交平臺(tái)中的聯(lián)合結(jié)果對(duì)于1732個(gè)系可以得到表型數(shù)據(jù),這些系具有Taqman 496SNP集中的標(biāo)記信息。 使用混合線性模型來檢測(cè)標(biāo)記在相當(dāng)大的尺寸(> 1000)的數(shù)據(jù)集中的性狀關(guān)聯(lián)被要求的用來分析該模型的親緣關(guān)系分量的計(jì)算時(shí)間限制。作為一個(gè)替代方案,對(duì)通用線性模型進(jìn)行精化以在盡可能不需要親緣關(guān)系矩陣下校正種群結(jié)構(gòu)。幾種GL模型之間的比較(圖5)顯示,基于性狀顯著性選擇PC有助于降低對(duì)于顯著性的偏差。該比較還顯示,如果接受亞種群的真實(shí)數(shù)量作為具有數(shù)據(jù)ft~(x/K)的最高對(duì)數(shù)概率的k或k= 10亞種群,則這些結(jié)果對(duì)于顯著性是不對(duì)稱的。當(dāng)使用k = 5作為亞種群的數(shù)量時(shí)(這更好地符合歷史雜種優(yōu)勢(shì)類群的期望數(shù)量)觀察到類似的結(jié)果。在線性模型中選擇顯著性PC作為協(xié)變量有助于控制ρ值的分布(S卩,避免大量的假陽性)。然而,在不同的性狀之間觀察到變化。使用顯著相關(guān)的PC作為協(xié)變量在GLM中總計(jì)85個(gè)SNP顯示了實(shí)驗(yàn)性ρ值(ρ<0.05)。具有最多顯著性標(biāo)記性狀關(guān)聯(lián)(MTA)的性狀是油以及蛋白質(zhì)(具有13種)并且具有最少顯著性關(guān)聯(lián)的性狀是含水量(具有7種)。具有顯著性ρ值(實(shí)驗(yàn)性ρ值< 5% ) 的85個(gè)中有總計(jì)15個(gè)SNP顯示與以上性狀關(guān)聯(lián)。在近交板(panel)中的聯(lián)合結(jié)果對(duì)于576個(gè)近交系可以得到表型數(shù)據(jù),這些近交系具有來自16M個(gè)SNP的基因型信息。除了大量的SNP數(shù)據(jù)之外,與近交平臺(tái)相比較近交板的減小的尺寸允許降低混合線性模型的運(yùn)行時(shí)間。在線性模型中選擇顯著性PC作為協(xié)變量有助于控制ρ值的分布(S卩,避免大量的假陽性)。將親緣關(guān)系矩陣作為加性關(guān)系矩陣包括在混合模型中有助于將假陽性率降低到預(yù)期水平并且有助于提高這些模型的R2。在GL和ML模型中顯示最顯著的ρ值的這些SNP是一致的。在GLM中總計(jì)122個(gè) SNP顯示了實(shí)驗(yàn)性ρ值ρ < 0. 05。在MLM中所有122個(gè)SNP顯示個(gè)體ρ值ρ < 0.05。這表明甚至在包括親緣關(guān)系矩陣以控制近交系之間的另外的遺傳相關(guān)性之后,標(biāo)記性狀關(guān)聯(lián)仍然是顯著的。具有最多顯著性標(biāo)記性狀關(guān)聯(lián)(MTA)的性狀是油(具有對(duì)種)并且具有最少的關(guān)聯(lián)是蛋白質(zhì)(具有10種)。具有顯著性ρ值(實(shí)驗(yàn)性ρ值< 5% )的122個(gè)中有總計(jì)9個(gè)SNP顯示與一個(gè)以上性狀關(guān)聯(lián)。當(dāng)對(duì)于496個(gè)TaqMan SNP比較近交板與近交平臺(tái)之間的結(jié)果時(shí),在兩個(gè)數(shù)據(jù)集中有十個(gè)(10)基因座顯示實(shí)驗(yàn)性ρ值ρ < 0. 05。參考文獻(xiàn)Aguilera, A.M. , Μ. Escabias, and Μ. J. Valderrama. 2006. Using principal components for estimating logistic regression with high-dimensional mu1tico11inear data.Computational Statistics & Data Analysis 50: 1905-1924. Bradbury, P. J. , Z. Zhang, D. E. Kroon, Τ. M. Casstevens, Y. Ram-doss, and E.S.Buckler. 2007. TASSEL Software for Association Mapping of Complex Traits in Diverse Samples, pp. btm308.Loiselle, B. A. , V. L. Sork, J. Nason, and C. Graham. 1995. Spatial genetic structure of a tropical understory shrub, Psychotria officinalis (Rubiaceae). American Journal of Botany 82 :1420-1425.Patterson, N. , A.L.Price, and D. Reich. 2006. Population Structure and Eigenanalysis. PLoS Genetics 2 :el90.Price, A. L. , N. J. Patterson, R. M. Plenge, M. E. ffeinblatt, N. A. Shadick, and D. Reich. 2006. Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38 :904-909.Ritland, K. 1996. Estimators for pairwise relatedness and individual inbreeding coefficients. Genet. Res. 67 175-186.Storey, J. D. 2002. A direct approach to false discovery rates.Journal of the Royal Statistical Society :Series B 64 :479-498.Yu, J. , Z. Zhang, D. A. Abanao, G. Pressoir, T. M. R. , S. Kresovich, R. J. Todhunter, and E. S. Buckler.2007.Relatedness estimation with different numbers ofbackground markers and association mapping with different sample sizes..Theor Appl Genet In press.Zhao,K.,Μ. a. J. Aranzana,S. Kim, C. Lister,C. Shindo,C. Tang, C. Toomajian, H. Zheng,C. Dean,P. Marjoram,and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.Zheng, C. Dean, P. Marjoram, and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.實(shí)施例4 :通過用2005個(gè)階段2的數(shù)據(jù)聯(lián)合作圖來確認(rèn)產(chǎn)量候選基因目標(biāo)這種用于增加玉米產(chǎn)量的方法包括鑒定以及使用與產(chǎn)量以及產(chǎn)量分量相關(guān)的在候選基因或基因座方面的天然變異。鑒定并且確認(rèn)與產(chǎn)量相關(guān)的基因?qū)τ谙掠螛?biāo)記輔助育種的成功和高效是決定性的。本實(shí)驗(yàn)的目標(biāo)是基于在與具有玉米育種階段2-3數(shù)據(jù)的玉米同源的其他種屬中它們的分子功能以及表型作用來確認(rèn)選定的產(chǎn)量候選基因集的遺傳效應(yīng)。背景遺傳變異性是獲得遺傳增益的重要的必要條件。與更寬的遺傳種群體(即,外來種質(zhì))中的情況相比,鑒定優(yōu)異種質(zhì)中的遺傳變異性是更困難的,但是它是保留育種種質(zhì)的優(yōu)異特征(即,維持高級(jí)特征)以及保持雜優(yōu)類群的個(gè)性特征的一種適當(dāng)?shù)姆椒?(Rasmusson and Phillips, 1997 ;Yu andBernardo,2004)。因此,從優(yōu)異種質(zhì)中鑒定的遺傳變異將容易得多地被引入我們的新產(chǎn)品中。已將鑒定了一組候選基因。這些基因理論上具有與產(chǎn)量以及產(chǎn)量分量相關(guān)的分子功能和/或在其他種屬中展示的這類表型效應(yīng)。然而, 在玉米中這些基因的實(shí)際效應(yīng),以及它們是否與玉米的經(jīng)濟(jì)性狀相關(guān),是未知的。在此嘗試的該確認(rèn)是1)對(duì)這些候選基因與在高產(chǎn)條件下所評(píng)估的性狀的遺傳關(guān)聯(lián)進(jìn)行評(píng)定;幻證實(shí)對(duì)于優(yōu)異種質(zhì)(該優(yōu)異種質(zhì)在性狀方面具有顯著效應(yīng))的核心中的候選基因存在不同的等位基因效應(yīng)。表型數(shù)據(jù)育種者在多個(gè)位置在育種過程的不同階段對(duì)玉米雜交體進(jìn)行評(píng)估從而對(duì)產(chǎn)量以及其他農(nóng)藝性狀進(jìn)行評(píng)定。已經(jīng)對(duì)于用于本實(shí)驗(yàn)中的材料收集了表型數(shù)據(jù)。在這個(gè)分析中, 對(duì)三個(gè)性狀進(jìn)行了評(píng)估產(chǎn)量(在標(biāo)準(zhǔn)含水量下的谷物產(chǎn)量,% ),含水量(在收獲時(shí)的谷物含水量),以及重量(每塊地的谷物重量)。表型數(shù)據(jù)的評(píng)估對(duì)于產(chǎn)量、含水量以及重量而言跨位置以及測(cè)試物的系的雜交體的表型數(shù)據(jù)的平均值對(duì)應(yīng)地為201. 68蒲式爾/英畝、18. 95%以及25. 29蒲式爾/每塊地。選定的試驗(yàn)的表型數(shù)據(jù)包括在生長(zhǎng)季節(jié)期間來自69個(gè)位置的信息。在這些位置的觀察數(shù)量在從1至725 的范圍內(nèi)變動(dòng)。在與33個(gè)不同的近交測(cè)試物進(jìn)行雜交時(shí),對(duì)總計(jì)890個(gè)近交體進(jìn)行了評(píng)估。 跨越所有的位置與特定測(cè)試物雜交的近交系的觀察數(shù)量在從4至2167的范圍內(nèi)變動(dòng)。設(shè)定最小值為約300次觀察的經(jīng)驗(yàn)性閾值從而選擇其中每個(gè)子集與特定測(cè)試物雜交的10個(gè)系子集以及其中在特定的位置對(duì)每個(gè)子集進(jìn)行評(píng)估的10個(gè)系子集。表型調(diào)節(jié)為了獲得對(duì)于每個(gè)近交系的獨(dú)特性狀值(該值可以與其基因型相比較),有必要進(jìn)行表型調(diào)節(jié)(該調(diào)節(jié)有助于控制測(cè)試物和/或位置的效應(yīng))。沒有考慮額外的因素(例如,成熟期組)以避免自由度或子集樣品大小的進(jìn)一步降低。為了進(jìn)行表型調(diào)節(jié),在兩個(gè)不同的統(tǒng)計(jì)包(SAS/JMP和R)中執(zhí)行混合線性模型分析,這旨在證實(shí)用于大數(shù)據(jù)集的混合模型方法已經(jīng)被正確執(zhí)行。因?yàn)閮蓚€(gè)軟件給出非常接近的結(jié)果,將SAS/JMP結(jié)果用于下游數(shù)據(jù)分析?!巴耆湍P汀狈治霭ㄈ缦滤镜脑谠撃P椭械奈恢煤蜏y(cè)試物兩者的效應(yīng)表型=位置效應(yīng)(隨機(jī))+系效應(yīng)(隨機(jī))+測(cè)試物效應(yīng)(固定的)+誤差項(xiàng)。如下所示將“依照位置”的模型用于這10個(gè)選定的位置中的每一個(gè)表型=系效應(yīng)(隨機(jī))+測(cè)試物效應(yīng)(固定的)+誤差項(xiàng)。如下所示將“依照測(cè)試物”的模型用于這10個(gè)選定的系子集(這些系與特定測(cè)試物雜交)中的每一個(gè)表型=位置效應(yīng)(隨機(jī))+系效應(yīng)(隨機(jī))+誤差項(xiàng)。對(duì)每個(gè)性狀的21個(gè)模型(1個(gè)完全型模型,10個(gè)依照位置的模型以及10個(gè)依照測(cè)試物的模型)的會(huì)聚、協(xié)方差估計(jì)值的估計(jì)、固定效應(yīng)的顯著性等進(jìn)行評(píng)估。使用系效應(yīng)的 BLUP作為調(diào)節(jié)的基因型。在一些情況下,所提出的混合模型沒有會(huì)聚或由于缺乏重復(fù)而在系效應(yīng)的估計(jì)方面有問題。對(duì)于這些情況,從模型中去除系效應(yīng)并且使用殘差(residual) 作為粗糙的方法來獲得系效應(yīng)(隨后在關(guān)聯(lián)分析中獲得另外的重復(fù),在關(guān)聯(lián)分析中每個(gè)雙等位基因基因座被表示為每個(gè)組的近交系的總數(shù))。調(diào)節(jié)的表型從會(huì)聚的混合模型中獲得用于系隨機(jī)效應(yīng)的解決方案(最佳線性無偏預(yù)測(cè), BLUP)。對(duì)于沒有會(huì)聚的這些模型,獲得了殘差。基因型數(shù)據(jù)還對(duì)總計(jì)890個(gè)系(在選定的試驗(yàn)的任何一個(gè)中收集了它們的表型數(shù)據(jù))進(jìn)行了基因分型。在近交系中對(duì)相應(yīng)于17個(gè)候選基因的總計(jì)61個(gè)SNP進(jìn)行評(píng)分。在消除單態(tài)性測(cè)定以及具有小于0. 01的等位基因頻率的SNP之后,在TASSEL中對(duì)46個(gè)候選SNP的關(guān)聯(lián)進(jìn)行了測(cè)試。用于關(guān)聯(lián)分析的方法學(xué)聯(lián)合作圖(通常稱為連鎖不平衡作圖)已經(jīng)成為揭示復(fù)雜性狀的遺傳控制的有力工具。聯(lián)合作圖依賴于大量的世代、以及因此在種屬的歷史中允許去除QTL與沒有緊密地連接到其上的任何標(biāo)記之間的關(guān)聯(lián)的重組機(jī)會(huì)(Jannink and Jansen(2001)Genetics 157(1) :445- )。在聯(lián)合作圖分析中最重要的步驟之一是控制可能引起標(biāo)記與表型之間的假相關(guān)并且因此增加了假陽性率的種群結(jié)構(gòu)。a)親緣關(guān)系分析在TASSEL中進(jìn)行的方法將親緣關(guān)系矩陣用于混合模型方法(該方法用于控制系之間的遺傳相關(guān))中。在299個(gè)隨機(jī)SNP測(cè)定上使用基因型數(shù)據(jù)來進(jìn)行親緣關(guān)系分析。親緣關(guān)系系數(shù)被定義為每對(duì)個(gè)體的共享的等位基因的比例(Kp共享的)。跑⑽等人使用共享的單倍型的比例作為它們的親緣關(guān)系系數(shù)。在TASSEL中對(duì)于某些關(guān)聯(lián)模型包括了 K系數(shù)的矩陣,用來對(duì)由于板中多個(gè)系的緊密相互關(guān)系造成的假關(guān)聯(lián)的控制進(jìn)行評(píng)估。b)種群結(jié)構(gòu)分析
使用299個(gè)隨機(jī)SNP測(cè)定的基因型數(shù)據(jù)來進(jìn)行結(jié)構(gòu)分析。使用軟件STRUCTURE來進(jìn)行模擬。使用了連鎖模型(該模型結(jié)合了種群混合以及標(biāo)記之間的連鎖)。使用50000 次隨后進(jìn)行50000次MCMC重復(fù)的不作數(shù)迭代(burnin period)來確定范圍從k = 1至15 個(gè)亞種群的種群結(jié)構(gòu)的相似性。對(duì)于每個(gè)數(shù)值k重復(fù)4次運(yùn)行。將估計(jì)的對(duì)于每個(gè)數(shù)值k 的數(shù)據(jù)的對(duì)數(shù)概率ft· (X|K)作圖從而選擇適當(dāng)數(shù)量的亞種群以包括在該協(xié)方差矩陣中。確定的k的概率隨著測(cè)試的k的數(shù)量一起增加直到它達(dá)到k = 6,并且然后開始下降。在這一點(diǎn)處,達(dá)成一致的是使用k = 6作為用于關(guān)聯(lián)分析的亞種群的數(shù)量。使用推斷出的世系表 (該表包含促成各近交體的世系的各亞種群的分?jǐn)?shù))作為該關(guān)聯(lián)測(cè)試模型中的一系列的協(xié)變量。c)主成分分析主成分分析(PCA)或“特征分析”已經(jīng)被提出作為STRUCTURE的替代以從基因型數(shù)據(jù)中推斷出種群結(jié)構(gòu)。PCA具有勝過STRUCTURE的一些優(yōu)點(diǎn),例如在短得多的時(shí)間期間處理大的數(shù)據(jù)集的能力,并且避免選擇特定數(shù)量的亞種群的需要。使用軟件SMARTPCA(它是 EIGENSTRAT的一部分)來進(jìn)行PCA。對(duì)于這些種系的每一個(gè)使用10個(gè)特征向量以及它們相應(yīng)的特征值作為TASSEL的關(guān)聯(lián)模型的另一個(gè)協(xié)變量數(shù)列。TASSEL基于 java 的軟件 TASSEL (Trait Analysis by association, Evolution andLinkage)結(jié)合了線性模型(通用的和混合的兩者)方法以在控制種群和家族結(jié)構(gòu)的同時(shí)建立標(biāo)記與表型之間的關(guān)聯(lián)(Bradbury et al.,2007)??梢詫⒎N群結(jié)構(gòu)(Q)和/或親緣性關(guān)系(K)估計(jì)結(jié)合到這些模型中以降低假陽性的數(shù)量。還可能用PCA矩陣(特征值)來替換 Q (STRUCTURE)矩陣(Price et al.,2006 ;Zhao et al. ,2007) TASSEL中的關(guān)聯(lián)模型可以在TASSEL中執(zhí)行不同的通用線性模型(GLM)和混合線性模型(MLM)。對(duì)于跨越多個(gè)位置以及測(cè)試物進(jìn)行調(diào)節(jié)的產(chǎn)量以及含水量的表型,運(yùn)行6個(gè)模型并且進(jìn)行將其比較(在TASSEL中對(duì)于GWTPN沒有進(jìn)行分析)。對(duì)于依照位置以及依照測(cè)試物的所有的子集,使用獨(dú)特的模型表型=標(biāo)記+K (ρ共享的廣TASSEL中的GLM程序包括執(zhí)行排列以發(fā)現(xiàn)實(shí)驗(yàn)誤差率的選項(xiàng),當(dāng)進(jìn)行多重比較時(shí)該誤差率校正了假陽性的積累。總計(jì)10,000個(gè)排列用于產(chǎn)量數(shù)據(jù)。MLM程序不包括對(duì)多重測(cè)試的校正。使用邦弗朗尼校正作為一種后驗(yàn)性校正以避免假陽性的積累。結(jié)果-TASSEL的關(guān)聯(lián)模型產(chǎn)量完全型模型使用幾種GL和ML模型來評(píng)定產(chǎn)量與候選SNP測(cè)定的關(guān)聯(lián)。SNP標(biāo)記顯示出與產(chǎn)量的關(guān)聯(lián),SNP標(biāo)記與產(chǎn)量二者在三個(gè)ML模型中在邦弗朗尼校正(校正α =5%)之后都是顯著的,并且在三個(gè)GL模型中具有實(shí)驗(yàn)性ρ值< 0. 05是顯著的。在相同的標(biāo)準(zhǔn)下,在6 個(gè)模型中的4個(gè)中有3個(gè)SNP (在兩個(gè)模型中有兩個(gè),并且僅僅在一個(gè)模型中有7個(gè))顯示出顯著性,。不同位置的產(chǎn)量還使用“依照位置”的模型來評(píng)定產(chǎn)量與候選SNP測(cè)定的關(guān)聯(lián)。用于調(diào)節(jié)產(chǎn)量的該模型對(duì)于來自位置4400的數(shù)據(jù)沒有會(huì)聚并且使用殘差作為粗糙的方法來獲得系效應(yīng)。在 ML模型中在邦弗朗尼校正(校正α = 5% )之后在兩個(gè)位置中有4個(gè)SNP測(cè)定顯示出與產(chǎn)量顯著關(guān)聯(lián)。在這些位置中的僅有一個(gè)有9個(gè)以上的SNP測(cè)定顯示出顯著性。不同測(cè)試物的產(chǎn)量還使用“依照測(cè)試物”的模型來評(píng)定產(chǎn)量與候選SNP測(cè)定的關(guān)聯(lián)。在ML模型中在邦弗朗尼校正(校正α =5%)之后在兩個(gè)測(cè)試物中有2個(gè)SNP測(cè)定顯示出與產(chǎn)量顯著關(guān)聯(lián)。在這些測(cè)試物的僅僅一個(gè)中有總計(jì)14個(gè)以上的SNP測(cè)定顯示出顯著性。含水量(moisture)完全型模型對(duì)GMSTP的系效應(yīng)的BLUP進(jìn)行測(cè)試以評(píng)定幾個(gè)GL和ML模型中與候選SNP測(cè)定的關(guān)聯(lián)。三個(gè)SNP標(biāo)記顯示出與含水量的關(guān)聯(lián),這些標(biāo)記和含水量?jī)烧咴谌齻€(gè)ML模型中的兩個(gè)中在邦弗朗尼校正(校正α =5%)之后都是顯著的,并且在三個(gè)GL模型中具有實(shí)驗(yàn)性ρ值< 0. 05是顯著的。在相同的標(biāo)準(zhǔn)下,在6個(gè)模型中的4個(gè)中有1個(gè)SNP (在三個(gè)模型中有三個(gè),在兩個(gè)模型中有5個(gè),僅僅在一個(gè)模型中有3個(gè))顯示出顯著性。不同位置的含水量還使用“依照位置”的模型來評(píng)定含水量與候選SNP測(cè)定的關(guān)聯(lián)。在ML模型中在邦弗朗尼校正(校正α =5%)之后在兩個(gè)位置有2個(gè)SNP測(cè)定顯示出與含水量顯著關(guān)聯(lián)。在這些位置的僅僅一個(gè)中總計(jì)有15個(gè)以上的SNP測(cè)試顯示出顯著性。不同測(cè)試物的含水量還使用“依照測(cè)試物”的模型來評(píng)定GMSTP與候選SNP測(cè)定的關(guān)聯(lián)。在ML模型中在邦弗朗尼校正(校正α =5%)之后在三個(gè)測(cè)試物中有1個(gè)SNP測(cè)定顯示出與含水量顯著關(guān)聯(lián)。在這些測(cè)試物的兩個(gè)中另外4個(gè)SNP測(cè)定顯示出顯著性,并且在這些測(cè)試物的僅一個(gè)中有10個(gè)SNP測(cè)定顯示出顯著性。QIPDTQIPDT是定量近交系譜不平衡試驗(yàn)(Quantitative Inbred PedigreeDisequilibrium Test)的首字母縮寫,被提出用于利用近交系譜的信息進(jìn)行聯(lián)合作圖,在更好地控制種群結(jié)構(gòu)問題下這可以提供更高的統(tǒng)計(jì)效能以及更低的假陽性率 (Stich et al. 2006, TAG 113 :1121-1130)。這是最初開發(fā)的用于對(duì)人類的致病基因進(jìn)行作圖的 QPDT 的一個(gè)擴(kuò)展(Zhang et al,2001. GeneticEpidemiol 21 :370-375-參見于 Mich et al 2006)。一個(gè)主要的優(yōu)點(diǎn)是,該方法可以被用于來自育種早期的物質(zhì),并且因此是有成本效益的,因?yàn)檫@些物質(zhì)上的表型數(shù)據(jù)被常規(guī)地收集以用于育種的目的。初始QIPDT是檢驗(yàn)統(tǒng)計(jì)量(T,它是根據(jù)圖7來計(jì)算的)。對(duì)于每個(gè)SNP,計(jì)算出T值(相反,在QIPDT程序中使用Z),并且從標(biāo)準(zhǔn)的正態(tài)分布中找出它的P值。QIPDT2雖然QIPDT方法對(duì)于檢驗(yàn)關(guān)聯(lián)的統(tǒng)計(jì)顯著性是有用的,它沒有提供對(duì)SNP遺傳效應(yīng)的大小、也沒有提供促成總的表型方差的相對(duì)遺傳的估計(jì)。因此,通過使用回歸模型來改進(jìn)該方法,該回歸模型被稱為QIPDT2 ;則該初始的方法被稱為QIPDTl。用于QIPDT2的模型可以被寫成yik = β0+β !Xi^ejk,
其中yki是系譜k中個(gè)體i的調(diào)節(jié)的表型值;Xki是編碼的標(biāo)記基因型值;β C1是截距;β i是所討論的SNP的回歸系數(shù)、或遺傳效應(yīng)。注意用于調(diào)節(jié)表型值以及編碼標(biāo)記基因型的方法與Mich等人Q006)所使用的相同。使用這個(gè)模型,可以對(duì)每個(gè)SNP的遺傳效應(yīng)以及R2兩者進(jìn)行估計(jì)。重要的是應(yīng)當(dāng)注意到,將表型數(shù)據(jù)進(jìn)行預(yù)調(diào)節(jié)以在對(duì)系譜結(jié)構(gòu)進(jìn)行進(jìn)一步調(diào)節(jié)之前將來自測(cè)試物和/或位置的效應(yīng)排除在外。用于預(yù)調(diào)節(jié)的方法與以前對(duì)于 TASSEL分析所描述的相同。結(jié)果與用TASSEL進(jìn)行的分析類似,取決于哪個(gè)子集被使用來針對(duì)位置和/或測(cè)試物調(diào)節(jié)表型數(shù)據(jù)。對(duì)于每個(gè)近交體這導(dǎo)致一個(gè)調(diào)節(jié)的表型值(或者是BLUP系值亦或是模型殘差),該近交體包含對(duì)于該近交體的所有遺傳效應(yīng)與只有隨機(jī)殘差的一個(gè)組合。在QIPDT分析之前,根據(jù)它們的親本品系將所有近交體歸類成不同的核心家庭(nuclear family)。與 Mich等人(2006)中所使用的擴(kuò)展的系譜相比,使用這些核心家庭預(yù)期提供對(duì)種群結(jié)構(gòu)更好的控制。對(duì)于QIPDTl而言,對(duì)于每個(gè)SNP估計(jì)了 ζ值以及相應(yīng)的ρ值;對(duì)于QIPDT2而言,對(duì)于每個(gè)SNP從簡(jiǎn)單的回歸模型連同R平方一起得到t值以及相應(yīng)的ρ值。就ρ值而言,QIPDT2顯得比QIPDTl更強(qiáng)大。QIPDT2還提供了對(duì)每個(gè)SNP的相對(duì)貢獻(xiàn)度的估計(jì)(R2)。TASSEL相對(duì)于QIPDT2的比較TASSEL傾向于給出比均勻分布的ρ值小得多的ρ值,而QIPDT2給出接近于均勻ρ 值的P值(圖6)。在這兩種方法中,候選基因SNP的關(guān)聯(lián)不必比非候選SNP更顯著(這取決于感興趣的性狀)。使用TASSEL的關(guān)聯(lián)分析的結(jié)果包括對(duì)于相應(yīng)于14個(gè)候選基因的含水量是顯著的 30個(gè)SNP測(cè)定以及對(duì)于相應(yīng)于12個(gè)候選基因的產(chǎn)量是顯著的28個(gè)SNP測(cè)定。使用QIPDT2的關(guān)聯(lián)分析的結(jié)果包括對(duì)于相應(yīng)于5個(gè)候選基因的產(chǎn)量是顯著的5 個(gè)SNP測(cè)定、對(duì)于相應(yīng)于9個(gè)候選基因的含水量是顯著的9個(gè)SNP測(cè)定、以及對(duì)于相應(yīng)于5 個(gè)基因的重量是顯著的5個(gè)SNP測(cè)定。參考文獻(xiàn)Bradbury, P. J. , Ζ. Zhang, D. Ε. Kroon, Τ. Μ. Casstevens, Y. Ram-doss, and Ε. S. Buckler. 2007. TASSEL Software for Association Mapping of Complex Traits in Diverse Samples, pp.btm308.Camus-KulandaiveIu, L. , J. -B. Veyrieras, B. Gouesnard, A.Charcosset, and D. Manicacci. 2007. Evaluating the Reliability of Structure Outputs in Case of Relatedness between Individuals, pp. 887—890, Vol.47.Evanno,G. , S. Regnaut, and J. Goudet. 2005. Detecting the number of clusters of individuals using the software structure -.a simulation study, pp. 2611-2620, Vol. 14.Falush, D. , M. Stephens, and J. K. Pritchard. 2003. Inference of Population Structure Using Multilocus Genotype Data :Linked Loci and Correlated Allele Frequencies, pp. 1567-1587, Vol. 164.Jannink, J. L. , and B. Walsh, 2002 Association mapping in plant populations, pp. 59—68 in Quantitative Genetics, Genomics and Plant Breeding,edited by Μ. S. KANG. CAB International, New York.Price, A. L. , N. J. Patterson, R. M. Plenge, M. E. Weinblatt, N. A. Shadick, and D. Reich. 2006. Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38 :904-909.Stich,B.,A. Melchinger, H. -P. Piepho,M. Heckenberger,H. Maurer, and J.Reif. 2006. A new test for family-based association mapping with inbred lines from plant breeding programs. TAG Theoretical and Applied Genetics 113 1121-1130.Zhao,K.,Μ. a. J. Aranzana,S. Kim, C. Lister,C. Shindo,C. Tang, C. Toomajian, H. Zheng,C. Dean,P. Marjoram,and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.實(shí)施例5 :通過對(duì)早期育種物質(zhì)(階段2數(shù)據(jù))進(jìn)行聯(lián)合作圖統(tǒng)計(jì)確認(rèn)出干旱候選基因目標(biāo)用于開發(fā)干旱耐受性產(chǎn)品的NT方法包括鑒定以及使用與在干旱條件下的產(chǎn)量相關(guān)聯(lián)的候選基因或基因座中的天然變異。鑒定并且確認(rèn)與干旱耐受性相關(guān)的基因?qū)τ谙掠螛?biāo)記輔助育種的成功和高效是決定性的。本實(shí)驗(yàn)的目標(biāo)是基于在與具有玉米育種階段2-3 數(shù)據(jù)的玉米同源的其他種屬中它們的分子功能以及表型效應(yīng)來確認(rèn)選定的干旱耐受性候選基因集的遺傳效應(yīng)。在2005中的干旱位置的鑒定如實(shí)例1中所述選擇干旱位置。表型數(shù)據(jù)育種者在不同的階段在多個(gè)位置種植它們的雜交體并且對(duì)產(chǎn)量以及其他農(nóng)藝性狀進(jìn)行評(píng)估。已經(jīng)對(duì)于用于本實(shí)驗(yàn)中的材料收集了表型數(shù)據(jù)。在這個(gè)分析中,對(duì)三個(gè)性狀進(jìn)行了評(píng)估產(chǎn)量(在標(biāo)準(zhǔn)含水量下的谷物產(chǎn)量,% ),含水量(在收獲時(shí)的谷物含水量), 以及重量(每塊地的谷物重量)。表型數(shù)據(jù)的評(píng)估對(duì)于產(chǎn)量、含水量以及重量而言跨越位置以及測(cè)試物的種系的雜交體的表型數(shù)據(jù)的平均值對(duì)應(yīng)地為165. 41蒲式爾/英畝、18. 94%以及20. 0蒲式爾。除了在一個(gè)位置的含水量以外,每個(gè)位置的平均值是彼此接近的。在各位置內(nèi)與特定測(cè)試物雜交的系的雜交體的平均值顯示了類似的模式。然而,由于多個(gè)位置內(nèi)的測(cè)試物(可能由于不同的結(jié)合能力) 而存在較大的變異性。數(shù)據(jù)集的分類位置以及測(cè)試物在這些位置中觀察的數(shù)量在從311至1456的范圍內(nèi)變動(dòng),并且在這些位置中獨(dú)特系的數(shù)量在從311至14M的范圍內(nèi)變動(dòng)。這些近交系與47個(gè)不同的近交測(cè)試物進(jìn)行雜交。 與特定測(cè)試物進(jìn)行雜交的系的數(shù)量在從1至575的范圍內(nèi)變動(dòng)。設(shè)定最小值為240次觀察的經(jīng)驗(yàn)性閾值來選擇與特定測(cè)試物雜交的多個(gè)系子集。表型調(diào)節(jié)如在實(shí)例4中所述進(jìn)行表型調(diào)節(jié)。
基因型數(shù)據(jù)還對(duì)總計(jì)2189個(gè)系(在4個(gè)選定的位置的任何一個(gè)中收集了它們的表型數(shù)據(jù)) 進(jìn)行基因分型。在近交系中對(duì)相應(yīng)于大致57個(gè)候選基因的總計(jì)95個(gè)SNP進(jìn)行了評(píng)分。在消除單態(tài)性測(cè)定以及具有小于0. 01的等位基因頻率的SNP之后,在TASSEL中測(cè)試了 85個(gè) SNP的關(guān)聯(lián)。此外,對(duì)近交系中的153個(gè)隨機(jī)SNP進(jìn)行了基因分型。用于關(guān)聯(lián)分析的方法學(xué)如實(shí)例4中所述進(jìn)行了關(guān)聯(lián)分析。結(jié)果在干旱完全型模型下的產(chǎn)量調(diào)節(jié)產(chǎn)量的該完全型模型沒有會(huì)聚并且使用殘差作為粗糙的方法來獲得系效應(yīng)。 使用幾種GL和ML模型來評(píng)定與候選SNP測(cè)定的關(guān)聯(lián)。在干旱條件下兩個(gè)SNP標(biāo)記顯示與產(chǎn)量的關(guān)聯(lián),在三個(gè)ML模型中在邦弗朗尼校正(校正α = 5% )之后這兩個(gè)SNP標(biāo)記都是顯著的,并且在三個(gè)GL模型中具有實(shí)驗(yàn)性ρ值< 0. 05是顯著的。在相同的標(biāo)準(zhǔn)下,在6個(gè)模型的4個(gè)中有4個(gè)SNP (在三個(gè)模型中有兩個(gè),在兩個(gè)模型中有三個(gè)并且在僅一個(gè)模型中有10個(gè))顯示出顯著性。依照多個(gè)位置在干旱條件下的產(chǎn)量對(duì)于調(diào)節(jié)產(chǎn)量的該“依照位置”的模型對(duì)于來自位置6002和位置7346的數(shù)據(jù)沒有會(huì)聚并且使用殘差作為粗糙的方法來獲得系效應(yīng)。在ML模型中在邦弗朗尼校正(校正 α =5%)之后在一個(gè)位置中的在干旱下總計(jì)有15個(gè)測(cè)定顯示出與產(chǎn)量顯著關(guān)聯(lián)。不同測(cè)試物在干旱條件下的產(chǎn)量對(duì)于調(diào)節(jié)產(chǎn)量的該“依照測(cè)試物”的模型對(duì)于來自兩個(gè)測(cè)試物的數(shù)據(jù)沒有會(huì)聚并且因此使用殘差作為粗糙的方法來獲得系效應(yīng)。在ML模型中在邦弗朗尼校正(校正α = 5% )之后在測(cè)試物中有8個(gè)SNP測(cè)定顯示出與產(chǎn)量顯著關(guān)聯(lián)。在干旱完全型模型下的含水量對(duì)含水量的系效應(yīng)的BLUP進(jìn)行了測(cè)試以此評(píng)定幾個(gè)GL和ML模型中與候選SNP 測(cè)定的關(guān)聯(lián)。在干旱下4個(gè)SNP標(biāo)記顯示出與含水量的關(guān)聯(lián),這些標(biāo)記和含水量?jī)烧咴谌齻€(gè)ML模型中在邦弗朗尼校正(校正α =5%)之后都是顯著的,并且在三個(gè)GL模型中具有實(shí)驗(yàn)性P值< 0. 05是顯著的。使用相同的標(biāo)準(zhǔn),在6個(gè)模型中5個(gè)中有SNP(在四個(gè)模型中有4個(gè)SNP,在3個(gè)模型中有1個(gè)SNP,在兩個(gè)模型中有6個(gè)SNP,并且在僅一個(gè)模型中有7個(gè))顯示出顯著性。依照多個(gè)位置在干旱條件下的含水量還使用了 “依照位置”的模型來評(píng)定含水量與候選SNP測(cè)定的關(guān)聯(lián)。用于調(diào)節(jié) GMSTP的“依照位置”的模型對(duì)于來自一個(gè)位置的數(shù)據(jù)沒有會(huì)聚。在ML模型中在邦弗朗尼校正(校正α =5%)之后在三個(gè)位置有2個(gè)SNP測(cè)定顯示與含水量顯著關(guān)聯(lián)。在這些位置中的兩個(gè)中的四個(gè)以上的SNP測(cè)定顯示出顯著性。在這些位置中的僅一個(gè)中11個(gè)以上的SNP測(cè)定顯示出顯著性。依照不同測(cè)試物在干旱條件下的含水量還使用了“依照測(cè)試物”的模型來評(píng)定含水量與候選SNP測(cè)定的關(guān)聯(lián)。在ML模型中在邦弗朗尼校正(校正α =5%)之后在4個(gè)測(cè)試物中有1個(gè)SNP測(cè)定顯示出與含水量顯著關(guān)聯(lián)。在三個(gè)測(cè)試物中另一個(gè)SNP測(cè)定顯示出顯著性。在兩個(gè)測(cè)試物中六個(gè)以上的 SNP測(cè)定顯示出顯著性。在僅一個(gè)測(cè)試物中總計(jì)32個(gè)其他的SNP測(cè)試顯示出顯著性。QIPDT 以及 QIPDT2如實(shí)例4中所述進(jìn)行QIPDT以及QIPDT2分析。結(jié)果與用TASSEL進(jìn)行的分析類似,取決于哪個(gè)子集被使用以針對(duì)位置和/或測(cè)試物來調(diào)節(jié)表型數(shù)據(jù)。對(duì)于每個(gè)近交體這導(dǎo)致調(diào)節(jié)的表型值(或者是BLUP系值至亦或是模型殘差),該近交體包含對(duì)于該近交體的所有遺傳效應(yīng)與只有隨機(jī)殘差的組合。在QIPDT分析之前,根據(jù)它們的親本品系將所有近交體歸類成不同的核心家庭。與^ich等人Q006)中所使用的擴(kuò)展的系譜相比,使用這些核心家庭預(yù)期提供對(duì)種群結(jié)構(gòu)更好的控制。對(duì)于QIPDTl 而言,對(duì)于每個(gè)SNP估計(jì)了 ζ值以及相應(yīng)的ρ值;對(duì)于QIPDT2而言,對(duì)于每個(gè)SNP從簡(jiǎn)單的回歸模型連同R平方一起得到t值以及相應(yīng)的ρ值。就ρ值而言,QIPDT2顯得比QIPDTl更強(qiáng)大。QIPDT2還提供了對(duì)每個(gè)SNP的相對(duì)貢獻(xiàn)的估計(jì)(R2)。TASSEL相對(duì)于QIPDT2的比較TASSEL傾向于提供比均勻分布的ρ值小得多的ρ值,而QIPDT2提供與均勻ρ值接近的P值。假定真實(shí)相關(guān)的數(shù)量通常是所有SNP的一小部分,對(duì)于TASSEL而言來自均勻分布的偏差可能是非常大的,而QIPDT給出了更合理的ρ值。在這兩種方法中,候選基因SNP的關(guān)聯(lián)不必比非候選SNP更顯著(這取決于感興趣的性狀)。對(duì)于YGMSN而言,似乎是非候選SNP顯示出壁候選SNP更高的顯著性,而對(duì)于 GMSTP而言,通常候選SNP顯示出更高的顯著性。使用TASSEL的關(guān)聯(lián)分析的結(jié)果包括對(duì)于相應(yīng)于36個(gè)候選基因的含水量是顯著的 47個(gè)SNP測(cè)定以及對(duì)于相應(yīng)于25個(gè)候選基因的產(chǎn)量是顯著的31個(gè)SNP測(cè)定。使用QIPDT2的關(guān)聯(lián)分析的結(jié)果包括對(duì)于相應(yīng)于九個(gè)候選基因的含水量是顯著的 11個(gè)SNP測(cè)定、對(duì)于相應(yīng)于兩個(gè)候選基因的產(chǎn)量是顯著的兩個(gè)SNP測(cè)定、以及對(duì)于相應(yīng)于兩個(gè)候選基因的重量是顯著的兩個(gè)SNP測(cè)定。參考文獻(xiàn)Bradbury, P. J. , Ζ. Zhang, D. Ε. Kroon, Τ. Μ. Casstevens, Y. Ram-doss, and Ε. S. Buckler. 2007. TASSEL Software for Association Mapping of Complex Traits in Diverse Samples, pp.btm308.Camus-KulandaiveIu, L. , J. -B. Veyrieras, B. Gouesnard, A.Charcosset, and D.Manicacci. 2007. Evaluating the Reliability of Structure Outputs in Case of Relatedness between Individuals, pp. 887—890, Vol.47.Evanno,G. , S. Regnaut, and J. Goudet. 2005. Detecting the number of clusters of individuals using the software structure -.a simulation study, pp. 2611-2620, Vol. 14.Falush, D. , M. Stephens, and J. K. Pritchard. 2003. Inference of Population Structure Using Multilocus Genotype Data :Linked Loci and Correlated Allele Frequencies, pp. 1567-1587, Vol. 164.Jannink, J. L. , and B. Walsh, 2002 Association mapping in plantpopulations,pp. 59—68 in Quantitative Genetics,Genomics and Plant Breeding, edited by M. S. KANG. CAB International, New York.Price, A. L. , N. J. Patterson, R. M. Plenge, M. E. Weinblatt, N. A. Shadick, and D. Reich. 2006. Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38 :904-909.Stich,B.,A. Melchinger, H. -P. Piepho, M. Heckenberger,H. Maurer, and J. Reif. 2006. A new test for family-based association mapping with inbred lines from plant breeding programs. TAG Theoretical and Applied Genetics 113 1121-1130.Zhao,K.,Μ. a. J. Aranzana,S. Kim, C. Lister,C. Shindo,C. Tang, C. Toomajian, H. Zheng,C. Dean,P. Marjoram,and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.在本說明書中提到的所有公開物和專利申請(qǐng)對(duì)于本發(fā)明所涉及的領(lǐng)域的普通技術(shù)人員的技術(shù)水平而言是指示性的。所有公開物和專利申請(qǐng)都通過引用以相同程度結(jié)合在此,如同各個(gè)單獨(dú)的公開物或?qū)@暾?qǐng)都被明確地并且單獨(dú)地指示而將通過引用進(jìn)行結(jié)合。
盡管已經(jīng)為了清楚理解的目的通過解釋和實(shí)例詳細(xì)地描述了以上發(fā)明,顯而易見的是在所附權(quán)利要求的范圍內(nèi)可以實(shí)施某些改變和變更。
權(quán)利要求
1.一種鑒定與感興趣的性狀相關(guān)聯(lián)的遺傳標(biāo)記的方法,該方法包括a)對(duì)于種群的每一植物的多個(gè)遺傳標(biāo)記的每一個(gè)提供基因型值,其中所述種群包含展示所述感興趣的性狀的植物;b)對(duì)于所述種群的植物中的每個(gè)成員的所述感興趣的性狀提供表型值;c)使用適當(dāng)?shù)鼐幊痰挠?jì)算機(jī)來運(yùn)行關(guān)聯(lián)模型從而確定所述標(biāo)記的一個(gè)或多個(gè)是否與感興趣的性狀相關(guān),該關(guān)聯(lián)模型包含用于校正所述種群中的結(jié)構(gòu)的方法(means),其中所述校正是使用主成分分析(Principle ComponentAnalysis)來進(jìn)行的,并且其中基于主成分與感興趣的性狀的關(guān)聯(lián)的顯著性來選擇主成分以用于該模型中。
2.如權(quán)利要求1所述的方法,其中所述關(guān)聯(lián)模型是線性模型。
3.如權(quán)利要求2所述的方法,其中所述關(guān)聯(lián)模型是通用線性模型。
4.如權(quán)利要求2所述的方法,其中所述關(guān)聯(lián)模型是混合線性模型。
5.如權(quán)利要求1所述的方法,其中所述的用于校正在所述種群中的結(jié)構(gòu)的方法進(jìn)一步包括親緣關(guān)系分析。
6.如權(quán)利要求1所述的方法,其中所述種群的植物由在種群的早期育種材料中的分離子代組成。
7.如權(quán)利要求1所述的方法,其中所述種群的植物由雜交植物組成。
8.如權(quán)利要求7所述的方法,其中所述雜交植物是近交系與近交測(cè)試物之間雜交的結(jié)^ ο
9.如權(quán)利要求1所述的方法,其中所述種群包括在多個(gè)位置培育的植物。
10.如權(quán)利要求6所述的方法,其中所述表型值是對(duì)于位置效應(yīng)、測(cè)試物效應(yīng)、或位置效應(yīng)和測(cè)試物效應(yīng)進(jìn)行調(diào)節(jié)的系效應(yīng)。
11.如權(quán)利要求1所述的方法,其中所述遺傳標(biāo)記是單核苷酸多態(tài)性(SNP)。
12.如權(quán)利要求1所述的方法,其中步驟(a)包含從每個(gè)植物中分離遺傳物質(zhì)并且確定每個(gè)標(biāo)記的基因型值。
13.一種鑒定與感興趣的性狀相關(guān)聯(lián)的遺傳標(biāo)記的方法,該方法包括a)對(duì)于種群的育種材料中的多個(gè)遺傳標(biāo)記的每一個(gè)提供基因型值,其中所述種群包含展示所述感興趣的性狀的植物;b)對(duì)于所述種群的育種材料中的每個(gè)成員的所述感興趣的性狀提供表型值;c)使用線性回歸模型在適當(dāng)編程的計(jì)算機(jī)上確定所述標(biāo)記的一個(gè)或多個(gè)是否與感興趣的性狀相關(guān),該線性回歸模型具有用于估計(jì)所述標(biāo)記的每一個(gè)的遺傳效應(yīng)的大小以及所述標(biāo)記的表型貢獻(xiàn)的方法。
14.如權(quán)利要求13所述的方法,其中所述種群的育種材料由根據(jù)共同親本歸類成多個(gè)系譜的近交植物組成。
15.如權(quán)利要求14所述的方法,其中所述回歸模型包括Yik = β ο+ β iXik+eJk其中yik是對(duì)于系譜k中的個(gè)體i表型值距離系譜平均值的偏差;其中Xik是所述標(biāo)記的基因型值;其中β C1是截距;其中β!是回歸系數(shù)并且還是該標(biāo)記的遺傳效應(yīng)的大小的估計(jì)值;并且其中模型(R2)的決定系數(shù)提供了該標(biāo)記的表型貢獻(xiàn)的估計(jì)值。
16.如權(quán)利要求13所述的方法,其中所述種群的育種材料由雜交植物組成,這些雜交植物是從一個(gè)或多個(gè)近交系與一個(gè)或多個(gè)測(cè)試系之間的雜交得到的。
17.如權(quán)利要求13所述的方法,其中所述種群的育種材料由在多個(gè)位置培育的雜交植物組成。
18.如權(quán)利要求16或17所述的方法,其中針對(duì)位置效應(yīng)和測(cè)試物效應(yīng)中的一個(gè)或多個(gè)來調(diào)節(jié)所述表型值。
19.如權(quán)利要求18所述的方法,其中使用混合線性模型來調(diào)節(jié)該表型值,該混合線性模型包括Yijk = y + θ ι+ τ J+ 5 k+eiJk,其中yuk是對(duì)于在位置k處的近交體i與測(cè)試物j之間的雜交體的初始表型的觀察; 其中測(cè)試物效應(yīng)(τ j)被作為固定效應(yīng)進(jìn)行處理; 其中近交體效應(yīng)(θ J以及位置效應(yīng)(δ k)被作為隨機(jī)變量進(jìn)行處理。 其中使用最佳線性無偏預(yù)測(cè)(BLUP)來預(yù)測(cè)所有近交體的遺傳值(θ J。
20.如權(quán)利要求13所述的方法,其中所述回歸模型進(jìn)一步包括用于校正在所述種群中的結(jié)構(gòu)的方法。
21.如權(quán)利要求20所述的方法,其中所述的用于校正結(jié)構(gòu)的方法包括主成分分析。
22.如權(quán)利要求21所述的方法,其中基于主成分與感興趣的性狀的關(guān)聯(lián)的顯著性來選擇主成分以用于該模型中。
23.如權(quán)利要求13所述的方法,其中所述育種材料是階段2或階段3的育種材料。
24.如權(quán)利要求13所述的方法,其中所述遺傳標(biāo)記是單核苷酸多態(tài)性(SNP)。
25.如權(quán)利要求13所述的方法,其中步驟(a)包含從每個(gè)植物中分離遺傳物質(zhì)并且確定每個(gè)標(biāo)記的基因型值。
26.如權(quán)利要求1所述的方法,進(jìn)一步包括將表達(dá)構(gòu)建體引入植物中,該表達(dá)構(gòu)建體包括與所述感興趣的性狀相關(guān)聯(lián)的核酸標(biāo)記或處于與所述感興趣的性狀相關(guān)聯(lián)的標(biāo)記連鎖不平衡狀態(tài)下的核酸,其中所述核酸被可操作地連接于在所述構(gòu)建體被引入其中的植物中起作用的啟動(dòng)子,并且其中所述植物由此展示出感興趣的性狀。
27.如權(quán)利要求1所述的方法,其中與所述感興趣的性狀相關(guān)聯(lián)的標(biāo)記被用于植物的標(biāo)記輔助育種中,該植物包含與所述感興趣的性狀相關(guān)聯(lián)的所述標(biāo)記。
28.如權(quán)利要求13所述的方法,進(jìn)一步包括將表達(dá)構(gòu)建體引入植物中,該表達(dá)構(gòu)建體包括與所述感興趣的性狀相關(guān)聯(lián)的核酸標(biāo)記或處于與所述感興趣的性狀相關(guān)聯(lián)的標(biāo)記連鎖不平衡狀態(tài)下的核酸,其中所述核酸被可操作地連接于在所述構(gòu)建體被引入其中的植物中起作用的啟動(dòng)子,并且其中所述植物由此展示出感興趣的性狀。
29.如權(quán)利要求13所述的方法,其中與所述感興趣的性狀相關(guān)的標(biāo)記被用于植物的標(biāo)記輔助育種中,該植物包含與所述感興趣的性狀相關(guān)的所述標(biāo)記。
30.一種選擇植物以最佳地評(píng)估標(biāo)記與感興趣的性狀之間的關(guān)聯(lián)的方法,該方法包括a)在多種不同的環(huán)境條件下培養(yǎng)種群的植物,其中至少一個(gè)植物展示所述感興趣的性狀;b)收集與這些環(huán)境條件中的一個(gè)或多個(gè)相關(guān)的數(shù)據(jù),其中所述數(shù)據(jù)是在所述植物的兩個(gè)或更多個(gè)發(fā)育階段過程中收集的;C)為每個(gè)植物指定與所述植物在其下生長(zhǎng)的環(huán)境條件相關(guān)的得分,其中所述得分是對(duì)兩個(gè)或更多個(gè)發(fā)育階段中的每一個(gè)指定的;(d)選擇在一個(gè)或多個(gè)發(fā)育階段下暴露于特定范圍的環(huán)境條件下的植物,其中所述選擇對(duì)于評(píng)估所述感興趣的性狀是適當(dāng)?shù)摹?br>
31.如權(quán)利要求30所述的方法,其中所述感興趣的性狀是對(duì)于脅迫條件的耐受性,并且其中所述選擇是基于最有可能誘導(dǎo)所述脅迫條件的環(huán)境條件以及對(duì)所述脅迫條件最敏感的該一個(gè)或多個(gè)發(fā)育階段。
32.如權(quán)利要求31所述的方法,其中所述脅迫條件是水脅迫,并且其中選出的用于對(duì)所述標(biāo)記與水脅迫之間的關(guān)聯(lián)進(jìn)行評(píng)估的植物生長(zhǎng)在發(fā)育的一個(gè)或多個(gè)晚期階段期間具有最嚴(yán)重程度的水脅迫的條件下。
33.如權(quán)利要求30所述的方法,其中使用地理信息系統(tǒng)技術(shù)來獲得與環(huán)境條件相關(guān)的數(shù)據(jù)。
全文摘要
在此提供了用于對(duì)植物種群中在候選標(biāo)記與感興趣的性狀之間的關(guān)聯(lián)進(jìn)行評(píng)估的方法。在不同的實(shí)施方案中,該植物種群是一種育種種群,特別是早期育種種群。這些方法包括獲得候選標(biāo)記的基因型值以及使該標(biāo)記與該性狀相關(guān)??梢允褂枚喾N相關(guān)模型來對(duì)該關(guān)聯(lián)進(jìn)行評(píng)估,并且包括與植物育種種群的結(jié)構(gòu)相關(guān)的統(tǒng)計(jì)方法??梢酝ㄟ^使用主成分分析在相關(guān)模型中對(duì)種群結(jié)構(gòu)進(jìn)行說明。進(jìn)一步提供了一種新的統(tǒng)計(jì)方法,該新的統(tǒng)計(jì)方法使用基于傳遞不平衡的方法對(duì)早期育種材料進(jìn)行聯(lián)合作圖??梢詫⑹褂帽景l(fā)明的這些方法鑒定的標(biāo)記用于標(biāo)記輔助育種和選擇,用于構(gòu)建遺傳連鎖圖以鑒定提供促成感興趣的性狀的基因,以及用于產(chǎn)生具有所希望的性狀的轉(zhuǎn)基因植物。
文檔編號(hào)G06F19/18GK102334123SQ200980156103
公開日2012年1月25日 申請(qǐng)日期2009年12月4日 優(yōu)先權(quán)日2008年12月4日
發(fā)明者L.A.古蒂雷茲羅杰斯, N.F.馬丁, V.K.基肖爾, 王道龍 申請(qǐng)人:先正達(dá)參股股份有限公司