基于遺傳算法的植物品種真實性鑒定位點篩選方法
【專利摘要】本發(fā)明屬計算機方法和生物技術(shù)的交叉領(lǐng)域,涉及一種基于遺傳算法的植物品種真實性鑒定位點篩選方法,具體步驟為1)編碼待選位點;2)設(shè)定參數(shù)并形成初始種群;3)將本世代群體解碼為位點集合篩選方案;4)計算適應(yīng)度;5)選擇;6)交叉;7)變異;8)世代更替;9)輸出結(jié)果。本發(fā)明可簡寫為GA-AVI。該方法充分利用遺傳算法在優(yōu)化問題求解方面的優(yōu)勢,根據(jù)植物品種真實性鑒定的特點,定義植物品種識別率的統(tǒng)計方法,設(shè)計遺傳算法適應(yīng)度函數(shù)和約束條件,構(gòu)建適用于植物品種真實性鑒定位點組合篩選的遺傳算法模型。本發(fā)明提出一種在海量的位點組合中快速、簡單、有效的篩選出位點組合的方法,為分子標記位點組合的優(yōu)化提供依據(jù)。
【專利說明】基于遺傳算法的植物品種真實性鑒定位點篩選方法
【技術(shù)領(lǐng)域】[0001]本發(fā)明屬于計算機方法和生物技術(shù)的交叉領(lǐng)域,具體涉及一種基于遺傳算法的植物品種真實性鑒定位點篩選方法。
【背景技術(shù)】
[0002]隨著DNA分子標記技術(shù)的發(fā)展,單核苷酸的多態(tài)性(以下簡稱SNP)作為第三代分子標記已經(jīng)在逐步探索應(yīng)用于植物品種的真實性鑒定工作。根據(jù)實際業(yè)務(wù)的需求,對成千上萬的SNP位點進行質(zhì)量和數(shù)量的優(yōu)化,不僅可以降低該技術(shù)的應(yīng)用成本,而且可以提高其數(shù)據(jù)分析效率。
[0003]常規(guī)的分子標記位點篩選方法是分析樣品的遺傳背景信息,以遺傳多樣性為評價指標挑選最優(yōu)的分子標記位點集合。具體方法如下:首先,根據(jù)已有的樣品分子標記數(shù)據(jù),分析群體結(jié)構(gòu)和群體遺傳變異;其次,統(tǒng)計每個分子標記位點的連鎖不平衡程度、遺傳分化系數(shù)和最小等位基因頻率,選擇遺傳多樣性代表能力強的分子標記位點集合;接著,按照分子標記位點在染色體上均勻分布的原則調(diào)整篩選集合;最后,計算已選分子標記位點集合累積個體識別率,驗證已選分子標記位點集合的有效性。
[0004]在人類分子標記的篩選中,個體識別率(Probability of DiscriminationPower,以下簡稱DP)作為判斷單個分子標記識別無關(guān)個體效能的指標而被廣泛應(yīng)用,其含義是指在群體中隨機抽取兩個體,二者的分子標記位點表型不相同的概率。其計算公式為:
[0005]DP = i^Pi=^n, ,、
( 1 )
ft
[0006]其中,η為某一分子標記位點的表型數(shù)目,Pi為該群體第i個表型的頻率。Σρ;
|S|
為群體中隨機抽取兩個無關(guān)個體在某一分子標記位點上兩者表型純粹由于機會而一致的概率。
[0007]當對判斷多個分子標記識別無關(guān)個體的綜合能力進行評估時,則采用累積個體識別率(Total Probability of Discrimination Power,以下簡稱 TDP)作為評價指標,其計算公式為:
k
[0008]TDP =卜 O (1 — DP, )(2)
j~i
[0009]其中DP]是第j個分子標記位點的個體識別率。必須強調(diào)的是,所有分子標記位點是獨立遺傳,符合乘積定律的要求。
[0010]累積個體識別率(TDP)是從分子標記位點的組合概率角度出發(fā),進行統(tǒng)計推斷定義,不僅要求選用的分子標記位點之間獨立不相關(guān)(或遺傳不連鎖),而且要求能統(tǒng)計全部的樣品,才能計算出較為準確的基因頻率。在將此概念引入到植物品種真實性鑒定的應(yīng)用領(lǐng)域中,存在以下幾個問題:
[0011]其一,客觀、準確的分析每個分子標記位點的遺傳背景信息和之間的遺傳關(guān)系有一定難度,原因在于遺傳背景分析本身方法的復(fù)雜性,包括分析時要滿足多個前提假設(shè),針對不同的物種需要不同的專業(yè)背景知識進行區(qū)分性使用等。
[0012]其二,統(tǒng)計出客觀的基因頻率才能計算出準確的個體識別率,但該統(tǒng)計過程難度較大,原因在于需要獲得所有群體樣品或者代表性群體樣品的分子標記信息。
[0013]其三,針對不同遺傳關(guān)系的分子標記位點(連鎖和不連鎖),必須采用不同的統(tǒng)計方式進行個體識別能力評價,如果同時統(tǒng)計這兩類分子標記位點,需要提出一種綜合評價方法合并以上兩類分子標記位點的評價結(jié)果,但該方法目前缺乏充分的理論依據(jù)。
[0014]其四,3個及其以上分子標記位點組合的累積個體識別率(TDP),可以迅速收斂到大于0.99 (大于10個分子標記位點的累計個體識別率的差異在e-ΙΟ以下),難以區(qū)分大于3個分子標記位點組合的個體識別能力的差異,不能作為遺傳算法的適應(yīng)度函數(shù)的參考指標。
[0015]其五,常規(guī)的分子標記組合篩選方法只是把各項評價指標的最優(yōu)結(jié)果的交集,不能獲得最優(yōu)的組合,而且其實際的識別效果不理想(逐個累加效應(yīng))。
[0016]遺傳算法是美國Michigan大學(xué)Holland教授提出的一種基于自然選擇和遺傳變異等生物進化機制的全局性概率搜索算法,其本質(zhì)特征在于群體搜索策略和簡單的遺傳算子。遺傳算法具有以下特點:(1)遺傳算法從多個初始點開始搜索,有效提高獲得問題全局最優(yōu)解的可能性。(2)遺傳算法基于目標函數(shù)的評價信息,使其成為具有很好的普適性和規(guī)?;膬?yōu)化方法。(3)遺傳算法具有很強的魯棒性,多次求解得到的結(jié)果有相似性,且在很多的應(yīng)用實例中得到驗證。
[0017]遺傳算法已在很多典型的組合優(yōu)化類問題得到廣泛應(yīng)用,如旅行商問題、0-1背包問題、裝箱問題、作業(yè)調(diào)度問題、圖著色問題、聚類問題等,眾多研究結(jié)果表明遺傳算法求解效果都優(yōu)于傳統(tǒng)啟發(fā)式算法。分子標記位點組合的質(zhì)量和數(shù)量的優(yōu)化問題的數(shù)學(xué)本質(zhì)是運籌學(xué)的組合優(yōu)化類問題,其目標函數(shù)的數(shù)學(xué)模型接近于背包問題。因此,本發(fā)明結(jié)合用于植物品種真實性鑒定分子標記技術(shù)的特點,提出一種基于遺傳算法的植物品種真實性鑒定位點篩選方法,充分利用遺傳算法在優(yōu)化問題求解方面的優(yōu)勢,將其引入位點組合篩選問題的求解;根據(jù)植物品種真實性鑒定的特點,定義植物品種識別率的統(tǒng)計方法,設(shè)計了遺傳算法適應(yīng)度函數(shù)和約束條件,構(gòu)建了適用于植物品種真實性鑒定位點組合篩選的遺傳算法模型。
【發(fā)明內(nèi)容】
[0018]本發(fā)明的目的是解決現(xiàn)有技術(shù)中存在的問題,提供一種基于遺傳算法的植物品種真實性鑒定位點篩選方法,從而提供了一種在海量的位點組合中快速、簡單的篩選出有效位點組合的方法。
[0019]本發(fā)明的原理如下:
[0020]1.可行解的遺傳表達轉(zhuǎn)換
[0021]本發(fā)明結(jié)合分子標記位點種類豐富和數(shù)量繁多的特點,在基于位點組合的染色體表達方式的基礎(chǔ)上,提出一種自動排序且不重復(fù)的編碼方式。該方式將分子標記組合編碼為一個位點序號序列從而形成一條染色體。一條染色體由若干個基因構(gòu)成,每個基因用不重復(fù)的、大于等于零的整數(shù)表示,每個整數(shù)代表一個分子標記位點在全部位點集合的固定序號,并且整數(shù)之間按大小排序。若從E個位點集合中任意選取L個位點構(gòu)成的位點組合可以按如下方式編碼:
【權(quán)利要求】
1.一種基于遺傳算法的植物品種真實性鑒定位點篩選方法,其特征在于,具體步驟如下:1)以自動排序且不重復(fù)的方式編碼待篩選分子標記位點;2)按照擬選分子標記位點的個數(shù)設(shè)定染色體基因位點長度,設(shè)置每一代群體的大小、擬演化的世代數(shù)、雜交率和變異率,并產(chǎn)生初始種群;3)將本世代群體中的全部染色體實數(shù)編碼形式的數(shù)據(jù)轉(zhuǎn)化為分子標記位點集合篩選方案; 4)以適應(yīng)度函數(shù)計算適應(yīng)度;5)根據(jù)適應(yīng)度函數(shù)計算結(jié)果選擇新一代群體;6)計算染色體交叉對新世代染色體帶來的影響;7)計算染色體變異對新世代染色體帶來的影響;8)進行世代更替,即循環(huán)步驟3)-7)直到世代數(shù)滿足步驟2)的設(shè)定;9)輸出結(jié)果,從已產(chǎn)生的所有世代群體中挑選適應(yīng)度最高的個體作為最優(yōu)的用于真實性鑒定的分子標記位點組合方案。
2.權(quán)利要求1所述基于遺傳算法的植物品種真實性鑒定位點篩選方法,其特征在于,步驟1)具體為:輸入用于真實性鑒定的分子標記位點組合的位點個數(shù)作為染色體基因位長度L,L的取值范圍為小于等于全部參與篩選的分子標記位點標記數(shù)目E的正整數(shù)?’從E個位點集合中任意選取L個位點構(gòu)成的位點組合按如下方式編碼:
3.權(quán)利要求2所述基于遺傳算法的植物品種真實性鑒定位點篩選方法,其特征在于,步驟2)具體為:設(shè)置種群大小為M、擬演化的世代數(shù)為T、雜交率為P。、變異率為PM ;隨機挑選Μ組由L個分子標記位點構(gòu)成的位點集合,每組位點集合內(nèi)要求挑選的位點都是唯一的,并將其編碼為Μ個基因位長度為L的染色體,形成初始群體。
4.權(quán)利要求1所述基于遺傳算法的植物品種真實性鑒定位點篩選方法,其特征在于,步驟4)具體為:采用絕對型品種識別率作為適應(yīng)度函數(shù),評價本世代群體的每個染色體的適應(yīng)度,其計算公式為:
5.權(quán)利要求3所述基于遺傳算法的植物品種真實性鑒定位點篩選方法,其特征在于,步驟5)具體為:依據(jù)適應(yīng)度計算每個染色體的選擇概率和累積概率,選擇概率的計算公式為:
6.權(quán)利要求3所述基于遺傳算法的植物品種真實性鑒定位點篩選方法,其特征在于,步驟6)具體為:隨機產(chǎn)生Μ/2個在區(qū)間[0,1]里均勻分布的實數(shù)f作為上一步驟已選擇的染色體進行交叉的判定條件:當<<Ρ?:時,則對第i對染色體采用部分匹配交叉法,進行染色體片段重組得到其子代個體;當<>PC時,則將第i對染色體保留不變,直接作為其子代個體;重復(fù)上述判定和操作,最終產(chǎn)生Μ個子代個體。
7.權(quán)利要求3所述基于遺傳算法的植物品種真實性鑒定位點篩選方法,其特征在于,纖步驟7)具體為:隨機產(chǎn)生LXM個在區(qū)間[0,1]里均勻分布的實數(shù)作為上一步驟已交叉的染色體的每個基因進行變異的判定條件:當$ <PM時,則對第i個染色體的第j個基因m、η執(zhí)行單點均勻變異法;當》>ΡΜ時,則將第i對染色體的第j個基因保留不變;重復(fù)上述判定和操作,最終產(chǎn)生下一代群體。
8.權(quán)利要求1-7任一項所述基于遺傳算法的植物品種真實性鑒定位點篩選方法在植物品種真實性鑒定位點篩選中的應(yīng)用。
【文檔編號】G06F19/10GK103699812SQ201310629676
【公開日】2014年4月2日 申請日期:2013年11月29日 優(yōu)先權(quán)日:2013年11月29日
【發(fā)明者】王鳳格, 趙久然, 楊揚 申請人:北京市農(nóng)林科學(xué)院