欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于支持向量機(jī)的剪接位點(diǎn)識別方法

文檔序號:6493651閱讀:1198來源:國知局
基于支持向量機(jī)的剪接位點(diǎn)識別方法
【專利摘要】本發(fā)明涉及一種基于支持向量機(jī)的剪接位點(diǎn)識別方法,包括:構(gòu)建數(shù)據(jù)集,數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)集及測試數(shù)據(jù)集;提取訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)序列的特征向量,記為第一特征向量;提取訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)上游序列及下游序列的特征向量,記為第二特征向量;根據(jù)第一特征向量及第二特征向量選取所述訓(xùn)練數(shù)據(jù)集的特征向量,記為第三特征向量;根據(jù)第三特征向量,構(gòu)建SVM分類器;根據(jù)分類器識別所述測試數(shù)據(jù)集的剪接位點(diǎn)。本發(fā)明采用訓(xùn)練數(shù)據(jù)集構(gòu)建馬爾可夫模型,用該模型參數(shù)將訓(xùn)練數(shù)據(jù)集及測試數(shù)據(jù)集轉(zhuǎn)換成特征向量,并將該特征向量和剪接位點(diǎn)上、下游密碼子使用偏性的特征向量,進(jìn)行線性組合,以提取剪接位點(diǎn)鄰近序列中更多信息,從而提高分類精度。
【專利說明】基于支持向量機(jī)的剪接位點(diǎn)識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基因預(yù)測技術(shù),尤其涉及一種基于支持向量機(jī)的剪接位點(diǎn)識別方法?!颈尘凹夹g(shù)】
[0002]基因序列由堿基A、T、G、C組成。真核基因是由蛋白質(zhì)編碼序列(外顯子)和非蛋白質(zhì)編碼序列(內(nèi)含子)兩部分組成的。剪接位點(diǎn)是外顯子編碼區(qū)與內(nèi)含子非編碼區(qū)的邊界,外顯子和內(nèi)含子在序列水平上有明顯的區(qū)別,編碼區(qū)中每相鄰的三個核苷酸組成的三聯(lián)體稱為一個密碼子(codon),通常一個密碼子對應(yīng)一種氨基酸,而一種氨基酸可以有多個密碼子,研究表明同一種氨基酸對應(yīng)的不同密碼子的使用頻率是不一定相同的。氨基酸使對其相應(yīng)的各種密碼子使用頻次的不同,稱為密碼子的使用偏性。密碼子的使用偏性是編碼區(qū)的特征,通過統(tǒng)計(jì)其在編碼區(qū)和非編碼區(qū)的分布差異可以識別剪接位點(diǎn)。剪接位點(diǎn)識別是基因預(yù)測分析的一個重要組成部分。精確地識別剪切位點(diǎn)對探測進(jìn)而確定基因的位置有著重要的價(jià)值,有助于提高基因識別的精度和效率。
[0003]絕大部分剪接位點(diǎn)都以供體位點(diǎn)多為GT,受體位點(diǎn)多為AG為特征,一般被稱為剪接位點(diǎn)識別的GT-AG法則。然而這些二聚體的出現(xiàn)并不意味著它們就是剪接位點(diǎn)。實(shí)際上,在生物序列中這些二聚體在非剪接位點(diǎn)位置也經(jīng)常出現(xiàn)。因此,識別剪接位點(diǎn)需要從眾多的保守供體位點(diǎn)以及受體位點(diǎn)中分辨出真正的剪接位點(diǎn),可以把剪接位點(diǎn)識別看成一個分類問題。
[0004]支持向量機(jī)(support vector machine, SVM)是一種基于機(jī)器學(xué)習(xí)的模式識別方法,它在學(xué)習(xí)模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以此希望獲得較好的泛化能力。SVM能夠出色的解決分類問題并受到廣泛地關(guān)注。現(xiàn)有基于SVM的剪接位點(diǎn)識別方法對當(dāng)前位點(diǎn)到下一位點(diǎn)的堿基轉(zhuǎn)移進(jìn)行了統(tǒng)計(jì),考慮了相鄰堿基間的相關(guān)性,對剪接位點(diǎn)附近序列的保守性進(jìn)行了分析,但沒有考慮剪接位點(diǎn)附件序列的密碼子使用偏性,忽略了對剪接位點(diǎn)本身所含分類信息的充分利用,從而影響了整體分類性能。

【發(fā)明內(nèi)容】

[0005]基于此,有必要針對上述剪接位點(diǎn)的識別方法存在的缺陷,提供一種識別精確度高的基于支持向量機(jī)的剪接位點(diǎn)識別方法。
[0006]一種基于支持向量機(jī)的剪接位點(diǎn)識別方法,包括下述步驟:
[0007]構(gòu)建數(shù)據(jù)集,所述數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)集及測試數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括剪接位點(diǎn)序列,所述剪接位點(diǎn)序列包括真剪接位點(diǎn)序列和假剪接位點(diǎn)序列,所述真剪接位點(diǎn)序列即為正樣本,所述假剪接位點(diǎn)序列即為負(fù)樣本;
[0008]提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)序列的特征向量,記為第一特征向量;
[0009]提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)上游序列及下游序列的特征向量,記為第二特征
向量;
[0010]根據(jù)所述第一特征向量及第二特征向量獲取所述訓(xùn)練數(shù)據(jù)集的特征向量,記為第三特征向量;
[0011]根據(jù)所述第三特征向量,構(gòu)建SVM分類器;
[0012]根據(jù)所述分類器識別所述測試數(shù)據(jù)集的剪接位點(diǎn)。
[0013]在本實(shí)施例中,其中,提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)序列的特征向量,記為第一特征向量,包括下述步驟:
[0014]將所述訓(xùn)練數(shù)據(jù)集中的正樣本構(gòu)建一階馬爾可夫模型Mt ;
[0015]將所述訓(xùn)練數(shù)據(jù)集中的負(fù)樣本構(gòu)建一階馬爾可夫模型Mf ;
[0016]基于所述一階馬爾可夫模型Mt構(gòu)建Mt模型參數(shù),并通過所述Mt模型參數(shù)將所述剪接位點(diǎn)序列轉(zhuǎn)換為特征向量,記為第四特征向量,其中,所述Mt模型參數(shù)為{p (Si I Si^1),i=i = 1,2,…,1},其中Si, Sh e {A, G, T, C}, I為序列長度,p (Si | Si^1)表示在位置i_l和i上分別出現(xiàn)堿基Sp Sp1的概率,所述第四特征向量為(Pl,P2,…,Pd ;
[0017]基于所述一階馬爾可夫模型Mf構(gòu)建Mf模型參數(shù),并通過所述Mf模型參數(shù)將所述剪接位點(diǎn)序列轉(zhuǎn)換為特征向量,記為第五特征向量,其中所述Mf模型參數(shù)為{p’(Si I Si^1), i=1,2…….,!,其中士,^^^ {A,G,T,C},I為序列長度,p' (SiIi^1)表示在位置1-Ι和i上分別出現(xiàn)堿基S1、Sp1的概率,所述第五特征向量為(p' j, 2,…,p' H);
[0018]將所述第四特征向量及第五特征向量線性組合,得到所述剪接位點(diǎn)序列的特征向量,記為第一特征向量,所述第一特征向量為(P1, P2,…,Pu, P' I, 2...,P' 1-1)。
[0019]在本實(shí)施例中,其中,提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)上游序列及下游序列的特征向量,記為第二特征向量,包括下述步驟:
[0020]構(gòu)造公式
【權(quán)利要求】
1.一種基于支持向量機(jī)的剪接位點(diǎn)識別方法,其特征在于,包括下述步驟: 構(gòu)建數(shù)據(jù)集,所述數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)集及測試數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括剪接位點(diǎn)序列,所述剪接位點(diǎn)序列包括真剪接位點(diǎn)序列和假剪接位點(diǎn)序列,所述真剪接位點(diǎn)序列即為正樣本,所述假剪接位點(diǎn)序列即為負(fù)樣本; 提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)序列的特征向量,記為第一特征向量; 提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)上游序列及下游序列的特征向量,記為第二特征向量; 根據(jù)所述第一特征向量及第二特征向量選取所述訓(xùn)練數(shù)據(jù)集的特征向量,記為第三特征向量; 根據(jù)所述第三特征向量,構(gòu)建SVM分類器; 根據(jù)所述分類器識別所述測試數(shù)據(jù)集的剪接位點(diǎn)。
2.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的剪接位點(diǎn)識別方法,其特征在于,其中,提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)序列的特征向量,記為第一特征向量,包括下述步驟: 將所述訓(xùn)練數(shù)據(jù)集中的正樣本構(gòu)建一階馬爾可夫模型Mt ; 將所述訓(xùn)練數(shù)據(jù)集中的負(fù)樣本構(gòu)建一階馬爾可夫模型Mf ; 基于所述一階馬爾可夫模型Mt構(gòu)建Mt模型參數(shù),并通過所述Mt模型參數(shù)將所述剪接位點(diǎn)序列轉(zhuǎn)換為特征向量,記為第四特征向量,其中,所述Mt模型參數(shù)為(P(SiISp1), i = i=1,2,…,1},其中Si, Sh e {A, G, T, C}, I為序列長度,p (Si | Si^1)表示在位置i_l和i上分別出現(xiàn)堿基S1、Sg的概率,所述第四特征向量為(Pl,P2,…,Ph); 基于所述一階馬爾可夫模型Mf構(gòu)建Mf模型參數(shù),并通過所述Mf模型參數(shù)將所述剪接位點(diǎn)序列轉(zhuǎn)換為特征向量,記為第五特征向量,其中所述Mf模型參數(shù)為{p’(Si I Si^1), i =1,2…….,^,其中士,^^^ {A,G,T,C},I為序列長度,p' (SiISg)表示在位置1-Ι和i上分別出現(xiàn)堿基S1、Sh的概率,所述第五特征向量為(p' pp' 2,…,p' H); 將所述第四特征向量及第五特征向量線性組合,得到所述剪接位點(diǎn)序列的特征向量,記為第一特征向量,所述第一特征向量為(P1, Pb…,Ρι-1,P' 1,Ρ' 2....1-1)。
3.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的剪接位點(diǎn)識別方法,其特征在于,其中,提取所述訓(xùn)練數(shù)據(jù)集的剪接位點(diǎn)上游序列及下游序列的特征向量,記為第二特征向量,包括下述步驟: 構(gòu)造公式
4.根據(jù)權(quán)利要求1或2或3所述的基于支持向量機(jī)的剪接位點(diǎn)識別方法,其特征在于,其中,根據(jù)所述第一特征向量及第二特征向量選取所述訓(xùn)練數(shù)據(jù)集的特征向量,記為第三特征向量,包括下述步驟: 計(jì)算所述第一特征向量(P1, P2,…,Ρι-1,P ' I, P ' 2....P ; 1-1)中每個特征向量的F-score并選取高分值的向量組合成第一子向量,所述第一子向量為(P1, P2,…); 計(jì)算所述第二特征向量(f1,f2,..., f64.f65....,fi28)為中每個特征向量的F-score并選取高分值的向量組合成第二子向量,所述第二子向量為(4^...); 將所述第一子向量與第二子向量線性組合,得到所述訓(xùn)練數(shù)據(jù)集的特征向量,記為第三特征向量,所述第三特征向量為(P1, P2,...,&,f2,...)。
5.根據(jù)權(quán)利要求4所述的基于支持向量機(jī)的剪接位點(diǎn)識別方法,其特征在于,其中,計(jì)算所述第一特征向量(P1, P2,…,Ρι-1,P' 1,Ρ' 2....1-1)中每個特征向量的F-score及計(jì)算第二特征向量(f\,f2)..., f64.f65....,fi28)為中每個特征向量的F-score,通過采用下述構(gòu)造公式實(shí)現(xiàn):

6.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的剪接位點(diǎn)識別方法,其特征在于,其中,根據(jù)所述分類器識別所述測試數(shù)據(jù)集的剪接位點(diǎn)還包括下述步驟: 根據(jù)所述訓(xùn)練數(shù)據(jù)集構(gòu)建的Mt模型參數(shù)將所述測試數(shù)據(jù)集中的樣本序列轉(zhuǎn)換為特征向量(P1, P2, , P1-),記為第六特征向量; 根據(jù)訓(xùn)練數(shù)據(jù)集構(gòu)建的Mf模型參數(shù)將所述測試數(shù)據(jù)集中的樣本序列轉(zhuǎn)換為特征向量(P' P' 2,...,P1 K),記為第七特征向量; 將所述第六特征向量及第七特征向量線性組合得到組合特征向量(Pl,P2,...,P1-1, P; I,2...,P'1-1),記為第八特征向量; 根據(jù)密碼子使用偏性
【文檔編號】G06F19/24GK103902853SQ201210572684
【公開日】2014年7月2日 申請日期:2012年12月25日 優(yōu)先權(quán)日:2012年12月25日
【發(fā)明者】魏丹, 姜青山, 魏彥杰 申請人:中國科學(xué)院深圳先進(jìn)技術(shù)研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
铅山县| 邵阳县| 平乐县| 石棉县| 大名县| 郎溪县| 永德县| 建德市| 海门市| 响水县| 阿巴嘎旗| 岑巩县| 湖州市| 南丰县| 杭州市| 云龙县| 姚安县| 香港 | 萨嘎县| 井冈山市| 得荣县| 多伦县| 安化县| 洱源县| 广饶县| 甘南县| 南京市| 丰顺县| 灵寿县| 定兴县| 庆安县| 磐安县| 深水埗区| 禄丰县| 鄂托克旗| 霞浦县| 方正县| 宿州市| 宜都市| 南部县| 无为县|