一種啟動(dòng)子識(shí)別系統(tǒng)的構(gòu)建方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基因啟動(dòng)子的預(yù)測(cè)與識(shí)別技術(shù)領(lǐng)域,尤其涉及一種啟動(dòng)子識(shí)別系統(tǒng)的 構(gòu)建方法和裝置。
【背景技術(shù)】
[0002] 當(dāng)前,人類基因表達(dá)調(diào)控已成為一個(gè)極具挑戰(zhàn)性的研宄方向,而啟動(dòng)子識(shí)別對(duì)整 個(gè)基因組功能的詮釋具有重要作用,因此如何又好又快地識(shí)別人類啟動(dòng)子,成為本領(lǐng)域的 一個(gè)研宄熱點(diǎn)。
[0003] 現(xiàn)有的啟動(dòng)子識(shí)別系統(tǒng)不具備基于基因結(jié)構(gòu)特征識(shí)別啟動(dòng)子的能力,即無(wú)法 利用基因的結(jié)構(gòu)特征來(lái)識(shí)別啟動(dòng)子。譬如,梅麗等人在《Human Promoter Recognition Algorithm》中設(shè)計(jì)的基于SVM(支持向量機(jī),Support Vector Machine)的啟動(dòng)子分類 識(shí)別算法,共包含兩級(jí)分類系統(tǒng),分別基于基因的CpG島特征及KL (Kul lback - LeibIer divergence,相對(duì)j:商)詞頻統(tǒng)計(jì)特征來(lái)識(shí)別啟動(dòng)子,不具備結(jié)合基因結(jié)構(gòu)特征識(shí)別啟動(dòng)子 的能力,導(dǎo)致系統(tǒng)的識(shí)別性能較差。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明的目的在于提供一種啟動(dòng)子識(shí)別系統(tǒng)的構(gòu)建方法和裝置,旨在 解決現(xiàn)有識(shí)別系統(tǒng)因不具備利用基因結(jié)構(gòu)特征識(shí)別啟動(dòng)子的能力,而導(dǎo)致識(shí)別性能較差這 一問(wèn)題。
[0005] 為此,本發(fā)明公開如下技術(shù)方案:
[0006] -種啟動(dòng)子識(shí)別系統(tǒng)的構(gòu)建方法,包括:
[0007] 將包含N條基因序列的數(shù)據(jù)集劃分為第一數(shù)據(jù)子集和第二數(shù)據(jù)子集,所述第一數(shù) 據(jù)子集具有預(yù)設(shè)屬性;
[0008] 分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基因序列的P種預(yù)設(shè)特 征,相應(yīng)得到P個(gè)第一訓(xùn)練特征子集及P個(gè)第二訓(xùn)練特征子集;所述預(yù)設(shè)特征包括基因剛性 特征,N、P為大于1的自然數(shù);
[0009] 分別對(duì)所述P個(gè)第一訓(xùn)練特征子集及所述P個(gè)第二訓(xùn)練特征子集進(jìn)行分類建模, 得到P個(gè)第一子分類器模型及P個(gè)第二分類器模型,各個(gè)所述子分類器模型構(gòu)成啟動(dòng)子識(shí) 別系統(tǒng)的分類識(shí)別模型。
[0010] 上述方法,優(yōu)選的,所述預(yù)設(shè)屬性為基因的CG堿基偏好。
[0011] 上述方法,優(yōu)選的,所述預(yù)設(shè)特征還包括CpG島特征及相對(duì)j:商KL詞頻統(tǒng)計(jì)特征。
[0012] 上述方法,優(yōu)選的,所述分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基 因序列的P種預(yù)設(shè)特征,相應(yīng)得到P個(gè)第一訓(xùn)練特征子集及P個(gè)第二訓(xùn)練特征子集,包括:
[0013] 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的基因剛性特征,得到第一 剛性特征子集及第二剛性特征子集;
[0014] 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的CpG島特征,得到第一 CpG島特征子集及第二CpG島特征特征子集;
[0015] 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的KL詞頻統(tǒng)計(jì)特征,得到 第一 KL詞頻統(tǒng)計(jì)特征子集及第二KL詞頻統(tǒng)計(jì)特征子集。
[0016] 上述方法,優(yōu)選的,所述分別對(duì)所述P個(gè)第一訓(xùn)練特征子集及所述P個(gè)第二訓(xùn)練特 征子集進(jìn)行分類建模為:
[0017] 使用支持向量機(jī)SVM模型分別對(duì)所述P個(gè)第一訓(xùn)練特征子集及所述P個(gè)第二訓(xùn)練 特征子集進(jìn)行分類建模。
[0018] 上述方法,優(yōu)選的,還包括:
[0019] 利用構(gòu)建的所述分類識(shí)別模型對(duì)待測(cè)數(shù)據(jù)進(jìn)行類別判決,以識(shí)別所述待測(cè)數(shù)據(jù)是 否為啟動(dòng)子。
[0020] 一種啟動(dòng)子識(shí)別系統(tǒng)的構(gòu)建裝置,包括:
[0021] 劃分模塊,用于將包含N條基因序列的數(shù)據(jù)集劃分為第一數(shù)據(jù)子集和第二數(shù)據(jù)子 集,所述第一數(shù)據(jù)子集具有預(yù)設(shè)屬性;
[0022] 特征提取模塊,用于分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基因序 列的P種預(yù)設(shè)特征,相應(yīng)得到P個(gè)第一訓(xùn)練特征子集及P個(gè)第二訓(xùn)練特征子集;所述預(yù)設(shè)特 征包括基因剛性特征,N、P為大于1的自然數(shù);
[0023] 建模模塊,用于分別對(duì)所述P個(gè)第一訓(xùn)練特征子集及所述P個(gè)第二訓(xùn)練特征子集 進(jìn)行分類建模,得到P個(gè)第一子分類器模型及P個(gè)第二分類器模型,各個(gè)所述子分類器模型 構(gòu)成啟動(dòng)子識(shí)別系統(tǒng)的分類識(shí)別模型。
[0024] 上述裝置,優(yōu)選的,所述特征提取模塊包括:
[0025] 第一特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 基因剛性特征,得到第一剛性特征子集及第二剛性特征子集;
[0026] 第二特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 CpG島特征,得到第一 CpG島特征子集及第二CpG島特征特征子集;
[0027] 第三特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 KL詞頻統(tǒng)計(jì)特征,得到第一 KL詞頻統(tǒng)計(jì)特征子集及第二KL詞頻統(tǒng)計(jì)特征子集。
[0028] 上述裝置,優(yōu)選的,所述建模模塊為:
[0029] 建模單元,用于使用支持向量機(jī)SVM模型分別對(duì)所述P個(gè)第一訓(xùn)練特征子集及所 述P個(gè)第二訓(xùn)練特征子集進(jìn)行分類建模。
[0030] 上述裝置,優(yōu)選的,還包括:
[0031] 識(shí)別模塊,用于利用構(gòu)建的所述分類識(shí)別模型對(duì)待測(cè)數(shù)據(jù)進(jìn)行類別判決,以識(shí)別 所述待測(cè)數(shù)據(jù)是否為啟動(dòng)子。
[0032] 由以上方案可知,本發(fā)明將包含多條基因序列的數(shù)據(jù)集劃分為具有預(yù)設(shè)屬性的第 一數(shù)據(jù)子集和不具有預(yù)設(shè)屬性的第二數(shù)據(jù)子集;并分別提取第一、第二數(shù)據(jù)子集的多種預(yù) 設(shè)特征,所述預(yù)設(shè)特征包括基因剛性特征;之后,對(duì)特征提取所得的多個(gè)特征數(shù)據(jù)集合進(jìn)行 建模,得到構(gòu)成啟動(dòng)子識(shí)別系統(tǒng)所需的各個(gè)子分類器模型??梢?jiàn),本發(fā)明在構(gòu)建人類基因啟 動(dòng)子識(shí)別系統(tǒng)時(shí),考慮了基因結(jié)構(gòu)特征(如基因剛性特征),通過(guò)提取基因數(shù)據(jù)的基因剛性 特征,并將提取的基因剛性特征作為訓(xùn)練數(shù)據(jù)進(jìn)行建模,使最終的識(shí)別系統(tǒng)具備了結(jié)合基 因結(jié)構(gòu)特征識(shí)別啟動(dòng)子的能力,提升了系統(tǒng)的識(shí)別性能。
【附圖說(shuō)明】
[0033] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0034] 圖1是本發(fā)明實(shí)施例一提供的啟動(dòng)子識(shí)別系統(tǒng)構(gòu)建方法的一種流程圖;
[0035] 圖2是本發(fā)明實(shí)施例二提供的啟動(dòng)子識(shí)別系統(tǒng)構(gòu)建