欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種新的融合遺傳信息的蛋白質(zhì)訓(xùn)練集非平衡問題的解決方法

文檔序號(hào):8922845閱讀:327來源:國知局
一種新的融合遺傳信息的蛋白質(zhì)訓(xùn)練集非平衡問題的解決方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物信息學(xué)、蛋白質(zhì)偽氨基酸成分和傳統(tǒng)的蛋白質(zhì)序列分析技術(shù)領(lǐng) 域,尤其涉及一種新的融合遺傳信息的蛋白質(zhì)訓(xùn)練集非平衡問題的解決方法。
【背景技術(shù)】
[0002] 隨著人類基因組的測序完成,生物信息學(xué)進(jìn)入了一個(gè)新的發(fā)展階段一一后基因組 時(shí)代?;蚪M計(jì)劃已產(chǎn)生數(shù)以億計(jì)的基因組序列,如何從這些序列中找尋生命是如何起源 的、又是如何進(jìn)化、這些基因又是如何使生命體具有活性等一系列的問題的答案,是當(dāng)前研 宄的熱點(diǎn)。分析這些基因序列可以從多個(gè)層次,如堿基序列、蛋白質(zhì)、基因組等,由于許多生 物表型性質(zhì)以及基因調(diào)控都是由蛋白質(zhì)的氨基酸序列所決定,分析氨基酸序列有一定的優(yōu) 勢。
[0003] 蛋白質(zhì)序列是由20種氨基酸組成的一維字符序列,要得出更多的隱含在其中的 生物特性非常困難,為此人們?cè)O(shè)計(jì)了許多種偽氨基酸成分采用向量方式來描述蛋白質(zhì)序 列,這些偽氨基酸成分如:二聯(lián)體成分、三聯(lián)體成分、灰色理論因子、復(fù)雜度因子等有的能很 好的描述蛋白質(zhì)序列局部氨基酸順序信息,有的能很好的描述蛋白質(zhì)序列的全局氨基酸順 序信息,對(duì)基于序列的蛋白質(zhì)結(jié)構(gòu)和功能分類預(yù)測都起到了積極作用。
[0004] 在基于蛋白質(zhì)序列信息研宄蛋白質(zhì)功能和結(jié)構(gòu)類型預(yù)測中,第一步要做的就是建 立可靠的訓(xùn)練集,由于相關(guān)生物實(shí)驗(yàn)所得到的訓(xùn)練集大多都是非平衡的,某些類的樣本數(shù) 目遠(yuǎn)遠(yuǎn)少于其他類的樣本數(shù)目。現(xiàn)有解決非平衡問題方法主要包括數(shù)據(jù)層方法和算法層方 法:數(shù)據(jù)層方法是指直接對(duì)訓(xùn)練集進(jìn)行操作,將處理后的訓(xùn)練樣本用來訓(xùn)練分類器;算法 層方法是對(duì)分類算法進(jìn)行操作,也就是修改已有的分類算法或提出新算法。
[0005] 對(duì)數(shù)據(jù)層進(jìn)行處理主要采用數(shù)據(jù)抽取方法,比如隨機(jī)欠抽樣、隨機(jī)過抽樣、壓 縮最近鄰(CondensedNearestNeighbor,CNN)、托梅克聯(lián)系對(duì)(TomekLinks)、單邊選 擇(One-SidedSelection,OSS)、可選擇最近鄰法(EditedNearestNeighbor,ENN)、鄰 域清理規(guī)則(NeighborhoodCleaningRule,NCR)、基于聚類的過抽樣(Cluster-Based Oversampling,CB0S)、基于錯(cuò)分樣本的過抽樣(OversamplingBasedonMisclassified Samples, 0BMS)、合成少數(shù)類過抽樣方法(SyntheticMinorityOversampling Technology,SMOTE)、邊緣SMOTE法(Borderline_SM0TE,BSM)等等。隨機(jī)過抽樣是通過隨機(jī) 復(fù)制少樣本類別的樣本來增加少樣本類別樣本的規(guī)模,而隨機(jī)欠抽樣是隨機(jī)地刪除某些多 樣本類別來減少多樣本類別樣本的數(shù)目。一般對(duì)多數(shù)樣本集采用隨機(jī)欠抽樣,或?qū)ι贁?shù)樣 本集采用隨機(jī)過抽樣技術(shù)來達(dá)到非平衡數(shù)據(jù)集中各個(gè)子類集的樣本數(shù)量平衡是比較常見 的抽樣方法。然而,進(jìn)行單純的隨機(jī)過抽樣和欠抽樣也會(huì)帶來不利的影響:隨機(jī)過抽樣保留 甚至增加了少樣本類別中樣本的分布信息,會(huì)使樣本數(shù)極少的類別中部分小類過度擬合, 而隨機(jī)欠抽樣會(huì)使得原始樣本數(shù)本來就比較少的情況下,卻丟失一些重要的樣本,總之,影 響模型分類效果。此外,隨機(jī)欠抽樣方法可能會(huì)丟失訓(xùn)練樣本中多樣本類別某些樣本的一 些隱含信息,所以隨機(jī)過抽樣方法相對(duì)而言應(yīng)用的比較廣泛。
[0006]Chawla等提出SMOTE方法是通過在一些距離相近的少數(shù)類樣本中插入新的樣本 產(chǎn)生人工樣本來達(dá)到數(shù)據(jù)集的平衡。其主要方法是:依次遍歷訓(xùn)練集中少數(shù)類的每個(gè)樣本 S,在少數(shù)類樣本中找到其K個(gè)最近鄰樣本,然后根據(jù)過抽樣的倍率N,從K個(gè)最近鄰樣本中 隨機(jī)選擇N個(gè)樣本,逐次將N個(gè)樣本中的每一條樣本與樣本S之間進(jìn)行隨機(jī)性插值生成人 工樣本。SMOTE方法的特點(diǎn)是與過抽樣方法不同,它不是簡單隨機(jī)的復(fù)制少樣本類別的樣 本,而是增加新的并不存在的樣本,因此可以在一定程度上避免分類器過度擬合。
[0007] 上述這些方法都可以用于蛋白質(zhì)序列結(jié)構(gòu)和功能預(yù)測解決訓(xùn)練集非平衡問題,但 這些方法都是基于蛋白質(zhì)序列離散模型,也就是先將蛋白質(zhì)序列通過偽氨基酸成分,用離 散向量描述蛋白質(zhì)后,對(duì)這些離散向量集來進(jìn)行非平衡處理,雖然偽氨基酸成分能很好的 描述蛋白質(zhì)序列信息,但通過偽氨基酸成分還是有許多序列信息被丟失,而且上述操作沒 有對(duì)應(yīng)的生物學(xué)意義?,F(xiàn)有物種都是從有限的遠(yuǎn)古物種進(jìn)化而來,同樣現(xiàn)有蛋白質(zhì)也是從 一些簡單的蛋白質(zhì)進(jìn)化而來。進(jìn)化過程中包含了堿基插入或刪除、突變、復(fù)制或與其它基因 融合等,隨著進(jìn)化過程的深入,序列間的相似度越來越少,但所對(duì)應(yīng)的蛋白質(zhì)大多還保留同 樣的特性,如相同的生物功能、三維結(jié)構(gòu)和亞細(xì)胞定位等。為此抽取這些序列進(jìn)化信息來構(gòu) 成虛擬蛋白質(zhì)擴(kuò)充訓(xùn)練集中樣本少的子集是本發(fā)明的創(chuàng)新點(diǎn)。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明要解決的技術(shù)問題是提供一種新的融合遺傳信息的蛋白質(zhì)訓(xùn)練集非平衡 問題的解決方法,旨在通過融合蛋白質(zhì)進(jìn)化信息,直接從序列上進(jìn)行擴(kuò)展,解決蛋白質(zhì)訓(xùn)練 集非平衡的問題。
[0009] 為解決以上技術(shù)問題,本發(fā)明的技術(shù)方案是:一種新的融合遺傳信息的蛋白質(zhì)訓(xùn) 練集非平衡問題的解決方法,其特征在于包括以下步驟: (1) 使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩 陣PSSM; (2) 將P蛋白基因與NCBI數(shù)據(jù)庫中蛋白質(zhì)序列進(jìn)行比對(duì),找到蛋白基因P的保守序列; (3) 根據(jù)PSSM矩陣可以知道蛋白質(zhì)序列P中某個(gè)位置上的氨基酸突變?yōu)槠渌被岬?概率,將此蛋白保守序列位置上的氨基酸不變,非保守區(qū)域氨基酸按照其突變?yōu)槠渌被?酸概率的大小依次轉(zhuǎn)換成其它氨基酸,這樣就可以得到20條含有蛋白質(zhì)P遺傳信息的虛擬 蛋白質(zhì); (4) 取這20個(gè)虛擬蛋白質(zhì)中的前n個(gè)蛋白質(zhì)序列作為訓(xùn)練集中的序列,通過對(duì)非平衡 的數(shù)據(jù)集中數(shù)量少的子集進(jìn)行擴(kuò)大,使得非平衡數(shù)據(jù)集變?yōu)槠胶鈹?shù)據(jù)集,有利于訓(xùn)練相關(guān) 預(yù)測器,可提高預(yù)測器的預(yù)測成功率。
[0010] 所述蛋白質(zhì)序列P的位置特異打分矩陣PSSM的表達(dá)公式為:
其中
丨表示蛋白質(zhì)進(jìn)化過程中蛋白質(zhì)序列第i個(gè)位置的氨基酸 突變?yōu)榈趈類氨基酸的可能性大小,其值越大表示轉(zhuǎn)成的可能性越大,j從1到20分別表 示氨基酸A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V。
[0011] 所述預(yù)測器預(yù)測成功率可提高5~10%。
[0012] 本發(fā)明與現(xiàn)有解決非平衡數(shù)據(jù)方法不同,能融合蛋白質(zhì)進(jìn)化信息,直接從序列上 進(jìn)行擴(kuò)展,而不是在描述序列信息的離散數(shù)字模型中進(jìn)行插值,具有明顯的生物學(xué)意義,所 以能明顯提高相關(guān)預(yù)測器的預(yù)測成功率,具有廣闊的運(yùn)用前景。
【具體實(shí)施方式】
[0013] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對(duì)本發(fā)明 進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限 定本發(fā)明。
[0014] 采用本發(fā)明融合遺傳信息的蛋白質(zhì)訓(xùn)練集非平衡解決方法,具體步驟如下: 1)使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩 陣(PositionSpecificScoringMatrix,PSSM) 給定人類基因蛋白: >AAA61157 MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPAC VCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHC
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
株洲县| 区。| 玛沁县| 武川县| 石阡县| 乌拉特前旗| 全椒县| 海林市| 平果县| 沁水县| 泰来县| 安达市| 乌恰县| 延川县| 沂南县| 湖北省| 封开县| 正阳县| 上高县| 繁峙县| 泽普县| 天气| 五华县| 西乌珠穆沁旗| 依兰县| 昌吉市| 夏河县| 化德县| 桦甸市| 塔河县| 太仆寺旗| 怀化市| 宽甸| 察哈| 宝鸡市| 沅陵县| 榆林市| 方城县| 革吉县| 新竹县| 孙吴县|