欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

采用覓食機(jī)制的人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法與流程

文檔序號(hào):12720785閱讀:417來源:國知局
采用覓食機(jī)制的人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法與流程

本發(fā)明屬于生物信息領(lǐng)域,涉及一種動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中關(guān)鍵蛋白質(zhì)的識(shí)別方法,具體涉及采用覓食機(jī)制的人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法。



背景技術(shù):

關(guān)鍵蛋白質(zhì)是生物體生存和繁殖所必須的蛋白質(zhì),關(guān)鍵蛋白質(zhì)的缺失會(huì)導(dǎo)致有關(guān)蛋白質(zhì)復(fù)合物功能喪失,并導(dǎo)致生物體無法生存。由于關(guān)鍵蛋白質(zhì)在生命活動(dòng)中扮演重要角色,因此對于關(guān)鍵蛋白質(zhì)的預(yù)測與識(shí)別成為一項(xiàng)重要研究工作。在生物學(xué)上,關(guān)鍵蛋白質(zhì)的識(shí)別主要是依靠生物實(shí)驗(yàn)方法,例如單基因挑出和條件性基因剔除等。通過這些實(shí)驗(yàn)技術(shù)得到的結(jié)果雖然是明確和有效的,但代價(jià)高,效率低,試用范圍有限。因此,利用計(jì)算生物學(xué)的方法來預(yù)測關(guān)鍵蛋白質(zhì)成為一個(gè)新的發(fā)展方向。

目前,通過計(jì)算方法實(shí)現(xiàn)關(guān)鍵蛋白質(zhì)的識(shí)別主要基于兩種措施,拓?fù)渲行男苑椒ê彤愵愒慈诤戏椒ā?/p>

2001年提出的“中心性-致死性”法則指出蛋白質(zhì)的關(guān)鍵性與蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)緊密相關(guān),具體表現(xiàn)為擁有較多相鄰結(jié)點(diǎn)的蛋白質(zhì)的缺失更易于影響整個(gè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),進(jìn)而產(chǎn)生致死的效應(yīng)。也就是說,蛋白質(zhì)網(wǎng)絡(luò)中度越高的蛋白質(zhì)結(jié)點(diǎn)越傾向于表現(xiàn)關(guān)鍵性。該理論成為了基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的關(guān)鍵蛋白質(zhì)識(shí)別的基礎(chǔ)。此后,許多研究人員提出了基于拓?fù)渲行男缘年P(guān)鍵蛋白質(zhì)識(shí)別方法,其中包括度中心性(Degree Centrality,DC),介數(shù)中心性(Betweenness Centrality,BC),緊密度中心性(Closeness Centrality,CC),特征向量中心性(Eigenvector Centrality,EC),信息中心性(Information Centrality,IC),子圖中心性(Subgraph Centrality,SC)。通過計(jì)算蛋白質(zhì)相互作用網(wǎng)絡(luò)中所有蛋白質(zhì)結(jié)點(diǎn)在網(wǎng)絡(luò)中某個(gè)中心性的值的大小來判斷其為關(guān)鍵蛋白質(zhì)的可能性。這些中心性方法高度依賴蛋白質(zhì)相互作用網(wǎng)絡(luò)的精確性。但蛋白質(zhì)相互作用網(wǎng)絡(luò)是通過高通量生物實(shí)驗(yàn)獲得,包含了很多假陽性,很大地影響了關(guān)鍵蛋白質(zhì)識(shí)別的準(zhǔn)確率。

針對中心性拓?fù)涮卣髯R(shí)別關(guān)鍵蛋白質(zhì)的缺點(diǎn),研究人員提出一些新的識(shí)別方法進(jìn)一步提高關(guān)鍵蛋白質(zhì)的識(shí)別準(zhǔn)確率。如PeC關(guān)鍵蛋白質(zhì)識(shí)別方法將蛋白質(zhì)相互作用網(wǎng)絡(luò)與基因表達(dá)譜整合起來,ION關(guān)鍵蛋白質(zhì)識(shí)別方法主要結(jié)合了蛋白質(zhì)的同源特性和蛋白質(zhì)相互作用網(wǎng)絡(luò)?;谶叺木奂禂?shù)的關(guān)鍵蛋白質(zhì)識(shí)別方法。通過考慮蛋白質(zhì)本身及其周圍鄰居的聚集狀況來識(shí)別蛋白質(zhì)。此外,還有一些通過融合其他信息進(jìn)行關(guān)鍵蛋白質(zhì)識(shí)別的方法,如基于結(jié)構(gòu)域的關(guān)鍵蛋白質(zhì)識(shí)別方法,基于基因共表達(dá)的關(guān)鍵蛋白質(zhì)識(shí)別方法等。

近年來,有研究指出生物網(wǎng)絡(luò)存在顯著的模塊化特性,在蛋白質(zhì)網(wǎng)絡(luò)中表現(xiàn)為存在大量的蛋白質(zhì)復(fù)合物功能模塊。Hart等人提出關(guān)鍵性是蛋白質(zhì)復(fù)合物的一種屬性,并通過實(shí)驗(yàn)數(shù)據(jù)顯示出關(guān)鍵蛋白質(zhì)往往大量集中在某些復(fù)合物中。隨后Zotenko等人提出了關(guān)鍵復(fù)合物模塊的概念,并指出具有相同功能或相近生物功能的高度聯(lián)通的蛋白質(zhì)網(wǎng)絡(luò)功能模塊中具有大量關(guān)鍵蛋白質(zhì)。因此許多研究者提出基于蛋白質(zhì)復(fù)合物及功能模塊的關(guān)鍵蛋白質(zhì)識(shí)別方法。

盡管關(guān)鍵蛋白質(zhì)的識(shí)別問題越來越引起人們的關(guān)注,但目前結(jié)合網(wǎng)絡(luò)信息的識(shí)別方法的準(zhǔn)確率依舊較低,而且大多數(shù)方法都是孤立或者零碎地使用少數(shù)參數(shù)或特征分析關(guān)鍵蛋白質(zhì),對于結(jié)點(diǎn)缺乏從整體和全局上的把握。另外,當(dāng)前的關(guān)鍵蛋白識(shí)別方法大多基于靜態(tài)的蛋白質(zhì)相互作用網(wǎng)絡(luò)識(shí)別的,而生物體中蛋白質(zhì)的活性是隨著生物體的生命周期而變化的,因此構(gòu)建一個(gè)更能真實(shí)模仿生物體的動(dòng)態(tài)生命的蛋白質(zhì)相互作用網(wǎng)絡(luò)能幫助進(jìn)一步提升關(guān)鍵蛋白質(zhì)識(shí)別準(zhǔn)確率。

綜合上述關(guān)鍵蛋白質(zhì)識(shí)別方法的缺陷,主要有沒考慮蛋白質(zhì)相互作用網(wǎng)絡(luò)的動(dòng)態(tài)性,只考慮局部特征而忽視了網(wǎng)絡(luò)的全局性以及蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)的假陽性,關(guān)鍵蛋白質(zhì)識(shí)別準(zhǔn)確率低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種采用覓食機(jī)制的人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法,能真實(shí)地模擬蛋白質(zhì)相互作用網(wǎng)絡(luò)的動(dòng)態(tài)性,關(guān)鍵蛋白質(zhì)識(shí)別準(zhǔn)確度高。

為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:

采用覓食機(jī)制的人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法,包括以下步驟:

(1)將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化為無向圖

將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化成一個(gè)無向圖G=(V,E),其中,V={vi,i=1,2,…,n}為結(jié)點(diǎn)vi的集合,E為邊e的集合,結(jié)點(diǎn)vi表示蛋白質(zhì),邊e表示蛋白質(zhì)之間的相互作用;

(2)對蛋白質(zhì)相互作用網(wǎng)絡(luò)邊和結(jié)點(diǎn)的預(yù)處理

對結(jié)點(diǎn)vi預(yù)處理:按式(1)計(jì)算結(jié)點(diǎn)vi的介數(shù)中心性:

式中ρ(s,v,t)表示蛋白質(zhì)相互作用網(wǎng)絡(luò)中結(jié)點(diǎn)s與結(jié)點(diǎn)t之間經(jīng)過結(jié)點(diǎn)v的最短路徑的條數(shù),ρ(s,t)表示蛋白質(zhì)相互作用網(wǎng)絡(luò)中結(jié)點(diǎn)s與結(jié)點(diǎn)t之間的最短路徑的條數(shù);

按式(2)計(jì)算邊的聚集系數(shù):

式中,Z(vi,vj)表示包含邊(vi,vj)的三角形個(gè)數(shù),di,dj分別是點(diǎn)vi,vj的度;

按式(3)計(jì)算邊的皮爾森相關(guān)系數(shù):

式中,xi,yi表示蛋白質(zhì)vx,vy在時(shí)間點(diǎn)t時(shí)的基因表達(dá)值,μ(x),μ(y)是蛋白質(zhì)vx,vy的平均基因表達(dá)值,T為時(shí)間點(diǎn)的最大值;

(3)構(gòu)建動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)

在時(shí)間點(diǎn)t時(shí),蛋白質(zhì)vi的基因表達(dá)值GEit若大于基因表達(dá)閾值A(chǔ)T(i),則被認(rèn)為蛋白質(zhì)vi在時(shí)間點(diǎn)t具有活性;否則認(rèn)為該結(jié)點(diǎn)在時(shí)間點(diǎn)t不具有活性;將所有時(shí)間點(diǎn)的活性蛋白質(zhì)組合在一起,對應(yīng)到原靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中形成一個(gè)新的蛋白質(zhì)相互作用網(wǎng)絡(luò),即動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò);

GEit為蛋白質(zhì)vi在時(shí)間點(diǎn)t處的基因表達(dá)值;

基因表達(dá)閾值A(chǔ)T(i)由式(4)得到:

AT(i)=μ(i)+3σ(i)(1-F(i)) 式(4)

式中μ(i)是蛋白質(zhì)vi平均基因表達(dá)值,σ(i)是基因表達(dá)值的標(biāo)準(zhǔn)差,F(xiàn)(i)=1/(1+σ2(i))是權(quán)函數(shù);

(4)選取已知關(guān)鍵蛋白質(zhì)作為蜜源

令N為蜜源中包含的已知關(guān)鍵蛋白質(zhì)的數(shù)量,在目前已知的關(guān)鍵蛋白質(zhì)中隨機(jī)選取N個(gè)關(guān)鍵蛋白質(zhì)作為先驗(yàn)知識(shí)的蜜源;Ep_set表示蜜源包含的蛋白質(zhì)的集合;iter,maxiter分別表示當(dāng)前迭代次數(shù)和最大迭代次數(shù),iter=1,matxiter∈[100,800];

(5)采蜜蜂搜索蜜源鄰域

蜜源的鄰域即與蜜源蛋白質(zhì)有相互作用的蛋白質(zhì)結(jié)點(diǎn)集合niber_set1,每一個(gè)鄰域結(jié)點(diǎn)看作一只采蜜蜂;按照score1(i)=relevant(vi,,Ep_set)確定采蜜蜂當(dāng)前所在位置的蜜源收益度及該鄰域結(jié)點(diǎn)成為新蜜源的可能性,式中score1(i)為采蜜蜂當(dāng)前位置的蜜源收益度,vi是采蜜蜂所代表的蛋白質(zhì)結(jié)點(diǎn),relevant表示蛋白質(zhì)結(jié)點(diǎn)vi與當(dāng)前蜜源集合Ep_set之間的關(guān)聯(lián)度;

(6)跟隨蜂搜索采蜜蜂鄰域

設(shè)采蜜蜂vi的鄰域即與采蜜蜂所代表的蛋白質(zhì)有相互作用且不在當(dāng)前蜜源集合Ep_set內(nèi)的蛋白質(zhì)結(jié)點(diǎn)集合為niber_set2;跟隨蜂接收采蜜蜂的信息并且對采蜜蜂的鄰域進(jìn)行搜索,即跟隨蜂根據(jù)公式score2(i)=fitness(vi,,niber_set2,Ep_set)確定當(dāng)前位置成為新蜜源的可能性,式中vi是采蜜蜂所代表的蛋白質(zhì)結(jié)點(diǎn),niber_set2表示采蜜蜂的鄰域蛋白質(zhì)結(jié)點(diǎn),fitness表示當(dāng)前位置成為蜜源的適應(yīng)度;

(7)更新蜜源

對蛋白質(zhì)結(jié)點(diǎn)集合niber_set1中的結(jié)點(diǎn)按照其score2得分進(jìn)行降序排序,將score2的值最高的結(jié)點(diǎn)設(shè)為最優(yōu)蜜源位置g_best,將score2第二高的結(jié)點(diǎn)作為次優(yōu)候選蜜源s_best;若score2(g_best)-score2(s_best)>閾值thd,則將g_best作為新蜜源并入到集合Ep_set中,并轉(zhuǎn)向步驟(5);否則轉(zhuǎn)向步驟(8);iter迭代加1;

(8)偵查蜂全局搜索新蜜源

偵查蜂對蛋白質(zhì)相互作用網(wǎng)絡(luò)中的除蜜源外的其它蛋白質(zhì)進(jìn)行介數(shù)中心性計(jì)算;然后根據(jù)介數(shù)中心性的值BC對所有結(jié)點(diǎn)進(jìn)行降序排序,選出介數(shù)中心性值最大的結(jié)點(diǎn)作為最優(yōu)蜜源位置g_best;

(9)更新蜜源

將最優(yōu)蜜源位置g_best作為新蜜源并入到集合Ep_set中;

(10)產(chǎn)生關(guān)鍵蛋白質(zhì)

若iter的值小于等于maxiter,轉(zhuǎn)向步驟(5);否則,將集合Ep_set中的蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)輸出。

進(jìn)一步,步驟(5)中蛋白質(zhì)結(jié)點(diǎn)vi與當(dāng)前蜜源集合Ep_set之間的關(guān)聯(lián)度relevant由式(5)得到:

式中vj是蜜源集合EP_set里面的蛋白質(zhì)結(jié)點(diǎn),ECC是結(jié)點(diǎn)vi與結(jié)點(diǎn)vj之間的邊的聚集系數(shù)由公式(2)得到,PCC是結(jié)點(diǎn)vi與結(jié)點(diǎn)vj之間的邊的皮爾森聚集系數(shù)由公式(3)得到。

進(jìn)一步,步驟(6)中當(dāng)前位置成為蜜源的適應(yīng)度fitness由式(6)得到:

式中,niber_set2表示采蜜蜂vi的鄰域蛋白質(zhì)結(jié)點(diǎn)集合,Ep_set表示當(dāng)前蜜源集合。

本發(fā)明與現(xiàn)有的方法相比,具有以下優(yōu)點(diǎn):

1、本發(fā)明基于部分已知關(guān)鍵蛋白質(zhì)先驗(yàn)知識(shí),通過采蜜蜂和跟隨蜂對當(dāng)前蜜源關(guān)鍵蛋白質(zhì)的鄰居結(jié)點(diǎn)以及鄰居結(jié)點(diǎn)的鄰居結(jié)點(diǎn)進(jìn)行搜索來完成關(guān)鍵蛋白質(zhì)的局部預(yù)測,這種二級(jí)搜索不僅考慮到蜜源的局部結(jié)點(diǎn)特性,還進(jìn)一步考慮到了蜜源的鄰居結(jié)點(diǎn)的鄰居的局部特性,能夠比當(dāng)前的一級(jí)局部搜索蛋白質(zhì)復(fù)合物識(shí)別方法更好地體現(xiàn)出關(guān)鍵蛋白質(zhì)在蛋白質(zhì)相互作用網(wǎng)絡(luò)中的特性。

2、本發(fā)明中當(dāng)采蜜蜂與跟隨蜂在局部探索不到最優(yōu)解關(guān)鍵蛋白質(zhì)時(shí),使用偵查蜂對全局進(jìn)行搜索來確定最優(yōu)解,這樣在預(yù)測關(guān)鍵蛋白質(zhì)的過程中不僅考慮到關(guān)鍵蛋白質(zhì)的局部特性,還綜合考慮到了關(guān)鍵蛋白質(zhì)在網(wǎng)絡(luò)中的全局特性,解決了當(dāng)前關(guān)鍵蛋白質(zhì)預(yù)測不能總體考慮網(wǎng)絡(luò)全局性的缺點(diǎn)。

3、本發(fā)明模擬人工蜂群的覓食過程來識(shí)別關(guān)鍵蛋白質(zhì),綜合考慮了蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)涮匦院蛣?dòng)態(tài)性,蛋白質(zhì)的基因表達(dá)值,先驗(yàn)知識(shí),并加入人工蜂群的覓食優(yōu)化機(jī)理,多方面特征的使用使得采用本發(fā)明識(shí)別出來的關(guān)鍵蛋白質(zhì)的準(zhǔn)確度要比目前采用其他關(guān)鍵蛋白質(zhì)識(shí)別方法識(shí)別的準(zhǔn)確度高。

4、采用本發(fā)明的結(jié)果能夠有效地識(shí)別蛋白質(zhì)相互作用網(wǎng)絡(luò)里的關(guān)鍵蛋白質(zhì),為研究人員探討重大疾病的機(jī)理、疾病治療、疾病預(yù)防和新藥開發(fā)提供了理論基礎(chǔ),并能幫助我們理解生命體維持生命活動(dòng)所需要的基本需求。本發(fā)明識(shí)別的關(guān)鍵蛋白質(zhì)能夠幫助研究人員從蛋白質(zhì)組和基因組層次上為生物學(xué)和醫(yī)藥學(xué)等領(lǐng)域提供重要信息,其研究不僅有助于了解細(xì)胞的生長調(diào)節(jié)過程,而且對于基因疾病的發(fā)現(xiàn)及藥物靶標(biāo)的設(shè)計(jì)有著重要意義。

【附圖說明】

圖1是本發(fā)明實(shí)施例1的工藝流程圖

圖2是采用實(shí)施例1得出的關(guān)鍵蛋白質(zhì)在整個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò)中的部分示意圖

圖3是圖2對應(yīng)的標(biāo)準(zhǔn)庫中關(guān)鍵蛋白質(zhì)情況

【具體實(shí)施方式】

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

如圖1所示,本發(fā)明采用覓食機(jī)制的人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法,包括以下步驟:

(1)將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化為無向圖

將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化成一個(gè)無向圖G=(V,E),其中,V={vi,i=1,2,…,n}為結(jié)點(diǎn)vi的集合,E為邊e的集合,結(jié)點(diǎn)vi表示蛋白質(zhì),邊e表示蛋白質(zhì)之間的相互作用;

(2)對蛋白質(zhì)相互作用網(wǎng)絡(luò)邊和結(jié)點(diǎn)的預(yù)處理

對結(jié)點(diǎn)vi預(yù)處理:按式(1)計(jì)算結(jié)點(diǎn)vi的介數(shù)中心性:

式中ρ(s,v,t)表示蛋白質(zhì)相互作用網(wǎng)絡(luò)中結(jié)點(diǎn)s與結(jié)點(diǎn)t之間經(jīng)過結(jié)點(diǎn)v的最短路徑的條數(shù),ρ(s,t)表示蛋白質(zhì)相互作用網(wǎng)絡(luò)中結(jié)點(diǎn)s與結(jié)點(diǎn)t之間的最短路徑的條數(shù);

按式(2)計(jì)算邊的聚集系數(shù):

式中,Z(vi,vj)表示包含邊(vi,vj)的三角形個(gè)數(shù),di,dj分別是點(diǎn)vi,vj的度;

按式(3)計(jì)算邊的皮爾森相關(guān)系數(shù):

式中,xi,yi表示蛋白質(zhì)vx,vy在時(shí)間點(diǎn)t時(shí)的基因表達(dá)值,μ(x),μ(y)是蛋白質(zhì)vx,vy的平均基因表達(dá)值,T為時(shí)間點(diǎn)的最大值;

(3)構(gòu)建動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)

在時(shí)間點(diǎn)t時(shí),蛋白質(zhì)vi的基因表達(dá)值GEit若大于基因表達(dá)閾值A(chǔ)T(i),則被認(rèn)為蛋白質(zhì)vi在時(shí)間點(diǎn)t具有活性;否則認(rèn)為該結(jié)點(diǎn)在時(shí)間點(diǎn)t不具有活性;將所有時(shí)間點(diǎn)的活性蛋白質(zhì)組合在一起,對應(yīng)到原靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中形成一個(gè)新的蛋白質(zhì)相互作用網(wǎng)絡(luò),即動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò);

GEit為蛋白質(zhì)vi在時(shí)間點(diǎn)t處的基因表達(dá)值;

基因表達(dá)閾值A(chǔ)T(i)由式(4)得到:

AT(i)=μ(i)+3σ(i)(1-F(i)) 式(4)

式中μ(i)是蛋白質(zhì)vi平均基因表達(dá)值,σ(i)是基因表達(dá)值的標(biāo)準(zhǔn)差,F(xiàn)(i)=1/(1+σ2(i))是權(quán)函數(shù);

(4)選取已知關(guān)鍵蛋白質(zhì)作為蜜源

令N為蜜源中包含的已知關(guān)鍵蛋白質(zhì)的數(shù)量,在目前已知的關(guān)鍵蛋白質(zhì)中隨機(jī)選取N個(gè)關(guān)鍵蛋白質(zhì)作為先驗(yàn)知識(shí)的蜜源;Ep_set表示蜜源包含的蛋白質(zhì)的集合;iter,maxiter分別表示當(dāng)前迭代次數(shù)和最大迭代次數(shù),iter=1,matxiter∈[100,800];

(5)采蜜蜂搜索蜜源鄰域

蜜源的鄰域即與蜜源蛋白質(zhì)有相互作用的蛋白質(zhì)結(jié)點(diǎn)集合niber_set1,每一個(gè)鄰域結(jié)點(diǎn)看作一只采蜜蜂;按照score1(i)=relevant(vi,,Ep_set)確定采蜜蜂當(dāng)前所在位置的蜜源收益度及該鄰域結(jié)點(diǎn)成為新蜜源的可能性,式中score1(i)為采蜜蜂當(dāng)前位置的蜜源收益度,vi是采蜜蜂所代表的蛋白質(zhì)結(jié)點(diǎn),relevant表示蛋白質(zhì)結(jié)點(diǎn)vi與當(dāng)前蜜源集合Ep_set之間的關(guān)聯(lián)度;

(6)跟隨蜂搜索采蜜蜂鄰域

設(shè)采蜜蜂vi的鄰域即與采蜜蜂所代表的蛋白質(zhì)有相互作用且不在當(dāng)前蜜源集合Ep_set內(nèi)的蛋白質(zhì)結(jié)點(diǎn)集合為niber_set2;跟隨蜂接收采蜜蜂的信息并且對采蜜蜂的鄰域進(jìn)行搜索,即跟隨蜂根據(jù)公式score2(i)=fitness(vi,,niber_set2,Ep_set)確定當(dāng)前位置成為新蜜源的可能性,式中vi是采蜜蜂所代表的蛋白質(zhì)結(jié)點(diǎn),niber_set2表示采蜜蜂的鄰域蛋白質(zhì)結(jié)點(diǎn),fitness表示當(dāng)前位置成為蜜源的適應(yīng)度;

(7)更新蜜源

對蛋白質(zhì)結(jié)點(diǎn)集合niber_set1中的結(jié)點(diǎn)按照其score2得分進(jìn)行降序排序,將score2的值最高的結(jié)點(diǎn)設(shè)為最優(yōu)蜜源位置g_best,將score2第二高的結(jié)點(diǎn)作為次優(yōu)候選蜜源s_best;若score2(g_best)-score2(s_best)>閾值thd,則將g_best作為新蜜源并入到集合Ep_set中,并轉(zhuǎn)向步驟(5);否則轉(zhuǎn)向步驟(8);iter迭代加1;

(8)偵查蜂全局搜索新蜜源

偵查蜂對蛋白質(zhì)相互作用網(wǎng)絡(luò)中的除蜜源外的其它蛋白質(zhì)進(jìn)行介數(shù)中心性計(jì)算;然后根據(jù)介數(shù)中心性的值BC對所有結(jié)點(diǎn)進(jìn)行降序排序,選出介數(shù)中心性值最大的結(jié)點(diǎn)作為最優(yōu)蜜源位置g_best;

(9)更新蜜源

將最優(yōu)蜜源位置g_best作為新蜜源并入到集合Ep_set中;

(10)產(chǎn)生關(guān)鍵蛋白質(zhì)

若iter的值小于等于maxiter,轉(zhuǎn)向步驟(5);否則,將集合Ep_set中的蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)輸出。

本發(fā)明的步驟(5)中蛋白質(zhì)結(jié)點(diǎn)vi與當(dāng)前蜜源集合Ep_set之間的關(guān)聯(lián)度relevant由式(5)得到:

式中vj是蜜源集合EP_set里面的蛋白質(zhì)結(jié)點(diǎn),ECC是結(jié)點(diǎn)vi與結(jié)點(diǎn)vj之間的邊的聚集系數(shù)由公式(2)得到,PCC是結(jié)點(diǎn)vi與結(jié)點(diǎn)vj之間的邊的皮爾森聚集系數(shù)由公式(3)得到;

本發(fā)明的步驟(8)中當(dāng)前位置成為蜜源的適應(yīng)度fitness由式(6)得到:

式中,niber_set2表示采蜜蜂vi的鄰域蛋白質(zhì)結(jié)點(diǎn),Ep_set表示當(dāng)前蜜源。

以下通過具體實(shí)施例對本發(fā)明進(jìn)一步詳細(xì)說明:

實(shí)施例1

以蛋白質(zhì)網(wǎng)絡(luò)為例一種采用覓食機(jī)制的人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法的步驟如下:

本實(shí)施例以采自DIP數(shù)據(jù)庫的酵母數(shù)據(jù)集(DIP 20140427版)作為仿真數(shù)據(jù)集,DIP數(shù)據(jù)包含了4995個(gè)蛋白質(zhì)和21554個(gè)相互作用關(guān)系。基因表達(dá)數(shù)據(jù)集采自GEO數(shù)據(jù)庫中的酵母新陳代謝表達(dá)數(shù)據(jù)集GSE3431,其中包括6777個(gè)基因,3個(gè)周期共36個(gè)時(shí)間點(diǎn)的基因值,覆蓋了DIP中的95%的蛋白質(zhì)。關(guān)鍵蛋白質(zhì)數(shù)據(jù)通過整合MIPS、SGD、DEG和SGDP四個(gè)數(shù)據(jù)庫中的數(shù)據(jù)得到,共包含了1167個(gè)關(guān)鍵蛋白質(zhì)。實(shí)驗(yàn)平臺(tái)為Windows 7操作系統(tǒng),Intel酷睿2雙核3.1GHz處理器,4GB物理內(nèi)存,用Matlab R2010b軟件實(shí)現(xiàn)本發(fā)明的方法。

1、將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化為無向圖

將包含4995個(gè)蛋白質(zhì)和21554個(gè)相互作用關(guān)系的蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化成一個(gè)無向圖G=(V,E),其中,V={vi,i=1,2,…,4995}為結(jié)點(diǎn)vi的集合,E為21554個(gè)邊e的集合,結(jié)點(diǎn)vi表示蛋白質(zhì),邊e表示蛋白質(zhì)之間的相互作用。

2、對蛋白質(zhì)相互作用網(wǎng)絡(luò)邊和結(jié)點(diǎn)的預(yù)處理

對結(jié)點(diǎn)vi預(yù)處理:i=1,2,…,4995,每給定一個(gè)確定的i,可計(jì)算出結(jié)點(diǎn)i的介數(shù)中心性,按式(1)計(jì)算結(jié)點(diǎn)vi的介數(shù)中心性:

式中ρ(s,v,t)表示蛋白質(zhì)相互作用網(wǎng)絡(luò)中結(jié)點(diǎn)s與結(jié)點(diǎn)t之間經(jīng)過結(jié)點(diǎn)v的最短路徑的條數(shù),ρ(s,t)表示蛋白質(zhì)相互作用網(wǎng)絡(luò)中結(jié)點(diǎn)s與結(jié)點(diǎn)t之間的最短路徑的條數(shù);按式(2)計(jì)算邊的聚集系數(shù):

式中,Z(vi,vj)表示包含邊(vi,vj)的三角形個(gè)數(shù),di,dj分別是點(diǎn)vi,vj的度;按式(3)計(jì)算邊的皮爾森相關(guān)系數(shù):

式中,xi,yi表示蛋白質(zhì)vx,vy在時(shí)間點(diǎn)t時(shí)的基因表達(dá)值,μ(x),μ(y)是蛋白質(zhì)vx,vy的平均基因表達(dá)值,T為時(shí)間點(diǎn)的最大值。

3、構(gòu)建動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)

在時(shí)間點(diǎn)t時(shí),蛋白質(zhì)vi的基因表達(dá)值GEit若大于基因表達(dá)閾值A(chǔ)T(i),則被認(rèn)為蛋白質(zhì)vi在時(shí)間點(diǎn)t具有活性;否則認(rèn)為該結(jié)點(diǎn)在時(shí)間點(diǎn)t不具有活性;基因表達(dá)閾值A(chǔ)T(i)由式(4)得到:

AT(i)=μ(i)+3σ(i)(1-F(i)) 式(4)

式中μ(i)是蛋白質(zhì)vi基因表達(dá)值,σ(i)是基因表達(dá)值的標(biāo)準(zhǔn)差,F(xiàn)(i)=1/(1+σ2(i))是權(quán)函數(shù)。通過上述處理,可以得到每個(gè)蛋白質(zhì)結(jié)點(diǎn)在每個(gè)時(shí)間點(diǎn)是否為活性。將所有時(shí)間點(diǎn)的活性蛋白質(zhì)組合在一起,對應(yīng)到原靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中,刪除在任何一個(gè)時(shí)間點(diǎn)都沒活性的蛋白質(zhì)結(jié)點(diǎn)以及與之相連接的邊,形成一個(gè)新的具有3172個(gè)蛋白質(zhì)結(jié)點(diǎn)和10234條邊的蛋白質(zhì)相互作用網(wǎng)絡(luò),即動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)。

4、選取已知關(guān)鍵蛋白質(zhì)作為蜜源

令N為蜜源中包含的已知關(guān)鍵蛋白質(zhì)的數(shù)量,在目前已知的1167個(gè)關(guān)鍵蛋白質(zhì)中隨機(jī)選取N=100個(gè)關(guān)鍵蛋白質(zhì)作為先驗(yàn)知識(shí)的蜜源;Ep_set表示蜜源包含的蛋白質(zhì)的集合,即隨機(jī)從已知的1167個(gè)關(guān)鍵蛋白質(zhì)結(jié)點(diǎn)中選取的100個(gè)蛋白質(zhì)結(jié)點(diǎn);iter,maxiter分別表示當(dāng)前迭代次數(shù)和最大迭代次數(shù),iter=1,matxiter∈[100,1200]。

5、采蜜蜂搜索蜜源鄰域

蜜源的鄰域即與蜜源蛋白質(zhì)有相互作用的蛋白質(zhì)結(jié)點(diǎn)集合niber_set1,每一個(gè)鄰域節(jié)點(diǎn)看作一只采蜜蜂;按照score1(i)=relevant(vi,,Ep_set)確定采蜜蜂當(dāng)前所在位置的蜜源收益度及該鄰域結(jié)點(diǎn)成為新蜜源的可能性,式中score1(i)為采蜜蜂當(dāng)前位置的蜜源收益度,vi是采蜜蜂所代表的蛋白質(zhì)結(jié)點(diǎn),relevant表示蛋白質(zhì)結(jié)點(diǎn)vi與當(dāng)前蜜源集合Ep_set之間的關(guān)聯(lián)度,關(guān)聯(lián)度由式(5)得到:

式中vj是蜜源集合EP_set里面的蛋白質(zhì)結(jié)點(diǎn),ECC是結(jié)點(diǎn)vi與結(jié)點(diǎn)vj之間的邊的聚集系數(shù)由公式(2)得到,PCC是結(jié)點(diǎn)vi與結(jié)點(diǎn)vj之間的邊的皮爾森相關(guān)系數(shù)由公式(3)得到。

6、跟隨蜂搜索采蜜蜂鄰域

設(shè)采蜜蜂vi的鄰域即與采蜜蜂所代表的蛋白質(zhì)有相互作用且不在當(dāng)前蜜源集合Ep_set內(nèi)的蛋白質(zhì)結(jié)點(diǎn)集合為niber_set2;跟隨蜂接收采蜜蜂的信息并且對采蜜蜂的鄰域進(jìn)行搜索,即跟隨蜂根據(jù)公式score2(i)=fitness(vi,,niber_set2,Ep_set)確定當(dāng)前位置成為新蜜源的可能性,式中vi是采蜜蜂所代表的蛋白質(zhì)結(jié)點(diǎn),niber_set2表示采蜜蜂的鄰域蛋白質(zhì)結(jié)點(diǎn),fitness表示當(dāng)前位置成為蜜源的適應(yīng)度,由式(6)得到:

式中,niber_set2表示采蜜蜂vi的鄰域蛋白質(zhì)結(jié)點(diǎn),Ep_set表示當(dāng)前蜜源。

7、更新蜜源

對集合niber_set1中的結(jié)點(diǎn)按照其score2得分進(jìn)行降序排序,將score2的值最高的結(jié)點(diǎn)設(shè)為最優(yōu)蜜源位置g_best,將score2第二高的結(jié)點(diǎn)作為次優(yōu)候選蜜源s_best;若score2(g_best)-score2(s_best)>閾值thd,則將g_best作為新蜜源并入到集合Ep_set中,并轉(zhuǎn)向步驟(5);否則轉(zhuǎn)向步驟(8);iter迭代加1。

8、偵查蜂全局搜索新蜜源

偵查蜂對蛋白質(zhì)相互作用網(wǎng)絡(luò)中的除蜜源外的其它蛋白質(zhì)進(jìn)行介數(shù)中心性計(jì)算;然后根據(jù)由公式(1)得到的介數(shù)中心性的值BC對所有結(jié)點(diǎn)進(jìn)行一個(gè)降序排序,選出介數(shù)中心性值最大的結(jié)點(diǎn)作為最優(yōu)蜜源位置g_best;

9、更新蜜源

將g_best作為新蜜源并入到集合Ep_set中;

10、產(chǎn)生關(guān)鍵蛋白質(zhì)

若iter的值小于等于maxiter,轉(zhuǎn)向步驟(5);否則,將集合Ep_set中的蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)輸出。

為了驗(yàn)證本發(fā)明的有益效果,發(fā)明人采用本發(fā)明實(shí)施例1人工蜂群優(yōu)化算法識(shí)別關(guān)鍵蛋白質(zhì)的方法對DIP數(shù)據(jù)庫中的蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行關(guān)鍵蛋白質(zhì)的識(shí)別,對識(shí)別的關(guān)鍵蛋白質(zhì)的前600個(gè)關(guān)鍵蛋白質(zhì)進(jìn)行分析,結(jié)果見表1圖2圖3,表1顯示了與當(dāng)前其他識(shí)別關(guān)鍵蛋白質(zhì)的方法識(shí)別出來的結(jié)果進(jìn)行對比準(zhǔn)確率的比較。在圖2中顯示了本發(fā)明識(shí)別的部分關(guān)鍵蛋白質(zhì)在網(wǎng)絡(luò)中的分布情況,圖3顯示了圖2的對應(yīng)標(biāo)準(zhǔn)庫部分。

表1本發(fā)明與其他方法識(shí)別的關(guān)鍵蛋白質(zhì)在準(zhǔn)確率上的比較

表2顯示了本發(fā)明識(shí)別出的結(jié)果中的前600個(gè)關(guān)鍵蛋白質(zhì)與標(biāo)準(zhǔn)庫中關(guān)鍵蛋白質(zhì)作比較的準(zhǔn)確率,以及與當(dāng)前其他識(shí)別關(guān)鍵蛋白質(zhì)方法識(shí)別結(jié)果的比較。與傳統(tǒng)的6個(gè)中心性方法比較時(shí)顯示本發(fā)明識(shí)別的前600個(gè)關(guān)鍵蛋白質(zhì)中準(zhǔn)確的概率都比六個(gè)中心性方法要好,與當(dāng)前較新的LAC及NC方法相比較時(shí),本發(fā)明識(shí)別出的結(jié)果的前400個(gè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確率要遠(yuǎn)遠(yuǎn)比當(dāng)前的新方法的結(jié)果準(zhǔn)確率高。由表2看出,本發(fā)明能有效地識(shí)別關(guān)鍵蛋白質(zhì),特別是在識(shí)別的結(jié)果的前部分,有著很高的準(zhǔn)確率。圖2顯示了本發(fā)明識(shí)別出的部分關(guān)鍵蛋白質(zhì)在蛋白質(zhì)相互作用網(wǎng)絡(luò)中的位置。圖2中不帶背景顏色的是本發(fā)明正確識(shí)別出來的關(guān)鍵蛋白質(zhì),帶深色背景的是非關(guān)鍵蛋白質(zhì),帶淺色的是錯(cuò)誤識(shí)別出來的關(guān)鍵蛋白質(zhì)。圖3是圖2對應(yīng)的標(biāo)準(zhǔn)庫中的關(guān)鍵蛋白質(zhì)情況。通過圖2和圖3的對比可以發(fā)現(xiàn),本發(fā)明識(shí)別出的錯(cuò)誤的蛋白質(zhì)有“YGL163W”“YLR191W”,漏識(shí)別的關(guān)鍵蛋白質(zhì)有“YBR103W”。若以中心部分為先驗(yàn)知識(shí)關(guān)鍵蛋白質(zhì),則本發(fā)明方法能正確識(shí)別出該先驗(yàn)知識(shí)周圍的大部分關(guān)鍵蛋白質(zhì)。

以上所述是本發(fā)明的優(yōu)選實(shí)施方式,通過上述說明內(nèi)容,本技術(shù)領(lǐng)域的相關(guān)工作人員可以在不偏離本發(fā)明技術(shù)原理的前提下,進(jìn)行多樣的改進(jìn)和替換,這些改進(jìn)和替換也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
深水埗区| 广河县| 靖州| 汝南县| 汶川县| 嘉荫县| 安多县| 宁陕县| 古蔺县| 枣阳市| 勃利县| 凌海市| 永宁县| 宜宾市| 阿鲁科尔沁旗| 亚东县| 大石桥市| 嵩明县| 镇坪县| 夹江县| 武邑县| 确山县| 西华县| 英吉沙县| 家居| 青岛市| 罗田县| 宁强县| 绥棱县| 龙井市| 博野县| 井冈山市| 大埔县| 丹巴县| 公主岭市| 彭州市| 克山县| 筠连县| 白水县| 曲沃县| 巴东县|