欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物的制作方法

文檔序號:10512558閱讀:577來源:國知局
采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物的制作方法
【專利摘要】一種采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物,由如下步驟組成:將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化為無向圖、對蛋白質(zhì)相互作用網(wǎng)絡(luò)邊和結(jié)點預(yù)處理、構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)、設(shè)置參數(shù)、形成果蠅的位置、對應(yīng)果蠅到蛋白質(zhì)相互作用的網(wǎng)絡(luò)中、確定初始化果蠅位置、確定果蠅氣味濃度、更新果蠅位置、產(chǎn)生蛋白質(zhì)復(fù)合物、過濾蛋白質(zhì)復(fù)合物。該方法考慮了蛋白質(zhì)網(wǎng)絡(luò)的動態(tài)性、蛋白質(zhì)復(fù)合物內(nèi)部核心‐附件結(jié)構(gòu)以及蛋白質(zhì)相互作用網(wǎng)絡(luò)的局部性和全局性,能準(zhǔn)確地識別蛋白質(zhì)復(fù)合物。仿真實驗結(jié)果表明,正確率、查全率等指標(biāo)性能較優(yōu)。與其他聚類方法相比,結(jié)合蛋白質(zhì)網(wǎng)絡(luò)和蛋白質(zhì)復(fù)合物特性,實現(xiàn)蛋白質(zhì)復(fù)合物識別過程,提高了蛋白質(zhì)復(fù)合物的識別準(zhǔn)確率。
【專利說明】
采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于生物信息領(lǐng)域,具體涉及一種動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中蛋白質(zhì)復(fù)合 物的識別方法。
【背景技術(shù)】
[0002] 目前,隨著高通量技術(shù)的誕生,大量的蛋白質(zhì)相互作用(蛋白質(zhì)相互作用)數(shù)據(jù)被 檢測出來,通過計算機(jī)檢測蛋白質(zhì)復(fù)合物以了解未知蛋白質(zhì)的功能和預(yù)測疾病變得越來越 重要。蛋白質(zhì)之間的相互作用是隨著細(xì)胞進(jìn)入不同的生命周期進(jìn)行著不同變化的,因此在 聚類前構(gòu)建一個能更真實地模擬蛋白質(zhì)之間動態(tài)相互作用的網(wǎng)絡(luò)對蛋白質(zhì)復(fù)合物的識別 起著至關(guān)重要的作用。目前通過計算機(jī)聚類識別蛋白質(zhì)復(fù)合物的方法大多數(shù)作用于靜態(tài)蛋 白質(zhì)相互作用網(wǎng)絡(luò),忽視了蛋白質(zhì)之間聯(lián)系的動態(tài)變化。
[0003] 現(xiàn)有的蛋白質(zhì)復(fù)合物識別方法有很多種,通過判別是否考慮到蛋白質(zhì)相互作用網(wǎng) 絡(luò)的全局結(jié)構(gòu),聚類方法主要分為全局聚類方法和局部聚類方法。但由于蛋白質(zhì)相互作用 網(wǎng)絡(luò)的小世界無尺度特性,方法本身對噪音數(shù)據(jù)敏感等缺陷,當(dāng)前的這些蛋白質(zhì)復(fù)合物識 別方法準(zhǔn)確率低,聚類效果不理想。
[0004] 全局聚類方法是通過劃整個蛋白質(zhì)相互作用網(wǎng)絡(luò)成為分開的獨立子網(wǎng)來挖掘蛋 白質(zhì)復(fù)合物,其代表方法有G-N算法和馬爾科夫(Markov Clustering algorithm,MCL)算 法。G-N算法通過計算蛋白質(zhì)相互作用網(wǎng)絡(luò)中邊的介數(shù),然后不斷移除網(wǎng)絡(luò)中高介數(shù)邊來分 裂網(wǎng)絡(luò)得到單個子網(wǎng)。該方法計算介數(shù)的代價高且未考慮復(fù)合物的局部特性,效率和蛋白 質(zhì)識別的準(zhǔn)確率低。MCL算法主要是通過模擬隨機(jī)游走來檢測蛋白質(zhì)復(fù)合物。隨機(jī)游走從一 個初始點開始,通過連接邊的權(quán)重比例選擇一個鄰居節(jié)點移動。如果這個隨機(jī)步進(jìn)入一個 高密度區(qū)域,將很難走出來。基于這個原理MCL通過(expansion和inflation)兩個操作將蛋 白質(zhì)相互作用網(wǎng)絡(luò)劃分成不重疊的子網(wǎng)。MCL在蛋白質(zhì)復(fù)合物的探測中表現(xiàn)出很好的性能, 但其只能產(chǎn)生不重疊的子網(wǎng),而蛋白質(zhì)復(fù)合物之間的高度重疊,存在著很多功能復(fù)合物。全 局聚類方法雖然考慮到了網(wǎng)絡(luò)的全局性,但不能識別重疊的蛋白質(zhì)復(fù)合物以及忽略掉蛋白 質(zhì)復(fù)合物的內(nèi)部結(jié)構(gòu)特性,是不可避免的缺點。
[0005] 局部聚類方法檢測蛋白質(zhì)復(fù)合物主要是通過考慮局部鄰居結(jié)點而不是全局網(wǎng)絡(luò) 進(jìn)行聚類。主要有極大團(tuán)(maximal clique algorithm,CMC)算法,小團(tuán)體過濾法(Clique percolation Method,CPM),分子復(fù)合物檢測(Molecular Complex Detection,MC0DE)算法 等。CMC聚類算法枚舉所有最大簇的方法識別蛋白質(zhì)復(fù)合物,枚舉的時間復(fù)雜度高且忽略掉 復(fù)合物中較小的類簇,性能低。CPM是基于團(tuán)滲透的算法,將具有k-Ι個公共結(jié)點的全連通圖 進(jìn)行合并以形成最終的簇。這種方法嚴(yán)格要求一個蛋白質(zhì)復(fù)合物總是包含一個最大的團(tuán) 體,現(xiàn)實中的蛋白質(zhì)復(fù)合卻是大小不一的團(tuán)體,會漏掉很多較小的蛋白質(zhì)復(fù)合物。
[0006] -些尋找局部密度子圖的方法被提出,這些方法先初始化簇為一個頂點,通過不 同的啟發(fā)標(biāo)準(zhǔn)將周圍的鄰居結(jié)點聚到簇中,并過濾掉密度較小的類簇。例如MC0DE算法,先 通過每個結(jié)點的鄰居結(jié)點的局部密度給結(jié)點附權(quán)重值,將權(quán)重高的結(jié)點選出來當(dāng)種子結(jié) 點,通過不斷擴(kuò)充種子結(jié)點來形成最終的類簇。MCODE可以挖掘重疊的簇,時間復(fù)雜度低,對 噪聲數(shù)據(jù)的魯棒性比較差。基于局部密度的蛋白質(zhì)識別方法還有很多,如HC-PIN,SPIC, ClusterOne 等等。
[0007] 上述基于局部密度的局部聚類方法的蛋白質(zhì)復(fù)合物的識別結(jié)果并不是很理想,因 為其忽略了蛋白質(zhì)復(fù)合物的內(nèi)在結(jié)構(gòu)。近年的研究表明,一個蛋白質(zhì)復(fù)合物由一個核心簇 和多個復(fù)件蛋白構(gòu)成?;诘鞍踪|(zhì)復(fù)合物的核心附件結(jié)構(gòu)提出了核心聚類法(CORE)和基于 核心附件的聚類法(Core-attachment based method,COACH)。CORE通過計算每一對蛋白質(zhì) 的P-Va 1 ue來檢測核心而COACH通過檢測密度子圖作為核心。對于每個核心的附件蛋白,如 果一個蛋白質(zhì)與核心里大于一半的蛋白質(zhì)相連,認(rèn)為這個蛋白質(zhì)是這個核心的附件蛋白。 COACH對蛋白質(zhì)復(fù)合物的預(yù)測性能比其他忽視了蛋白質(zhì)復(fù)合物內(nèi)部結(jié)構(gòu)的聚類方法更好。
[0008] 最近提出一些新的基于蛋白質(zhì)復(fù)合物核心附件結(jié)構(gòu)的聚類方法,對于核心和附件 的定義沒有統(tǒng)一標(biāo)準(zhǔn)。局部聚類方法的優(yōu)點是能檢測重疊的蛋白質(zhì)并且容易實現(xiàn)。但是他 們產(chǎn)生蛋白質(zhì)復(fù)合物主要通過一些啟發(fā)式規(guī)則而沒能考慮到整個蛋白質(zhì)相互作用的網(wǎng)絡(luò) 特性。
[0009] 上述聚類方法的缺陷沒有考慮到蛋白質(zhì)相互作用網(wǎng)絡(luò)的動態(tài)性,不能同時考慮到 整個蛋白質(zhì)相互作用網(wǎng)絡(luò)的全局特性和局部特性以及蛋白質(zhì)復(fù)合物的內(nèi)部結(jié)構(gòu),蛋白質(zhì)復(fù) 合物識別的準(zhǔn)確率低。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明要解決的技術(shù)問題在于克服上述蛋白質(zhì)復(fù)合物識別方法的缺點,提供一種 采用果蠅覓食機(jī)理,準(zhǔn)確度高、能真實地模擬蛋白質(zhì)相互作用網(wǎng)絡(luò)的動態(tài)性的采用果蠅優(yōu) 化方法識別蛋白質(zhì)復(fù)合物。
[0011] 解決上述技術(shù)問題所采用的技術(shù)方案由下述步驟組成:
[0012] 1、將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化為無向圖
[0013]將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化成一個無向圖G=(V,E),其中,V={vi,i = l,2,~,n} 為結(jié)點Vi的集合,E為邊e的集合,結(jié)點Vi表示蛋白質(zhì),邊e表示蛋白質(zhì)之間的相互作用,Wij表 示結(jié)點Vi與結(jié)點Vj之間的連接情況,若結(jié)點Vi與結(jié)點Vj相連,則Wij = 1,若Vi與Vj之間沒有邊, 貝丨Jwij = 0,i = l,2,…,n,j = l,2,…,n〇
[0014] 2、對蛋白質(zhì)相互作用網(wǎng)絡(luò)邊和結(jié)點的預(yù)處理
[0015] 對結(jié)點Vi預(yù)處理:計算結(jié)點Vi的聚集系數(shù)和度,度是與結(jié)點Vi相鄰的結(jié)點的個數(shù), 按式(1)計算結(jié)點^的聚集系數(shù):
[0017]式中Kv是點Vl的度,nv是點^的1個鄰居結(jié)點間的邊的個數(shù);按式(2)計算邊的聚集 系數(shù):
[0019]式中,Z(vi,vj)表示包含邊(vi,vj)的三角形個數(shù),di,dj分別是點Vi,Vj的度;按式 (3)計算邊的皮爾森相關(guān)系數(shù):
[0021]式中,Xi,yi表示蛋白質(zhì)vx,vy在時間點t時的基因表達(dá)值,μ(χ),y(y)是蛋白質(zhì)v x,vy 的平均基因表達(dá)值,T為時間點的最大值。
[0022] 3、構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)
[0023] 將蛋白質(zhì)相互作用網(wǎng)絡(luò)分為穩(wěn)定關(guān)系部分和動態(tài)關(guān)系部分:
[0024] 穩(wěn)定關(guān)系部分:對于蛋白質(zhì)相互作用網(wǎng)絡(luò)中的每一條邊計算其皮爾森相關(guān)系 數(shù),若邊的皮爾森相關(guān)系數(shù)大于閾值thl = 0.3,則邊eij被認(rèn)為是穩(wěn)定邊,邊所連接的兩個結(jié) 點被認(rèn)為是穩(wěn)定結(jié)點V_stab;用一個NXN的矩陣S來保存蛋白質(zhì)相互作用網(wǎng)絡(luò)的穩(wěn)定關(guān)系, 如果蛋白質(zhì)vi和蛋白質(zhì)vj有穩(wěn)定的相互作用關(guān)系,Sij = l,否則Sij = 0。
[0025] 動態(tài)關(guān)系部分:在時間點t時,蛋白質(zhì)Vi的基因表達(dá)值GEit若大于基因表達(dá)閾值A(chǔ)T (1),則被認(rèn)為蛋白質(zhì)?在時間點七具有活性;若邊叫卻觀^^1'(1)觀#^1'〇)且5^ = 〇,則邊eij為臨時邊,對應(yīng)的蛋白為動態(tài)蛋白質(zhì)。
[0026]通過上述處理,在每個時間點t的動態(tài)網(wǎng)絡(luò)是一個包含穩(wěn)定蛋白質(zhì)和在時間點t處 為活性的動態(tài)蛋白質(zhì)的子網(wǎng)。
[0027] 4、設(shè)置參數(shù)
[0028] 令iter,maxiter分別表示當(dāng)前迭代次數(shù)和最大迭代次數(shù),iter= 1,matxiter E [100,800 ]; t,T分別表示當(dāng)前的時間點和最大時間點,t = 1; V_stab表示穩(wěn)定結(jié)點,V_temp 表示動態(tài)結(jié)點;N_core表示核心簇的計數(shù)器,N_core = 0; count,maxcount分別表示對穩(wěn)定 蛋白質(zhì)遍歷時當(dāng)前的迭代次數(shù)和最大迭代次數(shù),〇011]1丨=1,11^〇0111^ = ¥_8丨313的數(shù)量;核心 簇的密度閾值th_core = 0.7;重疊度閾值為th_os; cluster是最終聚出來的蛋白質(zhì)復(fù)合物。 [0029] 5、形成果蠅的位置
[0030] 中的結(jié)點先按照點的聚集系數(shù)和度進(jìn)行降序排序;當(dāng)前的迭代次數(shù) count〈最大迭代次數(shù)maxcount時,選取第count個結(jié)點Vi,若未被訪問時,標(biāo)記為被訪問,結(jié) 點Vi與其V_stab中的鄰居結(jié)點形成一個核心簇corei,按密度計算公式計算核心簇corei的 密度;若密度小于閾值th_core,不斷將簇中與Vi相連擁有最小邊的聚集系數(shù)的點去掉,直 至core的密度大于等于th_core的值;將core中與Vi相連的點標(biāo)記為visited = 1 ;count = count+1,N_core = N_core+l;循環(huán)對V_stab中的點進(jìn)行訪問,直到所有的點都被訪問,形成 TN_core個核心簇。
[0031] 6、對應(yīng)果蠅到蛋白質(zhì)相互作用的網(wǎng)絡(luò)中
[0032] 將時間點t時對應(yīng)網(wǎng)絡(luò)動態(tài)結(jié)點中的每一個結(jié)點作為一只果蠅。
[0033] 7、確定初始化果蠅位置
[0034] 隨機(jī)產(chǎn)生核心簇的序列號,即一只果繩隨機(jī)產(chǎn)生一個l〃_N_core的序列號,作為初 始化果蠅位置X(i),初始化果蠅的當(dāng)前最好位置gbest為當(dāng)前位置X(i)。
[0035] 8、確定果蠅氣味濃度
[0036] 按照Smell(i) = clossness(Vi,core(X(i)))確定果繩氣味濃度,式中Smell(i)為 果蠅i的氣味濃度,Vl是果蠅所代表的動態(tài)蛋白質(zhì)結(jié)點,c〇re(X(i))是果蠅當(dāng)前所在位置所 代表的核心簇,clossness表示Vi與core(X(i))的緊密程度。
[0037] 9、更新果蠅位置
[0038] 更新當(dāng)前位置為X (i) +randomx,randomx作為一個隨機(jī)產(chǎn)生的1~N_core之間的整 數(shù);計算更新位置后的果蠅氣味濃度Smell(i),若當(dāng)前位置的氣味濃度大于果蠅在最佳位 置的氣味濃度,更新果蠅的當(dāng)前最佳位置gbest為當(dāng)前位置,否則不更新最佳位置;iter = iter+1,若iterSmaxiter,重復(fù)步驟9,否則轉(zhuǎn)向下一步。
[0039] 10、產(chǎn)生蛋白質(zhì)復(fù)合物
[0040] 將每只果蠅最優(yōu)位置的氣味濃度作為最佳氣味濃度,若最佳氣味濃度大于0,則將 這只果蠅代表的動態(tài)蛋白質(zhì)并入到其最佳位置所代表的核心簇中;若最佳氣味濃度等于〇, 則這只果蠅所代表的動態(tài)蛋白質(zhì)被認(rèn)為是噪音蛋白質(zhì);處理完所有果蠅,得到時間點t處的 蛋白質(zhì)復(fù)合物t = t+l,若t$T,返回步驟6,否則轉(zhuǎn)向步驟11。
[0041] 11、過濾蛋白質(zhì)復(fù)合物
[0042] 確定所有時間點產(chǎn)生的蛋白質(zhì)復(fù)合物之間的重疊度0S,合并重疊度大于重疊度閾 值th_os的蛋白質(zhì)復(fù)合物,刪除只有一個蛋白質(zhì)的復(fù)合物,輸出所有的蛋白質(zhì)復(fù)合物 cluster。
[0043] 在本發(fā)明的步驟3中基因表達(dá)閾值A(chǔ)T(i)由式(4)得到:
[0044] AT(i)=y(i)+3〇(i)(l-F(i))式(4)
[0045] 式中μ(υ是蛋白質(zhì)^平均基因表達(dá)值,〇(i)是基因表達(dá)值的標(biāo)準(zhǔn)差,F(xiàn)(i) = l/(1 + 〇2(i))是權(quán)函數(shù)。
[0046] 在本發(fā)明的步驟5中核心簇corei密度由式(5)得到:
[0048] 式中e是子圖中的邊數(shù),η是子圖中的頂點數(shù)。
[0049] 在本發(fā)明的步驟8中動態(tài)蛋白質(zhì)結(jié)點^與核心簇c〇re(X(i))之間緊密程度由式 (6)得到:
[0051]式中,u是簇core(X(i))中的蛋白質(zhì)。
[0052]在本發(fā)明的步驟11中蛋白質(zhì)復(fù)合物之間的重疊度0S由式(7)得到:
[0054] 式中,Ca,Cb分別表示蛋白質(zhì)復(fù)合物A和蛋白質(zhì)復(fù)合物B中頂點的集合。
[0055] 本發(fā)明與現(xiàn)有的方法相比,具有以下優(yōu)點:
[0056] 1、本發(fā)明基于蛋白質(zhì)復(fù)合物內(nèi)部的核心附件結(jié)構(gòu),根據(jù)果蠅優(yōu)化算法的高優(yōu)化性 能將附件聚集到對應(yīng)的核心中,構(gòu)建蛋白質(zhì)復(fù)合物識別模型,識別出來的蛋白質(zhì)復(fù)合物與 標(biāo)準(zhǔn)庫相近,經(jīng)實際數(shù)據(jù)驗證,采用本發(fā)明方法識別出蛋白質(zhì)復(fù)合物的準(zhǔn)確度要比目前采 用其它蛋白質(zhì)復(fù)合物識別方法要高。
[0057] 2、本發(fā)明不僅考慮到單個蛋白質(zhì)的基因表達(dá)還考慮到蛋白質(zhì)之間的相互聯(lián)系,將 蛋白質(zhì)分成穩(wěn)定蛋白質(zhì)和動態(tài)臨時存在的蛋白質(zhì),針對不同蛋白質(zhì)的特性進(jìn)行不同處理, 更真實地模擬了蛋白質(zhì)相互作用網(wǎng)絡(luò)的動態(tài)性。
[0058] 3、采用本發(fā)明的聚類結(jié)果能夠有效地識別存在于多個蛋白質(zhì)復(fù)合物中的多功能 蛋白質(zhì),同時還能識別出具有相同功能的蛋白質(zhì),使得研究人員識別功能未知的蛋白質(zhì)和 多功能的蛋白質(zhì),了解生物功能的分子機(jī)制,為探討重大疾病的機(jī)理、疾病治療、疾病預(yù)防 和新藥開發(fā)提供了理論基礎(chǔ)。本發(fā)明能夠從大量的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)中提取蛋白質(zhì) 復(fù)合物,蛋白質(zhì)復(fù)合物是指在不同的時間和空間通過相互綁定的方式參與某一個特定的生 化過程或者細(xì)胞功能,最終這些蛋白質(zhì)復(fù)合物再以層次嵌套的方式構(gòu)成蛋白質(zhì)相互作用網(wǎng) 絡(luò),即蛋白質(zhì)相互作用網(wǎng)絡(luò)的聚類,該研究是生物體行為理解、蛋白質(zhì)功能預(yù)測和藥物設(shè)計 的基礎(chǔ)。
【附圖說明】
[0059] 圖1是本發(fā)明實施例1的工藝流程模型圖。
[0060] 圖2是標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物的結(jié)構(gòu)示意圖。
[0061] 圖3是采用實施例1得出的蛋白質(zhì)復(fù)合物的結(jié)構(gòu)示意圖。
【具體實施方式】
[0062] 以下結(jié)合附圖和實施例子對本發(fā)明進(jìn)一步詳細(xì)說明,但本發(fā)明不限于這些實施例 子。
[0063] 實施例1
[0064] 以12個動態(tài)蛋白質(zhì)網(wǎng)絡(luò)為例采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物步驟如下:
[0065]本實施例以采自DIP數(shù)據(jù)庫的酵母數(shù)據(jù)集(DIP 20140427版)作為仿真數(shù)據(jù)集,DIP 數(shù)據(jù)包含了 4995個蛋白質(zhì)和21554個相互作用關(guān)系?;虮磉_(dá)數(shù)據(jù)集采自GEO數(shù)據(jù)庫中的酵 母新陳代謝表達(dá)數(shù)據(jù)集GSE3431,其中包括6777個基因,3個周期共36個時間點的基因值,覆 蓋了 DIP中的95%的蛋白質(zhì)。采用基因表達(dá)值創(chuàng)建12個動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)。實驗平臺 為Windows 7操作系統(tǒng),Intel酷睿2雙核3.1GHz處理器,4GB物理內(nèi)存,用Matlab R2010b軟 件實現(xiàn)本發(fā)明的F0CA方法。
[0066] 1、將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化為無向圖
[0067]將包含4995個蛋白質(zhì)和21554個相互作用關(guān)系的蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化成一個 無向圖G=(V,E),其中,7={^4 = 1,2,~,4995}為結(jié)點^的集合4為21554個邊6的集合, 結(jié)點Vi表示蛋白質(zhì),邊e表示蛋白質(zhì)之間的相互作用,Wij表示結(jié)點Vi與結(jié)點Vj之間的連接情 況,若結(jié)點vi與結(jié)點vj相連則wij = 1,若Vi與vj之間沒有邊,貝ijwij = 0,i = l,2,···,4995,j = 1, 2,…,4995〇
[0068] 2、對蛋白質(zhì)相互作用網(wǎng)絡(luò)邊和結(jié)點的預(yù)處理
[0069] 對結(jié)點Vi預(yù)處理:i = 1,2,…,4995,每給定一個確定的i,可計算出4995個聚集系 數(shù)和度,度是與結(jié)點Vl相鄰的結(jié)點的個數(shù),按式(1)計算結(jié)點^的聚集系數(shù):
[0071]式中Kv是點Vl的度,nv是點^的1個鄰居結(jié)點間的邊的個數(shù);按(2)計算邊的聚集系 數(shù):
[0073]式中,Z(Vi,Vj)表示包含邊(Vi,Vj)的三角形個數(shù),di,dj分別是點Vi,Vj的度;按式 (3)計算邊的皮爾森相關(guān)系數(shù):
[0075]式中,Xi,yi表示蛋白質(zhì)vx,vy在時間點t時的基因表達(dá)值,μ(χ),y(y)是蛋白質(zhì)v x,vy 的平均基因表達(dá)值,T為時間點的最大值12。
[0076] 3、構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)
[0077] 將蛋白質(zhì)相互作用網(wǎng)絡(luò)分為穩(wěn)定關(guān)系部分和動態(tài)關(guān)系部分。
[0078] 穩(wěn)定關(guān)系部分:對于蛋白質(zhì)相互作用網(wǎng)絡(luò)中的每一條邊eu計算其皮爾森相關(guān)系 數(shù),若邊的皮爾森相關(guān)系數(shù)大于閾值thl = 0.3,則邊eij被認(rèn)為是穩(wěn)定邊,邊所連接的兩個結(jié) 點被認(rèn)為是穩(wěn)定結(jié)點V_stab;用一個1873X 1873的矩陣S來保存蛋白質(zhì)相互作用網(wǎng)絡(luò)的穩(wěn) 定關(guān)系,如果蛋白質(zhì)vi和蛋白質(zhì)vj有穩(wěn)定的相互作用關(guān)系,Sij = 1,否則Sij = 0;
[0079] 動態(tài)關(guān)系部分:在時間點t時,蛋白質(zhì)Vi的基因表達(dá)值GEit若大于基因表達(dá)閾值A(chǔ)T (1),則被認(rèn)為蛋白質(zhì)?在時間點七具有活性;若邊叫卻觀^^1'(1)觀#^1'〇)且5^ = 0,則邊eu為臨時邊,對應(yīng)的蛋白為動態(tài)蛋白質(zhì),基因表達(dá)閾值A(chǔ)T(i)由式(4)得到:
[0080] AT(i)=y(i)+3〇(i)(l-F(i))式(4)式中 y(i)是蛋白質(zhì) Vi 基因表達(dá)值,〇(i)是基 因表達(dá)值的標(biāo)準(zhǔn)差,F(xiàn)(i) = 1/(l+σ2(i))是權(quán)函數(shù)通過上述處理,在時間點t的動態(tài)網(wǎng)絡(luò)G (t) = (V,E(t)),t = l,…,12,其中V表示全體蛋白質(zhì)結(jié)點,E(t)在時間點t時出現(xiàn)的邊;邊eij(t) eE(t)如果Sij = l(表示是穩(wěn)定關(guān)系)或者叫卻觀^^1'(1)觀如^1'〇)(表示臨時關(guān)系)。 整個網(wǎng)絡(luò)被分成12個動態(tài)蛋白質(zhì)的子網(wǎng)。
[0081 ] 4、設(shè)置參數(shù)
[0082] 令iter,maxiter分別表示當(dāng)前迭代次數(shù)和最大迭代次數(shù),iter= 1,matxiter E [10 0,80 0 ]; t,T分別表示當(dāng)前的時間點和最大時間點,t = 1,T = 12; V_ s t a b表示穩(wěn)定結(jié)點, V_temp表示動態(tài)結(jié)點;N_core表示核心簇的計數(shù)器,N_core = 0;count,maxcount分別表示 對穩(wěn)定蛋白質(zhì)遍歷時當(dāng)前的迭代次數(shù)和最大迭代次數(shù),count = 1,maxcount = V_stab的數(shù) 量1873;核心簇的密度閾值th_core = 0.7; cluster是最終聚出來的蛋白質(zhì)復(fù)合物;重疊度 閾值 th_os = 0.8。
[0083] 5、形成果蠅的位置
[0084]中1873個結(jié)點先按照點的聚集系數(shù)和度進(jìn)行降序排序;當(dāng)前的迭代次數(shù) count〈最大迭代次數(shù)maxcountl873時,選取第count個結(jié)點Vi,若未被訪問時,標(biāo)記為被訪 問,結(jié)點Vi與其V_stab中的鄰居結(jié)點形成一個核心簇corei,確定核心簇core的密度,核心 簇corei密度由式(5)得到:
[0086]式中e是子圖中的邊數(shù),η是子圖中的頂點數(shù)。若密度小于閾值0.7,不斷將簇中與 Vi相連擁有最小邊的聚集系數(shù)的點去掉,直至core的密度大于等于0.7的值;將core中與Vi 相連的點標(biāo)記為visited = l ;count = count+l,N_core = N_core+l;循環(huán)對V_stab中的點進(jìn) 行訪問,直到所有的點都被訪問,開多成了N_core個核心簇。
[0087] 6、對應(yīng)果蠅到蛋白質(zhì)相互作用的網(wǎng)絡(luò)中
[0088]將時間點t,t為1…12時,對應(yīng)網(wǎng)絡(luò)動態(tài)結(jié)點中的每一個結(jié)點作為一只果蠅,在不 同的時間點t對應(yīng)的果蠅的數(shù)量見表1。
[0089] 表1 12個動態(tài)蛋白質(zhì)子網(wǎng)分別對應(yīng)的果蠅數(shù)量
[0090]
[0091] 7、確定初始化果蠅位置
[0092] 隨機(jī)產(chǎn)生核心簇的序列號,即一只果繩隨機(jī)產(chǎn)生一個1··· 1183的序列號,1183為核 心簇的個數(shù),作為初始化果蠅位置X(i),初始化果蠅的當(dāng)前最好位置gbesU為當(dāng)前位置。 [0093] 8、確定果蠅氣味濃度
[0094] 按照Smell( i) =clossness(Vi,core(X(i)))
[0095] 確定果蠅氣味濃度,式中Smell (i)為果蠅i的氣味濃度,Vi是果蠅所代表的動態(tài)蛋 白質(zhì)結(jié)點,core(X(i))是果繩當(dāng)前所在位置所代表的核心簇,clossness表示Vi與core(X (i))的緊密程度,動態(tài)蛋白質(zhì)結(jié)點^與核心簇c〇re(X(i))之間緊密度由式6得到:
[0097]式中,u是簇core(X(i))中的蛋白質(zhì)。
[0098] 9、更新果蠅位置
[0099] 更新當(dāng)前位置為乂(;0+抑11(1〇11^,抑11(1〇11^為一個隨機(jī)產(chǎn)生的1~1183之間的整數(shù); 計算更新位置后的果蠅氣味濃度Smell(i),若當(dāng)前位置的氣味濃度大于果蠅在最佳位置的 氣味濃度,更新果繩的當(dāng)前最佳位置gbesti為當(dāng)前位置,否則不更新最佳位置;iter = iter +1,若iterS 800,重復(fù)步驟9,否則轉(zhuǎn)向下一步;
[0100] 10、產(chǎn)生蛋白質(zhì)復(fù)合物
[0101 ]將每只果繩最優(yōu)位置的氣味濃度作為最佳氣味濃度(最佳氣味濃度為大于0的 值),若最佳氣味濃度大于0,則將這只果蠅代表的動態(tài)蛋白質(zhì)并入到其最佳位置所代表的 核心簇中;若最佳氣味濃度等于0,則這只果蠅所代表的動態(tài)蛋白質(zhì)被認(rèn)為是噪音蛋白質(zhì); 處理完所有果蠅,得到時間點t處的蛋白質(zhì)復(fù)合物t = t+l,若tST,返回步驟6,否則轉(zhuǎn)向下 一步驟。
[0102] 11、過濾蛋白質(zhì)復(fù)合物
[0103] 確定時間點產(chǎn)生的蛋白質(zhì)復(fù)合物之間的重疊度0S,蛋白質(zhì)復(fù)合物之間的重疊度0S 由式7得到:
[0105] 式中,Ca,Cb分別表示蛋白質(zhì)復(fù)合物A和蛋白質(zhì)復(fù)合物B中頂點的集合。合并重疊度 大于th_os為0.8的蛋白質(zhì)復(fù)合物。刪除只有一個蛋白質(zhì)的復(fù)合物,輸出所有的蛋白質(zhì)復(fù)合 物cluster。
[0106] 為了驗證本發(fā)明的有益效果,發(fā)明人采用本發(fā)明實施例1果蠅優(yōu)化機(jī)理的蛋白質(zhì) 復(fù)合物識別方法對DIP數(shù)據(jù)庫中的蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)復(fù)合物的識別,共識別出707個蛋 白質(zhì)復(fù)合物,結(jié)果見表2、表3、圖2、圖3,表2中選取了 8個蛋白質(zhì)復(fù)合物中正確和錯誤的蛋白 質(zhì)以及對應(yīng)的標(biāo)準(zhǔn)庫中的蛋白質(zhì)進(jìn)行分析。
[0107] 表2本發(fā)明識別的蛋白質(zhì)復(fù)合物中正確的和錯誤的蛋白質(zhì)
[0108]
[0109]表2顯示了本發(fā)明識別出的結(jié)果中的8個蛋白質(zhì)復(fù)合物中正確和錯誤的蛋白質(zhì)以 及對應(yīng)的標(biāo)準(zhǔn)庫中的蛋白質(zhì)復(fù)合物,蛋白質(zhì)復(fù)合物3、7完全正確地識別出標(biāo)準(zhǔn)庫中的蛋白 質(zhì)復(fù)合物;蛋白質(zhì)復(fù)合物1、2、4、5、8識別的蛋白質(zhì)復(fù)合物中都只有一個錯誤蛋白質(zhì),正確的 蛋白質(zhì)特別多;蛋白質(zhì)復(fù)合物1、6少識別了一個蛋白質(zhì),蛋白質(zhì)復(fù)合物8少識別出兩個蛋白 質(zhì)。由表2看出,本發(fā)明能有效地識別蛋白質(zhì)復(fù)合物。圖2顯示了一個標(biāo)準(zhǔn)發(fā)庫中的蛋白質(zhì)復(fù) 合物和本發(fā)明識別出來的一個蛋白質(zhì)復(fù)合物。圖2中兩帶背景顏色的是本明未識別出來的 蛋白質(zhì),圖3中帶背顏色的是識別錯誤的蛋白質(zhì)。中間的橢圓中蛋白質(zhì)為核心簇的蛋白。由 此圖可見,本發(fā)明能正確地識別蛋白質(zhì)復(fù)合物中大部分蛋白質(zhì)。
[0110] 表3其他方法的對蛋白質(zhì)復(fù)合物識別結(jié)果對比表
[0111]
[0112]表3顯示了本發(fā)明跟當(dāng)前其他蛋白質(zhì)復(fù)合物識別方法在性能上的對比。結(jié)果顯示 本發(fā)明無論是準(zhǔn)確率還是查全率都比其它蛋白質(zhì)復(fù)合物的性能要好。
【主權(quán)項】
1. 一種采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物,其特征在于,它是由下述步驟組成: (1) 將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化為無向圖 將蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)化成一個無向圖G=(V,E),其中,V={vi,i = l,2,···,n}為結(jié) 點Vi的集合,E為邊e的集合,結(jié)點Vi表示蛋白質(zhì),邊e表示蛋白質(zhì)之間的相互作用,Wij表示結(jié) 點Vi與結(jié)點v j之間的連接情況,若結(jié)點Vi與結(jié)點v j相連,則Wi j = 1,若Vi與v j之間沒有邊,貝1J wij = 0,i = l,2,···,n,j = l,2,···,n; (2) 對蛋白質(zhì)相互作用網(wǎng)絡(luò)邊和結(jié)點的預(yù)處理 對結(jié)點Vl預(yù)處理:計算結(jié)點^的聚集系數(shù)和度,度是與結(jié)點Vl相鄰的結(jié)點的個數(shù),按式 (1)計算結(jié)點^的聚集系數(shù):式⑴ 式中Kv是點Vl的度,nv是點^的1個鄰居結(jié)點間的邊的個數(shù);按式(2)計算邊的聚集系 數(shù):式(2) 式中,Z(vi,vj)表示包含邊(Vi,Vj)的三角形個數(shù),di,dj分別是點Vi,Vj的度;按式⑶計 算邊的皮爾森相關(guān)系數(shù):式⑶: 式中,Xi,yi表示蛋白質(zhì)vx,vy在時間點t時的基因表達(dá)值,μ(χ),y(y)是蛋白質(zhì)v x,vy的平 均基因表達(dá)值,T為時間點的最大值; (3) 構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò) 將蛋白質(zhì)相互作用網(wǎng)絡(luò)分為穩(wěn)定關(guān)系部分和動態(tài)關(guān)系部分: 穩(wěn)定關(guān)系部分:對于蛋白質(zhì)相互作用網(wǎng)絡(luò)中的每一條邊計算其皮爾森相關(guān)系數(shù),若 邊的皮爾森相關(guān)系數(shù)大于閾值thl = 0.3,則邊eij被認(rèn)為是穩(wěn)定邊,邊所連接的兩個結(jié)點被 認(rèn)為是穩(wěn)定結(jié)AV_stab;用一個NXN的矩陣S來保存蛋白質(zhì)相互作用網(wǎng)絡(luò)的穩(wěn)定關(guān)系,如果 蛋白質(zhì)vi和蛋白質(zhì)vj有穩(wěn)定的相互作用關(guān)系,Sij = 1,否則Sij = 0; 動態(tài)關(guān)系部分:在時間點t時,蛋白質(zhì)Vi的基因表達(dá)值GEit若大于基因表達(dá)閾值A(chǔ)T(i), 則被認(rèn)為蛋白質(zhì)vi在時間點t具有活性;若邊eijeE,GEit 2 AT(i),GEjt 2 AT( j)且Sij = 0,則 邊eij為臨時邊,對應(yīng)的蛋白為動態(tài)蛋白質(zhì); 通過上述處理,在每個時間點t的動態(tài)網(wǎng)絡(luò)是一個包含穩(wěn)定蛋白質(zhì)和在時間點t處為活 性的動態(tài)蛋白質(zhì)的子網(wǎng); (4) 設(shè)置參數(shù) 令iter,maxiter分別表示當(dāng)前迭代次數(shù)和最大迭代次數(shù),iter= 1,matxiter e [1〇〇, 800]; t,T分別表示當(dāng)前的時間點和最大時間點,t = 1; V_stab表示穩(wěn)定結(jié)點,V_temp表示動 態(tài)結(jié)點;N_core表示核心簇的計數(shù)器,N_core = 0;count,maxcount分別表示對穩(wěn)定蛋白質(zhì) 遍歷時當(dāng)前的迭代次數(shù)和最大迭代次數(shù),count = 1,maxcount = V_stab的數(shù)量;核心簇的密 度閾值th_core = 0.7;重疊度閾值為th_os; cluster是最終聚出來的蛋白質(zhì)復(fù)合物; (5) 形成果蠅的位置 中的結(jié)點先按照點的聚集系數(shù)和度進(jìn)行降序排序;當(dāng)前的迭代次數(shù)count〈最 大迭代次數(shù)maxcount時,選取第count個結(jié)點Vi,若未被訪問時,標(biāo)記為被訪問,結(jié)點Vi與其 V_stab中的鄰居結(jié)點形成一個核心簇corei,按密度計算公式計算核心簇corei的密度;若密 度小于閾值th_core,不斷將簇中與Vi相連擁有最小邊的聚集系數(shù)的點去掉,直至core的密 度大于等于th_core的值;將core中與Vi相連的點標(biāo)記為visited = 1; count = count+l,N_ core = N_core+l;循環(huán)對V_stab中的點進(jìn)行訪問,直到所有的點都被訪問,形成TN_core個 核心簇; (6) 對應(yīng)果蠅到蛋白質(zhì)相互作用的網(wǎng)絡(luò)中 將時間點t時對應(yīng)網(wǎng)絡(luò)動態(tài)結(jié)點中的每一個結(jié)點作為一只果蠅; (7) 確定初始化果蠅位置 隨機(jī)產(chǎn)生核心簇的序列號,即一只果繩隨機(jī)產(chǎn)生一個1···Ν_(:ογθ的序列號,作為初始化 果蠅位置X(i),初始化果蠅的當(dāng)前最好位置gbest為當(dāng)前位置X(i); (8) 確定果蠅氣味濃度 按照Smell (i) = clossness(vi,core(X(i)))確定果繩氣味濃度,式中Smell (i)為果繩i 的氣味濃度,Vl是果蠅所代表的動態(tài)蛋白質(zhì)結(jié)點,c〇re(X(i))是果蠅當(dāng)前所在位置所代表 的核心簇,clossness表示Vi與core(X(i))的緊密程度; (9) 更新果蠅位置 更新當(dāng)前位置為乂(:0+1^]1(1〇11^,抑11(1〇11^作為一個隨機(jī)產(chǎn)生的1~1〇(^6之間的整數(shù); 計算更新位置后的果蠅氣味濃度Smell(i),若當(dāng)前位置的氣味濃度大于果蠅在最佳位置的 氣味濃度,更新果繩的當(dāng)前最佳位置gbesti為當(dāng)前位置,否則不更新最佳位置;iter = iter +1,若iterSmaxiter,重復(fù)步驟(9),否則轉(zhuǎn)向下一步; (10) 產(chǎn)生蛋白質(zhì)復(fù)合物 將每只果蠅最優(yōu)位置的氣味濃度作為最佳氣味濃度,若最佳氣味濃度大于0,則將這只 果蠅代表的動態(tài)蛋白質(zhì)并入到其最佳位置所代表的核心簇中;若最佳氣味濃度等于0,則這 只果蠅所代表的動態(tài)蛋白質(zhì)被認(rèn)為是噪音蛋白質(zhì);處理完所有果蠅,得到時間點t處的蛋白 質(zhì)復(fù)合物t = t+l,若t$T,返回步驟(6),否則轉(zhuǎn)向步驟(11); (11) 過濾蛋白質(zhì)復(fù)合物 確定所有時間點產(chǎn)生的蛋白質(zhì)復(fù)合物之間的重疊度0S,合并重疊度大于重疊度閾值 th_os的蛋白質(zhì)復(fù)合物,刪除只有一個蛋白質(zhì)的復(fù)合物,輸出所有的蛋白質(zhì)復(fù)合物cluster。2. 根據(jù)權(quán)利要求1所述的采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物,其特征在于所述的步 驟(3)中基因表達(dá)閾值A(chǔ)T(i)由式(4)得到: AT(i)=y(i)+3〇(i)(l-F(i)) 式(4) 式中μ(?)是蛋白質(zhì)^平均基因表達(dá)值,〇(i)是基因表達(dá)值的標(biāo)準(zhǔn)差,F(xiàn)(i) = lAl+〇2 (i))是權(quán)函數(shù)。3. 根據(jù)權(quán)利要求1所述的采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物,其特征在于所述的步 驟(5)中核心簇corei密度由式(5)得到:式(5) 式中e是子圖中的邊數(shù),η是子圖中的頂點數(shù)。4. 根據(jù)權(quán)利要求1所述的采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物,其特征在于所述的步 驟(8)中動杰蛋白質(zhì)結(jié)點與核心簏core (X(i))之間緊密程度由式(6)得到:式(:6) 式中,u是簇core(X(i))中的蛋白質(zhì)。5. 根據(jù)權(quán)利要求1所述的采用果蠅優(yōu)化方法識別蛋白質(zhì)復(fù)合物,其特征在于所述的步 驟(11)中蛋白質(zhì)復(fù)合物之間的重疊度0S由式(7)得到:式(7) 式中,Ca,CB分別表示蛋白質(zhì)復(fù)合物A和蛋白質(zhì)復(fù)合物B中頂點的集合。
【文檔編號】G06F19/18GK105868582SQ201610178586
【公開日】2016年8月17日
【申請日】2016年3月25日
【發(fā)明人】雷秀娟, 丁玉連, 吳振強(qiáng), 裘國永
【申請人】陜西師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
安泽县| 嘉黎县| 兴义市| 康马县| 大同县| 云安县| 广河县| 临沂市| 德令哈市| 平塘县| 洮南市| 重庆市| 鄢陵县| 台南县| 班戈县| 社会| 咸宁市| 融水| 青浦区| 平阳县| 西昌市| 通城县| 搜索| 谢通门县| 夏邑县| 马龙县| 保定市| 赞皇县| 永兴县| 高碑店市| 新田县| 扶沟县| 克拉玛依市| 溆浦县| 吴旗县| 石渠县| 通城县| 子洲县| 随州市| 惠水县| 台州市|