用于疾病亞型問(wèn)題的基于網(wǎng)絡(luò)的聚類方法_2

文檔序號(hào)：8943288閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>用于疾病亞型問(wèn)題的基于網(wǎng)絡(luò)的聚類方法

，對(duì)每個(gè)基因i建立激活函數(shù)以·）。建立過(guò)程如下：（1)對(duì)于任意的基因i e V，i = 1，2, K，n，我們從G(V，E)中找出所有與i 相鄰且以i為有向邊終點(diǎn)的點(diǎn)，構(gòu)成影響因子集合{Ql，q 2, K，qsn}。（2)確定解離常數(shù)k1]: h將從定義在[0.01，1]區(qū)間上的均勻分布中選取。（3)確定希爾系數(shù)n 1]:n u服從[1，10] 區(qū)間中的高斯分布函數(shù)#0)? (4)確定相對(duì)活性α1:α i將從定義在[0，1]區(qū)間上的均勻分布上采樣。
[0059] 步驟C :確定無(wú)噪聲動(dòng)態(tài)基因調(diào)控模型，也就是方程
[0060]
(2. 1)的各個(gè)參數(shù)。
[0061] 式中=X1--基因i的濃度；
[0062] Y1--蛋白質(zhì)i的濃度；
[0063] --mRNAj9濃度變化率；
[0064] Ffriif--蛋白質(zhì)i的濃度變化率；
[0065] Iiii--基因 i的最大轉(zhuǎn)錄速率；
[0066] Ti--HiRNAi 的翻譯速率；
[0067] --InRNA1 的降解速率；
[0068] 一一蛋白質(zhì)i的降解速率；
[0069] ^(〇一一基因 i的激活函數(shù)。
[0070] 首先，mRNA的半衰期：Zfs以及蛋白質(zhì)的半衰期If# (以分鐘為單位）將從定義在 [5, 50]區(qū)間上的高斯分布上采樣。根據(jù)公式：
[0071]
[0072] 我們便可以獲得mRNA以及蛋白質(zhì)的降解速率。此外，最大轉(zhuǎn)錄速率叫以及翻譯速率Γι服從[0.01，0.011]區(qū)間上的均勻分布。
[0073] 步驟D :在獲得了基因調(diào)控網(wǎng)絡(luò)以及動(dòng)態(tài)基因模型之后，求解方程（2. 1)，并做出各個(gè)mRNA濃度隨時(shí)間變化的時(shí)間序列圖。為此，我們首先要選定mRNA濃度X (Xl，χ2, Κ，χη) 以及蛋白質(zhì)濃度y(yp y2, K，yn)的初始值。我們的做法是令各個(gè)XjPyi服從[0，1]區(qū)間上的均勻分布，并隨機(jī)選取作為初始值。在獲得了各個(gè)mRNA以及蛋白質(zhì)濃度的初始值后，我們便可以通過(guò)方程（2. 1)求解最終的基因表達(dá)數(shù)據(jù)。我們一共取η = 10, 20, 50個(gè)基因，計(jì)算t = 0到t = 500之間的時(shí)間序列圖。
[0074] 步驟F :我們用一個(gè)仿真給出一個(gè)觀察。我們首先選定一個(gè)基因調(diào)控網(wǎng)絡(luò)。接著，我們隨機(jī)產(chǎn)生四組不同的初值Xi (xn，xi2, K，Xin)，n = 20，i = l，2,3,4以及YiCyil, yi2, K， yin)，η = 20, i = 1，2, 3,4作為mRNA及蛋白質(zhì)初始濃度。最后，我們用方程（2. 1)計(jì)算并繪制四種不同初值情形下的mRNA濃度時(shí)間序列圖，并給出四種狀態(tài)下mRNA濃度終態(tài)的數(shù) 據(jù)。
[0075] 步驟G :我們使用基因調(diào)控模型（2. 1)進(jìn)行仿真，并最終得到一個(gè)O-G矩陣 (32 X 20)。然后我們運(yùn)用基于網(wǎng)絡(luò)的Pearson距離結(jié)合k-medoids算法對(duì)被試者進(jìn)行分類具體做法為將32個(gè)被試者劃分為4類，K-medoids聚類算法是，基于網(wǎng)絡(luò)的Pearson距離具體的算法過(guò)程如下：
[0076] A :從32數(shù)據(jù)對(duì)象中任意選取4個(gè)數(shù)據(jù)對(duì)象作為medoids-聚類的中心；
[0077] B :選定基于網(wǎng)絡(luò)的Person距離，.
分別計(jì)算余下的數(shù)據(jù)對(duì)象到各個(gè)聚類中心的距離，并將余下的數(shù)據(jù)對(duì)象分配到離自己最近的聚類中，最終得到4組劃分；
[0078] C :數(shù)據(jù)對(duì)象分配完成后，順序選取一個(gè)數(shù)據(jù)對(duì)象來(lái)代替原來(lái)的聚類中心，并計(jì)算代替后的優(yōu)化目標(biāo)函數(shù)f，選擇f最小的數(shù)據(jù)對(duì)象來(lái)代替聚類中心，這樣4個(gè)mediods就改變了；
[0079] D :與前一次的聚類中心相比較，如果發(fā)生變化轉(zhuǎn)到（B)，如果不發(fā)生變化轉(zhuǎn)到 (E);
[0080] E :將聚類的結(jié)果輸出，并將分類的結(jié)果與真實(shí)情況進(jìn)行對(duì)比（真實(shí)情況即為正常類型與每種異常各有8位被試者）。
[0081] 步驟H :綜上所述，我們提出"基于網(wǎng)絡(luò)的聚類（Network-based Clustering) "方法，得出最終關(guān)于疾病亞型的分類。
[0082] 最后，需要注意的是，以上列舉的僅是本發(fā)明的具體實(shí)施例。顯然，本發(fā)明不限于以上實(shí)施例，還可以有很多變形。本領(lǐng)域的普通技術(shù)人員能從本發(fā)明公開的內(nèi)容中直接導(dǎo) 出或聯(lián)想到的所有變形，均應(yīng)認(rèn)為是本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.用于疾病亞型問(wèn)題的基于網(wǎng)絡(luò)的聚類方法，其特征在于，具體包括下述過(guò)程： (1) 獲得O-G矩陣以及基因調(diào)控網(wǎng)絡(luò)； (2) 選取適用于具體問(wèn)題的基于網(wǎng)絡(luò)的距離定義，構(gòu)建距離矩陣； (3) 運(yùn)用k-medoids算法對(duì)O-G矩陣進(jìn)行聚類分析；聚類時(shí)距離的選擇用基于網(wǎng)絡(luò)的距離； (4) 得出最終關(guān)于疾病亞型的分類；所述過(guò)程（1)具體包括下述步驟：步驟A :根據(jù)基因調(diào)控網(wǎng)絡(luò)的特性，構(gòu)建隨機(jī)的有向圖來(lái)代表基因調(diào)控網(wǎng)絡(luò)G(V，E);其中每個(gè)頂點(diǎn)i e V代表基因 i及其產(chǎn)生的mRNAjP蛋白質(zhì)i ;每條有向邊e E代表著"轉(zhuǎn) 錄因子j調(diào)控基因 i的轉(zhuǎn)錄"這種調(diào)控關(guān)系；步驟B :根據(jù)產(chǎn)生的基因調(diào)控網(wǎng)絡(luò)G (V，E)，對(duì)每個(gè)基因 i建立激活函數(shù)A (·)，具體建立方式為：對(duì)于任意的基因 i e V，i = l，2，K，n，我們從G(V，E)中找出所有與i相鄰且以i為有向邊終點(diǎn)的點(diǎn)，構(gòu)成影響因子集合{qpqytqj ;其中，Q1表示與i相鄰且以i為有向邊終點(diǎn)的某基因中對(duì)基因 i起影響作用的因子，q2表示與i相鄰且以i為有向邊終點(diǎn)的某基因中對(duì)基因 i起影響作用的因子，qsn表示與i相鄰且以i為有向邊終點(diǎn)的某基因中對(duì)基因 i 起影響作用的因子，η表示基因調(diào)控網(wǎng)絡(luò)中基因的數(shù)量；確定解離常數(shù)1?，且Iclj從定義在[0. 01，1]區(qū)間上的均勻分布中選??；確定希爾系數(shù)η,，且服從[1，10]區(qū)間中的高斯分布函數(shù)力_口>4); 確定相對(duì)活性a i，且α，人定義在[〇，1]區(qū)間上的均勻分布上采樣；步驟C :確定無(wú)噪聲動(dòng)態(tài)基因調(diào)控模型，即確定公式（2. 1)的各個(gè)參數(shù)；式（2. 1)中，^表示基因 i的濃度；yi表示蛋白質(zhì)i的濃度；F ^rna表示mRNAj^濃度變化率；F1pi^t表示蛋白質(zhì)i的濃度變化率；!!^表示基因 i的最大轉(zhuǎn)錄速率；r i表示mRNA i的翻譯速率；λ"表示HiRNA1的降解速率；表示蛋白質(zhì)i的降解速率；匕（·）表示基因 i的激活函數(shù)；確定公式（2. 1)中各個(gè)參數(shù)的具體方式為：mRNA的半衰期Lrna以及蛋白質(zhì)的半衰期丁廣°7人定義在[5,50]區(qū)間上的高斯分布分1(27.5,56.25)上采樣；根據(jù)公式（2.9)，獲得mRNA以及蛋白質(zhì)的降解速率，最大轉(zhuǎn)錄速率Hi1以及翻譯速率Γι服從[0. 01，0. 011]區(qū)間上的均勻分布； CN 105160208 A權(quán)利要求f_ _2/4 頁(yè) 式（2. 9)中，表示InRNA1的降解速率；表示蛋白質(zhì)i的降解速率;mRNA的半衰期??ΝΑ以及蛋白質(zhì)的半衰期T廣°、步驟D :在獲得了基因調(diào)控網(wǎng)絡(luò)以及無(wú)噪聲動(dòng)態(tài)基因調(diào)控模型之后，選定mRNA濃度 1(義1，12，1(，111)以及蛋白質(zhì)濃度7(71，7 2，1(，711)的初始值，然后求解公式（2.1)，得到最終的基因表達(dá)數(shù)據(jù)；所述過(guò)程（2)具體是指：根據(jù)過(guò)程（1)所獲得的基因網(wǎng)絡(luò)的拓?fù)潢P(guān)系G(V，E)，定義三種基于網(wǎng)絡(luò)的距離，用于比較X1 (Χη，Χ12, κ，xln)與x2 (x21，x22, K，x2n)的差別；其中X1U11, x12, K，xln)、x2(x21，x22, K，x2n)分別表示兩個(gè)被試者 PjP P 2的 mRNA 濃度；令G(V，E)代表該基因調(diào)控網(wǎng)絡(luò)，其中每個(gè)頂點(diǎn)i e V代表基因 i及其產(chǎn)生的mRNAjP 蛋白質(zhì)i ;它關(guān)聯(lián)的Xi表示該基因轉(zhuǎn)錄的mRNA ;濃度；令每條有向邊e E代表著"轉(zhuǎn)錄因子j調(diào)控基因 i的轉(zhuǎn)錄"這種調(diào)控關(guān)系；記T1表示與節(jié)點(diǎn)i相連的邊數(shù)，I廣示節(jié)點(diǎn)i的入度，(^表示節(jié)點(diǎn)i的出度；其中，基于網(wǎng)絡(luò)的Jaccard距離定義為：其中，令G(V，E)代表該基因調(diào)控網(wǎng)絡(luò)，其中每個(gè)頂點(diǎn)i e V代表基因 i及其產(chǎn)生的 mRNAjP蛋白質(zhì)i ;它關(guān)聯(lián)的X ;表示該基因轉(zhuǎn)錄的mRNA ;濃度；T ;表示與節(jié)點(diǎn)i相連的邊數(shù)， 1表示節(jié)點(diǎn)i的入度，0 1表示節(jié)點(diǎn)i的出度；X ^指被試者Pl的mRNA i濃度；X 21指被試者P2 的IiiRNA1濃度；η表示基因調(diào)控網(wǎng)絡(luò)中基因的數(shù)量；基于網(wǎng)絡(luò)的Euclidean距離：其中，X1^被試者Pl的mRNA i濃度；X 21指被試者P2的mRNA i濃度；X ^指被試者Pl的 HiRNAj濃度；X 2j指被試者P2的mRNA j濃度；η表示基因調(diào)控網(wǎng)絡(luò)中基因的數(shù)量；基于網(wǎng)絡(luò)的Pearson距離： CN 105160208 A 權(quán)利要求書 3/4頁(yè)其中，被試者Pl的mRNA i濃度；X 21指被試者P2的mRNA i濃度；η表示基因調(diào)控網(wǎng) 絡(luò)中基因的數(shù)量；1表示節(jié)點(diǎn)i的入度這里的xjg被試者Pi的mRNA 3農(nóng) 度；這里的112指被試者Pi的mRNA 2濃度；所述過(guò)程（3)具體是指：將過(guò)程（2)中定義的距離引入聚類分析中，使用k-medoids聚類分析方法，對(duì)過(guò)程（1)所獲得的基因表達(dá)數(shù)據(jù)進(jìn)行聚類；假設(shè)有η個(gè)被試者，我們將η個(gè)被試者劃分為k類，K-medoids聚類算法是，基于網(wǎng)絡(luò) 的Pearson距離具體的算法具體方法如下： (a) 從η個(gè)數(shù)據(jù)對(duì)象中任意選取k個(gè)數(shù)據(jù)對(duì)象作為medoids-聚類的中心， (b) 選定基于網(wǎng)絡(luò)的Person距離，即：然后分別計(jì)算余下的數(shù)據(jù)對(duì)象到各個(gè)聚類中心的距離，并將余下的數(shù)據(jù)對(duì)象分配到離自己最近的聚類中，最終得到k組劃分，G1, G2，…，Gk; (c) 數(shù)據(jù)對(duì)象分配完成后，順序選取一個(gè)數(shù)據(jù)對(duì)象來(lái)代替原來(lái)的聚類中心，并計(jì)算代替后的優(yōu)化目標(biāo)函數(shù)其中，(Kx1, x2)定義如下：同理定義d(Xp xj和:'慮其中，為從X1, x2，…，χΑ選取的k個(gè)聚類中心；表示XjE G1; 再選擇f最小的數(shù)據(jù)對(duì)象來(lái)代替聚類中心，這樣K個(gè)mediods就改變了； (d) 與前一次的聚類中心相比較，如果發(fā)生變化轉(zhuǎn)到方法（b)，如果不發(fā)生變化轉(zhuǎn)到方法（e); (e)將聚類的結(jié)果輸出；所述過(guò)程（4)具體是指：根據(jù)過(guò)程（3)的聚類結(jié)果，得出最終關(guān)于疾病亞型的分類。
【專利摘要】本發(fā)明涉及逆向研究疾病亞型領(lǐng)域，旨在提供用于疾病亞型問(wèn)題的基于網(wǎng)絡(luò)的聚類方法。該用于疾病亞型問(wèn)題的基于網(wǎng)絡(luò)的聚類方法包括過(guò)程：獲得O-G矩陣以及基因調(diào)控網(wǎng)絡(luò)；選取適用于具體問(wèn)題的基于網(wǎng)絡(luò)的距離定義，構(gòu)建距離矩陣；運(yùn)用k-medoids算法對(duì)O-G矩陣進(jìn)行聚類分析，聚類時(shí)距離的選擇用基于網(wǎng)絡(luò)的距離。本發(fā)明對(duì)于特定的基因網(wǎng)絡(luò)，將有更好的組間相似性，能更有效地還原三種亞型；當(dāng)有大量的基因需要測(cè)定其表達(dá)數(shù)據(jù)時(shí)，本發(fā)明通過(guò)優(yōu)先精確測(cè)量信息基因的表達(dá)數(shù)據(jù)，不會(huì)大大地削弱對(duì)于疾病亞型的鑒定效果。
【IPC分類】G06F19/24
【公開號(hào)】CN105160208
【申請(qǐng)?zhí)枴緾N201510532877
【發(fā)明人】孔德興, 方紅晟
【申請(qǐng)人】杭州奧視圖像技術(shù)有限公司
【公開日】2015年12月16日
【申請(qǐng)日】2015年8月27日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)