專(zhuān)利名稱(chēng):蛋白質(zhì)查找方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于查找與諸如臨床信息的信息直接或間接相關(guān)的蛋 白質(zhì)的方法和設(shè)備。
背景技術(shù):
近年來(lái),稱(chēng)為蛋白質(zhì)組分析的蛋白質(zhì)綜合分析技術(shù)的進(jìn)步已經(jīng)引 起了對(duì)可用于疾病診斷和蛋白質(zhì)的功能性分析的標(biāo)志蛋白質(zhì)的積極研 究,所述蛋白質(zhì)組分析使用質(zhì)譜法、二維電泳法等。蛋白質(zhì)組分析通 常指下述分析,即從源于例如活組織檢査的樣本中,將存在于該樣本 中的各種蛋白質(zhì)等分離為成分,并然后鑒定每個(gè)分離的成分。
蛋白質(zhì)組分析的方法的一個(gè)實(shí)際示例涉及首先制備樣本,實(shí)施 二維電泳以分離蛋白質(zhì),選擇已經(jīng)通過(guò)染色二維電泳中獲得的凝膠而 變得可見(jiàn)的點(diǎn)(spot),并對(duì)通過(guò)進(jìn)一步的酶處理等獲得的提取物進(jìn)行 質(zhì)譜(MS)分析以預(yù)測(cè)哪些蛋白質(zhì)包括在樣本中。已變得可見(jiàn)的點(diǎn)每 個(gè)對(duì)應(yīng)于分離的蛋白質(zhì)。除了結(jié)合二維電泳和質(zhì)譜的上述方法以外, 蛋白質(zhì)組分析的方法還包括下述處理在實(shí)施適當(dāng)?shù)臉颖绢A(yù)處理后僅 實(shí)施二維電泳法和質(zhì)譜法中的一種。還有采用其它蛋白質(zhì)鑒定方法的 方法。
一種常用于蛋白質(zhì)組分析的二維電泳的方法是2D-DIGE (二維熒 光差異凝膠電泳)。2D-DIGE是用于使蛋白質(zhì)的表達(dá)和修飾信息圖譜化 的技術(shù)并且適用于樣本中蛋白質(zhì)的定量比較。此外,蛋白質(zhì)組分析中 常采用的一種質(zhì)譜法使用SELDI (表面增強(qiáng)激光解吸/離子化)芯片。 使用SELDI芯片的質(zhì)譜法是適用于蛋白質(zhì)的圖譜化的技術(shù),并且通過(guò)使 用該方法,基于質(zhì)譜實(shí)施樣本之間的蛋白質(zhì)的定量比較。然而,公知的是在包括人類(lèi)的某些動(dòng)物中,在從感染疾病的個(gè)體 獲得的樣本中以及從正常的個(gè)體獲得的樣本中,特定蛋白質(zhì)的表達(dá)中 常常出現(xiàn)顯著差異。
從個(gè)體獲得的蛋白質(zhì)的精確測(cè)量對(duì)于疾病的診斷是有效的。此外, 為了進(jìn)行這種診斷,關(guān)鍵的是針對(duì)每種疾病確定在已感染疾病的個(gè)體 和正常個(gè)體之間的表達(dá)中存在顯著差異的蛋白質(zhì)。在正常個(gè)體和染病 個(gè)體之間表達(dá)中發(fā)生顯著差異的蛋白質(zhì)稱(chēng)為"標(biāo)志蛋白質(zhì)"。査找標(biāo) 志蛋白質(zhì)涉及對(duì)蛋白質(zhì)的表達(dá)與諸如疾病狀態(tài)或治療記錄的臨床信息 之間的關(guān)系進(jìn)行研究以及查找表達(dá)與臨床信息顯著相關(guān)的蛋白質(zhì)的統(tǒng) 計(jì)處理的實(shí)施。
根據(jù)John M. Luk等人[Bl]的方法是下述方法的一個(gè)示例用于在
來(lái)自染病個(gè)體的樣本和來(lái)自正常個(gè)體的樣本間進(jìn)行蛋白質(zhì)的定量比 較。在Luk等人的方法中,在使用t-檢驗(yàn)或ANOVA (方差分析)中使用
的檢驗(yàn)統(tǒng)計(jì)量作為指標(biāo)的同時(shí),對(duì)通過(guò)二維電泳法獲得的蛋白質(zhì)表達(dá) 進(jìn)行比較。Luk等人使用該方法僅關(guān)注具有三個(gè)最高的檢驗(yàn)統(tǒng)計(jì)量的蛋 白質(zhì)以評(píng)估區(qū)分肝癌中癌變區(qū)域和非癌變區(qū)域的能力并評(píng)估與現(xiàn)有的 標(biāo)志蛋白質(zhì)或臨床信息的關(guān)聯(lián)性。
作為本發(fā)明的相關(guān)技術(shù),JP-A-2003-038377[Al]公開(kāi)了設(shè)計(jì)用于使 用RNA (核糖核酸)干擾現(xiàn)象的基因表現(xiàn)控制的功能性核酸序列的方 法。在該方法中,從目標(biāo)基因序列中提取寡核苷酸,所述目標(biāo)基因序 列為mRNA (信使RNA),該序列被取為設(shè)計(jì)候選序列的輸入數(shù)據(jù),基 于已知的訓(xùn)練序列和設(shè)計(jì)候選序列通過(guò)核方法進(jìn)行特征性提取,并且 進(jìn)行監(jiān)督學(xué)習(xí)從而預(yù)測(cè)用于目標(biāo)基因的有效的功能性核酸序列。該訓(xùn) 練序列是已視作在基因表現(xiàn)控制中有效的寡核苷酸序列。 JP-A-2003-038377公開(kāi)的方法實(shí)質(zhì)上是通過(guò)比較已知的功能核酸序列 而從設(shè)計(jì)候選序列預(yù)測(cè)功能性核酸序列,因此,即使用氨基酸序列代替核酸序列時(shí),該方法也不能用于基于諸如臨床信息的信息査找標(biāo)志 蛋白質(zhì)的目的。
作為與本發(fā)明相關(guān)的技術(shù),WO2002/047007[A2]公開(kāi)了學(xué)習(xí)分類(lèi) 和預(yù)測(cè)遺傳疾病的機(jī)器(machine)的使用。
0. Troyanskaya等人[B2]公開(kāi)了基于最近鄰算法的缺失值補(bǔ)充方 法。JP-A-2004-126857[A3〗類(lèi)似地公開(kāi)了使用k-最近鄰算法估算基因表
達(dá)數(shù)據(jù)中的缺失值。
是機(jī)器學(xué)習(xí)中的一種方法的隨機(jī)梯度增強(qiáng)(boosting)是梯度增強(qiáng) 的發(fā)展。在[B3]中描述了隨機(jī)梯度增強(qiáng),且在[B4]中描述了梯度增強(qiáng)。
隨機(jī)梯度增強(qiáng)和梯度增強(qiáng)均是集成學(xué)習(xí)的類(lèi)型,集成學(xué)習(xí)的代表模式 是[B5]中描述的增強(qiáng)和[B6]中描述的裝袋(bagging)。決策樹(shù)和回歸樹(shù) 常用作集成學(xué)習(xí)的下位學(xué)習(xí)機(jī),并且在[B7]中描述這些。
以下列出了本說(shuō)明書(shū)中引用的參考文獻(xiàn) [Al] JP-A2003-038377 [A2] WO2002/047007(JP-A陽(yáng)2004-524604) [A3] JP-A-2004-126857 John M. Luk等人;"Proteomic profiling of hepatocellular carcinoma in Chinese cohort reveals heat-shock proteins (Hsp27, Hsp70, GRP78) up-regulation and their associated prognostic values," Proteomics, 2006, 6, 1049-1057. O. Troyanskaya, M. Cantor, G. Sherlock, P. Brown, T. Hastie, R. Tibshirani, D. Botstein,禾口R. B. AItman; "Missing value estimation methods for DNA microarrays," Bioinformatics, 2001, 17, 520-525.: J. Friedman; "Stochastic gradient boosting," Computational Statistics and Data Analysis, 2002, 367-378.: J. Friedman; "Greedy Function Approximation: A Gradient說(shuō) ," The Annals of Statistics, 2001, 1189-1232.: Y. Freund, R. E. Schapire; "A decision-theoretic generalization of on-line learning and an application to boosting," Journal of Computer and System Sciences, 1997, 23-27.: Leo Breiman; "Bagging Predictors," Machine Learning, 1996, 123-140.: Andreas Buja禾口Yung-Seop Lee; "Data mining criteria for tree-based regression and classification," Proceedings of the seventh ACM SIGKDD international conference on knowledge discovery and data mining, pp. 27-36, 2001.
發(fā)明內(nèi)容
本發(fā)明所要解決的問(wèn)題
諸如Luk等人[Bl]的方法在來(lái)自正常個(gè)體的樣本和來(lái)自染病個(gè)體
的樣本間進(jìn)行蛋白質(zhì)的定量比較的方法具有應(yīng)從查找標(biāo)志蛋白質(zhì)的角 度來(lái)解決的問(wèn)題,如下所述。
首先,獨(dú)立地檢查組之間每種蛋白質(zhì)的表達(dá)與臨床信息之間的關(guān) 聯(lián)以確定與例如臨床信息的關(guān)聯(lián)的存在,從而在測(cè)試統(tǒng)計(jì)量中見(jiàn)到對(duì) 閾值的依賴(lài)性,但是設(shè)置該閾值的基礎(chǔ)的合理性極弱。此外,由于針 對(duì)每種個(gè)體蛋白質(zhì)進(jìn)行獨(dú)立的統(tǒng)計(jì)測(cè)試,因此當(dāng)多種蛋白質(zhì)的表達(dá)均
與臨床信息關(guān)聯(lián)時(shí),該方法不是有效的。已知的是,通常,多種生物 分子復(fù)雜地牽涉到疾病狀態(tài)的機(jī)理或藥效,并且因此上述方法不能認(rèn) 為是用于查找標(biāo)志蛋白質(zhì)的方法。
當(dāng)使用二維電泳法時(shí),在獲得對(duì)應(yīng)于相同蛋白質(zhì)的點(diǎn)的樣本之間
的關(guān)聯(lián)時(shí)遇到困難,這是因?yàn)閷?shí)驗(yàn)中再現(xiàn)性降低的不可避免,噪聲 的滲入,以及進(jìn)一步地,當(dāng)電泳圖像作為圖片圖像輸入時(shí)處理過(guò)程中 圖像處理技術(shù)的限制。因此,能夠在組之間進(jìn)行比較的蛋白質(zhì)的窮竭 性(exhaustivity)有可能顯著降低。此外,不清楚哪些蛋白質(zhì)實(shí)際對(duì)應(yīng)
9于下述點(diǎn)或峰,其中在蛋白質(zhì)已經(jīng)通過(guò)二維電泳法擴(kuò)散的階段觀察到 所述點(diǎn),在借助于質(zhì)譜法測(cè)量質(zhì)譜的階段觀察到所述峰。結(jié)果,必須 鑒定對(duì)應(yīng)于點(diǎn)或峰的氨基酸序列以弄清楚蛋白質(zhì)的身份,但是該操作 需要大量的時(shí)間和工作。
此外,借助于蛋白質(zhì)組分析,從一個(gè)樣本中獲得多種蛋白質(zhì)的每 一種表達(dá)的數(shù)據(jù)作為蛋白質(zhì)表達(dá)譜圖數(shù)據(jù),但是可能發(fā)生數(shù)據(jù)缺失。 數(shù)據(jù)缺失是不能獲得與若干蛋白質(zhì)相關(guān)的表達(dá)的數(shù)據(jù),即使這些蛋白 質(zhì)應(yīng)該實(shí)際上包含在樣本中??赡艹霈F(xiàn)這類(lèi)缺失是因?yàn)橐韵略?,測(cè) 量中分辨率不足,圖像處理的限制,或者外來(lái)物質(zhì)或噪聲附在電泳圖 像上。查找標(biāo)志蛋白質(zhì)的窮竭性的改進(jìn)需要考慮這類(lèi)數(shù)據(jù)缺失,并且 在某些情形中,需要補(bǔ)充缺失值。
鑒于上述問(wèn)題,本發(fā)明的目的是提供新的分析方法,該分析方法 使得能夠基于諸如二維電泳中獲得的蛋白質(zhì)的數(shù)據(jù)表達(dá)數(shù)據(jù)的信息查 找生物學(xué)中重要的蛋白質(zhì)諸如標(biāo)志蛋白質(zhì)作為目標(biāo)蛋白質(zhì)。
鑒于上述問(wèn)題,本發(fā)明的另一個(gè)目的是提供新的分析設(shè)備,該分 析設(shè)備使得能夠基于諸如二維電泳中獲得的蛋白質(zhì)的表達(dá)數(shù)據(jù)的信息 査找生物學(xué)中重要的蛋白質(zhì)諸如標(biāo)志蛋白質(zhì)作為目標(biāo)蛋白質(zhì)。
解決問(wèn)題的方法
根據(jù)本發(fā)明的蛋白質(zhì)査找方法是下述蛋白質(zhì)查找方法,用于基于 通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù)査找與信息直接或間接 有關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì),該蛋白質(zhì)查找方法包括基于通過(guò)使 用從譜圖數(shù)據(jù)中的蛋白質(zhì)表達(dá)和信息的監(jiān)督學(xué)習(xí)獲得的蛋白質(zhì)的顯著 性確定與信息相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì);并且借助于評(píng)估數(shù)據(jù)評(píng) 估目標(biāo)蛋白質(zhì)的性能。
根據(jù)本發(fā)明的第一蛋白質(zhì)查找設(shè)備是用于基于通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù)查找與信息相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì) 的蛋白質(zhì)査找設(shè)備,所述第一蛋白質(zhì)查找設(shè)備包括數(shù)據(jù)存儲(chǔ)裝置, 用于存儲(chǔ)通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)數(shù)據(jù)和信息;目標(biāo)蛋白 質(zhì)查找裝置,用于使用從蛋白質(zhì)表達(dá)數(shù)據(jù)和信息的監(jiān)督學(xué)習(xí)確定目標(biāo) 蛋白質(zhì);目標(biāo)蛋白質(zhì)存儲(chǔ)裝置,用于存儲(chǔ)所確定的目標(biāo)蛋白質(zhì)的表達(dá); 根據(jù)目標(biāo)蛋白質(zhì)的預(yù)測(cè)模型學(xué)習(xí)裝置,用于使用所確定的目標(biāo)蛋白質(zhì) 的表達(dá)和信息以學(xué)習(xí)預(yù)測(cè)模型;預(yù)測(cè)模型存儲(chǔ)裝置,用于存儲(chǔ)預(yù)測(cè)模 型;評(píng)估數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)用于評(píng)估預(yù)測(cè)模型的性能的數(shù)據(jù); 以及預(yù)測(cè)模型驗(yàn)證裝置,用于借助于評(píng)估數(shù)據(jù)評(píng)估預(yù)測(cè)模型。
根據(jù)本發(fā)明的第二蛋白質(zhì)查找設(shè)備是用于基于通過(guò)蛋白質(zhì)組分析 獲取的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù)査找與信息相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì) 的蛋白質(zhì)査找設(shè)備,所述第二蛋白質(zhì)查找設(shè)備包括數(shù)據(jù)存儲(chǔ)裝置, 用于存儲(chǔ)通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)數(shù)據(jù)和信息;數(shù)據(jù)劃分 裝置,用于將蛋白質(zhì)表達(dá)數(shù)據(jù)劃分為目標(biāo)蛋白質(zhì)查找中使用的訓(xùn)練數(shù) 據(jù)和驗(yàn)證數(shù)據(jù);訓(xùn)練數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)訓(xùn)練數(shù)據(jù);驗(yàn)證數(shù)據(jù)存 儲(chǔ)裝置,用于存儲(chǔ)驗(yàn)證數(shù)據(jù);目標(biāo)蛋白質(zhì)査找裝置,用于使用從訓(xùn)練 數(shù)據(jù)和信息的監(jiān)督學(xué)習(xí)確定目標(biāo)蛋白質(zhì);目標(biāo)蛋白質(zhì)存儲(chǔ)裝置,用于 存儲(chǔ)所確定的目標(biāo)蛋白質(zhì)的表達(dá);根據(jù)目標(biāo)蛋白質(zhì)的預(yù)測(cè)模型學(xué)習(xí)裝 置,用于使用所確定的目標(biāo)蛋白質(zhì)的表達(dá)和信息學(xué)習(xí)預(yù)測(cè)模型;預(yù)測(cè) 模型存儲(chǔ)裝置,用于存儲(chǔ)預(yù)測(cè)模型;以及預(yù)測(cè)模型驗(yàn)證裝置,用于借 助于驗(yàn)證數(shù)據(jù)評(píng)估預(yù)測(cè)模型。
根據(jù)本發(fā)明,作為一個(gè)示例,即使當(dāng)多種蛋白質(zhì)的表達(dá)與諸如臨 床信息的信息有關(guān)時(shí),也能査找諸如標(biāo)志蛋白質(zhì)的目標(biāo)蛋白質(zhì),并且 進(jìn)一步地,能夠合理地確定用于確定蛋白質(zhì)是否為目標(biāo)蛋白質(zhì)的閾值。
圖l是示出根據(jù)第一示例性實(shí)施例的標(biāo)志蛋白質(zhì)查找設(shè)備的構(gòu)造 的框2是示出圖1中所示的標(biāo)志蛋白質(zhì)查找設(shè)備中處理過(guò)程的示例的 流程圖3是示出用于補(bǔ)充缺失值的處理過(guò)程的示例的流程圖; 圖4是示出隨機(jī)梯度增強(qiáng)的處理過(guò)程的示例的流程圖5是示出根據(jù)第二示例性實(shí)施例的標(biāo)志蛋白質(zhì)査找設(shè)備的構(gòu)造 的框圖6是示出圖5中所示的標(biāo)志蛋白質(zhì)查找設(shè)備中處理過(guò)程的示例的 流程圖7是示出根據(jù)第三示例性實(shí)施例的標(biāo)志蛋白質(zhì)査找設(shè)備的構(gòu)造 的框圖;以及
圖8是示出圖7中所示的標(biāo)志蛋白質(zhì)查找設(shè)備中處理過(guò)程的示例的 流程附圖標(biāo)記的說(shuō)明
1輸入設(shè)備;
2數(shù)據(jù)處理設(shè)備;
3存儲(chǔ)設(shè)備;
4輸出設(shè)備;
21缺失值補(bǔ)充單元;
22數(shù)據(jù)劃分單元;
23標(biāo)志蛋白質(zhì)査找單元;
24預(yù)測(cè)模型學(xué)習(xí)單元;
25驗(yàn)證單元;
31數(shù)據(jù)存儲(chǔ)單元;
32訓(xùn)練數(shù)據(jù)存儲(chǔ)單元;
33驗(yàn)證數(shù)據(jù)存儲(chǔ)單元;
34參數(shù)存儲(chǔ)單元;
35標(biāo)志蛋白質(zhì)存儲(chǔ)單元;
36預(yù)測(cè)模型存儲(chǔ)單元;以及
37評(píng)估數(shù)據(jù)存儲(chǔ)單元。
具體實(shí)施例方式
接下來(lái)說(shuō)明本發(fā)明的示例性實(shí)施例。在以下描述中,給出了下述 示例,其中對(duì)于與臨床信息直接或間接相關(guān)的標(biāo)志蛋白質(zhì)進(jìn)行全面查
找,作為與信息直接或間接相關(guān)的蛋白質(zhì)的目標(biāo)蛋白質(zhì)。在本發(fā)明中, 通過(guò)使用對(duì)通過(guò)蛋白質(zhì)組分析獲得的蛋白質(zhì)的表達(dá)進(jìn)行集成學(xué)習(xí)來(lái)進(jìn) 行標(biāo)志蛋白質(zhì)的全面査找。
圖l示出根據(jù)第一示例性實(shí)施例的標(biāo)志蛋白質(zhì)查找設(shè)備的構(gòu)造。該 標(biāo)志蛋白質(zhì)査找設(shè)備基于通過(guò)例如二維電泳法獲得的蛋白質(zhì)的表達(dá)數(shù) 據(jù)進(jìn)行生物學(xué)中重要的蛋白質(zhì),即標(biāo)志蛋白質(zhì)的査找。
圖中所示的標(biāo)志蛋白質(zhì)査找設(shè)備通常由以下構(gòu)成輸入設(shè)備l,諸 如鍵盤(pán)或定位設(shè)備;數(shù)據(jù)處理設(shè)備2,其在程序的控制下運(yùn)行;存儲(chǔ)設(shè) 備3,用于存儲(chǔ)信息;以及輸出設(shè)備4,諸如顯示設(shè)備或打印機(jī)。
數(shù)據(jù)處理設(shè)備2設(shè)置有缺失值補(bǔ)充單元21,用于補(bǔ)充已缺失的蛋 白質(zhì)表達(dá)的值;數(shù)據(jù)劃分單元22,用于在訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)之間劃 分所有數(shù)據(jù);標(biāo)志蛋白質(zhì)查找單元23,用于從訓(xùn)練數(shù)據(jù)查找標(biāo)志蛋白 質(zhì);預(yù)測(cè)模型學(xué)習(xí)單元24,用于使用標(biāo)志蛋白質(zhì)的表達(dá)以及例如,臨 床信息學(xué)習(xí)預(yù)測(cè)模型;以及驗(yàn)證單元25,用于基于驗(yàn)證數(shù)據(jù)評(píng)估預(yù)測(cè) 模型的分類(lèi)性能。這里,缺失值補(bǔ)充單元21又稱(chēng)為缺失值補(bǔ)充裝置, 數(shù)據(jù)劃分單元22又稱(chēng)為數(shù)據(jù)劃分裝置,標(biāo)志蛋白質(zhì)查找單元23又稱(chēng)為 目標(biāo)蛋白質(zhì)査找裝置,預(yù)測(cè)模型學(xué)習(xí)單元24又稱(chēng)為預(yù)測(cè)模型學(xué)習(xí)裝置, 且驗(yàn)證單元25又稱(chēng)為預(yù)測(cè)模型驗(yàn)證裝置。
存儲(chǔ)設(shè)備3設(shè)置有數(shù)據(jù)存儲(chǔ)單元31,用于存儲(chǔ)蛋白質(zhì)表達(dá)和例如 臨床信息;訓(xùn)練數(shù)據(jù)存儲(chǔ)單元32,用于存儲(chǔ)已經(jīng)通過(guò)數(shù)據(jù)劃分單元22 劃分的訓(xùn)練數(shù)據(jù);驗(yàn)證數(shù)據(jù)存儲(chǔ)單元33,用于存儲(chǔ)已經(jīng)通過(guò)數(shù)據(jù)劃分 單元22劃分的驗(yàn)證數(shù)據(jù);參數(shù)存儲(chǔ)單元34,用于存儲(chǔ)標(biāo)志蛋白質(zhì)查找單元23査找標(biāo)志蛋白質(zhì)中使用的學(xué)習(xí)參數(shù);標(biāo)志蛋白質(zhì)存儲(chǔ)單元35,
用于存儲(chǔ)已經(jīng)査找到的標(biāo)志蛋白質(zhì)信息和臨床信息;以及預(yù)測(cè)模型存
儲(chǔ)單元36,用于存儲(chǔ)通過(guò)使用訓(xùn)練數(shù)據(jù)中的標(biāo)志蛋白質(zhì)和臨床信息而 學(xué)習(xí)到的預(yù)測(cè)模型。這里,數(shù)據(jù)存儲(chǔ)單元31還稱(chēng)為數(shù)據(jù)存儲(chǔ)裝置,訓(xùn) 練數(shù)據(jù)存儲(chǔ)單元32還稱(chēng)為訓(xùn)練數(shù)據(jù)存儲(chǔ)裝置,驗(yàn)證數(shù)據(jù)存儲(chǔ)單元33還 稱(chēng)為驗(yàn)證數(shù)據(jù)存儲(chǔ)裝置,標(biāo)志蛋白質(zhì)存儲(chǔ)單元35還稱(chēng)為目標(biāo)蛋白質(zhì)存 儲(chǔ)裝置,并且預(yù)測(cè)模型存儲(chǔ)單元36還稱(chēng)為預(yù)測(cè)模型存儲(chǔ)單元。
接下來(lái)的說(shuō)明涉及使用圖l所示的標(biāo)志蛋白質(zhì)查找設(shè)備查找標(biāo)志 蛋白質(zhì)。圖2是示出標(biāo)志蛋白質(zhì)查找的處理過(guò)程的示例的流程圖。
在步驟A1中,借助于輸入設(shè)備1將執(zhí)行指令施加到標(biāo)志蛋白質(zhì)查找 設(shè)備,并且借助于輸入設(shè)備1輸入蛋白質(zhì)的表達(dá)作為數(shù)據(jù)存儲(chǔ)單元31的 輸入。作為輸入的接收到的表達(dá)被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元31中。這里, 蛋白質(zhì)的表達(dá)由例如通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù)獲 得。作為蛋白質(zhì)組分析方法,能夠使用釆用二維電泳和/或質(zhì)譜的方法。 此外,諸如蛋白質(zhì)的磷酸化作用或糖基化作用的反映諸如化學(xué)修飾的 蛋白質(zhì)的狀態(tài)的信息可代替蛋白質(zhì)表達(dá)使用或者與蛋白質(zhì)表達(dá)組合使 用。對(duì)應(yīng)于蛋白質(zhì)的表達(dá)的臨床信息也借助于輸入設(shè)備l和數(shù)據(jù)處理設(shè) 備2存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元31中。當(dāng)借助于蛋白質(zhì)組分析分析某些樣本 時(shí),獲得蛋白質(zhì)的表達(dá),但是對(duì)應(yīng)于蛋白質(zhì)的表達(dá)的臨床信息是與提 供這些樣本的個(gè)體有關(guān)的信息。臨床信息總體而言指下述信息,即與 這些臨床數(shù)值有關(guān)的信息、與疾病狀態(tài)有關(guān)的信息、與藥效有關(guān)的信 息、以及與存活時(shí)間(即樣本采集后個(gè)體存活多久)有關(guān)的信息。
接下來(lái)在步驟A2中通過(guò)缺失值補(bǔ)充單元21補(bǔ)充蛋白質(zhì)表達(dá)的缺失 值,并且將己補(bǔ)充缺失值的蛋白質(zhì)表達(dá)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元31中。
接下來(lái)參照?qǐng)D3說(shuō)明通過(guò)k-最近鄰算法補(bǔ)充缺失值的實(shí)際方法。
14首先,在步驟B1中將補(bǔ)充缺失值之前的蛋白質(zhì)表達(dá)應(yīng)用為從數(shù)據(jù)
存儲(chǔ)單元31到缺失值補(bǔ)充單元21的輸入。在步驟B2中,缺失值補(bǔ)充單 元21選擇其表達(dá)已經(jīng)以預(yù)定比例缺失的M個(gè)蛋白質(zhì),并且在步驟B3中, 設(shè)置缺失值補(bǔ)充中使用的蛋白質(zhì)的數(shù)目K。接下來(lái),在步驟B4中,將m 初始化為m-l,然后在步驟B5中使用無(wú)缺失的樣本中的表達(dá)計(jì)算歐氏 距離并且査找K個(gè)鄰近蛋白質(zhì),并且在步驟B6中,借助于相應(yīng)于距離的 加權(quán)平均補(bǔ)充缺失值。如果w,是加權(quán)并且x,是蛋白質(zhì)表達(dá),則加權(quán)平均 通過(guò)以下求得-
<formula>formula see original document page 15</formula>
接下來(lái),在步驟B7中,將"l"加到m,并且在步驟B8中確定m是 否已經(jīng)達(dá)到M。如果itKM,則處理返回到步驟B5,而如果m-M則結(jié)束。 結(jié)果,對(duì)于表達(dá)缺失的M個(gè)蛋白質(zhì)中的每個(gè)均進(jìn)行步驟B4和B5中所示 的處理。
當(dāng)已經(jīng)補(bǔ)充缺失值時(shí),數(shù)據(jù)劃分單元22從數(shù)據(jù)存儲(chǔ)單元31接收補(bǔ) 充缺失值后的所有樣本的蛋白質(zhì)表達(dá)數(shù)據(jù)。在步驟A3中,進(jìn)行標(biāo)志蛋 白質(zhì)的查找,并且在預(yù)測(cè)模型的學(xué)習(xí)中使用的訓(xùn)練數(shù)據(jù)和用于評(píng)估從 所述訓(xùn)練數(shù)據(jù)學(xué)習(xí)到的預(yù)測(cè)模型的性能的驗(yàn)證數(shù)據(jù)之間劃分這些標(biāo)志 蛋白質(zhì)的蛋白質(zhì)表達(dá)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)存儲(chǔ)在訓(xùn)練數(shù)據(jù)存儲(chǔ)單元32中, 并且驗(yàn)證數(shù)據(jù)存儲(chǔ)在驗(yàn)證數(shù)據(jù)存儲(chǔ)單元33中。
在步驟A4中,標(biāo)志蛋白質(zhì)查找單元23接下來(lái)從訓(xùn)練數(shù)據(jù)存儲(chǔ)單元 32接收訓(xùn)練數(shù)據(jù)的蛋白質(zhì)表達(dá)和對(duì)應(yīng)的臨床信息,從參數(shù)存儲(chǔ)單元34 接收通過(guò)隨機(jī)梯度增強(qiáng)的學(xué)習(xí)中所使用的參數(shù),并且設(shè)置當(dāng)下位學(xué)習(xí) 機(jī)被取為回歸樹(shù)時(shí)的隨機(jī)增強(qiáng)的參數(shù)。在這樣設(shè)置參數(shù)后,標(biāo)志蛋白 質(zhì)查找單元23通過(guò)監(jiān)督學(xué)習(xí)為每種蛋白質(zhì)計(jì)算是標(biāo)志蛋白質(zhì)的指標(biāo)的 顯著性。在顯著性的計(jì)算中,在步驟A5中通過(guò)隨機(jī)增強(qiáng)實(shí)現(xiàn)學(xué)習(xí),其中蛋白質(zhì)表達(dá)被取為屬性,而臨床信息被取為監(jiān)督學(xué)習(xí)中的目標(biāo)函數(shù)。
在通過(guò)隨機(jī)增強(qiáng)的學(xué)習(xí)的處理中計(jì)算屬性的顯著性,如步驟A6中所示。 然后在步驟A7中基于顯著性選擇屬性。然后將已賦予顯著性的蛋白質(zhì) 的表達(dá)與臨床信息一起存儲(chǔ)在標(biāo)志蛋白質(zhì)存儲(chǔ)單元35中。
接下來(lái)參照?qǐng)D4,具體說(shuō)明借助于隨機(jī)梯度增強(qiáng)計(jì)算顯著性的方法。
在步驟C1中,首先將蛋白質(zhì)表達(dá)與臨床信息的組合的集合D應(yīng) 用為從訓(xùn)練數(shù)據(jù)存儲(chǔ)單元32到標(biāo)志蛋白質(zhì)査找單元23的輸入。N是 組合的數(shù)目,即獲得的用于感興趣的蛋白質(zhì)的表達(dá)的樣本的數(shù)目。
"-{(Wi)"-""^)}
其中x是蛋白質(zhì)表達(dá)且y是臨床信息。臨床信息包括,例如,疾
病、常態(tài)或惡性、以及存活時(shí)間。接下來(lái)在步驟C2中設(shè)定壓縮參數(shù)v 、
再抽樣數(shù)s、學(xué)習(xí)的循環(huán)數(shù)M、和適于臨床信息的類(lèi)型的損失函數(shù)L。
在區(qū)分諸如疾病和常態(tài)的類(lèi)別的分類(lèi)問(wèn)題中,損失函數(shù)L可使用 i = log(l + exp(—2yFO))) (3)
其中F(X)是判別函數(shù)。此外,在回歸問(wèn)題中,能夠使用 "("F(x))2 (4)
或者
丄H" (5)
換言之,當(dāng)臨床信息包括離散值時(shí),可使用諸如對(duì)數(shù)函數(shù)的函數(shù) 作為損失函數(shù),而當(dāng)臨床信息包括連續(xù)值時(shí),可使用真值與預(yù)測(cè)值之 差的平方值或者真值與預(yù)測(cè)值之差的絕對(duì)值作為損失函數(shù)。當(dāng)臨床信
息是存活時(shí)間時(shí),可使用Cox比例風(fēng)險(xiǎn)模型作為損失函數(shù)。再抽樣數(shù)S和壓縮參數(shù)V的大小范圍為
(6),
0<v^l (7)。
這里,引入再抽樣數(shù)s和壓縮參數(shù)v以避免原始數(shù)據(jù)的過(guò)度學(xué)習(xí)。
接下來(lái)在步驟C3中初始化判別函數(shù)Fo和循環(huán)數(shù)m,如下所示 F。=() (8),
附=1 (9)。
在步驟C4中,如下所示通過(guò)是下位學(xué)習(xí)機(jī)的回歸樹(shù)初始化學(xué)習(xí)的 數(shù)據(jù)項(xiàng)目數(shù)n:
"=1 (10)。
在步驟C5中,通過(guò)以下等式計(jì)算損失函數(shù)L的梯度:
0
=。CV 、£0",F(xiàn)(Xn))
(11)。
在步驟C5之后的步驟C6中,將"l"加到n,在步驟C7中確定 n是否已經(jīng)達(dá)到N,并且如果rKN,則該處理返回到步驟C5,從而繼 續(xù)步驟C5中計(jì)算損失函數(shù)的梯度的操作直至n達(dá)到N。
當(dāng)步驟C7中n=N時(shí),接下來(lái)進(jìn)行s次數(shù)據(jù)的再抽樣并且在步驟
S8中產(chǎn)生復(fù)制數(shù)據(jù)集合,并且在步驟C9中,通過(guò)回歸樹(shù)Tm學(xué)習(xí)復(fù)制
數(shù)據(jù)和損失函數(shù)的梯度的組合的集合R。
^{O",,^)"",",,^,)} (12)。
在步驟C10中,如下更新判別函數(shù)<formula>formula see original document page 18</formula> (13)。
在步驟C10之后,在步驟Cll中將"1"加到M,在步驟C12中 確定m是否已經(jīng)達(dá)到M,并且如果nKM,則處理返回到步驟C4,從 而繼續(xù)步驟C5至步驟C10的操作直至m變?yōu)镸。
在上述隨機(jī)梯度增強(qiáng)的回歸樹(shù)的學(xué)習(xí)處理中通過(guò)以下等式計(jì)算蛋 白質(zhì)p的顯著性Vp:
M^t (14)。
此處,Vp(TJ是學(xué)習(xí)第m個(gè)回歸樹(shù)時(shí)的顯著性且其通過(guò)以下等式 定義
'=i (15)。
這里,Jm是第m個(gè)回歸樹(shù)的非終端節(jié)點(diǎn)的數(shù)目,I[t-p]是當(dāng)在節(jié)點(diǎn) t處分支的蛋白質(zhì)為p時(shí)變?yōu)?1"的下標(biāo)變量,且《是當(dāng)在節(jié)點(diǎn)t處劃 分時(shí)均方差的改善量。換言之,在學(xué)習(xí)處理的全部回歸樹(shù)中均缺乏分 支變量的蛋白質(zhì)具有"0"的顯著性,意味著這些蛋白質(zhì)對(duì)臨床信息變 量完全沒(méi)有任何貢獻(xiàn)并且與臨床信息無(wú)關(guān)。
在該示例性實(shí)施例中,計(jì)算感興趣的蛋白質(zhì)的顯著性的方法不限 于本文描述的隨機(jī)梯度增強(qiáng),而還可以釆用其它方法,包括集成學(xué)習(xí) 諸如增強(qiáng)和裝袋。然而,當(dāng)有很少的數(shù)據(jù)的項(xiàng)目時(shí),優(yōu)選地使用隨機(jī) 梯度增強(qiáng)。
如在前面的說(shuō)明中所描述的,如果在標(biāo)志蛋白質(zhì)査找單元23中從 訓(xùn)練數(shù)據(jù)計(jì)算是作為標(biāo)志蛋白質(zhì)的每個(gè)蛋白質(zhì)的指標(biāo)的顯著性,則接 下來(lái)在步驟A8中預(yù)測(cè)模型學(xué)習(xí)單元24從訓(xùn)練數(shù)據(jù)存儲(chǔ)單元32接收訓(xùn) 練數(shù)據(jù)的蛋白質(zhì)表達(dá)和臨床信息并從標(biāo)志蛋白質(zhì)存儲(chǔ)單元35接收蛋白質(zhì)的表達(dá),并且通過(guò)諸如支持向量機(jī)的監(jiān)督學(xué)習(xí)或者諸如聚類(lèi)的非監(jiān) 督學(xué)習(xí)來(lái)學(xué)習(xí)預(yù)測(cè)模型。學(xué)習(xí)后的預(yù)測(cè)模型存儲(chǔ)在預(yù)測(cè)模型存儲(chǔ)單元
36中。
在步驟A9中,驗(yàn)證單元25從預(yù)測(cè)模型存儲(chǔ)單元36接收預(yù)測(cè)模型 并從驗(yàn)證數(shù)據(jù)存儲(chǔ)單元33接收驗(yàn)證數(shù)據(jù),并且對(duì)驗(yàn)證數(shù)據(jù)的臨床信息 進(jìn)行預(yù)測(cè)。從輸出設(shè)備4提供預(yù)測(cè)結(jié)果。
在上述第一示例性實(shí)施例的標(biāo)志蛋白質(zhì)査找設(shè)備中,缺失的蛋白 質(zhì)的表達(dá)的補(bǔ)充使得能夠從較大量的蛋白質(zhì)之中査找與臨床信息有關(guān) 的蛋白質(zhì),并因此具有提高發(fā)現(xiàn)以前未能發(fā)現(xiàn)的標(biāo)志蛋白質(zhì)的可能性 的效果。
圖5示出根據(jù)第二示例性實(shí)施例的標(biāo)志蛋白質(zhì)查找設(shè)備的構(gòu)造。 圖5中所示的標(biāo)志蛋白質(zhì)査找設(shè)備適應(yīng)于以下情形能測(cè)量樣本中蛋 白質(zhì)的全部表達(dá);或者僅將能測(cè)量表達(dá)的那些蛋白質(zhì)取為分析的對(duì)象。 與圖1中所示的第一示例性實(shí)施例的標(biāo)志蛋白質(zhì)查找設(shè)備相比,圖5 中所示的設(shè)備的不同之處在于其沒(méi)有提供缺失值補(bǔ)充單元。圖6是示 出圖5中所示的設(shè)備中標(biāo)志蛋白質(zhì)查找處理的示例的流程圖,并且與 圖2中所示的第一示例性實(shí)施例中的處理相比,不同之處僅在于其沒(méi) 有提供缺失值補(bǔ)充處理。圖5中所示的設(shè)備不進(jìn)行表達(dá)中缺失值的補(bǔ) 充,而另外地執(zhí)行與圖1中所示的設(shè)備相同的標(biāo)志蛋白質(zhì)查找處理。
圖7示出根據(jù)第三示例性實(shí)施例的標(biāo)志蛋白質(zhì)查找設(shè)備的構(gòu)造。 圖7中所示的標(biāo)志蛋白質(zhì)查找設(shè)備使用全部數(shù)據(jù)以査找標(biāo)志蛋白質(zhì)而 沒(méi)有在訓(xùn)練數(shù)據(jù)和評(píng)估數(shù)據(jù)之間劃分表達(dá)譜圖數(shù)據(jù),并且借助于已分 別準(zhǔn)備的評(píng)估數(shù)據(jù)來(lái)評(píng)估通過(guò)標(biāo)志蛋白質(zhì)實(shí)現(xiàn)的預(yù)測(cè)性能。與圖5中 所示的設(shè)備相比,圖7中所示的設(shè)備缺乏數(shù)據(jù)劃分單元、訓(xùn)練數(shù)據(jù)存 儲(chǔ)單元、和驗(yàn)證數(shù)據(jù)存儲(chǔ)單元,并且替代地,在存儲(chǔ)設(shè)備3中設(shè)置有 評(píng)估數(shù)據(jù)存儲(chǔ)單元37。這里,標(biāo)志蛋白質(zhì)查找單元23,又稱(chēng)為目標(biāo)蛋白質(zhì)查找裝置,使用監(jiān)督學(xué)習(xí)以從存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元31中的蛋白質(zhì)
表達(dá)數(shù)據(jù)和臨床信息確定標(biāo)志蛋白質(zhì)。評(píng)估數(shù)據(jù)存儲(chǔ)單元37還稱(chēng)為評(píng) 估數(shù)據(jù)存儲(chǔ)裝置并且存儲(chǔ)用于評(píng)估預(yù)測(cè)模型的性能的評(píng)估數(shù)據(jù)。
圖8是示出圖7中所示的設(shè)備中標(biāo)志蛋白質(zhì)査找處理的示例的流 程圖。通過(guò)輸入設(shè)備l給出執(zhí)行指令,并且在步驟A1中,蛋白質(zhì)的表 達(dá)和對(duì)應(yīng)的臨床信息被施加為借助于輸入設(shè)備1到數(shù)據(jù)存儲(chǔ)單元31的 輸入并存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元31中。接下來(lái),在步驟A4中,標(biāo)志蛋白 質(zhì)查找單元23從數(shù)據(jù)存儲(chǔ)單元31接收訓(xùn)練數(shù)據(jù)的蛋白質(zhì)表達(dá)和對(duì)應(yīng) 的臨床信息,從參數(shù)存儲(chǔ)單元34接收隨機(jī)梯度增強(qiáng)的學(xué)習(xí)中使用的參 數(shù),并且設(shè)定假設(shè)下位學(xué)習(xí)機(jī)為回歸樹(shù)時(shí)的隨機(jī)增強(qiáng)的參數(shù)。在這樣 設(shè)定參數(shù)后,標(biāo)志蛋白質(zhì)查找單元23計(jì)算是作為標(biāo)志蛋白質(zhì)的每個(gè)標(biāo) 志的指標(biāo)的顯著性。在步驟A5中顯著性的計(jì)算中,通過(guò)隨機(jī)增強(qiáng)進(jìn)行 學(xué)習(xí),而蛋白質(zhì)表達(dá)作為屬性且臨床信息作為目標(biāo)函數(shù)。在隨機(jī)增強(qiáng) 學(xué)習(xí)處理中,如步驟A6中所示,為屬性計(jì)算顯著性。
接下來(lái)在步驟A7中,標(biāo)志蛋白質(zhì)査找單元23基于顯著性選擇屬 性。然后將已賦予顯著性的蛋白質(zhì)的表達(dá)存儲(chǔ)在標(biāo)志蛋白質(zhì)存儲(chǔ)單元 35中。然后在步驟A8中,預(yù)測(cè)模型學(xué)習(xí)單元24從數(shù)據(jù)存儲(chǔ)單元31 接收蛋白質(zhì)表達(dá)和臨床信息,從標(biāo)志蛋白質(zhì)存儲(chǔ)單元35接收蛋白質(zhì)的 表達(dá),并且進(jìn)行諸如支持向量機(jī)的監(jiān)督學(xué)習(xí)或者諸如聚類(lèi)的非監(jiān)督學(xué) 習(xí)以學(xué)習(xí)預(yù)測(cè)模型。學(xué)習(xí)后的預(yù)測(cè)模型存儲(chǔ)在預(yù)測(cè)模型存儲(chǔ)單元36中。 接下來(lái)在步驟A10中,驗(yàn)證單元25從預(yù)測(cè)模型存儲(chǔ)單元36接收預(yù)測(cè) 模型并從評(píng)估數(shù)據(jù)存儲(chǔ)單元37接收評(píng)估數(shù)據(jù)以為臨床信息進(jìn)行評(píng)估數(shù) 據(jù)的預(yù)測(cè)。從輸出設(shè)備4提供預(yù)測(cè)的結(jié)果。
在第三示例性實(shí)施例中,如第一示例性實(shí)施例中一樣,能夠采用 設(shè)置有缺失值補(bǔ)充單元21以補(bǔ)充缺失值的構(gòu)造。
上述示例性實(shí)施例的每個(gè)的標(biāo)志蛋白質(zhì)查找方法均能通過(guò)以下方式實(shí)現(xiàn)使諸如個(gè)人計(jì)算機(jī)或工作站的計(jì)算機(jī)讀取用于實(shí)現(xiàn)標(biāo)志蛋白 質(zhì)查找方法的計(jì)算機(jī)程序并然后執(zhí)行所述程序。用于進(jìn)行標(biāo)志蛋白質(zhì)
査找的程序被通過(guò)諸如磁帶或CD-ROM的記錄介質(zhì)或者通過(guò)網(wǎng)絡(luò)讀取 到計(jì)算機(jī)。這種計(jì)算機(jī)由以下構(gòu)成CPU (中央處理單元)、用于存儲(chǔ) 程序和數(shù)據(jù)的外部存儲(chǔ)設(shè)備、主存儲(chǔ)器、諸如鍵盤(pán)或鼠標(biāo)的輸入設(shè)備、 輸出設(shè)備或諸如CRT (陰極射線管)或液晶顯示設(shè)備(LCD)的顯示 設(shè)備、用于讀取諸如磁帶或CD-ROM的記錄介質(zhì)的讀取設(shè)備、以及用 于連接到網(wǎng)絡(luò)的通信接口。將硬盤(pán)驅(qū)動(dòng)器等用作外部存儲(chǔ)設(shè)備。
在該計(jì)算機(jī)中,存儲(chǔ)用于執(zhí)行標(biāo)志蛋白質(zhì)查找的程序的記錄介質(zhì) 裝在讀取設(shè)備上,該程序被從記錄介質(zhì)讀取并存儲(chǔ)在外部存儲(chǔ)設(shè)備中, 并且通過(guò)CPU執(zhí)行存儲(chǔ)在外部存儲(chǔ)設(shè)備中的該程序,或者,借助于網(wǎng) 絡(luò)將程序下載到外部存儲(chǔ)設(shè)備中并且通過(guò)CPU執(zhí)行存儲(chǔ)在外部存儲(chǔ)設(shè) 備中的程序,從而執(zhí)行上述標(biāo)志蛋白質(zhì)查找方法。
根據(jù)上述示例性實(shí)施例中的每一個(gè),即使當(dāng)多種蛋白質(zhì)的表達(dá)與 臨床信息相關(guān)時(shí),也有可能查找到作為目標(biāo)蛋白質(zhì)的標(biāo)志蛋白質(zhì)并且 能合乎邏輯地確定用于確定蛋白質(zhì)是否為標(biāo)志蛋白質(zhì)的閾值。此外, 該示例性實(shí)施例允許要通過(guò)質(zhì)譜的氨基酸序列確定鑒定的標(biāo)志蛋白質(zhì) 的有效確定,并且該示例性實(shí)施例進(jìn)一步允許蛋白質(zhì)鑒定所需的時(shí)間 和工作的較大的減少。補(bǔ)充缺失值提高了能通過(guò)組比較的蛋白質(zhì)的窮 竭性并能獲取更多的生物學(xué)信息。
在另一個(gè)示例性實(shí)施例的蛋白質(zhì)查找方法中,可以進(jìn)一步提供用 于將譜圖數(shù)據(jù)劃分為在目標(biāo)蛋白質(zhì)査找中使用的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù) 的階段,從而在確定階段中,可基于使用從訓(xùn)練數(shù)據(jù)中的蛋白質(zhì)表達(dá) 和臨床信息的監(jiān)督學(xué)習(xí)獲得的蛋白質(zhì)的顯著性將與臨床信息有關(guān)的蛋 白質(zhì)確定為目標(biāo)蛋白質(zhì),并且在評(píng)估階段中,驗(yàn)證數(shù)據(jù)可用作評(píng)估數(shù) 據(jù)。此外,在又一示例性實(shí)施例中,可以包括另一階段,其用于使用 其它蛋白質(zhì)的表達(dá)以補(bǔ)充蛋白質(zhì)表達(dá)的缺失值。本發(fā)明的又一目的在于提供蛋白質(zhì)查找方法,該方法使得能夠通 過(guò)隨機(jī)梯度增強(qiáng)來(lái)查找多種蛋白質(zhì)的表達(dá)與臨床信息之間的相關(guān)性而 沒(méi)有設(shè)置閾值,并且補(bǔ)充蛋白質(zhì)表達(dá)的缺失值以提高能夠通過(guò)組比較 的蛋白質(zhì)的窮竭性。
本發(fā)明的再一目的在于提供蛋白質(zhì)查找設(shè)備,該設(shè)備能借助于隨 機(jī)梯度增強(qiáng)査找多種蛋白質(zhì)的表達(dá)與臨床信息之間的關(guān)聯(lián)而沒(méi)有設(shè)置 閾值,并能進(jìn)行蛋白質(zhì)表達(dá)的缺失值補(bǔ)充并提高能在組中比較的蛋白 質(zhì)的窮竭性。
本專(zhuān)利申請(qǐng)要求基于2006年7月14日提交的日本專(zhuān)利申請(qǐng)No. 2006-194065的優(yōu)先權(quán),其公開(kāi)內(nèi)容在此通過(guò)引用而整體地并入。
示例
接下來(lái)描述實(shí)施本發(fā)明的一個(gè)示例的結(jié)果。
借助于熒光二維差異凝膠電泳對(duì)肝中肝癌的癌變部分的樣本和非 癌變部分的樣本進(jìn)行蛋白質(zhì)組分析。使用該蛋白質(zhì)組分析的結(jié)果,使 用第一示例性實(shí)施例中所述的過(guò)程?hào)苏业鞍踪|(zhì)。當(dāng)未進(jìn)行缺失值補(bǔ)充 時(shí)可作為結(jié)果分析的蛋白質(zhì)的數(shù)目為101,而進(jìn)行20%缺失值補(bǔ)充使得 能分析658種蛋白質(zhì),即超過(guò)六倍的蛋白質(zhì),這顯著改進(jìn)了窮竭性。 此外,當(dāng)在查找標(biāo)志蛋白質(zhì)中使用隨機(jī)梯度增強(qiáng)時(shí),所述標(biāo)志蛋白質(zhì) 對(duì)于區(qū)分癌變部分和非癌變部分是有效的,未進(jìn)行缺失值補(bǔ)充時(shí)找到 25種標(biāo)志蛋白質(zhì),而20%的缺失值補(bǔ)充使得能夠自動(dòng)檢測(cè)42種標(biāo)志蛋 白質(zhì)。
盡管以上已經(jīng)參照示例性實(shí)施例和示例描述了本發(fā)明,但是本發(fā) 明不限于上述實(shí)施例和示例。對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)顯而易見(jiàn)的是, 本發(fā)明的構(gòu)造和細(xì)節(jié)允許在本發(fā)明范圍內(nèi)的各種修改。
權(quán)利要求
1.一種蛋白質(zhì)查找方法,用于基于通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù)查找與信息直接或間接相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì),所述蛋白質(zhì)查找方法包括基于通過(guò)使用從所述譜圖數(shù)據(jù)中的蛋白質(zhì)表達(dá)和所述信息的監(jiān)督學(xué)習(xí)獲得的蛋白質(zhì)的顯著性,確定與所述信息相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì);以及借助于評(píng)估數(shù)據(jù)評(píng)估所述目標(biāo)蛋白質(zhì)的性能。
2. 根據(jù)權(quán)利要求l所述的方法,進(jìn)一步包括將所述譜圖數(shù)據(jù)劃分 為目標(biāo)蛋白質(zhì)查找中使用的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù);其中當(dāng)確定與所述信息相關(guān)的蛋白質(zhì)作為所述目標(biāo)蛋白質(zhì)時(shí),基于通 過(guò)使用從所述訓(xùn)練數(shù)據(jù)中的蛋白質(zhì)表達(dá)和所述信息的監(jiān)督學(xué)習(xí)獲得的 蛋白質(zhì)的顯著性,將與所述信息相關(guān)的蛋白質(zhì)確定為所述目標(biāo)蛋白質(zhì); 并且當(dāng)評(píng)估所述目標(biāo)蛋白質(zhì)的性能時(shí),將所述驗(yàn)證數(shù)據(jù)用作所述評(píng)估 數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1或2所述的方法,進(jìn)一步包括通過(guò)使用其它蛋白 質(zhì)的表達(dá)補(bǔ)充所述蛋白質(zhì)表達(dá)的缺失值。
4. 根據(jù)權(quán)利要求3所述的方法,其中通過(guò)k-最近鄰算法補(bǔ)充蛋白質(zhì) 表達(dá)的缺失值。
5. 根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其中通過(guò)使用分支變 量和目標(biāo)變量的改善度來(lái)計(jì)算所述顯著性,所述分支變量和目標(biāo)變量 是在通過(guò)集成學(xué)習(xí)的下位學(xué)習(xí)機(jī)的決策樹(shù)或回歸樹(shù)的學(xué)習(xí)過(guò)程中產(chǎn)生 的。
6. 根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,其中使用增強(qiáng)、裝袋、 梯度增強(qiáng)和隨機(jī)梯度增強(qiáng)中的一種來(lái)計(jì)算所述顯著性。
7. 根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中所述信息是臨床 信息,并且所述目標(biāo)蛋白質(zhì)是標(biāo)志蛋白質(zhì)。
8. 根據(jù)權(quán)利要求7所述的方法,其中當(dāng)所述臨床信息包括離散值 時(shí),在所述監(jiān)督學(xué)習(xí)中使用對(duì)數(shù)函數(shù)作為損失函數(shù)。
9. 根據(jù)權(quán)利要求7所述的方法,其中當(dāng)所述臨床信息包括連續(xù)值 時(shí),將真值與預(yù)測(cè)值之差的平方值或者真值與預(yù)測(cè)值之差的絕對(duì)值用 作損失函數(shù)。
10. 根據(jù)權(quán)利要求7所述的方法,其中當(dāng)所述臨床信息是存活時(shí)間 時(shí),將Cox比例風(fēng)險(xiǎn)模型用于損失函數(shù)。
11. 根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的方法,其中通過(guò)質(zhì)譜法和 /或二維電泳法進(jìn)行所述蛋白質(zhì)組分析。
12. —種蛋白質(zhì)査找設(shè)備,用于基于通過(guò)蛋白質(zhì)組分析獲取的蛋 白質(zhì)表達(dá)譜圖數(shù)據(jù)查找與信息相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì),所述蛋 白質(zhì)查找設(shè)備包括數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)數(shù) 據(jù)和信息;目標(biāo)蛋白質(zhì)查找裝置,用于使用從所述蛋白質(zhì)表達(dá)數(shù)據(jù)和所述信 息的監(jiān)督學(xué)習(xí)確定目標(biāo)蛋白質(zhì);目標(biāo)蛋白質(zhì)存儲(chǔ)裝置,用于存儲(chǔ)所述確定的目標(biāo)蛋白質(zhì)的表達(dá);根據(jù)目標(biāo)蛋白質(zhì)的預(yù)測(cè)模型學(xué)習(xí)裝置,用于使用所述確定的目標(biāo) 蛋白質(zhì)的所述表達(dá)和所述信息學(xué)習(xí)預(yù)測(cè)模型;預(yù)測(cè)模型存儲(chǔ)裝置,用于存儲(chǔ)所述預(yù)測(cè)模型;評(píng)估數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)用于評(píng)估所述預(yù)測(cè)模型的性能的數(shù) 據(jù);以及預(yù)測(cè)模型驗(yàn)證裝置,用于借助于所述評(píng)估數(shù)據(jù)評(píng)估所述預(yù)測(cè)模型。
13. —種蛋白質(zhì)查找設(shè)備,用于基于通過(guò)蛋白質(zhì)組分析獲取的蛋 白質(zhì)表達(dá)譜圖數(shù)據(jù)査找與信息相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì),所述蛋 白質(zhì)查找設(shè)備包括數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)通過(guò)蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)數(shù) 據(jù)和信息;數(shù)據(jù)劃分裝置,用于將所述蛋白質(zhì)表達(dá)數(shù)據(jù)劃分為目標(biāo)蛋白質(zhì)查 找中使用的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù);訓(xùn)練數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)所述訓(xùn)練數(shù)據(jù); 驗(yàn)證數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)所述驗(yàn)證數(shù)據(jù);目標(biāo)蛋白質(zhì)查找裝置,用于使用從所述訓(xùn)練數(shù)據(jù)和所述信息的監(jiān)督學(xué)習(xí)確定目標(biāo)蛋白質(zhì);目標(biāo)蛋白質(zhì)存儲(chǔ)裝置,用于存儲(chǔ)所述確定的目標(biāo)蛋白質(zhì)的表達(dá); 根據(jù)目標(biāo)蛋白質(zhì)的預(yù)測(cè)模型學(xué)習(xí)裝置,用于使用所述確定的目標(biāo)蛋白質(zhì)的表達(dá)和所述信息學(xué)習(xí)預(yù)測(cè)模型;預(yù)測(cè)模型存儲(chǔ)裝置,用于存儲(chǔ)所述預(yù)測(cè)模型;以及 預(yù)測(cè)模型驗(yàn)證裝置,用于通過(guò)所述驗(yàn)證數(shù)據(jù)評(píng)估所述預(yù)測(cè)模型。
14. 根據(jù)權(quán)利要求12或13所述的設(shè)備,進(jìn)一步包括缺失值補(bǔ)充裝 置,用于通過(guò)使用其它蛋白質(zhì)的表達(dá)補(bǔ)充所述目標(biāo)蛋白質(zhì)表達(dá)的缺失值。
15. 根據(jù)權(quán)利要求12至14中任一項(xiàng)所述的設(shè)備,其中所述信息是 臨床信息,并且所述目標(biāo)蛋白質(zhì)是標(biāo)志蛋白質(zhì)。
16. —種可被計(jì)算機(jī)讀取的記錄介質(zhì),用于存儲(chǔ)使計(jì)算機(jī)執(zhí)行以 下處理的程序基于借助于蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù)查找與信息直接或間接相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì);所述程序使所 述計(jì)算機(jī)執(zhí)行基于通過(guò)使用從所述譜圖數(shù)據(jù)中的蛋白質(zhì)表達(dá)和所述信息的監(jiān)督學(xué)習(xí)獲得的蛋白質(zhì)的顯著性,確定與所述信息有關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì)的處理;以及借助于評(píng)估數(shù)據(jù)評(píng)估所述目標(biāo)蛋白質(zhì) 的性能的處理。
17. —種可被計(jì)算機(jī)讀取的記錄介質(zhì),用于存儲(chǔ)使計(jì)算機(jī)執(zhí)行以 下處理的程序基于借助于蛋白質(zhì)組分析獲取的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù) 査找與臨床信息直接或間接相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì);所述程序 使所述計(jì)算機(jī)執(zhí)行將所述譜圖數(shù)據(jù)劃分為目標(biāo)蛋白質(zhì)査找中使用的 訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)的處理;基于通過(guò)使用從所述訓(xùn)練數(shù)據(jù)中的蛋白 質(zhì)表達(dá)和所述信息的監(jiān)督學(xué)習(xí)獲得的蛋白質(zhì)的顯著性,確定與所述信 息相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì)的處理;以及借助于所述驗(yàn)證數(shù)據(jù)評(píng) 估所述目標(biāo)蛋白質(zhì)的性能的處理。
18. 根據(jù)權(quán)利要求16或17所述的記錄介質(zhì),其中所述程序使所述 計(jì)算機(jī)進(jìn)一步執(zhí)行通過(guò)使用其它蛋白質(zhì)的表達(dá)補(bǔ)充所述蛋白質(zhì)表達(dá)的 缺失值的處理。
19. 根據(jù)權(quán)利要求16至18中任一項(xiàng)所述的記錄介質(zhì),其中所述 信息是臨床信息,并且所述目標(biāo)蛋白質(zhì)是標(biāo)志蛋白質(zhì)。
全文摘要
一種蛋白質(zhì)查找方法,其中基于通過(guò)蛋白質(zhì)組分析獲得的蛋白質(zhì)表達(dá)譜圖數(shù)據(jù)查找與信息直接或間接相關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì),該方法包括基于通過(guò)對(duì)譜圖數(shù)據(jù)中的信息和蛋白質(zhì)表達(dá)量的監(jiān)督學(xué)習(xí)獲得的蛋白質(zhì)的顯著性選擇與信息有關(guān)的蛋白質(zhì)作為目標(biāo)蛋白質(zhì);以及基于評(píng)估數(shù)據(jù)評(píng)估目標(biāo)蛋白質(zhì)的性能。
文檔編號(hào)G06F19/24GK101517579SQ20078003398
公開(kāi)日2009年8月26日 申請(qǐng)日期2007年7月9日 優(yōu)先權(quán)日2006年7月14日
發(fā)明者上條憲一, 寺本禮仁, 皆川宏貴 申請(qǐng)人:日本電氣株式會(huì)社