專利名稱:處理蛋白質(zhì)肽數(shù)據(jù)的方法和系統(tǒng)的制作方法
處理蛋白質(zhì)肽數(shù)據(jù)的方法和系統(tǒng)
本發(fā)明涉及蛋白質(zhì)鑒定并提供一種用于處理蛋白質(zhì)肽數(shù)據(jù)的方 法和系統(tǒng),所述蛋白質(zhì)肽數(shù)據(jù)優(yōu)選獲自健康樣本或病理樣本,例如 組織樣本。
存在鑒定復(fù)雜混合物中的蛋白質(zhì)以及檢測(cè)相關(guān)表達(dá)鐠中的差異 的需求。當(dāng)已經(jīng)鑒定足夠數(shù)量的給定蛋白質(zhì)的肽時(shí),就認(rèn)為該給定
蛋白質(zhì)存在于樣品中。使用MSMS (串聯(lián)質(zhì)鐠)用于快速和并行鑒 定大量的肽是本領(lǐng)域公知的。首先,利用質(zhì)諳儀生成裂解語圖,即 肽謙,并在所生成的肽i普基礎(chǔ)上鑒定肽序列。簡言之,該過程基本 按以下步驟進(jìn)行。在進(jìn)行降低樣本復(fù)雜度的分離(例如利用液相色 鐠)之后,用合適的酶(如胰蛋白酶)消化產(chǎn)生待檢測(cè)的肽。然后 利用質(zhì)譜儀進(jìn)行基于質(zhì)量的選擇,并且在質(zhì)鐠儀的第二室中進(jìn)行碰 撞誘導(dǎo)解離,從而發(fā)生裂解。由于與質(zhì)鐠儀第二室中的惰性氣體相 碰撞,導(dǎo)致肽裂成碎片,并且獲得質(zhì)量為從O直到完整肽質(zhì)量的多 個(gè)片段。然后,為了鑒定,將裂解譜圖與序列相關(guān)聯(lián)。因此,可以 從譜圖中讀出序列(或其部分)。最后,有必要進(jìn)行數(shù)據(jù)庫檢索, 利用試驗(yàn)鐠圖進(jìn)行鐠圖比較,直至找到最佳匹配。也就是說,將肽 的裂解譜圖與候選肽的理論生成的鐠圖進(jìn)行比較。由于該比較產(chǎn)生 大量的數(shù)據(jù),所以數(shù)據(jù)的后處理非常耗時(shí)。這提前限制了試驗(yàn)的程 度。由于不存在處理巨量生成數(shù)據(jù)的實(shí)際解決方案,所以對(duì)不同試 驗(yàn)的結(jié)果進(jìn)行比較或操作所產(chǎn)生的數(shù)據(jù)進(jìn)行后處理變得非常困難 和耗時(shí)。
因此,本發(fā)明的一個(gè)目的是提供一種改善和加快肽的后處理、 即將所鑒定的肽分配到蛋白質(zhì)和蛋白質(zhì)分組中的方法和系統(tǒng)。該目 的通過所附權(quán)利要求的特征而實(shí)現(xiàn)。
本發(fā)明的第 一 方面涉及一種處理從供分析的健康樣本或病理樣 本獲得的蛋白質(zhì)肽數(shù)據(jù)的方法,該方法包括以下步驟(a)提供代 表輸入數(shù)據(jù)集的肽序列列表和相關(guān)輔助信息;(b)通過除去肽序列 列表中的肽序列冗余而從輸入數(shù)據(jù)集編輯新的肽序列列表,所述新 的肽序列列表代表肽數(shù)據(jù)集;和(c)將源自同一蛋白質(zhì)的肽數(shù)據(jù)集的成員分組在一起,由此生成蛋白質(zhì)數(shù)據(jù)集。
所述輔助信息優(yōu)選包括以下至少一種相應(yīng)的度量值、源蛋白 質(zhì)、肽的物理化學(xué)性質(zhì)、肽在蛋白質(zhì)序列中的偏移。
在步驟(b)中,在新的肽序列列表中優(yōu)選用單一項(xiàng)來代表肽 冗余。優(yōu)選通過考慮全部冗余肽序列的相應(yīng)值來計(jì)算該單一項(xiàng)的肽 度量值。
步驟(c)優(yōu)選包括基于其每個(gè)肽的測(cè)量值來計(jì)算每種蛋白質(zhì)的 總蛋白質(zhì)度量。
所述輸入數(shù)據(jù)集、蛋白質(zhì)數(shù)據(jù)集和肽數(shù)據(jù)集優(yōu)選存儲(chǔ)在關(guān)系型 數(shù)據(jù)庫中。每個(gè)肽序列例如映射至一個(gè)唯一編號(hào),并且一種蛋白質(zhì) 的肽的唯一編號(hào)之總和為每種蛋白質(zhì)提供唯一識(shí)別編號(hào)。優(yōu)選基于 這些唯一識(shí)別編號(hào)來分組。
根據(jù)一個(gè)優(yōu)選實(shí)施方案,使至少一些數(shù)據(jù)集直觀化。
第一方面的方法優(yōu)選還包括步驟(d):確定蛋白質(zhì)數(shù)據(jù)集內(nèi)共 有相同肽的蛋白質(zhì)并將其分組,由此形成蛋白質(zhì)分組的數(shù)據(jù)集;并 由此檢測(cè)該蛋白質(zhì)集中的冗余。
根據(jù)本發(fā)明,提供并處理兩個(gè)數(shù)據(jù)集, 一個(gè)對(duì)應(yīng)于健康組織, 一個(gè)對(duì)應(yīng)于病理組織,以便在病理組織中找出不能在健康組織中找 到的那些部分。因此,本發(fā)明提供在病理組織內(nèi)存在而在健康組織 內(nèi)不存在或者在健康組織內(nèi)存在而在病理組織內(nèi)不存在的蛋白質(zhì) 的列表。
本發(fā)明的第二方面涉及一種方法,其包括以下步驟(a)提供 與健康或病理組織相關(guān)的至少兩個(gè)肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集;(b) 合并所述肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集以生成復(fù)合數(shù)據(jù)集;和(c)輸 出所述復(fù)合數(shù)據(jù)集。
根據(jù)第二方面的方法,優(yōu)選將健康組織的肽數(shù)據(jù)集或蛋白質(zhì)數(shù) 據(jù)集與健康組織的其它肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集合并。作為替代方 案,將病理組織的肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集與病理組織的其它肽數(shù) 據(jù)集或蛋白質(zhì)數(shù)據(jù)集合并。作為進(jìn)一步的替代方案,將健康組織的 肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集與病理組織的肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集 合并。優(yōu)選根據(jù)布爾運(yùn)算(Boolean operation)規(guī)則及其組合來實(shí)施 步驟(b)中的合并。優(yōu)選地,在合并步驟中,計(jì)算每個(gè)成員蛋白 質(zhì)或成員肽的各種度量以包括來自每個(gè)原始數(shù)據(jù)集的貢獻(xiàn)。
根據(jù)一個(gè)優(yōu)選的選擇方案,第二方面的方法還包括將第一復(fù)合 數(shù)據(jù)集與至少一個(gè)其它復(fù)合數(shù)據(jù)集合并以生成更高等級(jí)的復(fù)合數(shù) 據(jù)集。
優(yōu)選通過以下步驟獲得所述肽數(shù)據(jù)集提供代表輸入數(shù)據(jù)集的 肽序列列表和相關(guān)輔助信息;和通過除去肽序列列表中的肽序列冗 余而從輸入數(shù)據(jù)集編輯新的肽序列列表,所述新的肽序列列表代表 肽數(shù)據(jù)集。
優(yōu)選通過以下步驟獲得所述蛋白質(zhì)數(shù)據(jù)集提供代表輸入數(shù)據(jù) 集的肽序列列表和相關(guān)輔助信息;通過除去肽序列列表中的肽序列 冗余而從輸入數(shù)據(jù)集編輯新的肽序列列表,所述新的肽序列列表代 表肽數(shù)據(jù)集;和將源自相同蛋白質(zhì)的肽數(shù)據(jù)集成員分組在一起,由 此生成蛋白質(zhì)數(shù)據(jù)集。
根據(jù)本發(fā)明的第 一或第二方面,優(yōu)選通過排除不滿足預(yù)定標(biāo)準(zhǔn) 的那些成員,從單個(gè)肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集生成受限制的肽數(shù)據(jù) 集或蛋白質(zhì)數(shù)據(jù)集。預(yù)定標(biāo)準(zhǔn)可以是用戶輸入標(biāo)準(zhǔn)。用于肽集限制 的標(biāo)準(zhǔn)為例如度量閾值、序列特征如特定氨基酸的存在或缺失、質(zhì) 量限制或?qū)ζ渌锢砘瘜W(xué)性質(zhì)的限制。此外,用于蛋白質(zhì)集限制的 標(biāo)準(zhǔn)是例如度量閾值、蛋白質(zhì)的序列內(nèi)容、物理化學(xué)性質(zhì)。
第一或第二方面的方法優(yōu)選包括以下步驟比較第一蛋白質(zhì)數(shù) 據(jù)集和第二蛋白質(zhì)數(shù)據(jù)集以確定兩個(gè)蛋白質(zhì)集的蛋白質(zhì)表達(dá)模式
之間的相似度。可以通過利用統(tǒng)計(jì)學(xué)秩相關(guān)檢驗(yàn)來進(jìn)行比較,例如 檢驗(yàn)共同蛋白質(zhì)的肽計(jì)數(shù)的數(shù)目,或檢驗(yàn)每種蛋白質(zhì)的所檢測(cè)的不 同肽。還可以對(duì)蛋白質(zhì)覆蓋度進(jìn)行統(tǒng)計(jì)學(xué)秩相關(guān)檢驗(yàn)。
比較結(jié)果包含有關(guān)蛋白質(zhì)豐度模式的信息。
本發(fā)明還提供一種用于處理從供分析的健康或病理樣本獲得的 蛋白質(zhì)肽數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括用于提供代表輸入數(shù)據(jù)集的肽序 列列表和相關(guān)輔助信息的裝置;用于通過除去肽序列列表中的肽序 列冗余來從輸入數(shù)據(jù)集編輯新的肽序列列表的裝置,所述新的肽序列列表代表肽數(shù)據(jù)集;和用于將源自相同蛋白質(zhì)的肽數(shù)據(jù)集成員分 組在一起從而生成蛋白質(zhì)數(shù)據(jù)集的裝置。
此外,本發(fā)明提供一種系統(tǒng),所述系統(tǒng)包括用于提供與健康或 病理組織相關(guān)的至少兩個(gè)肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集的裝置;用于合 并所述肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集以生成復(fù)合數(shù)據(jù)集的裝置;和用于 輸出復(fù)合數(shù)據(jù)集的裝置。
現(xiàn)在將參照附圖來說明本發(fā)明,附圖中
圖l是顯示根據(jù)本發(fā)明第一方面的一個(gè)優(yōu)選實(shí)施方案的方法和 優(yōu)選的額外步驟的示意圖2是數(shù)據(jù)結(jié)構(gòu)相關(guān)性的圖示;
圖3顯示構(gòu)成肽集的非冗余肽列表的一個(gè)實(shí)例;和
圖4顯示蛋白質(zhì)集的一個(gè)實(shí)例。
根據(jù)本發(fā)明的第一方面的方法,提供輸入數(shù)據(jù),例如肽序列列 表和相關(guān)輔助信息。所述肽序列列表和相關(guān)輔助信息代表輸入數(shù)據(jù) 集(參見
圖1 "輸入")。
對(duì)于每個(gè)試驗(yàn),本發(fā)明將輸入序列和諸如相應(yīng)的度量值、起始 蛋白質(zhì)等相關(guān)信息保存在恰當(dāng)設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)中。輸入序列是單個(gè) 肽序列(術(shù)語肽和序列可以互換使用;肽通過其序列來唯一識(shí)別)。 每種這樣的肽屬于一種蛋白質(zhì),但是不一定樣品中所存在的蛋白質(zhì) 的所有可能肽都是輸入的一部分(即,在試驗(yàn)中檢測(cè)到)。這些肽 序列(在試驗(yàn)樣本中最可能存在的那些)在先期處理中基于各種標(biāo) 準(zhǔn)來測(cè)定。附加信息可以包括通過對(duì)注記(給定肽確實(shí)在樣品中 的實(shí)際確定過程)不正確的可能性進(jìn)行量化的先期注記算法獲得的 各種度量值、肽的各種物理化學(xué)性質(zhì)、肽在蛋白質(zhì)序列中的偏移、 注記程序存儲(chǔ)結(jié)果的實(shí)際計(jì)算機(jī)數(shù)據(jù)文件名、與整體試驗(yàn)設(shè)計(jì)/程序 相關(guān)的信息、用戶名等。
這些輸入數(shù)據(jù)集的成員稱為肽采樣(peptide hits )。
在輸入數(shù)據(jù)集的基礎(chǔ)上,通過除去肽序列列表中的肽序列冗余 (相同肽序列的集)來編輯或生成新的肽序列列表。新的肽序列列 表代表肽數(shù)據(jù)集,并且這種肽數(shù)據(jù)集的成員稱為肽。然后,通過單一項(xiàng)代表肽冗余,并通過考慮所有冗余成員的相應(yīng)值來計(jì)算其附屬
測(cè)量值。這種新的非冗余肽列表構(gòu)成肽集。這通過圖3中的一個(gè)實(shí) 例來顯示。每行對(duì)應(yīng)于可能已經(jīng)多次鑒定的肽。這在"重復(fù)"和"修 飾的重復(fù)"的列中顯示。例如,第一行中的肽已被鑒定2次("重 復(fù),,列中的"2" + "<務(wù)飾的重復(fù)"列中的"0")、第二行中的肽被 鑒定了一次、第三行中的肽被鑒定了兩次。更詳細(xì)地,這意味著第 一序列已經(jīng)被鑒定2次,在其輸入數(shù)據(jù)集中存在2項(xiàng)。在肽集的目 前級(jí)別下,已經(jīng)將這2項(xiàng)合并成一項(xiàng),即已經(jīng)除去所有的肽冗余, 并且前述兩列提供有關(guān)冗余的信息。
本發(fā)明的下一步或下一級(jí)是生成所謂的蛋白質(zhì)集。蛋白質(zhì)集是 通過將源自同一蛋白質(zhì)(如序列數(shù)據(jù)庫中限定的)的肽(肽集的成 員)分組在一起所產(chǎn)生的蛋白質(zhì)列表。這示于圖4中。該步驟還需 要基于相應(yīng)肽的測(cè)量值來計(jì)算每種蛋白質(zhì)的各種度量。這種度量是 所謂的蛋白質(zhì)覆蓋度。這是在試驗(yàn)中已經(jīng)注記的蛋白質(zhì)序列的百分 比。更詳細(xì)地,試驗(yàn)檢測(cè)肽,并且這些肽與蛋白質(zhì)片段對(duì)應(yīng)。給定 的試驗(yàn)可能產(chǎn)生數(shù)千種映射至蛋白質(zhì)集(也可能是數(shù)千種蛋白質(zhì)) 的已檢測(cè)肽。在原理上,蛋白質(zhì)可以被試驗(yàn)中由其所有可能的片段 肽所代表(100%覆蓋度)。然而,只有其一部分能夠可靠地檢測(cè), 由此導(dǎo)致較小的覆蓋度。對(duì)于每一蛋白質(zhì)集的成員而言,將所有其 已檢測(cè)到的肽分組在一起,然后用于計(jì)算百分比覆蓋度(試驗(yàn)中"看 到,,的蛋白質(zhì)序列長度與蛋白質(zhì)序列總長度之比)。這種計(jì)算必須 考慮檢測(cè)到的各種蛋白質(zhì)子序列(即,肽序列)的最終重疊的所有 可能性,以避免雙重計(jì)數(shù)等。在此情況下可以計(jì)算的另一個(gè)度量是 所謂的"蛋白質(zhì)得分"。簡言之,這通常是對(duì)給定蛋白質(zhì)而言注記 算法將其輸出肽包括在內(nèi)的可能性的量度,盡管在試驗(yàn)樣本中并不 存在該蛋白質(zhì)。其原因在于,不管每種算法所聲稱的準(zhǔn)確度如何, 都會(huì)產(chǎn)生錯(cuò)誤的鑒定。當(dāng)然,這些錯(cuò)誤的鑒定波及到蛋白質(zhì)級(jí)別。 然而,所有的算法都提供度量來幫助量化可能發(fā)生這種錯(cuò)誤鑒定的 可能性。每種已鑒定的肽都附有這種度量。對(duì)于每種蛋白質(zhì),根據(jù) 本發(fā)明優(yōu)選組合其所有已鑒定肽的度量并生成該蛋白質(zhì)的總度量。
這種蛋白質(zhì)集示于圖4中。作為附加輸出信息,圖4所示的表 提供蛋白質(zhì)覆蓋度、不同肽的數(shù)量和共享肽的數(shù)量。此外,還提供 有關(guān)組重疊的信息。例如,組"3"還包括組"28"、 "42"和"53",并且其自身也包括在組"2"中。
根據(jù)一個(gè)優(yōu)選的實(shí)施方案,該方法包括以下任選步驟確定蛋 白質(zhì)數(shù)據(jù)集中共享相同肽的蛋白質(zhì)并進(jìn)行分組,由此形成蛋白質(zhì)分 組數(shù)據(jù)集;并由此檢測(cè)該蛋白質(zhì)集內(nèi)的冗余。在本發(fā)明的該優(yōu)選實(shí) 施方案中,其所檢測(cè)肽集相同的蛋白質(zhì)集的任何成員被指定為相同 蛋白質(zhì)分組的成員。這也可以在圖4中關(guān)于組6看出,組6包含蛋 白質(zhì)6和蛋白質(zhì)7的數(shù)據(jù)項(xiàng)。非零蛋白質(zhì)分組(具有多于一個(gè)成員 的組)的存在表示試驗(yàn)中所用序列數(shù)據(jù)庫中的冗余。這簡單地反映 出一個(gè)事實(shí),即所采用的試驗(yàn)程序不能區(qū)分給定蛋白質(zhì)分組的一個(gè)
或更多個(gè)成員是否實(shí)際存在于供分析的樣本中。數(shù)據(jù)結(jié)構(gòu)的這種任 選最高部分被稱為蛋白質(zhì)分組。
作為替代方案,可以在肽水平上進(jìn)行這種分組。
最后,將輸入數(shù)據(jù)集、蛋白質(zhì)數(shù)據(jù)集和肽數(shù)據(jù)集存儲(chǔ)在關(guān)系型 數(shù)據(jù)庫中,用于輸出到用戶和供用戶訪問(參見圖l的"輸出")。
至此所描述方法的數(shù)據(jù)結(jié)構(gòu)示于圖2的上部。在數(shù)據(jù)集、肽集、 蛋白質(zhì)集和任選的蛋白質(zhì)分組之間存在--對(duì)應(yīng)的關(guān)系。
在用根據(jù)本發(fā)明第一方面的方法所獲得結(jié)果的基礎(chǔ)上,優(yōu)選例 如通過限制來生成新的數(shù)據(jù)集。限制的意思是通過排除原有集中不 滿足預(yù)定標(biāo)準(zhǔn)(例如用戶輸入標(biāo)準(zhǔn))的那些成員來從單個(gè)肽集或蛋 白質(zhì)集中生成新的肽集或蛋白質(zhì)集。用于肽集限制的可能標(biāo)準(zhǔn)是閾 值。每個(gè)肽集成員由量化原始注記過程質(zhì)量的度量來表征。通過將 閾值應(yīng)用于這些度量,可以生成原始肽集的功能子集,例如新的肽 集。另一種方式是僅保留具有特定序列特征(例如,存在或缺失特 定氨基酸)的肽、強(qiáng)制質(zhì)量限制(僅保留質(zhì)量大于/小于給定值的肽, 等等)以及對(duì)其它物理化學(xué)性質(zhì)的限制。至于蛋白質(zhì)集的限制,本 發(fā)明包括通過強(qiáng)制的度量閾值(例如關(guān)于蛋白質(zhì)覆蓋度和/或蛋白質(zhì) 得分的閾值)、對(duì)蛋白質(zhì)序列內(nèi)容的限制、對(duì)物理化學(xué)性質(zhì)(質(zhì)量、 等電點(diǎn)等)的限制以及對(duì)相關(guān)生物學(xué)信息的限制(例如僅保留在某 種途徑中具有活性的蛋白質(zhì)或只在某些細(xì)胞器、組織中表達(dá)的蛋白 質(zhì)等)來從給定的蛋白質(zhì)集中生成新的功能蛋白質(zhì)集。
根據(jù)本發(fā)明的另一方面,通過合并步驟生成新的數(shù)據(jù)集。合并的意思是從多個(gè)肽集或蛋白質(zhì)集中生成新的肽集或蛋白質(zhì)集。合并 的規(guī)則可以是在不同集上進(jìn)行的布爾運(yùn)算的任意可能組合。在所有 的合并運(yùn)算中,計(jì)算每個(gè)成員肽/蛋白質(zhì)的各種度量,從而包括來自 每個(gè)來源集的貢獻(xiàn)。
因此,根據(jù)本發(fā)明第二方面的方法包括以下步驟提供與健康 或病理組織相關(guān)的至少兩個(gè)肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集,合并所述肽 數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集以生成復(fù)合數(shù)據(jù)集;和輸出所述復(fù)合數(shù)據(jù) 集。例如,將健康組織的肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集與健康組織的其 它肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集合并。作為替代方案,將病理組織的肽 數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集與病理組織的其它肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù) 集合并。作為另一替代方案,將健康組織的肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù) 集與病理組織的肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集合并。
與肽集或蛋白質(zhì)集的合并相關(guān)的數(shù)據(jù)結(jié)構(gòu)關(guān)系示于圖2中的下 部。例如,將四個(gè)肽集或蛋白質(zhì)集合并成單個(gè)集,然后該單個(gè)集還 可經(jīng)歷分組步驟,如上文所述。該情況代表不具有對(duì)應(yīng)輸入數(shù)據(jù)集 的多對(duì)一的關(guān)系。
已經(jīng)通過限制或合并生成的任意肽集或蛋白質(zhì)集被指定為復(fù)合 的。復(fù)合集并不直接對(duì)應(yīng)數(shù)據(jù)集。然而,構(gòu)建和存儲(chǔ)數(shù)據(jù)的方式允 許將任何復(fù)合集關(guān)聯(lián)至其生成的肽集或蛋白質(zhì)集的對(duì)應(yīng)數(shù)據(jù)集。
根據(jù)本發(fā)明的另一任選方面,還可以將限制和/或合并應(yīng)用于這 種復(fù)合的肽集/蛋白質(zhì)集,由此生成第二(或更高)等級(jí)的新復(fù)合集。 總是可以將它們關(guān)聯(lián)至原始的生成肽集/蛋白質(zhì)集(當(dāng)然還有數(shù)據(jù) 集)。而且,對(duì)于每個(gè)復(fù)合蛋白質(zhì)集,本發(fā)明系統(tǒng)可以優(yōu)選生成相 應(yīng)的蛋白質(zhì)分組。
這兩種生成新數(shù)據(jù)集的方式示于圖1的右側(cè)部分中。優(yōu)選首先 進(jìn)行合并步驟以保留全部信息,然后進(jìn)行限制以進(jìn)一步限定數(shù)據(jù)的 量。
根據(jù)本發(fā)明的另 一個(gè)優(yōu)選實(shí)施方案,本發(fā)明提供試驗(yàn)的比較(見 圖1的右側(cè)部分)。比較兩個(gè)試驗(yàn)的意思是估算它們觀察到的蛋白 質(zhì)豐度模式之間的相似度。對(duì)于單個(gè)蛋白質(zhì),其豐度的測(cè)量值指的 是其試驗(yàn)鑒定的肽序列的數(shù)目(肽計(jì)數(shù))。只有當(dāng)兩種蛋白質(zhì)集的共用蛋白質(zhì)的數(shù)量足夠大時(shí),蛋白質(zhì)豐度模式的比較才會(huì)有意義。 若確屬此情形,則例如對(duì)共同蛋白質(zhì)的肽計(jì)數(shù)進(jìn)行統(tǒng)計(jì)學(xué)秩相關(guān)檢 驗(yàn),從而提供所觀察的豐度模式之間相似度的可靠測(cè)量值。蛋白質(zhì) 的豐度模式在很大程度上與每種蛋白質(zhì)中鑒定肽的數(shù)量相對(duì)應(yīng)。在 兩個(gè)相似樣本中,預(yù)期一種蛋白質(zhì)以相當(dāng)濃度存在,這又意味著它 在兩個(gè)平行試驗(yàn)中的對(duì)應(yīng)已檢測(cè)肽的數(shù)量應(yīng)該是相當(dāng)?shù)?。這種(例
如Spearman)統(tǒng)計(jì)學(xué)秩相關(guān)檢驗(yàn)在兩個(gè)試驗(yàn)中產(chǎn)生每種蛋白質(zhì)的 已檢測(cè)肽的成對(duì)列表,然后生成具有統(tǒng)計(jì)學(xué)意義的值,該值表明一 種蛋白質(zhì)集中的蛋白質(zhì)豐度模式是否反映在另一種蛋白質(zhì)中。
因此,本發(fā)明提供限制或合并數(shù)據(jù)集以生成新的功能集以及基 于各種可測(cè)量性質(zhì)進(jìn)行比較的能力。例如,只在蛋白質(zhì)數(shù)據(jù)集之間 進(jìn)行比較,并且僅基于每種蛋白質(zhì)的已檢測(cè)肽的數(shù)量進(jìn)行統(tǒng)計(jì)學(xué)秩 相關(guān)檢驗(yàn)。然而,本發(fā)明包括可以對(duì)其進(jìn)行這種比較的其它參數(shù), 例如每種蛋白質(zhì)的不同檢測(cè)肽的數(shù)目(該數(shù)目等于或小于每種蛋白 質(zhì)的已檢測(cè)肽的數(shù)目,前者將同一肽的所有存在的多次檢測(cè)(重復(fù)) 計(jì)為一個(gè)來計(jì)數(shù),而后者將其作為獨(dú)立的個(gè)體來計(jì)數(shù))。另一個(gè)用 于比較的這種參數(shù)是蛋白質(zhì)覆蓋度。
盡管上文已經(jīng)詳細(xì)描述了本發(fā)明的特定實(shí)施方案,但是應(yīng)該理解, 本說明書只是用于舉例說明的目的。在不脫離由所附權(quán)利要求限定的 本發(fā)明構(gòu)思的情況下,本領(lǐng)域的技術(shù)人員可進(jìn)行與上述優(yōu)選實(shí)施方案 的公開方面對(duì)應(yīng)的各種等同方案和修改。
權(quán)利要求
1. 一種處理從供分析的健康樣本或病理樣本獲得的蛋白質(zhì)肽數(shù)據(jù)的方法,該方法包括以下步驟(a)提供代表輸入數(shù)據(jù)集的肽序列列表和相關(guān)輔助信息;(b)通過除去所述肽序列列表中的肽序列冗余而從所述輸入數(shù)據(jù)集編輯新的肽序列列表,所述新的肽序列列表代表肽數(shù)據(jù)集;和(c)將源自同一蛋白的肽數(shù)據(jù)集的成員分組在一起,由此生成蛋白質(zhì)數(shù)據(jù)集。
2. 根據(jù)權(quán)利要求1的方法,其中所述輔助信息包括以下至少一種 對(duì)應(yīng)的度量值、源蛋白質(zhì)、所述肽的物理化學(xué)性質(zhì)、所述肽在所述 蛋白質(zhì)序列中的偏移。
3. 根據(jù)權(quán)利要求1或2的方法,其中在步驟(b)中,在所述新的 肽序列列表中用單一項(xiàng)代表肽冗余。
4. 根據(jù)權(quán)利要求3的方法,其中通過考慮全部冗余肽序列的所述 對(duì)應(yīng)值來計(jì)算所述單一項(xiàng)的肽度量值。
5. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其中步驟(c)包括基于每 種蛋白質(zhì)的每個(gè)肽的測(cè)量值來計(jì)算每種蛋白質(zhì)的總蛋白質(zhì)度量。
6. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其還包括將所述輸入數(shù)據(jù) 集、蛋白質(zhì)數(shù)據(jù)集和肽數(shù)據(jù)集存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中。
7. 根據(jù)權(quán)利要求6的方法,其中將每個(gè)肽序列映射至一個(gè)唯一編 號(hào),并且一種蛋白質(zhì)的肽的所述唯一編號(hào)之總和為每種蛋白質(zhì)提供 唯一識(shí)別編號(hào)。
8. 根據(jù)權(quán)利要求7的方法,其中基于所述唯一識(shí)別編號(hào)來分組。
9. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,還包括使所述數(shù)據(jù)集中的 至少一些數(shù)據(jù)集直觀化。
10. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,還包括 確定蛋白質(zhì)數(shù)據(jù)集內(nèi)共用相同肽的蛋白質(zhì)并將其分組,由此形成蛋白質(zhì)分組數(shù)據(jù)集,并由此檢測(cè)所述蛋白質(zhì)集中的冗余。
11. 一種方法,其包括以下步驟(a)提供與健康或病理組織相關(guān)的至少兩個(gè)肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集;(b) 合并所述肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集以生成復(fù)合數(shù)據(jù)集;和(c) 輸出所述復(fù)合數(shù)據(jù)集。
12. 根據(jù)權(quán)利要求11的方法,其中將健康組織的肽數(shù)據(jù)集或蛋白質(zhì) 數(shù)據(jù)集與健康組織的其它肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集合并。
13. 根據(jù)權(quán)利要求11的方法,其中將病理組織的肽數(shù)據(jù)集或蛋白質(zhì) 數(shù)據(jù)集與病理組織的其它肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集合并。
14. 根據(jù)權(quán)利要求11的方法,其中將健康組織的肽數(shù)據(jù)集或蛋白質(zhì) 數(shù)據(jù)集與病理組織的肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集合并。
15. 根據(jù)權(quán)利要求11 ~ 14中任一項(xiàng)的方法,其中根據(jù)布爾運(yùn)算規(guī)則 及其組合來實(shí)施步驟(b)中的所述合并。
16. 根據(jù)權(quán)利要求11~15中任一項(xiàng)的方法,其中在合并步驟中,計(jì) 算每個(gè)成員蛋白質(zhì)或成員肽的所述各種度量以包括來自每個(gè)原始 數(shù)據(jù)集的貢獻(xiàn)。
17. 根據(jù)權(quán)利要求11 ~ 16中任一項(xiàng)的方法,還包括將第一復(fù)合數(shù)據(jù) 集與至少一個(gè)其它復(fù)合數(shù)據(jù)集合并以生成更高等級(jí)的復(fù)合數(shù)據(jù)集。
18. 根據(jù)權(quán)利要求11 ~ 17中任一項(xiàng)的方法,其中通過以下步驟獲得 所述肽數(shù)據(jù)集提供代表輸入數(shù)據(jù)集的肽序列列表和相關(guān)輔助信 息;和通過除去所述肽序列列表中的肽序列冗余而從所述輸入數(shù)據(jù) 集編輯新的肽序列列表,所述新的肽序列列表代表肽數(shù)據(jù)集。
19. 根據(jù)權(quán)利要求11 ~ 17中任一項(xiàng)的方法,其中通過以下步驟獲得 所述蛋白質(zhì)數(shù)據(jù)集提供代表輸入數(shù)據(jù)集的肽序列列表和相關(guān)輔助 信息;通過除去所述肽序列列表中的肽序列冗余而從所述輸入數(shù)據(jù) 集編輯新的肽序列列表,所述新的肽序列列表代表肽數(shù)據(jù)集;和將 源自相同蛋白質(zhì)的肽數(shù)據(jù)集成員分組在一起,由此生成蛋白質(zhì)數(shù)據(jù) 集。
20. 根據(jù)權(quán)利要求1~19中任一項(xiàng)的方法,還包括通過排除不滿足 預(yù)定標(biāo)準(zhǔn)的那些成員,從單個(gè)肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集生成受限制 的肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集。
21. 根據(jù)權(quán)利要求20的方法,其中所述預(yù)定標(biāo)準(zhǔn)是用戶輸入標(biāo)準(zhǔn)。
22. 根據(jù)權(quán)利要求20或21的方法,其中用于限制肽集的標(biāo)準(zhǔn)為度 量閾值、諸如特定氨基酸的存在或缺失的序列特征、質(zhì)量限制或?qū)?其它物理化學(xué)性質(zhì)的限制。
23. 根據(jù)權(quán)利要求20或21的方法,其中用于限制蛋白質(zhì)集的標(biāo)準(zhǔn) 是度量閾值、蛋白質(zhì)的序列內(nèi)容、物理化學(xué)性質(zhì)。
24. 根據(jù)權(quán)利要求1~23中任一項(xiàng)的方法,還包括以下步驟比較 第一蛋白數(shù)據(jù)集和第二蛋白數(shù)據(jù)集以確定所述兩個(gè)蛋白質(zhì)集的蛋 白質(zhì)表達(dá)模式之間的相似度。
25. 根據(jù)權(quán)利要求24的方法,其中所述比較通過利用統(tǒng)計(jì)學(xué)秩相關(guān) 檢驗(yàn)來進(jìn)行。
26. 根據(jù)權(quán)利要求25的方法,其中對(duì)所述共同蛋白質(zhì)的肽計(jì)數(shù)的數(shù) 目進(jìn)行所述統(tǒng)計(jì)學(xué)秩相關(guān)檢驗(yàn)。
27. 根據(jù)權(quán)利要求25的方法,其中對(duì)每種蛋白質(zhì)的不同檢測(cè)肽進(jìn)行 所述統(tǒng)計(jì)學(xué)秩相關(guān)檢驗(yàn)。
28. 根據(jù)權(quán)利要求25的方法,其中對(duì)蛋白質(zhì)覆蓋度進(jìn)行所述統(tǒng)計(jì)學(xué) 秩相關(guān)檢驗(yàn)。
29. 根據(jù)權(quán)利要求25或26的方法,其中所述比較的結(jié)果包含關(guān)于 蛋白質(zhì)豐度模式的信息。
30. —種用于處理從供分析的健康或病理樣本獲得的蛋白質(zhì)肽數(shù)據(jù) 的系統(tǒng),該系統(tǒng)包括(a)用于提供代表輸入數(shù)據(jù)集的肽序列列表和相關(guān)輔助信息的 裝置;(b )用于通過除去所述肽序列列表中的肽序列冗余而從所述輸 入數(shù)據(jù)集編輯新的肽序列列表的裝置,所述新的肽序列列表代表肽 數(shù)據(jù)集;和(c)用于將源自相同蛋白質(zhì)的肽數(shù)據(jù)集成員分組在一起從而生 成蛋白質(zhì)數(shù)據(jù)集的裝置。
31. —種系統(tǒng),包括(a)用于提供與健康組織或病理組織相關(guān)的至少兩個(gè)肽數(shù)據(jù)集 或蛋白質(zhì)數(shù)據(jù)集的裝置;(b )用于合并所述肽數(shù)據(jù)集或蛋白質(zhì)數(shù)據(jù)集以生成復(fù)合數(shù)據(jù)集的裝置;和(c)用于輸出所述復(fù)合數(shù)據(jù)集的裝置。
全文摘要
本發(fā)明提供一種處理從供分析的健康樣本或病理樣本獲得的蛋白質(zhì)肽數(shù)據(jù)的方法,該方法包括以下步驟提供代表輸入數(shù)據(jù)集的肽序列列表和相關(guān)輔助信息;通過除去所述肽序列列表中的肽序列冗余而從輸入數(shù)據(jù)集中編輯新的肽序列列表,所述新的肽序列列表代表肽數(shù)據(jù)集;和將源自同一蛋白質(zhì)的肽數(shù)據(jù)集的成員分組在一起,由此生成蛋白質(zhì)數(shù)據(jù)集。
文檔編號(hào)G06F19/28GK101303713SQ200810097019
公開日2008年11月12日 申請(qǐng)日期2008年5月8日 優(yōu)先權(quán)日2007年5月10日
發(fā)明者克里斯蒂安·米斯, 尼古勞斯·貝恩泰尼斯, 貝恩德·穆勒 申請(qǐng)人:F·霍夫曼-拉·羅奇股份有限公司