蛋白質(zhì)分類(lèi)模型構(gòu)建方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物學(xué)領(lǐng)域,特別地,涉及一種蛋白質(zhì)分類(lèi)模型構(gòu)建方法和裝置。
【背景技術(shù)】
[0002] 盡管細(xì)胞中包含的所有基因是一樣的,但在不同組織中,細(xì)胞僅表達(dá)一部分基因。 研宄各組織中特異表達(dá)的蛋白質(zhì)對(duì)于了解蛋白質(zhì)的功能和作用機(jī)制具有重要作用?,F(xiàn)有研 宄方法主要根據(jù)基因在各細(xì)胞或組織中的表達(dá)數(shù)據(jù)來(lái)考察各基因在某組織中是否表達(dá),如 基因芯片。如果某一基因僅在一個(gè)組織或一個(gè)細(xì)胞類(lèi)型中表達(dá),則將該基因定義為組織特 異基因,其對(duì)應(yīng)的蛋白質(zhì)為組織特異表達(dá)蛋白質(zhì)。在大部分組織中都有表達(dá)的基因則定義 為廣泛表達(dá)基因,與該基因?qū)?yīng)的蛋白質(zhì)為廣泛表達(dá)蛋白質(zhì)。同時(shí),研宄人員發(fā)現(xiàn)組織特異 表達(dá)蛋白質(zhì)相比于廣泛表達(dá)蛋白質(zhì)具有一些特殊的屬性,如組織特異表達(dá)蛋白質(zhì)與組織特 異基因存在的組織功能密切相關(guān),通常對(duì)應(yīng)最新進(jìn)化的基因,在相互作用網(wǎng)絡(luò)中具有更小 的連接度。這些屬性對(duì)于預(yù)測(cè)未知的蛋白質(zhì)是否為組織特異蛋白質(zhì)具有一定的提示作用。
[0003]如文章ChangCW,ChengWC,ChenCR,etal.IdentificationofHuman HousekeepingGenesandTissue-SelectiveGenesbyMicroarrayMeta-Analysis.PLOS One, 2011,6(79) :e22859提出了一種基于基因表達(dá)數(shù)據(jù)發(fā)現(xiàn)組織表達(dá)特異蛋白質(zhì)的方法, 包括以下步驟:
[0004] 1)從基因表達(dá)數(shù)據(jù)庫(kù)M2DB中下載人的多種組織表達(dá)數(shù)據(jù)集,獲得了 43個(gè)正常組 織中的104個(gè)數(shù)據(jù)集;
[0005] 2)對(duì)多個(gè)基因表達(dá)數(shù)據(jù)集進(jìn)行標(biāo)號(hào)對(duì)應(yīng)和數(shù)據(jù)標(biāo)準(zhǔn)化處理,使其具有可比性;
[0006] 3)提取僅在1個(gè)組織中表達(dá)的基因作為組織特異基因,在43個(gè)組織中均有表達(dá)的 基因作為廣泛表達(dá)基因;
[0007] 4)對(duì)由該方法獲得的組織特異表達(dá)蛋白質(zhì)和廣泛表達(dá)蛋白質(zhì)進(jìn)行功能分析。
[0008] 該方法主要基于基因表達(dá)信息來(lái)預(yù)測(cè)組織特異表達(dá)的蛋白質(zhì),由于基因表達(dá)數(shù)據(jù) 存在一定噪聲,噪音的產(chǎn)生與實(shí)驗(yàn)條件密切相關(guān)。該預(yù)測(cè)方法受噪音干擾嚴(yán)重,預(yù)測(cè)精度 低。該方法構(gòu)建的預(yù)測(cè)模型沒(méi)有考慮蛋白質(zhì)本身的特性,僅從現(xiàn)有實(shí)驗(yàn)數(shù)據(jù)出發(fā)進(jìn)行預(yù)測(cè), 不利于發(fā)現(xiàn)僅表達(dá)了組織特異蛋白質(zhì)的組織特異基因。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明提供一種蛋白質(zhì)分類(lèi)模型構(gòu)建方法和裝置,以解決現(xiàn)有技術(shù)中預(yù)測(cè)方法精 度低,方法受噪音干擾大的技術(shù)問(wèn)題。
[0010] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種蛋白質(zhì)分類(lèi)模型構(gòu)建方法,包括:獲取組織表 達(dá)蛋白質(zhì)分類(lèi)特征;根據(jù)分類(lèi)特征得到組織特異表達(dá)蛋白質(zhì)的預(yù)測(cè)模型;以及根據(jù)預(yù)測(cè)模 型對(duì)蛋白質(zhì)進(jìn)行分類(lèi)。
[0011] 進(jìn)一步地,獲取組織表達(dá)蛋白質(zhì)的分類(lèi)特征包括:查詢(xún)組織特異表達(dá)的蛋白質(zhì),得 到標(biāo)準(zhǔn)陽(yáng)性數(shù)據(jù)集;查詢(xún)組織廣泛表達(dá)的蛋白質(zhì),得到標(biāo)準(zhǔn)陰性數(shù)據(jù)集;計(jì)算標(biāo)準(zhǔn)陽(yáng)性數(shù) 據(jù)集和標(biāo)準(zhǔn)陰性數(shù)據(jù)集中蛋白質(zhì)間差異顯著性;提取在標(biāo)準(zhǔn)陽(yáng)性數(shù)據(jù)集和標(biāo)準(zhǔn)陰性數(shù)據(jù)集 中具有蛋白質(zhì)間差異顯著性的特征作為分類(lèi)特征。
[0012] 進(jìn)一步地,獲取蛋白質(zhì)和基因組織特異表達(dá)的分類(lèi)特征包括:獲取基因芯片數(shù)據(jù); 以及從基因芯片數(shù)據(jù)中提取分類(lèi)特征。
[0013] 進(jìn)一步地,根據(jù)分類(lèi)特征得到組織特異表達(dá)蛋白質(zhì)的預(yù)測(cè)模型包括:計(jì)算分類(lèi)特 征的似然比;以及由似然比得到預(yù)測(cè)模型。
[0014] 進(jìn)一步地,預(yù)測(cè)模型對(duì)蛋白質(zhì)進(jìn)行分類(lèi)包括:獲取樣品集中的待分類(lèi)蛋白質(zhì);通 過(guò)預(yù)測(cè)模型對(duì)待分類(lèi)蛋白質(zhì)進(jìn)行分類(lèi),并獲取預(yù)測(cè)模型的分類(lèi)結(jié)果;以及利用待檢測(cè)蛋白 質(zhì)嚴(yán)重分類(lèi)結(jié)果的準(zhǔn)確性。
[0015] 根據(jù)本發(fā)明的另一方面還提供了一種蛋白質(zhì)分類(lèi)模型構(gòu)建裝置,包括獲取單元, 用于獲取組織表達(dá)蛋白質(zhì)的分類(lèi)特征;生成單元,用于根據(jù)分類(lèi)特征得到組織特異表達(dá)蛋 白質(zhì)的預(yù)測(cè)模型;以及檢測(cè)單元,用于根據(jù)預(yù)測(cè)模型對(duì)蛋白質(zhì)進(jìn)行分類(lèi)。
[0016] 進(jìn)一步地,獲取單元包:第一查詢(xún)模塊,用于查詢(xún)組織特異表達(dá)的蛋白質(zhì),得到標(biāo) 準(zhǔn)陽(yáng)性數(shù)據(jù)集;第二查詢(xún)模塊,用于查詢(xún)廣泛組織表達(dá)的蛋白質(zhì),得到標(biāo)準(zhǔn)陰性數(shù)據(jù)集;第 一計(jì)算模塊,用于計(jì)算標(biāo)準(zhǔn)陽(yáng)性數(shù)據(jù)集和標(biāo)準(zhǔn)陰性數(shù)據(jù)集中蛋白質(zhì)間差異顯著性;以及第 一提取模塊,用于提取在標(biāo)準(zhǔn)陽(yáng)性數(shù)據(jù)集和標(biāo)準(zhǔn)陰性數(shù)據(jù)集中具有蛋白質(zhì)間差異顯著性的 特征作為分類(lèi)特征。
[0017] 進(jìn)一步地,生成單元包括:獲取模塊,用于獲取基因芯片數(shù)據(jù);以及第二提取模 塊,用于從基因芯片數(shù)據(jù)中提取分類(lèi)特征。
[0018] 進(jìn)一步地,生成單元包括:計(jì)算模塊,用于計(jì)算分類(lèi)特征的似然比;以及生成模 塊,用于由似然比得到預(yù)測(cè)模型。
[0019] 進(jìn)一步地,還包括:取樣單元,用于獲取樣品集中的待分類(lèi)蛋白質(zhì);分類(lèi)單元,用 于通過(guò)預(yù)測(cè)模型對(duì)待分類(lèi)蛋白質(zhì)進(jìn)行分類(lèi),并獲取預(yù)測(cè)模型的分類(lèi)結(jié)果;以及驗(yàn)證單元,用 于利用待檢測(cè)蛋白質(zhì)嚴(yán)重分類(lèi)結(jié)果的準(zhǔn)確性。
[0020] 本發(fā)明具有以下有益效果:
[0021] 1、本發(fā)明提供的方法在采集基因表達(dá)數(shù)據(jù)的情況下,還采集了基因表達(dá)蛋白的其 他特征,通過(guò)構(gòu)建陰集和陽(yáng)集后對(duì)其進(jìn)行顯著性分類(lèi),選取在蛋白質(zhì)之間差異顯著性明顯 的蛋白質(zhì)特征作為分類(lèi)特征,提高了所構(gòu)建模型對(duì)具有組織特異表達(dá)蛋白的篩選能力。當(dāng) 構(gòu)建所得模型遇到由于實(shí)驗(yàn)中導(dǎo)致的噪音干擾時(shí),能通過(guò)所篩選出的多個(gè)具有篩選顯著 性的特征對(duì)蛋白質(zhì)進(jìn)行分類(lèi)。
[0022] 2、本發(fā)明提供的裝置在采集基因表達(dá)數(shù)據(jù)的情況下,還采集了基因表達(dá)蛋白的其 他特征,通過(guò)構(gòu)建陰集和陽(yáng)集后對(duì)其進(jìn)行顯著性分類(lèi),選取在蛋白質(zhì)之間差異顯著性明顯 的蛋白質(zhì)特征作為分類(lèi)特征,提高了所構(gòu)建模型對(duì)具有組織特異表達(dá)蛋白的篩選能力。當(dāng) 構(gòu)建所得模型遇到由于實(shí)驗(yàn)中導(dǎo)致的噪音干擾時(shí),能通過(guò)所篩選出的多個(gè)具有篩選顯著性 的特征對(duì)蛋白質(zhì)進(jìn)行分類(lèi)。
[0023] 除了上面所描述的目的、特征和優(yōu)點(diǎn)之外,本發(fā)明還有其它的目的、特征和優(yōu)點(diǎn)。 下面將參照?qǐng)D,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
【附圖說(shuō)明】
[0024] 構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0025] 圖1根據(jù)本發(fā)明第一實(shí)施例蛋白質(zhì)分類(lèi)模型建立裝置的示意圖;
[0026] 圖2根據(jù)本發(fā)明第二實(shí)施例蛋白質(zhì)分類(lèi)模型建立裝置的示意圖;
[0027] 圖3根據(jù)本發(fā)明第三實(shí)施例蛋白質(zhì)分類(lèi)模型建立裝置的示意圖;
[0028] 圖4根據(jù)本發(fā)明第四實(shí)施例蛋白質(zhì)分類(lèi)模型建立裝置的示意圖;
[0029] 圖5根據(jù)本發(fā)明第五實(shí)施例蛋白質(zhì)分類(lèi)模型建立裝置的示意圖;
[0030] 圖6是根據(jù)本發(fā)明第一實(shí)施例的蛋白質(zhì)分類(lèi)模型建立方法的流程圖;
[0031] 圖7是根據(jù)本發(fā)明第二實(shí)施例的蛋白質(zhì)分類(lèi)模型建立方法的流程圖;
[0032] 圖8是根據(jù)本發(fā)明第三實(shí)施例的蛋白質(zhì)分類(lèi)模型建立方法的流程圖;以及
[0033] 圖9是根據(jù)本發(fā)明第四實(shí)施例的蛋白質(zhì)分類(lèi)模型建立方法的流程圖。 圖10是根據(jù)本發(fā)明第五實(shí)施例的蛋白質(zhì)分類(lèi)模型構(gòu)建方法的流程圖。
【具體實(shí)施方式】
[0034]