用于選擇用于建模上位性效應(yīng)的標(biāo)記的信息處理方法和系統(tǒng)的制作方法
【專利摘要】各個(gè)實(shí)施例選擇用于建模上位性效應(yīng)的標(biāo)記。在一個(gè)實(shí)施例中,處理器接收基因標(biāo)記集合和表型。針對(duì)基因標(biāo)記集合中的每個(gè)來確定關(guān)于表型的相關(guān)性評(píng)分?;诰哂凶罡呦嚓P(guān)性評(píng)分的基因標(biāo)記的相關(guān)性評(píng)分來設(shè)置閾值。針對(duì)基因標(biāo)記集合中的至少一個(gè)基因標(biāo)記來確定該至少一個(gè)基因標(biāo)記和基因標(biāo)記集合中的至少一個(gè)其他基因標(biāo)記之間的至少一個(gè)交互的相關(guān)性評(píng)分?;谠撝辽僖粋€(gè)交互的相關(guān)性評(píng)分滿足閾值,該至少一個(gè)交互被添加到最高k特征集。
【專利說明】用于選擇用于建模上位性效應(yīng)的標(biāo)記的信息處理方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般涉及計(jì)算生物學(xué)領(lǐng)域,且更具體地,涉及選擇用于建模用于表型預(yù)測(cè)的基因上位性(epistasis)的特征。
【背景技術(shù)】
[0002]特征選擇方法對(duì)于分類和回歸問題是關(guān)鍵的。例如,在大型學(xué)習(xí)應(yīng)用中,特別是對(duì)于諸如基因表達(dá)和表型數(shù)據(jù)等生物數(shù)據(jù)(其中變量的數(shù)量遠(yuǎn)超過樣本數(shù)量),這是常見的。“維數(shù)災(zāi)難”(curse of dimensionality)問題不僅影響學(xué)習(xí)算法的計(jì)算效率,而且導(dǎo)致這些算法的低性能。為解決這個(gè)問題,可使用各種特征選擇方法,其中,選擇重要特征的子集,并且基于這些特征來訓(xùn)練學(xué)習(xí)算法。
【發(fā)明內(nèi)容】
[0003]在一個(gè)實(shí)施例中,公開了一種用于選擇用于建模上位性效應(yīng)的標(biāo)記(marker)的信息處理方法。計(jì)算機(jī)實(shí)施方法包括由處理器接收一組基因標(biāo)記和表型。針對(duì)表型,確定用于該組基因標(biāo)記的每個(gè)的相關(guān)性評(píng)分?;谠摻M基因標(biāo)記中具有最高相關(guān)性評(píng)分的基因標(biāo)記的相關(guān)性評(píng)分設(shè)置閾值。針對(duì)該組基因標(biāo)記中的至少一個(gè)基因標(biāo)記,確定用于該至少一個(gè)基因標(biāo)記和該組基因標(biāo)記中的至少一個(gè)其他基因標(biāo)記之間的至少一次交互的相關(guān)性評(píng)分?;谠撝辽僖淮谓换サ南嚓P(guān)性評(píng)分滿足閾值,該至少一次交互被添加到最高k(top-k)特征集。最聞k特征集中的每個(gè)特征是各包括最聞k相關(guān)性評(píng)分的基因標(biāo)記和交互中的一個(gè)。選擇最高k特征集的子集以用于建模對(duì)物理特性的上位性效應(yīng)。
[0004]在另一個(gè)實(shí)施例中,公開了一種用于選擇用于建模上位性效應(yīng)的標(biāo)記的信息處理系統(tǒng)。信息處理系統(tǒng)包括:被配置為由處理器接收一組基因標(biāo)記和表型的模塊;被配置為為該組基因標(biāo)記中的每個(gè)確定針對(duì)表型的相關(guān)性評(píng)分的模塊;被配置為基于該組基因標(biāo)記中具有最高相關(guān)性評(píng)分的基因標(biāo)記的相關(guān)性評(píng)分設(shè)置閾值的模塊;被配置為為該組基因標(biāo)記中的至少一個(gè)基因標(biāo)記確定用于該至少一個(gè)基因標(biāo)記和該組基因標(biāo)記中的至少一個(gè)其他基因標(biāo)記之間的至少一次交互的相關(guān)性評(píng)分的模塊;以及被配置為基于該至少一次交互的相關(guān)性評(píng)分滿足閾值,添加該至少一次交互到最高k特征集的模塊,其中最高k特征集中的每個(gè)特征是各包括最高k相關(guān)性評(píng)分的基因標(biāo)記和交互中的一個(gè)。
【專利附圖】
【附圖說明】
[0005]在全部附圖中類似的參考標(biāo)號(hào)指示相同或功能類似的元件,且其與以下的詳細(xì)描述結(jié)合并形成說明書的一部分,用于進(jìn)一步描述各種實(shí)施例并解釋根據(jù)本發(fā)明的各種原理和優(yōu)勢(shì),在附圖中:
[0006]圖1是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的操作環(huán)境的一個(gè)例子的框圖;且
[0007]圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于選擇用于建模上位性效應(yīng)的標(biāo)記的 一個(gè)例子的操作性流程圖。
【具體實(shí)施方式】
[0008]圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一個(gè)操作環(huán)境100的概圖。特別地,圖1示出了可被用在本發(fā)明的實(shí)施例中的信息處理系統(tǒng)102。圖1示出的信息處理系統(tǒng)102僅是合適的系統(tǒng)一個(gè)例子,且不旨在限定以上描述的本發(fā)明的實(shí)施例的使用范圍或功能。圖1的信息處理系統(tǒng)102能夠?qū)嵤┖?或執(zhí)行上述任何功能。任何被合適配置的處理系統(tǒng)可被用作本發(fā)明實(shí)施例中的信息處理系統(tǒng)102。
[0009]如圖1所示,信息處理系統(tǒng)102是通用計(jì)算設(shè)備的形式。信息處理系統(tǒng)102的組件可包括但不限于一個(gè)或多個(gè)處理器或處理單元104、系統(tǒng)存儲(chǔ)器106和總線108,總線108將包括系統(tǒng)存儲(chǔ)器106的各種系統(tǒng)組件耦合到處理器104。
[0010]總線108表示若干總線結(jié)構(gòu)類型中的任何一個(gè)類型的一個(gè)或多個(gè),所述總線結(jié)構(gòu)類型包括存儲(chǔ)總線或存儲(chǔ)控制器、外圍總線、加速圖形端口和使用多種總線架構(gòu)中的任何一個(gè)的處理器或本地總線。作為示舉例而不是限制,這樣的架構(gòu)包括工業(yè)標(biāo)準(zhǔn)架構(gòu)(ISA)總線、微通道架構(gòu)(MCA)總線,增強(qiáng)的ISA (EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線和外圍組件互連(PCI)總線。
[0011]在一個(gè)實(shí)施例中,系統(tǒng)存儲(chǔ)器106包括特征選擇模塊109,其被配置為執(zhí)行以下描述的一個(gè)或多個(gè)實(shí)施例。例如,在一個(gè)實(shí)施例中,特征選擇模塊109被配置為基于最大相關(guān)性和最小冗余準(zhǔn)則執(zhí)行上位性特征選擇過程。該特征選擇機(jī)制在此被稱為“EMRMR”。如以下將更詳細(xì)討論的,使用EMRMR,特征選擇模塊109使用最大相關(guān)性和最小冗余準(zhǔn)則從特征空間選擇一組特征,以用于高效地建模用于表型預(yù)測(cè)的上位性。應(yīng)當(dāng)注意,盡管圖1示出了特征選擇模塊109位于主存儲(chǔ)器中,特征選擇模塊109也可位于處理器104內(nèi),是個(gè)單獨(dú)的硬件組件,且/或分布在多個(gè)信息處理系統(tǒng)和/或處理器中。
[0012]系統(tǒng)存儲(chǔ)器106也可包括諸如隨機(jī)存取存儲(chǔ)器(RAM) 110和/或緩沖存儲(chǔ)器112的易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。信息處理系統(tǒng)102還可包括其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。作為示例,存儲(chǔ)系統(tǒng)114可被提供用于從不可移動(dòng)或可移動(dòng)、非易失性介質(zhì)讀取或?qū)懭氲讲豢梢苿?dòng)或可移動(dòng)、非易失性介質(zhì),諸如一個(gè)或多個(gè)固態(tài)磁盤和/或磁介質(zhì)(典型地被稱為“硬驅(qū)”)??商峁┯糜趶目梢苿?dòng)非易失性磁盤(例如“軟盤”)讀取或?qū)懭氲狡涞拇疟P驅(qū)動(dòng)器,以及用于從可移動(dòng)非易失性光盤,諸如⑶-ROM、DVD-ROM或其他光介質(zhì),讀取或?qū)懭氲狡涞墓獗P驅(qū)動(dòng)器。在這樣的情況下,每個(gè)可通過一個(gè)或多個(gè)數(shù)據(jù)介質(zhì)接口連接到總線108。存儲(chǔ)器106可包括至少一個(gè)程序產(chǎn)品,其具有一組程序模塊,所述程序模塊被配置為執(zhí)行本發(fā)明的實(shí)施例的功能。
[0013]作為示例而非限制,具有一組程序模塊118的程序/實(shí)用程序116,以及操作系統(tǒng)、一個(gè)或多個(gè)應(yīng)用程序、其他程序模塊和程序數(shù)據(jù),可被存儲(chǔ)在存儲(chǔ)器106中。操作系統(tǒng)、一個(gè)或多個(gè)應(yīng)用程序、其他程序模塊以及程序數(shù)據(jù)及其某個(gè)組合中的每個(gè),可包括聯(lián)網(wǎng)環(huán)境的實(shí)現(xiàn)。程序模塊118通常執(zhí)行本發(fā)明的實(shí)施例的功能和/或方法。
[0014]信息處理系統(tǒng)102也可與一個(gè)或多個(gè)外部裝置120通信,所述外部裝置諸如鍵盤、指針設(shè)備、顯示器122等;使用戶能與信息處理系統(tǒng)102交互的一個(gè)或多個(gè)設(shè)備;和/或使計(jì)算機(jī)系統(tǒng)/服務(wù)器102能與一個(gè)或多個(gè)其他計(jì)算設(shè)備通信的任何設(shè)備(例如網(wǎng)卡、調(diào)制解調(diào)器等)。這樣的通信可經(jīng)由I/o接口 124發(fā)生。而且,信息處理系統(tǒng)102可經(jīng)由網(wǎng)絡(luò)適配器126與一個(gè)或多個(gè)網(wǎng)絡(luò)通信,所述網(wǎng)絡(luò)諸如局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò)(例如因特網(wǎng))。如所示出的,網(wǎng)絡(luò)適配器126經(jīng)由總線108與信息處理系統(tǒng)102的其他組件通信。其他硬件和/或軟件組件也可與信息處理系統(tǒng)102結(jié)合使用。例子包括但不限于微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)器陣列、RAID系統(tǒng)、磁盤驅(qū)動(dòng)器和數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)。
[0015]用于特征選擇的一個(gè)標(biāo)準(zhǔn)被稱為最大相關(guān)性和最小冗余度(MRMR)。MRMR貪婪地選擇與分類(class)值最大相關(guān)并且互相之間最小依賴的特征。在MRMR中,最大相關(guān)性標(biāo)準(zhǔn)搜索使得單個(gè)特征與分類變量之間的所有互信息值的平均值最大化的特征。但是,僅基于最大相關(guān)性的特征選擇傾向于選擇具有高冗余度的特征,即被選擇的特征的相關(guān)性傾向于很高。如果這些高度相關(guān)的特征中的某些被移除,相應(yīng)的分類辨別力(classdiscriminative power)將不會(huì)改變,或者只會(huì)有少量改變。因此,最大冗余度標(biāo)準(zhǔn)被用于選擇互相排斥的特征。在Peng等人的“Feature selection based on mutual informationcriteria of max-dependency, max-relevance, and min-redundancy,,,Pattern Analysisand Machine Intelligence, IEEE Transactions on, 27 (8): 1226-1238,2005 中給出了對(duì)MRMR的更詳細(xì)的討論,該文獻(xiàn)的全部?jī)?nèi)容通過引用結(jié)合于此。
[0016]在表型預(yù)測(cè)問題中,輸入通常是一組樣本(每個(gè)樣本具有表型值)和一組表型值(在這里也被稱為“特征”、“標(biāo)記”和“基因型”。表型預(yù)測(cè)中的任務(wù)是使用該輸入數(shù)據(jù)來訓(xùn)練模型,從而進(jìn)一步的基因型數(shù)據(jù)可被用于預(yù)測(cè)不可用的表型數(shù)據(jù)。因此,回歸被表示如下:
【權(quán)利要求】
1.一種用于選擇用于建模上位性效應(yīng)的標(biāo)記的信息處理方法,該計(jì)算機(jī)實(shí)現(xiàn)的方法包括: 由處理器接收基因標(biāo)記集合和表型; 針對(duì)基因標(biāo)記集合中的每個(gè)來確定關(guān)于表型的相關(guān)性評(píng)分; 基于基因標(biāo)記集合中的具有最高相關(guān)性評(píng)分的基因標(biāo)記的相關(guān)性評(píng)分來設(shè)置閾值;針對(duì)基因標(biāo)記集合中的至少一個(gè)基因標(biāo)記來確定該至少一個(gè)基因標(biāo)記和基因標(biāo)記集合中的至少一個(gè)其他基因標(biāo)記之間的至少一個(gè)交互的相關(guān)性評(píng)分;以及 基于該至少一個(gè)交互的相關(guān)性評(píng)分滿足閾值,將該至少一個(gè)交互添加到最高k特征集,其中,最聞k特征集中的每個(gè)特征是各包含一個(gè)最聞k相關(guān)性評(píng)分的基因標(biāo)記和交互中的至少一個(gè)。
2.如權(quán)利要求1所述的信息處理方法,其中,針對(duì)基因標(biāo)記集合中的每個(gè)來確定的相關(guān)性評(píng)分是基于基因標(biāo)記集合中的每個(gè)和表型之間的互信息。
3.如權(quán)利要求1所述的信息處理方法,其中,針對(duì)至少一個(gè)交互確定的相關(guān)性評(píng)分是基于該至少一個(gè)交互和表型之間的互信息。
4.如權(quán)利要求1 所述的信息處理方法,還包括: 從基因標(biāo)記集合隨機(jī)抽樣基因標(biāo)記的子集;以及 從該基因標(biāo)記子集中選擇所述至少一個(gè)其他基因標(biāo)記。
5.如權(quán)利要求4所述的信息處理方法,其中,確定至少一個(gè)交互的相關(guān)性評(píng)分包括: 確定相關(guān)性評(píng)分的第一集合,其包括相對(duì)于表型的用于所述至少一個(gè)基因標(biāo)記和基因標(biāo)記子集中的每個(gè)之間的第一多個(gè)交互中的每個(gè)的相關(guān)性評(píng)分; 基于與所述相關(guān)性評(píng)分的第一集合關(guān)聯(lián)的正態(tài)分布來確定所述至少一個(gè)基因標(biāo)記與包含大于閾值的相關(guān)性評(píng)分的交互關(guān)聯(lián)的概率; 將該概率與概率閾值進(jìn)行比較;以及 基于滿足概率閾值的概率來確定相關(guān)性評(píng)分的第二集合,該集合包括所述至少一個(gè)基因標(biāo)記和所述基因標(biāo)記集合中的剩余基因標(biāo)記集合之間的第二多個(gè)交互中的每個(gè)的相關(guān)性評(píng)分,其中,該第二多個(gè)交互包括所述至少一個(gè)交互,并且其中,該剩余基因標(biāo)記集合包括所述至少一個(gè)其他基因標(biāo)記。
6.如權(quán)利要求1所述的信息處理方法,還包括: 基于將所述至少一個(gè)交互添加到最高k特征集,通過將與最低相關(guān)性評(píng)分關(guān)聯(lián)的基因標(biāo)記和交互中的一個(gè)從最高k特征集中移除,來生成更新的最高k特征集。
7.如權(quán)利要求1所述的信息處理方法,還包括: 根據(jù)與更新的最高k個(gè)特征中的基因標(biāo)記和交互中的一個(gè)關(guān)聯(lián)的最高相關(guān)性評(píng)分來更新所述閾值。
8.如權(quán)利要求7所述的信息處理方法,還包括: 確定所述至少一個(gè)基因標(biāo)記和所述基因標(biāo)記集合中的至少一個(gè)其他基因標(biāo)記之間的至少一個(gè)其他交互的相關(guān)性評(píng)分; 將該至少一個(gè)其他交互的相關(guān)性評(píng)分與已經(jīng)更新的閾值進(jìn)行比較;以及基于該至少一個(gè)其他交互的相關(guān)性評(píng)分滿足已經(jīng)更新的閾值將該至少一個(gè)其他交互添加到最聞k特征集。
9.如權(quán)利要求1所述的信息處理方法,其中,所述最高k特征集的子集中的每個(gè)特征最大化與表型的相關(guān)性并最小化關(guān)于其他選中特征的冗余度。
10.一種用于選擇用于建模上位性效應(yīng)的標(biāo)記的信息處理系統(tǒng),該計(jì)算機(jī)實(shí)現(xiàn)的系統(tǒng)包括: 被配置為通過處理器來接收基因標(biāo)記集合和表型的模塊; 被配置為針對(duì)基因標(biāo) 記集合中的每個(gè)來確定關(guān)于表型的相關(guān)性評(píng)分的模塊; 被配置為基于基因標(biāo)記集合中的具有最高相關(guān)性評(píng)分的基因標(biāo)記的相關(guān)性評(píng)分來設(shè)置閾值的模塊; 被配置為針對(duì)基因標(biāo)記集合中的至少一個(gè)基因標(biāo)記來確定該至少一個(gè)基因標(biāo)記和基因標(biāo)記集合中的至少一個(gè)其他基因標(biāo)記之間的至少一個(gè)交互的相關(guān)性評(píng)分的模塊;以及 被配置為基于該至少一個(gè)交互的相關(guān)性評(píng)分滿足閾值將該至少一個(gè)交互添加到最高k特征集的模塊,其中,最高k特征集中的每個(gè)特征是各包含一個(gè)最高k相關(guān)性評(píng)分的基因標(biāo)記和交互中的至少一個(gè)。
11.如權(quán)利要求10所述的信息處理系統(tǒng),其中,針對(duì)基因標(biāo)記集合中的每個(gè)來確定的相關(guān)性評(píng)分是基于基因標(biāo)記集合中的每個(gè)和表型之間的互信息。
12.如權(quán)利要求10所述的信息處理系統(tǒng),其中,針對(duì)至少一個(gè)交互確定的相關(guān)性評(píng)分基于該至少一個(gè)交互和表型之間的互信息。
13.如權(quán)利要求10所述的信息處理系統(tǒng),還包括: 被配置為從基因標(biāo)記集合隨機(jī)抽樣基因標(biāo)記的子集的模塊;以及 被配置為從該基因標(biāo)記子集中選擇所述至少一個(gè)其他基因標(biāo)記的模塊。
14.如權(quán)利要求10所述的信息處理系統(tǒng),其中,被配置為確定至少一個(gè)交互的相關(guān)性評(píng)分的模塊包括: 被配置為確定相關(guān)性評(píng)分的第一集合的模塊,該第一集合包括相對(duì)于表型的用于所述至少一個(gè)基因標(biāo)記和基因標(biāo)記子集中的每個(gè)之間的第一多個(gè)交互中的每個(gè)的相關(guān)性評(píng)分; 被配置為基于與所述相關(guān)性評(píng)分的第一集合關(guān)聯(lián)的正態(tài)分布來確定所述至少一個(gè)基因標(biāo)記與包含大于閾值的相關(guān)性評(píng)分的交互關(guān)聯(lián)的概率的模塊; 被配置為將該概率與概率閾值進(jìn)行比較的模塊;以及 被配置為基于滿足概率閾值的概率來確定相關(guān)性評(píng)分的第二集合的模塊,該集合包括所述至少一個(gè)基因標(biāo)記和所述基因標(biāo)記集合中的剩余基因標(biāo)記集合之間的第二多個(gè)交互中的每個(gè)的相關(guān)性評(píng)分,其中,該第二多個(gè)交互包括所述至少一個(gè)交互,并且其中,該剩余基因標(biāo)記集合包括至少一個(gè)其他基因標(biāo)記。
15.如權(quán)利要求10所述的信息處理系統(tǒng),其中,所述系統(tǒng)還包括: 被配置為基于將所述至少一個(gè)交互添加到最高k特征集、通過將與最低相關(guān)性評(píng)分關(guān)聯(lián)的基因標(biāo)記和交互中的一個(gè)從最聞k特征集中移除來生成更新的最聞k特征集的|旲塊。
16.如權(quán)利要求10所述的信息處理系統(tǒng),還包括: 被配置為根據(jù)與更新的最高k個(gè)特征中的基因標(biāo)記和交互中的一個(gè)關(guān)聯(lián)的最高相關(guān)性評(píng)分來更新閾值的模塊。
17.如權(quán)利要求10所述的信息處理系統(tǒng),其中,所述系統(tǒng)還包括:被配置為確定所述至少一個(gè)基因標(biāo)記和所述基因標(biāo)記集合中的至少一個(gè)其他基因標(biāo)記之間的至少一個(gè)其他交互的相關(guān)性評(píng)分的模塊; 被配置為將該至少一個(gè)其他交互的相關(guān)性評(píng)分與已經(jīng)更新的閾值進(jìn)行比較的模塊;以及 被配置為基于該至少一個(gè)其他交互的相關(guān)性評(píng)分滿足已經(jīng)更新的閾值將該至少一個(gè)其他交互添加到最高k特征集的模塊。
18.如權(quán)利要求10所述的計(jì)算機(jī)實(shí)現(xiàn)的系統(tǒng),其中,所述最高k特征集的子集中的每個(gè)特征最大化與表型 的相關(guān)性并最小化關(guān)于其他選中特征的冗余度。
【文檔編號(hào)】G06F19/18GK103942467SQ201410025013
【公開日】2014年7月23日 申請(qǐng)日期:2014年1月20日 優(yōu)先權(quán)日:2013年1月21日
【發(fā)明者】D·霍斯, 何丹, L·P·帕里達(dá) 申請(qǐng)人:國際商業(yè)機(jī)器公司