專利名稱:生物標(biāo)記提取裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種生物信息學(xué)(Bioinformatics)技術(shù),尤其涉及一種基于在序列上出現(xiàn)的變異對基因功能導(dǎo)致的危害性的分析,提取可靠性更高的生物標(biāo)記的裝置及其方法。
背景技術(shù):
人類基因項(xiàng)目完成后,開始解讀人類DNA堿基序列,并開始揭開人類基因的多樣的功能。尤其,發(fā)現(xiàn)了多樣的基因變異,從而揭開了其不僅導(dǎo)致人類性狀的差異,而且有可能成為特定疾病的原因,對人類基因的分析研究也進(jìn)一步加速。然而,要揭開在人類基因中有可能產(chǎn)生的龐大的遺傳性變異中哪些變異實(shí)際上成為病因,還存在困難。最近,作為解決這種問題的對策,正在研究下一代基因測序技術(shù)(Next Generation Sequencing) 0通過該技術(shù)可以對個(gè)別人類的整個(gè)基因進(jìn)行堿基序列化,并且通過疾病群與正常群的堿基序列及變異比較分析方法,可以提取疾病特異性的基因變異。另一方面,與其相反,還在研究不是堿基序列測序,而是通過單核苷酸多態(tài)性 (single nucleotide polymorphism)芯片,依據(jù)種群(population)統(tǒng)計(jì)分析進(jìn)行的全基因組關(guān)聯(lián)研究(Genome Wide Association Study)分析技術(shù)。根據(jù)該技術(shù),通過自數(shù)千至數(shù)萬名中取得的單核苷酸多態(tài)性(SNP)數(shù)據(jù)分析,可以提取在特定疾病群中頻繁發(fā)生的顯著的遺傳性變異。然而,即使通過多樣的分析技術(shù)提取遺傳性變異,但要確認(rèn)包括這種遺傳性變異的基因的實(shí)際表達(dá)以及功能上障礙與否,還需要進(jìn)一步實(shí)驗(yàn),這在時(shí)間以及費(fèi)用方面造成相當(dāng)?shù)膿p失。尤其,僅僅通過個(gè)別基因變異信息,不能對引發(fā)特定疾病的多樣的病因提供足夠的說明。為了克服這些問題,還在研究,分析生物學(xué)要素的相互作用,并據(jù)此解讀生物系統(tǒng)的所謂系統(tǒng)生物學(xué)的技術(shù)。即、由基因表達(dá)的生物學(xué)功能與其他基因表達(dá)的功能一起,為了維持生命而工作,從而在不斷改變的外部環(huán)境下,仍然維持動態(tài)平衡而能夠繼續(xù)生存。這種技術(shù)通過生物學(xué)要素的網(wǎng)絡(luò)分析,進(jìn)行具有各個(gè)變異的基因的功能位置以及相互作用的分析,就能夠明確遺傳性變異對周邊要素的影響及該影響如何傳播。并且,為說明遺傳性變異與公知基因的相互作用、基因調(diào)控電路、蛋白質(zhì)相互作用、代謝,信號傳達(dá)電路有什么關(guān)聯(lián)性,提供基礎(chǔ)。為了正常的細(xì)胞活動所需的細(xì)胞內(nèi)多樣的流程是,通過所謂功能模塊的更小、特殊的蛋白質(zhì)或基因團(tuán),進(jìn)行工作的。作為對在個(gè)別基因中由于個(gè)別的非同義單核苷酸多態(tài)性(non-synonymous Single Nucleotide Polymorphism)而發(fā)生的蛋白質(zhì)功能的危害性進(jìn)行預(yù)測的一系列方法,有 SIFT (Sorting Tolerant From Intolerant)、PolyPhen、MAPP (Map Annotator and Pathway Profiler)等,然而僅僅使用這些方法,為比較復(fù)雜的疾病,找出病因或疾病標(biāo)記(marker),存在一定限制。并且在通常單核苷酸多態(tài)性(SNP)中,對蛋白質(zhì)功能有危害的單核苷酸多態(tài)性(SNP)的比率很低。從而,若利用基因集合富集度分析(Gene set enrichment analysis) 與單核苷酸多態(tài)性(SNP)分析方法,就不區(qū)分有可能對蛋白質(zhì)功能導(dǎo)致危害的單核苷酸多態(tài)性(SNP),而利用預(yù)測為單核苷酸多態(tài)性(SNP)的所有數(shù)據(jù),因此有可能誤判實(shí)際上與特定疾病沒有多大關(guān)系的生物學(xué)途徑(pattway)或基因集合為統(tǒng)計(jì)上顯著。從而有必要開發(fā),基于生物分子網(wǎng)絡(luò),分析疾病特異性的基因變異,并對屬于發(fā)現(xiàn)的生物分子網(wǎng)絡(luò)的基因的表達(dá)模式進(jìn)行分析,從而能夠更為準(zhǔn)確找出與特定疾病有關(guān)的生物標(biāo)記的技術(shù)。
發(fā)明內(nèi)容
本發(fā)明是鑒于上述問題而提出的,其目的在于,超越以前僅僅利用基因變異或基因表達(dá)模式的各一部分,而進(jìn)行相互作用模塊化以及分析的限制,基于在序列上出現(xiàn)的變異對基因功能導(dǎo)致的危害性分析,而提取可靠性更高的生物標(biāo)記。尤其,本發(fā)明另一目的在于開發(fā)危害性預(yù)測技術(shù),其利用多方面方法,對在提取上述生物標(biāo)記上發(fā)揮重要影響的危害性進(jìn)行定量。本發(fā)明的技術(shù)課題并不限于上面所說的技術(shù)課題,本領(lǐng)域的技術(shù)人員通過下面的記載,能夠明確理解上面沒有涉及的其他的技術(shù)課題。為實(shí)現(xiàn)上述技術(shù)課題,根據(jù)本發(fā)明一實(shí)施例的生物標(biāo)記提取裝置,其分析在序列上出現(xiàn)的變異對基因功能導(dǎo)致的變化,提取成為特定疾病的原因的生物標(biāo)記,其包括一預(yù)處理部,其分析基因試樣的序列,提取在基因上定位的變異數(shù)據(jù);一危害性預(yù)測器,定量由于上述變異數(shù)據(jù)在上述基因功能上發(fā)生的障礙,而求出危害性分?jǐn)?shù);一模塊化部,在基因網(wǎng)絡(luò),探索上述危害性分?jǐn)?shù)在所定臨界值以上的基因集合的子模塊。為實(shí)現(xiàn)上述技術(shù)課題,根據(jù)本發(fā)明一實(shí)施例的危害性預(yù)測裝置,其定量在序列上出現(xiàn)的變異數(shù)據(jù)影響基因功能導(dǎo)致的障礙,并包括一危害性計(jì)算部,其在多個(gè)危害性預(yù)測模型上適用上述變異數(shù)據(jù),而獲得各個(gè)危害性后,在上述各個(gè)危害性上適用權(quán)重值,而計(jì)算權(quán)重危害性;一重要性計(jì)算部,其基于上述變異數(shù)據(jù)的頻率,計(jì)算相應(yīng)基因變異的重要性; 一分?jǐn)?shù)計(jì)算部,組合上述權(quán)重危害性及上述重要性,而計(jì)算危害性分?jǐn)?shù)。為實(shí)現(xiàn)上述技術(shù)課題,根據(jù)本發(fā)明一實(shí)施例的生物標(biāo)記提取方法,分析在序列上出現(xiàn)的變異對基因功能導(dǎo)致的變化,而提取成為特定疾病的原因的生物標(biāo)記的方法,其包括定量由于包含在基因的變異數(shù)據(jù)而在上述基因功能上發(fā)生的障礙,而求出危害性分?jǐn)?shù)的步驟;在基因網(wǎng)絡(luò)中探索上述危害性分?jǐn)?shù)在所定臨界值以上的基因集合的子模塊的步驟;上述生物標(biāo)記提取裝置決定上述探索的多個(gè)子模塊之間的先后順序的步驟。為實(shí)現(xiàn)上述技術(shù)課題,根據(jù)本發(fā)明一實(shí)施例的危害性預(yù)測方法,定量在序列上出現(xiàn)的變異數(shù)據(jù)影響基因功能導(dǎo)致的障礙,其包括從上述變異數(shù)據(jù)產(chǎn)生包含多樣的要素的特征向量的步驟;在上述產(chǎn)生的特征向量中選出各個(gè)預(yù)測模型所需要素的步驟;在輸入上述選出的要素后,提供在蛋白質(zhì)序列內(nèi)個(gè)別的分?jǐn)?shù)的步驟;在上述預(yù)測模型的輸出上,適用權(quán)重值進(jìn)行合計(jì),而計(jì)算權(quán)重危害性的步驟。根據(jù)上述本發(fā)明可以預(yù)測,比較疾病群與正常群而獲得的疾病特異性序列的變異對相應(yīng)基因的功能引發(fā)什么變化或障礙,并且并行這種表達(dá)模式與網(wǎng)絡(luò)的分析,而提供個(gè)別基因障礙對整個(gè)生物系統(tǒng)的相互作用起什么影響的信息,從而能夠發(fā)掘基于疾病機(jī)制的生物標(biāo)記。
這種生物標(biāo)記能夠廣泛用于特定疾病的診斷、治療特定疾病的藥物開發(fā)、副作用預(yù)防。
圖1是示出根據(jù)本發(fā)明一實(shí)施例的生物標(biāo)記提取裝置的框圖。圖2是示出圖1的預(yù)處理部的細(xì)部結(jié)構(gòu)的框圖。圖3是示出圖1的危害性預(yù)測器的細(xì)部結(jié)構(gòu)的框圖。圖4是示出圖3的危害性計(jì)算部的細(xì)部結(jié)構(gòu)的框圖。圖5是示出用于危害性計(jì)算部的定位函數(shù)的一例的圖。圖6是示出在模塊化部執(zhí)行的子模塊探索的具體過程的流程圖。圖7是示出根據(jù)在基因子模塊與特定基因集合內(nèi)同時(shí)存在的基因數(shù)量,驗(yàn)證顯著性的概念的圖。主要符號的說明
100 生物標(biāo)記提取裝置 110 預(yù)處理部120: 危害性預(yù)測器130網(wǎng)絡(luò)合并部135: 相互作用數(shù)據(jù)庫 140模塊化部150: 先后順序決定部 160驗(yàn)證部165: 途徑數(shù)據(jù)庫 170危害性計(jì)算部180: 重要性計(jì)算部190分?jǐn)?shù)計(jì)算部
具體實(shí)施例方式以下,參照附圖詳細(xì)說明本發(fā)明的優(yōu)先實(shí)施例。本發(fā)明的優(yōu)點(diǎn)、特征以及實(shí)施方法可以下的通過參照附圖的詳細(xì)說明將會更加明確。然而,本發(fā)明并不限于下面揭示的實(shí)施例,而可以按互不相同的多樣的形式實(shí)施,本實(shí)施例只是為使本發(fā)明的公開更加完整,而向具有本發(fā)明所屬技術(shù)領(lǐng)域的通常知識的人完整地公開發(fā)明的范疇,因此本發(fā)明只按權(quán)利要求書的范圍下定義。在整個(gè)說明書中相同的附圖標(biāo)記表示相同的結(jié)構(gòu)要素。圖1是示出根據(jù)本發(fā)明一實(shí)施例的生物標(biāo)記提取裝置100的框圖。生物標(biāo)記提取裝置100包括預(yù)處理部110、危害性預(yù)測器120、網(wǎng)絡(luò)合并部130、模塊化部140、先后順序決定部150、驗(yàn)證部160。在此,網(wǎng)絡(luò)合并部130、驗(yàn)證部160是根據(jù)實(shí)施例可以省略的結(jié)構(gòu)要素。并且,相互作用數(shù)據(jù)庫135與網(wǎng)絡(luò)合并部130連動,并且途徑(pattway)數(shù)據(jù)庫165 與驗(yàn)證部160連動。這種在圖1(后述的圖2至圖4也一樣)中圖示的功能塊能夠在硬件系統(tǒng)運(yùn)行,上述硬件系統(tǒng)是個(gè)人用電腦(無論便攜式還是固定式裝置)或通過通信網(wǎng)相連的服務(wù)器-客戶裝置。上述存儲器載入關(guān)于上述功能塊的模塊,而供到上述流程,上述流程按照處理上述載入的模塊的方式,運(yùn)轉(zhuǎn)生物標(biāo)記提取裝置100。預(yù)處理部110從基因試樣提取在基因上定位的變異數(shù)據(jù)(variation)。具體而言, 預(yù)處理部Iio如圖2所示,包括疾病群比較部112、變異提取部114、變異數(shù)據(jù)庫115以及變異定位部116。
具體而言,疾病群比較部112提取疾病群變異與正常群變異,并通過互相比較兩者,而獲得在疾病群存在的變異。變異提取部114參照公知的變異數(shù)據(jù)庫115,在上述獲得的疾病群變異中只提取新變異。并且,變異定位部116只提取在上述提取的新變異中表達(dá)為蛋白質(zhì)時(shí)氨基酸改變的種類,即,非同義(non-synonymous)的種類,并在功能性基因上進(jìn)行定位。從測序數(shù)據(jù)分析基因性質(zhì)的基因變異數(shù)據(jù),按GFF3或GVF等文件形式保存,現(xiàn)在最廣泛使用的是GFF3 (Genetic Feature R)rmat)。表1為顯示整理成GFF3文件形式的基因變異的例子。表 權(quán)利要求
1.一種生物標(biāo)記提取裝置,所述裝置分析在序列上出現(xiàn)的變異對基因功能導(dǎo)致的變化,提取成為特定疾病的原因的生物標(biāo)記,其特征在于,包括一預(yù)處理部,分析基因試樣的序列,提取在基因上定位的變異數(shù)據(jù); 一危害性預(yù)測器,定量由于所述變異數(shù)據(jù)在所述基因功能上發(fā)生的障礙,而求出危害性分?jǐn)?shù);一模塊化部,在基因網(wǎng)絡(luò),探索所述危害性分?jǐn)?shù)在預(yù)定臨界值以上的基因集合的子模塊。
2.根據(jù)權(quán)利要求1所述的生物標(biāo)記提取裝置,其特征在于, 所述預(yù)處理部包括一疾病群比較部,互相比較疾病群變異與正常群變異,在所述分析的基因試樣中獲取所述疾病群中存在的變異;一變異提取部,參照公知的變異數(shù)據(jù)庫,在所述獲取的疾病群變異中提取新變異; 一變異定位部,在功能性基因上定位所述提取的新變異。
3.根據(jù)權(quán)利要求2所述的生物標(biāo)記提取裝置,其特征在于,所述變異定位部,在所述提取的新變異中,只提取在表達(dá)為蛋白質(zhì)時(shí)氨基酸改變的種類,并在所述功能性基因上進(jìn)行定位。
4.根據(jù)權(quán)利要求1所述的生物標(biāo)記提取裝置,其特征在于,所述危害性預(yù)測器包括危害性計(jì)算部,所述危害性計(jì)算部在多個(gè)危害性預(yù)測模型上適用所述變異數(shù)據(jù)而獲得各個(gè)危害性后,在所述各個(gè)危害性上適用權(quán)重值而計(jì)算權(quán)重危害性。
5.根據(jù)權(quán)利要求4所述的生物標(biāo)記提取裝置,其特征在于, 所述危害性計(jì)算部包括一特征向量產(chǎn)生部,其從所述變異數(shù)據(jù)產(chǎn)生包含多樣的要素的特征向量; 一適配器,在所述產(chǎn)生的特征向量中選出各個(gè)預(yù)測模型所需要素; 兩個(gè)以上的預(yù)測模型,輸入所述選出的要素,就能夠在蛋白質(zhì)序列內(nèi)發(fā)現(xiàn)個(gè)別的非同義單核苷酸多態(tài)性;一權(quán)重值適用部,在所述預(yù)測模型的輸出上適用權(quán)重值進(jìn)行合計(jì)。
6.根據(jù)權(quán)利要求5所述的生物標(biāo)記提取裝置,其特征在于,所述權(quán)重值適用部,將所述預(yù)測模型的輸出正規(guī)化為0至1之間的值后,適用所述權(quán)重值進(jìn)行合計(jì),并將所述合計(jì)的結(jié)果正規(guī)化為0至1之間的值。
7.根據(jù)權(quán)利要求5所述的生物標(biāo)記提取裝置,其特征在于,所述特征向量,在定位基因變異的基因及蛋白質(zhì)的相應(yīng)位置上氨基酸的各種生物種間的保守性分?jǐn)?shù)、氨基酸取代導(dǎo)致的生物化學(xué)性質(zhì)的變化、蛋白質(zhì)結(jié)構(gòu)特征的變化、有無內(nèi)含子切接點(diǎn)位置、5端非翻譯區(qū)變異位置中,包括兩個(gè)以上。
8.根據(jù)權(quán)利要求5所述的生物標(biāo)記提取裝置,其特征在于,所述預(yù)測模型,在SIFT、 PolyPhen、MAPP中,至少包括一個(gè)。
9.根據(jù)權(quán)利要求4所述的生物標(biāo)記提取裝置,其特征在于,所述危害性預(yù)測器還包括 一重要性計(jì)算部,基于所述變異數(shù)據(jù)的頻率計(jì)算相應(yīng)基因變異的重要性;一分?jǐn)?shù)計(jì)算部,組合所述權(quán)重危害性及所述重要性,而計(jì)算危害性分?jǐn)?shù)。
10.根據(jù)權(quán)利要求9所述的生物標(biāo)記提取裝置,其特征在于,所述重要性計(jì)算部,根據(jù)相應(yīng)基因變異在疾病群試樣中出現(xiàn)的概率,計(jì)算所述重要性,并且所述概率是最大似然估計(jì)或貝葉斯概率。
11.根據(jù)權(quán)利要求9所述的生物標(biāo)記提取裝置,其特征在于,所述分?jǐn)?shù)計(jì)算部,在一個(gè)基因內(nèi)基因變異所具有的危害性分?jǐn)?shù)的和,除以所述基因的長度,而求出最終危害性分?jǐn)?shù)。
12.根據(jù)權(quán)利要求1所述的生物標(biāo)記提取裝置,其特征在于,所述模塊化部,基于現(xiàn)在的基因節(jié)點(diǎn)的集合上合并鄰接基因是否顯著,而重復(fù)進(jìn)行更新基因網(wǎng)絡(luò)的過程,而探索所述子模塊。
13.根據(jù)權(quán)利要求12所述的生物標(biāo)記提取裝置,其特征在于,所述模塊化部,利用在所述危害性分?jǐn)?shù)超過預(yù)定臨界值的基因數(shù)量的超幾何分布中獲得的概率,判斷所述顯著性。
14.根據(jù)權(quán)利要求13所述的生物標(biāo)記提取裝置,其特征在于,所述預(yù)定臨界值以整個(gè)基因的危害性分?jǐn)?shù)分布中預(yù)定百分位數(shù)為準(zhǔn)而決定。
15.根據(jù)權(quán)利要求1所述的生物標(biāo)記提取裝置,其特征在于,還包括網(wǎng)絡(luò)合并部,在公知的蛋白質(zhì)相互作用數(shù)據(jù)庫中合并從求出所述危害性分?jǐn)?shù)的基因表達(dá)的蛋白質(zhì),而形成相互作用網(wǎng)絡(luò)。
16.根據(jù)權(quán)利要求1所述的生物標(biāo)記提取裝置,其特征在于,還包括先后順序決定部, 以Z分?jǐn)?shù)為準(zhǔn),決定通過所述模塊化部探索的多個(gè)子模塊之間的先后順序。
17.根據(jù)權(quán)利要求16所述的生物標(biāo)記提取裝置,其特征在于,還包括驗(yàn)證部,比較按所述先后順序排列的子模塊與公知的途徑數(shù)據(jù)庫,而評價(jià)各功能的關(guān)聯(lián)性。
18.一種危害性預(yù)測裝置,其定量在序列上出現(xiàn)的變異數(shù)據(jù)影響基因功能導(dǎo)致的障礙, 其特征在于,包括一危害性計(jì)算部,其在多個(gè)危害性預(yù)測模型上適用所述變異數(shù)據(jù),而獲得各個(gè)危害性后,在所述各個(gè)危害性上適用權(quán)重值,而計(jì)算權(quán)重危害性;一重要性計(jì)算部,其基于所述變異數(shù)據(jù)的頻率,計(jì)算相應(yīng)基因變異的重要性;一分?jǐn)?shù)計(jì)算部,組合所述權(quán)重危害性及所述重要性,而計(jì)算危害性分?jǐn)?shù)。
19.根據(jù)權(quán)利要求18所述的危害性預(yù)測裝置,其特征在于,所述危害性計(jì)算部包括一特征向量產(chǎn)生部,其從所述變異數(shù)據(jù)產(chǎn)生包含多樣的要素的特征向量;一適配器,其在所述產(chǎn)生的特征向量中選出各個(gè)預(yù)測模型所需要素;兩個(gè)以上的預(yù)測模型,輸入所述選出的要素,就能夠在蛋白質(zhì)序列內(nèi)發(fā)現(xiàn)個(gè)別的非同義單核苷酸多態(tài)性;一權(quán)重值適用部,其在所述預(yù)測模型的輸出上適用權(quán)重值進(jìn)行合計(jì)。
20.根據(jù)權(quán)利要求19所述的危害性預(yù)測裝置,其特征在于,所述權(quán)重適用部,將所述預(yù)測模型的輸出正規(guī)化為0至1之間的值后,適用所述權(quán)重值進(jìn)行合計(jì),并將上述合計(jì)的結(jié)果正規(guī)化為0至1之間的值。
21.根據(jù)權(quán)利要求19所述的危害性預(yù)測裝置,其特征在于,所述特征向量,在定位基因變異的基因及蛋白質(zhì)的相應(yīng)位置上氨基酸的各種生物種間的保守性分?jǐn)?shù)、氨基酸取代導(dǎo)致的生物化學(xué)性質(zhì)的變化、蛋白質(zhì)結(jié)構(gòu)特征的變化、有無內(nèi)含子切接點(diǎn)位置、5端非翻譯區(qū)變異位置中,包括兩個(gè)以上。
22.根據(jù)權(quán)利要求19所述的危害性預(yù)測裝置,其特征在于,所述預(yù)測模型,在SIFT、PolyPhen,MAPP中,至少包括一個(gè)。
23.根據(jù)權(quán)利要求18所述的危害性預(yù)測裝置,其特征在于,所述重要性計(jì)算部,根據(jù)相應(yīng)基因變異在疾病群試樣中出現(xiàn)的概率,計(jì)算所述重要性,并且所述概率是最大似然估計(jì)或貝葉斯概率。
24.根據(jù)權(quán)利要求18所述的危害性預(yù)測裝置,其特征在于,所述分?jǐn)?shù)計(jì)算部,在一個(gè)基因內(nèi)基因變異所具有的危害性分?jǐn)?shù)的和,除以所述基因的長度,而求出最終危害性分?jǐn)?shù)。
25.—種生物標(biāo)記提取方法,分析在序列上出現(xiàn)的變異對基因功能導(dǎo)致的變化,而提取成為特定疾病的原因的生物標(biāo)記的方法,其特征在于,包括生物標(biāo)記提取裝置定量由于包含在基因的變異數(shù)據(jù)而在所述基因功能上發(fā)生的障礙, 而求出危害性分?jǐn)?shù)的步驟;所述生物標(biāo)記提取裝置,在基因網(wǎng)絡(luò)中探索所述危害性分?jǐn)?shù)在預(yù)定臨界值以上的基因集合的子模塊的步驟;所述生物標(biāo)記提取裝置決定所述探索的多個(gè)子模塊之間的先后順序的步驟。
26.根據(jù)權(quán)利要求25所述的生物標(biāo)記提取方法,其特征在于,所述決定先后順序的步驟,包括所述生物標(biāo)記提取裝置以所述子模塊所具備的各個(gè)Z分?jǐn)?shù)為準(zhǔn),對具有較高Z分?jǐn)?shù)的子模塊賦予在先順序的步驟。
27.根據(jù)權(quán)利要求25所述的生物標(biāo)記提取方法,其特征在于,還包括,所述生物標(biāo)記提取裝置在公知的蛋白質(zhì)相互作用數(shù)據(jù)庫中合并從求出所述危害性分?jǐn)?shù)的基因表達(dá)的蛋白質(zhì),而形成相互作用網(wǎng)絡(luò)的步驟。
28.根據(jù)權(quán)利要求25所述的生物標(biāo)記提取方法,其特征在于,還包括,所述生物標(biāo)記提取裝置比較按所述先后順序排列的子模塊與公知的途徑數(shù)據(jù)庫,而評價(jià)各功能的關(guān)聯(lián)性的步驟。
29.一種危害性預(yù)測方法,定量在序列上出現(xiàn)的變異數(shù)據(jù)影響基因功能導(dǎo)致的障礙,其特征在于,包括生物標(biāo)記提取裝置從所述變異數(shù)據(jù)產(chǎn)生包含多樣的要素的特征向量的步驟; 所述生物標(biāo)記提取裝置在所述產(chǎn)生的特征向量中選出各個(gè)預(yù)測模型所需要素的步驟;所述生物標(biāo)記提取裝置在輸入所述選出的要素后,提供在蛋白質(zhì)序列內(nèi)個(gè)別的分?jǐn)?shù)的步驟;所述生物標(biāo)記提取裝置在所述預(yù)測模型的輸出上,適用權(quán)重值進(jìn)行合計(jì),而計(jì)算權(quán)重危害性的步驟。
30.根據(jù)權(quán)利要求四所述的危害性預(yù)測方法,其特征在于,所述權(quán)重值是作為學(xué)習(xí)數(shù)據(jù)利用公知疾病基因的變異,而通過經(jīng)驗(yàn)獲得的值。
31.根據(jù)權(quán)利要求19所述的危害性預(yù)測方法,其特征在于,所述獲得權(quán)重危害性的步驟包括,所述生物標(biāo)記提取裝置將所述預(yù)測模型的輸出正規(guī)化為O至1之間的值后,適用所述權(quán)重值進(jìn)行合計(jì),并將所述合計(jì)的結(jié)果正規(guī)化為O至1之間的值的步驟。
32.根據(jù)權(quán)利要求四所述的危害性預(yù)測方法,其特征在于,還包括所述生物標(biāo)記提取裝置基于所述變異數(shù)據(jù)的頻率,計(jì)算相應(yīng)基因變異的重要性的步驟;所述生物標(biāo)記提取裝置組合所述權(quán)重危害性及所述重要性,而計(jì)算危害性分?jǐn)?shù)的步馬聚ο
33.根據(jù)權(quán)利要求32所述的危害性預(yù)測方法,其特征在于,所述重要性計(jì)算步驟包括, 基于最大似然估計(jì)或貝葉斯概率,根據(jù)相應(yīng)基因變異在疾病群試樣中出現(xiàn)的概率,計(jì)算所述重要性的步驟。
34.根據(jù)權(quán)利要求32所述的危害性預(yù)測方法,其特征在于,還包括,所述生物標(biāo)記提取裝置,在一個(gè)基因內(nèi)基因變異所具備的危害性分?jǐn)?shù)的和,除以所述基因的長度,而求出最終危害性分?jǐn)?shù)的步驟。
全文摘要
本發(fā)明涉及一種生物信息學(xué)技術(shù),尤其涉及一種基于在序列上出現(xiàn)的變異對基因功能導(dǎo)致的危害性的分析,提取可靠性更高的生物標(biāo)記的裝置及其方法。分析在序列上出現(xiàn)的變異對基因功能導(dǎo)致的變化,并提取成為特定疾病的原因的生物標(biāo)記的生物標(biāo)記提取裝置,其包括一預(yù)處理部,其分析基因試樣的序列,提取在基因上定位的變異數(shù)據(jù);一危害性預(yù)測器,定量由于上述變異數(shù)據(jù)在上述基因功能上發(fā)生的障礙,而求出危害性分?jǐn)?shù);一模塊化部,在基因網(wǎng)絡(luò),探索上述危害性分?jǐn)?shù)在所定臨界值以上的基因集合的子模塊。
文檔編號G06F19/18GK102542179SQ20111034275
公開日2012年7月4日 申請日期2011年10月27日 優(yōu)先權(quán)日2010年10月27日
發(fā)明者宣忠賢, 尹泓皙, 樸仁鎬 申請人:三星Sds株式會社