一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng),在實現(xiàn)知識挖掘的基礎(chǔ)上,創(chuàng)立了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,并較好地完成了知識挖掘與知識導(dǎo)航功能的整合。其技術(shù)方案為:本發(fā)明將知識挖掘型乙肝專題文獻數(shù)據(jù)庫的文本挖掘字典同乙肝病毒蛋白本體進行關(guān)聯(lián)整合,并通過該關(guān)聯(lián)整合,構(gòu)建出一個應(yīng)用于乙肝蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航系統(tǒng),并完成基于乙肝病毒蛋白本體的知識導(dǎo)航功能。
【專利說明】
一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及知識導(dǎo)航技術(shù),尤其涉及能夠提供基于病毒蛋白本體的知識導(dǎo)航服務(wù)的技術(shù)。
【背景技術(shù)】
[0002]本體的一個普遍公認的概念定義為:共享概念模型的、明確的、形式化的規(guī)范說明[Studer R, Benjamins VR, Fensel D.Knowledge engineering, principles and methods.Data and Knowledge engineering[J],1998,25],從該定義可以看出本體主要包含了 4重含義:共享、概念模型、明確和形式化。簡單的講,就是用了描述一個領(lǐng)域內(nèi)甚至更廣的范圍內(nèi)的概念以及概念之間的關(guān)系,從而形成大家公認的,明確的概念以及關(guān)系的定義,進而實現(xiàn)人機以及計算機之間的交流[杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述.軟件學(xué)報[J], 2006, (9):1837-1847]ο
[0003]隨著各學(xué)科領(lǐng)域?qū)Ρ倔w的深入研究,各領(lǐng)域本體的研究構(gòu)建也正在迅速的趨于成熟。本體作為能在語義和知識層次上描述系統(tǒng)的概念模型,其目的是在于以一種通用的方式來獲取領(lǐng)域中的知識,提供對領(lǐng)域概念的共同一致的理解,從而實現(xiàn)知識在不同的應(yīng)用程序和組織之間的共享和重復(fù)利用,本體是某一領(lǐng)域中的術(shù)語及術(shù)語之間關(guān)系的規(guī)范說明,目前基于本體的應(yīng)用目的主要是針對知識組織管理,語義網(wǎng)絡(luò)和人工智能等方面[劉耀,穗志方.領(lǐng)域ontology概念描述體系構(gòu)建方法探析.大學(xué)圖書館學(xué)報[J],2006, (5):28-33]。在生命科學(xué)領(lǐng)域,生物學(xué)不同研究領(lǐng)域的本體在不斷被研發(fā)、構(gòu)建和相繼出現(xiàn),如基因本體(Gene Ontology) [Gene ontology tool for the unificat1nof b1logy.Gene Ontology Consortium]、蛋白本體(Protein Ontology) [Darren ANatale, Cecilia N Arighi, Winona C Barker, Judith Blake, T1-Cheng Chang, ZhangzhiHu, Hongfang Liu, Barry Smith and Cathy H ffu.Framework for a Protein Ontology.BMC B1informatics[J]2007, 8(Suppl9):SI]> 序列本體(Sequence Ontology) [KarenEilbeck and Suzanna E.Lewis.Sequence Ontology Annotat1n Guide.Comparativeand Funct1nal Genomics Volume [J],2004,5,(8): 642-647]以及疾病本體(DiseaseOntology)[Pan Du, Gang Feng, Jared Flatow, Jie Song, Michelle Holko, Warren A.Kibbeand Simon M.Lin.From disease ontology to disease-ontology lite:statisticalmethods to adapt a general-purpose ontology for the test of gene—ontologyassociat1ns.B1Informatics [J], 2009, 25 (12)]等等,這些都推動了生物學(xué)領(lǐng)域本體的發(fā)展。將本體應(yīng)用到信息整合與知識挖掘過程中,不僅能夠很好的對知識進行組織分類和導(dǎo)航,而且能夠更好地引導(dǎo)用戶進行信息的檢索分析[陳霞,魏玲玲,邱桃榮,劉萍.基于本體論的關(guān)聯(lián)規(guī)則的挖掘.計算機與數(shù)字工程,2007,(2):32-34]。此外,本體為專業(yè)領(lǐng)域提供了一套共享的規(guī)范說明,使其術(shù)語達到了領(lǐng)域共識,因而能夠更好地實現(xiàn)知識的組織、管理、導(dǎo)航、發(fā)現(xiàn)與抽取,提高知識的挖掘質(zhì)量與效率[邢平平,施鵬飛,趙奕.基于本體論的數(shù)據(jù)挖掘方法.計算機工程,2001,(5)]。就目前研究現(xiàn)狀而言,在生命科學(xué)領(lǐng)域,將本體應(yīng)用到知識組織管理與導(dǎo)航的技術(shù)在國外已有過一些報道,而在國內(nèi)幾乎還是個空白。一個比較有名的例子是,由德國Transinsight公司和德累斯頓技術(shù)大學(xué)的生物信息集團合作,將本體同信息整合和數(shù)據(jù)挖掘相整合,聯(lián)合開發(fā)了一個比較新的信息檢索技術(shù):GOPubMed[Heiko Dietze, Dimitra Alexopoulou, Michael R.Alvers, LilianaBarr1-Alversj Bill Andreopoulosj Andreas Domsj J0..rg Hakenbergj Jan M0..nnich,Conrad Plakej Andreas Reischuckj Lo1..c Royer, Thomas Wa..chter,MatthiasZschunkej and Michael Schroeder.GoPubMed:Exploring PubMed with OntologicalBackground Knowledge.B1informatics for Systems B1logy [J],2009,PartV,385-399]。它是一種基于GO(基因本體)和MeSH(醫(yī)學(xué)主題詞表)的檢索技術(shù),其將PubMed的檢索結(jié)果返回到GOPubMed中,通過語義智能檢索,將結(jié)果按GO和MeSH進行分類,形成臨時GO和臨時MeSH,最終將用戶檢索結(jié)果形成可視化的知識分類導(dǎo)航,從而提高了用戶的檢索效率[張士靖,杜建.GOPubMed:基于GO和MeSH的信息檢索與分析研究.醫(yī)學(xué)信息學(xué)雜志[J],2009,30,(7):6-11 ;李健康.專業(yè)化的語義智能搜索引擎GoPubMed.圖書館論壇[J], 2009, (6):152-154]。
[0004]從以往本體相關(guān)技術(shù)的了解中可知,現(xiàn)有的基于本體的知識導(dǎo)航技術(shù)一個缺陷就是,知識挖掘與知識導(dǎo)航?jīng)]有很好整合。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于解決上述問題,提供了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng),在實現(xiàn)知識挖掘的基礎(chǔ)上,創(chuàng)立了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,并較好地完成了知識挖掘與知識導(dǎo)航功能的整合。
[0006]本發(fā)明的技術(shù)方案為:本發(fā)明揭示了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,包括病毒知識挖掘的流程以及專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航流程,其中:
[0007]病毒知識挖掘的流程進一步包括:
[0008]構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫;
[0009]以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù),以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰;
[0010]根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫;
[0011]專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航流程包括:
[0012]提取病毒相關(guān)術(shù)語;
[0013]確立病毒相關(guān)術(shù)語間的關(guān)系;
[0014]構(gòu)建病毒蛋白本體,將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合,并通過整合關(guān)聯(lián),構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航,完成基于病毒蛋白本體的知識導(dǎo)航。
[0015]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例,在生成專題文獻知識數(shù)據(jù)倉庫的步驟之后還包括:
[0016]去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息,去除假陽性蛋白質(zhì)挖掘結(jié)果。
[0017]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合,實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0018]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例,提取病毒相關(guān)術(shù)語的步驟包括:
[0019]通過對病毒生活史的學(xué)習(xí)和理解,從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋,并對這些詞匯及蛋白質(zhì)名詞進行整理分類,劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0020]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例,確立病毒相關(guān)術(shù)語間的關(guān)系的步驟包括:
[0021]通過學(xué)習(xí)與理解,分析提取出的術(shù)語間存在的屬性關(guān)系,并最終確定具有代表性的關(guān)系屬性。
[0022]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例,構(gòu)建病毒蛋白本體的步驟包括:
[0023]將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合,構(gòu)建出一個蛋白本體框架,并最終通過反復(fù)分析修改更正來完善該本體。
[0024]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例,病毒是乙肝病毒,專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫,蛋白本體是乙肝蛋白本體。
[0025]本發(fā)明還揭示了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,包括病毒知識挖掘模塊以及專題文獻數(shù)據(jù)庫中的蛋白質(zhì)挖掘和發(fā)現(xiàn)模塊,其中:
[0026]病毒知識挖掘模塊包括:
[0027]數(shù)據(jù)庫構(gòu)建單元,構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫;
[0028]翻譯編撰單元,以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù),以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰;
[0029]數(shù)據(jù)倉庫生成單元,根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫;
[0030]專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航模塊包括:
[0031]術(shù)語提取單元,提取病毒相關(guān)術(shù)語;
[0032]關(guān)系確立單元,確立病毒相關(guān)術(shù)語間的關(guān)系;
[0033]本體構(gòu)建單元,構(gòu)建病毒蛋白本體,將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合,并通過整合關(guān)聯(lián),構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航,完成基于病毒蛋白本體的知識導(dǎo)航。
[0034]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例,病毒知識挖掘模塊還包括:
[0035]非法信息去除單元,去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息,去除假陽性蛋白質(zhì)挖掘結(jié)果。
[0036]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例,翻譯編撰單元進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合,實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0037]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例,術(shù)語提取單元通過對病毒生活史的學(xué)習(xí)和理解,從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋,并對這些詞匯及蛋白質(zhì)名詞進行整理分類,劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0038]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例,關(guān)系確立單元通過學(xué)習(xí)與理解,分析提取出的術(shù)語間存在的屬性關(guān)系,并最終確定具有代表性的關(guān)系屬性。
[0039]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例,本體構(gòu)建單元將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合,構(gòu)建出一個蛋白本體框架,并最終通過反復(fù)分析修改更正來完善該本體。
[0040]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例,病毒是乙肝病毒,專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫,蛋白本體是乙肝蛋白本體。
[0041]本發(fā)明還揭示了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng),包括專題文獻服務(wù)器、病毒本體庫服務(wù)器、web服務(wù)器和查詢請求解釋器、以及查詢請求終端,其中:
[0042]查詢請求終端,接收用戶請求;
[0043]web服務(wù)器和查詢請求解釋器,接收用戶請求,通過查詢請求解釋器將用戶請求進行規(guī)范化處理;
[0044]病毒本體庫服務(wù)器,存放病毒本體構(gòu)建和管理程序以及構(gòu)建好的病毒本體庫;
[0045]專題文獻服務(wù)器,存放專題文獻數(shù)據(jù)庫及文獻處理程序和管理程序。
[0046]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的一實施例,查詢請求終端的查詢方式有關(guān)鍵詞請求和本體庫知識導(dǎo)航目錄查詢。
[0047]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的一實施例,病毒是乙肝病毒,專題文獻數(shù)據(jù)庫是乙肝專題文獻數(shù)據(jù)庫。
[0048]本發(fā)明對比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明將知識挖掘型乙肝專題文獻數(shù)據(jù)庫的文本挖掘字典同乙肝病毒蛋白本體進行關(guān)聯(lián)整合,并通過該關(guān)聯(lián)整合,構(gòu)建出一個應(yīng)用于乙肝蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航系統(tǒng),并完成基于乙肝病毒蛋白本體的知識導(dǎo)航功能。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的優(yōu)點:
[0049]①通過基于病毒蛋白本體的知識導(dǎo)航服務(wù),讀者可較為迅速及準確地獲得所需信息及文獻。
[0050]②本發(fā)明與知識挖掘技術(shù)相結(jié)合,通過病毒蛋白本體中的術(shù)語,能在數(shù)據(jù)庫的檢索服務(wù)中,為用戶提供更加準確的檢索結(jié)果,以方便用戶的知識獲取與檢索效率。
[0051]③將病毒蛋白本體的概念應(yīng)用到文獻情報數(shù)據(jù)庫的信息整合與知識挖掘中,可在一定程度上減少在進行知識挖掘時產(chǎn)生的“假陽性”問題,提高知識挖掘的質(zhì)量與效率。
[0052]④通過將病毒蛋白本體引入到文獻檢索中,使得檢索結(jié)果不再單一化,而具有其內(nèi)在的知識結(jié)構(gòu)。
[0053]⑤基于病毒蛋白本體的知識導(dǎo)航系統(tǒng)的設(shè)計,可避免該研究領(lǐng)域在術(shù)語詞匯定義中的混亂問題。
[0054]⑥使知識挖掘與知識導(dǎo)航功能整合得更為完美。
【專利附圖】
【附圖說明】
[0055]圖1示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的較佳實施例的流程圖。
[0056]圖2示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的流程示意圖。
[0057]圖3示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的較佳實施例的原理圖。
[0058]圖4示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的較佳實施例的結(jié)構(gòu)框圖。
【具體實施方式】
[0059]下面結(jié)合附圖和實施例對本發(fā)明作進一步的描述。
_0] 基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的實施例
[0061]圖1和圖2示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的較佳實施例的流程,請同時參見圖1和圖2,本實施例的知識導(dǎo)航方法包括病毒知識挖掘的流程(步驟S1- S4)以及專題文獻數(shù)據(jù)庫中的病毒蛋白本體構(gòu)建及知識導(dǎo)航的流程(步驟S5 - S7),其實施步驟詳述如下。
[0062]步驟S1:構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(來源于國外的全英文數(shù)據(jù)庫)。
[0063]步驟S2:以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù),以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰。
[0064]進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰的目的是使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合,實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0065]步驟S3:根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫。
[0066]步驟S4:去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息,去除假陽性蛋白質(zhì)挖掘結(jié)果。這是一個可選步驟。
[0067]步驟S5:提取病毒相關(guān)術(shù)語。
[0068]通過對病毒生活史的學(xué)習(xí)和理解,從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋,并對這些詞匯及蛋白質(zhì)名詞進行整理分類,劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0069]步驟S6:確立病毒相關(guān)術(shù)語間的關(guān)系。
[0070]通過學(xué)習(xí)與理解,分析提取出的術(shù)語間存在的屬性關(guān)系,并最終確定具有代表性的關(guān)系屬性。
[0071]步驟S7:構(gòu)建病毒蛋白本體,將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合,構(gòu)建出一個蛋白本體框架,并最終通過反復(fù)分析修改更正來完善該本體。
[0072]將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合,并通過整合關(guān)聯(lián),構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航,完成基于病毒蛋白本體的知識導(dǎo)航。
[0073]在本發(fā)明中,病毒是乙肝病毒,專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫,蛋白本體是乙肝蛋白本體。
[0074]基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的實施例
[0075]圖3示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的較佳實施例的原理,請參見圖3,本實施例的知識導(dǎo)航裝置包括病毒知識挖掘模塊I以及專題文獻數(shù)據(jù)庫中的病毒蛋白本體構(gòu)建及知識導(dǎo)航模塊2。
[0076]病毒知識挖掘模塊I包括數(shù)據(jù)庫構(gòu)建單元11、翻譯編撰單元12、數(shù)據(jù)倉庫生成單元13、以及非法信息去除單元14 (可選單元)。
[0077]數(shù)據(jù)庫構(gòu)建單元11構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫。
[0078]翻譯編撰單元12以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù),以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰,目的是使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合,實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0079]數(shù)據(jù)倉庫生成單元13根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫。
[0080]非法信息去除單元14去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息,去除假陽性蛋白質(zhì)挖掘結(jié)果。
[0081]專題文獻數(shù)據(jù)庫中的病毒蛋白本體構(gòu)建及知識導(dǎo)航模塊2包括術(shù)語提取單元21、關(guān)系確立單元22、本體構(gòu)建單元23。
[0082]術(shù)語提取單元21提取病毒相關(guān)術(shù)語,通過對病毒生活史的學(xué)習(xí)和理解,從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋,并對這些詞匯及蛋白質(zhì)名詞進行整理分類,劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0083]關(guān)系確立單元22確立病毒相關(guān)術(shù)語間的關(guān)系,通過學(xué)習(xí)與理解,分析提取出的術(shù)語間存在的屬性關(guān)系,并最終確定具有代表性的關(guān)系屬性。
[0084]本體構(gòu)建單元23構(gòu)建病毒蛋白本體,將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合,構(gòu)建出一個蛋白本體框架,并最終通過反復(fù)分析修改更正來完善該本體。將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合,并通過整合關(guān)聯(lián),構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航,完成基于病毒蛋白本體的知識導(dǎo)航。
[0085]在本實施例中,病毒是乙肝病毒,專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫,蛋白本體是乙肝蛋白本體。
[0086]基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的實施例
[0087]圖4示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的較佳實施例的結(jié)構(gòu),請參見圖4,本實施例的系統(tǒng)包括專題文獻服務(wù)器3、病毒本體庫服務(wù)器4、web服務(wù)器和查詢請求解釋器5、以及查詢請求終端6。
[0088]查詢請求終端6接收用戶請求。查詢請求終端6的查詢方式有關(guān)鍵詞請求和本體庫知識導(dǎo)航目錄查詢。
[0089]web服務(wù)器和查詢請求解釋器5接收用戶請求,通過查詢請求解釋器將用戶請求進行規(guī)范化處理(如通過同義詞典將用戶請求轉(zhuǎn)化為標準化的本體名稱,自動更正錯別字,自動將用空格分隔的關(guān)鍵詞連接為組合的查詢條件等)。
[0090]病毒本體庫服務(wù)器4存放病毒本體構(gòu)建和管理程序以及構(gòu)建好的病毒本體庫。
[0091]專題文獻服務(wù)器3存放專題文獻數(shù)據(jù)庫及文獻處理(知識挖掘)程序和管理程序。
[0092]在本實施例中,病毒是乙肝病毒,專題文獻數(shù)據(jù)庫是乙肝專題文獻數(shù)據(jù)庫。
[0093]上述實施例是提供給本領(lǐng)域普通技術(shù)人員來實現(xiàn)和使用本發(fā)明的,本領(lǐng)域普通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想的情況下,對上述實施例做出種種修改或變化,因而本發(fā)明的保護范圍并不被上述實施例所限,而應(yīng)該是符合權(quán)利要求書所提到的創(chuàng)新性特征的最大范圍。
【權(quán)利要求】
1.一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,包括病毒知識挖掘的流程以及專題文獻數(shù)據(jù)庫中的蛋白質(zhì)挖掘和發(fā)現(xiàn)的流程,其中: 病毒知識挖掘的流程進一步包括: 構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫; 以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù),以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編4-05?共; 根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫; 專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體的構(gòu)建及知識導(dǎo)航流程包括: 提取病毒相關(guān)術(shù)語; 確立病毒相關(guān)術(shù)語間的關(guān)系; 構(gòu)建病毒蛋白本體,將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合,并通過整合關(guān)聯(lián),構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航,完成基于病毒蛋白本體的知識導(dǎo)航功能。
2.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,其特征在于,在生成專題文獻知識數(shù)據(jù)倉庫的步驟之后還包括: 去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息,去除假陽性蛋白質(zhì)挖掘結(jié)果。
3.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,其特征在于,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合,實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本的挖掘和標注。
4.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,其特征在于,提取病毒相關(guān)術(shù)語的步驟包括: 通過對病毒生活史的學(xué)習(xí)和理解,從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋,并對這些詞匯及蛋白質(zhì)名詞進行整理分類,劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
5.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,其特征在于,確立病毒相關(guān)術(shù)語間的關(guān)系的步驟包括: 通過學(xué)習(xí)與理解,分析提取出的術(shù)語間存在的屬性關(guān)系,并最終確定具有代表性的關(guān)系屬性。
6.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,其特征在于,構(gòu)建病毒蛋白本體的步驟包括: 將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合,構(gòu)建出一個蛋白本體框架,并最終通過反復(fù)分析修改更正來完善該本體。
7.根據(jù)權(quán)利要求1一 6中任一項所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法,其特征在于,病毒是乙肝病毒,專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫,蛋白本體是乙肝病毒蛋白本體。
8.一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,包括病毒知識挖掘模塊以及專題文獻數(shù)據(jù)庫中的蛋白質(zhì)挖掘和發(fā)現(xiàn)模塊,其中: 病毒知識挖掘模塊包括: 數(shù)據(jù)庫構(gòu)建單元,構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫; 翻譯編撰單元,以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù),以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象,進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰; 數(shù)據(jù)倉庫生成單元,根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫; 專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航模塊包括: 術(shù)語提取單元,提取病毒相關(guān)術(shù)語; 關(guān)系確立單元,確立病毒相關(guān)術(shù)語間的關(guān)系; 本體構(gòu)建單元,構(gòu)建病毒蛋白本體,將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合,并通過整合關(guān)聯(lián),構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航,完成基于病毒蛋白本體的知識導(dǎo)航。
9.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,其特征在于,病毒知識挖掘模塊還包括: 非法信息去除單元,去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息,去除假陽性蛋白質(zhì)挖掘結(jié)果。
10.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,其特征在于,翻譯編撰單元進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合,實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
11.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,其特征在于,術(shù)語提取單元通過對病毒生活史的學(xué)習(xí)和理解,從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋,并對這些詞匯及蛋白質(zhì)名詞進行整理分類,劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
12.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,其特征在于,關(guān)系確立單元通過學(xué)習(xí)與理解,分析提取出的術(shù)語間存在的屬性關(guān)系,并最終確定具有代表性的關(guān)系屬性。
13.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,其特征在于,本體構(gòu)建單元將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合,構(gòu)建出一個蛋白本體框架,并最終通過反復(fù)分析修改更正來完善該本體。
14.根據(jù)權(quán)利要求8— 13中任一項所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置,其特征在于,病毒是乙肝病毒,專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫,蛋白本體是乙肝病毒蛋白本體。
15.一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng),包括專題文獻服務(wù)器、病毒本體庫服務(wù)器、服務(wù)器和查詢請求解釋器、以及查詢請求終端,其中: 查詢請求終端,接收用戶請求; 服務(wù)器和查詢請求解釋器,接收用戶請求,通過查詢請求解釋器將用戶請求進行規(guī)范化處理; 病毒本體庫服務(wù)器,存放病毒本體構(gòu)建和管理程序以及構(gòu)建好的病毒本體庫; 專題文獻服務(wù)器,存放專題文獻數(shù)據(jù)庫及文獻處理程序和管理程序。
16.根據(jù)權(quán)利要求15所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng),其特征在于,查詢請求終端的查詢方式有關(guān)鍵詞請求和本體庫知識導(dǎo)航目錄查詢。
17.根據(jù)權(quán)利要求15— 16中任一項所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng),其特征在于,病毒是乙肝病毒,專題文獻數(shù)據(jù)庫是乙肝專題文獻數(shù)據(jù)庫。
【文檔編號】G06F19/28GK104424399SQ201310391096
【公開日】2015年3月18日 申請日期:2013年8月30日 優(yōu)先權(quán)日:2013年8月30日
【發(fā)明者】陳恒, 張珅, 趙 衍, 張永娟, 陳成材 申請人:中國科學(xué)院上海生命科學(xué)研究院