一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)的制作方法

文檔序號：6509790閱讀：244來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)，在實現(xiàn)知識挖掘的基礎(chǔ)上，創(chuàng)立了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，并較好地完成了知識挖掘與知識導(dǎo)航功能的整合。其技術(shù)方案為：本發(fā)明將知識挖掘型乙肝專題文獻數(shù)據(jù)庫的文本挖掘字典同乙肝病毒蛋白本體進行關(guān)聯(lián)整合，并通過該關(guān)聯(lián)整合，構(gòu)建出一個應(yīng)用于乙肝蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航系統(tǒng)，并完成基于乙肝病毒蛋白本體的知識導(dǎo)航功能。
【專利說明】
一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及知識導(dǎo)航技術(shù)，尤其涉及能夠提供基于病毒蛋白本體的知識導(dǎo)航服務(wù)的技術(shù)。

【背景技術(shù)】
[0002]本體的一個普遍公認的概念定義為:共享概念模型的、明確的、形式化的規(guī)范說明[Studer R, Benjamins VR, Fensel D.Knowledge engineering, principles and methods.Data and Knowledge engineering[J]，1998，25],從該定義可以看出本體主要包含了 4重含義:共享、概念模型、明確和形式化。簡單的講，就是用了描述一個領(lǐng)域內(nèi)甚至更廣的范圍內(nèi)的概念以及概念之間的關(guān)系，從而形成大家公認的，明確的概念以及關(guān)系的定義，進而實現(xiàn)人機以及計算機之間的交流[杜小勇，李曼，王珊.本體學(xué)習(xí)研究綜述.軟件學(xué)報[J], 2006, (9):1837-1847]ο
[0003]隨著各學(xué)科領(lǐng)域?qū)Ρ倔w的深入研究，各領(lǐng)域本體的研究構(gòu)建也正在迅速的趨于成熟。本體作為能在語義和知識層次上描述系統(tǒng)的概念模型，其目的是在于以一種通用的方式來獲取領(lǐng)域中的知識，提供對領(lǐng)域概念的共同一致的理解，從而實現(xiàn)知識在不同的應(yīng)用程序和組織之間的共享和重復(fù)利用，本體是某一領(lǐng)域中的術(shù)語及術(shù)語之間關(guān)系的規(guī)范說明，目前基于本體的應(yīng)用目的主要是針對知識組織管理，語義網(wǎng)絡(luò)和人工智能等方面[劉耀，穗志方.領(lǐng)域ontology概念描述體系構(gòu)建方法探析.大學(xué)圖書館學(xué)報[J],2006, (5):28-33]。在生命科學(xué)領(lǐng)域，生物學(xué)不同研究領(lǐng)域的本體在不斷被研發(fā)、構(gòu)建和相繼出現(xiàn)，如基因本體(Gene Ontology) [Gene ontology tool for the unificat1nof b1logy.Gene Ontology Consortium]、蛋白本體(Protein Ontology) [Darren ANatale, Cecilia N Arighi, Winona C Barker, Judith Blake, T1-Cheng Chang, ZhangzhiHu, Hongfang Liu, Barry Smith and Cathy H ffu.Framework for a Protein Ontology.BMC B1informatics[J]2007, 8(Suppl9):SI]> 序列本體(Sequence Ontology) [KarenEilbeck and Suzanna E.Lewis.Sequence Ontology Annotat1n Guide.Comparativeand Funct1nal Genomics Volume [J]，2004，5，(8): 642-647]以及疾病本體(DiseaseOntology)[Pan Du, Gang Feng, Jared Flatow, Jie Song, Michelle Holko, Warren A.Kibbeand Simon M.Lin.From disease ontology to disease-ontology lite:statisticalmethods to adapt a general-purpose ontology for the test of gene—ontologyassociat1ns.B1Informatics [J], 2009, 25 (12)]等等,這些都推動了生物學(xué)領(lǐng)域本體的發(fā)展。將本體應(yīng)用到信息整合與知識挖掘過程中，不僅能夠很好的對知識進行組織分類和導(dǎo)航，而且能夠更好地引導(dǎo)用戶進行信息的檢索分析[陳霞，魏玲玲，邱桃榮，劉萍.基于本體論的關(guān)聯(lián)規(guī)則的挖掘.計算機與數(shù)字工程，2007，(2):32-34]。此外，本體為專業(yè)領(lǐng)域提供了一套共享的規(guī)范說明，使其術(shù)語達到了領(lǐng)域共識，因而能夠更好地實現(xiàn)知識的組織、管理、導(dǎo)航、發(fā)現(xiàn)與抽取，提高知識的挖掘質(zhì)量與效率[邢平平，施鵬飛，趙奕.基于本體論的數(shù)據(jù)挖掘方法.計算機工程，2001，(5)]。就目前研究現(xiàn)狀而言，在生命科學(xué)領(lǐng)域，將本體應(yīng)用到知識組織管理與導(dǎo)航的技術(shù)在國外已有過一些報道，而在國內(nèi)幾乎還是個空白。一個比較有名的例子是，由德國Transinsight公司和德累斯頓技術(shù)大學(xué)的生物信息集團合作，將本體同信息整合和數(shù)據(jù)挖掘相整合，聯(lián)合開發(fā)了一個比較新的信息檢索技術(shù):GOPubMed[Heiko Dietze, Dimitra Alexopoulou, Michael R.Alvers, LilianaBarr1-Alversj Bill Andreopoulosj Andreas Domsj J0..rg Hakenbergj Jan M0..nnich，Conrad Plakej Andreas Reischuckj Lo1..c Royer, Thomas Wa..chter，MatthiasZschunkej and Michael Schroeder.GoPubMed:Exploring PubMed with OntologicalBackground Knowledge.B1informatics for Systems B1logy [J],2009，PartV，385-399]。它是一種基于GO(基因本體)和MeSH(醫(yī)學(xué)主題詞表)的檢索技術(shù)，其將PubMed的檢索結(jié)果返回到GOPubMed中，通過語義智能檢索，將結(jié)果按GO和MeSH進行分類，形成臨時GO和臨時MeSH，最終將用戶檢索結(jié)果形成可視化的知識分類導(dǎo)航，從而提高了用戶的檢索效率[張士靖，杜建.GOPubMed:基于GO和MeSH的信息檢索與分析研究.醫(yī)學(xué)信息學(xué)雜志[J]，2009，30，(7):6-11 ;李健康.專業(yè)化的語義智能搜索引擎GoPubMed.圖書館論壇[J], 2009, (6):152-154]。
[0004]從以往本體相關(guān)技術(shù)的了解中可知，現(xiàn)有的基于本體的知識導(dǎo)航技術(shù)一個缺陷就是，知識挖掘與知識導(dǎo)航?jīng)]有很好整合。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于解決上述問題，提供了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)，在實現(xiàn)知識挖掘的基礎(chǔ)上，創(chuàng)立了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，并較好地完成了知識挖掘與知識導(dǎo)航功能的整合。
[0006]本發(fā)明的技術(shù)方案為:本發(fā)明揭示了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，包括病毒知識挖掘的流程以及專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航流程，其中:
[0007]病毒知識挖掘的流程進一步包括:
[0008]構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；
[0009]以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù)，以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰；
[0010]根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫；
[0011]專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航流程包括:
[0012]提取病毒相關(guān)術(shù)語；
[0013]確立病毒相關(guān)術(shù)語間的關(guān)系；
[0014]構(gòu)建病毒蛋白本體，將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合，并通過整合關(guān)聯(lián)，構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航，完成基于病毒蛋白本體的知識導(dǎo)航。
[0015]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例，在生成專題文獻知識數(shù)據(jù)倉庫的步驟之后還包括:
[0016]去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息，去除假陽性蛋白質(zhì)挖掘結(jié)果。
[0017]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合，實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0018]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例，提取病毒相關(guān)術(shù)語的步驟包括:
[0019]通過對病毒生活史的學(xué)習(xí)和理解，從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋，并對這些詞匯及蛋白質(zhì)名詞進行整理分類，劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0020]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例，確立病毒相關(guān)術(shù)語間的關(guān)系的步驟包括:
[0021]通過學(xué)習(xí)與理解，分析提取出的術(shù)語間存在的屬性關(guān)系，并最終確定具有代表性的關(guān)系屬性。
[0022]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例，構(gòu)建病毒蛋白本體的步驟包括:
[0023]將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合，構(gòu)建出一個蛋白本體框架，并最終通過反復(fù)分析修改更正來完善該本體。
[0024]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的一實施例，病毒是乙肝病毒，專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫，蛋白本體是乙肝蛋白本體。
[0025]本發(fā)明還揭示了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，包括病毒知識挖掘模塊以及專題文獻數(shù)據(jù)庫中的蛋白質(zhì)挖掘和發(fā)現(xiàn)模塊，其中:
[0026]病毒知識挖掘模塊包括:
[0027]數(shù)據(jù)庫構(gòu)建單元，構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；
[0028]翻譯編撰單元，以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù)，以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰；
[0029]數(shù)據(jù)倉庫生成單元，根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫；
[0030]專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航模塊包括:
[0031]術(shù)語提取單元，提取病毒相關(guān)術(shù)語；
[0032]關(guān)系確立單元，確立病毒相關(guān)術(shù)語間的關(guān)系；
[0033]本體構(gòu)建單元，構(gòu)建病毒蛋白本體，將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合，并通過整合關(guān)聯(lián)，構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航，完成基于病毒蛋白本體的知識導(dǎo)航。
[0034]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例，病毒知識挖掘模塊還包括:
[0035]非法信息去除單元，去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息，去除假陽性蛋白質(zhì)挖掘結(jié)果。
[0036]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例，翻譯編撰單元進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合，實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0037]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例，術(shù)語提取單元通過對病毒生活史的學(xué)習(xí)和理解，從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋，并對這些詞匯及蛋白質(zhì)名詞進行整理分類，劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0038]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例，關(guān)系確立單元通過學(xué)習(xí)與理解，分析提取出的術(shù)語間存在的屬性關(guān)系，并最終確定具有代表性的關(guān)系屬性。
[0039]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例，本體構(gòu)建單元將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合，構(gòu)建出一個蛋白本體框架，并最終通過反復(fù)分析修改更正來完善該本體。
[0040]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的一實施例，病毒是乙肝病毒，專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫，蛋白本體是乙肝蛋白本體。
[0041]本發(fā)明還揭示了一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)，包括專題文獻服務(wù)器、病毒本體庫服務(wù)器、web服務(wù)器和查詢請求解釋器、以及查詢請求終端，其中:
[0042]查詢請求終端，接收用戶請求；
[0043]web服務(wù)器和查詢請求解釋器，接收用戶請求，通過查詢請求解釋器將用戶請求進行規(guī)范化處理；
[0044]病毒本體庫服務(wù)器，存放病毒本體構(gòu)建和管理程序以及構(gòu)建好的病毒本體庫；
[0045]專題文獻服務(wù)器，存放專題文獻數(shù)據(jù)庫及文獻處理程序和管理程序。
[0046]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的一實施例，查詢請求終端的查詢方式有關(guān)鍵詞請求和本體庫知識導(dǎo)航目錄查詢。
[0047]根據(jù)本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的一實施例，病毒是乙肝病毒，專題文獻數(shù)據(jù)庫是乙肝專題文獻數(shù)據(jù)庫。
[0048]本發(fā)明對比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明將知識挖掘型乙肝專題文獻數(shù)據(jù)庫的文本挖掘字典同乙肝病毒蛋白本體進行關(guān)聯(lián)整合，并通過該關(guān)聯(lián)整合，構(gòu)建出一個應(yīng)用于乙肝蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航系統(tǒng)，并完成基于乙肝病毒蛋白本體的知識導(dǎo)航功能。與現(xiàn)有技術(shù)相比，本發(fā)明具有如下的優(yōu)點:
[0049]①通過基于病毒蛋白本體的知識導(dǎo)航服務(wù)，讀者可較為迅速及準確地獲得所需信息及文獻。
[0050]②本發(fā)明與知識挖掘技術(shù)相結(jié)合，通過病毒蛋白本體中的術(shù)語，能在數(shù)據(jù)庫的檢索服務(wù)中，為用戶提供更加準確的檢索結(jié)果，以方便用戶的知識獲取與檢索效率。
[0051]③將病毒蛋白本體的概念應(yīng)用到文獻情報數(shù)據(jù)庫的信息整合與知識挖掘中，可在一定程度上減少在進行知識挖掘時產(chǎn)生的“假陽性”問題，提高知識挖掘的質(zhì)量與效率。
[0052]④通過將病毒蛋白本體引入到文獻檢索中，使得檢索結(jié)果不再單一化，而具有其內(nèi)在的知識結(jié)構(gòu)。
[0053]⑤基于病毒蛋白本體的知識導(dǎo)航系統(tǒng)的設(shè)計，可避免該研究領(lǐng)域在術(shù)語詞匯定義中的混亂問題。
[0054]⑥使知識挖掘與知識導(dǎo)航功能整合得更為完美。

【專利附圖】

【附圖說明】
[0055]圖1示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的較佳實施例的流程圖。
[0056]圖2示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的流程示意圖。
[0057]圖3示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的較佳實施例的原理圖。
[0058]圖4示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的較佳實施例的結(jié)構(gòu)框圖。

【具體實施方式】
[0059]下面結(jié)合附圖和實施例對本發(fā)明作進一步的描述。
_0] 基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的實施例
[0061]圖1和圖2示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法的較佳實施例的流程，請同時參見圖1和圖2，本實施例的知識導(dǎo)航方法包括病毒知識挖掘的流程(步驟S1- S4)以及專題文獻數(shù)據(jù)庫中的病毒蛋白本體構(gòu)建及知識導(dǎo)航的流程(步驟S5 - S7)，其實施步驟詳述如下。
[0062]步驟S1:構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(來源于國外的全英文數(shù)據(jù)庫)。
[0063]步驟S2:以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù)，以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰。
[0064]進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰的目的是使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合，實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0065]步驟S3:根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫。
[0066]步驟S4:去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息，去除假陽性蛋白質(zhì)挖掘結(jié)果。這是一個可選步驟。
[0067]步驟S5:提取病毒相關(guān)術(shù)語。
[0068]通過對病毒生活史的學(xué)習(xí)和理解，從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋，并對這些詞匯及蛋白質(zhì)名詞進行整理分類，劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0069]步驟S6:確立病毒相關(guān)術(shù)語間的關(guān)系。
[0070]通過學(xué)習(xí)與理解，分析提取出的術(shù)語間存在的屬性關(guān)系，并最終確定具有代表性的關(guān)系屬性。
[0071]步驟S7:構(gòu)建病毒蛋白本體，將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合，構(gòu)建出一個蛋白本體框架，并最終通過反復(fù)分析修改更正來完善該本體。
[0072]將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合，并通過整合關(guān)聯(lián)，構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航，完成基于病毒蛋白本體的知識導(dǎo)航。
[0073]在本發(fā)明中，病毒是乙肝病毒，專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫，蛋白本體是乙肝蛋白本體。
[0074]基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的實施例
[0075]圖3示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置的較佳實施例的原理，請參見圖3，本實施例的知識導(dǎo)航裝置包括病毒知識挖掘模塊I以及專題文獻數(shù)據(jù)庫中的病毒蛋白本體構(gòu)建及知識導(dǎo)航模塊2。
[0076]病毒知識挖掘模塊I包括數(shù)據(jù)庫構(gòu)建單元11、翻譯編撰單元12、數(shù)據(jù)倉庫生成單元13、以及非法信息去除單元14 (可選單元)。
[0077]數(shù)據(jù)庫構(gòu)建單元11構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫。
[0078]翻譯編撰單元12以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù)，以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰，目的是使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合，實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
[0079]數(shù)據(jù)倉庫生成單元13根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫。
[0080]非法信息去除單元14去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息，去除假陽性蛋白質(zhì)挖掘結(jié)果。
[0081]專題文獻數(shù)據(jù)庫中的病毒蛋白本體構(gòu)建及知識導(dǎo)航模塊2包括術(shù)語提取單元21、關(guān)系確立單元22、本體構(gòu)建單元23。
[0082]術(shù)語提取單元21提取病毒相關(guān)術(shù)語，通過對病毒生活史的學(xué)習(xí)和理解，從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋，并對這些詞匯及蛋白質(zhì)名詞進行整理分類，劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
[0083]關(guān)系確立單元22確立病毒相關(guān)術(shù)語間的關(guān)系，通過學(xué)習(xí)與理解，分析提取出的術(shù)語間存在的屬性關(guān)系，并最終確定具有代表性的關(guān)系屬性。
[0084]本體構(gòu)建單元23構(gòu)建病毒蛋白本體，將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合，構(gòu)建出一個蛋白本體框架，并最終通過反復(fù)分析修改更正來完善該本體。將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合，并通過整合關(guān)聯(lián)，構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航，完成基于病毒蛋白本體的知識導(dǎo)航。
[0085]在本實施例中，病毒是乙肝病毒，專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫，蛋白本體是乙肝蛋白本體。
[0086]基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的實施例
[0087]圖4示出了本發(fā)明的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)的較佳實施例的結(jié)構(gòu)，請參見圖4，本實施例的系統(tǒng)包括專題文獻服務(wù)器3、病毒本體庫服務(wù)器4、web服務(wù)器和查詢請求解釋器5、以及查詢請求終端6。
[0088]查詢請求終端6接收用戶請求。查詢請求終端6的查詢方式有關(guān)鍵詞請求和本體庫知識導(dǎo)航目錄查詢。
[0089]web服務(wù)器和查詢請求解釋器5接收用戶請求，通過查詢請求解釋器將用戶請求進行規(guī)范化處理(如通過同義詞典將用戶請求轉(zhuǎn)化為標準化的本體名稱，自動更正錯別字，自動將用空格分隔的關(guān)鍵詞連接為組合的查詢條件等)。
[0090]病毒本體庫服務(wù)器4存放病毒本體構(gòu)建和管理程序以及構(gòu)建好的病毒本體庫。
[0091]專題文獻服務(wù)器3存放專題文獻數(shù)據(jù)庫及文獻處理(知識挖掘)程序和管理程序。
[0092]在本實施例中，病毒是乙肝病毒，專題文獻數(shù)據(jù)庫是乙肝專題文獻數(shù)據(jù)庫。
[0093]上述實施例是提供給本領(lǐng)域普通技術(shù)人員來實現(xiàn)和使用本發(fā)明的，本領(lǐng)域普通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想的情況下，對上述實施例做出種種修改或變化，因而本發(fā)明的保護范圍并不被上述實施例所限，而應(yīng)該是符合權(quán)利要求書所提到的創(chuàng)新性特征的最大范圍。
【權(quán)利要求】
1.一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，包括病毒知識挖掘的流程以及專題文獻數(shù)據(jù)庫中的蛋白質(zhì)挖掘和發(fā)現(xiàn)的流程，其中: 病毒知識挖掘的流程進一步包括: 構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù)，以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編4-05？共；根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫；專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體的構(gòu)建及知識導(dǎo)航流程包括: 提取病毒相關(guān)術(shù)語；確立病毒相關(guān)術(shù)語間的關(guān)系；構(gòu)建病毒蛋白本體，將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合，并通過整合關(guān)聯(lián)，構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航，完成基于病毒蛋白本體的知識導(dǎo)航功能。
2.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，其特征在于，在生成專題文獻知識數(shù)據(jù)倉庫的步驟之后還包括: 去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息，去除假陽性蛋白質(zhì)挖掘結(jié)果。
3.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，其特征在于，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合，實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本的挖掘和標注。
4.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，其特征在于，提取病毒相關(guān)術(shù)語的步驟包括: 通過對病毒生活史的學(xué)習(xí)和理解，從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋，并對這些詞匯及蛋白質(zhì)名詞進行整理分類，劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
5.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，其特征在于，確立病毒相關(guān)術(shù)語間的關(guān)系的步驟包括: 通過學(xué)習(xí)與理解，分析提取出的術(shù)語間存在的屬性關(guān)系，并最終確定具有代表性的關(guān)系屬性。
6.根據(jù)權(quán)利要求1所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，其特征在于，構(gòu)建病毒蛋白本體的步驟包括: 將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合，構(gòu)建出一個蛋白本體框架，并最終通過反復(fù)分析修改更正來完善該本體。
7.根據(jù)權(quán)利要求1一 6中任一項所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法，其特征在于，病毒是乙肝病毒，專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫，蛋白本體是乙肝病毒蛋白本體。
8.一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，包括病毒知識挖掘模塊以及專題文獻數(shù)據(jù)庫中的蛋白質(zhì)挖掘和發(fā)現(xiàn)模塊，其中: 病毒知識挖掘模塊包括: 數(shù)據(jù)庫構(gòu)建單元，構(gòu)建專題文獻知識數(shù)據(jù)庫和確立能夠進行對應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；翻譯編撰單元，以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標準控制詞表為依據(jù)，以專題文獻知識數(shù)據(jù)庫中出現(xiàn)的病毒蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對象，進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰；數(shù)據(jù)倉庫生成單元，根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將標識號轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的專題文獻知識數(shù)據(jù)倉庫；專題文獻數(shù)據(jù)庫中的病毒蛋白質(zhì)本體構(gòu)建及知識導(dǎo)航模塊包括: 術(shù)語提取單元，提取病毒相關(guān)術(shù)語；關(guān)系確立單元，確立病毒相關(guān)術(shù)語間的關(guān)系；本體構(gòu)建單元，構(gòu)建病毒蛋白本體，將知識挖掘型專題文獻數(shù)據(jù)庫的文本挖掘字典和病毒蛋白本體進行關(guān)聯(lián)整合，并通過整合關(guān)聯(lián)，構(gòu)建應(yīng)用于蛋白質(zhì)挖掘模塊的知識組織與分類導(dǎo)航，完成基于病毒蛋白本體的知識導(dǎo)航。
9.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，其特征在于，病毒知識挖掘模塊還包括: 非法信息去除單元，去除數(shù)據(jù)挖掘和信息整合結(jié)果中的非法信息，去除假陽性蛋白質(zhì)挖掘結(jié)果。
10.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，其特征在于，翻譯編撰單元進行病毒蛋白質(zhì)相關(guān)文本挖掘字典的翻譯和編撰使得專題文獻知識數(shù)據(jù)庫中的病毒蛋白質(zhì)名詞與蛋白質(zhì)科學(xué)數(shù)據(jù)庫的標準控制詞表進行一一對應(yīng)的關(guān)聯(lián)和整合，實現(xiàn)對專題文獻基礎(chǔ)數(shù)據(jù)庫的病毒蛋白質(zhì)相關(guān)文本挖掘和標注。
11.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，其特征在于，術(shù)語提取單元通過對病毒生活史的學(xué)習(xí)和理解，從中提取代表性的術(shù)語詞匯、蛋白質(zhì)名稱以及對術(shù)語詞匯的解釋和蛋白質(zhì)功能的注釋，并對這些詞匯及蛋白質(zhì)名詞進行整理分類，劃分為感染過程相關(guān)術(shù)語、結(jié)構(gòu)組分相關(guān)術(shù)語以及蛋白質(zhì)名稱。
12.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，其特征在于，關(guān)系確立單元通過學(xué)習(xí)與理解，分析提取出的術(shù)語間存在的屬性關(guān)系，并最終確定具有代表性的關(guān)系屬性。
13.根據(jù)權(quán)利要求8所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，其特征在于，本體構(gòu)建單元將術(shù)語、術(shù)語注釋以及關(guān)系屬性進行關(guān)聯(lián)整合，構(gòu)建出一個蛋白本體框架，并最終通過反復(fù)分析修改更正來完善該本體。
14.根據(jù)權(quán)利要求8— 13中任一項所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的裝置，其特征在于，病毒是乙肝病毒，專題文獻知識數(shù)據(jù)庫是乙肝專題文獻知識數(shù)據(jù)庫，蛋白本體是乙肝病毒蛋白本體。
15.一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)，包括專題文獻服務(wù)器、病毒本體庫服務(wù)器、服務(wù)器和查詢請求解釋器、以及查詢請求終端，其中: 查詢請求終端，接收用戶請求；服務(wù)器和查詢請求解釋器，接收用戶請求，通過查詢請求解釋器將用戶請求進行規(guī)范化處理；病毒本體庫服務(wù)器，存放病毒本體構(gòu)建和管理程序以及構(gòu)建好的病毒本體庫；專題文獻服務(wù)器，存放專題文獻數(shù)據(jù)庫及文獻處理程序和管理程序。
16.根據(jù)權(quán)利要求15所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)，其特征在于，查詢請求終端的查詢方式有關(guān)鍵詞請求和本體庫知識導(dǎo)航目錄查詢。
17.根據(jù)權(quán)利要求15— 16中任一項所述的基于病毒蛋白質(zhì)本體的知識導(dǎo)航的系統(tǒng)，其特征在于，病毒是乙肝病毒，專題文獻數(shù)據(jù)庫是乙肝專題文獻數(shù)據(jù)庫。
【文檔編號】G06F19/28GK104424399SQ201310391096
【公開日】2015年3月18日申請日期:2013年8月30日優(yōu)先權(quán)日:2013年8月30日
【發(fā)明者】陳恒, 張珅, 趙衍, 張永娟, 陳成材申請人:中國科學(xué)院上海生命科學(xué)研究院

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳恒;張珅;趙衍;張永娟;陳成材;
技術(shù)所有人：中國科學(xué)院上海生命科學(xué)研究院;
我是此專利的發(fā)明人

上一篇：服務(wù)器的殼體的制作方法
上一篇：利用三維數(shù)字城市系統(tǒng)模型非可見部分的加速顯示方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

蛋白質(zhì)病毒相關(guān)技術(shù)

病毒蛋白質(zhì)外殼相關(guān)技術(shù)

病毒的蛋白質(zhì)外殼相關(guān)技術(shù)

全境封鎖病毒測量裝置相關(guān)技術(shù)

中城東區(qū)病毒測量裝置相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)的制作方法

一種基于病毒蛋白質(zhì)本體的知識導(dǎo)航的方法、裝置和系統(tǒng)的制作方法