本發(fā)明涉及電子信息,具體涉及有心臟副作用的藥物數(shù)據(jù)庫的建立方法、裝置及設(shè)備。
背景技術(shù):
1、心臟病是一種常見的致死性疾病,根據(jù)世界衛(wèi)生組織的統(tǒng)計,每年有約1700萬人死于心臟病。心臟病的主要原因是心血管系統(tǒng)的功能障礙,導(dǎo)致心肌缺血、缺氧、壞死或心律失常。藥物引發(fā)的心臟疾病案例逐年增多,每年至少250萬人因藥物毒性導(dǎo)致心臟病入院,死亡人數(shù)更是高達(dá)19萬人。目前市場上和曾經(jīng)上市的藥物中,有400余種可引發(fā)不同程度的心臟毒副作用。藥物毒性監(jiān)管愈發(fā)嚴(yán)格,24%的新藥由于心血管毒副作用被終止研發(fā),即便成功上市,仍有45%左右的藥物由于藥物毒性被迫撤市。所以針對有心臟副作用的藥物信息的總結(jié)和有效使用對于醫(yī)務(wù)人員、研發(fā)機構(gòu)、患者及普通人群都至關(guān)重要。
2、目前,針對有心臟副作用的藥物的專利信息分散在各個國家和地區(qū)的專利數(shù)據(jù)庫中,此外,不同的專利數(shù)據(jù)庫之間的數(shù)據(jù)格式和內(nèi)容也存在差異,難以進行統(tǒng)一的檢索和分析,給醫(yī)藥公司進行藥物的研發(fā)和市場調(diào)研工作帶來了困難。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種有心臟副作用的藥物數(shù)據(jù)庫的建立方法、裝置及設(shè)備,以解決針對有心臟副作用的藥物不同的專利數(shù)據(jù)庫之間的數(shù)據(jù)格式和內(nèi)容存在差異導(dǎo)致難以進行統(tǒng)一的檢索和分析的問題。
2、第一方面,本發(fā)明提供了一種有心臟副作用的藥物數(shù)據(jù)庫的建立方法,該方法包括:
3、獲取包括有心臟副作用的藥物的初始數(shù)據(jù);
4、對初始數(shù)據(jù)進行轉(zhuǎn)換,得到語言和數(shù)據(jù)格式統(tǒng)一的包括有心臟副作用的藥物數(shù)據(jù)信息,并提取初始數(shù)據(jù)中與有心臟副作用的藥物相關(guān)的關(guān)鍵詞;
5、基于包括有心臟副作用的藥物數(shù)據(jù)信息以及與有心臟副作用的藥物相關(guān)的關(guān)鍵詞對初始數(shù)據(jù)建立對應(yīng)索引;
6、對包含對應(yīng)索引的有心臟副作用的藥物數(shù)據(jù)信息進行數(shù)據(jù)挖掘,形成包括有心臟副作用的藥物數(shù)據(jù)庫。
7、本發(fā)明提供的有心臟副作用的藥物數(shù)據(jù)庫的建立方法,對初始數(shù)據(jù)進行轉(zhuǎn)換,得到語言和數(shù)據(jù)格式統(tǒng)一的包括有心臟副作用的藥物數(shù)據(jù)信息,并提取初始數(shù)據(jù)中與有心臟副作用的藥物相關(guān)的關(guān)鍵詞,基于包括有心臟副作用的藥物數(shù)據(jù)信息以及與有心臟副作用的藥物相關(guān)的關(guān)鍵詞對初始數(shù)據(jù)建立對應(yīng)索引,并對包含對應(yīng)索引的有心臟副作用的藥物數(shù)據(jù)信息進行數(shù)據(jù)挖掘,最終建立一個針對有心臟副作用的藥物的數(shù)據(jù)庫,將不同數(shù)據(jù)來源的數(shù)據(jù)信息進行整合和標(biāo)準(zhǔn)化,提供了統(tǒng)一的檢索和分析接口,解決了針對有心臟副作用的藥物不同的專利數(shù)據(jù)庫之間的數(shù)據(jù)格式和內(nèi)容存在差異導(dǎo)致難以進行統(tǒng)一的檢索和分析的問題,以便于后續(xù)進行有效的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。
8、在一種可選的實施方式中,獲取包括有心臟副作用的藥物的初始數(shù)據(jù)包括:
9、確定包括有心臟副作用的藥物的多個數(shù)據(jù)來源、數(shù)據(jù)范圍、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容;數(shù)據(jù)來源包括中文專利數(shù)據(jù)庫和外文專利數(shù)據(jù)庫;
10、基于多個數(shù)據(jù)來源、數(shù)據(jù)范圍、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容生成包括有心臟副作用的藥物的初始數(shù)據(jù)。
11、本發(fā)明提供的有心臟副作用的藥物數(shù)據(jù)庫的建立方法,獲取包括多個數(shù)據(jù)來源、數(shù)據(jù)范圍、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容生成的包括有心臟副作用的藥物初始數(shù)據(jù),數(shù)據(jù)涵蓋范圍廣泛全面,為后續(xù)針對有心臟副作用的藥物生成數(shù)據(jù)庫提供了數(shù)據(jù)基礎(chǔ)。
12、在一種可選的實施方式中,對初始數(shù)據(jù)進行轉(zhuǎn)換,得到語言和數(shù)據(jù)格式統(tǒng)一的數(shù)據(jù)信息包括:
13、采用數(shù)據(jù)挖掘技術(shù)從多個數(shù)據(jù)來源中抓取有心臟副作用的藥物數(shù)據(jù)信息;
14、采用自然語言處理技術(shù)對抓取的有心臟副作用的藥物數(shù)據(jù)信息進行語言識別、語言轉(zhuǎn)換和語義分析,得到語言和數(shù)據(jù)格式統(tǒng)一的包括有心臟副作用的藥物數(shù)據(jù)信息。
15、本發(fā)明提供的有心臟副作用的藥物數(shù)據(jù)庫的建立方法,采用數(shù)據(jù)挖掘技術(shù)從多個數(shù)據(jù)來源中抓取有心臟副作用的藥物數(shù)據(jù)信息;采用自然語言處理技術(shù)對抓取的有心臟副作用的藥物數(shù)據(jù)信息進行語言識別、語言轉(zhuǎn)換和語義分析,得到語言和數(shù)據(jù)格式統(tǒng)一的包括有心臟副作用的藥物數(shù)據(jù)信息,將不同來源、不同語言、不同格式的專利信息進行整合和標(biāo)準(zhǔn)化,并提供統(tǒng)一的檢索和分析接口,以便于后續(xù)進行有效的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。
16、在一種可選的實施方式中,與有心臟副作用的藥物相關(guān)的關(guān)鍵詞包括有心臟副作用的藥物名稱;
17、基于包括有心臟副作用的藥物數(shù)據(jù)信息以及與有心臟副作用的藥物相關(guān)的關(guān)鍵詞對初始數(shù)據(jù)建立對應(yīng)索引包括:
18、以有心臟副作用的藥物名稱作為主鍵,建立包括有心臟副作用的藥物數(shù)據(jù)信息與有心臟副作用的藥物名稱之間的對應(yīng)索引。
19、本發(fā)明提供的有心臟副作用的藥物數(shù)據(jù)庫的建立方法,以有心臟副作用的藥物名稱作為主鍵,建立有心臟副作用的藥物數(shù)據(jù)信息與有心臟副作用的藥物名稱之間的對應(yīng)索引,對應(yīng)索引方便對有心臟副作用的藥物數(shù)據(jù)信息進行快速檢索,提供了檢索和分析入口。
20、在一種可選的實施方式中,數(shù)據(jù)挖掘包括數(shù)據(jù)清洗、數(shù)據(jù)校驗和數(shù)據(jù)補充;
21、對包含對應(yīng)索引的有心臟副作用的藥物數(shù)據(jù)信息進行數(shù)據(jù)挖掘,形成有心臟副作用的藥物數(shù)據(jù)庫包括:
22、采用數(shù)據(jù)挖掘技術(shù)對包含對應(yīng)索引的有心臟副作用的藥物數(shù)據(jù)信息進行去除有心臟副作用的藥物數(shù)據(jù)信息的錯誤數(shù)據(jù)的數(shù)據(jù)清洗操作,修正缺失數(shù)據(jù)的數(shù)據(jù)校驗操作以及增加新出現(xiàn)數(shù)據(jù)或更新變化數(shù)據(jù)的數(shù)據(jù)補充操作;
23、基于對應(yīng)索引和數(shù)據(jù)挖掘完成后的有心臟副作用的藥物數(shù)據(jù)信息生成有心臟副作用的藥物數(shù)據(jù)庫。
24、本發(fā)明提供的有心臟副作用的藥物數(shù)據(jù)庫的建立方法,采用數(shù)據(jù)挖掘技術(shù)對包含對應(yīng)索引的有心臟副作用的藥物數(shù)據(jù)信息進行去除有心臟副作用的藥物數(shù)據(jù)庫的錯誤數(shù)據(jù)的數(shù)據(jù)清洗操作,修正缺失數(shù)據(jù)的數(shù)據(jù)校驗操作以及增加新出現(xiàn)數(shù)據(jù)或更新變化數(shù)據(jù)的數(shù)據(jù)補充操作,基于對應(yīng)索引和數(shù)據(jù)挖掘完成后的有心臟副作用的藥物數(shù)據(jù)信息生成有心臟副作用的藥物數(shù)據(jù)庫,保證了數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量,提高了數(shù)據(jù)可靠性、準(zhǔn)確性、完整性和全面性,為后續(xù)進行藥物的研發(fā)和市場調(diào)研工作提供了一個可靠、完備和最新數(shù)據(jù)源。
25、在一種可選的實施方式中,有心臟副作用的藥物數(shù)據(jù)庫的建立方法還包括:
26、采用數(shù)據(jù)聚類方式對包括有心臟副作用的藥物數(shù)據(jù)庫進行數(shù)據(jù)分類、數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)預(yù)測操作,以發(fā)現(xiàn)或驗證有心臟副作用的藥物數(shù)據(jù)庫中數(shù)據(jù)之間的關(guān)聯(lián)性和趨勢性。
27、本發(fā)明提供的有心臟副作用的藥物數(shù)據(jù)庫的建立方法,采用數(shù)據(jù)聚類方式對包括有心臟副作用的藥物數(shù)據(jù)庫進行數(shù)據(jù)分類、數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)預(yù)測操作,以發(fā)現(xiàn)或驗證有心臟副作用的藥物數(shù)據(jù)庫中數(shù)據(jù)之間的關(guān)聯(lián)性和趨勢性,為后續(xù)進行藥物的研發(fā)和市場調(diào)研工作提供了一個有價值、有意義和有啟示的數(shù)據(jù)支持。
28、在一種可選的實施方式中,有心臟副作用的藥物數(shù)據(jù)庫的建立方法還包括:
29、對包括有心臟副作用的藥物數(shù)據(jù)庫中的數(shù)據(jù)進行可視化展示。
30、本發(fā)明提供的有心臟副作用的藥物數(shù)據(jù)庫的建立方法,對包括有心臟副作用的藥物數(shù)據(jù)庫中的數(shù)據(jù)進行可視化展示,實現(xiàn)了將復(fù)雜或抽象的數(shù)據(jù)以直觀或美觀的方式呈現(xiàn)給用戶,使得有心臟副作用的藥物數(shù)據(jù)庫中的數(shù)據(jù)更加直觀,增強了用戶體驗感。
31、第二方面,本發(fā)明提供了一種有心臟副作用的藥物數(shù)據(jù)庫的建立裝置,該裝置包括:
32、數(shù)據(jù)獲取模塊,用于獲取包括有心臟副作用的藥物的初始數(shù)據(jù);
33、數(shù)據(jù)轉(zhuǎn)換模塊,用于對初始數(shù)據(jù)進行轉(zhuǎn)換,得到語言和數(shù)據(jù)格式統(tǒng)一的包括有心臟副作用的藥物數(shù)據(jù)信息,并提取初始數(shù)據(jù)中與有心臟副作用的藥物相關(guān)的關(guān)鍵詞;
34、索引建立模塊,用于基于包括有心臟副作用的藥物數(shù)據(jù)信息以及與有心臟副作用的藥物相關(guān)的關(guān)鍵詞對初始數(shù)據(jù)建立對應(yīng)索引;
35、數(shù)據(jù)挖掘模塊,用于對包含對應(yīng)索引的有心臟副作用的藥物數(shù)據(jù)信息進行數(shù)據(jù)挖掘,形成包括有心臟副作用的藥物數(shù)據(jù)庫。
36、第三方面,本發(fā)明提供了一種計算機設(shè)備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的有心臟副作用的藥物數(shù)據(jù)庫的建立方法。
37、第四方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的有心臟副作用的藥物數(shù)據(jù)庫的建立方法。