欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于數(shù)據(jù)挖掘的中醫(yī)醫(yī)學(xué)文獻分類及存儲方法與流程

文檔序號:11919009閱讀:269來源:國知局

本發(fā)明涉及到文獻數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是一種基于數(shù)據(jù)挖掘的中醫(yī)醫(yī)學(xué)文獻分類及存儲方法。



背景技術(shù):

中醫(yī)學(xué)是當(dāng)今中國醫(yī)藥衛(wèi)生事業(yè)中獨具特色和優(yōu)勢的重要組成部分,對于豐富世界醫(yī)學(xué)寶庫、保護人類健康,產(chǎn)生積極的作用。新形勢下,我國中醫(yī)學(xué)學(xué)領(lǐng)域的相關(guān)研究在注重繼承經(jīng)典的同時,同樣注重與西方醫(yī)學(xué)、藥學(xué)、信息學(xué)、生物學(xué)等領(lǐng)域的交叉融合,形成新的學(xué)科增長點,在學(xué)術(shù)研究領(lǐng)域則表現(xiàn)為研究主題跨雙學(xué)科或多學(xué)科的學(xué)術(shù)論文的發(fā)表。在醫(yī)學(xué)研究領(lǐng)域,領(lǐng)域內(nèi)專家、學(xué)者通?;诙ㄐ缘难芯糠椒?,在大量閱讀文獻的基礎(chǔ)上,依據(jù)其研究經(jīng)驗及積累主觀性地識別某領(lǐng)域或?qū)W科的研究熱點,形成綜述類文獻或報告,以供借鑒。

現(xiàn)有技術(shù)目前都是基于人工分析整理中醫(yī)學(xué)文獻,還沒有一種科學(xué)的科學(xué)化基于大數(shù)據(jù)分析的文獻分類方式。



技術(shù)實現(xiàn)要素:

為解決上述技術(shù)問題,本發(fā)明提供了一種基于數(shù)據(jù)挖掘的中醫(yī)醫(yī)學(xué)文獻分類及存儲方法,其包括以下步驟:

在特定知識數(shù)據(jù)庫中通過中醫(yī)檢索關(guān)鍵詞進行檢索,獲取到若干與所述中醫(yī)檢索關(guān)鍵詞匹配的中醫(yī)文獻作為中醫(yī)醫(yī)學(xué)文獻基礎(chǔ)數(shù)據(jù)庫;

分別按照下載的先后順序,整合到一個平面文件里面,以特定的編碼格式保存;

然后對下載的非結(jié)構(gòu)化的文本數(shù)據(jù)進行關(guān)鍵信息提取,保存成特定的數(shù)據(jù)格式,建立中醫(yī)醫(yī)學(xué)文獻的關(guān)鍵信息的編碼表,所述關(guān)鍵信息分別對應(yīng)一個二進制編碼;

所述關(guān)鍵信息包括核心數(shù)據(jù)和非核心數(shù)據(jù)兩種類型,提取出來的數(shù)據(jù),首先存入相應(yīng)數(shù)據(jù)庫,作為下一步數(shù)據(jù)處理的基礎(chǔ)數(shù)據(jù),然后導(dǎo)人SQL中進行下一步的挖掘分析;所述核心數(shù)據(jù)為下載的文本數(shù)據(jù)中超過設(shè)定閾值頻率的關(guān)鍵詞,所述非核心數(shù)據(jù)為下載的文本數(shù)據(jù)中出現(xiàn)過至少一次并低于設(shè)定閾值的關(guān)鍵詞;核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞i的數(shù)據(jù)模式可以表示為一個關(guān)系表Hi(B1,B2,...,Bmi),其中B為該關(guān)鍵詞的屬性值,各關(guān)鍵詞的屬性值根據(jù)關(guān)鍵詞所在中醫(yī)的具體領(lǐng)域進行預(yù)先設(shè)定;關(guān)鍵詞對應(yīng)的數(shù)據(jù)庫{D1,D2,...,Dni}的數(shù)據(jù)模式都可以對應(yīng)到Hi上;其中非核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞j的數(shù)據(jù)模式可以表示為一個關(guān)系表Hj(B1,B2,...,Bmj),其中B為該關(guān)鍵詞的屬性,關(guān)鍵詞對應(yīng)的數(shù)據(jù)庫{D1,D2,...,Dnj}的數(shù)據(jù)模式都可以對應(yīng)到Hj上;

具體各關(guān)鍵詞的關(guān)聯(lián)度量化值為K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)為Bmi、Dni之間的歐式距離,dist(Bmj,Dnj)為Bmj、Dnj之間的歐式距離,ρ>1為伸縮因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞i、非核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞j的關(guān)聯(lián)度量化值,將關(guān)聯(lián)度量化值在給定閾值范圍內(nèi)的所有關(guān)鍵詞作為一個關(guān)鍵詞數(shù)據(jù)群,將核心數(shù)據(jù)對應(yīng)的所有關(guān)鍵詞劃分到若干核心數(shù)據(jù)群中;同時將非核心數(shù)據(jù)對應(yīng)的所有關(guān)鍵詞劃分到若干非核心數(shù)據(jù)群中;

對所述核心數(shù)據(jù)群中對應(yīng)的關(guān)鍵詞與所述非核心數(shù)據(jù)群中對應(yīng)的關(guān)鍵詞進行隨機兩兩組合,獲取到中醫(yī)文獻關(guān)鍵詞組合,并根據(jù)所述中醫(yī)文獻關(guān)鍵詞組合作為檢索關(guān)鍵詞獲取到相應(yīng)的中醫(yī)文獻作為中醫(yī)醫(yī)學(xué)文獻,將所述中醫(yī)醫(yī)學(xué)文獻進行存儲,并將所述中醫(yī)文獻關(guān)鍵詞組合作為所述中醫(yī)醫(yī)學(xué)文獻存儲標識。

本發(fā)明具有以下有益效果:

本發(fā)明提供的基于數(shù)據(jù)挖掘的中醫(yī)醫(yī)學(xué)文獻分類及存儲方法基于中醫(yī)學(xué)數(shù)據(jù)庫關(guān)鍵詞檢索,并通過對檢索到的文獻進行數(shù)據(jù)提取,對獲取到的關(guān)鍵信息進行數(shù)據(jù)挖掘分析,得到關(guān)鍵詞數(shù)據(jù)群,并根據(jù)關(guān)鍵詞數(shù)據(jù)群中的關(guān)鍵詞進行組合進行檢索得到相關(guān)中醫(yī)醫(yī)學(xué)文獻,并將所述中醫(yī)文獻關(guān)鍵詞組合作為所述中醫(yī)醫(yī)學(xué)文獻存儲標識。本發(fā)明實現(xiàn)了高效與準確的獲取中醫(yī)學(xué)文獻數(shù)據(jù),完成了中醫(yī)醫(yī)學(xué)文獻的精確分類存儲。

當(dāng)然,實施本發(fā)明的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。

具體實施方式

下面將結(jié)合本發(fā)明實施例對本發(fā)明中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明實施例提供了一種基于數(shù)據(jù)挖掘的中醫(yī)醫(yī)學(xué)文獻分類及存儲方法,其包括以下步驟:

在特定知識數(shù)據(jù)庫中通過中醫(yī)檢索關(guān)鍵詞進行檢索,獲取到若干與所述中醫(yī)檢索關(guān)鍵詞匹配的中醫(yī)文獻作為中醫(yī)醫(yī)學(xué)文獻基礎(chǔ)數(shù)據(jù)庫;

分別按照下載的先后順序,整合到一個平面文件里面,以特定的編碼格式保存;

然后對下載的非結(jié)構(gòu)化的文本數(shù)據(jù)進行關(guān)鍵信息提取,保存成特定的數(shù)據(jù)格式,建立中醫(yī)醫(yī)學(xué)文獻的關(guān)鍵信息的編碼表,所述關(guān)鍵信息分別對應(yīng)一個二進制編碼;

所述關(guān)鍵信息包括核心數(shù)據(jù)和非核心數(shù)據(jù)兩種類型,提取出來的數(shù)據(jù),首先存入相應(yīng)數(shù)據(jù)庫,作為下一步數(shù)據(jù)處理的基礎(chǔ)數(shù)據(jù),然后導(dǎo)人SQL中進行下一步的挖掘分析;所述核心數(shù)據(jù)為下載的文本數(shù)據(jù)中超過設(shè)定閾值頻率的關(guān)鍵詞,所述非核心數(shù)據(jù)為下載的文本數(shù)據(jù)中出現(xiàn)過至少一次并低于設(shè)定閾值的關(guān)鍵詞;核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞i的數(shù)據(jù)模式可以表示為一個關(guān)系表Hi(B1,B2,...,Bmi),其中B為該關(guān)鍵詞的屬性值,各關(guān)鍵詞的屬性值根據(jù)關(guān)鍵詞所在中醫(yī)的具體領(lǐng)域進行預(yù)先設(shè)定;關(guān)鍵詞對應(yīng)的數(shù)據(jù)庫{D1,D2,...,Dni}的數(shù)據(jù)模式都可以對應(yīng)到Hi上;其中非核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞j的數(shù)據(jù)模式可以表示為一個關(guān)系表Hj(B1,B2,...,Bmj),其中B為該關(guān)鍵詞的屬性,關(guān)鍵詞對應(yīng)的數(shù)據(jù)庫{D1,D2,...,Dnj}的數(shù)據(jù)模式都可以對應(yīng)到Hj上;

具體各關(guān)鍵詞的關(guān)聯(lián)度量化值為K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)為Bmi、Dni之間的歐式距離,dist(Bmj,Dnj)為Bmj、Dnj之間的歐式距離,ρ>1為伸縮因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞i、非核心數(shù)據(jù)對應(yīng)的關(guān)鍵詞j的關(guān)聯(lián)度量化值,將關(guān)聯(lián)度量化值在給定閾值范圍內(nèi)的所有關(guān)鍵詞作為一個關(guān)鍵詞數(shù)據(jù)群,將核心數(shù)據(jù)對應(yīng)的所有關(guān)鍵詞劃分到若干核心數(shù)據(jù)群中;同時將非核心數(shù)據(jù)對應(yīng)的所有關(guān)鍵詞劃分到若干非核心數(shù)據(jù)群中;

對所述核心數(shù)據(jù)群中對應(yīng)的關(guān)鍵詞與所述非核心數(shù)據(jù)群中對應(yīng)的關(guān)鍵詞進行隨機兩兩組合,獲取到中醫(yī)文獻關(guān)鍵詞組合,并根據(jù)所述中醫(yī)文獻關(guān)鍵詞組合作為檢索關(guān)鍵詞獲取到相應(yīng)的中醫(yī)文獻作為中醫(yī)醫(yī)學(xué)文獻,將所述中醫(yī)醫(yī)學(xué)文獻進行存儲,并將所述中醫(yī)文獻關(guān)鍵詞組合作為所述中醫(yī)醫(yī)學(xué)文獻存儲標識。

本發(fā)明提供的中醫(yī)醫(yī)學(xué)文獻獲取方法基于中醫(yī)學(xué)數(shù)據(jù)庫關(guān)鍵詞檢索,并通過對檢索到的文獻進行數(shù)據(jù)提取,對獲取到的關(guān)鍵信息進行數(shù)據(jù)挖掘分析,得到關(guān)鍵詞數(shù)據(jù)群,并根據(jù)關(guān)鍵詞數(shù)據(jù)群中的關(guān)鍵詞進行組合進行檢索得到相關(guān)中醫(yī)醫(yī)學(xué)文獻,并將所述中醫(yī)文獻關(guān)鍵詞組合作為所述中醫(yī)醫(yī)學(xué)文獻存儲標識。本發(fā)明實現(xiàn)了高效與準確的獲取中醫(yī)學(xué)文獻數(shù)據(jù),完成了中醫(yī)醫(yī)學(xué)文獻的精確分類存儲。

以上公開的本發(fā)明優(yōu)選實施例只是用于幫助闡述本發(fā)明。優(yōu)選實施例并沒有詳盡敘述所有的細節(jié),也不限制該發(fā)明僅為所述的具體實施方式。顯然,根據(jù)本說明書的內(nèi)容,可作很多的修改和變化。本說明書選取并具體描述這些實施例,是為了更好地解釋本發(fā)明的原理和實際應(yīng)用,從而使所屬技術(shù)領(lǐng)域技術(shù)人員能很好地理解和利用本發(fā)明。本發(fā)明僅受權(quán)利要求書及其全部范圍和等效物的限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
正安县| 内乡县| 巴林左旗| 遂平县| 通河县| 沧源| 化州市| 仙游县| 门源| 兴文县| 边坝县| 林芝县| 霍林郭勒市| 南康市| 合川市| 鄂托克前旗| 图们市| 屏南县| 寿宁县| 万山特区| 海安县| 普定县| 芮城县| 襄城县| 霍山县| 廉江市| 九龙坡区| 新沂市| 同仁县| 阳原县| 玉屏| 钦州市| 无为县| 巴中市| 舟曲县| 和龙市| 元江| 昭平县| 平山县| 巴林右旗| 平谷区|