欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種中藥方劑核心藥物的發(fā)現(xiàn)方法

文檔序號:8498783閱讀:1405來源:國知局
一種中藥方劑核心藥物的發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】:
[0001 ] 本發(fā)明主要涉及中藥方劑核心藥物的發(fā)現(xiàn),用于挖掘治療某種病癥的方劑中的核 心藥物。
【背景技術(shù)】:
[0002] 藥物是方劑的基本組成成份。眾所周知,"君臣佐使"是中醫(yī)組方的基本原則。方 劑的藥物按照其在方劑中所起的作用分別分為君藥、臣藥、佐藥、使藥,簡稱為"君臣佐使"。 各種藥在方劑中所起的作用是不一樣的。找到中藥方劑中對治療某種疾病起主要作用的核 心藥物,能夠揭示中藥方劑配伍中的用藥規(guī)律,對于年輕的中醫(yī)從業(yè)者學(xué)習(xí)名老中醫(yī)經(jīng)驗、 掌握中醫(yī)理論精髓以及進一步研宄中醫(yī)理論,有著非常重要的作用。
[0003] 現(xiàn)存方劑數(shù)據(jù)庫已有近十萬首方劑,涉及一萬多種藥物。針對某種特定疾病的方 劑往往也涉及幾百首方劑和藥物。傳統(tǒng)的通過人工的方法去提取這些方劑的核心藥物已經(jīng) 無法適應(yīng)現(xiàn)代需求,迫切需要計算機輔助方法。
[0004] 目前關(guān)于中藥方劑核心藥物的挖掘,主要有基于頻次的方法和基于PageRank的 方法。基于頻次的方法容易受藥物出現(xiàn)頻次的影響,挖掘結(jié)果不夠準(zhǔn)確?;赑ageRank的 方法也存在排名不夠合理,算法相對難以理解等特點,不能很好滿足需求。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明需要解決的技術(shù)問題是,提供一種中藥方劑核心藥物的方法,尤其是基于 改進K-Means聚類和加權(quán)TF-IDF的中藥方劑核心藥物提取方法,主要針對目前已有方法容 易受藥物出現(xiàn)頻次影響、挖掘結(jié)果不夠準(zhǔn)確、算法復(fù)雜等問題,提出的通用型、準(zhǔn)確有效、合 理的中藥方劑核心藥物挖掘方法。
[0006] 本發(fā)明解決上述問題所采取的技術(shù)方案為:一種中藥方劑核心藥物的發(fā)現(xiàn)方法即 基于改進K-Means聚類和加權(quán)TF-IDF的中藥方劑核心藥物提取方法,其特征在于,由改進 聚類算法和加權(quán)TF-IDF算法兩部分組成,聚類算法包括方劑數(shù)據(jù)的預(yù)處理、聚類距離函數(shù) 的選擇和聚類挖掘算法三部分,其中方劑數(shù)據(jù)的預(yù)測理將方劑數(shù)據(jù)處理成適合聚類算法的 模型;聚類距離的選擇用于選擇合理的聚類距離函數(shù);距離挖掘算法用于將相似的方劑聚 類成一個簇;
[0007] 加權(quán)TF-IDF算法用于計算藥物的權(quán)重,發(fā)明的權(quán)重計算公式結(jié)合聚類結(jié)果、藥物 順序重要度、TF-IDF算法三部分;
[0008] 所述的方劑數(shù)據(jù)的預(yù)處理,其采用的是向量空間模型。每首方劑抽象成一個向量, 方劑中的藥物表示為向量的某一維。如果方劑包含某種藥物,則其對應(yīng)的維為1,否則為〇 ;
[0009] 所述的聚類距離函數(shù)的選擇,采用的是余弦距離函數(shù),其距離為:
【主權(quán)項】
1. 一種中藥方劑核心藥物的發(fā)現(xiàn)方法,其特征在于,由改進聚類算法和加權(quán)TF-IDF算 法兩部分組成,聚類算法包括方劑數(shù)據(jù)的預(yù)處理、聚類距離函數(shù)的選擇和聚類挖掘算法三 部分,其中方劑數(shù)據(jù)的預(yù)測理將方劑數(shù)據(jù)處理成適合聚類算法的模型;聚類距離的選擇用 于選擇合理的聚類距離函數(shù);距離挖掘算法用于將相似的方劑聚類成一個簇; 加權(quán)TF-IDF算法用于計算藥物的權(quán)重,發(fā)明的權(quán)重計算公式結(jié)合聚類結(jié)果、藥物順序 重要度、TF-IDF算法三部分; 所述的方劑數(shù)據(jù)的預(yù)處理,其采用的是向量空間模型。每首方劑抽象成一個向量,方劑 中的藥物表示為向量的某一維。如果方劑包含某種藥物,則其對應(yīng)的維為1,否則為O ; 所述的聚類距離函數(shù)的選擇,采用的是余弦距離函數(shù),其距離為:
方劑向量; 所述的聚類挖掘算法,其采用的是改進的基于節(jié)點部分分配的K-Means算法;算法預(yù) 先設(shè)置一個閾值a,在將節(jié)點分配到中心點的時候,對于到所有中心點的距離都超過a的 節(jié)點,暫時不把它分配到任何中心節(jié)點所表示的聚類;這樣在一輪分配結(jié)束的時候可能會 存在一些未被分配的節(jié)點。在下一輪分配的時候,從這些節(jié)點中在隨機選取一些種子節(jié) 點作為中心點;這樣通過不斷的迭代,最終數(shù)據(jù)集中的每個節(jié)點都會被分配到合適的分類 中; 所述的藥物順序重要度,其指的是方劑組成中某一藥物的重要程度;其定義為:
所述的TF-IDF算法,指的是信息學(xué)中的詞頻-逆文檔頻率算法;一個詞的權(quán)重定義為:
示語料庫中的文件總數(shù),I d J I表示包含單詞&的文件的數(shù)目; 根據(jù)下式計算藥物h的權(quán)重W(h,x),用于計算藥物h在治療某種病X的權(quán)重指
表示整個方劑數(shù)據(jù)庫聚類數(shù)除以藥物h在整個方劑數(shù)據(jù)庫中出現(xiàn)的權(quán)重的商的對數(shù),為藥 物在方劑數(shù)據(jù)總庫的"逆文檔頻率";
i,f表示某首方劑,I IciI I表示方劑聚類(^中包含的方劑的數(shù)目,bool (h G f)表示藥物 h是否出現(xiàn)在方劑f中,出現(xiàn)為1,不出現(xiàn)為0 ;count (h G Ci)表示藥物h在方劑聚類(^中 出現(xiàn)的次數(shù)除以方劑聚類的方劑數(shù),值域是[〇,1] ;If(h)為藥物h在方劑f中的順序重要
聚類(^中的總順序重要度除以聚類方劑數(shù);set (X)表示治療病X的所有方劑,all_set表 示整個方劑數(shù)據(jù)庫;坳H,))表示藥物h在治療病X的方劑聚類中出現(xiàn)的權(quán)重,為 藥物"加權(quán)詞頻"。
【專利摘要】一種中藥方劑核心藥物的發(fā)現(xiàn)方法,由改進聚類算法和加權(quán)TF-IDF算法兩部分組成,聚類算法包括方劑數(shù)據(jù)的預(yù)處理、聚類距離函數(shù)的選擇和聚類挖掘算法三部分,其中方劑數(shù)據(jù)的預(yù)測理將方劑數(shù)據(jù)處理成適合聚類算法的模型;聚類距離的選擇用于選擇合理的聚類距離函數(shù);距離挖掘算法用于將相似的方劑聚類成一個簇;加權(quán)TF-IDF算法用于計算藥物的權(quán)重,發(fā)明的權(quán)重計算公式結(jié)合聚類結(jié)果、藥物順序重要度、TF-IDF算法三部分;算法具有較高的準(zhǔn)確性。
【IPC分類】G06F19-00
【公開號】CN104820775
【申請?zhí)枴緾N201510183745
【發(fā)明人】張雷, 劉煥銳, 資帥, 王強, 吳和生, 謝俊元
【申請人】南京大學(xué)
【公開日】2015年8月5日
【申請日】2015年4月17日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
永昌县| 余姚市| 金坛市| 喜德县| 巴里| 临猗县| 桦甸市| 灵丘县| 新绛县| 密云县| 白玉县| 黔东| 秦皇岛市| 那坡县| 始兴县| 商南县| 石楼县| 东乌| 邻水| 汝南县| 铅山县| 江华| 鄢陵县| 民和| 佛山市| 韶山市| 禹城市| 象州县| 昆山市| 灵武市| 黔西县| 兴业县| 沙田区| 宁化县| 东辽县| 尼勒克县| 英山县| 沂水县| 营口市| 彰化县| 铅山县|