專利名稱::一種基于知識庫的醫(yī)院信息搜索引擎及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息檢索和搜索引擎
技術(shù)領(lǐng)域:
,是一種基于知識庫的醫(yī)院垂直搜索引擎的實(shí)現(xiàn)。
背景技術(shù):
:2007年7月,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布《第二十次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,調(diào)查結(jié)果顯示,瀏覽新聞、搜索引擎、即時(shí)通信是網(wǎng)民經(jīng)常使用的三大網(wǎng)絡(luò)服務(wù),三者的選擇比例分別為瀏覽新聞77.3%,搜索引擎74.8%,收發(fā)郵件69.8%,這三大網(wǎng)絡(luò)服務(wù)的選擇比例領(lǐng)先其后的第二陣營20個(gè)百分點(diǎn)以上。該中心2007年9月份發(fā)布了2007年中國搜索引擎市場調(diào)査報(bào)告,報(bào)告顯示搜索引擎用戶對搜索引擎的依賴性很高,每次上網(wǎng)都要用到多次搜索的用戶數(shù)接近一半。搜索引擎服務(wù)能成為最受歡迎的服務(wù)是因?yàn)樗鉀Q了用戶在浩瀚的互聯(lián)網(wǎng)海量信息中快速定位信息的瓶頸問題。但是,互聯(lián)網(wǎng)的信息量呈爆炸趨勢增長,幾年前全球式搜索引擎收錄的網(wǎng)頁量只有幾千萬頁,而現(xiàn)在已經(jīng)達(dá)到幾十億頁。數(shù)量增加帶來的是搜索服務(wù)的火熱。另一方面,也使傳統(tǒng)的綜合性搜索,如百度和Google的品質(zhì)下降,搜索引擎在搜集網(wǎng)絡(luò)信息上遠(yuǎn)趕不上網(wǎng)絡(luò)信息的增長速度,同時(shí)査詢的結(jié)果集是海量的,經(jīng)常是幾十萬筆的資料,看上去很好,想找到合適的結(jié)果,卻比較難,搜索結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶很難在短時(shí)間內(nèi)準(zhǔn)確地篩選出需要的內(nèi)容。國內(nèi)領(lǐng)先的IT服務(wù)集成商——賽迪網(wǎng)(ccidnet.com),曾就搜索引擎使用習(xí)慣及IT搜索引擎市場前景進(jìn)行了調(diào)查,其分析顯示:網(wǎng)民在使用搜索引擎時(shí),考慮的主要因素是"搜索速度快,其次是搜索信息準(zhǔn)確,第三是信息量大"。但"搜索速度慢,死鏈接太多、重復(fù)信息或不相關(guān)信息較多"是目前網(wǎng)民對搜索引擎最不滿意的地方。傳統(tǒng)的搜索引擎多屬于橫向的水平型搜索,在現(xiàn)有的技術(shù)水平基礎(chǔ)上,它在滿足搜索信息量大的同時(shí)卻難以兼顧搜索的準(zhǔn)確度與相關(guān)度。針對以上問題,專為搜索某一學(xué)科或主題的信息而產(chǎn)生的搜索工具,專門收錄某一方面、某一行業(yè)或某一主題的信息,對解決實(shí)際査詢問題要比搜索引擎門戶有效得多。如果用戶想獲得某一專業(yè)的信息,就可使用專業(yè)搜索引擎,如NorthCarolina大學(xué)計(jì)算機(jī)科學(xué)系和法學(xué)院聯(lián)合開發(fā)研制的LIBClient-IRISWeb系統(tǒng)可以用自然語言對網(wǎng)上的法律信息進(jìn)行全文檢索,使得用戶獲得全面高質(zhì)的法律專業(yè)信息的效率大大提高。目前中文專業(yè)搜索引擎有旅游搜索,數(shù)碼產(chǎn)品搜索,酒店搜索,房屋租賃搜索等,但是目前還沒有基于知識庫的醫(yī)療信息的搜索引擎。
發(fā)明內(nèi)容為了解決現(xiàn)有通用搜索引擎對于查詢醫(yī)療信息非結(jié)構(gòu)化,準(zhǔn)確率和相關(guān)性低等問題,本發(fā)明的目的是為搜索醫(yī)療信息的用戶提供一種新的搜索平臺,該平臺能夠?yàn)橛脩籼峁└叨冉Y(jié)構(gòu)化,高度相關(guān)性和高度準(zhǔn)確性的醫(yī)療信息服務(wù),為此本發(fā)明提供一種基于知識庫的醫(yī)療信息搜索引擎及系統(tǒng)。為了實(shí)現(xiàn)所述的目的,本發(fā)明的第一方面,提供基于知識庫的醫(yī)療信息搜索引擎系統(tǒng),技術(shù)方案如下所述用戶端,與搜索引擎用戶端接口連接,用于將疾病名稱送入搜索引擎用戶端接口;搜索引擎用戶端接口,與査詢分解模塊連接,用于將疾病名稱信息送入查詢分解模塊;用于接收排序模塊的醫(yī)院排序結(jié)果和醫(yī)生信息;查詢分解模塊,與索引模塊連接,用于將分解后的疾病名稱信息送入索引模塊;索引模塊,分別與排序模塊和索引器連接,用于排序模塊輸入原始網(wǎng)頁庫中與疾病匹配的網(wǎng)頁內(nèi)容信息;用于接收索引器建立的索引信息;排序模塊,分別與醫(yī)療信息知識庫、索引模塊和搜索引擎用戶端接口連接,用于接收醫(yī)療信息知識庫的醫(yī)院排名信息和索引文件中與査詢詞相關(guān)的索引信息,用于輸出最后醫(yī)院排名信息和醫(yī)生信息;索引器,分別與原始醫(yī)療網(wǎng)頁庫和索引模塊連接,用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息,用于輸出原始網(wǎng)頁庫中網(wǎng)頁的索引信息;醫(yī)療信息知識庫,分別與排序模塊和醫(yī)療評論信息庫連接,用于接收醫(yī)療評論信息庫中的評論信息,用于輸出醫(yī)院排名信息;醫(yī)療評論信息庫,分別與原始醫(yī)療網(wǎng)頁庫和醫(yī)療信息知識庫連接,用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息,用于輸出醫(yī)療評論信息;原始醫(yī)療網(wǎng)頁庫,分別與醫(yī)療評論信息庫、爬蟲和索引器連接,用于存儲爬蟲抓取的原始醫(yī)療網(wǎng)頁,用于輸出原始醫(yī)療網(wǎng)頁信息;爬蟲,分別與萬維網(wǎng)和原始醫(yī)療網(wǎng)頁庫,用于接收需要抓取的網(wǎng)頁URL網(wǎng)址信息,用于輸出原始醫(yī)療網(wǎng)頁源代碼信息。優(yōu)選地,所述原始醫(yī)療網(wǎng)頁庫是對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取,構(gòu)建原始醫(yī)療網(wǎng)頁庫。優(yōu)選地,所述醫(yī)療評論信息庫基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取,構(gòu)建醫(yī)療評論信息庫。優(yōu)選地,所述醫(yī)療知識庫是使用基于AHP的評價(jià)方法,以醫(yī)療評論屬性字段為評價(jià)標(biāo)準(zhǔn),構(gòu)建醫(yī)療知識庫。為了實(shí)現(xiàn)所述的目的,本發(fā)明的第二方面,提供基于知識庫的醫(yī)療信息搜索引擎,步驟如下步驟S1:對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取,構(gòu)建原始醫(yī)療網(wǎng)頁庫;步驟S2:基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取,主要提取對醫(yī)院、科室、醫(yī)生的評論信息,構(gòu)建醫(yī)療評論信息庫;步驟S3:使用詞頻統(tǒng)計(jì)和調(diào)查問巻的方法,對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取,然后根據(jù)醫(yī)療評論的語義結(jié)構(gòu)特征提取觀點(diǎn)短語,最后進(jìn)行觀點(diǎn)短語傾向性分析,給出醫(yī)療評論是正面或是反面的分析結(jié)果;步驟S4:使用基于AHP的評價(jià)方法,以醫(yī)療評論屬性字段為評價(jià)標(biāo)準(zhǔn),確定醫(yī)院、科室、醫(yī)生的排名,構(gòu)建醫(yī)療知識庫;步驟S5:根據(jù)知識庫對搜索結(jié)果進(jìn)行排序,并將高度結(jié)構(gòu)化和高度相關(guān)的最終結(jié)果信息提供給用戶。優(yōu)選地,所述信息抽取方法是基于相似頁面的中文醫(yī)療健康論壇網(wǎng)頁信息抽取算法。優(yōu)選地,所述基于相似頁面的信息抽取算法,通過比較中文醫(yī)療健康論壇網(wǎng)頁中字符串的不匹配和標(biāo)記的不匹配來歸納規(guī)則,所述規(guī)則用正則表達(dá)式的形式表示匹配醫(yī)療網(wǎng)頁中醫(yī)院名稱,科室名稱,疾病名稱,匹配醫(yī)療網(wǎng)頁中URL網(wǎng)址信息。優(yōu)選地,所述詞頻統(tǒng)計(jì)和調(diào)查問巻的方法,從醫(yī)療評論信息中抽取醫(yī)療評論屬性字段。優(yōu)選地,所述觀點(diǎn)短語的提取是基于醫(yī)療評論的語義結(jié)構(gòu)特征,利用知網(wǎng)對觀點(diǎn)短語進(jìn)行分析,從而判斷觀點(diǎn)短語的傾向性。優(yōu)選地,所述的對搜索結(jié)果進(jìn)行排序,根據(jù)知識庫中醫(yī)院、科室、醫(yī)生的排名結(jié)合基于相似度的排序結(jié)果,給出最終的排序結(jié)果。本發(fā)明的整體設(shè)計(jì)中有效的利用了醫(yī)療健康論壇中豐富的用戶對醫(yī)院、科室、醫(yī)生的評論信息,通過對這些評論信息的搜集、抽取、分析建立醫(yī)療信息知識庫,以醫(yī)療知識庫為指導(dǎo),對搜索引擎基于相似度的排序結(jié)果進(jìn)行重排序,最后對最終的高度準(zhǔn)確和相關(guān)的排序結(jié)果以高度結(jié)構(gòu)化的形式提供給用戶,克服了通用搜索引擎的搜索結(jié)果非結(jié)構(gòu)化,相關(guān)度低,準(zhǔn)確度低的缺點(diǎn)。本發(fā)明巧妙的利用了用戶醫(yī)療評論信息,為用戶提供高度結(jié)構(gòu)化的醫(yī)療信息,提高了用戶查詢醫(yī)療信息相關(guān)度和準(zhǔn)確率。利用實(shí)驗(yàn)表明這一方法能有效的提高搜索結(jié)果的準(zhǔn)確率和相關(guān)性。圖1是本發(fā)明基于知識庫的醫(yī)療信息搜索引擎總體流程圖2是本發(fā)明醫(yī)療信息抽取步驟流程圖3是本發(fā)明醫(yī)療知識庫構(gòu)建步驟流程圖4本發(fā)明基于知識庫的醫(yī)療信息搜索引擎總體框架具體實(shí)施例方式下面將結(jié)合附圖對本發(fā)明加以詳細(xì)說明,應(yīng)指出的是,所描述的實(shí)施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。為了實(shí)現(xiàn)本發(fā)明的方法,如果在單機(jī)實(shí)現(xiàn),最好保證處理器主頻不小于2GHz,內(nèi)存不小于1G,可采用任何常用編程語言編寫。如圖1本發(fā)明基于知識庫的醫(yī)療信息搜索引擎系統(tǒng)總體框架圖所示用戶端l、搜索引擎用戶端接口2、查詢分解模塊3、索引模塊4、排序模塊5、索引器6、醫(yī)療信息知識庫7、醫(yī)療評論信息庫8、原始醫(yī)療網(wǎng)頁庫9、爬蟲IO、萬維網(wǎng)ll,其中用戶端l,與搜索引擎用戶端接口2連接,用于將疾病名稱送入搜索引擎用戶端接口2;搜索引擎用戶端接口2,與査詢分解模塊連3接,用于將疾病名稱信息送入查詢分解模塊3;用于接收排序模塊5的醫(yī)院排序結(jié)果和醫(yī)生伶自.I口'K、,査詢分解模塊3,與索引模塊4連接,用于將分解后的疾病名稱信息送入索引模塊4;索引模塊4,分別與排序模塊5和索引器6連接,用于對排序模塊5輸入原始醫(yī)療網(wǎng)頁庫9中與疾病匹配的網(wǎng)頁內(nèi)容信息;用于接收索引器6建立的索引信息;排序模塊5,分別與醫(yī)療信息知識庫7、索引模塊4和搜索引擎用戶端接口2連接,用于接收醫(yī)療信息知識庫7的醫(yī)院排名信息和索引模塊4文件中與查詢詞相關(guān)的索引信息,用于輸出最后醫(yī)院排名信息和醫(yī)生信息;索引器6,分別與原始醫(yī)療網(wǎng)頁庫9和索引模塊4連接,用于接收原始醫(yī)療網(wǎng)頁庫9的網(wǎng)頁信息,用于輸出原始醫(yī)療網(wǎng)頁庫9中網(wǎng)頁的索引信息;醫(yī)療信息知識庫7,分別與排序模塊5和醫(yī)療評論信息庫8連接,用于接收醫(yī)療評論信息庫8中的評論信息,用于輸出醫(yī)院排名信息;所述醫(yī)療信息知識庫7是使用基于AHP的評價(jià)方法,以醫(yī)療評論屬性字段為評價(jià)標(biāo)準(zhǔn),構(gòu)建醫(yī)療知識庫。醫(yī)療評論信息庫8,分別與原始醫(yī)療網(wǎng)頁庫9和醫(yī)療信息知識庫8連接,用于接收原始醫(yī)療網(wǎng)頁庫9的網(wǎng)頁信息,用于輸出醫(yī)療評論信息信息;所述醫(yī)療評論信息庫8基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取,構(gòu)建醫(yī)療評論信息庫。原始醫(yī)療網(wǎng)頁庫9,分別與醫(yī)療評論信息庫8、爬蟲10和索引器6連接,用于存儲爬蟲10抓取的原始醫(yī)療網(wǎng)頁,用于輸出原始醫(yī)療網(wǎng)頁信息;所述原始醫(yī)療網(wǎng)頁庫9是對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取,構(gòu)建原始醫(yī)療網(wǎng)頁庫。爬蟲10,分別與萬維網(wǎng)11和原始醫(yī)療網(wǎng)頁庫9,用于接收需要抓取的網(wǎng)頁URL網(wǎng)址信息,用于輸出原始醫(yī)療網(wǎng)頁源代碼信息。本發(fā)明提出的基于知識庫的醫(yī)療搜索引擎,總體流程如圖2所示,具體各步驟流程如圖3、4給出。K對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取,構(gòu)建原始醫(yī)療網(wǎng)頁庫9,因?yàn)楸景l(fā)明是針對醫(yī)療信息的搜索引擎,所以要抓取的目標(biāo)網(wǎng)頁主要來自醫(yī)療健康論壇,比如三九健康社區(qū)、好大夫在線等等。首先人為獲得這些網(wǎng)站的URL網(wǎng)址,用自己編寫的抓取工具對這些醫(yī)療健康論壇進(jìn)行抓取,將抓取的網(wǎng)頁存儲到原始醫(yī)療網(wǎng)頁9信息庫中。由于這些網(wǎng)站絕大多數(shù)都是醫(yī)療健康主題的信息,而且層次較少,所以采用寬度優(yōu)先抓取的策略。見圖3中步驟S1。由于網(wǎng)頁抓取已經(jīng)有許多成熟的方法,所以不屬于本發(fā)明強(qiáng)調(diào)的內(nèi)容。2、基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫9中的網(wǎng)頁進(jìn)行相關(guān)信息抽取,主要提取對醫(yī)院、科室、醫(yī)生的評論信息,構(gòu)建醫(yī)療評論信息庫8。我們發(fā)現(xiàn)對于同一個(gè)醫(yī)療健康論壇的不同網(wǎng)頁的結(jié)構(gòu)信息和網(wǎng)頁內(nèi)部標(biāo)記有很多相似之處,所以我們采用RoadRunner算法對原始網(wǎng)頁進(jìn)行信息抽取。如圖3中本發(fā)明醫(yī)療信息抽取步驟流程圖所示,具體的方法是步驟S21:首先從原始醫(yī)療網(wǎng)頁庫9中選擇同一論壇中有代表性的兩個(gè)網(wǎng)頁;請將下面內(nèi)容調(diào)整正確,因?yàn)槲覍⒆痔柗糯鬄樗奶柧W(wǎng)頁源代碼l<tdwidth="8%"align一'center"〉內(nèi)科〈/td〉<tdwidth="23%"><aref="/faculty/DE4roiYGYZwOGIaCFVHDuJVht.htm"class="blue">風(fēng)濕免疫科〈/a〉〈spanclass="gmy"title^'共有29位大夫">(29)</span></td><tdwidth="23%"><ahre卜"/faculty/DE4roiYGYZwOGao國DwIIFQwlR.htm"class="blue">內(nèi)分泌科〈/aXspanclass="gmy"title二"共有45位大夫">(45)</span></td></tr〉網(wǎng)頁源代碼2<tdwidth="8%"align="center">內(nèi)科〈/td〉<tdwidth="23%"><ahre,7faculty/DE4roiYGYZw0imOyZJ9SvRJb8.htm"class="blue">腎病內(nèi)科〈/aXspanclass="gray"title二"共有22位大夫">(22)</span></td><tdwidth="23%"><3href="/faculty/DE4r08xQdKSLPwWxb52Duj49TpEn.htm"class="blue'>風(fēng)濕科〈/aXspanclass="gray"title^'共有4位大夫">(4)</span〉</td></tr>步驟S22:網(wǎng)頁源代碼l作為樣本;步驟S23:網(wǎng)頁源代碼2作為頁面包裝器;步驟S24:RoadRunner先把兩個(gè)輸入的頁面符號化,然后對兩個(gè)頁面的字符串和標(biāo)記進(jìn)行比較,通過字符串和標(biāo)記的不匹配來歸納規(guī)則,因?yàn)槭窍嗨祈撁?,字符串不匹配將表示這個(gè)字符串對應(yīng)于數(shù)據(jù)庫的某個(gè)字段;如果標(biāo)記不匹配,則先判斷是否存在迭代項(xiàng),然后再判斷是否是可選項(xiàng)。內(nèi)容為網(wǎng)頁源代碼1和網(wǎng)頁源代碼2中深黑色字體部分,結(jié)構(gòu)部分為網(wǎng)頁源代碼1和網(wǎng)頁源代碼2中剩余部分?;谙嗨祈撁娴男畔⒊槿∷惴?,通過比較中文醫(yī)療健康論壇網(wǎng)頁中字符串的不匹配和標(biāo)記的不匹配來歸納規(guī)則,所述規(guī)則用現(xiàn)有技術(shù)的正則表達(dá)式的形式表示匹配醫(yī)療網(wǎng)頁中醫(yī)院名稱,科室名稱,疾病名稱,匹配醫(yī)療網(wǎng)頁中URL網(wǎng)址信息。步驟S25:由于人工選擇的兩個(gè)有代表性的樣本作為輸入,所以最后生成的規(guī)則有較好的健壯性,規(guī)則是用正則表達(dá)式的形式表示。步驟S26:得到用正則表達(dá)式表示的規(guī)則后,對原始醫(yī)療網(wǎng)頁庫9中剩下的網(wǎng)頁進(jìn)行信息抽取。步驟S27:抽取結(jié)果構(gòu)成醫(yī)療評論信息庫8。RoadRunner算法可以參照文章RoadRunner:TowardsAutomaticDataExtractionfromLargeWebSites。3、使用詞頻統(tǒng)計(jì)和調(diào)查問巻的方法,如圖4中本發(fā)明醫(yī)療信息知識庫7構(gòu)建步驟流程圖所示步驟S31:對醫(yī)療評論信息庫8進(jìn)行預(yù)處理;主要包括停用詞去除處理,預(yù)處理后的文檔,進(jìn)行詞性標(biāo)注,標(biāo)注結(jié)果如下,醫(yī)術(shù)/n水平/n:/w8.0/m分/q(/w較/d好/a)/w服務(wù)/vn態(tài)度/n:/w1.0/m分/q(/w較/d差/a)/w價(jià)格/n滿意度/n:/w3.0/m分/q(/w較/d差/a)/w水平/n不錯(cuò)/a,/w價(jià)格/n昂貴/an,/w態(tài)度/n極/q差/a,/w完全/ad沒有/v醫(yī)德/n醫(yī)風(fēng)/n(/w主/ag指/v住院部/n)/w根本/d沒有/v毛/j主席/n時(shí)代/n的/u救死扶傷/i精神/n,/w—切/r向錢看/v;其中"/n"代表名詞,"/a"代表形容詞,如"態(tài)度/n"說明"態(tài)度"是一個(gè)名詞,"好/a"說明"好"是一個(gè)形容詞。步驟S32:對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取;評論屬性字段提取,如圖4中步驟S32,使用中科院計(jì)算所漢語詞法分析系統(tǒng),對標(biāo)記后的名詞和名詞詞組進(jìn)行詞頻統(tǒng)計(jì),這樣做的原因是用戶醫(yī)療評論信息庫8中醫(yī)療評論屬性字段基本上是名詞或名詞短語,而且很多人都會從醫(yī)院的治療水平、服務(wù)質(zhì)量、價(jià)格滿意度等方面進(jìn)行評論,所以使用詞頻統(tǒng)計(jì)的方法可以從醫(yī)療評論信息庫8中提取出用戶醫(yī)療評論屬性字段。對提取出的用戶醫(yī)療評論屬性字段,結(jié)合調(diào)查問巻的結(jié)果從中選取有代表性的用戶醫(yī)療評論屬性字段,這些字段是治療水平、服務(wù)質(zhì)量、價(jià)格滿意度、環(huán)境滿意度步驟S33:提取觀點(diǎn)短語;下面進(jìn)行觀點(diǎn)詞的抽取,如圖4中步驟S33,由于評論一般由醫(yī)療評論屬性字段和觀點(diǎn)詞組成,所以我們抽取的模式是Adjective+Noun/Noims,即形容詞加名詞活名詞詞組。下面是我們抽取觀點(diǎn)詞的偽代碼INPUT醫(yī)療評論信息庫FOR用戶評論庫的每條評論信息IF(評論信息包括用戶醫(yī)療評論屬性字段:i提取用戶醫(yī)療評論屬性字段附近的形容詞作為觀點(diǎn)詞OUTPUT觀點(diǎn)詞+用戶醫(yī)療評論屬性字段觀點(diǎn)詞的提取方式和MinqingHu,BingLiu觀點(diǎn)類似,具體文獻(xiàn)見MiningandSummarizingCustomerReviews.步驟S34:最后進(jìn)行觀點(diǎn)短語傾向性分析;觀點(diǎn)傾向性分析,給出評論是正面或是反面的分析結(jié)果。如圖4中步驟S34,分析的方法主要基于知網(wǎng)(HowNet),從網(wǎng)站http:〃www.keenage.com/html/cindex.html下載HowNetSystem,"[吏用這個(gè)系統(tǒng)可以確定觀點(diǎn)詞的傾向性,使用方法可以參考該系統(tǒng)自帶的幫助文檔。步驟S35:基于AHP算法的排名;對評論傾向性分析后的結(jié)果使用基于ThomasLSatty的AHP算法來確定醫(yī)院排名,如圖4中步驟S35。參考文獻(xiàn)為圖書Whatistheanalytichierarchyprocess,該書ISBN為0-387-50084-7,具體方法如下所述首先建立兩兩比較值表,見表l:表1<table>tableseeoriginaldocumentpage14</column></row><table>然后根據(jù)調(diào)查問巻對治療水平、服務(wù)質(zhì)量、價(jià)格滿意度、環(huán)境滿意度四個(gè)指標(biāo)相對重要性進(jìn)行打分得到表2:表2<table>tableseeoriginaldocumentpage15</column></row><table>接著對醫(yī)院的治療水平、服務(wù)質(zhì)量、價(jià)格滿意度、環(huán)境滿意度進(jìn)行兩兩比較得到表3到表6。為了簡化,這里取甲、乙、丙三個(gè)醫(yī)院作為例子。表3<table>tableseeoriginaldocumentpage15</column></row><table>表5<table>tableseeoriginaldocumentpage16</column></row><table>表6<table>tableseeoriginaldocumentpage16</column></row><table>最后得到甲、乙、丙三個(gè)醫(yī)院總體排名見表7。計(jì)算公式是醫(yī)院排名二a"臺療水平+M服務(wù)質(zhì)量+^價(jià)格滿意度+c^環(huán)境滿意度公式1表7<table>tableseeoriginaldocumentpage16</column></row><table>從表7中我們可以得到排名,根據(jù)綜合排名信息構(gòu)建醫(yī)療信息知識庫7,如圖4中步驟S36。最后將原始醫(yī)療網(wǎng)頁庫9的原始醫(yī)療網(wǎng)頁建立倒排序索引,設(shè)計(jì)用戶端1與搜索引擎用戶端接口2,當(dāng)用戶查詢某一種疾病時(shí),首先把疾病映射到某一科室,根據(jù)科室信息,將科室信息提交到搜索引擎,搜索引擎會返回相關(guān)結(jié)果,該結(jié)果按相似度排序,將搜索引擎返回的結(jié)果結(jié)合醫(yī)療信息知識庫7的信息,為用戶提供高準(zhǔn)確度、高相關(guān)性、高度結(jié)構(gòu)化的醫(yī)療信息。上面描述是用于實(shí)現(xiàn)本發(fā)明的實(shí)施例,本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明的范圍的任何修改或局部替換,均屬于本發(fā)明權(quán)利要求來限定的范圍。權(quán)利要求1、一種基于知識庫的醫(yī)療信息搜索引擎系統(tǒng),其特征在于,包括用戶端,與搜索引擎用戶端接口連接,用于將疾病名稱送入搜索引擎用戶端接口;搜索引擎用戶端接口,與查詢分解模塊連接,用于將疾病名稱信息送入查詢分解模塊;用于接收排序模塊的醫(yī)院排序結(jié)果和醫(yī)生信息;查詢分解模塊,與索引模塊連接,用于將分解后的疾病名稱信息送入索引模塊;索引模塊,分別與排序模塊和索引器連接,用于排序模塊輸入原始網(wǎng)頁庫中與疾病匹配的網(wǎng)頁內(nèi)容信息;用于接收索引器建立的索引信息;排序模塊,分別與醫(yī)療信息知識庫、索引模塊和搜索引擎用戶端接口連接,用于接收醫(yī)療信息知識庫的醫(yī)院排名信息和索引文件中與查詢詞相關(guān)的索引信息,用于輸出最后醫(yī)院排名信息和醫(yī)生信息;索引器,分別與原始醫(yī)療網(wǎng)頁庫和索引模塊連接,用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息,用于輸出原始網(wǎng)頁庫中網(wǎng)頁的索引信息;醫(yī)療信息知識庫,分別與排序模塊和醫(yī)療評論信息庫連接,用于接收醫(yī)療評論信息庫中的評論信息,用于輸出醫(yī)院排名信息;醫(yī)療評論信息庫,分別與原始醫(yī)療網(wǎng)頁庫和醫(yī)療信息知識庫連接,用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息,用于輸出醫(yī)療評論信息;原始醫(yī)療網(wǎng)頁庫,分別與醫(yī)療評論信息庫、爬蟲和索引器連接,用于存儲爬蟲抓取的原始醫(yī)療網(wǎng)頁,用于輸出原始醫(yī)療網(wǎng)頁信息;爬蟲,分別與萬維網(wǎng)和原始醫(yī)療網(wǎng)頁庫,用于接收需要抓取的網(wǎng)頁URL網(wǎng)址信息,用于輸出原始醫(yī)療網(wǎng)頁源代碼信息。2、根據(jù)權(quán)利要求1所述基于知識庫的醫(yī)療信息搜索引擎系統(tǒng),其特征在于,所述原始醫(yī)療網(wǎng)頁庫是對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取,構(gòu)建原始醫(yī)療網(wǎng)頁庫。3、根據(jù)權(quán)利要求1所述基于知識庫的醫(yī)療信息搜索引擎系統(tǒng),其特征在于,所述醫(yī)療評論信息庫基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取,構(gòu)建醫(yī)療評論信息庫。4、根據(jù)權(quán)利要求1所述基于知識庫的醫(yī)療信息搜索引擎系統(tǒng),其特征在于,所述醫(yī)療知識庫是使用基于AHP的評價(jià)方法,以醫(yī)療評論屬性字段為評價(jià)標(biāo)準(zhǔn),構(gòu)建醫(yī)療知識庫。5、一種基于知識庫的醫(yī)療信息搜索引擎,其特征在于,步驟如下:步驟S1:對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取,構(gòu)建原始醫(yī)療網(wǎng)頁庫;步驟S2:基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取,主要提取對醫(yī)院、科室、醫(yī)生的評論信息,構(gòu)建醫(yī)療評論信息庫;步驟S3:使用詞頻統(tǒng)計(jì)和調(diào)査問巻的方法,對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取,然后根據(jù)醫(yī)療評論的語義結(jié)構(gòu)特征提取觀點(diǎn)短語,最后進(jìn)行觀點(diǎn)短語傾向性分析,給出醫(yī)療評論是正面或是反面的分析結(jié)果;步驟S4:使用基于AHP的評價(jià)方法,以醫(yī)療評論屬性字段為評價(jià)標(biāo)準(zhǔn),確定醫(yī)院、科室、醫(yī)生的排名,構(gòu)建醫(yī)療知識庫;步驟S5:根據(jù)知識庫對搜索結(jié)果進(jìn)行排序,并將高度結(jié)構(gòu)化和高度相關(guān)的最終結(jié)果信息提供給用戶。6、如權(quán)利要求5所述基于知識庫的醫(yī)療信息搜索引擎,其特征在于,所述信息抽取方法是基于相似頁面的中文醫(yī)療健康論壇網(wǎng)頁信息抽取算法。7、如權(quán)利要求6所述基于知識庫的醫(yī)療搜索引擎,其特征在于,所述基于相似頁面的信息抽取算法,通過比較中文醫(yī)療健康論壇網(wǎng)頁中字符串的不匹配和標(biāo)記的不匹配來歸納規(guī)則。8、如權(quán)利要求5所述基于知識庫的醫(yī)療搜索信息引擎,其特征在于,所述詞頻統(tǒng)計(jì)和調(diào)查問巻的方法,從醫(yī)療評論信息中抽取醫(yī)療評論屬性字段。9、如權(quán)利要求5所述基于知識庫的醫(yī)療信息搜索引擎,其特征在于,所述觀點(diǎn)短語的提取是基于醫(yī)療評論的語義結(jié)構(gòu)特征,利用知網(wǎng)對觀點(diǎn)短語進(jìn)行分析,從而判斷觀點(diǎn)短語的傾向性。10、如權(quán)利要求5所述基于知識庫的醫(yī)療信息搜索引擎,其特征在于,所述的對搜索結(jié)果進(jìn)行排序,根據(jù)知識庫中醫(yī)院、科室、醫(yī)生的排名結(jié)合基于相似度的排序結(jié)果,給出最終的排序結(jié)果。全文摘要本發(fā)明基于知識庫的醫(yī)療搜索引擎及系統(tǒng),抓取中文醫(yī)療健康目錄構(gòu)建原始醫(yī)療網(wǎng)頁庫;對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取,提取對醫(yī)院、科室、醫(yī)生的評論信息,構(gòu)建醫(yī)療評論信息庫;使用詞頻統(tǒng)計(jì)和調(diào)查問卷,對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取,提取觀點(diǎn)短語,觀點(diǎn)短語傾向性分析,給出評論評論信息是正面或是反面的分析結(jié)果,確定醫(yī)院、科室、醫(yī)生的排名;根據(jù)醫(yī)療知識庫對搜索結(jié)果進(jìn)行排序,將高度結(jié)構(gòu)化和高度相關(guān)的信息提供給用戶。本發(fā)明針對通用搜索引擎結(jié)果信息是非結(jié)構(gòu)化、相關(guān)度和準(zhǔn)確度低等缺點(diǎn),構(gòu)建醫(yī)療知識庫,為用戶提供高度結(jié)構(gòu)化的醫(yī)療信息,提高用戶查詢醫(yī)療信息相關(guān)度和準(zhǔn)確率,能有效提高搜索結(jié)果的準(zhǔn)確率和召回率。文檔編號G06F19/00GK101441636SQ200710177798公開日2009年5月27日申請日期2007年11月21日優(yōu)先權(quán)日2007年11月21日發(fā)明者戴汝為,李秋丹,王春恒,繆慶亮,耿光剛申請人:中國科學(xué)院自動化研究所