本發(fā)明屬于電子病歷文本處理技術(shù)領(lǐng)域,具體涉及一種支持自定義實(shí)體的電子病歷檢索系統(tǒng)及方法。
背景技術(shù):
目前,用于醫(yī)學(xué)領(lǐng)域的檢索大都為圖像檢索,許多圖像搜索方法在除醫(yī)學(xué)以外的領(lǐng)域使用與圖像相關(guān)的索引術(shù)語(yǔ),而不是單獨(dú)的圖像數(shù)據(jù),后一種類型的圖像搜索是基于語(yǔ)義的。然而醫(yī)學(xué)圖像中還含有豐富多樣的信息內(nèi)容及其對(duì)解剖結(jié)構(gòu)的隱含知識(shí),用于檢索的數(shù)據(jù)的類可以擴(kuò)展到包括非圖像數(shù)據(jù),如實(shí)驗(yàn)報(bào)告、生理測(cè)量,等等。這種特定領(lǐng)域的數(shù)據(jù)很大程度上取決于放射科醫(yī)師的觀察。目前用于表示這些觀察/解釋的方法是非結(jié)構(gòu)化的自由文本報(bào)告。
非影像臨床資料儲(chǔ)存在電子病歷系統(tǒng)中。這樣的數(shù)據(jù),當(dāng)關(guān)聯(lián)到圖像時(shí),可以用來將圖像存檔計(jì)通信系統(tǒng)數(shù)據(jù)與相應(yīng)的電子病歷相關(guān)聯(lián)。發(fā)展至今,信息抽取技術(shù)已有較為成熟的發(fā)展,但由于沒有嚴(yán)格的控制術(shù)語(yǔ)的執(zhí)行,也沒有統(tǒng)一的病歷書寫規(guī)范,醫(yī)學(xué)電子病歷術(shù)語(yǔ)以及其表達(dá)形式多且復(fù)雜,基于這些報(bào)告的內(nèi)容抽取與搜索是有限的。因此需要有效的方法將電子病歷中的重要信息抽取出來,用來注釋和標(biāo)注圖像數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種支持自定義實(shí)體的電子病歷檢索系統(tǒng)及方法,提取非結(jié)構(gòu)化的病歷文本內(nèi)容中的重要信息形成部分結(jié)構(gòu)化數(shù)據(jù),方便醫(yī)生更快速的查詢既往病歷并了解患者病情。
本發(fā)明提供一種支持自定義實(shí)體的電子病歷檢索系統(tǒng),包括:
電子病歷文本預(yù)處理單元,用于將同一個(gè)患者電子病歷系統(tǒng)中的文本內(nèi)容提取出來合并成一個(gè)非結(jié)構(gòu)化文本,并對(duì)該非結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)清洗以提取出部分結(jié)構(gòu)化信息并獲得正文內(nèi)容集;
自定義實(shí)體識(shí)別單元,用于自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn),并對(duì)正文內(nèi)容集的部分內(nèi)容進(jìn)行標(biāo)注獲得訓(xùn)練語(yǔ)料,根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型得到分詞數(shù)據(jù)集,根據(jù)訓(xùn)練語(yǔ)料和分詞后的數(shù)據(jù)集構(gòu)建詞性標(biāo)注模型并得到詞性標(biāo)注數(shù)據(jù)集;
實(shí)體合并提取單元,用于選取一組診療信息,根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則,提取詞性標(biāo)注數(shù)據(jù)的診斷信息的內(nèi)容,并與電子病歷文本預(yù)處理單元中抽取的結(jié)構(gòu)化信息合并構(gòu)成多元信息;
文本摘要檢索單元,用于將多元信息構(gòu)成患者的文本摘要,創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要,檢索時(shí)返回文本摘要以供查看。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索系統(tǒng)中,所述電子病歷文本預(yù)處理單元包括:
文本內(nèi)容提取器,用于從患者電子病歷系統(tǒng)中抽取出文本內(nèi)容,并將同一個(gè)患者的多個(gè)文本內(nèi)容合并成一個(gè)非結(jié)構(gòu)化文本,多個(gè)患者的非結(jié)構(gòu)化文本構(gòu)成非結(jié)構(gòu)化文本集;
文本數(shù)據(jù)清洗器,用于利用正則表達(dá)式和停用詞詞典將非結(jié)構(gòu)化文本中的亂碼和不需要的符號(hào)、文字清洗去除;
結(jié)構(gòu)化數(shù)據(jù)提取器,用于將清洗后的非結(jié)構(gòu)化文本的一部分內(nèi)容結(jié)構(gòu)化,抽取出多個(gè)患者的就診時(shí)間、病歷號(hào)、性別以及正文內(nèi)容構(gòu)成結(jié)構(gòu)化信息,多個(gè)患者的正文內(nèi)容構(gòu)成正文內(nèi)容集。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索系統(tǒng)中,所述自定義實(shí)體識(shí)別單元包括:
實(shí)體名自定義器,用于自定義病歷實(shí)體名、制定腫瘤領(lǐng)域特定實(shí)體名以及自定義通用詞性標(biāo)注標(biāo)準(zhǔn);
自定義分詞器,用于從正文內(nèi)容集中提取部分正文內(nèi)容,根據(jù)自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行分詞和詞性標(biāo)注,獲得訓(xùn)練語(yǔ)料;根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型并對(duì)正文內(nèi)容集進(jìn)行分詞得到分詞數(shù)據(jù)集;
自定義詞性標(biāo)注器,用于根據(jù)訓(xùn)練語(yǔ)料和hmm模型構(gòu)建詞性標(biāo)注模型,將分詞數(shù)據(jù)集輸入到詞性標(biāo)注模型,通過viterbi算法得到詞性標(biāo)注數(shù)據(jù)集。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索系統(tǒng)中,所述實(shí)體合并提取單元包括:
實(shí)體規(guī)則自定義器,用于選取一組診療信息,并根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則;
復(fù)合實(shí)體合并提取器,用于提取詞性標(biāo)注數(shù)據(jù)集中每個(gè)詞性標(biāo)注數(shù)據(jù)的診療信息,將診療信息與結(jié)構(gòu)化信息合并構(gòu)成多元信息,多個(gè)患者的多元信息構(gòu)成多元信息組。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索系統(tǒng)中,所述文本摘要檢索單元包括:
文本摘要生成器,用于將多元信息構(gòu)成患者的文本摘要;
搜索引擎,采用基于向量的索引結(jié)構(gòu),創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要,索相關(guān)詞時(shí),返回病歷號(hào)并根據(jù)病歷號(hào)從數(shù)據(jù)庫(kù)中抽取文本摘要。
本發(fā)明還提供一種支持自定義實(shí)體的電子病歷檢索方法,包括如下步驟:
步驟1:將患者電子病歷系統(tǒng)中的文本內(nèi)容提取出來合并成非結(jié)構(gòu)化文本,并對(duì)非結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)清洗以抽取部分結(jié)構(gòu)化信息和正文內(nèi)容集;
步驟2:自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn),并對(duì)正文內(nèi)容集的部分內(nèi)容進(jìn)行標(biāo)注獲得訓(xùn)練語(yǔ)料,根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型得到分詞數(shù)據(jù)集,根據(jù)訓(xùn)練語(yǔ)料和分詞后的數(shù)據(jù)集構(gòu)建詞性標(biāo)注模型并得到詞性標(biāo)注數(shù)據(jù)集;
步驟3:選取一組診療信息,根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則,提取詞性標(biāo)注數(shù)據(jù)的診療信息,并與結(jié)構(gòu)化信息合并構(gòu)成多元信息;
步驟4:將多元信息構(gòu)成患者的文本摘要,創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要,檢索時(shí)返回文本摘要以供查看。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法中,所述步驟1包括:
步驟1.1:從患者電子病歷系統(tǒng)中抽取出文本內(nèi)容,并將同一個(gè)患者的多個(gè)文本內(nèi)容合并成一個(gè)非結(jié)構(gòu)化文本,多個(gè)患者的非結(jié)構(gòu)化文本構(gòu)成非結(jié)構(gòu)化文本集;
步驟1.2:利用正則表達(dá)式和停用詞詞典將非結(jié)構(gòu)化文本中的亂碼和不需要的符號(hào)、文字清洗去除;
步驟1.3:將清洗后的非結(jié)構(gòu)化文本的一部分內(nèi)容結(jié)構(gòu)化,抽取出多個(gè)患者的就診時(shí)間、病歷號(hào)、性別以及正文內(nèi)容構(gòu)成結(jié)構(gòu)化信息,多個(gè)患者的正文內(nèi)容構(gòu)成正文內(nèi)容集。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法中,所述步驟2包括:
步驟2.1:自定義病歷實(shí)體名、制定腫瘤領(lǐng)域特定實(shí)體名以及自定義通用詞性標(biāo)注標(biāo)準(zhǔn);
步驟2.2:從正文內(nèi)容集中提取部分正文內(nèi)容,根據(jù)自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行分詞和詞性標(biāo)注,獲得訓(xùn)練語(yǔ)料;根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型并對(duì)正文內(nèi)容集進(jìn)行分詞得到分詞數(shù)據(jù)集;
步驟2.3:根據(jù)訓(xùn)練語(yǔ)料和hmm模型構(gòu)建詞性標(biāo)注模型,將分詞數(shù)據(jù)集輸入到詞性標(biāo)注模型,通過viterbi算法得到詞性標(biāo)注數(shù)據(jù)集。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法中,所述步驟3包括:
步驟3.1:選取一組診療信息,根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則;
步驟3.2:提取詞性標(biāo)注數(shù)據(jù)集中每個(gè)詞性標(biāo)注數(shù)據(jù)的診療信息,并與結(jié)構(gòu)化信息合并構(gòu)成多元信息,多個(gè)患者的多元信息構(gòu)成多元信息組。
在本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法中,所述步驟4包括:
步驟4.1:將多元信息構(gòu)成患者的文本摘要;
步驟4.2:采用基于向量的索引結(jié)構(gòu),創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要,索相關(guān)詞時(shí),返回病歷號(hào)并根據(jù)病歷號(hào)從數(shù)據(jù)庫(kù)中抽取文本摘要。
本發(fā)明的方法將患者電子病歷中的文本內(nèi)容提取出來合并成非結(jié)構(gòu)化文本,并對(duì)非結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)清洗以獲得結(jié)構(gòu)化信息和正文內(nèi)容集;通過自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn)對(duì)正文內(nèi)容進(jìn)行標(biāo)注,獲得分詞數(shù)據(jù)集和詞性標(biāo)注數(shù)據(jù)集,并從詞性標(biāo)注數(shù)據(jù)集中提取重要信息與結(jié)構(gòu)化信息合并形成多元信息,將該多元信息作為文章摘要用于檢索系統(tǒng)中,可方便醫(yī)生更快速的查詢既往病歷并了解患者病情。
附圖說明
圖1為本發(fā)明的支持自定義實(shí)體的電子病歷檢索系統(tǒng)的結(jié)構(gòu)框圖;
圖2為本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法的流程圖;
圖3為本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法的分詞過程流程圖;
圖4為本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法的詞性標(biāo)注過程流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式加以詳細(xì)的說明。
如圖1所示為本發(fā)明的支持自定義實(shí)體的電子病歷檢索系統(tǒng)的結(jié)構(gòu)框圖,文本檢索的系統(tǒng)包括電子病歷文本預(yù)處理單元1、自定義實(shí)體識(shí)別單元2、實(shí)體合并提取單元3以及文本摘要檢索單元4。
電子病歷文本預(yù)處理單元1用于將患者電子病歷系統(tǒng)中的文本內(nèi)容提取出來合并成非結(jié)構(gòu)化文本,并對(duì)非結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)清洗以獲得結(jié)構(gòu)化信息和正文內(nèi)容集。自定義實(shí)體識(shí)別單元2用于自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn),并對(duì)正文內(nèi)容集的部分內(nèi)容進(jìn)行標(biāo)注獲得訓(xùn)練語(yǔ)料,根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型得到分詞數(shù)據(jù)集,根據(jù)訓(xùn)練語(yǔ)料和分詞后的數(shù)據(jù)集構(gòu)建詞性標(biāo)注模型并得到詞性標(biāo)注數(shù)據(jù)集。實(shí)體合并提取單元3用于選取一組診療信息,根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則,提取詞性標(biāo)注數(shù)據(jù)的診療信息內(nèi)容,并與結(jié)構(gòu)化信息合并構(gòu)成多元信息。文本摘要檢索單元4用于將多元信息構(gòu)成患者的文本摘要,創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要,檢索時(shí)返回文本摘要以供查看。
電子病歷文本預(yù)處理單元1包括:文本內(nèi)容提取器11、文本數(shù)據(jù)清洗器12以及結(jié)構(gòu)化數(shù)據(jù)提取器13。文本內(nèi)容提取器11用于從患者電子病歷系統(tǒng)中抽取出文本內(nèi)容,并將同一個(gè)患者的多個(gè)文本內(nèi)容合并成一個(gè)非結(jié)構(gòu)化文本,多個(gè)患者的非結(jié)構(gòu)化文本構(gòu)成非結(jié)構(gòu)化文本集。文本數(shù)據(jù)清洗器12用于利用正則表達(dá)式和停用詞詞典將非結(jié)構(gòu)化文本中的亂碼和不需要的符號(hào)、文字清洗去除。結(jié)構(gòu)化數(shù)據(jù)提取器13用于將清洗后的非結(jié)構(gòu)化文本的一部分內(nèi)容結(jié)構(gòu)化,例如抽取出多個(gè)患者的就診時(shí)間ti、病歷號(hào)ni、性別gi以及正文內(nèi)容ii構(gòu)成結(jié)構(gòu)化信息si=(ti,ni,gi,ii),i=1,2,…,n,其中n表示患者數(shù)量,多個(gè)患者的正文內(nèi)容構(gòu)成正文內(nèi)容集i=(i1,i2,…,in)。
自定義實(shí)體識(shí)別單元2包括:實(shí)體名自定義器21、自定義分詞器22以及自定義詞性標(biāo)注器23。實(shí)體名自定義器21用于自定義病歷實(shí)體名、制定腫瘤領(lǐng)域特定實(shí)體名以及自定義通用詞性標(biāo)注標(biāo)準(zhǔn)。本實(shí)施例中,根據(jù)對(duì)病歷文本的研究自定義了20種病歷實(shí)體名,同時(shí)針對(duì)腫瘤領(lǐng)域,制定了16種腫瘤領(lǐng)域特定實(shí)體名,以及18種通用詞性標(biāo)注標(biāo)準(zhǔn),具體定義如表1所示。
自定義分詞器22用于從正文內(nèi)容集i=(i1,i2,…,in)中提取部分正文內(nèi)容,根據(jù)表1中定義的自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn)對(duì)部分正文內(nèi)容進(jìn)行分詞和詞性標(biāo)注,獲得訓(xùn)練語(yǔ)料;采用線性條件隨機(jī)場(chǎng)算法根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型,根據(jù)分詞模型對(duì)正文內(nèi)容集進(jìn)行分詞得到分詞數(shù)據(jù)集p=(p1,p2,…,pn)。
自定義詞性標(biāo)注器23用于根據(jù)訓(xùn)練語(yǔ)料和hmm模型構(gòu)建詞性標(biāo)注模型,將分詞數(shù)據(jù)集輸入到詞性標(biāo)注模型,通過viterbi算法得到詞性標(biāo)注數(shù)據(jù)集z=(z1,z2,…,zn)。表1為自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn)表格。
實(shí)體合并提取單元3包括:實(shí)體規(guī)則自定義器31和復(fù)合實(shí)體合并提取器32。實(shí)體規(guī)則自定義器31用于選取一組診療信息,并根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則。具體實(shí)施時(shí),提取5大方面的診療信息,包括確診疾病(標(biāo)注為tdd)、患病部位(標(biāo)注為bp)、治療方案(標(biāo)注為tl)、腫瘤臨床tnm分期(標(biāo)注為tnm)、腫瘤臨床分級(jí)(標(biāo)注為cs),定義23條的病歷復(fù)合實(shí)體的構(gòu)建規(guī)則,如表2所示。
復(fù)合實(shí)體合并提取器32用于提取詞性標(biāo)注數(shù)據(jù)集z=(z1,z2,…,zn)中每個(gè)詞性標(biāo)注數(shù)據(jù)zi的5大方面的信息內(nèi)容fi=(tddi,bpi,tli,tnmi,csi),并與結(jié)構(gòu)化信息si=(ti,ni,gi,ii)合并構(gòu)成多元信息wi=(tddi,bpi,tli,tnmi,csi,ti,ni.gi,ii),多個(gè)患者的多元信息構(gòu)成多元信息組。表2病歷復(fù)合實(shí)體的構(gòu)建規(guī)則。
文本摘要檢索單元4包括:文本摘要生成器41和搜索引擎42。文本摘要生成器41用于將多元信息wi=(tddi,bpi,tli,tnmi,csi,ti,ni.gi,ii)構(gòu)成患者的文本摘要。搜索引擎42采用基于向量的索引結(jié)構(gòu),創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要。用戶進(jìn)行搜索時(shí)輸入待搜索內(nèi)容,搜索引擎返回患者的文本摘要以供查看。
如圖2所示為本發(fā)明的支持自定義實(shí)體的電子病歷檢索方法的流程圖。本發(fā)明的文本檢索的方法包括以下步驟:
步驟1:電子病歷文本預(yù)處理,將患者電子病歷系統(tǒng)中的文本內(nèi)容提取出來合并成非結(jié)構(gòu)化文本,并對(duì)非結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)清洗以抽取部分結(jié)構(gòu)化信息si=(ti,ni,gi,ii),i=1,2,…,n并獲得正文內(nèi)容集i=(i1,i2,…,in);
步驟2:自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn),并對(duì)正文內(nèi)容集的部分內(nèi)容進(jìn)行標(biāo)注獲得訓(xùn)練語(yǔ)料,根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型得到分詞數(shù)據(jù)集,根據(jù)訓(xùn)練語(yǔ)料和分詞后的數(shù)據(jù)集構(gòu)建詞性標(biāo)注模型并得到詞性標(biāo)注數(shù)據(jù)集;
步驟3:基于自定規(guī)則的實(shí)體合并提取,選取一組診療信息,根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則,提取詞性標(biāo)注數(shù)據(jù)的診療信息,并與結(jié)構(gòu)化信息合并構(gòu)成多元信息;
步驟4:文本摘要檢索,將多元信息構(gòu)成患者的文本摘要,創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要。用戶進(jìn)行搜索時(shí)輸入待搜索內(nèi)容,搜索引擎返回患者的文本摘要以供查看。
步驟1具體包括:
步驟1.1:文本內(nèi)容提取,從患者電子病歷系統(tǒng)中抽取出文本內(nèi)容,并將同一個(gè)患者的多個(gè)文本內(nèi)容合并成一個(gè)非結(jié)構(gòu)化文本,多個(gè)患者的非結(jié)構(gòu)化文本構(gòu)成非結(jié)構(gòu)化文本集;
步驟1.2:文本數(shù)據(jù)清洗,利用正則表達(dá)式和停用詞詞典將非結(jié)構(gòu)化文本中的亂碼和不需要的符號(hào)、文字清洗去除;
步驟1.3:結(jié)構(gòu)化數(shù)據(jù)提取,將清洗后的非結(jié)構(gòu)化文本的一部分內(nèi)容結(jié)構(gòu)化,抽取出多個(gè)患者的就診時(shí)間ti、病歷號(hào)ni、性別gi以及正文內(nèi)容ii構(gòu)成結(jié)構(gòu)化信息si=(ti,ni,gi,ii),i=1,2,…,n,多個(gè)患者的結(jié)構(gòu)化信息si=(ti,ni,gi,ii),i=1,2,…,n構(gòu)成結(jié)構(gòu)化信息矩陣s=(s1,s2,…,sn),多個(gè)患者的正文內(nèi)容構(gòu)成正文內(nèi)容集i=(i1,i2,…,in)。
步驟2具體包括:
步驟2.1:實(shí)體名自定義,自定義病歷實(shí)體名、制定腫瘤領(lǐng)域特定實(shí)體名以及自定義通用詞性標(biāo)注標(biāo)準(zhǔn);
具體實(shí)施時(shí),自定義了20種病歷實(shí)體名,同時(shí)針對(duì)腫瘤領(lǐng)域,制定了16種腫瘤領(lǐng)域特定實(shí)體名,以及18種通用詞性標(biāo)注標(biāo)準(zhǔn)。如表1所示。
步驟2.2:自定義分詞,從正文內(nèi)容集中提取部分正文內(nèi)容,根據(jù)自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行分詞和詞性標(biāo)注,獲得訓(xùn)練語(yǔ)料;根據(jù)訓(xùn)練語(yǔ)料構(gòu)建分詞模型并對(duì)正文內(nèi)容集進(jìn)行分詞得到分詞數(shù)據(jù)集;
分詞過程如圖3的分詞流程圖所示,具體包括:
步驟2.2.1:從正文內(nèi)容集i=(i1,i2,…,in)中提取部分正文內(nèi)容以一定格式進(jìn)行分詞與詞性標(biāo)注作為訓(xùn)練語(yǔ)料d;
步驟2.2.2:將訓(xùn)練語(yǔ)料d處理成crf訓(xùn)練需要的格式,根據(jù)訓(xùn)練語(yǔ)料d得到bmes形式文檔train.txt。構(gòu)建crf特征模板pattern.txt。采用crf算法得到分詞模型;構(gòu)建分詞模型的詳細(xì)流程如圖3所示。
步驟2.2.3:根據(jù)構(gòu)建好的分詞模型,對(duì)正文內(nèi)容集i=(i1,i2,…,in)分詞得到分詞數(shù)據(jù)集p=(p1,p2,…,pn)。
步驟2.3:自定義詞性標(biāo)注,根據(jù)訓(xùn)練語(yǔ)料構(gòu)建詞性標(biāo)注模型,將分詞數(shù)據(jù)集輸入到詞性標(biāo)注模型,通過viterbi算法得到詞性標(biāo)注數(shù)據(jù)集。
詞性標(biāo)注過程如圖4的詞性標(biāo)注流程圖所示,具體包括:
步驟2.3.1:根據(jù)訓(xùn)練語(yǔ)料d,得到hmm模型,h=(π,a,b),其中π是初始狀態(tài)分布矩陣,π=(p0,p1,…,p44),是各個(gè)詞性在一句話的第一個(gè)詞出現(xiàn)的概率;
a是轉(zhuǎn)移概率矩陣,
b是發(fā)射概率矩陣,
步驟2.3.2:分詞數(shù)據(jù)集p=(p1,p2,…,pn)作為輸入,載入模型h=(π,a,b),由viterbi算法得到詞性標(biāo)注數(shù)據(jù)集z=(z1,z2,…,zn)。
步驟3包括:
步驟3.1:實(shí)體規(guī)則自定義,選取一組診療信息,并根據(jù)診療信息定義病歷復(fù)合實(shí)體的構(gòu)建規(guī)則;
具體實(shí)施時(shí),選取5大方面的診療信息,包括確診疾病(標(biāo)注為tdd)、患病部位(標(biāo)注為bp)、治療方案(標(biāo)注為tl)、腫瘤臨床tnm分期(標(biāo)注為tnm)、腫瘤臨床分級(jí)(標(biāo)注為cs),定義23條的病歷復(fù)合實(shí)體的構(gòu)建規(guī)則,如表2所示。
步驟3.2:提取詞性標(biāo)注數(shù)據(jù)集z=(z1,z2,…,zn)中每個(gè)詞性標(biāo)注數(shù)據(jù)zi的5大方面的信息內(nèi)容fi=(tddi,bpi,tli,tnmi,csi),并與結(jié)構(gòu)化信息si=(ti,ni,gi,ii)合并構(gòu)成多元信息wi=(tddi,bpi,tli,tnmi,csi,ti,ni.gi,ii),多個(gè)患者的多元信息構(gòu)成多元信息組。
步驟4包括:
步驟4.1:文本摘要生成,將多元信息wi=(tddi,bpi,tli,tnmi,csi,ti,ni.gi,ii)構(gòu)成患者的文本摘要;
步驟4.2:構(gòu)建搜索引擎,采用基于向量的索引結(jié)構(gòu),創(chuàng)建多個(gè)索引用于分類別、分科室存放患者的文本摘要。
具體實(shí)施時(shí),在搜索引擎的基礎(chǔ)上創(chuàng)建多個(gè)索引,同一個(gè)科室的病歷放入一個(gè)索引中,供以用戶選擇要搜索的范圍。檢索相關(guān)詞時(shí),對(duì)病歷全文進(jìn)行搜索,返回病歷號(hào)ni,根據(jù)病歷號(hào)ni從數(shù)據(jù)庫(kù)中抽取出所得的文本摘要,即為每一個(gè)患者為多元信息wi=(tddi,bpi,tli,tnmi,csi,ti,ni.gi,ii)。
本發(fā)明的系統(tǒng)和方法將患者電子病歷中的文本內(nèi)容提取出來合并成非結(jié)構(gòu)化文本,并對(duì)非結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)清洗以獲得結(jié)構(gòu)化信息和正文內(nèi)容集;通過自定義實(shí)體名和通用詞性標(biāo)注標(biāo)準(zhǔn)對(duì)正文內(nèi)容進(jìn)行標(biāo)注,獲得詞性標(biāo)注數(shù)據(jù)集,并從詞性標(biāo)注數(shù)據(jù)集中提取重要信息與結(jié)構(gòu)化信息合并形成多元信息,將該多元信息作為文章摘要用于檢索系統(tǒng)中,醫(yī)生在搜索關(guān)鍵詞后,先返回文章摘要供醫(yī)生查看,可方便醫(yī)生更快速的查詢既往病歷并了解患者病情。
以上所述是本發(fā)明的具體實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也視為本發(fā)明的保護(hù)范圍。