欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于中文電子病歷聯(lián)合抽取的模型

文檔序號:40535940發(fā)布日期:2025-01-03 10:55閱讀:5來源:國知局
一種用于中文電子病歷聯(lián)合抽取的模型

本發(fā)明涉及計算機,尤其涉及電子病歷關系抽取技術,具體為一種基于global?context?mechanism的中文電子病歷關系聯(lián)合抽取方法。


背景技術:

1、實體關系抽取是自然語言處理中的重要任務,其在命名實體識別任務的基礎上,進一步從文本中提取出兩個實體之間的關系。實體關系抽取作為文本挖掘和信息抽取的核心任務,其主要通過對文本信息建模,自動抽取出實體對之間的語義關系,提取出有效的語義知識。

2、在醫(yī)學領域,隨著電子病歷和臨床信息的快速發(fā)展,醫(yī)生需要基于信息的手段從大量的電子病歷(emrs)中快速、準確地獲取與患者相關的信息,以提高工作效率。emrs主要有兩種類型,分別是門診病歷和住院病歷。門診病歷通常簡短,信息量較少,醫(yī)生可以很容易地從中獲取所需信息;住院病歷則包含大量信息,例如住院記錄、病程記錄、醫(yī)囑單、病例數據等。其中,病程記錄是關鍵部分,關注患者現(xiàn)有疾病的發(fā)生、演變和治療,包含大量醫(yī)學實體,是emrs的關鍵研究內容。

3、傳統(tǒng)上,中文電子病歷關系三元提取被研究為兩個獨立的任務:實體提取和關系預測。早期工作(zelenko等,2002;chan?and?roth,2011)在抽取所有實體后,采用流水線方法對實體對進行關系分類。為了建立這兩個任務之間的相關性,聯(lián)合模型受到了廣泛的關注。先前基于特征的聯(lián)合模型(yu和lam,2010;li?and?ji,2014;miwa和sasaki,2014;ren等人,2017)需要一個復雜的特征工程過程,并依賴于各種nlp工具,手工操作繁瑣。后來將聯(lián)合抽取任務轉化為序列標注任務,但未能解決重疊問題。

4、為了解決上述技術問題本文提出了基于global?context?mechanism中文電子病歷關系聯(lián)合抽取方法。


技術實現(xiàn)思路

1、本發(fā)明的目的在于有效解決關系重疊問題,并針對現(xiàn)有中文電子病歷技術中的局限性,特別是誤差傳播和對醫(yī)療文本信息未能充分利用的現(xiàn)象,提出了一種基于全局上下文機制(global?context?mechanism)的中文電子病歷聯(lián)合抽取技術;通過引入全局上下文機制,該技術能夠更準確地捕捉醫(yī)療文本中的復雜關系,提高信息抽取的準確性和全面性,從而更好地支持臨床決策和醫(yī)學研究。

2、為了解決上述技術問題,本發(fā)明采用的技術方案為:

3、一種用于中文電子病歷聯(lián)合抽取的模型,該模型包括編碼層encoder、雙向實體對抽取層biepe、關系抽取層re;其中編碼層encoder的輸入用于輸入語句,編碼層encoder的輸出端與雙向實體對抽取層biepe的輸入端相連接,雙向實體對抽取層biepe的輸出端與關系抽取層re的輸入端相連接,關系抽取層re的輸出端輸出關系三元組。

4、編碼層encoder的內部結構包括預訓練語言模型bert,雙向長短記憶網絡bilstm,全局上下文機制global?context?mechanism;

5、其中bert的輸入用于輸入語句,bert的輸出端與bilstm的輸入端相連接,bilstm的輸出端與global?context?mechanism的輸入端相連接,global?context?mechanism的輸出端輸出主語表示,賓語表示和關系表示。

6、雙向實體對抽取層biepe的內部結構包括主語標記模塊subject?tagger、賓語標記模塊object?tagger、基于主語的賓語標記模塊subject-based?object?tagger、基于賓語的主語標記模塊object-based?subject?tagger;

7、其中主語標記模塊subject?tagger的輸入用于主語表示,subject?tagger的輸出端與subject-based?object?tagger的輸入端相連接,subject-based?object?tagger的輸出端輸出主語-賓語對;

8、賓語標記模塊object?tagger的輸入用于賓語表示,object?tagger的輸出端與object-based?subject?tagger的輸入端相連接,object-based?subject?tagger的輸出端輸出賓語-主語對。

9、關系抽取層re的內部結構包括基于關系的雙仿射模塊biaffine-based?re,其中biaffine-basedre的輸入用于所有可能的主語-賓語對,biaffine-based?re的輸出端輸出關系三元組。

10、模型在工作時,采用以下步驟:

11、步驟1:對數據進行預處理,

12、步驟2:將預處理好的數據輸入到bert中得到文本表示;

13、步驟3:將文本表示送入bilstm中,得到前向lstm和后向lstm;

14、步驟4:將前向lstm和后向lstm送入到全局上下文機制global?contextmechanism中,整合句子信息,得到更完整的上下文信息;

15、步驟5:利用上下文信息并行獲取主語和賓語;

16、步驟6:利用主語以及主語的詞性匹配賓語,同樣利用賓語和賓語的詞性匹配主語;

17、步驟7:利用biaffine對主語-賓語對進行判別,得到最終的實體關系三元組;

18、通過以上步驟對中文電子病歷進行關系抽取。

19、步驟1具體包括以下步驟:

20、步驟1-1:將獲取到的數據集進行預處理,去除文本中的特殊字符;使用分詞工具對文本數據進行分詞處理,并獲取分詞結果中詞對應的詞性;去除數據中非動詞、名詞、形容詞和副詞詞性的詞;

21、步驟2具體包括以下子步驟:

22、步驟2-1:將預處理后的數據輸入到預訓練語言模型bert中,將文本轉換為文本編碼;

23、步驟3具體包括以下子步驟:

24、步驟3-1:將獲取到的文本編碼輸入到bilstm層中,獲取到前向lstm和后向的lstm,計算公式如下:

25、

26、其中,指的是第t個位置的前向lstm句子表示;指的是前向lstm;指的是第t-1的前向lstm的句子表示;zt指的是第t個位置的句子表示;指的是第t個位置的后向lstm句子表示;指的是后向lstm;指的是第t+1個位置的前向lstm句子表示。

27、步驟4具體包括以下子步驟:

28、步驟4-1:將獲取到的bilstm的第一個和最后一個單元格的句子表示進行合并,得到將整個句子表示與ht進行合并,得到ot=g||ht;

29、其中,g指的是整個句子表示;指的是第一個單元格的句子表示;指的是第n個單元格的句子表示;

30、步驟4-2:利用門控機制生成ith和itg,具體計算公式如下:

31、rh=whot+bh

32、rg=wgot+bg

33、ith=sigmoid(rth)

34、itg=sigmoid(rtg)

35、其中wh和wg∈r2d×d;rtg、rth分別代表全局信息g和當前句子表示ht,sigmoid為激活函數;ith指的是分配給ht的權重,itg指的是分配給g的權重,rh指的是ht的句子表示,wh和wg指的是權重,ot指的是融合了全局信息的第t個位置的句子表示,bh和bg指的是偏置向量;

36、步驟4-3:通過ht和g融合ith和itg生成全局上下文信息,計算公式如下:

37、

38、其中表示全局上下文信息,⊙表示元素乘積;

39、步驟5具體包括以下子步驟:

40、步驟5-1:將獲取到的全局上下文信息,生成三種不同的標記表示序列,作為主語、賓語和關系的上下文表示,分別為ois,oio,oir,計算公式如下:

41、ois=wsoi+bs

42、oio=wooi+bo

43、oir=wroi+br

44、其中是可訓練矩陣,是偏置向量,dh是表示維度;

45、ws指的是主語權重,oi指的是第i個位置的句子表示,bs指的是主語偏置;wo指的是賓語權重,bo指的是賓語偏置;wr指的是關系權重,br指的是關系偏置。

46、步驟6具體包括以下子步驟:

47、步驟6-1:subject?tagger是一個基于二進制標記的模塊,從輸入句子中提取所有的主語,對于輸入句子中的每個主語,分配兩個概率,用于表示起始和結束標志的可能性,概率計算公式如下:

48、pi,starts=σ(wstartsois+bstarts)

49、pi,ends=σ(wendsois+bends)

50、其中pi,starts和pi,ends分別表示第i個標記作為主語起始和結束的概率,和是一個可訓練矩陣,表示權重,ois表示第i個標記的主語句子表示,bstarts∈r1和bends∈r1是偏置向量;σ表示sigmoid激活函數;

51、步驟6-2:subject-based?object?tagger用于在提取到的主語的基礎上提取所對應的賓語;利用獲取到的詞性信息輔助主語匹配相對應的賓語,同樣分配兩個概率,用于表示相對應賓語的起始和結束標志的可能性,概率計算公式如下:

52、pi,starto=σ(wstarto(oio*vs_ks)+bstarto)

53、pi,endo=σ(wendo(oio*vs_ks)+bendo)

54、其中vs_ks表示融合了詞性的第k個主語表示,pi,starto和pi,endo分別表示與第k個主語相關的賓語的起始和結束標記的概率;*表示對應元素相乘,和是一個可訓練矩陣表示權重,bstarto∈r1和bendo∈r1是一個偏置向量,oio表示第i個標記的賓語句子表示,σ表示sigmoid激活函數;

55、步驟7具體包括以下子步驟:

56、步驟7-1:biepe模塊輸出許多的主語-賓語對,利用biaffine模塊對每個主語-賓語對進行判別,得到最終的關系三元組,計算公式如下:

57、vs_kr=maxpool(os_k_startr,...,os_k_endr)

58、vo_jr=maxpool(oo_j_startr,...,oo_j_endr)

59、

60、其中vs_kr和vo_jr表示兩個實體的表示向量,os_k_startr和os_k_endr第k個主語的開始和結束向量表示,oo_j_startr和oo_j_endr表示第j個賓語的開始和結束向量表示,pir表示(sk,oj)具有第i個關系的可能性,是第i個關系的參數矩陣,maxpool是最大池化操作。

61、與現(xiàn)有技術相比,本發(fā)明具有如下技術效果:

62、1)與傳統(tǒng)的聯(lián)合抽取模型相比,本發(fā)明通過加入global?context?mechanism給模型提供了更多的文本語境信息,包括句子之間的關聯(lián)和和邏輯連貫性,加強了模型對電子病歷文本的理解,提高了模型對電子病歷中實體關系抽取的性能;

63、2)本發(fā)明中添加主語詞性來幫助主語匹配賓語,添加賓語詞性幫助匹配主語,使模型能夠更好地捕捉到實體之間的關系,使模型能夠更準確地理解文本內容,提高關系抽取的準確性。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
历史| 新蔡县| 陇川县| 泗水县| 津南区| 凤翔县| 荃湾区| 姜堰市| 玛多县| 琼结县| 永春县| 当涂县| 航空| 中山市| 安福县| 柏乡县| 镇安县| 奉新县| 祁阳县| 石泉县| 屏东县| 涿鹿县| 鹤山市| 威远县| 开江县| 青州市| 梨树县| 疏附县| 雷波县| 威宁| 安陆市| 右玉县| 盐边县| 萨迦县| 广昌县| 龙海市| 南木林县| 浑源县| 依安县| 土默特左旗| 和静县|