欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

中醫(yī)醫(yī)案命名實體識別方法

文檔序號:40580560發(fā)布日期:2025-01-07 20:20閱讀:8來源:國知局
中醫(yī)醫(yī)案命名實體識別方法

本發(fā)明提出了中醫(yī)醫(yī)案命名實體識別方法。提升中醫(yī)醫(yī)案命名實體識別的準(zhǔn)確性與效率,適用于中醫(yī)醫(yī)案數(shù)據(jù)的數(shù)字化、標(biāo)準(zhǔn)化與智能化處理,進而推動中醫(yī)知識的廣泛應(yīng)用與傳播。


背景技術(shù):

1、中醫(yī)醫(yī)案作為中醫(yī)理論與實踐的重要記錄,包含了豐富的中醫(yī)知識,是中醫(yī)藥學(xué)術(shù)研究和臨床實踐的寶貴資源。然而,由于中醫(yī)醫(yī)案的文本內(nèi)容往往以自然語言表達,且包含大量專有名詞、古文用語及中醫(yī)專有術(shù)語,導(dǎo)致傳統(tǒng)的自然語言處理技術(shù)難以有效識別和提取其中的關(guān)鍵信息。

2、現(xiàn)有的命名實體識別方法主要基于規(guī)則匹配、統(tǒng)計學(xué)習(xí)或深度學(xué)習(xí)技術(shù),雖然這些方法在處理一般領(lǐng)域的命名實體識別任務(wù)中表現(xiàn)良好,但在中醫(yī)醫(yī)案領(lǐng)域,由于其特有的語境和復(fù)雜性,仍然存在較大的改進空間。例如,基于規(guī)則匹配的方法在處理中醫(yī)醫(yī)案時,由于規(guī)則編寫復(fù)雜且難以覆蓋所有情況,往往表現(xiàn)不佳;基于統(tǒng)計學(xué)習(xí)的方法則依賴大量標(biāo)注數(shù)據(jù),但中醫(yī)醫(yī)案領(lǐng)域的標(biāo)注數(shù)據(jù)相對稀缺;而基于深度學(xué)習(xí)的方法雖然具有較強的建模能力,但對語義理解和上下文關(guān)聯(lián)性的捕捉仍有待加強。

3、因此,需能夠充分利用中醫(yī)醫(yī)案文本特征的命名實體識別方法,以提高識別的準(zhǔn)確性和效率,從而推動中醫(yī)醫(yī)案的數(shù)字化、標(biāo)準(zhǔn)化和智能化處理。


技術(shù)實現(xiàn)思路

1、本發(fā)明旨在提供基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,以解決現(xiàn)有技術(shù)中存在的識別準(zhǔn)確性低、特征提取不充分等問題。

2、本發(fā)明的方法主要包括以下步驟:首先,醫(yī)案數(shù)據(jù)集的處理與分析,數(shù)據(jù)集來自于《清宮醫(yī)案研究》,選取600條高質(zhì)量醫(yī)案。對數(shù)據(jù)集進行人工標(biāo)注,并結(jié)合中醫(yī)藥命名實體提取數(shù)據(jù)集和中藥說明書實體識別數(shù)據(jù)集進行數(shù)據(jù)補充。數(shù)據(jù)集包括4個實體類型,分別為疾病(disease)、癥狀(symptom)、方藥(prescription)、劑量(dosage)。將數(shù)據(jù)集按照90%和10%的比例劃分為訓(xùn)練集和驗證集,訓(xùn)練集與驗證集的比例為9:1。對于訓(xùn)練樣本,進行了平移、翻轉(zhuǎn)、調(diào)整飽和度和對比度等一系列數(shù)據(jù)增強操作,以增加模型的泛化能力。本研究使用bio標(biāo)注法,b-x代表實體x的開頭,i-x代表實體x的中間部分,o表示不屬于任何類型的字符。

3、通過albert模型獲取中醫(yī)醫(yī)案文本中的字符和詞匯特征。為了充分利用這些特征,本發(fā)明提出了top-k注意力分數(shù)篩選機制,對字符特征和詞匯特征進行篩選,以保留與命名實體最相關(guān)的特征信息。接著,利用卷積神經(jīng)網(wǎng)絡(luò)(cnn)提取漢字的部首和筆畫特征,這些特征能夠捕捉漢字的細節(jié)信息,并與篩選后的字符和詞匯特征進行拼接。

4、為了進一步提高特征的表達能力,本發(fā)明引入了多尺度通道注意力模塊(ms-cam),通過對拼接后的特征進行多尺度處理,增強了特征的語義信息表達。融合后的特征輸入到雙向長短期記憶網(wǎng)絡(luò)(bilstm)中,利用其對序列數(shù)據(jù)的建模能力,捕捉中醫(yī)醫(yī)案文本中的上下文信息,最后通過條件隨機場(crf)層對bilstm的輸出結(jié)果進行修正,得到最優(yōu)的標(biāo)簽序列。

5、本發(fā)明的方法不僅能夠有效提升中醫(yī)醫(yī)案命名實體識別的準(zhǔn)確性,還能夠處理多種不同類型的命名實體,具有較強的魯棒性和通用性。



技術(shù)特征:

1.中醫(yī)醫(yī)案命名實體識別方法,其特征在于:包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟一:

3.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟二:

4.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟三:

5.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟四:

6.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟五

7.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟六


技術(shù)總結(jié)
本發(fā)明旨在提供基于部首與字符特征的中醫(yī)命名實體識別方法,包括以下步驟:首先,通過ALBERT模型獲取中醫(yī)醫(yī)案文本中的字符和詞匯特征;本發(fā)明引入一種Top?k注意力分數(shù)篩選機制,對字符特征和詞匯特征進行篩選,使用多尺度通道注意力模塊(MS?CAM),通過對拼接后的特征進行多尺度處理,增強了特征的語義信息表達。融合后的特征輸入到雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)中,利用其對序列數(shù)據(jù)的建模能力,捕捉中醫(yī)醫(yī)案文本中的上下文信息,最后通過條件隨機場(CRF)層對BiLSTM的輸出結(jié)果進行修正,得到最優(yōu)的標(biāo)簽序列。

技術(shù)研發(fā)人員:陳可澤,王衛(wèi)民
受保護的技術(shù)使用者:江蘇科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
林西县| 林西县| 启东市| 安岳县| 唐海县| 梨树县| 五台县| 凤山市| 定安县| 论坛| 苍溪县| 连州市| 塔城市| 平阳县| 都昌县| 常德市| 漯河市| 孝感市| 基隆市| 若尔盖县| 图木舒克市| 泽州县| 保定市| 同心县| 禹城市| 博白县| 乌什县| 高邑县| 许昌市| 霍林郭勒市| 漳平市| 汝城县| 康乐县| 青河县| 大宁县| 铅山县| 纳雍县| 和林格尔县| 东源县| 大理市| 蒙山县|