一種基于句法詞向量的生物醫(yī)學事件觸發(fā)詞識別方法
【技術領域】
[0001] 本發(fā)明設及一種識別方法,更具體地說,設及一種基于句法詞向量的生物醫(yī)學事 件觸發(fā)詞識別方法。
【背景技術】
[0002] 隨著系統生物學的快速發(fā)展,揭示生物分子、細胞、組織等之間的復雜關系的需求 愈加迫切。同時,公開發(fā)表的生物醫(yī)學文獻也正在呈現爆炸式的增長態(tài)勢,如何從大量的生 物醫(yī)學文獻中挖掘生物分子、細胞、組織等之間的復雜關系而不是傳統的簡單的二元關系 (如蛋白質-蛋白質關系、藥物-藥物關系等)已經成為現代生物醫(yī)學文本挖掘領域的研究 熱點。
[0003] 目前,大多數生物醫(yī)學事件抽取方法大都將該任務分為兩個子任務:觸發(fā)詞識別 與元素檢測,而觸發(fā)詞識別在整個任務中起著決定性的作用,觸發(fā)詞識別的錯誤將會累積 到元素檢測過程中,所W提高觸發(fā)詞識別的性能,對于整個生物醫(yī)學事件抽取來說至關重 要。目前,觸發(fā)詞識別方法主要包括W下兩類:
[0004] 一類是基于規(guī)則匹配的方法,該方法通過對數據集中的事件特征進行分析,手動 構造一些用于識別觸發(fā)詞的模式或者正則表達式,然后用自定義的模式或者正則表達式匹 配滿足該模式的觸發(fā)詞。此方法雖然在早期觸發(fā)詞識別研究中起到了一定的作用,但是幾 乎不可能窮舉所有可能的模式,而且對于在訓練集中沒有出現過的模式無法預知,導致系 統泛化性能比較差,不能得到廣泛的應用。
[0005] 另一類是基于機器學習的方法,該方法將觸發(fā)詞識別問題看作一個多元分類問 題,將一個詞分類為幾種事件類型中的一種,該方法重點在于分類模型特征向量的構建,特 征向量的好壞決定了分類模型的優(yōu)劣。而特征向量的構建主要取決于對于該任務的理解, 選擇那些對于識別觸發(fā)詞信息有用的特征,構建特征向量,并利用分類器(如支持向量機、 最大滴等)進行分類。該方法明顯優(yōu)于基于規(guī)則匹配的方法,得到了廣泛的應用,但是仍然 存在一些缺點,比較依賴于標注數據,當標注數據比較少的時候,無法保證其性能;而且,特 征的構建主要是針對當前數據集手動構造,人工干預比較大,泛化性能不好,人工構建的特 征向量維度高并且稀疏,訓練比較耗時。
[0006] 綜上所述,如何減少人工干預,提高觸發(fā)詞識別的泛化性能,是生物醫(yī)學事件觸發(fā) 詞識別迫切需要解決的問題。
【發(fā)明內容】
[0007] 為了克服現有技術中存在的不足,本發(fā)明目的是提供一種基于句法詞向量的生物 醫(yī)學事件觸發(fā)詞識別方法。該方法利用大量可獲得未標注數據訓練詞向量,精確捕獲觸發(fā) 詞的語義信息,并有效地降低了輸入特征維度;同時利用深度學習模型學習輸入特征之間 的隱含特征,從而更加精確地進行分類;最后,在訓練的過程中對詞向量信息進行微調,使 得詞向量信息更加適合該數據集,有效地提升了模型的泛化能力W及觸發(fā)詞識別性能。
[000引為了實現上述發(fā)明目的,解決現有技術中所存在的問題,本發(fā)明采取的技術方案 是;一種基于句法詞向量的生物醫(yī)學事件觸發(fā)詞識別方法,包括W下步驟:
[0009] 步驟1、對未標注數據進行預處理;選擇1997年到2009年期間所有的化bmed摘 要,并對其進行預處理,具體包括W下子步驟:
[0010] (a)、利用生物領域專用的GeniaSentenceSpliter分句工具對化bmed摘要進行 分句處理;
[001U 化)、利用生物領域專用的GD巧句法分析工具對子步驟(a)中已分句的化bmed摘 要進行句法分析;
[001引步驟2、基于句法上下文信息的詞向量訓練;在觸發(fā)詞識別任務中,識別的對象基 本是動詞或者起動詞性質作用的詞,不能只是簡單地利用詞袋上下文信息,而更多地需要 利用句法上下文信息來捕獲觸發(fā)詞的精確語義;該里,使用改進版的word2vec,利用GDep 句法上下文信息預測目標詞,最終獲得基于GDep句法上下文信息的詞向量,從而可W從 大量的未標注數據中更加精確地捕獲觸發(fā)詞的語義信息;在詞向量的訓練過程中,采用 skip-gram模型進行訓練,并設置過濾出現次數少于50次的稀疏詞W及詞向量維度設置為 200 維;
[0013] 步驟3、候選觸發(fā)詞詞典的構建;利用訓練集中出現的所有觸發(fā)詞構建觸發(fā)詞詞 典,只對在觸發(fā)詞詞典中出現的詞構建相應的特征向量進行訓練,該樣雖然會損失一些召 回率,但是會在準確率上作出補償,具體包括W下子步驟:
[0014] (a)、考慮到數據集中觸發(fā)詞大多數是由一個單詞組成的,而多個單詞組成的觸發(fā) 詞不方便進行識別,所W,只選擇訓練集中只有一個單詞組成的觸發(fā)詞加入到候選詞典;
[0015] 化)、對候選詞典中的詞進行詞形還原W及詞干化處理,用于對意思相近但是詞形 不同的詞進行識別;
[0016] 步驟4、觸發(fā)詞語義特征向量的構建,具體包括W下子步驟:
[0017] (a)、對于目標詞滑動窗口內的所有詞對應的詞向量進行連接,表示該目標詞對應 的特征向量,取滑動窗口大小為5 ;
[001引 化)、如果在滑動窗口內的詞的個數小于滑動窗口大小,采用詞向量中的一個特殊 字符Vs"與對應的詞向量進行填充;
[0019] 步驟5、深度學習模型的訓練;采用去噪找式自編碼(SDA)深度學習模型進行訓 練,并使用深度學習工具化eano加W實現,具體包括W下子步驟:
[0020] (a)、非監(jiān)督預訓練;當深度學習模型層數較多時,會發(fā)生梯度彌散現象,即誤差傳 遞到前面幾層時較小,對于參數的更新幾乎不起作用,故采用去噪找式自編碼神經網絡模 型,利用無標簽數據進行非監(jiān)督預訓練的方式對模型參數進行初始化,初始化后的參數,在 全局最優(yōu)解附近,縮短訓練過程的收斂時間;首先,對無標簽數據進行特征自動學習,學習 輸入的隱含特征表示,通過公式(1)構建輸入隱含層的輸出值,
[0021] Hi(X) =S(胖12 ?x+bi2) (1)
[0022] 式(1)中;S表示神經單元節(jié)點的激活函數,Wi2表示第一層與第二層之間的參數 矩陣,bi2表示偏置項,X表示神經網絡模型的輸入,Hi(X)表示輸入隱含層的輸出值,然后, 再利用一個解碼層輸出通過公式(2)對輸入值重構,
[0023] &(x) =s(r12?Hi(x)+b'12) (2)
[0024] 式似中;b'。為b。的轉置,W'。為W。的轉置,H2(x)表示對輸入值的重構,并 通過隨機梯度下降算法對公式(2)中的損失函數進行優(yōu)化,得到模型參數0,
[0025] (3)
[0026] 式(3)中;L表示神經網絡模型的輸入與輸出之間誤差的平方和,其中L(x,t)= I&(X)-XII2, 0表示模型參數,N表示樣本個數;通過非監(jiān)督預訓練初始化好了第一層與 第二層之間的參數矩陣,將隱含層當做下一個自編碼神經網絡的輸入,重復上述操作便可W對各層的參數完成初始化,初始化后的參數在全局最優(yōu)解附近,縮短了訓練過程的收斂 時間;
[0027] 化)、監(jiān)督微調:利用步驟(a)將預訓練好的參數對模型進行參數初始化,然后利 用有標簽數據進行訓練,并對參數進行微調,微調過程中優(yōu)化的損失函數通過公式(4)表 示,
[002引
[0029] 式(4)中;L(x,t) =||H2(x)-〇|I2,其中0是模型輸出的類別信息,A是正則化因 子,0表不模型參數,N表不樣本個數;
[0030] (C)、詞向量信息微調;在訓練過程中,通過隨機梯度下降算法對輸入的詞向量信 息進行微調,用于詞向量信息適合該數據集,得到好的結果。
[0031] 步驟6、生物醫(yī)學事件觸發(fā)詞識別;利用步驟5訓練得到深度學習模型,在未標注 數據上進行測試,識別未標注數據中的觸發(fā)詞。
[0032] 本發(fā)明有益效果是;一種基于句法詞向量的生物醫(yī)學事件觸發(fā)詞識別方法,包括 W下步驟;1、對未標注數據進行預處理,2、基于句法上下文信息的詞向量訓練,3、候選觸發(fā) 詞詞典的構建,4、觸發(fā)詞語義特征向量的構建,5、深度學習模型的訓練,6、生物醫(yī)學事件觸 發(fā)詞的識別,與已有技術相比,本發(fā)明利用大量可獲得未標注數據訓練詞向量,精確捕獲觸 發(fā)詞的語義信息,并有效地降低了輸入特征維度;同時利用深度學習模型學習輸入特征之 間的隱含特征,從而更加精確地進行分類;最后,在訓練的過程中對詞向量信息進行微調, 使得詞向量信息更加適合該數據集,有效地提升了模型的泛化能力W及觸發(fā)詞識別性能。
【附圖說明】
[0033] 圖1是本發(fā)明方法步驟流程圖。
[0034] 圖2是Gdep詞向量微平均F1值與普通詞向量微平均F1值隨迭代次數變化對比 圖。
[0035] 圖3是詞向量微調宏平均F1值與詞向量固定宏平均F1值隨迭代次數變化對比 圖。
[0036] 圖4是詞向量微調微平均F1值與詞向量固定微平均F1值隨迭代次數變化對比 圖。
[0037] 圖5是本發(fā)明方法與Pyysalo方法實驗結果對比圖。
[003引圖6是本發(fā)明方法句法分析樹示意框圖。
【具體實施方式】
[0039] 下面結合附圖對本發(fā)明作進一步說明。
[0040] 如圖1所示,一種基于句法詞向量的生物醫(yī)學事件觸發(fā)詞識別方法,包括W下步 驟:
[004U 步驟1、對未標注數據進行預處理;選擇1997年到2009年期間所有的化bmed摘 要,并對其進行預處理,具體包括W下子步驟:
[004引 (a)、利用生物領域專用的GeniaSentenceSpliter分句工具對化bmed摘要進行 分句處理;
[0043] 化)、利用生物領域專用的GDep句法分析工具對子步驟(a)中已分句的 化bmed摘要進行句法分析;W句子"Le址otrieneB4stimulatesc-fosandc-jun genetranscriptionandAP-1bindingactivityinhumanmonocytes."為例說明,最終 的句法分析樹示意框圖如圖6所示。
[0044] 步驟2、基于句法上下文信息的詞向量訓練;在觸發(fā)詞識別任務中,識別的對象基 本是動詞或者起動詞性質作用的詞,不能只是簡單地利用詞袋上下文信息,而更多地需要 利用句法上下文信息來捕獲觸發(fā)詞的精確語義;該里,使用改進版的word2vec,利用GDep 句法上下文信息預測目標詞,最終獲得基于GDep句法上下文信息的詞向量,從而可W從大 量的未標注數據中更加精確地捕獲觸發(fā)詞的語義信息;訓練向量過程中利用的GDep依存 句法上下文信息如