本發(fā)明屬于自然語言處理、命名實體識別,尤其是一種基于層疊網(wǎng)格結(jié)構(gòu)信息增強的中文命名實體識別方法。
背景技術(shù):
1、近年來,深度學習技術(shù)在命名實體識別領(lǐng)域得到了廣泛應用。huang等人采用雙向長短期記憶網(wǎng)絡bi-lstm作為編碼器學習字符的上下文表示,使用條件隨機場(crf)作為解碼器來提取實體。cao等人提出基于卷積神經(jīng)網(wǎng)絡(cnn)的模型,采用迭代擴張卷積作為編碼器來提取特征,有效避免了卷積層數(shù)過多導致的過擬合問題。這些方法均聚焦于提升字符級的特征提取能力,它們在處理文本時往往只關(guān)注單個字符或字符序列,而忽略了詞匯或詞匯序列的信息。然而,在命名實體識別任務中,這些詞匯信息通常是非常重要的。例如,一個完整的實體名稱可能由多個單詞組成,而基于字符的方法可能無法準確地識別出這樣的實體。而基于單詞的命名實體識別方法一般是先進行分詞,再對獲得的詞序列進行實體標記。該方法會導致由于分詞錯誤而影響到后續(xù)的實體標記過程。對此,許多方法已經(jīng)表明,基于字符的方法要優(yōu)于基于單詞的方法。
2、在中文命名實體識別中,zhang和yang首次提出基于詞匯信息增強的中文命名實體識別模型—lattice?lstm,該模型使用的字符-單詞格結(jié)構(gòu)將字符序列與詞典匹配的潛在單詞一起編碼結(jié)合,避免了單詞分割錯誤造成的錯誤傳播,提高了中文命名實體識別性能。但因每個字符融合的單詞數(shù)目不一致而無法并行化,導致計算性能低下,并且由于lstm本身的結(jié)構(gòu),使得模型僅能依靠前一步的信息輸入,無法利用全局信息。gui等人提出lr-cnn模型,使用cnn整合詞匯信息實現(xiàn)了并行化處理,并且引入的重思考機制能夠考慮全局詞匯信息。sui和gui等人提出了基于圖網(wǎng)絡模型的詞匯增強方法,利用圖神經(jīng)網(wǎng)絡實現(xiàn)字符-單詞信息的聚合。這些方法相比于lattice-lstm速度都有所提升,但仍然計算復雜,且不具備可遷移性。qiu等人提出基于transformer結(jié)構(gòu)的flat模型,通過自注意力機制捕捉長距離依賴,解決了并行計算和全局依賴問題。mengge等人提出的plte模型也使用了transformer作為編碼器,并通過多孔機制增強局部建模能力。雖然后續(xù)這些詞匯增強方法解決了詞典引入過程中的并行計算問題,并憑借注意力機制建模全局詞匯信息,但它們在處理長文本時都會因匹配到更多的詞匯而產(chǎn)生長輸入序列,導致在實際應用中需要進行序列截斷或啟發(fā)式選擇部分詞匯,這兩種方法都會造成信息損失。為此,需要設計一種新的詞匯增強方法來克服現(xiàn)有方法的局限性。
3、此外,一些研究人員也嘗試引入字形、字音等信息來提升中文命名實體識別模型的文本表征能力。dong等人首次在中文命名實體識別中引入字形信息,通過bi-lstm提取字形嵌入并與字符嵌入結(jié)合使用。崔少國等人則將漢字圖像特征和五筆字型編碼融合,用于中文電子病歷數(shù)據(jù)的命名實體識別。mai等人將漢字語音特征與詞典信息結(jié)合,幫助消除實體邊界歧義。這些方法僅將字形、字音等信息作為字符特征的補充信息,沒有考慮到實體在這些不同粒度上的關(guān)聯(lián)性。
技術(shù)實現(xiàn)思路
1、本發(fā)明解決了現(xiàn)存的基于字符-單詞格結(jié)構(gòu)的詞匯信息增強方法在處理長文本時,由于單詞數(shù)量過多導致輸入序列增長,迫使模型裁剪輸入序列或篩選部分詞匯,造成的信息損失問題,并且通過將實體在多個粒度(字形、字符和詞匯)上的語義信息進行融合,增強文本表征能力,提升了實體識別準確率。
2、本發(fā)明是基于層疊網(wǎng)格結(jié)構(gòu)信息增強的中文命名實體識別方法。首先,在基于層疊網(wǎng)格的單詞融合模塊中,通過層疊網(wǎng)格結(jié)構(gòu)和層次化壓縮感知,在容納更多詞匯向量的同時實現(xiàn)詞向量的壓縮和融合,該過程既保留了全部的詞匯信息,又避免了信息損失。并且通過解耦詞匯融合與上下文特征編碼過程減少了融合過程中不必要的字符-字符和單詞-單詞之間的注意力計算。然后,考慮到實體在字形、字符和單詞三種不同粒度上的關(guān)聯(lián)性,提出了多粒度融合模塊,通過多重交叉注意力機制來捕獲實體在多粒度上的關(guān)聯(lián)性特征,增強實體的上下文表征能力。最后,提出基于雙聯(lián)協(xié)同的實體識別模塊,通過在候選實體與最終的實體預測標簽之間構(gòu)建軟標簽約束,實現(xiàn)多任務協(xié)同優(yōu)化,并依靠在標簽分類任務中應用全量樣本,避免了實體判別錯誤造成的錯誤傳播,提升了實體識別準確率。與上述的其他發(fā)明相比,本發(fā)明能夠在避免信息損失的情況下,更好地通過單詞信息來增強實體邊界以及充分利用多粒度信息(字形、字符和單詞)提升文本的向量表征能力,并且通過提出的命名實體識別模塊進一步提升了實體識別準確率。從而在準確率、召回率等評價指標中表現(xiàn)出較好性能。
3、為實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案是:
4、一種基于層疊網(wǎng)格結(jié)構(gòu)信息增強的中文命名實體識別方法,包括基于層疊網(wǎng)格的單詞融合模塊、基于交叉注意力的多粒度融合模塊和基于雙聯(lián)協(xié)同的實體識別模塊,具體方法包括以下步驟:
5、步驟s1、在基于層疊網(wǎng)格的單詞融合模塊中,構(gòu)建層疊網(wǎng)格結(jié)構(gòu)來存儲與句中字符相匹配的所有單詞向量,使用層次化壓縮感知對詞向量信息先進行壓縮再利用注意力機制來實現(xiàn)字符和單詞的向量融合;
6、步驟s2、在基于交叉注意力的多粒度融合模塊中使用多重交叉注意力對融合后的單詞向量序列、經(jīng)字形嵌入方法獲得的字形序列向量和字符向量序列進行聯(lián)合學習,以捕獲實體在多粒度上的關(guān)聯(lián)性特征;
7、步驟s3、通過基于雙聯(lián)協(xié)同的實體識別模塊識別出待抽取的實體和判別其所屬的分類。
8、本發(fā)明技術(shù)方案的進一步改進在于:步驟s1具體步驟為:
9、步驟s1.1對句子使用字符嵌入和單詞嵌入,獲得句子的字符向量序列和待匹配的單詞向量序列;
10、步驟s1.2構(gòu)建多層的層疊網(wǎng)格結(jié)構(gòu)來容納單詞向量序列;
11、步驟s1.3應用層次化壓縮感知對單詞向量信息進行逐層壓縮,并利用使用旋轉(zhuǎn)式位置編碼的多頭注意力實現(xiàn)字符與單詞之間的向量融合。
12、本發(fā)明技術(shù)方案的進一步改進在于:步驟s1.1具體方法為:
13、給定一個句子x=(x1,x2,...,xn),其中n為句子長度,通過上下文詞嵌入得到句子x的字符向量序列表示h:
14、h=(h1,...,hn)=embedding(x1,...,xn)?????(1)
15、其中embedding()表示使用預訓練模型bert的上下文詞嵌入,hi為單個字符的向量表示;
16、對于句子x,對句子中的字符逐個使用詞典樹w_t進行單詞匹配,獲得單詞序列,然后使用詞向量查找表rw獲得對應的單詞向量序列其中is和ie分別表示單詞在句子中的起始和結(jié)束位置,為單詞的向量表示,m為單詞數(shù)量;
17、本發(fā)明技術(shù)方案的進一步改進在于:步驟s1.2具體方法為:
18、在獲得句子的單詞向量序列wo后,構(gòu)建層疊網(wǎng)格結(jié)構(gòu),其維度大小為rl*l*l,其中l(wèi)為當前批次樣本中句子長度的最大值;該結(jié)構(gòu)能夠容納的最大單詞數(shù)量為該結(jié)構(gòu)所采用的多層堆疊模式使得單詞向量能夠與序列中的字符向量子序列逐一對齊,方便后續(xù)的單詞向量壓縮過程。
19、本發(fā)明技術(shù)方案的進一步改進在于:步驟s1.3具體方法為:
20、對詞向量進行壓縮,壓縮過程包括內(nèi)部壓縮和邊界壓縮,內(nèi)部壓縮為對詞向量進行逐層壓縮,將壓縮后的詞向量分配到單詞的所有組成字符上;邊界壓縮將詞向量信息壓縮至單詞的左右邊界,壓縮后的詞向量用于增強單詞的首尾邊界;將內(nèi)部壓縮和邊界壓縮得到的向量進行合并,在多頭注意力機制的引導下實現(xiàn)與字符向量的融合,融合后的詞向量包含來自字符-單詞之間的成對匹配信息和字符序列與單詞序列之間的全局特征信息。
21、本發(fā)明技術(shù)方案的進一步改進在于:內(nèi)部壓縮具體方法為:首先初始化一個與字符向量序列具有相同維度的單位向量序列u=(u1,...,un),然后將u與層疊網(wǎng)格結(jié)構(gòu)中的單詞向量序列進行逐一匹配計算:
22、wif=uiwig?????(2)
23、得到逐字符的壓縮向量
24、邊界壓縮具體方法為:將單位向量序列與多層網(wǎng)格結(jié)構(gòu)疊加后的單詞向量序列進行頭、尾邊界匹配計算:
25、
26、得到壓縮后的頭尾邊界詞向量ws和we;
27、將wf、ws和we進行連接得到的單詞序列hw與句子的字符向量序列h通過線性變換獲得用于注意力計算的查詢矩陣q、鍵矩陣k和值矩陣v:
28、[q,k,v]=[hωq,hwωk,hwωv]???????(5)
29、其中ωq、ωk和ωv均為可學習的參數(shù)矩陣。
30、本發(fā)明技術(shù)方案的進一步改進在于:注意力計算時為保留輸入序列的位置信息引入位置編碼,使用旋轉(zhuǎn)位置編碼rope作為位置編碼,具體q∈q、k∈k加上位置編碼的方法為:
31、qm=f(q,m)=rf(q,m)eiθf(q,m)=||q||ei(θ(q)+mθ)=qeimθ????(6)
32、kn=f(k,n)=rf(k,n)eiθf(k,n)=||k||ei(θ(k)+nθ)=keinθ?????(7)
33、其中得到變換后的向量為和然后使用注意力計算得到融合后的單詞向量w:
34、
35、其中u是注意力偏差的可學習參數(shù)。
36、本發(fā)明技術(shù)方案的進一步改進在于:步驟s2具體步驟為:
37、對于句子x,首先通過拆字字典p得到句子中每個字的字形序列,然后應用字形向量查找表r將字形序列轉(zhuǎn)換為字形向量序列,最后使用膨脹卷積dconv對字形向量序列進行特征提取,得到字形的嵌入表示g:
38、g=(g1,g2,...,gn)=dconv(r(p(x)))?????????(9)
39、對于句子x,其對應的字符序列向量為h,融合后的單詞序列向量為w和字形向量序列為g,其中字符向量與單詞向量之間的交叉注意力計算如下:
40、head(i)=crossatt(((hωq)(i)+u)τ(wωk)(i),(wωv)(i))?????????(10)
41、multihead(h,w)=[head(1),head(2),...,head(l)]?????????(11)
42、其中ωq、ωk和ωv均為可學習的參數(shù)矩陣,u為注意力偏差,l為多頭交叉注意力中多頭的數(shù)量;
43、字符向量與字形向量之間的交叉注意力的計算跟上面的計算一樣,經(jīng)該模塊獲得的字符-單詞融合特征向量h1和字符-字形融合特征向量h2被輸入到一個全連接層中進行信息融合,得到融合向量c:
44、
45、其中表示連接操作,wo和b均為可學習參數(shù)。
46、本發(fā)明技術(shù)方案的進一步改進在于:步驟s3基于雙聯(lián)協(xié)同的實體識別方法,在跨度抽取和標簽分類任務上分別引入實體得分函數(shù)和標簽得分函數(shù),共同作用于最終的實體識別,結(jié)合軟標簽約束的聯(lián)合損失函數(shù)實現(xiàn)跨度抽取和標簽分類間的協(xié)同處理,并且在標簽分類任務中使用全量樣本,為提升多分類任務中的標簽分類效果,在標簽分類任務上采用與正向無標記學習模型中一樣的分類策略,通過構(gòu)建多頭標簽分類器,提升方法在每個類別上的識別準確率。
47、本發(fā)明技術(shù)方案的進一步改進在于:對于句子x,需要枚舉所有可能的種子跨度s=(s0,s1,...,sm),m為句子的種子跨度數(shù)量,每個跨度表示為s=(xi,xj),1≤i≤j≤n,其中i和j分別表示該跨度的左、右邊界在句子中的位置,n為句子長度;
48、經(jīng)多粒度融合模塊得到的融合向量c被送入該模塊來抽取候選實體,此時跨度的向量表示為s=(ci,cj),跨度得分的計算如下:
49、scoreα(i,j)=(wb,ici)t⊙(we,jcj)???????????(13)
50、其中wb,i∈wb和we,j∈we是可學習的左、右邊界線性變換矩陣,⊙表示向量的內(nèi)積操作;
51、與跨度抽取模塊不同,該模塊使用字符向量h作為輸入,用于計算跨度s與標簽y∈y的兼容性得分,其中y=(y1,y2,...yn)為標簽集,n為標簽數(shù)量,此時跨度s可以表示為(hi,hj),多頭標簽分類器中每個標簽都有自己的標簽分類器,對此標簽yk的標簽得分計算如下:
52、
53、其中wk是標簽yk的線性變換參數(shù);
54、該模塊使用跨度得分和標簽得分相加作為最終的實體得分,然后使用softmax得到跨度s屬于標簽y的概率:
55、
56、為實現(xiàn)跨度抽取任務和標簽分類任務間的協(xié)同學習,將跨度抽取任務得到的候選實體看作實體軟標簽,使用候選實體和當前階段得到的預測實體來構(gòu)建軟標簽約束損失,軟標簽約束的計算如下:
57、
58、其中n為標簽數(shù)量,為預測實體的標簽,為候選實體的標簽,不同類別的候選實體的標簽表示相同;
59、方法的主損失函數(shù)如下所示:
60、
61、其中l(wèi)y為該句子中所有實體標簽為y的跨度集合,py是該句子的所有非實體或者實體標簽不是y的跨度集合,score為句子中跨度s的實體得分:
62、score(s,y)=(wb,ici)t⊙(we,jcj)+(wy)t[hi:hj]????????(18)
63、最終,方法的聯(lián)合損失函數(shù)為軟標簽約束損失函數(shù)和主損失函數(shù)的加權(quán)和:
64、l=λ1lbase+λ2lsoft????????(19)
65、λ1和λ2為損失函數(shù)的權(quán)重參數(shù)。
66、由于采用了上述技術(shù)方案,本發(fā)明取得的技術(shù)進步是:
67、本發(fā)明基于層疊網(wǎng)格結(jié)構(gòu)實現(xiàn)單詞融合,該結(jié)構(gòu)可以動態(tài)增加層數(shù)以容納更多的與句子相匹配的單詞向量,同時該結(jié)構(gòu)對于單詞信息在存儲過程中的變換是無損的,保留了單詞的全部向量信息和位置信息。結(jié)合層次化壓縮感知方法,將全部的單詞信息進行逐層壓縮和融合,該過程一方面解決了單詞向量融合過程中的計算成本和內(nèi)存需求,另一方面實現(xiàn)了更充分的語義融合。這解決了現(xiàn)存的基于字符-單詞格結(jié)構(gòu)的詞匯信息增強方法在處理長文本時出現(xiàn)的信息損失和計算開銷大的問題。
68、本發(fā)明將基于交叉注意力的融合網(wǎng)絡應用于實體在多粒度關(guān)系上的聯(lián)合語義特征的提取,通過多重的交叉注意力網(wǎng)絡可以實現(xiàn)任意兩個粒度的句子表征序列之間的信息互補,豐富了句子中的實體的上下文信息。本發(fā)明的方法沒有僅將字形、字音等信息作為字符特征的補充信息,而是考慮到了實體在這些不同粒度上的語義和結(jié)構(gòu)上的關(guān)聯(lián)性。
69、本發(fā)明提出的基于雙聯(lián)協(xié)同的實體識別方法,一方面克服了現(xiàn)有的基于跨度的實體識別方法在實體標簽判別階段,只能使用在跨度抽取任務中被判定為實體的部分候選實體造成的標簽分類的準確性和泛化能力不足的問題;另一方面通過使用基于軟標簽約束的聯(lián)合損失函數(shù)實現(xiàn)了多任務間的協(xié)同優(yōu)化,提升了實體識別的準確率和召回率。