本發(fā)明涉及自然語言處理,具體涉及一種自然語言文本的復(fù)雜命名實(shí)體的識別方法及系統(tǒng)。
背景技術(shù):
1、近年來,隨著信息技術(shù)的快速發(fā)展,對話生成、情感分析、機(jī)器翻譯等基于自然語言處理技術(shù)的產(chǎn)品為人們的生活提供了快捷與便利。面對龐大的數(shù)據(jù)體量,這些產(chǎn)品需要先將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的文本數(shù)據(jù),才能進(jìn)一步的利用數(shù)據(jù)信息提供穩(wěn)定有效的服務(wù)。將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的文本數(shù)據(jù)的核心技術(shù)即命名實(shí)體識別技術(shù),通過對文本中的人物、時(shí)間、地點(diǎn)等特定類別的實(shí)體進(jìn)行抽取,下游任務(wù)將可以獲得更精準(zhǔn)的處理對象,進(jìn)而有效提高整個(gè)系統(tǒng)的效率與準(zhǔn)確度。
2、命名實(shí)體識別技術(shù)大致可以分為普通命名實(shí)體識別技術(shù),嵌套實(shí)體識別技術(shù)和復(fù)雜命名實(shí)體識別技術(shù)三種,其中復(fù)雜命名實(shí)體識別技術(shù)是其中通用性最強(qiáng)的一種技術(shù),它不僅可以識別普通的實(shí)體,還能有效處理由嵌套實(shí)體與不連續(xù)實(shí)體構(gòu)成的復(fù)雜命名實(shí)體。由于其廣泛的應(yīng)用場景,復(fù)雜命名實(shí)體識別技術(shù)最近引起了學(xué)者們的興趣?,F(xiàn)有的復(fù)雜命名實(shí)體識別技術(shù)主要可以分為基于片段與基于序列生成的兩大類方法。基于片段的方法首先對文本進(jìn)行枚舉切分從而盡可能的囊括復(fù)雜實(shí)體,再對各個(gè)文本片段進(jìn)行分類識別從而抽取出復(fù)雜命名實(shí)體,基于序列生成的方法以模型的編碼器學(xué)習(xí)文本中每個(gè)詞的特征,再利用解碼器選擇特征關(guān)聯(lián)最強(qiáng)的詞構(gòu)成輸出。由于在基于序列生成的方法不受枚舉切分帶來的性能限制,在處理不連續(xù)實(shí)體上具有更好的效果,該類方法成為當(dāng)下研究的主流技術(shù)。例如國外學(xué)者利用lstm作為編碼器,基于指針網(wǎng)絡(luò)構(gòu)建解碼器實(shí)現(xiàn)了對復(fù)雜命名實(shí)體的識別。這些技術(shù)有效提高了復(fù)雜命名實(shí)體的識別準(zhǔn)確率,尤其是在醫(yī)療、生物、化學(xué)等領(lǐng)域的信息提取方面可以提供極大的支持。
3、現(xiàn)有的基于序列生成的復(fù)雜命名實(shí)體方法主要存在兩個(gè)缺點(diǎn)。首先,現(xiàn)有方法缺少對實(shí)體類別信息的利用。由于實(shí)體的類別信息與實(shí)體內(nèi)容存在緊密聯(lián)系,該信息在整個(gè)實(shí)體識別過程中的忽視導(dǎo)致現(xiàn)有復(fù)雜命名實(shí)體的抽取與分類的準(zhǔn)確度不可避免的受到影響。其次,現(xiàn)有方法存在無效輸出率較高的情況。由于缺乏對輸出模板的引導(dǎo)學(xué)習(xí),現(xiàn)有方法常出現(xiàn)由于輸出與規(guī)定模板不符,導(dǎo)致結(jié)果仍為非結(jié)構(gòu)化文本,無法被后續(xù)下游任務(wù)所利用的情況。因此這些方法無法提供準(zhǔn)確、完整的實(shí)體信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有基于序列生成的復(fù)雜命名實(shí)體識別方法的不足,提出了一種自然語言文本的復(fù)雜命名實(shí)體的識別方法及系統(tǒng),基于提示指導(dǎo)與實(shí)體表示增強(qiáng),提高復(fù)雜實(shí)體識別系統(tǒng)的性能,降低無效輸出率,提高召回率,并通過利用類別信息獲取更準(zhǔn)確、全面的實(shí)體特征,從而實(shí)現(xiàn)準(zhǔn)確高效的實(shí)體識別。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
3、一種自然語言文本的復(fù)雜命名實(shí)體的識別方法,包括以下步驟:
4、構(gòu)建候選實(shí)體生成模塊和實(shí)體篩選模塊,該候選實(shí)體生成模塊包括輸入輸出模板和bart模型,該bart模型采用編碼器-解碼器結(jié)構(gòu);該候選實(shí)體篩選模塊包括特征增強(qiáng)網(wǎng)絡(luò)與多層感知機(jī),該特征增強(qiáng)網(wǎng)絡(luò)包含自注意力機(jī)制模塊與交叉注意力機(jī)制模塊;
5、訓(xùn)練候選實(shí)體生成模塊,訓(xùn)練數(shù)據(jù)填入輸入模板中并輸入到bart編碼器,bart編碼器基于自注意力機(jī)制學(xué)習(xí)文本中分詞之間及分詞與目標(biāo)實(shí)體類別之間的關(guān)系,bart解碼器基于交叉注意力機(jī)制在輸出模板的引導(dǎo)下,生成具有強(qiáng)位置相關(guān)性的候選實(shí)體;
6、訓(xùn)練候選實(shí)體篩選模塊,特征增強(qiáng)網(wǎng)絡(luò)通過自注意力機(jī)制獲取實(shí)體內(nèi)部各個(gè)分詞之間的權(quán)重關(guān)系,通過交叉注意力機(jī)制將目標(biāo)特征由實(shí)體各個(gè)組成分詞的加權(quán)形式表示,增強(qiáng)候選實(shí)體的特征;多層感知機(jī)基于增強(qiáng)后的候選實(shí)體的特征判斷候選實(shí)體是否為對應(yīng)類別的真實(shí)實(shí)體;
7、將待處理的自然語言文本作為輸入文本,經(jīng)過訓(xùn)練好的候選實(shí)體生成模塊和實(shí)體篩選模塊處理,識別出文本中的實(shí)體。
8、進(jìn)一步地,訓(xùn)練候選實(shí)體生成模塊時(shí),訓(xùn)練數(shù)據(jù)按照輸入模板的格式填寫目標(biāo)類型實(shí)體及其所在文本,標(biāo)注目標(biāo)實(shí)體相鄰位置的分詞,選取非實(shí)體負(fù)樣本。
9、進(jìn)一步地,訓(xùn)練候選實(shí)體生成模塊時(shí),bart編碼器中的自注意力機(jī)制將各個(gè)分詞以所有分詞加權(quán)進(jìn)行表示,使分詞特征中含有分詞之間、分詞與類別之間的相關(guān)性特征。
10、進(jìn)一步地,訓(xùn)練候選實(shí)體生成模塊時(shí),輸出模板作為bart解碼器的輸入,通過交叉注意力機(jī)制獲得當(dāng)前輸出下各個(gè)分詞的概率權(quán)重,再通過最大化當(dāng)前輸出概率,選擇出最高權(quán)重的分詞作為當(dāng)前輸出。
11、進(jìn)一步地,訓(xùn)練候選實(shí)體生成模塊時(shí),通過迭代更新bart模型中自注意力機(jī)制、交叉注意力機(jī)制的各個(gè)權(quán)重參數(shù),優(yōu)化bart解碼器輸出概率,并計(jì)算與輸出模板內(nèi)容的誤差,直到bart解碼器的輸出與輸出模板的內(nèi)容一致。
12、進(jìn)一步地,訓(xùn)練候選實(shí)體篩選模塊時(shí),使用正負(fù)樣例及其文本和類別輸入到候選實(shí)體生成模塊中訓(xùn)練好的bart編碼器中,獲得對應(yīng)的表示形式,將該表示形式作為訓(xùn)練候選實(shí)體篩選模塊的數(shù)據(jù)。
13、進(jìn)一步地,訓(xùn)練候選實(shí)體篩選模塊時(shí),候選實(shí)體的文本語境特征及類別特征經(jīng)過堆疊的特征增強(qiáng)網(wǎng)絡(luò),獲得多粒度的增強(qiáng)的文本語境與類別特征表示,再將這兩個(gè)特征拼接,作為多層感知機(jī)的輸入。
14、進(jìn)一步地,訓(xùn)練候選實(shí)體篩選模塊時(shí),通過不斷優(yōu)化特征增強(qiáng)網(wǎng)絡(luò)中注意力機(jī)制模塊與多層感知機(jī)中的權(quán)重,直到多層感知機(jī)的判別輸出與標(biāo)簽一致。
15、進(jìn)一步地,輸入模板包含待抽取實(shí)體的類別信息,該類別信息與待處理文本通過bart模型的分詞操作轉(zhuǎn)換為bart模型可處理的表示形式。
16、進(jìn)一步地,將待處理的自然語言文本作為輸入文本時(shí),將文本中的目標(biāo)類型實(shí)體及其文本按照輸入輸出模板的格式進(jìn)行填寫。
17、一種自然語言文本的復(fù)雜命名實(shí)體的識別系統(tǒng),包括:
18、候選實(shí)體生成模塊,包括輸入輸出模板和bart模型,該bart模型采用編碼器-解碼器結(jié)構(gòu),bart編碼器基于自注意力機(jī)制學(xué)習(xí)文本中分詞之間及分詞與目標(biāo)實(shí)體類別之間的關(guān)系,bart解碼器基于交叉注意力機(jī)制在輸出模板的引導(dǎo)下,生成具有強(qiáng)位置相關(guān)性的候選實(shí)體;
19、候選實(shí)體篩選模塊,包括特征增強(qiáng)網(wǎng)絡(luò)與多層感知機(jī),該特征增強(qiáng)網(wǎng)絡(luò)包含自注意力機(jī)制模塊與交叉注意力機(jī)制模塊,特征增強(qiáng)網(wǎng)絡(luò)通過自注意力機(jī)制獲取實(shí)體內(nèi)部各個(gè)分詞之間的權(quán)重關(guān)系,通過交叉注意力機(jī)制將目標(biāo)特征由實(shí)體各個(gè)組成分詞的加權(quán)形式表示,增強(qiáng)候選實(shí)體的特征;多層感知機(jī)基于增強(qiáng)后的候選實(shí)體的特征判斷候選實(shí)體是否為對應(yīng)類別的真實(shí)實(shí)體;
20、其中,候選實(shí)體生成模塊和實(shí)體篩選模塊經(jīng)過訓(xùn)練后,用于對待處理的自然語言文本進(jìn)行處理,識別出文本中的實(shí)體。
21、本發(fā)明取得的有益效果如下:
22、1.提高識別效果:本發(fā)明通過引入含有位置信息與類別信息的輸入輸出模板和候選實(shí)體生成模塊的提示學(xué)習(xí)指導(dǎo),能夠生成與目標(biāo)復(fù)雜實(shí)體在位置上高度相關(guān)的候選實(shí)體,并顯著降低無效輸出的概率。借助模板的指導(dǎo),候選實(shí)體生成模塊能夠提供更精準(zhǔn)、全面的候選實(shí)體,從而提升系統(tǒng)的召回率,改善識別效果。
23、2.增強(qiáng)實(shí)體特征:本發(fā)明利用基于特征增強(qiáng)網(wǎng)絡(luò)的候選實(shí)體篩選模塊,通過自注意力機(jī)制和交叉注意力機(jī)制對候選實(shí)體的語境特征和類別特征進(jìn)行增強(qiáng)。這樣可以增強(qiáng)候選實(shí)體的特征表達(dá),提高實(shí)體與非實(shí)體之間的區(qū)分度,進(jìn)而保證實(shí)體識別的準(zhǔn)確性。
24、3.利用類別信息提升候選實(shí)體的準(zhǔn)確性:本發(fā)明的提示指導(dǎo)模板在輸入中注入了實(shí)體類別信息,借此指導(dǎo)候選實(shí)體生成模塊生成與目標(biāo)實(shí)體類別匹配的候選實(shí)體。這樣可以提供更準(zhǔn)確、全面的候選實(shí)體,增加實(shí)體識別的精度。
25、4.完善的實(shí)體識別流程:本發(fā)明將候選實(shí)體生成模塊和候選實(shí)體篩選模塊相結(jié)合,形成了一個(gè)完整的實(shí)體識別流程。候選實(shí)體生成模塊生成與目標(biāo)實(shí)體相關(guān)的候選實(shí)體和類別,然后候選實(shí)體篩選模塊利用特征增強(qiáng)網(wǎng)絡(luò)進(jìn)一步篩選和增強(qiáng)候選實(shí)體,從而提高整體的識別效果和準(zhǔn)確率。
26、本發(fā)明通過引入輸入輸出模板和提示學(xué)習(xí)指導(dǎo),候選實(shí)體生成模塊和候選實(shí)體篩選模塊的協(xié)同應(yīng)用,實(shí)現(xiàn)了對復(fù)雜實(shí)體的準(zhǔn)確識別和區(qū)分,提高了實(shí)體識別系統(tǒng)的性能和效果。通過模板引導(dǎo)、特征增強(qiáng)和類別信息利用,本發(fā)明能夠提供更準(zhǔn)確、全面的候選實(shí)體,并降低無效輸出率,從而顯著改善實(shí)體識別的效果和準(zhǔn)確性。