1.一種自然語(yǔ)言文本的復(fù)雜命名實(shí)體的識(shí)別方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的方法,其特征在于,訓(xùn)練候選實(shí)體生成模塊時(shí),訓(xùn)練數(shù)據(jù)按照輸入模板的格式填寫目標(biāo)類型實(shí)體及其所在文本,標(biāo)注目標(biāo)實(shí)體相鄰位置的分詞,選取非實(shí)體負(fù)樣本。
3.如權(quán)利要求1或2所述的方法,其特征在于,訓(xùn)練候選實(shí)體生成模塊時(shí),bart編碼器中的自注意力機(jī)制將各個(gè)分詞以所有分詞加權(quán)進(jìn)行表示,使分詞特征中含有分詞之間、分詞與類別之間的相關(guān)性特征。
4.如權(quán)利要求1或2所述的方法,其特征在于,訓(xùn)練候選實(shí)體生成模塊時(shí),輸出模板作為bart解碼器的輸入,通過(guò)交叉注意力機(jī)制獲得當(dāng)前輸出下各個(gè)分詞的概率權(quán)重,再通過(guò)最大化當(dāng)前輸出概率,選擇出最高權(quán)重的分詞作為當(dāng)前輸出。
5.如權(quán)利要求4所述的方法,其特征在于,訓(xùn)練候選實(shí)體生成模塊時(shí),通過(guò)迭代更新bart模型中自注意力機(jī)制、交叉注意力機(jī)制的各個(gè)權(quán)重參數(shù),優(yōu)化bart解碼器輸出概率,并計(jì)算與輸出模板內(nèi)容的誤差,直到bart解碼器的輸出與輸出模板的內(nèi)容一致。
6.如權(quán)利要求1所述的方法,其特征在于,訓(xùn)練候選實(shí)體篩選模塊時(shí),使用正負(fù)樣例及其文本和類別輸入到候選實(shí)體生成模塊中訓(xùn)練好的bart編碼器中,獲得對(duì)應(yīng)的表示形式,將該表示形式作為訓(xùn)練候選實(shí)體篩選模塊的數(shù)據(jù)。
7.如權(quán)利要求1或6所述的方法,其特征在于,訓(xùn)練候選實(shí)體篩選模塊時(shí),候選實(shí)體的文本語(yǔ)境特征及類別特征經(jīng)過(guò)堆疊的特征增強(qiáng)網(wǎng)絡(luò),獲得多粒度的增強(qiáng)的文本語(yǔ)境與類別特征表示,再將這兩個(gè)特征拼接,作為多層感知機(jī)的輸入。
8.如權(quán)利要求7所述的方法,其特征在于,訓(xùn)練候選實(shí)體篩選模塊時(shí),通過(guò)不斷優(yōu)化特征增強(qiáng)網(wǎng)絡(luò)中注意力機(jī)制模塊與多層感知機(jī)中的權(quán)重,直到多層感知機(jī)的判別輸出與標(biāo)簽一致。
9.如權(quán)利要求1所述的方法,其特征在于,輸入模板包含待抽取實(shí)體的類別信息,該類別信息與待處理文本通過(guò)bart模型的分詞操作轉(zhuǎn)換為bart模型可處理的表示形式。
10.一種自然語(yǔ)言文本的復(fù)雜命名實(shí)體的識(shí)別系統(tǒng),其特征在于,包括: