欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于原型網(wǎng)絡門控機制的類增量知識獲取方法

文檔序號:40513359發(fā)布日期:2024-12-31 13:22閱讀:5來源:國知局
一種基于原型網(wǎng)絡門控機制的類增量知識獲取方法

本發(fā)明涉及自然語言處理領域,具體來說涉及增量學習領域,更具體地說,涉及一種基于原型網(wǎng)絡門控機制的類增量知識獲取方法。


背景技術:

1、隨著互聯(lián)網(wǎng)在日常生活中扮演越來越重要的角色,海量的非結構化文本數(shù)據(jù)給人們獲取信息帶來了巨大挑戰(zhàn)。如何幫助人們快速獲取有用的知識,成為亟待解決的問題。在此背景下,信息抽取技術應運而生,成為自然語言處理技術中的關鍵任務之一。信息抽取技術主要用于從非結構化的文本中抽取出有用的知識,例如事件和實體等,以便于構建知識圖譜、進行信息檢索和輔助其他自然語言處理任務。而事件抽取作為信息抽取技術中的重要研究方向之一,主要研究如何從非結構化文本中抽取出用戶感興趣的事件,并以結構化的方式進行呈現(xiàn)。

2、命名實體識別(name?entity?recognition,簡稱ner)任務和關系抽取(relationextraction,簡稱re)任務在知識獲取領域中占據(jù)著核心地位,它們對于理解和提取文本中的關鍵信息至關重要。然而,傳統(tǒng)的知識獲取模型在面對新類別數(shù)據(jù)進行增量學習時,人們希望模型能逐漸適應新類別的數(shù)據(jù)而不損失對舊類別的預測性能。但實際情況下,模型在學習新知識的同時容易丟失對舊知識的記憶;這種現(xiàn)象在類增量學習環(huán)境中尤為明顯。要解決這一挑戰(zhàn),不僅需要模型能夠靈活適應新數(shù)據(jù),還需要在持續(xù)學習的過程中保持對已學知識的穩(wěn)定記憶。

3、針對ner任務比re任務的類增量學習更為復雜,針對ner任務的類增量學習面臨的挑戰(zhàn)主要源于其任務的特殊性,尤其是在處理向后不兼容性和向前不兼容性時。下面以ner任務為例,分別討論這兩種不兼容性以及它們對ner任務的影響:

4、1)向前不兼容性:

5、在ner任務的類增量學習場景中,當引入新的實體類型進行學習時,以前學習的實體類型的指稱可能仍然出現(xiàn)在當前任務的訓練樣本中,但這些樣本中并沒有為這些指稱提供相應的標注。這種情況下,模型可能會忘記之前學習的實體類型,或者無法正確識別這些未標注的實體指稱,因為它們沒有在當前任務的訓練數(shù)據(jù)中作為關注點出現(xiàn)。這導致了所謂的災難性遺忘問題,即模型在學習新知識時喪失或混淆了舊知識。

6、2)向后不兼容性:

7、在當前的學習任務中,某些非實體指稱可能在將來的任務中被識別為某個實體類型。這意味著,在當前任務的訓練階段,這些指稱被視為非實體,但在未來的學習任務中,它們需要被識別并正確分類。這種情況下,模型需要能夠適應新的實體類型,并且在未來的學習任務中重新評估和識別這些之前被視作非實體的指稱。本發(fā)明稱這種現(xiàn)象為"信念固著",在心理學上,信念固著則是一旦形成某種觀念后,即使面對直接反駁該觀念的證據(jù),也很難改變原有的信念。即使錯誤的觀念被糾正,人們?nèi)匀粫艿阶畛蹂e誤信息的影響,這是因為最初的錯誤信息已經(jīng)在他們的認知結構中形成了印象,而改變這種印象需要比接受新信息付出更多的認知努力。

8、現(xiàn)有的知識獲取領域類增量學習研究主要聚焦于向后不兼容性,通常采用知識蒸餾使用先前學習的模型作為教師模型,在當前樣本上預測蒸餾偽標簽,然后通過這些標簽和當前真實標簽聯(lián)合學習當前的學生模型,而忽視了信念固著的問題,導致知識獲取的準確性有待提高。

9、可見,在知識獲取領域,現(xiàn)有技術沒有較好的解決向前不兼容性和向后不兼容性的問題。

10、需要說明的是:本背景技術僅用于介紹本發(fā)明的相關信息,以便于幫助理解本發(fā)明的技術方案,但并不意味著相關信息必然是現(xiàn)有技術。相關信息與本發(fā)明方案一同提交和公開,在沒有證據(jù)表明相關信息已在本發(fā)明的申請日以前公開的情況下,相關信息不應被視為現(xiàn)有技術。


技術實現(xiàn)思路

1、因此,本發(fā)明的目的在于克服上述現(xiàn)有技術的缺陷,提供一種基于原型網(wǎng)絡門控機制的類增量知識獲取方法。

2、本發(fā)明的目的是通過以下技術方案實現(xiàn)的:

3、根據(jù)本發(fā)明的第一方面,提供一種類增量學習方法,每次在知識獲取任務需新增識別的類別時執(zhí)行該方法,包括:s1、在模型中為新增類別新建專屬的專家網(wǎng)絡,模型包括用于從輸入文本提取各詞元的特征向量的基于bert的編碼模塊和每個類別的專家網(wǎng)絡;每個類別的專家網(wǎng)絡用于從輸入文本中知識單元的單元表示提取類別嵌入,以及,根據(jù)類別嵌入確定知識單元屬于該類別的預測值,其中,單元表示包括知識單元所涉及詞元的特征向量;s2、執(zhí)行預習階段的訓練,包括:獲取s1中用于訓練知識單元是否屬于新增類別的專有訓練集,利用所述專有訓練集和二分類交叉熵損失函數(shù)對新建的專家網(wǎng)絡和編碼模塊進行訓練,得到經(jīng)預習的編碼網(wǎng)絡和專家網(wǎng)絡;s3、利用最新的編碼網(wǎng)絡對各類別的專有訓練集的文本中各個詞語提取特征向量,用以構建知識單元的單元表示,以及根據(jù)每個類別的知識單元的單元表示進行聚類以得到多個簇,從每個簇內(nèi)確定具有代表性的原型表示和抽取單元表示,將抽取的單元表示所對應的原樣本用于構建該類別的核心集;s4、執(zhí)行復習階段的訓練,包括:獲取新增類別的專有訓練集和各類別的核心集構成的混合訓練集,利用預設的總損失函數(shù)、原型表示和混合訓練集訓練更新各個專家網(wǎng)絡和編碼模塊的參數(shù)。

4、可選的,針對每個類別,從每個簇內(nèi)確定具有代表性的原型表示和抽取單元表示的方式包括:獲取屬于該類別的各識別單元所對應的單元表示;利用預設的聚類算法對該類別的單元表示分別進行聚類,得到該類別下的多個簇;利用該類別下的每個簇質心作為該簇的原型表示,得到該類別下的多個原型表示;從該類別下的每個簇中進行等比例抽樣,得到抽取的單元表示。

5、可選的,預習階段的二分類交叉熵損失函數(shù)為:

6、

7、其中,i表示識別單元中的第一個詞元在輸入文本中的編號,j表示識別單元中的第二個詞元在輸入文本中的編號,n表示輸入文本中所含詞元的總個數(shù),表示識別單元sij在新增類別k的標簽值,p(k∣sij)表示第k個專家網(wǎng)絡對識別單元sij輸出的預測值,預習階段中預測值表示知識單元sij的類別嵌入,sigmoid(·)表示sigmoid函數(shù)。

8、可選的,在復習階段,對于本次新建的專家網(wǎng)絡,其輸入文本來自專有訓練集,預設的總損失函數(shù)包括用于指導本次新建的專家網(wǎng)絡學習的二元交叉熵損失函數(shù):

9、

10、其中,i表示識別單元中的第一個詞元在輸入文本中的編號,j表示識別單元中的第二個詞元在輸入文本中的編號,n表示輸入文本中所含詞元的總個數(shù),表示識別單元sij在新增類別k的標簽值,p′(k∣sij)表示復習階段中設置的第k個專家網(wǎng)絡對識別單元sij輸出的預測值,其中:

11、

12、

13、rij=w6·relu)w5·eij+b1)+b2

14、rk=w6·relu(w5·pk+b1)+b2

15、其中,sigmoid(·)表示sigmoid函數(shù),rij表示利用投影網(wǎng)絡對識別單元的單元表示eij進行投影得到的向量,rk表示利用投影網(wǎng)絡對原型表示pk進行投影得到的向量,w5表示投影網(wǎng)絡的第一層的權重參數(shù),b1表示投影網(wǎng)絡的第一層的偏置參數(shù),w6表示投影網(wǎng)絡的第二層的權重參數(shù),b2表示投影網(wǎng)絡的第二層的偏置參數(shù),relu表示relu激活函數(shù),表示與eik同類別且距離最近的原型表示,表示eik與同類別的原型表示間的最短距離,表示eik與類別l的原型表示間的最短距離,exp(·)表示指數(shù)函數(shù),k表示類別的總數(shù)量。

16、可選的,對于非新增類別的專家網(wǎng)絡,其輸入文本來該專家網(wǎng)絡對應的核心集,在復習階段的蒸餾損失函數(shù)為:

17、

18、其中,i表示識別單元中的第一個詞元在輸入文本中的編號,j表示識別單元中的第二個詞元在輸入文本中的編號,n表示輸入文本中所含詞元的總個數(shù),k表示類別的總數(shù)量,表示需要被模仿的軟蒸餾標簽,是由前次類增量學習后的模型輸出的預測值,p(k|sij)表示非新增類別對應的第k個專家網(wǎng)絡在復習階段對識別單元sij輸出的預測值,可選的,總損失函數(shù)包括二元交叉熵損失函數(shù)、蒸餾損失函數(shù)和對比損失函數(shù)的加權和,根據(jù)總損失函數(shù)優(yōu)化各專家網(wǎng)絡、編碼網(wǎng)絡和投影網(wǎng)絡的參數(shù)以減小總損失,其中,對比損失函數(shù)為:

19、

20、其中,n表示識別單元的總數(shù)量,rij表示利用投影網(wǎng)絡對識別單元的單元表示eij進行投影得到的向量,表示與eij同類別且距離最近的原型表示,表示類別l下與eik距離最近的原型表示,τ1表示預設的溫度超參數(shù)。

21、可選的,知識獲取任務為命名實體識別任務或者關系抽取任務,其中,命名實體識別任務下的識別單元為輸入文本中的一個文段的頭部的詞元和尾部的詞元,關系抽取任務下的識別單元為輸入文本中的兩個待識別關系類別的實體對應的詞元。

22、根據(jù)本發(fā)明的第二方面,提供一種基于原型網(wǎng)絡門控機制的類增量知識獲取方法,包括:獲取待預測的文本;將待預測的文本輸入按照第一方面的方法訓練的編碼模塊,得到各詞元的特征向量,并用各詞元的特征向量構建每個知識單元的單元表示;利用預設的原型網(wǎng)絡門控機制確定各知識單元所屬的類別,包括:獲取每個知識單元的單元表示與各類別的原型表示之間的相似度,根據(jù)相似度篩選部分匹配的專家網(wǎng)絡對知識單元進行預測,得到篩選出的專家網(wǎng)絡對知識單元是否屬于該專家網(wǎng)絡對應類別的預測值;對于重疊的知識單元,僅保留其中具有最高預測值的知識單元的預測值,并且在最高預測值大于等于預設閾值時,判斷保留的知識單元屬于輸出該最高預測值的專家網(wǎng)絡對應的類別;如果一個知識單元在所有類別的預測值都小于預設閾值,則該知識單元不屬于任何專家網(wǎng)絡所對應的類別。

23、根據(jù)本發(fā)明的第三方面,提供一種電子設備,包括:一個或多個處理器;以及存儲器,其中存儲器用于存儲可執(zhí)行指令;所述一個或多個處理器被配置為經(jīng)由執(zhí)行所述可執(zhí)行指令以實現(xiàn)第一方面和/或第二方面所述方法的步驟。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
原阳县| 县级市| 连平县| 山阴县| 镇沅| 六安市| 错那县| 尚义县| 玉溪市| 永仁县| 同仁县| 无棣县| 永济市| 清丰县| 江华| 洪湖市| 略阳县| 孟津县| 扶沟县| 台中市| 清河县| 宜都市| 永丰县| 五华县| 岳阳市| 嘉善县| 贵德县| 项城市| 盐边县| 阳朔县| 霍山县| 高州市| 宁南县| 莱州市| 丁青县| 调兵山市| 仁寿县| 徐闻县| 甘泉县| 永定县| 静乐县|