本申請涉及計算機,尤其涉及一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法及系統(tǒng)。
背景技術(shù):
1、在當前的軍事領(lǐng)域,精確的信息網(wǎng)絡(luò)構(gòu)建對戰(zhàn)略規(guī)劃和決策支持具有至關(guān)重要的作用。其中實體鏈接技術(shù)作為一種強有力的信息整合工具,能有效地將分散的數(shù)據(jù)關(guān)聯(lián)至統(tǒng)一的知識圖譜中。但是軍事相關(guān)的文本數(shù)據(jù)通常在描述相同實體時存在語境歧義和敘述上的差異,使得標準實體鏈接模型難以準確判斷,同時由于隱私和安全考慮,這些數(shù)據(jù)受到嚴格的保護,導(dǎo)致在公開獲取數(shù)據(jù)時面臨各種限制。因此現(xiàn)有的實體鏈接系統(tǒng)往往受制于這些數(shù)據(jù)的可獲取性,準確率和召回率難以達到實際應(yīng)用的要求。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請的目的在于提出一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法及系統(tǒng),以自動構(gòu)造高質(zhì)量標注數(shù)據(jù),提高實體鏈接在軍事領(lǐng)域的可用性和效率。
2、為了實現(xiàn)上述公開目的之一,本申請?zhí)峁┝艘环N軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,所述方法包括:
3、基于存量數(shù)據(jù)庫,挖掘出用于構(gòu)建訓(xùn)練數(shù)據(jù)的實體樣本,并利用所述實體樣本構(gòu)建或擴展子圖;
4、利用采集平臺采集與所述子圖相關(guān)的補充文本數(shù)據(jù);
5、利用實體識別算法從所述補充文本數(shù)據(jù)中抽取目標實體,并挖掘子圖特征;
6、基于所述目標實體和所述子圖特征,構(gòu)造初步標注數(shù)據(jù)集;
7、利用規(guī)則系統(tǒng)對所述初步標注數(shù)據(jù)集進行粗召回,利用大模型對粗召回的初步標注數(shù)據(jù)集進行精細化處理,生成標注集合;
8、利用所述標注集合,生成訓(xùn)練數(shù)據(jù)。
9、作為本申請一實施方式的進一步改進,所述利用采集平臺采集與所述子圖相關(guān)的補充文本數(shù)據(jù),包括:
10、構(gòu)建圍繞所述實體樣本的屬性和關(guān)系的查詢語句;
11、利用所述大模型進行查詢改寫,優(yōu)化查詢語句。
12、作為本申請一實施方式的進一步改進,所述補充文本數(shù)據(jù)包括相關(guān)新聞和子圖相關(guān)新聞,所述相關(guān)新聞包括與所述目標實體相關(guān)的新聞報道,用于收集所述目標實體在不同情境下的使用實例;所述子圖相關(guān)新聞包括與所述子圖中實體相關(guān)的新聞。
13、作為本申請一實施方式的進一步改進,所述利用規(guī)則系統(tǒng)對所述初步標注數(shù)據(jù)集進行粗召回,包括:通過分組、生成自動別名和字符串相似度對所述初步標注數(shù)據(jù)集進行粗召回;
14、其中,所述分組包括將實體按照屬性和類型分類;
15、所述生成自動別名包括利用實體的名稱和屬性信息,自動進行改寫或字符級改寫,以生成實體的別名;
16、所述字符串相似度包括全詞匹配、粗排和精排。
17、作為本申請一實施方式的進一步改進,所述實體鏈接模型包括雙塔模型和單塔模型;
18、在所述利用所述標注集合,生成訓(xùn)練數(shù)據(jù)之后,所述方法還包括:
19、第一階段,利用所述雙塔模型分別對提及實體和庫中實體進行編碼,通過計算損失函數(shù)優(yōu)化實體匹配;
20、第二階段,利用所述單塔模型對所述雙塔模型輸出的相似實體進行重排序。
21、作為本申請一實施方式的進一步改進,所述損失函數(shù)的計算公式為:
22、
23、其中,表示損失函數(shù),(mi,ei)表示一批次實體對中每個實體對,mi表示提及實體,ei表示庫中實體,s(mi,ei)表示相似度得分;b表示批次中的實體對總數(shù);
24、所述相似度得分的計算公式為:
25、
26、其中,ym是所述提及實體的低維稠密向量表示,是所述庫中實體的低維稠密向量表示。
27、基于相同的發(fā)明構(gòu)思,本申請還提供了一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造系統(tǒng),包括:
28、樣本挖掘模塊,用于從存量數(shù)據(jù)庫中挖掘出用于構(gòu)建訓(xùn)練數(shù)據(jù)的實體樣本;
29、子圖構(gòu)建模塊,用于利用所述實體樣本構(gòu)建或擴展子圖;
30、采集平臺,用于搜集與所述子圖相關(guān)的補充文本數(shù)據(jù);
31、實體識別和挖掘模塊,用于利用實體識別算法從所述補充文本數(shù)據(jù)中抽取目標實體,并挖掘子圖特征;
32、標注集合形成模塊,用于基于所述目標實體和所述子圖特征,構(gòu)造初步標注數(shù)據(jù)集;
33、規(guī)則粗召回模塊,用于利用規(guī)則系統(tǒng)對所述初步標注數(shù)據(jù)集進行粗召回;
34、大模型精召回模塊,用于利用大模型對粗召回的初步標注數(shù)據(jù)集進行精細化處理,生成標注集合;
35、訓(xùn)練數(shù)據(jù)生成模塊,用于生成訓(xùn)練數(shù)據(jù)。
36、作為本申請一實施方式的進一步改進,所述采集平臺包括嗅探模塊、問題改寫模塊和質(zhì)量過濾模塊。
37、基于同樣的發(fā)明構(gòu)思,本申請還提供了一種非暫態(tài)計算機可讀存儲介質(zhì),所述非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,所述計算機指令用于使計算機執(zhí)行上述任一所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法。
38、基于同樣的發(fā)明構(gòu)思,本申請還提供了一種電子設(shè)備,包括:處理器和存儲器;所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如上述任一所述軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法的步驟。
39、相對于現(xiàn)有技術(shù),本申請的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,通過存量數(shù)據(jù)庫的實體樣本挖掘和子圖構(gòu)建,解決了數(shù)據(jù)可獲取性限制;利用采集平臺廣泛搜集補充文本數(shù)據(jù),增強了對實體上下文的理解,提升了準確率和召回率;結(jié)合實體識別算法和子圖特征挖掘,減少了對人工標注的依賴,提高了數(shù)據(jù)處理的自動化程度;通過規(guī)則系統(tǒng)和大模型的引入實現(xiàn)了粗到精細的召回優(yōu)化,進一步提升了鏈接的精確度;通過自動化的標注集合生成和標注數(shù)據(jù)生產(chǎn),降低了更新維護的成本;整體流程可實現(xiàn)自動構(gòu)造高質(zhì)量標注數(shù)據(jù),提高實體鏈接在軍事領(lǐng)域的可用性和效率。
1.一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,
3.根據(jù)權(quán)利要求1或2所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,
5.根據(jù)權(quán)利要求1所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,所述實體鏈接模型包括雙塔模型和單塔模型;
6.根據(jù)權(quán)利要求5所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,所述損失函數(shù)計算公式為:
7.一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造系統(tǒng),其特征在于,所述系統(tǒng)包括:
8.根據(jù)權(quán)利要求7所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造系統(tǒng),其特征在于,所述采集平臺包括嗅探模塊、問題改寫模塊和質(zhì)量過濾模塊。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其特征在于,所述非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至7任一所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法。
10.一種電子設(shè)備,其特征在于,包括:處理器和存儲器;