欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法及系統(tǒng)與流程

文檔序號:40481447發(fā)布日期:2024-12-31 12:49閱讀:11來源:國知局
軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法及系統(tǒng)與流程

本申請涉及計算機,尤其涉及一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法及系統(tǒng)。


背景技術(shù):

1、在當前的軍事領(lǐng)域,精確的信息網(wǎng)絡(luò)構(gòu)建對戰(zhàn)略規(guī)劃和決策支持具有至關(guān)重要的作用。其中實體鏈接技術(shù)作為一種強有力的信息整合工具,能有效地將分散的數(shù)據(jù)關(guān)聯(lián)至統(tǒng)一的知識圖譜中。但是軍事相關(guān)的文本數(shù)據(jù)通常在描述相同實體時存在語境歧義和敘述上的差異,使得標準實體鏈接模型難以準確判斷,同時由于隱私和安全考慮,這些數(shù)據(jù)受到嚴格的保護,導(dǎo)致在公開獲取數(shù)據(jù)時面臨各種限制。因此現(xiàn)有的實體鏈接系統(tǒng)往往受制于這些數(shù)據(jù)的可獲取性,準確率和召回率難以達到實際應(yīng)用的要求。


技術(shù)實現(xiàn)思路

1、有鑒于此,本申請的目的在于提出一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法及系統(tǒng),以自動構(gòu)造高質(zhì)量標注數(shù)據(jù),提高實體鏈接在軍事領(lǐng)域的可用性和效率。

2、為了實現(xiàn)上述公開目的之一,本申請?zhí)峁┝艘环N軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,所述方法包括:

3、基于存量數(shù)據(jù)庫,挖掘出用于構(gòu)建訓(xùn)練數(shù)據(jù)的實體樣本,并利用所述實體樣本構(gòu)建或擴展子圖;

4、利用采集平臺采集與所述子圖相關(guān)的補充文本數(shù)據(jù);

5、利用實體識別算法從所述補充文本數(shù)據(jù)中抽取目標實體,并挖掘子圖特征;

6、基于所述目標實體和所述子圖特征,構(gòu)造初步標注數(shù)據(jù)集;

7、利用規(guī)則系統(tǒng)對所述初步標注數(shù)據(jù)集進行粗召回,利用大模型對粗召回的初步標注數(shù)據(jù)集進行精細化處理,生成標注集合;

8、利用所述標注集合,生成訓(xùn)練數(shù)據(jù)。

9、作為本申請一實施方式的進一步改進,所述利用采集平臺采集與所述子圖相關(guān)的補充文本數(shù)據(jù),包括:

10、構(gòu)建圍繞所述實體樣本的屬性和關(guān)系的查詢語句;

11、利用所述大模型進行查詢改寫,優(yōu)化查詢語句。

12、作為本申請一實施方式的進一步改進,所述補充文本數(shù)據(jù)包括相關(guān)新聞和子圖相關(guān)新聞,所述相關(guān)新聞包括與所述目標實體相關(guān)的新聞報道,用于收集所述目標實體在不同情境下的使用實例;所述子圖相關(guān)新聞包括與所述子圖中實體相關(guān)的新聞。

13、作為本申請一實施方式的進一步改進,所述利用規(guī)則系統(tǒng)對所述初步標注數(shù)據(jù)集進行粗召回,包括:通過分組、生成自動別名和字符串相似度對所述初步標注數(shù)據(jù)集進行粗召回;

14、其中,所述分組包括將實體按照屬性和類型分類;

15、所述生成自動別名包括利用實體的名稱和屬性信息,自動進行改寫或字符級改寫,以生成實體的別名;

16、所述字符串相似度包括全詞匹配、粗排和精排。

17、作為本申請一實施方式的進一步改進,所述實體鏈接模型包括雙塔模型和單塔模型;

18、在所述利用所述標注集合,生成訓(xùn)練數(shù)據(jù)之后,所述方法還包括:

19、第一階段,利用所述雙塔模型分別對提及實體和庫中實體進行編碼,通過計算損失函數(shù)優(yōu)化實體匹配;

20、第二階段,利用所述單塔模型對所述雙塔模型輸出的相似實體進行重排序。

21、作為本申請一實施方式的進一步改進,所述損失函數(shù)的計算公式為:

22、

23、其中,表示損失函數(shù),(mi,ei)表示一批次實體對中每個實體對,mi表示提及實體,ei表示庫中實體,s(mi,ei)表示相似度得分;b表示批次中的實體對總數(shù);

24、所述相似度得分的計算公式為:

25、

26、其中,ym是所述提及實體的低維稠密向量表示,是所述庫中實體的低維稠密向量表示。

27、基于相同的發(fā)明構(gòu)思,本申請還提供了一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造系統(tǒng),包括:

28、樣本挖掘模塊,用于從存量數(shù)據(jù)庫中挖掘出用于構(gòu)建訓(xùn)練數(shù)據(jù)的實體樣本;

29、子圖構(gòu)建模塊,用于利用所述實體樣本構(gòu)建或擴展子圖;

30、采集平臺,用于搜集與所述子圖相關(guān)的補充文本數(shù)據(jù);

31、實體識別和挖掘模塊,用于利用實體識別算法從所述補充文本數(shù)據(jù)中抽取目標實體,并挖掘子圖特征;

32、標注集合形成模塊,用于基于所述目標實體和所述子圖特征,構(gòu)造初步標注數(shù)據(jù)集;

33、規(guī)則粗召回模塊,用于利用規(guī)則系統(tǒng)對所述初步標注數(shù)據(jù)集進行粗召回;

34、大模型精召回模塊,用于利用大模型對粗召回的初步標注數(shù)據(jù)集進行精細化處理,生成標注集合;

35、訓(xùn)練數(shù)據(jù)生成模塊,用于生成訓(xùn)練數(shù)據(jù)。

36、作為本申請一實施方式的進一步改進,所述采集平臺包括嗅探模塊、問題改寫模塊和質(zhì)量過濾模塊。

37、基于同樣的發(fā)明構(gòu)思,本申請還提供了一種非暫態(tài)計算機可讀存儲介質(zhì),所述非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,所述計算機指令用于使計算機執(zhí)行上述任一所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法。

38、基于同樣的發(fā)明構(gòu)思,本申請還提供了一種電子設(shè)備,包括:處理器和存儲器;所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如上述任一所述軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法的步驟。

39、相對于現(xiàn)有技術(shù),本申請的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,通過存量數(shù)據(jù)庫的實體樣本挖掘和子圖構(gòu)建,解決了數(shù)據(jù)可獲取性限制;利用采集平臺廣泛搜集補充文本數(shù)據(jù),增強了對實體上下文的理解,提升了準確率和召回率;結(jié)合實體識別算法和子圖特征挖掘,減少了對人工標注的依賴,提高了數(shù)據(jù)處理的自動化程度;通過規(guī)則系統(tǒng)和大模型的引入實現(xiàn)了粗到精細的召回優(yōu)化,進一步提升了鏈接的精確度;通過自動化的標注集合生成和標注數(shù)據(jù)生產(chǎn),降低了更新維護的成本;整體流程可實現(xiàn)自動構(gòu)造高質(zhì)量標注數(shù)據(jù),提高實體鏈接在軍事領(lǐng)域的可用性和效率。



技術(shù)特征:

1.一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,

3.根據(jù)權(quán)利要求1或2所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,

4.根據(jù)權(quán)利要求1所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,

5.根據(jù)權(quán)利要求1所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,所述實體鏈接模型包括雙塔模型和單塔模型;

6.根據(jù)權(quán)利要求5所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法,其特征在于,所述損失函數(shù)計算公式為:

7.一種軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造系統(tǒng),其特征在于,所述系統(tǒng)包括:

8.根據(jù)權(quán)利要求7所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造系統(tǒng),其特征在于,所述采集平臺包括嗅探模塊、問題改寫模塊和質(zhì)量過濾模塊。

9.一種非暫態(tài)計算機可讀存儲介質(zhì),其特征在于,所述非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至7任一所述的軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法。

10.一種電子設(shè)備,其特征在于,包括:處理器和存儲器;


技術(shù)總結(jié)
本申請?zhí)峁┮环N軍事領(lǐng)域圖譜的實體鏈接模型的訓(xùn)練數(shù)據(jù)構(gòu)造方法及系統(tǒng)。方法包括:基于存量數(shù)據(jù)庫,挖掘出用于構(gòu)建訓(xùn)練數(shù)據(jù)的實體樣本,并利用實體樣本構(gòu)建或擴展子圖;利用采集平臺采集與子圖相關(guān)的補充文本數(shù)據(jù);利用實體識別算法從補充文本數(shù)據(jù)中抽取目標實體,并挖掘子圖特征;基于目標實體和子圖特征,構(gòu)造初步標注數(shù)據(jù)集;利用規(guī)則系統(tǒng)對初步標注數(shù)據(jù)集進行粗召回,利用大模型對粗召回的初步標注數(shù)據(jù)集進行精細化處理,生成標注集合;利用標注集合,生成訓(xùn)練數(shù)據(jù)。本申請可自動構(gòu)造高質(zhì)量標注數(shù)據(jù),提高實體鏈接在軍事領(lǐng)域的可用性和效率。

技術(shù)研發(fā)人員:黃宇,曲直,倪星光
受保護的技術(shù)使用者:中科世通亨奇(北京)科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鄂托克前旗| 容城县| 正阳县| 壤塘县| 浦北县| 游戏| 阿克陶县| 阿克陶县| 铁岭县| 桑植县| 石家庄市| 盐城市| 扎兰屯市| 呈贡县| 绥宁县| 碌曲县| 德安县| 博客| 佛冈县| 瑞安市| 雷波县| 静乐县| 屯昌县| 信阳市| 色达县| 滦平县| 上栗县| 鹤壁市| 茌平县| 无锡市| 略阳县| 乐陵市| 轮台县| 太康县| 岳普湖县| 固始县| 林西县| 罗田县| 容城县| 英德市| 扬中市|