基于大語言模型和知識圖譜的知識發(fā)現方法、裝置及介質與流程

文檔序號：40574064發(fā)布日期：2025-01-03 11:38閱讀：13來源：國知局

導航： X技術> 最新專利>計算;推算;計數設備的制造及其應用技術

本發(fā)明涉及數據處理，尤其涉及一種基于大語言模型和知識圖譜的知識發(fā)現方法、裝置及介質。

背景技術：

1、隨著科技的進步和市場的變化，各個行業(yè)都在不斷產生新知識，比如，新知識概念和新詞匯短語。而發(fā)現行業(yè)新知識是緊跟行業(yè)趨勢以及及時反映行業(yè)最新動態(tài)的必要手段。

2、然而，現有的新知識發(fā)現方法在準確性和魯棒性方面仍有待提高，特別是在處理行業(yè)特定的語境和術語時，往往會出現誤報和漏報的問題。

技術實現思路

1、本發(fā)明提供了一種基于大語言模型和知識圖譜的知識發(fā)現方法、裝置及介質，以提高新知識發(fā)現的準確性和魯棒性。

2、根據本發(fā)明的一方面，提供了一種基于大語言模型和知識圖譜的知識發(fā)現方法，該方法包括：

3、利用大語言模型構建科技文獻對應的科技知識圖譜；其中，科技知識圖譜中包括知識實體間的鄰近關系；

4、根據科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量，以及每一知識實體對應的關聯(lián)知識實體的度，確定科技知識圖譜中每一知識實體在科技文獻中的重要程度；

5、根據科技知識圖譜中每一知識實體在科技文獻中的重要程度和重要程度閾值，從科技知識圖譜中篩選出至少一個候選知識實體；

6、根據候選知識實體和候選知識實體所屬的科技文本段，利用大語言模型確定候選知識實體對應的分類置信度；

7、根據各候選知識實體對應的分類置信度，從至少一個候選知識實體中確定目標知識實體。

8、根據本發(fā)明的另一方面，提供了一種基于大語言模型和知識圖譜的知識發(fā)現裝置，該裝置包括：

9、科技知識圖譜構建模塊，用于利用大語言模型構建科技文獻對應的科技知識圖譜；其中，科技知識圖譜中包括知識實體間的鄰近關系；

10、重要程度確定模塊，用于根據科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量，以及每一知識實體對應的關聯(lián)知識實體的度，確定科技知識圖譜中每一知識實體在科技文獻中的重要程度；

11、候選知識實體篩選模塊，用于根據科技知識圖譜中每一知識實體在科技文獻中的重要程度和重要程度閾值，從科技知識圖譜中篩選出至少一個候選知識實體；

12、分類置信度確定模塊，用于根據候選知識實體和候選知識實體所屬的科技文本段，利用大語言模型確定候選知識實體對應的分類置信度；

13、目標知識實體確定模塊，用于根據各候選知識實體對應的分類置信度，從至少一個候選知識實體中確定目標知識實體。

14、根據本發(fā)明的另一方面，提供了一種電子設備，所述電子設備包括：

15、至少一個處理器；以及

16、與至少一個處理器通信連接的存儲器；其中，

17、存儲器存儲有可被至少一個處理器執(zhí)行的計算機程序，計算機程序被至少一個處理器執(zhí)行，以使至少一個處理器能夠執(zhí)行本發(fā)明任一實施例的基于大語言模型和知識圖譜的知識發(fā)現方法。

18、根據本發(fā)明的另一方面，提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機指令，計算機指令用于使處理器執(zhí)行時實現本發(fā)明任一實施例的基于大語言模型和知識圖譜的知識發(fā)現方法。

19、根據本發(fā)明的另一方面，提供了計算機程序產品，包括計算機程序，計算機程序在被處理器執(zhí)行時實現本發(fā)明任一實施例的基于大語言模型和知識圖譜的知識發(fā)現方法。

20、本發(fā)明實施例的技術方案，利用大語言模型構建科技文獻對應的科技知識圖譜；其中，科技知識圖譜中包括知識實體間的鄰近關系；根據科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量，以及每一知識實體對應的關聯(lián)知識實體的度，確定科技知識圖譜中每一知識實體在科技文獻中的重要程度；根據科技知識圖譜中每一知識實體在科技文獻中的重要程度和重要程度閾值，從科技知識圖譜中篩選出至少一個候選知識實體；根據候選知識實體和候選知識實體所屬的科技文本段，利用大語言模型確定候選知識實體對應的分類置信度；根據各候選知識實體對應的分類置信度，從至少一個候選知識實體中確定目標知識實體。上述技術方案，能夠從科技文獻中快速且充分地提取有價值的知識，確保了知識的完整性；綜合考慮了知識實體間關系的多樣性和深層聯(lián)系，考慮了知識實體在科技文獻中的重要程度對發(fā)現新知識的影響，根據候選知識實體對應的分類置信度來確定目標知識實體(即新知識)，使得確定的目標知識實體更加準確，從而提高了新知識發(fā)現的準確性和魯棒性。

21、應當理解，本部分所描述的內容并非旨在標識本發(fā)明的實施例的關鍵或重要特征，也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。

技術特征：

1.一種基于大語言模型和知識圖譜的知識發(fā)現方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述利用大語言模型構建科技文獻對應的科技知識圖譜，包括：

3.根據權利要求2所述的方法，其特征在于，所述根據提取到的多個知識實體，對所述科技文本段中的知識進行知識合并，得到所述科技文本段對應的目標知識信息，包括：

4.根據權利要求3所述的方法，其特征在于，所述根據各知識實體對應的嵌入向量，對各知識實體進行實體對齊，得到所述科技文本段對應的目標知識信息，包括：

5.根據權利要求1所述的方法，其特征在于，所述根據所述科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量，以及每一知識實體對應的關聯(lián)知識實體的度，確定所述科技知識圖譜中每一知識實體在所述科技文獻中的重要程度，包括：

6.根據權利要求1所述的方法，所述根據所述科技知識圖譜中每一知識實體在所述科技文獻中的重要程度和重要程度閾值，從所述科技知識圖譜中篩選出至少一個候選知識實體，包括：

7.根據權利要求1所述的方法，所述根據所述候選知識實體和所述候選知識實體所屬的科技文本段，利用所述大語言模型確定所述候選知識實體對應的分類置信度，包括：

8.一種基于大語言模型和知識圖譜的知識發(fā)現裝置，其特征在于，包括：

9.一種電子設備，其特征在于，所述電子設備包括：

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質存儲有計算機指令，所述計算機指令用于使處理器執(zhí)行時實現權利要求1-7中任一項所述的基于大語言模型和知識圖譜的知識發(fā)現方法。

技術總結
本發(fā)明公開了一種基于大語言模型和知識圖譜的知識發(fā)現方法、裝置及介質，屬于數據處理技術領域，該方法包括：利用大語言模型構建科技文獻對應的科技知識圖譜；根據科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量，以及每一知識實體對應的關聯(lián)知識實體的度，確定科技知識圖譜中每一知識實體在科技文獻中的重要程度；根據科技知識圖譜中每一知識實體在科技文獻中的重要程度和重要程度閾值，從科技知識圖譜中篩選出至少一個候選知識實體；根據候選知識實體和候選知識實體所屬的科技文本段，利用大語言模型確定候選知識實體對應的分類置信度；根據各候選知識實體對應的分類置信度，從至少一個候選知識實體中確定目標知識實體。

技術研發(fā)人員：侯桂文,孫國棟,陳建林,黎志宏
受保護的技術使用者：北京云科世紀科技有限公司
技術研發(fā)日：
技術公布日：2025/1/2

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：侯桂文,孫國棟,陳建林,黎志宏
技術所有人：北京云科世紀科技有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于大語言模型和知識圖譜的知識發(fā)現方法、裝置及介質與流程