本發(fā)明涉及數據處理,尤其涉及一種基于大語言模型和知識圖譜的知識發(fā)現方法、裝置及介質。
背景技術:
1、隨著科技的進步和市場的變化,各個行業(yè)都在不斷產生新知識,比如,新知識概念和新詞匯短語。而發(fā)現行業(yè)新知識是緊跟行業(yè)趨勢以及及時反映行業(yè)最新動態(tài)的必要手段。
2、然而,現有的新知識發(fā)現方法在準確性和魯棒性方面仍有待提高,特別是在處理行業(yè)特定的語境和術語時,往往會出現誤報和漏報的問題。
技術實現思路
1、本發(fā)明提供了一種基于大語言模型和知識圖譜的知識發(fā)現方法、裝置及介質,以提高新知識發(fā)現的準確性和魯棒性。
2、根據本發(fā)明的一方面,提供了一種基于大語言模型和知識圖譜的知識發(fā)現方法,該方法包括:
3、利用大語言模型構建科技文獻對應的科技知識圖譜;其中,科技知識圖譜中包括知識實體間的鄰近關系;
4、根據科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量,以及每一知識實體對應的關聯(lián)知識實體的度,確定科技知識圖譜中每一知識實體在科技文獻中的重要程度;
5、根據科技知識圖譜中每一知識實體在科技文獻中的重要程度和重要程度閾值,從科技知識圖譜中篩選出至少一個候選知識實體;
6、根據候選知識實體和候選知識實體所屬的科技文本段,利用大語言模型確定候選知識實體對應的分類置信度;
7、根據各候選知識實體對應的分類置信度,從至少一個候選知識實體中確定目標知識實體。
8、根據本發(fā)明的另一方面,提供了一種基于大語言模型和知識圖譜的知識發(fā)現裝置,該裝置包括:
9、科技知識圖譜構建模塊,用于利用大語言模型構建科技文獻對應的科技知識圖譜;其中,科技知識圖譜中包括知識實體間的鄰近關系;
10、重要程度確定模塊,用于根據科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量,以及每一知識實體對應的關聯(lián)知識實體的度,確定科技知識圖譜中每一知識實體在科技文獻中的重要程度;
11、候選知識實體篩選模塊,用于根據科技知識圖譜中每一知識實體在科技文獻中的重要程度和重要程度閾值,從科技知識圖譜中篩選出至少一個候選知識實體;
12、分類置信度確定模塊,用于根據候選知識實體和候選知識實體所屬的科技文本段,利用大語言模型確定候選知識實體對應的分類置信度;
13、目標知識實體確定模塊,用于根據各候選知識實體對應的分類置信度,從至少一個候選知識實體中確定目標知識實體。
14、根據本發(fā)明的另一方面,提供了一種電子設備,所述電子設備包括:
15、至少一個處理器;以及
16、與至少一個處理器通信連接的存儲器;其中,
17、存儲器存儲有可被至少一個處理器執(zhí)行的計算機程序,計算機程序被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行本發(fā)明任一實施例的基于大語言模型和知識圖譜的知識發(fā)現方法。
18、根據本發(fā)明的另一方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,計算機指令用于使處理器執(zhí)行時實現本發(fā)明任一實施例的基于大語言模型和知識圖譜的知識發(fā)現方法。
19、根據本發(fā)明的另一方面,提供了計算機程序產品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現本發(fā)明任一實施例的基于大語言模型和知識圖譜的知識發(fā)現方法。
20、本發(fā)明實施例的技術方案,利用大語言模型構建科技文獻對應的科技知識圖譜;其中,科技知識圖譜中包括知識實體間的鄰近關系;根據科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量,以及每一知識實體對應的關聯(lián)知識實體的度,確定科技知識圖譜中每一知識實體在科技文獻中的重要程度;根據科技知識圖譜中每一知識實體在科技文獻中的重要程度和重要程度閾值,從科技知識圖譜中篩選出至少一個候選知識實體;根據候選知識實體和候選知識實體所屬的科技文本段,利用大語言模型確定候選知識實體對應的分類置信度;根據各候選知識實體對應的分類置信度,從至少一個候選知識實體中確定目標知識實體。上述技術方案,能夠從科技文獻中快速且充分地提取有價值的知識,確保了知識的完整性;綜合考慮了知識實體間關系的多樣性和深層聯(lián)系,考慮了知識實體在科技文獻中的重要程度對發(fā)現新知識的影響,根據候選知識實體對應的分類置信度來確定目標知識實體(即新知識),使得確定的目標知識實體更加準確,從而提高了新知識發(fā)現的準確性和魯棒性。
21、應當理解,本部分所描述的內容并非旨在標識本發(fā)明的實施例的關鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。
1.一種基于大語言模型和知識圖譜的知識發(fā)現方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述利用大語言模型構建科技文獻對應的科技知識圖譜,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據提取到的多個知識實體,對所述科技文本段中的知識進行知識合并,得到所述科技文本段對應的目標知識信息,包括:
4.根據權利要求3所述的方法,其特征在于,所述根據各知識實體對應的嵌入向量,對各知識實體進行實體對齊,得到所述科技文本段對應的目標知識信息,包括:
5.根據權利要求1所述的方法,其特征在于,所述根據所述科技知識圖譜中每一知識實體對對應的語義關系數量和鄰近關系數量,以及每一知識實體對應的關聯(lián)知識實體的度,確定所述科技知識圖譜中每一知識實體在所述科技文獻中的重要程度,包括:
6.根據權利要求1所述的方法,所述根據所述科技知識圖譜中每一知識實體在所述科技文獻中的重要程度和重要程度閾值,從所述科技知識圖譜中篩選出至少一個候選知識實體,包括:
7.根據權利要求1所述的方法,所述根據所述候選知識實體和所述候選知識實體所屬的科技文本段,利用所述大語言模型確定所述候選知識實體對應的分類置信度,包括:
8.一種基于大語言模型和知識圖譜的知識發(fā)現裝置,其特征在于,包括:
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現權利要求1-7中任一項所述的基于大語言模型和知識圖譜的知識發(fā)現方法。