一種基于大語言模型的知識圖譜構(gòu)建方法

文檔序號：40576755發(fā)布日期：2025-01-07 20:16閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于人工智能，具體涉及一種基于大語言模型的知識圖譜構(gòu)建方法。

背景技術(shù)：

1、知識圖譜通過采用三元組的形式(即頭部實(shí)體、關(guān)系和尾部實(shí)體)來對人類世界的知識進(jìn)行有序組織從而實(shí)現(xiàn)信息的有效整理，但由于許多知識來源大多數(shù)都是非結(jié)構(gòu)化的，這使得自動(dòng)構(gòu)建知識圖譜存在許多問題，因此需要對其進(jìn)行優(yōu)化操作。

2、傳統(tǒng)的基于llm構(gòu)建知識圖譜的方法分為本體引導(dǎo)，微調(diào)和零樣本/少樣本三種。這些方法無需依賴大量標(biāo)注數(shù)據(jù)，而是依賴于少數(shù)或無示例情況下的llms來執(zhí)行任務(wù)。然而，它們也不可避免地面臨一些挑戰(zhàn)和局限性。

3、首先，泛化能力的不足顯著，眾多現(xiàn)行研究方法過分依賴于特定的本體論或主題框架，從而限制了其在不同學(xué)科領(lǐng)域及應(yīng)用場景中的廣泛適用性。其次，在缺乏預(yù)定義實(shí)體與關(guān)系類型的前提下，如何有效地識別、解析以及整合實(shí)體與關(guān)系，依然是當(dāng)前研究面臨的一大挑戰(zhàn)。再者，后處理需求問題也不容忽視，多數(shù)研究方法需依賴于大量的后處理工作，以解決實(shí)體與關(guān)系在信息處理過程中出現(xiàn)的冗余與不一致性問題。

4、因此，當(dāng)前在基于llm構(gòu)建知識圖譜的過程中，普遍還需依賴大量的人工介入以驗(yàn)證和糾正錯(cuò)誤，這不僅增加了時(shí)間成本，也提高了整體的經(jīng)濟(jì)成本。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是針對現(xiàn)有技術(shù)中存在的問題，提供一種基于大語言模型的知識圖譜構(gòu)建方法，對來源多樣化的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識圖譜的構(gòu)建，大幅度降低人工檢測的負(fù)擔(dān)，同時(shí)提升知識圖譜構(gòu)建的效率與準(zhǔn)確率。

2、技術(shù)方案如下：

3、一種基于大語言模型的知識圖譜構(gòu)建方法，包括以下步驟：

4、步驟1：采用llms對輸入文件進(jìn)行重寫，生成語義塊，通過預(yù)設(shè)的模型來獲取知識圖譜數(shù)據(jù)，借助提示技術(shù)(prompting)，使llms關(guān)注到文件中的特定內(nèi)容并提取有關(guān)的信息；

5、步驟2：使用llms分析語義塊，識別并提取其中的實(shí)體信息，進(jìn)而通過增量式的方法構(gòu)建一個(gè)全局實(shí)體集；

6、步驟3：利用步驟1中產(chǎn)生的語義塊以及步驟2中構(gòu)建的全局實(shí)體集，經(jīng)過llms的解析處理，從中挖掘?qū)嶓w之間的關(guān)系，進(jìn)一步形成全局關(guān)系集；

7、步驟4：整合全局實(shí)體集與全局關(guān)系集的數(shù)據(jù)來構(gòu)建知識圖譜，并采用neo4j圖數(shù)據(jù)庫進(jìn)行知識圖譜的可視化處理。

8、進(jìn)一步的，步驟1中知識圖譜數(shù)據(jù)定義為其中e為節(jié)點(diǎn)集用來存儲(chǔ)實(shí)體，r為邊集用來存儲(chǔ)關(guān)系；預(yù)設(shè)模型為類似預(yù)定義的json文件，指導(dǎo)llms從文檔中提取特定的特征值(文本信息)，如果文檔中存在所需信息，將獲得一個(gè)半填充的json，然后將所有的半填充json聚合起來，形成文檔的語義塊d，所有的語義塊整合為語義塊集合d；其中模型使用langchain的json?parser5來定義，并將文檔作為上下文。

9、進(jìn)一步的，步驟2中使用llms分析語義塊形成全局實(shí)體集步驟如下：

10、步驟2.1利用llms從第一個(gè)語義塊d0中提取實(shí)體e，假設(shè)這些實(shí)體在第一次迭代中是成對不同的，即每一對實(shí)體都是唯一的，各自描述一個(gè)語義上的唯一概念，形成局部實(shí)體集由于是第一個(gè)語義塊則該即為ε；

11、步驟2.2對于后續(xù)語義塊di∈d，提取局部實(shí)體集接著，試圖將已有的和ε合并，從而對ε進(jìn)行刷新，合并過程包含以下情況：

12、情況1如果局部實(shí)體在ε中被找到，則將其添加到實(shí)體匹配集εd,matched中；

13、情況2如果沒有找到相同的ei，則使用預(yù)定義閾值的余弦相似度度量在ε中搜索相似實(shí)體，余弦相似度的公式如下：

14、

15、搜索過程包含以下情況：

16、情況2.1如果沒有搜索到匹配項(xiàng)，則將ei添加到εd,matched中；

17、情況2.2如果搜索到，將基于最大相似度的最佳匹配全局實(shí)體e′i添加到εd,matched中；

18、步驟2.3通過將εd,matched與ε統(tǒng)一來更新ε；

19、步驟2.4對d中的每個(gè)d重復(fù)進(jìn)行步驟2.2和2.3，最終形成一個(gè)全面的ε。

20、進(jìn)一步的，步驟3中使用llms解析語義塊和全局實(shí)體集形成全局關(guān)系集步驟如下：

21、步驟3.1將第一個(gè)語義塊d0和全局實(shí)體集ε作為上下文一起提供給llms，以提取關(guān)系形成局部關(guān)系集由于是第一個(gè)語義塊則該局部關(guān)系集即為全局關(guān)系集

22、步驟3.2對于后續(xù)語義塊di∈d，提取局部關(guān)系集接著，試圖將已有的和合并，從而對進(jìn)行刷新，合并過程包含以下情況：

23、情況1如果局部關(guān)系在中被找到，則將其添加到關(guān)系匹配集中；

24、情況2如果沒有找到，使用預(yù)定義閾值的余弦相似度度量在中搜索相似關(guān)系，余弦相似度的公式如下：

25、

26、搜索過程包含以下情況

27、情況2.1如果沒有搜索到匹配項(xiàng)，則將ri添加到中；

28、情況2.2如果搜索到，將基于最大相似度的最佳匹配全局關(guān)系r′i添加到中；

29、步驟3.3通過將與統(tǒng)一來更新

30、步驟3.4對d中的每個(gè)語義塊重復(fù)進(jìn)行步驟3.2和3.3，最終形成一個(gè)全面的

31、進(jìn)一步的，步驟4中將全局實(shí)體集ε和全局關(guān)系集輸入到neo4j圖數(shù)據(jù)庫中以構(gòu)建知識圖譜。

32、有益效果：

33、1)本發(fā)明通過采用先進(jìn)的大語言模型技術(shù)，顯著提升了知識圖譜構(gòu)建的性能，有效降低了人工審核工作量。

34、2)通過大語言模型構(gòu)建知識圖譜，提高了構(gòu)建效率。

技術(shù)特征：

1.一種基于大語言模型的知識圖譜構(gòu)建方法，其特征在于：包括以下步驟：

2.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法，其特征在于：所述的步驟1中知識圖譜數(shù)據(jù)定義為其中ε為節(jié)點(diǎn)集用來存儲(chǔ)實(shí)體，為邊集用來存儲(chǔ)關(guān)系；預(yù)設(shè)模型為類似預(yù)定義的json文件，指導(dǎo)llms從文檔中提取特定的特征值(文本信息)，如果文檔中存在所需信息，將獲得一個(gè)半填充的json，然后將所有的半填充json聚合起來，形成文檔的語義塊d，所有的語義塊整合為語義塊集合d；其中模型使用langchain的jsonparser5來定義，并將文檔作為上下文。

3.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法，其特征在于：所述的步驟2中使用llms分析語義塊形成全局實(shí)體集步驟如下：

4.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法，其特征在于：所述的步驟3中使用llms解析語義塊和全局實(shí)體集形成全局關(guān)系集步驟如下：

5.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法，其特征在于：所述的步驟4中將全局實(shí)體集ε和全局關(guān)系集輸入到neo4j圖數(shù)據(jù)庫中以構(gòu)建知識圖譜。

技術(shù)總結(jié)
本發(fā)明涉及一種基于大語言模型的知識圖譜構(gòu)建方法及裝置，屬于人工智能技術(shù)領(lǐng)域，包括以下步驟：將原始文檔轉(zhuǎn)化為結(jié)構(gòu)化的語義塊，借助大規(guī)模語言模型(LLMs)根據(jù)預(yù)設(shè)的模式或框架進(jìn)行信息提??；借助LLMs對語義塊進(jìn)行實(shí)體識別并抽取實(shí)體，通過增量方式逐步構(gòu)建全局實(shí)體集合；通過LLMs分析實(shí)體與語義塊，提取實(shí)體間的關(guān)系；將識別出的實(shí)體及其關(guān)系用Neo4j圖形數(shù)據(jù)庫進(jìn)行可視化，構(gòu)建出知識圖譜。本發(fā)明通過采用先進(jìn)的大語言模型技術(shù)，顯著提升了知識圖譜構(gòu)建的性能，有效降低了人工審核工作量。

技術(shù)研發(fā)人員：王富強(qiáng),賈小林,顧婭軍,林思遠(yuǎn),周洪全
受保護(hù)的技術(shù)使用者：西南科技大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王富強(qiáng),賈小林,顧婭軍,林思遠(yuǎn),周洪全
技術(shù)所有人：西南科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種高精準(zhǔn)度自流平砂漿地面施工用檢測裝置的制作方法
上一篇：毛氈成型模具的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大語言模型的知識圖譜構(gòu)建方法