欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大語言模型的知識圖譜構(gòu)建方法

文檔序號:40576755發(fā)布日期:2025-01-07 20:16閱讀:7來源:國知局
一種基于大語言模型的知識圖譜構(gòu)建方法

本發(fā)明屬于人工智能,具體涉及一種基于大語言模型的知識圖譜構(gòu)建方法。


背景技術(shù):

1、知識圖譜通過采用三元組的形式(即頭部實(shí)體、關(guān)系和尾部實(shí)體)來對人類世界的知識進(jìn)行有序組織從而實(shí)現(xiàn)信息的有效整理,但由于許多知識來源大多數(shù)都是非結(jié)構(gòu)化的,這使得自動(dòng)構(gòu)建知識圖譜存在許多問題,因此需要對其進(jìn)行優(yōu)化操作。

2、傳統(tǒng)的基于llm構(gòu)建知識圖譜的方法分為本體引導(dǎo),微調(diào)和零樣本/少樣本三種。這些方法無需依賴大量標(biāo)注數(shù)據(jù),而是依賴于少數(shù)或無示例情況下的llms來執(zhí)行任務(wù)。然而,它們也不可避免地面臨一些挑戰(zhàn)和局限性。

3、首先,泛化能力的不足顯著,眾多現(xiàn)行研究方法過分依賴于特定的本體論或主題框架,從而限制了其在不同學(xué)科領(lǐng)域及應(yīng)用場景中的廣泛適用性。其次,在缺乏預(yù)定義實(shí)體與關(guān)系類型的前提下,如何有效地識別、解析以及整合實(shí)體與關(guān)系,依然是當(dāng)前研究面臨的一大挑戰(zhàn)。再者,后處理需求問題也不容忽視,多數(shù)研究方法需依賴于大量的后處理工作,以解決實(shí)體與關(guān)系在信息處理過程中出現(xiàn)的冗余與不一致性問題。

4、因此,當(dāng)前在基于llm構(gòu)建知識圖譜的過程中,普遍還需依賴大量的人工介入以驗(yàn)證和糾正錯(cuò)誤,這不僅增加了時(shí)間成本,也提高了整體的經(jīng)濟(jì)成本。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是針對現(xiàn)有技術(shù)中存在的問題,提供一種基于大語言模型的知識圖譜構(gòu)建方法,對來源多樣化的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識圖譜的構(gòu)建,大幅度降低人工檢測的負(fù)擔(dān),同時(shí)提升知識圖譜構(gòu)建的效率與準(zhǔn)確率。

2、技術(shù)方案如下:

3、一種基于大語言模型的知識圖譜構(gòu)建方法,包括以下步驟:

4、步驟1:采用llms對輸入文件進(jìn)行重寫,生成語義塊,通過預(yù)設(shè)的模型來獲取知識圖譜數(shù)據(jù),借助提示技術(shù)(prompting),使llms關(guān)注到文件中的特定內(nèi)容并提取有關(guān)的信息;

5、步驟2:使用llms分析語義塊,識別并提取其中的實(shí)體信息,進(jìn)而通過增量式的方法構(gòu)建一個(gè)全局實(shí)體集;

6、步驟3:利用步驟1中產(chǎn)生的語義塊以及步驟2中構(gòu)建的全局實(shí)體集,經(jīng)過llms的解析處理,從中挖掘?qū)嶓w之間的關(guān)系,進(jìn)一步形成全局關(guān)系集;

7、步驟4:整合全局實(shí)體集與全局關(guān)系集的數(shù)據(jù)來構(gòu)建知識圖譜,并采用neo4j圖數(shù)據(jù)庫進(jìn)行知識圖譜的可視化處理。

8、進(jìn)一步的,步驟1中知識圖譜數(shù)據(jù)定義為其中e為節(jié)點(diǎn)集用來存儲(chǔ)實(shí)體,r為邊集用來存儲(chǔ)關(guān)系;預(yù)設(shè)模型為類似預(yù)定義的json文件,指導(dǎo)llms從文檔中提取特定的特征值(文本信息),如果文檔中存在所需信息,將獲得一個(gè)半填充的json,然后將所有的半填充json聚合起來,形成文檔的語義塊d,所有的語義塊整合為語義塊集合d;其中模型使用langchain的json?parser5來定義,并將文檔作為上下文。

9、進(jìn)一步的,步驟2中使用llms分析語義塊形成全局實(shí)體集步驟如下:

10、步驟2.1利用llms從第一個(gè)語義塊d0中提取實(shí)體e,假設(shè)這些實(shí)體在第一次迭代中是成對不同的,即每一對實(shí)體都是唯一的,各自描述一個(gè)語義上的唯一概念,形成局部實(shí)體集由于是第一個(gè)語義塊則該即為ε;

11、步驟2.2對于后續(xù)語義塊di∈d,提取局部實(shí)體集接著,試圖將已有的和ε合并,從而對ε進(jìn)行刷新,合并過程包含以下情況:

12、情況1如果局部實(shí)體在ε中被找到,則將其添加到實(shí)體匹配集εd,matched中;

13、情況2如果沒有找到相同的ei,則使用預(yù)定義閾值的余弦相似度度量在ε中搜索相似實(shí)體,余弦相似度的公式如下:

14、

15、搜索過程包含以下情況:

16、情況2.1如果沒有搜索到匹配項(xiàng),則將ei添加到εd,matched中;

17、情況2.2如果搜索到,將基于最大相似度的最佳匹配全局實(shí)體e′i添加到εd,matched中;

18、步驟2.3通過將εd,matched與ε統(tǒng)一來更新ε;

19、步驟2.4對d中的每個(gè)d重復(fù)進(jìn)行步驟2.2和2.3,最終形成一個(gè)全面的ε。

20、進(jìn)一步的,步驟3中使用llms解析語義塊和全局實(shí)體集形成全局關(guān)系集步驟如下:

21、步驟3.1將第一個(gè)語義塊d0和全局實(shí)體集ε作為上下文一起提供給llms,以提取關(guān)系形成局部關(guān)系集由于是第一個(gè)語義塊則該局部關(guān)系集即為全局關(guān)系集

22、步驟3.2對于后續(xù)語義塊di∈d,提取局部關(guān)系集接著,試圖將已有的和合并,從而對進(jìn)行刷新,合并過程包含以下情況:

23、情況1如果局部關(guān)系在中被找到,則將其添加到關(guān)系匹配集中;

24、情況2如果沒有找到,使用預(yù)定義閾值的余弦相似度度量在中搜索相似關(guān)系,余弦相似度的公式如下:

25、

26、搜索過程包含以下情況

27、情況2.1如果沒有搜索到匹配項(xiàng),則將ri添加到中;

28、情況2.2如果搜索到,將基于最大相似度的最佳匹配全局關(guān)系r′i添加到中;

29、步驟3.3通過將與統(tǒng)一來更新

30、步驟3.4對d中的每個(gè)語義塊重復(fù)進(jìn)行步驟3.2和3.3,最終形成一個(gè)全面的

31、進(jìn)一步的,步驟4中將全局實(shí)體集ε和全局關(guān)系集輸入到neo4j圖數(shù)據(jù)庫中以構(gòu)建知識圖譜。

32、有益效果:

33、1)本發(fā)明通過采用先進(jìn)的大語言模型技術(shù),顯著提升了知識圖譜構(gòu)建的性能,有效降低了人工審核工作量。

34、2)通過大語言模型構(gòu)建知識圖譜,提高了構(gòu)建效率。



技術(shù)特征:

1.一種基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:包括以下步驟:

2.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟1中知識圖譜數(shù)據(jù)定義為其中ε為節(jié)點(diǎn)集用來存儲(chǔ)實(shí)體,為邊集用來存儲(chǔ)關(guān)系;預(yù)設(shè)模型為類似預(yù)定義的json文件,指導(dǎo)llms從文檔中提取特定的特征值(文本信息),如果文檔中存在所需信息,將獲得一個(gè)半填充的json,然后將所有的半填充json聚合起來,形成文檔的語義塊d,所有的語義塊整合為語義塊集合d;其中模型使用langchain的jsonparser5來定義,并將文檔作為上下文。

3.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟2中使用llms分析語義塊形成全局實(shí)體集步驟如下:

4.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟3中使用llms解析語義塊和全局實(shí)體集形成全局關(guān)系集步驟如下:

5.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟4中將全局實(shí)體集ε和全局關(guān)系集輸入到neo4j圖數(shù)據(jù)庫中以構(gòu)建知識圖譜。


技術(shù)總結(jié)
本發(fā)明涉及一種基于大語言模型的知識圖譜構(gòu)建方法及裝置,屬于人工智能技術(shù)領(lǐng)域,包括以下步驟:將原始文檔轉(zhuǎn)化為結(jié)構(gòu)化的語義塊,借助大規(guī)模語言模型(LLMs)根據(jù)預(yù)設(shè)的模式或框架進(jìn)行信息提??;借助LLMs對語義塊進(jìn)行實(shí)體識別并抽取實(shí)體,通過增量方式逐步構(gòu)建全局實(shí)體集合;通過LLMs分析實(shí)體與語義塊,提取實(shí)體間的關(guān)系;將識別出的實(shí)體及其關(guān)系用Neo4j圖形數(shù)據(jù)庫進(jìn)行可視化,構(gòu)建出知識圖譜。本發(fā)明通過采用先進(jìn)的大語言模型技術(shù),顯著提升了知識圖譜構(gòu)建的性能,有效降低了人工審核工作量。

技術(shù)研發(fā)人員:王富強(qiáng),賈小林,顧婭軍,林思遠(yuǎn),周洪全
受保護(hù)的技術(shù)使用者:西南科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
乌海市| 石棉县| 钦州市| 苗栗市| 鲁甸县| 美姑县| 临清市| 罗山县| 尉犁县| 承德县| 双牌县| 九龙城区| 新竹市| 清涧县| 曲水县| 张家界市| 开平市| 黑水县| 嘉祥县| 兴海县| 宣城市| 贵南县| 吴桥县| 红安县| 自治县| 福州市| 龙川县| 西平县| 平顺县| 耒阳市| 丰顺县| 芮城县| 武清区| 西昌市| 凤山市| 密山市| 望奎县| 来安县| 板桥市| 枣阳市| 五原县|