本發(fā)明屬于人工智能,具體涉及一種基于大語言模型的知識圖譜構(gòu)建方法。
背景技術(shù):
1、知識圖譜通過采用三元組的形式(即頭部實(shí)體、關(guān)系和尾部實(shí)體)來對人類世界的知識進(jìn)行有序組織從而實(shí)現(xiàn)信息的有效整理,但由于許多知識來源大多數(shù)都是非結(jié)構(gòu)化的,這使得自動(dòng)構(gòu)建知識圖譜存在許多問題,因此需要對其進(jìn)行優(yōu)化操作。
2、傳統(tǒng)的基于llm構(gòu)建知識圖譜的方法分為本體引導(dǎo),微調(diào)和零樣本/少樣本三種。這些方法無需依賴大量標(biāo)注數(shù)據(jù),而是依賴于少數(shù)或無示例情況下的llms來執(zhí)行任務(wù)。然而,它們也不可避免地面臨一些挑戰(zhàn)和局限性。
3、首先,泛化能力的不足顯著,眾多現(xiàn)行研究方法過分依賴于特定的本體論或主題框架,從而限制了其在不同學(xué)科領(lǐng)域及應(yīng)用場景中的廣泛適用性。其次,在缺乏預(yù)定義實(shí)體與關(guān)系類型的前提下,如何有效地識別、解析以及整合實(shí)體與關(guān)系,依然是當(dāng)前研究面臨的一大挑戰(zhàn)。再者,后處理需求問題也不容忽視,多數(shù)研究方法需依賴于大量的后處理工作,以解決實(shí)體與關(guān)系在信息處理過程中出現(xiàn)的冗余與不一致性問題。
4、因此,當(dāng)前在基于llm構(gòu)建知識圖譜的過程中,普遍還需依賴大量的人工介入以驗(yàn)證和糾正錯(cuò)誤,這不僅增加了時(shí)間成本,也提高了整體的經(jīng)濟(jì)成本。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有技術(shù)中存在的問題,提供一種基于大語言模型的知識圖譜構(gòu)建方法,對來源多樣化的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識圖譜的構(gòu)建,大幅度降低人工檢測的負(fù)擔(dān),同時(shí)提升知識圖譜構(gòu)建的效率與準(zhǔn)確率。
2、技術(shù)方案如下:
3、一種基于大語言模型的知識圖譜構(gòu)建方法,包括以下步驟:
4、步驟1:采用llms對輸入文件進(jìn)行重寫,生成語義塊,通過預(yù)設(shè)的模型來獲取知識圖譜數(shù)據(jù),借助提示技術(shù)(prompting),使llms關(guān)注到文件中的特定內(nèi)容并提取有關(guān)的信息;
5、步驟2:使用llms分析語義塊,識別并提取其中的實(shí)體信息,進(jìn)而通過增量式的方法構(gòu)建一個(gè)全局實(shí)體集;
6、步驟3:利用步驟1中產(chǎn)生的語義塊以及步驟2中構(gòu)建的全局實(shí)體集,經(jīng)過llms的解析處理,從中挖掘?qū)嶓w之間的關(guān)系,進(jìn)一步形成全局關(guān)系集;
7、步驟4:整合全局實(shí)體集與全局關(guān)系集的數(shù)據(jù)來構(gòu)建知識圖譜,并采用neo4j圖數(shù)據(jù)庫進(jìn)行知識圖譜的可視化處理。
8、進(jìn)一步的,步驟1中知識圖譜數(shù)據(jù)定義為其中e為節(jié)點(diǎn)集用來存儲(chǔ)實(shí)體,r為邊集用來存儲(chǔ)關(guān)系;預(yù)設(shè)模型為類似預(yù)定義的json文件,指導(dǎo)llms從文檔中提取特定的特征值(文本信息),如果文檔中存在所需信息,將獲得一個(gè)半填充的json,然后將所有的半填充json聚合起來,形成文檔的語義塊d,所有的語義塊整合為語義塊集合d;其中模型使用langchain的json?parser5來定義,并將文檔作為上下文。
9、進(jìn)一步的,步驟2中使用llms分析語義塊形成全局實(shí)體集步驟如下:
10、步驟2.1利用llms從第一個(gè)語義塊d0中提取實(shí)體e,假設(shè)這些實(shí)體在第一次迭代中是成對不同的,即每一對實(shí)體都是唯一的,各自描述一個(gè)語義上的唯一概念,形成局部實(shí)體集由于是第一個(gè)語義塊則該即為ε;
11、步驟2.2對于后續(xù)語義塊di∈d,提取局部實(shí)體集接著,試圖將已有的和ε合并,從而對ε進(jìn)行刷新,合并過程包含以下情況:
12、情況1如果局部實(shí)體在ε中被找到,則將其添加到實(shí)體匹配集εd,matched中;
13、情況2如果沒有找到相同的ei,則使用預(yù)定義閾值的余弦相似度度量在ε中搜索相似實(shí)體,余弦相似度的公式如下:
14、
15、搜索過程包含以下情況:
16、情況2.1如果沒有搜索到匹配項(xiàng),則將ei添加到εd,matched中;
17、情況2.2如果搜索到,將基于最大相似度的最佳匹配全局實(shí)體e′i添加到εd,matched中;
18、步驟2.3通過將εd,matched與ε統(tǒng)一來更新ε;
19、步驟2.4對d中的每個(gè)d重復(fù)進(jìn)行步驟2.2和2.3,最終形成一個(gè)全面的ε。
20、進(jìn)一步的,步驟3中使用llms解析語義塊和全局實(shí)體集形成全局關(guān)系集步驟如下:
21、步驟3.1將第一個(gè)語義塊d0和全局實(shí)體集ε作為上下文一起提供給llms,以提取關(guān)系形成局部關(guān)系集由于是第一個(gè)語義塊則該局部關(guān)系集即為全局關(guān)系集
22、步驟3.2對于后續(xù)語義塊di∈d,提取局部關(guān)系集接著,試圖將已有的和合并,從而對進(jìn)行刷新,合并過程包含以下情況:
23、情況1如果局部關(guān)系在中被找到,則將其添加到關(guān)系匹配集中;
24、情況2如果沒有找到,使用預(yù)定義閾值的余弦相似度度量在中搜索相似關(guān)系,余弦相似度的公式如下:
25、
26、搜索過程包含以下情況
27、情況2.1如果沒有搜索到匹配項(xiàng),則將ri添加到中;
28、情況2.2如果搜索到,將基于最大相似度的最佳匹配全局關(guān)系r′i添加到中;
29、步驟3.3通過將與統(tǒng)一來更新
30、步驟3.4對d中的每個(gè)語義塊重復(fù)進(jìn)行步驟3.2和3.3,最終形成一個(gè)全面的
31、進(jìn)一步的,步驟4中將全局實(shí)體集ε和全局關(guān)系集輸入到neo4j圖數(shù)據(jù)庫中以構(gòu)建知識圖譜。
32、有益效果:
33、1)本發(fā)明通過采用先進(jìn)的大語言模型技術(shù),顯著提升了知識圖譜構(gòu)建的性能,有效降低了人工審核工作量。
34、2)通過大語言模型構(gòu)建知識圖譜,提高了構(gòu)建效率。
1.一種基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:包括以下步驟:
2.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟1中知識圖譜數(shù)據(jù)定義為其中ε為節(jié)點(diǎn)集用來存儲(chǔ)實(shí)體,為邊集用來存儲(chǔ)關(guān)系;預(yù)設(shè)模型為類似預(yù)定義的json文件,指導(dǎo)llms從文檔中提取特定的特征值(文本信息),如果文檔中存在所需信息,將獲得一個(gè)半填充的json,然后將所有的半填充json聚合起來,形成文檔的語義塊d,所有的語義塊整合為語義塊集合d;其中模型使用langchain的jsonparser5來定義,并將文檔作為上下文。
3.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟2中使用llms分析語義塊形成全局實(shí)體集步驟如下:
4.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟3中使用llms解析語義塊和全局實(shí)體集形成全局關(guān)系集步驟如下:
5.如權(quán)利要求1所述的基于大語言模型的知識圖譜構(gòu)建方法,其特征在于:所述的步驟4中將全局實(shí)體集ε和全局關(guān)系集輸入到neo4j圖數(shù)據(jù)庫中以構(gòu)建知識圖譜。