本發(fā)明涉及自然語(yǔ)言處理與人工智能,尤其涉及一種基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成方法及裝置。
背景技術(shù):
1、近年來(lái),隨著新能源、半導(dǎo)體和人工智能等高新技術(shù)的發(fā)展,對(duì)于這些技術(shù)產(chǎn)業(yè)鏈的上游、中游和下游所涉及到的關(guān)鍵領(lǐng)域節(jié)點(diǎn)的梳理對(duì)理解和掌握整個(gè)產(chǎn)業(yè)鏈發(fā)展的規(guī)律脈絡(luò)變得尤為重要。自動(dòng)化的產(chǎn)業(yè)鏈技術(shù)樹(shù)挖掘及生成需要依托自然語(yǔ)言處理方法,通過(guò)分析海量科技文本數(shù)據(jù),提取目標(biāo)領(lǐng)域的相關(guān)技術(shù)以及上下游技術(shù)之間的關(guān)系。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,如智能優(yōu)化算法、深度神經(jīng)網(wǎng)絡(luò)模型以及預(yù)訓(xùn)練語(yǔ)言模型等方法已在大部分自然語(yǔ)言處理任務(wù)如文本分類、命名實(shí)體識(shí)別、關(guān)系抽取等任務(wù)上取得了領(lǐng)先的性能,這些方法對(duì)領(lǐng)域技術(shù)樹(shù)的挖掘提供了良好的支撐。例如對(duì)量子芯片(quantumchip,qc)產(chǎn)業(yè)鏈進(jìn)行分析,可以通過(guò)預(yù)訓(xùn)練模型強(qiáng)大的表征能力對(duì)海量新聞、技術(shù)報(bào)告中的文本向量化,通過(guò)語(yǔ)義匹配快速檢索到相關(guān)信息。并且通過(guò)對(duì)這些文本特征進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,最終確定qc上下游技術(shù)實(shí)體完成產(chǎn)業(yè)鏈技術(shù)樹(shù)的構(gòu)建。
2、然而,使用依靠傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法構(gòu)建技術(shù)樹(shù)存在以下問(wèn)題:首先,使用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法依賴專家智慧,且構(gòu)建的技術(shù)樹(shù)規(guī)模小、深度淺,難以滿足面對(duì)不斷變化演進(jìn)的技術(shù)產(chǎn)業(yè)鏈進(jìn)行深度解耦分析的研究需求;其次,科技信息迭代日新月異,面對(duì)海量龐雜、價(jià)值密度低的信息數(shù)據(jù),傳統(tǒng)技術(shù)樹(shù)構(gòu)建方法難以挖掘到高價(jià)值目標(biāo)技術(shù)信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)樹(shù)構(gòu)建存在專家知識(shí)依賴、規(guī)模小深度淺、高價(jià)值目標(biāo)挖掘困難等缺陷,提出了一種基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成方法,實(shí)現(xiàn)面向特定技術(shù)領(lǐng)域產(chǎn)業(yè)鏈產(chǎn)品組件層級(jí)關(guān)系的自動(dòng)化深度挖掘與關(guān)聯(lián)分析,本發(fā)明還公開(kāi)了一種基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成裝置,為用戶和科研機(jī)構(gòu)提供一套方便、專業(yè)的領(lǐng)域技術(shù)樹(shù)展示方法。
2、一方面,提供了一種基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成方法,包括:
3、步驟1:利用領(lǐng)域技術(shù)關(guān)鍵詞對(duì)互聯(lián)網(wǎng)和/或領(lǐng)域?qū)I(yè)知識(shí)庫(kù)進(jìn)行檢索,得到候選檢索內(nèi)容;
4、步驟2:利用所述候選檢索內(nèi)容和所述領(lǐng)域技術(shù)關(guān)鍵詞構(gòu)建第一任務(wù)指令,調(diào)用領(lǐng)域大模型對(duì)該第一任務(wù)指令中候選檢索內(nèi)容與技術(shù)關(guān)鍵詞的相關(guān)性進(jìn)行判斷,得到高價(jià)值候選檢索內(nèi)容;
5、步驟3:利用所述高價(jià)值候選檢索內(nèi)容和所述領(lǐng)域技術(shù)關(guān)鍵詞構(gòu)建第二任務(wù)指令,調(diào)用領(lǐng)域大模型從該第二任務(wù)指令的高價(jià)值候選檢索內(nèi)容中抽取領(lǐng)域技術(shù)三元組,其中,領(lǐng)域技術(shù)三元組以領(lǐng)域技術(shù)關(guān)鍵詞為主語(yǔ),以關(guān)系集合內(nèi)任意具有“包含”語(yǔ)義的詞匯作為謂語(yǔ),以下游技術(shù)關(guān)鍵詞或者依賴技術(shù)關(guān)鍵詞作為賓語(yǔ);
6、步驟4:利用抽取的領(lǐng)域技術(shù)三元組生成領(lǐng)域技術(shù)樹(shù)。
7、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成方法中,還包括:
8、步驟5:在確定本次抽取的下游技術(shù)關(guān)鍵詞需要增加子節(jié)點(diǎn)時(shí),將本次抽取的下游技術(shù)關(guān)鍵詞作為領(lǐng)域技術(shù)關(guān)鍵詞,跳轉(zhuǎn)至步驟1。
9、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成方法中,步驟1包括:
10、步驟1-1:利用領(lǐng)域技術(shù)關(guān)鍵詞,檢索互聯(lián)網(wǎng)和/或領(lǐng)域?qū)I(yè)知識(shí)庫(kù),得到檢索內(nèi)容;
11、步驟1-2:根據(jù)與領(lǐng)域技術(shù)關(guān)鍵詞的相關(guān)程度對(duì)檢索內(nèi)容進(jìn)從高到低排序,取排序在前設(shè)定數(shù)量的檢索內(nèi)容作為候選檢索內(nèi)容;
12、步驟1-3:對(duì)候選檢索內(nèi)容進(jìn)行去重過(guò)濾操作和格式解析,生成統(tǒng)一格式的候選檢索內(nèi)容。
13、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成方法中,步驟2包括:
14、步驟2-1:遍歷候選檢索數(shù)據(jù)集中的候選檢索內(nèi)容,其中,所有候選檢索內(nèi)容構(gòu)成候選檢索數(shù)據(jù)集;
15、步驟2-2:將候選檢索內(nèi)容與其對(duì)應(yīng)的領(lǐng)域技術(shù)關(guān)鍵詞組成關(guān)鍵技術(shù)對(duì),利用提示工程將關(guān)鍵技術(shù)對(duì)組成第一提示問(wèn)題;
16、步驟2-3:將第一提示問(wèn)題作為第一任務(wù)指令,輸入領(lǐng)域大模型,得到關(guān)于該候選檢索內(nèi)容和領(lǐng)域技術(shù)關(guān)鍵詞是否匹配的回答;
17、步驟2-4:將回答為匹配的候選檢索內(nèi)容作為高價(jià)值候選檢索內(nèi)容。
18、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成方法中,步驟3包括:
19、步驟3-1:構(gòu)建關(guān)系集合,其中,關(guān)系集合中包含表征上下位關(guān)系的謂語(yǔ)關(guān)鍵詞;
20、步驟3-2:遍歷高價(jià)值候選數(shù)據(jù)集中的高價(jià)值候選檢索內(nèi)容,其中,所有高價(jià)值候選檢索內(nèi)容構(gòu)成高價(jià)值候選數(shù)據(jù)集;
21、步驟3-3:基于高價(jià)值候選檢索內(nèi)容,基于高價(jià)值候選檢索內(nèi)容,利用提示工程,以與該高價(jià)值候選檢索內(nèi)容對(duì)應(yīng)的領(lǐng)域技術(shù)關(guān)鍵詞為主語(yǔ),關(guān)系集合內(nèi)任意具有“包含”語(yǔ)義的詞匯作為謂語(yǔ),組成第二提示問(wèn)題;
22、步驟3-4:將第二提示問(wèn)題作為第二任務(wù)指令,輸入領(lǐng)域大模型判斷高價(jià)值候選內(nèi)容中是否存在符合三元組技術(shù)關(guān)系的謂語(yǔ),在判斷結(jié)果為存在時(shí),生成匹配的領(lǐng)域技術(shù)三元組作為回答。
23、另一方面,提供了一種基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成裝置,包括:
24、數(shù)據(jù)檢索模塊,用于利用領(lǐng)域技術(shù)關(guān)鍵詞對(duì)互聯(lián)網(wǎng)和/或領(lǐng)域?qū)I(yè)知識(shí)庫(kù)進(jìn)行檢索,得到候選檢索內(nèi)容;
25、高價(jià)值內(nèi)容篩選模塊,用于利用所述候選檢索內(nèi)容和所述領(lǐng)域技術(shù)關(guān)鍵詞構(gòu)建第一任務(wù)指令,調(diào)用領(lǐng)域大模型對(duì)該第一任務(wù)指令中候選檢索內(nèi)容與技術(shù)關(guān)鍵詞的相關(guān)性進(jìn)行判斷,得到高價(jià)值候選檢索內(nèi)容;
26、技術(shù)三元組抽取模塊,用于利用所述高價(jià)值候選檢索內(nèi)容和所述領(lǐng)域技術(shù)關(guān)鍵詞構(gòu)建第二任務(wù)指令,調(diào)用領(lǐng)域大模型從該第二任務(wù)指令的高價(jià)值候選檢索內(nèi)容中抽取領(lǐng)域技術(shù)三元組,其中,領(lǐng)域技術(shù)三元組以領(lǐng)域技術(shù)關(guān)鍵詞為主語(yǔ),以關(guān)系集合內(nèi)任意具有“包含”語(yǔ)義的詞匯作為謂語(yǔ),以下游技術(shù)關(guān)鍵詞或者依賴技術(shù)關(guān)鍵詞作為賓語(yǔ);和
27、領(lǐng)域技術(shù)樹(shù)生成模塊,用于利用抽取的領(lǐng)域技術(shù)三元組生成領(lǐng)域技術(shù)樹(shù)。
28、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成裝置中,還包括:
29、領(lǐng)域技術(shù)樹(shù)展示模塊,用于在確定本次抽取的下游技術(shù)關(guān)鍵詞需要增加子節(jié)點(diǎn)時(shí),將本次抽取的下游技術(shù)關(guān)鍵詞作為領(lǐng)域技術(shù)關(guān)鍵詞,觸發(fā)所述數(shù)據(jù)檢索模塊。
30、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成裝置中,所述數(shù)據(jù)檢索模塊,包括:檢索單元、排序單元和過(guò)濾單元;
31、所述檢索單元,用于利用領(lǐng)域技術(shù)關(guān)鍵詞,檢索互聯(lián)網(wǎng)和/或領(lǐng)域?qū)I(yè)知識(shí)庫(kù),得到檢索內(nèi)容;
32、所述排序單元,用于根據(jù)與領(lǐng)域技術(shù)關(guān)鍵詞的相關(guān)程度對(duì)檢索內(nèi)容進(jìn)從高到低排序,取排序在前設(shè)定數(shù)量的檢索內(nèi)容作為候選檢索內(nèi)容;
33、所述過(guò)濾單元,用于對(duì)候選檢索內(nèi)容進(jìn)行去重過(guò)濾操作和格式解析,生成統(tǒng)一格式的候選檢索內(nèi)容。
34、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成裝置中,所述高價(jià)值內(nèi)容篩選模塊包括:遍歷單元、第一提示問(wèn)題組成單元、匹配單元和高價(jià)值內(nèi)容構(gòu)建單元;
35、所述遍歷單元,用于遍歷候選檢索數(shù)據(jù)集中的候選檢索內(nèi)容,其中,所有候選檢索內(nèi)容構(gòu)成候選檢索數(shù)據(jù)集;
36、所述第一提示問(wèn)題組成單元,用于將候選檢索內(nèi)容與其對(duì)應(yīng)的領(lǐng)域技術(shù)關(guān)鍵詞組成關(guān)鍵技術(shù)對(duì),利用提示工程將關(guān)鍵技術(shù)對(duì)組成第一提示問(wèn)題;
37、所述匹配單元,用于將第一提示問(wèn)題作為第一任務(wù)指令,輸入領(lǐng)域大模型,得到關(guān)于該候選檢索內(nèi)容和領(lǐng)域技術(shù)關(guān)鍵詞是否匹配的回答;
38、所述高價(jià)值內(nèi)容構(gòu)建單元,用于將回答為匹配的候選檢索內(nèi)容作為高價(jià)值候選檢索內(nèi)容。
39、在一種改進(jìn)的基于大模型知識(shí)推理的領(lǐng)域技術(shù)樹(shù)生成裝置中,所述技術(shù)三元組抽取模塊包括:關(guān)系集構(gòu)建單元、遍歷單元、第二提示問(wèn)題組成單元和技術(shù)三元組生成單元;
40、所述關(guān)系集構(gòu)建單元,用于構(gòu)建關(guān)系集合,其中,關(guān)系集合中包含表征上下位關(guān)系的謂語(yǔ)關(guān)鍵詞;
41、所述遍歷單元,用于遍歷高價(jià)值候選數(shù)據(jù)集中的高價(jià)值候選檢索內(nèi)容,其中,所有高價(jià)值候選檢索內(nèi)容構(gòu)成高價(jià)值候選數(shù)據(jù)集;
42、所述第二提示問(wèn)題組成單元,用于基于高價(jià)值候選檢索內(nèi)容,利用提示工程,以與該高價(jià)值候選檢索內(nèi)容對(duì)應(yīng)的領(lǐng)域技術(shù)關(guān)鍵詞為主語(yǔ),關(guān)系集合內(nèi)任意具有“包含”語(yǔ)義的詞匯作為謂語(yǔ),組成第二提示問(wèn)題;
43、所述技術(shù)三元組生成單元,用于將第二提示問(wèn)題是作為第二任務(wù)指令,輸入領(lǐng)域大模型判斷高價(jià)值候選內(nèi)容中是否存在符合三元組技術(shù)關(guān)系的謂語(yǔ),在判斷結(jié)果為存在時(shí),生成匹配的領(lǐng)域技術(shù)三元組作為回答。
44、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)勢(shì)在于:
45、1、本發(fā)明實(shí)施例提供了一種獲取高質(zhì)量檢索信息的方法,通過(guò)結(jié)合知識(shí)庫(kù)檢索、關(guān)鍵詞匹配、語(yǔ)義相似度計(jì)算、相關(guān)程度排序等檢索方法簡(jiǎn)單高效的實(shí)現(xiàn)了領(lǐng)域技術(shù)文本檢索。同時(shí)通過(guò)結(jié)合領(lǐng)域大模型跨領(lǐng)域知識(shí)背景,對(duì)檢索內(nèi)容進(jìn)一步判斷篩選,保證了與關(guān)鍵詞相符的高價(jià)值檢索內(nèi)容的獲??;
46、2、本發(fā)明實(shí)施例針對(duì)傳統(tǒng)技術(shù)樹(shù)生成方面存在的領(lǐng)域技術(shù)重難點(diǎn)難以解耦的問(wèn)題,通過(guò)采用抽取技術(shù)三元組作為技術(shù)樹(shù)生成的主要依據(jù),提供了更加魯棒性的技術(shù)樹(shù)生成方式。同時(shí),利用領(lǐng)域大模型強(qiáng)大的領(lǐng)域知識(shí)背景,對(duì)關(guān)鍵技術(shù)及其下游產(chǎn)業(yè)鏈進(jìn)行深入挖掘,同時(shí)挖掘關(guān)鍵技術(shù)的下游技術(shù)和依賴技術(shù),有效地提高了關(guān)鍵技術(shù)脈絡(luò)獲取的完整度和準(zhǔn)確率,大大降低關(guān)鍵技術(shù)信息獲取難度;
47、3、本發(fā)明實(shí)施例的方案一方面利用具有強(qiáng)大領(lǐng)域背景知識(shí)的領(lǐng)域大模型,另一方面是先對(duì)候選檢索內(nèi)容進(jìn)行高價(jià)值候選檢索內(nèi)容提取,再?gòu)母邇r(jià)值候選檢索內(nèi)容進(jìn)行技術(shù)三元組的抽取,使得在從一開(kāi)始就將占比總體數(shù)據(jù)量很大的非高價(jià)值候選檢索內(nèi)容進(jìn)行了剔除。相對(duì)于利用bert等用于小任務(wù)的模型,先從候選檢索內(nèi)容中抽取技術(shù)三元組,再對(duì)技術(shù)三元組進(jìn)行去噪等規(guī)范化操作的方案,大大縮小了用于三元組抽取的數(shù)據(jù)處理數(shù)量,并且由于領(lǐng)域大模型依托大參數(shù)和豐富的背景知識(shí),對(duì)于高價(jià)值候選檢索內(nèi)容篩選更加精確,檢索內(nèi)容質(zhì)量更高,從數(shù)據(jù)源頭上有助于提高技術(shù)三元組的抽取質(zhì)量,進(jìn)而提高了生成的領(lǐng)域數(shù)據(jù)樹(shù)的質(zhì)量。