本發(fā)明涉及bi智能問(wèn)答,特別是指一種基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)方法及基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、chatbi產(chǎn)品(一種智能問(wèn)答產(chǎn)品)的核心功能是利用llm(large?language?model,大語(yǔ)言模型)和基于領(lǐng)域知識(shí)庫(kù)的rag(retrieval-augmented?generation,檢索增強(qiáng)生成)技術(shù),對(duì)用戶的數(shù)據(jù)分析需求進(jìn)行應(yīng)答。
2、而在chatbi產(chǎn)品的實(shí)際應(yīng)用中,由于通常數(shù)據(jù)分析師掌握的領(lǐng)域分析知識(shí)往往散落在企業(yè)已有的各類(lèi)數(shù)據(jù)資產(chǎn)中,因此還需要人工梳理來(lái)完成領(lǐng)域知識(shí)庫(kù)從零到一的搭建,即知識(shí)庫(kù)冷啟動(dòng)。而知識(shí)庫(kù)冷啟動(dòng)由人工進(jìn)行梳理、搭建的步驟一般涉及:
3、確定知識(shí)庫(kù)主題和范圍;
4、收集相關(guān)領(lǐng)域資料和數(shù)據(jù);
5、設(shè)計(jì)知識(shí)庫(kù)結(jié)構(gòu);
6、制定數(shù)據(jù)錄入規(guī)范;
7、實(shí)施數(shù)據(jù)錄入和清洗;
8、建立知識(shí)索引和檢索機(jī)制;
9、開(kāi)發(fā)用戶界面和交互功能;
10、問(wèn)答測(cè)試和知識(shí)庫(kù)優(yōu)化;
11、知識(shí)庫(kù)上線運(yùn)行;
12、定期更新和維護(hù)知識(shí)庫(kù)內(nèi)容。
13、因此,知識(shí)庫(kù)的冷啟動(dòng)過(guò)層,需要數(shù)據(jù)分析師具有較強(qiáng)的專(zhuān)業(yè)技能和技術(shù)門(mén)檻,該環(huán)節(jié)會(huì)明顯提高此類(lèi)ai應(yīng)用落地的門(mén)檻,降低智能問(wèn)答產(chǎn)品的落地、應(yīng)用速度以及延長(zhǎng)開(kāi)發(fā)周期。
14、因此,實(shí)現(xiàn)自動(dòng)化、高效地?cái)?shù)據(jù)分析場(chǎng)景知識(shí)庫(kù)冷啟動(dòng),是智能問(wèn)答產(chǎn)品快速落地并應(yīng)用環(huán)節(jié)中的一項(xiàng)重要能力,亟需有待解決。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的技術(shù)問(wèn)題,本發(fā)明提供了如下技術(shù)方案:
2、一方面,提供了一種基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)方法,該方法由電子設(shè)備實(shí)現(xiàn),該方法包括:
3、s1、輸入bi配置元數(shù)據(jù);
4、s2、基于llm對(duì)所述bi配置元數(shù)據(jù)進(jìn)行指標(biāo)口徑挖掘,獲取所定義的指標(biāo)口徑并生成指標(biāo)定義列表;
5、s3、基于llm對(duì)所述bi配置元數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選邏輯挖掘,獲取所定義的數(shù)據(jù)篩選邏輯并生成通用邏輯列表;
6、s4、基于llm對(duì)所述指標(biāo)定義列表和所述通用邏輯列表進(jìn)行整合,得到用于構(gòu)建chatbi知識(shí)庫(kù)的知識(shí)列表。
7、優(yōu)選地,s2、基于llm對(duì)所述bi配置元數(shù)據(jù)進(jìn)行指標(biāo)口徑挖掘,獲取所定義的指標(biāo)口徑并生成指標(biāo)定義列表,包括:
8、獲取若干所述bi配置元數(shù)據(jù)并進(jìn)行預(yù)處理;
9、按照預(yù)設(shè)的指標(biāo)過(guò)濾規(guī)則,對(duì)預(yù)處理后的所述bi配置元數(shù)據(jù)進(jìn)行指標(biāo)過(guò)濾處理,生成降噪配置元數(shù)據(jù);
10、調(diào)用llm,批量識(shí)別并挖掘各個(gè)所述降噪配置元數(shù)據(jù)中的指標(biāo)口徑,得到批量生成的指標(biāo)口徑;
11、對(duì)批量生成的所述指標(biāo)口徑進(jìn)行指標(biāo)總結(jié),生成所述指標(biāo)口徑列表。
12、優(yōu)選地,所述調(diào)用llm,批量識(shí)別各個(gè)所述降噪配置元數(shù)據(jù)中的指標(biāo)口徑,得到批量生成的指標(biāo)口徑,包括:
13、根據(jù)待挖掘的所述指標(biāo)口徑,配置對(duì)應(yīng)的挖掘關(guān)鍵詞和第一挖掘邏輯,其中,所述挖掘關(guān)鍵詞至少包括如下關(guān)鍵詞:指標(biāo)名稱(chēng)、別稱(chēng)、類(lèi)型、來(lái)源和/或時(shí)間段;
14、根據(jù)所述挖掘關(guān)鍵詞和所述第一挖掘邏輯,構(gòu)建第一llm提示詞,并將所述第一llm提示詞輸入預(yù)設(shè)的llm中;
15、通過(guò)所述llm,基于所述第一llm提示詞遍歷識(shí)別各個(gè)所述降噪配置元數(shù)據(jù)中的指標(biāo)口徑,并批量輸出對(duì)應(yīng)的指標(biāo)口徑,得到所述批量生成的指標(biāo)口徑。
16、優(yōu)選地,s3、基于llm對(duì)所述bi配置元數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選邏輯挖掘,獲取所定義的數(shù)據(jù)篩選邏輯并生成通用邏輯列表,包括:
17、獲取若干所述bi配置元數(shù)據(jù)并進(jìn)行預(yù)處理;
18、按照預(yù)設(shè)的分組規(guī)則,對(duì)預(yù)處理后的所述bi配置元數(shù)據(jù)進(jìn)行分組處理,生成若干元數(shù)據(jù)分組數(shù)據(jù);
19、調(diào)用llm,批量識(shí)別并挖掘各個(gè)所述元數(shù)據(jù)分組數(shù)據(jù)中的數(shù)據(jù)篩選邏輯,得到批量生成的數(shù)據(jù)篩選邏輯;
20、對(duì)批量生成的所述數(shù)據(jù)篩選邏輯進(jìn)行邏輯歸納,生成所述通用邏輯列表。
21、優(yōu)選地,所述調(diào)用llm,批量識(shí)別并挖掘各個(gè)所述元數(shù)據(jù)分組數(shù)據(jù)中的數(shù)據(jù)篩選邏輯,得到批量生成的數(shù)據(jù)篩選邏輯,包括:
22、根據(jù)待挖掘的所述數(shù)據(jù)篩選邏輯,配置對(duì)應(yīng)的邏輯關(guān)鍵詞和第二挖掘邏輯,其中,所述邏輯關(guān)鍵詞至少包括如下關(guān)鍵詞:指標(biāo)占比、指標(biāo)等級(jí)、指標(biāo)額度和/或指標(biāo)計(jì)算式;
23、根據(jù)所述邏輯關(guān)鍵詞和所述第二挖掘邏輯,構(gòu)建第二llm提示詞,并將所述第二llm提示詞輸入預(yù)設(shè)的llm中;
24、通過(guò)所述llm,基于所述第二llm提示詞遍歷識(shí)別各個(gè)所述元數(shù)據(jù)分組數(shù)據(jù)中的數(shù)據(jù)篩選邏輯,并批量輸出對(duì)應(yīng)的數(shù)據(jù)篩選邏輯,得到所述批量生成的數(shù)據(jù)篩選邏輯。
25、優(yōu)選地,所述分組規(guī)則,包括:
26、使用llm?embedding模型,對(duì)所述bi配置元數(shù)據(jù)中的各個(gè)指標(biāo)進(jìn)行指標(biāo)名稱(chēng)向量化處理;
27、計(jì)算不同指標(biāo)名稱(chēng)的向量相似度;
28、按照所述向量相似度對(duì)所述bi配置元數(shù)據(jù)進(jìn)行聚類(lèi)分組。
29、優(yōu)選地,s4、基于llm對(duì)所述指標(biāo)定義列表和所述通用邏輯列表進(jìn)行整合,得到用于構(gòu)建chatbi知識(shí)庫(kù)的知識(shí)列表,包括:
30、整合所述指標(biāo)定義列表和所述通用邏輯列表,得到知識(shí)內(nèi)容列表;
31、根據(jù)字符串對(duì)所述知識(shí)內(nèi)容列表中的各條知識(shí)文本進(jìn)行去重處理;
32、使用llm?embedding模型,對(duì)各條所述知識(shí)文本進(jìn)行指標(biāo)名稱(chēng)向量化處理;
33、計(jì)算不同所述知識(shí)文本的向量相似度;
34、按照所述向量相似度對(duì)所述知識(shí)內(nèi)容列表進(jìn)行聚類(lèi)分組,得到若干條知識(shí)文本,并將所述知識(shí)文本整合為所述知識(shí)列表,并用于構(gòu)建所述chatbi知識(shí)庫(kù)。
35、另一方面,提供了一種基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)裝置,所述基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)裝置用于實(shí)現(xiàn)上述所述基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)方法,所述裝置包括:
36、數(shù)據(jù)輸入模塊,用于輸入bi配置元數(shù)據(jù);
37、指標(biāo)口徑挖掘模塊,用于基于llm對(duì)所述bi配置元數(shù)據(jù)進(jìn)行指標(biāo)口徑挖掘,獲取所定義的指標(biāo)口徑并生成指標(biāo)定義列表;
38、邏輯挖掘模塊,用于基于llm對(duì)所述bi配置元數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選邏輯挖掘,獲取所定義的數(shù)據(jù)篩選邏輯并生成通用邏輯列表;
39、知識(shí)整合模塊,用于基于llm對(duì)所述指標(biāo)定義列表和所述通用邏輯列表進(jìn)行整合,得到用于構(gòu)建chatbi知識(shí)庫(kù)的知識(shí)列表。
40、另一方面,提供一種電子設(shè)備,所述電子設(shè)備包括:處理器;存儲(chǔ)器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如上述基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)方法中的任一項(xiàng)方法。
41、另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述基于bi多源數(shù)據(jù)集的知識(shí)庫(kù)冷啟動(dòng)方法中的任一項(xiàng)方法。
42、本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果至少包括:
43、本發(fā)明基于llm對(duì)bi配置元數(shù)據(jù)進(jìn)行指標(biāo)口徑挖掘,獲取所定義的指標(biāo)口徑并生成指標(biāo)定義列表;基于llm對(duì)bi配置元數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選邏輯挖掘,獲取所定義的數(shù)據(jù)篩選邏輯并生成通用邏輯列表;基于llm對(duì)所述指標(biāo)定義列表和所述通用邏輯列表進(jìn)行整合,得到用于構(gòu)建chatbi知識(shí)庫(kù)的知識(shí)列表。能夠利用llm對(duì)平臺(tái)上已有的數(shù)據(jù)資產(chǎn)(包括分析儀表板、圖表卡片,及相關(guān)數(shù)據(jù)表)的元數(shù)據(jù)進(jìn)行挖掘,提取出相關(guān)知識(shí)內(nèi)容,包括指標(biāo)口徑定義、數(shù)據(jù)篩選邏輯等,從而構(gòu)建出chatbi知識(shí)庫(kù)。llm能夠替代人工完成對(duì)應(yīng)的指標(biāo)挖掘和邏輯檢索,并整合挖掘知識(shí)構(gòu)建chatbi知識(shí)庫(kù),以此實(shí)現(xiàn)自動(dòng)化、高效地?cái)?shù)據(jù)分析場(chǎng)景知識(shí)庫(kù)冷啟動(dòng),大大降低了對(duì)資產(chǎn)知識(shí)的梳理難度和知識(shí)整合時(shí)間,降低冷啟動(dòng)技術(shù)門(mén)檻,大大加快bi智能問(wèn)答產(chǎn)品的應(yīng)用落地進(jìn)度,縮短開(kāi)發(fā)周期。此外,還能夠?yàn)閿?shù)據(jù)分析師節(jié)省大量時(shí)間和人力、精力。