本發(fā)明涉及人工智能,具體為涉及一種基于大語言模型的畫像體系構建方法和系統(tǒng)及介質。
背景技術:
1、現(xiàn)有畫像體系通常依賴知識圖譜技術,知識圖譜技術通過結構化表示對畫像的數(shù)據(jù)進行組織與管理。在這個數(shù)據(jù)組織的過程中,首先需要通過多種預處理手段將原始的文本數(shù)據(jù)轉化為結構化數(shù)據(jù),多種預處理手段包括文本分詞處理、實體識別處理、關系抽取處理等等,通過這些預處理手段來確保數(shù)據(jù)的可讀性和可操作性。之后基于結構化數(shù)據(jù)生成標簽,實現(xiàn)對個體或實體的特征描述和分類。這種數(shù)據(jù)處理流程中對原始文本數(shù)據(jù)的直接利用程度較低,往往會忽視原始文本數(shù)據(jù)之間的關聯(lián)性,從而導致生成出的畫像體系表達不夠全面。
2、隨著數(shù)據(jù)驅動的ai時代的到來,龐大的數(shù)據(jù)量和多樣化的數(shù)據(jù)源為ai模型訓練提供了豐富的資源,然而,如果直接將如此規(guī)模的數(shù)據(jù)量作為ai模型輸入,會導致資源消耗顯著增加,訓練操作的復雜度顯著提升,造成對計算資源的需求激增,影響ai模型的訓練效率。
3、基于上述技術問題,申請人提出本技術的技術方案。
技術實現(xiàn)思路
1、有鑒于現(xiàn)有技術的上述缺陷,本發(fā)明提供一種基于大語言模型的畫像體系構建方法和系統(tǒng)及介質,通過大語言模型對文本數(shù)據(jù)進行深度處理,捕捉到文本中的復雜模式和深層次特征,為畫像體系的精準描繪提供強有力支持。
2、為了實現(xiàn)上述目的,本發(fā)明公開一種基于大語言模型的畫像體系構建方法,包括以下步驟:
3、獲取原始文本數(shù)據(jù),并對所述原始文本數(shù)據(jù)進行分類處理;
4、對分類處理后的原始文本數(shù)據(jù)進行篩選,得到與目標畫像實體相關的初始文本數(shù)據(jù);
5、對所述初始文本數(shù)據(jù)進行切片處理,得到若干個切片文本片段,計算各個相鄰的切片文本片段之間的相似度數(shù)值,根據(jù)所述相似度數(shù)值對所述若干個切片文本片段進行合并處理,得到若干個第一文本片段;
6、基于大語言模型對每個所述第一文本片段進行歸納總結,生成與每個所述第一文本片段相對應的初級畫像標簽;
7、基于大語言模型對每個所述初級畫像標簽進行聚類,生成多個次級畫像標簽;
8、基于大語言模型對每個所述次級畫像標簽進行相關度檢查,將強相關的多個次級畫像標簽進行迭代聚類,直至生成的聚類標簽之間的相關性均小于第一閾值或大語言模型認為生成的聚類標簽無法再次聚類;
9、對所述初級畫像標簽、所述次級畫像標簽和所述聚類標簽進行結構化處理,利用知識圖譜生成所述目標畫像實體的用戶畫像。
10、優(yōu)選地,所述方法還包括:
11、對所述大語言模型進行微調訓練,用于所述微調訓練的微調數(shù)據(jù)集包括按照預設比例設置的第一數(shù)據(jù)集、第二數(shù)據(jù)集和第三數(shù)據(jù)集,所述第一數(shù)據(jù)集用于訓練大語言模型總結任意文本片段的核心觀點,所述第二數(shù)據(jù)集用于訓練大語言模型識別任意文本片段與特定主體之間的聯(lián)系,所述第三數(shù)據(jù)集用于訓練大語言模型的通用性。
12、優(yōu)選地,所述第一數(shù)據(jù)集、第二數(shù)據(jù)集和第三數(shù)據(jù)集的數(shù)據(jù)量均相似,優(yōu)選地,所述第一數(shù)據(jù)集、第二數(shù)據(jù)集和第三數(shù)據(jù)集之間的預設比例為3:3:4。
13、優(yōu)選地,所述基于大語言模型對每個所述第一文本片段進行觀點歸納總結,生成與每個所述第一文本片段相對應的初級畫像標簽,包括以下步驟:
14、構建第一提示詞,所述第一提示詞指示所述大語言模型對與目標畫像實體相關的所述第一文本片段進行歸納總結,并根據(jù)歸納總結的內(nèi)容指定第一推薦標簽;
15、將所述目標畫像實體、所述第一提示詞和所述第一文本片段輸入至大語言模型中,得到與所述第一文本片段相對應的第一推薦標簽,將所述大語言模型輸出的推薦標簽作為所述初級畫像標簽。
16、優(yōu)選地,所述基于大語言模型對每個所述初級畫像標簽進行聚類,生成多個次級畫像標簽,包括以下步驟:
17、構建第二提示詞,所述第二提示詞指示所述大語言模型對由所述初級畫像標簽和所述第一文本片段組成的合并內(nèi)容進行聚類后指定第二推薦標簽;
18、將所述目標畫像實體、所述第二提示詞、所述初級畫像標簽和所述第一文本片段輸入至大語言模型中,得到與所述第一文本片段相對應的第二推薦標簽,將所述大語言模型輸出的推薦標簽作為所述次級畫像標簽。
19、優(yōu)選地,所述基于大語言模型對每個所述次級畫像標簽進行相關度檢查,將強相關的多個次級畫像標簽進行迭代聚類,直至生成的聚類標簽之間的相關性均小于第一閾值或大語言模型認為生成的聚類標簽無法再次聚類,包括以下步驟:
20、構建第三提示詞,所述第三提示詞指示所述大語言模型對所述次級畫像標簽進行相關度檢查,對強相關的次級畫像標簽進行迭代聚類;
21、將所述目標畫像實體、所述第三提示詞和所述次級畫像標簽輸入至大語言模型中,若所述大語言模型輸出的聚類標簽之間的相關性均小于第一閾值,則停止迭代聚類,若所述大語言模型輸出的聚類標簽之間的相關性存在大于第一閾值的或大語言模型認為生成的聚類標簽可再次聚類,則繼續(xù)迭代聚類。
22、優(yōu)選地,所述對分類處理后的原始文本數(shù)據(jù)進行篩選,得到與目標畫像實體相關的初始文本數(shù)據(jù),包括以下步驟:
23、將所述原始文本數(shù)據(jù)進行詞嵌入轉換后,輸入至經(jīng)過預訓練的bert模型中,得到所述原始文本數(shù)據(jù)與所述目標畫像實體之間的相關性數(shù)值;
24、從所述原始文本數(shù)據(jù)中篩選出所述相關性數(shù)值高于預設數(shù)值的目標文本數(shù)據(jù),將目標文本數(shù)據(jù)作為與所述目標畫像實體相關的初始文本數(shù)據(jù)。
25、優(yōu)選地,所述bert模型使用大量無標注文本數(shù)據(jù)進行預訓練,經(jīng)過預訓練的bert模型用于捕捉文本數(shù)據(jù)中的上下文信息。
26、本發(fā)明還公開一種基于大語言模型的畫像體系構建系統(tǒng),包括以下模塊:
27、分類模塊,用于獲取原始文本數(shù)據(jù),并對所述原始文本數(shù)據(jù)進行分類處理;
28、篩選模塊,用于對分類處理后的原始文本數(shù)據(jù)進行篩選,得到與目標畫像實體相關的初始文本數(shù)據(jù);
29、切片模塊,用于對所述初始文本數(shù)據(jù)進行切片處理,得到若干個切片文本片段,計算各個相鄰的切片文本片段之間的相似度數(shù)值,根據(jù)所述相似度數(shù)值對所述若干個切片文本片段進行合并處理,得到若干個第一文本片段;
30、初級畫像模塊,用于基于大語言模型對每個所述第一文本片段進行歸納總結,生成與每個所述第一文本片段相對應的初級畫像標簽;
31、次級畫像模塊,用于基于大語言模型對每個所述初級畫像標簽進行聚類,生成多個次級畫像標簽;
32、迭代聚類模塊,用于基于大語言模型對每個所述次級畫像標簽進行相關度檢查,將強相關的多個次級畫像標簽進行迭代聚類,直至生成的聚類標簽之間的相關性均小于第一閾值或大語言模型認為生成的聚類標簽無法再次聚類;
33、生成畫像模塊,用于對所述初級畫像標簽、所述次級畫像標簽和所述聚類標簽進行結構化處理,利用知識圖譜生成所述目標畫像實體的用戶畫像。
34、優(yōu)選地,所述的基于大語言模型的畫像體系構建系統(tǒng),還包括:
35、微調訓練模塊,用于對所述大語言模型進行微調訓練,用于所述微調訓練的微調數(shù)據(jù)集包括按照預設比例設置的第一數(shù)據(jù)集、第二數(shù)據(jù)集和第三數(shù)據(jù)集,所述第一數(shù)據(jù)集用于訓練大語言模型總結任意文本片段的核心觀點,所述第二數(shù)據(jù)集用于訓練大語言模型識別任意文本片段與特定主體之間的聯(lián)系,所述第三數(shù)據(jù)集用于訓練大語言模型的通用性。
36、優(yōu)選地,所述初級畫像模塊包括:
37、歸納模塊,用于構建第一提示詞,所述第一提示詞指示所述大語言模型對與目標畫像實體相關的所述第一文本片段進行歸納總結,并根據(jù)歸納總結的內(nèi)容指定第一推薦標簽;
38、初級畫像生成模塊,用于將所述目標畫像實體、所述第一提示詞和所述第一文本片段輸入至大語言模型中,得到與所述第一文本片段相對應的第一推薦標簽,將所述大語言模型輸出的推薦標簽作為所述初級畫像標簽。
39、優(yōu)選地,所述次級畫像模塊包括:
40、聚類模塊,用于構建第二提示詞,所述第二提示詞指示所述大語言模型對由所述初級畫像標簽和所述第一文本片段組成的合并內(nèi)容進行聚類后指定第二推薦標簽;
41、次級畫像生成模塊,用于將所述目標畫像實體、所述第二提示詞、所述初級畫像標簽和所述第一文本片段輸入至大語言模型中,得到與所述第一文本片段相對應的第二推薦標簽,將所述大語言模型輸出的推薦標簽作為所述次級畫像標簽。
42、優(yōu)選地,所述迭代聚類模塊包括:
43、檢查模塊,用于構建第三提示詞,所述第三提示詞指示所述大語言模型對所述次級畫像標簽進行相關度檢查,對強相關的次級畫像標簽進行迭代聚類;
44、迭代模塊,用于將所述目標畫像實體、所述第三提示詞和所述次級畫像標簽輸入至大語言模型中,若所述大語言模型輸出的聚類標簽之間的相關性均小于第一閾值,則停止迭代聚類,若所述大語言模型輸出的聚類標簽之間的相關性存在大于第一閾值的或大語言模型認為生成的聚類標簽可再次聚類,則繼續(xù)迭代聚類。
45、本發(fā)明還公開一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,其中所述計算機程序被處理器執(zhí)行時,實現(xiàn)上述的基于大語言模型的畫像體系構建方法的步驟。
46、與現(xiàn)有技術相比,本發(fā)明具有如下有益效果:
47、1、本發(fā)明在獲取到多源數(shù)據(jù)之后進行高效篩選與分類,得到與目標畫像實體相關的初始文本數(shù)據(jù),不僅優(yōu)化了數(shù)據(jù)處理流程,還確保了數(shù)據(jù)的高效利用,保持數(shù)據(jù)的完整性和整體覆蓋度,減低后續(xù)數(shù)據(jù)處理的資源消耗率。
48、2、本發(fā)明在畫像體系構建時利用大語言模型對篩選分類后的文本數(shù)據(jù)進行深度處理,有效捕捉文本數(shù)據(jù)中的復雜模式和深層次特征,為畫像體系的精準描繪提供數(shù)據(jù)支持,有效彌補傳統(tǒng)畫像方法在文本數(shù)據(jù)處理能力上的局限性。
49、3、本發(fā)明通過生成多層次的推薦標簽,并進行標簽的迭代聚類,采用文本切片、總結、標簽生成、聚類、再總結、再標簽生成、再聚類的模式,生成多級畫像標簽,避免在長文本處理時丟失上下文關系,減少信息遺漏,確保畫像數(shù)據(jù)的全面性和上下文一致性,有效避免信息的冗余和缺失,從而構建出精確全面的用戶畫像。
50、以下將結合附圖對本發(fā)明的構思、具體結構及產(chǎn)生的技術效果作進一步說明,以充分地了解本發(fā)明的目的、特征和效果。