本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、預(yù)訓(xùn)練數(shù)據(jù)是指在訓(xùn)練模型之前已經(jīng)收集好的數(shù)據(jù),這些數(shù)據(jù)可能來自于不同的數(shù)據(jù)源,可能包含了噪聲、缺失值、異常值等問題。大規(guī)模的高質(zhì)量語料是訓(xùn)練大語言模型的關(guān)鍵“養(yǎng)料”,這些語料提供了世界性的知識體系,能夠提升語言模型的理解能力和生成質(zhì)量,同時也能夠支持多樣化的應(yīng)用場景,高質(zhì)量的文本對于大語言模型的訓(xùn)練和能力表現(xiàn)具有非常重要的影響,為了保證模型的性能和穩(wěn)定性,需要對預(yù)訓(xùn)練數(shù)據(jù)進行清洗,因此,預(yù)訓(xùn)練數(shù)據(jù)的去重方法成為一個具有應(yīng)用前景的方向。
2、在現(xiàn)有技術(shù)中,預(yù)訓(xùn)練數(shù)據(jù)的去重方法主要是在單進程模式下單一使用文檔間去重或文檔內(nèi)去重方法,去實現(xiàn)對預(yù)訓(xùn)練數(shù)據(jù)的去重。
3、由于現(xiàn)有技術(shù)中,通過單進程及單一去重方法處理預(yù)訓(xùn)練數(shù)據(jù),在面對數(shù)據(jù)量巨大的預(yù)訓(xùn)練數(shù)據(jù)時,需要花費過多的時間及資源去進行去重處理,并且數(shù)據(jù)去重不徹底,無法達到準(zhǔn)確去重,存在預(yù)訓(xùn)練數(shù)據(jù)去重效率低的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,用以達到提高預(yù)訓(xùn)練數(shù)據(jù)去重效率的技術(shù)效果。
2、第一方面,本技術(shù)提供一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法,包括:
3、根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集,獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù);
4、根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量,確定對應(yīng)的并行處理進程數(shù),并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量,將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次,其中,并行處理進程數(shù)用于指示系統(tǒng)可以同時并行處理的數(shù)據(jù)量,每個數(shù)據(jù)批次包含至少一個預(yù)訓(xùn)練數(shù)據(jù);
5、根據(jù)并行處理策略,為每個處理進程分配對應(yīng)的數(shù)據(jù)批次,并控制每個處理進程,對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù),其中,雙重去重處理包括文檔間去重和文檔內(nèi)去重;
6、在確定每個處理進程均完成雙重去重處理后,將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總,獲取去重后的目標(biāo)數(shù)據(jù)集。
7、可選地,文檔間去重包括全局?jǐn)?shù)據(jù)哈希去重和最小哈希局部敏感哈希去重,文檔內(nèi)去重包括字符級文本去重和詞語級文本去重,針對每個處理進程,對每個批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù),包括:
8、針對每個處理進程,獲取每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的哈希值,并根據(jù)哈希值,對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重,以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù),得到去重處理后的多個第一數(shù)據(jù),其中,每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)一個哈希值;
9、將每個第一數(shù)據(jù)對應(yīng)的文本字段分解為多個第一片段序列,并根據(jù)第一片段序列,對第一數(shù)據(jù)進行字符級文本去重,獲取由字符級文本去重處理后的多個第二數(shù)據(jù);
10、將每個第二數(shù)據(jù)進行數(shù)據(jù)分詞,獲取多個獨立詞匯,并將每個獨立詞匯保存至文本分詞列中;
11、根據(jù)文本分詞列,對多個獨立詞匯進行最小哈希局部敏感哈希去重,獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù);
12、將每個第三數(shù)據(jù)對應(yīng)的文本字段分解為多個第二片段序列,并根據(jù)第二片段序列,對第三數(shù)據(jù)進行詞語級文本去重,獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù)。
13、可選地,根據(jù)哈希值,對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重,以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù),得到去重處理后的多個第一數(shù)據(jù),包括:
14、針對每個預(yù)訓(xùn)練數(shù)據(jù),獲取對應(yīng)的索引編號;
15、將哈希值相同的預(yù)訓(xùn)練數(shù)據(jù)作為重復(fù)數(shù)據(jù),并保持重復(fù)數(shù)據(jù)中索引編號值最小的預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的重復(fù)數(shù)據(jù)所對應(yīng)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的重復(fù)數(shù)據(jù),其中,第二標(biāo)記字符用于指示去除重復(fù)數(shù)據(jù);
16、將帶有第一標(biāo)記字符的預(yù)訓(xùn)練數(shù)據(jù)進行匯總并作為第一數(shù)據(jù)。
17、可選地,根據(jù)第一片段序列,對第一數(shù)據(jù)進行字符級文本去重,獲取由字符級文本去重處理后的多個第二數(shù)據(jù),包括:
18、針對每個第一數(shù)據(jù),確定每個第一片段序列的出現(xiàn)頻次;
19、將出現(xiàn)頻次超過第一閾值的第一目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第一目標(biāo)片段序列與第一片段序列的數(shù)量比值,確定每個第一數(shù)據(jù)的第一重復(fù)比率;
20、將第一重復(fù)比例與第二閾值進行對比,其中,第二閾值包括第一最大閾值和第一最小閾值;
21、若第一重復(fù)比率處于第一最大閾值和第一最小閾值之間,則確定第一目標(biāo)片段序列為第一重復(fù)序列,并將第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除第一重復(fù)序列對應(yīng)的第一數(shù)據(jù);
22、將帶有第一標(biāo)記字符的第一數(shù)據(jù)進行匯總并作為第二數(shù)據(jù)。
23、可選地,根據(jù)文本分詞列,對多個獨立詞匯進行最小哈希局部敏感哈希去重,獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù),包括:
24、根據(jù)最小哈希局部敏感哈希算法,確認(rèn)每個第二數(shù)據(jù)與剩余的每個第二數(shù)據(jù)之間文本分詞列對應(yīng)的文本相似度;
25、將文本相似度與第三閾值進行對比;
26、若文本相似度超過第三閾值,則確定當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)為相似數(shù)據(jù);
27、獲取當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)對應(yīng)的索引編號,并保持相似數(shù)據(jù)中索引編號值最小的第二數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的相似數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的相似數(shù)據(jù);
28、將帶有第一標(biāo)記字符的第二數(shù)據(jù)進行匯總并作為第三數(shù)據(jù)。
29、可選地,根據(jù)第二片段序列,對第三數(shù)據(jù)進行詞語級文本去重,獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù),包括:
30、針對每個第三數(shù)據(jù)對應(yīng)的文本分詞列,確定每個第二片段序列的出現(xiàn)頻次;
31、將出現(xiàn)頻次超過第四閾值的第二目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第二目標(biāo)片段序列與第二片段序列的數(shù)量比值,確定每個第三數(shù)據(jù)的第二重復(fù)比率;
32、將第二重復(fù)比例與第五閾值進行對比,其中,第五閾值包括第二最大閾值和第二最小閾值;
33、若第二重復(fù)比率處于第二最大閾值和第二最小閾值之間,則確定第二目標(biāo)片段序列為第二重復(fù)序列,并將第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)的第一標(biāo)識字符更改為第二標(biāo)識字符,以去除第二重復(fù)序列對應(yīng)的第三數(shù)據(jù);
34、將帶有第一標(biāo)記字符的第三數(shù)據(jù)進行匯總并作為目標(biāo)數(shù)據(jù)。
35、可選地,針對每個處理進程,對每個批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù)之前,還包括:
36、根據(jù)每個處理進程,對每個數(shù)據(jù)批次中的預(yù)訓(xùn)練數(shù)據(jù)添加對應(yīng)的第一標(biāo)記字符,其中,第一標(biāo)記字符用于指示保留預(yù)訓(xùn)練數(shù)據(jù)。
37、第二方面,本技術(shù)提供的一種預(yù)訓(xùn)練數(shù)據(jù)的去重裝置,包括:
38、獲取模塊,用于根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集,獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù);
39、第一處理模塊,用于根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量,確定對應(yīng)的并行處理進程數(shù),并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量,將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次,其中,并行處理進程數(shù)用于指示系統(tǒng)可以同時并行處理的數(shù)據(jù)量,每個數(shù)據(jù)批次包含至少一個預(yù)訓(xùn)練數(shù)據(jù);
40、控制模塊,用于根據(jù)并行處理策略,為每個處理進程分配對應(yīng)的數(shù)據(jù)批次,并控制每個處理進程,對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù),其中,雙重去重處理包括文檔間去重和文檔內(nèi)去重;
41、第二處理模塊,用于在確定每個處理進程均完成雙重去重處理后,將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總,獲取去重后的目標(biāo)數(shù)據(jù)集。
42、可選地,控制模塊還用于:
43、針對每個處理進程,獲取每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的哈希值,并根據(jù)哈希值,對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重,以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù),得到去重處理后的多個第一數(shù)據(jù),其中,每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)一個哈希值;
44、將每個第一數(shù)據(jù)對應(yīng)的文本字段分解為多個第一片段序列,并根據(jù)第一片段序列,對第一數(shù)據(jù)進行字符級文本去重,獲取由字符級文本去重處理后的多個第二數(shù)據(jù);
45、將每個第二數(shù)據(jù)進行數(shù)據(jù)分詞,獲取多個獨立詞匯,并將每個獨立詞匯保存至文本分詞列中;
46、根據(jù)文本分詞列,對多個獨立詞匯進行最小哈希局部敏感哈希去重,獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù);
47、將每個第三數(shù)據(jù)對應(yīng)的文本字段分解為多個第二片段序列,并根據(jù)第二片段序列,對第三數(shù)據(jù)進行詞語級文本去重,獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù)。
48、可選地,控制模塊還用于:
49、針對每個預(yù)訓(xùn)練數(shù)據(jù),獲取對應(yīng)的索引編號;
50、將哈希值相同的預(yù)訓(xùn)練數(shù)據(jù)作為重復(fù)數(shù)據(jù),并保持重復(fù)數(shù)據(jù)中索引編號值最小的預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的重復(fù)數(shù)據(jù)所對應(yīng)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的重復(fù)數(shù)據(jù),其中,第二標(biāo)記字符用于指示去除重復(fù)數(shù)據(jù);
51、將帶有第一標(biāo)記字符的預(yù)訓(xùn)練數(shù)據(jù)進行匯總并作為第一數(shù)據(jù)。
52、可選地,控制模塊還用于:
53、針對每個第一數(shù)據(jù),確定每個第一片段序列的出現(xiàn)頻次;
54、將出現(xiàn)頻次超過第一閾值的第一目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第一目標(biāo)片段序列與第一片段序列的數(shù)量比值,確定每個第一數(shù)據(jù)的第一重復(fù)比率;
55、將第一重復(fù)比例與第二閾值進行對比,其中,第二閾值包括第一最大閾值和第一最小閾值;
56、若第一重復(fù)比率處于第一最大閾值和第一最小閾值之間,則確定第一目標(biāo)片段序列為第一重復(fù)序列,并將第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除第一重復(fù)序列對應(yīng)的第一數(shù)據(jù);
57、將帶有第一標(biāo)記字符的第一數(shù)據(jù)進行匯總并作為第二數(shù)據(jù)。
58、可選地,控制模塊還用于:
59、根據(jù)最小哈希局部敏感哈希算法,確認(rèn)每個第二數(shù)據(jù)與剩余的每個第二數(shù)據(jù)之間文本分詞列對應(yīng)的文本相似度;
60、將文本相似度與第三閾值進行對比;
61、若文本相似度超過第三閾值,則確定當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)為相似數(shù)據(jù);
62、獲取當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)對應(yīng)的索引編號,并保持相似數(shù)據(jù)中索引編號值最小的第二數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的相似數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的相似數(shù)據(jù);
63、將帶有第一標(biāo)記字符的第二數(shù)據(jù)進行匯總并作為第三數(shù)據(jù)。
64、可選地,控制模塊還用于:
65、針對每個第三數(shù)據(jù)對應(yīng)的文本分詞列,確定每個第二片段序列的出現(xiàn)頻次;
66、將出現(xiàn)頻次超過第四閾值的第二目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第二目標(biāo)片段序列與第二片段序列的數(shù)量比值,確定每個第三數(shù)據(jù)的第二重復(fù)比率;
67、將第二重復(fù)比例與第五閾值進行對比,其中,第五閾值包括第二最大閾值和第二最小閾值;
68、若第二重復(fù)比率處于第二最大閾值和第二最小閾值之間,則確定第二目標(biāo)片段序列為第二重復(fù)序列,并將第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)的第一標(biāo)識字符更改為第二標(biāo)識字符,以去除第二重復(fù)序列對應(yīng)的第三數(shù)據(jù);
69、將帶有第一標(biāo)記字符的第三數(shù)據(jù)進行匯總并作為目標(biāo)數(shù)據(jù)。
70、可選地,控制模塊還用于:
71、根據(jù)每個處理進程,對每個數(shù)據(jù)批次中的預(yù)訓(xùn)練數(shù)據(jù)添加對應(yīng)的第一標(biāo)記字符,其中,第一標(biāo)記字符用于指示保留預(yù)訓(xùn)練數(shù)據(jù)。
72、第三方面,本技術(shù)提供了一種預(yù)訓(xùn)練數(shù)據(jù)的去重設(shè)備,包括:
73、處理器和存儲器;
74、存儲器存儲計算機執(zhí)行指令;
75、處理器執(zhí)行存儲器存儲的計算機執(zhí)行指令,使得處理器執(zhí)行如上第一方面中各種可能的實施方式。
76、第四方面,本技術(shù)提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如第一方面中各種可能的實施方式。
77、第五方面,本技術(shù)提供了一種計算機程序產(chǎn)品,計算機程序被處理器執(zhí)行時用于實現(xiàn)如第一方面中各種可能的實施方式。
78、本技術(shù)提供的一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,通過根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集,獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù);根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量,確定對應(yīng)的并行處理進程數(shù),并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量,將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次;根據(jù)并行處理策略,為每個處理進程分配對應(yīng)的數(shù)據(jù)批次,并控制每個處理進程,對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù);在確定每個處理進程均完成雙重去重處理后,將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總,獲取去重后的目標(biāo)數(shù)據(jù)集,從而通過設(shè)置并行處理策略,在面對數(shù)據(jù)量龐大的數(shù)據(jù)集時,可根據(jù)數(shù)據(jù)量確定對應(yīng)的進程數(shù)以并行完成去重操作,提高了數(shù)據(jù)去重過程的靈活性、便捷性和快速性,減少了去重處理時對時間及資源上的浪費,同時,通過設(shè)置雙重去重方法對預(yù)訓(xùn)練數(shù)據(jù)進行去重處理,提高了去重后的目標(biāo)數(shù)據(jù)集的準(zhǔn)確性和可靠性,解決了預(yù)訓(xùn)練數(shù)據(jù)去重效率低的技術(shù)問題,達到了提高預(yù)訓(xùn)練數(shù)據(jù)去重效率的技術(shù)效果。