預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號：40608144發(fā)布日期：2025-01-07 20:49閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及數(shù)據(jù)處理，尤其涉及一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、預(yù)訓(xùn)練數(shù)據(jù)是指在訓(xùn)練模型之前已經(jīng)收集好的數(shù)據(jù)，這些數(shù)據(jù)可能來自于不同的數(shù)據(jù)源，可能包含了噪聲、缺失值、異常值等問題。大規(guī)模的高質(zhì)量語料是訓(xùn)練大語言模型的關(guān)鍵“養(yǎng)料”，這些語料提供了世界性的知識體系，能夠提升語言模型的理解能力和生成質(zhì)量，同時也能夠支持多樣化的應(yīng)用場景，高質(zhì)量的文本對于大語言模型的訓(xùn)練和能力表現(xiàn)具有非常重要的影響，為了保證模型的性能和穩(wěn)定性，需要對預(yù)訓(xùn)練數(shù)據(jù)進行清洗，因此，預(yù)訓(xùn)練數(shù)據(jù)的去重方法成為一個具有應(yīng)用前景的方向。

2、在現(xiàn)有技術(shù)中，預(yù)訓(xùn)練數(shù)據(jù)的去重方法主要是在單進程模式下單一使用文檔間去重或文檔內(nèi)去重方法，去實現(xiàn)對預(yù)訓(xùn)練數(shù)據(jù)的去重。

3、由于現(xiàn)有技術(shù)中，通過單進程及單一去重方法處理預(yù)訓(xùn)練數(shù)據(jù)，在面對數(shù)據(jù)量巨大的預(yù)訓(xùn)練數(shù)據(jù)時，需要花費過多的時間及資源去進行去重處理，并且數(shù)據(jù)去重不徹底，無法達到準(zhǔn)確去重，存在預(yù)訓(xùn)練數(shù)據(jù)去重效率低的技術(shù)問題。

技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品，用以達到提高預(yù)訓(xùn)練數(shù)據(jù)去重效率的技術(shù)效果。

2、第一方面，本技術(shù)提供一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法，包括：

3、根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集，獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù)；

4、根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量，確定對應(yīng)的并行處理進程數(shù)，并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量，將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次，其中，并行處理進程數(shù)用于指示系統(tǒng)可以同時并行處理的數(shù)據(jù)量，每個數(shù)據(jù)批次包含至少一個預(yù)訓(xùn)練數(shù)據(jù)；

5、根據(jù)并行處理策略，為每個處理進程分配對應(yīng)的數(shù)據(jù)批次，并控制每個處理進程，對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理，獲取處理后的目標(biāo)數(shù)據(jù)，其中，雙重去重處理包括文檔間去重和文檔內(nèi)去重；

6、在確定每個處理進程均完成雙重去重處理后，將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總，獲取去重后的目標(biāo)數(shù)據(jù)集。

7、可選地，文檔間去重包括全局?jǐn)?shù)據(jù)哈希去重和最小哈希局部敏感哈希去重，文檔內(nèi)去重包括字符級文本去重和詞語級文本去重，針對每個處理進程，對每個批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理，獲取處理后的目標(biāo)數(shù)據(jù)，包括：

8、針對每個處理進程，獲取每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的哈希值，并根據(jù)哈希值，對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重，以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù)，得到去重處理后的多個第一數(shù)據(jù)，其中，每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)一個哈希值；

9、將每個第一數(shù)據(jù)對應(yīng)的文本字段分解為多個第一片段序列，并根據(jù)第一片段序列，對第一數(shù)據(jù)進行字符級文本去重，獲取由字符級文本去重處理后的多個第二數(shù)據(jù)；

10、將每個第二數(shù)據(jù)進行數(shù)據(jù)分詞，獲取多個獨立詞匯，并將每個獨立詞匯保存至文本分詞列中；

11、根據(jù)文本分詞列，對多個獨立詞匯進行最小哈希局部敏感哈希去重，獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù)；

12、將每個第三數(shù)據(jù)對應(yīng)的文本字段分解為多個第二片段序列，并根據(jù)第二片段序列，對第三數(shù)據(jù)進行詞語級文本去重，獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù)。

13、可選地，根據(jù)哈希值，對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重，以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù)，得到去重處理后的多個第一數(shù)據(jù)，包括：

14、針對每個預(yù)訓(xùn)練數(shù)據(jù)，獲取對應(yīng)的索引編號；

15、將哈希值相同的預(yù)訓(xùn)練數(shù)據(jù)作為重復(fù)數(shù)據(jù)，并保持重復(fù)數(shù)據(jù)中索引編號值最小的預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變，將剩余的重復(fù)數(shù)據(jù)所對應(yīng)的第一標(biāo)記字符更改為第二標(biāo)記字符，以去除剩余的重復(fù)數(shù)據(jù)，其中，第二標(biāo)記字符用于指示去除重復(fù)數(shù)據(jù)；

16、將帶有第一標(biāo)記字符的預(yù)訓(xùn)練數(shù)據(jù)進行匯總并作為第一數(shù)據(jù)。

17、可選地，根據(jù)第一片段序列，對第一數(shù)據(jù)進行字符級文本去重，獲取由字符級文本去重處理后的多個第二數(shù)據(jù)，包括：

18、針對每個第一數(shù)據(jù)，確定每個第一片段序列的出現(xiàn)頻次；

19、將出現(xiàn)頻次超過第一閾值的第一目標(biāo)片段序列的數(shù)量進行匯總，并根據(jù)第一目標(biāo)片段序列與第一片段序列的數(shù)量比值，確定每個第一數(shù)據(jù)的第一重復(fù)比率；

20、將第一重復(fù)比例與第二閾值進行對比，其中，第二閾值包括第一最大閾值和第一最小閾值；

21、若第一重復(fù)比率處于第一最大閾值和第一最小閾值之間，則確定第一目標(biāo)片段序列為第一重復(fù)序列，并將第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符，以去除第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)；

22、將帶有第一標(biāo)記字符的第一數(shù)據(jù)進行匯總并作為第二數(shù)據(jù)。

23、可選地，根據(jù)文本分詞列，對多個獨立詞匯進行最小哈希局部敏感哈希去重，獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù)，包括：

24、根據(jù)最小哈希局部敏感哈希算法，確認(rèn)每個第二數(shù)據(jù)與剩余的每個第二數(shù)據(jù)之間文本分詞列對應(yīng)的文本相似度；

25、將文本相似度與第三閾值進行對比；

26、若文本相似度超過第三閾值，則確定當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)為相似數(shù)據(jù)；

27、獲取當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)對應(yīng)的索引編號，并保持相似數(shù)據(jù)中索引編號值最小的第二數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變，將剩余的相似數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符，以去除剩余的相似數(shù)據(jù)；

28、將帶有第一標(biāo)記字符的第二數(shù)據(jù)進行匯總并作為第三數(shù)據(jù)。

29、可選地，根據(jù)第二片段序列，對第三數(shù)據(jù)進行詞語級文本去重，獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù)，包括：

30、針對每個第三數(shù)據(jù)對應(yīng)的文本分詞列，確定每個第二片段序列的出現(xiàn)頻次；

31、將出現(xiàn)頻次超過第四閾值的第二目標(biāo)片段序列的數(shù)量進行匯總，并根據(jù)第二目標(biāo)片段序列與第二片段序列的數(shù)量比值，確定每個第三數(shù)據(jù)的第二重復(fù)比率；

32、將第二重復(fù)比例與第五閾值進行對比，其中，第五閾值包括第二最大閾值和第二最小閾值；

33、若第二重復(fù)比率處于第二最大閾值和第二最小閾值之間，則確定第二目標(biāo)片段序列為第二重復(fù)序列，并將第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)的第一標(biāo)識字符更改為第二標(biāo)識字符，以去除第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)；

34、將帶有第一標(biāo)記字符的第三數(shù)據(jù)進行匯總并作為目標(biāo)數(shù)據(jù)。

35、可選地，針對每個處理進程，對每個批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理，獲取處理后的目標(biāo)數(shù)據(jù)之前，還包括：

36、根據(jù)每個處理進程，對每個數(shù)據(jù)批次中的預(yù)訓(xùn)練數(shù)據(jù)添加對應(yīng)的第一標(biāo)記字符，其中，第一標(biāo)記字符用于指示保留預(yù)訓(xùn)練數(shù)據(jù)。

37、第二方面，本技術(shù)提供的一種預(yù)訓(xùn)練數(shù)據(jù)的去重裝置，包括：

38、獲取模塊，用于根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集，獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù)；

39、第一處理模塊，用于根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量，確定對應(yīng)的并行處理進程數(shù)，并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量，將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次，其中，并行處理進程數(shù)用于指示系統(tǒng)可以同時并行處理的數(shù)據(jù)量，每個數(shù)據(jù)批次包含至少一個預(yù)訓(xùn)練數(shù)據(jù)；

40、控制模塊，用于根據(jù)并行處理策略，為每個處理進程分配對應(yīng)的數(shù)據(jù)批次，并控制每個處理進程，對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理，獲取處理后的目標(biāo)數(shù)據(jù)，其中，雙重去重處理包括文檔間去重和文檔內(nèi)去重；

41、第二處理模塊，用于在確定每個處理進程均完成雙重去重處理后，將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總，獲取去重后的目標(biāo)數(shù)據(jù)集。

42、可選地，控制模塊還用于：

43、針對每個處理進程，獲取每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的哈希值，并根據(jù)哈希值，對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重，以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù)，得到去重處理后的多個第一數(shù)據(jù)，其中，每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)一個哈希值；

44、將每個第一數(shù)據(jù)對應(yīng)的文本字段分解為多個第一片段序列，并根據(jù)第一片段序列，對第一數(shù)據(jù)進行字符級文本去重，獲取由字符級文本去重處理后的多個第二數(shù)據(jù)；

45、將每個第二數(shù)據(jù)進行數(shù)據(jù)分詞，獲取多個獨立詞匯，并將每個獨立詞匯保存至文本分詞列中；

46、根據(jù)文本分詞列，對多個獨立詞匯進行最小哈希局部敏感哈希去重，獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù)；

47、將每個第三數(shù)據(jù)對應(yīng)的文本字段分解為多個第二片段序列，并根據(jù)第二片段序列，對第三數(shù)據(jù)進行詞語級文本去重，獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù)。

48、可選地，控制模塊還用于：

49、針對每個預(yù)訓(xùn)練數(shù)據(jù)，獲取對應(yīng)的索引編號；

50、將哈希值相同的預(yù)訓(xùn)練數(shù)據(jù)作為重復(fù)數(shù)據(jù)，并保持重復(fù)數(shù)據(jù)中索引編號值最小的預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變，將剩余的重復(fù)數(shù)據(jù)所對應(yīng)的第一標(biāo)記字符更改為第二標(biāo)記字符，以去除剩余的重復(fù)數(shù)據(jù)，其中，第二標(biāo)記字符用于指示去除重復(fù)數(shù)據(jù)；

51、將帶有第一標(biāo)記字符的預(yù)訓(xùn)練數(shù)據(jù)進行匯總并作為第一數(shù)據(jù)。

52、可選地，控制模塊還用于：

53、針對每個第一數(shù)據(jù)，確定每個第一片段序列的出現(xiàn)頻次；

54、將出現(xiàn)頻次超過第一閾值的第一目標(biāo)片段序列的數(shù)量進行匯總，并根據(jù)第一目標(biāo)片段序列與第一片段序列的數(shù)量比值，確定每個第一數(shù)據(jù)的第一重復(fù)比率；

55、將第一重復(fù)比例與第二閾值進行對比，其中，第二閾值包括第一最大閾值和第一最小閾值；

56、若第一重復(fù)比率處于第一最大閾值和第一最小閾值之間，則確定第一目標(biāo)片段序列為第一重復(fù)序列，并將第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符，以去除第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)；

57、將帶有第一標(biāo)記字符的第一數(shù)據(jù)進行匯總并作為第二數(shù)據(jù)。

58、可選地，控制模塊還用于：

59、根據(jù)最小哈希局部敏感哈希算法，確認(rèn)每個第二數(shù)據(jù)與剩余的每個第二數(shù)據(jù)之間文本分詞列對應(yīng)的文本相似度；

60、將文本相似度與第三閾值進行對比；

61、若文本相似度超過第三閾值，則確定當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)為相似數(shù)據(jù)；

62、獲取當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)對應(yīng)的索引編號，并保持相似數(shù)據(jù)中索引編號值最小的第二數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變，將剩余的相似數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符，以去除剩余的相似數(shù)據(jù)；

63、將帶有第一標(biāo)記字符的第二數(shù)據(jù)進行匯總并作為第三數(shù)據(jù)。

64、可選地，控制模塊還用于：

65、針對每個第三數(shù)據(jù)對應(yīng)的文本分詞列，確定每個第二片段序列的出現(xiàn)頻次；

66、將出現(xiàn)頻次超過第四閾值的第二目標(biāo)片段序列的數(shù)量進行匯總，并根據(jù)第二目標(biāo)片段序列與第二片段序列的數(shù)量比值，確定每個第三數(shù)據(jù)的第二重復(fù)比率；

67、將第二重復(fù)比例與第五閾值進行對比，其中，第五閾值包括第二最大閾值和第二最小閾值；

68、若第二重復(fù)比率處于第二最大閾值和第二最小閾值之間，則確定第二目標(biāo)片段序列為第二重復(fù)序列，并將第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)的第一標(biāo)識字符更改為第二標(biāo)識字符，以去除第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)；

69、將帶有第一標(biāo)記字符的第三數(shù)據(jù)進行匯總并作為目標(biāo)數(shù)據(jù)。

70、可選地，控制模塊還用于：

71、根據(jù)每個處理進程，對每個數(shù)據(jù)批次中的預(yù)訓(xùn)練數(shù)據(jù)添加對應(yīng)的第一標(biāo)記字符，其中，第一標(biāo)記字符用于指示保留預(yù)訓(xùn)練數(shù)據(jù)。

72、第三方面，本技術(shù)提供了一種預(yù)訓(xùn)練數(shù)據(jù)的去重設(shè)備，包括：

73、處理器和存儲器；

74、存儲器存儲計算機執(zhí)行指令；

75、處理器執(zhí)行存儲器存儲的計算機執(zhí)行指令，使得處理器執(zhí)行如上第一方面中各種可能的實施方式。

76、第四方面，本技術(shù)提供了一種計算機可讀存儲介質(zhì)，計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令，計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如第一方面中各種可能的實施方式。

77、第五方面，本技術(shù)提供了一種計算機程序產(chǎn)品，計算機程序被處理器執(zhí)行時用于實現(xiàn)如第一方面中各種可能的實施方式。

78、本技術(shù)提供的一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品，通過根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集，獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù)；根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量，確定對應(yīng)的并行處理進程數(shù)，并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量，將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次；根據(jù)并行處理策略，為每個處理進程分配對應(yīng)的數(shù)據(jù)批次，并控制每個處理進程，對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理，獲取處理后的目標(biāo)數(shù)據(jù)；在確定每個處理進程均完成雙重去重處理后，將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總，獲取去重后的目標(biāo)數(shù)據(jù)集，從而通過設(shè)置并行處理策略，在面對數(shù)據(jù)量龐大的數(shù)據(jù)集時，可根據(jù)數(shù)據(jù)量確定對應(yīng)的進程數(shù)以并行完成去重操作，提高了數(shù)據(jù)去重過程的靈活性、便捷性和快速性，減少了去重處理時對時間及資源上的浪費，同時，通過設(shè)置雙重去重方法對預(yù)訓(xùn)練數(shù)據(jù)進行去重處理，提高了去重后的目標(biāo)數(shù)據(jù)集的準(zhǔn)確性和可靠性，解決了預(yù)訓(xùn)練數(shù)據(jù)去重效率低的技術(shù)問題，達到了提高預(yù)訓(xùn)練數(shù)據(jù)去重效率的技術(shù)效果。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃貝貝
技術(shù)所有人：中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司
我是此專利的發(fā)明人

上一篇：一種精密鑄造用混砂機的制作方法
上一篇：對開型超導(dǎo)裝置及單晶硅生產(chǎn)設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程