欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號:40608144發(fā)布日期:2025-01-07 20:49閱讀:8來源:國知局
預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。


背景技術(shù):

1、預(yù)訓(xùn)練數(shù)據(jù)是指在訓(xùn)練模型之前已經(jīng)收集好的數(shù)據(jù),這些數(shù)據(jù)可能來自于不同的數(shù)據(jù)源,可能包含了噪聲、缺失值、異常值等問題。大規(guī)模的高質(zhì)量語料是訓(xùn)練大語言模型的關(guān)鍵“養(yǎng)料”,這些語料提供了世界性的知識體系,能夠提升語言模型的理解能力和生成質(zhì)量,同時也能夠支持多樣化的應(yīng)用場景,高質(zhì)量的文本對于大語言模型的訓(xùn)練和能力表現(xiàn)具有非常重要的影響,為了保證模型的性能和穩(wěn)定性,需要對預(yù)訓(xùn)練數(shù)據(jù)進行清洗,因此,預(yù)訓(xùn)練數(shù)據(jù)的去重方法成為一個具有應(yīng)用前景的方向。

2、在現(xiàn)有技術(shù)中,預(yù)訓(xùn)練數(shù)據(jù)的去重方法主要是在單進程模式下單一使用文檔間去重或文檔內(nèi)去重方法,去實現(xiàn)對預(yù)訓(xùn)練數(shù)據(jù)的去重。

3、由于現(xiàn)有技術(shù)中,通過單進程及單一去重方法處理預(yù)訓(xùn)練數(shù)據(jù),在面對數(shù)據(jù)量巨大的預(yù)訓(xùn)練數(shù)據(jù)時,需要花費過多的時間及資源去進行去重處理,并且數(shù)據(jù)去重不徹底,無法達到準(zhǔn)確去重,存在預(yù)訓(xùn)練數(shù)據(jù)去重效率低的技術(shù)問題。


技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,用以達到提高預(yù)訓(xùn)練數(shù)據(jù)去重效率的技術(shù)效果。

2、第一方面,本技術(shù)提供一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法,包括:

3、根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集,獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù);

4、根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量,確定對應(yīng)的并行處理進程數(shù),并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量,將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次,其中,并行處理進程數(shù)用于指示系統(tǒng)可以同時并行處理的數(shù)據(jù)量,每個數(shù)據(jù)批次包含至少一個預(yù)訓(xùn)練數(shù)據(jù);

5、根據(jù)并行處理策略,為每個處理進程分配對應(yīng)的數(shù)據(jù)批次,并控制每個處理進程,對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù),其中,雙重去重處理包括文檔間去重和文檔內(nèi)去重;

6、在確定每個處理進程均完成雙重去重處理后,將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總,獲取去重后的目標(biāo)數(shù)據(jù)集。

7、可選地,文檔間去重包括全局?jǐn)?shù)據(jù)哈希去重和最小哈希局部敏感哈希去重,文檔內(nèi)去重包括字符級文本去重和詞語級文本去重,針對每個處理進程,對每個批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù),包括:

8、針對每個處理進程,獲取每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的哈希值,并根據(jù)哈希值,對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重,以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù),得到去重處理后的多個第一數(shù)據(jù),其中,每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)一個哈希值;

9、將每個第一數(shù)據(jù)對應(yīng)的文本字段分解為多個第一片段序列,并根據(jù)第一片段序列,對第一數(shù)據(jù)進行字符級文本去重,獲取由字符級文本去重處理后的多個第二數(shù)據(jù);

10、將每個第二數(shù)據(jù)進行數(shù)據(jù)分詞,獲取多個獨立詞匯,并將每個獨立詞匯保存至文本分詞列中;

11、根據(jù)文本分詞列,對多個獨立詞匯進行最小哈希局部敏感哈希去重,獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù);

12、將每個第三數(shù)據(jù)對應(yīng)的文本字段分解為多個第二片段序列,并根據(jù)第二片段序列,對第三數(shù)據(jù)進行詞語級文本去重,獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù)。

13、可選地,根據(jù)哈希值,對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重,以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù),得到去重處理后的多個第一數(shù)據(jù),包括:

14、針對每個預(yù)訓(xùn)練數(shù)據(jù),獲取對應(yīng)的索引編號;

15、將哈希值相同的預(yù)訓(xùn)練數(shù)據(jù)作為重復(fù)數(shù)據(jù),并保持重復(fù)數(shù)據(jù)中索引編號值最小的預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的重復(fù)數(shù)據(jù)所對應(yīng)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的重復(fù)數(shù)據(jù),其中,第二標(biāo)記字符用于指示去除重復(fù)數(shù)據(jù);

16、將帶有第一標(biāo)記字符的預(yù)訓(xùn)練數(shù)據(jù)進行匯總并作為第一數(shù)據(jù)。

17、可選地,根據(jù)第一片段序列,對第一數(shù)據(jù)進行字符級文本去重,獲取由字符級文本去重處理后的多個第二數(shù)據(jù),包括:

18、針對每個第一數(shù)據(jù),確定每個第一片段序列的出現(xiàn)頻次;

19、將出現(xiàn)頻次超過第一閾值的第一目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第一目標(biāo)片段序列與第一片段序列的數(shù)量比值,確定每個第一數(shù)據(jù)的第一重復(fù)比率;

20、將第一重復(fù)比例與第二閾值進行對比,其中,第二閾值包括第一最大閾值和第一最小閾值;

21、若第一重復(fù)比率處于第一最大閾值和第一最小閾值之間,則確定第一目標(biāo)片段序列為第一重復(fù)序列,并將第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除第一重復(fù)序列對應(yīng)的第一數(shù)據(jù);

22、將帶有第一標(biāo)記字符的第一數(shù)據(jù)進行匯總并作為第二數(shù)據(jù)。

23、可選地,根據(jù)文本分詞列,對多個獨立詞匯進行最小哈希局部敏感哈希去重,獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù),包括:

24、根據(jù)最小哈希局部敏感哈希算法,確認(rèn)每個第二數(shù)據(jù)與剩余的每個第二數(shù)據(jù)之間文本分詞列對應(yīng)的文本相似度;

25、將文本相似度與第三閾值進行對比;

26、若文本相似度超過第三閾值,則確定當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)為相似數(shù)據(jù);

27、獲取當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)對應(yīng)的索引編號,并保持相似數(shù)據(jù)中索引編號值最小的第二數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的相似數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的相似數(shù)據(jù);

28、將帶有第一標(biāo)記字符的第二數(shù)據(jù)進行匯總并作為第三數(shù)據(jù)。

29、可選地,根據(jù)第二片段序列,對第三數(shù)據(jù)進行詞語級文本去重,獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù),包括:

30、針對每個第三數(shù)據(jù)對應(yīng)的文本分詞列,確定每個第二片段序列的出現(xiàn)頻次;

31、將出現(xiàn)頻次超過第四閾值的第二目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第二目標(biāo)片段序列與第二片段序列的數(shù)量比值,確定每個第三數(shù)據(jù)的第二重復(fù)比率;

32、將第二重復(fù)比例與第五閾值進行對比,其中,第五閾值包括第二最大閾值和第二最小閾值;

33、若第二重復(fù)比率處于第二最大閾值和第二最小閾值之間,則確定第二目標(biāo)片段序列為第二重復(fù)序列,并將第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)的第一標(biāo)識字符更改為第二標(biāo)識字符,以去除第二重復(fù)序列對應(yīng)的第三數(shù)據(jù);

34、將帶有第一標(biāo)記字符的第三數(shù)據(jù)進行匯總并作為目標(biāo)數(shù)據(jù)。

35、可選地,針對每個處理進程,對每個批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù)之前,還包括:

36、根據(jù)每個處理進程,對每個數(shù)據(jù)批次中的預(yù)訓(xùn)練數(shù)據(jù)添加對應(yīng)的第一標(biāo)記字符,其中,第一標(biāo)記字符用于指示保留預(yù)訓(xùn)練數(shù)據(jù)。

37、第二方面,本技術(shù)提供的一種預(yù)訓(xùn)練數(shù)據(jù)的去重裝置,包括:

38、獲取模塊,用于根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集,獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù);

39、第一處理模塊,用于根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量,確定對應(yīng)的并行處理進程數(shù),并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量,將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次,其中,并行處理進程數(shù)用于指示系統(tǒng)可以同時并行處理的數(shù)據(jù)量,每個數(shù)據(jù)批次包含至少一個預(yù)訓(xùn)練數(shù)據(jù);

40、控制模塊,用于根據(jù)并行處理策略,為每個處理進程分配對應(yīng)的數(shù)據(jù)批次,并控制每個處理進程,對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù),其中,雙重去重處理包括文檔間去重和文檔內(nèi)去重;

41、第二處理模塊,用于在確定每個處理進程均完成雙重去重處理后,將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總,獲取去重后的目標(biāo)數(shù)據(jù)集。

42、可選地,控制模塊還用于:

43、針對每個處理進程,獲取每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的哈希值,并根據(jù)哈希值,對多個預(yù)訓(xùn)練數(shù)據(jù)進行全局?jǐn)?shù)據(jù)哈希去重,以去除重復(fù)的預(yù)訓(xùn)練數(shù)據(jù),得到去重處理后的多個第一數(shù)據(jù),其中,每個預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)一個哈希值;

44、將每個第一數(shù)據(jù)對應(yīng)的文本字段分解為多個第一片段序列,并根據(jù)第一片段序列,對第一數(shù)據(jù)進行字符級文本去重,獲取由字符級文本去重處理后的多個第二數(shù)據(jù);

45、將每個第二數(shù)據(jù)進行數(shù)據(jù)分詞,獲取多個獨立詞匯,并將每個獨立詞匯保存至文本分詞列中;

46、根據(jù)文本分詞列,對多個獨立詞匯進行最小哈希局部敏感哈希去重,獲取由最小哈希局部敏感哈希去重處理后的多個第三數(shù)據(jù);

47、將每個第三數(shù)據(jù)對應(yīng)的文本字段分解為多個第二片段序列,并根據(jù)第二片段序列,對第三數(shù)據(jù)進行詞語級文本去重,獲取由詞語級文本去重處理后的目標(biāo)數(shù)據(jù)。

48、可選地,控制模塊還用于:

49、針對每個預(yù)訓(xùn)練數(shù)據(jù),獲取對應(yīng)的索引編號;

50、將哈希值相同的預(yù)訓(xùn)練數(shù)據(jù)作為重復(fù)數(shù)據(jù),并保持重復(fù)數(shù)據(jù)中索引編號值最小的預(yù)訓(xùn)練數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的重復(fù)數(shù)據(jù)所對應(yīng)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的重復(fù)數(shù)據(jù),其中,第二標(biāo)記字符用于指示去除重復(fù)數(shù)據(jù);

51、將帶有第一標(biāo)記字符的預(yù)訓(xùn)練數(shù)據(jù)進行匯總并作為第一數(shù)據(jù)。

52、可選地,控制模塊還用于:

53、針對每個第一數(shù)據(jù),確定每個第一片段序列的出現(xiàn)頻次;

54、將出現(xiàn)頻次超過第一閾值的第一目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第一目標(biāo)片段序列與第一片段序列的數(shù)量比值,確定每個第一數(shù)據(jù)的第一重復(fù)比率;

55、將第一重復(fù)比例與第二閾值進行對比,其中,第二閾值包括第一最大閾值和第一最小閾值;

56、若第一重復(fù)比率處于第一最大閾值和第一最小閾值之間,則確定第一目標(biāo)片段序列為第一重復(fù)序列,并將第一重復(fù)序列對應(yīng)的第一數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除第一重復(fù)序列對應(yīng)的第一數(shù)據(jù);

57、將帶有第一標(biāo)記字符的第一數(shù)據(jù)進行匯總并作為第二數(shù)據(jù)。

58、可選地,控制模塊還用于:

59、根據(jù)最小哈希局部敏感哈希算法,確認(rèn)每個第二數(shù)據(jù)與剩余的每個第二數(shù)據(jù)之間文本分詞列對應(yīng)的文本相似度;

60、將文本相似度與第三閾值進行對比;

61、若文本相似度超過第三閾值,則確定當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)為相似數(shù)據(jù);

62、獲取當(dāng)前第二數(shù)據(jù)與剩余第二數(shù)據(jù)對應(yīng)的索引編號,并保持相似數(shù)據(jù)中索引編號值最小的第二數(shù)據(jù)對應(yīng)的第一標(biāo)記字符不變,將剩余的相似數(shù)據(jù)的第一標(biāo)記字符更改為第二標(biāo)記字符,以去除剩余的相似數(shù)據(jù);

63、將帶有第一標(biāo)記字符的第二數(shù)據(jù)進行匯總并作為第三數(shù)據(jù)。

64、可選地,控制模塊還用于:

65、針對每個第三數(shù)據(jù)對應(yīng)的文本分詞列,確定每個第二片段序列的出現(xiàn)頻次;

66、將出現(xiàn)頻次超過第四閾值的第二目標(biāo)片段序列的數(shù)量進行匯總,并根據(jù)第二目標(biāo)片段序列與第二片段序列的數(shù)量比值,確定每個第三數(shù)據(jù)的第二重復(fù)比率;

67、將第二重復(fù)比例與第五閾值進行對比,其中,第五閾值包括第二最大閾值和第二最小閾值;

68、若第二重復(fù)比率處于第二最大閾值和第二最小閾值之間,則確定第二目標(biāo)片段序列為第二重復(fù)序列,并將第二重復(fù)序列對應(yīng)的第三數(shù)據(jù)的第一標(biāo)識字符更改為第二標(biāo)識字符,以去除第二重復(fù)序列對應(yīng)的第三數(shù)據(jù);

69、將帶有第一標(biāo)記字符的第三數(shù)據(jù)進行匯總并作為目標(biāo)數(shù)據(jù)。

70、可選地,控制模塊還用于:

71、根據(jù)每個處理進程,對每個數(shù)據(jù)批次中的預(yù)訓(xùn)練數(shù)據(jù)添加對應(yīng)的第一標(biāo)記字符,其中,第一標(biāo)記字符用于指示保留預(yù)訓(xùn)練數(shù)據(jù)。

72、第三方面,本技術(shù)提供了一種預(yù)訓(xùn)練數(shù)據(jù)的去重設(shè)備,包括:

73、處理器和存儲器;

74、存儲器存儲計算機執(zhí)行指令;

75、處理器執(zhí)行存儲器存儲的計算機執(zhí)行指令,使得處理器執(zhí)行如上第一方面中各種可能的實施方式。

76、第四方面,本技術(shù)提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如第一方面中各種可能的實施方式。

77、第五方面,本技術(shù)提供了一種計算機程序產(chǎn)品,計算機程序被處理器執(zhí)行時用于實現(xiàn)如第一方面中各種可能的實施方式。

78、本技術(shù)提供的一種預(yù)訓(xùn)練數(shù)據(jù)的去重方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,通過根據(jù)預(yù)訓(xùn)練數(shù)據(jù)集,獲取多個待處理的預(yù)訓(xùn)練數(shù)據(jù);根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的總量,確定對應(yīng)的并行處理進程數(shù),并根據(jù)并行處理進程數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的總量,將預(yù)訓(xùn)練數(shù)據(jù)劃分為多個數(shù)據(jù)批次;根據(jù)并行處理策略,為每個處理進程分配對應(yīng)的數(shù)據(jù)批次,并控制每個處理進程,對每個數(shù)據(jù)批次的預(yù)訓(xùn)練數(shù)據(jù)進行雙重去重處理,獲取處理后的目標(biāo)數(shù)據(jù);在確定每個處理進程均完成雙重去重處理后,將每個數(shù)據(jù)批次內(nèi)對應(yīng)的目標(biāo)數(shù)據(jù)進行匯總,獲取去重后的目標(biāo)數(shù)據(jù)集,從而通過設(shè)置并行處理策略,在面對數(shù)據(jù)量龐大的數(shù)據(jù)集時,可根據(jù)數(shù)據(jù)量確定對應(yīng)的進程數(shù)以并行完成去重操作,提高了數(shù)據(jù)去重過程的靈活性、便捷性和快速性,減少了去重處理時對時間及資源上的浪費,同時,通過設(shè)置雙重去重方法對預(yù)訓(xùn)練數(shù)據(jù)進行去重處理,提高了去重后的目標(biāo)數(shù)據(jù)集的準(zhǔn)確性和可靠性,解決了預(yù)訓(xùn)練數(shù)據(jù)去重效率低的技術(shù)問題,達到了提高預(yù)訓(xùn)練數(shù)據(jù)去重效率的技術(shù)效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
金山区| 舒城县| 进贤县| 蓬莱市| 新巴尔虎左旗| 锡林浩特市| 襄垣县| 许昌市| 温州市| 资源县| 苗栗县| 双鸭山市| 云南省| 塔河县| 读书| 乾安县| 上栗县| 公主岭市| 赤壁市| 剑河县| 台江县| 锦屏县| 防城港市| 普兰县| 平和县| 五莲县| 肥乡县| 兴文县| 西华县| 浮山县| 黎城县| 明水县| 肥东县| 论坛| 广西| 双流县| 惠安县| 淳化县| 武城县| 江陵县| 双牌县|