本申請(qǐng)屬于數(shù)據(jù)處理,特別是涉及一種數(shù)據(jù)處理方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備。
背景技術(shù):
1、在現(xiàn)代數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用環(huán)境中,數(shù)據(jù)處理是至關(guān)重要的步驟,包括數(shù)據(jù)清洗和數(shù)據(jù)分析。其中,數(shù)據(jù)分析涉及從數(shù)據(jù)中提取有價(jià)值的信息,而數(shù)據(jù)清洗則是為了確保數(shù)據(jù)質(zhì)量,提高分析結(jié)果的準(zhǔn)確性。但是,隨著數(shù)據(jù)量的急劇增加以及數(shù)據(jù)復(fù)雜性的提升,傳統(tǒng)的數(shù)據(jù)處理方法顯得越來(lái)越繁瑣和低效。對(duì)此,python編程語(yǔ)言中的pandas數(shù)據(jù)處理庫(kù)提供了豐富的數(shù)據(jù)操作功能,能夠廣泛應(yīng)用于數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)分析。通過(guò)pandas數(shù)據(jù)處理庫(kù)來(lái)處理數(shù)據(jù)能夠變得更加高效。然而,盡管pandas數(shù)據(jù)處理庫(kù)本身功能強(qiáng)大,但在應(yīng)用pandas數(shù)據(jù)處理庫(kù)對(duì)數(shù)據(jù)處理時(shí),需要用戶(hù)具備一定的編程能力和對(duì)數(shù)據(jù)操作的深入理解,才能實(shí)現(xiàn)高效處理數(shù)據(jù)。這毫無(wú)疑問(wèn)提高了pandas數(shù)據(jù)處理庫(kù)的技術(shù)應(yīng)用門(mén)檻,導(dǎo)致很多缺少編程能力的用戶(hù)無(wú)法調(diào)用pandas數(shù)據(jù)處理庫(kù)對(duì)數(shù)據(jù)高效處理。例如,對(duì)于網(wǎng)絡(luò)犯罪而言,大量的犯罪信息電子數(shù)據(jù)存儲(chǔ)于互聯(lián)網(wǎng)中,此時(shí)刑偵人員可能會(huì)由于缺少編程能力而無(wú)法應(yīng)用pandas數(shù)據(jù)處理庫(kù)對(duì)電子數(shù)據(jù)進(jìn)行高效處理,從而為刑偵調(diào)查造成了阻礙。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)的目的在于提供一種數(shù)據(jù)處理方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備,能夠自動(dòng)生成調(diào)用pandas數(shù)據(jù)處理庫(kù)對(duì)數(shù)據(jù)進(jìn)行處理的數(shù)據(jù)處理代碼。
2、第一方面,本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)處理方法,所述方法包括:
3、獲取待處理數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和處理需求;所述處理需求包括利用pandas數(shù)據(jù)處理庫(kù)對(duì)所述待處理數(shù)據(jù)進(jìn)行處理;所述數(shù)據(jù)結(jié)構(gòu)為dataframe數(shù)據(jù)結(jié)構(gòu);
4、基于所述處理需求和所述數(shù)據(jù)結(jié)構(gòu)生成處理生成詞;
5、基于所述處理生成詞生成數(shù)據(jù)處理代碼;
6、對(duì)所述數(shù)據(jù)處理代碼進(jìn)行第一檢測(cè)操作,若第一檢測(cè)通過(guò),則獲取所述數(shù)據(jù)處理代碼的執(zhí)行結(jié)果,若第一檢測(cè)未通過(guò),則重新生成所述處理生成詞;
7、對(duì)所述執(zhí)行結(jié)果進(jìn)行第二檢測(cè)操作,若第二檢測(cè)通過(guò),則獲取數(shù)據(jù)處理結(jié)果,若第二檢測(cè)未通過(guò),則重新生成所述處理生成詞。
8、在第一方面的一種實(shí)現(xiàn)方式中,基于所述處理需求和所述數(shù)據(jù)結(jié)構(gòu)生成處理生成詞包括:
9、基于所述數(shù)據(jù)結(jié)構(gòu)獲取所述待處理數(shù)據(jù)的數(shù)據(jù)內(nèi)容;
10、基于所述數(shù)據(jù)結(jié)構(gòu)獲取所述待處理數(shù)據(jù)的數(shù)據(jù)屬性;所述數(shù)據(jù)屬性包括列名稱(chēng),列類(lèi)型,列長(zhǎng)度和行長(zhǎng)度;
11、基于所述數(shù)據(jù)內(nèi)容、所述數(shù)據(jù)屬性和所述處理需求獲取所述處理生成詞。
12、在第一方面的一種實(shí)現(xiàn)方式中,基于所述處理生成詞生成數(shù)據(jù)處理代碼包括:
13、利用大語(yǔ)言模型基于所述處理生成詞生成所述數(shù)據(jù)處理代碼;所述數(shù)據(jù)處理代碼用于調(diào)用所述pandas數(shù)據(jù)處理庫(kù)的數(shù)據(jù)操作功能,對(duì)所述待處理數(shù)據(jù)進(jìn)行處理。
14、在第一方面的一種實(shí)現(xiàn)方式中,所述第一檢測(cè)操作包括對(duì)所述數(shù)據(jù)處理代碼進(jìn)行依賴(lài)庫(kù)檢測(cè);所述依賴(lài)庫(kù)檢測(cè)判斷所述數(shù)據(jù)處理代碼引用的庫(kù)是否為白名單;
15、若為所述白名單,則獲取所述數(shù)據(jù)處理代碼的執(zhí)行結(jié)果;
16、若不為所述白名單,則重新生成所述處理生成詞。
17、在第一方面的一種實(shí)現(xiàn)方式中,所述第一檢測(cè)操作包括安全性檢測(cè);所述安全性檢測(cè)判斷所述數(shù)據(jù)處理代碼中是否存在無(wú)關(guān)代碼語(yǔ)句;
18、若不存在所述無(wú)關(guān)代碼語(yǔ)句,則獲取所述數(shù)據(jù)處理代碼的執(zhí)行結(jié)果;
19、若存在所述無(wú)關(guān)代碼語(yǔ)句,則重新生成所述處理生成詞。
20、在第一方面的一種實(shí)現(xiàn)方式中,所述第二檢測(cè)操作包括執(zhí)行異常檢測(cè);所述執(zhí)行異常檢測(cè)判斷所述數(shù)據(jù)處理代碼是否存在執(zhí)行異常;
21、若不存在所述執(zhí)行異常,則將所述執(zhí)行結(jié)果作為所述數(shù)據(jù)處理結(jié)果;
22、若存在所述執(zhí)行異常,則重新生成所述處理生成詞。
23、在第一方面的一種實(shí)現(xiàn)方式中,所述第二檢測(cè)操作包括執(zhí)行結(jié)果內(nèi)容檢測(cè);所述執(zhí)行結(jié)果內(nèi)容檢測(cè)判斷所述執(zhí)行結(jié)果內(nèi)容是否符合所述處理需求;
24、若符合所述處理需求,則將所述執(zhí)行結(jié)果作為所述數(shù)據(jù)處理結(jié)果;
25、若不符合所述處理需求,則重新生成所述處理生成詞。
26、第二方面,本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括:
27、第一獲取模塊,用于獲取待處理數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和處理需求;所述處理需求包括利用pandas數(shù)據(jù)處理庫(kù)對(duì)所述待處理數(shù)據(jù)進(jìn)行處理;所述數(shù)據(jù)結(jié)構(gòu)為dataframe數(shù)據(jù)結(jié)構(gòu);
28、第二獲取模塊,用于基于所述處理需求和所述數(shù)據(jù)結(jié)構(gòu)生成處理生成詞;
29、生成模塊,用于基于所述處理生成詞生成數(shù)據(jù)處理代碼;
30、第一檢測(cè)模塊,用于對(duì)所述數(shù)據(jù)處理代碼進(jìn)行第一檢測(cè)操作,若第一檢測(cè)通過(guò),則獲取所述數(shù)據(jù)處理代碼的執(zhí)行結(jié)果,若第一檢測(cè)未通過(guò),則重新生成所述處理生成詞;
31、第二檢測(cè)模塊,用于對(duì)所述執(zhí)行結(jié)果進(jìn)行第二檢測(cè)操作,若第二檢測(cè)通過(guò),則獲取數(shù)據(jù)處理結(jié)果,若第二檢測(cè)未通過(guò),則重新生成所述處理生成詞。
32、第三方面,本申請(qǐng)?zhí)峁┮环N電子設(shè)備,所述電子設(shè)備包括:處理器和存儲(chǔ)器;所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;所述處理器用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使所述電子設(shè)備執(zhí)行上述的數(shù)據(jù)處理方法。
33、第四方面,本申請(qǐng)?zhí)峁┮环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被電子設(shè)備執(zhí)行時(shí)實(shí)現(xiàn)上述的數(shù)據(jù)處理方法。
34、如上所述,本申請(qǐng)所述的數(shù)據(jù)處理方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備,具有以下有益效果:
35、(1)本申請(qǐng)?zhí)岣吡藬?shù)據(jù)處理效率:能夠自動(dòng)生成數(shù)據(jù)處理代碼,通過(guò)數(shù)據(jù)處理代碼調(diào)用pandas數(shù)據(jù)處理庫(kù)的功能對(duì)數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)處理流程。
36、(2)本申請(qǐng)降低了數(shù)據(jù)處理門(mén)檻:即使是非技術(shù)用戶(hù),也可以直接通過(guò)本申請(qǐng)調(diào)用pandas數(shù)據(jù)處理庫(kù),無(wú)需編寫(xiě)代碼即可進(jìn)行數(shù)據(jù)處理。
37、(3)本申請(qǐng)的應(yīng)用場(chǎng)景廣闊:本申請(qǐng)利用大語(yǔ)言模型的生成能力自動(dòng)生成代碼,進(jìn)而調(diào)用pandas數(shù)據(jù)處理庫(kù)來(lái)獲取數(shù)據(jù)處理結(jié)果,有效避免了由于大語(yǔ)言模型的上下文長(zhǎng)度限制而導(dǎo)致無(wú)法正確處理大量數(shù)據(jù)的問(wèn)題。
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,基于所述處理需求和所述數(shù)據(jù)結(jié)構(gòu)生成處理生成詞包括:
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,基于所述處理生成詞生成數(shù)據(jù)處理代碼包括:
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述第一檢測(cè)操作包括對(duì)所述數(shù)據(jù)處理代碼進(jìn)行依賴(lài)庫(kù)檢測(cè);所述依賴(lài)庫(kù)檢測(cè)判斷所述數(shù)據(jù)處理代碼引用的庫(kù)是否為白名單;
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述第一檢測(cè)操作包括安全性檢測(cè);
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述第二檢測(cè)操作包括執(zhí)行異常檢測(cè);
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述第二檢測(cè)操作包括執(zhí)行結(jié)果內(nèi)容檢測(cè);所述執(zhí)行結(jié)果內(nèi)容檢測(cè)判斷所述執(zhí)行結(jié)果內(nèi)容是否符合所述處理需求;
8.一種數(shù)據(jù)處理系統(tǒng),其特征在于,所述系統(tǒng)包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:處理器和存儲(chǔ)器;
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被電子設(shè)備執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的數(shù)據(jù)處理方法。