本發(fā)明涉及數(shù)據(jù)處理,尤其涉及數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在模型訓(xùn)練時(shí),需要大量人工對(duì)訓(xùn)練樣本進(jìn)行預(yù)處理,這些預(yù)處理過(guò)程的主要目的是剔除對(duì)于無(wú)效樣本,提高訓(xùn)練效率,但是訓(xùn)練一個(gè)模型所需要的有效樣本數(shù)量較大,數(shù)據(jù)預(yù)處理的工作量較大,且由于是人工進(jìn)行預(yù)處理的原因,在人工處理的過(guò)程中可能會(huì)將一些有效數(shù)據(jù)視為無(wú)效數(shù)據(jù),或者相反,其均會(huì)影響后續(xù)的模型訓(xùn)練效率,造成數(shù)據(jù)資源的浪費(fèi)。
2、上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決現(xiàn)有技術(shù)中數(shù)據(jù)預(yù)處理的準(zhǔn)確性不高,造成資源浪費(fèi)的技術(shù)問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種數(shù)據(jù)處理方法,所述方法包括以下步驟:
3、獲取待處理通信數(shù)據(jù)中的第一有效數(shù)據(jù)、無(wú)效數(shù)據(jù)和混合數(shù)據(jù);
4、將所述混合數(shù)據(jù)輸入至訓(xùn)練好的數(shù)據(jù)分類(lèi)模型進(jìn)行數(shù)據(jù)識(shí)別,得到第二有效數(shù)據(jù);
5、通過(guò)所述訓(xùn)練好的數(shù)據(jù)分類(lèi)模型識(shí)別所述待處理通信數(shù)據(jù)對(duì)應(yīng)的第三有效數(shù)據(jù);
6、根據(jù)所述第一有效數(shù)據(jù)、第二有效數(shù)據(jù)以及第三有效數(shù)據(jù)生成目標(biāo)有效數(shù)據(jù)。
7、在一實(shí)施例中,所述獲取待處理通信數(shù)據(jù)中的第一有效數(shù)據(jù)、無(wú)效數(shù)據(jù)和混合數(shù)據(jù),包括:
8、對(duì)待處理通信數(shù)據(jù)進(jìn)行預(yù)處理,得到第一有效數(shù)據(jù)和無(wú)效數(shù)據(jù);
9、對(duì)所述第一有效數(shù)據(jù)進(jìn)行特征提取,得到有效特征數(shù)據(jù);
10、根據(jù)所述有效特征數(shù)據(jù)和所述無(wú)效數(shù)據(jù)生成混合數(shù)據(jù)。
11、在一實(shí)施例中,所述對(duì)待處理通信數(shù)據(jù)進(jìn)行預(yù)處理,包括:
12、根據(jù)數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)歸一化處理中的至少一項(xiàng),對(duì)待處理通信數(shù)據(jù)進(jìn)行分類(lèi)。
13、在一實(shí)施例中,所述根據(jù)所述有效特征數(shù)據(jù)和所述無(wú)效數(shù)據(jù)生成混合數(shù)據(jù),包括:
14、獨(dú)立存儲(chǔ)所述無(wú)效數(shù)據(jù);
15、確定所述無(wú)效數(shù)據(jù)的目標(biāo)存儲(chǔ)區(qū)間;
16、基于預(yù)設(shè)混合策略將測(cè)試數(shù)據(jù)導(dǎo)入至所述目標(biāo)存儲(chǔ)區(qū)間,所述測(cè)試數(shù)據(jù)為所述有效特征數(shù)據(jù),所述預(yù)設(shè)混合策略用于將所述測(cè)試數(shù)據(jù)和所述無(wú)效數(shù)據(jù)進(jìn)行混合。
17、在一實(shí)施例中,所述將所述混合數(shù)據(jù)輸入至訓(xùn)練好的數(shù)據(jù)分類(lèi)模型進(jìn)行數(shù)據(jù)識(shí)別,得到第二有效數(shù)據(jù)之前,還包括:
18、基于有效特征數(shù)據(jù)通過(guò)初始分類(lèi)模型進(jìn)行數(shù)據(jù)識(shí)別訓(xùn)練;
19、通過(guò)交叉驗(yàn)證策略對(duì)所述初始分類(lèi)模型進(jìn)行模型參數(shù)優(yōu)化,得到訓(xùn)練好的數(shù)據(jù)分類(lèi)模型。
20、在一實(shí)施例中,所述根據(jù)所述第一有效數(shù)據(jù)、第二有效數(shù)據(jù)以及第三有效數(shù)據(jù)生成目標(biāo)有效數(shù)據(jù),包括:
21、對(duì)所述第二有效數(shù)據(jù)進(jìn)行篩選,得到第四有效數(shù)據(jù);
22、將所述第一有效數(shù)據(jù)、所述第三有效數(shù)據(jù)以及所述第四有效數(shù)據(jù)生成目標(biāo)有效數(shù)據(jù),所述目標(biāo)有效數(shù)據(jù)為所述第一有效數(shù)據(jù)、所述第三有效數(shù)據(jù)以及所述第四有效數(shù)據(jù)的并集。
23、在一實(shí)施例中,所述對(duì)所述第二有效數(shù)據(jù)進(jìn)行篩選,包括:
24、確定測(cè)試數(shù)據(jù)中的實(shí)際有效數(shù)據(jù);
25、根據(jù)所述實(shí)際有效數(shù)據(jù)對(duì)所述第二有效數(shù)據(jù)進(jìn)行篩選,得到第四有效數(shù)據(jù),所述第四有效數(shù)據(jù)為剔除所述實(shí)際有效數(shù)據(jù)后剩余的第二有效數(shù)據(jù)。
26、此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種數(shù)據(jù)處理裝置,所述數(shù)據(jù)處理裝置包括:
27、獲取模塊,用于獲取待處理通信數(shù)據(jù)中的第一有效數(shù)據(jù)、無(wú)效數(shù)據(jù)和混合數(shù)據(jù);
28、識(shí)別模塊,用于將所述混合數(shù)據(jù)輸入至訓(xùn)練好的數(shù)據(jù)分類(lèi)模型進(jìn)行數(shù)據(jù)識(shí)別,得到第二有效數(shù)據(jù);
29、識(shí)別模塊,還用于通過(guò)所述訓(xùn)練好的數(shù)據(jù)分類(lèi)模型識(shí)別所述待處理通信數(shù)據(jù)對(duì)應(yīng)的第三有效數(shù)據(jù);
30、生成模塊,用于根據(jù)所述第一有效數(shù)據(jù)、第二有效數(shù)據(jù)以及第三有效數(shù)據(jù)生成目標(biāo)有效數(shù)據(jù)。
31、此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種數(shù)據(jù)處理設(shè)備,所述數(shù)據(jù)處理設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的數(shù)據(jù)處理程序,所述數(shù)據(jù)處理程序配置為實(shí)現(xiàn)如上文所述的數(shù)據(jù)處理方法的步驟。
32、此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)處理程序,所述數(shù)據(jù)處理程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的數(shù)據(jù)處理方法的步驟。
33、此外,為實(shí)現(xiàn)上述目的,本申請(qǐng)還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的數(shù)據(jù)處理方法的步驟。
34、本申請(qǐng)?zhí)岢龅囊粋€(gè)或多個(gè)技術(shù)方案,至少具有以下技術(shù)效果:本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)處理方法,所述數(shù)據(jù)處理方法包括:獲取待處理通信數(shù)據(jù)中的第一有效數(shù)據(jù)、無(wú)效數(shù)據(jù)和混合數(shù)據(jù);將所述混合數(shù)據(jù)輸入至訓(xùn)練好的數(shù)據(jù)分類(lèi)模型進(jìn)行數(shù)據(jù)識(shí)別,得到第二有效數(shù)據(jù);通過(guò)所述訓(xùn)練好的數(shù)據(jù)分類(lèi)模型識(shí)別所述待處理通信數(shù)據(jù)對(duì)應(yīng)的第三有效數(shù)據(jù);根據(jù)所述第一有效數(shù)據(jù)、第二有效數(shù)據(jù)以及第三有效數(shù)據(jù)生成目標(biāo)有效數(shù)據(jù),與現(xiàn)有技術(shù)相比,本申請(qǐng)通過(guò)將待處理通信數(shù)據(jù)進(jìn)行初步劃分,得到第一有效數(shù)據(jù)、無(wú)效數(shù)據(jù)和混合數(shù)據(jù),并通過(guò)混合數(shù)據(jù)輸入至訓(xùn)練好的數(shù)據(jù)分類(lèi)模型進(jìn)行數(shù)據(jù)識(shí)別,從而對(duì)待處理的通信數(shù)據(jù)進(jìn)行進(jìn)一步篩選,提高有效數(shù)據(jù)占比,同時(shí),通過(guò)訓(xùn)練好的數(shù)據(jù)分類(lèi)模型對(duì)原始的待處理通信數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別,減少人工分類(lèi)過(guò)程中的數(shù)據(jù)誤差,最后通過(guò)識(shí)別得到的第一有效數(shù)據(jù)、第二有效數(shù)據(jù)以及第三有效數(shù)據(jù)綜合確定最終的目標(biāo)有效數(shù)據(jù),最大程度的提高了有效數(shù)據(jù)的準(zhǔn)確性,避免了現(xiàn)有技術(shù)中數(shù)據(jù)預(yù)處理的準(zhǔn)確性不高,造成資源浪費(fèi)的技術(shù)問(wèn)題。
1.一種數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取待處理通信數(shù)據(jù)中的第一有效數(shù)據(jù)、無(wú)效數(shù)據(jù)和混合數(shù)據(jù),包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述對(duì)待處理通信數(shù)據(jù)進(jìn)行預(yù)處理,包括:
4.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述有效特征數(shù)據(jù)和所述無(wú)效數(shù)據(jù)生成混合數(shù)據(jù),包括:
5.如權(quán)利要求1所述的方法,其特征在于,所述將所述混合數(shù)據(jù)輸入至訓(xùn)練好的數(shù)據(jù)分類(lèi)模型進(jìn)行數(shù)據(jù)識(shí)別,得到第二有效數(shù)據(jù)之前,還包括:
6.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一有效數(shù)據(jù)、第二有效數(shù)據(jù)以及第三有效數(shù)據(jù)生成目標(biāo)有效數(shù)據(jù),包括:
7.如權(quán)利要求6所述的方法,其特征在于,所述對(duì)所述第二有效數(shù)據(jù)進(jìn)行篩選,包括:
8.一種數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)處理裝置包括:
9.一種數(shù)據(jù)處理設(shè)備,其特征在于,所述數(shù)據(jù)處理設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的數(shù)據(jù)處理程序,所述數(shù)據(jù)處理程序配置為實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的數(shù)據(jù)處理方法的步驟。
10.一種存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)處理程序,所述數(shù)據(jù)處理程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的數(shù)據(jù)處理方法的步驟。