本申請涉及電子信息,更具體地,涉及一種數(shù)據(jù)處理方法、裝置、電子設備及計算機可讀存儲介質。
背景技術:
1、隨著基于機器學習的日漸成熟,用于機器學習的數(shù)據(jù)的質量對于機器學習模型的訓練過程愈加重要,它直接影響機器學習模型的訓練的準確性、可靠性和效率。
2、目前,通過設定的規(guī)則庫對待處理數(shù)據(jù)進行篩選,以篩選符合規(guī)則的數(shù)據(jù)用于機器學習模型的訓練。
3、然而,采用現(xiàn)有的數(shù)據(jù)處理手段,篩選后的數(shù)據(jù)質量較差,導致通過篩選后的數(shù)據(jù)訓練的機器學習模型的識別效果較差。
技術實現(xiàn)思路
1、本申請?zhí)岢隽艘环N數(shù)據(jù)處理方法、裝置、電子設備及計算機可讀存儲介質,以改善上述缺陷。
2、第一方面,本申請實施例提供了一種數(shù)據(jù)處理方法,方法包括:
3、獲取待處理的多個行駛數(shù)據(jù)片,一個行駛數(shù)據(jù)片包括一個行駛參數(shù)在一個采集時段內至少一個采集時間點下的值;
4、從多個行駛數(shù)據(jù)片中刪除存在異常值的行駛數(shù)據(jù)片,得到第一數(shù)據(jù)集合;
5、若多個第一行駛數(shù)據(jù)片之間的值不滿足值對應關系,將多個第一行駛數(shù)據(jù)片從第一數(shù)據(jù)集合中刪除,得到第二數(shù)據(jù)集合;多個第一行駛數(shù)據(jù)片包括第一數(shù)據(jù)集合中多個關聯(lián)行駛參數(shù)在同一采集時段下各自對應的行駛數(shù)據(jù)片;多個關聯(lián)行駛參數(shù)是指在第一數(shù)據(jù)集合中對應有值且具有值對應關系的行駛參數(shù);
6、若第二行駛數(shù)據(jù)片中超標值占比超過第一閾值,將第二行駛數(shù)據(jù)片從第二數(shù)據(jù)集合中刪除,得到目標數(shù)據(jù)集合;第二行駛數(shù)據(jù)片為第二數(shù)據(jù)集合中任意一個行駛數(shù)據(jù)片。
7、第二方面,本申請實施例還提供了一種數(shù)據(jù)處理裝置,裝置包括:
8、獲取模塊,用于獲取待處理的多個行駛數(shù)據(jù)片,一個行駛數(shù)據(jù)片包括一個行駛參數(shù)在一個采集時段內至少一個采集時間點下的值;
9、第一刪除模塊,用于從多個行駛數(shù)據(jù)片中刪除存在異常值的行駛數(shù)據(jù)片,得到第一數(shù)據(jù)集合;
10、第二刪除模塊,用于若多個第一行駛數(shù)據(jù)片之間的值不滿足值對應關系,將多個第一行駛數(shù)據(jù)片從第一數(shù)據(jù)集合中刪除,得到第二數(shù)據(jù)集合;多個第一行駛數(shù)據(jù)片包括第一數(shù)據(jù)集合中多個關聯(lián)行駛參數(shù)在同一采集時段下各自對應的行駛數(shù)據(jù)片;多個關聯(lián)行駛參數(shù)是指在第一數(shù)據(jù)集合中對應有值且具有值對應關系的行駛參數(shù);
11、第三刪除模塊,用于若第二行駛數(shù)據(jù)片中超標值占比超過第一閾值,將第二行駛數(shù)據(jù)片從第二數(shù)據(jù)集合中刪除,得到目標數(shù)據(jù)集合;第二行駛數(shù)據(jù)片為第二數(shù)據(jù)集合中任意一個行駛數(shù)據(jù)片。
12、第三方面,本申請實施例還提供了一種電子設備,其特征在于,電子設備包括:一個或多個處理器;存儲器;一個或多個應用程序,其中一個或多個應用程序被存儲在存儲器中并被配置為由一個或多個處理器執(zhí)行,一個或多個程序配置用于執(zhí)行上述方法。
13、第四方面,本申請實施例還提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有處理器可執(zhí)行的程序代碼,程序代碼被處理器執(zhí)行時使處理器執(zhí)行上述方法。
14、本申請?zhí)峁┑囊环N數(shù)據(jù)處理方法、裝置、電子設備及計算機可讀存儲介質,本申請中,首先刪除存在異常值的行駛數(shù)據(jù)片,然后刪除值不滿足值對應關系的第一行駛數(shù)據(jù)片,再之后,刪除超標值占比超過第一閾值的第二行駛數(shù)據(jù)片,得到目標數(shù)據(jù)集合,可見,在本申請中從異常值、值對應關系以及超標值占比三個維度對待處理的多個行駛數(shù)據(jù)片進行篩選,實現(xiàn)了對待處理的多個行駛數(shù)據(jù)片的多維度全方位的篩選,避免了僅通過設定規(guī)則篩選數(shù)據(jù)時,由于設定規(guī)則單一導致篩選后的數(shù)據(jù)不準確的情況發(fā)生,使得篩選后得到目標數(shù)據(jù)集合中各行駛數(shù)據(jù)片中的值更加準確有效,提高了目標數(shù)據(jù)集合中各行駛數(shù)據(jù)片的準確率,從而提高了根據(jù)目標數(shù)據(jù)集合中各行駛數(shù)據(jù)片中的值訓練的機器學習模型的識別效果。
15、本申請實施例的其他特征和優(yōu)點將在隨后的說明書闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本申請實施例而了解。本申請實施例的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述從所述多個行駛數(shù)據(jù)片中刪除存在異常值的行駛數(shù)據(jù)片,得到第一數(shù)據(jù)集合之前,所述方法還包括:
3.根據(jù)權利要求1所述的方法,其特征在于,不滿足所述值對應關系包括一下至少一項:
4.根據(jù)權利要求1所述的方法,其特征在于,所述若第二行駛數(shù)據(jù)片中超標值占比超過第一閾值,將所述第二行駛數(shù)據(jù)片從所述第二數(shù)據(jù)集合中刪除,得到目標數(shù)據(jù)集合之前,所述方法還包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述若第二行駛數(shù)據(jù)片中超標值占比超過第一閾值,將所述第二行駛數(shù)據(jù)片從所述第二數(shù)據(jù)集合中刪除,得到目標數(shù)據(jù)集合之后,所述方法還包括:
6.根據(jù)權利要求5所述的方法,其特征在于,所述從候選行駛場景對應的候選場景數(shù)據(jù)集合中刪除存在候選場景異常值的行駛數(shù)據(jù)片,得到所述候選行駛場景對應的第一場景數(shù)據(jù)集合之前,所述方法還包括:
7.根據(jù)權利要求5所述的方法,其特征在于,所述將所述第二場景數(shù)據(jù)集合中各所述行車參數(shù)在超標采集時間點的值刪除,得到所述目標行駛場景對應的目標場景數(shù)據(jù)集合之前,所述方法還包括:
8.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有處理器可執(zhí)行的程序代碼,所述程序代碼被所述處理器執(zhí)行時使所述處理器執(zhí)行權利要求1-7任一項所述方法。