本發(fā)明屬于數(shù)據(jù)清洗和重建,具體涉及基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法。
背景技術(shù):
1、隨著技術(shù)的發(fā)展,業(yè)務(wù)不斷壯大,數(shù)據(jù)也成倍增長,當數(shù)據(jù)達到千萬以上時,數(shù)據(jù)的處理便不再簡單,再加上很多表結(jié)構(gòu)設(shè)計初期無法預(yù)計到業(yè)務(wù)發(fā)展到一個很大量級時存在的問題,這時就需要對千萬級數(shù)據(jù)做處理,如數(shù)據(jù)清洗(去除非必要、無用數(shù)據(jù),保留有效數(shù)據(jù))、表拆分(將大表大量數(shù)據(jù)合理分配,水平或者垂直拆分)、表重建(創(chuàng)建新表用于保存有效數(shù)據(jù)并提高查詢效率),方式有很多種,需要根據(jù)實際業(yè)務(wù)情況和數(shù)據(jù)有效性選擇一個最佳方法來處理。這幾種方式的實現(xiàn)方式也很多,比如依賴其他第三方服務(wù)maxcompute或者其他大數(shù)據(jù)處理軟件;另外就是基于業(yè)務(wù)邏輯自己實現(xiàn),大致邏輯為循環(huán)分批撈取待處理數(shù)據(jù),循環(huán)處理撈到的數(shù)據(jù),需要重建時批量重建到新表中。
2、目前,通過第三方大數(shù)據(jù)處理軟件:局限性太大,如果數(shù)據(jù)比較敏感或者安全要求較高時,不應(yīng)暴露,并且第三方大數(shù)據(jù)處理軟件功能基本是固定的,不夠靈活;通過循環(huán)定制開發(fā)實現(xiàn):實現(xiàn)難度大,需要根據(jù)業(yè)務(wù)實際運行情況、數(shù)據(jù)產(chǎn)出情況,制定好具體落實方案,數(shù)據(jù)量,控制好循環(huán)條件,消除數(shù)據(jù)處理對業(yè)務(wù)的影響,根據(jù)綜合方案完成開發(fā),期間耗時比較長,性能卻不高,因此本領(lǐng)域技術(shù)人員提供了基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,以解決上述中存在的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為解決技術(shù)問題,本發(fā)明采用以下技術(shù)方案:包括過濾器接口、執(zhí)行數(shù)據(jù)查詢系統(tǒng)、數(shù)據(jù)流處理模塊updatefilter;管道模塊;管道構(gòu)建器;異步請求和業(yè)務(wù)執(zhí)行開關(guān):數(shù)據(jù)處理計時器,所述過濾器接口采用filter<t>提供了process方法,實現(xiàn)不同過濾策略下的數(shù)據(jù)清洗處理,所述執(zhí)行數(shù)據(jù)查詢系統(tǒng)包括提供queryfilter:實現(xiàn)根據(jù)數(shù)據(jù)實體映射、查詢條件參數(shù)查詢目標數(shù)據(jù)記錄結(jié)果集;basefilter:實現(xiàn)通過配置文件配置的基本過濾篩選條件后剩余結(jié)果集;updatefilter:實現(xiàn)數(shù)據(jù)清洗后,新表重建時需要進行的過濾策略;提供的過濾器實現(xiàn),通過簡單配置即可使用,針對比較靈活的業(yè)務(wù)場景自行實現(xiàn)filter接口。
2、優(yōu)選地,所述管道模塊包括:
3、pipelinedata:管道通信對象,用于建立默認的管道間通信數(shù)據(jù)實體;
4、pipelineprocessor<t>管道處理器,提供process默認流程編排,集成過濾器具體實現(xiàn)集合,集成線程池加快處理效率。
5、優(yōu)選地,所述管道構(gòu)建器采用pipelinebuilder,提供管道初始化,build方法,用于快速配置后初始化具體業(yè)務(wù)管道,提供管道初始化,build方法,用于快速配置后初始化具體業(yè)務(wù)管道。
6、優(yōu)選地,所述異步請求和業(yè)務(wù)執(zhí)行開關(guān)包括:
7、異步請求:提供業(yè)務(wù)邏輯兼容開關(guān)異步接口,確保線上數(shù)據(jù)處理過程中出現(xiàn)故障時能快速動態(tài)修改兼容開關(guān);
8、業(yè)務(wù)執(zhí)行開關(guān):提供管道過濾器任務(wù)執(zhí)行開關(guān)異步接口,根據(jù)業(yè)務(wù)實際情況,靈活開啟或關(guān)閉業(yè)務(wù)處理
9、業(yè)務(wù)分頁及步長控制:靈活根據(jù)業(yè)務(wù)情況設(shè)置分頁大小和處理步長,提高處理效率和穩(wěn)定性。
10、優(yōu)選地,所述數(shù)據(jù)處理計時器用于開啟每次異步數(shù)據(jù)處理的整體耗時,更直觀地觀察數(shù)據(jù)處理過程和速率,通過記錄處理時間,可以識別出哪些數(shù)據(jù)處理步驟或操作消耗了最多的資源(cpu、內(nèi)存),從而幫助優(yōu)化系統(tǒng)配置和資源分配。
11、優(yōu)選地,包括有以下處理步驟:
12、s1.數(shù)據(jù)采集模塊:開始階段,從不同的數(shù)據(jù)源采集原始司法數(shù)據(jù);
13、s2.數(shù)據(jù)預(yù)處理模塊:對采集到的原始數(shù)據(jù)進行初步清洗,如去除重復(fù)記錄、填補缺失值、格式統(tǒng)一;
14、s3.管道模塊:預(yù)處理后的數(shù)據(jù)通過管道模塊傳輸,這個模塊作為數(shù)據(jù)流的中轉(zhuǎn)站,確保數(shù)據(jù)能夠連續(xù)地流向下一個處理模塊;
15、s4.過濾器模塊序列:數(shù)據(jù)依次通過多個過濾器模塊。每個過濾器模塊負責特定的數(shù)據(jù)處理任務(wù);
16、s5.數(shù)據(jù)校驗:檢查數(shù)據(jù)是否符合特定的規(guī)則或格式;
17、s6.數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式或類型;
18、s7.異常值處理:識別并處理異常數(shù)據(jù)值;
19、s8.數(shù)據(jù)標準化:將數(shù)據(jù)標準化,如日期格式統(tǒng)一、數(shù)值范圍規(guī)范化;
20、s9.數(shù)據(jù)重建模塊:經(jīng)過多個過濾器模塊處理后的數(shù)據(jù)進入數(shù)據(jù)重建模塊,按照一定的規(guī)則進行重建,如時間序列重建、關(guān)系數(shù)據(jù)庫重建;
21、s10.數(shù)據(jù)存儲模塊:重建后的數(shù)據(jù)存儲到數(shù)據(jù)存儲模塊,可以是數(shù)據(jù)庫、文件系統(tǒng)或其他存儲介質(zhì);
22、s11.結(jié)束:數(shù)據(jù)清洗和重建過程完成。
23、優(yōu)選地,所述數(shù)據(jù)預(yù)處理步驟進一步包括:識別并去除重復(fù)的數(shù)據(jù)記錄;對缺失的數(shù)據(jù)進行合理填補;將數(shù)據(jù)格式統(tǒng)一為標準格式。
24、優(yōu)選地,所述方法通過模塊化設(shè)計,使得每個處理模塊可以獨立開發(fā)、測試和升級,提高了系統(tǒng)的可維護性和可擴展性,所述方法通過自動化處理,提高了數(shù)據(jù)清洗和重建的效率,減少了人工干預(yù),從而提高了數(shù)據(jù)處理的質(zhì)量和準確性。
25、優(yōu)選地,過濾器接口:實現(xiàn)多種清洗策略,如數(shù)據(jù)去重、缺失值處理,管道模塊:采用消息隊列機制,確保數(shù)據(jù)處理的高效性和可靠性,數(shù)據(jù)重建模塊:根據(jù)檔案數(shù)字化標準,設(shè)計數(shù)據(jù)結(jié)構(gòu)化模型,實現(xiàn)數(shù)據(jù)的高效存儲和檢索。
26、優(yōu)選地,本發(fā)明在數(shù)據(jù)處理效率、靈活性、穩(wěn)定性和資源消耗方面均優(yōu)于現(xiàn)有技術(shù),為司法數(shù)據(jù)清洗和重建提供了更為高效、可靠和可擴展的解決方案。
27、優(yōu)選地,通過異步請求和業(yè)務(wù)執(zhí)行開關(guān),系統(tǒng)穩(wěn)定性比現(xiàn)有技術(shù)提高至少25%。
28、優(yōu)選地,本發(fā)明在同數(shù)據(jù)處理量下,資源消耗比現(xiàn)有技術(shù)降低至少15%。
29、優(yōu)選地,異步請求和業(yè)務(wù)執(zhí)行開關(guān)允許動態(tài)修改兼容開關(guān)和業(yè)務(wù)處理,提高了系統(tǒng)的穩(wěn)定性和適應(yīng)性。
30、優(yōu)選地,數(shù)據(jù)處理計時器記錄處理時間,幫助識別資源消耗高的步驟,優(yōu)化系統(tǒng)配置。
31、優(yōu)選地,pipelinebuilder提供快速配置和初始化業(yè)務(wù)管道,簡化系統(tǒng)開發(fā)過程。
32、有益效果:
33、與現(xiàn)有技術(shù)相比,該有益效果表現(xiàn)在:
34、本發(fā)明通過管道設(shè)計結(jié)合異步線程池,提供一種開發(fā)更直觀,維護更方便,邏輯更清晰,數(shù)據(jù)處理穩(wěn)定高效且不會對主干業(yè)務(wù)造成較大影響的司法千萬級數(shù)據(jù)處理簡單高效方法,本發(fā)明在數(shù)據(jù)處理效率、靈活性、穩(wěn)定性和資源消耗方面均優(yōu)于現(xiàn)有技術(shù),為司法數(shù)據(jù)清洗和重建提供了更為高效、可靠和可擴展的解決方案,自動化處理流程,大幅提高檔案數(shù)字化效率,保證質(zhì)量:通過嚴格的清洗和校驗流程,確保數(shù)據(jù)質(zhì)量,易于管理:數(shù)字化后的檔案易于管理和檢索,提高了司法工作效率,通過本實施例,可以看出本發(fā)明在司法檔案數(shù)字化中的應(yīng)用具有顯著的實際效果,為司法檔案管理現(xiàn)代化提供了有力支持。
1.基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,包括過濾器接口、執(zhí)行數(shù)據(jù)查詢系統(tǒng)、數(shù)據(jù)流處理模塊updatefilter;管道模塊;管道構(gòu)建器;異步請求和業(yè)務(wù)執(zhí)行開關(guān):數(shù)據(jù)處理計時器,所述過濾器接口采用filter<t>提供了process方法,實現(xiàn)不同過濾策略下的數(shù)據(jù)清洗處理,所述執(zhí)行數(shù)據(jù)查詢系統(tǒng)包括提供queryfilter:實現(xiàn)根據(jù)數(shù)據(jù)實體映射、查詢條件參數(shù)查詢目標數(shù)據(jù)記錄結(jié)果集;basefilter:實現(xiàn)通過配置文件配置的基本過濾篩選條件后剩余結(jié)果集;updatefilter:實現(xiàn)數(shù)據(jù)清洗后,新表重建時需要進行的過濾策略;提供的過濾器實現(xiàn),通過簡單配置即可使用,針對比較靈活的業(yè)務(wù)場景自行實現(xiàn)filter接口。
2.根據(jù)權(quán)利要求1所述的基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,所述管道模塊包括:
3.根據(jù)權(quán)利要求1所述的基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,所述管道構(gòu)建器采用pipelinebuilder,提供管道初始化,build方法,用于快速配置后初始化具體業(yè)務(wù)管道,提供管道初始化,build方法,用于快速配置后初始化具體業(yè)務(wù)管道。
4.根據(jù)權(quán)利要求1所述的基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,所述異步請求和業(yè)務(wù)執(zhí)行開關(guān)包括:
5.根據(jù)權(quán)利要求1所述的基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,所述數(shù)據(jù)處理計時器用于開啟每次異步數(shù)據(jù)處理的整體耗時,更直觀地觀察數(shù)據(jù)處理過程和速率,通過記錄處理時間,可以識別出哪些數(shù)據(jù)處理步驟或操作消耗了最多的資源(cpu、內(nèi)存),從而幫助優(yōu)化系統(tǒng)配置和資源分配。
6.根據(jù)權(quán)利要求1所述的基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,包括有以下處理步驟:
7.根據(jù)權(quán)利要求1所述的基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,所述數(shù)據(jù)預(yù)處理步驟進一步包括:識別并去除重復(fù)的數(shù)據(jù)記錄;對缺失的數(shù)據(jù)進行合理填補;將數(shù)據(jù)格式統(tǒng)一為標準格式。
8.根據(jù)權(quán)利要求1所述的基于管道過濾模式的司法數(shù)據(jù)清洗和重建方法,其特征在于,所述方法通過模塊化設(shè)計,使得每個處理模塊可以獨立開發(fā)、測試和升級,提高了系統(tǒng)的可維護性和可擴展性,所述方法通過自動化處理,提高了數(shù)據(jù)清洗和重建的效率,減少了人工干預(yù),從而提高了數(shù)據(jù)處理的質(zhì)量和準確性。