本發(fā)明涉及大數(shù)據(jù)處理,尤其涉及一種模型生命周期中的數(shù)字化特征衍生方法及系統(tǒng)。
背景技術(shù):
1、在當前的機器學習和大數(shù)據(jù)處理領(lǐng)域,模型的上線過程已經(jīng)形成了一套標準化的步驟,包括問題定義、樣本探查、探索性數(shù)據(jù)分析、特征數(shù)據(jù)采集與特征生產(chǎn)構(gòu)建、模型訓練以及模型部署發(fā)布等。這一系列步驟涵蓋了從理解業(yè)務(wù)需求到模型實際應(yīng)用的全過程,其中既涉及機器學習領(lǐng)域的核心問題,也涉及大數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)。隨著大數(shù)據(jù)處理框架的不斷進步,企業(yè)在海量數(shù)據(jù)集上進行加工處理的操作門檻已經(jīng)大大降低,使得模型工程師能夠獨立完成從問題定義到模型部署發(fā)布的全部工作。
2、目前,模型工程師在特征數(shù)據(jù)采集與特征生產(chǎn)構(gòu)建方面,主要依賴于大數(shù)據(jù)處理框架提供的能力,通過編寫數(shù)據(jù)處理腳本或利用數(shù)據(jù)處理工具,對原始數(shù)據(jù)進行清洗、轉(zhuǎn)換和聚合等操作,以生成用于模型訓練的特征數(shù)據(jù)。同時,在模型訓練階段,工程師們會利用各種機器學習算法和框架,對特征數(shù)據(jù)進行訓練,以得到性能優(yōu)良的模型。最后,在模型部署發(fā)布階段,將訓練好的模型集成到業(yè)務(wù)系統(tǒng)中,實現(xiàn)模型的在線預(yù)測和決策。
3、然而,隨著上層算法模型應(yīng)用與底層特征數(shù)據(jù)的不斷累積,現(xiàn)有技術(shù)逐漸暴露出了一系列問題。由于模型工程師通常缺乏數(shù)據(jù)領(lǐng)域的開發(fā)管理經(jīng)驗,導(dǎo)致特征數(shù)據(jù)生產(chǎn)維護成本高昂、重復(fù)冗余程度高、特征生產(chǎn)任務(wù)就緒超時以及特征數(shù)據(jù)口徑不清晰復(fù)用困難等問題日益凸顯。這些問題不僅影響了特征數(shù)據(jù)的生產(chǎn)和使用效率,也制約了模型決策效果的進一步提升。因此,亟需一種新的方法來優(yōu)化模型生命周期中的特征衍生過程,以解決現(xiàn)有技術(shù)存在的問題并提升模型的整體性能。
技術(shù)實現(xiàn)思路
1、有鑒于此,有必要提供一種模型生命周期中的數(shù)字化特征衍生方法,用以解決現(xiàn)有技術(shù)的上述缺陷。
2、為了解決上述問題,第一方面,本發(fā)明實施例提供一種模型生命周期中的數(shù)字化特征衍生方法,包括:
3、獲取時間序列數(shù)據(jù),持續(xù)將增量數(shù)據(jù)添加到序列頭部,并剔除時序尾部的數(shù)據(jù);通過預(yù)設(shè)的特征統(tǒng)計算子對時間序列數(shù)據(jù)進行特征統(tǒng)計;
4、通過預(yù)設(shè)的即時計算引擎接收數(shù)據(jù)供給側(cè)的數(shù)據(jù)輸入,基于元數(shù)據(jù)配置和場景規(guī)則配置對輸入數(shù)據(jù)進行實時處理,輸出實時的特征數(shù)據(jù)。
5、優(yōu)選的,所述獲取時間序列數(shù)據(jù),通過預(yù)設(shè)的特征統(tǒng)計算子對時間序列數(shù)據(jù)進行特征統(tǒng)計,包括:
6、將多個任務(wù)間重復(fù)的聚合邏輯下沉在中間層實現(xiàn),按用戶粒度對明細數(shù)據(jù)進行聚合,生成用戶時間序列數(shù)據(jù);
7、在時間序列數(shù)據(jù)的基礎(chǔ)上通過表達式過濾統(tǒng)計明細數(shù)據(jù)在時間序列中的下標;
8、將統(tǒng)計下標代入時間序列數(shù)據(jù)的各個字段中獲取統(tǒng)計明細,并通過特征統(tǒng)計算子完成數(shù)據(jù)統(tǒng)計。
9、優(yōu)選的,所述即時計算引擎的操作流程包括:
10、選擇數(shù)據(jù)源,從選定的數(shù)據(jù)源獲取實時數(shù)據(jù);其中,所述數(shù)據(jù)源包括消息隊列、實時數(shù)據(jù)庫和流式文件系統(tǒng);
11、選擇不同的主題域下的明細表以及維表,進行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)聚合以及數(shù)據(jù)過濾。
12、根據(jù)數(shù)據(jù)流的特性,選擇時間語義來處理實時數(shù)據(jù);
13、定義數(shù)據(jù)流的輸出,用于輸出處理結(jié)果;
14、根據(jù)數(shù)據(jù)量和計算需求,配置并行度和容錯機制;
15、將配置好的應(yīng)用程序部署到即時計算引擎集群中,經(jīng)過審批后啟動運行;
16、實時監(jiān)控計算應(yīng)用程序的性能和狀態(tài),根據(jù)數(shù)據(jù)延遲、吞吐量和資源利用率對計算應(yīng)用程序進行優(yōu)化。
17、優(yōu)選的,所述方法還包括:
18、通過增量式迭代或非增量式迭代,對初始模型進行迭代優(yōu)化;
19、通過a/b測試方法評估迭代優(yōu)化前后不同版本的模型的性能。
20、優(yōu)選的,所述增量式迭代流程包括:
21、通過調(diào)整超參數(shù)、改進特征工程和優(yōu)化模型結(jié)構(gòu),對初始模型進行優(yōu)化;
22、所述非增量式迭代流程包括:
23、基于模型選擇、特征選擇和模型架構(gòu)設(shè)計,對初始模型進行重構(gòu)。
24、優(yōu)選的,所述通過a/b測試方法評估迭代優(yōu)化前后不同版本的模型的性能,包括:
25、根據(jù)增量式迭代或非增量式迭代的優(yōu)化目標,配置模型流量重放功能和/或模型實時跟跑功能;
26、設(shè)置a組和b組,a組使用當前線上模型,b組使用新的迭代模型;
27、對于流量重放功能,預(yù)先配置重訓練后的模型調(diào)用地址,并關(guān)聯(lián)線上模型并預(yù)覽相應(yīng)的模型參數(shù);配置重放起始時間和終止時間節(jié)點,并確定相應(yīng)的特征和模型評價指標;
28、對于實時跟跑功能,選擇線上實時調(diào)用的模型并點擊跟跑按鈕,配置跟跑模型的調(diào)用地址和流量分配規(guī)則;
29、在a/b測試期間,收集a組和b組的指標數(shù)據(jù);
30、對收集到的數(shù)據(jù)進行評估,根據(jù)評估結(jié)果,判斷是否將新的迭代模型發(fā)布到線上。
31、第二方面,本發(fā)明實施例提供一種模型生命周期中的數(shù)字化特征衍生系統(tǒng),包括:
32、時序特征生產(chǎn)模塊,用于持續(xù)將增量數(shù)據(jù)添加到序列頭部,并剔除時序尾部的數(shù)據(jù);通過預(yù)設(shè)的特征統(tǒng)計算子對時間序列數(shù)據(jù)進行特征統(tǒng)計;
33、即時計算引擎模塊,用于通過預(yù)設(shè)的即時計算引擎接收數(shù)據(jù)供給側(cè)的數(shù)據(jù)輸入,基于元數(shù)據(jù)配置和場景規(guī)則配置對輸入數(shù)據(jù)進行實時處理,輸出實時的特征數(shù)據(jù)。
34、優(yōu)選的,所述系統(tǒng)還包括:
35、增量迭代模塊,用于通過增量式迭代或非增量式迭代,對初始模型進行迭代優(yōu)化;
36、a/b測試模塊,用于通過a/b測試方法評估迭代優(yōu)化前后不同版本的模型的性能。
37、第三方面,本發(fā)明還提供了一種電子設(shè)備,包括存儲器和處理器,其中,
38、所述存儲器,用于存儲程序;
39、所述處理器,與所述存儲器耦合,用于執(zhí)行所述存儲器中存儲的所述程序,以實現(xiàn)如本發(fā)明第一方面實施例所述的模型生命周期中的數(shù)字化特征衍生方法中的步驟。
40、第四方面,本發(fā)明還提供了一種計算機可讀存儲介質(zhì),用于存儲計算機可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時能夠?qū)崿F(xiàn)如本發(fā)明第一方面實施例所述的模型生命周期中的數(shù)字化特征衍生方法中的步驟。
41、本發(fā)明提供的模型生命周期中的數(shù)字化特征衍生方法及系統(tǒng),與現(xiàn)有技術(shù)相比,具有如下有益效果:
42、1)本發(fā)明通過時間序列增量更新的方式,顯著減少了重復(fù)的數(shù)據(jù)處理和計算,降低了資源消耗,提高了特征數(shù)據(jù)的生產(chǎn)速度。
43、2)通過良好的特征數(shù)據(jù)生產(chǎn)規(guī)范與合理的特征生產(chǎn)模式設(shè)計以及可視化的配置,解決特征生產(chǎn)面臨的高存儲資源消耗與高計算資源消耗問題,降低算法特征生產(chǎn)的大數(shù)據(jù)成本。
44、3)通過優(yōu)化特征數(shù)據(jù)的質(zhì)量,提升了線上模型的效果。通過健全的模型評估體系使得模型效果能夠得到實時跟蹤和準確評估,進一步提升了模型性能。
1.一種模型生命周期中的數(shù)字化特征衍生方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的模型生命周期中的數(shù)字化特征衍生方法,其特征在于,所述獲取時間序列數(shù)據(jù),通過預(yù)設(shè)的特征統(tǒng)計算子對時間序列數(shù)據(jù)進行特征統(tǒng)計,包括:
3.根據(jù)權(quán)利要求1所述的模型生命周期中的數(shù)字化特征衍生方法,其特征在于,所述即時計算引擎的操作流程包括:
4.根據(jù)權(quán)利要求1所述的模型生命周期中的數(shù)字化特征衍生方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的模型生命周期中的數(shù)字化特征衍生方法,其特征在于,所述增量式迭代流程包括:
6.根據(jù)權(quán)利要求1所述的模型生命周期中的數(shù)字化特征衍生方法,其特征在于,所述通過a/b測試方法評估迭代優(yōu)化前后不同版本的模型的性能,包括:
7.一種用于權(quán)利要求1-6任一項所述模型生命周期中的數(shù)字化特征衍生方法的模型生命周期中的數(shù)字化特征衍生系統(tǒng),包括:
8.根據(jù)權(quán)利要求7所述的模型生命周期中的數(shù)字化特征衍生方法,其特征在于,所述系統(tǒng)還包括:
9.一種電子設(shè)備,
10.一種計算機可讀存儲介質(zhì),其特征在于,用于存儲計算機可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時能夠?qū)崿F(xiàn)上述權(quán)利要求1至6中任意一項所述的模型生命周期中的數(shù)字化特征衍生方法中的步驟。