欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種批流一體化數(shù)據(jù)處理系統(tǒng)及方法與流程

文檔序號:40554963發(fā)布日期:2025-01-03 11:14閱讀:10來源:國知局
一種批流一體化數(shù)據(jù)處理系統(tǒng)及方法與流程

本發(fā)明屬于數(shù)據(jù)處理,具體涉及一種批流一體化數(shù)據(jù)處理系統(tǒng)及方法。


背景技術(shù):

1、隨著信息化技術(shù)的飛速發(fā)展,數(shù)據(jù)處理的需求日益復雜且多樣化,尤其是在大數(shù)據(jù)和實時數(shù)據(jù)分析場景下,傳統(tǒng)的數(shù)據(jù)處理方式往往難以同時滿足批處理(batchprocessing)和流處理(stream?processing)的需求。批處理主要關(guān)注大量數(shù)據(jù)的離線處理,適用于對時效性要求不高但數(shù)據(jù)規(guī)模龐大的場景;而流處理則側(cè)重于實時數(shù)據(jù)的在線處理,強調(diào)數(shù)據(jù)的即時性和動態(tài)性。然而,在許多實際應(yīng)用中,這兩種數(shù)據(jù)處理方式常常需要協(xié)同工作,以實現(xiàn)數(shù)據(jù)的全面、高效處理。

2、現(xiàn)有技術(shù)中,批流一體化數(shù)據(jù)處理系統(tǒng)通常采用獨立設(shè)計或簡單集成的策略,這導致系統(tǒng)在處理復雜任務(wù)時效率低下,資源分配不均,容易同時出現(xiàn)部分資源過剩,以及部分資源不足的情況,這無疑會導致系統(tǒng)整體性能下降,無法充分發(fā)揮數(shù)據(jù)處理的優(yōu)勢,為了解決這一問題,本發(fā)明提出了一種創(chuàng)新的批流一體化數(shù)據(jù)處理系統(tǒng)及方法,通過智能資源調(diào)度的方式,實現(xiàn)批處理與流處理的相互協(xié)同。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是提供一種批流一體化數(shù)據(jù)處理系統(tǒng)及方法,能夠有效解決數(shù)據(jù)處理領(lǐng)域中批處理與流處理協(xié)同工作時的資源分配不均與效率低下問題,通過動態(tài)的資源調(diào)度與任務(wù)執(zhí)行方式優(yōu)化,實現(xiàn)數(shù)據(jù)的協(xié)同處理。

2、為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:

3、第一方面,提供一種批流一體化數(shù)據(jù)處理方法,包括:

4、根據(jù)獲取的原始數(shù)據(jù)的數(shù)據(jù)量以及輸出延遲需求,對所述原始數(shù)據(jù)進行分類,得到批處理數(shù)據(jù)和流處理數(shù)據(jù),并同步匹配所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)的任務(wù)執(zhí)行方式,其中,所述任務(wù)執(zhí)行方式包括單獨執(zhí)行和并行執(zhí)行;

5、依據(jù)所述任務(wù)執(zhí)行方式,對所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)分配執(zhí)行資源配額;

6、當所述單獨執(zhí)行時,將所述批處理數(shù)據(jù)加入獨立任務(wù)隊列,所述獨立任務(wù)隊列中的所述批處理數(shù)據(jù)依據(jù)采集順序處理;

7、當所述并行執(zhí)行時,將所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)加入共享任務(wù)隊列,所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)在共享任務(wù)隊列中并發(fā)處理;

8、在所述并行執(zhí)行過程中,依據(jù)所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)的輸出延遲滯后量和任務(wù)負載量,調(diào)整所述共享任務(wù)隊列中的批處理數(shù)據(jù)和流處理數(shù)據(jù)的執(zhí)行資源配額,以及調(diào)整所述共享任務(wù)隊列中待處理數(shù)據(jù)的調(diào)度方向。

9、在其中的一些實施例中,所述根據(jù)獲取的原始數(shù)據(jù)的數(shù)據(jù)量以及輸出延遲需求,對所述原始數(shù)據(jù)進行分類,得到批處理數(shù)據(jù)和流處理數(shù)據(jù)的步驟,包括:

10、獲取所述原始數(shù)據(jù),并進行預處理,所述預處理包括:數(shù)據(jù)清洗、去重以及標準化處理;其中,所述標準化處理為統(tǒng)一所述原始數(shù)據(jù)的格式;

11、采集預處理后的原始數(shù)據(jù)的數(shù)據(jù)處理量,并將所述數(shù)據(jù)處理量與預設(shè)的數(shù)據(jù)量分類閾值進行比較;

12、若所述數(shù)據(jù)處理量小于或等于數(shù)據(jù)量分類閾值,則將所有預處理后的原始數(shù)據(jù)輸出為流處理數(shù)據(jù);

13、若所述數(shù)據(jù)處理量大于數(shù)據(jù)量分類閾值,則采集預處理后的原始數(shù)據(jù)的輸出延遲需求,其中,所述輸出延遲需求包括容許延遲需求和即時性需求;

14、其中,所述容許延遲需求對應(yīng)的預處理后的原始數(shù)據(jù)輸出為所述批處理數(shù)據(jù),所述即時性需求對應(yīng)的預處理后的原始數(shù)據(jù)輸出為所述流處理數(shù)據(jù)。

15、在其中的一些實施例中,所述匹配所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)的任務(wù)執(zhí)行方式包括:

16、當所述原始數(shù)據(jù)中僅存在批處理數(shù)據(jù)時,將所述原始數(shù)據(jù)的任務(wù)執(zhí)行方式確定為所述單獨執(zhí)行;

17、當所述原始數(shù)據(jù)中同時存在批處理數(shù)據(jù)和流處理數(shù)據(jù),或所述原始數(shù)據(jù)中僅存在流處理數(shù)據(jù)時,將所述原始數(shù)據(jù)的任務(wù)執(zhí)行方式確定為所述并行執(zhí)行。

18、在其中的一些實施例中,所述依據(jù)所述任務(wù)執(zhí)行方式,對所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)分配執(zhí)行資源配額的步驟,包括:

19、獲取當前節(jié)點下的任務(wù)執(zhí)行方式;

20、當所述任務(wù)執(zhí)行方式為所述單獨執(zhí)行時,為所述批處理數(shù)據(jù)配置獨立執(zhí)行資源池,其中,所述批處理數(shù)據(jù)的執(zhí)行資源配額與所述批處理數(shù)據(jù)的數(shù)據(jù)總量成正比;

21、當所述任務(wù)執(zhí)行方式為所述并行執(zhí)行時,為所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)配置共享執(zhí)行資源池,并根據(jù)所述批處理數(shù)據(jù)下的數(shù)據(jù)量和所述流處理數(shù)據(jù)下的數(shù)據(jù)需求延遲度動態(tài)分配執(zhí)行資源配額。

22、在其中的一些實施例中,所述獨立任務(wù)隊列包括單線程隊列和并行線程隊列,所述單線程隊列和并行線程隊列的確定過程如下;

23、獲取所述批處理數(shù)據(jù)的待處理數(shù)據(jù)總量,以及所述批處理數(shù)據(jù)的單位處理量,并依據(jù)所述待處理數(shù)據(jù)總量和所述單位處理量計算所述批處理數(shù)據(jù)的執(zhí)行輪次;

24、將獲取到的基準執(zhí)行輪次與所述批處理數(shù)據(jù)的執(zhí)行輪次進行結(jié)合運算,且將所述基準執(zhí)行輪次與所述批處理數(shù)據(jù)的執(zhí)行輪次的結(jié)合運算結(jié)果向上取整,得到需求線程量;

25、當所述需求線程量的取值為一時,將所述批處理數(shù)據(jù)加入單線程隊列進行順序處理;

26、當所述需求線程量的取值大于一時,根據(jù)所述需求線程量的取值將所述批處理數(shù)據(jù)劃分為多個并行線程隊列。

27、在其中的一些實施例中,所述在所述并行執(zhí)行過程中,依據(jù)所述批處理數(shù)據(jù)和流處理數(shù)據(jù)的輸出延遲滯后量和任務(wù)負載量,調(diào)整所述共享任務(wù)隊列中的批處理數(shù)據(jù)和流處理數(shù)據(jù)的執(zhí)行資源配額的步驟,包括:

28、實時獲取所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)的任務(wù)負載量,以及所述流處理數(shù)據(jù)的輸出延遲滯后量;

29、對當前節(jié)點進行回溯偏移處理,得到回溯時段,且統(tǒng)計所述回溯時段內(nèi)所述流處理數(shù)據(jù)的輸出延遲滯后量,并基于所述回溯時段內(nèi)的輸出延時滯后量計算所述流處理數(shù)據(jù)的預測延遲滯后量;

30、若所述預測延遲滯后量的取值大于零,則表明所述流處理數(shù)據(jù)的輸出異常,增加所述流處理數(shù)據(jù)的執(zhí)行資源配額;

31、若所述預測延遲滯后量的取值小于或等于零,則表明所述流處理數(shù)據(jù)的輸出正常,同步輸出流處理數(shù)據(jù)的剩余資源配額。

32、在其中的一些實施例中,所述方法還包括:

33、當增加所述流處理數(shù)據(jù)的執(zhí)行資源配額時,調(diào)用共享資源池中的空閑資源配額;

34、當所述空閑資源配額為零時,減少所述批處理數(shù)據(jù)的執(zhí)行輪次,將減少所述批處理數(shù)據(jù)的執(zhí)行輪次后的批處理數(shù)據(jù)下的待處理數(shù)據(jù)加入等待隊列,并釋放所述批處理數(shù)據(jù)占用的執(zhí)行資源配額,得到容許分配資源配額;

35、將所述容許分配資源配額重新分配給流處理數(shù)據(jù),直至所述流處理數(shù)據(jù)的輸出延遲滯后量小于或等于零,或所述批處理數(shù)據(jù)的執(zhí)行輪次減少至一后停止;

36、在所述剩余資源配額輸出后,判斷所述批處理數(shù)據(jù)中是否存在等待隊列,若所述批處理數(shù)據(jù)中存在等待隊列,則將所述剩余資源配額分配給批處理數(shù)據(jù)。

37、在其中的一些實施例中,所述批處理數(shù)據(jù)的執(zhí)行輪次減少至一后,所述方法還包括:

38、若所述流處理數(shù)據(jù)的輸出延遲滯后量取值仍為正,則同步發(fā)出告警信號,并輸出包括流處理數(shù)據(jù)當前的延遲狀況、已采取的資源調(diào)整措施以及所述批處理數(shù)據(jù)釋放執(zhí)行資源配額后等待隊列中的待處理數(shù)據(jù)量的匯總報告。

39、第二方面,提供一種批流一體化數(shù)據(jù)處理系統(tǒng),包括:

40、初始化模塊,所述初始化模塊用于根據(jù)獲取的原始數(shù)據(jù)的數(shù)據(jù)量以及輸出延遲需求,對所述原始數(shù)據(jù)進行分類,得到批處理數(shù)據(jù)和流處理數(shù)據(jù),并同步匹配所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)的任務(wù)執(zhí)行方式,其中,所述任務(wù)執(zhí)行方式包括單獨執(zhí)行和并行執(zhí)行;

41、資源分配模塊,所述資源分配模塊用于依據(jù)所述任務(wù)執(zhí)行方式,對所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)分配執(zhí)行資源配額;

42、第一執(zhí)行模塊,所述第一執(zhí)行模塊用于當所述單獨執(zhí)行時,將所述批處理數(shù)據(jù)加入獨立任務(wù)隊列,所述獨立任務(wù)隊列中的所述批處理數(shù)據(jù)依據(jù)采集順序處理;

43、第二執(zhí)行模塊,所述第二執(zhí)行模塊用于當所述并行執(zhí)行時,將所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)加入共享任務(wù)隊列,所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)在共享任務(wù)隊列中并發(fā)處理;

44、動態(tài)調(diào)整模塊,所述動態(tài)調(diào)整模塊用于在所述并行執(zhí)行過程中,依據(jù)所述批處理數(shù)據(jù)和所述流處理數(shù)據(jù)的輸出延遲滯后量和任務(wù)負載量,調(diào)整所述共享任務(wù)隊列中的批處理數(shù)據(jù)和流處理數(shù)據(jù)的執(zhí)行資源配額,以及調(diào)整所述共享任務(wù)隊列中待處理數(shù)據(jù)的調(diào)度方向。

45、第三方面,提供一種電子設(shè)備,所述電子設(shè)備包括:

46、至少一個處理器;

47、以及與所述至少一個處理器通信連接的存儲器;

48、其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計算機程序,所述計算機程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行第一方面中任意一項所述的批流一體化數(shù)據(jù)處理方法。

49、本發(fā)明采用以上技術(shù)方案,與現(xiàn)有技術(shù)相比,具有如下技術(shù)效果:

50、本發(fā)明通過對批流一體化數(shù)據(jù)處理過程進行精細化管理和動態(tài)調(diào)整,根據(jù)原始數(shù)據(jù)的特性和需求,匹配對應(yīng)的任務(wù)執(zhí)行方式,進一步優(yōu)化資源分配策略,以確保數(shù)據(jù)處理的高效性和實時性,同時還能夠?qū)θ蝿?wù)執(zhí)行過程中的批處理數(shù)據(jù)和流處理數(shù)據(jù)進行智能地分配和調(diào)整執(zhí)行資源配額,保證批處理數(shù)據(jù)和流處理數(shù)據(jù)在并行處理中的流暢性,實現(xiàn)批處理數(shù)據(jù)和流處理數(shù)據(jù)在資源利用上的高效協(xié)同。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
汾阳市| 梁山县| 商丘市| 工布江达县| 手游| 封开县| 泽库县| 潼南县| 合川市| 平武县| 清远市| 达孜县| 汉沽区| 平利县| 清远市| 临泽县| 灌南县| 大英县| 长治市| 兴城市| 东莞市| 青岛市| 建始县| 盘锦市| 浙江省| 温州市| 双鸭山市| 广安市| 阳西县| 舒兰市| 铁岭市| 敦煌市| 渑池县| 冕宁县| 西吉县| 济阳县| 民勤县| 通化市| 开江县| 阿坝| 湟源县|