本申請(qǐng)涉及數(shù)據(jù)安全相關(guān),具體涉及一種大數(shù)據(jù)偏度增量計(jì)算方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著數(shù)字化轉(zhuǎn)型的加速,從金融風(fēng)控、社交媒體、電子商務(wù)到智能制造等領(lǐng)域都在經(jīng)歷數(shù)據(jù)量的暴增,在處理海量數(shù)據(jù)集上面臨諸多挑戰(zhàn)。
2、偏度(skewness)是描述數(shù)據(jù)分布形態(tài)的統(tǒng)計(jì)量之一,主要用于測(cè)量數(shù)據(jù)分布的對(duì)稱性。數(shù)據(jù)分布的偏度影響了分布的形狀,可以是正偏(右偏)、零偏(對(duì)稱)或負(fù)偏(左偏)。在數(shù)據(jù)科學(xué)和統(tǒng)計(jì)分析中,偏度的計(jì)算和理解至關(guān)重要。通過全面的偏度分析,企業(yè)和研究人員能夠更準(zhǔn)確地識(shí)別和解釋數(shù)據(jù)中的非對(duì)稱特征,制定更有效的策略和決策。
3、現(xiàn)有的方案中,對(duì)于偏度的計(jì)算依賴全量數(shù)據(jù),也就是需要對(duì)全量數(shù)據(jù)進(jìn)行掃描,無論數(shù)據(jù)變化多少,即使只新增了很少的數(shù)據(jù),也需要重新處理整個(gè)數(shù)據(jù)集,這樣會(huì)大大增加cpu和內(nèi)存的負(fù)載,消耗大量的計(jì)算資源,也增加了處理耗時(shí)。隨著數(shù)據(jù)量的增長,性能問題會(huì)越來越明顯。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)的實(shí)施例致力于提供一種大數(shù)據(jù)偏度增量計(jì)算方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
2、本申請(qǐng)?zhí)峁┝艘环N大數(shù)據(jù)偏度增量計(jì)算方法,包括:
3、對(duì)增量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得到用于偏度計(jì)算的基礎(chǔ)統(tǒng)計(jì)信息;
4、獲取原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息;
5、基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度;
6、其中,所述基礎(chǔ)統(tǒng)計(jì)信息包括:立方和、平方和、均值和數(shù)量。
7、在一些實(shí)施例中,所述基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度包括:
8、基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息;
9、基于所述當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度。
10、在一些實(shí)施例中,所述基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,包括:
11、基于所述原始數(shù)據(jù)的立方和和所述增量數(shù)據(jù)的立方和,計(jì)算當(dāng)前數(shù)據(jù)的立方和;
12、基于所述原始數(shù)據(jù)的平方和和所述增量數(shù)據(jù)的平方和,計(jì)算當(dāng)前數(shù)據(jù)的平方和;
13、基于所述原始數(shù)據(jù)的均值和所述增量數(shù)據(jù)的均值,計(jì)算當(dāng)前數(shù)據(jù)的均值;
14、基于所述原始數(shù)據(jù)的數(shù)量和所述增量數(shù)據(jù)的數(shù)量,計(jì)算當(dāng)前數(shù)據(jù)的數(shù)量。
15、在一些實(shí)施例中,所述基于所述當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度,包括:
16、基于所述當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算得到所述當(dāng)前數(shù)據(jù)的三階中心距;
17、基于所述當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算得到所述當(dāng)前數(shù)據(jù)的標(biāo)準(zhǔn)差;
18、基于所述標(biāo)準(zhǔn)差和所述三階中心距計(jì)算得到所述當(dāng)前數(shù)據(jù)的偏度。
19、本申請(qǐng)還提供了一種大數(shù)據(jù)偏度增量計(jì)算裝置,包括:
20、統(tǒng)計(jì)模塊,用于對(duì)增量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得到用于偏度計(jì)算的基礎(chǔ)統(tǒng)計(jì)信息;
21、獲取模塊,用于獲取原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息;
22、計(jì)算模塊,用于基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度;
23、其中,所述基礎(chǔ)統(tǒng)計(jì)信息包括:立方和、平方和、均值和數(shù)量。
24、本申請(qǐng)還提供了一種電子設(shè)備,包括:
25、處理器,以及用于存儲(chǔ)所述處理器可執(zhí)行程序的存儲(chǔ)器;
26、所述處理器,用于通過運(yùn)行所述存儲(chǔ)器中的程序,實(shí)現(xiàn)如上述大數(shù)據(jù)偏度增量計(jì)算方法。
27、本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如上述大數(shù)據(jù)偏度增量計(jì)算方法。
28、本申請(qǐng)所提供的一種大數(shù)據(jù)偏度增量計(jì)算方法,首先對(duì)增量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得到用于偏度計(jì)算的基礎(chǔ)統(tǒng)計(jì)信息;獲取原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息;基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度;其中,所述基礎(chǔ)統(tǒng)計(jì)信息包括:立方和、平方和、均值和數(shù)量。如此設(shè)置,僅僅只是對(duì)增量數(shù)據(jù)的部分進(jìn)行統(tǒng)計(jì),借用原先已知的原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,和統(tǒng)計(jì)得到的增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,進(jìn)行計(jì)算得到所述當(dāng)前數(shù)據(jù)的偏度;即,本申請(qǐng)?zhí)峁┑姆桨钢袃H僅需要對(duì)增量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),不需要重新處理整個(gè)數(shù)據(jù)集,這樣會(huì)大大減少cpu和內(nèi)存的負(fù)載,避免大量的計(jì)算資源,也減少了處理耗時(shí),減少對(duì)于設(shè)備性能的需求。
1.一種大數(shù)據(jù)偏度增量計(jì)算方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)偏度增量計(jì)算方法,其特征在于,所述基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度包括:
3.根據(jù)權(quán)利要求2所述的大數(shù)據(jù)偏度增量計(jì)算方法,其特征在于,所述基于所述原始數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息和所述增量數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,包括:
4.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)偏度增量計(jì)算方法,其特征在于,所述基于所述當(dāng)前數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)信息,計(jì)算當(dāng)前數(shù)據(jù)的偏度,包括:
5.一種大數(shù)據(jù)偏度增量計(jì)算裝置,其特征在于,包括:
6.一種電子設(shè)備,其特征在于,包括:
7.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如權(quán)利要求1至4中任一項(xiàng)所述的大數(shù)據(jù)偏度增量計(jì)算方法。