一種處理缺失數(shù)據(jù)的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種處理缺失數(shù)據(jù)的方法及裝置,包括在經(jīng)營周期內(nèi)出現(xiàn)缺失數(shù)據(jù)時,利用上一運營周期中相同統(tǒng)計時點的累計值估算本運營周期的當(dāng)期累計值;根據(jù)估算出的當(dāng)期累計值及上期統(tǒng)計時點實際的累計值,獲取當(dāng)期統(tǒng)計時點缺失數(shù)據(jù)的估計值。本發(fā)明方案針對經(jīng)營周期對缺失數(shù)據(jù)進(jìn)行估算,大大減少了估算所需的數(shù)據(jù)量即計算復(fù)雜度,從而降低了計算占用的系統(tǒng)資源,縮短了運行時間;而且,本發(fā)明結(jié)合缺失數(shù)據(jù)時點當(dāng)期累計值估算數(shù)據(jù)及前一統(tǒng)計時點的當(dāng)期累計實際值,更加準(zhǔn)確地對缺失數(shù)據(jù)進(jìn)行了估算。進(jìn)一步地,本發(fā)明在處理缺失數(shù)據(jù)的過程中,通過對相關(guān)計算元素的存儲,為缺失數(shù)據(jù)的計算提供了參考,提高了缺失數(shù)據(jù)的處理速度。
【專利說明】一種處理缺失數(shù)據(jù)的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤指一種處理缺失數(shù)據(jù)的方法及裝置。
【背景技術(shù)】
[0002]隨著信息技術(shù)的發(fā)展,企業(yè)的信息系統(tǒng)覆蓋率越來越高,大部分企業(yè)都建立了基于各類數(shù)據(jù)的分析系統(tǒng),以支持企業(yè)的快速、精準(zhǔn)決策。
[0003]當(dāng)企業(yè)內(nèi)部信息系統(tǒng)增多后,分析系統(tǒng)在抽取數(shù)據(jù)時難免會遇到業(yè)務(wù)源系統(tǒng)由于系統(tǒng)故障或性能問題而無法提供全部或部分?jǐn)?shù)據(jù)的情況。在這種情況下,系統(tǒng)界面展示的數(shù)據(jù)必然存在缺失或失真,給使用帶來極大的不便。尤其是總量數(shù)據(jù)的展示,如果不加處理,會顯示大幅度的數(shù)據(jù)異動,給使用人員帶來困擾。
[0004]對于缺失數(shù)據(jù)的處理,通常采用如下處理方式:刪除數(shù)據(jù)、不處理或采用統(tǒng)計方法填充數(shù)據(jù)等。如果用于分析、挖掘等尋求數(shù)據(jù)內(nèi)在規(guī)律,缺失的數(shù)據(jù)可以根據(jù)具體影響采用上述三種方式中任一方式進(jìn)行處理。但是,在企業(yè)數(shù)據(jù)分析系統(tǒng)中,由于數(shù)據(jù)需要實時展現(xiàn),如果采用刪除數(shù)據(jù),或不處理的方式,都會帶來總量數(shù)據(jù)異常波動,從而給數(shù)據(jù)使用人員帶來不便,因此,對于企業(yè)數(shù)據(jù)分析系統(tǒng),是不能采用簡單刪除數(shù)據(jù)或者不處理的方式的,其更適用于填充數(shù)據(jù)的處理方式。
[0005]企業(yè)數(shù)據(jù)分析系統(tǒng)采集數(shù)據(jù)的頻次分為日、月、季或按小時采集的準(zhǔn)實時數(shù)據(jù),當(dāng)數(shù)據(jù)采集頻次為按小時或日采集時,需要采用一種快速的填充數(shù)據(jù)處理方式,不能使用復(fù)雜耗時的一般性統(tǒng)計方法來填充數(shù)據(jù)。
[0006]經(jīng)過對企業(yè)數(shù)據(jù)進(jìn)行分析,發(fā)明人發(fā)現(xiàn)企業(yè)的數(shù)據(jù)具有非常顯著的周期性特點。獨立的數(shù)據(jù)變化規(guī)律往往不明顯,但每個運營周期的當(dāng)期累計值往往具有顯著特點,比如:新增用戶數(shù),雖然在一個月中觀察每天的數(shù)據(jù)變動,規(guī)律性不強(qiáng),但如果看每個月各天的累計新增用戶數(shù),卻有比較強(qiáng)的規(guī)律性。如果采用一般性統(tǒng)計方法來估算某天的缺失數(shù)據(jù),往往忽略了這種針對性,完全基于大量的歷史數(shù)據(jù)進(jìn)行計算,實現(xiàn)起來比較復(fù)雜,且計算量大時占用系統(tǒng)資源多,運行時間長,無法滿足快速提供數(shù)據(jù)的要求。
【發(fā)明內(nèi)容】
[0007]為了解決上述技術(shù)問題,本發(fā)明提供了一種處理缺失數(shù)據(jù)的方法及裝置,能夠在一般性統(tǒng)計方法的基礎(chǔ)上,簡單、快速、準(zhǔn)確地對企業(yè)數(shù)據(jù)中的缺失數(shù)據(jù)進(jìn)行處理。
[0008]為了達(dá)到本發(fā)明目的,本發(fā)明提供了一種處理缺失數(shù)據(jù)的方法,當(dāng)前運營周期出現(xiàn)缺失數(shù)據(jù)時,包括:利用上一運營周期中相同統(tǒng)計時點的累計值估算本運營周期的當(dāng)期累計值;
[0009]根據(jù)估算出的當(dāng)期累計值及上期統(tǒng)計時點實際的累計值,獲取當(dāng)期統(tǒng)計時點缺失數(shù)據(jù)的估計值。
[0010]所述利用上一運營周期中相同統(tǒng)計時點的當(dāng)期累計值估算本運營周期當(dāng)期累計值包括:[0011]根據(jù)所述上一運營周期中在統(tǒng)計時點的當(dāng)期累計值,計算上一運營周期各統(tǒng)計時點的當(dāng)期累計平均值;
[0012]根據(jù)上一運營周期中各統(tǒng)計時點的當(dāng)期累計值,及計算得到的當(dāng)期累計平均值,計算得到當(dāng)期累計估計系數(shù);
[0013]根據(jù)計算得到的當(dāng)期累計平均值及當(dāng)期累計估計系數(shù)獲取當(dāng)期統(tǒng)計時點累計值的估計值。
[0014]所述獲取當(dāng)期統(tǒng)計時點缺失數(shù)據(jù)的估計值包括:
[0015]計算所述統(tǒng)計時點當(dāng)期累計值的估計值與所述上期統(tǒng)計時點實際的累計值之差,得到的差值為統(tǒng)計時點當(dāng)期累計值的估計值。
[0016]所述經(jīng)營周期結(jié)束時,該方法還包括:存儲運營周期各統(tǒng)計時點的當(dāng)期累計估算系數(shù)。
[0017]所述運營周期結(jié)束后,該方法還包括:存儲最近一個經(jīng)營周期各統(tǒng)計時點的當(dāng)期累計平均值。
[0018]本發(fā)明還提供一種處理缺失數(shù)據(jù)的裝置,至少包括第一處理模塊、第二處理模塊,其中,
[0019]第一處理模塊,用于根據(jù)上一完整的經(jīng)營周期中各運營周期中各統(tǒng)計時點當(dāng)期累計值,計算各統(tǒng)計時點的當(dāng)期累計平均值;根據(jù)上一完整的經(jīng)營周期中各統(tǒng)計時點當(dāng)期累計值,以及各統(tǒng)計時點的當(dāng)期累計實際值,計算得到各統(tǒng)計時點當(dāng)期累計估計系數(shù);根據(jù)最近一個經(jīng)營周期所有運營周期各統(tǒng)計時點的當(dāng)期累計實際值,計算得到各統(tǒng)計時點的當(dāng)期累計平均值。
[0020]第二處理模塊,根據(jù)缺失數(shù)據(jù)所在統(tǒng)計時點的當(dāng)期累計值估算系數(shù)及最近一個經(jīng)營周期中各統(tǒng)計時點的當(dāng)期累計平均值,計算得到當(dāng)前缺失數(shù)據(jù)統(tǒng)計時點的當(dāng)期累計估算值,根據(jù)估算出的當(dāng)期累計值及前一天實際的當(dāng)期累計值,獲取當(dāng)期當(dāng)天缺失數(shù)據(jù)的估計值。
[0021]還包括存儲模塊,用于存儲第一處理模塊計算出的當(dāng)期累計平均值、當(dāng)期累計估算系數(shù)。
[0022]與現(xiàn)有技術(shù)相比,本發(fā)明包括在當(dāng)前運營周期內(nèi)出現(xiàn)缺失數(shù)據(jù)時,利用上一運營周期中相同統(tǒng)計時點的累計值估算本運營周期的當(dāng)期累計值;根據(jù)估算出的當(dāng)期累計值及上期統(tǒng)計時點實際的累計值,獲取當(dāng)期統(tǒng)計時點缺失數(shù)據(jù)的估計值。本發(fā)明方案針對經(jīng)營周期數(shù)據(jù)特點對缺失數(shù)據(jù)進(jìn)行估算,大大減少了估算所需數(shù)據(jù)量及計算復(fù)雜度,從而降低了計算占用的系統(tǒng)資源,縮短了運行時間;而且,本發(fā)明結(jié)合缺失數(shù)據(jù)時點當(dāng)期累計值估算數(shù)據(jù)及前一統(tǒng)計時點累計值實際數(shù)據(jù),更加準(zhǔn)確地對缺失數(shù)據(jù)進(jìn)行了估算。
[0023]進(jìn)一步地,本發(fā)明在處理缺失數(shù)據(jù)的過程中,通過對相關(guān)計算元素的存儲,為缺失數(shù)據(jù)的計算提供了參考,提高了缺失數(shù)據(jù)的處理速度。
[0024]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
【專利附圖】
【附圖說明】[0025]附圖用來提供對本發(fā)明技術(shù)方案的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本申請的實施例一起用于解釋本發(fā)明的技術(shù)方案,并不構(gòu)成對本發(fā)明技術(shù)方案的限制。
[0026]圖1為本發(fā)明處理缺失數(shù)據(jù)的方法的流程圖;
[0027]圖2為本發(fā)明處理缺失數(shù)據(jù)的裝置的組成結(jié)構(gòu)示意圖。
【具體實施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下文中將結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0029]在附圖的流程圖示出的步驟可以在諸如一組計算機(jī)可執(zhí)行指令的計算機(jī)系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0030]圖1為本發(fā)明處理缺失數(shù)據(jù)的方法的流程圖,如圖1所示,包括:
[0031]步驟100:當(dāng)前運營周期出現(xiàn)缺失數(shù)據(jù)時,利用上一運營周期相同統(tǒng)計時點的累計值估算本運營周期的當(dāng)期累計值。其中,上一運營周期相同統(tǒng)計時點,指的是自當(dāng)前時點前推一個運營周期的時間長度所在的時間點。
[0032]本步驟中,如何確定缺失數(shù)據(jù)是否出現(xiàn)屬于現(xiàn)有技術(shù),這里不再贅述。這里強(qiáng)調(diào)的是,對缺失數(shù)據(jù)的處理是針對每個經(jīng)營周期進(jìn)行的,而每個經(jīng)營周期由若干個運營周期組成,如12個月為一個經(jīng)營周期,而每個月為一個運營周期;或者,31天為一個經(jīng)營周期,而每天為一個運營周期等。具體如何設(shè)置經(jīng)營周期由運營商根據(jù)數(shù)據(jù)特點設(shè)置,屬于本領(lǐng)域技術(shù)人員的慣用技術(shù)手段。
[0033]本步驟中,可以自當(dāng)前經(jīng)營周期前推,選取一整個經(jīng)營周期的歷史數(shù)據(jù)進(jìn)行計算,利用歷史數(shù)據(jù)中各運營周期相同統(tǒng)計時點的當(dāng)期累計值估算統(tǒng)計時點當(dāng)期累計值,具體包括:首先,根據(jù)歷史數(shù)據(jù)中各運營周期缺失數(shù)據(jù)統(tǒng)計時點的當(dāng)期累計值,計算缺失上一運營周期各統(tǒng)計時點的當(dāng)期累計平均值;然后,根據(jù)上一運營周期中各統(tǒng)計時點的當(dāng)期累計值,及計算得到的當(dāng)期累計平均值,計算當(dāng)期累計值估計系數(shù);最后,根據(jù)計算得到的當(dāng)期累計平均值及當(dāng)期累計估計系數(shù)獲取當(dāng)期統(tǒng)計時點累計值的估計值。
[0034]步驟101:根據(jù)估算出的當(dāng)期累計值及上期統(tǒng)計時點實際的累計值,獲取當(dāng)期統(tǒng)計時點缺失數(shù)據(jù)的估計值。
[0035]本發(fā)明方法針對經(jīng)營周期數(shù)據(jù)特點對缺失數(shù)據(jù)進(jìn)行估算,大大減少了計算所需數(shù)據(jù)量,降低了計算占用的系統(tǒng)資源,縮短了運行時間;而且,本發(fā)明方法結(jié)合當(dāng)期累計值估算數(shù)據(jù)及前一統(tǒng)計時點實際的當(dāng)期累計值,更加準(zhǔn)確地對缺失數(shù)據(jù)進(jìn)行了估算。
[0036]以經(jīng)營周期為I年即12個月,每個運營周期I個月為例,本發(fā)明方法中,假設(shè)需要
估算的值為第m月的第n天即當(dāng)期當(dāng)天累計值的估算值,用表示。第m月第n天的當(dāng)期累計值用Cnm表示;各月第n天的當(dāng)期累計平均值用G表示;第m月第n天的當(dāng)期累計估算系數(shù)用Snm表示;第m月第n天缺失數(shù)據(jù)的估算數(shù)用廠良示。其中,
[0037]首先,各月第n天的當(dāng)期累計平均值巧按照公式(I)計算:[0038]
【權(quán)利要求】
1.一種處理缺失數(shù)據(jù)的方法,當(dāng)前運營周期出現(xiàn)缺失數(shù)據(jù)時,其特征在于,包括:利用上一運營周期中相同統(tǒng)計時點的累計值估算本運營周期的當(dāng)期累計值; 根據(jù)估算出的當(dāng)期累計值及上期統(tǒng)計時點實際的累計值,獲取當(dāng)期統(tǒng)計時點缺失數(shù)據(jù)的估計值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用上一運營周期中相同統(tǒng)計時點的當(dāng)期累計值估算本運營周期當(dāng)期累計值包括: 根據(jù)所述上一運營周期中在統(tǒng)計時點的當(dāng)期累計值,計算上一運營周期各統(tǒng)計時點的當(dāng)期累計平均值; 根據(jù)上一運營周期中各統(tǒng)計時點的當(dāng)期累計值,及計算得到的當(dāng)期累計平均值,計算得到當(dāng)期累計估計系數(shù); 根據(jù)計算得到的當(dāng)期累計平均值及當(dāng)期累計估計系數(shù)獲取當(dāng)期統(tǒng)計時點累計值的估計值。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述獲取當(dāng)期統(tǒng)計時點缺失數(shù)據(jù)的估計值包括: 計算所述統(tǒng)計時點當(dāng)期累計值的估計值與所述上期統(tǒng)計時點實際的累計值之差,得到的差值為統(tǒng)計時點當(dāng)期累計值的估計值。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述經(jīng)營周期結(jié)束時,該方法還包括:存儲運營周期各統(tǒng)計時點的當(dāng)期累計估算系數(shù)。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述運營周期結(jié)束后,該方法還包括:存儲最近一個經(jīng)營周期各統(tǒng)計時點的當(dāng)期累計平均值。
6.一種處理缺失數(shù)據(jù)的裝置,其特征在于,至少包括第一處理模塊、第二處理模塊,其中, 第一處理模塊,用于根據(jù)上一完整的經(jīng)營周期中各運營周期中各統(tǒng)計時點當(dāng)期累計值,計算各統(tǒng)計時點的當(dāng)期累計平均值;根據(jù)上一完整的經(jīng)營周期中各統(tǒng)計時點當(dāng)期累計值,以及各統(tǒng)計時點的當(dāng)期累計實際值,計算得到各統(tǒng)計時點當(dāng)期累計估計系數(shù);根據(jù)最近一個經(jīng)營周期所有運營周期各統(tǒng)計時點的當(dāng)期累計實際值,計算得到各統(tǒng)計時點的當(dāng)期累計平均值; 第二處理模塊,根據(jù)缺失數(shù)據(jù)所在統(tǒng)計時點的當(dāng)期累計值估算系數(shù)及最近一個經(jīng)營周期中各統(tǒng)計時點的當(dāng)期累計平均值,計算得到當(dāng)前缺失數(shù)據(jù)統(tǒng)計時點的當(dāng)期累計估算值,根據(jù)估算出的當(dāng)期累計值及前一天實際的當(dāng)期累計值,獲取當(dāng)期當(dāng)天缺失數(shù)據(jù)的估計值。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括存儲模塊,用于存儲第一處理模塊計算出的當(dāng)期累計平均值、當(dāng)期累計估算系數(shù)。
【文檔編號】G06F17/30GK103678721SQ201410001575
【公開日】2014年3月26日 申請日期:2014年1月2日 優(yōu)先權(quán)日:2014年1月2日
【發(fā)明者】王芹, 謝攀, 黃敏燕 申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司, 聯(lián)通系統(tǒng)集成有限公司