本發(fā)明涉及數(shù)據(jù)檢測技術(shù),尤其涉及一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法和裝置,屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。
背景技術(shù):
隨著工業(yè)化和信息化的發(fā)展以及互聯(lián)網(wǎng)的興起,信息的生成、采集以及挖掘應(yīng)用到各個行業(yè)當中。例如,通過采集一些日志信息的實時狀態(tài)記錄以及包含時間信息的網(wǎng)絡(luò)記錄等數(shù)據(jù)生成一系列時序數(shù)據(jù),并通過對這些時序數(shù)據(jù)的處理實現(xiàn)告警檢測、輿情監(jiān)控等。所謂時序數(shù)據(jù)是指時間序列數(shù)據(jù),即同一指標按時間順序記錄的數(shù)據(jù)列。在同一數(shù)據(jù)列中的各個數(shù)據(jù)必須是同口徑的,具有可比性。時間序列數(shù)據(jù)分析的目的是通過找出樣本內(nèi)時間序列的統(tǒng)計特性和發(fā)展規(guī)律性,構(gòu)建時間序列模型,進行樣本外預(yù)測。其中,對時序數(shù)據(jù)中相鄰時間點待監(jiān)測對象的狀態(tài)變化的獲取和處理,即檢測時序數(shù)據(jù)的狀態(tài)翻轉(zhuǎn)信息,對于告警檢測、輿情監(jiān)控等有著重要的意義。
現(xiàn)有的數(shù)據(jù)檢測中,主要采用在每個數(shù)據(jù)源處理本地時序數(shù)據(jù),再將各個數(shù)據(jù)源處理結(jié)果整體匯總的方式進行時序數(shù)據(jù)處理,進而獲取待監(jiān)測對象的狀態(tài)變化及發(fā)生狀態(tài)變化的時間。然而網(wǎng)絡(luò)傳輸過程中存在不確定性,不能保證每一條數(shù)據(jù)能夠在規(guī)定時間內(nèi)到達,在數(shù)據(jù)接收端獲取的時序數(shù)據(jù)可能存在時間亂序和臨時缺失的情況。為此,現(xiàn)有的檢測時序數(shù)據(jù)的狀態(tài)翻轉(zhuǎn)信息的方法是:將接收到的數(shù)據(jù)先存儲在緩沖區(qū)中進行排序,并確保一定時間間隔內(nèi)數(shù)據(jù)完整后,再捕捉時序數(shù)據(jù)中狀態(tài)翻轉(zhuǎn)瞬間的數(shù)據(jù)。
大數(shù)據(jù)時代的來臨,迫使我們必須更高效更快捷的進行時序數(shù)據(jù)處理。然而現(xiàn)有方法檢測時序數(shù)據(jù)狀態(tài)翻轉(zhuǎn)時,需要花費等待數(shù)據(jù)段傳輸完整的時間開銷以及檢查該段數(shù)據(jù)是否傳輸完整并保證時間順序的功能開銷,尤其是在處理不同種類海量時序數(shù)據(jù)的情況下,花費的時間更將以倍數(shù)增加,大大降低時序數(shù)據(jù)狀態(tài)翻轉(zhuǎn)信息檢測的實時性。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法和裝置,可以在基于數(shù)據(jù)處理的過程中,應(yīng)對數(shù)據(jù)傳輸過程中數(shù)據(jù)亂序和臨時缺失的情況,實現(xiàn)海量數(shù)據(jù)分布式準實時的并行處理。
本發(fā)明實施例提供一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法,包括:在初始時間間隔接收每個數(shù)據(jù)源的第一狀態(tài)監(jiān)測時序數(shù)據(jù),所述第一狀態(tài)監(jiān)測時序數(shù)據(jù)中包括多個數(shù)據(jù)收集時刻信息;根據(jù)第一狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,獲得該數(shù)據(jù)源的初始數(shù)據(jù)翻轉(zhuǎn)狀態(tài)信息;對于每個數(shù)據(jù)源,在至少一個后續(xù)時間間隔接收該數(shù)據(jù)源的第二狀態(tài)監(jiān)測時序數(shù)據(jù),所述第二狀態(tài)監(jiān)測時序數(shù)據(jù)中包括多個數(shù)據(jù)收集時刻信息,所述第一狀態(tài)監(jiān)測時序數(shù)據(jù)和所述第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻均為亂序;根據(jù)第二狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,更新所述初始翻轉(zhuǎn)狀態(tài)信息。
本發(fā)明實施例還提供一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置,包括:第一接收模塊,用于在初始時間間隔接收每個數(shù)據(jù)源的第一狀態(tài)監(jiān)測時序數(shù)據(jù),所述第一狀態(tài)監(jiān)測時序數(shù)據(jù)中包括多個數(shù)據(jù)收集時刻信息;第一檢測模塊,用于根據(jù)第一狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,獲得該數(shù)據(jù)源的初始數(shù)據(jù)翻轉(zhuǎn)狀態(tài)信息;第二接收模塊,用于對于每個數(shù)據(jù)源,在至少一個后續(xù)時間間隔接收該數(shù)據(jù)源的第二狀態(tài)監(jiān)測時序數(shù)據(jù),所述第二狀態(tài)監(jiān)測時序數(shù)據(jù)中包括多個數(shù)據(jù)收集時刻信息,所述第一狀態(tài)監(jiān)測時序數(shù)據(jù)和所述第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻均為亂序;第二檢測模塊,用于根據(jù)第二狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,更新所述初始翻轉(zhuǎn)狀態(tài)信息。
基于上述,本發(fā)明實施例提供的監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法及裝置,通過對實時獲取的當前時間間隔的狀態(tài)監(jiān)測時序數(shù)據(jù)的處理,可以先忽略當前時間間隔內(nèi)數(shù)據(jù)的完整性,從而實現(xiàn)在最快時間內(nèi)獲取設(shè)備發(fā)生狀態(tài)翻轉(zhuǎn)的大致信息。隨著后續(xù)傳輸過程中不斷補充該時間段(當前時間間隔)內(nèi)缺失的部分時序數(shù)據(jù),結(jié)合已經(jīng)獲取到的設(shè)備狀態(tài)翻轉(zhuǎn)的大致信息,再進一步補全以及精確設(shè)備的翻轉(zhuǎn)狀態(tài)信息。這樣大大提高了設(shè)備翻轉(zhuǎn)狀態(tài)信息獲取的實時性,而且可以節(jié)約等待數(shù)據(jù)段傳輸完整的時間開銷以及檢查該段數(shù)據(jù)是否傳輸完整并保證時間順序的功能開銷。
附圖說明
為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的監(jiān)測系統(tǒng)示意圖;
圖2為本發(fā)明實施例提供的一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法流程圖;
圖3為本發(fā)明實施例提供的另一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法流程圖;
圖4為本發(fā)明實施例中創(chuàng)建的一種數(shù)據(jù)塊示意圖;
圖5為本發(fā)明實施例中創(chuàng)建的另一種數(shù)據(jù)塊示意圖;
圖6為本發(fā)明實施例提供一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置示意圖;
圖7為本發(fā)明實施例提供另一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有付出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明的實施例可以用于各個行業(yè)當中的告警檢測、輿情監(jiān)控等過程中的告警信息分析提取。舉例來說,在地鐵日志分析系統(tǒng)中就需要實現(xiàn)同時對多個地鐵子系統(tǒng)各個設(shè)備的監(jiān)測分析。地鐵運行系統(tǒng)涉及多類子系統(tǒng)(如控制子系統(tǒng)、通信子系統(tǒng)、車輛子系統(tǒng)和軌道信號子系統(tǒng)等),每類子系統(tǒng)中又包含多個子系統(tǒng),而每個子系統(tǒng)中又可包含多個設(shè)備。地鐵日志分析系統(tǒng)需要同時處理針對不同設(shè)備的海量時序數(shù)據(jù),獲取各個設(shè)備的狀態(tài)變化及發(fā)生狀態(tài)變化的時間,從而可以通過分析各個設(shè)備的狀態(tài)翻轉(zhuǎn)信息找出設(shè)備存在的安全隱患及其可能的原因等系列問題。
其中,設(shè)備的狀態(tài)例如故障、正常、空閑、運行等等。而對于監(jiān)測設(shè)備的時序數(shù)據(jù)應(yīng)該是具有可比性的狀態(tài)記錄數(shù)據(jù)。例如某一時間段內(nèi)某一監(jiān)測 設(shè)備的狀態(tài)監(jiān)測數(shù)據(jù)為(t1,T)(t2,T)(t3,F(xiàn))(t4,T)(t5,T),其中,t1,t2,t3,t4,t5代表數(shù)據(jù)收集時刻,“T”代表正常狀態(tài),“F”代表故障狀態(tài)。那么就可以分析該數(shù)據(jù)得出該設(shè)備的狀態(tài)翻轉(zhuǎn)信息為:“翻轉(zhuǎn)時間t3,狀態(tài)值F”和“翻轉(zhuǎn)時間t4,狀態(tài)值T”,或者“t3時刻發(fā)生故障,t4時刻恢復(fù)正?!薄?/p>
并行處理(Parallel Processing)是計算機系統(tǒng)中能同時執(zhí)行兩個或更多個處理的一種計算方法,可以節(jié)省大型和復(fù)雜問題的解決時間。在谷歌(Google)提出云計算模型后,就不斷有開源的云計算架構(gòu)被開發(fā)出來,Hadoop就是其中最常用的一個,依托于Apache開源組織。Hadoop屏蔽了大量的云計算細節(jié)問題,用戶可以很方便的利用Hadoop開發(fā)出海量數(shù)據(jù)存儲和處理系統(tǒng)。Hadoop主要由兩部分組成:分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)和分布式并行計算框架(MapReduce),其中HDFS提供大文件的存儲能力,而MapReduce提供海量數(shù)據(jù)并行處理的編程接口。目前Hadoop己經(jīng)深入大數(shù)據(jù)處理的各個領(lǐng)域,實現(xiàn)了一個不規(guī)則數(shù)據(jù)的存儲和分析的高效平臺。
圖1為本發(fā)明提供的監(jiān)測系統(tǒng)示意圖,如圖1所示,可以通多無線傳感器網(wǎng)絡(luò)(Wireless Sensor Networks,簡稱WSN)監(jiān)測各個設(shè)備的狀態(tài)數(shù)據(jù),則WSN采集的狀態(tài)監(jiān)測數(shù)據(jù)形成設(shè)備的日志數(shù)據(jù)。并將多個設(shè)備的狀態(tài)監(jiān)測數(shù)據(jù)發(fā)送至Hadoop集群進行處理實現(xiàn)實時監(jiān)控與告警檢測。該系統(tǒng)的核心部分為Hadoop集群,由多臺服務(wù)器組成,用于完成監(jiān)測系統(tǒng)的數(shù)據(jù)存儲和數(shù)據(jù)處理。Hadoop集群獲取針對不同監(jiān)測對象(設(shè)備)的實時狀態(tài)記錄數(shù)據(jù)(日志數(shù)據(jù)),首先通過Map函數(shù)對海量的日志數(shù)據(jù)進行初始化處理,以對日志數(shù)據(jù)按照不同的數(shù)據(jù)來源,即根據(jù)不同的監(jiān)測對象進行歸類,獲取不同監(jiān)測對象的時序數(shù)據(jù)。對于每個監(jiān)測對象的時序數(shù)據(jù),再通過Reduce函數(shù)將時序數(shù)據(jù)分為多個數(shù)據(jù)塊,之后操作中都以每一個數(shù)據(jù)塊作為最小單位進行存儲和處理。也就是將分好的數(shù)據(jù)塊通過多個處理節(jié)點并行處理,獲取監(jiān)測對象的狀態(tài)翻轉(zhuǎn)信息。最后根據(jù)監(jiān)測設(shè)備的狀態(tài)翻轉(zhuǎn)信息生成告警信息發(fā)送給狀態(tài)顯示服務(wù)器,以供用戶隨時查看。
示例性的,本發(fā)明實施例提供的監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法主要用于并行 處理多個設(shè)備的日志數(shù)據(jù),進而實現(xiàn)系統(tǒng)告警檢測與監(jiān)控。
圖2為本發(fā)明實施例提供的一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法流程圖,該方法可以通過監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置來實現(xiàn),該數(shù)據(jù)處理可以通過軟件和/或硬件的方式來實現(xiàn)。如圖2所示,本實施例提供的監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法包括:
S21,在當前時間間隔接收每個數(shù)據(jù)源的第一狀態(tài)監(jiān)測時序數(shù)據(jù),所述第一狀態(tài)監(jiān)測時序數(shù)據(jù)中包括多個數(shù)據(jù)收集時刻信息;
S22,根據(jù)第一狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,獲得該數(shù)據(jù)源在當前時間間隔的初始翻轉(zhuǎn)狀態(tài)信息;
S23,對于每個數(shù)據(jù)源,在至少一個后續(xù)時間間隔接收該數(shù)據(jù)源的第二狀態(tài)監(jiān)測時序數(shù)據(jù),所述第二狀態(tài)監(jiān)測時序數(shù)據(jù)中包括多個數(shù)據(jù)收集時刻信息;
S24,根據(jù)第二狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,更新初始翻轉(zhuǎn)狀態(tài)信息。
在本實施例中,可以使用圖1所示的Hadoop集群實現(xiàn)數(shù)據(jù)的分布式并行處理,具體可以通過Hadoop中的MapReduce組件定時并行處理各個數(shù)據(jù)源的監(jiān)測數(shù)據(jù),通過Hadoop中的HDFS組件存儲原始監(jiān)測數(shù)據(jù)和數(shù)據(jù)處理結(jié)果。Hadoop需要不斷的接收WSN采集的設(shè)備的日志數(shù)據(jù),為了減小Hadoop和WSN的功耗和信令負載,可以預(yù)先設(shè)定固定的時間間隔,Hadoop可以定時存儲和處理在預(yù)設(shè)時間間隔WSN發(fā)送的設(shè)備的日志數(shù)據(jù)。
本實施例進一步的對監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法的各個步驟的具體實現(xiàn)方式做示例性說明,這些示例僅用于進一步解釋說明,而并非用來限制本發(fā)明。
示例性的,在第一時間間隔內(nèi)某一設(shè)備的狀態(tài)監(jiān)測時序數(shù)據(jù)為:(t0,T)(t1,T)(t2,T)(t3,T)(t4,T)(t5,T)(t6,T)(t7,T)(t8,F(xiàn))(t9,T)(t10,T)(t11,T)(t12,T)(t13,T)(t14,T)(t15,T)(t16,F(xiàn))(t17,F(xiàn))(t18,F(xiàn))(t19,T)(t20,F(xiàn))(t21,T)(t22,T)(t23,T)(t24,T)(t25,T)(t26,T)(t27,T)(t28,T),(t29,F(xiàn))(t30,T)。
可以理解的是,由于網(wǎng)絡(luò)時延等原因,通過WSN采集的設(shè)備的日志數(shù)據(jù)可能無法順序發(fā)送至Hadoop集群,導(dǎo)致Hadoop集群在第一時間間隔接收該設(shè)備的狀態(tài)監(jiān)測時序數(shù)據(jù)存在數(shù)據(jù)亂序和部分數(shù)據(jù)缺失的情況。
示例性的,Hadoop集群在第一時間間隔接收該設(shè)備的狀態(tài)監(jiān)測時序數(shù)據(jù)為:(t17,F(xiàn))(t3,T)(t4,T)(t5,T)(t0,T)(t10,T)(t7,T)(t8,F(xiàn))(t9,T)(t18,F(xiàn))(t19,T)(t11,T)(t12,T)(t13,T)(t25,T)(t14,T)(t16,F(xiàn))(t28,T)(t21,T)(t22,T)(t23,T)(t24,T)(t26,T)(t27,T)。
進一步的,可以先對狀態(tài)監(jiān)測時序數(shù)據(jù)進行排序,得到:(t0,T)(t3,T)(t4,T)(t5,T)(t7,T)(t8,F(xiàn))(t9,T)(t10,T)(t11,T)(t12,T)(t13,T)(t14,T)(t16,F(xiàn))(t17,F(xiàn))(t18,F(xiàn))(t19,T)(t21,T)(t22,T)(t23,T)(t24,T)(t25,T)(t26,T)(t27,T)(t28,T)。根據(jù)排序后的狀態(tài)監(jiān)測時序數(shù)據(jù)可以獲取該設(shè)備的初始翻轉(zhuǎn)狀態(tài)信息:“翻轉(zhuǎn)時間t8,狀態(tài)值F”、“翻轉(zhuǎn)時間t9,狀態(tài)值T”“翻轉(zhuǎn)時間t14~t16,狀態(tài)值F”、“翻轉(zhuǎn)時間t19,狀態(tài)值T”。
在第二時間間隔內(nèi)該設(shè)備的狀態(tài)監(jiān)測時序數(shù)據(jù)為:(t30,T)(t31,F(xiàn))(t32,T)(t33,T)(t34,F(xiàn))(t35,F(xiàn))(t36,F(xiàn))(t37,T)(t38,T)(t39,T)(t40,T)(t41,T)(t42,T)(t43,T)(t44,T)(t45,T)(t46,T)(t47,T)(t48,F(xiàn))(t49,F(xiàn))(t50,T)(t51,T)(t52,F(xiàn))(t53,T)(t54,T)(t55,T)(t56,T)(t57,T)(t58,T)(t59,T)(t60,T)。
Hadoop集群在第二時間間隔接收該設(shè)備的狀態(tài)監(jiān)測時序數(shù)據(jù)為:(t15,T)(t1,T)(t44,T)(t45,T)(t46,T)(t2,T)(t31,F(xiàn))(t32,T)(t36,F(xiàn))(t37,T)(t39,T)(t52,F(xiàn))(t53,T)(t30,T)(t40,T)(t41,T)(t42,T)(t43,T)(t47,T)(t48,F(xiàn))(t50,T)(t38,T)(t20,F(xiàn))(t51,T)(t54,T)(t56,T)(t57,T)(t60,T)。
顯然由于網(wǎng)絡(luò)延時所導(dǎo)致的第一時間間隔的部分缺失數(shù)據(jù)(t1,T)(t2,T)(t15,T)(t20,F(xiàn))(t30,T)會在第二時間間隔接收到,那么我們可以重新對該設(shè)備在第一時間間隔的狀態(tài)監(jiān)測時序數(shù)據(jù)進行排序,得到:(t0,T)(t1,T)(t2,T)(t3,T)(t4,T)(t5,T)(t7,T)(t8,F(xiàn))(t9,T)(t10,T)(t11,T)(t12,T)(t13,T)(t14,T)(t15,T)(t16,F(xiàn))(t17,F(xiàn))(t18,F(xiàn))(t19,T)(t20,F(xiàn))(t21,T)(t22,T)(t23,T)(t24,T)(t25,T)(t26,T)(t27,T)(t28,T)(t30,T)。
基于在第二時間間隔獲取的該設(shè)備的狀態(tài)監(jiān)測時序數(shù)據(jù)可以對該設(shè)備在第一時間間隔的初始翻轉(zhuǎn)狀態(tài)信息進行更新,更新后設(shè)備在第一時間間隔的翻轉(zhuǎn)狀態(tài)信息為:“翻轉(zhuǎn)時間t8,狀態(tài)值F”、“翻轉(zhuǎn)時間t9,狀態(tài)值T”、“翻轉(zhuǎn)時間t16,狀態(tài)值F”、“翻轉(zhuǎn)時間t19,狀態(tài)值T”、“翻轉(zhuǎn)時間t20,狀態(tài)值F”、“翻轉(zhuǎn)時間t21,狀態(tài)值T”。
同時可以對該設(shè)備在第二時間間隔的狀態(tài)監(jiān)測時序數(shù)據(jù)進行排序,得到:(t30,T)(t31,F(xiàn))(t32,T)(t33,T)(t37,T)(t38,T)(t39,T)(t40,T)(t41,T)(t42,T)(t43,T)(t44,T)(t45,T)(t46,T)(t47,T)(t48,F(xiàn))(t50,T)(t51,T)(t52,F(xiàn))(t53,T)(t54,T)(t56,T)(t57,T)(t60,T)。根據(jù)排序后的第二時間間隔的狀態(tài)監(jiān)測時序數(shù)據(jù)可以獲取該設(shè)備在第二時間間隔的初始翻轉(zhuǎn)狀態(tài)信息為:“翻轉(zhuǎn)時間t31,狀態(tài)值F”、“翻轉(zhuǎn)時間t32,狀態(tài)值T”、“翻轉(zhuǎn)時間t48,狀態(tài)值F”、“翻轉(zhuǎn)時間t48~t50,狀態(tài)值T”、“翻轉(zhuǎn)時間t52,狀態(tài)值F”、“翻轉(zhuǎn)時間t53,狀態(tài)值T”。
假設(shè)在第三時間間隔獲取到第一時間間隔的缺失數(shù)據(jù)(t6,T)(t29,T)、第二時間間隔的缺失數(shù)據(jù)(t34,F(xiàn))(t35,F(xiàn))(t36,F(xiàn))(t58,T)(t59,T),以及部分或全部的該設(shè)備在第三時間間隔內(nèi)的狀態(tài)監(jiān)測時序數(shù)據(jù),還可以進一步更新該設(shè)備在第一時間間隔的翻轉(zhuǎn)狀態(tài)信息和第二時間間隔的翻轉(zhuǎn)狀態(tài)信息。
可以理解的是,由于網(wǎng)絡(luò)時延存在很多不確定因素,第一時間間隔的缺失數(shù)據(jù)還有可能在第四或第五時間間隔甚至間隔更長的時間才能接收到,甚至可能丟失。所以要盡可能的降低網(wǎng)絡(luò)的傳輸時延,并提高網(wǎng)絡(luò)傳輸?shù)目煽啃浴?/p>
本實施例提供的監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法,通過對實時獲取的當前時間間隔的狀態(tài)監(jiān)測時序數(shù)據(jù)的處理,可以先忽略當前時間間隔內(nèi)數(shù)據(jù)的完整性,從而實現(xiàn)在最快時間內(nèi)獲取設(shè)備發(fā)生狀態(tài)翻轉(zhuǎn)的大致信息。隨著后續(xù)傳輸過程中不斷補充該時間段(當前時間間隔)內(nèi)缺失的部分時序數(shù)據(jù),結(jié)合已經(jīng)獲取到的設(shè)備狀態(tài)翻轉(zhuǎn)的大致信息,再進一步補全以及精確設(shè)備的翻轉(zhuǎn)狀態(tài)信息。這樣大大提高了設(shè)備翻轉(zhuǎn)狀態(tài)信息獲取的實時性,而且可以節(jié)約等待數(shù)據(jù)段傳輸完整的時間開銷以及檢查該段數(shù)據(jù)是否傳輸完整并保證時間順序 的功能開銷。
圖3為本發(fā)明實施例提供的另一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法流程圖,本實施例在圖2所示實施例的基礎(chǔ)上,在S21之后,還可以包括如下步驟:
S25,根據(jù)數(shù)據(jù)分塊規(guī)則創(chuàng)建數(shù)據(jù)塊,所述數(shù)據(jù)塊中包括多個按照數(shù)據(jù)收集時刻信息順序排列的存儲單元;
S26,根據(jù)第一狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻信息,將第一狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)存儲到數(shù)據(jù)塊的對應(yīng)存儲單元中。
進一步的,在S23之后,還可以包括如下步驟:
S27,根據(jù)第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻信息,將第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)存儲到數(shù)據(jù)塊的對應(yīng)存儲單元中。
通常,通過Hadoop中的MapReduce組件可以將待處理的數(shù)據(jù)均分為多個數(shù)據(jù)塊(data block)進行存儲和處理,從而提高數(shù)據(jù)處理的效率。本實施例可以繼續(xù)通過圖2所示實施例中的示例進行示意性說明。
示例性的,Hadoop集群在第一時間間隔接收該設(shè)備的狀態(tài)監(jiān)測時序數(shù)據(jù)為:(t17,F(xiàn))(t3,T)(t4,T)(t5,T)(t0,T)(t10,T)(t7,T)(t8,F(xiàn))(t9,T)(t18,F(xiàn))(t19,T)(t11,T)(t12,T)(t13,T)(t25,T)(t14,T)(t16,F(xiàn))(t28,T)(t21,T)(t22,T)(t23,T)(t24,T)(t26,T)(t27,T)。一共24個數(shù)據(jù),將這24個數(shù)據(jù)放在一個處理節(jié)點進行處理,如進行排序和狀態(tài)對比,可能需要較長的時間。為了提高數(shù)據(jù)處理的效率,在Hadoop中可以通過MapReduce組件將這24個數(shù)據(jù)分為多個較小的數(shù)據(jù)塊進行存儲和處理??梢灶A(yù)先設(shè)定分塊的數(shù)量,例如可以將上述的24個數(shù)據(jù)分為以下3塊進行存儲和處理:block1{(t0,T)(t3,T)(t4,T)(t5,T)(t7,T)(t8,F(xiàn))(t9,T)(t10,T)}、block2{(t11,T)(t12,T)(t13,T)(t14,T)(t16,F(xiàn))(t17,F(xiàn))(t18,F(xiàn))(t19,T)}和block3{(t21,T)(t22,T)(t23,T)(t24,T)(t25,T)(t26,T)(t27,T)(t28,T)}。顯然,在進行數(shù)據(jù)分塊的過程中就可以實現(xiàn)數(shù)據(jù)排序,從24個數(shù)據(jù)中提取翻轉(zhuǎn)狀態(tài)信息時,相鄰時間點的數(shù)據(jù)需要對比23次,而從8個數(shù)據(jù)中提取翻轉(zhuǎn)狀態(tài)信息時,相鄰時間點的數(shù)據(jù)只需要對比7次,而且可以通過多個處理節(jié)點并行處理,可以大大提高數(shù)據(jù)處理效率。
值得一提的是,在創(chuàng)建數(shù)據(jù)塊時,還可以為本次時間間隔缺失的數(shù)據(jù)預(yù)留存儲空間。同時為了避免因數(shù)據(jù)分塊導(dǎo)致的數(shù)據(jù)拆分點之間的翻轉(zhuǎn)狀態(tài)信息沒有提取出來,例如t10和t11之間如果存在翻轉(zhuǎn)狀態(tài)信息,就會因數(shù)據(jù)分塊使得該翻轉(zhuǎn)狀態(tài)信息沒有被提取出來。在本實施例中,可以將作為數(shù)據(jù)拆分點的時序數(shù)據(jù)在相鄰兩個數(shù)據(jù)塊均進行存儲。具體可以通過上述示例和圖4做示例性說明。
圖4為本發(fā)明實施例中創(chuàng)建的一種數(shù)據(jù)塊示意圖,如圖4所示,在第一時間間隔ΔT1接收該設(shè)備的第一狀態(tài)監(jiān)測時序數(shù)據(jù)之后,可以創(chuàng)建數(shù)據(jù)塊B41、B42、B43。在第二時間間隔ΔT2接收該設(shè)備在第一時間間隔的部分缺失狀態(tài)監(jiān)測時序數(shù)據(jù)后,將缺失的數(shù)據(jù)按照數(shù)據(jù)收集時刻信息存儲到B41、B42、B43中的對應(yīng)存儲單元中。同時可以根據(jù)接收到的該設(shè)備在第二時間間隔ΔT2的狀態(tài)監(jiān)測時序數(shù)據(jù)可以創(chuàng)建數(shù)據(jù)塊B44、B45、B46。
根據(jù)圖4可以看出,可能存在作為數(shù)據(jù)塊拆分點的狀態(tài)監(jiān)測時序數(shù)據(jù)在當前時間間隔沒有接收到,如(t20,T)。作為本實施例一種優(yōu)選的實施方式,可以根據(jù)在當前間隔接收到的第一狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻信息確定數(shù)據(jù)分塊規(guī)則,并根據(jù)數(shù)據(jù)分塊規(guī)則來創(chuàng)建數(shù)據(jù)塊。具體可以通過上述示例和圖5做示例性說明。
圖5為本發(fā)明實施例中創(chuàng)建的另一種數(shù)據(jù)塊示意圖,如圖5所示,假設(shè)預(yù)先設(shè)定的分塊數(shù)量依然為3塊。根據(jù)預(yù)先設(shè)定的分塊數(shù)量可以確定初始的數(shù)據(jù)拆分點為(t10,T)和(t20,T),然后可以根據(jù)接收到的該設(shè)備在第一時間間隔ΔT1的狀態(tài)監(jiān)測時序數(shù)據(jù)確定是否包括(t10,T)和(t20,T)。如果包括則確定數(shù)據(jù)分塊規(guī)則為[t0,t10]、[t10,t20]、[t20,t30];如果不包括則選擇數(shù)據(jù)收集時刻信息距離初始數(shù)據(jù)拆分點的數(shù)據(jù)收集時刻信息最近的時序數(shù)據(jù)作為拆分點,以此確定數(shù)據(jù)分塊規(guī)則為[t0,t10]、[t10,t19]、[t19,t30],相應(yīng)的可以創(chuàng)建數(shù)據(jù)塊B51、B52、B53。可以理解的是,還可以確定數(shù)據(jù)分塊規(guī)則為[t0,t10]、[t10,t21]、[t21,t30],也就是距離初始數(shù)據(jù)拆分點的數(shù)據(jù)收集時刻信息最近的時序數(shù)據(jù)不唯一時,可以隨機選取其中之一作為拆分點。同樣的道理,可以根據(jù)接收到的該設(shè)備在第二時間間隔ΔT2的狀態(tài)監(jiān)測時序數(shù)據(jù)可以創(chuàng)建數(shù)據(jù)塊B54、B55、B56。
基于上述的數(shù)據(jù)分塊,在本實施例中,可以以每一個數(shù)據(jù)塊作為最小單位進行存儲和處理。
具體的,在第一時間間隔ΔT1可以分別對數(shù)據(jù)塊B41、B42、B43依次判斷其存儲入數(shù)據(jù)的相鄰存儲單元的數(shù)據(jù)翻轉(zhuǎn)狀態(tài),獲得第一時間間隔ΔT1的初始狀態(tài)翻轉(zhuǎn)信息為:“翻轉(zhuǎn)時間t8,狀態(tài)值F”、“翻轉(zhuǎn)時間t9,狀態(tài)值T”“翻轉(zhuǎn)時間t14~t16,狀態(tài)值F”、“翻轉(zhuǎn)時間t19,狀態(tài)值T”。
在第二時間間隔ΔT2接收該設(shè)備在第一時間間隔的部分缺失狀態(tài)監(jiān)測時序數(shù)據(jù)后,將缺失的數(shù)據(jù)按照數(shù)據(jù)收集時刻信息存儲到B41、B42、B43中的對應(yīng)存儲單元中,再分別依次判斷數(shù)據(jù)塊中存儲入數(shù)據(jù)的相鄰存儲單元的數(shù)據(jù)翻轉(zhuǎn)狀態(tài),可以更新該設(shè)備在第一時間間隔的翻轉(zhuǎn)狀態(tài)信息為:“翻轉(zhuǎn)時間t8,狀態(tài)值F”、“翻轉(zhuǎn)時間t9,狀態(tài)值T”、“翻轉(zhuǎn)時間t16,狀態(tài)值F”、“翻轉(zhuǎn)時間t19,狀態(tài)值T”、“翻轉(zhuǎn)時間t20,狀態(tài)值F”、“翻轉(zhuǎn)時間t21,狀態(tài)值T”。
同樣的,在第二時間間隔ΔT2還可以分別依次判斷數(shù)據(jù)塊B51、B52、B53中存儲入數(shù)據(jù)的相鄰存儲單元的數(shù)據(jù)翻轉(zhuǎn)狀態(tài),獲得第二時間間隔ΔT2的初始狀態(tài)翻轉(zhuǎn)信息為:“翻轉(zhuǎn)時間t31,狀態(tài)值F”、“翻轉(zhuǎn)時間t32,狀態(tài)值T”、“翻轉(zhuǎn)時間t48,狀態(tài)值F”、“翻轉(zhuǎn)時間t48~t50,狀態(tài)值T”、“翻轉(zhuǎn)時間t52,狀態(tài)值F”、“翻轉(zhuǎn)時間t53,狀態(tài)值T”。
進一步的,隨著后續(xù)的時間間隔不斷補充該當前時間間隔內(nèi)缺失的部分時序數(shù)據(jù),結(jié)合已經(jīng)獲取到的設(shè)備狀態(tài)翻轉(zhuǎn)的大致信息,再進一步補全以及精確設(shè)備的翻轉(zhuǎn)狀態(tài)信息。
本實施例提供的監(jiān)測系統(tǒng)的數(shù)據(jù)處理方法,在圖2所示實施例的基礎(chǔ)上,進一步的,將一個較大的時序數(shù)據(jù)塊分為多個較小的數(shù)據(jù)塊,并分發(fā)到多個處理節(jié)點進行并行處理,可以大大提高數(shù)據(jù)的處理效率。
圖6為本發(fā)明實施例提供一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置示意圖,可以用來實現(xiàn)本發(fā)明圖2所示實施例提供的數(shù)據(jù)處理方法。如圖6所示,本實施例提供的數(shù)據(jù)處理裝置包括:第一接收模塊R1、第一檢測模塊D1、第二接收模塊R2和第二檢測模塊D2。其中,第一接收模塊R1可以用于在當前時間間隔接收每個數(shù)據(jù)源的第一狀態(tài)監(jiān)測時序數(shù)據(jù),該第一狀態(tài)監(jiān)測時序數(shù)據(jù)中 包括多個數(shù)據(jù)收集時刻信息。第一檢測模塊D1可以用于根據(jù)第一狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,獲得該數(shù)據(jù)源在當前時間間隔的初始翻轉(zhuǎn)狀態(tài)信息。第二接收模塊R2可以用于:對于每個數(shù)據(jù)源,在至少一個后續(xù)時間間隔接收該數(shù)據(jù)源的第二狀態(tài)監(jiān)測時序數(shù)據(jù),該第二狀態(tài)監(jiān)測時序數(shù)據(jù)中包括多個數(shù)據(jù)收集時刻信息。其中第一狀態(tài)監(jiān)測時序數(shù)據(jù)和第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻均屬于當前時間間隔。第二檢測模塊D2可以用于根據(jù)第二狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息,更新初始翻轉(zhuǎn)狀態(tài)信息。
本實施例提供的監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置,可以用來實現(xiàn)本發(fā)明圖2所示實施例提供的數(shù)據(jù)處理方法,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
圖7為本發(fā)明實施例提供另一種監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置示意圖,可以用來實現(xiàn)本發(fā)明圖2和圖3所示實施例提供的數(shù)據(jù)處理方法。如圖7所示,本實施例在圖6所示實施例的基礎(chǔ)上,還可以包括:數(shù)據(jù)分塊模塊P和數(shù)據(jù)存儲模塊M。其中,數(shù)據(jù)分塊模塊P可以用于根據(jù)數(shù)據(jù)分塊規(guī)則創(chuàng)建數(shù)據(jù)塊,該數(shù)據(jù)塊中包括多個按照數(shù)據(jù)收集時刻信息順序排列的存儲單元。值得一提的是,數(shù)據(jù)分塊規(guī)則可以根據(jù)第一狀態(tài)監(jiān)測時序數(shù)據(jù)的數(shù)據(jù)收集時刻信息確定。數(shù)據(jù)存儲模塊M可以用于根據(jù)第一狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻信息,將第一狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)存儲到數(shù)據(jù)塊的對應(yīng)存儲單元中。
進一步的,在本實施例中,數(shù)據(jù)存儲模塊M還可以用于根據(jù)第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)收集時刻信息,將第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)存儲到數(shù)據(jù)塊的對應(yīng)存儲單元中。
進一步的,在本實施例中,第一檢測模塊D1具體可以用于:將第一狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)存儲到數(shù)據(jù)塊的對應(yīng)存儲單元后,依次判斷數(shù)據(jù)塊中存儲入數(shù)據(jù)的相鄰存儲單元的數(shù)據(jù)翻轉(zhuǎn)狀態(tài),獲得所述初始翻轉(zhuǎn)狀態(tài)信息。第二檢測模塊D2具體可以用于:將第二狀態(tài)監(jiān)測時序數(shù)據(jù)中的數(shù)據(jù)存儲到數(shù)據(jù)塊的對應(yīng)存儲單元后,依次判斷數(shù)據(jù)塊中存儲入數(shù)據(jù)的相鄰存儲單元的數(shù)據(jù)翻轉(zhuǎn)狀態(tài),更新初始翻轉(zhuǎn)狀態(tài)信息。
本實施例提供的監(jiān)測系統(tǒng)的數(shù)據(jù)處理裝置,可以用來實現(xiàn)本發(fā)明圖2或圖3所示實施例提供的數(shù)據(jù)處理方法,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。