配用電數(shù)據(jù)融合方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種配用電數(shù)據(jù)融合方法和系統(tǒng),上述配用電數(shù)據(jù)融合方法,包括如下步驟:從智能配用電網(wǎng)抽取配用電數(shù)據(jù),并將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng);將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式;獲取格式轉(zhuǎn)換后的配用電數(shù)據(jù)的類別字段,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并;獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型;其可以實(shí)現(xiàn)上述配用電數(shù)據(jù)的融合,使融合后的數(shù)據(jù)具有統(tǒng)一的格式,以及同類型的關(guān)鍵字,有利于提高融合后數(shù)據(jù)的可靠性和魯棒性。
【專利說(shuō)明】
配用電數(shù)據(jù)融合方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及電力系統(tǒng)技術(shù)領(lǐng)域,特別是涉及一種配用電數(shù)據(jù)融合方法和系統(tǒng)。
【背景技術(shù)】
[0002]在信息化時(shí)代,信息流所承載“數(shù)據(jù)”的能量已成為驅(qū)動(dòng)技術(shù)能力創(chuàng)新、管理模式變革、社會(huì)價(jià)值提升的重要力量。聚焦于5個(gè)關(guān)鍵特征(大量Volume、高速Velocity、多樣Variety、真實(shí)Veracity、價(jià)值VaIue),“大數(shù)據(jù)”概念一經(jīng)提出就獲得了巨大的發(fā)展,已經(jīng)在互聯(lián)網(wǎng)、電子商務(wù)、醫(yī)藥、廣告等領(lǐng)域獲得廣泛應(yīng)用,取得極其顯著的成效和價(jià)值。在智能配用電領(lǐng)域,目前超億支智能電表如果都以每15分鐘一次等頻率值發(fā)回?cái)?shù)據(jù),每天產(chǎn)生的數(shù)據(jù)總量就可達(dá)到幾十PB(拍字節(jié)),超過(guò)諸多大型電子商務(wù)企業(yè)的數(shù)據(jù)存量。智能電網(wǎng)與電力市場(chǎng)都迫切需要通過(guò)海量配用電數(shù)據(jù)價(jià)值發(fā)掘,實(shí)現(xiàn)用戶深度參與用電互動(dòng)與價(jià)格響應(yīng)。
[0003]數(shù)據(jù)集成是數(shù)據(jù)融合的初級(jí)階段,該階段需要解決的基礎(chǔ)問(wèn)題是配用電大數(shù)據(jù)集成融合關(guān)鍵技術(shù)問(wèn)題是數(shù)據(jù)抽取問(wèn)題。配用電網(wǎng)中存在大量的電數(shù)據(jù)和非電數(shù)據(jù),結(jié)構(gòu)經(jīng)常是不規(guī)則的,并且是動(dòng)態(tài)變化的。針對(duì)配用電大數(shù)據(jù)中的系統(tǒng)異構(gòu)、語(yǔ)法異構(gòu)、語(yǔ)義異構(gòu)問(wèn)題,采用基于XML(可擴(kuò)展標(biāo)記語(yǔ)言)和本體的異構(gòu)數(shù)據(jù)集成方法。對(duì)于系統(tǒng)及語(yǔ)法異構(gòu)這兩類問(wèn)題,利用中間件的優(yōu)勢(shì)將底層數(shù)據(jù)進(jìn)行打包,以形成對(duì)外的統(tǒng)一接口,從而達(dá)到用戶操作一致性的目的。而對(duì)于語(yǔ)義異構(gòu)的問(wèn)題,需要采用本體的技術(shù)構(gòu)建相應(yīng)的語(yǔ)義模型,從而形成對(duì)同一概念的不同表達(dá)形式進(jìn)行歸一的基本方法。海量的異構(gòu)數(shù)據(jù)在集成后仍然不可避免地存在實(shí)例級(jí)的信息沖突、冗余等現(xiàn)象。融合是數(shù)據(jù)集成的高級(jí)階段,融合階段區(qū)別于數(shù)據(jù)集成的重要特征在于通過(guò)數(shù)據(jù)整合、清理,產(chǎn)生新的知識(shí)。融合層的輸入來(lái)自于數(shù)據(jù)集成層返回的結(jié)果,運(yùn)用領(lǐng)域知識(shí)和融合規(guī)則對(duì)數(shù)據(jù)集成的結(jié)果信息進(jìn)行分析、清理、整合并得到融合結(jié)果。
[0004]在智能配用電網(wǎng)中,傳統(tǒng)的數(shù)據(jù)融合方案一般將其中各種格式互異的配用電數(shù)據(jù)存儲(chǔ)至同一個(gè)存儲(chǔ)空間,以實(shí)現(xiàn)上述多種配用電數(shù)據(jù)的融合,然而,上述融合后的配用電數(shù)據(jù)格式差異較大,容易影響對(duì)其進(jìn)行保存或者相關(guān)采用的可靠性。
【發(fā)明內(nèi)容】
[0005]基于此,有必要針對(duì)傳統(tǒng)方案容易影響融合后的配用電數(shù)據(jù)可靠性的技術(shù)問(wèn)題,提供一種配用電數(shù)據(jù)融合方法和系統(tǒng)。
[0006]—種配用電數(shù)據(jù)融合方法,包括如下步驟:
[0007]從智能配用電網(wǎng)抽取配用電數(shù)據(jù),并將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng);
[0008]將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式;
[0009]獲取格式轉(zhuǎn)換后的配用電數(shù)據(jù)的類別字段,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并;
[0010]獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型。[0011 ] 一種配用電數(shù)據(jù)融合系統(tǒng),包括:
[0012]抽取模塊,用于從智能配用電網(wǎng)抽取配用電數(shù)據(jù),并將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng);
[0013]轉(zhuǎn)換模塊,用于將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式;
[0014]歸并模塊,用于獲取格式轉(zhuǎn)換后的配用電數(shù)據(jù)的類別字段,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并;
[0015]整合模塊,用于獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型。
[0016]上述配用電數(shù)據(jù)融合方法和系統(tǒng),從智能配用電網(wǎng)抽取待融合的配用電數(shù)據(jù)后,將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng),并進(jìn)行相應(yīng)的格式轉(zhuǎn)換,將格式轉(zhuǎn)換后,類別字段相同的配用電數(shù)據(jù)進(jìn)行合并,不同類別的配用電數(shù)據(jù)整合為關(guān)鍵字類型相同的配用電數(shù)據(jù),從而實(shí)現(xiàn)上述配用電數(shù)據(jù)的融合,使融合后的數(shù)據(jù)具有統(tǒng)一的格式,以及同類型的關(guān)鍵字,有利于提高融合后數(shù)據(jù)的可靠性和魯棒性。
【附圖說(shuō)明】
[0017]圖1為一個(gè)實(shí)施例的配用電數(shù)據(jù)融合方法流程圖;
[0018]圖2為一個(gè)實(shí)施例的Sqoop結(jié)構(gòu)不意圖;
[0019]圖3為一個(gè)實(shí)施例的FlumeNG結(jié)構(gòu)示意圖;
[0020]圖4為一個(gè)實(shí)施例的配用電數(shù)據(jù)融合方法流程圖;
[0021]圖5為一個(gè)實(shí)施例的配用電數(shù)據(jù)融合系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖對(duì)本發(fā)明的配用電數(shù)據(jù)融合方法和系統(tǒng)的【具體實(shí)施方式】作詳細(xì)描述。
[0023]參考圖1,圖1所示為一個(gè)實(shí)施例的配用電數(shù)據(jù)融合方法流程圖,包括如下步驟:
[0024]S10,從智能配用電網(wǎng)抽取配用電數(shù)據(jù),并將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng);
[0025]上述配用電數(shù)據(jù)為智能配用電網(wǎng)中的配電數(shù)據(jù)和用電數(shù)據(jù)等,其可以從智能配用電網(wǎng)的相關(guān)數(shù)據(jù)庫(kù)中獲取,通??梢园ńY(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。上述結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)具有不同的來(lái)源、結(jié)構(gòu)和格式,對(duì)其進(jìn)行融合,可以對(duì)上述不同來(lái)源、結(jié)構(gòu)和格式的配用電數(shù)據(jù)進(jìn)行統(tǒng)一管理,有效提高了配用電數(shù)據(jù)的穩(wěn)定性。可以根據(jù)配用電數(shù)據(jù)的類型利用不同的抽取工具對(duì)各個(gè)類型的配用電數(shù)據(jù)進(jìn)行抽取。
[0026]將提取的配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng),可以利用分布式系統(tǒng)的轉(zhuǎn)換、存儲(chǔ)等工具對(duì)配用電數(shù)據(jù)進(jìn)行相應(yīng)的處理,有利于保證上述配用電數(shù)據(jù)在轉(zhuǎn)換過(guò)程等處理中的穩(wěn)定性。
[0027]在一個(gè)實(shí)施例中,上述配用電數(shù)據(jù)可以包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
[0028]上述結(jié)構(gòu)化數(shù)據(jù)可以包括存儲(chǔ)在智能配用電網(wǎng)各個(gè)數(shù)據(jù)庫(kù)中的配用電信息、設(shè)備信息、資產(chǎn)數(shù)據(jù)等等。上述半結(jié)構(gòu)化數(shù)據(jù)可以包括智能配用電網(wǎng)的知識(shí)庫(kù)中的各種材料文檔,上述材料文檔的格式可以包括word格式、pdf格式、以及經(jīng)過(guò)結(jié)構(gòu)化處理后的服務(wù)熱線錄音文件對(duì)應(yīng)的文本文檔格式等等。上述非結(jié)構(gòu)化數(shù)據(jù)可以包括各類監(jiān)控視頻和尚未進(jìn)行過(guò)結(jié)構(gòu)化處理的服務(wù)熱線錄音等。
[0029]上述半結(jié)構(gòu)化數(shù)據(jù)的抽取可以采用LogStash等方法,上述LogStash為一款日志工具。上述結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)可以以Hbase(分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù))方法進(jìn)行相應(yīng)的存儲(chǔ),非結(jié)構(gòu)化數(shù)據(jù)可是利用HDFS方法直接存儲(chǔ)。
[0030]在一個(gè)實(shí)施例中,上述抽取配用電數(shù)據(jù)的過(guò)程可以包括:
[0031 ]采用Sqoop方法抽取結(jié)構(gòu)化數(shù)據(jù);
[0032]采用FlumeNG方法抽取半結(jié)構(gòu)化數(shù)據(jù);
[0033]采用Kettle方法抽取非結(jié)構(gòu)化數(shù)據(jù)。
[0034]上述Sqoop為數(shù)據(jù)庫(kù)之間的傳遞工具,通過(guò)上述Sqoop方法可以將配用電網(wǎng)中的結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入至相應(yīng)的數(shù)據(jù)庫(kù)后,進(jìn)行相關(guān)提取。
[0035]上述FlumeNG可以將不同數(shù)據(jù)源的海量日志數(shù)據(jù)進(jìn)行高效收集、聚合、移動(dòng),最后存儲(chǔ)到分布式系統(tǒng)的中心化數(shù)據(jù)存儲(chǔ)系統(tǒng)中。
[0036]上述Kettle方法可以提取和管理來(lái)自不同數(shù)據(jù)庫(kù)的非結(jié)構(gòu)化數(shù)據(jù)。
[0037]作為一個(gè)實(shí)施例,上述采用Sqoop方法抽取結(jié)構(gòu)化數(shù)據(jù)的步驟可以包括:
[0038]讀取結(jié)構(gòu)化數(shù)據(jù)的表結(jié)構(gòu),根據(jù)所述表結(jié)構(gòu)生成Sqoop運(yùn)行類,將所述Sqoop運(yùn)行類打包,得到j(luò)ar包(可執(zhí)行的文件包),將所述jar包提交給Hadoop (可構(gòu)建數(shù)據(jù)倉(cāng)庫(kù));
[0039]執(zhí)行mapreduce任務(wù)的mapper類型和執(zhí)行mapreduce的并行任務(wù)數(shù);上述mapreduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算;
[°04°]由Hadoop執(zhí)行mapreduce任務(wù),對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行切分,記錄切分范圍,倉(cāng)1J建RecordReader并從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù),倉(cāng)Il建Map任務(wù)并以逐行讀取的方式從結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù)中抽取結(jié)構(gòu)化數(shù)據(jù)。
[0041]上述采用Sqoop方法抽取結(jié)構(gòu)化數(shù)據(jù)的過(guò)程中,還可以設(shè)置保存上述結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)的輸入格式和輸出格式,以保證在結(jié)構(gòu)化數(shù)據(jù)讀取過(guò)程中相應(yīng)數(shù)據(jù)庫(kù)數(shù)據(jù)輸入或者輸出的順利性。Sqoop的結(jié)構(gòu)可以如圖2所示,其是一款開(kāi)源的工具,主要用于在Hadoop(!1;^6)與傳統(tǒng)的數(shù)據(jù)庫(kù)(1117891408丨8代891等)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如:MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。Sqoop主要通過(guò)JDBC和關(guān)系型數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)交互,因此只要支持JDBC的數(shù)據(jù)庫(kù),都可以通過(guò)Sqoop對(duì)其進(jìn)行數(shù)據(jù)提取等交互操作。對(duì)于其他的數(shù)據(jù)庫(kù),也可以通過(guò)增加JDBC驅(qū)動(dòng)或者增加中間接口的方式,使其支持與Sqoop進(jìn)行數(shù)據(jù)交互。Sqoop的使用方式較為簡(jiǎn)潔,其內(nèi)部整合了Hive、Hbase和Oozie,支持通過(guò)map-reduce的方式來(lái)傳輸數(shù)據(jù),從而提供并發(fā)特性和容錯(cuò)特性,能夠良好地實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的抽取過(guò)程。
[0042]在一個(gè)實(shí)施例中,上述采用FlumeNG方法抽取半結(jié)構(gòu)化數(shù)據(jù)的步驟包括:
[0043]通過(guò)Flume NG的Source組件將抽取事件發(fā)送到ChanneI組件,并傳遞給Sink組件;
[0044]Sink組件采集半結(jié)構(gòu)化數(shù)據(jù),并將所述半結(jié)構(gòu)化數(shù)據(jù)發(fā)送至HDFS (Hadoop分布式文件系統(tǒng))集群上。
[0045]本實(shí)施例中,用FlumeNG方法實(shí)現(xiàn)針對(duì)半結(jié)構(gòu)化數(shù)據(jù)的抽取過(guò)程中可以采取多個(gè)Agent(能自主活動(dòng)的軟件或者硬件實(shí)體)寫(xiě)HDFS的方法,分別為各個(gè)Agent設(shè)置輸入的數(shù)據(jù)來(lái)源端。本實(shí)施例采用Flume NG方法抽取半結(jié)構(gòu)化數(shù)據(jù),可以提高半結(jié)構(gòu)化數(shù)據(jù)的抽取效率。
[0046]上述Flume NG的結(jié)構(gòu)可以如圖3所示,其是Cloudera提供的一個(gè)分布式、可靠、可用的系統(tǒng),它可以將不同數(shù)據(jù)源的海量半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效收集、聚合、移動(dòng),最后存儲(chǔ)到一個(gè)中心化數(shù)據(jù)存儲(chǔ)系統(tǒng)中,特別適用于各種日志、文本類的半結(jié)構(gòu)化數(shù)據(jù)的抽取工作。
[0047]Flume NG的架構(gòu)主要有以下幾個(gè)核心概念:
[0048]Event: 一個(gè)數(shù)據(jù)單元,帶有一個(gè)可選的消息頭;
[0049]Flow:Event從源點(diǎn)到達(dá)目的點(diǎn)的迀移的抽象;
[°°50] Client:操作位于源點(diǎn)處的Event,將其發(fā)送到Flume Agent;
[0051 ] Agent: 一個(gè)獨(dú)立的Flume 進(jìn)程,包含組件 Source、Channe 1、Sink;
[0052]Source:用來(lái)消費(fèi)傳遞到該組件的Event ;
[0053]Channel:中轉(zhuǎn)Event的一個(gè)臨時(shí)存儲(chǔ),保存有Source組件傳遞過(guò)來(lái)的Event;
[0054]Sink:從ChanneI中讀取并移除Event,將Event傳遞到Flow Pipeline中的下一個(gè)Agent;
[0055]外部系統(tǒng)產(chǎn)生半結(jié)構(gòu)化數(shù)據(jù),直接通過(guò)Flume的Agent的Source組件將事件(如日志行)發(fā)送到中間臨時(shí)的Channel組件,最后傳遞給Sink組件,Sink組件可以直接把數(shù)據(jù)存儲(chǔ)到HDFS集群上。
[0056]在一個(gè)實(shí)施例中,上述采用Kettle方法抽取非結(jié)構(gòu)化數(shù)據(jù)的步驟可以包括:
[0057]創(chuàng)建HTTP文件;
[0058]利用所述HTTP文件將非結(jié)構(gòu)化數(shù)據(jù)寫(xiě)入HDFS。
[0059]上述Kett Ie是一款開(kāi)源的ETL(數(shù)據(jù)倉(cāng)庫(kù)技術(shù))工具,可以在Window、Linux、Unix等操作系統(tǒng)上運(yùn)行,數(shù)據(jù)抽取高效穩(wěn)定。其設(shè)計(jì)目的是將各種數(shù)據(jù)放到一起,然后以一種用戶所希望的格式輸出,可以適用于各種結(jié)構(gòu)化數(shù)據(jù)的抽取,也支持針對(duì)各類非結(jié)構(gòu)化數(shù)據(jù)的抽取工作。Kettle允許管理來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),通過(guò)提供一個(gè)圖形化的用戶環(huán)境來(lái)描述用戶的具體需求。Kett Ie中支持兩種腳本文件,轉(zhuǎn)換(transformat 1n)和工作(job),transformat1n完成針對(duì)數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job則完成整個(gè)工作流的控制。Kettle可以執(zhí)行如下的操作系統(tǒng)命令和操作= Ping主機(jī)、寫(xiě)日志、發(fā)送郵件、從POP Server獲取郵件并保存在本地、比較文件夾、文件、創(chuàng)建、復(fù)制、移動(dòng)、刪除、壓縮文件、從HTTP獲取或者上傳文件、操作延遲等待。上述非結(jié)構(gòu)化數(shù)據(jù)的抽取工作時(shí),可以利用Kettle獲取文件和移動(dòng)創(chuàng)建的功能,從而實(shí)現(xiàn)將非結(jié)構(gòu)化數(shù)據(jù)寫(xiě)入HDFS。
[0060]在一個(gè)實(shí)施例中,上述將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng)的步驟可以包括:
[0061 ]利用Hbase方法將所述結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng);
[0062]利用HDFS方法將所述非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng)。
[0063]本實(shí)施例可以保證各類型的配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng)的有序性。
[0064]S20,將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式;
[0065]上述步驟可以采用基于選擇、分離、合并、轉(zhuǎn)化或者匯總等數(shù)據(jù)轉(zhuǎn)換方式對(duì)配用電數(shù)據(jù)進(jìn)行相應(yīng)的格式轉(zhuǎn)換。上述設(shè)定格式可以為分布式系統(tǒng)容易識(shí)別的數(shù)據(jù)格式,比如,文本格式、SequenceFi Ie或者AvroDataFi Ie等格式。上述格式轉(zhuǎn)換后的配用電數(shù)據(jù)可以包括配用電信息以及表征數(shù)據(jù)類別的類別字段,利用上述類別字段,可以實(shí)現(xiàn)配用電數(shù)據(jù)的分類。
[0066]在一個(gè)實(shí)施例中,將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式的步驟可以包括:
[0067]將所述配用電數(shù)據(jù)植入分布式系統(tǒng)內(nèi)嵌的SQL語(yǔ)句;
[0068]將所述SQL語(yǔ)句的格式轉(zhuǎn)換為設(shè)定格式;
[0069]從轉(zhuǎn)換后的SQL語(yǔ)句中提取配用電數(shù)據(jù)。
[0070]本實(shí)施例將配用電數(shù)據(jù)植入分布式系統(tǒng)內(nèi)嵌的SQL語(yǔ)句,以實(shí)現(xiàn)相應(yīng)的格式轉(zhuǎn)換,可以保證配用電數(shù)據(jù)在格式轉(zhuǎn)換過(guò)程中的穩(wěn)定性。
[0071]S30,獲取格式轉(zhuǎn)換后的配用電數(shù)據(jù)的類別字段,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并;
[0072]上述類別字段為表征配用電數(shù)據(jù)類別的字段,其為格式轉(zhuǎn)換后的配用電數(shù)據(jù)的組成部分,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并,即將類別相同的配用電數(shù)據(jù)歸并至同一個(gè)存儲(chǔ)單元,使上述同類別配用電數(shù)據(jù)可以通過(guò)同一個(gè)入口進(jìn)行相應(yīng)的查詢或者利用。
[0073]S40,獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型。
[0074]將不同類別配用電數(shù)據(jù)的關(guān)鍵字類型轉(zhuǎn)換為設(shè)定類型,使上述配用電數(shù)據(jù)融合為同類關(guān)鍵字?jǐn)?shù)據(jù)。上述同類關(guān)鍵字?jǐn)?shù)據(jù)為關(guān)鍵字類型相同的數(shù)據(jù);將不同類別的配用電數(shù)據(jù)整合為同類關(guān)鍵字?jǐn)?shù)據(jù),可以實(shí)現(xiàn)相應(yīng)配用電數(shù)據(jù)的融合,使融合后的配用電數(shù)據(jù)具有相同或者相近的數(shù)據(jù)格式、以及類型一致的關(guān)鍵字,使其具備較高的穩(wěn)定性和魯棒性,易于被查詢或者相應(yīng)的獲取。
[0075]本發(fā)明提供的配用電數(shù)據(jù)融合方法,從智能配用電網(wǎng)抽取待融合的配用電數(shù)據(jù)后,將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng),并進(jìn)行相應(yīng)的格式轉(zhuǎn)換,將格式轉(zhuǎn)換后,類別字段相同的配用電數(shù)據(jù)進(jìn)行合并,不同類別的配用電數(shù)據(jù)整合為關(guān)鍵字類型相同的配用電數(shù)據(jù),從而實(shí)現(xiàn)上述配用電數(shù)據(jù)的融合,使融合后的數(shù)據(jù)具有統(tǒng)一的格式,以及同類型的關(guān)鍵字,有利于提高融合后數(shù)據(jù)的可靠性和魯棒性。
[0076]在一個(gè)實(shí)施例中,上述獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型的步驟后還可以包括:
[0077]將不同類別的配用電數(shù)據(jù)以及所述配用電數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵字保存至數(shù)據(jù)庫(kù);
[0078]在所述數(shù)據(jù)庫(kù)中根據(jù)關(guān)鍵字進(jìn)行配用電數(shù)據(jù)的融合。
[0079]本實(shí)施例,將融合后的配用電數(shù)據(jù)保存至HDFS等分布式系統(tǒng)的數(shù)據(jù)庫(kù),再上述數(shù)據(jù)庫(kù)中進(jìn)一步實(shí)現(xiàn)不同類型的配用電數(shù)據(jù)的融合,有利用通過(guò)上述數(shù)據(jù)庫(kù)根據(jù)相關(guān)關(guān)鍵字對(duì)融合后的配用電數(shù)據(jù)進(jìn)行查詢,可以提高對(duì)配用電數(shù)據(jù)的查詢效率。
[0080]在一個(gè)實(shí)施例中,上述配用電數(shù)據(jù)融合方法的流程圖可以如圖4所示,參考圖4,首先可以利用抽取工具Sqoop、Flume NG和Kettle對(duì)配用電數(shù)據(jù)進(jìn)行抽取,將抽取的配用電數(shù)據(jù)采用基于分布式存儲(chǔ)和對(duì)象存儲(chǔ)方式進(jìn)行存儲(chǔ),進(jìn)而采用基于選擇、分離、合并、轉(zhuǎn)化和匯總的數(shù)據(jù)轉(zhuǎn)換方式對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,以將配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式,再將轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行分區(qū)歸并處理,具體可以劃分為熱數(shù)據(jù)區(qū)和實(shí)時(shí)數(shù)據(jù)區(qū),再對(duì)熱數(shù)據(jù)區(qū)和實(shí)時(shí)數(shù)據(jù)區(qū)的配用電數(shù)據(jù)進(jìn)行相應(yīng)的整合,實(shí)現(xiàn)上述配用電數(shù)據(jù)的融合。
[0081]參考圖5所示,圖5為一個(gè)實(shí)施例的配用電數(shù)據(jù)融合系統(tǒng)結(jié)構(gòu)示意圖,包括:
[0082]抽取模塊10,用于從智能配用電網(wǎng)抽取配用電數(shù)據(jù),并將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng);
[0083]轉(zhuǎn)換模塊20,用于將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式;
[0084]歸并模塊30,用于獲取格式轉(zhuǎn)換后的配用電數(shù)據(jù)的類別字段,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并;
[0085]整合模塊40,用于獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型。
[0086]本發(fā)明提供的配用電數(shù)據(jù)融合系統(tǒng)與本發(fā)明提供的配用電數(shù)據(jù)融合方法一一對(duì)應(yīng),在所述配用電數(shù)據(jù)融合方法的實(shí)施例闡述的技術(shù)特征及其有益效果均適用于配用電數(shù)據(jù)融合系統(tǒng)的實(shí)施例中,特此聲明。
[0087]以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書(shū)記載的范圍。
[0088]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種配用電數(shù)據(jù)融合方法,其特征在于,包括如下步驟: 從智能配用電網(wǎng)抽取配用電數(shù)據(jù),并將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng); 將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式; 獲取格式轉(zhuǎn)換后的配用電數(shù)據(jù)的類別字段,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并; 獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型。2.根據(jù)權(quán)利要求1所述的配用電數(shù)據(jù)融合方法,其特征在于,所述獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型的步驟后還包括: 將不同類別的配用電數(shù)據(jù)以及所述配用電數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵字保存至數(shù)據(jù)庫(kù); 在所述數(shù)據(jù)庫(kù)中根據(jù)關(guān)鍵字進(jìn)行配用電數(shù)據(jù)的融合。3.根據(jù)權(quán)利要求1所述的配用電數(shù)據(jù)融合方法,其特征在于,所述配用電數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的配用電數(shù)據(jù)融合方法,其特征在于,所述抽取配用電數(shù)據(jù)的過(guò)程包括: 采用Sqoop方法抽取結(jié)構(gòu)化數(shù)據(jù); 采用Flume NG方法抽取半結(jié)構(gòu)化數(shù)據(jù); 采用Kettle方法抽取非結(jié)構(gòu)化數(shù)據(jù)。5.根據(jù)權(quán)利要求4所述的配用電數(shù)據(jù)融合方法,其特征在于,所述采用Sqoop方法抽取結(jié)構(gòu)化數(shù)據(jù)的步驟包括: 讀取結(jié)構(gòu)化數(shù)據(jù)的表結(jié)構(gòu),根據(jù)所述表結(jié)構(gòu)生成Sqoop運(yùn)行類,將所述Sqoop運(yùn)行類打包,得到j(luò)ar包,將所述jar包提交給Hadoop ; 執(zhí)行mapreduce任務(wù)的mapper類型和執(zhí)行mapreduce的并行任務(wù)數(shù); 由Hadoop執(zhí)行mapreduce任務(wù),對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行切分,記錄切分范圍,創(chuàng)建RecordReader并從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù),倉(cāng)Il建Map任務(wù)并以逐行讀取的方式從結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù)中抽取結(jié)構(gòu)化數(shù)據(jù)。6.根據(jù)權(quán)利要求4所述的配用電數(shù)據(jù)融合方法,其特征在于,所述采用FlumeNG方法抽取半結(jié)構(gòu)化數(shù)據(jù)的步驟包括: 通過(guò)Flume NG的Source組件將抽取事件發(fā)送到Channel組件,并傳遞給Sink組件; Sink組件采集半結(jié)構(gòu)化數(shù)據(jù),并將所述半結(jié)構(gòu)化數(shù)據(jù)發(fā)送至HDFS集群上。7.根據(jù)權(quán)利要求4所述的配用電數(shù)據(jù)融合方法,其特征在于,所述采用Kettle方法抽取非結(jié)構(gòu)化數(shù)據(jù)的步驟包括: 創(chuàng)建HTTP文件; 利用所述HTTP文件將非結(jié)構(gòu)化數(shù)據(jù)寫(xiě)入HDFS。8.根據(jù)權(quán)利要求3所述的配用電數(shù)據(jù)融合方法,其特征在于,所述將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng)的步驟包括: 利用Hbase方法將所述結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng); 利用HDFS方法將所述非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng)。9.根據(jù)權(quán)利要求1所述的配用電數(shù)據(jù)融合方法,其特征在于,所述將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式的步驟包括: 將所述配用電數(shù)據(jù)植入分布式系統(tǒng)內(nèi)嵌的SQL語(yǔ)句; 將所述SQL語(yǔ)句的格式轉(zhuǎn)換為設(shè)定格式; 從轉(zhuǎn)換后的SQL語(yǔ)句中提取配用電數(shù)據(jù)。10.一種配用電數(shù)據(jù)融合系統(tǒng),其特征在于,包括: 抽取模塊,用于從智能配用電網(wǎng)抽取配用電數(shù)據(jù),并將所述配用電數(shù)據(jù)存儲(chǔ)至分布式系統(tǒng); 轉(zhuǎn)換模塊,用于將所述配用電數(shù)據(jù)的格式轉(zhuǎn)換為分布式系統(tǒng)的設(shè)定格式; 歸并模塊,用于獲取格式轉(zhuǎn)換后的配用電數(shù)據(jù)的類別字段,將類別字段相同的配用電數(shù)據(jù)進(jìn)行合并; 整合模塊,用于獲取不同類別配用電數(shù)據(jù)的關(guān)鍵字,將所述關(guān)鍵字的類型轉(zhuǎn)換為設(shè)定類型。
【文檔編號(hào)】G06F17/30GK105956932SQ201610287063
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】郭曉斌, 許愛(ài)東, 黃文琦, 陳華軍, 李果, 蔣屹新, 袁小凱, 蒙家曉, 張福錚, 黃建理, 杜金燃
【申請(qǐng)人】中國(guó)南方電網(wǎng)有限責(zé)任公司電網(wǎng)技術(shù)研究中心, 南方電網(wǎng)科學(xué)研究院有限責(zé)任公司