專利名稱:一種基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)清洗方法
技術(shù)領(lǐng)域:
本申請涉及數(shù)據(jù)庫,信息技術(shù)領(lǐng)域,具體涉及一種數(shù)據(jù)清洗方法,可直接應(yīng)用于采用實時歷史數(shù)據(jù)庫存儲數(shù)據(jù)的行業(yè),如電力、石油化工、冶金等領(lǐng)域。
背景技術(shù):
隨著信息技術(shù)在電力企業(yè)的普及,數(shù)據(jù)倉庫在這個領(lǐng)域得到了進(jìn)一步的應(yīng)用。我們知道,數(shù)據(jù)倉庫是面向主題的,那么,我們能不能通過面向被廣泛應(yīng)用于電廠的大量的實時歷史數(shù)據(jù),建立應(yīng)用決策分析的數(shù)據(jù)倉庫呢?顯然是可以的。然而,實時歷史數(shù)據(jù)庫中數(shù)據(jù)質(zhì)量的好壞是數(shù)據(jù)倉庫應(yīng)用成功與否的關(guān)鍵因素, 許多數(shù)據(jù)倉庫項目的失敗就是因為對導(dǎo)入數(shù)據(jù)倉庫的各種數(shù)據(jù)質(zhì)量缺乏足夠的重視。因此建立數(shù)據(jù)倉庫的過程中,需要有效的技術(shù)手段和工具來提高導(dǎo)入數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量。數(shù)據(jù)挖掘(Data Mining)就是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律、提取有用知識的方法和技術(shù)。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)趨于成熟,并在銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領(lǐng)域有了很多成功的應(yīng)用,我們可以通過應(yīng)用數(shù)據(jù)挖掘技術(shù),建立指導(dǎo)電廠實時運行的數(shù)據(jù)倉庫,隨著時間的推移,數(shù)據(jù)倉庫的數(shù)據(jù)不斷豐富和準(zhǔn)確,為決策分析提供了強(qiáng)有力的事實依據(jù)。數(shù)據(jù)清洗處在數(shù)據(jù)挖掘過程的第一個環(huán)節(jié),是對“臟數(shù)據(jù)”過濾的主要步驟之一, 顯然清洗算法準(zhǔn)確性和徹底性則顯得尤為重要。通常情況下,數(shù)據(jù)清洗大致都由三個階段組成⑴數(shù)據(jù)分析、定義錯誤類型;⑵ 搜索、識別錯誤記錄;(3)修正錯誤。第一階段,盡管已有一些數(shù)據(jù)分析工具,但仍以人工分析為主。第二階段,有兩種基本的思路用于識別錯誤一種是發(fā)掘數(shù)據(jù)中存在的模式,然后利用這些模式清理數(shù)據(jù);另一種是基于數(shù)據(jù)的,根據(jù)預(yù)定義的清理規(guī)則,查找不匹配的記錄。后者用得更多。第三階段,某些特定領(lǐng)域能夠根據(jù)發(fā)現(xiàn)的錯誤模式,編制程序或借助于外部標(biāo)準(zhǔn)源文件、數(shù)據(jù)字典一定程度上修正錯誤。目前,數(shù)據(jù)清洗技術(shù)在電廠信息化領(lǐng)域的應(yīng)用還很少,有針對性的對過程控制系統(tǒng)的測點數(shù)據(jù),采用數(shù)據(jù)清洗技術(shù)還沒有,為此如何通過一種準(zhǔn)確、嚴(yán)謹(jǐn)?shù)那逑捶椒?,對過程“臟數(shù)據(jù)”進(jìn)行高效的過濾,成為了建立電廠信息化數(shù)據(jù)倉庫的首要思考的問題。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)中存在以上問題,本發(fā)明公開了一種基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)清洗方法。首先對本發(fā)明所使用的技術(shù)術(shù)語作以下解釋和說明實時歷史數(shù)據(jù)庫也被稱為實時庫或者實時數(shù)據(jù)庫,與關(guān)系型數(shù)據(jù)庫相對應(yīng)。實時歷史數(shù)據(jù)庫是實現(xiàn)工業(yè)海量數(shù)據(jù)采集的有效手段,可用于工廠過程的自動采集、存儲和監(jiān)視,可在線存儲每個工藝過程點的多年數(shù)據(jù),可以提供清晰、精確的操作情況畫面,用戶既可瀏覽工廠當(dāng)前的生產(chǎn)情況,也可回顧過去的生產(chǎn)情況。
測點在實時歷史數(shù)據(jù)庫中,用來記錄器件信息的元數(shù)據(jù)被稱為測點或者標(biāo)簽點, 可以理解為一個數(shù)據(jù)結(jié)構(gòu),包括采集時間,數(shù)值,狀態(tài),類型等屬性。測點數(shù)據(jù)器件的運行數(shù)據(jù)被不斷地采集并存儲在實時歷史數(shù)據(jù)庫的測點中,測點數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)被稱為測點數(shù)據(jù)。過程控制設(shè)備這里指的是智能的自動化控制設(shè)備,如DCS等。器件指過程控制設(shè)備中的傳感器。時間戳器件的運行數(shù)據(jù)被不斷的采集并存儲在實時歷史數(shù)據(jù)庫中的測點中,采集的時間,被稱為測點的時間戳。數(shù)據(jù)清洗在建立數(shù)據(jù)倉庫時,針對不同的數(shù)據(jù)對象,定義不同的優(yōu)劣標(biāo)準(zhǔn),通過技術(shù)手段將這些“劣”數(shù)據(jù)去除的過程被稱為數(shù)據(jù)清洗。清洗時間范圍用戶可以針對任意一段時間內(nèi)的測點進(jìn)行數(shù)據(jù)清洗,這個時間段叫做清洗時間范圍。時間閾值Vi :測點i的采樣周期。清洗倍率Ni :指測點i數(shù)據(jù)閾值的一個倍數(shù)。本發(fā)明具體采用以下技術(shù)方案。一種基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)清洗方法,其特征在于,所述方法包括以下步驟(I)針對過程控制設(shè)備的各個器件,在實時歷史數(shù)據(jù)庫中,建立與各個器件對應(yīng)的測點,并通過配置測點的屬性建立起測點和各個器件的對應(yīng)關(guān)系;(2)對過程控制設(shè)備的數(shù)據(jù)進(jìn)行采集,采集到的數(shù)據(jù)被送到實時歷史數(shù)據(jù)庫中;(3)通過現(xiàn)有的實時歷史數(shù)據(jù)庫接口程序,采集實時歷史數(shù)據(jù)庫中測點數(shù)據(jù)的原始數(shù)據(jù)信息,查看各測點數(shù)據(jù)的時間戳信息;(4)通過各測點數(shù)據(jù)的時間戳信息獲得測點數(shù)據(jù)之間的采樣時間間隔,針對不同的測點設(shè)置各測點相應(yīng)的時間閾值Vi和清洗倍率Ni,如果某測點相鄰數(shù)據(jù)的采集時間間隔大于該測點相對應(yīng)的時間閾值Vi和清洗倍率Ni的乘積,則判斷該時間間隔為壞間隔記錄,將該測點在清洗時間范圍內(nèi)的所有壞間隔記作壞時間段集合Mi,得到所有測點各自的壞時間段集合后,對所有測點的壞時間段集合取并集,得到集合A將所述集合A內(nèi)采集的測點數(shù)據(jù)清洗;(5)采用集合原理,對所述集合A進(jìn)行補(bǔ)集操作,得到優(yōu)良時間段集合B。本發(fā)明具有以下有益效果經(jīng)過采用上述方案,我們得到了針對各測點的優(yōu)良時間段,這些時間段精度很高, 可以達(dá)到秒級;另外算法對各測點的頭、尾等進(jìn)行了考慮,理論依據(jù)非常充分。
圖I為本發(fā)明數(shù)據(jù)清洗方法流程圖;圖2清洗結(jié)果示意圖。
具體實施例方式下面結(jié)合說明書附圖對本發(fā)明的技術(shù)方案做進(jìn)一步詳細(xì)說明。
如附圖I所示為本發(fā)明數(shù)據(jù)清洗方法流程圖。本發(fā)明公開的一種基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)清洗方法具體包括以下步驟步驟一實時歷史數(shù)據(jù)庫建點。這個過程主要針對過程控制數(shù)據(jù)建立副本,針對實時庫的不同應(yīng)用,可以為實時庫建立容易理解的測點點名,比如,廠用電率可以設(shè)測點名 70pr_cydl,并通過測點的屬性配置,建立與過程控制設(shè)備廠用電率器件的對應(yīng)關(guān)系,這樣器件的數(shù)值變化情況就被記錄在測點70pr_cydl中了,如果實時庫被用在SIS等系統(tǒng)時,用戶可直接訪問70pr_cydl測點得到廠用電率的數(shù)據(jù);步驟二 過程數(shù)據(jù)采集。采用opc技術(shù),編寫有針對性的接口程序?qū)^程數(shù)據(jù)進(jìn)行采集,并和實時庫中的測點名建立對應(yīng)關(guān)系,這樣過程數(shù)據(jù)的變化便可以反映在實時歷史數(shù)據(jù)庫中了。步驟三測點數(shù)據(jù)采集。針對不同的實時歷史數(shù)據(jù)庫,編寫相應(yīng)的數(shù)據(jù)采集接口程序,這個接口程序可以是動態(tài)鏈接庫程序,方便了程序員的使用。當(dāng)從實時歷史數(shù)據(jù)庫中得到測點的原始數(shù)據(jù)后,專業(yè)人員可通過查看測點數(shù)據(jù)的時間戳等屬性,了解到該測點對應(yīng)的過程控制器件運行情況。對于一些測點采樣間隔浮動在較小的范圍內(nèi),稍微大一些就意味著測點出現(xiàn)了故障;而有的測點浮動會很大,卻依然是正常的范圍,為此用戶在決定測點是否參與清洗之前需要對測點的這些性質(zhì)有所了解。步驟四針對上述各測點的特性,設(shè)置各測點的閾值和倍率。因為不同電廠的過程控制器件采樣周期會有所不同,實際上是遵循一定的策略,這在器件設(shè)計之初已經(jīng)固定好的,如果我們能夠通過某種手段的到這種策略,那么可以直接設(shè)置閾值和倍率,否則只有通過實驗的方法獲取。這里提供一種獲取采樣周期的試驗方法,即一段實驗時間和實驗時間內(nèi)的測點個數(shù)來估算采樣周期,通過反復(fù)的實驗,可以得到一個相對精確的采樣周期,我們利用這個采樣周期來充當(dāng)閾值,當(dāng)然用戶也可以手都設(shè)置一個在采樣周期附近的整數(shù)閾值。當(dāng)我們得到了各測點的閾值和倍率后,開始執(zhí)行橫向的清洗算法。閾值實際上表示的是測點合理的采樣周期,設(shè)測點N的閾值為Vi,倍率為Ni,如果任意測點N兩個相鄰原始點數(shù)據(jù)之間的間隔大于Vi*Ni,那么這段間隔被認(rèn)為是壞的時間段,這樣一來,測點N在清洗時間范圍內(nèi),可能存在多個壞的時間段,這些時間段被定義為測點N的壞時間段集合 Mp依次對每一個測點依照自身的閾值和倍率采用上述方法進(jìn)行搜索,將會得到各測點的壞時間段集合,將各集合取并集,得到集合A,這個集合中的任意一個時間段中,至少存在一個測點在這個時間段內(nèi)存在故障,這些存在故障的時間段正是我們清洗過程需要找出并剔除的。步驟五采用集合原理,對各測點的壞時間段集合A進(jìn)行補(bǔ)集操作,得到優(yōu)良時間段B。這個集合就是我們的目標(biāo)集合,可以確保所有測點在目標(biāo)集合的任意子集上都是運行正常的,如圖2所示,圖中列出了在清洗時間段內(nèi)個測點的公共采樣穩(wěn)定時間段,可以看出,這些時間段精度很高,而且很完整。用戶可以對優(yōu)良時間段進(jìn)行添加、刪除和編輯,這主要是通過執(zhí)行相應(yīng)的程序來實現(xiàn)的,這些功能被定義在右鍵菜單中,處理結(jié)果被保存到數(shù)據(jù)庫中,供數(shù)據(jù)挖掘的后續(xù)步驟調(diào)用。
權(quán)利要求
1.一種基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)清洗方法,其特征在于,所述方法包括以下步驟(1)針對過程控制設(shè)備的各個器件,在實時歷史數(shù)據(jù)庫中,建立與各個器件對應(yīng)的測點,并通過配置測點的屬性建立起測點和各個器件的對應(yīng)關(guān)系;(2)對過程控制設(shè)備的數(shù)據(jù)進(jìn)行采集,采集到的數(shù)據(jù)被送到實時歷史數(shù)據(jù)庫中;(3)通過現(xiàn)有的實時歷史數(shù)據(jù)庫接口程序,采集實時歷史數(shù)據(jù)庫中測點數(shù)據(jù)的原始數(shù)據(jù)信息,查看各測點數(shù)據(jù)的時間戳信息;(4)通過各測點數(shù)據(jù)的時間戳信息獲得測點數(shù)據(jù)之間的采樣時間間隔,針對不同的測點設(shè)置各測點相應(yīng)的時間閾值Vi和清洗倍率Ni,如果某測點相鄰數(shù)據(jù)的采集時間間隔大于該測點相對應(yīng)的時間閾值Vi和清洗倍率Ni的乘積,則判斷該時間間隔為壞間隔記錄,將該測點在清洗時間范圍內(nèi)的所有壞間隔記作壞時間段集合Mi,得到所有測點各自的壞時間段集合后,對所有測點的壞時間段集合取并集,得到集合A將所述集合A內(nèi)采集的測點數(shù)據(jù)清洗;(5)采用集合原理,對所述集合A進(jìn)行補(bǔ)集操作,得到優(yōu)良時間段集合B。
2.根據(jù)權(quán)利要求I所述的基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)清洗方法,其特征在于所述方法能夠通過對某個測點查看原始數(shù)據(jù)趨勢,來修改清洗倍率,執(zhí)行反復(fù)的清洗和合并操作。
全文摘要
一種基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)清洗方法,適用于一切使用實時歷史數(shù)據(jù)庫存儲數(shù)據(jù)的領(lǐng)域,本申請以電廠信息化為應(yīng)用背景,以過程數(shù)據(jù)為基礎(chǔ),以優(yōu)良時間段為目標(biāo),設(shè)計并實現(xiàn)了一種實用性較強(qiáng)的數(shù)據(jù)清洗方法。該方法涉及到實時歷史數(shù)據(jù)庫測點的創(chuàng)建、過程數(shù)據(jù)的采集、實時庫數(shù)據(jù)的查詢、數(shù)據(jù)特性分析,最后提出了一種以閾值和倍率為參數(shù)的橫向清洗算法,將不同采集周期過程數(shù)據(jù)進(jìn)行了描述,最終得到了過程控制數(shù)據(jù)采集的壞時間段和優(yōu)良時間段,清洗算法清晰,理論依據(jù)嚴(yán)謹(jǐn),軟件執(zhí)行效率較高。該清洗方法已經(jīng)在數(shù)據(jù)挖掘等系統(tǒng)中得到了應(yīng)用。
文檔編號G06F17/30GK102609501SQ201210022770
公開日2012年7月25日 申請日期2012年2月2日 優(yōu)先權(quán)日2012年2月2日
發(fā)明者張曉剛, 景超, 黃孝彬 申請人:北京華電天仁電力控制技術(shù)有限公司