本發(fā)明涉及電數(shù)字數(shù)據(jù)處理,具體涉及一種數(shù)據(jù)驅(qū)動優(yōu)化系統(tǒng)的數(shù)據(jù)清洗方法。
背景技術:
1、為了解決燃煤煙氣排放導致的相關環(huán)境問題,在眾多的煙氣脫硝技術中,scr(selective?catalytic?reduction,選擇性催化還原法)脫硝系統(tǒng)以其技術成熟、安裝方便、脫硝效率高、幾乎無二次污染等優(yōu)點在燃煤電廠中得到了廣泛的應用。scr煙氣脫硝過程是一個復雜的物理與化學過程,具有非線性、時間滯后等特征,對這些復雜的過程,難以用機理模型來描述。
2、目前通過數(shù)據(jù)驅(qū)動優(yōu)化技術開創(chuàng)了一個新的系統(tǒng)優(yōu)化方法,利用控制系統(tǒng)產(chǎn)生的大量的生產(chǎn)數(shù)據(jù),數(shù)據(jù)工程師利用數(shù)據(jù)科學的技術手段實現(xiàn)了scr煙氣脫硝過程中的數(shù)據(jù)驅(qū)動優(yōu)化。在進行數(shù)據(jù)驅(qū)動優(yōu)化時,首先會對控制系統(tǒng)會產(chǎn)生大量的生產(chǎn)數(shù)據(jù)進行采集,而當所采集的生產(chǎn)數(shù)據(jù)中若含有異常值時,由于異常值與正常值的較大差異,會極大的降低模型的泛化能力,同時增加了數(shù)據(jù)處理的負擔,使得分析效率降低。因此,數(shù)據(jù)清洗對于數(shù)據(jù)驅(qū)動優(yōu)化技術尤為重要。
3、現(xiàn)有的數(shù)據(jù)清洗方法通常使用箱線圖對數(shù)據(jù)進行異常值的檢測,通過四分位數(shù)對異常數(shù)據(jù)進行判斷,進而實現(xiàn)數(shù)據(jù)清洗。但是,scr煙氣脫硝過程中的生產(chǎn)數(shù)據(jù)具有非線性以及時間滯后的特征,這就導致生產(chǎn)數(shù)據(jù)在時間上分布可能并不均勻,并且由于時間滯后的影響,當前數(shù)據(jù)可能受到歷史數(shù)據(jù)的影響,最終會導致對異常數(shù)據(jù)的識別不夠準確,影響數(shù)據(jù)清洗的效果。
技術實現(xiàn)思路
1、為了解決目前對scr煙氣脫硝系統(tǒng)中異常數(shù)據(jù)的識別不夠準確,數(shù)據(jù)清洗的效果較差的技術問題,本發(fā)明的目的在于提供一種數(shù)據(jù)驅(qū)動優(yōu)化系統(tǒng)的數(shù)據(jù)清洗方法,所采用的技術方案具體如下:
2、本發(fā)明提供一種數(shù)據(jù)驅(qū)動優(yōu)化系統(tǒng)的數(shù)據(jù)清洗方法,所述方法包括:
3、獲取scr煙氣脫硝系統(tǒng)中的不同類別的各項生產(chǎn)數(shù)據(jù);
4、確定在scr煙氣脫硝過程中各項生產(chǎn)數(shù)據(jù)對于出口氮氧化物濃度的重要度;
5、對各項生產(chǎn)數(shù)據(jù)建立滑動窗口,并利用所述重要度確定各項生產(chǎn)數(shù)據(jù)的箱線圖;
6、利用所述箱線圖確定各項生產(chǎn)數(shù)據(jù)的潛在異常數(shù)據(jù)點的第一集合,并利用規(guī)則確定各項生產(chǎn)數(shù)據(jù)的潛在異常數(shù)據(jù)點的第二集合;
7、確定所述第一集合和所述第二集合之間的異常數(shù)據(jù)點交集,利用所述異常數(shù)據(jù)點交集對各項生產(chǎn)數(shù)據(jù)進行數(shù)據(jù)清洗;
8、其中,窗口表征數(shù)據(jù)集合,所述滑動窗口表征可移動時序的可變數(shù)據(jù)集合。
9、進一步地,各項生產(chǎn)數(shù)據(jù)包括反應器出口煙道氮氧化物濃度,并將反應器出口煙道氮氧化物濃度作為對照數(shù)據(jù);
10、確定在scr煙氣脫硝過程中各項生產(chǎn)數(shù)據(jù)對于出口氮氧化物濃度的重要度的步驟,包括:
11、確定scr煙氣脫硝系統(tǒng)中除反應器出口煙道氮氧化物濃度之外的其他生產(chǎn)數(shù)據(jù),在所述其他生產(chǎn)數(shù)據(jù)上創(chuàng)建目標匹配窗口,并在所述對照數(shù)據(jù)上創(chuàng)建搜索窗口;
12、確定搜索窗口中隨時序滑動截取的各個被匹配窗口,確定各個被匹配窗口中與所述目標匹配窗口匹配度最高的目標被匹配窗口;
13、確定目標匹配窗口與目標被匹配窗口的第一相關度;
14、確定反應器出口煙道氮氧化物濃度與出口氮氧化物濃度的第二相關度;
15、利用所述第一相關度和所述第二相關度,確定各項生產(chǎn)數(shù)據(jù)對于出口氮氧化物濃度的重要度。
16、進一步地,確定目標匹配窗口與目標被匹配窗口的第一相關度的步驟,包括:
17、確定目標匹配窗口與目標被匹配窗口之間的匹配度和時間間隔;
18、利用所述匹配度和所述時間間隔,確定目標匹配窗口與目標被匹配窗口之間的第一相關度。
19、進一步地,對各項生產(chǎn)數(shù)據(jù)建立滑動窗口的步驟,包括:
20、確定各項生產(chǎn)數(shù)據(jù)的滑動窗口的初始大小以得到初始滑動窗口;
21、確定所述初始滑動窗口中數(shù)據(jù)點分布的偏度;
22、根據(jù)所述偏度,調(diào)節(jié)所述初始滑動窗口的大小以使其符合預設的正態(tài)分布條件,得到各項生產(chǎn)數(shù)據(jù)的滑動窗口。
23、進一步地,確定各項生產(chǎn)數(shù)據(jù)的滑動窗口的初始大小以得到初始滑動窗口的步驟,包括:
24、獲取scr煙氣脫硝系統(tǒng)每次脫銷處理的歷史平均時長和采集各項生產(chǎn)數(shù)據(jù)的采集頻率;
25、利用所述歷史平均時長和所述采集頻率,計算得到滑動窗口的初始大小。
26、進一步地,根據(jù)所述偏度,調(diào)節(jié)所述初始滑動窗口的大小以使其符合預設的正態(tài)分布條件,得到各項生產(chǎn)數(shù)據(jù)的滑動窗口的步驟,包括:
27、利用所述偏度,計算所述初始滑動窗口的時間長度的合理程度;
28、若所述合理程度大于預設合理閾值,則判定所述初始滑動窗口符合預設的正態(tài)分布條件;
29、若所述合理程度小于或等于預設合理閾值,則擴大所述初始滑動窗口的大小直至所述合理程度大于預設合理閾值。
30、進一步地,對各項生產(chǎn)數(shù)據(jù)建立滑動窗口,并利用所述重要度確定各項生產(chǎn)數(shù)據(jù)的箱線圖的步驟,包括:
31、確定滑動窗口對應的箱線圖中的上、下四分位數(shù)和中位數(shù);
32、利用所述重要度,確定滑動窗口對應的箱線圖中的異常上、下限;
33、利用上、下四分位數(shù)、中位數(shù)以及異常上、下限,確定滑動窗口的箱線圖;
34、匯總滑動窗口的箱線圖,得到各項生產(chǎn)數(shù)據(jù)的箱線圖;
35、其中,重要度越高則異常上、下限越靠近,反正則異常上、下限越遠離。
36、進一步地,利用所述重要度,確定滑動窗口對應的箱線圖中的異常上、下限的步驟,包括:
37、利用所述重要度,計算得到滑動窗口對應的箱線圖的上下限調(diào)整系數(shù);
38、利用滑動窗口對應的箱線圖中的上、下四分位數(shù),計算得到箱線圖的內(nèi)限范圍;
39、利用上四分位數(shù)、所述內(nèi)限范圍和上下限調(diào)整系數(shù),計算得到箱線圖中的異常上限;
40、利用下四分位數(shù)、所述內(nèi)限范圍和上下限調(diào)整系數(shù),計算得到箱線圖中的異常下限。
41、進一步地,利用所述異常數(shù)據(jù)點交集對各項生產(chǎn)數(shù)據(jù)進行數(shù)據(jù)清洗的步驟,包括:
42、確定所述異常數(shù)據(jù)點交集中任一目標數(shù)據(jù)點被識別為異常數(shù)據(jù)的異常次數(shù)和包含所述目標數(shù)據(jù)點的滑動窗口的窗口數(shù)量;
43、利用所述異常次數(shù)、所述窗口數(shù)量以及各項生產(chǎn)數(shù)據(jù)對應的滑動窗口總數(shù)量,計算得到所述目標數(shù)據(jù)點的異常表現(xiàn)程度;
44、若所述異常表現(xiàn)程度大于預設異常閾值,則所述目標數(shù)據(jù)點標記為異常點;
45、將各項生產(chǎn)數(shù)據(jù)中標記為異常點的所有異常數(shù)據(jù)進行數(shù)據(jù)清洗。
46、進一步地,計算得到所述目標數(shù)據(jù)點的異常表現(xiàn)程度的步驟之后,所述方法還包括:
47、確定所述目標數(shù)據(jù)點對應的滑動窗口的合理程度;
48、利用所述合理程度對所述異常表現(xiàn)程度進行修正以得到修正后的異常表現(xiàn)程度。
49、本發(fā)明具有如下有益效果:
50、本發(fā)明的目的是結(jié)合規(guī)則以及箱線圖規(guī)則對scr煙氣脫硝過程中的生產(chǎn)數(shù)據(jù)進行清洗,由于該生產(chǎn)數(shù)據(jù)具有非線性以及時間滯后的特征,因此通過在不同維度對異常數(shù)據(jù)進行獲取,提高數(shù)據(jù)清洗的效果,避免正常數(shù)據(jù)被刪除。
51、本發(fā)明能夠結(jié)合箱線圖規(guī)則以及規(guī)則,對scr煙氣脫硝生產(chǎn)過程中的生產(chǎn)數(shù)據(jù)進行異常點檢測,在構建箱線圖時結(jié)合規(guī)則,使得滑動窗口內(nèi)的數(shù)據(jù)點分布更加合理,在進行異常點識別時通過獲取異常點集合的交集以及不同窗口異常點的交集,提高識別的準確程度提高泛化能力。同時,根據(jù)異常點在不同滑動窗口中表現(xiàn)以及窗口內(nèi)數(shù)據(jù)點分布,深入獲取異常點的表現(xiàn)程度,提高識別異常數(shù)據(jù)點的精度。