本發(fā)明實(shí)施例涉及石油化工技術(shù)領(lǐng)域,具體涉及一種催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別方法及系統(tǒng)。
背景技術(shù):
重油催化裂化在我國煉油工業(yè)占有重要地位,對(duì)于要求降低生產(chǎn)能耗、物耗,減少非正常停車的煉油廠來說,能通過生產(chǎn)操作優(yōu)化來保障裝置“安穩(wěn)長(zhǎng)滿優(yōu)”運(yùn)行是最為經(jīng)濟(jì)與便捷的選擇。在煉化生產(chǎn)操作優(yōu)化方面,除了機(jī)理建模之外,數(shù)據(jù)建模也是一種重要手段。利用日常操作的數(shù)據(jù),或者安排一定的測(cè)試,獲得過程的測(cè)試數(shù)據(jù),然后利用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)方法建立模型,即為數(shù)據(jù)建模,數(shù)據(jù)模型對(duì)原始數(shù)據(jù)的質(zhì)量有著較高的要求。
然而在催化裂化裝置實(shí)際生產(chǎn)運(yùn)行過程中,由于采樣失真、測(cè)量誤差、設(shè)備故障、探頭老化及其他可能存在的影響因素,采集到的催化裂化裝置數(shù)據(jù)往往存在著不遵循數(shù)據(jù)波動(dòng)變化規(guī)律的采樣值。催化裂化裝置數(shù)據(jù)主要是指工業(yè)生產(chǎn)中與催化裂化相關(guān)的數(shù)據(jù),這些數(shù)據(jù)并非由于正常的工藝調(diào)整所致,對(duì)工程師與科研工作者有效利用裝置數(shù)據(jù)進(jìn)行建模分析造成了極大的困擾。為了提高采集到的數(shù)據(jù)的準(zhǔn)確性和可靠性,十分有必要對(duì)離群數(shù)據(jù)加以辨識(shí)并進(jìn)行相應(yīng)的處理。催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)的識(shí)別屬于時(shí)間序列離群點(diǎn)檢測(cè)的研究領(lǐng)域,其難點(diǎn)在于:采樣數(shù)據(jù)本身具有波動(dòng)性,正常的波動(dòng)不能當(dāng)做離群點(diǎn)來處理,需要關(guān)注的是這些正常波動(dòng)之外的異常數(shù)據(jù)。目前工程領(lǐng)域中,主要使用基于統(tǒng)計(jì)學(xué)的方法來識(shí)別離群數(shù)據(jù),該方法計(jì)算簡(jiǎn)便,但需要事先知曉或推斷數(shù)據(jù)的分布情況,然而現(xiàn)實(shí)中的數(shù)據(jù)往往離理想狀態(tài)的數(shù)學(xué)分布相差較遠(yuǎn),并且這類方法對(duì)維度較高、具有周期性的時(shí)序數(shù)據(jù)難以辨識(shí)?,F(xiàn)有技術(shù)中,普遍采用時(shí)間序列離群數(shù)據(jù)識(shí)別方法,部分方法直接將非時(shí)序數(shù)據(jù)挖掘的方法應(yīng)用到時(shí)序數(shù)據(jù)中,忽視了周期性和波動(dòng)性,誤判率較高。
因此,如何提出一種方案,能夠提高催化裂化裝置離群數(shù)據(jù)識(shí)別的準(zhǔn)確性,成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明實(shí)施例提供了及一種催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別方法及系統(tǒng)。
一方面,本發(fā)明實(shí)施例提供了一種催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別方法,包括:
按照預(yù)設(shè)采樣時(shí)間獲取催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,獲得所述原始屬性值的時(shí)間序列集合,所述原始屬性值包括:所述生產(chǎn)數(shù)據(jù)的溫度、壓力、流量和殘?zhí)恐担?/p>
使用滑動(dòng)時(shí)間窗對(duì)所述時(shí)間序列集合進(jìn)行重構(gòu),獲得所述原始屬性值的子序列集合,所述子序列集合中包括多個(gè)子序列;
獲取所述子序列集合的交互權(quán)值向量,根據(jù)所述交互權(quán)值向量和所述子序列集合,構(gòu)建加權(quán)序列集合,所述加權(quán)序列集合中包括多個(gè)加權(quán)子序列;
獲取所述加權(quán)序列集合中各個(gè)所述加權(quán)子序列的局部離群因子,根據(jù)所述局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
進(jìn)一步地,所述獲取所述子序列集合的交互權(quán)值向量包括:
獲取所述子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵,根據(jù)所述信息熵獲取所述交互權(quán)值向量。
進(jìn)一步地,所述根據(jù)所述交互權(quán)值向量和所述子序列集合,構(gòu)建多個(gè)加權(quán)序列集合,包括,將所述交互權(quán)值向量中的每個(gè)元素和所述子序列集合中的對(duì)應(yīng)的元素相乘,構(gòu)建所述加權(quán)序列集合。
進(jìn)一步地,所述根據(jù)所述局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù),包括:
根據(jù)所述局部離群因子設(shè)置預(yù)設(shè)閾值;
將所述局部離群因子大于所述預(yù)設(shè)閾值的加權(quán)子序列作為離群子序列,將所述離群子序列中數(shù)值最大的數(shù)據(jù)作為所述離群數(shù)據(jù)。
進(jìn)一步地,所述根據(jù)所述局部離群因子設(shè)置預(yù)設(shè)閾值包括:
獲取所述局部離群因子的第一四分位數(shù)和第三四分位數(shù),利用公式f=q3+3(q3-q1)設(shè)置所述預(yù)設(shè)閾值,式中:f表示所述預(yù)設(shè)閾值,q3表示所述局部離群因子的第三四分位數(shù),q1表示所述局部離群因子的第一四分位數(shù)。
進(jìn)一步地,所述按照預(yù)設(shè)采樣時(shí)間獲取催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,包括:按照預(yù)設(shè)采樣時(shí)間通過催化裂化裝置采集的在線實(shí)時(shí)數(shù)據(jù)獲取或按照預(yù)設(shè)采樣時(shí)間通過實(shí)驗(yàn)分析獲取。
另一方面,本發(fā)明實(shí)施例提供一種催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別系統(tǒng),包括:
時(shí)間序列生成單元,用于按照預(yù)設(shè)采樣時(shí)間獲取催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,獲得所述原始屬性值的時(shí)間序列集合,所述原始屬性值包括:所述生產(chǎn)數(shù)據(jù)的溫度、壓力、流量和殘?zhí)恐担?/p>
時(shí)間序列重構(gòu)單元,用于使用滑動(dòng)時(shí)間窗對(duì)所述時(shí)間序列集合進(jìn)行重構(gòu),獲得所述原始屬性值的子序列集合,所述子序列集合中包括多個(gè)子序列;
加權(quán)序列生成單元,用于獲取所述子序列集合的交互權(quán)值向量,根據(jù)所述交互權(quán)值向量和所述子序列集合,構(gòu)建加權(quán)序列集合,所述加權(quán)序列集合中包括多個(gè)加權(quán)子序列;
離群數(shù)據(jù)識(shí)別單元,用于獲取所述加權(quán)序列集合中各個(gè)所述加權(quán)子序列的局部離群因子,根據(jù)所述局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
進(jìn)一步地,所述加權(quán)序列生成單元具體用于:
獲取所述子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵,根據(jù)所述信息熵獲取所述交互權(quán)值向量。
再一方面,本發(fā)明實(shí)施例提供一種用于催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別的電子設(shè)備,包括:
至少一個(gè)處理器;以及
與所述處理器通信連接的至少一個(gè)存儲(chǔ)器,其中:
所述存儲(chǔ)器存儲(chǔ)有可被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令能夠執(zhí)行上述的方法。
又一方面,本發(fā)明實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行上述方法。
本發(fā)明實(shí)施例提供的催化裂化離群數(shù)據(jù)識(shí)別方法及系統(tǒng),根據(jù)催化裂化裝置離線數(shù)據(jù)的波動(dòng)性和周期性特征,提出了基于滑動(dòng)時(shí)間窗和交互權(quán)向量加權(quán)的離群數(shù)據(jù)挖掘算法,對(duì)催化裂化裝置離線數(shù)據(jù)中的離群數(shù)據(jù)加以有效識(shí)別,提高了催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別的準(zhǔn)確性,進(jìn)一步提高了催化裂化裝置數(shù)據(jù)的可靠性,為軟測(cè)量等后續(xù)應(yīng)用提供高質(zhì)量的原始數(shù)據(jù)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例中催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別方法的流程示意圖;
圖2為本發(fā)明實(shí)施例中又一催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別方法的流程示意圖;
圖3為本發(fā)明實(shí)施例中一催化裂化的溫度點(diǎn)數(shù)據(jù)示意圖;
圖4為本發(fā)明實(shí)施例中信息熵賦權(quán)值的滑動(dòng)時(shí)間窗離群因子示意圖;
圖5為本發(fā)明實(shí)施例中無滑動(dòng)時(shí)間窗計(jì)算所得離群因子;
圖6為本發(fā)明實(shí)施例中有滑動(dòng)時(shí)間窗的離群因子;
圖7為本發(fā)明實(shí)施例中離群子序列和離群數(shù)據(jù)的識(shí)別結(jié)果示意圖;
圖8為本發(fā)明實(shí)施例中催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖;
圖9為本發(fā)明實(shí)施例中用于催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別的電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明實(shí)施例中催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別方法的流程示意圖,如圖1所示,本發(fā)明實(shí)施例提供的催化裂化離群數(shù)據(jù)識(shí)別方法包括:
s1、按照預(yù)設(shè)采樣時(shí)間獲取催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,獲得所述原始屬性值的時(shí)間序列集合,所述原始屬性值包括:所述生產(chǎn)數(shù)據(jù)的溫度、壓力、流量和殘?zhí)恐担?/p>
具體地,從催化裂化生產(chǎn)現(xiàn)場(chǎng)或數(shù)據(jù)采集系統(tǒng)中提取出催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,如溫度、壓力、流量等,原始屬性值的采樣時(shí)間間隔可以為一小時(shí)一次,采集到的原始屬性值構(gòu)成時(shí)間序列集合,如構(gòu)成長(zhǎng)度為n的時(shí)間序列集合x={xi|i=1,2,...,n},i表示采樣時(shí)間,xi表示第i個(gè)小時(shí)獲取到的數(shù)據(jù)。其中生產(chǎn)數(shù)據(jù)即為催化裂化裝置數(shù)據(jù),其具體包括但不限于:原料性質(zhì):原料油密度、飽和烴含量、殘?zhí)康龋淮呋瘎┬再|(zhì):再生劑活性等;操作變量:原料油流量、蠟油進(jìn)料量、預(yù)提升蒸汽流控、反應(yīng)壓力、提升管中部溫度等。此外,采樣時(shí)間也可以根據(jù)需要進(jìn)行設(shè)置,不限于本發(fā)明實(shí)施例中的一小時(shí)一次??梢钥闯?,本發(fā)明實(shí)施例中將采集到的催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值按照時(shí)間的順序,組合成時(shí)間序列集合。
其中,生產(chǎn)數(shù)據(jù)的原始屬性值的獲取方法可以是:按照預(yù)設(shè)采樣時(shí)間通過催化裂化裝置采集的在線實(shí)時(shí)數(shù)據(jù)獲取或按照預(yù)設(shè)采樣時(shí)間通過實(shí)驗(yàn)分析獲取。即催化裂化裝置數(shù)據(jù)的原始屬性值既可以通過催化裂化裝置采集在線數(shù)據(jù)獲取,也可以通過煉廠實(shí)驗(yàn)室分析化驗(yàn)數(shù)據(jù)獲取,當(dāng)然根據(jù)需要,也可以通過其他方式獲取,本發(fā)明實(shí)施例不作具體限定。
s2、使用滑動(dòng)時(shí)間窗對(duì)所述時(shí)間序列集合進(jìn)行重構(gòu),獲得所述原始屬性值的子序列集合,所述子序列集合中包括多個(gè)子序列;
具體地,獲取到催化裂化裝置數(shù)據(jù)的原始屬性值后,使用滑動(dòng)時(shí)間窗對(duì)由原始屬性值構(gòu)建的時(shí)間序列集合進(jìn)行重構(gòu),獲取原始屬性值的子序列結(jié)合。具體可以設(shè)定窗寬,對(duì)時(shí)間序列集合進(jìn)行重新組合構(gòu)建,例如:使用滑動(dòng)時(shí)間窗對(duì)上述實(shí)施例中的時(shí)間序列集合x進(jìn)行重構(gòu),設(shè)定窗寬為w,則可以得到l(l=n-w+1)個(gè)長(zhǎng)度為w的子序列,多個(gè)子序列構(gòu)建出子序列集合為w(s)={si|i=1,...,n-w+1}。
s3、獲取所述子序列集合的交互權(quán)值向量,根據(jù)所述交互權(quán)值向量和所述子序列集合,構(gòu)建加權(quán)序列集合,所述加權(quán)序列集合中包括多個(gè)加權(quán)子序列;
具體地,獲取原始屬性值的子序列集合的交互權(quán)值向量,根據(jù)該交互權(quán)值向量和重構(gòu)后的子序列集合,構(gòu)建出加權(quán)序列集合。
s4、獲取所述加權(quán)序列集合中各個(gè)所述加權(quán)子序列的局部離群因子,根據(jù)所述局部離群因子識(shí)別出催化裂化中的離群數(shù)據(jù)。
具體地,獲取加權(quán)序列集合中各個(gè)加權(quán)子序列的局部離群因子lof(localoutlierfactor),根據(jù)獲取到的lof值識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
其中,所述根據(jù)所述局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù),包括:
根據(jù)所述局部離群因子設(shè)置預(yù)設(shè)閾值;
將所述局部離群因子大于所述預(yù)設(shè)閾值的加權(quán)子序列作為離群子序列,將所述離群子序列中數(shù)值最大的數(shù)據(jù)作為所述離群數(shù)據(jù)。
具體地,可以根據(jù)獲取到的加權(quán)序列集合中各個(gè)加權(quán)子序列的局部離群因子lof值設(shè)置預(yù)設(shè)閾值,將各個(gè)加權(quán)子序列的局部離群因子lof值與預(yù)設(shè)閾值進(jìn)行比較。將其中局部離群因子lof值大于預(yù)設(shè)閾值的加權(quán)子序列作為離群子序列,將識(shí)別出的離群子序列中數(shù)值最大的數(shù)據(jù)作為離群數(shù)據(jù)。
其中,設(shè)置預(yù)設(shè)閾值的方法可以是:獲取所述局部離群因子的第一四分位數(shù)和第三四分位數(shù),利用公式f=q3+3(q3-q1)設(shè)置所述預(yù)設(shè)閾值,式中:f表示所述預(yù)設(shè)閾值,q3表示所述局部離群因子的第三四分位數(shù),q1表示所述局部離群因子的第一四分位數(shù)。
具體提,先獲取各個(gè)加權(quán)子序列對(duì)應(yīng)的局部離群因子lof值中的第一四分位數(shù)和第三四分位數(shù),即將各個(gè)加權(quán)子序列對(duì)應(yīng)的所有局部離群因子lof值由小到大排列后,獲取其中排在第25%的數(shù)據(jù)作為局部離群因子的第一四分位數(shù),獲取其中排在第75%的數(shù)據(jù)作為局部離群因子的第三四分位數(shù)。再利用如下公式(1),獲得預(yù)設(shè)閾值f:
f=q3+3(q3-q1)(1)
式中:f——表示預(yù)設(shè)閾值,q3——表示局部離群因子的第三四分位數(shù),q1——表示局部離群因子的第一四分位數(shù)。
本發(fā)明實(shí)施例提供的催化裂化離群數(shù)據(jù)識(shí)別方法,根據(jù)催化裂化裝置離線數(shù)據(jù)的波動(dòng)性和周期性特征,提出了基于滑動(dòng)時(shí)間窗和交互權(quán)向量加權(quán)的離群數(shù)據(jù)挖掘算法,對(duì)催化裂化裝置離線數(shù)據(jù)中的離群數(shù)據(jù)加以有效識(shí)別,提高了催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別的準(zhǔn)確性,進(jìn)一步提高了催化裂化裝置數(shù)據(jù)的可靠性,為軟測(cè)量等后續(xù)應(yīng)用提供高質(zhì)量的原始數(shù)據(jù)。
在上述實(shí)施例的基礎(chǔ)上,所述獲取所述子序列集合的交互權(quán)值向量包括:
獲取所述子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵,根據(jù)所述信息熵獲取所述交互權(quán)值向量。
具體地,獲取利用滑動(dòng)時(shí)間窗重構(gòu)獲得的子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵,根據(jù)該信息熵獲取子序列集合的交互權(quán)向量,其中通過子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵獲得子序列集合的交互權(quán)向量的方法如下:
首先計(jì)算子序列集合中每個(gè)子序列的信息熵,假設(shè)子序列集合w共有l(wèi)個(gè)w維的子序列,每一個(gè)子序列可看做w維空間點(diǎn),對(duì)每一個(gè)子序列s的信息熵可以采用如下公式(2)獲得,
式中:ie(s)——表示子序列s的信息熵;
此外,子序列中各個(gè)元素的信息熵的具體計(jì)算方法如下:
將各個(gè)子序列看做數(shù)據(jù)集,子序列中的每個(gè)元素看做一個(gè)數(shù)據(jù)點(diǎn),則對(duì)于數(shù)據(jù)集,數(shù)據(jù)點(diǎn)的k-距離鄰域包含到數(shù)據(jù)點(diǎn)p的距離不大于distk(p)的數(shù)據(jù)點(diǎn)的集合,記作nk(p),有如下公式(3):
nk(p)={q|q∈w\p,dist(p,q)≤distk(p)}(3)
則數(shù)據(jù)點(diǎn)p的信息熵可以表示為如下公式(4):
其中:dmin和dmax的計(jì)算方法如下公式(5)和(6)所示:
dmin=min{dist(p,q)|q∈nk(p)}(5)
dmax=max{dist(p,q)|q∈nk(p)}(6)
獲得子序列中每個(gè)元素的信息熵后,利用上述公式(2)即可獲得子序列的信息熵,進(jìn)步獲得子序列集合的信息熵。獲得子序列集合中每個(gè)子序列的信息熵后,使用如下公式(7)和(8)獲得交互權(quán)重向量:
式中:b(s)——表示子序列s的交互權(quán)重向量;
將各個(gè)子序列的交互權(quán)重向量組合成一個(gè)集合,即可獲得子序列集合的交互權(quán)值向量。
獲得子序列集合的交互權(quán)向量后,將子序列集合的交互權(quán)值向量中的每個(gè)元素和子序列集合中的對(duì)應(yīng)的元素相乘,構(gòu)建所述加權(quán)序列集合。實(shí)際應(yīng)用時(shí),子序列集合的交互權(quán)值向量和子序列集合是相同維度的矩陣,將兩個(gè)矩陣作乘法,即可獲得加權(quán)序列集合。
獲取到加權(quán)序列集合后,利用上述實(shí)施例的方法獲取各個(gè)加權(quán)子序列的局部離群因子,進(jìn)一步根據(jù)該局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
圖2為本發(fā)明實(shí)施例中又一催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別方法的流程示意圖,如圖2所示,下面結(jié)合某煉廠催化裂化裝置提升管反應(yīng)器一個(gè)月內(nèi)的溫度數(shù)據(jù),具體介紹本發(fā)明實(shí)施例的具體方案:
t1、采集催化裂化的生產(chǎn)數(shù)據(jù)。圖3為本發(fā)明實(shí)施例中一催化裂化的溫度點(diǎn)數(shù)據(jù)示意圖,如圖3所示,該圖的橫坐標(biāo)為采樣數(shù),縱坐標(biāo)為對(duì)應(yīng)溫度。從催化裂化生產(chǎn)現(xiàn)場(chǎng)采集到提升管反應(yīng)器一個(gè)月內(nèi)的溫度數(shù)據(jù),構(gòu)成長(zhǎng)度為744的時(shí)間序列集合x={xi|i=1,2,...,744}。
t2、使用滑動(dòng)時(shí)間窗構(gòu)建子序列集合。使用滑動(dòng)時(shí)間窗對(duì)時(shí)間序列集合x進(jìn)行重構(gòu),設(shè)定窗寬為24,則可以得到721個(gè)長(zhǎng)度為24的子序列,子序列集合為w(s)={si|i=1,..,721}。
t3、獲取每個(gè)子序列的信息熵。子序列集合w共有721個(gè)24維的子序列,每一個(gè)子序列可看做24維空間點(diǎn),獲取子序列集合中每個(gè)子序列的信息熵,具體獲取方法同上述實(shí)施例一致,此處不再贅述。
t4、獲取子序列集合的交互權(quán)向量。利用子序列集合中每個(gè)子序列的信息熵,獲取每個(gè)子序列的交互權(quán)向量,進(jìn)一步獲得子序列集合的交互權(quán)向量,具體獲取子序列和子序列集合的交互權(quán)向量的方法同上述實(shí)施例一致,此處不再贅述。
t5、構(gòu)建加權(quán)序列集合。將子序列集合的交互權(quán)值向量b中每個(gè)元素與子序列集合w中對(duì)應(yīng)的元素相乘,構(gòu)成加權(quán)序列集合wb。
t6、獲取各個(gè)加權(quán)子序列的局部離群因子。對(duì)加權(quán)后的加權(quán)序列集合wb使用離群因子進(jìn)行計(jì)算,得到對(duì)應(yīng)的局部離群因子lof值。其中各個(gè)加權(quán)子序列的局部離群因子的具體可以采用如下方法進(jìn)行計(jì)算:
給定一個(gè)自然數(shù)k,計(jì)算每個(gè)加權(quán)數(shù)據(jù)p即加權(quán)子序列的k-距離,其大小按照定義為wb中加權(quán)數(shù)據(jù)p和離其最近的第k個(gè)數(shù)據(jù)點(diǎn)xk之間的距離,基于此,加權(quán)后加權(quán)數(shù)據(jù)p的k鄰域?yàn)槿缦鹿?9):
nwk(p)={q|q∈w\p,dist(p,q)≤distwk(p)}(9)
加權(quán)數(shù)據(jù)p相對(duì)于xk的可達(dá)距離為如下公式(10)所示:
reachdistk(p,xk)=max{distwk(xk),dist(p,xk)}(10)
加權(quán)數(shù)據(jù)p的k-局部可達(dá)密度定義為數(shù)據(jù)點(diǎn)p與其加權(quán)后k-距離鄰域的平均可達(dá)距離的倒數(shù),具體如下公式(11)所示:
則數(shù)據(jù)點(diǎn)p即加權(quán)子序列的局部離群因子lofk(p)為如下公式(12):
圖4為本發(fā)明實(shí)施例中信息熵賦權(quán)值的滑動(dòng)時(shí)間窗離群因子示意圖,如圖4所示,為本發(fā)明實(shí)施例采用上述方法獲得的加權(quán)序列集合的局部離群因子示意圖,該圖中橫坐標(biāo)為采樣數(shù),縱坐標(biāo)為離群因子,從圖4可以識(shí)別出第297個(gè)加權(quán)子序列為離群子序列,其中存在離群點(diǎn)。圖5為本發(fā)明實(shí)施例中無滑動(dòng)時(shí)間窗計(jì)算所得離群因子,圖6為本發(fā)明實(shí)施例中有滑動(dòng)時(shí)間窗的離群因子。對(duì)比圖4、圖5和圖6,可以看出本發(fā)明實(shí)施例采用信息熵賦權(quán)值結(jié)合滑動(dòng)時(shí)間窗的方法獲取離群因子,既考慮到局部波動(dòng)因素,又兼顧數(shù)據(jù)整體的波動(dòng)性,提高了離群因子獲取的準(zhǔn)確性,進(jìn)一步提高了催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)獲得的準(zhǔn)確性。
t7、獲取離群子序列。計(jì)算得到的加權(quán)序列集合中各個(gè)加權(quán)子序列的局部離群因子lof值后,根據(jù)各個(gè)加權(quán)子序列的局部離群因子的第一四分位數(shù)和第三四分位數(shù),利用上述公式(1)設(shè)置局部離群因子的預(yù)設(shè)閾值。當(dāng)然根據(jù)需要,還可以根據(jù)其他方法設(shè)置離群因子的預(yù)設(shè)閾值,把各個(gè)加權(quán)子序列的局部離群因子lof值與預(yù)設(shè)閾值對(duì)比,局部離群因子lof值越大,說明該數(shù)據(jù)是離群數(shù)據(jù)的可能性越大,將局部離群因子大于該預(yù)設(shè)閾值的加權(quán)子序列作為離群子序列。
t8、識(shí)別離群數(shù)據(jù)。各個(gè)離群子序列中的最值即為時(shí)間序列集合x的離群點(diǎn)。圖7為本發(fā)明實(shí)施例中離群子序列和離群數(shù)據(jù)的識(shí)別結(jié)果示意圖,如圖7所示,圖中橫坐標(biāo)為采樣點(diǎn)范圍是1~24,縱坐標(biāo)為溫度。圖4中識(shí)別出第297個(gè)子序列為離群子序列,其中存在離群點(diǎn);圖7表示第297個(gè)加權(quán)子序列的具體內(nèi)容,其中的第7個(gè)點(diǎn)為原始數(shù)據(jù)中的第303個(gè)點(diǎn)(結(jié)合圖3可以獲得溫度為541.3的點(diǎn)為第303個(gè)點(diǎn)),即時(shí)間序列集合x第303個(gè)數(shù)據(jù)點(diǎn)為離群數(shù)據(jù)。
本發(fā)明實(shí)施例提供的催化裂化離群數(shù)據(jù)識(shí)別方法,根據(jù)催化裂化裝置離線數(shù)據(jù)的波動(dòng)性和周期性特征,提出了基于滑動(dòng)時(shí)間窗和交互權(quán)向量加權(quán)的離群數(shù)據(jù)挖掘算法,既考慮到局部波動(dòng)因素,又兼顧數(shù)據(jù)整體的波動(dòng)性,對(duì)催化裂化裝置離線數(shù)據(jù)中的離群數(shù)據(jù)加以有效識(shí)別,提高了催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別的準(zhǔn)確性,進(jìn)一步提高了催化裂化裝置數(shù)據(jù)的可靠性,為軟測(cè)量等后續(xù)應(yīng)用提供高質(zhì)量的原始數(shù)據(jù)。
圖8為本發(fā)明實(shí)施例中催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖,如圖8所示,本發(fā)明實(shí)施例提供的催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別系統(tǒng)包括:時(shí)間序列生成單元81、時(shí)間序列重構(gòu)單元82、加權(quán)序列生成單元83和離群數(shù)據(jù)識(shí)別單元84,其中:
時(shí)間序列生成單元81用于按照預(yù)設(shè)采樣時(shí)間獲取催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,獲得所述原始屬性值的時(shí)間序列集合,所述原始屬性值包括:所述生產(chǎn)數(shù)據(jù)的溫度、壓力、流量和殘?zhí)恐担粫r(shí)間序列重構(gòu)單元82用于使用滑動(dòng)時(shí)間窗對(duì)所述時(shí)間序列集合進(jìn)行重構(gòu),獲得所述原始屬性值的子序列集合,所述子序列集合中包括多個(gè)子序列;加權(quán)序列生成單元83用于獲取所述子序列集合的交互權(quán)值向量,根據(jù)所述交互權(quán)值向量和所述子序列集合,構(gòu)建加權(quán)序列集合,所述加權(quán)序列集合中包括多個(gè)加權(quán)子序列;離群數(shù)據(jù)識(shí)別單元84用于獲取所述加權(quán)序列集合中各個(gè)所述加權(quán)子序列的局部離群因子,根據(jù)所述局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
具體地,時(shí)間序列生成單元81從催化裂化生產(chǎn)現(xiàn)場(chǎng)或數(shù)據(jù)采集系統(tǒng)中提取出催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,如溫度、壓力、流量等,原始屬性值的采樣時(shí)間間隔可以為一小時(shí)一次,采集到的原始屬性值構(gòu)成時(shí)間序列集合。獲取到催化裂化裝置數(shù)據(jù)的原始屬性值后,時(shí)間序列重構(gòu)單元82使用滑動(dòng)時(shí)間窗對(duì)由原始屬性值構(gòu)建的時(shí)間序列集合進(jìn)行重構(gòu),獲取原始屬性值的子序列結(jié)合。具體可以設(shè)定窗寬,對(duì)時(shí)間序列集合進(jìn)行重新組合構(gòu)建,獲得多個(gè)子序列構(gòu),建出子序列集合。加權(quán)序列生成單元83獲取原始屬性值的子序列集合的交互權(quán)值向量,根據(jù)該交互權(quán)值向量和重構(gòu)后的子序列集合,構(gòu)建出加權(quán)序列集合。離群數(shù)據(jù)識(shí)別單元84獲取加權(quán)序列集合中各個(gè)加權(quán)子序列的局部離群因子lof(localoutlierfactor),根據(jù)獲取到的lof值識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
在上述實(shí)施例的基礎(chǔ)上,所述加權(quán)序列生成單元具體用于:
獲取所述子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵,根據(jù)所述信息熵獲取所述交互權(quán)值向量。
具體地,加權(quán)序列生成單元獲取利用滑動(dòng)時(shí)間窗重構(gòu)獲得的子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵,根據(jù)該信息熵獲取子序列集合的交互權(quán)向量,其中通過子序列集合中各個(gè)子序列對(duì)應(yīng)的信息熵獲得子序列集合的交互權(quán)向量的方法同上述實(shí)施例一致,此處不再贅述。
其中,離群數(shù)據(jù)識(shí)別單元具體用于:
根據(jù)所述局部離群因子設(shè)置預(yù)設(shè)閾值;
將所述局部離群因子大于所述預(yù)設(shè)閾值的加權(quán)子序列作為離群子序列,將所述離群子序列中數(shù)值最大的數(shù)據(jù)作為所述離群數(shù)據(jù)。
具體地,離群數(shù)據(jù)識(shí)別單元可以根據(jù)獲取到的加權(quán)序列集合中各個(gè)加權(quán)子序列的局部離群因子lof值設(shè)置預(yù)設(shè)閾值,將各個(gè)加權(quán)子序列的局部離群因子lof值與預(yù)設(shè)閾值進(jìn)行比較。將其中局部離群因子lof值大于預(yù)設(shè)閾值的加權(quán)子序列作為離群子序列,將識(shí)別出的離群子序列中數(shù)值最大的數(shù)據(jù)作為離群數(shù)據(jù)。
其中,離群數(shù)據(jù)識(shí)別單元設(shè)置預(yù)設(shè)閾值的方法可以是:獲取所述局部離群因子的第一四分位數(shù)和第三四分位數(shù),利用公式f=q3+3(q3-q1)設(shè)置所述預(yù)設(shè)閾值,式中:f表示所述預(yù)設(shè)閾值,q3表示所述局部離群因子的第三四分位數(shù),q1表示所述局部離群因子的第一四分位數(shù)。
本發(fā)明實(shí)施例提供的催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別系統(tǒng)用于執(zhí)行上述方法,其具體實(shí)施方式同上述實(shí)施例一致,此處不再贅述。
本發(fā)明實(shí)施例提供的催化裂化離群數(shù)據(jù)識(shí)別方法及系統(tǒng),根據(jù)催化裂化裝置離線數(shù)據(jù)的波動(dòng)性和周期性特征,提出了基于滑動(dòng)時(shí)間窗和交互權(quán)向量加權(quán)的離群數(shù)據(jù)挖掘算法,既考慮到局部波動(dòng)因素,又兼顧數(shù)據(jù)整體的波動(dòng)性,對(duì)催化裂化裝置離線數(shù)據(jù)中的離群數(shù)據(jù)加以有效識(shí)別,提高了催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別的準(zhǔn)確性,進(jìn)一步提高了催化裂化裝置數(shù)據(jù)的可靠性,為軟測(cè)量等后續(xù)應(yīng)用提供高質(zhì)量的原始數(shù)據(jù)。
圖9為本發(fā)明實(shí)施例中用于催化裂化裝置數(shù)據(jù)中離群數(shù)據(jù)識(shí)別的電子設(shè)備的結(jié)構(gòu)示意圖,如圖9所示,所述裝置可以包括:處理器(processor)901、存儲(chǔ)器(memory)902和通信總線903,其中,處理器901,存儲(chǔ)器902通過通信總線903完成相互間的通信。處理器901可以調(diào)用存儲(chǔ)器902中的邏輯指令,以執(zhí)行如下方法:按照預(yù)設(shè)采樣時(shí)間獲取催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,獲得所述原始屬性值的時(shí)間序列集合,所述原始屬性值包括:所述生產(chǎn)數(shù)據(jù)的溫度、壓力、流量和殘?zhí)恐?;使用滑?dòng)時(shí)間窗對(duì)所述時(shí)間序列集合進(jìn)行重構(gòu),獲得所述原始屬性值的子序列集合,所述子序列集合中包括多個(gè)子序列;獲取所述子序列集合的交互權(quán)值向量,根據(jù)所述交互權(quán)值向量和所述子序列集合,構(gòu)建加權(quán)序列集合,所述加權(quán)序列集合中包括多個(gè)加權(quán)子序列;獲取所述加權(quán)序列集合中各個(gè)所述加權(quán)子序列的局部離群因子,根據(jù)所述局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
此外,上述的存儲(chǔ)器902中的邏輯指令可以通過軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
本發(fā)明實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行上述各方法實(shí)施例所提供的方法,例如包括:按照預(yù)設(shè)采樣時(shí)間獲取催化裂化的生產(chǎn)數(shù)據(jù)的原始屬性值,獲得所述原始屬性值的時(shí)間序列集合,所述原始屬性值包括:所述生產(chǎn)數(shù)據(jù)的溫度、壓力、流量和殘?zhí)恐?;使用滑?dòng)時(shí)間窗對(duì)所述時(shí)間序列集合進(jìn)行重構(gòu),獲得所述原始屬性值的子序列集合,所述子序列集合中包括多個(gè)子序列;獲取所述子序列集合的交互權(quán)值向量,根據(jù)所述交互權(quán)值向量和所述子序列集合,構(gòu)建加權(quán)序列集合,所述加權(quán)序列集合中包括多個(gè)加權(quán)子序列;獲取所述加權(quán)序列集合中各個(gè)所述加權(quán)子序列的局部離群因子,根據(jù)所述局部離群因子識(shí)別出催化裂化裝置數(shù)據(jù)中的離群數(shù)據(jù)。
以上實(shí)施例僅用于說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。