欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于拉格朗日插值與時(shí)間序列的預(yù)測方法與流程

文檔序號:12748289閱讀:1115來源:國知局
一種基于拉格朗日插值與時(shí)間序列的預(yù)測方法與流程

本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種基于拉格朗日插值與時(shí)間序列的預(yù)測方法。



背景技術(shù):

伴隨著計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的迅猛發(fā)展,大數(shù)據(jù)時(shí)代已然到來。出現(xiàn)信息量爆增的現(xiàn)象,從中找到有用信息的難度也日益加大,導(dǎo)致各行業(yè)對數(shù)據(jù)挖掘技術(shù)的意愿越來越強(qiáng)烈。數(shù)據(jù)預(yù)測是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)極其重要的課題,通過對大量數(shù)據(jù)進(jìn)行清洗,修復(fù)殘缺的數(shù)據(jù)、糾正錯(cuò)誤的數(shù)據(jù)和去除多余的數(shù)據(jù),挖掘出之前不知道的關(guān)系,并用這些關(guān)系預(yù)測出未知的結(jié)果。在采集數(shù)據(jù)時(shí),有時(shí)會因?yàn)閮x器的故障或操作的問題等原因,導(dǎo)致觀測到的數(shù)據(jù)沒能如實(shí)填寫下來。當(dāng)有缺失值時(shí),就破壞了數(shù)據(jù)的順序性,破壞了系統(tǒng)的連續(xù)性,對結(jié)果的分析造成重大影響。處理缺失值的方法可分為三類:刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。具體情況還要具體分析,如果通過簡單地刪除缺失的記錄進(jìn)行分析,并且也能取得預(yù)期效果,那么刪除含有缺失值的記錄這種方法是毫無疑問是最有效的。但是,這種方法在許多情況下有很大的缺點(diǎn)。它是以減少歷史數(shù)據(jù)為代價(jià),導(dǎo)致數(shù)據(jù)中一些可能的關(guān)系未能挖掘出。尤其是在數(shù)據(jù)集本來就包含很少記錄的情況下,刪除少量記錄可能會嚴(yán)重影響到分析結(jié)果的客觀性和正確性。樣本中的個(gè)別值遠(yuǎn)離序列一般水平的極端大值和極端小值。在數(shù)據(jù)預(yù)處理時(shí),異常值是否剔除,需視具體情況而定,因?yàn)橛行┊惓V悼赡芴N(yùn)含著有用的信息。在很多情況下,要先分析異常值出現(xiàn)的可能原因,再判斷異常值是否應(yīng)該舍棄,如果是正確的數(shù)據(jù),可以直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建模。將含有異常值的記錄直接刪除這種方法簡單易行,但缺點(diǎn)也很明顯。在觀測值很少的情況下,刪除會造成樣本量不足,可能會改變變量的原有分布,從而造成分析結(jié)果的不準(zhǔn)確。把異常值看作缺失值的優(yōu)點(diǎn)是可以擴(kuò)充歷史數(shù)據(jù),使對序列的分析結(jié)果更準(zhǔn)確。

時(shí)間序列預(yù)測作為數(shù)據(jù)挖掘中的預(yù)測方法之一,在科研、商業(yè)數(shù)據(jù)分析中占據(jù)了很重要的地位。傳統(tǒng)的時(shí)間序列預(yù)測方法對于一些缺失值和異常值僅僅是做了簡單的處理或者是不處理,這樣可能導(dǎo)致后面預(yù)測的準(zhǔn)確性降低。本發(fā)明是在研究上述技術(shù)基礎(chǔ)上,提出采用拉格朗日插值法與時(shí)間序列分析相結(jié)合的新型方法,先是在時(shí)間序列分析的基礎(chǔ)上使用拉格朗日插值法更加方便快捷處理數(shù)據(jù)清洗過程中的缺失值、異常值,再應(yīng)用時(shí)間序列分析建立ARIMA模型,對未來值進(jìn)行較為準(zhǔn)確地預(yù)測,取得了良好的效果。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明目的是提出一種基于拉格朗日插值法與時(shí)間序列分析的數(shù)據(jù)預(yù)測方法,簡稱時(shí)拉結(jié)合法,解決了因直接將時(shí)間序列分析預(yù)測方法應(yīng)用到不完整的原始數(shù)據(jù)上而導(dǎo)致預(yù)測結(jié)果偏離、準(zhǔn)確性降低等問題,提高了數(shù)據(jù)預(yù)測準(zhǔn)確性。

本發(fā)明的技術(shù)方案是在數(shù)據(jù)預(yù)處理、數(shù)據(jù)預(yù)測和數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上,利用拉格朗日插值法對缺失值與異常值進(jìn)行預(yù)處理,將缺失值和異常值填補(bǔ)完整,保留了歷史數(shù)據(jù),為后續(xù)的數(shù)據(jù)挖掘提供了數(shù)據(jù)基礎(chǔ),在預(yù)處理數(shù)據(jù)的基礎(chǔ)上,應(yīng)用時(shí)間序列分析法預(yù)測未來值,即一種基于拉格朗日插值法與時(shí)間序列的數(shù)據(jù)預(yù)測方法,具體步驟如下:

步驟1:對于原始數(shù)據(jù)進(jìn)行分析,對于數(shù)據(jù)缺失值利用逐行掃描方式查看是否有缺失值,而對于異常值檢測采取與設(shè)定正常取值范圍逐一比對,范圍之外的值標(biāo)記為異常值,對于檢測出的缺失值與異常值進(jìn)行標(biāo)記。

步驟2:對步驟1中檢測出有問題的數(shù)據(jù)利用拉格朗日插值法進(jìn)行預(yù)處理,得到清理、整理后的數(shù)據(jù)。

步驟3:對于步驟2中清理后的數(shù)據(jù)進(jìn)行純隨機(jī)性檢驗(yàn)(白噪聲檢驗(yàn)),若為純隨機(jī)序列則結(jié)束,若不為純隨機(jī)序列則進(jìn)入步驟4。

步驟4:對于步驟3中清理后的數(shù)據(jù)進(jìn)行序列平穩(wěn)性檢驗(yàn),若不是平穩(wěn)序列則進(jìn)入步驟5進(jìn)行差分直至平穩(wěn)為止,若是則進(jìn)入步驟6。

步驟5:對于步驟4中序列為非平穩(wěn)序列,進(jìn)行非平穩(wěn)時(shí)間序列分析。

步驟6:對步驟4中的數(shù)據(jù)進(jìn)行平穩(wěn)時(shí)間序列分析。

步驟7:對于符合步驟3和步驟4的數(shù)據(jù)序列進(jìn)行ARIMA模型的擬合。

步驟8:將應(yīng)用時(shí)拉結(jié)合法處理后的數(shù)據(jù)存入數(shù)據(jù)庫中,得出預(yù)測值。

附圖說明

圖1基于拉格朗日插值與時(shí)間序列的預(yù)測方法流程圖

圖2平穩(wěn)時(shí)間序列ARMA模型建模步驟

圖3差分平穩(wěn)時(shí)間序列的建模步驟

具體實(shí)施方式

參考圖1為基于拉格朗日插值與時(shí)間序列的預(yù)測方法流程圖。本發(fā)明針對因直接將時(shí)間序列分析預(yù)測方法應(yīng)用到不完整的原始數(shù)據(jù)上而導(dǎo)致預(yù)測結(jié)果偏離、準(zhǔn)確性降低等問題,提出一種基于拉格朗日插值法與時(shí)間序列分析的數(shù)據(jù)預(yù)測方法,簡稱時(shí)拉結(jié)合法,提高了數(shù)據(jù)預(yù)測準(zhǔn)確性。該模型主要分兩部分:利用拉格朗日插值法進(jìn)行數(shù)據(jù)預(yù)處理,對預(yù)處理后的數(shù)據(jù)利用時(shí)間序列分析方法進(jìn)行預(yù)測。

具體步驟如下:

步驟1:對于原始數(shù)據(jù)進(jìn)行分析,對于數(shù)據(jù)缺失值利用逐行掃描方式查看是否有缺失值,而對于異常值檢測采取與設(shè)定正常取值范圍逐一比對,范圍之外的值標(biāo)記為異常值,對于檢測出的缺失值與異常值進(jìn)行標(biāo)記。

步驟2:對步驟1中檢測出有問題的數(shù)據(jù)利用拉格朗日插值法進(jìn)行預(yù)處理,得到清理、整理后的數(shù)據(jù)。

根據(jù)數(shù)學(xué)知識可知,對于平面上已知的n個(gè)點(diǎn)(無兩點(diǎn)在一條直線上)可以找到一個(gè)n-1次多項(xiàng)式y(tǒng)=a0+a1x+a2x2+…+an-1xn-1,使此多項(xiàng)式曲線過n個(gè)點(diǎn)。

(1)求已知的過n個(gè)點(diǎn)的n-1次多項(xiàng)式:

y=a0+a1x+a2x2+…+an-1xn-1

將n個(gè)點(diǎn)的坐標(biāo)(x1,y1),(x2,y2),…,(xn,yn)代入多項(xiàng)式,并解出拉格朗日插值多項(xiàng)式為:

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> </mfrac> </mrow>

(2)將缺失的函數(shù)值對應(yīng)的點(diǎn)x代入插值多項(xiàng)式得到缺失值的近似值L(x)。

對于步驟1中有問題的數(shù)據(jù)處理成缺失值,應(yīng)用拉格朗日插值法進(jìn)行處理,處理核心代碼如下:

步驟3:對于步驟2中清理后的數(shù)據(jù)進(jìn)行純隨機(jī)性檢驗(yàn)(白噪聲檢驗(yàn)),若為純隨機(jī)序列則結(jié)束,若不為純隨機(jī)序列則進(jìn)入步驟4。

如果一個(gè)序列是純隨機(jī)序列,那么是指該序列是一個(gè)無用的序列,它的序列值之間應(yīng)該沒有任何的聯(lián)系,即滿足γ(k)=0,k≠0,當(dāng)然這種情況不會真正出現(xiàn),因?yàn)樽韵嚓P(guān)系數(shù)不會為0,只會接近于0。

純隨機(jī)性檢驗(yàn)(白噪聲檢驗(yàn))所用方法一般是構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,其中常用的檢驗(yàn)統(tǒng)計(jì)量有Q統(tǒng)計(jì)量、LB統(tǒng)計(jì)量,由樣本各延遲期數(shù)的自相關(guān)系數(shù)可以計(jì)算得到檢驗(yàn)統(tǒng)計(jì)量,然后計(jì)算出對應(yīng)的P值,如果P值顯著大于顯著性水平a,則表示該序列不能拒絕純隨機(jī)的原假設(shè),可以停止對該序列的分析。

步驟4:對于步驟3中清理后的數(shù)據(jù)進(jìn)行序列平穩(wěn)性檢驗(yàn),若不是平穩(wěn)序列則進(jìn)入步驟5進(jìn)行差分直至平穩(wěn)為止,若是則進(jìn)入步驟6。

對于隨機(jī)變量X,可以計(jì)算其均值(數(shù)學(xué)期望)μ、方差σ2;對于兩個(gè)隨機(jī)變量X和Y,可以計(jì)算X,Y的協(xié)方差cov(X,Y)=E[(X-μX)(Y-μY)]和相關(guān)系數(shù)它們度量了兩個(gè)不同事件之間的相互影響程度。

如果時(shí)間序列{Xt,t∈T}在某一常數(shù)附近波動且波動范圍有限,即有常數(shù)均值和常數(shù)方差,并且延遲k期的序列變量的自協(xié)方差和自相關(guān)系數(shù)是相等的或者說延遲k期的序列變量之間的影響程度是一樣的,則稱{Xt,t∈T}為平穩(wěn)序列。

對序列的平穩(wěn)性的檢驗(yàn)有兩種檢驗(yàn)方法,一種是根據(jù)時(shí)序圖和自相關(guān)圖現(xiàn)實(shí)的特征做出判斷的方法,該方法十分簡單快捷,但是缺點(diǎn)就是要自己來判斷,主觀性太強(qiáng);另一種方法是構(gòu)造檢驗(yàn)統(tǒng)計(jì)量進(jìn)行檢驗(yàn),目前單位根檢驗(yàn)法主要的檢驗(yàn)法。

(1)數(shù)據(jù)圖檢驗(yàn)

根據(jù)平穩(wěn)時(shí)間序列的均值和方差都為常數(shù)的性質(zhì),得到平穩(wěn)序列的數(shù)據(jù)圖應(yīng)該顯示序列的值在一個(gè)常數(shù)值附近進(jìn)行隨機(jī)波動,而且波動的范圍有界、無明顯趨勢性和周期性。

(2)自相關(guān)圖檢驗(yàn)

平穩(wěn)序列通常都具有短期相關(guān)性,這個(gè)性質(zhì)也就是說平穩(wěn)序列中只有近期的數(shù)據(jù)對某數(shù)據(jù)的影響較大,相關(guān)性較大。對于如何區(qū)分序列的平穩(wěn)性,是指隨著延遲期數(shù)k的增加,序列的自相關(guān)系數(shù)延遲k期衰減趨于零的速度不同,平穩(wěn)的較快。

(3)單位根檢驗(yàn)

檢驗(yàn)序列是否有單位根,平穩(wěn)序列是沒有單位根的。

步驟5:對于步驟4中序列為非平穩(wěn)序列,進(jìn)行非平穩(wěn)時(shí)間序列分析。

可是在實(shí)際生活中,多數(shù)時(shí)間序列都是非平穩(wěn)的序列。因此對非平穩(wěn)時(shí)間序列的分析是十分至關(guān)重要的,所需的處理方法也越來越多。對非平穩(wěn)時(shí)間序列的分析方法可以分為確定性因素分解的時(shí)序分析和隨機(jī)時(shí)機(jī)時(shí)序兩大類:

確定性因素分解的方法把所有序列的變化都?xì)w結(jié)為四個(gè)因素(長期趨勢、季節(jié)變化、循環(huán)變化和隨機(jī)變化)的綜合影響,其中長期趨勢和季節(jié)變化還算是有其規(guī)律,容易捕捉,但是隨機(jī)變化是很難捕捉與分析。

基于確定性因素分解方法的不足,隨機(jī)時(shí)序分析應(yīng)用而生。根據(jù)序列的不同特點(diǎn),隨機(jī)時(shí)序分析可以建立的模型有ARIMA模型、殘差自回歸模型、季節(jié)模型、異方差模型等。下面重點(diǎn)介紹ARIMA模型對非平穩(wěn)時(shí)間序列進(jìn)行建模。

1)差分運(yùn)算

p階差分:相距1期的兩個(gè)序列值之間的減法運(yùn)算稱為1階差分運(yùn)算。

2)ARIMA模型

對于生活中我們所遇到的非平穩(wěn)時(shí)間序列,如果對它們差分后成為了平穩(wěn)序列,則稱這個(gè)序列為差分平穩(wěn)序列,對此我們建立ARIMA模型進(jìn)行處理。ARIMA模型其實(shí)就是差分運(yùn)算與ARIMA模型的組合。

步驟6:對步驟4中的數(shù)據(jù)進(jìn)行平穩(wěn)時(shí)間序列分析。

對于平穩(wěn)時(shí)間序列的處理通常采用ARMA模型(自回歸移動平均模型)進(jìn)行處理,具體地它又劃分為AR模型、MA模型和ARMA三類,這三類都是多元線性模型。

(1)滿足以下公式的模型稱為P階自回歸模型,簡記為AR(P):

xt=φ01xt-12xt-2+…+φpxt-pt

即在t時(shí)刻的隨機(jī)變量Xt的取值xt是前P期xt-1,xt-2,…,xt-p的多元線性回歸,認(rèn)為xt主要受過去P期序列值的影響。誤差項(xiàng)是當(dāng)期的隨機(jī)干擾εt,其為零均值白噪聲序列。

(2)滿足以下公式的模型稱為q階自回歸模型,簡記為MA(q):

xt=μ+εt1εt-12εt-2-…-θqεt-q

即在t時(shí)刻的隨機(jī)變量Xt的取值xt是前q期的隨機(jī)擾動εt-1,εt-2,…,εt-q的多元線性函數(shù),誤差項(xiàng)是當(dāng)期的隨機(jī)干擾εt,其為零均值白噪聲序列,μ是序列{Xt}的均值。認(rèn)為xt主要是受過去q期的誤差項(xiàng)的影響。

(3)滿足以下公式的模型稱為自回歸移動平均模型,簡記為ARMA(p,q):

xt=φ01xt-12xt-2+…+φpxt-pt1εt-12εt-2-…-θqεt-q

即在t時(shí)刻的隨機(jī)變量Xt的取值xt是前P期xt-1,xt-2,…,xt-p和前q期εt-1,εt-2,…,εt-q的多元線性函數(shù),誤差項(xiàng)是當(dāng)期的隨機(jī)干擾ε1,為零均值白噪聲序列。認(rèn)為Xt主要是受過去P期的序列值和過去q期的誤差項(xiàng)的共同影響。

特別應(yīng)注意,當(dāng)q=0時(shí),是AR回模型;當(dāng)p=0時(shí),是MA(q)模型。

當(dāng)某個(gè)時(shí)間序列經(jīng)過預(yù)處理后,已經(jīng)被判定為平穩(wěn)且非白噪聲序列,就可以利用ARMA模型進(jìn)行建模。首先計(jì)算出平穩(wěn)非白噪聲序列{Xt}的自相關(guān)系數(shù)和偏自相關(guān)系數(shù),再由模型AR(p)、MA(q)和ARMA(p,q)的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的性質(zhì),選擇最優(yōu)的模型。圖2為平穩(wěn)時(shí)間序列建模的步驟。

(1)計(jì)算ACF和PACF

先計(jì)算非平穩(wěn)白噪聲序列的自相關(guān)系數(shù)(ACF)和偏自相關(guān)系數(shù)(PACF)。

(2)ARMA模型識別

對于模型的識別,也就是定階,我們由AR(p)模型、MA(q)模型和ARMA(p,q)模型的自相關(guān)系數(shù)與偏自相關(guān)系數(shù)的性質(zhì),選擇最優(yōu)的模型。對于每個(gè)模型的識別原則大同小異。

(3)估計(jì)模型中未知參數(shù)的值并進(jìn)行參數(shù)檢驗(yàn)。

(4)模型檢驗(yàn)

(5)模型優(yōu)化

(6)模型應(yīng)用:短期預(yù)測

步驟7:對于符合步驟3和步驟4的數(shù)據(jù)序列進(jìn)行ARIMA模型的擬合,圖3為差分平穩(wěn)時(shí)間序列的建模步驟。

對于模型的定階,本發(fā)明采用準(zhǔn)則BIC法,即相對最有模型識別法:計(jì)算ARIMA(p,q)當(dāng)p和q均小于等于5的所有組合的BIC信息量,取其中BIC信息量達(dá)到最小的模型階數(shù)。

部分偽代碼如下:

步驟8:將應(yīng)用時(shí)拉結(jié)合法處理后的數(shù)據(jù)存入數(shù)據(jù)庫中,得出預(yù)測值。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
宁阳县| 崇义县| 英山县| 信宜市| 淳化县| 库车县| 郁南县| 杭锦后旗| 潢川县| 怀柔区| 师宗县| 新闻| 石棉县| 浦东新区| 彭山县| 桐城市| 自贡市| 大余县| 银川市| 鄢陵县| 新晃| 安丘市| 广南县| 驻马店市| 三门峡市| 安阳市| 仙居县| 新源县| 新疆| 南和县| 青阳县| 隆德县| 内乡县| 镶黄旗| 平武县| 眉山市| 南汇区| 饶河县| 瑞昌市| 建水县| 天镇县|