專利名稱:構建時間序列模型的系統(tǒng)與方法
技術領域:
本發(fā)明涉及為時間序列指定模型的方法和計算機系統(tǒng)。
背景技術:
人們迫切期望能夠準確地建立模型并預測事件,特別是在當今的 商業(yè)環(huán)境中。準確建模將會幫助人們預測未來事件,從而做出更好的 決策以獲得更好的成績。因為與未來趨勢相關的可靠信息是非常有價 值的,所以許多組織花費了大量的人力與財力資源,試圖預測未來趨 勢和分析這些趨勢最終可能產生的結果。預測的一個基本目的在于降 低風險和不確定性。商業(yè)決策依賴于預測。因此,預測在許多計劃過 程中是一個必不可少的工具。
人們使用兩類模型來創(chuàng)建預測模型,即指數平滑模型和自回歸求 和滑動平均(ARIMA)模型。指數平滑模型描述了隨時間變化的一系 列值的變化過程,而它沒有試圖去理解這些值如此變化的原因。在現(xiàn) 有技術中,存在著幾種不同的指數平滑模型。與之不同的是,ARIMA統(tǒng) 計模型允許建模者詳細說明時間序列中過去值在預測該時間序列將 來值中所起的作用。ARIMA模型也允許建模者在模型中包含預測因 子,這些可能有助于解釋正在被預測的時間序列的變化過程。為了有效地預測某一趨勢或時間序列中的將來值,必須創(chuàng)建描述 該時間序列適合的模型。而創(chuàng)建能夠最準確反映時間序列過去值的模 型是預測過程中最困難的方面。更好預測的關鍵在于從過去數據得出 更優(yōu)模型。以前,為反映時間序列中數值而選擇的模型要么相對簡單、 直接,要么基本上全部需要由建模者本人進行長時間而又乏味的數學 分析才能得到結果。這樣,這種模型要么相對簡單而經常不能有效指 示時間序列的未來值,要么花費大量人力與財力也許與較簡單模型相 比并沒有更好的成功機會。最近,隨著更好的電子計算機硬件的出現(xiàn), 大量預測建模方面都可以由計算機快速地完成。然而,以前的計算機 軟件預測解決方案受到了限制,因為用來評估歷史數據的模型數量有 限,且一般來說階數較低,雖然潛在地存在無數個可用以比較時間序 列的模型。
由于找到用來擬合數據序列的最優(yōu)模型要求進行某種迭代數據 分析過程,所以建模進一步復雜化。為了保證有效性、精確性和可靠 性,統(tǒng)計模型被設計、測試和評估。根據這些評估得出的結論,模型 被不斷地更新以反映評估過程的結果。過去,由于建模者自身的限制, 以及基于計算機的軟件解決方案缺乏靈活性,所以這種迭代程序非常 繁瑣、費力,效率通常也很低。
模型建立過程通常包括由以下三個階段構成的迭代循環(huán)(1)模 型確定;(2)模型評估;(3)診斷檢驗。 一般情況下,模型確定是 建模過程中最困難的方面。這一階段包括確定差分階數、自回歸(AR) 階數以及滑動平均(MA)階數。通常在確定AR和MA階數之前要確 定差分階數。 一種廣泛地用來確定差分的經驗方法是使用一種自相關 函數(ACF)曲線,采用這種方法時,如果ACF失效而衰減得很快, 則表明需要差分。存在若干個確定是否需要差分的規(guī)范檢驗方法,例 如,這些方法中最普遍使用的是Dickey-Fuller檢驗。然而,當需 要多次和季節(jié)差分時,這些規(guī)范的測試方法均不是很有效。本發(fā)明使
7用的是基于Tiao和Tsay的一種回歸方法(1983) 。 Dickey-Fuller 檢驗是這種方法的一個特例。
序列經適當差分后,下一步任務就是要找出AR和MA的階數。 在一元ARIMA模型識別中,有以下兩類方法模式識別法和補償函 數法。在各種模式識別法中,廣泛采用的是ACF模式和部分自相關 函數(PACF)模式。PACF用于確定純AR模型的AR階數,而ACF用 于確定純MA模型的MA階數。對于同時出現(xiàn)AR和MA分量的ARIMA 模型,因為ACF和PACF中沒有清除模式,所以ACF和PACF識別 法是失效的。其它的模式識別方法包括R和S陣列法(Gary等 人,1980)、隅角法(Begun等人,1980)、最小典型相關法(Tsay與 Tiao, 1985)以及廣義自相關函數(EACF)法(Tsay與Tiao, 1984)。提出這些方法用以同時確定ARIMA模型的AR和MA階數。 在模式確定方法中,最有效且最容易使用的方法是EACF。
補償函數法為評估類型的確定過程。它們用于選取使補償函數P (i, j, k,l)值最小化的ARMA (p, q) (P, Q)模型的階數,其中0 《i《l,0《j《丄0《k《K, 0《1《L。有多種補償 函數,如使用最廣泛的AIC (Akaike信息準貝lj)和BIC (Bayesian信 息準則)。補償函數法涉及擬合所有可能的(1+1) (J+l) (K+l) (L+l) 個模型,計算每一個模型的補償函數,以及選出補償函數值最小的模 型。選擇的I, J, K禾n L的取值必須足夠大以覆蓋p, q, P和Q的 真值。即使必需的I=J=3禾B K=L=2也會產生出144種可能的模型 來擬合。這一過程可能非常耗時,而且I, J, K, L的值也有可能太 低而無法覆蓋真值模型階數。
雖然識別方法在運算上比補償函數法快,但模式識別法不能很好 地確定季節(jié)AR和MA階數。本發(fā)明中的方法使用的是模式識別法, 它通過使用ACF, PACF禾n EACF模式來確定非季節(jié)AR和MA階數。季節(jié)AR和MA階數被初始化為P=Q=1,而留到模型評估和診斷檢驗
階段再修正它們。
因此,需要一種對具有單個用戶的最少輸入的數據序列精確擬合 統(tǒng)計模型的系統(tǒng)和方法。進一步還需要一種更靈活與復雜的模型構造 器,它使單個用戶能夠創(chuàng)建更優(yōu)模型并能用于改善以前的模型。也需 要一種對創(chuàng)建的模型進行敏感性分析的系統(tǒng)和方法。
發(fā)明內容
根據本發(fā)明一方面,提供一種基于一元和多元時間序列構造統(tǒng)計 模型的計算機系統(tǒng)與方法。
通過不斷復雜的ARIMA統(tǒng)計建模技術,本發(fā)明的系統(tǒng)和方法允 許根據過去值(一元建模)或觀察的過去值的組合連同其它時間序列 (多元建模)來建立模型和預測。
在本申請中,Y (t)代表將要被預測的時間序列。 一元ARIMA模型數學上可以表示為如下形式 0(5)①(F )(l — (1 —萬5 f FW = A + 6>08) (F )a0)
其中
自回歸(AR)多項式為
非季節(jié) 0(5) = (1 — ^,5-----<^50,
季節(jié) = —(D,W-----①pW),
滑動平均(MA)多項式為
一一季節(jié) 6 (5) = (1 —《5——《59),
季節(jié) 0(丑s卜(l-0i^——
為一個白噪聲序列, S為季節(jié)長度,且
萬為反向移動算子,其使得BY(t) = Y (t-l)。d與D為非季節(jié)和季節(jié)差分階數,p和P為非季節(jié)和季節(jié)AR階 數,q和Q為非季節(jié)和季節(jié)MA階數。
該模型被表示為〃ARIMA (p, d, q) (P, D, Q)〃。按照ARIMA (p, d, q) (P, D, Q)模型,有時該模型為f (Y (t)),即對Y (t)的 適當變換而不是Y (t)本身。在本發(fā)明中,變換函數f (.)可以是 自然對數或是平方根。變換函數f (.)也稱作"方差穩(wěn)定"變換和 差分 〃水平穩(wěn)定〃 變換。如果Y (t)遵循ARIMA (p, d, q) (P, D, Q)模型,那么對Y(t)進行d次非季節(jié)差分和D次季節(jié)差分后, 它就變成了一個平穩(wěn)模型,表示為ARMA (p, q) (P, Q)。 一些簡短 的符號表示法用于特定情況,例如,非季節(jié)模型記作ARIMA (p, d, q)、季節(jié)AR模型記作AR (p) (P),而非季節(jié)AR模型記作AR (p)。
在模型確定階段,構造模型過程的第一階段,選擇適當的變換函 數f 、差分階數d和D、 AR階數p禾n P、 MA階數q和Q。在
模型評估階段,將己確定的模型與數據序列進行擬合,以便得出參數 y、W二、 W}L、掛化'的評估。評估結果可能建議一些參數
為零而應從該模型中刪除。在診斷檢驗階段,確定被選擇的模型是否 與數據擬合;當該被選擇的模型與數據不擬合時,建議如何修改模型 從而開始下一迭代循環(huán)。自從1976年Box與Jenkins合著的 〃時 間序列分析,預測與控制〃 一書發(fā)行出版后,ARIMA模型和三階段模 型建立過程開始流行起來。
當其它序列(L(t), X2(t),..., XK(t))影響到要被預測的時間 序列Y (t)時,適合采用多元模型。本發(fā)明中考慮的多元ARIMA模 型實際上是Box與Jenkins合著的 〃時間序列分析,預測與控制〃 (1976)—書中的轉換函數模型。這種模型在數學上能夠表示為
(1 _ B" (1 — 5s)Dr(O = // + |>, (5)(1 — 5" (1 — 5s)D'義,(,)+ iV(,),
其中"'(収1-^'(1-W"是Xi(t)的轉換函數。v (B)的形式為其中b稱作延遲滯后,h為分子多項式的階數,r為分母的階數。
N (t)為遵循零均值一元ARMA (p, q) (P, Q)模型的干擾序列。 如同一元模型中的情況,Y (t)禾Q Xi (t)可以由各自經適當變換的 形式f (Y(t))和fi(Xi (t))取代。確定多元ARIMA模型包括找出 差分階數d、 D; Y (t)的適當變換f (.); fi (.)以及轉換函數,
包括找出延遲滯后、每個Xi(t)的分子和分母的階數;以及干擾序
列N (t)的ARMA階數。除了確定階段和評估階段之間的相互作用 更強以外,這里應用的是三階段模型構建迭代循環(huán)。
對于多元ARIMA模型,Box和Jenkins (1976)提出了一種涉 及預白化技術的模型建立過程。他們的方法僅在有一個預測因子的情
況下才有效在有一個以上的預測因子的情況下,則這種預白化技術
是不適用的。針對這種情況,Liu和Hanssens (1982)提出了線性 轉換函數(LTF)法。LTF法概括如下
1. 對于"充分"大的值m,擬合模型,其形式為 n^d +不K)+^5 +…fl^"義,(,)+竭,以及對于s = l,初始的N
(t)遵循模型AR (1);對于s > 1,初始N(t)遵循模型AR (1) (1)。
2. 檢查被評估的干擾序列N (t)是否穩(wěn)定。如果不穩(wěn),則差 分Y與X序列。為差分的序列擬合同一模型。
3. 利用每個預測因子序列的評估系數,指定試用的有理轉換 函數,并為N (t)指定試用的ARIMA模型。
4. 擬合該模型,并檢驗合適性。如果不合適,則返回到第3步。
除一些細微差別外,本發(fā)明的方法在兩個重要的方面不同于LTF 方法:首先,在初始模型前刪除一些預測因子序列。這使以后模型評 估更容易、更精確。第二,通過一元ARIMA過程找到的Y (t)的AR和MA階數被用于初始模型中的N (t)。這避免了 N (t)的模型識別, 并使參數評估更精確。
根據本發(fā)明,提供一種使用計算機確定時間序列的一元ARIMA 模型階數的方法。該方法包括將包括分離數據值組成的該時間序列 輸入到計算機;將該時間序列的季節(jié)循環(huán)長度輸入到計算機;以及確 定該時間序列是否有任何丟失的數據值。如果有任何數據值丟失,將 至少一個(優(yōu)選地是所有的)嵌入的丟失值估算到該時間序列中。
對于一時間序列,假定第一值和最后值均未丟失。如果用戶有一 個第一值和/或最后值丟失的序列,則通過刪除丟失的初值和末值來 縮短該序列??s短序列不是部分專家建模器系統(tǒng)當數據序列首次輸 入時,它在DecisionTimeTM中執(zhí)行。這是一個慣例。在專家系統(tǒng)中, 接收到的序列是縮短的序列,其中對所有丟失值都進行了估算 (impute)。
確定時間序列的分離數據值以及任何估算數據值是否都是正數。 如果有必要,對由正值組成的時間序列進行變換。然后確定該時間序 列的差分階數。此后,構造初始ARIMA模型用于時間序列,如果有 必要,根據迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF,修 正初始ARIMA模型,以生成修正的ARIMA模型。
根據本發(fā)明的另一方面,本發(fā)明也提供一種使用計算機確定時間 序列的多元ARIMA模型的階數的方法。該方法包括將該時間序列 輸入計算機;將該時間序列的季節(jié)長度輸入計算機,以及將包括數值 表示的預測因子、干預以及事件中的至少一種類型輸入到計算機。由 以上所描述的方法確定該時間序列的一元ARIMA階數,以及確定這 些類型的輸入中是否有一個或多個丟失值。刪除具有一個或多個丟失 值的輸入類型。通過使用與要預測的時間序列相同的變換和差分階 數,對這些輸入類型進行變換與差分。根據互相關函數(CCF),可 以對一些已輸入的預測因子進行進一步差分或刪除。根據為時間序列、干預和事件找出的一元ARIMA、以及剩余的預測因子,為該時間 序列構造初始ARIMA模型。此后,根據迭代模型評估結果、診斷檢 驗以及殘差的ACF/PACF ,對初始ARIMA模型進行修正。
根據本發(fā)明,提供一種數據處理方法,用于在使用計算機預測未 來趨勢的任務中減少用戶輸入交互數量,該方法包括
將時間序列的分離數據值和季節(jié)循環(huán)長度輸入到所述計算機中 將包括由數字數據值表示的若干個預測因子、若干個干預和若干個事 件的至少一種類型輸入到該計算機;
指示該計算機執(zhí)行以下步驟a)確定該時間序列的ARIMA階數; b)除去具有至少一個丟失值的預測因子;c)如果在步驟a)中的 該時間序列被變換并且所剩余的預測因子僅包括正的數據值,則采用 應用于步驟a)中的該時間序列的相同變換,對預測因子進行變換;
d) 如果在步驟a)中的該時間序列被差分,則采用應用于步驟a)中 的該時間序列的相同差分階數,對所述的預測因子、干預和事件差分;
e) 根據該時間序列的ARIMA階數、干擾和事件、以及剩余的預測因 子,構造該時間序列的初始多元ARIMA模型;以及f)根據迭代模 型評估結果、診斷檢驗以及殘差的自相關函數/部分自相關函數,修 改該初始多元ARIMA模型;
通過計算機執(zhí)行所述指示的步驟,創(chuàng)建該時間序列的多元ARIMA 模型,從而減少用戶輸入交互的數量;以及利用該計算機創(chuàng)建的多元 ARIMA模型來預測未來趨勢。
根據本發(fā)明的又一方面,提供一種數據處理系統(tǒng),用于進行模型 化以預測未來趨勢,該系統(tǒng)包括
計算機處理器;
輸入裝置,用于將時間序列的數據以及包括由數字數據值表示的 若干個預測因子、若干個干預和若干個事件的至少一種類型接收到計 算機中;創(chuàng)建裝置,用于創(chuàng)建該時間序列的多元ARIMA模型,包括 a)確定裝置,用于確定該時間序列的ARIMA階數;b)除去 裝置,用于除去具有至少一個丟失值的預測因子;c) 構造裝 置,用于根據為該時間序列得出的ARIMA階數、干擾、事件、以 及剩余的預測因子,構造該時間序列的初始多元ARIMA模型;以 及d)修改裝置,用于根據迭代模型評估結果、診斷檢驗以及殘 差的自相關函數/部分自相關函數,修改該初始多元ARIMA模型;
預測裝置,用于利用該多元ARIMA模型來預測未來趨勢;以及
輸出裝置,用于提供預測的結果。
根據本發(fā)明的其他方面,本發(fā)明還提供包含實現(xiàn)前述方法的計算 機軟件的一種計算機系統(tǒng)及非易失存貯介質。
圖1為根據本發(fā)明的數據處理系統(tǒng)框圖。 圖2為根據本發(fā)明的一元ARIMA建模流程圖。 圖3為根據本發(fā)明的多元ARIMA建模流程圖。 圖4為本發(fā)明的一個實施例的時間序列曲線。 圖5為本發(fā)明一個實施例的曲線。
圖6A 、 6B為根據本發(fā)明的多元ARIMA模型應用的曲線圖。
具體實施例方式
參見附圖,特別是圖1,其中公開了根據本發(fā)明的數據處理系統(tǒng) 10的框圖。數據處理系統(tǒng)10具有由總線16連接的一個計算機處 理器12和存貯器14。存貯器14是一種相對高速的機器可讀介質, 該存貯器14包括如DRAM、 SRAM的易失存貯器以及如只讀存貯器 (ROM)、閃存(FLASH)、電可編程只讀存貯器(EPR0M)、電可擦 只讀存貯器(EEPR0M)和磁泡存貯器的非易失存貯器。與總線16相連的還有輔助存貯介質20、外存貯介質22、輸出設備(如計算機顯 示器24)、輸入設備(例如鍵盤(帶有鼠標)26)以及打印機28。 輔助存貯介質20包括機器可讀介質,例如硬盤驅動器、磁鼓以及磁 泡存貯器。外部存貯介質22包括機器可讀介質,如軟盤、可移動硬 盤驅動器、磁帶、CD-ROM,甚至也可能是通過通信線30連接的其它 計算機。圖示輔助存貯介質20和外部存貯介質22的區(qū)別主要是為 了方便描述本發(fā)明。應該理解的是,這些部件之間實際上有功能上的 重疊。根據本發(fā)明的計算機軟件和用戶程序能夠存貯在軟件存貯介質 中,例如存貯器14、輔助存貯介質20和外部存貯介質22中。例 如,計算機軟件32的可執(zhí)行部分能夠從非易失存貯器(例如,外部 存忙介質22, 二級存貯介質20或非易失存貯器)讀出,然后直接 載入易失存貯器中執(zhí)行,或者直接從非易失存貯器取出執(zhí)行,或者在 載入易失存貯器之前存貯在輔助存貯介質20上。
參見圖2,圖中提供的流程圖表示一種通過計算機用來從單個數 據元素的時間序列創(chuàng)建一元ARIMA模型的算法。 一元模型建立的算 法包括如下基本步驟
1. 找出合適的變換并對時間序列進行變換;
2. 確定時間序列(季節(jié)與非季節(jié))的差分(I)階數;
3. 確定時間序列的季節(jié)與非季節(jié)自回歸(AR)階數;以及
4. 確定時間序列的滑動平均(MA)季節(jié)與非季節(jié)階數。 優(yōu)選地,ARIMA模型的按照下述順序構造。然而本領域所屬專業(yè)
技術人員將意識到,統(tǒng)計建模的順序不需要按照下面討論的實施例中 所描述的嚴格的順序。
在能夠為時間序列創(chuàng)建ARIMA統(tǒng)計模型前,先將時間序列Y (t) 及其季節(jié)長度(或季節(jié)性周期)輸入到利用該算法的計算機程序中。 下一步,檢査時間序列用以確定已輸入的時間序列是否有任何丟失值。如果時間序列有任何丟失值,則將未出現(xiàn)的值按如下方式估算到 時間序列中
A. 估算丟失值
根據序列是否具有季節(jié)模式,使用最近的鄰近值或季節(jié)鄰近值,
按照線性內插就能夠估算出丟失值。丟失值的估算如下 確定是否有季節(jié)模式。
如果S = 1,則無季節(jié)模式。
If s 〉 1,計算序列的樣本ACF。時間序列Y (t)滯后為k的 ACF計算如下
g,-F)(r(, + "-F)
爿C,)^——^-,
F)2
戶i
其中n為序列長度,F(xiàn)為序列的均值。
如果對于所有前6個滯后,ACF具有的絕對t值均大于1.6, 則對時間序列進行非季節(jié)差分并計算差分序列的ACF。令m=max (ACF (l)至ACF (k)),其中當s《4時,k = s-l; 4 〈 s《9時, k= s—2;當s > 10時,k = 8。令m2 = max (ACF (s), ACF (2s))。 如果mi > m2,則認為沒有顯著的季節(jié)模式,否則具有季節(jié)模式。 季節(jié)模式的有無按如下方式進行考慮
無季節(jié)模式——使用最臨近的未丟失鄰近值,對丟失 值進行線性內插;及
存在季節(jié)模式——使用同一季節(jié)最臨近的未丟失數據 對丟失值進行線性內插。 如果有丟失值,它們在本步驟中進行估算。因此,人們可以假設 從現(xiàn)在起在時間序列中沒有丟失值。如果時間序列只包括正值,則時 間序列可按如下方式進行變換
B. 找出適合的變換優(yōu)選地,按照如下步驟找出適合的變換。對于正序列Y,在Y 、 log (Y)和Y的平方根上通過一般最小二乘方法(0LS)擬合高階AR (P)模型。比較每個模型的Y的對數似然函數。令I,為三種模型
的最大對數似然,以及l(fā)y為Y本身模型的對數似然。如果工,^ Iy,
且(1/n) Iy)與I (I隨-Iy)/Iyl均大于4%,則完成相應于L
的變換。否則,無需進行變換。
選擇階數p的規(guī)則如下當s《3時,則考慮AR (10);當4 《s《11時,則考慮AR (14);當s》12時,則考慮具有滯 后為1至6、 s至s+3、 2s至2s+2的高階AR模型(如果樣本大 小小于50,則丟掉大于等于2s的滯后)。
也要計算時間序列的差分階數。差分階數的確定分為兩步,(a) 和(b)。步驟(a)初步確定差分階數;步驟(b)進一步差分時間序 列。
C.找出差分階數
優(yōu)選地,按照如下步驟找出差分階數。
步驟(a)
當s = 1時
通過一般最小二乘法擬合模型Y (t) = c + 0, Y (t-l) +0)2 Y (t-2) + a (t)。對照表1中定義的臨界值,檢査Oi與02。如果(A 〉 C (1, 1)且-02 〉 C (1,2)},則取差分(1-B)2Y(t)。否則,擬合模型
Y (t) = c + 0Y (t-l) + a(t)。如果{| t(c) I 〈 2且0) 〉 C (2, 1)} 或{| "c) I "且(0-l)/se ((D) > C (3,1)},則取差分(1-B)
Y (t)。否則無差分。
其中s >1:
利用一般最小二乘法,擬合模型Y (t) = c + A Y (t-1) +02
Y (t-s) +03 Y (t-s-1) + a(t)。表2中定義了臨界值C (i, j)。 如果{0>! > C (1, 1)且02 > C (1,2)且-ct>3 > C(l, 1) C (1,2)},
17則取差分(1-B) (1-Bs) Y (t)。否則,如果A《02,擬合模型Y (t)=c + CD Y (t-s) + a (t)。如果{I t (c) I < 2且O 〉 C (2, 1)}或者{| t (c) I > 2且(O-l)/se (O) > C (3,1)},則取差分(l-B"Y(t)。
否則,如果0, 〉 02,擬合模型r &9 = c + 0 Y (t-1) + a (t)。如果{| t (c) I < 2且O 〉 C (4,1)}或{| t (c) I > 2且(0)-1)/se(cp) 〉C (5,1)},則取差分(1-B)rW。否則無差分。
步驟(b)
對于步驟(a)后的數據,現(xiàn)在這些數據表示為"Z (t)"。當s 二 1:
通過條件最小二乘(CLS)法,擬合ARMA (1, 1)模型(1-OB)Z(t)二 c + (1-6B) a (t)。 If 6 〉 0. 88且|0 - 6 I 〉 0. 12,則取差分(l-B)Z(t)。如果6 〈 0.88且與0.88相差得不太大(例如,如果0. 88 - O 〈 0.03),則應該檢驗Z的ACF。如果對于所有前6個滯后,ACF具有的絕對t值都大于1.6,則取差分(1-B) Z (t)。
當s > 1且未丟失Z的數量小于3s,則執(zhí)行與s = 1的情況相同的處理。
當s > 1且未丟失Z的數量大于或等于3s時
通過CLS法,擬合A腿(l, 1) (1, 1)模型(HB) (1-02BS) Z(t)=c + (l- 6必(1- 0 2 Bs) a (t)。
如果a禾卩o2都大于o.88,且Ia - |> o. 12且|o2 - e2
I 〉0.12,則取差分(1-B) (1-BS) Z (t)。如果只有0》0.88,且lA- 6i |〉 0. 12,則取差分(1-B) Z (t)。如果0)! < 0. 88但與0. 88相差不是太大(例如,如果0. 88 - < 0. 03),則應該檢驗Z的ACF。如果對于所有前6個滯后,ACF的t的絕對值都大于1. 6,則取差分(l-B)Z(t)。如果只有02 〉0,88,而|02 - e2 I〉 0.12,則取差分(1-Bs) Z
(t)。
重復步驟(b),直至無需差分。
找出正確的差分階數是一個活躍的研究領域。 一種廣泛采用的經驗法涉及使用ACF曲線找出序列是否需要差分。在這種方法中,如果序列的ACF顯著且下降得很慢,則差分該序列。如果差分序列的ACF仍然顯著且下降得很慢,則再次差分該序列,直到不需要差分為止。然而由于需要以太多的滯后計算ACF,所以此方法很難用于找出季節(jié)差分。
由于其理論的合理性,引發(fā)了人們對更規(guī)范測試的濃厚興趣。例如,規(guī)范測試有增強Dickey-Fuller測試(1979), Dickey, Hasza與Fuller測試(1984), Phillips-Perron測試(1988),以及Dickey與Pantula測試(1987)。然而這些測試均不能處理多重差分和季節(jié)差分。
步驟(a)中使用的方法基于Tiao和Tsay (1983)提出的方法,他們證明了對于ARIMA (p, d, q)模型,AR (k)回歸的一般最小二乘評估(其中k〉d)符合不穩(wěn)定AR系數。根據有限的樣本變化,步驟(a)從檢驗多重差分出發(fā),并將其降至單差分。此步驟應該能捕獲最常見的差分非季節(jié)序列的(1-B"和(1-B);季節(jié)序列的(1-B)(1-Bs), (l- Bs)禾口 (1-B)。
步驟(b)是如果步驟(a)錯過所有必要的差分時的后備步驟。
對于s二l,如表1所示,以及對于s 〉 1,如表2所示,確定步驟(a)中使用的臨界值。
表1
s = 1時,臨界侑C (i, .i)的定義C(l, 1)與C(l,2)- 當真值模型為(1-B)2Y(t)=a(t)時,在擬合模型Y(thc+①,Y(t -1)+ 0>2Y(t-2)+a(t)中的和-o2的臨界值。
C (2, 1) -- 當真值模型為(1-B) Y (t) = a (t)時,在擬合模型Y (t) = c +①Y (t-1) + a (t)中0)的
臨界值。
C (3. 1) -- 當真值模型為(1-B) Y (t) = c。
+ a (t)時,c。#0,在擬合模型Y (t) = c + OY (t-1) +a (t)中(O-l)/se(0)的臨界值。
s 〉 1時,臨界信C (i, .0的定義
C (1, 1)禾口 C (1,2)以及C (1, 1) C (1,2)
—當真值模型為(1-B)(1-Bs) Y(t) = a(t)時,在擬合模型Y(t) = c+ O,Y(t -1) + 0>2Y(t -s) +03Y(t-s-1) +a(t)中0^、 02和-cD3的臨界值。
C (2, 1)—當真值模型為(1_BS) Y (t) = a (t)時,在擬合模型Y (t) = c + 0>Y (t-s) + a (t)中CD的臨界值。
C (3. 1)--當真值模型為(1-Bs) Y (t) = Co + a (t),c。 i 0,在擬合模型Y (t) = c + (t-s) + a (t)中(cD-l)/se(0))的臨界值。
C (4. 1)—當真值模型為(1-B) Y (t) 二 a (t)時,在擬合模型Y (t) = c + (t-l) + a (t)中①的臨界值。
C (5. 1)—當真值模型為(1-B)Y(t) = c。 + a (t),c。 # 0,在擬合模型Y (t) = c + OY (t-l) + a (t)中(0)-l)/se(cD)的臨界值。注意
1. 臨界值取決于樣本大小n 。
令t(0.05, df)為具有自由度為df的5%的t-型分布。則在表1中,C (3, 1) = t (0. 05, n-3);表2中,C (3, 1) = t (0. 05, n—s—2)禾卩C (5, 1) = t (0. 05, n—3)。
*對于其它臨界值,模擬n = 50、 100、 200和300的臨界值。由于臨界值近似線性依賴于1/n,這種近似關系被用于對于任意的n取得更優(yōu)的臨界值。
2. 臨界值也取決于季節(jié)長度s。
僅模擬s = 1、 4和12的臨界值。當s 〉 1且s不等于4和12時,根據1與s的接近,利用s = 4或s = 12時的臨界值。
D.初始模型非季節(jié)AR階數。和MA階數q
在本步中,確定非季節(jié)AR和MA多項式的試用階數,p和q 。如果時間序列中存在季節(jié)性,則季節(jié)AR與MA多項式的階數取1。
使用ACF, PACF和EACF按如下方式識別p和q ,其中M和K (K《M)均為整數,其值依賴于季節(jié)長度。
ACF:
對于第一個m的acf,令匕為最小數,以便所有acf (k,+1)到ACF (M)均不顯著(例如,統(tǒng)計的l t I 〈 2)。如果k,《K,則p 二 0且q =、。使用ACF的方法可能完全不識別模型。PACF :
對于第一個m的ACF,令k2為最小值,以便所有PACF (k2+1)到PACF (M)均不顯著(即,統(tǒng)計的l t I < 2)。如果k2《K,則p = k2且q = 0。使用PACF方法也可能完全不識別模型。EACF:對于一個M X M的EACF矩陣,采用如下過程
i. 檢查第一行,找出最大的階數,其中一行的最大階數表示高于該階數的該行中所有的EACF均不顯著。該模型表示為A腿(0, q。)。
ii. 檢查第二行,找出最大的階數。該模型表示為ARMA(l,q,)。對每一行均如此操作,并將第i行的模型表示為ARMA (i-l,q,》。
iii. 找出p和q值作為具有最小p+q的模型。如果由幾個模型實現(xiàn)最小P + q,因為AR參數較易于擬合,選取q值較小的一個。
在由ACF、 PACF和EACF識別的模型中,選取p + q的值最小的模型。如果沒有單個模型具有最小P + q,則執(zhí)行如下步驟:如果此關系涉及EACF識別的模型,則選擇該模型。如果此關系是由ACF和PACF識別的模型之間的一種雙向關系,則選取由PACF識別的模型。
E.修改模型
在構造出ARIMA模型之后,優(yōu)選地,通過利用至少三個階段的修改來處理該模型,對該模型進行修改。圖2中所示的流程圖說明了模型修改中包括的階段。
修改模型的第一步是根據條件最小二乘(CLS)擬合的結果刪除不顯著的參數。根據參數的t值,這一步在迭代步驟中完成。
修改模型的第二步是根據最大似然(ML)擬合的結果刪除不顯著的參數。(ML方法比CLS方法更精確,但比CLS方法慢。)
模型修改的最后階段涉及執(zhí)行診斷檢驗;如果模型沒有通過診斷檢驗的話,則需向模型添加適當的項。
在診斷檢驗中,Ljimg-Box統(tǒng)計被用于執(zhí)行擬合測試的缺少。假
設我們具有殘差ACF ri到rk的前K個滯后。然后,將Ljung-Box統(tǒng)計Q CO定義為2(幻="("+ 2) A;),其中n為未丟失殘
差的數目。Q (K)具有自由度為K-m的近似卡方分布,其中m為模
型中不是常數項的參數的數目。顯著Q (K)表示模型不充分。要確定
Q 00是否顯著,則要使用距卡方分布0.05水平的臨界值。如果Q
(K)顯著,則檢驗單個殘差ACF (1)到ACF (M)。如果有足夠大的
ACF ( I t I 〉 2.5),則模型需做如下修改。(K禾Q M的取值可以
是任何有理正整數,優(yōu)選地是依賴于季節(jié)長度。在本發(fā)明中我們的選
擇是,當s二l時,選擇K二18; s 〉 1時,選擇K二2s;而s二l時,
選擇M=K ;而1 < s < 15時,選擇M=s-1 ; s》15時,選擇M二14。)
對于非季節(jié)部分,如果殘差ACF (1)到ACF (M)具有 一個或多個顯著滯后(t 〉 2.5),則向模型的非季節(jié)MA部 分加入這些滯后。否則,如果殘差PACF (1)到PACF (M) 具有一個或兩個顯著滯后(it I 〉 2.5 ),則向模型的非季 節(jié)AR部分加入這些滯后。
對于季節(jié)部分,如果ACF (s)和ACF (2s)、或者PACF (s)和PACF (2s)均不顯著,則無需修改。否則,如果PACF (s)顯著而PACF (2s)不顯著,則向將季節(jié)AR加入滯后1。 否則,如果ACF (s)顯著而ACF (2s)不顯著,則向季節(jié)MA 加入滯后1。否則,如果PACF (s)不顯著而PACF (2s)顯 著,則向季節(jié)AR加入滯后2。否則,如果ACF (s)不顯著 而ACF (2s)顯著,則向季節(jié)MA加入滯后2。否則,向季 節(jié)AR部分加入滯后1和2。 除ARIMA模型外,還有其它類型的模型;例如,指數平滑模型。 本發(fā)明是找出"最優(yōu)" 一元ARIMA模型的一種方法。如果不知道使 用哪種類型的模型,可試圖找出每種類型的"最優(yōu)"模型,然后比較這些模型以找出"最優(yōu)"的總模型。然而,比較不同類型模型的困難
之處在于 一些模型可能有變換與/或差分,而一些模型可能沒有。
在這些情況下, 一些常用的準則不再適用,如貝葉斯(Bayesian)信
息準則(BIC)以及赤池弘次(Akaike)信息準則(AIC)。本發(fā)明使
用的是規(guī)范化的貝葉斯(Bayesian)信息準則(NBIC),它適用于比較
不同變換和不同差分階數的模型。NBIC定義為
扁C = In (MS£) + k ,
附
其中,k為模型中參數的數目,m為未丟失殘差的數目,而MSE 為平均二乘誤差,定義為
m-k ,
其中,和為總的未丟失殘差^)=^)-Aa, Y(t)為最初的未
變換和未差分序列,并且f^為單步前預測值。這里,NBIC中的MSE 是最初序列的MSE,而不是經變換或差分后的數據。當序列差分時,
得到的序列要比最初的序列短。因此,需要進行規(guī)范化。所以通過使
用最初序列的MSE以及有效序列長度的劃分,不同變換和差分階數
的模型就能夠相互比較了。最初序列的最大似然函數可以用于替換
NBIC定義中的MSE,并且在某些場合中可能更加精確。然而,MSE
的計算更容易而且依我們的經驗它也很有效。
現(xiàn)在參照圖3,由計算機用于構建多元統(tǒng)計ARIMA模型的算法 被示為流程圖,它也可稱作轉換函數或分布-滯后模型。多元ARIMA 模型構建過程包括
1. 找出Y (t)的適合變換及預測因子;
2. 找出干擾序列的ARIMA模型;以及
3. 找出每一個預測因子的轉換函數。
24首先,該過程包括通過圖2中描述的一元ARIMA模型構造過 程,首先找出Y (t)的一元ARIMA模型。將由一元過程找到的變換 應用于所有正的序列,其中包括要預測的序列以及預測因子。將一元 過程找出的ARIMA階數用作干擾序列的初始模型。然后,執(zhí)行一系 列操作以找出每一個預測因子的轉換函數。細節(jié)說明如下
A. 找出Y (t)的一元ARIMA模型
使用一元ARIMA模型構造過程識別Y (t)的一個一元ARIMA 模型。在本步驟中,完成以下操作。
如果有任何丟失值的話,估算Y (t)的所有丟失值。
如果需要,對Y (t)進行變換。
找出差分階數d和D,并對Y (t)做相應的差分。 找出AR與MA階數。 當s > 1時,如果在找到的Y (t) —元ARIMA模型中沒有季 節(jié)模式,則從現(xiàn)在起,將按s = 1處理此情況。
如果Y (t)經過變換,則對所有正預測因子進行相同的變換。 如果Y (t)經過差分,則對所有的預測因子、所有干預以及所有事 件進行相同的差分。
B. 刪除與差分預測因子
對于每一個預測因子Xi (t),對k二O到12計算CCF(k) = Corr (Y (t), Xi (t-k))。如果對于某些Xi (t), CCF (0)至CCF (12)中 沒有一個是顯著的(|t|》2),則利用一元過程,找出序列Xi (t)的 非季節(jié)和季節(jié)的差分階數,將其稱為di, Di。將di與Di與0比較,
并執(zhí)行如下操作
如果di = 0且Di 二 0,則丟掉模型中的Xi (t)。
如果山〉0且Di = 0,取差分(l-B"Xi(t)。
如果di = 0且Di 〉 0,取差分(l-B)Di Xi(t)。
如果di 〉 0且Di > 0,取差分(l-B)di(l-B)Di Xi(t)。如果在最后計算CCF之后對Xi (t)差分,則再次計算k = 0到12的CCF(k)。如果CCF (0)到CCF (12)中沒有一個是顯著的(| ti> 2),則丟掉模型中的Xi (t)。
每次差分Xi (t)時,均檢驗它是否變?yōu)椴蛔冃蛄?。如果差分后序列不再變化,則從模型中刪除它。
C. 構造初始模型
對于經適當變換和差分的序列Y、 XS和IS,初始模型為
" 、
m=c+s z — x, (o+1;從(o+外)
'u=。
」 *
其中Si是對所有預測因子序列求和,2k是對所有干預與事件序列求和,噪聲序列N(t)的均值為0并遵循具有為Y (t)找出的一元ARIMA模型完全一樣的AR與MA階數的ARMA模型。m的取值可以選擇為任意有理整數,其足夠大而允許找出延遲的滯后和確定模式,而優(yōu)選的是根據季節(jié)長度。在本發(fā)明中,值m的選取方式如下
對于s二l, m=8.
對于s 〉 1, m二s+3.(如果s+3 > 20,取m=20.)
當參數的總數大于樣本大小的一半時,則降低階數m的大小,以便參數的總數小于樣本大小的一半。
N (t)稱為干擾序列。為了在非干擾部分獲得參數的可靠評估,需要N (t)的合理模型。因為認為Y (t)的模型涵蓋了 N (t)的模型,所以本發(fā)明的方法使用為適當變換和差分的Y(t)而找到的一元ARMA模型作為N (t)的初始模型。因此,co's的參數評估值更好,從而能夠用于做出更可信的決定。此外,同其它方法不同的是,N (t)的一般模型不需要進一步進行N (t)的模型識別。
D. 找出每個預測因子的延遲滯后、分子與分母
其實現(xiàn)過程如下。對于每一個預測因子Xi(t),執(zhí)行下述操作 如果僅有一個或兩個CJj項(例如,COij。和CJw)是顯著的(ltl 》2),則不需要分母,而延遲滯后為j。,分子為氣+ W-' 。
如果兩個以上的Wi」項顯著,假定Wij。是第一個顯著項,則 延遲滯后為j。,分子為wVu + ,U+1)B + w,u+2)JB2,分母為
本發(fā)明的方法被實現(xiàn)在商用軟件SPSS DecisionTime 專家建模 器中。圖4到6A、 6B取自商用軟件SPSS DecisionTime 。
示例1
構造國際航線乘客數據的一元ARIMA模型
在本例中,序列為從1949年1月到1960年12月期間旅行 的國際航線乘客的月度總數。如圖4所示,其中y軸代表乘客數(單 位為千),x軸顯示年和月份。
Box與Jenkins (1976)研究了該序列,并發(fā)現(xiàn)需要進行對數 變換。他們?yōu)樵搶底儞Q序列確定(O,l,l) (O,l,l)模型。因此,對 數變換序列的模型(O,l,l) (0,1,1)稱作"航線"模型。將國際航 線乘客月度總數作為要預測的輸入時間序列,而將"12"作為輸入季 節(jié)循環(huán),本發(fā)明的方法為這種序列找出了相同的模型。圖5示出利 用所示的模型連同輸入時間序列的預測值。圖中顯示了在1960年12 月(12/60)序列結束后為期一年的預測的未來值。可以看出該模型 對輸入吋間序列擬合得很好。
示例2
構造服裝銷售的多元ARIMA模型
如圖6A與6B所示,為預測男式和女式服裝目錄銷售而構造 的一個多元ARIMA模型。數據集由模擬和原始數據組成,它包括從 1989年1月到1998年12月期間目錄公司每月銷售的男士與女士 服裝情況。可能潛在地影響銷售的預測因子有5個,包括 (1)郵寄的目錄的數目,稱為"郵件";(2) 目錄中的頁數,稱為"頁面",
(3) 用于訂貨的電話線路數目,稱為"電話";
(4) 印刷廣告所花費的金額,稱為"印刷";以及
(5) 客戶服務代表的數目,稱為"服務"。 其它考慮因素還包括1995年6月發(fā)生的罷工("罷工")、1997
年9月的印刷事故("事故")以及分別于1989年3月、1991年6月、 1992年2月、1993年5月、1994年9月、1995年1月、1996 年4月和1998年8月舉行的促銷活動"促銷"。促銷被當作了事 件處理;罷工和事故可作為事件或干預來處理。
使用所有這5個預測因子和3個事件,從該數據集構造出了 兩個模型——一個用于男士服裝銷售(圖6A中表示為〃男")以及一 個用于女士服裝的銷售(圖6B中表示為"女")。
男裝的銷售僅受郵件、電話、罷工、事故和促銷影響。與之不同, 女裝的銷售受郵件、印刷、服務、罷工、事故和促銷影響。
通過排除1998年7月到1998年12月的數據,并使用余下 的數據構造模型,然后使用新的模型預測最初被排除的數據,對模型 的有效性進行了測試。圖6A, B顯示排除數據的預測與實際數據匹 配得非常好。
雖然本發(fā)明針對特定優(yōu)選實施例進行了描述,如同本領域技術 人員所意識到的那樣,可以理解的是,本發(fā)明能夠進行多種變化、修 改和重新調整。這些變化、修改和重新調整都在隨后的權利要求范圍 之內。
權利要求
1. 一種數據處理方法,用于在使用計算機預測未來趨勢的任務中減少用戶輸入交互數量,該方法包括將時間序列的分離數據值和季節(jié)循環(huán)長度輸入到所述計算機中將包括由數字數據值表示的若干個預測因子、若干個干預和若干個事件的至少一種類型輸入到該計算機;指示該計算機執(zhí)行以下步驟a)確定該時間序列的ARIMA階數;b)除去具有至少一個丟失值的預測因子;c)如果在步驟a)中的該時間序列被變換并且所剩余的預測因子僅包括正的數據值,則采用應用于步驟a)中的該時間序列的相同變換,對預測因子進行變換;d)如果在步驟a)中的該時間序列被差分,則采用應用于步驟a)中的該時間序列的相同差分階數,對所述的預測因子、干預和事件差分;e)根據該時間序列的ARIMA階數、干擾和事件、以及剩余的預測因子,構造該時間序列的初始多元ARIMA模型;以及f)根據迭代模型評估結果、診斷檢驗以及殘差的自相關函數/部分自相關函數,修改該初始多元ARIMA模型;通過計算機執(zhí)行所述指示的步驟,創(chuàng)建該時間序列的多元ARIMA模型,從而減少用戶輸入交互的數量;以及利用該計算機創(chuàng)建的多元ARIMA模型來預測未來趨勢。
2. 如權利要求1的方法,其中,所述確定ARIMA階數進一步包括當從該時間序列丟失任何數據值時,估算至少一個丟失數據值;當該時間序列僅包括正的數據值時變換該時間序列;確定該時間序列的差分階數;以及確定AR和MA的階數。
3. 如權利要求2的方法,其中所述變換該時間序列進一步包括:利用一般最小二乘方法對該時間序歹U、該時間序列的對數以及該時間序列的平方根擬合高階AR(p)模型。
4. 如權利要求1至3中任一項的方法,還包括:確定這些類型的輸入的數字數據值的任一個是否是正值;使用與應用于輸入的時間序列上之相同變換,對正的輸入類型進行變換;使用與應用于輸入的時間序列上之相同的差分階數,對輸入類型進行差分;如果有必要,對某些輸入類型做進一步的差分。
5. 如權利要求4的方法,其中變換該時間序列包括方差穩(wěn)定變換。
6. 如權利要求4的方法,其中變換該時間序列包括水平穩(wěn)定變換。
7. 如權利要求4的方法,其中變換該時間序列包括方差穩(wěn)定變換和水平穩(wěn)定變換。
8. 如權利要求4的方法,其中,該對輸入類型做進一步差分的步驟包括(a) 對于每一個所述預測因子,計算已差分預測因子以及已輸入的差分時間序列之間的互相關函數;及(b) 找出進一步差分階數,并對其中那些具有不顯著互相關函數的預測因子的類型做進一步差分。
9. 如權利要求4的方法,進一步包括(a) 在構造該初始多元ARIMA模型前,刪除適當差分的預測因子與輸入的適當差分時間序列之間互相關函數不顯著的任何預測因子;以及(b) 在構造該初始多元ARIMA模型后,刪除具有全部不顯著評估系數的預測因子,其中每個模型評估之后,所述的預測因子每次被刪除一個。
10. 如權利要求4的方法,其中,該構造初始多元ARIMA模型的步驟包括指定帶有AR和MA階數的初始多元ARMA模型,所述AR和MA階數是為輸入干擾序列的時間序列而得出的。
11. 如權利要求4的方法,進一步包括將一些預測因子的轉換函數變成具有非空分母的有理形式。
12. —種數據處理系統(tǒng),用于進行模型化以預測未來趨勢,該系統(tǒng)包括計算機處理器;輸入裝置,用于將時間序列的數據以及包括由數字數據值表示的若干個預測因子、若干個干預和若干個事件的至少一種類型接收到計算機中;創(chuàng)建裝置,用于創(chuàng)建該時間序列的多元ARIMA模型,包括a) 確定裝置,用于確定該時間序列的ARIMA階數;b) 除去裝置,用于除去具有至少一個丟失值的預測因子;c) 構造裝置,用于根據為該時間序列得出的ARIMA階數、 干擾、事件、以及剩余的預測因子,構造該時間序列的初始多 元ARIMA模型;以及d) 修改裝置,用于根據迭代模型評估結果、診斷檢驗以及 殘差的自相關函數/部分自相關函數,修改該初始多元ARIMA模 型;預測裝置,用于利用該多元ARIMA模型來預測未來趨勢;以及 輸出裝置,用于提供預測的結果。
13. 如權利要求12的數據處理系統(tǒng),其中,該創(chuàng)建裝置還包括 變換裝置,用于如果在該確定裝置中的該時間序列被變換并且所述預測因子僅包括正的數據值,則采用應用于該確定裝置中的該時間 序列的相同變換,對所述預測因子進行變換。
14. 如權利要求12的數據處理系統(tǒng),其中,該創(chuàng)建裝置還包括 差分裝置,用于如果在該確定裝置中的該時間序列被差分,則采用應用于該確定裝置中的該時間序列的相同差分階數,對所述的預測 因子、干預和事件差分;
15. 如權利要求12、 13或14的數據處理系統(tǒng),其中,該創(chuàng)建裝 置還包括確定這些類型的輸入的數字數據值的任一個是否是正值的裝置;使用與應用于輸入的時間序列上之相同變換,對正的輸入類型進行變換的裝置;以及如果有必要,對某些輸入類型做進一步差分的裝置。
全文摘要
本發(fā)明涉及一種數據處理方法和系統(tǒng),用于在使用計算機預測未來趨勢的任務中減少用戶輸入交互數量。該方法包括將時間序列的分離數據值和季節(jié)循環(huán)長度輸入到計算機中將包括由數字數據值表示的預測因子、干預和事件的至少一種類型輸入到計算機;以及確定時間序列的ARIMA階數;除去具有至少一個丟失值的預測因子;根據時間序列的ARIMA階數、干擾和事件、以及剩余的預測因子,構造時間序列的初始多元ARIMA模型;根據迭代模型評估結果、診斷檢驗以及殘差的自相關函數/部分自相關函數,修改初始多元ARIMA模型;創(chuàng)建該時間序列的多元ARIMA模型,從而減少用戶輸入交互的數量;以及利用計算機創(chuàng)建的多元ARIMA模型來預測未來趨勢。
文檔編號G06F17/18GK101482944SQ200910003489
公開日2009年7月15日 申請日期2001年11月8日 優(yōu)先權日2000年11月9日
發(fā)明者方東平, 瑞·S·蔡 申請人:Spss公司