本發(fā)明屬于預測方法技術領域,涉及一種利用卷積神經網絡對面向服務的系統中成員系統的可靠性進行在線時間序列預測的方法。
背景技術:
近年來,具有動態(tài)架構軟件系統的需求逐漸增加,系統的系統(system-of-system,簡稱sos)通過集成成員系統構建滿足更為復雜的用戶需求。所構建的系統一般需要高效的運行和分析技術,使得組合得到的系統可以有效的協作。其中每一個組件都運行在一個動態(tài)多變的網絡環(huán)境下,某些重要的組件出現問題時會對整個構建的系統產生重大的影響,因此可靠性已經成為sos中一個十分重要的問題。
目前有關sos的研究主要集中在系統的構建等問題上,針對sos可靠性的預測方面,尚未有較多的研究。目前已有的一些方法比如:
(1)個性化可靠性預測方法,通過引入協同過濾的技術,開展原子服務的qualityofservice,qos(包括可靠性)預測。通過客戶端對web服務的調用測試以評估一個web服務的可靠性。因為客戶端環(huán)境的不同,不同客戶端調用同一個web服務,可靠性是不同的。在有限數量的客戶端/web服務的可靠性評估的基礎上,可以得到一個稀疏的客戶端-web服務的可靠性評估矩陣,使用協同過濾技術預測矩陣中的空缺值從未預測任意客戶端調用任意web服務的可靠性。
(2)聚類方法,通過考慮用戶、服務和環(huán)境方面的參數,通過給定時間窗口內的上述三類參數開展k-means聚類,聚類結果可用于尋找與帶預測的web服務相似的服務,最終以相似web服務的可靠性作為待預測的web服務的可靠性預測結果。
現有的這些技術雖然能部分適用于解決可靠性的在線預測問題,但這些預測方法和技術都不能完全支持基于服務組合的sos系統運行環(huán)境的復雜多變性,組件系統本身的不穩(wěn)定性以及由此導致的錯誤時間的不確定性等特征。以往的這些有關在線錯誤預測模型或方法大多只能建模錯誤的發(fā)生在時間上滿足泊松分布的錯誤事件,對于基于服務組合的sos系統中由于網絡,吞吐量和系統的工作狀態(tài)等原因造成的隨機波動下環(huán)境不確定性錯誤事件的可靠性時間序列預測問題尚缺乏足夠的支持。
面臨大服務應用,每個組件系統的多變的觀測參數迅速積累。所聚集的原來越多的觀測參數,將為開展組建系統運行狀態(tài)時序演化規(guī)律的學習提供大量的訓練數據。但由于組件系統面臨復雜多變的內部工作狀態(tài)以及不確定的運行環(huán)境,同時需要實時的預測組件系統在不遠的未來的運行時可靠性時間序列,這就需要使用一種能夠適應大服務系統的在線可靠性時間序列預測的模型以及方法。
技術實現要素:
為了解決上述問題,本發(fā)明提出一種基于卷積神經網絡模型的大服務組建系統的在線可靠性預測方法,使得系統能夠滿足在動態(tài)不確定環(huán)境下的可靠運行。
為了提高服務系統的可靠性,我們使用了在線的可靠性預測,也就是預測在不遠的未來,系統被調用的周期內的可靠性。由于不同的系統被調用的持續(xù)的時間不同,為了滿足不同用戶的應用的需求,我們需要預測一個有效的時間周期內的時間序列也就是多個時間點的可靠性。為應對大服務系統在線可靠性時間序列的預測挑戰(zhàn),捕捉大數據環(huán)境下組建系統復雜的時序演化規(guī)律。本發(fā)明中應用卷積神經網絡(convolutionalneuralnetworks,cnn)模型以學習大服務系統中的組件系統的可靠性時間序列由當前時間向未來的有效預測時間進行轉換的時序演化規(guī)律,并以此構建模型,開展組建系統的在線可靠性時間序列預測。
為了達到上述目的,本發(fā)明提供如下技術方案:
基于卷積神經網絡的大服務系統在線可靠性預測方法,包括如下步驟:
步驟1,數據預處理,對任意響應時間參數時間序列,以及吞吐量參數時間序列進行歸一化處理;
步驟2,motifs發(fā)現,通過k-means聚類算法尋找吞吐量,響應時間和可靠性三組參數中的motifs;
步驟3,使用motifs進行標注,有效預測時間周期內的每一個可靠性時間序列采用距離最近的motif進行標注,當前時間周期內的相應時間,吞吐量等參數也將采用與之對應的有效預測時間周期內的可靠性時間序列motifs類別進行標注;
步驟4,卷積神經網絡模型的訓練;
步驟5,使用組件系統的最近鄰時間段內所觀測到的相應時間和吞吐量相應參數時間序列帶入到訓練好的cnn模型中,得到組件系統的在線可靠性時間序列預測結果。
進一步的,所述步驟1具體包括如下過程:
對于任意響應時間參數時間序列
以及
其中,
進一步的,所述步驟2具體包括如下過程:
kl散度來計算任意兩個可靠性時間序列之間的距離,設
將上述距離公式應用于k-means算法,多次迭代后,算法收斂,所有聚簇的中心點將作為有效預測時間周期內的可靠性時間序列的motifs,我們將其形式化地表示為:
其中,k為預先設定的參數,表示motifs的數量;
利用和上面相同的方法,對數據窗口時間內的響應時間,吞吐量參數進行聚類處理,發(fā)現motifs。
進一步的,所述步驟3具體包括如下過程:
有效預測時間周期內的每一個可靠性時間序列采用距離最近的motif進行標注,相應的當前時間周期內的相應時間,吞吐量等參數也將采用與之對應的有效預測時間周期內的可靠性時間序列motifs類別進行標注;
設
其中
j<g,g定義為該參數總的時間序列個。
進一步的,所述步驟4具體包括如下過程:
步驟4-1,為神經網絡設置層數l以及每層中神經元的個數m,初始化cnn中每個弧邊的權值ω(m-1)m以及第l層的m個神經元的偏置值b(m);
步驟4-2,令j=1tosn,其中sn表示訓練集中樣本數量,計算每個樣本的最優(yōu)的輸出解空間;
設u=1tok,表示輸出層神經元的motifs標號,
步驟4-3,使用sigmoid函數計算每個神經元的輸出值,即:
對于輸入樣本
步驟4-4,為加快神經網絡訓練過程的收斂速度,同時對cnn模型的學習過程定義卷積操作,令l1=2tol-1,τ=1tom/2當且僅當
|y(2ρ-1)(j)-y(2ρ)(j)|≤δ
時開展卷積操作,為相似的神經元設置相同的權值和偏置值,即:
以及:
在此基礎上,使用梯度下降的方法更新所有的權值和偏置值,即:
以及:
其中,τ∈[0,1]為學習率;
步驟4-5,重復上述步驟4-3,步驟4-4,直到j(ω,b)取得收斂。
進一步的,所述步驟5具體包括如下過程:
設組件系統在臨近時間段的相應時間和吞吐量時間參數分別為
其中,
其中,
與現有技術相比,本發(fā)明具有如下優(yōu)點和有益效果:
通過本發(fā)明方法,能夠獲得一個未來有效時間周期內的可靠性時間序列,預測準確率高。通過對該時間序列的分析我們可以對組件系統進行優(yōu)化選擇,對在未來有較大可能出現異常的組件系統進行替換,從而提高整個系統的可靠性,使其更能適應動態(tài)不確定的應用環(huán)境。
附圖說明
圖1為在線預測技術的有效預測時間段。
圖2為神經網絡模型。
圖3為卷積神經網絡模型。
圖4為本發(fā)明與其他預測方法的預測準確率的比較數據。
具體實施方式
以下將結合具體實施例對本發(fā)明提供的技術方案進行詳細說明,應理解下述具體實施方式僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。
卷積神經網絡(模型如圖3所示)是深度學習技術中的一種。深度學習通過多層神經網絡(模型如圖2所示)構建計算機模型,通過模擬人腦認識事物的基本原理,比傳統的統計學習,概率學習具有更復雜的結構,可以更加準確的學習和表達數據之間的復雜關系。深度學習模型一般是一個五層以上的復雜神經網絡。網絡中的每一層由多個神經元構成,用于接受輸入并形成輸出。每一層神經元的輸出將作為下一層神經元的輸入,以此來描述數據之間復雜的決定關系。
神經網絡模型中的每一個神經元接收上一層所有神經元的輸出作為該神經元的輸入,并為每一個輸入設置一個權值ω同時每一個神經元具有一個偏置值參數b。因此每一個神經元的輸出為:
output=∑jωj×xj+b
其中xj為該神經元接收的某一個輸入,ωj為該輸入所對應的權值。
為使得每個神經網絡的輸出單調遞增并歸一化輸入、輸出、權值和偏置值,在神經網絡中使用sigmoid函數來計算每一個神經元的輸出,即:
構建這樣一個神經網絡,需要通過大量的訓練數據,對網絡展開學習,調整權值和偏置值,使得總體的代價函數c(ω,b)最小
其中,代價函數為:
式中,n為訓練集樣本個數,a表示當輸入為x時準確的輸出向量,y表示根據當前的(ω,b)計算得到的網絡輸出向量,||v||表示均方根誤差函數。
基于以上神經網絡模型,本發(fā)明方法包括如下步驟:
步驟1,數據預處理
由于對于cnn模型的參數,吞吐量和相應時間具有不同的量綱。一般而言,相應時間越大,表明組件調用過程中網絡性能越差,或者服務負載越大,或者系統的運行狀態(tài)不正常。另一方面,吞吐量越大表明服務具有更好的分發(fā)數據的性能。為了降低本發(fā)明中模型的計算復雜度,使用最小最大變化法將模型中輸入參數的每一個值進行歸一化處理,并且使得不同的變量具有統一的量綱。經過無量綱化處理后,每一個相應時間,吞吐量參數的值被映射為[0,1]之間的一個實數,并且值越大表示組件性能越好。
對于任意響應時間參數時間序列
以及
其中,
步驟2,motifs發(fā)現
定義motifs:令q為組件系統的某一長期的qos參數,我們將q按照時間片0,1,...,t劃分為連續(xù)的時間序列,即
為了訓練cnn模型,首先需要對大服務系統中的每一個組件系統的歷史觀測參數進行預處理。具體而言,首先需要對如圖1所示的有效預測時間周期內的可靠性時間序列展開k-means聚類,以發(fā)現其motifs。通過k-means聚類算法尋找吞吐量,響應時間和可靠性三組參數中的motifs。并以聚類結果中的簇中心點作為每類系統參數時間序列的motifs。
本發(fā)明采用kl散度(kullback-leiblerdivergence)來計算任意兩個可靠性時間序列之間的距離。設
將上述距離公式應用于k-means算法,多次迭代后,算法收斂,所有聚簇的中心點將作為有效預測時間周期內的可靠性時間序列的motifs,我們將其形式化地表示為:
其中,k為預先設定的參數,表示motifs的數量。
利用和上面相同的方法,來對數據窗口時間內的響應時間,吞吐量參數進行聚類處理,發(fā)現motifs。
步驟3,使用motifs進行標注
有效預測時間周期內的每一個可靠性時間序列將采用距離最近的motif進行標注。相應的當前時間周期內的相應時間,吞吐量等參數也將采用與之對應的有效預測時間周期內的可靠性時間序列motifs類別進行標注。
設
其中
步驟4,卷積神經網絡模型的訓練
步驟4-1,為神經網絡設置層數(l)以及每層中神經元的個數(m),初始化cnn中每個弧邊的權值(ω(m-1)m)以及第l層的m個神經元的偏置值(b(m))。
步驟4-2,令j=1tosn(其中sn表示訓練集中樣本數量),計算每個樣本的最優(yōu)的輸出解空間。設u=1tok,表示輸出層神經元的motifs標號。
步驟4-3,使用sigmoid函數計算每個神經元的輸出值,即:
對于輸入樣本
步驟4-4,為加快神經網絡訓練過程的收斂速度,同時對cnn模型的學習過程定義卷積操作。令l1=2tol-1,τ=1tom/2當且僅當
|y(2ρ-1)(j)-y(2ρ)(j)|≤δ
時開展卷積操作,δ為事先設置的閾值,為相似的神經元設置相同的權值和偏置值,即:
以及:
在此基礎上,使用梯度下降的方法更新所有的權值和偏置值,即:
以及:
其中,τ∈[0,1]為學習率,值越大梯度越大。
步驟4-5,重復上述步驟4-3,步驟4-4,直到j(ω,b)取得收斂。
步驟5,模型訓練完成,使用組件系統的最近鄰時間段內所觀測到的相應時間和吞吐量相應參數時間序列帶入到訓練好的cnn模型中,得到組件系統的在線可靠性時間序列預測結果。設組件系統在臨近時間段的相應時間和吞吐量時間參數分別為
其中,
式中,
圖4為本發(fā)明與其他預測方法的預測準確率的比較數據(k為motifs數量,α為multi_dbns模型參數,s為multi_dbns模型中軌跡數量,τ為cnn模型中學習率參數),表格中比較的數據為平均絕對誤差(meanabsoluteerror,mae),將
其中
本發(fā)明方案所公開的技術手段不僅限于上述實施方式所公開的技術手段,還包括由以上技術特征任意組合所組成的技術方案。應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發(fā)明的保護范圍。