欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分布式系統(tǒng)中高維流量數(shù)據(jù)變化點檢測方法

文檔序號:6548577閱讀:454來源:國知局
一種分布式系統(tǒng)中高維流量數(shù)據(jù)變化點檢測方法
【專利摘要】本發(fā)明提供了一種分布式系統(tǒng)中高維流量數(shù)據(jù)變化點檢測方法,該方法包括以下步驟:獲取所述分布式系統(tǒng)中標(biāo)準(zhǔn)化的高維原始流量數(shù)據(jù);高維原始流量數(shù)據(jù)降維;主成分表征的有序樣本數(shù)據(jù)聚類,確定主成分?jǐn)?shù)據(jù)的非平凡點;判定原始各維流量數(shù)據(jù)在對應(yīng)的非平凡點處是否發(fā)生顯著變化。該方法用于檢測分布式系統(tǒng)中高維流量數(shù)據(jù)的變化點,進一步用于幫助管理人員更好的對分布式系統(tǒng)中的流量數(shù)據(jù)進行監(jiān)測、分析。
【專利說明】一種分布式系統(tǒng)中高維流量數(shù)據(jù)變化點檢測方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】的檢測方法,具體講涉及一種分布式系統(tǒng)中高 維流量數(shù)據(jù)變化點檢測方法。

【背景技術(shù)】
[0002] 分布式系統(tǒng)中對流量數(shù)據(jù)的監(jiān)測與分析可幫助管理人員快速掌握系統(tǒng)內(nèi)不同應(yīng) 用的負載情況,進而分析軟件系統(tǒng)結(jié)構(gòu)的合理性和實時檢測異常情況。分布式系統(tǒng)的流量 數(shù)據(jù)的分析也能幫助對網(wǎng)站訪問熱度、訪問內(nèi)容熱點、用戶訪問習(xí)慣等信息的調(diào)查。
[0003] 然而,由于分布式系統(tǒng)中服務(wù)器數(shù)量大,各服務(wù)器上部署的應(yīng)用程序不斷產(chǎn)生大 量流量數(shù)據(jù),產(chǎn)生的流量數(shù)據(jù)維度較高的高維(高維指二維及以上維度)流量數(shù)據(jù),并且數(shù) 據(jù)具有周期性,管理人員難以直接地對數(shù)據(jù)進行觀察與分析。例如,對于一臺http服務(wù)器, 頁面點擊量往往會具有周期性,即白天的數(shù)據(jù)量比夜里的數(shù)據(jù)大得多;若某天白天的數(shù)據(jù) 量明顯減小很但仍比夜里大,管理人員很可能無法監(jiān)測到這種變化。產(chǎn)生與數(shù)據(jù)周期性波 動不同的變化稱為非平凡變化,產(chǎn)生非平凡變化的數(shù)據(jù)點稱為非平凡變化點,即為數(shù)據(jù)變 化點。另外,由于分布式系統(tǒng)中服務(wù)器數(shù)量大,產(chǎn)生的流量數(shù)據(jù)多,而管理人員相對較少,直 接觀察這些數(shù)據(jù)代價很大甚至不可行?,F(xiàn)有技術(shù)中并未提出對高維流量數(shù)據(jù)變化的檢測方 法,提出一種有效的流量數(shù)據(jù)變化點檢測方法非常必要。
[0004] 本發(fā)明涉及的技術(shù)包括主成分分析法(PCA)、有序樣本聚類方法和F檢驗方法。
[0005] 主成分分析方法用少數(shù)主成分特征描述原始高維流量數(shù)據(jù),以達到降低特征空間 維數(shù)并保留樣本最主要的信息的目的。主成分分析的原理是將一個分量可能相關(guān)的高維向 量X,通過特征向量矩陣投射到新的正交的由主成分表征的空間中,主成分的順序由原始數(shù) 據(jù)投影到該主成分的方差的大小順序決定,用位列前位的若干主成分作為低維向量y表征 原始高維數(shù)據(jù),并且僅僅損失了一些次要信息。同時,根據(jù)低維主成分向量和特征向量矩 陣,可以基本重構(gòu)出所對應(yīng)的原始高維向量。
[0006] 最優(yōu)分割算法(也稱"有序樣本聚類方法")為對有序樣本序列進行最優(yōu)分割。最 優(yōu)分割算法基本思路是給定一個樣本序列和類別數(shù),通過搜索所有可能的劃分方案,找到 段內(nèi)離差平方和的總和最小的一種方案作為最終劃分方案。由于一個數(shù)據(jù)序列的總離差平 方和等于段內(nèi)離差平方和與段間離差平方和之和,故段內(nèi)離差平方和最小意味著段間離差 平方和最大,也就是每段內(nèi)都有最均勻的物理性質(zhì),而段間達到最大差異,故為最優(yōu)劃分。 最早由Fisher在1958年提出復(fù)雜度為0(η 2)的最優(yōu)分割算法,以各類內(nèi)部樣本差異最小 為原則,對有序樣本進行分類。
[0007] F檢驗是一種統(tǒng)計學(xué)方法,也稱"方差齊性檢驗",該方法為通過檢驗兩組樣本的方 差是否具有顯著差異,即方差齊性,來判斷兩組樣本是否有顯著性差異。主要通過比較兩組 數(shù)據(jù)的組間方差和組內(nèi)方差得到的F統(tǒng)計量,如果比值大于F分布臨界值,則認(rèn)為具有顯著 差異,如果小于F分布臨界值則認(rèn)為不具有顯著差異。F分布臨界值與自由度和置信度有 關(guān),可以通過查F分布臨界值表得到。


【發(fā)明內(nèi)容】

[0008] 為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種分布式系統(tǒng)中高維流量數(shù)據(jù)變化 點檢測方法。
[0009] 實現(xiàn)上述目的所采用的解決方案為:
[0010] 一種分布式系統(tǒng)中高維流量數(shù)據(jù)變化點檢測方法,其改進之處在于:所述方法包 括以下步驟:
[0011] I、獲取所述分布式系統(tǒng)中標(biāo)準(zhǔn)化的高維原始流量數(shù)據(jù);
[0012] II、高維原始流量數(shù)據(jù)降維;
[0013] III、主成分表征的有序樣本數(shù)據(jù)聚類,確定主成分?jǐn)?shù)據(jù)的非平凡點;
[0014] IV、判定原始各維流量數(shù)據(jù)在非平凡點處是否發(fā)生非平凡變化。
[0015] 進一步的,所述步驟I包括:
[0016] S101、所述分布式系統(tǒng)的服務(wù)器設(shè)有流量采集器,獲取單位時間內(nèi)應(yīng)用程序的原 始流量數(shù)據(jù);

【權(quán)利要求】
1. 一種分布式系統(tǒng)中高維流量數(shù)據(jù)變化點檢測方法,其特征在于:所述方法包括以下 步驟: 1、 獲取所述分布式系統(tǒng)中標(biāo)準(zhǔn)化的高維原始流量數(shù)據(jù); II、 高維原始流量數(shù)據(jù)降維; III、 主成分表征的有序樣本數(shù)據(jù)聚類,確定主成分?jǐn)?shù)據(jù)的非平凡點; IV、 判定原始各維流量數(shù)據(jù)在非平凡點處是否發(fā)生非平凡變化。
2. 如權(quán)利要求1所述的方法,其特征在于:所述步驟I包括: 5101、 所述分布式系統(tǒng)的服務(wù)器設(shè)有流量采集器,獲取單位時間內(nèi)應(yīng)用程序的原始流 量數(shù)據(jù); 5102、 將獲得的同一時間不同所述服務(wù)器的原始流量數(shù)據(jù)表示為高維向量,不同時間
3. 如權(quán)利要求1所述的方法,其特征在于:所述步驟II中,運用主成分分析法對原始 流量數(shù)據(jù)進行主成分分析,并確定所述標(biāo)準(zhǔn)原始流量的主成分。
4. 如權(quán)利要求1所述的方法,其特征在于:所述步驟III中,將所述步驟II獲得的主 成分作為所述高維流量數(shù)據(jù)的特征進行聚類;運用周期性的有序樣本聚類方法確定有序數(shù) 據(jù)樣本的最優(yōu)分割點為流量數(shù)據(jù)的非平凡點。
5. 如權(quán)利要求1所述的方法,其特征在于:所述步驟IV中,根據(jù)所述非平凡點,對每一 維原始流量數(shù)據(jù)在所述非平凡點的兩側(cè)流量數(shù)據(jù)進行周期性的方差齊性檢驗,判斷所述非 平凡點是否存在非平凡變化,若F統(tǒng)計值超出F檢驗臨界值,則存在非平凡變化,否則不存 在非平凡變化。
6. 如權(quán)利要求4所述的方法,其特征在于:所述步驟III包括以下步驟: S301、主成分分量ii(t)包括一維或多維的PC分量y' k(t),b(n,m)表示將η個有序 樣品分為 m 類,b (n,m) A = {ip h+l,…,i2-l},G2 = {i2,i2+l,…,i3-l},…,Gm = {im,im+l,· · ·,n},其分點為 1 = h < i2 < - < im < im+1-l,im+1 = n+1 ; S304、運用動態(tài)規(guī)劃方法確定非平凡點。
7. 如權(quán)利要求5所述的方法,其特征在于:所述步驟IV包括以下步驟: 5401、 設(shè)定%表示應(yīng)用程序產(chǎn)生的流量數(shù)據(jù)在分割時間點不存在非平凡變化,氏表示 應(yīng)用程序產(chǎn)生的流量數(shù)據(jù)在分割時間點存在非平凡變化; 5402、 通過類間變化SSA和類內(nèi)變化SSE獲得確定F統(tǒng)計值,包括: 5403、 給定顯著水平α,確定置信度為α的Fa值,若F>Fa,則認(rèn)為X' jt)在時刻 點t存在非平凡變化,否則X' ^t)在時刻點t不存在非平凡變化。
8. 如權(quán)利要求6所述的方法,其特征在于:所述步驟S402包括以下步驟: S4021、如下式確定所述類間變化SSA :
【文檔編號】G06F11/30GK104050070SQ201410243426
【公開日】2014年9月17日 申請日期:2014年3月28日 優(yōu)先權(quán)日:2014年3月28日
【發(fā)明者】趙麗, 劉欣然, 曹瑋, 付戈, 劉謙 申請人:國家計算機網(wǎng)絡(luò)與信息安全管理中心
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
尚志市| 喀什市| 西宁市| 永清县| 平昌县| 广宗县| 临桂县| 长葛市| 沁源县| 临湘市| 高雄市| 大庆市| 新疆| 舟山市| 宁明县| 和林格尔县| 文昌市| 浦北县| 河北省| 乃东县| 朔州市| 仙居县| 邢台县| 咸丰县| 栾城县| 峨眉山市| 钦州市| 高州市| 定南县| 西安市| 桃园县| 读书| 宽城| 东安县| 通州区| 宝丰县| 澳门| 班玛县| 勐海县| 平南县| 陆川县|