本發(fā)明屬于網絡工程和人工智能,尤其是基于擴散模型的網絡流量序列估計方法、系統(tǒng)和存儲介質。
背景技術:
1、流量矩陣(traffic?matrix,簡稱tm)用于表示所有可能的網絡節(jié)點之間的流量需求大小,網絡節(jié)點之間的流量往往被稱為源點流量(od-flows)。tm所反映出的網絡狀態(tài)在許多網絡管理問題中有著重要意義,例如流量工程,異常檢測和容量規(guī)劃等。但是隨著網絡規(guī)模的不斷擴大,通過采集每一個數(shù)據包傳送軌跡直接測量源點流量的方式已經不切實際。目前,更為可行的方案是利用網絡斷層掃描(network?tomography,簡稱nt)求解欠定方程組,由鏈路級別的流量(鏈路負載,link-loads)來估計對應時間點的tm。
2、近十年來,越來越多的學者開始投入網絡流量估計領域的工作。目前主流的tm估計方法大致可以分為三類:基于前提假設的方案、基于映射學習的方案和基于生成模型的方案。
3、第一類方案中對tm的分布作假設以求得盡可能準確的估計,經典的有泊松分布與重力模型。這種估計方案極度依賴所設立的前提條件。
4、第二類基于映射學習的方案借助深度神經網絡學習鏈路負載與源點流量之間對應關系,接著使用訓練好的模型以鏈路負載為輸入直接映射為tm;目前代表性的有:引入反向傳播神經網絡(bpnn)來估計網絡流量矩陣和基于深度信念網絡的(dbn)的流量估計模型。這種方法是一種全監(jiān)督學習方案,意味著在訓練時不僅需要流量矩陣還需要測量完整的鏈路負載,并且需要保證網絡的路由等信息始終保持不變。
5、第三類基于生成模型的方案嘗試利用深度生成模型的所學習到的分布來復原鏈路負載中缺失的流量矩陣信息。這種方法首先采樣流量矩陣訓練一個生成網絡,接著利用tme目標函數(shù)的梯度,通過隨機梯度下降優(yōu)化在隱空間搜尋最優(yōu)解。例如,使用變分自編碼器(vae)和生成對抗網絡(gan)來解決tm估計的逆問題。
6、盡管基于生成模型的方法可以在最少假設和要求的情況下執(zhí)行,但是幾乎所有的深度學習方法都需要充足且完整的流量數(shù)據來支撐模型的訓練。此外,vae和gan已經難以勝任大型網絡的流量矩陣估計任務,更無法估計難度更大的網絡流量序列??紤]到在收集網絡流量訓練集時基本都會出現(xiàn)缺失和錯誤的情況,目前還沒有人提出一個能夠最少約束,更高精度并貼合實際情況的生成式網絡流量序列估計方案。
技術實現(xiàn)思路
1、為了克服上述現(xiàn)有技術中由于源點流量缺失使得深度學習模型在tm估計上的應用難以達到理想效果的缺陷,本發(fā)明提出了一種基于擴散模型的網絡流量序列估計方法,可在源點流量缺失的情況下,實現(xiàn)高精度的網絡流量矩陣估計。
2、本發(fā)明提出的一種基于擴散模型的網絡流量序列估計方法,包括以下步驟:
3、sa1、獲取待估計網絡的路由矩陣a以及目標時間點上的鏈路負載序列y,從標準高斯噪聲中隨機取樣獲得初始流量序列xt;t為設定的最大擴散步數(shù);
4、sa2、結合擴散步數(shù)t對流量序列xt進行逆向擴散,得到流量序列xt-1;t的初始值為t;
5、sa3、將xt-1更新為xt-1+ρt-1||y-a×xθ(xt,t)||2;
6、其中,||·||2表示取二范數(shù);?||y-a×xθ(xt,t)||2表示||y-a×xθ(xt,t)||2對的求導;ρt-1為反應控制梯度影響程度且與t相關的設定常量;y為目標時間點上的鏈路負載序列,a為網絡的路由矩陣;xθ(xt,t)表示訓練的去噪網絡結合擴散步數(shù)t對流量序列xt的去噪結果;
7、sa4、判斷t-1≤1是否成立;否,則將t更新為t-1,然后返回步驟sa2;是,則將xt-1輸入去噪網絡,獲取去噪網絡輸出的降噪序列xθ(xt-1,t-1)作為源點流量估計序列x'0輸出。
8、優(yōu)選的,sa4中獲取源點流量估計序列x'0之后,對源點流量估計序列x'0逐時間點迭代優(yōu)化,以獲得最終的估計流量序列xfinal;迭代步驟如下:
9、s51、結合以下公式對x'0中各源點對流量進行迭代:
10、;
11、其中,x'0中時間點r上的流量向量經過n+1次迭代后記作x(n+1,r),x'0中時間點r上的流量向量經過n次迭代后記作x(n,r),表示x(n+1,r)中的第j個源點對流量,表示x(n,r)中的第j個源點對流量;n的初始值為0,r的初始值為1;表示x(n,r)中的第k個源點對流量,aij表示路由矩陣中第i行第j列的值,aik表示路由矩陣中第i行第k列的值;yi,r表示時間點r上第i個鏈路負載;ny為鏈路總數(shù),nx為源點對總數(shù);
12、s52、計算yr和a×x(n+1,r)的差值絕對值記作f(n+1,r),yr表示時間點r上的鏈路負載;判斷f(n+1,r)是否小于判斷值,判斷值的初始值為yr和a×x(1,r)的差值絕對值,x(1,r)為x'0中時間點r上的流量向量1次迭代后的結果;是,則將判斷值更新為f(n+1,r),令設置的代數(shù)h更新為n+1,h的初始值為1,并令n更新為n+1,然后返回步驟s51;否,則執(zhí)行步驟s53;
13、s53、統(tǒng)計判斷值更新后x'0的迭代次數(shù)是否達到設定優(yōu)化次數(shù);
14、否,令n更新為n+1,然后返回步驟s51;
15、是,則以x(h,r)作為估計流量序列xfinal中時間點r上的流量向量;當前判斷值為yr和a×x(h,r)的差值絕對值,x(h,r)為x'0經過h次迭代后時間點r的流量向量;
16、s54、判斷是否遍歷x'0中所有時間點;否,則初始化迭代次數(shù)n=0,令r更新為r+1,返回步驟s51;是,則輸出流量序列xfinal。
17、優(yōu)選的,去噪網絡采用m個編碼模塊和n個解碼模塊構成的transformer架構,m和n為自定義參數(shù);去噪網絡的訓練方法包括以下步驟:
18、st1、獲取網絡流量的歷史數(shù)據并進行歸一化處理,根據設定的觀測時隙將歸一化后的歷史數(shù)據切分成作為訓練樣本的網絡流量序列;獲取預處理模塊,預處理模塊根據流量觀測序列獲取包含所有源點對流量的流量預處理序列;
19、st2、選擇訓練樣本x,并獲取訓練樣本對應的掩碼mask;將訓練樣本x輸入預處理模塊,預處理模塊輸出對應的流量預處理序列pre(x);計算流量序列x':x'=mask⊙x+([1]-mask)⊙pre(x);其中,⊙表示哈達瑪積,[1]表示與掩碼mask同維度的矩陣;
20、st3、隨機從均勻分布{1,2…t}中取樣獲得擴散步數(shù)t,t為整數(shù),且1≤t≤t;t為設定的最大擴散步數(shù);從標準高斯分布取樣隨機噪聲ε,通過重參數(shù)化技巧計算流量序列x'經擴散步數(shù)t正向擴散后的流量序列作為含噪序列xt;
21、st4、將流量序列xt和擴散步數(shù)t輸入去噪網絡,去噪網絡去噪后輸出降噪序列x0=xθ(xt,t);計算損失函數(shù)loss,根據損失函數(shù)loss以梯度下降方式更新去噪網絡;
22、st5、判斷去噪網絡是否達到收斂條件;否,則返回步驟st2;是,則固定去噪網絡。
23、優(yōu)選的:xt=α't1/2x'+(1-α't)1/2ε;α't=∏tr=1αr;αr=1-βr;βr∈{βt;1≤t≤t};αt=1-βt;其中,∏表示連乘,αt、βt、α't均表示常量;βt來自于設置的數(shù)集{βt;1≤t≤t};0<β1<β2<β3<…<βt<…<βt<1;αr和βr為常量。
24、優(yōu)選的,st4中損失函數(shù)為:loss=||mask⊙x-mask⊙xθ(xt,t)||2;||·||2表示取二范數(shù)。
25、優(yōu)選的,預處理模塊包括順序連接的編碼器、中間網絡和解碼器;編碼器對輸入的流量觀測序列進行編碼,并輸出編碼特征數(shù)據;中間網絡用于提取編碼特征數(shù)據的時空信息;解碼器對時空編碼信息進行解碼,以輸出包含所有源點對流量的流量預處理序列。
26、優(yōu)選的,sa2中的逆向擴散,公式表達如下:
27、;
28、其中,αt、βt、α't、α't-1均表示常量;βt來自于設置的數(shù)集{βt;1≤t≤t},且0<β1<β2<β3<…<βt<…<βt<1;αt=1-βt,α't=∏tr=1αr,α't-1=∏t-1r=1αr;αr=1-βr;βr∈{βt;1≤t≤t};αr和βr為常量。
29、優(yōu)選的,ρt-1=(1-αt-1)/αt-11/2;αt-1=1-βt-1,βt-1來自于設置的數(shù)集{βt;1≤t≤t}。
30、本發(fā)明還提出了一種基于擴散模型的網絡流量序列估計系統(tǒng),包括存儲器和處理器,存儲器中存儲有計算機程序,處理器連接存儲器,處理器用于執(zhí)行所述計算機程序,以實現(xiàn)所述的基于擴散模型的網絡流量序列估計方法。
31、本發(fā)明還提出了一種存儲介質,存儲有計算機程序,所述計算機程序被執(zhí)行時用于實現(xiàn)所述的基于擴散模型的網絡流量序列估計方法。本發(fā)明的優(yōu)點在于:
32、(1)本發(fā)明提出的基于擴散模型的網絡流量序列估計方法,結合去噪網絡對流量序列進行逆向擴散解決了實際生活中大量存在的訓練數(shù)據錯誤及缺失導致的深度模型欠擬合問題。面向網絡流量序列,充分挖掘了流量序列中的時空特征,在同一數(shù)量流量矩陣條件下,速度和準確度相比以往基于生成模型的方案顯著提升。
33、(2)本發(fā)明能夠在數(shù)據集不完整的情況下,利用預處理模塊和去噪網絡相互獨立的雙階段訓練機制,保證去噪網絡對現(xiàn)實網絡流量序列估計的準確性和魯棒性。
34、(3)本發(fā)明提出的基于擴散模型的網絡流量序列估計方法,通過梯度近似條件生成方法和期望最大化算法優(yōu)化估計,充分利用當前鏈路負載和路由矩陣所蘊含的信息,并同時得益于擴散模型對流量序列信息的構建擬合能力,有效降低了網絡流量序列估計任務的復雜度,相比現(xiàn)有技術,對網絡流量信息也具備更優(yōu)秀的復原效果。
35、(4)本發(fā)明采用無監(jiān)督訓練,是一種即插即用的網絡流量估計方案,僅受當前網絡的路由和拓撲情況影響,具有適應性強,靈活度高等特點。