欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

流數(shù)據(jù)的異常點檢測方法及裝置與流程

文檔序號:12597499閱讀:443來源:國知局
流數(shù)據(jù)的異常點檢測方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體地,涉及一種流數(shù)據(jù)的異常點檢測方法及裝置。



背景技術(shù):

流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達(dá)的數(shù)據(jù)序列,一般情況下,數(shù)據(jù)流可被視為一個隨時間延續(xù)而無限增長的動態(tài)數(shù)據(jù)集合。對于各個領(lǐng)域來說,例如,物聯(lián)網(wǎng)、航空航天、氣象測控和金融服務(wù)等領(lǐng)域,流數(shù)據(jù)可以理解為是多種多類的傳感器在各個時刻檢測到的數(shù)據(jù)。

對流數(shù)據(jù)進(jìn)行異常點檢測,有利于預(yù)測未來可能發(fā)生的故障,并進(jìn)行診斷。目前,對流數(shù)據(jù)進(jìn)行異常檢測的研究主要基于統(tǒng)計和機(jī)器學(xué)習(xí)的方法。

其中,基于統(tǒng)計的方法通過分析統(tǒng)計數(shù)據(jù)的分布情況,找到不符合該數(shù)據(jù)分布的異常點。這種方法需要了解數(shù)據(jù)分布情況,同時檢測出的異常點可能被不同的分布模型檢測到,即檢測這些異常點的機(jī)制可能不唯一?;跈C(jī)器學(xué)習(xí)的方法主要將異常點檢測看作聚類或分類問題,解決了基于統(tǒng)計方法產(chǎn)生的異常點多義性問題。但現(xiàn)有技術(shù)通常采用淺層機(jī)器學(xué)習(xí)模型進(jìn)行,僅將流數(shù)據(jù)直接用于模型學(xué)習(xí),未考慮數(shù)據(jù)特征間的內(nèi)在聯(lián)系,異常點檢測的準(zhǔn)確度較低。



技術(shù)實現(xiàn)要素:

本發(fā)明的主要目的是提供一種流數(shù)據(jù)的異常點檢測方法及裝置,用以解決現(xiàn)有技術(shù)對流數(shù)據(jù)異常點檢測的準(zhǔn)確度較低的技術(shù)問題。

為了實現(xiàn)上述目的,本發(fā)明第一方面提供一種流數(shù)據(jù)的異常點檢測方法,所述流數(shù)據(jù)包括每類傳感器在歷史時刻檢測到的數(shù)據(jù),以及在每一所述歷史時刻的實測異常點數(shù)據(jù),所述方法包括:

根據(jù)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),以及所述實測異常點數(shù)據(jù)訓(xùn)練長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)LSTM模型,形成已訓(xùn)練LSTM模型,其中,每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù)作為訓(xùn)練所述LSTM模型的一個輸入向量;

將每類所述傳感器在當(dāng)前時刻檢測到的數(shù)據(jù)作為所述已訓(xùn)練LSTM模型的輸入,得到所述已訓(xùn)練LSTM模型輸出的異常點數(shù)據(jù)檢測結(jié)果。

可選地,所述根據(jù)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),以及所述實測異常點數(shù)據(jù)訓(xùn)練長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)LSTM模型,形成已訓(xùn)練LSTM模型,包括:

利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),其中,正常點標(biāo)簽y的值為1;

根據(jù)正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h),計算獲得交叉熵,其中,所述交叉熵作為模型的損失函數(shù),用于衡量概率值與標(biāo)簽的相似性;

根據(jù)所述損失函數(shù)調(diào)整所述LSTM模型的參數(shù)。

可選地,所述利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),包括:

利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到隱藏向量表示;

將所述隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述目標(biāo)概率值P(y=1|h)。

可選地,所述利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),包括:

利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第一隱藏向量表示;

將所述第一隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述第一概率值P(y=1|h1);

利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)所有傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第二隱藏向量表示;

將所述第二隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到第二概率值P(y=1|h2);

根據(jù)所述第一概率值P(y=1|h1)和所述第二概率值P(y=1|h2)通過如下公式計算得到所述目標(biāo)概率值P(y=1|h):

P(y=1|h)=sigmoid(α·P(y=1|h1)+β·P(y=1|h2));

其中,α大于0,β大于0,且α+β=1,sigmoid為激活函數(shù)。

可選地,所述根據(jù)正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h),計算獲得交叉熵,包括:

通過如下公式計算正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h)的交叉熵L(θ):

L(θ)=-(ylogP(y=1|h)+(1-y)log(1-P(y=1|h)))。

可選地,所述根據(jù)所述損失函數(shù)調(diào)整所述LSTM模型的參數(shù),包括:

根據(jù)所述損失函數(shù)L(θ)通過隨機(jī)梯度下降算法對模型參數(shù)進(jìn)行調(diào)整。

本發(fā)明第二方面提供一種檢測裝置,包括:

訓(xùn)練模塊,用于根據(jù)每類傳感器在歷史時刻檢測到的數(shù)據(jù),以及每一所述歷史時刻的實測異常點數(shù)據(jù)訓(xùn)練長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)LSTM模型,形成已訓(xùn)練LSTM模型,其中,每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù)作為訓(xùn)練所述LSTM模型的一個輸入向量;

檢測模塊,用于將每類所述傳感器在當(dāng)前時刻檢測到的數(shù)據(jù)作為所述已訓(xùn)練LSTM模型的輸入,得到所述已訓(xùn)練LSTM模型輸出的異常點數(shù)據(jù)檢測結(jié)果。

可選地,所述訓(xùn)練模塊包括:

數(shù)據(jù)特征學(xué)習(xí)模塊,用于利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),其中,正常點標(biāo)簽y的值為1;

計算模塊,用于根據(jù)正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h),計算獲得交叉熵,其中,所述交叉熵作為模型的損失函數(shù),用于衡量概率值與標(biāo)簽的相似性;

參數(shù)調(diào)整模塊,用于根據(jù)所述損失函數(shù)調(diào)整所述LSTM模型的參數(shù)。

可選地,所述數(shù)據(jù)特征學(xué)習(xí)模塊具體用于:

利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到隱藏向量表示;

將所述隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述目標(biāo)概率值P(y=1|h)。

可選地,所述數(shù)據(jù)特征學(xué)習(xí)模塊具體用于:

利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第一隱藏向量表示;

將所述第一隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述第一概率值P(y=1|h1);

利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)所有傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第二隱藏向量表示;

將所述第二隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到第二概率值P(y=1|h2);

根據(jù)所述第一概率值P(y=1|h1)和所述第二概率值P(y=1|h2)通過如下公式計算得到所述目標(biāo)概率值P(y=1|h):

P(y=1|h)=sigmoid(α·P(y=1|h1)+β·P(y=1|h2));

其中,α大于0,β大于0,且α+β=1,sigmoid為激活函數(shù)。

可選地,所述計算模塊用于:

通過如下公式計算正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h)的交叉熵L(θ):

L(θ)=-(ylogP(y=1|h)+(1-y)log(1-P(y=1|h)))。

可選地,所述參數(shù)調(diào)整模塊具體用于:

根據(jù)所述損失函數(shù)L(θ)通過隨機(jī)梯度下降算法對模型參數(shù)進(jìn)行調(diào)整。

通過上述技術(shù)方案,將每類傳感器在歷史時刻檢測到的數(shù)據(jù)作為訓(xùn)練LSTM模型的輸入向量,基于LSTM模型本身的特性,其在訓(xùn)練時考慮了不同輸入向量之間的關(guān)系,從而在使用各類傳感器檢測到的數(shù)據(jù)訓(xùn)練LSTM模型時,保證了LSTM模型能夠?qū)W習(xí)高各類傳感器之間的聯(lián)系。相比現(xiàn)有技術(shù)在檢測流數(shù)據(jù)的異常點時未考慮數(shù)據(jù)特征間的內(nèi)在聯(lián)系,本發(fā)明使用已訓(xùn)練的LSTM模型能夠更準(zhǔn)確地檢測出異常點。

本發(fā)明的其他特征和優(yōu)點將在隨后的具體實施方式部分予以詳細(xì)說明。

附圖說明

附圖是用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與下面的具體實施方式一起用于解釋本發(fā)明,但并不構(gòu)成對本發(fā)明的限制。在附圖中:

圖1是LSTM模型的計算單元的結(jié)構(gòu)示意圖;

圖2是本發(fā)明實施例提供的一種流數(shù)據(jù)的異常點檢測方法的流程示意圖;

圖3是本發(fā)明實施例提供的一種流數(shù)據(jù)滑動學(xué)習(xí)窗口學(xué)習(xí)數(shù)據(jù)特征的示意圖;

圖4是本發(fā)明實施例提供的一種LSTM模型的訓(xùn)練過程的示意圖;

圖5是本發(fā)明實施例提供的另一種LSTM模型的訓(xùn)練過程的示意圖;

圖6A是本發(fā)明實施例提供的一種檢測裝置的結(jié)構(gòu)示意圖;

圖6B是本發(fā)明實施例提供的另一種檢測裝置的結(jié)構(gòu)示意圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的具體實施方式進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解的是,此處所描述的具體實施方式僅用于說明和解釋本發(fā)明,并不用于限制本發(fā)明。

為了使本領(lǐng)域技術(shù)人員更容易理解本發(fā)明實施例提供的技術(shù)方案,下面首先對涉及到的相關(guān)技術(shù)進(jìn)行簡單介紹。

LSTM(Long Short-term Memory Recurrent Neural Network,長短時遞歸神經(jīng)網(wǎng)絡(luò))模型是一種時間遞歸神經(jīng)網(wǎng)絡(luò)。通過引入忘記門機(jī)制f,解決了傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)產(chǎn)生的傳播信息丟失及梯度彌散現(xiàn)象,更適合于處理和預(yù)測時間序列中間隔和延遲非常長的重要事件。

如圖1所示,LSTM模型中的計算單元如圖1所示,由圖可知,每一計算單元的計算過程如下式所示:

it=σ(W(i)xt+U(i)ht-1+b(i))

ft=σ(W(f)xt+U(f)ht-1+b(f))

ct=ft⊙ct-1+it⊙tanh(W(c)xt+U(c)ht-1+b(c))

ot=σ(W(o)xt+U(o)ht-1+b(o))

ht=ot⊙tanh(ct)

一般地,流數(shù)據(jù)產(chǎn)生的異常點多數(shù)與其歷史數(shù)據(jù)有關(guān)。通過分析歷史數(shù)據(jù),有助于判斷被預(yù)測數(shù)據(jù)的異常情況。上式展示了任一類傳感器在t時刻隱藏向量表示(ht)的計算方法。首先,xt為t時刻該類傳感器的向量表示,其分量為t時刻該類傳感器中各個傳感器采集的數(shù)值,ht-1為t-1時刻的隱藏向量表示,W(i),U(i)以及b(i)分別為計算輸入門向量表示(it)的參數(shù)。基于sigmoid激活函數(shù),可以計算獲得只包含0和1的向量表示it。類似地,W(f),U(f)以及b(f)分別為計算忘記門向量表示(ft)的參數(shù)。然后,基于it和ft的加權(quán)和,自動獲取流數(shù)據(jù)在t-1時刻重要的信息,同時過濾掉無用的信息,計算獲得t時刻的記憶元向量表示(ct)。同樣,基于sigmoid激活函數(shù),可以獲取流數(shù)據(jù)在t時刻的輸出門向量ot。最后,計算ot與記憶元ct之間的點積,獲得流數(shù)據(jù)在t時刻的隱藏向量表示ht,用于計算t+1時刻的隱藏向量表示。

輸入向量xt經(jīng)過LSTM后,計算獲得對應(yīng)的隱藏向量表示ht,包含了t時刻之前的歷史流數(shù)據(jù)變化信息?;趆t進(jìn)行訓(xùn)練或者預(yù)測,相比單純使用xt而言,更有助于捕獲各個時刻傳感器信息,提高異常點檢測模型的性能。

基于LSTM模型,本發(fā)明實施例提供一種流數(shù)據(jù)的異常點檢測方法,其中,所述流數(shù)據(jù)包括每類傳感器在歷史時刻檢測到的數(shù)據(jù),以及在每一所述歷史時刻的實測異常點數(shù)據(jù)。如圖2所示,該方法包括:

S201、根據(jù)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),以及所述實測異常點數(shù)據(jù)訓(xùn)練長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)LSTM模型,形成已訓(xùn)練LSTM模型,其中,每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù)作為訓(xùn)練所述LSTM模型的一個輸入向量。

具體地,同一傳感器在多個歷史時刻檢測到的數(shù)據(jù)是一數(shù)據(jù)序列,將該數(shù)據(jù)序列作為輸入向量,數(shù)據(jù)序列中的每一數(shù)據(jù)即為輸入向量中的每一個元素。

S202、將每類所述傳感器在當(dāng)前時刻檢測到的數(shù)據(jù)作為所述已訓(xùn)練LSTM模型的輸入,得到所述已訓(xùn)練LSTM模型輸出的異常點數(shù)據(jù)檢測結(jié)果。

參照上述對LSTM模型的介紹,本發(fā)明實施例將每類傳感器在歷史時刻檢測到的數(shù)據(jù)作為訓(xùn)練LSTM模型的輸入向量,在具有n類傳感器的情況下,可以認(rèn)為是LSTM模型運(yùn)行了n個時間單位,在每個時間單位上,LSTM模型的輸入向量為一類傳感器在歷史時刻檢測到的數(shù)據(jù)?;贚STM模型本身的特性,其在訓(xùn)練時考慮了不同輸入向量之間的關(guān)系,從而在使用各類傳感器檢測到的數(shù)據(jù)訓(xùn)練LSTM模型時,保證了LSTM模型能夠?qū)W習(xí)高各類傳感器之間的聯(lián)系。相比現(xiàn)有技術(shù)在檢測流數(shù)據(jù)的異常點時未考慮數(shù)據(jù)特征間的內(nèi)在聯(lián)系,本發(fā)明實施例使用已訓(xùn)練的LSTM模型能夠更準(zhǔn)確地檢測出異常點。也就是說,本發(fā)明實施例將對流數(shù)據(jù)的異常點檢測看作基于時間序列的分類問題,考慮了各類傳感器之間的關(guān)系,提高了異常點檢測的準(zhǔn)確度。

為了使本領(lǐng)域技術(shù)人員更加理解本發(fā)明實施例提供的技術(shù)方案,下面上述步驟進(jìn)行詳細(xì)說明。

具體地,上述步驟S201可以包括:利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),其中,正常點標(biāo)簽y的值為1;根據(jù)正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h),計算獲得交叉熵,其中,所述交叉熵作為模型的損失函數(shù),用于衡量概率值與標(biāo)簽的相似性;根據(jù)所述損失函數(shù)調(diào)整所述LSTM模型的參數(shù)。

值得說明的是,流數(shù)據(jù)滑動學(xué)習(xí)窗口的大小表示了每次學(xué)習(xí)的步長,流數(shù)據(jù)滑動學(xué)習(xí)窗口的大小具體可以根據(jù)輸入向量動態(tài)調(diào)整,也可以預(yù)設(shè)為固定值。

圖4是流數(shù)據(jù)滑動學(xué)習(xí)窗口學(xué)習(xí)數(shù)據(jù)特征的示意圖。其中,圖中最上層的每一個圓圈表示輸入向量的一個元素,也即傳感器在某一歷史時刻檢測到的數(shù)據(jù)。流數(shù)據(jù)滑動學(xué)習(xí)窗口的大小為4,即每次學(xué)習(xí)4個元素的數(shù)據(jù)特征。k1、k2和k3表示各層神經(jīng)網(wǎng)絡(luò)參數(shù),具體參照圖1所示的計算單元,每一層的神經(jīng)網(wǎng)絡(luò)參數(shù)包括如圖1所示的計算單元中涉及到的參數(shù)。經(jīng)過每一層神經(jīng)網(wǎng)絡(luò)參數(shù)處理后,得到相應(yīng)的隱藏向量表示,如圖4中示出的ht-2、ht-1和ht。由圖1可知,上一層的隱藏向量表示將作為下一層隱藏向量表示。

這樣,針對每一輸入向量依次學(xué)習(xí)數(shù)據(jù)特征得到隱藏向量表示后,將隱藏向量表示經(jīng)過邏輯回歸層處理,即得到正常點的目標(biāo)概率值P(y=1|h)。也就是說,正常點標(biāo)簽y的值為1,異常點標(biāo)簽y的值為0。目標(biāo)概率值P(y=1|h)是指被檢測的數(shù)據(jù)屬于正常點的概率值,從而,被檢測的數(shù)據(jù)屬于異常點的概率值即為1-P(y=1|h)。另外,損失函數(shù)用于衡量概率值與標(biāo)簽的相似性,若相似性滿足預(yù)設(shè)閾值,則可以停止訓(xùn)練,得到所述已訓(xùn)練LSTM模型;可替換地,在訓(xùn)練次數(shù)達(dá)到閾值時,也可以停止訓(xùn)練,得到所述已訓(xùn)練LSTM模型。

在本發(fā)明實施例的一種可能的實現(xiàn)方式中,所述利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),包括:利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到隱藏向量表示;將所述隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述目標(biāo)概率值P(y=1|h)。

示例地,3類傳感器在每一歷史時刻tn-w到tn分別檢測到數(shù)據(jù),其中,傳感器的分類可以按照傳感器檢測到的數(shù)據(jù)類型進(jìn)行分類,例如上述3類傳感器可以分別為溫度類傳感器、濕度類傳感器、壓力類傳感器。并且,每一類傳感器的數(shù)量可以為多個。以tn時刻舉例,tn時刻的流數(shù)據(jù)其中,{xt1,xt2}是溫度類傳感器在tn檢測到的數(shù)據(jù),{xh1}是濕度類傳感器在tn時刻檢測到的數(shù)據(jù),{xp1,xp2,xp3}是壓力類傳感器在tn時刻檢測到的數(shù)據(jù)。這樣,本發(fā)明實施例在該種可能的實現(xiàn)方式中,將每一類傳感器在tn-w至tn時刻檢測到的數(shù)據(jù)作為訓(xùn)練LSTM模型的輸入向量。

具體地,如圖4所示,采用LSTMt學(xué)習(xí)溫度類傳感器在tn-w至tn時刻檢測到的數(shù)據(jù)序列的數(shù)據(jù)特征,采用LSTMh學(xué)習(xí)溫度類傳感器在tn-w至tn時刻檢測到的數(shù)據(jù)序列的數(shù)據(jù)特征,采用LSTMp學(xué)習(xí)溫度類傳感器在tn-w至tn時刻檢測到的數(shù)據(jù)序列的數(shù)據(jù)特征,在經(jīng)過多個中間層的學(xué)習(xí)后,分別獲得隱藏向量表示ht,hh,hp。進(jìn)一步地,將ht,hh,hp作為邏輯回歸層的輸入向量hs,即hs=[ht,hh,hp],在經(jīng)過邏輯回歸層的激活函數(shù)處理后,得到目標(biāo)概率值P(y=1|h)。

示例地,假設(shè)hs=[x1,x2,......xn],需要學(xué)習(xí)到y(tǒng)=a1x1+a2x2+......+b,即y=wl.hs+b,則可以做如下變換:令y=log(p/(1-p)),其中p是[0,1]之間的數(shù)值,可以認(rèn)為是某件事情發(fā)生的可能性,針對y=log(p/(1-p))做進(jìn)一步變換可得:

上述即為邏輯回歸模型的函數(shù)形式,也叫做sigmoid函數(shù)。由上式可知p在[0,1]之間在整個實數(shù)域曲線連續(xù)且可導(dǎo)。在解決二分類問題的時候,可以設(shè)定一個閾值,當(dāng)p大于閾值的時候,分為類別A,否則,分為類別B。則在本發(fā)明實施例中,對于正常點和異常點分類的問題,檢測的數(shù)據(jù)為正常點的目標(biāo)概率P(y=1|h)即為:

檢測的數(shù)據(jù)為異常點的目標(biāo)概率P(y=0|h)即為:

進(jìn)一步地,通過以下公式可以獲得目標(biāo)概率P(y=1|h)與標(biāo)簽y之間的交叉熵L(θ):

L(θ)=-y log(P(y=1|h))+(1-y)log(1-P(y=1|h));

值得說明的是,交叉熵越小表示目標(biāo)概率與標(biāo)簽越相似,從而可以將該交叉熵作為損失函數(shù),對LSTM模型的各層參數(shù)進(jìn)行調(diào)整。并且在進(jìn)行參數(shù)調(diào)整后,參照圖4所示的過程,繼續(xù)基于3類傳感器在tn-w至tn時刻檢測到的數(shù)據(jù)對LSTM模型進(jìn)行訓(xùn)練,直到訓(xùn)練出的目標(biāo)概率與標(biāo)簽之間的相似性達(dá)到預(yù)設(shè)閾值,或者,直到訓(xùn)練次數(shù)達(dá)到閾值,停止訓(xùn)練,得到已訓(xùn)練LSTM模型。

在本發(fā)明實施例的另一種可能的實現(xiàn)方式中,所述利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),包括:利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第一隱藏向量表示;將所述第一隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述第一概率值P(y=1|h1);利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)所有傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第二隱藏向量表示;將所述第二隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到第二概率值P(y=1|h2);根據(jù)所述第一概率值P(y=1|h1)和所述第二概率值P(y=1|h2)通過如下公式計算得到所述目標(biāo)概率值P(y=1|h):

P(y=1|h)=sigmoid(α·P(y=1|h1)+β·P(y=1|h2))

其中,α大于0,β大于0,且α+β=1,sigmoid為激活函數(shù)。

基于圖4的例子進(jìn)行舉例。如圖5所示,參照上述對圖4描述的過程,將hs=[ht,hh,hp]經(jīng)過邏輯回歸層的激活函數(shù)處理得到第一概率值P(y=1|h1)后,通過LSTMa學(xué)習(xí)所有傳感器在tn-w至tn時刻檢測到的數(shù)據(jù)的特征,得到隱藏向量表示ha,將ha經(jīng)過邏輯回歸層的激活函數(shù)處理得到第二概率值P(y=1|h2)。最終得到的目標(biāo)概率值P(y=1|h)是第一概率值P(y=1|h1)和第二概率值P(y=1|h2)的加權(quán)求和,其中,權(quán)值α和β可以根據(jù)實際需求預(yù)先設(shè)定。

通過該種可能的實現(xiàn)方式計算得到目標(biāo)概率值P(y=1|h)后,同樣,可以計算交叉熵L(θ):L(θ)=-(ylogP(y=1|h)+(1-y)log(1-P(y=1|h))),并根據(jù)L(θ)對LSTM模型的參數(shù)進(jìn)行調(diào)整。

在上述可能的實現(xiàn)方式中,LSTM模型在訓(xùn)練時,每一類傳感器檢測到的數(shù)據(jù)作為訓(xùn)練LSTM模型的輸入向量,從而考慮到了相鄰兩類傳感器之間的聯(lián)系,同時為了捕獲不同類別傳感器之間的聯(lián)系,將所有類別的傳感器檢測到的數(shù)據(jù)作為另一輸入向量直接輸入LSTM模型,有助于LSTM模型學(xué)習(xí)到不同類別傳感器之間的更深層次的聯(lián)系,進(jìn)一步提高檢測準(zhǔn)確度。

進(jìn)一步地,本發(fā)明實施例還可以根據(jù)所述交叉熵L(θ)通過SGD(Stochastic Gradient Descent,隨機(jī)梯度下降)算法對模型參數(shù)進(jìn)行調(diào)整。

具體地,參數(shù)調(diào)整如以下公式所示:

θ={Ws(i),Ws(f),Ws(c),Ws(o),Us(i),Us(f),Us(c),Us(o),

bs(i),bs(f),bs(c)bs(o),wl,b(i)},s={t,h,p,...,a}

其中,l是學(xué)習(xí)率,θ表示當(dāng)前LSTM模型各層的參數(shù),表示調(diào)整后的參數(shù),表示交叉熵L(θ)對θ求導(dǎo)。參照圖1,每個計算單元的參數(shù)包括W(i),U(i)以及b(i),即計算輸入門向量表示的參數(shù),以及W(f),U(f)以及b(f),即計算忘記門向量表示的參數(shù),以及W(c),U(c)以及b(c),即計算記憶元向量表示的參數(shù),以及W(o),U(o)以及b(o),即計算輸出門向量表示的參數(shù),另外,還包括點積等運(yùn)算使用的相關(guān)參數(shù)。對應(yīng)到圖4和圖5中,圖中所示的每一LSTMt代表每一層,每一層的結(jié)構(gòu)參照圖1所示的計算單元。針對每層的每一參數(shù)通過上述公式計算可以求得調(diào)整后的參數(shù)。其中,LSTMh、LSTMp和LSTMa同理,這樣,根據(jù)調(diào)整后的參數(shù)再次訓(xùn)練LSTM模型,直到交叉熵符合要求的數(shù)值或者訓(xùn)練次數(shù)達(dá)到閾值結(jié)束,得到已訓(xùn)練的LSTM模型。

值得說明的是,使用隨機(jī)梯度下降算法可以使LSTM模型的各層參數(shù)朝最大梯度方向收斂,從而保證每次訓(xùn)練的交叉熵越來小,使得每一次訓(xùn)練后的交叉熵越來越接近符合要求的數(shù)值。

本發(fā)明實施例還提供一種檢測裝置60,用于實施上述方法實施例提供的一種流數(shù)據(jù)的異常點檢測方法,如圖6A所示,該檢測裝置60包括:

訓(xùn)練模塊601,用于根據(jù)每類傳感器在歷史時刻檢測到的數(shù)據(jù),以及每一所述歷史時刻的實測異常點數(shù)據(jù)訓(xùn)練長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)LSTM模型,形成已訓(xùn)練LSTM模型,其中,每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù)作為訓(xùn)練所述LSTM模型的一個輸入向量;

檢測模塊602,用于將每類所述傳感器在當(dāng)前時刻檢測到的數(shù)據(jù)作為所述已訓(xùn)練LSTM模型的輸入,得到所述已訓(xùn)練LSTM模型輸出的異常點數(shù)據(jù)檢測結(jié)果。

具體地,如圖6B所示,所述訓(xùn)練模塊601包括:

數(shù)據(jù)特征學(xué)習(xí)模塊6011,用于利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)每類所述傳感器在所述歷史時刻檢測到的數(shù)據(jù),得到正常點的目標(biāo)概率值P(y=1|h),其中,正常點標(biāo)簽y的值為1;

計算模塊6012,用于根據(jù)正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h),計算獲得交叉熵,其中,所述交叉熵作為模型的損失函數(shù),用于衡量概率值與標(biāo)簽的相似性;

參數(shù)調(diào)整模塊6013,用于根據(jù)所述損失函數(shù)調(diào)整所述LSTM模型的參數(shù)。

可選地,所述數(shù)據(jù)特征學(xué)習(xí)模塊6011具體用于:

利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到隱藏向量表示;

將所述隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述目標(biāo)概率值P(y=1|h)。

可選地,所述數(shù)據(jù)特征學(xué)習(xí)模塊6011具體用于:

利用所述LSTM模型的流數(shù)據(jù)滑動窗口分別學(xué)習(xí)每一類傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第一隱藏向量表示;

將所述第一隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到所述第一概率值P(y=1|h1);

利用所述LSTM模型的流數(shù)據(jù)滑動窗口學(xué)習(xí)所有傳感器在所述歷史時刻檢測到的數(shù)據(jù)的特征,得到第二隱藏向量表示;

將所述第二隱藏向量表示通過所述LSTM模型的邏輯回歸層處理,得到第二概率值P(y=1|h2);

根據(jù)所述第一概率值P(y=1|h1)和所述第二概率值P(y=1|h2)通過如下公式計算得到所述目標(biāo)概率值P(y=1|h):

P(y=1|h)=sigmoid(α·P(y=1|h1)+β·P(y=1|h2))

其中,α大于0,β大于0,且α+β=1,sigmoid為激活函數(shù)。

可選地,所述計算模塊6012用于:

通過如下公式計算正常點的標(biāo)簽及所述目標(biāo)概率值P(y=1|h)的交叉熵L(θ):

L(θ)=-(ylogP(y=1|h)+(1-y)log(1-P(y=1|h)))。

可選地,所述參數(shù)調(diào)整模塊6013具體用于:

根據(jù)所述損失函數(shù)L(θ)通過隨機(jī)梯度下降算法對模型參數(shù)進(jìn)行調(diào)整。

本領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,僅以上述各功能模塊的劃分進(jìn)行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。上述描述功能模塊的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。

采用上述檢測裝置,該檢測裝置將每類傳感器在歷史時刻檢測到的數(shù)據(jù)作為訓(xùn)練LSTM模型的輸入向量,基于LSTM模型本身的特性,其在訓(xùn)練時考慮了不同輸入向量之間的關(guān)系,從而在使用各類傳感器檢測到的數(shù)據(jù)訓(xùn)練LSTM模型時,保證了LSTM模型能夠?qū)W習(xí)高各類傳感器之間的聯(lián)系。相比現(xiàn)有技術(shù)在檢測流數(shù)據(jù)的異常點時未考慮數(shù)據(jù)特征間的內(nèi)在聯(lián)系,本發(fā)明使用已訓(xùn)練的LSTM模型能夠更準(zhǔn)確地檢測出異常點。

在本申請所提供的實施例中,應(yīng)該理解到,所公開的裝置和方法,可以通過其它的方式實現(xiàn)。例如,在本發(fā)明各個實施例中的各功能模塊可以集成在一個處理單元中,也可以是各個單元單獨物理存在。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。

上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、RAM(Random Access Memory,隨機(jī)存取存儲器)、磁碟或者光盤等各種可以存儲數(shù)據(jù)的介質(zhì)。

以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
万全县| 盖州市| 阆中市| 象州县| 安国市| 石棉县| 渝北区| 额敏县| 汕头市| 平和县| 伊春市| 安塞县| 邯郸县| 苏尼特左旗| 博罗县| 孝感市| 陈巴尔虎旗| 元朗区| 东明县| 运城市| 友谊县| 阳东县| 延庆县| 乳山市| 温州市| 汝城县| 和硕县| 玉田县| 宾川县| 城口县| 松溪县| 靖安县| 文安县| 靖西县| 文水县| 郁南县| 卢湾区| 光泽县| 临颍县| 外汇| 通山县|