本發(fā)明涉及故障預(yù)警算法技術(shù)領(lǐng)域,尤其涉及一種基于分類聚類的故障預(yù)警算法。
背景技術(shù):
網(wǎng)站故障數(shù)據(jù)是面向的網(wǎng)站數(shù)據(jù),這些數(shù)據(jù)包括文本信息(用戶提問與反饋信息)、網(wǎng)站的鏈接信息(場(chǎng)景id)、訪問記錄(PV,UV等);網(wǎng)站故障的事件數(shù)據(jù)是相對(duì)罕見的,但是這并不表示它們是絕對(duì)沒有規(guī)律的,某個(gè)數(shù)據(jù)對(duì)象不同于其他數(shù)據(jù)對(duì)象(即異常),可能是因?yàn)樗鼘儆谝粋€(gè)不同的類型或類;異常往往是源于某種我們考慮到的或者我們沒有考慮到的異常源,而數(shù)據(jù)集中可能有多種異常源,他們底層的原因常常是未知的,故障預(yù)警技術(shù)對(duì)于這些異常源的原因是透明的,致力于發(fā)現(xiàn)顯著不同于其他對(duì)象的對(duì)象。
現(xiàn)有的故障預(yù)警技術(shù)大多是進(jìn)行異常點(diǎn)檢測(cè),但異常點(diǎn)檢測(cè)不考慮異常點(diǎn)之間的聯(lián)系,將異常點(diǎn)數(shù)據(jù)作為離群點(diǎn)或者突變點(diǎn)進(jìn)行檢測(cè),認(rèn)為密度低的、變化顯著的數(shù)據(jù)對(duì)象即為異常對(duì)象,這類算法并不需要事先進(jìn)行統(tǒng)計(jì)的數(shù)據(jù)模型的訓(xùn)練,挖掘的方法相對(duì)簡單、粗糙,雖然效率較高但是預(yù)警效果差強(qiáng)人意。
技術(shù)實(shí)現(xiàn)要素:
基于背景技術(shù)存在的技術(shù)問題,本發(fā)明提出了基于分類聚類的故障預(yù)警算法。
本發(fā)明提出的基于分類聚類的故障預(yù)警算法,包括以下步驟:
S1:監(jiān)督的異常檢測(cè),用分類模型將網(wǎng)站數(shù)據(jù)訓(xùn)練出有故障數(shù)據(jù)和無故障數(shù)據(jù)兩類;
S2:非監(jiān)督的異常檢測(cè),將故障數(shù)據(jù)聚為多個(gè)數(shù)據(jù)集,進(jìn)行故障的分析與檢測(cè);
S3:半監(jiān)督的異常檢測(cè),用部分的置信度高的標(biāo)識(shí)樣本來處理其余為標(biāo)記樣本的信息;
S4:不均衡數(shù)據(jù)集的處理,采用抽樣方法將數(shù)據(jù)集進(jìn)行均衡化,顯著異常數(shù)據(jù)的特征,完成故障預(yù)警。
優(yōu)選地,所述S1中,用支持向量機(jī)算法得到最優(yōu)的分類效果。
優(yōu)選地,所述S2中,用X-Means方法將故障數(shù)據(jù)聚為多個(gè)數(shù)據(jù)集,進(jìn)行故障的分析與檢測(cè)。
優(yōu)選地,所述S4中,用KRNN數(shù)據(jù)清理和SMOTE抽樣方法進(jìn)行抽樣處理,將數(shù)據(jù)集進(jìn)行均衡化,顯著異常數(shù)據(jù)的特征,完成故障預(yù)警。
本發(fā)明中,所述基于分類聚類的故障預(yù)警算法能夠不需要事先了解用戶數(shù)據(jù)的統(tǒng)計(jì)模型,不需要考慮異常點(diǎn)的建模,數(shù)據(jù)變化的敏感度高,并且能夠指出是哪個(gè)屬性出現(xiàn)了問題;故障預(yù)警覆蓋率高,充分考慮了網(wǎng)站業(yè)務(wù)的邏輯的復(fù)雜性與故障數(shù)據(jù)的模型特征;試圖對(duì)故障數(shù)據(jù)進(jìn)行建模預(yù)測(cè);適合用于對(duì)文本數(shù)據(jù)的處理,展示故障原因,提高客戶體驗(yàn);降低預(yù)警的誤報(bào)率,提高準(zhǔn)確度,對(duì)不均衡數(shù)據(jù)進(jìn)行抽樣處理,對(duì)樣本特征優(yōu)化,進(jìn)行特征放大,可以更好的獲得少數(shù)類的挖掘效果,在保證準(zhǔn)確度的前提下,提高故障預(yù)警的覆蓋率,本發(fā)明使用分類與聚類的方法進(jìn)行挖掘,充分考慮了異常點(diǎn)的數(shù)據(jù)對(duì)象內(nèi)部的聯(lián)系,試圖訓(xùn)練出異常數(shù)據(jù)的特征模型,引入了不均衡數(shù)據(jù)的挖掘方法,強(qiáng)化故障數(shù)據(jù)的特征,以達(dá)到較好的分類與聚類的效果,方法簡單,效率高。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步解說。
實(shí)施例
本實(shí)施例提出了基于分類聚類的故障預(yù)警算法,包括以下步驟:
S1:監(jiān)督的異常檢測(cè),用分類模型將網(wǎng)站數(shù)據(jù)訓(xùn)練出有故障數(shù)據(jù)和無故障數(shù)據(jù)兩類;
S2:非監(jiān)督的異常檢測(cè),將故障數(shù)據(jù)聚為多個(gè)數(shù)據(jù)集,進(jìn)行故障的分析與檢測(cè);
S3:半監(jiān)督的異常檢測(cè),用部分的置信度高的標(biāo)識(shí)樣本來處理其余為標(biāo)記樣本的信息;
S4:不均衡數(shù)據(jù)集的處理,采用抽樣方法將數(shù)據(jù)集進(jìn)行均衡化,顯著異常數(shù)據(jù)的特征,完成故障預(yù)警。
本實(shí)施例中,S1中,用支持向量機(jī)算法得到最優(yōu)的分類效果,S2中,用X-Means方法將故障數(shù)據(jù)聚為多個(gè)數(shù)據(jù)集,進(jìn)行故障的分析與檢測(cè),S4中,用KRNN數(shù)據(jù)清理和SMOTE抽樣方法進(jìn)行抽樣處理,將數(shù)據(jù)集進(jìn)行均衡化,顯著異常數(shù)據(jù)的特征,完成故障預(yù)警,基于分類聚類的故障預(yù)警算法能夠不需要事先了解用戶數(shù)據(jù)的統(tǒng)計(jì)模型,不需要考慮異常點(diǎn)的建模,數(shù)據(jù)變化的敏感度高,并且能夠指出是哪個(gè)屬性出現(xiàn)了問題;故障預(yù)警覆蓋率高,充分考慮了網(wǎng)站業(yè)務(wù)的邏輯的復(fù)雜性與故障數(shù)據(jù)的模型特征;試圖對(duì)故障數(shù)據(jù)進(jìn)行建模預(yù)測(cè);適合用于對(duì)文本數(shù)據(jù)的處理,展示故障原因,提高客戶體驗(yàn);降低預(yù)警的誤報(bào)率,提高準(zhǔn)確度,對(duì)不均衡數(shù)據(jù)進(jìn)行抽樣處理,對(duì)樣本特征優(yōu)化,進(jìn)行特征放大,可以更好的獲得少數(shù)類的挖掘效果,在保證準(zhǔn)確度的前提下,提高故障預(yù)警的覆蓋率,本發(fā)明使用分類與聚類的方法進(jìn)行挖掘,充分考慮了異常點(diǎn)的數(shù)據(jù)對(duì)象內(nèi)部的聯(lián)系,試圖訓(xùn)練出異常數(shù)據(jù)的特征模型,引入了不均衡數(shù)據(jù)的挖掘方法,強(qiáng)化故障數(shù)據(jù)的特征,以達(dá)到較好的分類與聚類的效果,方法簡單,效率高。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。