一種基于聚類的電網(wǎng)運行監(jiān)控信息辨識分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電網(wǎng)調(diào)度監(jiān)控的人工智能技術(shù)領(lǐng)域,更具體的說,涉及一種基于聚類 的電網(wǎng)運行監(jiān)控信息智能辨識分類方法。
【背景技術(shù)】
[0002] 隨著我國電力行業(yè)的發(fā)展,變電和輸電設(shè)備的自動化改造不斷深入,以往有人值 守的運維模式逐漸在向無人值守、集中監(jiān)控的模式進行轉(zhuǎn)化。目前全國絕大部分liokv及以 上電壓等級的變電站都采用集中監(jiān)控的模式進行管理,現(xiàn)場電力設(shè)備的異常和告警信號都 通過通信設(shè)施直接傳輸?shù)秸{(diào)控中心已文本的形式展示給電網(wǎng)監(jiān)控人員。
[0003] 目前,我國關(guān)于電網(wǎng)異常信號的監(jiān)視主要采用人工監(jiān)屏的方式,設(shè)正值一人、副職 兩人進行監(jiān)屏。然而人工監(jiān)屏受到外部影響因素較多,當電網(wǎng)正常操作和電網(wǎng)設(shè)備異常時 都會發(fā)出大量的電氣量信號、物理信號,這些異常信號的篩選和辨識會消耗監(jiān)控人員大量 時間,若不能及時判斷故障發(fā)生情況則會影響事故處理的及時性。而一旦發(fā)生信號漏看或 辨識錯誤的現(xiàn)象,則會對電網(wǎng)設(shè)備造成不可估量的損失。因此,研究一種適用于電網(wǎng)監(jiān)控的 文本自動辨識方法,獨立于人工辨識以外提供輔助功能,是當前亟需解決的熱點問題??梢?有效減輕監(jiān)控人員的負擔、加快電網(wǎng)事故處理的流程、避免信號漏看導(dǎo)致的電網(wǎng)事故。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提出一種基于聚類的電網(wǎng)運行監(jiān)控信息智能辨識分類方法,以調(diào)度監(jiān)控收 到的告警信號為樣本,通過聚類分析的方法形成典型告警信號的特征向量,從而實現(xiàn)對告 警信號的自動核對和辨識。最終達到提高電網(wǎng)設(shè)備告警信號的辨識效率,防止信號的漏看 和錯誤辨識,保障電網(wǎng)安全穩(wěn)定運行的目的。
[0005] 為了實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于聚類的電網(wǎng)運行監(jiān)控信息辨 識分類方法,依次包括以下步驟:
[0006] 數(shù)據(jù)樣本的預(yù)處理;
[0007] 建立文本的空間特征向量;
[0008] 基于K-means算法的聚類分析;
[0009] 告警信號的智能辨識。
[0010] 所述數(shù)據(jù)樣本的預(yù)處理,包括以下步驟:
[0011] 步驟一:按告警信號發(fā)出時間劃分形成文本,將歷史告警信號輸入,按時段劃分告 警信號,每隔3秒統(tǒng)計一次最近3秒內(nèi)發(fā)出的監(jiān)控信息個數(shù);將電網(wǎng)監(jiān)控告警信息表征為下 式(1)形式:
[0012] S=[(ti,mi,ci),(t2,m2,C2)."(tn,mn,cn)] (1)
[0013] 式中S為按時段劃分后得到的監(jiān)控信息文檔,t為時長為3秒的時段,m為對應(yīng)時段 中出現(xiàn)的告警信號個數(shù),其中(tn,m n,cn)被稱為一個數(shù)據(jù)項,表示^時間段內(nèi)接收到的告警 信息條數(shù)mn,以及告警文本內(nèi)容c n;
[0014]步驟二:建立文本的信息熵模型,電網(wǎng)事故發(fā)生時,與事故相關(guān)的告警信號一般在 10秒以內(nèi)都會發(fā)出。為避免漏掉有效信號,本方法以30秒為時間跨度形成對應(yīng)的告警信號 文檔S;并計算警信息文檔S的信息熵。其計算公式如下式(2):
[0016]其中Φ為常數(shù),η為預(yù)先劃分的狀態(tài)數(shù),其數(shù)值大小為監(jiān)控系統(tǒng)在3秒內(nèi)接收到告 警信號條數(shù)的最大值,P(k)為該種狀態(tài)在文檔S中出現(xiàn)的概率,其大小為:
[0018] 式(3)中Xk為30秒內(nèi)的10個數(shù)據(jù)項中告警信號條數(shù)為nu = k的個數(shù),
樣本個數(shù),該集合的監(jiān)控信息熵越大,其無序程度越高;反之,監(jiān)控信息文檔S的無序程度越 低;
[0019] 步驟三:篩選掉信息熵值低于0.3的告警信息文檔,以30秒為時間跨度,每隔10秒 進行一次采樣,計算對應(yīng)的監(jiān)控信息文檔S的熵,將信息熵H(S)〈0.3的監(jiān)控信息文檔篩選 掉,即排除監(jiān)控告警信號發(fā)出特別規(guī)律的時段;
[0020] 步驟四:計算得出信息熵貢獻值最大的數(shù)據(jù)項,針對剩下的有效告警信息文本,逐 項刪除文檔S中的數(shù)據(jù)項,即(^^^(^八并計算刪除時間段后的信息熵礦以八確定對文本 文檔信息熵貢獻度最大的數(shù)據(jù)項,并將其作為文本文檔的中心;
[0021] 步驟五:刪除數(shù)據(jù)項,直至信息熵信息熵H(S)降低,以文本文檔信息熵貢獻度最大 的數(shù)據(jù)項作為中心,從文檔時間尺度的邊緣開始逐漸刪除數(shù)據(jù)項,直至H(S')〈H(S)。
[0022] 所述建立文本的空間特征向量,包括以下步驟:
[0023] 步驟一:計算文本中漢字X、Y的互現(xiàn)系數(shù),統(tǒng)計所有告警信息文檔中漢字的出現(xiàn)頻 率,并按照式(4)統(tǒng)計兩個漢字的互現(xiàn)信息系數(shù)Μ:
[0025] 其中Μ(Χ,Υ)為漢字X和Υ的互現(xiàn)信息系數(shù),Ρ(Χ,Υ)為Χ,Υ相鄰出現(xiàn)在文本中的幾率, Ρ(Χ)、Ρ(Υ)分別為漢字Χ、Υ在文本中出現(xiàn)的幾率,相鄰的兩個字同時出現(xiàn)的次數(shù)越多,其可 信度越高,由漢字Χ、Υ組成的詞組也越有可能成為關(guān)鍵詞;
[0026]步驟二:提取互現(xiàn)系數(shù)Μ(Χ,Υ)>0的詞條作為文本的關(guān)鍵詞,形成關(guān)鍵詞集合;
[0027]步驟三:在關(guān)鍵詞中去除平凡詞,篩選得到文本的特征項,電網(wǎng)監(jiān)控告警信息中會 存在大量諸如"的"、"了"的平凡詞,該類漢字對于文本描述的內(nèi)容無貢獻,因此將這類詞排 除在外,最終形成文本的特征項集合:9 = 01,32,33 - 311},其中3為篩選后得到的關(guān)鍵詞; [0028]步驟四:通過TF-IDF公式為文本的特征項賦予權(quán)重,其計算公式為:
[0030]其中,fO^d)為詞條δ:在文檔中出現(xiàn)頻率,Ν為所有文檔的個數(shù),m為含有詞條 的文檔個數(shù);由TF-IDF公式計算得到的權(quán)重系數(shù)表征了詞條的特異性,若wi越大則表明詞 條心的特異性越高,在不同文檔中出現(xiàn)的比率越低,但在單個文檔中出現(xiàn)的頻次越高,那么 詞條&用于表征文檔d的可信度越高;
[0031] 步驟五:建立文本的空間特征向量,通過上一步可以計算得到不同詞條在文檔中 的權(quán)重;但是這樣得到的權(quán)重沒有進行歸一化處理,歸一化處理后的權(quán)重為:
[0033] 因此任意文檔可以表征為一個二維向量,其形式如下式(7)所示:
[0034] (7)
[0035] 如果將不同的詞條看作一個坐標軸,那么該二維向量則可以看作是該空間中的一 個向量。
[0036] 所述基于K-means算法的聚類分析,包括以下步驟:
[0037] 步驟一:隨機抽取k個向量形成k個初始簇,即{Si…Si+k},這k個對象均可以表示成 {^^^^,^^^^,…^^^^,一個二維的特征向量集合;
[0038] 步驟二:從文本集合中逐個抽取文本,采用夾角余弦公式,計算新文本和不同簇的 中心特征向量的相似度,夾角余弦公式為:
[0040]其中琴、為告警信息文檔SnSj在空間01,32,-4}中的特征向量,[1, 1,1,2··· Wi,n]和[WnWw.U。
[0041 ]步驟三:將新文本歸入相似度最高的簇,根據(jù)計算得到的相似度,將新文本歸類到 最為相似的簇中,并重新計算該簇的平均值,其計算公式為:
[0043]其中a為原簇中文本的個數(shù),[^山^^…^為原簇的特征向量^^^^…^ 為新增文本的特征向量,通過式(9)計算將結(jié)果作為該簇新的空間特征向量;
[0044]步驟四:計算重新整合后的簇的評價函數(shù),評價函數(shù)的計算公式為:
[0046]式(10)中,J為評價函數(shù),其大小為任意對象,即文本S,與各個簇特征向量的均方 差之和;xn為文本文檔Sn對應(yīng)的特征向量,^為第k個簇的特征向量,為文檔Sn與 第k個簇的相似度。Zk為第k個簇中含有的元素個數(shù),K為所有簇的個數(shù);
[0047] 步驟五:重復(fù)上述步驟二、三、四,直至評價函數(shù)維持不變?yōu)橹?,此時得到的K個簇 則基本處于正交形態(tài),其特征向量可以代表不同的典型告警信號模板;
[0048]步驟六:人工干預(yù)辨識,對分類完成的簇進行識別。通過查看不同簇中的文本文檔 人工識別該簇代表的告警信號的現(xiàn)實意義。
[0049]所述告警信號的智能辨識,包括以下步驟:
[0050]步驟一:每隔10秒統(tǒng)計一次最近30秒的告警信號,形成新增文本S;
[0051]步驟二:根據(jù)聚類分析得到的特征詞條{δ^δ^ - δη}為依據(jù),采用TF-IDF公式計算 權(quán)重,形成空間特征向量:{[5i,Wi],[δ2,%],…[5n,Wn]};
[0052]步驟三:將新增文本分類至最相似的簇,將新增告警信息文本的特征向量與訓練 得到的簇的中心特征向量進行相似度計算;將新增告警信息文本歸入最相似的簇中,實現(xiàn) 告警信息文本的分類;
[0053]步驟四:根據(jù)該簇代表的現(xiàn)實意義,辨識新增告警信息文本代表的現(xiàn)實意義。
[0054]從上述方法可以發(fā)現(xiàn),本發(fā)明提出的一種基于聚類的電網(wǎng)運行監(jiān)控信息智能辨識 分類方法。該方法將聚類分析引入到電網(wǎng)監(jiān)控的研究中,在對歷史