本發(fā)明涉及電力設(shè)備數(shù)據(jù)處理技術(shù),尤其涉及一種基于貝葉斯網(wǎng)絡(luò)的缺陷數(shù)據(jù)自動(dòng)文摘分類方法。
背景技術(shù):
:
設(shè)備缺陷數(shù)據(jù)自身包含的數(shù)據(jù)信息很豐富,缺陷數(shù)據(jù)的記錄是采用人為定性的填寫表單方式。不同的工作人員缺陷判斷的思路不同,導(dǎo)致錄入系統(tǒng)的缺陷數(shù)據(jù)呈現(xiàn)出信息口語(yǔ)化、缺失、表述模糊等特征。在數(shù)據(jù)規(guī)模劇增、數(shù)據(jù)結(jié)構(gòu)錯(cuò)綜復(fù)雜的大背景下,挖掘數(shù)據(jù)資源中有價(jià)值的模式和規(guī)律,指導(dǎo)電力設(shè)備運(yùn)行,輔助設(shè)備風(fēng)險(xiǎn)監(jiān)控。因此,根據(jù)實(shí)際缺陷數(shù)據(jù)現(xiàn)狀,尋求一種更高效、科學(xué)的設(shè)備缺陷數(shù)據(jù)處理方法,構(gòu)建貝葉斯網(wǎng)絡(luò)模型,實(shí)現(xiàn)缺陷數(shù)據(jù)的自動(dòng)文摘分類,對(duì)提高電網(wǎng)系統(tǒng)運(yùn)行決策、風(fēng)險(xiǎn)監(jiān)控水平具有重要指導(dǎo)意義。
技術(shù)實(shí)現(xiàn)要素:
:
本發(fā)明的一種基于貝葉斯網(wǎng)絡(luò)的缺陷數(shù)據(jù)自動(dòng)文摘分類方法,所述方法包括:
a.對(duì)每條缺陷數(shù)據(jù)中缺陷表象、缺陷部位、缺陷描述、缺陷設(shè)備、缺陷原因各象限中的文本信息進(jìn)行整合,將整合后的缺陷記錄作為一個(gè)文本分析對(duì)象;利用中文分詞系統(tǒng)對(duì)缺陷文本樣本進(jìn)行分詞;
b.利用貝葉斯分類算法,分別對(duì)缺陷樣本數(shù)據(jù)進(jìn)行設(shè)備名稱、缺陷部位、缺陷類型三個(gè)分析維度的文摘分類,得到部分缺陷維度的分類類型;
c.根據(jù)缺陷數(shù)據(jù)內(nèi)部各維度之間的關(guān)聯(lián)關(guān)系,利用已分類出的部分缺陷維度文摘構(gòu)建缺陷文摘信息的貝葉斯網(wǎng)絡(luò)模型,得到缺陷模型的學(xué)習(xí)規(guī)則;
d.對(duì)實(shí)際缺陷數(shù)據(jù)進(jìn)行自動(dòng)文摘和分類處理,從而規(guī)范缺陷數(shù)據(jù),為設(shè)備缺陷相關(guān)的分析應(yīng)用提供基礎(chǔ)數(shù)據(jù)。
其中,步驟a所述缺陷樣本數(shù)據(jù)包括缺陷發(fā)現(xiàn)時(shí)間、缺陷原因、缺陷表象、缺陷部位、缺陷描述、缺陷設(shè)備等文本信息;在合并文本信息過(guò)程中,對(duì)各項(xiàng)中重復(fù)描述的文本內(nèi)容進(jìn)行刪減,得到一條簡(jiǎn)潔的缺陷數(shù)據(jù)。
其中,步驟a所述中文分詞系統(tǒng)是中科院設(shè)計(jì)的ICTCLAS2016分詞系統(tǒng),對(duì)每條合并后的缺陷數(shù)據(jù)進(jìn)行批量分詞,得到缺陷文本信息樣本。
其中,步驟b所述分別對(duì)缺陷樣本進(jìn)行設(shè)備名稱、缺陷類型、缺陷部位維度上的貝葉斯分類處理;該過(guò)程是指通過(guò)利用貝葉斯網(wǎng)絡(luò)學(xué)習(xí)已分類好屬性類別的缺陷樣本,得到能分別識(shí)別設(shè)備名稱、缺陷部位、缺陷類型三個(gè)文摘維度的分類模型,對(duì)缺陷數(shù)據(jù)進(jìn)行初步的分類處理,得到缺陷數(shù)據(jù)的部分文摘信息;
其中,步驟b所述各維度的分類處理過(guò)程基本相同,都是在提取詞干后,利用貝葉斯網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),網(wǎng)絡(luò)模型由不同的各類別屬性來(lái)進(jìn)行構(gòu)建,其次將遺傳搜索算法作為貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的搜索路勁,訓(xùn)練學(xué)習(xí)得到<設(shè)備名稱>維度的貝葉斯模型;
步驟b01:在對(duì)<設(shè)備名稱>維度進(jìn)行分類時(shí),設(shè)缺陷數(shù)據(jù)集為TD={[T1,SM1],[T2,SM2]...,[Tn,SMn]},其中,Ti表示第i條缺陷樣本信息,SMi表示Ti缺陷數(shù)據(jù)的設(shè)備名稱類別。將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,先對(duì)缺陷文本數(shù)據(jù)進(jìn)行字符串屬性轉(zhuǎn)換,轉(zhuǎn)換成可標(biāo)識(shí)的向量類型,獲得TFIDF數(shù)據(jù),文本轉(zhuǎn)化為矢量后,對(duì)缺陷文本數(shù)據(jù)中的停用詞進(jìn)行過(guò)濾,并對(duì)文本進(jìn)行詞干提取;在提取到準(zhǔn)關(guān)鍵詞后,利用貝葉斯網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),網(wǎng)絡(luò)模型由不同的各類別屬性來(lái)進(jìn)行構(gòu)建,其次將遺傳搜索算法作為貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的搜索路勁,訓(xùn)練學(xué)習(xí)得到<設(shè)備名稱>維度的貝葉斯模型。
步驟b02和b03:依上述數(shù)據(jù)處理過(guò)程,分別建立缺陷數(shù)據(jù)<缺陷部位>、<缺陷類別>維度的缺陷數(shù)據(jù)集,然后在已有缺陷數(shù)據(jù)樣本的基礎(chǔ)上,進(jìn)行貝葉斯網(wǎng)絡(luò)模型的訓(xùn)練,得到三個(gè)缺陷維度的分類模型,用于設(shè)備缺陷數(shù)據(jù)各維度上的分類處理。
其中,步驟c所述根據(jù)步驟b分類出的設(shè)備名稱、缺陷部位、缺陷類型信息,利用步驟b中已分類出的部分歷史缺陷數(shù)據(jù)摘要和歷史缺陷數(shù)據(jù)在各維度上的信息,構(gòu)建缺陷自動(dòng)文摘的貝葉斯網(wǎng)絡(luò)模型,學(xué)習(xí)訓(xùn)練得到對(duì)應(yīng)模型的學(xué)習(xí)規(guī)則。
設(shè)數(shù)據(jù)集
TD={[T1,SM1,SL1,QB1,QL1,QY1],...,[Tn,SMn,SLn,QBn,QLn,QYn]},數(shù)據(jù)集中,SLi,QBi,QLi,QYi分別表示Ti缺陷數(shù)據(jù)的設(shè)備類型、缺陷部位、缺陷類型、缺陷原因類別。將設(shè)備名稱、設(shè)備類型、缺陷部位、缺陷類型、缺陷原因作為貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練節(jié)點(diǎn),在步驟b中初步分類出來(lái)的設(shè)備名稱、缺陷部位、缺陷類型維度的信息基礎(chǔ)上,采用四中不同的算法用于估計(jì)網(wǎng)絡(luò)的條件概率表,可分別嘗試使用K2或TAN算法、爬山法、模擬退火、禁忌搜索和遺傳算法等不同搜索算法,得到不同搜索策略下訓(xùn)練生成的網(wǎng)絡(luò)模型,將網(wǎng)絡(luò)參數(shù)調(diào)整至最優(yōu),通過(guò)比較各學(xué)習(xí)方案中模型的自動(dòng)文摘準(zhǔn)確率、時(shí)間效率等參數(shù),來(lái)最終確定不同分析場(chǎng)景下、不同缺陷數(shù)據(jù)的自動(dòng)文摘分類處理模型,實(shí)現(xiàn)缺陷數(shù)據(jù)的標(biāo)準(zhǔn)化,提高缺陷分析數(shù)據(jù)的質(zhì)量。
其中,步驟d所述,是指通過(guò)訓(xùn)練歷史缺陷樣本數(shù)據(jù)得到分類模型后,根據(jù)設(shè)備所有缺陷類型的缺陷數(shù)據(jù),分別進(jìn)行分類和數(shù)據(jù)的文摘提取,得到缺陷數(shù)據(jù)的分類分析結(jié)論及規(guī)范化表述形式。
有益效果:本發(fā)明針對(duì)系統(tǒng)缺陷數(shù)據(jù)不規(guī)范、缺失、表述模糊等問(wèn)題,利用缺陷數(shù)據(jù)內(nèi)部之間的關(guān)聯(lián),構(gòu)建貝葉斯網(wǎng)絡(luò)模型,實(shí)現(xiàn)缺陷數(shù)據(jù)的自動(dòng)文摘分類,不僅規(guī)范了歷史缺陷數(shù)據(jù)的記錄,還將缺陷數(shù)據(jù)做了較為精確的分類,為其他的設(shè)備缺陷分析功能提供質(zhì)量較好的基礎(chǔ)數(shù)據(jù),發(fā)揮電網(wǎng)數(shù)據(jù)在設(shè)備運(yùn)行決策、風(fēng)險(xiǎn)監(jiān)控中的重要應(yīng)用價(jià)值。
附圖說(shuō)明:
圖1為本發(fā)明的流程圖。
具體實(shí)施方式
為使本發(fā)明的技術(shù)方案和優(yōu)勢(shì)更加清楚,下面根據(jù)說(shuō)明附圖1對(duì)本方法作具體說(shuō)明描述:
步驟a.首先,對(duì)每條缺陷數(shù)據(jù)中缺陷表象、缺陷部位、缺陷描述、缺陷設(shè)備、缺陷原因各象限中的文本信息進(jìn)行整合,在合并文本信息過(guò)程中,對(duì)各項(xiàng)中重復(fù)描述的文本內(nèi)容進(jìn)行刪減,得到一條簡(jiǎn)潔的缺陷數(shù)據(jù)。將整合后的缺陷記錄作為一個(gè)文本分析對(duì)象;
然后,利用中科院設(shè)計(jì)的ICTCLAS2016分詞系統(tǒng)對(duì)合并后的每條缺陷數(shù)據(jù)進(jìn)行批量分詞處理,得到缺陷文本信息樣本。
步驟b.利用貝葉斯分類算法,分別對(duì)缺陷樣本進(jìn)行設(shè)備名稱、缺陷類型、缺陷部位維度上的貝葉斯分類處理;該過(guò)程是指通過(guò)利用貝葉斯網(wǎng)絡(luò)學(xué)習(xí)已分類好屬性類別的缺陷樣本,得到能分別識(shí)別設(shè)備名稱、缺陷部位、缺陷類型三個(gè)文摘維度的分類模型,對(duì)缺陷數(shù)據(jù)進(jìn)行初步的分類處理,得到缺陷數(shù)據(jù)的部分文摘信息;
其中,步驟b所述各維度的分類處理過(guò)程基本相同,都是在提取詞干后,利用貝葉斯網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),網(wǎng)絡(luò)模型由不同的各類別屬性來(lái)進(jìn)行構(gòu)建,其次將遺傳搜索算法作為貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的搜索路勁,訓(xùn)練學(xué)習(xí)得到<設(shè)備名稱>維度的貝葉斯模型;
步驟b01:在對(duì)<設(shè)備名稱>維度進(jìn)行分類時(shí),設(shè)缺陷數(shù)據(jù)集為TD={[T1,SM1],[T2,SM2]...,[Tn,SMn]},其中,Ti表示第i條缺陷樣本信息,SMi表示Ti缺陷數(shù)據(jù)的設(shè)備名稱類別。將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,先對(duì)缺陷文本數(shù)據(jù)進(jìn)行字符串屬性轉(zhuǎn)換,轉(zhuǎn)換成可標(biāo)識(shí)的向量類型,獲得TFIDF數(shù)據(jù),文本轉(zhuǎn)化為矢量后,對(duì)缺陷文本數(shù)據(jù)中的停用詞進(jìn)行過(guò)濾,并對(duì)文本進(jìn)行詞干提取;在提取到準(zhǔn)關(guān)鍵詞后,利用貝葉斯網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),網(wǎng)絡(luò)模型由不同的各類別屬性來(lái)進(jìn)行構(gòu)建,其次將遺傳搜索算法作為貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的搜索路勁,訓(xùn)練學(xué)習(xí)得到<設(shè)備名稱>維度的貝葉斯模型。
步驟b02和b03:依上述數(shù)據(jù)處理過(guò)程,分別建立缺陷數(shù)據(jù)<缺陷部位>、<缺陷類別>維度的缺陷數(shù)據(jù)集,然后在已有缺陷數(shù)據(jù)樣本的基礎(chǔ)上,進(jìn)行貝葉斯網(wǎng)絡(luò)模型的訓(xùn)練,得到三個(gè)缺陷維度的分類模型,用于設(shè)備缺陷數(shù)據(jù)各維度上的分類處理。
步驟c.根據(jù)步驟b分類出的設(shè)備名稱、缺陷部位、缺陷類型信息,學(xué)習(xí)缺陷數(shù)據(jù)內(nèi)部各維度之間的關(guān)聯(lián)關(guān)系,利用已分類出的部分缺陷維度文摘構(gòu)建缺陷文摘信息的貝葉斯網(wǎng)絡(luò)模型,得到缺陷模型的學(xué)習(xí)規(guī)則;
設(shè)數(shù)據(jù)集
TD={[T1,SM1,SL1,QB1,QL1,QY1],...,[Tn,SMn,SLn,QBn,QLn,QYn]},數(shù)據(jù)集中,SLi,QBi,QLi,QYi分別表示Ti缺陷數(shù)據(jù)的設(shè)備類型、缺陷部位、缺陷類型、缺陷原因類別。將設(shè)備名稱、設(shè)備類型、缺陷部位、缺陷類型、缺陷原因作為貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練節(jié)點(diǎn),在步驟b中初步分類出來(lái)的設(shè)備名稱、缺陷部位、缺陷類型維度的信息基礎(chǔ)上,采用四中不同的算法用于估計(jì)網(wǎng)絡(luò)的條件概率表,可分別嘗試使用K2或TAN算法、爬山法、模擬退火、禁忌搜索和遺傳算法等不同搜索算法,得到不同搜索策略下訓(xùn)練生成的網(wǎng)絡(luò)模型,將網(wǎng)絡(luò)參數(shù)調(diào)整至最優(yōu),通過(guò)比較各學(xué)習(xí)方案中模型的自動(dòng)文摘準(zhǔn)確率、時(shí)間效率等參數(shù),來(lái)最終確定不同分析場(chǎng)景下、不同缺陷數(shù)據(jù)的自動(dòng)文摘分類處理模型,實(shí)現(xiàn)缺陷數(shù)據(jù)的標(biāo)準(zhǔn)化,提高缺陷分析數(shù)據(jù)的質(zhì)量。
步驟d.通過(guò)訓(xùn)練歷史缺陷樣本數(shù)據(jù)得到分類模型后,根據(jù)設(shè)備所有缺陷類型的缺陷數(shù)據(jù),分別進(jìn)行分類和數(shù)據(jù)的文摘提取,得到缺陷數(shù)據(jù)的分類分析結(jié)論及規(guī)范化表述形式。