欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具的制作方法

文檔序號(hào):6371192閱讀:457來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,尤其是能處理雜亂數(shù)據(jù)的工具
背景技術(shù)
隨著電力行業(yè)的發(fā)展,輸變電設(shè)備缺陷已經(jīng)影響到電網(wǎng)的安全,為加強(qiáng)對(duì)輸變電設(shè)備的缺陷管理,提高設(shè)備健康水平,對(duì)輸變電設(shè)備缺陷數(shù)據(jù)的收集處理是一個(gè)重要環(huán)節(jié),然而目前輸變電設(shè)備缺陷數(shù)據(jù)雜亂無(wú)章,不能將輸變電設(shè)備缺陷歸類(lèi)處理。目前對(duì)輸變電設(shè)備缺陷的管理還沒(méi)有完全統(tǒng)一的標(biāo)準(zhǔn)方式,所以形成了大量的歷史雜亂數(shù)據(jù),人工對(duì)海量歷史數(shù)據(jù)的處理需要大量的人力成本,機(jī)器學(xué)習(xí)自主學(xué)習(xí)判斷可以很大減少成本,更經(jīng)濟(jì),更有效。MMSEG算法實(shí)現(xiàn)了前面討論的最大匹配算法的簡(jiǎn)單和復(fù)雜形式。更進(jìn)一步來(lái)說(shuō),為了消除未被復(fù)雜最大匹配算法所消除的歧義,又實(shí)現(xiàn)消除歧義的規(guī)則。詞頻、反文檔算法(TFIDF)是文檔特征權(quán)值表示常用方法。該方法簡(jiǎn)單易行,通過(guò)修改TFIDF中IDF的表達(dá)式,來(lái)增加那些在一個(gè)類(lèi)中頻繁出現(xiàn)的詞條的權(quán)重,用改進(jìn)的TFIDF選擇特征詞條、用遺傳算法訓(xùn)練分類(lèi)器來(lái)驗(yàn)證其有效性。支持向量機(jī)是數(shù)據(jù)挖掘中的一項(xiàng)新技術(shù),是借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)的問(wèn)題的新工具,它是一種新的機(jī)器學(xué)習(xí)方法,它以結(jié)構(gòu)風(fēng)險(xiǎn)最小為原則,它本質(zhì)上是求解凸二次規(guī)劃問(wèn)題,在解決小樣本、非線性和高維模式識(shí)別問(wèn)題中有較大優(yōu)勢(shì)。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,配置設(shè)定后,無(wú)需要人工干涉,自主獨(dú)立的對(duì)輸變電設(shè)備缺陷數(shù)據(jù)進(jìn)行聚類(lèi)處理,分類(lèi)過(guò)程中能自我完善知識(shí)樣本庫(kù),精確化分析判斷能力。為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,本發(fā)明特征在于,,它由數(shù)據(jù)分解器、聚類(lèi)器、結(jié)果處理器依序連接組成;其中在數(shù)據(jù)分解器內(nèi)分別設(shè)置有缺陷數(shù)據(jù)讀取模塊、缺陷數(shù)據(jù)分解模塊、缺陷數(shù)據(jù)獲取模塊、缺陷數(shù)據(jù)過(guò)濾模塊、聚類(lèi)環(huán)境初始化模塊;在聚類(lèi)器內(nèi)分別設(shè)置有識(shí)別判斷方法模塊、記憶方法及結(jié)果模塊、問(wèn)題分析模塊、分類(lèi)處理模塊;在結(jié)果處理器內(nèi)分別設(shè)置有數(shù)據(jù)庫(kù)信息配置模塊、結(jié)果結(jié)構(gòu)配置模塊、結(jié)果文件分發(fā)模塊、新知識(shí)入庫(kù)模塊、老知識(shí)更新模塊;經(jīng)由數(shù)據(jù)分解器把數(shù)據(jù)分解成機(jī)器能識(shí)別的單元數(shù)據(jù),聚類(lèi)器把單元數(shù)據(jù)處理歸類(lèi)后再還原為原始數(shù)據(jù),結(jié)果處理器把處理結(jié)果以文件,數(shù)據(jù)庫(kù)儲(chǔ)存等已配置好的方式分發(fā)到相應(yīng)目標(biāo)類(lèi)別;上述的詞頻、反文檔算法是以詞、字、或更小單位為輸入的計(jì)算評(píng)估方法,所以拿到數(shù)據(jù)后要先把它們分解為其能識(shí)別的單位數(shù)據(jù),基分解方法是最大匹配算法的兩種變體的中文單詞識(shí)別(MMSEG)和Aho-Corasick算法實(shí)現(xiàn);本發(fā)明所述的支持向量機(jī)把對(duì)樣本數(shù)據(jù)以詞頻、反文檔算法訓(xùn)練的結(jié)果以文件方式記憶存儲(chǔ)于知識(shí)庫(kù),當(dāng)拿到數(shù)據(jù)時(shí),它用訓(xùn)練好的方法來(lái)分類(lèi)數(shù)據(jù);本發(fā)明步驟如下其數(shù)據(jù)分解器將輸變電設(shè)備缺陷數(shù)據(jù)分解成聚類(lèi)算法能識(shí)別的數(shù)據(jù);具體分解過(guò)程如下I)其將缺陷數(shù)據(jù)分為三類(lèi)設(shè)備缺陷數(shù)據(jù)={數(shù)字?jǐn)?shù)據(jù),中文數(shù)據(jù),英文數(shù)據(jù)},其特征在于,方法是用ASCII碼比較每個(gè)字符,若存在ASCII碼范圍外的字符,則判斷這個(gè)字符串中文,用正則表達(dá)式判斷如果都是0 9則判斷為數(shù)字?jǐn)?shù)據(jù)。 2)其數(shù)字?jǐn)?shù)據(jù)={編碼數(shù)字,數(shù)值數(shù)字},其中代碼數(shù)字是一種編碼代表某種類(lèi)型,將編碼數(shù)字對(duì)應(yīng)轉(zhuǎn)化成中文或英文;3)其中文數(shù)據(jù)分解為詞,其特征在于,用基于最大匹配算法的兩種變體的中文單詞識(shí)別(麗SEG)算法實(shí)現(xiàn);4)其英文數(shù)據(jù)分詞,其特征在于,用Ah0-C0raSick(以下簡(jiǎn)稱(chēng)AC)算法實(shí)現(xiàn)。3、其聚類(lèi)器包含訓(xùn)練識(shí)別方法、記憶方法及結(jié)果、問(wèn)題分析、結(jié)果判定過(guò)程;I)其練識(shí)別方法以詞頻、反文檔算法為方法基礎(chǔ),以支持向量機(jī)為智能學(xué)習(xí)算法,以文本樣本為知識(shí)內(nèi)容;2)其記憶方法及結(jié)果訓(xùn)練以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供判斷使用;3)其問(wèn)題分析訓(xùn)練后它以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供分析判斷使用。其結(jié)果處理器有結(jié)果入庫(kù)、結(jié)果文件分發(fā)、知識(shí)庫(kù)管理功能,其中結(jié)果入庫(kù)把處理結(jié)果添加到數(shù)據(jù)庫(kù),結(jié)果文件分發(fā)把結(jié)果文件分發(fā)到不同目標(biāo)文件夾,知識(shí)庫(kù)管理功能把處理結(jié)果添加進(jìn)知識(shí)庫(kù)。本系統(tǒng)的有益效果是,本系統(tǒng)實(shí)現(xiàn)了一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,能自主分類(lèi)處理輸變電設(shè)備缺陷數(shù)據(jù)。把目前雜亂無(wú)章的輸變電設(shè)備缺陷數(shù)據(jù)規(guī)范化,標(biāo)準(zhǔn)化,訓(xùn)練機(jī)器學(xué)習(xí)知識(shí)庫(kù)讓其自主判斷聚類(lèi)輸變電設(shè)備缺陷數(shù)據(jù)從技術(shù)上改變了輸變電設(shè)備缺陷數(shù)據(jù)的分析處理方式,它有自主學(xué)習(xí)功能,實(shí)現(xiàn)了以機(jī)器代替人力的工作。


圖I是本發(fā)明的結(jié)構(gòu)示意圖。
具體實(shí)施例方式如圖I所示,一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,本發(fā)明特征在于,它由數(shù)據(jù)分解器I、聚類(lèi)器2、結(jié)果處理器3依序連接組成;其中在數(shù)據(jù)分解器I內(nèi)分別設(shè)置有缺陷數(shù)據(jù)讀取模塊、缺陷數(shù)據(jù)分解模塊、缺陷數(shù)據(jù)獲取模塊、缺陷數(shù)據(jù)過(guò)濾模塊、聚類(lèi)環(huán)境初始化模塊;
在聚類(lèi)器2內(nèi)分別設(shè)置有識(shí)別判斷方法模塊、記憶方法及結(jié)果模塊、問(wèn)題分析模塊、分類(lèi)處理模塊;在結(jié)果處理器3內(nèi)分別設(shè)置有數(shù)據(jù)庫(kù)信息配置模塊、結(jié)果結(jié)構(gòu)配置模塊、結(jié)果文件分發(fā)模塊、新知識(shí)入庫(kù)模塊、老知識(shí)更新模塊;本發(fā)明數(shù)據(jù)分解器將輸變電設(shè)備缺陷數(shù)據(jù)分解成聚類(lèi)算法能識(shí)別的數(shù)據(jù);具體分解過(guò)程如下I)將缺陷數(shù)據(jù)分為三類(lèi)設(shè)備缺陷數(shù)據(jù)={數(shù)字?jǐn)?shù)據(jù),中文數(shù)據(jù),英文數(shù)據(jù)},其特征在于,方法是用ASCII碼比較每個(gè)字符,若存在ASCII碼范圍外的字符,則判斷這個(gè)字符串中文,用正則表達(dá)式判斷如果都是0 9則判斷為數(shù)字?jǐn)?shù)據(jù);2)數(shù)字?jǐn)?shù)據(jù)={編碼數(shù)字,數(shù)值數(shù)字},其中代碼數(shù)字是一種編碼代表某種類(lèi)型,將編碼數(shù)字對(duì)應(yīng)轉(zhuǎn)化成中文或英文; 3)中文數(shù)據(jù)分解為詞用基于最大匹配算法的兩種變體的中文單詞識(shí)別MMSEG算法實(shí)現(xiàn);4)英文數(shù)據(jù)分詞用Aho-Corasick算法實(shí)現(xiàn)。本發(fā)明聚類(lèi)器包含訓(xùn)練識(shí)別方法、記憶方法及結(jié)果、問(wèn)題分析、結(jié)果判定過(guò)程;I)練識(shí)別方法以詞頻、反文檔算法為方法基礎(chǔ),以支持向量機(jī)為機(jī)器智能學(xué)習(xí)算法,以文本樣本為知識(shí)內(nèi)容;2)記憶方法及結(jié)果訓(xùn)練后它以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供判斷使用; 3)問(wèn)題分析在訓(xùn)練后它以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供分析判斷使用; 本發(fā)明結(jié)果處理器有結(jié)果入庫(kù)、結(jié)果文件分發(fā)、知識(shí)庫(kù)管理功能,其中結(jié)果入庫(kù)把處理結(jié)果添加到數(shù)據(jù)庫(kù),結(jié)果文件分發(fā)把結(jié)果文件分發(fā)到不同目標(biāo)文件夾,知識(shí)庫(kù)管理功能把處理結(jié)果添加進(jìn)知識(shí)庫(kù)。本發(fā)明由數(shù)據(jù)分解器I、聚類(lèi)器2、結(jié)果處理器3組成;該數(shù)據(jù)分解器I聚類(lèi)器2通過(guò)信息交互后把結(jié)果傳送到結(jié)果處理器3,結(jié)果處理器把信息分發(fā)后再與聚類(lèi)器2交互,形成結(jié)果處理器3新的知識(shí)庫(kù)。如圖I所示,具體實(shí)施方案如下其數(shù)據(jù)分解器將輸變電設(shè)備缺陷數(shù)據(jù)分解成聚類(lèi)算法能識(shí)別的數(shù)據(jù)。具體分解過(guò)程如下I)其將缺陷數(shù)據(jù)分為三類(lèi)設(shè)備缺陷數(shù)據(jù)={數(shù)字?jǐn)?shù)據(jù),中文數(shù)據(jù),英文數(shù)據(jù)},其特征在于,方法是用ASCII碼比較每個(gè)字符,若存在ASCII碼范圍外的字符,則判斷這個(gè)字符串中文,用正則表達(dá)式判斷如果都是0 9則判斷為數(shù)字?jǐn)?shù)據(jù)。2)其數(shù)字?jǐn)?shù)據(jù)={編碼數(shù)字,數(shù)值數(shù)字},其中代碼數(shù)字是一種編碼代表某種類(lèi)型,將編碼數(shù)字對(duì)應(yīng)轉(zhuǎn)化成中文或英文。3)其中文數(shù)據(jù)分解為詞,其特征在于,用基于最大匹配算法的兩種變體的中文單詞識(shí)別(麗SEG)算法實(shí)現(xiàn)。4)其英文數(shù)據(jù)分詞,其特征在于,用Aho-Corasick (以下簡(jiǎn)稱(chēng)AC)算法實(shí)現(xiàn)。3、其聚類(lèi)器包含訓(xùn)練識(shí)別方法、記憶方法及結(jié)果、問(wèn)題分析、結(jié)果判定過(guò)程。I)其練識(shí)別方法以詞頻、反文檔算法為方法基礎(chǔ),以支持向量機(jī)為智能學(xué)習(xí)算法,以文本樣本為知識(shí)內(nèi)容。
2)其記憶方法及結(jié)果訓(xùn)練以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供判斷使用。3)其問(wèn)題分析訓(xùn)練后它以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供分析判斷使用。
其結(jié)果處理器有結(jié)果入庫(kù)、結(jié)果文件分發(fā)、知識(shí)庫(kù)管理功能,其中結(jié)果入庫(kù)把處理結(jié)果添加到數(shù)據(jù)庫(kù),結(jié)果文件分發(fā)把結(jié)果文件分發(fā)到不同目標(biāo)文件夾,知識(shí)庫(kù)管理功能把處理結(jié)果添加進(jìn)知識(shí)庫(kù)。
權(quán)利要求
1.一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,其特征在于,它由數(shù)據(jù)分解器(I)、聚類(lèi)器(2 )、結(jié)果處理器(3 )依序連接組成; 其中在數(shù)據(jù)分解器(I)內(nèi)分別設(shè)置有缺陷數(shù)據(jù)讀取模塊、缺陷數(shù)據(jù)分解模塊、缺陷數(shù)據(jù)獲取模塊、缺陷數(shù)據(jù)過(guò)濾模塊、聚類(lèi)環(huán)境初始化模塊; 在聚類(lèi)器(2)內(nèi)分別設(shè)置有識(shí)別判斷方法模塊、記憶方法及結(jié)果模塊、問(wèn)題分析模塊、分類(lèi)處理模塊; 在結(jié)果處理器(3)內(nèi)分別設(shè)置有數(shù)據(jù)庫(kù)信息配置模塊、結(jié)果結(jié)構(gòu)配置模塊、結(jié)果文件分發(fā)模塊、新知識(shí)入庫(kù)模塊、老知識(shí)更新模塊。
2.根據(jù)權(quán)利要求I所述的一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,其特征在于,數(shù)據(jù)分解器將輸變電設(shè)備缺陷數(shù)據(jù)分解成聚類(lèi)算法能識(shí)別的數(shù)據(jù);具體分解過(guò)程如下 1)將缺陷數(shù)據(jù)分為三類(lèi)設(shè)備缺陷數(shù)據(jù)={數(shù)字?jǐn)?shù)據(jù),中文數(shù)據(jù),英文數(shù)據(jù)},其特征在于,方法是用ASCII碼比較每個(gè)字符,若存在ASCII碼范圍外的字符,則判斷這個(gè)字符串中文,用正則表達(dá)式判斷如果都是O 9則判斷為數(shù)字?jǐn)?shù)據(jù); 2)數(shù)字?jǐn)?shù)據(jù)={編碼數(shù)字,數(shù)值數(shù)字},其中代碼數(shù)字是一種編碼代表某種類(lèi)型,將編碼數(shù)字對(duì)應(yīng)轉(zhuǎn)化成中文或英文; 3)中文數(shù)據(jù)分解為詞用基于最大匹配算法的兩種變體的中文單詞識(shí)別MMSEG算法實(shí)現(xiàn); 4)英文數(shù)據(jù)分詞用Aho-Corasick算法實(shí)現(xiàn)。
3.根據(jù)權(quán)利要求I所述的一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,其特征在于,聚類(lèi)器包含訓(xùn)練識(shí)別方法、記憶方法及結(jié)果、問(wèn)題分析、結(jié)果判定過(guò)程; 1)練識(shí)別方法以詞頻、反文檔算法為方法基礎(chǔ),以支持向量機(jī)為機(jī)器智能學(xué)習(xí)算法,以文本樣本為知識(shí)內(nèi)容; 2)記憶方法及結(jié)果訓(xùn)練后它以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供判斷使用; 3)問(wèn)題分析在訓(xùn)練后它以文件的方式存儲(chǔ)訓(xùn)練結(jié)果,以供分析判斷使用。
4.根據(jù)權(quán)利要求I所述的一種輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,其特征在于,結(jié)果處理器有結(jié)果入庫(kù)、結(jié)果文件分發(fā)、知識(shí)庫(kù)管理功能,其中結(jié)果入庫(kù)把處理結(jié)果添加到數(shù)據(jù)庫(kù),結(jié)果文件分發(fā)把結(jié)果文件分發(fā)到不同目標(biāo)文件夾,知識(shí)庫(kù)管理功能把處理結(jié)果添加進(jìn)知識(shí)庫(kù)。
全文摘要
一種基于機(jī)器學(xué)習(xí)算法的輸變電設(shè)備缺陷數(shù)據(jù)機(jī)器自主聚類(lèi)工具,它由數(shù)據(jù)分解器(1)、聚類(lèi)器(2)、結(jié)果處理器(3)組成,用于分類(lèi)處理輸變電設(shè)備缺陷數(shù)據(jù)。本發(fā)明具有把目前雜亂能力輸變電設(shè)備缺陷數(shù)據(jù)分類(lèi)的能力,能從文字描述中提取關(guān)鍵信息,能自主學(xué)習(xí),自我完善。主要核心算法是最大匹配算法的兩種變體的中文單詞識(shí)別(MMSEG)、詞頻、反文檔算法(TFIDF)和支持向量機(jī)(SVM),MMSEG用于分解知識(shí),詞頻、反文檔算法用于評(píng)估信息內(nèi)某類(lèi)信息的重要程度,SVM用來(lái)處理機(jī)器學(xué)習(xí)問(wèn)題。
文檔編號(hào)G06Q50/06GK102737350SQ20121018926
公開(kāi)日2012年10月17日 申請(qǐng)日期2012年6月8日 優(yōu)先權(quán)日2012年6月8日
發(fā)明者劉磊, 尹福榮, 廖永力, 張玉龍, 李銳海, 楊晴, 楊遠(yuǎn)幟, 鄧麗林, 鄧全燕, 鄧安明, 陸葉, 陳達(dá), 高尚飛 申請(qǐng)人:南方電網(wǎng)科學(xué)研究院有限責(zé)任公司, 昆明能訊科技有限責(zé)任公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
什邡市| 九寨沟县| 阿荣旗| 彰化县| 东乌珠穆沁旗| 南丹县| 云安县| 北京市| 明星| 新竹市| 五寨县| 武乡县| 育儿| 东兰县| 四子王旗| 依兰县| 昆明市| 鸡东县| 洮南市| 那曲县| 陈巴尔虎旗| 武宁县| 城固县| 抚州市| 乐安县| 英吉沙县| 津南区| 淮安市| 治多县| 台州市| 凤阳县| 隆林| 鄂托克旗| 泗水县| 沾益县| 枣阳市| 亳州市| 麦盖提县| 万盛区| 依安县| 驻马店市|