一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法

文檔序號：6520724閱讀：199來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法
【專利摘要】本發(fā)明涉及智能信息處理【技術(shù)領(lǐng)域】，公開了一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，本發(fā)明采用集成學(xué)習(xí)和混合模型框架構(gòu)建數(shù)據(jù)流分類模型，可以適應(yīng)數(shù)據(jù)流的海量性、實(shí)時性和動態(tài)變化性三種特點(diǎn)的要求，并提高數(shù)據(jù)流分類的準(zhǔn)確率。其中，集成學(xué)習(xí)模型利用了集成學(xué)習(xí)理論相關(guān)內(nèi)容，通過使用多個分類器進(jìn)行分類，提高分類效果和適應(yīng)數(shù)據(jù)流動態(tài)性的能力。此外，聚類方法對分類結(jié)果進(jìn)行匯總，有效利用分類結(jié)果之間的內(nèi)部關(guān)系，有利于提高分類準(zhǔn)確率，減少因分類所消耗時間。
【專利說明】一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理【技術(shù)領(lǐng)域】，特別涉及一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，適用于網(wǎng)絡(luò)入侵檢測，網(wǎng)絡(luò)安全監(jiān)控、傳感器數(shù)據(jù)監(jiān)控和電網(wǎng)供電等方面。
【背景技術(shù)】
[0002]隨著物聯(lián)網(wǎng)的發(fā)展，以及“大數(shù)據(jù)”時代的到來，傳統(tǒng)數(shù)據(jù)挖掘方法正面臨著新的挑戰(zhàn)，其中數(shù)據(jù)形式的變化是最為重要和基本的內(nèi)容。傳統(tǒng)數(shù)據(jù)形式主要以靜態(tài)數(shù)據(jù)為主，其容量有限，可被存儲且基本無變化。因此，對傳統(tǒng)數(shù)據(jù)挖掘算法的設(shè)計，往往假設(shè)數(shù)據(jù)是靜態(tài)，考慮更多的是算法本身而不是數(shù)據(jù)形式適應(yīng)問題。
[0003]但近些年，隨著信息化發(fā)展的深入，一種嶄新的數(shù)據(jù)形式，即數(shù)據(jù)流，逐漸成為主流數(shù)據(jù)形式。與靜態(tài)數(shù)據(jù)形式不同，數(shù)據(jù)流主要包含三種基本特征，即海量性、實(shí)時性和動態(tài)變化性，因此如果再繼續(xù)單純的套用傳統(tǒng)數(shù)據(jù)挖掘方法，往往無法得到令人滿意的結(jié)果，甚至是完全失效。也正因?yàn)槿绱?，目前針對?shù)據(jù)流挖掘的研究成為新的研究熱點(diǎn)。
[0004]對數(shù)據(jù)流分類問題來說，其核心問題是設(shè)計適應(yīng)數(shù)據(jù)流特點(diǎn)(海量性、實(shí)時性和動態(tài)變化性)的分類方法。具體來說，較傳統(tǒng)分類方法來說，數(shù)據(jù)流的海量性特點(diǎn)要求數(shù)據(jù)流分類方法能夠在無法存儲歷史數(shù)據(jù)的前提下，對數(shù)據(jù)進(jìn)行訓(xùn)練和分類；數(shù)據(jù)流的實(shí)時性要求分類模型在分類過程中，除了要考慮分類準(zhǔn)確率方面外，還需要對分類時間進(jìn)行優(yōu)化和壓縮，盡可能的在新數(shù)據(jù)流產(chǎn)生前完成分類整體過程，對分類模型的運(yùn)行效率提出了新的要求；數(shù)據(jù)流的動態(tài)變化性要求分類模型具有一定的擴(kuò)充性和自我更新性，能夠適應(yīng)數(shù)據(jù)流的變化。因?yàn)槿绱?，設(shè)計出完全滿足數(shù)據(jù)流三種特點(diǎn)的分類模型，一直是學(xué)術(shù)界追求的目標(biāo)，而當(dāng)前所提出分類方法，大部分只能滿足一種或兩種數(shù)據(jù)流特點(diǎn)，只能在一定程度上達(dá)到分類的要求。
[0005]目前國際、國內(nèi)尚未出現(xiàn)完全適應(yīng)數(shù)據(jù)流特點(diǎn)的分類方法，亟待一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是:為解決上述現(xiàn)有技術(shù)中存在的問題，提供一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，能夠滿足數(shù)據(jù)流海量性、實(shí)時性和動態(tài)變化性的特點(diǎn)，達(dá)到分類要求。
[0007]為達(dá)到上述目的，本發(fā)明采用的技術(shù)方案是:一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，具體包括以下步驟:
步驟1:動態(tài)數(shù)據(jù)流收集模塊102從海量實(shí)時數(shù)據(jù)流101中按照時間順序收集數(shù)據(jù)。
[0008]步驟2:數(shù)據(jù)流劃分模塊103讀取步驟I中的數(shù)據(jù)流數(shù)據(jù)，并且根據(jù)數(shù)據(jù)流數(shù)據(jù)的時間先后關(guān)系對數(shù)據(jù)流進(jìn)行劃分；所述數(shù)據(jù)流初始化模塊103劃分得到的數(shù)據(jù)塊中，包含3類數(shù)據(jù)分別是訓(xùn)練集、驗(yàn)證集和測試集，每個數(shù)據(jù)集中所包含的數(shù)據(jù)樣本數(shù)量為N ；N是固定變量，由使用者提前設(shè)定。[0009]步驟3:將經(jīng)過數(shù)據(jù)流劃分模塊103所得到的三種靜態(tài)數(shù)據(jù)集即訓(xùn)練集、測試集和驗(yàn)證集輸入到數(shù)據(jù)初始化模塊104，對靜態(tài)數(shù)據(jù)集進(jìn)行歸一化處理。
[0010]步驟4:將經(jīng)過數(shù)據(jù)初始化模塊104處理后的訓(xùn)練集數(shù)據(jù)輸入到集成分類器模塊105中，所述集成分類器模塊105對訓(xùn)練集數(shù)據(jù)進(jìn)行分類并構(gòu)建集成分類器。
[0011]步驟5:利用參數(shù)優(yōu)化模塊(106)對步驟4中集成分類器模型進(jìn)行參數(shù)優(yōu)化；
步驟6:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的驗(yàn)證集輸入到步驟5優(yōu)化后的集成分類
器中，得到的數(shù)據(jù)類別標(biāo)簽為數(shù)據(jù)集L ;
步驟7:將數(shù)據(jù)集L輸入到聚類模塊107中，對所使用的聚類模型進(jìn)行訓(xùn)練。
[0012]步驟8:將數(shù)據(jù)初始化模塊104所得到的測試集數(shù)據(jù)輸入到所構(gòu)建的混合分類模型中，完成數(shù)據(jù)流分類過程。
[0013]其中，所述步驟2中數(shù)據(jù)流劃分模塊103對數(shù)據(jù)流的劃分，包括以下步驟:
步驟2.1:首先使用滑動窗口法對海量實(shí)時數(shù)據(jù)流進(jìn)行靜態(tài)化處理；其中，滑動窗口每次滑動的距離為見且每個靜態(tài)子集所包含的樣本數(shù)量也為#個；
步驟2.2:使用隨機(jī)抽取方法對步驟2.1所得到的子集進(jìn)行混合，分別得到三個數(shù)據(jù)集，即訓(xùn)練集、測試集和驗(yàn)證集，其中訓(xùn)練集和測試集的大小均為4#。
[0014]其中，所述步驟3中數(shù)據(jù)初始化模塊104采用MapMinMax歸一化方法對數(shù)據(jù)進(jìn)行歸一化處理，包括以下步驟:
步驟3.1:首先將得到的訓(xùn)練集、測試集和驗(yàn)證集，分別對其各個屬性值進(jìn)行統(tǒng)計，找到各屬性的最大和最小屬性值；``
步驟3.2:對數(shù)據(jù)集的各個屬性進(jìn)行歸一化處理，所述歸一化方法公式為:
【權(quán)利要求】
1.一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，具體包括以下步驟: 步驟1:動態(tài)數(shù)據(jù)流收集模塊(102)從海量實(shí)時數(shù)據(jù)流(101)中按照時間順序收集數(shù)據(jù)；步驟2:數(shù)據(jù)流劃分模塊(103)讀取步驟I中的數(shù)據(jù)流數(shù)據(jù)，并且根據(jù)數(shù)據(jù)流數(shù)據(jù)的時間先后關(guān)系對數(shù)據(jù)流進(jìn)行劃分；所述數(shù)據(jù)流初始化模塊(103)劃分得到的數(shù)據(jù)塊中，包含3類數(shù)據(jù)分別是訓(xùn)練集、驗(yàn)證集和測試集，每個數(shù)據(jù)集中所包含的數(shù)據(jù)樣本數(shù)量為N ；N是固定變量，由使用者提前設(shè)定；步驟3:將經(jīng)過數(shù)據(jù)流劃分模塊(103)所得到的三種靜態(tài)數(shù)據(jù)集即訓(xùn)練集、測試集和驗(yàn)證集輸入到數(shù)據(jù)初始化模塊(104)，對靜態(tài)數(shù)據(jù)集進(jìn)行歸一化處理；步驟4:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的訓(xùn)練集數(shù)據(jù)輸入到集成分類器模塊(105)中，所述集成分類器模塊(105)使用訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練，構(gòu)建集成分類器模型；步驟5:利用參數(shù)優(yōu)化模塊(106)對步驟4中集成分類器模型進(jìn)行參數(shù)優(yōu)化；步驟6:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的驗(yàn)證集輸入到步驟5優(yōu)化后的集成分類器中，得到的數(shù)據(jù)類別標(biāo)簽為數(shù)據(jù)集L ; 步驟7:將數(shù)據(jù)集L輸入到聚類模塊(107)中，對所使用的聚類模型進(jìn)行訓(xùn)練；步驟8:將數(shù)據(jù)初始化模塊(104)所得到的測試集數(shù)據(jù)輸入到所構(gòu)建的混合分類模型中，完成數(shù)據(jù)流分類過程。
2.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟2中數(shù)據(jù)流劃分模塊(103)對數(shù)據(jù)流的劃分，包括以下步驟: 步驟2.1:首先使用滑動窗口法對海量實(shí)時數(shù)據(jù)流進(jìn)行靜態(tài)化處理；其中，滑動窗口每次滑動的距離為N，且每個靜態(tài)子集所包含的樣本數(shù)量也為#個；步驟2.2:使用隨機(jī)抽取方法對步驟2.1所得到的子集進(jìn)行混合，分別得到三個數(shù)據(jù)集，即訓(xùn)練集、測試集和驗(yàn)證集，其中訓(xùn)練集和測試集的大小均為4#。
3.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟3中數(shù)據(jù)初始化模塊(104)采用MapMinMax歸一化方法對數(shù)據(jù)進(jìn)行歸一化處理，包括以下步驟: 步驟3.1:首先將得到的訓(xùn)練集、測試集和驗(yàn)證集，分別對其各個屬性值進(jìn)行統(tǒng)計，找到各屬性的最大和最小屬性值；步驟3.2:對數(shù)據(jù)集的各個屬性進(jìn)行歸一化處理，所述歸一化方法公式為:/ (x.) - (ymax ^ymm) -mmOi))^ 1 (ma^(x.)-mm(^)) + ymm 其中，Xi表示當(dāng)前樣本的第i個屬性值，HiinCri)和max Cri)分別表示當(dāng)前第i個屬性的最小和最大值，ymax和ymin分別表示歸一化的上限和下限，如果想歸一化到[0，I]區(qū)間時,則 ymax 為 I, ymin 為 O。
4.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟4中數(shù)據(jù)集成分類器模塊(105)采用支持向量機(jī)模型作為基本分類模型對數(shù)據(jù)流進(jìn)行分類，并構(gòu)建集成分類器，包括以下步驟: 步驟4.1:首先使用兩種支持向量機(jī)模型作為基本分類模型，即C-SVM和V (nu)-SVM模型；步驟4.2:使用三種個函數(shù)對上述兩種支持向量機(jī)模型進(jìn)行劃分，得到六個不同的支持向量機(jī)分類模型，其中，所使用核函數(shù)為線性核函數(shù)、高斯徑向基核函數(shù)和Sigmoid核函數(shù)；步驟4.3:對得到的集成學(xué)習(xí)模型進(jìn)行訓(xùn)練。
5.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟5中參數(shù)優(yōu)化模塊(106)對所構(gòu)建的集成分類器進(jìn)行參數(shù)優(yōu)化，所使用優(yōu)化方法為粒子群算法，優(yōu)化過程包含以下步驟: 步驟5.1:首先將使用C-SVM和高斯徑向基核函數(shù)所構(gòu)建的分類模型中的參數(shù)c和^?進(jìn)行提??；步驟5.2:將數(shù)據(jù)流初始化模塊(104)歸一化后的驗(yàn)證數(shù)據(jù)集輸入到該模型中，然后使用PSO算法對參數(shù)進(jìn)行優(yōu)化，其中優(yōu)化過程中的適應(yīng)性函數(shù)使用《交叉驗(yàn)證的方法，其公式表示為:
6.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟7中聚類模塊(107)針對集成分類器給出的分類結(jié)果即數(shù)據(jù)集L進(jìn)行聚類，得到最終的分類結(jié)果，所使用聚類方法為自組織映射，包含以下步驟: 步驟7.1:首先對SOM模型進(jìn)行訓(xùn)練，得到訓(xùn)練后的SOM模型；步驟7.2:將測試集輸入到構(gòu)建好后的集成分類模型中，得到測試集對應(yīng)的類別標(biāo)簽數(shù)據(jù)集；步驟7.3:將類別標(biāo)簽數(shù)據(jù)集輸入到訓(xùn)練好的SOM模型中，模型計算所輸入樣本與最終類別的距離，找到被激活節(jié)點(diǎn)，計算方法如下:
7.據(jù)權(quán)利要求2所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟2.2中所使用的測試集是驗(yàn)證集和訓(xùn)練集之外的集合，其大小等同于滑動窗口大小見參數(shù)#必須提前人為設(shè)定。
8.根據(jù)權(quán)利要求4所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟4.3中所使用集成學(xué)習(xí)模型訓(xùn)練方法，包含以下子步驟: 步驟4.3.1:首先將訓(xùn)練集劃分為六個數(shù)據(jù)子集，劃分方法為等分法；步驟4.3.2:將劃分好后的分別輸入到集成學(xué)習(xí)模型中的六個分類器中進(jìn)行訓(xùn)練。
9.據(jù)權(quán)利要求5所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟5.2中所使用PSO優(yōu)化方法，包含以下子步驟: 步驟5.2.1:首先使用隨機(jī)值對所要優(yōu)化的變量進(jìn)行賦值；步驟5.2.2:然后在優(yōu)化過程中不斷更新兩個變量K]和的值，更新方法如下，
10.根據(jù)權(quán)利要求6所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法，其特征在于，所述步驟7.1中所使用SOM聚類模型的訓(xùn)練過程包含以下步驟: 步驟7.1.1:首先將驗(yàn)證數(shù)據(jù)集輸入到集成學(xué)習(xí)分類模型中，得到驗(yàn)證數(shù)據(jù)集所對應(yīng)的類別數(shù)據(jù)集L ；步驟7.1.2:將所得到的類別數(shù)據(jù)集對SOM模型進(jìn)行訓(xùn)練。
【文檔編號】G06F17/30GK103678512SQ201310608553
【公開日】2014年3月26日申請日期:2013年12月26日優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】姚遠(yuǎn) 申請人:大連民族學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姚遠(yuǎn);
技術(shù)所有人：大連民族學(xué)院;
我是此專利的發(fā)明人

上一篇：一種建立靜壓中心架熱力耦合變形后潤滑油膜模型的方法
上一篇：微油點(diǎn)火預(yù)警方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)流分類相關(guān)技術(shù)

數(shù)據(jù)流圖相關(guān)技術(shù)

數(shù)據(jù)流相關(guān)技術(shù)

數(shù)據(jù)流小說相關(guān)技術(shù)

空氣流量計正常數(shù)據(jù)流相關(guān)技術(shù)

數(shù)據(jù)流圖實(shí)例相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法