欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法

文檔序號:6520724閱讀:199來源:國知局
一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法
【專利摘要】本發(fā)明涉及智能信息處理【技術(shù)領(lǐng)域】,公開了一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,本發(fā)明采用集成學(xué)習(xí)和混合模型框架構(gòu)建數(shù)據(jù)流分類模型,可以適應(yīng)數(shù)據(jù)流的海量性、實(shí)時性和動態(tài)變化性三種特點(diǎn)的要求,并提高數(shù)據(jù)流分類的準(zhǔn)確率。其中,集成學(xué)習(xí)模型利用了集成學(xué)習(xí)理論相關(guān)內(nèi)容,通過使用多個分類器進(jìn)行分類,提高分類效果和適應(yīng)數(shù)據(jù)流動態(tài)性的能力。此外,聚類方法對分類結(jié)果進(jìn)行匯總,有效利用分類結(jié)果之間的內(nèi)部關(guān)系,有利于提高分類準(zhǔn)確率,減少因分類所消耗時間。
【專利說明】一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理【技術(shù)領(lǐng)域】,特別涉及一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,適用于網(wǎng)絡(luò)入侵檢測,網(wǎng)絡(luò)安全監(jiān)控、傳感器數(shù)據(jù)監(jiān)控和電網(wǎng)供電等方面。
【背景技術(shù)】
[0002]隨著物聯(lián)網(wǎng)的發(fā)展,以及“大數(shù)據(jù)”時代的到來,傳統(tǒng)數(shù)據(jù)挖掘方法正面臨著新的挑戰(zhàn),其中數(shù)據(jù)形式的變化是最為重要和基本的內(nèi)容。傳統(tǒng)數(shù)據(jù)形式主要以靜態(tài)數(shù)據(jù)為主,其容量有限,可被存儲且基本無變化。因此,對傳統(tǒng)數(shù)據(jù)挖掘算法的設(shè)計,往往假設(shè)數(shù)據(jù)是靜態(tài),考慮更多的是算法本身而不是數(shù)據(jù)形式適應(yīng)問題。
[0003]但近些年,隨著信息化發(fā)展的深入,一種嶄新的數(shù)據(jù)形式,即數(shù)據(jù)流,逐漸成為主流數(shù)據(jù)形式。與靜態(tài)數(shù)據(jù)形式不同,數(shù)據(jù)流主要包含三種基本特征,即海量性、實(shí)時性和動態(tài)變化性,因此如果再繼續(xù)單純的套用傳統(tǒng)數(shù)據(jù)挖掘方法,往往無法得到令人滿意的結(jié)果,甚至是完全失效。也正因?yàn)槿绱?,目前針對?shù)據(jù)流挖掘的研究成為新的研究熱點(diǎn)。
[0004]對數(shù)據(jù)流分類問題來說,其核心問題是設(shè)計適應(yīng)數(shù)據(jù)流特點(diǎn)(海量性、實(shí)時性和動態(tài)變化性)的分類方法。具體來說,較傳統(tǒng)分類方法來說,數(shù)據(jù)流的海量性特點(diǎn)要求數(shù)據(jù)流分類方法能夠在無法存儲歷史數(shù)據(jù)的前提下,對數(shù)據(jù)進(jìn)行訓(xùn)練和分類;數(shù)據(jù)流的實(shí)時性要求分類模型在分類過程中,除了要考慮分類準(zhǔn)確率方面外,還需要對分類時間進(jìn)行優(yōu)化和壓縮,盡可能的在新數(shù)據(jù)流產(chǎn)生前完成分類整體過程,對分類模型的運(yùn)行效率提出了新的要求;數(shù)據(jù)流的動態(tài)變化性要求分類模型具有一定的擴(kuò)充性和自我更新性,能夠適應(yīng)數(shù)據(jù)流的變化。因?yàn)槿绱?,設(shè)計出完全滿足數(shù)據(jù)流三種特點(diǎn)的分類模型,一直是學(xué)術(shù)界追求的目標(biāo),而當(dāng)前所提出分類方法,大部分只能滿足一種或兩種數(shù)據(jù)流特點(diǎn),只能在一定程度上達(dá)到分類的要求。
[0005]目前國際、國內(nèi)尚未出現(xiàn)完全適應(yīng)數(shù)據(jù)流特點(diǎn)的分類方法,亟待一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是:為解決上述現(xiàn)有技術(shù)中存在的問題,提供一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,能夠滿足數(shù)據(jù)流海量性、實(shí)時性和動態(tài)變化性的特點(diǎn),達(dá)到分類要求。
[0007]為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,具體包括以下步驟:
步驟1:動態(tài)數(shù)據(jù)流收集模塊102從海量實(shí)時數(shù)據(jù)流101中按照時間順序收集數(shù)據(jù)。
[0008]步驟2:數(shù)據(jù)流劃分模塊103讀取步驟I中的數(shù)據(jù)流數(shù)據(jù),并且根據(jù)數(shù)據(jù)流數(shù)據(jù)的時間先后關(guān)系對數(shù)據(jù)流進(jìn)行劃分;所述數(shù)據(jù)流初始化模塊103劃分得到的數(shù)據(jù)塊中,包含3類數(shù)據(jù)分別是訓(xùn)練集、驗(yàn)證集和測試集,每個數(shù)據(jù)集中所包含的數(shù)據(jù)樣本數(shù)量為N ;N是固定變量,由使用者提前設(shè)定。[0009]步驟3:將經(jīng)過數(shù)據(jù)流劃分模塊103所得到的三種靜態(tài)數(shù)據(jù)集即訓(xùn)練集、測試集和驗(yàn)證集輸入到數(shù)據(jù)初始化模塊104,對靜態(tài)數(shù)據(jù)集進(jìn)行歸一化處理。
[0010]步驟4:將經(jīng)過數(shù)據(jù)初始化模塊104處理后的訓(xùn)練集數(shù)據(jù)輸入到集成分類器模塊105中,所述集成分類器模塊105對訓(xùn)練集數(shù)據(jù)進(jìn)行分類并構(gòu)建集成分類器。
[0011]步驟5:利用參數(shù)優(yōu)化模塊(106)對步驟4中集成分類器模型進(jìn)行參數(shù)優(yōu)化;
步驟6:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的驗(yàn)證集輸入到步驟5優(yōu)化后的集成分類
器中,得到的數(shù)據(jù)類別標(biāo)簽為數(shù)據(jù)集L ;
步驟7:將數(shù)據(jù)集L輸入到聚類模塊107中,對所使用的聚類模型進(jìn)行訓(xùn)練。
[0012]步驟8:將數(shù)據(jù)初始化模塊104所得到的測試集數(shù)據(jù)輸入到所構(gòu)建的混合分類模型中,完成數(shù)據(jù)流分類過程。
[0013]其中,所述步驟2中數(shù)據(jù)流劃分模塊103對數(shù)據(jù)流的劃分,包括以下步驟:
步驟2.1:首先使用滑動窗口法對海量實(shí)時數(shù)據(jù)流進(jìn)行靜態(tài)化處理;其中,滑動窗口每次滑動的距離為見且每個靜態(tài)子集所包含的樣本數(shù)量也為#個;
步驟2.2:使用隨機(jī)抽取方法對步驟2.1所得到的子集進(jìn)行混合,分別得到三個數(shù)據(jù)集,即訓(xùn)練集、測試集和驗(yàn)證集,其中訓(xùn)練集和測試集的大小均為4#。
[0014]其中,所述步驟3中數(shù)據(jù)初始化模塊104采用MapMinMax歸一化方法對數(shù)據(jù)進(jìn)行歸一化處理,包括以下步驟:
步驟3.1:首先將得到的訓(xùn)練集、測試集和驗(yàn)證集,分別對其各個屬性值進(jìn)行統(tǒng)計,找到各屬性的最大和最小屬性值;``
步驟3.2:對數(shù)據(jù)集的各個屬性進(jìn)行歸一化處理,所述歸一化方法公式為:
【權(quán)利要求】
1.一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,具體包括以下步驟: 步驟1:動態(tài)數(shù)據(jù)流收集模塊(102)從海量實(shí)時數(shù)據(jù)流(101)中按照時間順序收集數(shù)據(jù); 步驟2:數(shù)據(jù)流劃分模塊(103)讀取步驟I中的數(shù)據(jù)流數(shù)據(jù),并且根據(jù)數(shù)據(jù)流數(shù)據(jù)的時間先后關(guān)系對數(shù)據(jù)流進(jìn)行劃分;所述數(shù)據(jù)流初始化模塊(103)劃分得到的數(shù)據(jù)塊中,包含3類數(shù)據(jù)分別是訓(xùn)練集、驗(yàn)證集和測試集,每個數(shù)據(jù)集中所包含的數(shù)據(jù)樣本數(shù)量為N ;N是固定變量,由使用者提前設(shè)定; 步驟3:將經(jīng)過數(shù)據(jù)流劃分模塊(103)所得到的三種靜態(tài)數(shù)據(jù)集即訓(xùn)練集、測試集和驗(yàn)證集輸入到數(shù)據(jù)初始化模塊(104),對靜態(tài)數(shù)據(jù)集進(jìn)行歸一化處理; 步驟4:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的訓(xùn)練集數(shù)據(jù)輸入到集成分類器模塊(105)中,所述集成分類器模塊(105)使用訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建集成分類器模型;步驟5:利用參數(shù)優(yōu)化模塊(106)對步驟4中集成分類器模型進(jìn)行參數(shù)優(yōu)化; 步驟6:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的驗(yàn)證集輸入到步驟5優(yōu)化后的集成分類器中,得到的數(shù)據(jù)類別標(biāo)簽為數(shù)據(jù)集L ; 步驟7:將數(shù)據(jù)集L輸入到聚類模塊(107)中,對所使用的聚類模型進(jìn)行訓(xùn)練; 步驟8:將數(shù)據(jù)初始化模塊(104)所得到的測試集數(shù)據(jù)輸入到所構(gòu)建的混合分類模型中,完成數(shù)據(jù)流分類過程。
2.根據(jù)權(quán)利 要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟2中數(shù)據(jù)流劃分模塊(103)對數(shù)據(jù)流的劃分,包括以下步驟: 步驟2.1:首先使用滑動窗口法對海量實(shí)時數(shù)據(jù)流進(jìn)行靜態(tài)化處理;其中,滑動窗口每次滑動的距離為N,且每個靜態(tài)子集所包含的樣本數(shù)量也為#個; 步驟2.2:使用隨機(jī)抽取方法對步驟2.1所得到的子集進(jìn)行混合,分別得到三個數(shù)據(jù)集,即訓(xùn)練集、測試集和驗(yàn)證集,其中訓(xùn)練集和測試集的大小均為4#。
3.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟3中數(shù)據(jù)初始化模塊(104)采用MapMinMax歸一化方法對數(shù)據(jù)進(jìn)行歸一化處理,包括以下步驟: 步驟3.1:首先將得到的訓(xùn)練集、測試集和驗(yàn)證集,分別對其各個屬性值進(jìn)行統(tǒng)計,找到各屬性的最大和最小屬性值; 步驟3.2:對數(shù)據(jù)集的各個屬性進(jìn)行歸一化處理,所述歸一化方法公式為:/ (x.) - (ymax ^ymm) -mmOi))^ 1 (ma^(x.)-mm(^)) + ymm 其中,Xi表示當(dāng)前樣本的第i個屬性值,HiinCri)和max Cri)分別表示當(dāng)前第i個屬性的最小和最大值,ymax和ymin分別表示歸一化的上限和下限,如果想歸一化到[0,I]區(qū)間時,則 ymax 為 I, ymin 為 O。
4.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟4中數(shù)據(jù)集成分類器模塊(105)采用支持向量機(jī)模型作為基本分類模型對數(shù)據(jù)流進(jìn)行分類,并構(gòu)建集成分類器,包括以下步驟: 步驟4.1:首先使用兩種支持向量機(jī)模型作為基本分類模型,即C-SVM和V (nu)-SVM模型; 步驟4.2:使用三種個函數(shù)對上述兩種支持向量機(jī)模型進(jìn)行劃分,得到六個不同的支持向量機(jī)分類模型,其中,所使用核函數(shù)為線性核函數(shù)、高斯徑向基核函數(shù)和Sigmoid核函數(shù); 步驟4.3:對得到的集成學(xué)習(xí)模型進(jìn)行訓(xùn)練。
5.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟5中參數(shù)優(yōu)化模塊(106)對所構(gòu)建的集成分類器進(jìn)行參數(shù)優(yōu)化,所使用優(yōu)化方法為粒子群算法,優(yōu)化過程包含以下步驟: 步驟5.1:首先將使用C-SVM和高斯徑向基核函數(shù)所構(gòu)建的分類模型中的參數(shù)c和^?進(jìn)行提??; 步驟5.2:將數(shù)據(jù)流初始化模塊(104)歸一化后的驗(yàn)證數(shù)據(jù)集輸入到該模型中,然后使用PSO算法對參數(shù)進(jìn)行優(yōu)化,其中優(yōu)化過程中的適應(yīng)性函數(shù)使用《交叉驗(yàn)證的方法,其公式表示為:
6.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟7中聚類模塊(107)針對集成分類器給出的分類結(jié)果即數(shù)據(jù)集L進(jìn)行聚類,得到最終的分類結(jié)果,所使用聚類方法為自組織映射,包含以下步驟: 步驟7.1:首先對SOM模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的SOM模型; 步驟7.2:將測試集輸入到構(gòu)建好后的集成分類模型中,得到測試集對應(yīng)的類別標(biāo)簽數(shù)據(jù)集; 步驟7.3:將類別標(biāo)簽數(shù)據(jù)集輸入到訓(xùn)練好的SOM模型中,模型計算所輸入樣本與最終類別的距離,找到被激活節(jié)點(diǎn),計算方法如下:
7.據(jù)權(quán)利要求2所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟2.2中所使用的測試集是驗(yàn)證集和訓(xùn)練集之外的集合,其大小等同于滑動窗口大小見參數(shù)#必須提前人為設(shè)定。
8.根據(jù)權(quán)利要求4所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟4.3中所使用集成學(xué)習(xí)模型訓(xùn)練方法,包含以下子步驟: 步驟4.3.1:首先將訓(xùn)練集劃分為六個數(shù)據(jù)子集,劃分方法為等分法;步驟4.3.2:將劃分好后的分別輸入到集成學(xué)習(xí)模型中的六個分類器中進(jìn)行訓(xùn)練。
9.據(jù)權(quán)利要求5所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟5.2中所使用PSO優(yōu)化方法,包含以下子步驟: 步驟5.2.1:首先使用隨機(jī)值對所要優(yōu)化的變量進(jìn)行賦值; 步驟5.2.2:然后在優(yōu)化過程中不斷更新兩個變量K]和的值,更新方法如下,
10.根據(jù)權(quán)利要求6所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟7.1中所使用SOM聚類模型的訓(xùn)練過程包含以下步驟: 步驟7.1.1:首先將驗(yàn)證數(shù)據(jù)集輸入到集成學(xué)習(xí)分類模型中,得到驗(yàn)證數(shù)據(jù)集所對應(yīng)的類別數(shù)據(jù)集L ; 步驟7.1.2:將所得到的類別數(shù)據(jù)集對SOM模型進(jìn)行訓(xùn)練。
【文檔編號】G06F17/30GK103678512SQ201310608553
【公開日】2014年3月26日 申請日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】姚遠(yuǎn) 申請人:大連民族學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
合作市| 安国市| 鹤山市| 涟源市| 武隆县| 昭觉县| 琼中| 天镇县| 石城县| 新竹县| 城口县| 宽甸| 秀山| 聂荣县| 镇远县| 洛扎县| 清镇市| 旌德县| 孙吴县| 金沙县| 集安市| 忻州市| 永胜县| 深圳市| 宜兴市| 涟源市| 资阳市| 莆田市| 麻栗坡县| 紫云| 盐城市| 锡林浩特市| 册亨县| 公安县| 新郑市| 浙江省| 将乐县| 铜鼓县| 津市市| 琼结县| 腾冲县|