欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于網(wǎng)格和聚類優(yōu)化的實(shí)時數(shù)據(jù)流核密度估計(jì)方法與流程

文檔序號:12177126閱讀:794來源:國知局
一種基于網(wǎng)格和聚類優(yōu)化的實(shí)時數(shù)據(jù)流核密度估計(jì)方法與流程

本發(fā)明屬于概率密度估計(jì)的技術(shù)領(lǐng)域,具體涉及一種基于網(wǎng)格和聚類優(yōu)化的實(shí)時數(shù)據(jù)流核密度估計(jì)方法。



背景技術(shù):

近年來,隨著網(wǎng)絡(luò)技術(shù)和硬件性能的快速發(fā)展,科學(xué)和商業(yè)應(yīng)用產(chǎn)生的海量數(shù)據(jù)以數(shù)據(jù)流的形式被傳輸。例如,無線傳感器網(wǎng)絡(luò)由大量具有感知和通訊能力的分布式節(jié)點(diǎn)構(gòu)成。這些節(jié)點(diǎn)實(shí)時采樣環(huán)境參數(shù)并通過多種類型的異構(gòu)網(wǎng)絡(luò)將數(shù)據(jù)傳送到中央處理器集群。這些數(shù)據(jù)的特征是隨時間到達(dá)、快速變化、海量的和潛在無限的。在這樣的條件下,存儲全體數(shù)據(jù)不易操作且沒有必要。數(shù)據(jù)流對處理算法提出了如下新的要求:(1)為趕上數(shù)據(jù)抵達(dá)的速率,處理數(shù)據(jù)流中每條記錄的時間必須短且固定;(2)因?yàn)椴豢赡苡袝r間重新訪問歷史數(shù)據(jù),建立的處理模型中每個數(shù)據(jù)最多掃描一次;(3)無論處理模型面對的數(shù)據(jù)量多少,必須使用固定大小的內(nèi)存空間;(4)當(dāng)數(shù)據(jù)的概念漂移發(fā)生,任何時候處理都能及時更新,同時仍然包含沒有過期的歷史信息。

許多流挖掘技術(shù),特別是使用統(tǒng)計(jì)方法的流挖掘技術(shù),概率密度函數(shù)(PDF)是主要的數(shù)據(jù)模型。由于先驗(yàn)知識的局限性,實(shí)際應(yīng)用中流數(shù)據(jù)概率密度函數(shù)的形式(例如,高斯分布,泊松分布)是不確定的,事先不能得知。一般可以使用不帶任何假設(shè)僅從樣本本身出發(fā)研究數(shù)據(jù)分布特征的非參數(shù)估計(jì)方法來估計(jì)概率密度函數(shù),其中核密度估計(jì)是已有高效的非參數(shù)估計(jì)技術(shù)。核密度估計(jì)的質(zhì)量嚴(yán)重依賴帶寬,而不同的核函數(shù)對整體估計(jì)質(zhì)量影響有限。

對應(yīng)n個給定的樣本點(diǎn)和Q個在數(shù)據(jù)區(qū)域內(nèi)均勻分布的查詢點(diǎn),標(biāo)準(zhǔn)核密度估計(jì)公式的計(jì)算代價為ο(nQ),對數(shù)據(jù)流而言過于高昂。為了計(jì)算每個查詢點(diǎn)的概率密度值(或者說查詢點(diǎn)的數(shù)量Q是固定的),降低計(jì)算復(fù)雜度的唯一出路是找到樣本的替代物,也就是壓縮n。與此同時,替代物占用的存儲空間必須顯著小于樣本本身需要占用的存儲空間。遵循上述思路,核密度估計(jì)技術(shù)主要分為基于網(wǎng)格(GKDE)和基于聚類的兩類方法(CKDE)。

基于網(wǎng)格的核密度估計(jì)也稱為分箱核密度估計(jì),生成遠(yuǎn)小于樣本數(shù)量的若干均勻排列的空間網(wǎng)格,其中非空網(wǎng)格數(shù)量為G,將所有映射到網(wǎng)格的樣本數(shù)據(jù)匯聚于網(wǎng)格內(nèi)某點(diǎn),利用該點(diǎn)的位置和數(shù)據(jù)量權(quán)重唯一地表征映射到該網(wǎng)格的樣本集合。網(wǎng)格策略使得密度估計(jì)計(jì)算復(fù)雜度降低為ο(GQ),空間復(fù)雜度為ο(G)。常用的分箱規(guī)則包含簡單分箱和線性分箱。比較基于網(wǎng)格中心的簡單分箱規(guī)則和線性分箱規(guī)則,李存華等提出的基于網(wǎng)格內(nèi)樣本重心的簡單分箱規(guī)則(BKDE-GGC)是更合理的選擇,這種規(guī)則沒有邏輯數(shù)據(jù)點(diǎn)產(chǎn)生,并且分箱誤差的數(shù)量級為ο(δ4),δ代表固定設(shè)置的空間網(wǎng)格寬度且δ→0。由于δ→0意味著非空網(wǎng)格的數(shù)量G仍然很大,所以直接對數(shù)據(jù)流應(yīng)用網(wǎng)格密度估計(jì)不是明智的選擇。

基于聚類的核密度估計(jì)執(zhí)行核合并以維持固定數(shù)量的存儲空間,其主要思想是獲得可以表征全體樣本統(tǒng)計(jì)特征的有限的合并核。許敏等介紹了MMCKDE,一種基于優(yōu)化技術(shù)的聚類核密度估計(jì)算法。根據(jù)采用的優(yōu)化策略,每次核合并的誤差被減少到局部極小。然而,當(dāng)不同時間序列的樣本集形成的聚類優(yōu)化核的數(shù)量到達(dá)內(nèi)存上限,擁有最短Kullback-Leilber距離的兩個聚類優(yōu)化核必須被再次合并以確保內(nèi)存不會溢出,這些操作不可避免地累積了合并誤差,且不能證明誤差收斂。另一方面,MMCKDE沒有提供多變量模型,不能應(yīng)用于各個維度的核帶寬取不同值的多維聚類優(yōu)化核密度估計(jì)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明主要是解決現(xiàn)有數(shù)據(jù)流密度估計(jì)技術(shù)所存在的計(jì)算精度和處理速度難以平衡的不足,提供一種既有較快處理速度,也有較高的計(jì)算精度的實(shí)時數(shù)據(jù)流核密度估計(jì)方法。

本發(fā)明針對上述技術(shù)問題主要是通過下述技術(shù)方案得以解決的:一種基于網(wǎng)格和聚類優(yōu)化的實(shí)時數(shù)據(jù)流核密度估計(jì)方法,包括以下步驟:

A、網(wǎng)格預(yù)處理過程:將樣本數(shù)據(jù)所在d維實(shí)數(shù)空間Rd的每個維度進(jìn)行等寬劃分,從而將Rd劃分為若干依次相鄰且互不相交的超方體網(wǎng)格的集合。

B、在線網(wǎng)格維護(hù)過程:建立先進(jìn)先出的在線隊(duì)列,連續(xù)地在隊(duì)列尾部接收新數(shù)據(jù),更新對應(yīng)網(wǎng)格的特征向量,判斷該網(wǎng)格是否進(jìn)化為密度網(wǎng)格;同時在隊(duì)列頭部丟棄歷史數(shù)據(jù),更新對應(yīng)網(wǎng)格的特征向量,判斷該網(wǎng)格是否退化為稀疏網(wǎng)格。在網(wǎng)格特征向量的基礎(chǔ)上建立網(wǎng)格六元組,將原始數(shù)據(jù)流樣本合并為網(wǎng)格重心點(diǎn),以提高計(jì)算效率。核合并在網(wǎng)格內(nèi)進(jìn)行,避免了不可控的累計(jì)誤差。根據(jù)新增和丟棄的樣本數(shù)據(jù)動態(tài)維護(hù)密度網(wǎng)格集合。

C、離線聚類過程:每隔固定時間間隔gap進(jìn)入并發(fā)處理的離線階段,該時間間隔的最小值大于處理一次K-means聚類、核參數(shù)優(yōu)化和查詢點(diǎn)密度估計(jì)等開銷的時間之和,主要由算法的執(zhí)行效率和實(shí)際應(yīng)用需要的查詢點(diǎn)分布數(shù)量決定。利用權(quán)重K-means算法對網(wǎng)格重心點(diǎn)進(jìn)行聚類,該過程由兩個階段實(shí)現(xiàn)。第一階段以兩點(diǎn)間歐幾里德距離最短為原則將G個網(wǎng)格重心點(diǎn)聚類到m個聚類中心,第二階段根據(jù)每個聚類集合包含的網(wǎng)格元素的權(quán)重和空間位置重新計(jì)算聚類的重心點(diǎn)。算法在兩個階段之間來回迭代執(zhí)行,直到在聚類分配上沒有進(jìn)一步的變化為止。

D、離線優(yōu)化過程:利用多變量MMCKDE算法(M-MMCKDE)對聚類后的網(wǎng)格進(jìn)行優(yōu)化。M-MMCKDE使用一個新的聚類優(yōu)化核替代權(quán)重K-means算法得到的每個聚類中全部的網(wǎng)格重心核,目標(biāo)是兩者之間距離的極小化。這樣操作使得后續(xù)查詢點(diǎn)核密度估計(jì)的計(jì)算復(fù)雜度從ο(GQ)降低為ο(mQ)。通過反復(fù)調(diào)用求取聚類優(yōu)化核系數(shù)、高斯核帶寬和聚類點(diǎn)的迭代公式,將網(wǎng)格置于合適的聚類中,縮小網(wǎng)格重心核與聚類優(yōu)化核之間的距離,聚類優(yōu)化核可以漸次逼近全體網(wǎng)格重心核。得到的聚類優(yōu)化核作為查詢點(diǎn)核密度估計(jì)的輸入。

E、離線核密度估計(jì)過程:計(jì)算m個聚類優(yōu)化核對查詢點(diǎn)核密度的累計(jì),得到最終的數(shù)據(jù)流核密度估計(jì)的結(jié)果。

作為優(yōu)選,所述步驟A中,采用簡單分箱規(guī)則將樣本數(shù)據(jù)所在d維實(shí)數(shù)空間Rd劃分為網(wǎng)格集合式中,gj=(j1,…,ji,…,jd)代表網(wǎng)格序號,即gj表示第j個網(wǎng)格,ji表示第j個網(wǎng)格中的第i個維度,δ=(δ1,…,δi,…,δd)代表網(wǎng)格寬度,即δi表示網(wǎng)格的第i個維度的寬度,Zd為d維整數(shù)空間。

作為優(yōu)選,所述步驟B中,在每個數(shù)據(jù)到達(dá)時刻,新數(shù)據(jù)進(jìn)入隊(duì)列尾部,該數(shù)據(jù)對應(yīng)的網(wǎng)格的特征向量被刷新。同時,丟棄隊(duì)列頭部的歷史數(shù)據(jù),該數(shù)據(jù)對應(yīng)的網(wǎng)格的特征向量被刷新。t時刻進(jìn)入隊(duì)列的d維樣本數(shù)據(jù)V可以表示為:

V=[v1,…,vi,…,vd,t]

vi表示樣本數(shù)據(jù)V中的第i維的值,d維網(wǎng)格的數(shù)據(jù)映射規(guī)則由以下簡單分箱函數(shù)族確定:

上式表明樣本數(shù)據(jù)V以權(quán)值Wgj(V,δ)映射到網(wǎng)格gj。

當(dāng)隊(duì)列尾部增加新數(shù)據(jù)被映射到相應(yīng)網(wǎng)格中時,則對該網(wǎng)格的特征向量進(jìn)行更新,更新操作如下:

其中為映射到網(wǎng)格gj的數(shù)據(jù)量,是映射到該網(wǎng)格的全體數(shù)據(jù)的第i維線性和,是映射到該網(wǎng)格的全體數(shù)據(jù)的第i維平方和。

當(dāng)隊(duì)列頭部丟棄歷史數(shù)據(jù)被映射到相應(yīng)網(wǎng)格中時,則對該網(wǎng)格的特征向量進(jìn)行更新,更新操作如下:

映射到網(wǎng)格的全體數(shù)據(jù)的均值和方差可以由特征向量計(jì)算得到:

式中為網(wǎng)格gj第i維數(shù)據(jù)的均值,是網(wǎng)格gj第i維數(shù)據(jù)的方差。

密度網(wǎng)格的判斷條件為其中α為網(wǎng)格的數(shù)據(jù)量(網(wǎng)格密度),修正系數(shù)ξ∈(0,1),n是在線隊(duì)列長度,G為非空網(wǎng)格的數(shù)量。反之,當(dāng)該網(wǎng)格為稀疏網(wǎng)格。密度網(wǎng)絡(luò)集合為離線階段的權(quán)重K-means聚類提供服務(wù)。

經(jīng)過在線網(wǎng)格維護(hù)過程,原始數(shù)據(jù)的統(tǒng)計(jì)信息被保存在一個網(wǎng)格六元組內(nèi),即元組(α,LS,SS,g*2,flag),使得n個樣本數(shù)據(jù)被合并為G個網(wǎng)格重心點(diǎn),以提高計(jì)算效率,避免不可控的累計(jì)誤差。flag代表網(wǎng)格的密度標(biāo)志。

作為優(yōu)選,所述步驟C中,每隔固定時間間隔gap進(jìn)入并發(fā)處理的離線階段,該時間間隔的最小值設(shè)定為大于處理一次K-means聚類、核參數(shù)優(yōu)化和查詢點(diǎn)密度估計(jì)等花費(fèi)的時間之和,主要由算法的執(zhí)行效率和實(shí)際應(yīng)用需要的查詢點(diǎn)分布數(shù)量決定。利用權(quán)重K-means算法對網(wǎng)格重心點(diǎn)進(jìn)行聚類,該過程由兩階段迭代實(shí)現(xiàn)。令表示用于劃分到m個聚類的G個非空網(wǎng)格重心點(diǎn)的集合,從在線階段得到的密度網(wǎng)格集合中選取空間位置均勻分布的m個密度網(wǎng)格的重心點(diǎn)作為初始聚類的中心,Sl代表網(wǎng)格集合的第l個聚類。按照空間位置而不是隨機(jī)選擇初始聚類中心的目的是為了減小出現(xiàn)局部次優(yōu)解的可能性和快速收斂。第一階段以兩點(diǎn)間歐氏距離最短為原則將G個網(wǎng)格重心點(diǎn)聚類到m個聚類中心,通過求取以下代價函數(shù)的最小值確定:

式中代表第gj個網(wǎng)格重心點(diǎn)到第l個聚類中心的歐式距離。

第二階段根據(jù)每個聚類集合Sl包含的網(wǎng)格元素的權(quán)重和空間位置重新計(jì)算m個聚類的重心點(diǎn),由以下公式確定:

式中代表第gj個網(wǎng)格的權(quán)重(數(shù)據(jù)量)。權(quán)重K-means算法在兩個階段之間來回迭代執(zhí)行,直到在聚類分配上沒有進(jìn)一步的變化為止,輸出結(jié)果為

作為優(yōu)選,所述步驟D中,采用高斯核作為核函數(shù)K(·)。按照時間順序從數(shù)據(jù)流中采樣的n個獨(dú)立同分布的樣本點(diǎn)V1,V2,…,Vn存儲于在線隊(duì)列,它們分別映射到對應(yīng)的網(wǎng)格重心,基于聚類中網(wǎng)格重心的d維核密度估計(jì)由以下公式確定:

式中,m是聚類數(shù)量,Sl代表非空網(wǎng)格集合的第l個聚類,代表Sl中第gj個網(wǎng)格的權(quán)值,是第vj個網(wǎng)格的重心點(diǎn)的第k維度值,是第gj個網(wǎng)格在第k維的核帶寬。

多變量MMCKDE算法(M-MMCKDE)使用一個新的聚類優(yōu)化核代替權(quán)重K-means算法得到的每個聚類中全部的網(wǎng)格重心核,使得查詢點(diǎn)密度估計(jì)的計(jì)算復(fù)雜度從ο(GQ)降低為ο(mQ)。對第l個聚類,使用聚類優(yōu)化核代替其中全部網(wǎng)格重心核的總和其中hl,k是第l個聚類優(yōu)化核第k維帶寬,G為高斯核。令使g(X)逼近L2準(zhǔn)則用于評估g(X)和之間的誤差,第l個聚類優(yōu)化核的最小誤差上界由以下公式確定:

根據(jù)優(yōu)化理論,第l個聚類優(yōu)化核的系數(shù)βl、高斯核寬hl,k和聚類點(diǎn)tl,k的迭代計(jì)算由以下公式確定:

令網(wǎng)格重心核與聚類優(yōu)化核之間的距離

平方由以下公式確定:

通過反復(fù)迭代調(diào)用求取極小值的βl,tl,k和hl,k公式,將網(wǎng)格置于合適的聚類中,縮小網(wǎng)格重心核與聚類優(yōu)化核之間的距離,本地最優(yōu)g(X)對應(yīng)的βl,tl,k和hl,k可以漸次得到,逼近得到的g(X)作為查詢點(diǎn)核密度估計(jì)的輸入。

作為優(yōu)選,所述步驟E中,計(jì)算m個聚類優(yōu)化核對查詢點(diǎn)核密度的累計(jì),得到最終的數(shù)據(jù)流核密度估計(jì)的結(jié)果,由以下公式確定:

式中,X=(x1,…,xk,…,xd)為單個查詢點(diǎn)。

本發(fā)明的技術(shù)構(gòu)思為:采用在線/離線雙層框架,在線過程持續(xù)維護(hù)不斷到達(dá)的數(shù)據(jù)流對象,存入先進(jìn)先出隊(duì)列,隊(duì)頭和隊(duì)尾數(shù)據(jù)映射到相應(yīng)的網(wǎng)格,進(jìn)而更新網(wǎng)格的特征向量,原始數(shù)據(jù)的統(tǒng)計(jì)信息被保存在網(wǎng)格六元組內(nèi)。基于權(quán)重K-means的網(wǎng)格聚類在離線階段執(zhí)行,將參與核密度估計(jì)的網(wǎng)格數(shù)量減少為聚類核數(shù)量。得到的聚類,其網(wǎng)格成員、參數(shù)βl,tl,k和hl,k根據(jù)M-MMCKDE優(yōu)化策略修正以確保極小化合并網(wǎng)格重心核的誤差,從而得到聚類優(yōu)化核,據(jù)此最終獲得查詢點(diǎn)的數(shù)據(jù)流核密度估計(jì)結(jié)果。

本發(fā)明帶來的實(shí)質(zhì)性效果是,在線映射策略不僅保證數(shù)據(jù)流的快速接收,反映數(shù)據(jù)流的進(jìn)化特征,而且核合并過程主要是網(wǎng)格內(nèi)數(shù)據(jù)匯聚到重心點(diǎn),大量的網(wǎng)格間核合并只在每個離線階段發(fā)生一次,從而保證估計(jì)誤差是收斂的。使用聚類優(yōu)化技術(shù)極小化網(wǎng)格間核合并誤差,使得估計(jì)器總體誤差和基于網(wǎng)格重心點(diǎn)的核密度估計(jì)誤差處于相同數(shù)量級,同時計(jì)算復(fù)雜度從ο(GQ)下降為ο(mQ)。所以,允許縮短離線時間間隔gap,提升執(zhí)行效率。同時,空間復(fù)雜度仍然保持為ο(G)。

附圖說明

圖1為2維實(shí)數(shù)空間R2的簡單分箱網(wǎng)格劃分示意圖;

圖2為網(wǎng)格重心點(diǎn)示意圖;

圖3為聚類中心示意圖;

圖4為GCOKDE數(shù)據(jù)流核密度估計(jì)框圖。

具體實(shí)施方式

下面通過實(shí)施例,并結(jié)合附圖1~4,對本發(fā)明的技術(shù)方案作進(jìn)一步具體的說明。

實(shí)施例:本實(shí)施例的一種基于網(wǎng)格和聚類優(yōu)化的實(shí)時數(shù)據(jù)流核密度估計(jì)方法,包括以下步驟:

A、網(wǎng)格預(yù)處理過程:將樣本數(shù)據(jù)所在d維實(shí)數(shù)空間Rd的每個維度進(jìn)行等寬劃分,從而將Rd劃分為若干依次相鄰且互不相交的超方體網(wǎng)格的集合。采用簡單分箱規(guī)則將樣本數(shù)據(jù)所在d維實(shí)數(shù)空間Rd劃分為網(wǎng)格集合式中,gj=(j1,…,ji,…,jd)代表網(wǎng)格序號,δ=(δ1,…,δi,…,δd)代表網(wǎng)格寬度,Zd為d維整數(shù)空間。2維實(shí)數(shù)空間R2的簡單分箱規(guī)則的網(wǎng)格劃分如圖1所示,兩個維度的網(wǎng)格寬度δ1和δ2不一定相等。

B、在線網(wǎng)格維護(hù)過程:建立先進(jìn)先出的在線隊(duì)列,連續(xù)地在隊(duì)列尾部接收新數(shù)據(jù),更新對應(yīng)網(wǎng)格的特征向量,判斷該網(wǎng)格是否進(jìn)化為密度網(wǎng)格;同時在隊(duì)列頭部丟棄歷史數(shù)據(jù),更新對應(yīng)網(wǎng)格的特征向量,判斷該網(wǎng)格是否退化為稀疏網(wǎng)格。在網(wǎng)格特征向量的基礎(chǔ)上建立網(wǎng)格六元組,將原始數(shù)據(jù)流樣本合并為網(wǎng)格重心點(diǎn)。根據(jù)新增和丟棄的樣本數(shù)據(jù)動態(tài)維護(hù)密度網(wǎng)格集合。

在每個數(shù)據(jù)到達(dá)時刻,新數(shù)據(jù)進(jìn)入隊(duì)列尾部,該數(shù)據(jù)對應(yīng)的網(wǎng)格的特征向量被刷新。同時,丟棄隊(duì)列頭部的歷史數(shù)據(jù),該數(shù)據(jù)對應(yīng)的網(wǎng)格的特征向量被刷新。t時刻進(jìn)入隊(duì)列的d維樣本數(shù)據(jù)V可以表示為:

V=[v1,…,vi,…,vd,t]

vi表示樣本數(shù)據(jù)V中的第i維的值,d維網(wǎng)格的數(shù)據(jù)映射規(guī)則由以下簡單分箱函數(shù)族確定:

上式表明樣本數(shù)據(jù)V以權(quán)值Wgj(V,δ)映射到網(wǎng)格gj。

當(dāng)隊(duì)列尾部增加新數(shù)據(jù)被映射到相應(yīng)網(wǎng)格中時,則對該網(wǎng)格的特征向量進(jìn)行更新,更新操作如下:

其中αgj為映射到網(wǎng)格gj的數(shù)據(jù)量,LSgj,i是映射到該網(wǎng)格的全體數(shù)據(jù)的第i維線性和,SSgj,i是映射到該網(wǎng)格的全體數(shù)據(jù)的第i維平方和。

當(dāng)隊(duì)列頭部丟棄歷史數(shù)據(jù)被映射到相應(yīng)網(wǎng)格中時,則對該網(wǎng)格的特征向量進(jìn)行更新,更新操作如下:

映射到網(wǎng)格的全體數(shù)據(jù)的均值和方差可以由特征向量計(jì)算得到:

式中為網(wǎng)格gj第i維數(shù)據(jù)的均值,是網(wǎng)格gj第i維數(shù)據(jù)的方差。

密度網(wǎng)格的判斷條件為其中α為網(wǎng)格的數(shù)據(jù)量(網(wǎng)格密度),修正系數(shù)ξ∈(0,1),n是在線隊(duì)列長度,G為非空網(wǎng)格的數(shù)量。反之,當(dāng)該網(wǎng)格為稀疏網(wǎng)格。根據(jù)新增和丟棄的樣本數(shù)據(jù)動態(tài)維護(hù)密度網(wǎng)格集合,存儲在一棵高度平衡的紅黑樹中。密度網(wǎng)絡(luò)集合為離線階段的權(quán)重K-means聚類提供服務(wù)。

經(jīng)過在線網(wǎng)格維護(hù)過程,原始數(shù)據(jù)的統(tǒng)計(jì)信息被保存在一個網(wǎng)格六元組內(nèi),即元組(α,LS,SS,g*2,flag),使得n個樣本數(shù)據(jù)被合并為G個網(wǎng)格重心點(diǎn),以提高計(jì)算效率,避免不可控的累計(jì)誤差。圖2為網(wǎng)格重心點(diǎn)示意圖,a1、a2、b1和b2網(wǎng)格的數(shù)據(jù)重心即數(shù)據(jù)均值點(diǎn)分別為和flag代表網(wǎng)格的密度標(biāo)志,1為密度網(wǎng)格,0為稀疏網(wǎng)格。

李存華等推導(dǎo)了標(biāo)準(zhǔn)核密度估計(jì)和基于網(wǎng)格重心的核密度估計(jì)之間的MISE(均方積分誤差)上界為:

上式表明MISE量級為ο(δ4)。當(dāng)δ→0,該誤差被有效控制遠(yuǎn)小于(標(biāo)準(zhǔn)核密度估計(jì)與真實(shí)數(shù)據(jù)流密度之間的MISE),說明基于網(wǎng)格重心的核密度估計(jì)精度較高且誤差收斂。如果真實(shí)分布不是高偏和超峰分布且處理的樣本數(shù)量n<104,網(wǎng)格寬度經(jīng)驗(yàn)值為0.05至0.15。

C、離線聚類過程:每隔固定時間間隔gap進(jìn)入并發(fā)處理的離線階段,該時間間隔的最小值設(shè)定為大于處理一次K-means聚類、核參數(shù)優(yōu)化和查詢點(diǎn)密度估計(jì)等花費(fèi)的時間之和,主要由算法的執(zhí)行效率和實(shí)際應(yīng)用需要的查詢點(diǎn)分布數(shù)量決定。利用權(quán)重K-means算法對網(wǎng)格重心點(diǎn)進(jìn)行聚類,該過程由兩階段迭代實(shí)現(xiàn)。令表示用于劃分到m個聚類的G個非空網(wǎng)格重心點(diǎn)的集合,從在線階段得到的密度網(wǎng)格集合中選取空間位置均勻分布的m個密度網(wǎng)格的重心點(diǎn)作為初始聚類的中心,Sl代表網(wǎng)格集合的第l個聚類。按照空間位置而不是隨機(jī)選擇初始聚類中心的目的是為了減小出現(xiàn)局部次優(yōu)解的可能性和快速收斂。m經(jīng)驗(yàn)值取為數(shù)據(jù)流分布峰數(shù)的2~3倍,一般情況下m≤50。第一階段以兩點(diǎn)間歐氏距離最短為原則將G個網(wǎng)格重心點(diǎn)聚類到m個聚類中心,通過求取以下代價函數(shù)的最小值確定:

式中代表第gj個網(wǎng)格重心點(diǎn)到第l個聚類中心的歐式距離。

第二階段根據(jù)每個聚類集合Sl包含的網(wǎng)格元素的權(quán)重和空間位置重新計(jì)算m個聚類的中心,由以下公式確定:

式中代表第gj個網(wǎng)格的權(quán)重(數(shù)據(jù)量)。權(quán)重K-means算法在兩個階段之間來回迭代執(zhí)行,直到在聚類分配上沒有進(jìn)一步的變化為止,輸出結(jié)果為圖3為聚類中心示意圖,聚類集合Sl包含網(wǎng)格a1、a2、b1和b2,聚類中心由這些網(wǎng)格的重心點(diǎn)和的均值決定。

D、離線優(yōu)化過程:利用M-MMCKDE算法對聚類后的網(wǎng)格進(jìn)行優(yōu)化。M-MMCKDE使用一個新的聚類優(yōu)化核代替權(quán)重K-means算法得到的每個聚類中全部的網(wǎng)格重心核,目標(biāo)是兩者之間誤差的極小化。即將原有的G個網(wǎng)格重心核劃分為m個子塊{S1,S2,…,Sm},每個子塊用一個聚類優(yōu)化核來近似估計(jì)網(wǎng)格重心核中相近的若干核的總和。如圖4離線階段所示,假設(shè)m=3,這3個聚類優(yōu)化核分別對應(yīng)3、4、4個相近的網(wǎng)格重心核。據(jù)此操作使得后續(xù)查詢點(diǎn)核密度估計(jì)的計(jì)算復(fù)雜度從ο(GQ)降低為ο(mQ)。通過反復(fù)調(diào)用求取聚類優(yōu)化核系數(shù)、高斯核帶寬和聚類點(diǎn)的迭代公式,將網(wǎng)格置于合適的聚類中,縮小網(wǎng)格重心核與聚類優(yōu)化核之間的距離,聚類優(yōu)化核可以漸次逼近全體網(wǎng)格重心核。得到的聚類優(yōu)化核作為查詢點(diǎn)核密度估計(jì)的輸入。

由于高斯核的光滑性,使得采用高斯核作為核函數(shù)的密度估計(jì)網(wǎng)格分箱規(guī)則對于偏差沒有顯著影響。因此,采用高斯核作為核函數(shù)K(·)。按照時間順序從數(shù)據(jù)流中采樣的n個獨(dú)立同分布的樣本點(diǎn)V1,V2,…,Vn存儲于在線隊(duì)列,它們分別映射到對應(yīng)的網(wǎng)格的重心點(diǎn),基于聚類中網(wǎng)格重心的d維核密度估計(jì)由以下公式確定:

式中,m是聚類數(shù)量,Sl代表非空網(wǎng)格集合的第l個聚類,代表Sl中第gj個網(wǎng)格的權(quán)值,是第gj個網(wǎng)格的重心點(diǎn)的第k維度值,是第gj個網(wǎng)格在第k維的核帶寬。對第l個聚類,分塊近似聚類使用聚類優(yōu)化核代替其中全部網(wǎng)格重心核的總和其中hl,k是第l個聚類優(yōu)化核第k維帶寬,G亦為高斯核。令使g(X)逼近L2準(zhǔn)則用于評估g(X)和之間的誤差,以使誤差達(dá)到最小,第l個聚類優(yōu)化核的最小誤差上界由以下公式確定:

使用公式化簡上式,得到:

目標(biāo)是求解第l個聚類優(yōu)化核的系數(shù)βl、高斯核寬hl,k和聚類點(diǎn)tl,k的優(yōu)化迭代公式。將βl看作變量,令得出:

將式(2)代入式(1),得出:

令則:

令則:

分塊近似聚類與最近核距離聚類是等價的,即在使用聚類優(yōu)化核代替所有網(wǎng)格重心核時,到某個聚類中心最近的網(wǎng)格重心核就被聚為那一類,與權(quán)重K-means算法思路一致。令網(wǎng)格重心核與聚類優(yōu)化核之間的距離平方由以下公式確定:

通過反復(fù)迭代調(diào)用求取的βl,tl,k和hl,k公式,將網(wǎng)格置于合適的聚類中,縮小網(wǎng)格重心核與聚類優(yōu)化核之間的距離,本地最優(yōu)g(X)對應(yīng)的βl,tl,k和hl,k可以漸次得到,逼近具體步驟由算法1描述:

算法1.M-MMCKDE算法

輸入:權(quán)重K-means得到的聚類集合及全體非空網(wǎng)格的重心核

輸出:聚類優(yōu)化核

令初始核距離誤差ζ=1010。以下步驟11~15,依次遍歷每個聚類核集合。

步驟11,為聚類核參數(shù)賦初值,即

步驟12,根據(jù)式(4)迭代計(jì)算tl,k的值,直到相鄰兩次計(jì)算的絕對值差值小于0.0001。

步驟13,根據(jù)式(5)迭代計(jì)算的值,直到相鄰兩次計(jì)算的絕對值差值小于0.0001。

步驟14,檢查步驟12和步驟13迭代的次數(shù),只要任意1個步驟的迭代次數(shù)超過1次,返回步驟12繼續(xù)執(zhí)行。

步驟15,根據(jù)式(2)計(jì)算βl的值。

步驟16,計(jì)算上述步驟11~15獲得的的聚類誤差。對每個輸入組合根據(jù)式(6)計(jì)算與每個聚類中心點(diǎn)之間的距離。將歸類到距離最近的那一類,并記下誤差令計(jì)算ζnew與ζ絕對值之差,如果大于0.001ζnew,則將ζnew賦值給ζ,返回步驟11。否則結(jié)束,得到最終的聚類優(yōu)化核模型:

網(wǎng)格重心核的帶寬由Scott規(guī)則確定:

其中是第k維Scott核帶寬,σk是在線隊(duì)列n個數(shù)據(jù)樣本第k維的標(biāo)準(zhǔn)差,d為總維數(shù)。

E、離線核密度估計(jì)過程:計(jì)算m個聚類優(yōu)化核對查詢點(diǎn)核密度的累計(jì),得到最終的數(shù)據(jù)流核密度估計(jì)的結(jié)果,由以下公式確定:

式中,X=(x1,…,xd)為單個查詢點(diǎn)。

利用高斯函數(shù)的3σ規(guī)則,在計(jì)算每個聚類優(yōu)化核對查詢點(diǎn)的影響時,只需要計(jì)算核中心tl周圍3倍hl范圍內(nèi)的查詢點(diǎn)即可,大幅減少查詢點(diǎn)密度計(jì)算的負(fù)載。具體步驟由算法2描述:

算法2.KDE算法

輸入:全體查詢點(diǎn)集合。

輸出:全體查詢點(diǎn)密度估計(jì)值。

步驟21,所有查詢點(diǎn)的密度賦初值為0。

步驟22,遍歷m個聚類優(yōu)化核,搜索核中心周圍3倍核帶寬范圍內(nèi)的查詢點(diǎn),累加該核對相應(yīng)查詢點(diǎn)的密度估計(jì),最終得到全體查詢點(diǎn)密度估計(jì)值。

GCOKDE算法融合了網(wǎng)格、聚類和優(yōu)化技術(shù)以增強(qiáng)數(shù)據(jù)流密度估計(jì),圖4展示了整體框架。隨時間抵達(dá)的樣本順序進(jìn)入時間隊(duì)列,該隊(duì)列長度n,先進(jìn)先出。每一時刻隊(duì)列頭和尾中樣本對應(yīng)網(wǎng)格的特征向量將會被刷新。換言之,隊(duì)列尾部存儲最新樣本,對應(yīng)的網(wǎng)格累積相應(yīng)的特征向量。同時,隊(duì)列頭部保存了在下一個時刻即將丟棄的歷史樣本,該樣本的信息會從其對應(yīng)網(wǎng)格的特征向量中清除。在線階段上述處理保證了網(wǎng)格中存有樣本的動態(tài)統(tǒng)計(jì)信息。當(dāng)達(dá)到時間間隔點(diǎn),離線階段處理并發(fā)啟動,相鄰網(wǎng)格間核合并和優(yōu)化操作被觸發(fā)。整體步驟由算法3描述:

算法3.GCOKDE算法

輸入:數(shù)據(jù)流樣本序列V={V1,V2,…,Vi,…},參數(shù)δ,n,gap,ξ。

輸出:所有查詢點(diǎn)的密度。

步驟31,將新抵達(dá)的數(shù)據(jù)Vnew=(vnew,1,vnew,2,…,vnew,d)插入隊(duì)列尾部,并映射到對應(yīng)的網(wǎng)格,更新網(wǎng)格六元組。如果將該網(wǎng)格置入密度網(wǎng)格集合。

步驟32,刪除隊(duì)列頭部數(shù)據(jù),。更新該數(shù)據(jù)對應(yīng)的網(wǎng)格六元組。如果該網(wǎng)格是密度網(wǎng)格并且將其從密度網(wǎng)格集合移除,返回步驟31,等待下一個數(shù)據(jù)到達(dá)時刻。

步驟3,如果離線計(jì)算時間gap到,并發(fā)調(diào)用權(quán)重K-means得到初步的聚類優(yōu)化核,隨后調(diào)用M-MMCKDE得到聚類優(yōu)化核,最后調(diào)用KDE算法得到所有查詢點(diǎn)的密度。

以下為本方案中使用到的一些定義說明:

定義1(簡單分箱規(guī)則):將d維實(shí)數(shù)空間Rd的每個維度進(jìn)行等寬劃分,從而將Rd劃分為若干依次相鄰且互不相交的超方體網(wǎng)格的集合。劃分的依據(jù)為分箱函數(shù)族式中,gj=(j1,…,ji,…,jd)代表網(wǎng)格序號,δ=(δ1,…,δi,…,δd)代表網(wǎng)格寬度,Zd為d維整數(shù)空間。圖1為2維實(shí)數(shù)空間R2的簡單分箱規(guī)則的網(wǎng)格劃分。

定義2(網(wǎng)格特征向量):描述落入網(wǎng)格中數(shù)據(jù)的統(tǒng)計(jì)特征,可以累加計(jì)算。其中α為映射到網(wǎng)格的數(shù)據(jù)權(quán)重,LS是映射到網(wǎng)格的數(shù)據(jù)的線性和,SS是映射到網(wǎng)格的數(shù)據(jù)的平方和。

定義3(網(wǎng)格重心點(diǎn)):指網(wǎng)格中全體數(shù)據(jù)的均值點(diǎn),其中各維度的均值計(jì)算公式為式中,為網(wǎng)格gj第i維數(shù)據(jù)的位置,為網(wǎng)格gj第i維數(shù)據(jù)的線性和,為網(wǎng)格gj的數(shù)據(jù)量權(quán)值。圖2為網(wǎng)格重心點(diǎn)示意圖。

定義4(在線網(wǎng)格維護(hù)時間):指處理每個數(shù)據(jù)流樣本的時間片,與數(shù)據(jù)流到達(dá)的頻率相關(guān)。由數(shù)據(jù)接收、網(wǎng)格映射和標(biāo)記密度網(wǎng)格等時間開銷組成,這些步驟可以在下一個樣本到達(dá)之前的常數(shù)時間內(nèi)結(jié)束。由于該常數(shù)時間非常短,因此與算法的執(zhí)行效率無關(guān)。

定義5(MISE):指均方積分誤差,用作評估估計(jì)質(zhì)量,如下定義:

式中,指ρ密度估計(jì)技術(shù),X1,…XQ是Q個查詢點(diǎn)。

定義6(離線計(jì)算間隔時間gap):兩個相鄰離線計(jì)算間隔點(diǎn)之間的時間片,與算法的執(zhí)行效率有關(guān)。該時間片的最小值必須大于處理一次權(quán)重K-means聚類、核參數(shù)優(yōu)化和查詢點(diǎn)密度估計(jì)等時間開銷之和。

定義7(聚類中心):指聚類中全體網(wǎng)格重心的均值點(diǎn),其中各維度的均值計(jì)算公式為式中,為第l個聚類第i維位置,為隸屬于聚類l的網(wǎng)格gj第i維數(shù)據(jù)的均值,為聚類l的數(shù)據(jù)權(quán)重。圖3為聚類中心示意圖。

定義8(查詢點(diǎn)):指核密度估計(jì)查詢點(diǎn),由人為選取的在Rd空間各維度等間隔排列的坐標(biāo)點(diǎn)構(gòu)成,計(jì)算這些查詢點(diǎn)的核密度估計(jì)值得到實(shí)時數(shù)據(jù)流密度估計(jì)的最終結(jié)果。

定義9(單維標(biāo)準(zhǔn)核密度估計(jì)):對從真實(shí)密度f中采樣的n個獨(dú)立同分布(i.i.d)的樣本點(diǎn)v1,v2,…,vn,帶寬h,核函數(shù)K(·),單維標(biāo)準(zhǔn)核密度估計(jì)公式定義如下:

式中,核函數(shù)K(·)滿足以下條件:

K(s)≥0,K(s)=K(-s),∫K(s)ds=1,∫sK(s)ds=0,∫s2K(s)ds<∞

定義10(d維積核核密度估計(jì)):對從真實(shí)密度f中采樣的n個獨(dú)立同分布(i.i.d)的樣本點(diǎn)V1,V2,…,Vn,帶寬向量h=(h1,…,hd),積核函數(shù)d維積核核密度估計(jì)公式定義如下:

式中,X=(x1…xd)是d維查詢點(diǎn),vi,k是第i個樣本的k維度值,hk是帶寬的k維度正值。

定義11(高斯核):核函數(shù)采用高斯函數(shù),即

定義12(基于聚類中網(wǎng)格重心的d維核密度估計(jì)):從在線數(shù)據(jù)映射得到的網(wǎng)格重心點(diǎn)出發(fā),基于聚類的d維核密度估計(jì)公式為

式中,m是聚類數(shù)量,Sl代表非空網(wǎng)格集合的第l個聚類,代表Sl中第gj個網(wǎng)格的權(quán)值,是第gj個網(wǎng)格在第k維的數(shù)據(jù)均值,是第gj個網(wǎng)格在第k維的核帶寬。

定義13(聚類優(yōu)化核):用經(jīng)過聚類優(yōu)化過程的形如的核代替聚類中全部網(wǎng)格重心核的總和稱為聚類優(yōu)化核。

定理1:令分塊近似聚類核密度估計(jì)函數(shù)基于聚類中網(wǎng)格重心的核密度估計(jì)函數(shù)則兩者間L2準(zhǔn)則的最小誤差上界由以下公式確定:

證明:原始在線隊(duì)列中樣本數(shù)據(jù)量n不影響計(jì)算結(jié)果,不妨令ng(X)代替g(X),代替則L2準(zhǔn)則定義的兩者間最小誤差為

通過使用柯西不等式可得:

上式表明聚類后的總誤差的上界,由每個聚類核誤差上界之和組成,即由于各組成部分的解變量相互獨(dú)立,因此優(yōu)化上界可以轉(zhuǎn)化為優(yōu)化其各組成部分,即

本文中所描述的具體實(shí)施例僅僅是對本發(fā)明精神作舉例說明。本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員可以對所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,但并不會偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。

盡管本文較多地使用了網(wǎng)格、聚類、優(yōu)化等術(shù)語,但并不排除使用其它術(shù)語的可能性。使用這些術(shù)語僅僅是為了更方便地描述和解釋本發(fā)明的本質(zhì);把它們解釋成任何一種附加的限制都是與本發(fā)明精神相違背的。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
府谷县| 东丰县| 六枝特区| 文登市| 乌海市| 瑞丽市| 双江| 英吉沙县| 德安县| 佛冈县| 绍兴市| 玛曲县| 宁明县| 辽源市| 永川市| 四会市| 新野县| 武山县| 禹州市| 乐亭县| 志丹县| 大宁县| 桐柏县| 万山特区| 晋江市| 冷水江市| 岳池县| 云南省| 都昌县| 富锦市| 东平县| 金秀| 新民市| 乌什县| 石狮市| 灵武市| 楚雄市| 永川市| 洱源县| 松江区| 准格尔旗|