欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于嵌入式索引的水文時(shí)間序列相似性搜索方法

文檔序號(hào):9350025閱讀:691來源:國(guó)知局
一種基于嵌入式索引的水文時(shí)間序列相似性搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于嵌入式索引的水文時(shí)間序列相似性搜索方法,屬于數(shù)據(jù)挖掘領(lǐng)域與信息技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]隨著水文時(shí)間序列數(shù)據(jù)的不斷增長(zhǎng),如何快速準(zhǔn)確的從歷史水文數(shù)據(jù)庫(kù)中找出與給定時(shí)間段相似的水文過程是一個(gè)值得深入研究的課題。特別的,在防汛中經(jīng)常需要在歷史洪水序列中快速尋找相似洪峰過程,此時(shí)水文時(shí)間序列相似性分析更具重要的現(xiàn)實(shí)意義。時(shí)間序列的相似性度量是時(shí)間序列數(shù)據(jù)挖掘的基礎(chǔ)問題,主要方法有歐式距離、動(dòng)態(tài)模式匹配、動(dòng)態(tài)時(shí)間彎曲(DTW)距離、斜率距離等。其中動(dòng)態(tài)模式匹配能夠找出相似序列的大體位置,但不能精確度量。歐式距離能夠精確度量但易受噪聲和時(shí)間軸上彎曲度影響,DTff距離則存在著時(shí)間復(fù)雜度過高的缺點(diǎn)。

【發(fā)明內(nèi)容】

[0003]為了盡量提高相似性度量的時(shí)間效率,針對(duì)以上相似性度量存在的問題,本發(fā)明提供一種基于嵌入式索引的水文時(shí)間序列相似性搜索方法,通過嵌入索引把子序列匹配過程轉(zhuǎn)換成歐式向量空間上的最近鄰搜索,提高了搜索的速度。
[0004]為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下:
[0005]—種基于嵌入式索引的水文時(shí)間序列相似性搜索方法,包括以下步驟:
[0006]I)離線準(zhǔn)備階段,具體包括:
[0007]1-1)對(duì)水文時(shí)間序列進(jìn)行洪峰分割,具體是指根據(jù)水文時(shí)間序列的狀態(tài)趨勢(shì)變化關(guān)系尋找洪峰模式的起止時(shí)間點(diǎn),然后采用起止時(shí)間點(diǎn)間的子序列代表洪峰模式,最終完成洪峰模式的提取;
[0008]1-2)串行聚類,具體是指對(duì)于所述步驟1-1)分割得到的洪峰模式子序列集分成多個(gè)組,使組內(nèi)的子序列之間相似性最高而組間差異性大于某一設(shè)定值;
[0009]1-3)生成初始參考序列集;
[0010]1-4)對(duì)參考序列集進(jìn)行訓(xùn)練;
[0011]1-5)對(duì)水文時(shí)間序列進(jìn)行嵌入索引計(jì)算,具體是指把得到的參考序列集對(duì)原始序列進(jìn)行嵌入索引的計(jì)算,通過參考序列把原始序列映射到歐氏向量空間中;
[0012]2)在線搜索階段,具體包括:
[0013]2-1)查詢序列索引,計(jì)算查詢序列與參考序列集中每一個(gè)參考序列的DTW距離,將查詢序列映射到歐式空間向量中;
[0014]2-2)歐式空間搜索,對(duì)于每一個(gè)查詢序列,與嵌入式序列索引空間中的每一個(gè)向量之間進(jìn)行歐氏距離的計(jì)算,取距離最小的前k個(gè)向量作為候選集;
[0015]2-3)后選集生成,根據(jù)得到的候選集,判斷最初始的起始位置,根據(jù)起始位置進(jìn)行匹配并不斷的沿著時(shí)間序列移動(dòng)位置;
[0016]2-4)候選集精煉,在候選集相鄰范圍內(nèi)進(jìn)行原始DTW的匹配;
[0017]2-5)匹配序列生成,根據(jù)匹配結(jié)果,選擇相似性最高的原始序列作為最終的匹配結(jié)果。
[0018]前述的步驟1-1)中洪峰分割包括以下步驟:
[0019]1-1-1)小波平滑去噪,是指對(duì)有噪聲的水文時(shí)間序列進(jìn)行小波平滑去噪處理;
[0020]1-1-2)閾值粗分割,是指首先遍歷水文時(shí)間序列,獲取水文時(shí)間序列中的所有極值點(diǎn);再次遍歷水文時(shí)間序列,尋找第一個(gè)大于水位閾值的極值點(diǎn),將其作為起始點(diǎn),接著尋找下一個(gè)極值點(diǎn),使該極值點(diǎn)剛好小于水位閾值,將該極值點(diǎn)作為終止點(diǎn),以起始點(diǎn)和終止點(diǎn)間的序列作為子時(shí)間序列,對(duì)水文時(shí)間序列進(jìn)行分割,直到遍歷完水文時(shí)間序列;
[0021]1-1-3)洪峰選擇細(xì)分割,是指對(duì)根據(jù)水位閾值粗分割得到的子時(shí)間序列再次進(jìn)行分割,提取子時(shí)間序列中的所有極大值和極小值構(gòu)成極大值序列和極小值序列,從極小值序列中選取第一個(gè)極小值點(diǎn),再?gòu)臉O大值序列中選擇第一個(gè)大于極小值點(diǎn)的極大值,然后從極小值序列中選擇第一個(gè)大于選擇的極大值點(diǎn)的極小值,以兩個(gè)極小值作為分割點(diǎn)對(duì)子時(shí)間序列進(jìn)行分割,直到遍歷完子時(shí)間序列。
[0022]前述的步驟1-2)中串行聚類包括以下步驟:
[0023]1-2-1)選取凝聚點(diǎn),所述凝聚點(diǎn)的選擇包括以下幾種方式:a、按實(shí)際經(jīng)驗(yàn)選擇;
b、將樣本數(shù)據(jù)分為k類,計(jì)算每一類的樣本均值作為該類的凝聚點(diǎn);c、將全部樣本的均值作為第一個(gè)凝聚點(diǎn),然后依次考察,若考察樣本與現(xiàn)有凝聚點(diǎn)距離大于某一閾值則作為新的凝聚點(diǎn);d、選擇密度最大的樣本點(diǎn)作為第一個(gè)凝聚點(diǎn);
[0024]1-2-2)進(jìn)行初始分類,是指樣本按某種準(zhǔn)則向凝聚點(diǎn)聚集,得到初始分類;
[0025]1-2-3)判斷分類是否合理,如果合理,則轉(zhuǎn)入步驟1-2-5),如果不合理,則轉(zhuǎn)入步驟1-2-4);所述判斷分類是否合理的規(guī)則為:評(píng)判簇內(nèi)的子時(shí)間序列相似性和簇間的差異性;
[0026]1-2-4)修改分類,按照某種距離最優(yōu)性規(guī)則逐步修改分類,直到分類合理為止;
[0027]1-2-5)生成最終分類。
[0028]前述的步驟1-3)中,選取最初的所有子時(shí)間序列作為初始參考序列集。
[0029]前述的步驟1-4)中,對(duì)參考序列集進(jìn)行訓(xùn)練包括以下步驟:
[0030]1-4-1)最大方差訓(xùn)練,是指利用序列與剩余序列之間的距離方差來衡量序列之間的差異性,如果距離方差大于某一設(shè)定值,則表明在該參考序列集中,該序列與剩余序列之間的距離不穩(wěn)定,通過最大方差訓(xùn)練從參考序列集中得到具有相同特征的序列;
[0031]1-4-2)最小相關(guān)性訓(xùn)練,是指利用統(tǒng)計(jì)學(xué)的相關(guān)性分析,剔除所述步驟1-4-1)中得到的距離不穩(wěn)定的序列中相關(guān)性過大的序列;
[0032]1-4-3)最大過濾訓(xùn)練,是指利用來自同一時(shí)間序列總體中的查詢序列作為訓(xùn)練序列集,使用無監(jiān)督方法對(duì)參考序列集進(jìn)行逐步判別訓(xùn)練,設(shè)置參考序列集對(duì)訓(xùn)練序列集的誤差作為參考序列集訓(xùn)練結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。
[0033]前述的步驟1-5)對(duì)水文時(shí)間序列進(jìn)行嵌入索引計(jì)算包括以下步驟:
[0034]1-5-1)初始化索引位置,是指采用滑動(dòng)窗口的形式構(gòu)建索引,將原始序列映射到歐式向量空間中,確定原始序列的長(zhǎng)度并初始化索引的起始位置;
[0035]1-5-2)判斷是否對(duì)原始序列都建立索引,如果原始序列對(duì)于所有參考序列集都建立索引并達(dá)到了原始序列的末尾,則索引結(jié)束;如果原始序列并沒有都建立索引,則窗口向后移動(dòng);
[0036]1-5-3)判斷對(duì)于所有參考序列是否都建立索引,是指判斷是否所有的參考序列都對(duì)于原始序列建立了索引,如果所有的參考序列都對(duì)于原始序列建立了索引,則轉(zhuǎn)到步驟1-5-2),否則選擇下一個(gè)參考序列并計(jì)算索引;
[0037]1-5-4)計(jì)算參考序列集與原始時(shí)間序列的DTW距離,是指對(duì)于每一個(gè)參考序列集,計(jì)算其與原始序列滑動(dòng)窗口的DTW距離;
[0038]1-5-5)存儲(chǔ)索引向量并存儲(chǔ)索引向量對(duì)應(yīng)的DTW距離,是指將索引向量以及索引向量對(duì)應(yīng)的DTW距離存儲(chǔ)到歐式向量空間中,在線搜索則搜索此歐式向量空間。
[0039]前述的步驟2-1)中,查詢序列索引計(jì)算公式如式(I)所示:
[0040]F (Q) = (D (R1, Q),D (R2, Q),...,D (Rd, Q))⑴
[0041]其中,Q為查詢序列,R1, R2,……,Rd為參考序列集中的參考序列,D(R11Q)表示參考序列集中的參考序列R1和查詢序列Q的DTW距離,i = 1,2,……,d,F(xiàn)(Q)為查詢序列計(jì)算得到的索引。
[0042]有益效果:
[0043]與現(xiàn)有技術(shù)相比,本發(fā)明所提供的快速水文時(shí)間序列相似性搜索方法,在引入時(shí)間序列嵌入索引的基礎(chǔ)上,結(jié)合水文時(shí)間序列的特點(diǎn)提出水文時(shí)間序列的快速搜索方法,該方法通過序列分割、聚類和參考集訓(xùn)練從原始序列中獲取參考序列集,在此基礎(chǔ)上通過索引計(jì)算方法,將相似性搜索過程映射到歐氏向量空間的搜索,從而提高了搜索效率。本發(fā)明還研究了符合水文時(shí)間序列特征的參考序列的選擇方法和歐式索引向量空間的優(yōu)化方法,提高了嵌入式索引搜索的有效性,能夠滿足防洪調(diào)度中快速洪水過程相似搜索的要求。
【附圖說明】
[0044]圖1為本發(fā)明的水文時(shí)間序列嵌入式索引搜索流程圖;
[0045]圖2為本發(fā)明實(shí)施例的時(shí)間序列洪峰分割流程圖;
[0046]圖3為本發(fā)明實(shí)施例的動(dòng)態(tài)聚類流程圖;
[0047]圖4為本發(fā)明實(shí)施例的參考序列集訓(xùn)練流程圖;
[0048]圖5為本發(fā)明實(shí)施例的嵌入式索引生成流程圖。
【具體實(shí)施方式】
[0049]現(xiàn)結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。
[0050]本發(fā)明將動(dòng)態(tài)時(shí)間彎曲距離應(yīng)用于水文時(shí)間序列的相似性搜索中,結(jié)合海量數(shù)據(jù)和動(dòng)態(tài)擴(kuò)展的實(shí)際需求,提出了基于嵌入式索引的快速水文
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
治多县| 寿宁县| 崇州市| 五莲县| 南昌市| 西平县| 盈江县| 蒲城县| 白山市| 江源县| 通辽市| 古丈县| 余干县| 广昌县| 开阳县| 萝北县| 利辛县| 哈尔滨市| 大冶市| 紫阳县| 松江区| 娄烦县| 略阳县| 南京市| 江西省| 象山县| 南川市| 乌苏市| 喀喇沁旗| 平南县| 郧西县| 晋江市| 福安市| 宿州市| 中西区| 华坪县| 新巴尔虎左旗| 翁源县| 雷山县| 永胜县| 长宁县|