欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多度量時間序列相似分析方法

文檔序號:6516557閱讀:280來源:國知局
一種多度量時間序列相似分析方法
【專利摘要】本發(fā)明公開一種多度量時間序列相似分析方法,適用于時間序列的k-近鄰查詢。根據(jù)分析需求選擇多個單一相似度量方法,分別利用各單一相似度量分析查詢序列的m-近鄰序列或子序列;對各相似度量下的m-近鄰序列或子序列進行修剪,得到候選相似序列或子序列;利用帶優(yōu)勢權(quán)重的多分類器組合法對候選相似序列或子序列進行組合得到查詢序列的k-近鄰序列。相對于單一相似度量,多度量組合的相似分析能夠得到更加全面的分析結(jié)果。帶優(yōu)勢權(quán)重的多分類器組合法在借鑒BORDA計數(shù)法的同時,利用相鄰候選相似序列或子序列與查詢序列的相似距離的差異對排序得分進行調(diào)整,以反映候選相似序列或子序列相似的具體差異。
【專利說明】一種多度量時間序列相似分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種多度量時間序列相似分析方法,尤其是能夠進行多度量組合的k-近鄰相似時間序列分析的方法,屬于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]時間序列相似性查找就是在時間序列數(shù)據(jù)庫中查找和發(fā)現(xiàn)與給定模式相似的時間序列,查找相似子序列的過程在實際問題中經(jīng)常遇到,例如,在人類的基因組計劃中,從DNA基因序列中查找出與給定的基因片段相似的子片段,根據(jù)遺傳的相似性進行研究;根據(jù)各種商品的銷售記錄,找出具有相似的商品銷售模式,根據(jù)相似產(chǎn)品的銷售模式來制定相似的銷售策略等;找出自然災(zāi)害發(fā)生的相同前兆,從而對預(yù)報自然災(zāi)害進行決策研究;在水文領(lǐng)域,找出與當前洪水過程相似的歷史洪水過程,回答防汛指揮中經(jīng)常會想到的“當前水文過程與歷史上哪一時期的水文過程類似”等問題。
[0003]相似性搜索在1993年由R.Agrawal首次提出,他是時間序列預(yù)測、分類、聚類以及序列模式挖掘等等的重要基礎(chǔ)。時間序列相似性查找與傳統(tǒng)的精確查詢不同,由于時間序列在數(shù)值上具有連續(xù)性以及有不同的噪聲影響,因此,大部分情況下不需要時間序列很精確匹配。另一方面是時間序列相似性查詢不是針對時間序列中的某個具體的數(shù)值,而根據(jù)給定的查詢序列來找查找是在一段時間內(nèi)具有相似形態(tài)特征和變化趨勢的時間序列。在時間序列相似性搜索中,需解決的問題包括時間序列特征提取、時間序列索引以及相似度量等。針對相似度量,研究人員提出了各種度量方法,如歐氏距離及其基于Lp準則的變種、動態(tài)時間彎曲距離(Dynamic Time Warping, DTW)、編輯距離(Edit Distance, ED)、模式距離(Pattern Distance, PD)、以及最長公共子串(Longest Common Subsequence, LCSS)等。
[0004]目前時間序列相似性搜索大多采用單一相似度量來評價序列之間的相似性,每個相似度量只從某個角度評價序列之間的相似程度,如,模式距離、斜率距離等從序列形態(tài)角度考慮相似,歐式距離則從序列取值的實際大小考慮相似,動態(tài)時間彎曲DTW可以忽略序列在時間上的扭曲。在實際使用時發(fā)現(xiàn),往往運用單一的相似度量模型,不能同時從多個角度對時間序列相似性進行多角度評價,反饋的結(jié)果往往不準確,不能滿足用戶對時間序列相似性的綜合評價。模式識別與機器學(xué)習(xí)研究領(lǐng)域,有一個很重要的問題就是多分類器的組合問題,目前眾多的研究表明,多分類器組合能獲得比單個基分類器更好的效果,多個分類器組合在一起的決策結(jié)果,往往比單個分類器給出決策結(jié)果更有說服力,它可以集中各個基分類器的優(yōu)點,從而更好的引導(dǎo)我們的進行決策。在時間序列相似性分析研究領(lǐng)域,多度量組合進行相似性分析目前文獻較少。Fabris F提出一種基于權(quán)重的多度量時間序列相似性分析[Fabris F,Drago I, Varejao F M.A mult1-measure nearest neighboralgorithm for time series classification.Advances in Artificial Intelligence -1BERAMIA2008.Springer Berlin Heidelberg, 2008:153-162.],采用啟發(fā)式搜索確定各度量的權(quán)重,相似距離為各度量距離的加權(quán)和,該方法需要花費大量時間尋求最優(yōu)的權(quán)重向量,同時需要預(yù)先確定訓(xùn)練集。本發(fā)明借鑒BORDA計數(shù)法并對其進行改進,提出帶優(yōu)勢權(quán)重的多分類器組合法,然后對多相似度量產(chǎn)生的候選相似序列(子序列)進行組合排序,以獲取最終的相似序列(子序列)。

【發(fā)明內(nèi)容】

[0005]發(fā)明目的:本發(fā)明提供一種多度量時間序列相似性分析方法,提高時間序列相似性分析的效率。
[0006]為了實現(xiàn)上述目的,本發(fā)明借鑒BORDA計數(shù)法并對其進行改進,提出帶優(yōu)勢權(quán)重的多分類器組合法以適應(yīng)對各單一相似度量的相似序列(子序列)進行組合排序的需求,并在此基礎(chǔ)上提供了一種多度量時間序列k-近鄰分析方法。時間序列相似性分析從被查詢的對象來分可以包括全序列查詢(Whole Match)和子序列查詢(Subsequence Match)。全序列查詢,即待查時間序列中包括多個等長或不等長的時間序列,指定查詢序列,從待查序列中查找與查詢序列相似的序列。子序列查詢,即從一個長的待查時間序列中查找與指定查詢序列相似的子序列,結(jié)果包括各相似子序列在待查序列中的偏移位置。本發(fā)明的多度量時間序列相似性分析方法適用于全序列和子序列的k-近鄰查詢。
[0007]技術(shù)方案:一種多度量時間序列相似分析方法,包括以下步驟:
[0008]借鑒并改進BORDA計數(shù)法,提出帶優(yōu)勢權(quán)重的多分類器組合法,在對多個單一相似度量產(chǎn)生的候選相似序列(子序列)進行組合時,采用各候選相似序列(子序列)之間的定量差距對其排序得分進行加權(quán),從而在排序得分中體現(xiàn)不同候選相似序列(子序列)的具體差距,候選相似序列(子序列)排序得分的累計稱為該候選相似序列(子序列)的相似得分,對候選相似序列(子序列)按照相似得分從高到低排序,得到候選相似序列(子序列)的最終排序;根據(jù)具體相似性分析需求(如,形態(tài)相似、時間方向可扭曲等)從已有的時間序列相似性度量中選擇多種單一相似度量作為基分類器;利用選擇的相似度量方法對待查時間序列進行相似性分析,得到m-近鄰序列(子序列),m的取值要略大于最終的k ;由于各單一相似度量產(chǎn)生的相似序列(子序列)一般不具有相同起始時間,因此對相似序列(子序列)進行修剪,將各單一相似度量產(chǎn)生的相似序列(子序列)中在時間上重疊超過序列長度一半的序列進行對齊,刪除出現(xiàn)次數(shù)少于相似度量數(shù)一半的時間段內(nèi)的相似序列(子序列),得到候選相似序列(子序列),包括序列分組預(yù)處理、對齊重疊序列、刪除孤立序列以序列重新排序;利用帶優(yōu)勢權(quán)重的多分類器組合法對候選相似序列(子序列)進行組合排序,按照候選相似序列(子序列)的相似得分從高到低排序,取排名前k個序列,得到最終的k-近鄰序列(子序列)。
[0009]有益效果:與傳統(tǒng)的單一相似度量相比,本發(fā)明可以同時考慮多方面的相似性因素,使得相似結(jié)果能夠反映用戶對結(jié)果的綜合評價;本發(fā)明與Fabris.F的方法相比,能夠在沒有訓(xùn)練數(shù)據(jù)集的情況下對多度量結(jié)果進行組合;本發(fā)明與傳統(tǒng)BORDA計數(shù)法相比,傳統(tǒng)BORDA計數(shù)法對候選人的排序得分為第一名得η分,第二名得η_1分,依次降低,最后一名得I分。排序得分沒有反映排名前后的候選相似序列(子序列)之間的具體差距大小,造成某些情況下不能很好的對候選相似序列(子序列)進行排序。帶優(yōu)勢權(quán)重的多分類器組合法根據(jù)各單一相似度量產(chǎn)生的候選相似序列(子序列)與查詢序列之間的相似距離對候選序列(子序列)的排序得分進行加權(quán),使得排名先后的序列之間的排序得分能夠更加具體的反映其與查詢序列之間的相似差距,得到的相似序列(子序列)的最終更加精確?!緦@綀D】

【附圖說明】
[0010]圖1為本發(fā)明實施例的多度量時間序列相似性分析方法模型圖;
[0011]圖2為本發(fā)明實施例的多度量時間序列相似性分析方法相似查詢的流程圖;
[0012]圖3為本發(fā)明實施例的多度量時間序列相似性分析方法的用于k_近鄰子序列查詢的相似子序列修剪示意圖;
[0013]圖4為本發(fā)明實施例的多度量時間序列相似性分析方法的用于k_近鄰全序列查詢的相似序列修剪示意圖;
[0014]圖5為實驗的單洪峰洪水過程相似查詢結(jié)果圖,其中(a)歐式距離相似子序列和查詢序列的比較,(b) DTff距離相似子序列和查詢序列的比較,(c)斜率距離相似子序列和查詢序列的比較,Cd)帶優(yōu)勢權(quán)重的多分類器組合法的多度量相似子序列和查詢序列的比較,(e) BORDA計數(shù)法的多度量相似子序列和查詢序列的比較;
[0015]圖6為實驗的雙洪峰洪水過程相似查詢結(jié)果圖,其中(a)歐式距離相似子序列和查詢序列的比較,(b) DTff距離相似子序列和查詢序列的比較,(c)斜率距離相似子序列和查詢序列的比較,Cd)帶優(yōu)勢權(quán)重的多分類器組合法的多度量相似子序列和查詢序列的比較,(e) BORDA計數(shù)法的多度量相似子序列和查詢序列的比較。
【具體實施方式】
[0016]下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0017]本發(fā)明針對k_近鄰搜索問題,即查詢與指定序列最相似的前k個序列(子序列)。從分類角度來看,k-近鄰相似搜索可以視為采用相似度量將時間序列劃分為第I相似序列
(子序列)、第2相似序列(子序列).....第k相似序列(子序列)以及不相似序列(子序列)。
采用多個單一相似度量進行相似搜索相當于采用多個分類器對時間序列進行分類。目前眾多的研究表明,多分類器組合能獲得比單個基分類器更好的效果,多個分類器組合在一起的決策結(jié)果,往往比單個分類器給出決策結(jié)果更有說服力,它可以集中各個基分類器的優(yōu)點。
[0018]如圖1所不的多度量時間序列分析方法模型圖中,利用多個相似度量分別對時間序列進行相似查詢,然后采用帶優(yōu)勢權(quán)重的多分類器組合法對各相似度量的查詢結(jié)果進行組合得到最終的相似時間序列。模型共包含三個部分,第一個部分是待查時間序列和查詢時間序列的輸入,以及選擇參與組合的多個單一相似度量;第二個部分是分別采用不同的單一相似度量算法(相當于基分類器)對輸入時間序列進行相似性分析,獲得查詢序列的m-近鄰相似序列(子序列);第三部分對第二部分輸出的相似序列(子序列)進行修剪,產(chǎn)生候選相似序列(子序列),運用帶優(yōu)勢權(quán)重的多分類器組合方法對候選相似序列(子序列)進行組合排序,選擇排序前k的序列(子序列),得到最終的k-近鄰序列(子序列)。
[0019]作為基分類器的各單一相似度量是根據(jù)分析的需求(如,形態(tài)相似、時間方向可扭曲等)從已有的相似度量中由用戶選擇。采用單一相似度量進行時間序列相似性分析的步驟為:根據(jù)相似度量的要求,提取時間序列特征,建立時間序列索引,結(jié)合相似度量,分析查詢序列的m-近鄰序列(子序列),m取值要大于k,以保證在對m-近鄰時間序列進行修剪時,能夠得到大于k個的候選相似序列(子序列)。
[0020]由于各單一相似度量產(chǎn)生的相似序列(子序列)一般不具有相同起始時間,因此要對單一相似度量產(chǎn)生的相似序列(子序列)進行修剪。將各單一相似度量的m-近鄰序列(子序列)中時間上重疊超過序列長度一半的相似序列(子序列)進行對齊,刪除出現(xiàn)次數(shù)少于相似度量數(shù)一半的時間段內(nèi)的相似序列(子序列),以得到候選相似序列(子序列),具體步驟包括:序列分組預(yù)處理、對齊重疊序列、刪除孤立序列以序列重新排序,假設(shè)參與組合的單一相似度量個數(shù)為d,相似序列(子序列)的長度為I。①序列分組預(yù)處理:對所有相似序列(子序列)進行分組,滿足一組序列中,對于任意一個序列(子序列),都能夠在組內(nèi)找到至少一個和它時間上重疊超過序列長度一半的序列(子序列),而在其他組中找不到與其時間上重疊超過序列長度一半的序列(子序列)。若某相似序列(子序列)不和其他任何序列(子序列)存在時間上重疊超過序列長度一半的情況,則將該相似序列單獨作為一組對待。②對齊重疊序列,對①中產(chǎn)生的序列組,若組中序列個數(shù)超過相似度量個數(shù)d的一半(即有超過一半的單一相似度量認為該段序列與查詢序列相似),則對該組序列進行對齊。在子序列查詢和全序列查詢中,對齊操作有所不同,在子序列查詢中,對齊方法為:計算該組所有序列起始時間的平均時間t,在待查時間序列以t作為起始時間,截取長度為I的子序列,得到候選相似子序列。在全序列相似分析中,各單一相似度量產(chǎn)生的相似序列之間重疊的情況只有完全重疊和不重疊兩種。從各單一相似度量角度看,設(shè)定候選相似序列(子序列)與被對齊的相似序列(子序列)具有和查詢序列相同的相似距離。在對齊重疊相似序列(子序列)時,若一組重疊的相似子序列個數(shù)多于相似度量個數(shù)一半,但是少于相似度量個數(shù),則對齊得到的候選相似序列(子序列)也增加為剩余單一相似度量的相似序列(子序列),并利用單一相似度量計算其與查詢序列的相似距離。③刪除孤立序列:對①中產(chǎn)生的序列組,若組中序列個數(shù)少于相似度量個數(shù)一半,則刪除該組內(nèi)所有相似序列(子序列),在后繼的排序中不再考慮。④序列重新排序:針對各單一相似度量,由于存在新增相似子序列以及刪除了孤立的相似子序列,因此,對每個單一相似度量,對候選相似序列(子序列)重新排序。
[0021]帶優(yōu)勢權(quán)重的多分類器組合法借鑒傳統(tǒng)的投票表決法BORDA計數(shù)法,同時針對BORDA計數(shù)法存在的問題,對其進行改進,計算簡單,更重要的優(yōu)點是不需要訓(xùn)練集合。根據(jù)傳統(tǒng)BORDA計數(shù)法,假設(shè)k為最終的相似序列(子序列)數(shù),m為候選相似序列(子序列),η個相似度量都通過相似程度由高到低的順序?qū)θw候選相似序列(子序列)進行排序來表示他的偏好。針對每個相似度量的排序,給每個候選相似序列(子序列)設(shè)定一個排序得分,規(guī)定排在最后的候選相似序列(子序列)的排序得分為I分,倒數(shù)第2位的候選相似序列(子序列)為2分,依次類推,排在第I位為m分,候選相似序列(子序列)的排序得分的累積稱為相似得分,相似得分進入前k名的候選相似序列(子序列)為k-近鄰序列。但是傳統(tǒng)的排序得分設(shè)置只是考慮所有候選相似序列(子序列)的排序信息,沒有考慮候選相似序列(子序列)之間的具體相似程度的差異,這樣,在各單一相似度量對候選相似序列(子序列)的排序差異較大時,可能造成不能準確的反映候選相似序列(子序列)之間的相似程度差異。因此需要考慮候選相似序列(子序列)排序的完備信息,即對候選相似子序列的排序包括:前后順序以及前后候選相似子序列與查詢序列之間相似程度的差異大小。
[0022]本發(fā)明中的帶優(yōu)勢權(quán)重的多分類器組合法通過在組合過程中給每個單一相似度量(基分類器)的查詢結(jié)果賦給相應(yīng)的權(quán)重,稱為優(yōu)勢權(quán)重,記作ω,來調(diào)節(jié)其排序得分,以反映排序前后的候選相似序列(子序列)相似程度的差異。
[0023]優(yōu)勢權(quán)重反映的是在基分類器中相鄰的兩個候選相似序列(子序列)在相似度排序時的差距。假設(shè)已知一個查詢序列Q,運用某種相似度量(例如歐氏距離度量、DTW、斜率距離等)得到前m個相似的時間序列,編號為Si(i=l,2,...,m),每個相似序列與查詢序列的相似距離記作為(IiQ=I, 2,...,m),即,當i>j (i=l, 2,..., m)時,滿足(IiMj,也即是(IiQ=I, 2,...,η)具有單調(diào)性,記Λ φ=φ+1-φ>0(?=1, 2,...,m-1),當Λ (Ii 越大時,反映的物理意義就是相似序列(子序列)Si+1和Si相對于同一個查詢序列Q,相似性差別越大,反之差別越小。優(yōu)勢權(quán)重,記作為ω,其通過公式(2)計算。

[0024]<af =AdiI^Adl(2)


i=l
[0025]其中< 表示第k個相似度量中相似序列(子序列)Si相對于Si+1的相似優(yōu)勢權(quán)重。
第k個相似度量查詢結(jié)果中,第i個相似序列(子序列)Si帶優(yōu)勢權(quán)重的排序得分由公式(3)表不:
? =?ι-1(3)
[0026]\ '
(麗一I = 1s2**-5w-1
[0027]候選相似序列(子序列)的相似得分為該候選相似序列(子序列)在所有相似度量中的排序得分總和。即,假設(shè)某時間序列出現(xiàn)在m個相似度量的候選相似序列(子序列)中,且在每個相似度量中的排序得分分別為r2,…,rm,那么該相似序列(子序列)的相似得分
m
為Σο。根據(jù)相似得分排名,最終相似得分最高的那個時間序列(子序列)即為與查詢序列
/-1
最相似的序列。
[0028]特別的,在第k個相似度量的候選相似時間序列中,當Λ Cl1= Δ d2=...= Λ CU時,即CO1=CO2=GV1=IAm-1)時,此時排序第i個候選相似序列(子序列)排序得分為:
[0029]rf = if, — (In — I )ω, =//,-1(4)
[0030]即是傳統(tǒng)的BORDA計數(shù)法,由此可以看出傳統(tǒng)的BORDA記分法是帶優(yōu)勢權(quán)重的多分類器組合法當優(yōu)勢權(quán)重取值Oi = I/(m-1) (i = I, 2...,m-1)時的特殊情況。
[0031]如圖2所示,為本發(fā)明的多度量時間序列相似性分析方法的流程圖。各步驟處理如下:
[0032]步驟101:待查時間序列為被查詢的時間序列,子序列查詢中的待查時間序列一般是具有較長持續(xù)時間的序列。
[0033]步驟102:從已有相似度量中選擇多個單一相似度量。在選擇單一相似度量時,需要考慮從多個角度評價序列的相似,如形態(tài)相似,時間軸可偏移等。
[0034]步驟103:查詢時間序列可以是從待查時間序列中提取,也可以是新的時間序列。
[0035]步驟104:根據(jù)選擇的各單一相似度量的分析要求,對待查時間序列和查詢時間序列提取時間序列的特征,建立索引。
[0036]步驟105:利用選擇的各單一相似度量進行相似性分析,產(chǎn)生各單一相似度量的m-近鄰序列;
[0037]步驟106:判斷是否還有相似度量沒有進行相似性分析,如果“是”,則繼續(xù)步驟105利用下一個相似度量進行相似性分析,否則,進入步驟107。
[0038]步驟107:根據(jù)各單一相似度量的m-近鄰序列之間時間上的重疊情況對相似序列(子序列)進行修剪,具體包括序列分組預(yù)處理、對齊重疊序列、刪除孤立序列和排序候選相似序列。本例以子序列查詢介紹修剪過程,全序列查詢的修建過程后面介紹。例中每個單一相似度量的分別進行3-近鄰的查找,結(jié)果如圖3所示,第I個相似度量的相似子序列分別為S11 Ct11至tn+l之間的子序列)、S12 Ct12至t12+l之間的子序列)和S13 Ct13至t13+l之間的子序列),注意,這里只是按照各單一相似度量的相似子序列時間上的順序標出,并不表示它們與查詢序列相似程度順序,同理,第2個相似度量的相似子序列分別為S21 Ct21至t21+l之間的子序列)、S22 Ct22至t22+l之間的子序列)和S23 Ct23至t23+l之間的子序列),第3個相似度量的相似子序列分別為S31 Ct31至t31+l之間的子序列)、S32 Ct32至t32+l之間的子序列)和s33 Ct33至t33+l之間的子序列)。
[0039]( I)序列分組預(yù)處理
[0040]對所有的相似子序列進行分組,滿足,組內(nèi)任意一個序列都可以在本組中找到至少一個序列與之時間重疊超過序列長度一半。針對圖3中相似序列,預(yù)處理后,分5組,結(jié)果如下:①S11, S21, S31O S11和S21重疊超過一半,S21和S31重疊超過一半,②S32,③S12, S22,
④ S13,S33,⑤ S23。
[0041](2)對齊重疊序列
[0042]①、③、④三組內(nèi)的序列個數(shù)都超過相似度量個數(shù)3的一半,因此需要分別進行對齊。針對組①的對齊,取tn,t21,t31三個時間的平均時間U,待查序列中起始時間U,長度為I的子序列為候選相似子序列Sca (開始時間為td,長度I)。針對各單一相似度量,Scl與查詢序列的距離采用對應(yīng)相似度量中被對齊序列與查詢序列的距離。即,從第I個相似度量角度來看,Scl與查詢序列的距離采用S11與查詢序列的距離,從第2個相似度量角度來看,Sel與查詢序列的距離采用S21與查詢序列的距離,從第3個相似度量角度來看,Sel與查詢序列的距離采用S31與查詢序列的距離。針對組③的對齊,計算t12,t222個時間的平均時間億2,待查時間序列中起始時間te2,長度為I的子序列為候選相似子序列8。2(開始時間為tcl,長度I)。但是沒有出現(xiàn)在第3個相似度量的相似子序列中,因此,需要重新采用第3個相似度量函數(shù)重新計算8。2與查詢序列的距離,并參與后面的排序。針對組④的對齊與組③過程類似。
[0043](3)刪除孤立序列
[0044]②、⑤2組內(nèi)的序列個數(shù)都少于單一相似度量個數(shù)3的一半,因此刪除不考慮。
[0045](4)排序候選相似序列
[0046]針對各單一相似度量,重新對候選相似序列進行排序。例中經(jīng)過以上3個步驟的處理,得到起始時間分別為tel,tc2, tc3長度為I的三個候選相似子序列Sel、Sc2和se3,但是sc2, Sc3作為某些單一相似度量的新相似序列出現(xiàn),因此,需要重新計算它們與查詢序列的相似距離,然后站在各單一相似度量的角度,對各候選相似序列分別排序。
[0047]步驟108:利用帶優(yōu)勢權(quán)重的多分類器組合法對候選相似子序列進行組合排序,計算最終相似得分。[0048]步驟109:按照最終相似得分高低對所有最終候選相似子序列排序。[0049]步驟110:取排名前k個候選相似子序列為查詢序列的k_近鄰相似序列。[0050]本發(fā)明針對全序列查詢的處理流程和子序列查詢的處理流程相同,但是部分處理細節(jié)與子序列查詢不同,區(qū)別在步驟107 “相似序列(子序列)修剪”,全序列相似性查找的“相似序列(子序列)修剪”具體如下:[0051]在全序列相似性查找時,所有單一相似度量的相似序列在時間上的重疊關(guān)系包括完全重疊和不重疊兩種,因此重疊序列的對齊相對容易處理。圖4為某查詢序列經(jīng)過各單一相似度量進行相似查詢得到的結(jié)果,包括3個單一相似度量,每個單一相似度量分析查詢得到5-近鄰序列。各單一相似度量的相似序列出現(xiàn)在待查序列^ t1;…,t6中(本文以序列的起時時間標識該序列)。即第I個相似度量下,查詢序列的5-近鄰包括V t1; t3, t4, t5,第2相似度量下,查詢序列的5-近鄰包括^ t2, t4, t5, t6。第3個相似度量下,查詢序列的5-近鄰包括U t2, t3, t4, t5。圖中給出的順序不代表各單一相似度量5個相似序列的相似程度順序。如,有可能第I個相似度量的前5個相似序列按照與查詢序列的相似程度排名為 ti,?4,^3) ^5°[0052](1)序列分組預(yù)處理[0053]對所有的相似序列進行分組,所有相似序列在時間上的重疊關(guān)系只有完全重疊和不重疊兩種,因此最終分為V t1;…,t6組。[0054](2)對齊重疊序列[0055]全序列查詢中,同一組的所有時間序列具有相同的起始時,因此不需要對齊處理,但是h需要新增加為第2個相似度量的相似序列,h新增加為第3個相似度量的相似序列,t2新增加為第I個相似度量的相似序列,t3增加為第2個相似度量的相似序列。[0056](3)刪除孤立序列[0057]t6只在一個相似度量的相似序列中,少于相似度量數(shù)的一半,因此t6將被刪除。[0058](4)排序候選相似序列[0059]經(jīng)過(1)、(2)、(3)步驟處理得到候選相似序列td, t1; t2, t3, t4, t5,針對各單一相似度量,重新計算新加入的相似序列與查詢序列的相似距離,并對該相似度量的候選相似序列排序。[0060]下面基于實驗說明本發(fā)明的多度量時間序列相似性分析方法的效果。取某大型水閘的1998年6月I日到2009年7月12日期間每年6月I日到9月30日記錄的流量數(shù)據(jù),每天有2:00、8:00、14:00、20:004個監(jiān)測時間點,選擇歐式距離、斜率距離以及DTW距離作為參與組合的相似度量,基于特征點提取洪水時間序列的特征,分別選取“單洪峰倒V型”和“雙洪峰M型”兩種形態(tài)的洪水過程作為查詢序列,查詢序列為待查序列的子序列,采用滑動窗口子序列匹配方法進行相似查詢,利用傳統(tǒng)BORDA計數(shù)法和帶優(yōu)勢權(quán)重的多分類器組合法分別進行多度量組合。[0061] (1) “單洪峰倒V型”洪水過程相似性分析[0062]選取2000.7.312:00-2000.8.2920:00期間的“單洪峰倒V型”洪水過程時間序列作為查詢序列進行相似性分析,各相似度量以及多度量組合的結(jié)果見表1,圖4給出了相似子序列和查詢序列的比較。[0063]表1單洪峰洪水過程相似性子序列
【權(quán)利要求】
1.一種多度量時間序列相似性分析方法,適用于時間序列的k-近鄰查詢,其特征在于,所述方法包括以下步驟: 根據(jù)分析需求選擇多種單一相似度量作為基分類器; 對待查詢時間序列按照所選擇的單一相似度量的需要提取特征,建立索引; 利用各單一相似度量對待查序列進行相似性分析,得到查詢序列的m-近鄰時間序列; 對各單一相似度量下的m-近鄰時間序列進行修剪,得到候選相似序列或子序列; 利用帶優(yōu)勢權(quán)重的多分類器組合法對候選相似序列或子序列進行組合得到最終的k-近鄰時間序列。
2.根據(jù)權(quán)利要求1所述的多度量時間序列相似性分析方法,其特征在于,作為基分類器的各單一相似度量是根據(jù)分析的需求從已有的相似度量中由用戶選擇;各單一相似度量都將待查序列分為第I相似序列、第2相似序列、…、第m相似序列以及不相似序列這樣的m+1 類。
3.根據(jù)權(quán)利要求1所述的多度量時間序列相似性分析方法,其特征在于,每個單一相似度量的分析步驟具體為:提取時間序列特征,建立時間序列索引,運用時間序列相似性搜索方法,結(jié)合相似度量,檢索m-近鄰時間序列,m取值略大于k。
4.根據(jù)權(quán)利要求1所述的多度量時間序列相似性分析方法,其特征在于,對各單一相似度量下的m-近鄰序列進行修剪的步驟具體為:將各單一相似度量的m-近鄰序列按照時間順序排列,對各單一相似度量的相似序列之間交叉超過序列長度一半的序列進行修剪,修剪方法為,選擇新的時間序列代替交叉的序列,新序列的起點為交叉序列的起點時間的均值;若某單一相似度量的m-近鄰序列中未出現(xiàn)該新序列,則增加該序列作為相似序列,并利用相似度量重新計算與查詢序列之間的相似距離;刪除在所有的單一相似度量的m-近鄰序列中出現(xiàn)次數(shù)少于度量數(shù)一半的相似序列。
5.根據(jù)權(quán)利要求1所述的多度量時間序列相似性分析方法,其特征在于,利用帶優(yōu)勢權(quán)重的多分類器組合法對候選相似序列或子序列進行組合的具體步驟為:首先針對各單一相似度量,利用帶優(yōu)勢權(quán)重的組合法計算其產(chǎn)生的相似序列或子序列中各序列的排序得分,累計每個候選相似序列或子序列的排序得分,得到各候選相似序列或子序列的相似得分,對所有候選相似序列或子序列按照相似得分從高到底進行排序,排名前k的候選相似序列或子序列為查詢序列的k-近鄰序列。
6.根據(jù)權(quán)利要求1所述的多度量時間序列相似性分析方法,其特征在于,帶優(yōu)勢權(quán)重的多分類器組合法借鑒BORDA計數(shù)法并對其進行了改進,具體改進為:根據(jù)候選相似序列或子序列與查詢序列的相似距離對相似序列或子序列的排序得分進行加權(quán),使得排序前后的相似序列或子序列之間的排序得分能夠反映其與查詢序列之間的相似性差距程度,累計候選相似序列或子序列的排序得分,得到該序列的相似得分。
7.根據(jù)權(quán)利要求6所述的帶優(yōu)勢權(quán)重的多分類器組合法,其特征在于:針對各單一相似度量,首先將該相似度量的候選相似序列或子序列按照相似距離從低到高排列(即相似程度高低排序),排在第一位的排序得分為m分,排在最后一位的排序得分為I分;排在第i位的排序得分為
【文檔編號】G06F17/30GK103577562SQ201310508432
【公開日】2014年2月12日 申請日期:2013年10月24日 優(yōu)先權(quán)日:2013年10月24日
【發(fā)明者】王繼民, 朱躍龍, 李士進, 萬定生, 馮鈞 申請人:河海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
吴旗县| 湖州市| 儋州市| 黄梅县| 昭通市| 郯城县| 南投县| 二手房| 松阳县| 报价| 兴义市| 星子县| 卢龙县| 武威市| 湖南省| 绍兴县| 尤溪县| 从化市| 高阳县| 武平县| 曲水县| 高清| 天镇县| 阳城县| 勐海县| 兴业县| 忻州市| 曲水县| 兴安盟| 乐昌市| 称多县| 辰溪县| 池州市| 江都市| 伊宁市| 巴里| 乌苏市| 乌拉特后旗| 玉田县| 成都市| 齐齐哈尔市|