專(zhuān)利名稱(chēng):未知多維數(shù)據(jù)中發(fā)現(xiàn)模式的計(jì)算方法
技術(shù)領(lǐng)域:
本發(fā)明一般性地涉及數(shù)據(jù)分析,尤其涉及用于時(shí)間序列數(shù)據(jù)中發(fā)現(xiàn)模式的方法。
背景技術(shù):
數(shù)據(jù)挖掘是從大規(guī)模數(shù)據(jù)庫(kù)和Internet中提取信息。數(shù)據(jù)挖掘已經(jīng)應(yīng)用于市場(chǎng)、金融、傳感器和生物數(shù)據(jù)的分析。數(shù)據(jù)挖掘不應(yīng)當(dāng)與對(duì)數(shù)據(jù)進(jìn)行搜索以得到已知模式的模式匹配混為一談。
基本上,數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中“有興趣的”和以前未知的模式。有興趣的模式通常是根據(jù)特定模式的重新出現(xiàn)頻率來(lái)定義的。因?yàn)閿?shù)據(jù)挖掘并不假設(shè)任何預(yù)定的模式,所以它常常被描述為無(wú)監(jiān)督的學(xué)習(xí)。
數(shù)據(jù)挖掘從大量數(shù)據(jù)中推導(dǎo)出規(guī)則、趨勢(shì)、規(guī)律和相關(guān)。數(shù)據(jù)挖掘常?;谌斯ぶ悄?AI)、基于記憶的推理(MBR)、關(guān)聯(lián)規(guī)則生成、決策樹(shù)(DT)、神經(jīng)元分析、統(tǒng)計(jì)分析、聚類(lèi)和時(shí)間序列分析。
聚類(lèi)在數(shù)據(jù)中識(shí)別出相關(guān)信息的同類(lèi)組?,F(xiàn)有技術(shù)的聚類(lèi)假定數(shù)據(jù)中間的關(guān)系是已知的。聚類(lèi)已經(jīng)在統(tǒng)計(jì)學(xué)、模式識(shí)別和機(jī)器學(xué)習(xí)方面進(jìn)行了廣泛的研究。聚類(lèi)應(yīng)用的例子包含市場(chǎng)分析中的顧客群劃分、傳感數(shù)據(jù)中信號(hào)數(shù)據(jù)庫(kù)的子類(lèi)識(shí)別。
聚類(lèi)技術(shù)在廣義上能夠分成劃分(positional)技術(shù)和分層(hiearchical)技術(shù)。劃分聚類(lèi)將數(shù)據(jù)分成K個(gè)聚類(lèi),使得每個(gè)聚類(lèi)中的數(shù)據(jù)都比其它不同聚類(lèi)中的數(shù)據(jù)彼此更相似。K的值能夠由用戶(hù)進(jìn)行賦值,或通過(guò)迭代確定以使聚類(lèi)準(zhǔn)則最小。
分層聚類(lèi)是劃分的嵌套序列。凝聚(agglomerative)分層聚類(lèi)將數(shù)據(jù)置于原子聚類(lèi)中,然后將這些原子聚類(lèi)合并成越來(lái)越大的聚類(lèi),直至所有數(shù)據(jù)均在單一大聚類(lèi)中。分裂(divisive)分層聚類(lèi)則顛倒這一過(guò)程,其中從一個(gè)聚類(lèi)中的所有數(shù)據(jù)開(kāi)始,并將這個(gè)聚類(lèi)細(xì)分成更小的聚類(lèi),例如見(jiàn)Jain等人的“數(shù)據(jù)聚類(lèi)算法”,Prentice Hall,1988,Piramuthu等人的“SOM神經(jīng)網(wǎng)絡(luò)與分層聚類(lèi)方法之比較”,EuropeanJournal of Operational Research,93(2)402-417,1996年9月,Michaud的“四種聚類(lèi)技術(shù)”,F(xiàn)GCS Journal,Special Issue on DataMining,1997,和Zait等人的“聚類(lèi)方法的比較研究”,F(xiàn)GCS Journal,Special Issue on Data Mining,1997。
大部分?jǐn)?shù)據(jù)挖掘方法減少輸入數(shù)據(jù)的維數(shù)。在高維數(shù)據(jù)空間中形成的聚類(lèi)不可能是有意義的聚類(lèi),因?yàn)樵诟呔S數(shù)據(jù)空間任意位置的預(yù)期平均點(diǎn)密度較低。減少數(shù)據(jù)維數(shù)的已知技術(shù)包含主成分分析(PCA)、因子分析、奇異值分解(SVD)和小波。主成分分析也被稱(chēng)為Karhunen-Loeve展開(kāi),其求解出能夠說(shuō)明數(shù)據(jù)特征方差的較低維表示,而因子分析則求出數(shù)據(jù)特征中的相關(guān)性。Jain等人在“特征選擇算法評(píng)估,技術(shù)報(bào)告”,計(jì)算機(jī)科學(xué)系,密執(zhí)安州立大學(xué),East Lansing,Mich.,1996中描述了用于圖像分析領(lǐng)域的技術(shù)。
用于分析顧客購(gòu)買(mǎi)模式的流行數(shù)據(jù)挖掘技術(shù)是對(duì)不明顯關(guān)聯(lián)或關(guān)聯(lián)規(guī)則的識(shí)別。明顯關(guān)聯(lián)的例子是購(gòu)買(mǎi)嬰兒代乳品的顧客也同時(shí)會(huì)購(gòu)買(mǎi)尿布。然而,1992年發(fā)現(xiàn)在傍晚時(shí)間人們會(huì)經(jīng)常一起購(gòu)買(mǎi)啤酒和尿布。這樣的關(guān)聯(lián)是不明顯關(guān)聯(lián)的典型例子。正常情況下,人們不會(huì)將尿布和啤酒聯(lián)系為強(qiáng)相關(guān)的購(gòu)買(mǎi)項(xiàng)目,因?yàn)槠【仆ǔ2槐徽J(rèn)為是嬰兒代乳品。這樣的方法也被稱(chēng)為購(gòu)物籃分析法(market-basketanalysis)。
關(guān)聯(lián)定義如下。如果一個(gè)集合具有n個(gè)項(xiàng)I1,...,In和一次交易,例如數(shù)據(jù)庫(kù)或操作選擇這n項(xiàng)中的一個(gè)子集,則在兩項(xiàng)Ii和Ij之間的關(guān)聯(lián)被定義為規(guī)則R,兩項(xiàng)Ii和Ij中的任何交易都被選入該子集。規(guī)則R的條件被定義為Ii項(xiàng)的出現(xiàn)。規(guī)則R的結(jié)果被定義為Ij項(xiàng)的出現(xiàn)。規(guī)則R的支持度被定義為具有項(xiàng)Ii和Ij的交易的百分比。規(guī)則R的組合被定義為同一交易中Ii和Ij都出現(xiàn)。規(guī)則R的置信度被定義為組合的支持度與條件支持度之比。最后,規(guī)則R的改進(jìn)被定義為該規(guī)則的支持度與條件Ii的支持度和結(jié)果Ij的支持度的乘積之比。
當(dāng)關(guān)聯(lián)的支持度和置信度都很高時(shí),關(guān)聯(lián)就是強(qiáng)的。例如,對(duì)于雜貨店的交易,牛奶與每個(gè)其它售出的物品有很強(qiáng)的相關(guān)性,因此支持度很高,因?yàn)榇蟛糠纸灰讓⑴D套鳛槠渲幸豁?xiàng)。然而,對(duì)于例如像賀卡這樣的某些項(xiàng),置信度很低,因?yàn)檫@些都不是被頻繁購(gòu)買(mǎi)的項(xiàng)目。
最后,關(guān)聯(lián)的改進(jìn)也需要很強(qiáng),因?yàn)樾∮?的改進(jìn)表明條件沒(méi)有預(yù)測(cè)出比使用其本身組合的原始概率具有任何更好精度的組合。因此即使該規(guī)則的支持度和置信度都很高,但如果相應(yīng)的改進(jìn)不大于1,則該規(guī)則沒(méi)有提供比純隨機(jī)更好的優(yōu)勢(shì)。下面,我們將描述視頻特性的“標(biāo)簽聚類(lèi)”的關(guān)聯(lián)的使用,而不是顧客的“購(gòu)買(mǎi)項(xiàng)”。
時(shí)間序列分析根據(jù)數(shù)據(jù)的時(shí)間間隔的函數(shù)將數(shù)據(jù)值關(guān)聯(lián)。例如,時(shí)間序列分析已經(jīng)用于發(fā)現(xiàn)庫(kù)存價(jià)格、銷(xiāo)售量、氣候數(shù)據(jù)和EKG分析中的模式。通常假定存在產(chǎn)生時(shí)間序列的基礎(chǔ)確定性過(guò)程,并且該過(guò)程不是隨機(jī)的。然而真實(shí)世界現(xiàn)象的時(shí)間序列數(shù)據(jù)經(jīng)常與不確定性數(shù)據(jù),例如不可避免的隨機(jī)噪聲相互混雜。
通常,使用例如歐幾里得距離或其某種變型的相似度測(cè)量對(duì)時(shí)間序列進(jìn)行比較。然而,歐幾里得距離測(cè)量往往不可靠。較健壯的相似度測(cè)量是基于動(dòng)態(tài)時(shí)間翹曲(DTW)技術(shù),見(jiàn)Berndt等人的“發(fā)現(xiàn)時(shí)間序列中的模式動(dòng)態(tài)編程方法”,知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘進(jìn)展,AAA/MIT Press,Menlo Park,CA.pp.229-248,1966。DTW試圖通過(guò)有選擇性地伸展和收縮時(shí)間軸來(lái)對(duì)準(zhǔn)時(shí)間序列數(shù)據(jù)。
直至現(xiàn)在,大多數(shù)數(shù)據(jù)挖掘技術(shù)已經(jīng)把目光聚焦在文本數(shù)據(jù)、數(shù)值數(shù)據(jù)和線(xiàn)性(一維)信號(hào)上。然而,現(xiàn)在海量的信息容易以具有空間和時(shí)間維度的多維圖像、電影和視頻的形式獲取。
某些現(xiàn)有技術(shù)對(duì)視頻進(jìn)行初步的內(nèi)容分析。最常見(jiàn)的方法是使用一組標(biāo)記樣本訓(xùn)練專(zhuān)家系統(tǒng),因此這些技術(shù)是基于監(jiān)督學(xué)習(xí)的,而不是基于無(wú)監(jiān)督的數(shù)據(jù)挖掘,見(jiàn)Xu等人的“足球視頻中的分割和結(jié)構(gòu)分析算法和系統(tǒng)”,IEEE國(guó)際多媒體會(huì)議及其博覽會(huì),東京,日本,2001年8月22-25,Xu等人在2001年4月20日提交的美國(guó)專(zhuān)利申請(qǐng)09/839,924,“域特定視頻中的高級(jí)結(jié)構(gòu)分析和事件檢測(cè)的方法和系統(tǒng)”,Naphade等人的“概率多媒體對(duì)象(multijects)多媒體系統(tǒng)中的索引和檢索新方法”,1998年第五屆IEEE圖像處理國(guó)際會(huì)議論文集,第三卷,pp.536-540。
現(xiàn)有無(wú)監(jiān)督視頻分析技術(shù)大部分是內(nèi)容中立的(content neutral)。例如,已經(jīng)通過(guò)從識(shí)別出的分段中選擇關(guān)鍵幀對(duì)視頻進(jìn)行概括。該分段通過(guò)檢測(cè)場(chǎng)景或“快照”的變化,例如,音量的減弱或突然變化來(lái)確定出來(lái)。場(chǎng)景所描述的是非實(shí)質(zhì)性的。所選擇的特定幀通常是按照某種準(zhǔn)則能夠良好地代表快照中的其它幀。其它技術(shù)利用攝像機(jī)角度或視場(chǎng)的變化,例如鏡頭的縮放。這樣的內(nèi)容中立技術(shù)已經(jīng)取得了適度的成功,并要求補(bǔ)充的內(nèi)容特定的技術(shù),以得到語(yǔ)義上滿(mǎn)意的性能。
然而,一般來(lái)說(shuō),與基于內(nèi)容的視頻挖掘相關(guān)的問(wèn)題沒(méi)有充分地加以理解。
例如,不清楚如果不進(jìn)行相當(dāng)大的修改,是否能夠?qū)⒅姆诸?lèi)和回歸樹(shù)(CART)應(yīng)用于視頻挖掘中。CART方法將獨(dú)立的變量分成小群數(shù)據(jù)集,并將常值函數(shù)賦給該小數(shù)據(jù)集。在分類(lèi)樹(shù)中,常值函數(shù)是一種取有限小值集合,例如是和否、或低、中和高的函數(shù)。在回歸樹(shù)中,響應(yīng)的平均值適于賦給連接較少的數(shù)據(jù)集。
因此,希望提供一種用于挖掘從場(chǎng)景中探測(cè)的多維時(shí)間序列數(shù)據(jù),即通過(guò)攝像機(jī)-視頻獲取的幀序列的系統(tǒng)和方法。視頻挖掘?qū)τ谝曨l中發(fā)現(xiàn)有興趣的模式方面特別有用,其中例如編輯模型、新聞視頻特征或體育視頻模式等等的域和內(nèi)容的先驗(yàn)?zāi)P筒蝗菀撰@取。
發(fā)明內(nèi)容
一種方法發(fā)現(xiàn)未知多維數(shù)據(jù)中的模式。產(chǎn)生時(shí)間序列多維數(shù)據(jù)并通過(guò)時(shí)間序列的自相關(guān)來(lái)構(gòu)造點(diǎn)跨距矩陣(point cross-distancematrix)。
點(diǎn)跨距矩陣中的所有最小成本路徑是根據(jù)多個(gè)時(shí)間分辨率來(lái)確定的。
接著,最小成本路徑與多維數(shù)據(jù)中的子序列相關(guān),以發(fā)現(xiàn)未知多維數(shù)據(jù)中的高級(jí)模式。
圖1是根據(jù)本發(fā)明的視頻挖掘方法100的流程圖;圖2是高爾夫視頻的時(shí)間序列圖;圖3是本發(fā)明使用的點(diǎn)跨距矩陣;圖4是具有重復(fù)模式的點(diǎn)跨距矩陣;圖5是準(zhǔn)對(duì)角最小成本路徑的圖表;圖6是具有閾值角度的最小路徑的圖表。
具體實(shí)施例方式
圖1示出的是根據(jù)本發(fā)明的視頻挖掘方法100的步驟。本發(fā)明對(duì)于挖掘視頻特別有用,其中內(nèi)容中的模式不是先驗(yàn)已知的,例如監(jiān)視或家庭視頻。發(fā)現(xiàn)的模式可以用于視頻的“盲(blind)”概括?!懊ぁ备爬ǖ囊馑际侵覆槐匦枰来爬ǖ囊曨l的內(nèi)容或類(lèi)型。我們的方法對(duì)于例如廣播新聞、體育報(bào)道、電影放映等等經(jīng)過(guò)仔細(xì)準(zhǔn)備的視頻同樣有用。因此我們的方法允許對(duì)內(nèi)容和產(chǎn)品風(fēng)格存在不同差異的視頻進(jìn)行盲概括(blind summarization)。
我們從任意的、也許是未知內(nèi)容和產(chǎn)品風(fēng)格的視頻101開(kāi)始。該視頻包含可視和音頻數(shù)據(jù)。首先我們選擇110該內(nèi)容的低級(jí)特征102,例如特征組可以由運(yùn)動(dòng)活性、色彩、音頻、文本等等構(gòu)成,例如MPEG-7描述符。可以用一個(gè)或多個(gè)選擇的特征102進(jìn)行挖掘,每個(gè)挖掘輪次的結(jié)果可以組合以推斷160輸入視頻101的更高級(jí)理解。我們使用所選擇的特征產(chǎn)生視頻101的時(shí)間序列200。
圖2是基于運(yùn)動(dòng)活性的高爾夫比賽視頻的時(shí)間序列200的例子。圖2畫(huà)出的是高爾夫視頻中運(yùn)動(dòng)活性的水平,它是時(shí)間的函數(shù)。根據(jù)幀數(shù)在x軸201標(biāo)明時(shí)間,沿y軸202標(biāo)明運(yùn)動(dòng)活性,它是自前一幀以來(lái)宏塊中移動(dòng)的像素的平均數(shù)。未加工(raw)的運(yùn)動(dòng)活性用曲線(xiàn)203來(lái)表示。我們將運(yùn)動(dòng)活性數(shù)據(jù)劃分為高211、中212和低213水平的運(yùn)動(dòng)活性。
我們觀(guān)察運(yùn)動(dòng)活性中后跟陡峭上升的低運(yùn)動(dòng)活性的長(zhǎng)伸展,并且用尖峰標(biāo)記上升沿,如圖所示。這樣的尖峰對(duì)應(yīng)于擊球。直到擊球時(shí),運(yùn)動(dòng)活性通常很低。在擊球期間和緊接在擊球之后,攝像機(jī)迅速地跟隨球的運(yùn)動(dòng),因此產(chǎn)生了運(yùn)動(dòng)活性的“上升沿”。
根據(jù)我們的發(fā)明,視頻101的幀序列中的運(yùn)動(dòng)活性構(gòu)成時(shí)間序列。視頻幀的色彩直方圖是另一個(gè)多維時(shí)間序列。視頻中的時(shí)間序列數(shù)據(jù)也可以包含例如語(yǔ)義標(biāo)記(例如,MPEG-7描述符)和音頻信號(hào)的符號(hào)值。應(yīng)當(dāng)明白,當(dāng)我們說(shuō)“時(shí)間序列”時(shí),我們的意思是指該序列數(shù)據(jù)具有某種類(lèi)型的沿x軸的順序,例如時(shí)間順序。例如空間這樣的其它序列順序也是可能的,我們的發(fā)明同樣適用于“空間”序列或其它多維數(shù)據(jù)的有序序列。當(dāng)然在空間序列中,所有的路徑會(huì)具有多個(gè)空間分辨率。
我們的方法100基于視頻的時(shí)間序列200測(cè)量130低水平特征的相似表示,例如運(yùn)動(dòng)情形中的高、中或低,居主導(dǎo)的藍(lán)、綠或褐色可以是另一種表示。我們提供了“軟”匹配,其中小的差異不會(huì)使匹配無(wú)效。如上所述,我們通過(guò)數(shù)據(jù)平滑或限定低水平特征102的閾值來(lái)做到這一點(diǎn)。如果使用了多個(gè)特征,該時(shí)間序列數(shù)據(jù)可以進(jìn)行加權(quán)處理。例如,在最終結(jié)果中,可以賦給色彩比運(yùn)動(dòng)活性更大的權(quán)重。在推斷160期間低水平特征之間的聯(lián)系是松散的,因此,我們寧愿將我們的數(shù)據(jù)挖掘技術(shù)分別應(yīng)用到每個(gè)特征中,并通過(guò)融合160通過(guò)對(duì)所選擇的低水平特征102進(jìn)行視頻挖掘而分別得到的聚類(lèi)數(shù)據(jù)151,推斷出更高水平的模式161。
與只尋找具有指定分辨率的相似對(duì)的現(xiàn)有技術(shù)相反,我們的匹配尋找140大時(shí)間序列(例如從視頻獲得的時(shí)間序列200)中所有時(shí)間分辨率下的所有可能匹配對(duì)。
為了在時(shí)間序列S(i)200中挖掘所有的時(shí)間模式103,我們需要具有各種尺寸w的多分辨率窗口w:S(1:w),S(2:w+1),...,S(N-w+1:N)。
應(yīng)當(dāng)注意的是,我們不是顯式地構(gòu)建多分辨率窗口w。相反,我們的窗口w是通過(guò)跨距矩陣300進(jìn)行隱式定義的,我們所做的是求出這些隱式定義的窗口。這使得我們能夠在所有分辨率下求出所有的匹配。我們隱式的窗口發(fā)現(xiàn)技術(shù)下面將更詳細(xì)地描述。
我們測(cè)量130時(shí)間序列數(shù)據(jù)200之間的所有點(diǎn)跨距300,以求出140最小距離400,并且因此將該視頻101聚類(lèi)150。問(wèn)題是如何求出相似度,其中多分辨率窗口具有不同尺寸。
如圖3所示,我們使用點(diǎn)距矩陣300解決這個(gè)問(wèn)題。尺寸為w的兩個(gè)窗口之間的距離301測(cè)量如下Dw(xi,xj)=Σk=0w-1(xi+k-xj+k)2]]>于是,D1(xi,xj)=(xi+k-xj+k)2,并且Dw(xi,xj)=Σk=0w-1D1(xi+k,xj+k)---(1)]]>圖3示出的是點(diǎn)距矩陣300的例子,其中一個(gè)窗口301是xi-xi+w,另一個(gè)窗口302是xj-xj+w的例子。線(xiàn)301表示方程(1)。曲線(xiàn)311和312分別表示時(shí)間序列200。即,同一時(shí)間序列是沿x軸和y軸,換句話(huà)說(shuō),測(cè)量是自相關(guān)的。
點(diǎn)距矩陣300可以被搜索以得到點(diǎn)跨距較短的對(duì)角線(xiàn)。在圖3的表示中,按灰度級(jí)對(duì)距離進(jìn)行著色(render),其中較短的距離比較長(zhǎng)的距離更亮一些,因此,所有距離是0的主對(duì)角線(xiàn)是白的,因?yàn)闇y(cè)量是自相關(guān)的。
作為一個(gè)優(yōu)點(diǎn),矩陣300不限于任何給定的窗口尺寸w。因此,可以求出具有短距離值的所有可能路徑,其中短是針對(duì)某個(gè)閾值距離值TD而言的。如果使用時(shí)間翹曲(time warping),路徑能夠“接近”或基本對(duì)角于圖3的主對(duì)角線(xiàn)。
如圖4所示,我們通過(guò)使用適于我們的視頻內(nèi)容挖掘的多定標(biāo)(multi-scale)技術(shù)(例如小波)對(duì)時(shí)間序列進(jìn)行子抽樣來(lái)進(jìn)行多分辨率分析。這產(chǎn)生平滑矩陣400。我們的方法自動(dòng)地在不同窗口尺寸w上進(jìn)行匹配,以揭示出時(shí)間序列中所有重復(fù)的時(shí)間模式401-402。
動(dòng)態(tài)時(shí)間翹曲(DTW)用于在一定的限度內(nèi)“伸展”和“壓縮”時(shí)間,以允許具有不同時(shí)間長(zhǎng)度的視頻的相似分段之間具有良好對(duì)準(zhǔn)。就分段來(lái)說(shuō),我們的意思是指幀序列。動(dòng)態(tài)編程序可以用于求出提供最佳匹配的分段的時(shí)間翹曲。DTW求出一定約束條件(i,j),1≤I≤N,1≤j≤M下的柵格中的最佳路徑,其中N和M是兩個(gè)分段的長(zhǎng)度,每個(gè)柵格點(diǎn)(i,j)分別是兩個(gè)分段的第i點(diǎn)和第j點(diǎn)之間的距離。
我們使用動(dòng)態(tài)編程求出點(diǎn)跨距矩陣中的點(diǎn)對(duì)之間的最小成本路徑。希望路徑基本上對(duì)角,即基本上與主對(duì)角線(xiàn)310平行。此外,我們希望路徑通過(guò)矩陣中的低跨距值,其中低由某個(gè)閾值TD來(lái)定義。在圖3和4中,這些路徑是白的,或準(zhǔn)白的對(duì)角曲線(xiàn)分段。
最小成本的可能定義是沿該路徑的跨距值的平均值。我們也對(duì)允許的路徑提出某些約束,即路徑500保持對(duì)角方向的取向,見(jiàn)圖5。一種可能的約束集合是沿著路徑的每一步可以是下移一格、右移一格,或?qū)且苿?dòng)一格,如圖所示。
此外,如圖6所示,對(duì)角線(xiàn)與路徑兩個(gè)端點(diǎn)間的連線(xiàn)之間的閾值角應(yīng)當(dāng)小于α°,其中0≤α≤45°。這樣的路徑成本準(zhǔn)則和約束可以通過(guò)動(dòng)態(tài)編程來(lái)表達(dá),以求出點(diǎn)跨距矩陣中兩點(diǎn)之間的最小成本有效路徑。
即使不是精確對(duì)角的,那些獲得的有效路徑仍然指定時(shí)間序列中兩個(gè)相應(yīng)子序列的動(dòng)態(tài)時(shí)間翹曲。因此,我們使用動(dòng)態(tài)編程求出兩個(gè)子序列之間的良好匹配的適當(dāng)時(shí)間翹曲,并且求出跨距矩陣中兩點(diǎn)之間的最小成本路徑。
動(dòng)態(tài)編程允許我們求出矩陣中兩個(gè)給定點(diǎn)之間的最小成本路徑。我們感興趣的是求出矩陣中所有可能點(diǎn)對(duì)之間的最小成本路徑,并選出成本低于給定閾值的路徑。
做到這一點(diǎn)的強(qiáng)力方式是針對(duì)每個(gè)可能的點(diǎn)對(duì)執(zhí)行動(dòng)態(tài)編程過(guò)程。因?yàn)榭缇嗑仃囀菍?duì)稱(chēng)的,即時(shí)間序列的第i個(gè)樣本和第j個(gè)樣本之間的距離等于第j個(gè)樣本和第i個(gè)樣本之間的距離,我們只需要處理矩陣的上半部分,其中只有N2/2個(gè)點(diǎn)和N4/4個(gè)點(diǎn)對(duì)。然而,處理步驟的數(shù)量可以減少以增加我們的方法的效率。
首先,如圖6所示,我們要求對(duì)角線(xiàn)與通過(guò)該路徑兩端點(diǎn)間的連線(xiàn)之間的角度小于α°。因此,對(duì)于每個(gè)點(diǎn),我們求出到這樣的點(diǎn)的最小成本路徑,該點(diǎn)位于與對(duì)角線(xiàn)603成+α601度的線(xiàn)和與對(duì)角線(xiàn)603成-α602度的線(xiàn)之間。而且,我們提出路徑上所有點(diǎn)應(yīng)當(dāng)具有低于閾值T的值的約束條件。在這種情形下,我們可以對(duì)整個(gè)矩陣限定閾值,并且求出只在高于閾值的點(diǎn)集之間的最小成本路徑。
在已經(jīng)求出所有這樣的點(diǎn)之間的最小路徑成本之后,我們將端點(diǎn)彼此接近的較短路徑合并成較長(zhǎng)路徑。我們也合并其中一個(gè)是另一個(gè)的超集的路徑。我們?nèi)サ魞啥它c(diǎn)間的歐幾里得距離短于一定長(zhǎng)度的路徑。保留的路徑集為我們提供多分辨率下視頻的所有相似子序列對(duì)。
在現(xiàn)有技術(shù)中,進(jìn)行使用動(dòng)態(tài)時(shí)間翹曲(例如,使用動(dòng)態(tài)編程求出跨距矩陣中的最小成本路徑)相似以查詢(xún)較大時(shí)間序列中的給定時(shí)間序列模式,見(jiàn)Park等人“序列數(shù)據(jù)庫(kù)中不同長(zhǎng)度相似子序列的有效搜索”,數(shù)據(jù)工程國(guó)際會(huì)議(ICDE),pp.23-32,2000。
我們的技術(shù)也可以用于在語(yǔ)音分析環(huán)境中求出兩個(gè)序列之間的良好對(duì)準(zhǔn),見(jiàn)Sakoe等人的“口語(yǔ)識(shí)別的動(dòng)態(tài)編程算法優(yōu)化”,IEEETrans.Acoust.,Speech,Signal Process.,ASSP 26,pp.43-49,1978,并且可用于基因和蛋白質(zhì)序列分析,見(jiàn)Aach等人的“使用時(shí)間翹曲算法對(duì)準(zhǔn)基因表達(dá)時(shí)間序列”,Bioinformatics,17495-508,2001。然而,那些方法只求出給定的跨距矩陣中具有給定起始點(diǎn)的一條路徑,相反,我們求出所有的路徑。
在現(xiàn)有技術(shù)中,時(shí)間序列中子序列的自相似性通常通過(guò)使用固定窗口大小w,并且算出原始序列上移動(dòng)窗之間的跨距來(lái)進(jìn)行計(jì)算,見(jiàn)Agrawal等人“序列數(shù)據(jù)庫(kù)中的有效相似性搜索”,第四屆數(shù)據(jù)組織和算法基礎(chǔ)國(guó)際會(huì)議論文集,和“計(jì)算機(jī)科學(xué)的講義注釋”,730,SpringerVerlag,p.,69-84。
跨距矩陣的其它現(xiàn)有技術(shù)使用具有點(diǎn)圖的形式,其中矩陣元素是1或0,表明恰好匹配或沒(méi)有匹配。它們已經(jīng)被用于定量分析并作為可視工具,見(jiàn)Church等人的“點(diǎn)圖探測(cè)數(shù)百萬(wàn)行文本和代碼的自相似性的程序”,計(jì)算和圖形學(xué)統(tǒng)計(jì)期刊,2(2)153-174,1993,或用于沿對(duì)角線(xiàn)分割自相似區(qū)域,但不自動(dòng)求出相似子序列對(duì),見(jiàn)Jeffry,“求解主題邊界的自動(dòng)算法”,第32屆計(jì)算語(yǔ)言學(xué)學(xué)會(huì)年會(huì)論文集,1994。我們的方法可以用于任何這樣的應(yīng)用中。
哈夫(Hough)變換可以用于將多個(gè)短路徑合并成曲線(xiàn)。哈夫變換將矩陣400中特定形狀的特征分離出來(lái)。由于不能進(jìn)行特征的簡(jiǎn)單分析描述,我們可使用哈夫變換。作為一個(gè)優(yōu)點(diǎn),哈夫變換容忍特征邊界描述中的間隙(gap),并相對(duì)不受數(shù)據(jù)中噪聲的影響。此外,哈夫變換對(duì)于發(fā)現(xiàn)特征的全局描述特別有用,其中解類(lèi)別的數(shù)量不是先驗(yàn)已知的,正如這里的情形那樣。
我們使用Hough變換的動(dòng)機(jī)在于每個(gè)輸入距離特征指示出它對(duì)全局一致性模式的貢獻(xiàn)。我們通過(guò)將特征空間量化為有限區(qū)間或累加器單元來(lái)實(shí)現(xiàn)Hough變換,其中隨著這條路徑上的累加器單元的遞加,累加器單元顯示出離散化的路徑。累加器陣列的結(jié)果峰強(qiáng)有力地表示出特征空間中存在相應(yīng)路徑的證據(jù)。我們使用Hough變換識(shí)別出最佳擬合一組給定的邊的路徑。
當(dāng)然,應(yīng)當(dāng)理解的是,可以利用使用時(shí)間序列的自相關(guān)性尋找匹配分段的其它技術(shù)。例如,可以使用點(diǎn)積(dot product)的技術(shù)。在這種情形中,該積的大小表明相似程度。對(duì)于例如連續(xù)幀的彩色直方圖的多維時(shí)間序列,可以使用直方圖交會(huì)法(histogram intersection)。
使用DTW求出匹配窗口之后,我們將相似分段分組并標(biāo)記150成聚類(lèi)151。對(duì)于分段,我們的意思是指視頻中直接對(duì)應(yīng)于具有相似特征的窗口的幀序列。因此,使用時(shí)間序列數(shù)據(jù)對(duì)相似分段的識(shí)別基本上允許我們將該視頻進(jìn)行劃分并將相似的分段分組成聚類(lèi)。
我們同等使用術(shù)語(yǔ)“標(biāo)記”和“項(xiàng)”,如上述針對(duì)關(guān)聯(lián)所定義的那樣。當(dāng)我們稱(chēng)之為聚類(lèi)時(shí),我們的意思是指聚類(lèi)經(jīng)過(guò)了標(biāo)記,例如,高運(yùn)動(dòng)活性的幀的聚類(lèi),或視頻聲道中噪聲很大的聚類(lèi)。通過(guò)使用利用不同特征所獲得的關(guān)聯(lián)和標(biāo)記152的融合,允許我們推斷160聚類(lèi)151中的高水平模式。因此這些模式可以用于將視頻101盲概括170成摘要171。概括基本上按照高水平模式161提取視頻中所選取的幀。
在步驟160中,我們求出聚類(lèi)的標(biāo)記之間的關(guān)聯(lián)。一種類(lèi)型的關(guān)聯(lián)是尋找時(shí)間相關(guān)的“標(biāo)記”。相關(guān)性可以是同時(shí)的,也可以是時(shí)間偏移的,例如許多運(yùn)動(dòng)和大噪聲表明在娛樂(lè)視頻中的“動(dòng)作”事件,或許多之后接著鼓掌歡迎和歡呼的運(yùn)動(dòng)表明在體育視頻中的“得分”事件。
我們發(fā)現(xiàn)標(biāo)記之間的關(guān)聯(lián)如下。每個(gè)聚類(lèi)的標(biāo)記被認(rèn)為等價(jià)于上述的“項(xiàng)”。因此,我們產(chǎn)生含有標(biāo)記Li的出現(xiàn)的條件和含有標(biāo)記Lj的出現(xiàn)的結(jié)果。在這種情形下,時(shí)間軸上的每個(gè)點(diǎn)具有相應(yīng)的交易,它含有與多于一個(gè)視頻特征102相對(duì)應(yīng)的標(biāo)記。
例如,我們能夠擁有兩組標(biāo)記,第一組與高、中、低的運(yùn)動(dòng)活性的描述相對(duì)應(yīng),第二組與音頻語(yǔ)義類(lèi)別有關(guān),其中標(biāo)記將表明例如觀(guān)眾掌聲、歡呼聲、音樂(lè)等等的音頻類(lèi)別中的成員關(guān)系。于是,我們能夠發(fā)現(xiàn)在體育視頻中高運(yùn)動(dòng)活性和觀(guān)眾掌聲/歡呼聲之間的關(guān)聯(lián)。應(yīng)當(dāng)注意的是,即使使用了更復(fù)雜的標(biāo)記,仍然能夠通過(guò)直接計(jì)算求出這種關(guān)聯(lián)。也可求出標(biāo)記組合之間的復(fù)合關(guān)聯(lián)。
因此,強(qiáng)關(guān)聯(lián)可以幫助我們發(fā)現(xiàn)視頻101中相應(yīng)的常見(jiàn)和非常見(jiàn)模式,因?yàn)槟J皆匠R?jiàn),支持度就越高。
因此,視頻101的摘要171含有常見(jiàn)和非常見(jiàn)事件的組合,這取決于用戶(hù)的需要。在一個(gè)極端的例子中,摘要171含有具有強(qiáng)關(guān)聯(lián)的稀有事件。在另一個(gè)極端的例子中,摘要含有具有強(qiáng)關(guān)聯(lián)的常見(jiàn)事件。
因此,聚類(lèi)150通過(guò)基于上述的距離度量將所有相似分段聚類(lèi)來(lái)開(kāi)始。對(duì)部分重疊的分段進(jìn)行劃分,使得它們或者具有同樣的重疊,或者完全不重疊。聚類(lèi)對(duì)可以使用凝聚過(guò)程進(jìn)行合并以形成更大的聚類(lèi)。我們定義集合S含有至少一個(gè)相似聚類(lèi)對(duì)中的所有分段。于是,集合SC∪S是整個(gè)視頻101,集合SC是集合S的補(bǔ)集。對(duì)聚類(lèi)進(jìn)行標(biāo)記,例如A,B,C,...,且A∪B∪C...=S。集合SC可以被認(rèn)為是“廢棄”的聚類(lèi),即對(duì)于A(yíng)、B和C等等不是“有意義的”。
因此,聚類(lèi)150產(chǎn)生各種長(zhǎng)度和各種相互距離的非重疊分段的集合S。每個(gè)聚類(lèi)151具有下列相關(guān)參數(shù)聚類(lèi)的緊密性,即聚類(lèi)中分段的相似程度;聚類(lèi)中分段的數(shù)目;聚類(lèi)中分段的總長(zhǎng)度(幀或時(shí)間);分段的最接近點(diǎn)之間的平均距離(表明整個(gè)視頻中分段的散布)。
聚類(lèi)中每個(gè)分段具有下列參數(shù)到其它聚類(lèi)中心的平均距離,它表明分段在包含其的聚類(lèi)中的代表性;及其長(zhǎng)度(幀或時(shí)間)。
因此,概括成本函數(shù)C172可以在所需要的摘要長(zhǎng)度,待包含在摘要171中的所選分段的集合R的總長(zhǎng)度,(即,RS),S中每個(gè)分段和R中最靠近分段之間的平均距離之間折衷一個(gè)絕對(duì)差。這表明集合R(概括171)表示集合S適合程度,當(dāng)然集合S是整個(gè)視頻101。我們可以增加一個(gè)項(xiàng)以及時(shí)支持R的緊密性,或者相反。因此摘要171是集合S的子集R,其使成本函數(shù)172最小化。
于是摘要可以用于例如“智能”快進(jìn)和倒退的視頻控制的新特征,以及在面臨沒(méi)有任何先驗(yàn)域知識(shí)時(shí)進(jìn)行的即刻重新定位。
應(yīng)當(dāng)明白,可以在本發(fā)明的宗旨和范圍內(nèi)對(duì)其進(jìn)行各種其它的調(diào)整和修正。因此,附加的權(quán)利要求的目的是涵蓋本發(fā)明的真正宗旨和范圍內(nèi)的所有這樣的變化和修正。
權(quán)利要求
1.一種在未知多維數(shù)據(jù)中發(fā)現(xiàn)模式的計(jì)算機(jī)化方法,包括生成多維數(shù)據(jù)的時(shí)間序列;通過(guò)對(duì)時(shí)間序列自相關(guān)來(lái)構(gòu)造點(diǎn)跨距矩陣;以多個(gè)時(shí)間分辨率尋找點(diǎn)跨距矩陣中的所有最小成本路徑;以及使最小成本路徑與多維數(shù)據(jù)中的子序列相關(guān)以發(fā)現(xiàn)未知多維數(shù)據(jù)中的高水平模式。
2.如權(quán)利要求1所述的方法,其中根據(jù)多維數(shù)據(jù)的所選特征產(chǎn)生時(shí)間序列數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其中時(shí)間序列設(shè)有閾值的。
4.如權(quán)利要求1所述的方法,其中點(diǎn)跨距矩陣是經(jīng)過(guò)過(guò)濾的。
5.如權(quán)利要求1所述的方法,其中未知多維數(shù)據(jù)是視頻的未知內(nèi)容。
6.如權(quán)利要求1所述的方法,其中未知多維數(shù)據(jù)按照高水平模式被劃分成聚類(lèi)。
7.如權(quán)利要求1所述的方法,其中使用具有尺寸w的窗口以多個(gè)時(shí)間分辨率尋找所有最小成本路徑。
8.如權(quán)利要求7所述的方法,其中針對(duì)具有尺寸w的兩個(gè)窗口,點(diǎn)跨距矩陣中的距離為Dw(xi,xj)=Σk=0w-1(xi+k-xj+k)2]]>和D1(xi,xj)=(xi+k-xj+k)2,并且Dw(xi,xj)=Σk=0w-1D1(xi+k,xj+k),]]>其中xi和xj是窗口的端點(diǎn)。
9.如權(quán)利要求8所述的方法,其中通過(guò)搜索點(diǎn)跨距矩陣中距離小于預(yù)定閾值的對(duì)角線(xiàn)分段,尋找所有最小成本路徑。
10.如權(quán)利要求1所述的方法,其中所有最小成本路徑基本與點(diǎn)跨距矩陣的主對(duì)角線(xiàn)平行。
11.如權(quán)利要求7所述的方法,其中通過(guò)使用多定標(biāo)對(duì)時(shí)間序列進(jìn)行子采樣來(lái)獲得多個(gè)時(shí)間分辨率。
12.如權(quán)利要求11所述的方法,其中定標(biāo)使用小波。
13.如權(quán)利要求1所述的方法,其中動(dòng)態(tài)時(shí)間翹曲被應(yīng)用于時(shí)間序列,以對(duì)時(shí)間序列中的時(shí)間進(jìn)行伸縮。
14.如權(quán)利要求1所述的方法,進(jìn)一步包括應(yīng)用動(dòng)態(tài)編程以尋找點(diǎn)跨距矩陣中的最優(yōu)最小成本路徑。
15.如權(quán)利要求1所述的方法,進(jìn)一步包括只處理對(duì)點(diǎn)跨距矩陣的上半部分。
16.如權(quán)利要求1所述的方法,進(jìn)一步包括合并其端點(diǎn)在彼此的預(yù)定距離內(nèi)的任何最小成本路徑。
17.如權(quán)利要求1所述的方法,進(jìn)一步包括將其中一條路徑是另一路徑的超集的任何最小成本路徑合并。
18.如權(quán)利要求1所述的方法,進(jìn)一步包括去掉任何短于預(yù)定長(zhǎng)度的最小距離路徑。
19.如權(quán)利要求1所述的方法,其中多維數(shù)據(jù)是語(yǔ)音信號(hào)。
20.如權(quán)利要求1所述的方法,其中多維數(shù)據(jù)是線(xiàn)性聚合體。
21.如權(quán)利要求20所述的方法,其中線(xiàn)性聚合體是蛋白質(zhì)。
22.如權(quán)利要求16所述的方法,其中合并使用Hough變換。
23.如權(quán)利要求1所述的方法,進(jìn)一步包括將邊緣檢測(cè)器應(yīng)用到點(diǎn)跨距矩陣以尋找所有最小成本路徑。
全文摘要
一個(gè)方法發(fā)現(xiàn)未知多維數(shù)據(jù)中的模式。生成多維數(shù)據(jù)的時(shí)間序列,并通過(guò)時(shí)間序列的自相關(guān)構(gòu)造點(diǎn)跨距矩陣。以多個(gè)時(shí)間分辨率尋找點(diǎn)跨距矩陣中的所有最小成本路徑。接著最小成本路徑與多維數(shù)據(jù)中的時(shí)間子序列相關(guān),以發(fā)現(xiàn)未知多維數(shù)據(jù)中的高水平模式。
文檔編號(hào)G06F17/30GK1685359SQ200380100068
公開(kāi)日2005年10月19日 申請(qǐng)日期2003年10月6日 優(yōu)先權(quán)日2002年11月1日
發(fā)明者卡蒂爾·A·匹克爾 申請(qǐng)人:三菱電機(jī)株式會(huì)社