欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

識別視頻圖像對象的設(shè)備和方法、應(yīng)用視頻圖像注釋的設(shè)備和方法及識別視頻圖像對象...的制作方法

文檔序號:6482745閱讀:268來源:國知局
專利名稱:識別視頻圖像對象的設(shè)備和方法、應(yīng)用視頻圖像注釋的設(shè)備和方法及識別視頻圖像對象 ...的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于將視頻主題和主題信息彼此相關(guān)聯(lián)的視頻圖像識別設(shè)備、一種視頻圖像注釋應(yīng)用設(shè)備和一種車輛制導(dǎo)系統(tǒng)。
背景技術(shù)
近年來,通過使用GPS(全球定位系統(tǒng))向用戶提供有關(guān)其當(dāng)前位置的信息的導(dǎo)航系統(tǒng)已經(jīng)得到了廣泛地應(yīng)用,并被安裝在汽車上等。這些導(dǎo)航系統(tǒng)具有向用戶提供與其當(dāng)前位置周圍的環(huán)境有關(guān)的信息的功能。導(dǎo)航系統(tǒng)的用戶終端在監(jiān)視器等上、通過CG(計(jì)算機(jī)繪圖)繪制的數(shù)字地圖上顯示所提供的信息。
按照向用戶提供與其當(dāng)前位置周圍的環(huán)境有關(guān)的信息的另一種處理,根據(jù)增廣現(xiàn)實(shí)技術(shù),作為重疊在實(shí)際視頻圖像上的信息來顯示此信息。
以下提及的非專利文獻(xiàn)1公開了一種系統(tǒng),利用捕獲實(shí)際圖像的圖像捕獲位置、圖像捕獲方向和包括作為視頻主題的對象(如建筑物等對象)的緯度和經(jīng)度在內(nèi)的位置信息,顯示與圖像捕獲方向上、位于距圖像捕獲位置預(yù)定距離內(nèi)的對象有關(guān)的信息(對象的名稱),將其重疊在對象的實(shí)際圖像上。
(非專利文獻(xiàn)1)Tomohiro Terada等人,“Construction of vehicle-mountedannotation system using augmented reality”,Technical Report ofIEICE,The Institute of Electronics,Information,andCommunication Engineers,F(xiàn)eb.2002,CQ2001-103,MVE2001-136.p.55-60。
但是,非專利文獻(xiàn)1所公開的系統(tǒng)顯示與圖像捕獲方向上、位于距圖像捕獲位置預(yù)定距離內(nèi)的對象有關(guān)的信息,而與對象是否被作為視頻圖像捕獲無關(guān)。因此,即使對象實(shí)際上并未作為視頻圖像被捕獲(例如,因?yàn)槲挥跇淠镜鹊暮竺?,該系統(tǒng)仍然顯示該圖像的信息。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種視頻圖像識別設(shè)備、一種視頻圖像注釋應(yīng)用設(shè)備和一種車輛制導(dǎo)系統(tǒng),如果對象實(shí)際上并未作為視頻圖像被捕獲,則不顯示該對象的信息。
根據(jù)本發(fā)明的一種視頻圖像對象識別設(shè)備包括輸入裝置,用于輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲裝置,用于存儲彼此相關(guān)的位置信息和可視特征信息,所述位置信息是表示對象的位置的信息,以及所述可視特征信息是表示對象的可視特征的數(shù)字值的信息;以及對象識別裝置,用于識別包含在基于所述輸入視頻圖像數(shù)據(jù)的視頻圖像中的對象,其中所述對象識別裝置包括圖像捕獲空間估計(jì)裝置,用于根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配裝置,用于匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;局部視頻圖像提取裝置,用于從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);可視特征信息設(shè)置裝置,用于產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;相似性計(jì)算裝置,用于相互比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和存儲在所述存儲裝置中的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及判定裝置,用于根據(jù)所述匹配裝置的匹配結(jié)果和所計(jì)算出的相似性的結(jié)果,確定對象是否出現(xiàn)在基于所述輸入視頻圖像數(shù)據(jù)的所述視頻圖像中。
根據(jù)本發(fā)明的一種視頻圖像注釋應(yīng)用設(shè)備包括輸入裝置,用于輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲裝置,用于存儲彼此相關(guān)的位置信息、可視特征信息和附加信息,所述位置信息是表示對象的位置的信息,所述可視特征信息是表示對象的可視特征的數(shù)字值的信息,以及所述附加信息是添加到對象上的信息;以及對象識別裝置,用于將包含在基于所述輸入視頻圖像數(shù)據(jù)的視頻圖像中的對象與所述附加信息相關(guān)聯(lián),其中所述對象識別裝置包括圖像捕獲空間估計(jì)裝置,用于根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配裝置,用于匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;局部視頻圖像提取裝置,用于從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);可視特征信息設(shè)置裝置,用于產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;相似性計(jì)算裝置,用于相互比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和存儲在所述存儲裝置中的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及判定裝置,用于根據(jù)所述匹配裝置的匹配結(jié)果和所計(jì)算出的相似性,標(biāo)識包含在基于所述輸入視頻圖像數(shù)據(jù)的所述視頻圖像中的對象,并將所標(biāo)識出的對象與存儲在所述存儲裝置中的附加信息彼此相關(guān)聯(lián)。
所述對象識別裝置可以包括出現(xiàn)概率計(jì)算裝置,用于根據(jù)將要捕獲圖像的區(qū)域和存儲在所述存儲裝置中的對象的位置信息,計(jì)算作為所述視頻圖像中包含對象的概率的出現(xiàn)概率,以及所述判定裝置可以根據(jù)所計(jì)算出的出現(xiàn)概率和相似性,標(biāo)識包含在所述視頻圖像中的對象,并將所標(biāo)識出的對象與存儲在所述存儲裝置中的附加信息彼此相關(guān)聯(lián)。利用此結(jié)構(gòu),未將出現(xiàn)在將要捕獲圖像的區(qū)域中、但作為視頻圖像被捕獲的概率較低的對象與附加信息相關(guān)聯(lián)。因此,當(dāng)按照與視頻圖像重疊的關(guān)系顯示注釋時,并不顯示并未作為視頻圖像被捕獲的對象的注釋。
所述局部視頻圖像提取裝置可以根據(jù)存儲在所述存儲裝置中的對象的位置信息,標(biāo)識對象被定位于所述視頻圖像內(nèi)的范圍,并從所標(biāo)識的范圍中提取局部視頻圖像數(shù)據(jù)。利用此結(jié)構(gòu),可以限制從中提取局部視頻圖像數(shù)據(jù)的范圍,從而降低了由局部視頻圖像提取裝置執(zhí)行的數(shù)據(jù)處理量。
所述對象識別裝置可以包括候選對象搜索裝置,用于根據(jù)將要捕獲圖像的區(qū)域和位置信息,提取出作為出現(xiàn)在將要捕獲圖像的區(qū)域中的對象的候選對象,以及所述相似性計(jì)算裝置可以相互比較局部視頻圖像數(shù)據(jù)的可視特征信息和存儲在所述存儲裝置中的候選對象的可視特征信息,以計(jì)算二者之間的相似性。利用此結(jié)構(gòu),可以減少與局部視頻圖像數(shù)據(jù)的可視特征信息進(jìn)行比較以計(jì)算相似性的對象的數(shù)量,從而降低了由相似性計(jì)算裝置執(zhí)行的數(shù)據(jù)處理量。
所述局部視頻圖像提取裝置可以根據(jù)存儲在所述存儲裝置中的候選對象的位置信息,標(biāo)識對象被定位于所述視頻圖像內(nèi)的范圍,并從所標(biāo)識的范圍中提取局部視頻圖像數(shù)據(jù)。利用此結(jié)構(gòu),能夠限制從中提取局部視頻圖像數(shù)據(jù)的范圍,從而降低了由局部視頻圖像提取裝置執(zhí)行的數(shù)據(jù)處理量。
所述視頻圖像注釋應(yīng)用設(shè)備還可以包括顯示裝置,用于視頻圖像;以及顯示位置確定裝置,用于指定顯示與包含在所述視頻圖像中的對象相關(guān)聯(lián)的附加信息的位置,并用于顯示重疊在所述視頻圖像上的附加信息。利用此結(jié)構(gòu),可以彼此相關(guān)聯(lián)地顯示視頻圖像和作為附加信息的注釋。
所述視頻圖像注釋應(yīng)用設(shè)備還可以包括注釋結(jié)果存儲裝置,用于彼此相關(guān)聯(lián)地存儲附加信息和包含在所述視頻圖像中的對象。利用此結(jié)構(gòu),可以根據(jù)已存儲附加信息與包含在視頻圖像數(shù)據(jù)中的對象之間的關(guān)聯(lián)關(guān)系來搜索視頻圖像數(shù)據(jù)。
所述局部視頻圖像提取裝置可以具有根據(jù)所提取出的局部視頻圖像數(shù)據(jù)、任意改變視頻圖像區(qū)域的形狀和尺寸的功能。利用此結(jié)構(gòu),能夠提取出包含對象的局部視頻圖像數(shù)據(jù),而與包含在所述視頻圖像數(shù)據(jù)中的對象的形狀無關(guān)。
所述局部視頻圖像提取裝置可以在匹配以下條件之一或其組合的視頻圖像區(qū)域中提取局部視頻圖像亮度信息、顏色信息、形狀信息、紋理信息和尺寸信息。利用此結(jié)構(gòu),可以根據(jù)存儲在存儲裝置中的對象的可視特征信息來提取局部圖像數(shù)據(jù)。
如果所述局部視頻圖像提取裝置從匹配每個條件的組合的視頻圖像中提取局部視頻圖像數(shù)據(jù),則所述局部視頻圖像提取裝置可以確定所述條件的重要性,并根據(jù)所述匹配裝置的匹配結(jié)果和存儲在所述存儲裝置中的對象的可視特征信息來提取局部視頻圖像數(shù)據(jù)。利用此結(jié)構(gòu),可以根據(jù)存儲在存儲裝置中的對象的可視特征來提取局部圖像數(shù)據(jù)。
存儲在所述存儲裝置中的對象的可視特征信息可以包括作為具有與所述對象相似的可視特征的視頻圖像的模板視頻圖像。利用此結(jié)構(gòu),可以減少為了將對象的可視特征信息存儲在存儲裝置中而執(zhí)行的工作量。
存儲在所述存儲裝置中的對象的可視特征信息可以包括以下一項(xiàng)或多項(xiàng)顏色信息、形狀信息、紋理信息和尺寸信息,以及由所述可視特征信息設(shè)置裝置產(chǎn)生的局部視頻圖像數(shù)據(jù)的可視特征信息可以包括以下一項(xiàng)或多項(xiàng)顏色信息、形狀信息、紋理信息和尺寸信息。利用此結(jié)構(gòu),可視特征信息設(shè)置裝置可以定量地計(jì)算相似性。
存儲在所述存儲裝置中的對象的位置信息可以包括用于識別近似于與所述對象相類似的、包括圓錐、圓柱、立方體等在內(nèi)的三維立體幾何形狀的頂點(diǎn)之一、中心點(diǎn)或重心的位置的信息。利用此結(jié)構(gòu),可以減少位置信息的數(shù)據(jù)量。
存儲在所述存儲裝置中的對象的位置信息可以包括用于識別近似于具有多邊形表面的對象的三維形狀的至少一個頂點(diǎn)的位置的信息。利用此結(jié)構(gòu),可以減少位置信息的數(shù)據(jù)量。
存儲在所述存儲裝置中的對象的位置信息可以包括用于標(biāo)識對象的所有頂點(diǎn)中最高的頂點(diǎn)的位置的信息。利用此結(jié)構(gòu),可以減少位置信息的數(shù)據(jù)量。
存儲在所述存儲裝置中的對象的位置信息可以包括用于按照緯度、經(jīng)度和海拔高度來標(biāo)識對象的位置的信息。利用此結(jié)構(gòu),可以采用以GPS來捕獲其位置信息的位置數(shù)據(jù)。
所述存儲裝置可以針對作為多個對象的集合的對象集合的附加信息及其可視特征信息,按照分級模式,來存儲對象的附加信息及其可視特征信息,以及所述判定裝置可以根據(jù)存儲在所述存儲裝置中的對象集合的可視特征信息,確定捕獲其圖像的多個對象是否為對象集合,以及如果捕獲其圖像的多個對象是對象集合,則可以將對象集合的附加信息與對象集合彼此相關(guān)聯(lián)。利用此結(jié)構(gòu),可以將注釋與對象集合相關(guān)聯(lián)。
所述圖像捕獲信息可以包括捕獲數(shù)據(jù)和作為用于標(biāo)識捕獲日期和時間的信息的時間信息,所述存儲裝置可以存儲依賴于所述捕獲日期和時間的可視特征信息,以及所述相似性計(jì)算裝置可以相互比較局部視頻圖像數(shù)據(jù)的可視特征信息與依賴于由捕獲日期和時間信息標(biāo)識的所述捕獲日期和時間的可視特征信息,以計(jì)算二者之間的相似性。利用此結(jié)構(gòu),對象的可視特征量可以表示白天的亮色或夜間的暗色。顏色隨日期(如季節(jié))發(fā)生變化的對象(如山峰)可以具有能夠在冬天表示白色、在春天和夏天表示綠色或者在秋天表示紅色或黃色的可視特征量。因此,對象的可視特征信息可以隨著日期的變化而變化。因此,對象識別裝置能夠根據(jù)對象的可視特征隨著捕獲日期和時間的變化來識別對象。
所述局部視頻圖像提取裝置可以將所述輸入視頻圖像分割為區(qū)域,并提取分割后的區(qū)域,作為所述局部視頻圖像數(shù)據(jù)。
所述局部視頻圖像提取裝置可以將分割后的區(qū)域組合為所述局部視頻圖像數(shù)據(jù)。
所述局部視頻圖像提取裝置可以通過分級評估分割后的區(qū)域的組合來產(chǎn)生所述局部視頻圖像。
所述局部視頻圖像提取裝置可以在分級評估分割后的區(qū)域的組合時,在區(qū)域的組合中,只使用其相似性較高的多個區(qū)域來進(jìn)行隨后的組合。
可以將局部或整體、沿一個方向或多個方向觀察到的對象的多項(xiàng)可視信息保存為存儲在所述存儲裝置中的對象的可視特征信息。
根據(jù)本發(fā)明的一種車輛制導(dǎo)系統(tǒng)是一種適合于安裝在車輛上、用于根據(jù)GPS、在由顯示設(shè)備顯示的地圖上顯示其自身位置的車輛制導(dǎo)系統(tǒng),所述車輛制導(dǎo)系統(tǒng)包括上述視頻圖像注釋應(yīng)用設(shè)備。
根據(jù)本發(fā)明的一種識別視頻圖像對象的方法包括以下步驟輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲彼此相關(guān)的位置信息和可視特征信息,所述位置信息是表示對象的位置的信息,以及所述可視特征信息是表示對象的可視特征的數(shù)字值的信息;根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由所存儲的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,確定是否捕獲到對象的圖像。
根據(jù)本發(fā)明的一種應(yīng)用視頻圖像注釋的方法包括以下步驟輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲彼此相關(guān)的位置信息、可視特征信息和附加信息,所述位置信息是表示對象的位置的信息,所述可視特征信息是表示對象的可視特征的數(shù)字值的信息,以及所述附加信息是添加到對象上的信息;根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由所存儲的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,標(biāo)識包含在所述視頻圖像中的對象,并將所標(biāo)識出的對象與所存儲的附加信息彼此相關(guān)聯(lián)。
根據(jù)本發(fā)明的一種視頻圖像對象識別程序適合于安裝在視頻圖像對象識別設(shè)備中,用于確定所存儲的對象是否被作為主題包含在視頻圖像中,所述視頻圖像對象識別程序使計(jì)算機(jī)能夠執(zhí)行包括以下步驟的處理在存儲裝置中存儲彼此相關(guān)的位置信息和可視特征信息,所述位置信息是表示對象的位置的信息,以及所述可視特征信息是表示對象的可視特征的數(shù)字值的信息;根據(jù)作為用于確定將要捕獲圖像的區(qū)域的信息的圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;相互比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,確定是否捕獲到對象的圖像。
根據(jù)本發(fā)明的一種視頻圖像注釋應(yīng)用程序適合于安裝在視頻圖像注釋應(yīng)用設(shè)備中,用于將對象和所存儲的對象的信息彼此相關(guān)聯(lián),所述視頻圖像注釋應(yīng)用程序使計(jì)算機(jī)能夠執(zhí)行包括以下步驟的處理在存儲裝置中存儲彼此相關(guān)的位置信息、可視特征信息和附加信息,所述位置信息是表示對象的位置的信息,所述可視特征信息是表示對象的可視特征的數(shù)字值的信息,以及所述附加信息是添加到對象上的信息;根據(jù)作為用于確定將要捕獲圖像的區(qū)域的信息的圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,標(biāo)識包含在所述視頻圖像中的對象,并將所標(biāo)識出的對象與所存儲的附加信息彼此相關(guān)聯(lián)。
根據(jù)本發(fā)明,能夠通過相互比較對象的可視特征信息與局部視頻圖像數(shù)據(jù)的可視特征信息來確定對象是否作為視頻圖像被捕獲。如果確定對象作為視頻圖像被捕獲,則將對象與附加信息彼此相關(guān)聯(lián)。如果對象實(shí)際上并未作為視頻圖像被捕獲,則可以不顯示對象的信息。
根據(jù)本發(fā)明的車輛制導(dǎo)系統(tǒng)具有根據(jù)本發(fā)明的視頻圖像注釋應(yīng)用設(shè)備的功能。因此,如果對象實(shí)際上并未作為視頻圖像被捕獲,所述車輛制導(dǎo)系統(tǒng)可以不顯示所述對象的信息。


圖1是根據(jù)本發(fā)明實(shí)施例的結(jié)構(gòu)方框圖;圖2是示出了含義信息、位置信息和可視特征量的示例的示意圖;圖3是根據(jù)本發(fā)明第一實(shí)施例的結(jié)構(gòu)方框圖;圖4是根據(jù)本發(fā)明第一實(shí)施例的可視特征量比較裝置的方框圖;圖5是本發(fā)明第一實(shí)施例的操作流程圖;圖6是示出了以側(cè)視圖表示的將要捕獲圖像的區(qū)域的視圖;圖7是示出了以信息表示的將要捕獲圖像的區(qū)域的視圖;圖8是示出了將要捕獲圖像的區(qū)域的視圖;圖9是示出了圖像捕獲位置與候選對象上的代表點(diǎn)之間的關(guān)系的示例的視圖;圖10是示出了模板圖像的視圖;圖11是示出了通過整體光柵掃描進(jìn)行處理的圖像的視圖;圖12是示出了位于將要捕獲圖像的區(qū)域的右側(cè)的候選對象的視圖;圖13是示出了通過整體光柵掃描對其右半部進(jìn)行處理的圖像的視圖;圖14是示出了將視頻圖像分割為區(qū)域的方式的視圖;圖15是示出了分割后的區(qū)域和聯(lián)合區(qū)域的視圖;圖16是示出了被分割為區(qū)域的圖像的視圖;圖17是示出了減少其區(qū)域數(shù)量的圖像的視圖;圖18是示出了相互比較局部圖像和候選對象的方式的視圖;圖19是示出了地理對象集合的視圖;圖20是示出了分級含義信息的示意圖;圖21是按照平面圖和透視圖示出了地理對象的視圖;圖22是示出了被分割為部分的地理對象的視圖;
圖23是根據(jù)本發(fā)明第二實(shí)施例的結(jié)構(gòu)方框圖;圖24是根據(jù)本發(fā)明第一實(shí)施例的可視特征量比較裝置的方框圖;圖25是根據(jù)本發(fā)明第三實(shí)施例的結(jié)構(gòu)方框圖;圖26是示出了對其應(yīng)用了注釋的視頻圖像的示例的視圖;圖27是根據(jù)本發(fā)明第四實(shí)施例的結(jié)構(gòu)方框圖;圖28是根據(jù)本發(fā)明第五實(shí)施例的可視特征量比較裝置的方框圖;圖29是本發(fā)明第五實(shí)施例的操作流程圖;以及圖30是示出了分級組合評估處理的示意圖。
具體實(shí)施例方式
(本發(fā)明的第一實(shí)施例)圖1是根據(jù)本發(fā)明第一實(shí)施例的方框圖。下面將描述第一實(shí)施例的結(jié)構(gòu)。本發(fā)明的第一實(shí)施例包括輸入裝置1,用于輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是捕獲圖像的場所的信息;存儲裝置2,用于存儲作為視頻圖像主題的對象的信息;以及對象識別設(shè)備3,用于確定對象是否作為視頻圖像被捕獲。
輸入裝置1輸入從用于捕獲視頻圖像的視頻輸入單元(未示出)輸出的視頻圖像,例如,所述視頻輸入單元為CCD數(shù)字?jǐn)z像設(shè)備、視頻攝像設(shè)備等。輸入裝置1輸入表示捕獲視頻圖像時從視頻輸入單元輸出的視角的視角信息。如果不能改變視頻輸入單元的變焦比,則通過事先根據(jù)鏡頭的焦距和CCD的尺寸計(jì)算視角來產(chǎn)生視角信息。如果可以通過變焦動作改變視頻輸入單元的變焦比,則通過事先獲得表示變焦動作量與視角之間的關(guān)系的信息并根據(jù)捕獲視頻圖像時所產(chǎn)生的變焦動作量計(jì)算視角,產(chǎn)生視角信息。
輸入裝置1與用于測量輸入裝置1的緯度、經(jīng)度和海拔高度的GPS裝置相連,并標(biāo)識出圖像捕獲位置和運(yùn)動速度。輸入裝置1可以與加速度傳感器裝置相連,并可以通過相對于時間積分來自加速度傳感器裝置的輸出,標(biāo)識出運(yùn)動速度。輸入裝置1還與用于標(biāo)識視頻輸入單元捕獲視頻圖像的方向的磁羅盤裝置、電子羅盤裝置或陀螺羅盤裝置相連。
如果視頻輸入單元具有平轉(zhuǎn)(panning)和傾斜功能,則輸入裝置1測量平轉(zhuǎn)或傾斜動作量,并校正由磁羅盤裝置、電子羅盤裝置或陀螺羅盤裝置標(biāo)識出的圖像捕獲方向。當(dāng)在捕獲視頻圖像的同時,視頻輸入單元運(yùn)動時,輸入裝置1利用GPS裝置的路徑數(shù)據(jù)和來自磁羅盤裝置、電子羅盤裝置或陀螺羅盤裝置的輸出,標(biāo)識視頻輸入單元運(yùn)動的方向。圖像捕獲信息包括視角信息、作為用于標(biāo)識捕獲視頻圖像的日期和時間的信息的捕獲日期和時間信息、圖像捕獲位置信息、圖像捕獲方向信息、運(yùn)動方向信息和運(yùn)動速度信息。
存儲裝置2存儲對象的附加信息(如含義信息)和可視特征信息(如可視特征量)。含義信息是有關(guān)對象的信息,如對象的名稱、歷史、使用費(fèi)用、營業(yè)時間、地址、電話號碼、URL等。將含義信息應(yīng)用于視頻圖像中的對象被稱為應(yīng)用注釋。具體地,將注釋圖像添加到視頻圖像中的對象附近。
可視特征量是表示用于可視地識別對象的特征的數(shù)字量,所述特征如形狀、尺寸、紋理、邊緣、顏色等。例如,可視特征是利用由MPEG-7/Visual定義的可視描述符所涵蓋的顏色、紋理和形狀的特征組合之一所定義的可視特征矢量,如Akio Yamada,“Contentsdescription based on visual tools”,the journal of The Instituteof Image Information and Television Engineers,The Institute ofImage Information and Television Engineers,Nov.1,2002,Vol.56,No.11,p.1711-1714(此后稱為文獻(xiàn)A)中所公開。顏色特征由主色和顏色布局表示。紋理特征由邊緣直方圖表示。形狀特征由基于區(qū)域的形狀描述符等表示。
主色是出現(xiàn)最為頻繁的顏色的RGB表示。顏色布局是顏色在頻率軸上的空間分布。邊緣直方圖以直方圖的形式表示垂直、水平、傾斜和其他邊緣中的每一種出現(xiàn)了多少次。基于區(qū)域的形狀描述符是二進(jìn)制形狀數(shù)據(jù)的35個二維ART(角輻射變換)系數(shù)的描述符。
將對象Oci的可視特征量FOi描述為矢量表示FOi=(主色、顏色布局、邊緣直方圖、基于區(qū)域的形狀描述符、…)。
存儲裝置2可以根據(jù)捕獲對象的視頻圖像的日期和時間存儲一幅圖像的多個可視特征量。例如,對象的可視特征量可以表示白天的亮色或夜間的暗色。顏色隨日期(如季節(jié))發(fā)生變化的對象(如山峰)可以具有能夠在冬天表示白色、在春天和夏天表示綠色或者在秋天表示紅色或黃色的可視特征量。
如果可以通過表示緯度、經(jīng)度等的位置信息來標(biāo)識對象,如建筑物或人工結(jié)構(gòu)(如橋梁、塔等)或自然風(fēng)景(如山峰、湖泊等),則存儲裝置2存儲對象的位置信息。此后,將能夠通過位置信息來標(biāo)識的對象稱為地理對象。如火車等隨著時間運(yùn)動的對象不能僅通過位置信息來識別。但是,如果這種對象的位置每次可以通過圖表等來標(biāo)識,則可以通過表示時間和位置信息的組合的組合集合來標(biāo)識該對象。
用作位置信息的位置的信息可以由地理對象的中心或重心的緯度和經(jīng)度、或表示利用多邊形表面代表地理對象的三維形狀的每個頂點(diǎn)的位置的一組緯度、經(jīng)度和海拔高度數(shù)據(jù)來表示。如果使用這樣一組表示三維形狀的每個頂點(diǎn)的位置的數(shù)據(jù),則所涉及的數(shù)據(jù)量較大。因此,可以提取并使用三維形狀的一個或多個頂點(diǎn)的位置信息?;蛘?,可以將地理對象的形狀近似為圓錐形、圓柱形、立方體形等,并可以使用近似形狀的中心、重心或頂點(diǎn)的位置信息,或者可以提取并使用一個頂點(diǎn)的位置信息。例如,可以將東京大廈近似為金字塔形,并可以將五個頂點(diǎn)的位置信息用作地理對象的位置信息??梢詫ο蟮淖罡唿c(diǎn)(海拔高度最高的頂點(diǎn))的位置信息用作地理對象的位置信息。由于與其他頂點(diǎn)相比,認(rèn)為在捕獲對象的視頻圖像時,最高點(diǎn)不太容易被其他對象的出現(xiàn)而遮擋,優(yōu)選地使用對象的最高點(diǎn)作為地理對象的位置信息。
含義信息、由最高點(diǎn)的緯度和經(jīng)度表示的位置信息以及可視特征的示例如圖2所示。盡管可視特征量實(shí)際可用作數(shù)字值,為了簡潔,以圖形形狀和字符表示。
存儲裝置2將信息作為多個分離的片段或一整塊存儲在如CD-ROM、DVR-R、硬盤、存儲器等記錄介質(zhì)中。由讀取裝置從單一的介質(zhì)或多個介質(zhì)中讀取所存儲的信息。存儲裝置2可以通過如因特網(wǎng)等計(jì)算機(jī)網(wǎng)絡(luò)獲取信息。
對象識別設(shè)備3由計(jì)算機(jī)實(shí)現(xiàn),并計(jì)算由輸入裝置1捕獲的視頻圖像(局部或整體)的可視特征量和存儲在存儲裝置2中的地理對象的可視特征量之間的相似性。
圖3示出了根據(jù)本發(fā)明第一實(shí)施例的對象識別設(shè)備3的結(jié)構(gòu)。下面將描述對象識別設(shè)備3的結(jié)構(gòu)。圖3和圖4所示的裝置由程序?qū)崿F(xiàn)。
對象識別設(shè)備3包括圖像捕獲區(qū)域估計(jì)裝置;匹配裝置;和候選對象搜索裝置(例如,將其中之一實(shí)現(xiàn)為候選對象搜索裝置30),用于根據(jù)地理對象的圖像捕獲信息和位置信息,提取出作為可能已經(jīng)捕獲到其圖像的地理對象的候選對象;相似性計(jì)算裝置(例如,將其實(shí)現(xiàn)為可視特征量比較裝置31),用于計(jì)算由候選對象搜索裝置30提取出的候選對象的可視特征量與由輸入裝置1捕獲的視頻圖像(局部或整體)的可視特征量之間的相似性;以及判定裝置32,用于將所計(jì)算出的相似性與預(yù)定閾值進(jìn)行比較,以確定是否捕獲到對象的圖像。
圖4示出了可視特征量比較裝置31的結(jié)構(gòu)。下面將描述可視特征量比較裝置31的結(jié)構(gòu)。可視特征量比較裝置31包括局部圖像提取裝置310,用于提取作為由輸入設(shè)備1捕獲的視頻圖像(局部或整體)的局部視頻圖像;可視特征量設(shè)置裝置311,用于設(shè)置所提取出的局部視頻圖像的可視特征量;以及特征量比較裝置312,用于計(jì)算存儲在存儲裝置2中的候選對象的可視特征量與局部視頻圖像的可視特征量之間的相似性??梢曁卣餍畔⒃O(shè)置裝置由可視特征量設(shè)置裝置311實(shí)現(xiàn)。
下面,將參照圖5所示的流程圖,對操作進(jìn)行描述。首先,視頻輸入單元捕獲視頻圖像,并將表示視頻圖像的視頻圖像數(shù)據(jù)輸入輸入裝置1。輸入裝置1將輸入視頻圖像數(shù)據(jù)記錄在視頻圖像記錄介質(zhì)上(步驟A1)。輸入裝置1輸入與圖像捕獲位置、圖像捕獲方向、運(yùn)動方向和運(yùn)動速度有關(guān)的信息以及視角信息,組合輸入信息以產(chǎn)生圖像捕獲信息(步驟A2),并將所產(chǎn)生的圖像捕獲信息記錄在其上記錄有視頻圖像數(shù)據(jù)的視頻圖像記錄介質(zhì)上。如果按照J(rèn)PEG壓縮視頻圖像數(shù)據(jù)的每一幀,則將圖像捕獲信息記錄在圖像數(shù)據(jù)的報(bào)頭中,或者將圖像數(shù)據(jù)和圖像捕獲信息與時間相關(guān)聯(lián),從而使圖像數(shù)據(jù)和圖像捕獲信息一一對應(yīng)地彼此相關(guān)聯(lián)。
如視頻攝像設(shè)備等普通圖像捕獲設(shè)備每秒記錄30幀圖像數(shù)據(jù)。但是,利用GPS功能獲取的、表示緯度和經(jīng)度的位置信息每秒獲得一次。因此,優(yōu)選地,利用包含在圖像捕獲信息中的運(yùn)動方向和運(yùn)動速度的信息,校正最終獲得的、表示緯度和經(jīng)度的位置信息,并將校正后的位置信息和視頻圖像數(shù)據(jù)一一對應(yīng)地彼此相關(guān)聯(lián)。
根據(jù)由輸入裝置1產(chǎn)生的圖像捕獲信息,候選對象搜索裝置30計(jì)算表示視頻輸入單元能夠在其中捕獲圖像的范圍的、將要捕獲圖像的區(qū)域(步驟A3)。
下面,將在圖像捕獲位置由C表示,圖像捕獲方向由θ表示,地理對象的代表點(diǎn)由O表示,以及地理對象的緯度、經(jīng)度和海拔高度分別由Oi1、Oi2、Oi3表示的假設(shè)下,對將要捕獲圖像的區(qū)域進(jìn)行描述。如圖6和7所示,將要捕獲圖像的區(qū)域是從圖像捕獲位置開始、沿圖像捕獲方向延伸、并由視角和地平面圍繞的空間。
如圖8所示,假設(shè)圖像捕獲位置由C表示,成像設(shè)備具有右上、左上、右下和左下端點(diǎn)UR、UL、DR、DL,包括C、UR、UL的平面Su、包括C、UR、DR的平面Sr、包括C、DR、DL的平面Sd、包括C、UL、DL的平面S1和地平面Se。這些平面由以下所示的公式(1)表示。如果圖像捕獲方向θ是指向北方且與地平面平行的方向,則圖像捕獲方向θ是0。公式(1)表示其原點(diǎn)位于地平面上的給定位置的正交坐標(biāo)系統(tǒng)中的平面Su、Sd、Sr、Sl、Se。
Su:fsu(x,y,z)=0Sd:fsd(x,y,z)=0Sr:fsr(x,y,z)=0Sl:fsl(x,y,z)=0Se:fse(x,y,z)=0...(1)]]>為了簡潔,下面將描述將要以等于或小于180度的視角捕獲圖像的區(qū)域。將要捕獲圖像的區(qū)域由夾在Su、Sd、Sr、Sl之間、位于地平面Se上方、且與圖像捕獲方向θ保持在90度或更小以內(nèi)的空間來限定。因此,將要捕獲圖像的區(qū)域可以表示為滿足公式(2)的空間。在公式(2)中,Cx、Cy、Cz表示將其緯度C1、經(jīng)度C2和海拔高度C3轉(zhuǎn)換為正交坐標(biāo)系統(tǒng)中的數(shù)值的、圖像捕獲位置C的位置信息,θx是形成在θ和緯線之間的夾角,θy是形成在θ和經(jīng)線之間的夾角,以及θz是形成在θ和與地面正交的直線之間的夾角。
fsu(x,y,z)fsd(x,y,z)≤0fsr(x,y,z)fsl(x,y,z)≤0fse(x,y,z)≥0θxθyθz·x-Cxy-Cyz-Cz>0...(2)]]>然后,對象識別設(shè)備3的候選對象搜索裝置30讀取存儲在存儲裝置2中的地理對象的位置信息(步驟A4)。利用所讀取的地理對象的位置信息,候選對象搜索裝置30搜索可能被視頻輸入單元成像的地理對象??赡鼙灰曨l輸入單元成像的地理對象是具有滿足公式(2)的位置信息的地理對象。候選對象搜索裝置30提取出具有滿足公式(2)的位置信息的地理對象,作為候選對象。即,候選對象搜索裝置30進(jìn)行將要捕獲圖像的區(qū)域與由存儲在存儲裝置2中的地理對象的位置信息表示的位置之間的匹配。
滿足公式(2)但距離圖像捕獲位置很遠(yuǎn)的那些地理對象的圖像很難被捕獲。因此,如果圖像捕獲位置和地理對象之間的距離(根據(jù)圖像捕獲位置的信息和地理對象的位置信息進(jìn)行計(jì)算)大于預(yù)定閾值Th1,則候選對象搜索裝置30可以不提取該地理對象。但是,即使地理對象和圖像捕獲位置之間的距離較大,仍然可能捕獲從遠(yuǎn)處可以看到的地理對象(如山峰等)的圖像。因此,如圖9所示,可以確定從圖像捕獲位置看到地理對象的頂端的仰角,如果所確定的仰角超出預(yù)定閾值Th2,則候選對象搜索裝置30可以提取該地理對象。
此外,如果圖像捕獲方向θ與從圖像捕獲位置朝向地理對象的方向之間的差較大,地理對象的圖像也很難被捕獲。因此,如果在從圖像捕獲位置C到地理對象的水平距離Dist等于或小于閾值Th1、從圖像捕獲位置看到地理對象的頂端的仰角等于或小于閾值Th2、且由圖像捕獲方向θ和從圖像捕獲位置朝向地理對象的方向之間的差表示的水平角誤差等于或小于閾值Th3的條件下,提取候選對象,則能夠減少候選對象的數(shù)量。利用Th1、Th2、Th3,候選對象要滿足的條件由下面的公式(3)表示。在公式(3)中,Oix、Oiy、Oiz表示將其緯度Oi1、經(jīng)度Oi2和海拔高度Oi3轉(zhuǎn)換為正交坐標(biāo)系統(tǒng)中的數(shù)值的、地理對象的代表點(diǎn)O的位置信息。在本實(shí)施例中,進(jìn)一步根據(jù)公式(3)縮減候選對象(步驟A5)。
Dist=(Cx-Oix)2+(Cy-Oiy)2≤Th1|θ-tan-1(Cx-OixCy-Oiy)|≤Th2|tan-1(Oiz-CzDist)|≥Th3...(3)]]>將滿足由公式(2)和(3)所表示的條件的M個候選對象描述為候選對象Oci(i=1到M)。當(dāng)候選對象搜索裝置30提取出候選對象Oci時,候選對象搜索裝置30向可視特征量比較裝置31輸出指定了所提取出的候選對象Oci的信息。
可視特征量比較裝置31讀取已經(jīng)被存儲在存儲裝置2中的候選對象Oci的可視特征量FOi(步驟A6)。存儲裝置2將候選對象Oci的可視特征量FOi存儲為矢量表示FOi=(主色、顏色布局、邊緣直方圖、基于區(qū)域的形狀描述符、…)。
或者,可以將具有類似于對象的可視特征的模板圖像用作可視特征量。模板圖像是事先準(zhǔn)備的、具有一般形狀的對象的視頻圖像,例如,如圖10所示。存儲裝置2可以存儲這種模板圖像作為可視特征量。
局部圖像提取裝置310提取表示從由輸入裝置1所捕獲的視頻圖像(局部或整體)中提取出的視頻圖像的局部視頻圖像數(shù)據(jù)(此后稱為局部視頻圖像)(步驟A7)。按照提取局部視頻圖像的一種處理,如圖11所示,在光柵掃描下,從左上角到右下角,對拉長矩形框進(jìn)行處理,以提取出此框中的視頻圖像。如果根據(jù)候選對象的可視特征量或用戶的指令改變框的尺寸,則可以提取出具有多種尺寸的局部視頻圖像。所述框并不局限于拉長矩形形狀,也可以是正方形、圓形、橢圓形等。
局部圖像提取裝置310可以讀取候選對象的位置信息和包含在圖像捕獲信息中的圖像捕獲方向信息,并可以估計(jì)每個候選圖像Oci的位置是位于圖像捕獲方向的右側(cè)、左側(cè)還是中心。為了提取出局部視頻圖像而進(jìn)行光柵掃描處理的范圍可以并不覆蓋整幅視頻圖像,而可以將其限定在視頻圖像的右半部、左半部、右側(cè)四分之一、左側(cè)四分之一或中心區(qū)域,從而減少由用于提取局部視頻圖像的局部圖像提取裝置310執(zhí)行的處理量。
圖12示出了位于將要捕獲圖像的區(qū)域的右側(cè)的候選對象。將候選對象可能位于視頻圖像中的范圍限定為視頻圖像的右側(cè)。因此,如圖13所示,可以將用于提取局部視頻圖像的范圍限定為視頻圖像的右側(cè)。類似地,可以將候選對象可能位于視頻圖像中的范圍限定為視頻圖像的上側(cè)或下側(cè),并將用于提取局部視頻圖像的范圍限定為視頻圖像的上側(cè)或下側(cè)。此外,可以根據(jù)候選對象和圖像捕獲位置之間的距離、候選對象的尺寸等來限定要提取的局部視頻圖像的范圍。
可以采用利用分割來提取局部視頻圖像的處理。所述分割表示根據(jù)對像素和范圍的顏色、邊緣、邊界復(fù)雜性等的分析,將視頻圖像分割為幾個區(qū)域的處理。
按照“On segmentation for object image retrieval”,Hirata,K.;Kasutani,E.;Hara,Y.,Pattern Recognition,2002,Proceedings,16thInternational Conference,on Volume 3,p.1031-1034中所描述的處理來進(jìn)行分割。
根據(jù)分割,產(chǎn)生每一個均由具有相同顏色的一簇相鄰像素構(gòu)成的區(qū)域。然后,聯(lián)合彼此在復(fù)雜邊界兩端相鄰且具有類似顏色的區(qū)域。
聯(lián)合彼此靠近且具有相似顏色和紋理的區(qū)域。然后,聯(lián)合具有復(fù)雜邊界、彼此靠近且具有相似顏色和紋理的區(qū)域。最后,將零星散布在較大區(qū)域周圍的較小區(qū)域聯(lián)合成較大的區(qū)域。
圖14示出了將視頻圖像分割為區(qū)域的方式。下面,將詳細(xì)描述將視頻圖像分割為區(qū)域并提取出區(qū)域的處理。在圖14中,假設(shè)要提取的區(qū)域是位于視頻圖像右側(cè)的B大廈。
首先,按照分割處理、根據(jù)顏色和邊緣,將視頻圖像分割為區(qū)域。被分割為區(qū)域的B大廈如圖15左側(cè)所示。分割后的區(qū)域由Ri(i=1到p)來表示??梢钥吹?,B大廈被分割為區(qū)域R4到R7。然后,按照分割處理,聯(lián)合分割后的區(qū)域。B大廈的聯(lián)合區(qū)域如圖15右側(cè)所示。如果通過聯(lián)合區(qū)域Ri、Rj而產(chǎn)生的區(qū)域由Ri-j表示,則B大廈的聯(lián)合區(qū)域由R4-5-6-7來表示,指示出聯(lián)合了B大廈的各個區(qū)域。
重復(fù)通過聯(lián)合區(qū)域Ri、Rj的區(qū)域Ri-j的產(chǎn)生。通過聯(lián)合多個組合后的區(qū)域并提取出聯(lián)合區(qū)域來產(chǎn)生局部視頻圖像。
為了有效地分割和聯(lián)合區(qū)域,可以逐個候選圖像地改變分割區(qū)域的處理和聯(lián)合區(qū)域的處理。下面,將參照圖16所示的視頻圖像,描述利用候選對象的可視特征量來改變分割區(qū)域的處理和聯(lián)合區(qū)域的處理。如圖2中B大廈一列所示,B大廈的可視特征量的邊緣直方圖指出傾斜元素較多,且“紅色”和“白色”較強(qiáng),是主色。
通過改變局部圖像提取裝置310的參數(shù),增加對傾斜邊緣邊界線、紅色區(qū)域和白色區(qū)域的靈敏度,來分割區(qū)域。現(xiàn)在,如圖17所示地對區(qū)域進(jìn)行了分割。在圖17中,實(shí)線表示分割后的區(qū)域的邊界線。通過這樣分割和聯(lián)合區(qū)域,可以減少區(qū)域的數(shù)量,并且可以減少所提取出的局部視頻圖像的數(shù)量。局部圖像提取裝置310可以根據(jù)候選對象的可視特征量,在匹配亮度信息、顏色信息、形狀信息、紋理信息、尺寸信息等之一或其組合的視頻圖像區(qū)域中提取局部視頻圖像。
局部圖像提取裝置310向可視特征量設(shè)置裝置311輸出所提取出的局部視頻圖像。可視特征量設(shè)置裝置311按照多種已知處理中的任意一種,計(jì)算由局部圖像提取裝置310提取出的局部視頻圖像的可視特征量,例如,文獻(xiàn)A中所描述的處理,并設(shè)置計(jì)算出的可視特征量(步驟A8)。然后,可視特征量設(shè)置裝置311向特征量比較裝置312輸出所設(shè)置的可視特征量。
特征量比較裝置312計(jì)算候選對象的可視特征量FOi和局部視頻圖像的可視特征量Fr之間的相似性MSi。圖18示出了局部視頻圖像和候選對象之間的比較示例。將候選對象Oci的可視特征量FOi表示為FOi=(主色、顏色布局、邊緣直方圖、基于區(qū)域的形狀描述符、…)。將局部視頻圖像的可視特征量Fr表示為Fr=(主色、顏色布局、邊緣直方圖、基于區(qū)域的形狀描述符、…)。將相似性矢量Si表示為Si=(主色的相似性、顏色布局的相似性、邊緣直方圖的相似性、基于區(qū)域的形狀描述符的相似性、…)。
考慮到候選對象的代表顏色和局部視頻圖像的代表顏色之間的相關(guān)性來計(jì)算主色的相似性。顏色布局的相似性是通過引入將每個顏色分量和每個頻率分量的可視特征反映為亮度分量系數(shù)和色差分量系數(shù)的加權(quán)而計(jì)算出的L2標(biāo)準(zhǔn)和。例如,邊緣直方圖的相似性是候選對象的直方圖和局部視頻圖像的直方圖中的五個邊緣元素的差分絕對值和?;趨^(qū)域的形狀描述符的相似性是針對構(gòu)成描述符的每個元素計(jì)算出的、局部視頻圖像和候選對象的差分絕對值和。
按照公式(4)表示和計(jì)算相似性(步驟A9)。
MSi=|Si|…(4)應(yīng)當(dāng)對作為相似性矢量Si的分量的每個相似性進(jìn)行歸一化,從而使其小于等于1且大于等于0。
下面,將描述可視特征量比較裝置31利用模板視頻圖像作為可視特征量時、計(jì)算相似性的處理。如果假設(shè)模板視頻圖像由Toi(x,y)表示,視頻圖像由F(x,y)表示,以及模板視頻圖像的面積由SF表示,則按照公式(5)表示和計(jì)算相似性MSi(x,y)。
(X,Y)=Σx,y|F(X+x,Y+y)-Toi(x,y)|SF...(5)]]>例如,如果模板視頻圖像的范圍由O≤x≤29且0≤y≤49表示,則公式(5)表示從視頻圖像上的特定點(diǎn)(X,Y)開始、模板視頻圖像范圍內(nèi)的視頻圖像與模板視頻圖像之間的相似性。
針對整幅視頻圖像或由局部圖像提取裝置310提取出的所有局部視頻圖像,計(jì)算上述相似性,并將計(jì)算出的相似性輸出給判定裝置32。整幅視頻圖像和局部視頻圖像彼此相關(guān),從而當(dāng)所計(jì)算出的相似性的數(shù)字值較小時,其可視相關(guān)性較大。此后,將所計(jì)算出的相似性的最小數(shù)字值稱為最大相關(guān)性。
判定裝置32提取出針對候選對象的最大相似性MSmaxi,并確定最大相似性MSmaxi是否小于預(yù)定閾值Thi(步驟A11)。
如果最大相似性MSmaxi小于閾值Thi,則判定裝置32判斷候選對象出現(xiàn)在視頻圖像中,從存儲裝置2中讀取包含作為候選對象的地理對象的局部圖像和候選對象的含義信息,并將其彼此相關(guān)聯(lián)地輸出(步驟A12)。即,判定裝置32將注釋應(yīng)用于視頻圖像。判定裝置32將注釋視頻圖像輸出到如液晶顯示設(shè)備等顯示設(shè)備或如硬盤驅(qū)動器、存儲器等存儲設(shè)備。
如果地理對象包括多個建筑物,如在寺廟等中,如圖19所示,則整個寺廟的可視特征量可能會根據(jù)觀察寺廟的位置而發(fā)生很大的變化。因此,優(yōu)選的是,將作為地理對象的各個建筑物(如大殿和五層寶塔等)的含義信息按照分級的模式(如類似樹的模式)存儲在存儲裝置2中。例如,如果存在多項(xiàng)含義信息所共有的概念(共有概念),則將這些含義信息作為與從樹的一個節(jié)點(diǎn)延伸出去的多個分支相對應(yīng)的含義信息存儲在存儲裝置2中。優(yōu)選地,應(yīng)當(dāng)將與樹的節(jié)點(diǎn)相對應(yīng)的共有含義信息(表示每個含義信息的共有概念的含義信息)存儲在存儲裝置2中。如果存在多項(xiàng)共有含義信息所共有的概念,則將這些共有含義信息作為與從樹的一個節(jié)點(diǎn)延伸出去的多個分支相對應(yīng)的高層共有含義信息存儲在存儲裝置2中。優(yōu)選地,應(yīng)當(dāng)將與共有含義信息的節(jié)點(diǎn)相對應(yīng)的高層共有含義信息存儲在存儲裝置2中。具體地,如圖20所示,事先產(chǎn)生一組地理對象(如大殿和五層寶塔等)的高級概念的含義信息(如D寺廟等)。當(dāng)判定裝置32識別出與對應(yīng)于共有含義信息的底層概念的含義信息(如大殿和五層寶塔等)相對應(yīng)的地理對象時,判定裝置32應(yīng)用作為此組地理對象的高層概念的注釋“D寺廟”。
類似地,如圖21所示,如C建筑等地理對象的輪廓可能會根據(jù)捕獲地理對象的圖像的方向而發(fā)生很大的變化。如圖22所示,可以將這種地理對象分割為多個地理對象,并將分割后的地理對象的可視特征量存儲在存儲裝置2中。在這種情況下,如圖20所示,將與分割后的地理對象的含義信息的高層概念相對應(yīng)的共有含義信息(如C建筑等)存儲在存儲裝置2中,并且如果存在與共有含義信息的高層概念相對應(yīng)的共有含義信息(如新宿高層建筑群等),則將該共有含義信息存儲在存儲裝置2中。如果局部圖像提取裝置310提取出按照各個地理對象分割后的地理對象的各個部分,則判定裝置32確定存儲裝置2中是否存儲有與含義信息的高層概念相對應(yīng)的共有含義信息(如C建筑右側(cè))。如果在存儲裝置2中存儲有這種共有含義信息,則判定裝置32應(yīng)用作為此組地理對象的高層概念的注釋“C建筑”。
可能會將其中并未完整成像地理對象的視頻圖像輸入輸入裝置1,例如當(dāng)?shù)乩韺ο蟮囊徊糠直蝗鐦淠尽⑷说日系K物所遮擋時,或者當(dāng)具有復(fù)雜形狀的地理對象的一部分遮擋住其他主要部分時。在這種情況下,如果將地理對象的一部分分割為地理對象,并將分割后的地理對象的可視特征量存儲在存儲裝置2中,則局部圖像提取裝置310可以根據(jù)所成像的部分識別出地理對象,并提取出局部視頻圖像。因此,與未分割地理對象地提取出局部視頻圖像相比,可以更能禁受建筑物的方向變化地應(yīng)用注釋。
不僅可以將整個地理對象,而且可以將部分被遮擋的地理對象的多個特征量額外地或代替地存儲在存儲設(shè)備中。不僅可以將沿一個方向成像的地理對象,而且可以將沿多個方向或從多個位置成像的地理對象的多個特征量額外地或代替地存儲在存儲設(shè)備中。利用從接近于輸入視頻圖像的圖像捕獲位置或圖像捕獲方向的方向上捕獲的特征量,能夠處理其可視特征根據(jù)觀察方向發(fā)生很大變化的地理對象。
針對所有候選對象,重復(fù)執(zhí)行上述步驟A6到A12(步驟A13)。根據(jù)本發(fā)明的視頻注釋應(yīng)用設(shè)備針對輸入到輸入裝置1中的每幀視頻圖像進(jìn)行步驟A6到A13的處理。但是,如果由視頻輸入單元捕獲的視頻圖像為每秒30幀,而輸入到輸入裝置1中的視頻圖像為每秒3幀,則將注釋應(yīng)用于由視頻輸入單元捕獲的視頻圖像的十幀中的一幀。在這種情況下,可以將注釋的輸出保持1/3秒,從而不受干擾地將注釋應(yīng)用于由視頻輸入單元捕獲的視頻圖像。
根據(jù)本實(shí)施例,相互比較局部視頻圖像的可視特征量和存儲在存儲裝置2中的對象的可視特征量,以確定對象是否作為視頻圖像被捕獲。如果判斷出對象作為視頻圖像被捕獲,則將對象與注釋彼此相關(guān)聯(lián)。因此,可以防止實(shí)際上并未作為視頻圖像被捕獲的對象的注釋與視頻圖像相關(guān)聯(lián)。此外,將要計(jì)算其與局部視頻圖像的相似性的地理對象縮減為存儲在存儲裝置2中、且滿足其是否出現(xiàn)在將要捕獲圖像的區(qū)域中的條件的那些地理對象。因此,降低了可視特征量比較裝置31上的數(shù)據(jù)處理負(fù)擔(dān)。
(本發(fā)明的第二實(shí)施例)圖23是本發(fā)明第二實(shí)施例的方框圖。下面將描述第二實(shí)施例的結(jié)構(gòu)。本發(fā)明的第二實(shí)施例包括輸入裝置1,用于輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是捕獲圖像的場所的信息;存儲裝置2,用于存儲作為視頻圖像主題的對象的信息;以及對象識別設(shè)備4,用于確定對象是否作為視頻圖像被捕獲。
輸入裝置1和存儲裝置2與第一實(shí)施例相同,以下將不再對其進(jìn)行描述。對象識別設(shè)備4包括圖像捕獲區(qū)域估計(jì)裝置;匹配裝置;和出現(xiàn)概率計(jì)算裝置(例如,出現(xiàn)概率計(jì)算裝置40),用于根據(jù)圖像捕獲信息的位置信息和地理對象的位置信息,計(jì)算作為捕獲地理對象的圖像的概率的出現(xiàn)概率;相似性計(jì)算裝置(例如,可視特征量比較裝置41),用于計(jì)算存儲在存儲裝置2中的地理對象的可視特征量與由輸入裝置1輸入的視頻圖像(局部或整體)的可視特征量之間的相似性;以及判定裝置42,用于總體評估出現(xiàn)概率和相似性,以確定是否捕獲到地理對象的圖像。
圖24示出了可視特征量比較裝置41的結(jié)構(gòu)。下面將描述可視特征量比較裝置41的結(jié)構(gòu)??梢曁卣髁勘容^裝置41包括局部圖像提取裝置410,用于從由輸入設(shè)備1輸入的視頻圖像中提取局部視頻圖像;可視特征量設(shè)置裝置411,用于設(shè)置所提取出的局部視頻圖像的可視特征量;以及特征量比較裝置412,用于計(jì)算存儲在存儲裝置2中的地理對象的可視特征量與局部視頻圖像的可視特征量之間的相似性。
下面,將描述本實(shí)施例的操作。本實(shí)施例的操作與第一實(shí)施例的操作的不同之處在于圖5所示的流程圖中的步驟A5和步驟A11。以下將不再對操作的其他細(xì)節(jié)進(jìn)行描述。
根據(jù)第一實(shí)施例,在圖5所示的流程圖中的步驟A5中,候選對象搜索裝置30提取候選對象。根據(jù)本實(shí)施例,并不提取候選對象。因此,特征量比較裝置412將存儲在存儲裝置2中的所有地理對象的可視特征量與局部視頻圖像的可視特征量進(jìn)行比較。
根據(jù)第一實(shí)施例,在圖5所示的流程圖中的步驟A11中,相對于預(yù)定閾值Thi,確定最大相似性MSmaxi。根據(jù)本實(shí)施例,出現(xiàn)概率計(jì)算裝置40計(jì)算作為捕獲存儲在存儲裝置2中的每個地理對象的圖像的概率的出現(xiàn)概率Pi。判定裝置42將出現(xiàn)概率Pi與由特征量比較裝置412計(jì)算出的最大相似性MSmaxi的倒數(shù)相乘,從而計(jì)算出綜合得分。如果綜合得分的數(shù)字值大于預(yù)定閾值,則判定裝置42判斷地理對象出現(xiàn)在視頻圖像中,并從存儲裝置2中讀取地理對象的含義信息。然后,判定裝置42彼此相關(guān)聯(lián)地輸出包含地理對象的局部圖像和從存儲裝置2中讀取出的地理對象的含義信息。
為了確定出現(xiàn)概率Pi,按照公式(3),針對水平距離、水平角誤差和仰角,事先產(chǎn)生表示捕獲地理對象的圖像的概率分布的概率密度分布。根據(jù)概率密度分布,計(jì)算出現(xiàn)概率。在水平軸表示像素?cái)?shù)、垂直軸表示概率的曲線圖中,概率密度分布是高斯分布。由于能夠根據(jù)GPS的測量精度、圖像捕獲方向的角度精度和從圖像捕獲位置到地理對象的距離,估計(jì)出視頻圖像上的地理對象的位置誤差,通過設(shè)置高斯分布的□值的誤差來確定概率密度分布。
根據(jù)本實(shí)施例,根據(jù)通過比較捕獲地理對象的圖像的概率、局部視頻圖像的可視特征量和存儲在存儲裝置2中的對象的可視特征量而產(chǎn)生的結(jié)果,確定對象是否作為視頻圖像被捕獲。因此,防止了出現(xiàn)在將要捕獲圖像的區(qū)域中、但其作為視頻圖像被捕獲的概率較低的對象的注釋與視頻圖像相關(guān)聯(lián)。
(本發(fā)明的第三實(shí)施例)圖25是本發(fā)明第三實(shí)施例的方框圖。下面將描述第三實(shí)施例的結(jié)構(gòu)。除了添加了布局裝置51和顯示裝置52以外,本發(fā)明的第三實(shí)施例具有類似于第一實(shí)施例的結(jié)構(gòu)。第三實(shí)施例與第一實(shí)施例等同的那些裝置以與圖1所示相同的參考符號來表示,并且不再對其進(jìn)行描述。顯示位置確定裝置由布局裝置51實(shí)現(xiàn)。
當(dāng)按照重疊關(guān)系顯示視頻圖像和應(yīng)用于從視頻圖像中提取出的局部視頻圖像的注釋時,布局裝置51確定注釋的顯示位置,并將所確定的顯示位置輸出到顯示裝置52。顯示裝置52將注釋重疊在視頻圖像上,并在由布局裝置51確定的顯示位置處顯示注釋。
圖26示出了由顯示裝置51利用重疊在視頻圖像上的注釋、顯示的視像的示例。布局裝置51將注釋的顯示位置確定為位于局部視頻圖像下方、上方、右側(cè)或左側(cè)、但不與另一局部視頻圖像重疊的位置。如果26所示,如果因?yàn)榱硪痪植繄D像的出現(xiàn),在距離局部視頻圖像超過預(yù)定距離的位置處顯示注釋,則可以通過箭頭相互連接局部圖像和注釋。
根據(jù)本實(shí)施例,確定了視頻圖像上要顯示注釋的位置。因此,可以通過視頻圖像來表示對象和注釋之間的關(guān)聯(lián)性。
(本發(fā)明的第四實(shí)施例)圖27是本發(fā)明第四實(shí)施例的方框圖。下面將描述第四實(shí)施例的結(jié)構(gòu)。除了添加了注釋結(jié)果存儲裝置61以外,本發(fā)明的第四實(shí)施例具有類似于第一實(shí)施例的結(jié)構(gòu)。第四實(shí)施例與第一實(shí)施例等同的那些裝置以與圖1所示相同的參考符號來表示,并且不再對其進(jìn)行描述。
注釋結(jié)果存儲裝置61在保持其關(guān)聯(lián)的同時,存儲局部視頻圖像和與該局部視頻圖像相關(guān)聯(lián)的地理對象的含義信息的集合。注釋結(jié)果存儲裝置61采用如存儲器、硬盤驅(qū)動器、CD-ROM或DVD-RAM等存儲介質(zhì)。注釋結(jié)果存儲裝置61可以存儲局部視頻圖像在視頻圖像上的位置的信息,并且可以輸出與所輸入的關(guān)鍵字匹配的視頻圖像。例如,如果局部視頻圖像在視頻圖像上的位置可以通過x和y坐標(biāo)的數(shù)字值來標(biāo)識,并且注釋結(jié)果存儲裝置61存儲了在右側(cè)具有B大廈的視頻圖像、含義信息(B大廈)和局部視頻圖像在視頻圖像上的位置的信息((x,y)=(120,240)),則在輸入關(guān)鍵字“對象=B大廈”且“區(qū)域=x<320”時,如下所述地顯示視頻圖像。假設(shè)整幅視頻圖像的x的最大值為640。
首先,搜索并標(biāo)識匹配局部視頻圖像在視頻圖像上的位置為“x<320”的條件的含義信息“B大廈”的集合。然后,可以提取出與所標(biāo)識出的集合相關(guān)聯(lián)的“右側(cè)具有B大廈的視頻圖像”。用戶可以利用注釋結(jié)果存儲裝置61的鍵盤等輸入關(guān)鍵字,或者可以通過麥克風(fēng)等通過語音輸入關(guān)鍵字。用戶可以事先使注釋結(jié)果存儲裝置61存儲其自身的愛好,并且注釋結(jié)果存儲裝置61可以根據(jù)存儲在其中的用戶愛好來產(chǎn)生關(guān)鍵字。
本實(shí)施例具有用于彼此相關(guān)聯(lián)地存儲注釋和包含在視頻圖像數(shù)據(jù)中的對象的注釋結(jié)果存儲裝置。因此,可以根據(jù)所存儲的注釋和包含在視頻圖像數(shù)據(jù)中的對象之間的關(guān)聯(lián)性來搜索視頻圖像數(shù)據(jù)。
(本發(fā)明的第五實(shí)施例)圖28是根據(jù)本發(fā)明第五實(shí)施例的可視特征量比較裝置的方框圖。下面將描述第五實(shí)施例的結(jié)構(gòu)。
除了添加了結(jié)果保存裝置513以外,本發(fā)明的第五實(shí)施例的結(jié)構(gòu)類似于第一實(shí)施例的可視特征量比較裝置的如圖4所示的結(jié)構(gòu)。保存裝置513記錄由特征量比較裝置512計(jì)算出的相似性,并且只提取具有較高相似性的局部視頻圖像。
下面,將描述本實(shí)施例的操作。本實(shí)施例的操作與第一實(shí)施例的操作的不同之處在于圖29所示的流程圖中的步驟A101和步驟A106。以下將不再對操作的其他細(xì)節(jié)進(jìn)行描述。
在如圖29所示的流程圖中的步驟A101中,通過分割將輸入視頻圖像分割為區(qū)域。將分割后的區(qū)域的組合聯(lián)合為區(qū)域。但是,由于組合的數(shù)量由(2的區(qū)域個數(shù)次冪-1)表示,簡單組合的數(shù)量隨著區(qū)域數(shù)量b的增加成指數(shù)增加。因此,引進(jìn)了分級評估組合和縮減組合的處理。例如,如圖30所示,在第一級中計(jì)算一個區(qū)域與所關(guān)心的陸標(biāo)之間的相似性,并且只將m個較高等級的區(qū)域傳送給下一級,隨后不再對(m+1)和更低級的區(qū)域的組合進(jìn)行評估。在第n級,組合通過將一個新區(qū)域添加到在第(n-1)級中提取出的(n-1)個區(qū)域的組合中而產(chǎn)生的n個區(qū)域(步驟A102),提取特征量(步驟A103),計(jì)算與所關(guān)心的陸標(biāo)之間的相似性(步驟A104),并提取出m個較高等級的區(qū)域的組合(步驟A107)。執(zhí)行上述處理,直到第L(<b)級(步驟A106),輸出具有最大相似性的組合區(qū)域。按照這種方式,可以與a(b(1+m)-m)的最大值成比例地減少組合的數(shù)量。通過這樣組合可視分割區(qū)域,能夠提取出排除了具有與所關(guān)心的陸標(biāo)不同的可視特征的遮擋對象的陸標(biāo)區(qū)域。
在計(jì)算相似性矢量Si時,可以根據(jù)組合級數(shù),對特征量進(jìn)行不同的加權(quán)。例如,如果組合級數(shù)較小,則由于組合區(qū)域被看作所關(guān)心的陸標(biāo)的一部分,以較小的系數(shù)加權(quán)與形狀有關(guān)的特征量(基于區(qū)域的形狀描述符)的相似性,以計(jì)算相似性矢量Si,從而降低形狀相似性的作用。如果組合級數(shù)較大,則以較大的系數(shù)對相似性進(jìn)行加權(quán),以增加形狀的作用,從而有效地縮減組合。
可以在車輛制導(dǎo)系統(tǒng)(車輛導(dǎo)航系統(tǒng))上實(shí)現(xiàn)本發(fā)明上述實(shí)施例中的每一個的結(jié)構(gòu)。
本發(fā)明上述實(shí)施例中的每一個的結(jié)構(gòu)并未測量圖像捕獲位置和對象之間的距離,但將其圖像被捕獲的對象與存儲在存儲裝置中的對象彼此相關(guān)聯(lián)。存在一種根據(jù)圖像捕獲位置和對象之間的距離、將其圖像被捕獲的對象與存儲在存儲裝置中的對象彼此相關(guān)聯(lián)的處理。通過利用多臺攝像機(jī)的立體景深處理或利用激光束的光學(xué)距離測量處理等來測量圖像捕獲位置和對象之間的距離。這些距離測量處理需要多臺攝像機(jī)或光學(xué)距離測量設(shè)備,并且測量距離需要一段時間。此外,這些處理的問題在于難以根據(jù)距離區(qū)分對象附近的樹木、標(biāo)志牌和對象等。
權(quán)利要求
1.一種視頻圖像對象識別設(shè)備,包括輸入裝置,用于輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲裝置,用于存儲彼此相關(guān)的位置信息和可視特征信息,所述位置信息是表示對象的位置的信息,以及所述可視特征信息是表示對象的可視特征的數(shù)字值的信息;以及對象識別裝置,用于識別包含在基于所述輸入視頻圖像數(shù)據(jù)的視頻圖像中的對象,其中所述對象識別裝置包括估計(jì)裝置,用于根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配裝置,用于匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;局部視頻圖像提取裝置,用于從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);可視特征信息設(shè)置裝置,用于產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;相似性計(jì)算裝置,用于相互比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和存儲在所述存儲裝置中的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及判定裝置,用于根據(jù)所述匹配裝置的匹配結(jié)果和所計(jì)算出的相似性的結(jié)果,確定對象是否出現(xiàn)在基于所述輸入視頻圖像數(shù)據(jù)的所述視頻圖像中。
2.一種視頻圖像注釋應(yīng)用設(shè)備,包括輸入裝置,用于輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲裝置,用于存儲彼此相關(guān)的位置信息、可視特征信息和附加信息,所述位置信息是表示對象的位置的信息,所述可視特征信息是表示對象的可視特征的數(shù)字值的信息,以及所述附加信息是添加到對象上的信息;以及對象識別裝置,用于將包含在基于所述輸入視頻圖像數(shù)據(jù)的視頻圖像中的對象與所述附加信息相關(guān)聯(lián),其中所述對象識別裝置包括估計(jì)裝置,用于根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配裝置,用于匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;局部視頻圖像提取裝置,用于從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);可視特征信息設(shè)置裝置,用于產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;相似性計(jì)算裝置,用于相互比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和存儲在所述存儲裝置中的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及判定裝置,用于根據(jù)所述匹配裝置的匹配結(jié)果和所計(jì)算出的相似性,標(biāo)識包含在基于所述輸入視頻圖像數(shù)據(jù)的所述視頻圖像中的對象,并將所標(biāo)識出的對象與存儲在所述存儲裝置中的附加信息彼此相關(guān)聯(lián)。
3.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述對象識別裝置包括出現(xiàn)概率計(jì)算裝置,用于根據(jù)將要捕獲圖像的區(qū)域和存儲在所述存儲裝置中的對象的位置信息,計(jì)算作為所述視頻圖像中包含對象的概率的出現(xiàn)概率,以及所述判定裝置根據(jù)所計(jì)算出的出現(xiàn)概率和相似性,標(biāo)識包含在所述視頻圖像中的對象,并將所標(biāo)識出的對象與存儲在所述存儲裝置中的附加信息彼此相關(guān)聯(lián)。
4.根據(jù)權(quán)利要求3所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置根據(jù)存儲在所述存儲裝置中的對象的位置信息,標(biāo)識對象被定位于所述視頻圖像內(nèi)的范圍,并從所標(biāo)識的范圍中提取局部視頻圖像數(shù)據(jù)。
5.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述對象識別裝置包括候選對象搜索裝置,用于根據(jù)將要捕獲圖像的區(qū)域和位置信息,提取出作為出現(xiàn)在將要捕獲圖像的區(qū)域中的對象的候選對象,以及所述相似性計(jì)算裝置相互比較局部視頻圖像數(shù)據(jù)的可視特征信息和存儲在所述存儲裝置中的候選對象的可視特征信息,以計(jì)算二者之間的相似性。
6.根據(jù)權(quán)利要求5所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置根據(jù)存儲在所述存儲裝置中的候選對象的位置信息,標(biāo)識對象被定位于所述視頻圖像內(nèi)的范圍,并從所標(biāo)識的范圍中提取局部視頻圖像數(shù)據(jù)。
7.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于還包括顯示裝置,用于顯示視頻圖像;以及顯示位置確定裝置,用于指定顯示與包含在所述視頻圖像中的對象相關(guān)聯(lián)的附加信息的位置,并用于顯示重疊在所述視頻圖像上的附加信息。
8.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于還包括注釋結(jié)果存儲裝置,用于彼此相關(guān)聯(lián)地存儲附加信息和包含在所述視頻圖像中的對象。
9.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置具有根據(jù)所提取出的局部視頻圖像數(shù)據(jù)任意改變視頻圖像區(qū)域的形狀和尺寸的功能。
10.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置在匹配以下條件之一或其組合的視頻圖像區(qū)域中提取局部視頻圖像亮度信息、顏色信息、形狀信息、紋理信息和尺寸信息。
11.根據(jù)權(quán)利要求10所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于如果所述局部視頻圖像提取裝置從匹配每個條件的組合的視頻圖像中提取局部視頻圖像數(shù)據(jù),則所述局部視頻圖像提取裝置確定所述條件的重要性,并根據(jù)所述匹配裝置的匹配結(jié)果和存儲在所述存儲裝置中的對象的可視特征信息來提取局部視頻圖像數(shù)據(jù)。
12.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于存儲在所述存儲裝置中的對象的可視特征信息包括作為具有與所述對象相似的可視特征的視頻圖像的模板視頻圖像。
13.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于存儲在所述存儲裝置中的對象的可視特征信息包括以下一項(xiàng)或多項(xiàng)顏色信息、形狀信息、紋理信息和尺寸信息,以及由所述可視特征信息設(shè)置裝置產(chǎn)生的局部視頻圖像數(shù)據(jù)的可視特征信息包括以下一項(xiàng)或多項(xiàng)顏色信息、形狀信息、紋理信息和尺寸信息。
14.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于存儲在所述存儲裝置中的對象的位置信息包括用于標(biāo)識近似于與所述對象相類似的、包括圓錐、圓柱、立方體等在內(nèi)的三維立體幾何形狀的頂點(diǎn)之一、中心點(diǎn)或重心的位置的信息。
15.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于存儲在所述存儲裝置中的對象的位置信息包括用于標(biāo)識近似于具有多邊形表面的對象的三維形狀的至少一個頂點(diǎn)的位置的信息。
16.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于存儲在所述存儲裝置中的對象的位置信息包括用于標(biāo)識對象的所有頂點(diǎn)中最高的頂點(diǎn)的位置的信息。
17.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于存儲在所述存儲裝置中的對象的位置信息包括用于按照緯度、經(jīng)度和海拔高度來標(biāo)識對象的位置的信息。
18.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述存儲裝置根據(jù)分別與多個對象相關(guān)聯(lián)的附加信息所共有的概念,按照分級模式來存儲共有附加信息,或者根據(jù)多項(xiàng)共有附加信息所共有的概念,存儲共有附加信息,以及所述判定裝置確定是否存在與捕獲其圖像的對象的附加信息或共有附加信息相對應(yīng)的共有附加信息,以及如果存在這種共有附加信息,將對象與共有附加信息相關(guān)聯(lián)。
19.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述圖像捕獲信息包括作為用于標(biāo)識捕獲日期和時間的信息的捕獲日期和時間信息,所述存儲裝置存儲依賴于所述捕獲日期和時間的可視特征信息,以及所述相似性計(jì)算裝置相互比較局部視頻圖像數(shù)據(jù)的可視特征信息與依賴于由捕獲日期和時間信息標(biāo)識的所述捕獲日期和時間的可視特征信息,以計(jì)算二者之間的相似性。
20.根據(jù)權(quán)利要求10所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置將所述輸入視頻圖像分割為區(qū)域,并提取分割后的區(qū)域,作為所述局部視頻圖像數(shù)據(jù)。
21.根據(jù)權(quán)利要求20所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置將分割后的區(qū)域組合為所述局部視頻圖像數(shù)據(jù)。
22.根據(jù)權(quán)利要求21所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置通過分級評估分割后的區(qū)域的組合來產(chǎn)生所述局部視頻圖像。
23.根據(jù)權(quán)利要求22所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于所述局部視頻圖像提取裝置在分級評估所述分割后的區(qū)域的組合時,在區(qū)域的組合中,只使用其相似性較高的多個區(qū)域來進(jìn)行隨后的組合。
24.根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備,其特征在于將局部或整體、沿一個方向或多個方向觀察到的對象的多項(xiàng)可視信息保存為存儲在所述存儲裝置中的對象的可視特征信息。
25.一種車輛制導(dǎo)系統(tǒng),適合于安裝在車輛上,用于根據(jù)GPS、在由顯示設(shè)備顯示的地圖上顯示其自身位置,所述車輛制導(dǎo)系統(tǒng)包括根據(jù)權(quán)利要求2所述的視頻圖像注釋應(yīng)用設(shè)備。
26.一種識別視頻圖像對象的方法,包括以下步驟輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲彼此相關(guān)的位置信息和可視特征信息,所述位置信息是表示對象的位置的信息,以及所述可視特征信息是表示對象的可視特征的數(shù)字值的信息;根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由所存儲的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,確定是否捕獲到對象的圖像。
27.一種應(yīng)用視頻圖像注釋的方法,包括以下步驟輸入視頻圖像數(shù)據(jù)和圖像捕獲信息,所述圖像捕獲信息是用于確定將要捕獲圖像的區(qū)域的信息;存儲彼此相關(guān)的位置信息、可視特征信息和附加信息,所述位置信息是表示對象的位置的信息,所述可視特征信息是表示對象的可視特征的數(shù)字值的信息,以及所述附加信息是添加到對象上的信息;根據(jù)所述圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由所存儲的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,標(biāo)識包含在所述視頻圖像中的對象,并將所標(biāo)識出的對象與所存儲的附加信息彼此相關(guān)聯(lián)。
28.一種視頻圖像對象識別程序,適合于安裝在視頻圖像對象識別設(shè)備中,用于確定所存儲的對象是否被作為主題包含在視頻圖像中,所述視頻圖像對象識別程序使計(jì)算機(jī)能夠執(zhí)行包括以下步驟的處理在存儲裝置中存儲彼此相關(guān)的位置信息和可視特征信息,所述位置信息是表示對象的位置的信息,以及所述可視特征信息是表示對象的可視特征的數(shù)字值的信息;根據(jù)作為用于確定將要捕獲圖像的區(qū)域的信息的圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;相互比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,確定是否捕獲到對象的圖像。
29.一種視頻圖像注釋應(yīng)用程序,適合于安裝在視頻圖像注釋應(yīng)用設(shè)備中,用于將對象和所存儲的對象的信息彼此相關(guān)聯(lián),所述視頻圖像注釋應(yīng)用程序使計(jì)算機(jī)能夠執(zhí)行包括以下步驟的處理在存儲裝置中存儲彼此相關(guān)的位置信息、可視特征信息和附加信息,所述位置信息是表示對象的位置的信息,所述可視特征信息是表示對象的可視特征的數(shù)字值的信息,以及所述附加信息是添加到對象上的信息;根據(jù)作為用于確定將要捕獲圖像的區(qū)域的信息的圖像捕獲信息,估計(jì)將要捕獲圖像的區(qū)域;匹配將要捕獲圖像的區(qū)域與由存儲在所述存儲裝置中的對象的位置信息所表示的位置;從所述輸入視頻圖像中提取出或者是基于所述視頻圖像數(shù)據(jù)的所述視頻圖像的局部區(qū)域的視頻圖像數(shù)據(jù)或者是整幅視頻圖像的視頻圖像數(shù)據(jù)的局部視頻圖像數(shù)據(jù);產(chǎn)生所述局部視頻圖像數(shù)據(jù)的可視特征信息;比較所述局部視頻圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算出二者之間的相似性;以及根據(jù)匹配的結(jié)果和所計(jì)算出的相似性,標(biāo)識包含在所述視頻圖像中的對象,并將所標(biāo)識出的對象與所存儲的附加信息彼此相關(guān)聯(lián)。
全文摘要
彼此相關(guān)聯(lián)地存儲可視特征信息和附加信息,所述可視特征信息是表示對象的可視特征的數(shù)字值的信息,以及所述附加信息是添加到對象上的信息。提取出作為視頻圖像的局部區(qū)域的圖像數(shù)據(jù)的局部圖像數(shù)據(jù)。產(chǎn)生所提取出的局部圖像數(shù)據(jù)的可視特征信息。相互比較所提取出的局部圖像數(shù)據(jù)的可視特征信息和所存儲的對象的可視特征信息,以計(jì)算二者之間的相似性。根據(jù)所計(jì)算出的相似性,標(biāo)識包含在視頻圖像數(shù)據(jù)中的對象。在顯示裝置上,按照與視頻圖像重疊的關(guān)系,顯示由已標(biāo)識對象的附加信息構(gòu)成的注釋。
文檔編號G06T7/00GK1777916SQ200480010778
公開日2006年5月24日 申請日期2004年4月15日 優(yōu)先權(quán)日2003年4月21日
發(fā)明者高橋祐介, 平田恭二 申請人:日本電氣株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
鄂托克旗| 望都县| 米脂县| 萍乡市| 安宁市| 泰宁县| 潞城市| 贞丰县| 东兰县| 武清区| 遂宁市| 武安市| 沧源| 洛浦县| 谢通门县| 时尚| 凤城市| 太仆寺旗| 桂阳县| 任丘市| 灵宝市| 文水县| 霞浦县| 策勒县| 白河县| 克拉玛依市| 龙州县| 双城市| 永安市| 睢宁县| 朝阳区| 循化| 茂名市| 荆州市| 婺源县| 哈巴河县| 长丰县| 武穴市| 弥勒县| 兰坪| 泾源县|