專(zhuān)利名稱:用于圖像標(biāo)記的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于圖像標(biāo)記的設(shè)備和方法,尤其涉及基于圖像分割 的圖像標(biāo)記。
背景技術(shù):
隨著圖像越來(lái)越多地作為數(shù)字編碼圖像被存儲(chǔ)、分發(fā)以及處理, 編碼圖像的數(shù)量和種類(lèi)已經(jīng)大大地增加。
然而,日益增加的圖像數(shù)據(jù)量已經(jīng)增加了對(duì)具有較少或沒(méi)有人工 輸入或介入的圖片自動(dòng)和技術(shù)處理的需要和期望。例如,當(dāng)管理圖像 收藏時(shí),經(jīng)常對(duì)諸如照片等的圖像使用手動(dòng)人工分析和索引。然而, 這些操作在人工領(lǐng)域中非常麻煩并且消耗時(shí)間,期望越來(lái)越多地在工 業(yè)領(lǐng)域中以自動(dòng)化或半自動(dòng)化處理來(lái)執(zhí)行這些操作。因此,已經(jīng)開(kāi)發(fā)了用于分析和索引圖像的算法。然而,這些算法
易于受限制,并且具有許多缺點(diǎn),包括
,它們集中于相當(dāng)狹窄的圖像域,如僅與特定位置相關(guān)的圖像(例
如,僅與海灘、風(fēng)景、面部等相關(guān)的圖像)。
,而且它們趨于需要用于低層次分析的非常專(zhuān)用的算法。
它們僅考慮非常低層次的分析,并且忽視對(duì)使用者更為有用的
抽象知識(shí)。
索引趨于將圖像作為黑匣子考慮,而不說(shuō)明在圖片中找到何種 概念信息(例如,它們不允許對(duì)諸如"將人們騎馬的所有圖像展示給 我"的復(fù)雜問(wèn)題作出回答,而僅允許對(duì)"將具有人和馬的所有圖像展 示給我"作出回答)。
因此,用于索引和標(biāo)記圖像的當(dāng)前算法趨于低效和/或?qū)е律纱?最優(yōu)信息。具體而言,當(dāng)前方法為了提高性能,趨于僅考慮低層次信 息以及忽視背景知識(shí)。
例如,圖像標(biāo)記的一種已知方法包括使用低層次處理將圖像分割 成圖像片斷,以及將圖案識(shí)別應(yīng)用于每個(gè)圖像片斷。如果圖像片斷的 圖案被識(shí)別,則該片斷由與被檢測(cè)的圖案相對(duì)應(yīng)的一個(gè)或多個(gè)標(biāo)簽標(biāo) 記。例如,圖像片斷可能被檢測(cè)為房子,該片斷可相應(yīng)地由標(biāo)簽"房 子"標(biāo)記。
然而,該方法通常導(dǎo)致大量的個(gè)別標(biāo)記的小片斷。而且,該標(biāo)記 不連貫、分離,而且對(duì)個(gè)別圖像片斷可能沖突。此外,該標(biāo)記沒(méi)有反 映圖像的任何概念性或整體性信息。因此,該方法趨于導(dǎo)致次優(yōu)化的 標(biāo)記,并且難以在管理和組織圖像時(shí)使用。
因此,改善的圖像標(biāo)記將是有利的,尤其是允許增加的靈活性、 附加或改善的信息、有效的實(shí)施、改善圖像域無(wú)關(guān)性和/或改善性能的 圖像標(biāo)記將是有利的。
發(fā)明內(nèi)容
因此,本發(fā)明致力于優(yōu)選地減輕、減少或消除一個(gè)或多個(gè)上述缺 點(diǎn)的單個(gè)或其組合。
根據(jù)本發(fā)明的第一方面,提供有
1. 一種用于標(biāo)記圖像的設(shè)備,該設(shè)備包括
用于將圖像分割成圖像片斷的裝置;
用于將片斷標(biāo)簽分配至圖像片斷的分配裝置;
用于確定圖像片斷的片斷關(guān)系的裝置;
用于生成約束推理問(wèn)題模型的模型裝置,該模型具有與圖像片斷 相對(duì)應(yīng)的變量以及反映圖像片斷關(guān)系的約束,每個(gè)變量具有包含分配 至該變量的圖像片斷的圖像片斷標(biāo)簽的域;以及
用于通過(guò)求解約束推理問(wèn)題模型而生成該圖像的圖像標(biāo)記的裝置。
本發(fā)明可以允許改善的圖像標(biāo)記??梢垣@取關(guān)于圖像的改善信息, 尤其是,涉及圖像片斷之間的關(guān)系和/或上下文信息和/或概念信息的信 息可以被考慮和/或可以在標(biāo)記中反映。
本發(fā)明可以允許圖像的自動(dòng)化和/或半自動(dòng)化的標(biāo)記,以減少所需 的手工時(shí)間和努力。
本發(fā)明可以允許生成標(biāo)記數(shù)據(jù),該標(biāo)記數(shù)據(jù)更適宜于搜索、推理、 選擇,以及另外處理或管理圖像??梢詫?shí)現(xiàn)實(shí)際的和有效的實(shí)施。
具體而言,在一些實(shí)施方式中,本發(fā)明可以允許圖像分析,該分 析基于低層次的圖像處理提供圖像內(nèi)容的概念索引,并且使用約束推 理系統(tǒng)提供高層次的域理解。
根據(jù)本發(fā)明的可選特性,圖像片斷關(guān)系包括空間關(guān)系。
這可以允許特別有利的標(biāo)記,尤其是可以允許生成改善的標(biāo)記數(shù) 據(jù)和/或有效的、便利的實(shí)施。
根據(jù)本發(fā)明的可選特性,空間關(guān)系包括相對(duì)空間關(guān)系。
這可以允許特別有利的標(biāo)記,尤其是可以允許生成改善的標(biāo)記數(shù) 據(jù)和/或有效的、便利的實(shí)施。
根據(jù)本發(fā)明的可選特性,空間關(guān)系包括絕對(duì)空間關(guān)系。
7
這可以允許特別優(yōu)勢(shì)的標(biāo)記,尤其是可以允許生成改善的標(biāo)記數(shù) 據(jù)和/或有效的、便利的實(shí)施。
根據(jù)本發(fā)明的可選特性,將模型裝置設(shè)置成響應(yīng)于片斷關(guān)系和圖 像域數(shù)據(jù)來(lái)確定約束。
該特征可以允許改善的圖像標(biāo)記。尤其是,可以生成反映非局部 特征和/或圖像上下文信息的圖像標(biāo)記數(shù)據(jù)。圖像域數(shù)據(jù)可以是反映圖 像的圖像內(nèi)容分類(lèi)的數(shù)據(jù)。
根據(jù)本發(fā)明的可選特性,分配裝置被設(shè)置成分配片斷標(biāo)簽的可靠 性指示。
這可以允許改善的圖像標(biāo)記,尤其可以允許生成改善的標(biāo)記數(shù)據(jù), 這對(duì)于例如搜索、推理、選擇以及另外處理或管理圖像來(lái)說(shuō)更為有利。
根據(jù)本發(fā)明的可選特性,約束推理問(wèn)題模型是模糊邏輯約束推理 問(wèn)題模型。
這可以允許改善的圖像標(biāo)記,尤其可以允許生成改善的標(biāo)記數(shù)據(jù), 這對(duì)于例如搜索、推理、選擇以及另外處理或管理圖像來(lái)說(shuō)更為有利。
模糊邏輯約束推理問(wèn)題模型可以是任何約束推理問(wèn)題模型,該模 型允許非二元決策和/或約束的非二元滿足,諸如僅在一定程度上被滿
足的約束。
根據(jù)本發(fā)明的可選特性,該設(shè)備還包括用于響應(yīng)于圖像標(biāo)記而合 并片斷的合并裝置。
這可允許改善的圖像標(biāo)記,尤其是可允許對(duì)圖像中的特性和特征
的改善的識(shí)別和標(biāo)記。
根據(jù)本發(fā)明的可選特征,響應(yīng)于鄰接準(zhǔn)則合并片斷。
這可以允許改善的性能和/或改善的片斷合并,具體地可以允許改 善屬于同一圖像對(duì)象的圖像片斷的合并精度。鄰接準(zhǔn)則可以例如包括 以下要求要被合并的片斷必須是鄰接的。
根據(jù)本發(fā)明的可選特征,響應(yīng)于片斷標(biāo)記準(zhǔn)則合并片斷。
這可以允許改善性能和/或改善的片斷合并,具體地可以允許改善 屬于同一圖像對(duì)象的圖像片斷的合并精度。片斷標(biāo)記準(zhǔn)則可以例如包 括以下要求要被合并的片斷必須包括基本相同的至少一個(gè)或多個(gè)標(biāo) 簽。
根據(jù)本發(fā)明的可選特征,片斷標(biāo)記準(zhǔn)則要求所有被合并的片斷在 約束推理問(wèn)題模型的所有解中具有相應(yīng)的標(biāo)簽。
這可以允許改善的性能和/或改善的片斷合并,具體地可以允許改 善屬于同一圖像對(duì)象的圖像片斷的合并精度。
根據(jù)本發(fā)明的可選特征,該設(shè)備還包括用于響應(yīng)于用戶輸入在約 束推理問(wèn)題模型的解之間進(jìn)行選擇的裝置。
這可以允許改善的圖像標(biāo)記,并且可以在允許人工介入的同時(shí), 允許具有便利的標(biāo)記的半自動(dòng)化處理。
根據(jù)本發(fā)明的可選特征,將該設(shè)備設(shè)置為重復(fù)圖像的標(biāo)記。 這可以允許改善的圖像標(biāo)記。
根據(jù)本發(fā)明的可選特征,圖像標(biāo)記包括約束推理問(wèn)題模型的一個(gè) 或多個(gè)解,每個(gè)解包括從片斷的域中選擇的每個(gè)片斷的片斷標(biāo)簽。
這可以允許改善的圖像標(biāo)記和/或便利的實(shí)施。
根據(jù)本發(fā)明的另一個(gè)方面,提供了標(biāo)記圖像的方法,該方法包括 將圖像分割成圖像片斷;分配圖像片斷的片斷標(biāo)簽;確定圖像片斷的 片斷關(guān)系;生成約束推理問(wèn)題模型,該約束推理問(wèn)題模型具有與圖像 片斷相對(duì)應(yīng)的變量以及反映圖像片斷關(guān)系的約束,每個(gè)變量具有包含 分配至該變量的圖像片斷的圖像片斷標(biāo)簽;以及通過(guò)求解約束推理問(wèn) 題模型,生成圖像的圖像標(biāo)記。
將結(jié)合下文所描述的實(shí)施方式說(shuō)明本發(fā)明的這些和其他方面、特 征和優(yōu)勢(shì),并且其將變得明顯。
僅通過(guò)示例的方式,將參考附圖描述本發(fā)明的實(shí)施方式,其中 圖l示出了根據(jù)本發(fā)明的一些實(shí)施方式的標(biāo)記圖像的設(shè)備的示例; 圖2示出了約束滿足問(wèn)題的示例;以及
圖3示出了根據(jù)本發(fā)明的一些實(shí)施方式的標(biāo)記圖像的方法。
具體實(shí)施例方式
以下描述主要集中于用于對(duì)諸如數(shù)字照片或者數(shù)字編碼視頻圖像 之類(lèi)的數(shù)字編碼圖像進(jìn)行標(biāo)記的設(shè)備。
該設(shè)備被設(shè)置成使用低層次圖像處理算法來(lái)分割將要被標(biāo)記的圖 像。隨后,例如使用現(xiàn)有的圖像片斷分類(lèi)器對(duì)每個(gè)圖像片斷進(jìn)行分類(lèi)。 該設(shè)備隨后利用片斷之間的關(guān)系(具體為空間關(guān)系),將初始標(biāo)記的 圖像轉(zhuǎn)換成約束滿足問(wèn)題模型,并且然后使用約束推理器去除那些不
符合空間上下文的標(biāo)簽。概念的可能排列被定義為域知識(shí)。約束推理 模型也很適合并入其他類(lèi)型的信息,例如專(zhuān)用算法或者不同類(lèi)型的分 割,因此它可以形成將知識(shí)并入圖像理解處理的一般基礎(chǔ)。
該設(shè)備基于將圖像片斷標(biāo)記問(wèn)題再形成(reformulation)為約束推 理方法,該方法也可以考慮域的背景知識(shí),諸如對(duì)于給定域有效的空 間方位。該方法可以包括片斷合并,以實(shí)現(xiàn)改善的圖像分割。
圖l示出了根據(jù)本發(fā)明的一些實(shí)施方式的用于標(biāo)記圖像的設(shè)備的 示例。
設(shè)備100包括生成數(shù)字編碼圖片的圖像數(shù)據(jù)生成器101。應(yīng)當(dāng)理解, 在不同的實(shí)施方式中,圖像數(shù)據(jù)生成器101可以例如包括用于捕捉、對(duì) 照片或視頻幀進(jìn)行數(shù)字化及編碼和/或接收來(lái)自內(nèi)部或外部源的數(shù)字編 碼圖像或圖像序列的功能體。在一些實(shí)施方式中,該圖像數(shù)據(jù)生成器 101可以包括或存在于數(shù)字圖像的數(shù)據(jù)存儲(chǔ)器。
圖像數(shù)據(jù)生成器101與分割處理器103耦合,分割處理器103接收來(lái) 自圖像數(shù)據(jù)生成器101的將要被標(biāo)記的圖像。分割處理器103將圖像分 割成大量的圖像片斷。
生成圖像片斷的分割基于圖像的低層次分析,具體而言,分割處 理器基于諸如顏色和動(dòng)作等的低層次特征將圖像分割成圖像片斷。
圖像分割的目標(biāo)是將像素組合成具有相似特征的圖像片斷,例如, 因?yàn)樗鼈儗儆谕粚?duì)象?;炯俣ㄊ菍?duì)象邊緣導(dǎo)致圖像中的亮度和 顏色急劇變化。因此,將具有相似亮度和/或顏色的像素組合在一起, 形成區(qū)域之間的亮度/顏色邊緣。
具體而言,圖像分割可以包括基于共同屬性對(duì)像素進(jìn)行空間組合
的處理。存在幾種圖片和視頻分割的方法,并且每種的有效性通常將 取決于該應(yīng)用。應(yīng)當(dāng)理解可以在不脫離本發(fā)明的情況下,使用圖片 分割的任何已知方法或者算法。
在一些實(shí)施方式中,分割包括響應(yīng)于共同特征來(lái)檢測(cè)圖像的不連 貫的區(qū)域,以及從一個(gè)圖像或圖片至下一個(gè)圖像或圖片跟蹤此對(duì)象。
例如,該分割可以包括將具有相似亮度級(jí)別的圖片元素分到同一 圖像片斷中。具有相似亮度級(jí)別的圖片元素的鄰近組趨于屬于同一基
對(duì)象(underlying object)。類(lèi)似地,具有相似顏色級(jí)別的圖片元素的 鄰近組也趨于屬于同一基對(duì)象,并且該分割替換地或者附加地包括將 具有相似顏色的圖片元素分在同一片斷中。
圖像分割的示例為本領(lǐng)域技術(shù)人員所熟知,并且例如,可以參見(jiàn) V. Mezaris, I. Kompatsiaris禾口M.G. Strintzis的"A framework for the efficient segmentation oflarge-format color images (大版式彩色圖像的有 效分割的框架)",記載于2002年9月在羅徹斯特(紐約)舉行的圖像 處理國(guó)際會(huì)議紀(jì)錄巻l的761-764頁(yè)。
分割處理器103耦合到片斷標(biāo)簽處理器105,該片斷標(biāo)簽處理器105 將片斷標(biāo)簽分配給各個(gè)圖像片斷。
具體而言,片斷標(biāo)簽處理器105將圖像域考慮在內(nèi)而對(duì)各個(gè)片斷執(zhí) 行圖案識(shí)別。圖像域?qū)?yīng)于參數(shù)和特征的集合,這些參數(shù)和特征對(duì)于 屬于那個(gè)域的圖像是共同的。例如,圖像域可以對(duì)應(yīng)于海灘域,艮口, 它可以具有與海灘的視覺(jué)圖像相對(duì)應(yīng)的圖像內(nèi)容。對(duì)于此域而言,信
息-預(yù)期能夠被找到的諸如海、沙灘、太陽(yáng)之類(lèi)的對(duì)象,可以是已知的, 并且對(duì)象的關(guān)系可以是已知的,諸如太陽(yáng)在沙灘上方。例如,其他域 可以與諸如面部、風(fēng)景、人物、運(yùn)動(dòng)等的其他圖像內(nèi)容相對(duì)應(yīng)。
片斷標(biāo)簽處理器105因此可以基于圖片域的知識(shí)而執(zhí)行圖案識(shí)別, 并且可以識(shí)別與已知圖案相對(duì)應(yīng)的片斷??梢灶A(yù)先確定每個(gè)圖案的一 個(gè)或多個(gè)標(biāo)簽,并且當(dāng)圖案識(shí)別發(fā)現(xiàn)一個(gè)或多個(gè)匹配時(shí),將與那些匹 配相對(duì)應(yīng)的標(biāo)簽分配至圖像片斷。
本領(lǐng)域技術(shù)人員熟知圖案識(shí)別以及將標(biāo)簽分配至圖像片斷的各種
算法和方法。這種示例可以參見(jiàn),例如,K. Petridis, F. Precioso, T. Athanasiadis , Y. Avrithis 禾H I. Kompatsiaris的 "Combined Domain Specific and Multimedia Ontologies for Image Understanding (結(jié)合域特 定和多媒體存在論的圖像理解)",記載于2005年9月在德國(guó)的科布 倫次舉行的第28屆德國(guó)人工智能會(huì)議(KI 2005)上的關(guān)于混合現(xiàn)實(shí)對(duì) 于圖像理解及人工智能的挑戰(zhàn)的專(zhuān)題研討。
作為用于分配標(biāo)簽的算法的具體示例,片斷標(biāo)簽處理器105可以用 一組示例來(lái)訓(xùn)練(train)。這種示例能夠由標(biāo)簽和許多低層次的特征組 成,諸如顏色或形狀特征,描述通常在數(shù)字圖像中如何體現(xiàn)標(biāo)簽。這 些示例用于訓(xùn)練分類(lèi)器,通過(guò)比較這些示例和在片斷中找到的低層次 的特征之間的距離,該分類(lèi)器可以被用來(lái)預(yù)測(cè)給定域的標(biāo)簽。
分割處理器103還與關(guān)系處理器107耦合,關(guān)系處理器107被設(shè)置成 確定圖像的片斷關(guān)系。在圖l的示例中,這些關(guān)系是圖像片斷之間的空 間關(guān)系,例如關(guān)于一個(gè)圖像片斷處于另一圖像片斷的前面、后面、左 面、右面、下面還是上方的指示。
用于確定這種關(guān)系的算法在本領(lǐng)域中已經(jīng)為人們所熟知,并且其 例如可以基于與圖像片斷相對(duì)應(yīng)的對(duì)象的遮擋(occlusion)和移動(dòng)數(shù)據(jù)。
作為特定示例,可以基于兩個(gè)片斷的界限框之間的角度來(lái)生成關(guān)系。 界限框是包含片斷的最小的可能矩形。隨后,計(jì)算穿過(guò)一個(gè)框的中心 的水平線和連接兩個(gè)中心的線之間的角度。例如,如果片斷是非連貫 的,那么具有大約90度的角度將表示一個(gè)片斷處于另一個(gè)片斷的上方。
分割處理器103、片斷標(biāo)簽處理器105和關(guān)系處理器107全部都耦 合到CRP模型生成器109。該CRP模型生成器109被設(shè)置成生成圖像 的約束推理問(wèn)題(CRP)模型,該模型具有與圖像片斷相對(duì)應(yīng)的變量以 及反映圖像片斷關(guān)系的約束,并且每個(gè)變量具有包括分配至該變量的 圖像片段的圖像片斷標(biāo)簽的域。
CRP模型生成器109與CRP處理器111耦合,CRP處理器111 被設(shè)置成求解CRP模型。CRP處理器111與存儲(chǔ)CRP模型的解的數(shù)據(jù) 存儲(chǔ)器113耦合。具體而言,CRP模型包括圖像片斷的標(biāo)記,該標(biāo)記 反映域信息和片斷間信息。具體而言,該解能夠去除片斷標(biāo)簽處理器 105中的、與其他片斷標(biāo)記和關(guān)系不一致的所有標(biāo)簽分配。因此,對(duì)于 從該片斷的變量域所選擇的每個(gè)圖像片斷而言,該解可以不包括片斷 標(biāo)簽、包括一個(gè)或者更多片斷標(biāo)簽,以便該選擇與其他圖像片斷的選 擇以及它們之間的約束一致。
因此,在該例子中,向CRP模型生成器109輸入分割掩碼 (segmentation mask)以及分配至每個(gè)圖像片斷的一個(gè)或多個(gè)可能標(biāo)簽 以及圖像片斷之間的空間關(guān)系。盡管生成的圖像片斷確實(shí)具有某些語(yǔ) 義信息,g卩,初始標(biāo)簽集合,但期望進(jìn)行進(jìn)一步處理,以提供更符合 人類(lèi)感知的進(jìn)一步信息。
為實(shí)現(xiàn)這一點(diǎn),應(yīng)解決基于數(shù)字的分割算法所形成的局限性。例
如
在現(xiàn)實(shí)世界中,對(duì)象通常不是同質(zhì)的,而是趨于由具有不同視覺(jué) 特性的部分構(gòu)成。因此,生成的分割掩碼趨于無(wú)法將所刻畫(huà)的對(duì)象作 為單一片斷而捕捉。而是為單一對(duì)象生成片斷集合,與在其理想情形
中的組成部分相對(duì)應(yīng)。在實(shí)踐中,這意味著在分配至每個(gè)片斷的可 能標(biāo)簽的集合中,導(dǎo)致形成與域知識(shí)一致的對(duì)象的那些片斷應(yīng)被優(yōu)先 處理。從三維空間至二維圖像平面的轉(zhuǎn)換導(dǎo)致基本真實(shí)世界對(duì)象屬性 (即它們的連通性)的丟失。因此,需要適當(dāng)?shù)奶幚?,以確保對(duì)象連 通性在語(yǔ)義描述層次上得以保持。連通性的失去可以源自例如遮擋現(xiàn) 象或由于不均勻的視覺(jué)特性所致的過(guò)度分割。例如,在現(xiàn)實(shí)中,與天 空這一概念相對(duì)應(yīng)的區(qū)域,可能呈現(xiàn)為鄰接或非鄰接的片斷的集合, 這是由于顏色變化、云的存在、飛機(jī)的存在等。很容易看出,關(guān)于鄰 近區(qū)域的語(yǔ)義學(xué)的拓?fù)浜蜕舷挛男畔?,?duì)于這種推理起重要作用。
僅視覺(jué)特性不能總提供用于區(qū)分語(yǔ)義概念與類(lèi)似視覺(jué)特征的足夠 標(biāo)準(zhǔn)。
此外,同一對(duì)象可以在不同的情境下具有不同的視覺(jué)特征,也就 是說(shuō),天空的顏色可能顯著變化,這取決于當(dāng)時(shí)場(chǎng)景是黑夜還是白晝、 天氣條件是多云還是陽(yáng)光明媚等。在這種情形下,需要有利用上下文 及空間信息的智能,以在給定可能標(biāo)簽的初始集合的情況下,確定正 確的標(biāo)簽。
在圖1的示例中,CRP處理器lll所得出的由CRP模型生成器109 所生成的CRP模型的解,允許生成改善的標(biāo)記,該改善的標(biāo)記解決這 些問(wèn)題。這允許在工業(yè)領(lǐng)域中進(jìn)行更為準(zhǔn)確的自動(dòng)化圖像標(biāo)記,并且 允許生成更符合人類(lèi)感知的特征和信息。
約束滿足問(wèn)題由變量集合和約束集合組成。變量由其域來(lái)限定, 即,該變量的合法分配的值的集合。約束將數(shù)個(gè)變量相互關(guān)聯(lián)起來(lái), 并且定義這些變量中的每一個(gè)的哪些分配被允許考慮相關(guān)變量的分 配。約束滿足問(wèn)題可以用圖表來(lái)表示,其中,變量作為以其域被標(biāo)記 的節(jié)點(diǎn),而約束作為以相關(guān)節(jié)點(diǎn)之間的約束被標(biāo)記的邊緣。
圖2示出了非常簡(jiǎn)單的約束滿足問(wèn)題的示例。在該示例中,約束 滿足問(wèn)題由x、 y和z三個(gè)變量以及x=y和y=z兩個(gè)約束組成,即所 有三個(gè)變量必須相等。
約束滿足問(wèn)題不限于有限域(finite domain),也可以應(yīng)用于無(wú)限 域(infinite domain)。在此情況下,這些域通常被給定為區(qū)間,并且 約束推理器減少那些區(qū)間,以便僅包含那些出現(xiàn)在該約束滿足問(wèn)題的 解中的數(shù)/區(qū)間。
例如,CSP具有x和y兩個(gè)變量,其中,x的域?yàn)閇O, 20],且y 的域?yàn)閇10, 20],并且約束為x〉y,那么這將使x域減少為區(qū)間[lO, 20]。
根據(jù)劍橋大學(xué)出版社2003年出版的Apt, Krzystof R的"Principles of Constraint Programming (約束編程原則)",約束滿足問(wèn)題的正式 定義由變量集合V = {Vl, ..., vj和約束集合C = {Cl, ..., cj組成。每個(gè) 變量、具有關(guān)聯(lián)域D(Vi) = U ,該關(guān)聯(lián)域包括可分配給Vi的所有
值。每個(gè)約束Cj定義在子集(Vx,, vj上,其中xl, ... xl是l,...,n的 子序列(subsequence)。約束Cj被定義為相關(guān)變量的域的交叉乘積的 子集,即Cj是D(vxl)x ... x D(Vx,)的子集。如果Cj=D(vxl)x ... xD(vxl) 和Cj均為非空,則約束被認(rèn)為解出。如果約束推理問(wèn)題的所有約束被 解出并且沒(méi)有空域,則該約束推理問(wèn)題被解出,如果它包含空域或空 約束,則該約束推理問(wèn)題失敗。
在圖1的系統(tǒng)中,標(biāo)記的圖像片斷及相應(yīng)的空間關(guān)系由CRP模型 生成器109轉(zhuǎn)換為約束滿足問(wèn)題。
通過(guò)實(shí)例化(instantiate)關(guān)于每個(gè)片斷的變量以及增加關(guān)于兩個(gè) 片斷之間的每個(gè)空間關(guān)系的相應(yīng)約束,將分割的圖像以及不同片斷之 間的空間關(guān)系直接轉(zhuǎn)換為約束滿足問(wèn)題。假設(shè)集合(即片斷標(biāo)簽處理 器105所分配的標(biāo)簽)成為變量的域,以使得得到的約束滿足問(wèn)題成
為有限域約束滿足問(wèn)題。
能夠?qū)煞N類(lèi)型的空間約束區(qū)別為相對(duì)和絕對(duì)。相對(duì)空間約束 源自描述一個(gè)片斷相對(duì)于另一個(gè)片段的相對(duì)位置的空間關(guān)系,如其左 側(cè)或其上方。這些顯然是二元約束。絕對(duì)空間約束源自片斷在圖像上 的絕對(duì)空間位置,如最上方,這是描述片斷位于圖像的頂部。這些是 一元約束。
通過(guò)實(shí)例化關(guān)于每個(gè)片斷的變量以及增加關(guān)于兩個(gè)片斷之間的每 個(gè)空間關(guān)系的相應(yīng)約束,分割的圖像以及不同片斷之間的空間關(guān)系被 直接轉(zhuǎn)換為約束滿足問(wèn)題。該示例中的約束被定義為所謂的好名單 (good-list),即包含用于約束的允許的標(biāo)簽元組的名單。例如,約束 "其左側(cè)"可以定義為其左側(cè)={(海,海),(沙灘,沙灘),(海,沙 灘),...},表示允許對(duì)象海在另一個(gè)對(duì)象海的左側(cè),允許對(duì)象沙灘在另 一個(gè)對(duì)象沙灘的左側(cè)等。
這一方法與傳統(tǒng)約束的定義稍有區(qū)別。傳統(tǒng)約束是基于變量域定
義的,并且是特定于約束滿足問(wèn)題的。作為對(duì)照,CRP模型生成器109 的約束是域知識(shí)的一部分,因此,獨(dú)立于從圖像生成的特定約束滿足 問(wèn)題。因此,對(duì)滿足的約束(satisfied constraint)的概念也作了相應(yīng)調(diào)整。
具體而言,用于對(duì)標(biāo)記的圖像進(jìn)行轉(zhuǎn)換的步驟如下
1. 為圖像的每一個(gè)片斷Si生成變量Vi。
2. 令ls(Si)為片斷的標(biāo)簽集合,然后將Vi的域設(shè)置為D(Vi) = ls(Si)。
3. 為片斷Sj上的類(lèi)型T的每個(gè)絕對(duì)空間關(guān)系rj在變量Vj上生成一 元約束CT (Vj)。
4. 為兩個(gè)片斷&和Si之間的類(lèi)型T的每個(gè)相對(duì)空間關(guān)系Cj在變 量Vk和Vi上生成二元約束CT(Vk,Vi)。 如果對(duì)于變量的每個(gè)分配v,.eK,對(duì)于約束合法的其他變量的分配 存在,則我們稱變量集合V-(V,,...,vJ上的約束C被滿足。因?yàn)樗?域都是有限的,這便創(chuàng)建了有限域約束滿足問(wèn)題。這意味著,能夠計(jì) 算所有解,即該圖像的每一個(gè)可能且合法的標(biāo)記。這在求解之后也是 有價(jià)值的,例如,使得用戶能夠選擇最符合其預(yù)期的標(biāo)記或根據(jù)具體 的解進(jìn)行合并。
應(yīng)當(dāng)理解,通過(guò)CRP處理器111求解該約束推理問(wèn)題模型可以使 用任何具體的方法或算法。例如,用于求解約束滿足問(wèn)題的算法的示 例可以在劍橋大學(xué)出版社2003年出版的Apt, Krzystof R.的"Principles of Constraint Programming "(約束編程原則)中找到。
圖1的設(shè)備因此提供了改善的圖像標(biāo)記,這種標(biāo)記可以包括并且 表示附加的信息。生成的標(biāo)記信息可以具有改善的內(nèi)部連貫性,并且 反映非局部圖像特征。而且,該生成的信息可以提供更適合于進(jìn)一步 處理或具體來(lái)說(shuō)進(jìn)一步推理的信息。此外,因?yàn)樵撓到y(tǒng)還檢測(cè)描述概 念的區(qū)域,例如,它允許生成針對(duì)更為復(fù)雜查詢的回答,更復(fù)雜的查 詢例如是請(qǐng)求海處于海灘上方的圖像,而不是僅請(qǐng)求包含海灘和海的 圖像。而且,相對(duì)來(lái)說(shuō),該方法是域無(wú)關(guān)的,并且不依賴于專(zhuān)用算法。
上面描述集中于采用了二元約束和絕對(duì)推理的約束推理問(wèn)題。然 而,在某些實(shí)施方式中,可以釆用模糊邏輯約束推理問(wèn)題模型。具體 而言,可靠性指示可通過(guò)片斷標(biāo)簽處理器105被分配至片斷標(biāo)簽。可 靠性指示可通過(guò)圖案識(shí)別處理來(lái)確定,并且可以反映單獨(dú)圖像片段與 匹配圖案之間的匹配的緊密性。
約束推理問(wèn)題模型于是可被開(kāi)發(fā)成反映標(biāo)簽的可靠性指示以及非 二元約束,并且CRP處理器111可以采用非二元決策來(lái)求解約束推理 問(wèn)題。 在圖1的示例中,該設(shè)備還包括可選合并處理器115,它被設(shè)置為 響應(yīng)于圖像標(biāo)記而合并圖像片斷。
分割處理器103所生成的圖像片斷一般將被分割到這種程度,其
中多個(gè)片斷往往屬于同一基圖像對(duì)象,并且合并處理器115致力于將
這些圖像片斷組合成表示該圖像對(duì)象的單一圖像片斷。
因此,分割處理器103最初可以執(zhí)行過(guò)度分割,然后由致力于組 合屬于同一語(yǔ)義概念的片斷的合并處理器115來(lái)減少該過(guò)度分割。
當(dāng)應(yīng)用粗略分割時(shí),小的對(duì)象趨于結(jié)合成大的對(duì)象,例如,描述
飛機(jī)的小區(qū)域?qū)⑴c主導(dǎo)區(qū)域的天空結(jié)合在一起。然而,釆用過(guò)度分割 的圖像具有將單一對(duì)象分割成多于一個(gè)圖像片斷的缺點(diǎn)。例如,大海
經(jīng)常包含具有改變的光強(qiáng)度的區(qū)域,這取決于曝光及諸如大海深度等 其他因素。在CRP處理器111減少了片斷標(biāo)簽處理器105的初始標(biāo)簽 假定集合之后,合并處理器115可以利用空間上下文關(guān)系,以便合并 屬于一起的區(qū)域。
可以根據(jù)片斷標(biāo)記準(zhǔn)則(例如,必須包括相同標(biāo)簽的準(zhǔn)則)禾口/或 鄰接準(zhǔn)則(例如,在允許合并之前,所有片斷必須是鄰接的準(zhǔn)則), 來(lái)執(zhí)行將不同區(qū)域合并成組合區(qū)域。具體而言,圖1的合并處理器115 要求所有被合并片斷在約束推理問(wèn)題模型的解中具有相應(yīng)的標(biāo)簽。因 此,為了被合并,兩個(gè)片斷必須在約束推理問(wèn)題的解中有相同的標(biāo)簽, 盡管這些標(biāo)簽可能從一個(gè)解到另一個(gè)解而不同。應(yīng)當(dāng)理解,可以附加 地或者可選地使用其他準(zhǔn)則。
更詳細(xì)地說(shuō),該示例性合并處理器115使用簡(jiǎn)單的原則,該原則
定義為
如果兩個(gè)片斷鄰接且包括同一唯一標(biāo)簽,則這兩個(gè)片斷可以被合并。
在該情形中,鄰接被認(rèn)為是該具體實(shí)施中所使用的具體空間關(guān)系 的簡(jiǎn)短表達(dá),例如,其左邊,其右邊,其上方以及其下方。所以一般 而言,對(duì)于對(duì)鄰接進(jìn)行建模的每個(gè)空間關(guān)系都定義了專(zhuān)門(mén)規(guī)則。這一 規(guī)則是域知識(shí)的一部分,因此能夠以一般的方式進(jìn)行建模。
基于推理方法的規(guī)則一般較好地適合于合并處理。然而,如果規(guī) 則表達(dá)為下述公式,例如
片斷(x),片斷(y),
(x,y)的左側(cè),標(biāo)簽(x,l),標(biāo)簽(y,l)-〉合并(x,y)
(即,如果x在y的左側(cè)且解的標(biāo)簽相同,則片斷x和y可以被 合并),例如下面片斷也符合該規(guī)則
<formula>formula see original document page 20</formula>
換句話說(shuō),包含同一標(biāo)簽的片斷充分符合該規(guī)則。然而,如果片 斷還包含其他不兼容的標(biāo)簽,即使符合上述規(guī)則,也不應(yīng)執(zhí)行合并。
因此,優(yōu)選使用的規(guī)則反映了兩個(gè)片斷僅應(yīng)該被合并的知識(shí),如 果這在每個(gè)解中是合法的,即,如果對(duì)于所有解標(biāo)簽都是相同的。例 如,對(duì)于兩個(gè)片斷x, y,它們通過(guò)空間關(guān)系其左側(cè)相關(guān)聯(lián),并且具有 標(biāo)簽集合1800={天空,海}以及l(fā)s(y)—天空,海b對(duì)于該約束只有兩個(gè) 解x二天空,y-天空以及f海,丫=海。無(wú)論最終標(biāo)記是什么,所述 片斷能夠被合并,因?yàn)樗鼈冿@然屬于同一同質(zhì)區(qū)域一一因此,對(duì)于該 約束推理問(wèn)題的兩個(gè)解而言,標(biāo)簽是相同的。
在某些實(shí)施方式中,將該設(shè)備設(shè)置為重復(fù)該處理。因此,在合并 處理器115執(zhí)行合并之后,將圖像反饋至分割處理器103以及CRP模 型生成器,CRP模型生成器修改約束推理問(wèn)題模型,以使其基于新的
20
合并片斷。具體而言,將變量定義為合并后圖像的片斷,并且相應(yīng)地 修改約束和域。得到的約束推理問(wèn)題隨后被求解。例如,該處理可以 重復(fù)固定次數(shù),或直至滿足收斂標(biāo)準(zhǔn)(例如,該標(biāo)簽變量或片斷合并 降至預(yù)定閾值之下)。
圖3示出了根據(jù)本發(fā)明的一些實(shí)施方式的標(biāo)記圖像的方法。該方 法可以由圖l的設(shè)備執(zhí)行,并將結(jié)合其進(jìn)行描述。
在步驟301中,圖像數(shù)據(jù)生成器101接收將要標(biāo)記的圖像。
步驟301之后是步驟303,其中,分割處理器103將圖像分割成圖 像片斷。
步驟303之后是步驟305,其中,片斷標(biāo)簽處理器105將片斷標(biāo)簽 分配至圖像片斷。
步驟305之后是步驟307,其中,關(guān)系處理器107確定圖像片斷的 片斷關(guān)系。
步驟307之后是步驟309,其中,CRP模型生成器109生成約束 推理問(wèn)題模型,該模型具有與圖像片斷相對(duì)應(yīng)的變量以及反映圖像片 斷關(guān)系的約束,每個(gè)變量具有包括分配至該變量的圖像片段的圖像片 斷標(biāo)簽的域。
步驟309之后是步驟311,其中,CRP處理器111通過(guò)求解約束 推理問(wèn)題模型,為圖像生成圖像標(biāo)記。
在該示例中,步驟311之后是可選步驟313,其中,響應(yīng)于圖像標(biāo) 記合并圖像片斷。
在某些實(shí)施方式中,步驟301至313被重復(fù)。
應(yīng)當(dāng)理解,為了清楚起見(jiàn),上文已經(jīng)參考不同的功能單元和處理 器對(duì)本發(fā)明的實(shí)施方式進(jìn)行了描述。然而,明顯的是,在不背離本發(fā) 明的情況下,可以使用不同功能單元或者處理器之間的功能體的任何 適當(dāng)分配。例如,示出的由分離的處理器或控制器所執(zhí)行的功能體, 可以由同一處理器或控制器執(zhí)行。因此,對(duì)具體功能單元的參考,僅 被視為提供所描述的功能性的合適方式的參考,而非表示嚴(yán)格的邏輯 或物理結(jié)構(gòu)或組織。
本發(fā)明可以任何合適的形式實(shí)施,包括硬件、軟件、固件或這些 的任何組合。本發(fā)明可選地至少部分實(shí)施為在一個(gè)或多個(gè)數(shù)據(jù)處理器 和/或數(shù)字信號(hào)處理器上運(yùn)行的計(jì)算機(jī)軟件。本發(fā)明的實(shí)施方式的元素 和部件可以以任何合適的方式被物理性地、功能性地、以及邏輯性地 實(shí)現(xiàn)。功能體確實(shí)可在單一單元、多個(gè)單元中實(shí)施或者實(shí)施為其他功 能單元的部分。因此,本發(fā)明可在單一單元中實(shí)施或可以物理性地和 功能性地分布在不同單元及處理器之間。
盡管已經(jīng)結(jié)合某些實(shí)施方式對(duì)本發(fā)明進(jìn)行了描述,但并不意味著 本發(fā)明限于本文所述的具體形式。更確切地說(shuō),本發(fā)明的范圍僅由后 附的權(quán)利要求限制。此外,盡管表面上結(jié)合某些特定實(shí)施方式對(duì)特征 進(jìn)行描述,但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,根據(jù)本發(fā)明可以組合所 描述的實(shí)施方式的各種特征。在權(quán)利要求中,術(shù)語(yǔ)"包括"并不排斥 其他元素或步驟的存在。
此外,雖然被單獨(dú)地列示,但是大量的裝置、元素或方法步驟可 以由例如單一單元或處理器來(lái)實(shí)施。而且,盡管不同權(quán)利要求可能包 括單獨(dú)特征,但是這些特征可以被有利地組合,并且在不同權(quán)利要求 中的包括并不意味著這些特征的組合是不可行的和/或不利的。而且, 特征包含在一類(lèi)權(quán)利要求中并不意味著只限于該類(lèi)別,而是表明當(dāng)合
適時(shí)該特征同樣適合應(yīng)用于其他權(quán)利要求類(lèi)別。而且,權(quán)利要求中特 征的順序并不意味著這些特征必須工作的任何特定順序,尤其是方法 權(quán)利要求中的單獨(dú)步驟的順序并不意味著這些步驟必須按這一順序執(zhí) 行。更確切地說(shuō),這些步驟可以以任何合適的順序執(zhí)行。
權(quán)利要求
1. 一種用于標(biāo)記圖像的設(shè)備,所述設(shè)備包括用于將圖像分割成圖像片斷的裝置;用于將片斷標(biāo)簽分配至所述圖像片斷的分配裝置;用于確定所述圖像片斷的片斷關(guān)系的裝置;用于生成約束推理問(wèn)題模型的模型裝置,該約束推理問(wèn)題模型具有與所述圖像片斷相對(duì)應(yīng)的變量以及反映所述圖像片斷關(guān)系的約束,每個(gè)變量具有域,該域包括分配至所述變量的圖像片斷的圖像片斷標(biāo)簽;以及用于通過(guò)求解所述約束推理問(wèn)題模型而生成所述圖像的圖像標(biāo)記的裝置。
2. 根據(jù)權(quán)利要求l所述的設(shè)備,其中,所述圖像片斷關(guān)系包括空 間關(guān)系。
3. 根據(jù)權(quán)利要求2所述的設(shè)備,其中,所述空間關(guān)系包括相對(duì)空 間關(guān)系。
4. 根據(jù)權(quán)利要求2所述的設(shè)備,其中,所述空間關(guān)系包括絕對(duì)空 間關(guān)系。
5. 根據(jù)權(quán)利要求l所述的設(shè)備,其中,所述模型裝置被設(shè)置成響 應(yīng)于所述片斷關(guān)系和圖像域數(shù)據(jù)來(lái)確定所述約束。
6. 根據(jù)權(quán)利要求l所述的設(shè)備,其中,所述分配裝置被設(shè)置成分 配所述片斷標(biāo)簽的可靠性指示。
7. 根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述約束推理問(wèn)題模型是 模糊邏輯約束推理問(wèn)題模型。
8. 根據(jù)權(quán)利要求l所述的設(shè)備,還包括用于響應(yīng)于所述圖像標(biāo) 記而合并片斷的合并裝置。
9. 根據(jù)權(quán)利要求8所述的設(shè)備,其中,響應(yīng)于鄰接準(zhǔn)則將片斷合并。
10. 根據(jù)權(quán)利要求8所述的設(shè)備,其中,響應(yīng)于片斷標(biāo)記準(zhǔn)則將片斷合并。
11. 根據(jù)權(quán)利要求io所述的設(shè)備,其中,所述片斷標(biāo)記準(zhǔn)則要求所有被合并的片斷在所述約束推理問(wèn)題模型的所有解中具有相應(yīng)的標(biāo) 簽。
12. 根據(jù)權(quán)利要求l所述的設(shè)備,還包括用于響應(yīng)于用戶輸入在所 述約束推理問(wèn)題模型的解之間進(jìn)行選擇的裝置。
13. 根據(jù)權(quán)利要求l所述的設(shè)備,該設(shè)備被設(shè)置為重復(fù)圖像的標(biāo)記。
14. 根據(jù)權(quán)利要求l所述的設(shè)備,其中,所述圖像標(biāo)記包括所述約 束推理問(wèn)題模型的一個(gè)或多個(gè)解,每個(gè)解包括從所述片斷的所述域中 選擇的每個(gè)片斷的片斷標(biāo)簽。
15. —種標(biāo)記圖像的方法,所述方法包括-將圖像分割成圖像片斷; 將片斷標(biāo)簽分配至所述圖像片斷-, 確定所述圖像片斷的片斷關(guān)系;生成約束推理問(wèn)題模型,該約束推理問(wèn)題模型具有與所述圖像片 斷相對(duì)應(yīng)的變量以及反映所述圖像片段關(guān)系的約束,每個(gè)變量具有域, 該域包括分配至所述變量的圖像片斷的圖像片斷標(biāo)簽;以及 通過(guò)求解所述約束推理問(wèn)題模型,生成所述圖像的圖像標(biāo)記。
16.根據(jù)權(quán)利要求15所述的方法,其中,所述步驟被重復(fù)。
全文摘要
用于標(biāo)記圖像的設(shè)備包括將圖像分割成圖像片斷的分割處理器(103)。片斷標(biāo)簽處理器(105)將片斷標(biāo)簽分配至圖像片斷,并且關(guān)系處理器(107)確定圖像片斷的片斷關(guān)系。CRP模型處理器(109)生成約束推理問(wèn)題模型,該模型具有與圖像片斷相對(duì)應(yīng)的變量以及反映圖像片斷關(guān)系的約束。該模型的每個(gè)變量具有包括分配至該變量的圖像片斷的圖像片斷標(biāo)簽的域。CRP處理器(111)隨后通過(guò)求解該約束推理問(wèn)題模型為圖像生成圖像標(biāo)記。本發(fā)明可以允許改善的自動(dòng)化圖像標(biāo)記。
文檔編號(hào)G06K9/34GK101379512SQ200780004325
公開(kāi)日2009年3月4日 申請(qǐng)日期2007年1月29日 優(yōu)先權(quán)日2006年2月1日
發(fā)明者卡斯滕·扎特霍夫, 斯特芬·斯塔布 申請(qǐng)人:摩托羅拉公司