專利名稱:一種基于貝葉斯推理的圖像場景分層處理方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理、計算機(jī)視覺領(lǐng)域,具體地說是一種基于貝葉斯推理的圖像場景分層處理方法。
背景技術(shù):
基于視頻素材的虛擬場景生成技術(shù)是虛擬現(xiàn)實的重要組成部分,也是虛擬現(xiàn)實、 增強(qiáng)現(xiàn)實、計算機(jī)視覺及相關(guān)研究方向有機(jī)交叉的研究熱點(diǎn)。圖像虛擬場景生成是視頻虛擬場景生成的重要組成部分,其中,圖像虛擬場景的層次遮擋處理是圖像虛擬場景生成技術(shù)需要解決的關(guān)鍵問題。在虛擬場景生成過程中,需要處理場景對象之間、場景對象和視頻場景之間的各種空間遮擋關(guān)系,以確保視頻虛擬場景正確的空間位置關(guān)系,其問題的關(guān)鍵在于如何確定各個場景對象的相對層次位置。近年來,各國計算機(jī)視覺等領(lǐng)域的研究人員從線條識別、基于深度的分割、遮擋關(guān)系恢復(fù)、輪廓修復(fù)和前景/背景分割等角度研究如何解決層次化圖像表示問題。層次化圖像表示又稱為2. ID sketch,是中低級視覺中重要研究問題,指通過在遮擋區(qū)域中斷邊界產(chǎn)生適當(dāng)?shù)倪B接,尋找圖像的一個區(qū)域分解,使之具有最小數(shù)目的中斷邊界交叉點(diǎn)、裂縫尖端點(diǎn)、角點(diǎn)和尖點(diǎn),從而將圖像分解為以遮擋關(guān)系排序的交疊區(qū)域。2007年,美國卡耐基梅隆大學(xué)機(jī)器人研究所的Hoiem等提出了從單幅圖像中恢復(fù)場景對象的遮擋邊界和深度序列的方法。該方法利用2D邊界區(qū)域線索和3D表面深度線索, 從一個訓(xùn)練集中學(xué)習(xí)得到遮擋模型,通過分割算法將場景圖像分割成多個小區(qū)域,利用遮擋模型來不斷迭代推理出遮擋關(guān)系,并且通過條件隨機(jī)場模型不斷逼近和標(biāo)記遮擋邊界, 最終確定整個場景的遮擋關(guān)系和遮擋邊界。2007年,華中科技大學(xué)和蓮花山研究院的高如新和吳田富等人提出基于混合馬爾科夫隨機(jī)場的貝葉斯推理算法推理圖像層次結(jié)構(gòu)。該方法首次利用基于馬爾科夫隨機(jī)場建模和推理來解決真實圖像的層次結(jié)構(gòu)問題,完成區(qū)域分層、輪廓修復(fù)和不確定性自動保持的處理。分析當(dāng)前各種求解圖像場景分層問題的方法,這些方法一般都是從圖像中學(xué)習(xí)表示遮擋關(guān)系的各種中低層信息,如位置、輪廓、交界點(diǎn)等,然后根據(jù)貝葉斯推理理論和統(tǒng)計計算,建立場景分層問題的數(shù)學(xué)模型,然后構(gòu)建遮擋的條件隨機(jī)場或者混合隨機(jī)場數(shù)學(xué)模型,利用Swendsen Wang Cuts(簡稱SWC)、最速下降法等推理算法在解空間中搜索可能的分層解結(jié)果。這些方法是在像素級別研究層次結(jié)構(gòu)的構(gòu)建問題,只是利用圖像中的中低層的信息解決圖像場景分層問題,沒有推理出圖像場景中最可能表示其層次結(jié)構(gòu)的分層結(jié)果。 本發(fā)明研究對象級別的圖像場景分層方法,利用已知對象的高層和中低層遮擋信息特征, 建立基于貝葉斯理論的場景分層推理框架,以及構(gòu)建對象遮擋關(guān)系的圖結(jié)構(gòu)表示和對象層次推理算法
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于貝葉斯推理的圖像場景分層與遮擋處理方法,從而能夠正確處理圖像虛擬場景中對象的遮擋關(guān)系。本發(fā)明的重點(diǎn)是如何根據(jù)已有圖像場景語義標(biāo)記推理圖像場景中對象間的遮擋關(guān)系和層次關(guān)系,從而能夠在將用戶感興趣的對象加入到圖像場景時正確處理已有對象和新加入對象之間的空間遮擋關(guān)系,使得生成的圖像虛擬場景能夠同時符合客觀實際和用戶要求,為圖像虛擬場景中遮擋處理問題提供有效的技術(shù)支持,同時為基于視頻素材的虛擬場景生成技術(shù)奠定基石出。為完成發(fā)明目的,本發(fā)明的技術(shù)解決方案是在圖像場景語義標(biāo)記結(jié)果基礎(chǔ)上,定義語義、位置、輪廓、公共邊界和交界點(diǎn)五種遮擋線索,檢測學(xué)習(xí)數(shù)據(jù)集圖像的各種遮擋線索并學(xué)習(xí)每個遮擋線索的概率分布;構(gòu)建貝葉斯推理框架,定義基于先驗概率和似然概率的帶權(quán)有向圖;利用本發(fā)明提出的層次排序推理算法,結(jié)合后驗概率最大化,在帶權(quán)有向圖上求解出圖像場景的層次結(jié)構(gòu)。在圖像場景語義標(biāo)記中,存在多個中低層和高層的信息能夠在一定程度上反映對象區(qū)域間的遮擋關(guān)系和層次關(guān)系。本發(fā)明從眾多類信息中選擇出對象語義線索、對象位置線索、對象輪廓線索、公共邊界線索和交界點(diǎn)線索五種能夠表示對象區(qū)域間遮擋關(guān)系和層次關(guān)系的線索,為后面的貝葉斯推理框架定義提供依據(jù)。給定圖像對應(yīng)的語義標(biāo)記圖,構(gòu)建在已知圖像二維表示條件下求解圖像層次表示的貝葉斯推理框架。根據(jù)貝葉斯推理理論,先驗概率表示給定圖像分層的一個解,它能夠解釋圖像場景實際分層情況的概率。根據(jù)人的經(jīng)驗?zāi)軌颢@得不同語義對象之間的遮擋關(guān)系, 因此語義信息作為先驗信息構(gòu)成先驗概率,在學(xué)習(xí)階段獲得不同語義對象之間的先驗遮擋概率。區(qū)域位置線索、區(qū)域輪廓緊湊性線索、區(qū)域公共邊界線索和區(qū)域交界點(diǎn)線索都能夠在一定程度上表達(dá)區(qū)域間的遮擋關(guān)系和場景層次結(jié)構(gòu),似然概率是由這四類中低層特征共同支持的。根據(jù)貝葉斯推理理論,當(dāng)后驗概率達(dá)到最大值時,對應(yīng)的圖像層次表示解是圖像場景最可能出現(xiàn)的層次結(jié)構(gòu)。因此,只要求得最大后驗概率解,就能夠?qū)崿F(xiàn)圖像場景分層這一目標(biāo)。為了快速求解出圖像層次表示的最優(yōu)解,本發(fā)明在前面的貝葉斯推理框架基礎(chǔ)上,提出新的求解層次序列的推理算法,將求解推理過程轉(zhuǎn)化為在表示遮擋關(guān)系的帶權(quán)有向圖上求解最佳拓?fù)渑判虻膯栴}。本發(fā)明與現(xiàn)有技術(shù)相比的有益特點(diǎn)是1、本發(fā)明在圖像素材結(jié)構(gòu)分析與圖像場景語義標(biāo)記的基礎(chǔ)上,從層次化圖像表示的角度來處理圖像對象間的遮擋關(guān)系和層次關(guān)系, 不同于以往處理圖像遮擋關(guān)系的方法。2、本發(fā)明從眾多類信息中選擇出對象語義線索、對象位置線索、對象輪廓線索、公共邊界線索和交界點(diǎn)線索五種能夠表示對象區(qū)域間遮擋關(guān)系和層次關(guān)系的線索。實驗表明這五種特征確實能反應(yīng)對象間遮擋關(guān)系。3、本發(fā)明將貝葉斯框架用于圖像層次推理上,根據(jù)五種遮擋線索構(gòu)建了基于貝葉斯理論的圖像層次推理框架,以對象語義線索表示的概率作為先驗概率,以對象位置線索、對象輪廓線索、公共邊界線索和交界點(diǎn)線索聯(lián)合概率作為似然概率,滿足最大后驗概率的圖像層次表示即為所要求解的層次最優(yōu)解。4、本發(fā)明將二維圖像轉(zhuǎn)換為帶權(quán)有向圖表示,并提出了一種改進(jìn)的拓?fù)渑判蛩惴ǎ趲?quán)有向圖上求解圖像層次結(jié)構(gòu)。
圖1是本發(fā)明總體設(shè)計結(jié)構(gòu)圖;圖2是本發(fā)明的位置線索示意圖;圖3是本發(fā)明的輪廓線索示意圖;圖4(a)是本發(fā)明的公共邊界線索表示遮擋關(guān)系情況之一的示意圖;圖4(b)是本發(fā)明的公共邊界線索表示遮擋關(guān)系情況之二的示意圖;圖5是本發(fā)明的交界點(diǎn)線索示意圖;圖6是本發(fā)明的交界點(diǎn)角度示意圖;圖7是本發(fā)明的遮擋線索計算流程示意圖;圖8是本發(fā)明的帶權(quán)有向圖構(gòu)建流程圖;圖9(a)-圖9(f)是本發(fā)明的層次排序算法過程示意圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明作詳細(xì)說明。本發(fā)明提出一種基于貝葉斯推理的圖像場景分層處理方法,在已有圖像場景語義標(biāo)記基礎(chǔ)上,學(xué)習(xí)五種遮擋線索表示遮擋關(guān)系的概率分布,根據(jù)五種遮擋線索構(gòu)建貝葉斯場景層次推理框架,并將求解貝葉斯框架下具有最大后驗概率的場景層次最優(yōu)解的過程轉(zhuǎn)化為在帶權(quán)有向圖結(jié)構(gòu)上拓?fù)渑判蚯蠼鈭D像層次結(jié)構(gòu)的過程,實現(xiàn)了快速求解圖像場景分層問題。本發(fā)明的主要步驟如圖1所示首先檢測學(xué)習(xí)數(shù)據(jù)集圖像的各種遮擋線索,學(xué)習(xí)各種遮擋線索概率分布,然后檢測測試數(shù)據(jù)集圖像的各種遮擋線索,據(jù)學(xué)習(xí)得到的遮擋概率分布獲得測試圖像中對象之間的遮擋概率,根據(jù)遮擋概率構(gòu)建圖像的帶權(quán)有向圖結(jié)構(gòu),最后在帶權(quán)圖結(jié)構(gòu)上利用層次排序推理算法求解圖像場景的層次結(jié)構(gòu)。在圖像場景語義標(biāo)記的基礎(chǔ)上定義了五種表示遮擋關(guān)系的遮擋線索,檢測學(xué)習(xí)數(shù)據(jù)集圖像的各種遮擋線索,學(xué)習(xí)各種遮擋線索表示遮擋關(guān)系的概率分布。本發(fā)明從眾多類信息中選擇出對象語義線索、對象位置線索、對象輪廓線索、公共邊界線索和交界點(diǎn)線索五種能夠表示對象區(qū)域間遮擋關(guān)系和層次關(guān)系的線索。在自然圖像場景中,馬和草地、牛和草地、樹木和建筑物、汽車和道路之間的遮擋關(guān)系是可以確定的。對象間的語義信息能夠提供區(qū)域間的相對遮擋信息,是場景分層的特征之一;從深度角度來講,一般情況下,越靠近攝像機(jī)鏡頭的對象一般位于圖像的下側(cè),比如地面一般在最下方, 而天空一般在最上方,在圖2中,札< &表示Rl遮擋R2(以下同),由此可見,對象區(qū)域在圖像上的位置,能夠在一定程度上反映對象間遮擋關(guān)系和層次關(guān)系,也是場景分層的特征之一;當(dāng)對象位于首層時,其輪廓形狀一般是規(guī)則且緊湊的。區(qū)域輪廓表現(xiàn)得越為規(guī)則,表明其被其他對象遮擋的可能性越小,如圖3所示,由此可見,如果其區(qū)域輪廓能夠在一定程度上反映區(qū)域自身的被遮擋情況,因此區(qū)域輪廓緊湊性是場景分層的低層特征之一;在圖 4 (a)中,其公共邊界在區(qū)域Rl整體表現(xiàn)為凸,則Rl遮擋R2的可能性更大,因此相鄰區(qū)域間的公共邊界能夠在一定程度上反映區(qū)域間的遮擋關(guān)系,是解決圖像場景分層問題的重要線索之一;在圖4(b)中,其公共邊界在區(qū)域Rl上表現(xiàn)為一部分凸,也能表示Rl遮擋R2。在自然圖像場景中,當(dāng)三個對象鄰接時,通常其中一個對象遮擋住其他兩個對象,表現(xiàn)在圖像上即為出現(xiàn)交界點(diǎn)現(xiàn)象,如圖5所示,R2 < R3 < R1,由此可見,鄰接區(qū)域間的交界點(diǎn)特征是區(qū)域間遮擋關(guān)系的最為重要的線索,它能夠有效地反映區(qū)域間的遮擋關(guān)系,本發(fā)明將構(gòu)成交界點(diǎn)的曲線簡化為向量形式,在交界點(diǎn)的局部范圍內(nèi)根據(jù)各曲線的走向求曲線在有限像素點(diǎn)內(nèi)的平均變化的方向向量,以逆時針方向選擇兩向量間的夾角表示交界點(diǎn)Jt,如圖6所示,Jt= (θ” θ2),其中,Q1為構(gòu)成交界點(diǎn)的兩向量間最大的夾角,θ 2為繼續(xù)沿著時針方向旋轉(zhuǎn)確定的鄰接兩向量之間的夾角。如圖7所示,為了能夠快速獲得遮擋線索,本發(fā)明檢測遮擋線索步驟如下首先, 將語義標(biāo)記圖讀入,從中抽取出各對象的語義標(biāo)記,統(tǒng)計對象個數(shù);接著,初始化對象區(qū)域信息,計算區(qū)域位置;然后,根據(jù)對象區(qū)域信息提取區(qū)域輪廓,并計算輪廓的長度和面積; 接著,將各對象的輪廓分裂為鄰接對象區(qū)域間的公共邊界,計算公共邊界的曲率和長度;最后,在公共邊界的端點(diǎn)處檢測判斷是否為交界點(diǎn),初始化交界點(diǎn)的位置、分離區(qū)域、三條邊界曲線段、描述交界點(diǎn)形狀的角度等信息。在獲得圖像中的各種遮擋線索信息后,本發(fā)明設(shè)計實現(xiàn)各種遮擋線索的數(shù)學(xué)模型定義和統(tǒng)計量計算過程。對象語義關(guān)系的統(tǒng)計量計算,首先輸入要計算語義關(guān)系統(tǒng)計量的兩對象氏和1^., 由于在語義標(biāo)記圖中不同顏色表示不同的語義對象,所以識別兩對象氏和&的顏色,即識別兩對象的語義信息,然后輸入人工劃分的分層結(jié)果,獲得不同語義對象的遮擋關(guān)系直方圖,即在訓(xùn)練數(shù)據(jù)集上,識別了對象的語義信息后,根據(jù)人工劃分的層次,統(tǒng)計不同語義對象之間的遮擋頻率,以此頻率作為語義表示遮擋關(guān)系的直方圖。位置線索的數(shù)學(xué)模型為:
權(quán)利要求
1.一種基于貝葉斯推理的圖像場景分層處理方法,其特征在于該方法包括下述步驟(1)在圖像場景語義標(biāo)記結(jié)果基礎(chǔ)上,定義語義、位置、輪廓、公共邊界和交界點(diǎn)五種遮擋線索,檢測學(xué)習(xí)數(shù)據(jù)集圖像的各種遮擋線索并學(xué)習(xí)每個遮擋線索的概率分布;(2)構(gòu)建貝葉斯推理框架,定義基于先驗概率和似然概率的帶權(quán)有向圖,該有向圖能夠表現(xiàn)圖像對象之間的遮擋關(guān)系;(3)利用層次排序推理算法,結(jié)合后驗概率最大化,在帶權(quán)有向圖上求解出圖像場景的層次結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的基于貝葉斯推理的圖像場景分層處理方法,其特征在于步驟(1)所述的五種遮擋線索為對象語義線索、對象位置線索、對象輪廓線索、公共邊界線索和交界點(diǎn)線索;這五種線索從眾多類信息中選擇而出,能夠表示對象區(qū)域間的遮擋關(guān)系和層次關(guān)系,為后面的貝葉斯層次推理框架定義提供依據(jù)。
3.根據(jù)權(quán)利要求1所述的基于貝葉斯推理的圖像場景分層處理方法,其特征在于步驟(1)所述的學(xué)習(xí)每個遮擋線索的概率分布,是指檢測出學(xué)習(xí)數(shù)據(jù)集中圖像的五種遮擋線索,根據(jù)已有的先驗遮擋關(guān)系,統(tǒng)計五種線索表示遮擋關(guān)系的概率分布,這種已有的先驗遮擋關(guān)系是人為標(biāo)定的,以人的先驗知識作為依據(jù)。
4.根據(jù)權(quán)利要求1所述的基于貝葉斯推理的圖像場景分層處理方法,其特征在于步驟( 所述的貝葉斯推理框架,是指由語義線索表示的遮擋概率作為先驗概率,由其他四種線索表示的遮擋概率的聯(lián)合概率作為似然概率,求解圖像場景層次最優(yōu)解的過程轉(zhuǎn)換為求解最大后驗概率解的過程;步驟( 所述的定義基于先驗概率和似然概率的帶權(quán)有向圖是為了快速求解圖像層次表示的最優(yōu)解。
5.根據(jù)權(quán)利要求4所述的基于貝葉斯推理的圖像場景分層處理方法,其特征在于步驟 (2)所述的帶權(quán)有向圖的構(gòu)建步驟是(2. 1)將圖像中的對象作為圖結(jié)構(gòu)中的節(jié)點(diǎn),相鄰對象對應(yīng)的圖節(jié)點(diǎn)之間存在有向邊, 表現(xiàn)對象之間的遮擋關(guān)系;(2. 2)以對象輪廓線索表示的遮擋概率來度量圖節(jié)點(diǎn)自身被遮擋的權(quán)重;(2. 3)以其他四種線索表示的遮擋概率的加權(quán)和來度量有向圖中的有向邊,四種線索的權(quán)重參數(shù)能夠調(diào)節(jié)變化。
6.根據(jù)權(quán)利要求1所述的基于貝葉斯推理的圖像場景分層處理方法,其特征在于步驟C3)所述的層次排序推理算法,改進(jìn)了拓?fù)渑判蛩惴?,考慮節(jié)點(diǎn)的入度和權(quán)重來決定對象的層次劃分;按照入度和節(jié)點(diǎn)權(quán)重迭代選擇當(dāng)前圖中最優(yōu)的節(jié)點(diǎn),將其加入層次序列中, 再將其從圖中刪除,并將其累積的遮擋權(quán)重按照出度的邊分流到指向的節(jié)點(diǎn)中,直到圖為空,由此得到圖像場景的層次結(jié)構(gòu)。
7.根據(jù)權(quán)利要求6所述的基于貝葉斯推理的圖像場景分層處理方法,其特征在于所述的圖像場景的層次結(jié)構(gòu)定義為對象與層次的關(guān)系對的集合,即某對象被劃分到某層次上;它是圖像的具有最大可能性的層次結(jié)構(gòu),即貝葉斯框架解空間中具有最大后驗概率的解。
全文摘要
本發(fā)明是一種基于貝葉斯推理的圖像場景分層處理方法,包括在圖像場景語義標(biāo)記結(jié)果基礎(chǔ)上,定義語義、位置、輪廓、公共邊界和交界點(diǎn)五種遮擋線索,并學(xué)習(xí)這些遮擋線索的概率分布;然后構(gòu)建貝葉斯推理框架,定義基于先驗概率和似然概率的帶權(quán)有向圖;最后利用本發(fā)明提出的層次排序推理算法,結(jié)合后驗概率最大化,在帶權(quán)有向圖上求解出圖像場景的層次結(jié)構(gòu)。本發(fā)明可用于圖像或視頻虛擬場景的遮擋處理,圖像或視頻虛擬場景生成等應(yīng)用。
文檔編號G06K9/62GK102509105SQ20111030330
公開日2012年6月20日 申請日期2011年9月30日 優(yōu)先權(quán)日2011年9月30日
發(fā)明者李青, 趙東悅, 趙沁平, 陳小武 申請人:北京航空航天大學(xué)