視頻中對(duì)象的語(yǔ)意解析的制作方法
【專利摘要】本發(fā)明提供一種以計(jì)算機(jī)視覺檢測(cè)人體的語(yǔ)意屬性的改良方法。在以計(jì)算機(jī)視覺檢測(cè)人體的語(yǔ)意屬性時(shí),本發(fā)明維護(hù)語(yǔ)意屬性的列表,這些語(yǔ)意屬性中的每一者對(duì)應(yīng)于人體部位。計(jì)算機(jī)模塊接著分析數(shù)字視頻的幀的區(qū)域段,以通過找到每一區(qū)域段的最可能屬性來檢測(cè)每一語(yǔ)意屬性。應(yīng)用閾值以選擇該幀的候選區(qū)域段以供進(jìn)一步分析。該幀的這些候選區(qū)域段接著通過應(yīng)用人體的身體結(jié)構(gòu)原理及通過分析圖像的分辨率愈來愈高的版本來經(jīng)歷幾何及分辨率內(nèi)容脈絡(luò)分析,以驗(yàn)證部位及屬性的存在及準(zhǔn)確性?;谕ㄟ^評(píng)估外觀特征、幾何特征及在該圖像的較高分辨率版本可用時(shí)的分辨率內(nèi)容脈絡(luò)特征而針對(duì)該圖像的較高分辨率版本所計(jì)算的加權(quán)平均分,計(jì)算機(jī)模塊計(jì)算該圖像的較低分辨率版本的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)。最后,經(jīng)由動(dòng)態(tài)程序設(shè)計(jì)來執(zhí)行最佳結(jié)構(gòu)步驟以選擇該幀上的具有人體部位的語(yǔ)意屬性及空間位置兩者的最佳輸出。
【專利說明】視頻中對(duì)象的語(yǔ)意解析
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及視頻處理及對(duì)象識(shí)別,且更具體的,涉及分析對(duì)象的圖像以識(shí)別屬性?!颈尘凹夹g(shù)】
[0002]自動(dòng)地識(shí)別視頻中的對(duì)象及其各部分的位置對(duì)于許多任務(wù)而言是重要的。舉例而言,在人體部位的情況下,自動(dòng)地識(shí)別人體各部位的位置對(duì)諸如自動(dòng)動(dòng)作辨識(shí)、人類姿勢(shì)估計(jì)等的任務(wù)而言是重要的。身體解析是用以描述視頻中的各個(gè)身體部位的計(jì)算機(jī)化定位的術(shù)語(yǔ)。用于視頻中的身體解析的現(xiàn)有方法僅估計(jì)諸如頭、腿、手臂等部位的位置。參見(例如)Ramanan 等人“Strike a Pose:Tracking People by FindingStylized Poses”, 2005 年 6 月美國(guó)加州圣地亞哥(San Diego, CA) Computer Vision andPattern Recognition (CVPR)及 Felzenszwalb 等人 “Pictorial Structures for ObjectRecognition,,, 2005 年 I 月 International Journal of Computer Vision(IJCV)0
[0003]大多數(shù)先前方法實(shí)際上僅執(zhí)行語(yǔ)法對(duì)象解析,也即,這些方法僅估計(jì)對(duì)象部位(例如,手臂、腿、臉部等)的定位,而沒有有效地估計(jì)與這些對(duì)象部位相關(guān)聯(lián)的語(yǔ)意屬性。
[0004]鑒于上述內(nèi)容,需要一種用于自圖像有效地識(shí)別對(duì)象的語(yǔ)意屬性的方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明在于用于估計(jì)視頻中的對(duì)象的部位及屬性的一種方法、一種計(jì)算機(jī)程序產(chǎn)品、一種計(jì)算機(jī)系統(tǒng)及一種處理。該方法、該計(jì)算機(jī)程序產(chǎn)品、該計(jì)算機(jī)系統(tǒng)及該處理包含:接收視頻輸入;從所述視頻輸入檢測(cè)對(duì)象且從所述視頻輸入裁切所述對(duì)象的圖像;接收具有所述對(duì)象的相關(guān)聯(lián)部位的多個(gè)語(yǔ)意屬性;產(chǎn)生并儲(chǔ)存所述圖像的多個(gè)版本,每一版本具有所述對(duì)象的所述圖像的不同分辨率;針對(duì)所述多個(gè)語(yǔ)意屬性,計(jì)算在所述對(duì)象的所述圖像的所述版本中的最低分辨率版本上的多個(gè)區(qū)域中的每一區(qū)域處的外觀分?jǐn)?shù),針對(duì)每一區(qū)域的所述多個(gè)語(yǔ)意屬性中的至少一個(gè)語(yǔ)意屬性的所述外觀分?jǐn)?shù)指示所述至少一個(gè)語(yǔ)意屬性中的每一語(yǔ)意屬性出現(xiàn)于所述區(qū)域中的概率;針對(duì)所述最低分辨率版本中的每一區(qū)域來分析分辨率相對(duì)于所述最低分辨率版本遞增的版本,以計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),所述最低分辨率版本中的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)指示如下的程度,所述程度是針對(duì)每一區(qū)域,相比于最低分辨率版本,在所述分辨率遞增的版本中存在更精細(xì)的空間結(jié)構(gòu)的程度;確定所述最低分辨率版本中的身體部位及相關(guān)聯(lián)語(yǔ)意屬性的優(yōu)化結(jié)構(gòu),所述確定利用所述最低分辨率版本的各區(qū)域中的外觀分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù);以及顯示和/或儲(chǔ)存身體部位及相關(guān)聯(lián)語(yǔ)意屬性的所述優(yōu)化結(jié)構(gòu)。
【專利附圖】
【附圖說明】
[0006]參考以下附圖通過僅為舉例的方式說明本發(fā)明的優(yōu)選實(shí)施例,其中:
[0007]圖1示出了根據(jù)本發(fā)明實(shí)施例的用于檢測(cè)人體的語(yǔ)意屬性的系統(tǒng)的說明性環(huán)境。
[0008]圖2示出了根據(jù)本發(fā)明實(shí)施例的用于檢測(cè)視頻中的人體的語(yǔ)意屬性的說明性環(huán)境的近視圖。
[0009]圖3示出了根據(jù)本發(fā)明實(shí)施例的輸入及輸出的實(shí)例。
[0010]圖4示出了根據(jù)本發(fā)明實(shí)施例的用于檢測(cè)圖像上的語(yǔ)意屬性的說明性數(shù)據(jù)流。
[0011]圖5示出了根據(jù)本發(fā)明實(shí)施例的與身體部位相關(guān)聯(lián)的語(yǔ)意屬性的實(shí)例。
[0012]圖5A及圖5B示出了根據(jù)本發(fā)明實(shí)施例的將語(yǔ)意屬性應(yīng)用于人體圖像的實(shí)例。
[0013]圖5C示出了根據(jù)本發(fā)明實(shí)施例的評(píng)估外觀分?jǐn)?shù)的實(shí)例。
[0014]圖示出了根據(jù)本發(fā)明實(shí)施例的用于計(jì)算外觀分?jǐn)?shù)的步驟的輸入及輸出。
[0015]圖6及圖6A示出了根據(jù)本發(fā)明實(shí)施例的計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的實(shí)例。
[0016]圖6B示出了根據(jù)本發(fā)明實(shí)施例的用于計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的步驟的輸入及輸出。
[0017]圖7A及圖7B示出了根據(jù)本發(fā)明實(shí)施例的用于計(jì)算最佳配置的幾何分?jǐn)?shù)的實(shí)例。
[0018]圖7C示出了根據(jù)本發(fā)明實(shí)施例的用于計(jì)算幾何分?jǐn)?shù)的步驟的輸入及輸出。
[0019]圖8示出了根據(jù)本發(fā)明實(shí)施例的用于計(jì)算總分的步驟的輸入及輸出。
[0020]請(qǐng)注意,這些附圖并不按比例繪制。這些附圖意欲僅描繪本發(fā)明的典型方面,且因此不應(yīng)被認(rèn)為限制本發(fā)明的范疇。雖然這些【專利附圖】
【附圖說明】了對(duì)視頻中的人體的處理,但本發(fā)明擴(kuò)展至對(duì)視頻中的其他對(duì)象的處理。在附圖中,類似編號(hào)表示附圖之間的類似組件。
【具體實(shí)施方式】
[0021 ] 本發(fā)明涉及視頻處理及對(duì)象識(shí)別,且更具體的,涉及分析對(duì)象的圖像以識(shí)別屬性
[0022]本發(fā)明的各方面提供了一種用于檢測(cè)視頻中的對(duì)象的語(yǔ)意屬性的改良解決方案。舉例而言,本發(fā)明的各方面提供從身體部位提取屬性,以使得能夠基于個(gè)人描述來在視頻中自動(dòng)搜尋人物。在另一實(shí)例中,本發(fā)明提供從汽車提取屬性,以使得能夠基于汽車的描述來在視頻中自動(dòng)搜尋汽車。可能的查詢可為:“顯示上個(gè)月進(jìn)入IBM的有胡須、戴太陽(yáng)眼鏡、穿紅色夾克及藍(lán)色褲子的所有人物”或“顯示上周進(jìn)入IBM停車場(chǎng)的具有菱形輪轂蓋的所有藍(lán)色雙門Toyota”。
[0023]本發(fā)明處理語(yǔ)意對(duì)象解析的問題,其中目標(biāo)為在同一處理中有效地估計(jì)部位位置及語(yǔ)意屬性兩者。使用人體解析作為實(shí)例,本發(fā)明的實(shí)施例提供在同一處理中估計(jì)人體部位的語(yǔ)意屬性連同身體部位的定位。克服先前方法的低效率及不準(zhǔn)確,本發(fā)明充分利用全局優(yōu)化方案來同時(shí)估計(jì)部位及其對(duì)應(yīng)屬性兩者。
[0024]不同于先前方法,本發(fā)明的實(shí)施例使用諸如“胡須”、“小胡子”及“無(wú)臉部毛發(fā)”的語(yǔ)意屬性來不僅定位人體部位而且識(shí)別該身體部位的屬性。舉例而言,代替僅識(shí)別諸如“腿”的身體部位,本發(fā)明使用諸如“黑色長(zhǎng)褲”、“長(zhǎng)裙”及“短褲”的語(yǔ)意屬性來定位該身體部位且識(shí)別其屬性兩者。本發(fā)明維護(hù)使每一語(yǔ)意屬性與對(duì)應(yīng)身體部位相關(guān)的數(shù)據(jù)表。舉例而言,語(yǔ)意屬性“胡須”對(duì)應(yīng)于身體部位“下部臉部區(qū)域”。
[0025]本發(fā)明的實(shí)施例系基于三種特征:外觀特征、分辨率內(nèi)容脈絡(luò)特征,及幾何特征。外觀特征指代通過將來自圖像庫(kù)的語(yǔ)意屬性與出現(xiàn)在該圖像上的事物進(jìn)行比較以評(píng)估匹配概率所獲得的分?jǐn)?shù)。分辨率內(nèi)容脈絡(luò)特征指代在不同圖像分辨率下的對(duì)象一致性。特定區(qū)域的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)為來自該特定區(qū)域的較高分辨率圖像的加權(quán)平均分。通過合計(jì)外觀分?jǐn)?shù)、幾何分?jǐn)?shù)及(若較高分辨率圖像可用時(shí)的)分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)來計(jì)算該較高分辨率圖像的總分。自較高分辨率圖像將分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)計(jì)算為給定區(qū)域處的總分除以組成被分析的較高分辨率圖像上的該區(qū)域的子區(qū)域的數(shù)目。幾何特征指代基于可能結(jié)構(gòu)中的基礎(chǔ)部位間的空間關(guān)系來計(jì)算的分?jǐn)?shù)。舉例而言,潛在屬性“胡須”對(duì)應(yīng)于“臉部”,且“黑襯衫”對(duì)應(yīng)于“軀體”。幾何特征通過應(yīng)用一般人體結(jié)構(gòu)原理來測(cè)試候選語(yǔ)意屬性的準(zhǔn)確性,該一般人體結(jié)構(gòu)原理為“臉部”在“軀體”上方且距“軀體”特定距離。
[0026]在人體解析的實(shí)例中,本發(fā)明的各方面不僅估計(jì)人體部位位置,而且估計(jì)其語(yǔ)意屬性,諸如顏色、臉部毛發(fā)類型、眼鏡的存在等。換言之,本發(fā)明的各方面利用統(tǒng)一學(xué)習(xí)方案來執(zhí)行語(yǔ)法解析(也即,位置估計(jì))及語(yǔ)意解析(也即,提取描述每一身體部位的語(yǔ)意屬性)兩者。本發(fā)明優(yōu)于先前技術(shù)而在同一處理中檢測(cè)身體部位及屬性兩者以更準(zhǔn)確地識(shí)別人體的屬性。
[0027]轉(zhuǎn)向附圖,圖1示出了根據(jù)本發(fā)明的實(shí)施例的用于檢測(cè)人體的語(yǔ)意屬性的說明性環(huán)境。就此而言,至少一個(gè)相機(jī)42捕捉場(chǎng)景或背景90。通常,該背景或場(chǎng)景90可包括至少一個(gè)對(duì)象(諸如,人員92)。如本文中所論述,獲得數(shù)字視頻輸入40且將其發(fā)送至系統(tǒng)12,該系統(tǒng)12包括例如語(yǔ)意屬性檢測(cè)程序30、數(shù)據(jù)50、預(yù)定或指定語(yǔ)意屬性52、輸出54和/或其類似物。
[0028]圖2示出了根據(jù)本發(fā)明的實(shí)施例的用于檢測(cè)視頻40中的人員92(圖1)的語(yǔ)意屬性的說明性環(huán)境10的近視圖。就此而言,環(huán)境10包括計(jì)算機(jī)系統(tǒng)12,其可執(zhí)行本文中所描述的處理以便檢測(cè)視頻40中的人員92的語(yǔ)意屬性。具體的,計(jì)算機(jī)系統(tǒng)12被示出為包括計(jì)算裝置14,該計(jì)算裝置14包含使計(jì)算裝置14可操作以用于通過執(zhí)行本文中所描述的處理來檢測(cè)視頻40中的人員92 (圖1)的語(yǔ)意屬性的語(yǔ)意屬性檢測(cè)程序30。
[0029]計(jì)算裝置14被示出為包括:處理器20、存儲(chǔ)器22A、輸入/輸出(I/O)接口 24,及總線26。另外,計(jì)算裝置14被示出為與外部I/O裝置/資源28及非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)裝置22B (例如,硬盤、軟盤、磁帶、諸如光盤(CD)或數(shù)字視頻盤(DVD)的光學(xué)儲(chǔ)存器)通信。一般而言,處理器20執(zhí)行諸如語(yǔ)意屬性檢測(cè)程序30的程序代碼,該程序代碼儲(chǔ)存于諸如存儲(chǔ)器22A (例如,動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、只讀存儲(chǔ)器(ROM)等)和/或存儲(chǔ)裝置22B的儲(chǔ)存系統(tǒng)中。在執(zhí)行程序代碼時(shí),處理器20可讀取和/或?qū)懭霐?shù)據(jù),諸如,將數(shù)據(jù)36寫入至存儲(chǔ)器22A、存儲(chǔ)裝置22B和/或I/O接口 24/自存儲(chǔ)器22A、存儲(chǔ)裝置22B和/或I/O接口 24讀取數(shù)據(jù)36。計(jì)算機(jī)程序產(chǎn)品包含存儲(chǔ)裝置22B,該存儲(chǔ)裝置22B上儲(chǔ)存有供處理器20隨后執(zhí)行以執(zhí)行用于估計(jì)視頻中的對(duì)象的部位及屬性的方法的程序代碼??偩€26提供計(jì)算裝置14中的組件中的每一個(gè)之間的通信鏈路。I/O裝置28可包含在用戶16與計(jì)算裝置14之間和/或在數(shù)字視頻輸入40與計(jì)算裝置14之間傳送信息的任何裝置。就此而言,I/O裝置28可包含:用戶I/O裝置,其用以使得各個(gè)用戶16能夠與計(jì)算裝置14互動(dòng);和/或通信裝置,其使用任何類型的通信鏈路以使得組件(諸如,數(shù)字視頻輸入40)能夠與計(jì)算裝置14通信。I/O裝置28表示至少一個(gè)輸入設(shè)備(例如,鍵盤、鼠標(biāo)等)及至少一個(gè)輸出設(shè)備(例如,打印機(jī)、繪圖機(jī)、計(jì)算機(jī)屏幕、磁帶、可拆卸硬盤、軟盤)。
[0030]在任何情況下,計(jì)算裝置14可包含任何通用計(jì)算制造對(duì)象,其能夠執(zhí)行安裝于其上的程序代碼。然而,應(yīng)理解,計(jì)算裝置14及語(yǔ)意屬性檢測(cè)程序30僅代表可執(zhí)行本文中所描述的處理的各種可能的等效計(jì)算裝置。就此而言,在其他實(shí)施例中,通過計(jì)算裝置14及語(yǔ)意屬性檢測(cè)程序30提供的功能性可通過計(jì)算制造對(duì)象來實(shí)施,該計(jì)算制造對(duì)象包括通用和/或?qū)S糜布?或程序代碼的任何組合。在每個(gè)實(shí)施例中,可分別使用標(biāo)準(zhǔn)程序設(shè)計(jì)及工程技術(shù)來建立程序代碼及硬件。這些標(biāo)準(zhǔn)程序設(shè)計(jì)及工程技術(shù)可包括開放架構(gòu)以允許整合來自不同位置的處理。上述開放架構(gòu)可包括云計(jì)算。因此,本發(fā)明公開了一種用于支持計(jì)算機(jī)基礎(chǔ)結(jié)構(gòu)、整合、代管、維護(hù)及部署計(jì)算機(jī)可讀代碼至計(jì)算機(jī)系統(tǒng)12中的處理,其中與該計(jì)算機(jī)系統(tǒng)12結(jié)合的代碼能夠執(zhí)行一種用于估計(jì)視頻中的對(duì)象的部位及屬性的方法。
[0031]類似地,計(jì)算機(jī)系統(tǒng)12僅說明用于實(shí)施本發(fā)明的各方面的各種類型的計(jì)算機(jī)系統(tǒng)。舉例而言,在一個(gè)實(shí)施例中,計(jì)算機(jī)系統(tǒng)12包含兩個(gè)或兩個(gè)以上計(jì)算裝置,該兩個(gè)或兩個(gè)以上計(jì)算裝置經(jīng)由任何類型的通信鏈路(諸如,網(wǎng)絡(luò)、共享存儲(chǔ)器或其類似者)進(jìn)行通信以執(zhí)行本文中所描述的處理。另外,在執(zhí)行本文中所描述的處理時(shí),計(jì)算機(jī)系統(tǒng)12中的一個(gè)或多個(gè)計(jì)算裝置可使用任何類型的通信鏈路與計(jì)算機(jī)系統(tǒng)12外部的一個(gè)或多個(gè)其他計(jì)算裝置通信。在任一情況下,通信鏈路可包含各種類型的有線和/或無(wú)線鏈路的任何組合;包含一種或多種類型的網(wǎng)絡(luò)的任何組合;和/或利用各種類型的傳輸技術(shù)及協(xié)議的任何組
八
口 ο
[0032]如本文中所論述,語(yǔ)意屬性檢測(cè)程序30使得計(jì)算機(jī)系統(tǒng)12能夠檢測(cè)對(duì)象(諸如,視頻40中的人員92(圖1))的語(yǔ)意屬性。就此而言,語(yǔ)意屬性檢測(cè)程序30被示出為包括對(duì)象檢測(cè)模塊32、外觀分?jǐn)?shù)模塊34、幾何分?jǐn)?shù)模塊36、分辨率內(nèi)容脈絡(luò)模塊37、結(jié)構(gòu)優(yōu)化模塊38、計(jì)算總分模塊39,及結(jié)構(gòu)化學(xué)習(xí)模塊35。本文中進(jìn)一步論述這些模塊中的每一個(gè)的操作。然而,應(yīng)理解,圖2中所示出的各種模塊中的一些模塊可獨(dú)立地實(shí)施、組合和/或儲(chǔ)存于包括于計(jì)算機(jī)系統(tǒng)12中的一個(gè)或多個(gè)單獨(dú)計(jì)算裝置的存儲(chǔ)器中。另外,應(yīng)理解,可以不實(shí)施一些模塊和/或功能性,或可包括額外模塊和/或功能性作為計(jì)算機(jī)系統(tǒng)12的一部分。
[0033]本發(fā)明的各方面提供一種用于檢測(cè)對(duì)象(諸如,視頻40中的人員92(圖1))的語(yǔ)意屬性的改良解決方案。就此而言,圖3示出了根據(jù)本發(fā)明的實(shí)施例的輸入90(圖1)及輸出54(圖1)的實(shí)例。如上文(圖1)所描述,輸入90為具有至少一個(gè)對(duì)象(在此實(shí)例中為人)的場(chǎng)景。輸出54包括身體部位的空間位置及圖像上的屬性。舉例而言,本發(fā)明將區(qū)域402識(shí)別為上部臉部區(qū)域,且自同一區(qū)域識(shí)別該人員的屬性“禿發(fā)”。區(qū)域404為中間臉部區(qū)域且識(shí)別屬性“太陽(yáng)眼鏡”。區(qū)域406為下部臉部區(qū)域且識(shí)別屬性“胡須”。區(qū)域408被識(shí)別為手臂且識(shí)別屬性“紋身”。區(qū)域410被識(shí)別為腿且識(shí)別屬性“黑色長(zhǎng)褲”。此外,如本文中所描述,輸出54包括圖像的外觀分?jǐn)?shù)、幾何分?jǐn)?shù)及(若可用)分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的總分和/或加權(quán)平均分。
[0034]本發(fā)明的各方面提供一種用于檢測(cè)對(duì)象(諸如,視頻40中的人員92(圖1))的語(yǔ)意屬性的改良解決方案。就此而言,圖4示出了根據(jù)本發(fā)明的實(shí)施例的用于通過使用語(yǔ)意屬性檢測(cè)程序30(圖2)的模塊而檢測(cè)圖像上的人員92(圖1)的語(yǔ)意屬性的說明性數(shù)據(jù)流。舉例而言,在Dl處,系統(tǒng)12接收數(shù)字彩色視頻輸入40。數(shù)字彩色視頻輸入40通常呈紅色-綠色-藍(lán)色(RGB)格式,且在每一時(shí)間瞬時(shí)處,具有人員92(圖1)的視頻輸入的幀到達(dá)對(duì)象檢測(cè)模塊32 (圖2)。
[0035]在SI處,對(duì)象檢測(cè)模塊32(圖2)在視頻輸入的幀中檢測(cè)對(duì)象且識(shí)別其對(duì)象類型??赏ㄟ^使用對(duì)象分類器來將對(duì)象的圖像與先前儲(chǔ)存且儲(chǔ)存于對(duì)象庫(kù)中的持續(xù)自學(xué)對(duì)象進(jìn)行比較而測(cè)試該檢測(cè)(參見論文:2005年6月美國(guó)加州圣地亞哥(San Diego, USA)Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,N.Dalai 及 B.Triggs 的“Histograms of Oriented Gradients for Human Detection,,第II卷第886至893頁(yè)))。一旦自圖像識(shí)別出對(duì)象,便裁切覆蓋該對(duì)象的圖像區(qū)域。現(xiàn)有技術(shù)支持產(chǎn)生圖像的較低分辨率版本。自裁切區(qū)域,產(chǎn)生原始裁切區(qū)域的至少一個(gè)較低分辨率圖像且將其與原始裁切圖像一起保存以供進(jìn)一步分析。在隨后步驟中,首先處理裁切區(qū)域的最低分辨率圖像,且以較低分辨率至較高分辨率的次序處理圖像。出于獲得分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的目的,處理較高分辨率圖像。具體的,分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)模塊37(圖2)分析與對(duì)象的各種部位及子部位相對(duì)應(yīng)的圖像的各種區(qū)域及子區(qū)域的分辨率愈來愈高的圖像。較高分辨率圖像的分析依次包括計(jì)算語(yǔ)意屬性的外觀分?jǐn)?shù)、針對(duì)子區(qū)域計(jì)算幾何分?jǐn)?shù)及計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),所述子區(qū)域具有比最低分辨率圖像中的區(qū)域高的精細(xì)度。最低分辨率圖像的分辨率可為預(yù)定的,諸如,作為常數(shù)儲(chǔ)存于語(yǔ)意屬性檢測(cè)程序30中或作為輸入經(jīng)由I/O裝置28(圖2)來提供。
[0036]D2維護(hù)語(yǔ)意屬性及相關(guān)聯(lián)圖像的列表。除了描述語(yǔ)意屬性之外,每個(gè)語(yǔ)意屬性還對(duì)應(yīng)于身體部位。舉例而言,語(yǔ)意屬性“太陽(yáng)眼鏡”、“眼鏡”及“無(wú)眼鏡”全部對(duì)應(yīng)于身體部位“中間臉部區(qū)域”;語(yǔ)意屬性“胡須”、“小胡子”及“無(wú)臉部毛發(fā)”全部對(duì)應(yīng)于身體部位“下部臉部區(qū)域”。圖5示出了根據(jù)本發(fā)明的實(shí)施例的與身體部位相關(guān)聯(lián)的語(yǔ)意屬性的實(shí)例。語(yǔ)意屬性52 (圖1)的列表含有這些語(yǔ)意屬性及其對(duì)應(yīng)身體部位兩者。
[0037]在S2處,外觀分?jǐn)?shù)模塊34 (圖2)通過評(píng)估語(yǔ)意屬性52 (D2)存在于圖像的各區(qū)域處的概率而實(shí)時(shí)或以延遲模式來分析自SI保存的圖像。如上文所陳述,首先分析最低分辨率圖像。可在此階段評(píng)估可能在最低分辨率圖像上可見的語(yǔ)意屬性,而可在隨后步驟處評(píng)估可能在較高分辨率圖像上可見的其他語(yǔ)意屬性。語(yǔ)意屬性的圖像儲(chǔ)存于持續(xù)自學(xué)的語(yǔ)意屬性庫(kù)中。
[0038]在S2處,在評(píng)估語(yǔ)意屬性存在于影像的各區(qū)域處的概率時(shí),本發(fā)明的各方面使用了描述于 2001 年 2 月 “Cambridge ResearchLaboratory Technical Reportliola 等人的作品 “Robust Real-time Object Detection” 中的方法。在 2004 年 IEEE InternationalConference on Automatic Face and Gesture Recognition Bo Wu 等人的作品“FastRotation Invariant Mult1-View Face Detection Based on Real Adaboost,,中用實(shí)值信賴分?jǐn)?shù)進(jìn)一步描述了該方法。該方法提供計(jì)算外觀分?jǐn)?shù)用以表示屬性存在于某一區(qū)域處的概率的步驟。經(jīng)由語(yǔ)意屬性檢測(cè)器的應(yīng)用來評(píng)估語(yǔ)意屬性的存在。用于語(yǔ)意屬性的檢測(cè)器是將圖像的某一區(qū)域映射成在區(qū)域間[0,1]中的實(shí)數(shù)的函數(shù),其中輸出指示語(yǔ)意屬性在給定作為輸入的圖像區(qū)域中存在的概率。依據(jù)本發(fā)明,外觀分?jǐn)?shù)的所得值的范圍可為O至I。在圖像的每一區(qū)域處,可存在對(duì)應(yīng)于存在于同一區(qū)域處的多個(gè)語(yǔ)意屬性的概率的多個(gè)外觀分?jǐn)?shù)。
[0039]圖5A及圖5B示出了根據(jù)本發(fā)明的實(shí)施例的將語(yǔ)意屬性應(yīng)用于人體圖像的實(shí)例。在圖5A中,不同于將僅把圖像區(qū)域60、62及64分別識(shí)別為頭、軀體及腿的先前技術(shù),本發(fā)明的實(shí)施例另外自區(qū)域60提取皮膚顏色、自區(qū)域62提取襯衫顏色且自區(qū)域64提取褲子顏色等。類似地,在圖5B中,區(qū)域66不僅被識(shí)別為上部臉部區(qū)域,而且其提供描述頭發(fā)、禿發(fā)或帽子的存在的屬性。區(qū)域68不僅被識(shí)別為中間臉部區(qū)域,而且其還提供描述眼睛、視力眼鏡或太陽(yáng)眼鏡的屬性。區(qū)域70不僅被識(shí)別為下部臉部區(qū)域,而且其還可提供嘴、小胡子或胡須的屬性。此外,圖5A的圖像具有比圖5B低的分辨率。將適用于整個(gè)身體的屬性檢測(cè)器(諸如,皮膚顏色、襯衫顏色及褲子顏色)應(yīng)用于圖5A中的較低分辨率圖像,而將特定于臉部的屬性檢測(cè)器(諸如,發(fā)型、眼鏡的存在及小胡子)應(yīng)用于圖5B。
[0040]隨后在S2(圖4)中,外觀分?jǐn)?shù)模塊34(圖2)將閾值應(yīng)用于由在圖像上應(yīng)用語(yǔ)意屬性檢測(cè)器所產(chǎn)生的所有外觀分?jǐn)?shù)。將舍棄小于閾值的外觀分?jǐn)?shù),而將保留剩余的外觀分?jǐn)?shù)。閾值可為預(yù)定的,諸如作為常數(shù)儲(chǔ)存于語(yǔ)意屬性檢測(cè)程序30中或作為輸入經(jīng)由I/O裝置28(圖2)來提供。在應(yīng)用閾值之后,在圖像的區(qū)域處仍可存在剩余的一個(gè)以上外的觀分?jǐn)?shù)。在圖像的每一區(qū)域處的每一外觀分?jǐn)?shù)對(duì)應(yīng)于語(yǔ)意屬性。如上文所描述,每一語(yǔ)意屬性對(duì)應(yīng)于身體部位。因此,在圖像區(qū)域處的每一外觀分?jǐn)?shù)也對(duì)應(yīng)于身體部位。接著,具有超過閾值的外觀分?jǐn)?shù)的每一區(qū)域?qū)⒂脤?duì)應(yīng)的身體部位來加標(biāo)簽。結(jié)果,外觀分?jǐn)?shù)模塊34的輸出包括用外觀分?jǐn)?shù)作標(biāo)記且用語(yǔ)意屬性及身體部位名稱加標(biāo)簽的區(qū)域的位置,例如,對(duì)于區(qū)域X,外觀分?jǐn)?shù)為0.6且標(biāo)簽為“胡須/下部臉部區(qū)域”,其中“胡須”為語(yǔ)意屬性且“下部臉部區(qū)域”為身體部位。
[0041]圖5C示出了根據(jù)本發(fā)明的實(shí)施例的評(píng)估外觀分?jǐn)?shù)的實(shí)例。區(qū)域602獲得三個(gè)外觀分?jǐn)?shù):胡須(0.1)、小胡子(0.1)及“無(wú)毛發(fā)”(0.95)。舉例而言,閾值為0.5。結(jié)果,如上文所描述,將“無(wú)毛發(fā)”選擇為區(qū)域602的屬性,這是因?yàn)椤盁o(wú)毛發(fā)”包括了超過閾值0.5的分?jǐn)?shù)。類似地,區(qū)域604獲得三個(gè)外觀分?jǐn)?shù):胡須(0.9)、小胡子(0.2)及“無(wú)毛發(fā)” (0.1)。結(jié)果,將胡須選擇為區(qū)域604的屬性,這是因?yàn)楹毎顺^閾值0.5的分?jǐn)?shù)。如上文所描述,區(qū)域604及區(qū)域602兩者將用身體部位“下部臉部區(qū)域”加標(biāo)簽。根據(jù)通過S5 (圖4)中的結(jié)構(gòu)優(yōu)化模塊的評(píng)估,區(qū)域604可由于具有低幾何分?jǐn)?shù)以及低分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)而在隨后被拒絕。
[0042]S2(圖4)的輸出包括用屬性及外觀分?jǐn)?shù)作標(biāo)記且用身體部位名稱加標(biāo)簽的各區(qū)域的各個(gè)位置。圖示出了根據(jù)本發(fā)明的實(shí)施例的用于計(jì)算外觀分?jǐn)?shù)的步驟的輸入及輸出。在計(jì)算外觀分?jǐn)?shù)時(shí),外觀分?jǐn)?shù)模塊34 (圖2)獲取輸入610,該輸入610包括對(duì)象的裁切圖像612、具有對(duì)應(yīng)部位的語(yǔ)意屬性的列表52、作為參考的語(yǔ)意屬性的圖像庫(kù)620,及外觀分?jǐn)?shù)閾值630。輸出690包括圖像上的具有語(yǔ)意屬性、部位名稱及外觀分?jǐn)?shù)650的區(qū)域。輸出外觀分?jǐn)?shù)全部超過外觀分?jǐn)?shù)閾值630。
[0043]在S3(圖4)處,為了計(jì)算在S2中處理的圖像(例如,圖像x)的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)模塊37 (圖2)需要分析圖像X的較高分辨率圖像。如上文所描述,自SI產(chǎn)生且儲(chǔ)存較高分辨率圖像。主要想法在于,若身體部位在給定分辨率下在圖像中可見,則其在較高分辨率下在同一圖像中也應(yīng)可見。舉例而言,在特定區(qū)域(區(qū)域y)處,向語(yǔ)意屬性“胡須”給定分?jǐn)?shù)0.9且因此將區(qū)域y加標(biāo)簽為“胡須/下部臉部區(qū)域”。在較高分辨率圖像中,區(qū)域y預(yù)期顯示出下部臉部區(qū)域的子部位(例如,嘴,下巴等)。若該情況沒有發(fā)生,則有可能身體部位“下部臉部區(qū)域”實(shí)際上不存在于區(qū)域y中,且將較低分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)指派給區(qū)域I。
[0044]圖6示出了根據(jù)本發(fā)明的實(shí)施例的評(píng)估分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的實(shí)例。在較低分辨率圖像下,在圖像700上,外觀分?jǐn)?shù)模塊34 (圖2)通過應(yīng)用語(yǔ)意屬性檢測(cè)器(諸如,胡須或眼鏡或臉部皮膚顏色)在區(qū)域702處檢測(cè)臉部身體部位。圖像750為區(qū)域702的較高分辨率圖像。由于區(qū)域的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的可用性取決于該區(qū)域的較高分辨率圖像的可用性,因此在圖像750可用的情況下,可獲得圖像700上的區(qū)域702的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)。在圖像750下,評(píng)估區(qū)域702以檢測(cè)如在圖像700上所檢測(cè)到的臉部是否含有預(yù)期子部位(諸如,眼睛、鼻子及嘴)。相關(guān)語(yǔ)意屬性檢測(cè)器(諸如,胡須或眼鏡或甚至眼睛顏色)可應(yīng)用于圖像750。因此,針對(duì)在諸如區(qū)域704的區(qū)域處應(yīng)用的語(yǔ)意屬性而在圖像750上計(jì)算外觀分?jǐn)?shù)。此外,針對(duì)經(jīng)識(shí)別具有超過預(yù)定閾值的語(yǔ)意屬性的區(qū)域來計(jì)算幾何分?jǐn)?shù)。簡(jiǎn)言之,圖4中的步驟S2到步驟S7將應(yīng)用于圖像750以產(chǎn)生總分和/或加權(quán)平均分,該總分和/或加權(quán)平均分用于圖像750的輸出54的一部分。在分析時(shí),每一圖像都產(chǎn)生輸出54。來自圖像750的加權(quán)平均分成為圖像700上的區(qū)域702的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)。
[0045]圖6A進(jìn)一步說明分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)模塊37如何獲得分辨率分?jǐn)?shù)。在自較低分辨率圖像至較高分辨率圖像的處理中,在分辨率N下的圖像670的分辨率低于圖像690的分辨率N+1。在圖像670上的區(qū)域675處,屬性“歐洲臉”具有外觀分?jǐn)?shù)0.9。圖像690在較高分辨率下檢查區(qū)域675。應(yīng)用于圖像690的分析處理包括通過應(yīng)用語(yǔ)意屬性來計(jì)算外觀分?jǐn)?shù)、計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)、計(jì)算幾何分?jǐn)?shù)(在隨后步驟描述)、執(zhí)行結(jié)構(gòu)優(yōu)化(在隨后步驟描述)及計(jì)算總分(在隨后步驟描述)。如上文所描述,輸出54包括圖像的外觀分?jǐn)?shù)、分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)及幾何分?jǐn)?shù)的加權(quán)平均(如本文中所描述)。因此,在此情況下,來自用于圖像690的輸出54的加權(quán)平均分0.7為圖像670上的區(qū)域675的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)。
[0046]為了進(jìn)一步說明圖6A上的圖像670上的區(qū)域675如何具有分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)
0.7,假定基于應(yīng)用于圖像690上的語(yǔ)意屬性,存在在圖像690上檢測(cè)出的三個(gè)區(qū)域。假定該三個(gè)區(qū)域?yàn)閰^(qū)域X、區(qū)域I及區(qū)域Z。假定圖像690上的區(qū)域X、區(qū)域y及區(qū)域Z的外觀分?jǐn)?shù)分別為0.9,0.8及0.9。假定圖像690上的區(qū)域X、區(qū)域y及區(qū)域z的幾何分?jǐn)?shù)分別為
0.5、0.6及0.35。假定存在區(qū)域X、區(qū)域y及區(qū)域z的較高分辨率圖像。假定區(qū)域x的較高分辨率圖像具有兩個(gè)子區(qū)域:區(qū)域XX及區(qū)域xy。假定區(qū)域XX及區(qū)域xy不具有對(duì)應(yīng)的較高分辨率圖像。假定區(qū)域XX具有外觀分?jǐn)?shù)0.95且區(qū)域xy具有外觀分?jǐn)?shù)0.9。假定區(qū)域xx及區(qū)域xy的幾何分?jǐn)?shù)分別為0.9及0.8。由于不存在區(qū)域xx及區(qū)域xy的對(duì)應(yīng)的較高分辨率圖像,因此區(qū)域xx及區(qū)域xy的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)為O。假定在該實(shí)例中的所有分析中,外觀分?jǐn)?shù)的加權(quán)因子為0.5,幾何分?jǐn)?shù)的加權(quán)因子為0.3且分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的加權(quán)因子為0.2。因此,可在表1中表示對(duì)應(yīng)于圖像690上的區(qū)域X的最高分辨率圖像的數(shù)字。
[0047]表1
[0048]
【權(quán)利要求】
1.一種用于確定視頻中的對(duì)象的部位及相關(guān)屬性的方法,所述方法包含: 接收視頻輸入; 從所述視頻輸入檢測(cè)對(duì)象且從所述視頻輸入裁切所述對(duì)象的圖像; 接收具有所述對(duì)象的相關(guān)聯(lián)部位的多個(gè)語(yǔ)意屬性; 產(chǎn)生并儲(chǔ)存所述圖像的多個(gè)版本,每一版本具有所述對(duì)象的所述圖像的不同分辨率; 針對(duì)所述多個(gè)語(yǔ)意屬性,計(jì)算在所述對(duì)象的所述圖像的所述版本中的最低分辨率版本上的多個(gè)區(qū)域中的每一區(qū)域處的外觀分?jǐn)?shù),針對(duì)每一區(qū)域的所述多個(gè)語(yǔ)意屬性中的至少一個(gè)語(yǔ)意屬性的所述外觀分?jǐn)?shù)指示所述至少一個(gè)語(yǔ)意屬性中的每一語(yǔ)意屬性出現(xiàn)于所述區(qū)域中的概率; 針對(duì)所述最低分辨率版本中的每一區(qū)域來分析分辨率相對(duì)于所述最低分辨率版本遞增的版本,以計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),所述最低分辨率版本中的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)指示如下的程度,所述程度是針對(duì)每一區(qū)域,相比于最低分辨率版本,在所述分辨率遞增的版本中存在更精細(xì)的空間結(jié)構(gòu)的程度; 確定所述最低分辨率版本中的身體部位及相關(guān)聯(lián)語(yǔ)意屬性的優(yōu)化結(jié)構(gòu),所述確定利用所述最低分辨率版本的各區(qū)域中的外觀分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù);以及 顯示和/或儲(chǔ)存身體部位及相關(guān)聯(lián)語(yǔ)意屬性的所述優(yōu)化結(jié)構(gòu)。
2.如權(quán)利要求1的方法,其進(jìn)一步包含: 針對(duì)所述最低分辨率版本的所述多個(gè)區(qū)域中的每一區(qū)域計(jì)算幾何分?jǐn)?shù),所述幾何分?jǐn)?shù)關(guān)于所述多個(gè)區(qū)域間的角度及距離來計(jì)算某一區(qū)域與對(duì)應(yīng)于所檢測(cè)對(duì)象的參考對(duì)象所儲(chǔ)存的參考數(shù)據(jù)相匹配的概率。
3.如權(quán)利要求2的方法,其中所述圖像的較低分辨率版本的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)被計(jì)算為加權(quán)平均分,所述加權(quán)平均分是從所述圖像的所述較高分辨率版本的下一個(gè)更高分辨率版本的多個(gè)分?jǐn)?shù)來計(jì)算的。
4.如權(quán)利要求3的方法,其中所述圖像的所述下一個(gè)更高分辨率版本的所述多個(gè)分?jǐn)?shù)包含外觀分?jǐn)?shù)及幾何分?jǐn)?shù)。
5.如權(quán)利要求3的方法,其中所述圖像的所述下一個(gè)更高分辨率版本的所述多個(gè)分?jǐn)?shù)包含外觀分?jǐn)?shù)、幾何分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)。
6.如權(quán)利要求5的方法,其中所述圖像的所述下一個(gè)更高分辨率版本的所述加權(quán)平均分是使用以下公式除以I來計(jì)算的: Sw1 CA,) + W2 (G_) + W3 師 I 其中I表示所述圖像的所述下一個(gè)更高分辨率版本中的區(qū)域的數(shù)目,i為區(qū)域索引,Σ i指示從i=l至i=I的求和,Ai表示區(qū)域i的外觀分?jǐn)?shù),Gi表示區(qū)域i的幾何分?jǐn)?shù),Ri表示區(qū)域i的分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),且W1J2及W3表示分別指派給所述外觀分?jǐn)?shù)、所述幾何分?jǐn)?shù)及所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)的權(quán)重。
7.如權(quán)利要求6的方法,其進(jìn)一步包含: 儲(chǔ)存和/或顯示具有關(guān)于語(yǔ)意屬性及相關(guān)聯(lián)部位的空間信息的所述圖像的所述較高層級(jí)版本中的至少一個(gè)版本中的所述圖像的至少一部分的輸出。
8.一種計(jì)算機(jī)程序產(chǎn)品,其包含:計(jì)算機(jī)可讀儲(chǔ)存介質(zhì),其具有在所述儲(chǔ)存介質(zhì)實(shí)現(xiàn)的計(jì)算機(jī)可讀程序代碼,所述計(jì)算機(jī)可讀程序代碼含有執(zhí)行用于估算視頻中的對(duì)象的部位及屬性的方法的指令,所述方法包括: 接收視頻輸入; 從所述視頻輸入檢測(cè)對(duì)象且從所述視頻輸入裁切所述對(duì)象的圖像; 接收具有所述對(duì)象的相關(guān)聯(lián)部位的多個(gè)語(yǔ)意屬性; 產(chǎn)生并儲(chǔ)存所述圖像的多個(gè)版本,每一版本具有所述對(duì)象的所述圖像的不同分辨率; 針對(duì)所述多個(gè)語(yǔ)意屬性,計(jì)算在所述對(duì)象的所述圖像的所述版本中的最低分辨率版本上的多個(gè)區(qū)域中的每一區(qū)域處的外觀分?jǐn)?shù),針對(duì)每一區(qū)域的所述多個(gè)語(yǔ)意屬性中的至少一個(gè)語(yǔ)意屬性的所述外觀分?jǐn)?shù)指示所述至少一個(gè)語(yǔ)意屬性中的每一語(yǔ)意屬性出現(xiàn)于所述區(qū)域中的概率; 針對(duì)所述最低分辨率版本中的每一區(qū)域來分析分辨率相對(duì)于所述最低分辨率版本遞增的版本,以計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),所述最低分辨率版本中的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)指示如下的程度,所述程度是針對(duì)每一區(qū)域,相比于最低分辨率版本,在所述分辨率遞增的版本中存在更精細(xì)的空間結(jié)構(gòu)的程度; 確定所述最低分辨率版本中的身體部位及相關(guān)聯(lián)語(yǔ)意屬性的優(yōu)化結(jié)構(gòu),所述確定利用所述最低分辨率版本的各區(qū)域中的外觀分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù);以及 顯示和/或儲(chǔ)存身體部位及相關(guān)聯(lián)語(yǔ)意屬性的所述優(yōu)化結(jié)構(gòu)。
9.權(quán)利要求8的計(jì)算機(jī)程序產(chǎn)品,所述方法進(jìn)一步包含: 針對(duì)所述最低分辨率版本的所述多個(gè)區(qū)域中的每一區(qū)域計(jì)算幾何分?jǐn)?shù),所述幾何分?jǐn)?shù)關(guān)于所述多個(gè)區(qū)域間的角度及距離來計(jì)算某一區(qū)域與對(duì)應(yīng)于所檢測(cè)對(duì)象的參考對(duì)象所儲(chǔ)存的參考數(shù)據(jù)相匹配的概率。
10.權(quán)利要求9的計(jì)算機(jī)程序產(chǎn)品,其中所述圖像的較低分辨率版本的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)被計(jì)算為加權(quán)平均分,所述加權(quán)平均分是從所述圖像的所述較高分辨率版本的下一個(gè)更高分辨率版本的多個(gè)分?jǐn)?shù)來計(jì)算的。
11.如權(quán)利要求10的計(jì)算機(jī)程序產(chǎn)品,其中所述圖像的所述下一個(gè)更高分辨率版本的所述多個(gè)分?jǐn)?shù)包含外觀分?jǐn)?shù)及幾何分?jǐn)?shù)。
12.如權(quán)利要求10的計(jì)算機(jī)程序產(chǎn)品,其中所述圖像的所述下一個(gè)更高分辨率版本的所述多個(gè)分?jǐn)?shù)包含外觀分?jǐn)?shù)、幾何分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)。
13.如權(quán)利要求12的計(jì)算機(jī)程序產(chǎn)品,其中所述圖像的所述下一個(gè)更高分辨率版本的所述加權(quán)平均分是使用以下公式除以I來計(jì)算的:
14.如權(quán)利要求13的計(jì)算機(jī)程序產(chǎn)品,其進(jìn)一步包含: 儲(chǔ)存和/或顯示具有關(guān)于語(yǔ)意屬性及相關(guān)聯(lián)部位的空間信息的所述圖像的所述較高層級(jí)版本中的至少一個(gè)版本中的所述圖像的至少一部分的輸出。
15.一種計(jì)算機(jī)系統(tǒng),其包含處理器及耦接至所述處理器的計(jì)算機(jī)可讀存儲(chǔ)器單元,所述計(jì)算機(jī)可讀存儲(chǔ)器單元含有指令,所述指令在由所述處理器執(zhí)行時(shí)實(shí)施用于估算視頻中的對(duì)象的部位及屬性的方法,所述方法包括: 接收視頻輸入; 從所述視頻輸入檢測(cè)對(duì)象且從所述視頻輸入裁切所述對(duì)象的圖像; 接收具有所述對(duì)象的相關(guān)聯(lián)部位的多個(gè)語(yǔ)意屬性; 產(chǎn)生并儲(chǔ)存所述圖像的多個(gè)版本,每一版本具有所述對(duì)象的所述圖像的不同分辨率; 針對(duì)所述多個(gè)語(yǔ)意屬性,計(jì)算在所述對(duì)象的所述圖像的所述版本中的最低分辨率版本上的多個(gè)區(qū)域中的每一區(qū)域處的外觀分?jǐn)?shù),針對(duì)每一區(qū)域的所述多個(gè)語(yǔ)意屬性中的至少一個(gè)語(yǔ)意屬性的所述外觀分?jǐn)?shù)指示所述至少一個(gè)語(yǔ)意屬性中的每一語(yǔ)意屬性出現(xiàn)于所述區(qū)域中的概率; 針對(duì)所述最低分辨率版本中的每一區(qū)域來分析分辨率相對(duì)于所述最低分辨率版本遞增的版本,以計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),所述最低分辨率版本中的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)指示如下的程度,所述程度是針對(duì)每一區(qū)域,相比于最低分辨率版本,在所述分辨率遞增的版本中存在更精細(xì)的空間結(jié)構(gòu)的程度; 確定所述最低 分辨率版本中的身體部位及相關(guān)聯(lián)語(yǔ)意屬性的優(yōu)化結(jié)構(gòu),所述確定利用所述最低分辨率版本的各區(qū)域中的外觀分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù);以及 顯示和/或儲(chǔ)存身體部位及相關(guān)聯(lián)語(yǔ)意屬性的所述優(yōu)化結(jié)構(gòu)。
16.如權(quán)利要求15的系統(tǒng),所述方法進(jìn)一步包含: 針對(duì)所述最低分辨率版本的所述多個(gè)區(qū)域中的每一區(qū)域計(jì)算幾何分?jǐn)?shù),所述幾何分?jǐn)?shù)關(guān)于所述多個(gè)區(qū)域間的角度及距離來計(jì)算某一區(qū)域與對(duì)應(yīng)于所檢測(cè)對(duì)象的參考對(duì)象所儲(chǔ)存的參考數(shù)據(jù)相匹配的概率。
17.如權(quán)利要求16的系統(tǒng),其中所述圖像的較低分辨率版本的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)被計(jì)算為加權(quán)平均分,所述加權(quán)平均分是從所述圖像的所述較高分辨率版本的下一個(gè)更高分辨率版本的多個(gè)分?jǐn)?shù)來計(jì)算的。
18.如權(quán)利要求17的系統(tǒng),其中所述圖像的所述下一個(gè)更高分辨率版本的所述多個(gè)分?jǐn)?shù)包含外觀分?jǐn)?shù)及幾何分?jǐn)?shù)。
19.如權(quán)利要求17的系統(tǒng),其中所述圖像的所述下一個(gè)更高分辨率版本的所述多個(gè)分?jǐn)?shù)包含外觀分?jǐn)?shù)、幾何分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)。
20.如權(quán)利要求19的系統(tǒng),其中所述圖像的所述下一個(gè)更高分辨率版本的所述加權(quán)平均分是使用以下公式除以I來計(jì)算的:
21.如權(quán)利要求20的系統(tǒng),所述方法進(jìn)一步包含:儲(chǔ)存和/或顯示具有關(guān)于語(yǔ)意屬性及相關(guān)聯(lián)部位的空間信息的所述圖像的所述較高層級(jí)版本中的至少一個(gè)版本中的所述圖像的至少一部分的輸出。
22.—種支持計(jì)算機(jī)基礎(chǔ)架構(gòu)的方法,所述方法包含提供用于建立、整合、代管、維護(hù)及部署計(jì)算機(jī)可讀程序代碼于計(jì)算機(jī)系統(tǒng)中的至少其中之一的至少一種支持服務(wù),其中結(jié)合所述計(jì)算系統(tǒng)的程序代碼能夠執(zhí)行用于估算視頻中的對(duì)象的部位及屬性的方法,所述方法包含: 接收視頻輸入; 從所述視頻輸入檢測(cè)對(duì)象且從所述視頻輸入裁切所述對(duì)象的圖像; 接收具有所述對(duì)象的相關(guān)聯(lián)部位的多個(gè)語(yǔ)意屬性; 產(chǎn)生并儲(chǔ)存所述圖像的多個(gè)版本,每一版本具有所述對(duì)象的所述圖像的不同分辨率; 針對(duì)所述多個(gè)語(yǔ)意屬性,計(jì)算在所述對(duì)象的所述圖像的所述版本中的最低分辨率版本上的多個(gè)區(qū)域中的每一區(qū)域處的外觀分?jǐn)?shù),針對(duì)每一區(qū)域的所述多個(gè)語(yǔ)意屬性中的至少一個(gè)語(yǔ)意屬性的所述外觀分?jǐn)?shù)指示所述至少一個(gè)語(yǔ)意屬性中的每一語(yǔ)意屬性出現(xiàn)于所述區(qū)域中的概率; 針對(duì)所述最低分辨率版本中的每一區(qū)域來分析分辨率相對(duì)于所述最低分辨率版本遞增的版本,以計(jì)算分辨率內(nèi)容脈絡(luò)分?jǐn)?shù),所述最低分辨率版本中的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)指示如下的程度,所述程度是針對(duì)每一區(qū)域,相比于最低分辨率版本,在所述分辨率遞增的版本中存在更精細(xì)的空間結(jié)構(gòu)的程度; 確定所述最低分辨率版本中的身體部位及相關(guān)聯(lián)語(yǔ)意屬性的優(yōu)化結(jié)構(gòu),所述確定利用所述最低分辨率版本的各區(qū)域中的外觀分?jǐn)?shù)及分辨率內(nèi)容脈絡(luò)分?jǐn)?shù);以及 顯示和/或儲(chǔ)存身體部位 及相關(guān)聯(lián)語(yǔ)意屬性的所述優(yōu)化結(jié)構(gòu)。
23.如權(quán)利要求22的方法,所述方法進(jìn)一步包含: 針對(duì)所述最低分辨率版本的所述多個(gè)區(qū)域中的每一區(qū)域計(jì)算幾何分?jǐn)?shù),所述幾何分?jǐn)?shù)關(guān)于所述多個(gè)區(qū)域間的角度及距離來計(jì)算某一區(qū)域與對(duì)應(yīng)于所檢測(cè)對(duì)象的參考對(duì)象所儲(chǔ)存的參考數(shù)據(jù)相匹配的概率。
24.如權(quán)利要求23的方法,其中所述圖像的較低分辨率版本的所述分辨率內(nèi)容脈絡(luò)分?jǐn)?shù)被計(jì)算為加權(quán)平均分,所述加權(quán)平均分是從所述圖像的所述較高分辨率版本的下一個(gè)更高分辨率版本的多個(gè)分?jǐn)?shù)來計(jì)算的。
【文檔編號(hào)】G06K9/00GK103703472SQ201180036737
【公開日】2014年4月2日 申請(qǐng)日期:2011年7月27日 優(yōu)先權(quán)日:2010年7月28日
【發(fā)明者】D·娃凱爾羅, R·S·福瑞斯, A·漢帕博, L·M·布朗 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司