專利名稱:利用圖像獲取參數(shù)和元數(shù)據(jù)自動和半自動的圖像分類、注釋和標(biāo)簽的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于檢索引擎或檢索引擎一部分的系統(tǒng)和過程,其中該檢索引擎使用自動、半自動或手工獲得的元數(shù)據(jù)和/或非元數(shù)據(jù),以基于語義圖像屬性和內(nèi)容表征、檢索和找回圖像知識庫。
背景技術(shù):
產(chǎn)生的電子圖像的數(shù)量正在高速增長,利用語義檢索它們是巨大的挑戰(zhàn)。許多可用的未加工的圖像幾乎沒有有意義的語義內(nèi)容的直接注釋,這限制了它們的檢索和發(fā)現(xiàn)。 雖然一些圖像知識庫或網(wǎng)址鼓勵手工納入標(biāo)簽或關(guān)鍵詞,而這遠(yuǎn)遠(yuǎn)還不普遍。語義圖像內(nèi)容的手工表征經(jīng)常主觀、勞動量大并且不一致。手工表征或注釋的相對耗時的過程也不可能跟上通過數(shù)字和非數(shù)字方法產(chǎn)生圖像的速率。在圖像領(lǐng)域已有表征圖像內(nèi)容的嘗試。例如,美國專利No. 7,555,165涉及一種利用照相機(jī)數(shù)據(jù)和基于內(nèi)容的提示進(jìn)行語義場景表征的方法。但是,該專利沒有利用GPS數(shù)據(jù),時間信息或諸如臉部檢測、臉部識別的圖像識別技術(shù),這限制了可以確定的有關(guān)未知圖像的信息量。該專利也限制于將圖像放置于類中,并且不能提供更豐富和更通用的注釋。公開的美國專利申請2009-022M32涉及對照片和視頻元數(shù)據(jù)打上地理信息標(biāo)簽并自動產(chǎn)生。雖然使用GPS坐標(biāo)有助于圖像的分類,但是它不提供表征圖像內(nèi)容的方法。由本發(fā)明人撰寫并于 2008 年 11 月在 IEEE Transaction on Pattern Analysis and Machine Intelligence,Vol. 30,No. 11,pp. 1933-1944 公開的內(nèi)容在此援引并入,其討論了利用元數(shù)據(jù)抽取的圖像的語義注釋。顏色特征抽取、形狀特征抽取、以及紋理特征抽取進(jìn)一步應(yīng)用于圖像,以產(chǎn)生圖像的語義數(shù)據(jù)庫。但是,現(xiàn)有技術(shù)中還有一種需要,即改進(jìn)的語義圖像內(nèi)容的注釋和分類。例如,利用本發(fā)明,圖像可以自動注釋為“Jack Kennedy在印度洋海嘯的前夜,澳大利亞金海岸日落時的海邊”,這對于上述技術(shù)來說是不可能的。
發(fā)明內(nèi)容
本發(fā)明涉及用于檢索引擎或一部分檢索引擎的系統(tǒng)和過程,其中該檢索引擎利用自動、半自動、或手工獲取的元數(shù)據(jù)和/或非元數(shù)據(jù),以基于圖像內(nèi)容和語義屬性,表征、檢索和找回圖像知識庫。它提供了一種基于圖像的內(nèi)容和語義屬性,自動或半自動產(chǎn)生圖像的注釋、標(biāo)簽、和分類的機(jī)制,其中該內(nèi)容和語義屬性導(dǎo)致圖像能夠被識別、發(fā)現(xiàn)和找回。本發(fā)明可以應(yīng)用于網(wǎng)絡(luò)檢索、個人檢索、社區(qū)檢索、以及互聯(lián)網(wǎng)、局域網(wǎng)、外聯(lián)網(wǎng)或特定知識域中的廣泛或垂直檢索引擎。本發(fā)明的一個方面涉及一種支持圖像的檢索和識別,以識別、分類和特別注釋圖像的語義屬性和內(nèi)容的方法,該方法利用了自動獲得的圖像獲取和相關(guān)的參數(shù)之間的關(guān)系,其中該參數(shù)例如為曝光時間、焦距、焦距比數(shù)(f-number)、相對光圈、閃光觸發(fā)信息、ISO 設(shè)置、視角、物距、時間戳、以及GPS(全球定位系統(tǒng))信息。該方法包括規(guī)則的應(yīng)用,該規(guī)則是確定性的或概率性的,將這些參數(shù)的值相關(guān)聯(lián)以推斷和分類圖像的語義內(nèi)容。從該過程看出,通過圖像的語義屬性和內(nèi)容可以檢索和找回圖像,而無需手工注釋或加標(biāo)簽??梢酝ㄟ^特定圖像處理的集中應(yīng)用和確認(rèn)、SIFT和相關(guān)技術(shù),并與其他形式的元數(shù)據(jù),例如標(biāo)題或關(guān)鍵詞以及本質(zhì)和公知推理一起,執(zhí)行圖像語義的進(jìn)一步豐富。本發(fā)明實現(xiàn)了自動產(chǎn)生高精度語義圖像注釋和表征,據(jù)此高精度檢索大量其他未標(biāo)弓丨的圖像收集變得可行。通過該自動技術(shù),借助自動裝置,通過圖像的語義屬性和內(nèi)容檢索圖像成為可能。
圖1示意了根據(jù)本發(fā)明的方法的概念性結(jié)構(gòu)圖,該方法用于自動提供圖像的語義屬性和內(nèi)容的語義表征。
具體實施例方式本發(fā)明通常涉及圖像內(nèi)容和語義屬性的表征,其可以采取人們使用的任何找回標(biāo)準(zhǔn)的形式,以檢索和找到圖像。相應(yīng)地,附圖和描述可以認(rèn)為實質(zhì)上是示意性的,而不是限制性的。本發(fā)明對于自動標(biāo)引圖像尤其有用。本發(fā)明消除了執(zhí)行耗時的手工標(biāo)引的必要, 手工標(biāo)引已表現(xiàn)出成本很高,并且如果由不具代表性的小組來完成的話,也會產(chǎn)生有偏差和主觀性的標(biāo)引結(jié)構(gòu)。本發(fā)明利用了元數(shù)據(jù),其是嵌入在圖像內(nèi)的描述性信息。某些描述性信息典型地在圖像產(chǎn)生時自動產(chǎn)生。例如,EXIF信息(可交換圖像文件形式),其取決于圖像記錄器, 例如照相機(jī)的制造和模型,通常包括下述信息例如記錄圖像的日期和時間、分辨率、照相機(jī)設(shè)置(諸如快門速度、ISO、焦距、曝光時間、焦距比數(shù)、相對光圈、應(yīng)用的壓縮量、顏色信息、閃光觸發(fā)信息、視度、物距等。較新的數(shù)碼相機(jī)還經(jīng)常包括GPS (全球定位系統(tǒng))參數(shù)。經(jīng)常與圖像文件相關(guān)的其他類型的元數(shù)據(jù)是由新聞局初始建立的IPTC(國際新聞通信委員會),由Adobe建立的XMP (可擴(kuò)展的元數(shù)據(jù)平臺),以及MPEG-7 ( “多媒體內(nèi)容描述接口”)。MPEG-7提供了一組視聽描述工具(元數(shù)據(jù)元素及其結(jié)構(gòu)和關(guān)系,其由描述符和描述方案形式的標(biāo)準(zhǔn)限定)以產(chǎn)生多媒體內(nèi)容的描述。但是,本發(fā)明適用于嵌入在圖像文件中或與圖像文件關(guān)聯(lián)的任何元數(shù)據(jù),而不管其是何種格式類型。參照圖1,描述了一般性的結(jié)構(gòu)圖,用于示意本發(fā)明的方法的一個方面。它包括圖像的知識庫(1001),其中該圖像典型地,但非必要的是數(shù)字圖像。該圖像可以結(jié)合上述的諸如圖像獲取參數(shù)的元數(shù)據(jù),以及諸如時間戳和GPS(全球定位系統(tǒng))信息的其他元數(shù)據(jù)。也有一些與圖像有關(guān)的數(shù)據(jù),例如內(nèi)容分類、注釋、標(biāo)簽、注釋、標(biāo)題、關(guān)鍵詞、大標(biāo)題、評語、備注、題目、相關(guān)文本、周圍文本、或者鏈接文本。該圖像獲取參數(shù)、元數(shù)據(jù)、和/或相關(guān)數(shù)據(jù)將被識別和抽取(100 。通過任何傳統(tǒng)技術(shù),例如使用搜索引擎,來執(zhí)行該識別和抽取,該搜索引擎在檢索中使用元數(shù)據(jù)參數(shù),其中該元數(shù)據(jù)參數(shù)例如在因特網(wǎng)上可以購買到。接下來(100 是圖像的語義表征,包括場景分類、注釋、或者加標(biāo)簽。該步驟 (1003)將包括圖像獲取參數(shù)和元數(shù)據(jù)的處理,規(guī)則的形成和應(yīng)用,該規(guī)則將圖像獲取參數(shù)值鏈接到圖像的語義屬性和內(nèi)容。另外,也可以應(yīng)用(1004)算術(shù)和/或計算程序。該程序能夠進(jìn)一步抽取有關(guān)圖像的信息。這些包括,但不限于,尺度不變特征變換(SIFT)、邊緣檢測、感興趣點的檢測、角落檢測、斑點檢測、感興趣的區(qū)域的檢測、脊柱檢測、特征抽取、特征檢測、顏色抽取、顏色組成、顏色柱狀圖構(gòu)成、顏色檢測、形狀檢測、邊界檢測、臉部檢測、以及臉部識別。利用這些技術(shù),可以從初始的基于規(guī)則的注釋,進(jìn)一步確定和確認(rèn)物體、場景、 建筑、人等的存在。最終的數(shù)據(jù),要么是未處理的形式,要么是處理的形式,可以用做有意義的找回標(biāo)準(zhǔn)。例如,圖像數(shù)據(jù)的表征可以是規(guī)則的形式,要么是確定的、要么是概率性的或其組合,和/或其他計算程序和算法。該表征可以直接或間接導(dǎo)致圖像的分類、注釋、加標(biāo)簽、豐富、標(biāo)引、檢索、標(biāo)識或找回。例如,利用特殊的規(guī)則來表征圖像會導(dǎo)致向圖像自動增加注釋信息,這更有助于該圖像的語義檢索。由本發(fā)明的方法表征的圖像可以是網(wǎng)絡(luò)圖像,非網(wǎng)絡(luò)圖像或其他公共或私人圖像知識庫中的圖像。它們可以是數(shù)字的或非數(shù)字的圖像。該方法可以應(yīng)用于圖像數(shù)據(jù)庫,網(wǎng)絡(luò)檢索,個人檢索,社區(qū)檢索,以及互聯(lián)網(wǎng)、局域網(wǎng)、外聯(lián)網(wǎng)或其他用途的廣泛的或垂直的檢索引擎。根據(jù)本發(fā)明的另一方面,通過查詢外部或內(nèi)部數(shù)據(jù)庫可以豐富和擴(kuò)展表征或元數(shù)據(jù);例如,可以通過從單獨的數(shù)據(jù)庫找回給定地方、某一時間(例如從圖像日期和時間戳確定)的溫度或天氣信息,來注釋或標(biāo)引給定位置的溫度或天氣,該信息可以用于訪問或表征相關(guān)的圖像。該表征,包含任意豐富信息,可以采用人們使用的任何形式的圖像找回標(biāo)準(zhǔn)。與圖像獲取參數(shù)和圖像內(nèi)容相關(guān)的規(guī)則的另一示例可以是當(dāng)焦距屬于一組特定值、曝光時間屬于一組特定值、物距屬于一組特定值、時間戳屬于一組特定值、以及相對光圈屬于一組特定值時,那么這暗示圖像可能是某一種場景或包括某幾種內(nèi)容。這些規(guī)則可以利用圖像獲取參數(shù)、相關(guān)數(shù)據(jù)、和元數(shù)據(jù)的屬性組合中的結(jié)合和/或分離。注意,元數(shù)據(jù)、非元數(shù)據(jù)、圖像獲取參數(shù)和/或其他形式的內(nèi)部或外部數(shù)據(jù)雖然包含或不包含在圖像文件形式中,但是可以直接或間接可記錄或可抽取。例如,這些可以包括臉部、指紋、或其他生物的存在、檢測或識別或相關(guān)數(shù)據(jù)。進(jìn)一步,標(biāo)題、關(guān)鍵詞、大標(biāo)題、標(biāo)簽、評語、備注、相關(guān)文本、周圍文本、鏈接文本、和/或描述也可以被檢查,并用于表征圖像和/或豐富圖像的語義屬性。另外,也可以使用圖像處理算法和程序,例如SIFT (尺寸不變特征變換)、形狀、顏色、特征、紋理抽取技術(shù),來表征圖像和/或豐富圖像的元數(shù)據(jù)。根據(jù)本發(fā)明的再一方面,管理圖像獲取參數(shù)的規(guī)則可以指示如日出或日落場景中的圖像,其和GPS坐標(biāo)與時間戳、臉部識別一起,并聯(lián)系臉部數(shù)據(jù)庫和新聞數(shù)據(jù)庫,使得圖像自動注釋為“澳大利亞金海岸的秋天的大海的日落”。隨后,這些數(shù)據(jù)可以從外部數(shù)據(jù)或多個數(shù)據(jù)庫(1005),例如天氣日志、給定地方在給定時間的新聞數(shù)據(jù)、或者臉部數(shù)據(jù)庫,進(jìn)一步關(guān)聯(lián)和豐富。這些語義表征(1003)、算術(shù)和計算程序(1004)和任何豐富信息(100 —起可以將圖像注釋為“Jack Kennedy在印度洋海嘯的前夜,澳大利亞金海岸日落時的海邊”(1006),這可以用作圖像找回標(biāo)準(zhǔn),以檢索相關(guān)的圖像??梢詮倪@些建立恰當(dāng)?shù)臉?biāo)引(1006)以有助于檢索過程。也就是說,豐富信息可以和圖像相關(guān)聯(lián)用作元數(shù)據(jù)和/或增加至標(biāo)引以便于檢索。注意,語義內(nèi)容可以是用戶感興趣的任何內(nèi)容;該內(nèi)容可以是,也可以不是直接或間接機(jī)器可抽取的。該內(nèi)容的示例包括圖像中的物體(例如,事物、人);圖像中物體的關(guān)系;圖像中物體或關(guān)系的屬性或特性;圖像中的場景;圖像中的環(huán)境;圖像的情境;圖像中的界標(biāo);拍攝圖像的位置;拍攝圖像的時間;圖像中的背景;圖像中的特征;圖像中的場合; 圖像中的事件;拍攝圖像的原因;圖像中的活物和非活物;圖像中人的情緒;以及圖像中的動作。豐富信息可以用于自動在MPEG-7結(jié)構(gòu)注釋數(shù)據(jù)型、關(guān)鍵詞注釋數(shù)據(jù)型、文本注釋數(shù)據(jù)型、或者M(jìn)PEG-7標(biāo)準(zhǔn)或其他諸如XMP標(biāo)準(zhǔn)中的其他數(shù)據(jù)型中填入場或信息??梢宰詣?、半自動或手工產(chǎn)生圖像元數(shù)據(jù),非元數(shù)據(jù),圖像獲取參數(shù)和/或其他形式的內(nèi)部或外部數(shù)據(jù)。根據(jù)本發(fā)明,自動產(chǎn)生高精度語義圖像注釋和表征,據(jù)此高精度檢索大量其他未標(biāo)引的圖像收集變得可行。通過該自動技術(shù),借助自動裝置,通過圖像的語義內(nèi)容檢索圖像成為可能。說明書中描述的操作可以由數(shù)據(jù)處理裝置對于一個或多個計算機(jī)可讀存儲設(shè)備中存儲的數(shù)據(jù)或從其他來源接收的數(shù)據(jù)執(zhí)行操作來實現(xiàn)。術(shù)語“數(shù)據(jù)處理裝置”包含用于處理數(shù)據(jù)的各種裝置、設(shè)備、以及機(jī)器,包括借助下述示例,可編程處理器、計算機(jī)、芯片系統(tǒng)、或其組合。該裝置可以包括特殊應(yīng)用邏輯電路,例如FPGA(現(xiàn)場可編程邏輯門陣列)或 ASIC(專用集成電路)。該裝置除了硬件之外,也包括產(chǎn)生用于所討論的計算機(jī)程序的執(zhí)行環(huán)境的編碼,例如構(gòu)成處理器固件的編碼、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)、交叉平臺運行時間環(huán)境,例如虛擬機(jī),或者它們中一個或多個的組合。該裝置和執(zhí)行環(huán)境可以實現(xiàn)多種不同的計算模型結(jié)構(gòu),例如網(wǎng)絡(luò)服務(wù)、分布式計算和網(wǎng)格計算結(jié)構(gòu)。雖然根據(jù)上述的實施例,描述了前述發(fā)明,但是許多變形都是可以的。相應(yīng)地,如上述建議的,但不限于此的修改和改變也被認(rèn)為落入下述權(quán)利要求的范圍中。
權(quán)利要求
1.一種通過分析圖像獲取元數(shù)據(jù)、與圖像相關(guān)的數(shù)據(jù)、和/或圖像本身來語義地表征數(shù)字或非數(shù)字圖像的語義屬性和內(nèi)容的方法,所述圖像、圖像獲取元數(shù)據(jù)、以及與圖像有關(guān)的數(shù)據(jù)存儲在非暫時性計算機(jī)可讀存儲介質(zhì)中,并利用元數(shù)據(jù)和/或相關(guān)的數(shù)據(jù)之間的概率性的或確定性的關(guān)系,產(chǎn)生語義圖像表征,其用于豐富先存在的元數(shù)據(jù)和/或相關(guān)數(shù)據(jù), 或者用于標(biāo)引計算機(jī)可讀存儲介質(zhì)中的圖像內(nèi)容,以有助于今后通過數(shù)據(jù)處理裝置,利用語義術(shù)語找回圖像。
2.如權(quán)利要求1所述的方法,其中所述圖像獲取元數(shù)據(jù)從焦距、曝光時間、相對光圈、 閃光燈信息、ISO設(shè)置、視角、物距、時間戳、或GPS信息中的至少一個選擇。
3.如權(quán)利要求1所述的方法,其中所述相關(guān)的數(shù)據(jù)從內(nèi)容分類、注釋、標(biāo)簽、多個注釋、 標(biāo)題、關(guān)鍵詞、大標(biāo)題、評語、備注、題目、相關(guān)文本、周圍文本或鏈接文本中的至少一個選擇。
4.如權(quán)利要求2所述的方法,其中該表征利用規(guī)則、和/或其他計算程序和算法。
5.如權(quán)利要求1所述的方法,其中所述圖像可以是網(wǎng)絡(luò)圖像、非網(wǎng)絡(luò)圖像、位于其他公共或私人圖像知識庫中的圖像;所述方法可以應(yīng)用到圖像數(shù)據(jù)庫,網(wǎng)絡(luò)檢索,個人檢索,社區(qū)檢索,以及互聯(lián)網(wǎng)、局域網(wǎng)、外聯(lián)網(wǎng)或其他用途的廣泛的或垂直的檢索引擎。
6.如權(quán)利要求2所述的方法,其中通過將元數(shù)據(jù)和/或相關(guān)數(shù)據(jù)與外部或內(nèi)部數(shù)據(jù)庫相關(guān)聯(lián),可以增強該表征。
7.如權(quán)利要求6所述的方法,其中所述關(guān)聯(lián)包括利用GPS坐標(biāo)和時間戳元數(shù)據(jù),以從用于圖像位置和時間的天氣或新聞數(shù)據(jù)庫,或者從其他地理信息系統(tǒng)或數(shù)據(jù)庫確定天氣或新聞信息。
8.如權(quán)利要求1所述的方法,其中所述語義表征包括圖像中的一個或多個物體,圖像中物體之間的關(guān)系,圖像中物體或關(guān)系的屬性或特性,圖像中的場景,圖像中的環(huán)境,圖像的情境,圖像中的界標(biāo),拍攝圖像的位置,拍攝圖像的時間,圖像中的背景,圖像中的特征, 圖像中的場合,圖像中的事件,拍攝圖像的原因,圖像中的活物和非活物,圖像中人的情緒, 或者圖像中的動作。
9.如權(quán)利要求1所述的方法,其中所述圖像元數(shù)據(jù)和/或相關(guān)的數(shù)據(jù)可以自動、半自動或手工產(chǎn)生。
10.如權(quán)利要求4所述的方法,其中所述表征規(guī)則通過確定當(dāng)焦距屬于一組特定值、曝光時間屬于一組特定值、物距屬于一組特定值、時間戳屬于一組特定值、以及相對光圈屬于一組特定值時,來從圖像獲取元數(shù)據(jù)中推斷圖像內(nèi)容,該圖像是某種場景或包含某種內(nèi)容。
11.如權(quán)利要求10所述的方法,其中所述表征規(guī)則利用圖像獲取元數(shù)據(jù)的組合特性中的結(jié)合和/或分離。
12.如權(quán)利要求1所述的方法,其中所述圖像獲取元數(shù)據(jù)包括可交換圖像文件形式即 EXIF元數(shù)據(jù)。
13.如權(quán)利要求1所述的方法,其中圖像的表征產(chǎn)生于圖像的分析,包括臉部檢測、臉部識別、指紋識別或其他生物數(shù)據(jù)的識別。
14.如權(quán)利要求13所述的方法,其中可以對來自生物數(shù)據(jù)的數(shù)據(jù)庫的圖像增加注釋。
15.如權(quán)利要求14所述的方法,其中所述生物數(shù)據(jù)是臉部特征或指紋。
16.如權(quán)利要求1所述的方法,其中所述圖像的表征包括利用圖像處理算法分析圖像,以確定圖像的形狀、顏色、特征或紋理。
17.如權(quán)利要求14所述的方法,其中所述圖像處理算法是尺寸不變特征變換即SIFT。
18.如權(quán)利要求1所述的方法,其中豐富先存在的元數(shù)據(jù)包括自動填入MPEG-7標(biāo)準(zhǔn)內(nèi)的一個或多個場。
19.如權(quán)利要求16所述的方法,其中所述MPEG-7的場選自結(jié)構(gòu)注釋數(shù)據(jù)型、關(guān)鍵詞注釋數(shù)據(jù)型、和/或文本注釋數(shù)據(jù)型。
全文摘要
提供一種利用圖像獲取參數(shù)和元數(shù)據(jù)自動或半自動表征圖像內(nèi)容的方法。該方法在不同類型的元數(shù)據(jù)與圖像的語義屬性和內(nèi)容之間建立概率性的和確定性的關(guān)系。它提供了一種基于圖像的內(nèi)容、語義屬性和元數(shù)據(jù)特性,自動和半自動將圖像分類、注釋、加標(biāo)簽、標(biāo)引、檢索、標(biāo)識或找回的機(jī)制。該方法利用,但不限于,圖像捕獲元數(shù)據(jù),例如焦距、曝光時間、相對光圈、閃光燈信息、ISO設(shè)置、視角、物距、時間戳、GPS信息和其他形式的元數(shù)據(jù),該其他形式的元數(shù)據(jù)包括但不限于可以自動、半自動或手工產(chǎn)生的標(biāo)題、關(guān)鍵詞、大標(biāo)題、標(biāo)簽、評語、備注、題目。本發(fā)明可以應(yīng)用于圖像數(shù)據(jù)庫,網(wǎng)絡(luò)檢索,個人檢索,社區(qū)檢索,以及互聯(lián)網(wǎng)、局域網(wǎng)、外聯(lián)網(wǎng)和其他用途的廣泛的或垂直的檢索引擎。
文檔編號G06F17/30GK102422286SQ201080020757
公開日2012年4月18日 申請日期2010年3月11日 優(yōu)先權(quán)日2009年3月11日
發(fā)明者劉際明, 梁灝鏘, 黃振奮 申請人:香港浸會大學(xué)