專利名稱::確定收集中的特定人的方法
技術(shù)領(lǐng)域:
:本發(fā)明一般地涉及圖像處理領(lǐng)域。更具體地,本發(fā)明涉及基于所捕捉的圖像的消失點的對應(yīng)位置估計和校正圖像捕捉時發(fā)生的無意的旋轉(zhuǎn)照相鏡頭視角。此外,本發(fā)明涉及在數(shù)字照相機中執(zhí)行這種圖像處理。本發(fā)明涉及確定感興趣的對象或人是否在數(shù)字圖像收集的特定圖像中。
背景技術(shù):
:隨著數(shù)字?jǐn)z影的到來,消費者正收集大量的數(shù)字圖像和視頻集。每個照相者用數(shù)字照相機拍攝的圖像的平均數(shù)量每年都在增加。結(jié)果,對于典型的消費者,圖像和視頻的組織和檢索已經(jīng)成為一個問題。目前,典型的消費者的數(shù)字圖像收集所跨越的時間長度僅為幾年。隨著平均數(shù)字圖像和視頻收集所跨越的時間長度的增加,組織和檢索問題將繼續(xù)加劇。用戶希望找到包含特定的感興趣的人的圖像和視頻。用戶可以進行人工搜索以找到包含感興趣的人的圖像和視頻。然而,這是緩慢、費力的過程。即使一些商業(yè)軟件(例如AdobeAlbum)允許用戶用指示圖像中的人的標(biāo)記給圖像做標(biāo)簽,這樣以后可以進行搜索,但是最初的做標(biāo)記過程仍非常乏味并且耗時。臉部識別軟件假定存在一組底實況標(biāo)記的(ground-truthlabeled)圖像(即具有對應(yīng)的人物身份的一組圖像)。大多數(shù)消費者圖像收集沒有類似的一組底實況。此外,對圖像中的臉部作標(biāo)記是復(fù)雜的,因為許多消費者圖像具有多個人物。因此簡單地用圖像中人的身份標(biāo)記圖像并沒有指示圖像中的哪個人與哪個身份相關(guān)聯(lián)。存在許多圖像處理包,為了安全或其他目的而試圖識別人。一些實例是CognitecSystemsGmbH的FaceVACS臉部識別4欠4牛和ImagisTechnologiesInc.禾口IdentixInc.的FacialRecognitionSDK。這些包主要打算用于安全類型的應(yīng)用,其中人在均勻照明下、正面姿勢以及沒有表情時面向照相機。由于在個人消費者圖像領(lǐng)域的圖像中所遇到的姿勢、照明、表情和臉部尺寸的很大變化,這些方法不適用于這個領(lǐng)域。
發(fā)明內(nèi)容本發(fā)明的目的在于在數(shù)字圖像收集中的圖像或視頻中容易地識別感興趣的人或物。這個目的是通過識別數(shù)字圖像收集中的特定人的方法來實現(xiàn)的,其中數(shù)字圖像收集中的至少其中一個圖像包含多于一個人,該方法包括(a)為包含特定的人和至少一個其他人的數(shù)字圖像收集中的第一圖像提供至少一個第一標(biāo)記;其中該第一標(biāo)記標(biāo)識該特定的人,以及為數(shù)字圖像收集中的第二圖像提供標(biāo)識該特定的人的第二標(biāo)記;(b)使用第一和第二標(biāo)記識別該特定的人;(c)從第一圖像或第二圖像或兩者確定與該特定的人有關(guān)的特征;以及(d)使用這種特定的特征識別數(shù)字圖像收集中認(rèn)為包含該特定的人的另一個圖像。該方法具有允許用戶以容易使用的界面找到感興趣的人的優(yōu)點。此外,該方法具有自動地用與感興趣的人相關(guān)聯(lián)的標(biāo)記來標(biāo)記圖像,并且允許用戶^r查這些標(biāo)記的優(yōu)點。參考附圖中示出的實施例來描述本發(fā)明的主題。圖1是可以實施本發(fā)明的基于照相電話的成像系統(tǒng)的框圖;圖2是用于在數(shù)字圖像收集中找到感興趣的人的本發(fā)明的實施例的流程圖3是用于在數(shù)字圖像收集中找到感興趣的人的本發(fā)明的實施例的流程圖4示出了用于起動對感興趣的人的搜索的一組代表性圖像;圖5示出了作為對感興趣的人的搜索的結(jié)果顯示給用戶的代表性的圖像子集;圖6示出了在用戶已經(jīng)去除了不包含感興趣的人的圖像之后顯示給用戶的圖像子集;圖7是用于在數(shù)字圖像收集中找到感興趣的人的本發(fā)明的另一實施例的流程圖8示出了圖像和相關(guān)聯(lián)的標(biāo)記;圖9示出了作為對感興趣的人的搜索的結(jié)果顯示給用戶的圖像的代表性子集;圖10示出了在用戶已經(jīng)去除了不包含感興趣的人的圖像之后顯示給用戶的圖像和標(biāo)記的子集;圖11示出了圖2中的特征提取器的更詳細(xì)視圖12A示出了圖2中的人物檢測器的更詳細(xì)視圖12B是圖像捕捉時間的差異與在一個圖像中出現(xiàn)的人也在第二圖像中出現(xiàn)的概率的關(guān)系的曲線圖12C是作為圖像捕捉時間的差異的函數(shù)的臉部尺寸比率的關(guān)系的曲線圖12D是由圖2的特征提取器從臉部中提取的特征點的表示;圖12E是臉部區(qū)域、衣服區(qū)域和背景區(qū)域的表示;圖12F是各種臉部特征區(qū)域的表示;圖13示出了圖2的人尋找器的更詳細(xì)視圖14示出了15個臉部的局部特征,臉部的實際身份和臉部的可能身份的標(biāo)示圖;以及圖15是用于找到數(shù)字圖像收集中感興趣的對象的本發(fā)明的實施例的流程圖。具體實施例方式在以下描述中,本發(fā)明的一些實施例將被描述為軟件程序。本領(lǐng)域技術(shù)人員將容易認(rèn)識到在本發(fā)明的范圍內(nèi)這種方法的等同物也可以被構(gòu)造為硬件或軟件。因為圖像處理算法和系統(tǒng)是眾所周知的,所以本描述將特別針對形成根據(jù)本發(fā)明的方法的一部分或更直接地與其協(xié)作的算法和系統(tǒng)。沒有在這里具體示出或描述的這些算法和系統(tǒng)的其他方面以及用于產(chǎn)生和以其他方式處理其中所涉及的圖像信號的硬件或軟件可以選自本領(lǐng)域中已知的這些系統(tǒng)、算法、部件和元件。在給出如以下說明書中所呈現(xiàn)的描述的條件下,其所有軟件實施方式都是常規(guī)的,并且在這些領(lǐng)域的普通技術(shù)之內(nèi)。圖1是可以實施本發(fā)明的基于數(shù)字照相電話301的成像系統(tǒng)的框圖。數(shù)字照相電話301是一種類型的數(shù)字照相機。優(yōu)選地,數(shù)字照相電話301是便攜式用電池做電源的設(shè)備,其足夠小從而當(dāng)捕捉和回顧圖像時容易地由用戶手持。數(shù)字照相電話301產(chǎn)生的數(shù)字圖像用圖像/數(shù)據(jù)存儲器330來存儲,該存儲器330可以是例如內(nèi)部閃存EPROM存儲器或可移動存儲卡。其他類型的數(shù)字圖像存儲介質(zhì)諸如磁硬盤驅(qū)動器、磁帶或光盤,可以可選地用于提供圖像/數(shù)據(jù)存儲器330。數(shù)字照相電話301包括透鏡305,其將來自場景(未示出)的光聚焦到CMOS圖像傳感器311的圖像傳感器陣列314上。圖像傳感器陣列314可以使用眾所周知的Bayer濾色器才各式(colorfilterpattern)提供彩色圖像信息。圖像傳感器陣列314由定時發(fā)生器312控制,定時發(fā)生器312還控制閃光燈303,以便當(dāng)環(huán)境照明低時照亮場景。圖像傳感器陣列314可以具有例如1280歹'Jx960行像素。在一些實施例中,數(shù)字照相電話301還可以通過將圖^f象傳感器陣列314的多個像素加在一起(例如對圖像傳感器陣列314的每4列x4行的區(qū)域內(nèi)的相同色彩的像素求和)以產(chǎn)生較低分辨率的視頻圖像幀,來存儲視頻片段。每隔一定間隔從圖像傳感器陣列314讀取視頻圖像幀,例如4吏用每秒24幀的讀出速率。來自圖像傳感器陣列314的模擬輸出信號被放大并由CMOS圖像傳感器311上的模數(shù)(A/D)轉(zhuǎn)換器電路316轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。將該數(shù)字?jǐn)?shù)據(jù)存儲在DRAM緩沖存儲器318中并且隨后由數(shù)字處理器320處理,數(shù)字處理器320由存儲在固件存儲器328中的固件控制,該固件存儲器328可以是閃存EPROM存儲器。數(shù)字處理器320包括實時時鐘324,即使當(dāng)數(shù)字照相電話301和數(shù)字處理器320處在它們的低電源狀態(tài)時,該實時時鐘324也保持日期和時間。經(jīng)過處理的數(shù)字圖像文件存儲在圖像/數(shù)據(jù)存儲器330中。圖像/數(shù)所描述的。圖像/^:據(jù)存儲器還可以存儲其他類型^數(shù)據(jù):ij如^話號碼、待辦事項列表等。在靜止圖像模式,數(shù)字處理器320執(zhí)行色彩插值,繼之以色彩和色調(diào)校正,以便產(chǎn)生著色的sRGB圖像數(shù)據(jù)。數(shù)字處理器320也可以提供由用戶選擇的各種圖像大小。著色的sRGB圖像數(shù)據(jù)然后被JPEG壓縮儲在圖像/數(shù)據(jù)存儲器330中。JPEG文件使用之前描述的所謂"Exif,圖像格式。該格式包括使用各種TIFF標(biāo)簽存儲特定圖像元數(shù)據(jù)的Exif應(yīng)用程序塊。單獨的TIFF標(biāo)簽可以用于例如存儲拍攝照片的日期和時間,透鏡f值,以及其他照相機設(shè)置,并且存儲圖像標(biāo)題。特別地,圖像描述(ImageDescription)標(biāo)簽可以用于存儲標(biāo)記。實時時鐘324提供捕捉日期/時間值,作為日期/時間元數(shù)據(jù)存儲在每個Exif圖像文件中。位置確定器325提供與圖像捕捉相關(guān)聯(lián)的地理位置。該位置優(yōu)選地以絆度和經(jīng)度的單位存儲。注意位置確定器325可能會確定在與圖像捕捉時間稍微不同的時間點的地理位置。在該情況下,位置確定器325可以使用來自最接近的時間點的地理位置作為與該圖像相關(guān)聯(lián)的地理位置??蛇x地,位置確定器325可以在圖像捕捉時間之前和/或之后的多個時間點的多個地理位置之間進4亍插值以確定與圖〗象捕4足相關(guān)聯(lián)的地理位置。插值可以是被需要的,因為位置確定器325并不總是能夠確定地理位置。例如,GPS接收機在室內(nèi)時常常不能檢測信號。在該情況下,最后的成功地理位置(即在進入建筑物之前)可以由位置確定器325用來估計與特定的圖像捕捉相關(guān)聯(lián)的地理位置。位置確定器325可以使用許多方法的任意一種來確定圖像的位置。例如,可以通過從眾所周知的全球定位衛(wèi)星(GPS)接收通信來確定地理位置。數(shù)字處理器320還產(chǎn)生低分辨率的"縮略圖(thumbnail)"尺寸的圖像,其可以如共同受讓的Kuchta等的美國專利No.5164831中描述的那樣產(chǎn)生,該專利的公開內(nèi)容通過引用而結(jié)合在這里??s略像可以存儲在RAM存儲器322中并且提供給彩色顯示器332,該彩色顯示器332可以是例如有源矩陣LCD或有機發(fā)光二極管(OLED)。在捕捉圖像之后,可以通過使用縮略像數(shù)據(jù)快速地在彩色LCD圖像顯示器332上回顧圖^象。在彩色顯示器332上顯示的圖形用戶界面由用戶控制334控制。用戶控制334可以包括專用的按鈕(例如電話鍵盤)以撥打電話號碼、設(shè)定模式(例如"電話,,模式、"照相機,,模式)的控制,包括四方向控制(上、下、左、右)的操縱桿控制器以及按鈕中心"OK,,開關(guān)等。連接到數(shù)字處理器320的音頻編解碼器340從麥克風(fēng)342接收音頻信號并且提供音頻信號給揚聲器344。這些部件可以用于電話交談以及記錄和回放音軌以及一見頻序列或靜止圖〗象。揚聲器344還可以用于通知用戶來電。這可以使用固件存儲器328中存儲的標(biāo)準(zhǔn)響鈴音來完成,或者通過使用從移動電話網(wǎng)絡(luò)358下載并存儲在圖像/數(shù)據(jù)存儲器330中的定制響鈴音來完成。此外,可以使用振動器件(未示出)提供來電的靜音(例如聽不到的)通知。雞站接口(dockinterface)362可以用于將數(shù)字照相電話301連接到雞站/充電器364,該雞站/充電器364連接到通用控制計算機40。雞站接口362可以符合例如眾所周知的USB接口規(guī)范。可選地,數(shù)字照相機301和通用控制計算機40之間的接口可以是無線接口,諸如眾所周知的藍牙無線接口或眾所周知的802.11b無線接口。雞站接口362可以用于從圖像/數(shù)據(jù)存儲器330下載圖像到通用控制計算機40。塢站接口362還可以用于將日程信息從通用控制計算機40傳輸?shù)綌?shù)字照相電話301中的圖像/數(shù)據(jù)存儲器。雞站/充電器364還可以用于對數(shù)字照相電話301中的電池(未示出)進行再充電。數(shù)字處理器320耦合到無線調(diào)制解調(diào)器350,該無線調(diào)制解調(diào)器350使得數(shù)字照相電話301能夠經(jīng)由RF信道352發(fā)送和接收信息。無線調(diào)制解調(diào)器350在射頻(例如無線)鏈路上與諸如3GSM網(wǎng)絡(luò)的移動電話網(wǎng)絡(luò)358通信。移動電話網(wǎng)絡(luò)358與相片服務(wù)提供商372通信,該相片服務(wù)提供商372可以存儲從數(shù)字照相電話301上傳的數(shù)字圖像。這些圖像可以由包括通用控制計算機40的其他設(shè)備經(jīng)由因特網(wǎng)370訪問。移動電話網(wǎng)絡(luò)358還連接到標(biāo)準(zhǔn)電話網(wǎng)絡(luò)(未示出)以便提供常規(guī)的電話服務(wù)。圖2中示出了本發(fā)明的實施例。人物發(fā)現(xiàn)器108搜索包含人的數(shù)字圖像收集102以便找到感興趣的人。數(shù)字圖像收集子集112是來自數(shù)字圖像收集102的、認(rèn)為包含感興趣的人的圖像的集合。數(shù)字圖像收集102包括圖像和視頻。為了方便起見,術(shù)語"圖像"指稱單個圖像和視頻兩者。視頻是具有伴隨的音頻以及有時候是文本的圖像的收集。數(shù)字圖像收集子集112顯示在顯示器332上供人用戶回顧。對感興趣的人的搜索是由用戶如下地發(fā)起的數(shù)字圖像收集102的圖像或視頻顯示在顯示器332上并由用戶觀看。該用戶用標(biāo)記器104為一個或多個圖像建立一個或多個標(biāo)記。特征提取器106從數(shù)字圖像收集中提取與來自標(biāo)記器104的標(biāo)記相關(guān)聯(lián)的特征。該特征與標(biāo)記相關(guān)聯(lián)地存儲在數(shù)據(jù)庫114中。人物檢測器110可以可選地用于在做標(biāo)記和特征提取中提供幫助。當(dāng)數(shù)字圖像收集子集112顯示在顯示器332上時,用戶可以回顧結(jié)果并進一步給顯示的圖傳敗標(biāo)記。來自標(biāo)記器104的標(biāo)記指示特定的圖像或視頻包含感興趣的人,并且包括以下內(nèi)容的至少其中之一(1)圖像或視頻中感興趣的人的名字。人的名字可以是教名或昵稱。(2)與感興趣的人相關(guān)聯(lián)的標(biāo)識符,諸如文本串或標(biāo)識符,諸如"人物A"或"人物B"。(3)圖像或視頻內(nèi)感興趣的人的位置。優(yōu)選地,感興趣的人的位置由感興趣的人的眼睛的坐標(biāo)(例如行和列的像素地址)(以及在視頻情況下相關(guān)的幀編號)來指定??蛇x地,感興趣的人的位置可以由包圍感興趣的人的身體或臉部的框的坐標(biāo)來指定。作為又一個可選方案,感興趣的人的位置可以由表示包含在感興趣的人之內(nèi)的位置的坐標(biāo)來指定。用戶可以通過例如使用鼠標(biāo)點擊眼睛的位置來指示感興趣的人的位置。當(dāng)人物檢測器110檢測到人時,可以通過例如在顯示器332上圏住臉部來向用戶突出顯示該人的位置。然后用戶可以為突出顯示的人提供名字或標(biāo)識符,從而將該人的位置與用戶提供的標(biāo)記相關(guān)聯(lián)。當(dāng)在圖像中才企測到多于一個人時,可以依次突出顯示這些人的位置并且由用戶為其中任何人提供標(biāo)記。(4)從圖像收集搜索認(rèn)為包含感興趣的人的圖像或視頻的指示。(5)不在該圖像中的感興趣的人的名字或標(biāo)識符。數(shù)字圖像收集102包括具有超過一個人的至少一個圖像。用戶經(jīng)由標(biāo)記器104提供標(biāo)記,指示該圖像包括感興趣的人。由特征提取器106確定與該感興趣的人有關(guān)的特征,并且這些特征由人物發(fā)現(xiàn)器108用來識別收集中被認(rèn)為包含感興趣的人的其他圖像。注意與術(shù)語"標(biāo)記"意義相同地使用術(shù)語"標(biāo)簽"、"標(biāo)題"和"注釋,,。圖3是示出使用數(shù)字照相機識別認(rèn)為包含感興趣的人的圖像的方法的流程圖。本領(lǐng)域技術(shù)人員將認(rèn)識到使用本發(fā)明的處理平臺可以是照相機、個人計算機、通過諸如因特網(wǎng)之類的網(wǎng)絡(luò)訪問的遠(yuǎn)程計算機、打印機等。在該實施例中,用戶選擇包含感興趣的人的幾個圖像或視頻,并且系統(tǒng)從數(shù)字圖像收集的子集確定和顯示認(rèn)為包含感興趣的人的圖像或牙見頻。該顯示的圖^象可以由用戶回顧,并且用戶可以指示顯示的圖傳_是否確實包含感興趣的人。此外,用戶可以驗證或提供感興趣的人的名字。最后,基于用戶的輸入,系統(tǒng)可以再次確定認(rèn)為包含感興趣的人的圖像集。在塊202,在顯示器332上顯示圖像。在塊204,用戶選擇圖像,其中每個圖像包含感興趣的人。被選擇的圖像中至少一個包含除了感興趣的人之外的人。例如,圖4示出了三個被選擇的圖像的集合,每個圖像都包含感興趣的人,并且其中一個圖像包括兩個人。在塊206,用戶經(jīng)由標(biāo)記器104提供標(biāo)記,指示選擇的圖像包含感興趣的人,并且將由人物發(fā)現(xiàn)器108搜索來自該圖像收集的圖像和視頻以識別認(rèn)為包含感興趣的人的那些圖像和視頻。在塊208,人物識別器訪問存儲在數(shù)據(jù)庫114中的特征和相關(guān)聯(lián)的標(biāo)記,并確定認(rèn)為包含感興趣的人的圖像和視頻的數(shù)字圖像收集子集112。在塊210,數(shù)字圖像收集子集112顯示在顯示器332上。例如,圖5示出了數(shù)字圖像收集子集112中的圖像。該數(shù)字圖像收集子集包括被標(biāo)記的圖像220,被正確地認(rèn)為包含感興趣的人的圖像222,以及被不正確地認(rèn)為包含感興趣的人的圖像224。這是目前的臉部檢測和識別技術(shù)還不完善的本性的結(jié)果。在塊212,用戶回顧數(shù)字圖像收集子集112并且可以指示數(shù)字圖像收集子集112中每個圖像的正確性。在塊214,該正確性的用戶指示可以用于經(jīng)由標(biāo)記器104提供額外的標(biāo)記。例如,用戶經(jīng)由用戶界面指示數(shù)字圖像收集子集112的所有正確地認(rèn)為包含感興趣的人的圖像和視頻222確實包含感興趣的人。然后如果已經(jīng)由用戶提供感興趣的人的名字,用它標(biāo)記該數(shù)字圖像收集的每個圖像和視頻。如果用戶還沒有提供感興趣的人的名字,在一些情況下可以由標(biāo)記器104確定感興趣的人的名字。對數(shù)字圖像收集子集112的圖像和視頻進行檢查查找具有指示感興趣的人的名字的標(biāo)記的那些以及人物檢測器IIO確定只包含一個人的圖像和視頻。因為用戶已經(jīng)驗證數(shù)字圖像收集子集112的圖像和視頻確實包含感興趣的人并且人物檢測器IIO只發(fā)現(xiàn)單個人,所以標(biāo)記器104推斷相關(guān)聯(lián)的標(biāo)記中的人的名字是感興趣的人的名字。如果人物檢測器110是自動易誤(error-prone)算法,那么如果多于一個的圖像和視頻具有包含人的名字的相關(guān)聯(lián)的標(biāo)記并且人物檢測器110只發(fā)現(xiàn)一個人,而且相關(guān)聯(lián)的標(biāo)記中的人的名字不是一致的,標(biāo)記器104可能需要實施表決機制。例如,如果數(shù)字圖像收集子集112中有三個圖像,每個圖像都包含由人物檢測器110檢測的一個人,并且每個圖像都具有包含人的名字的標(biāo)記,名字是"Hannah"、"Hannah"和"Holly",那么標(biāo)記器104進行的表決機制確定該人的名字是"Hannah"。標(biāo)記器104然后使用包含感興趣的人的名字(例如"Hannah")的標(biāo)記來標(biāo)記該數(shù)字圖像收集子集112的圖像和牙見頻。用戶可以經(jīng)由顯示器回顧由標(biāo)記器104確定的感興趣的人的名字。在用戶指示數(shù)字圖像收集子集112的圖像和視頻包含感興趣的人后,消息"標(biāo)記為Hannah"出現(xiàn),并且用戶可以通過^t要下"是"來確認(rèn)所確定的感興趣的人的名字,或者通過按下"否,,來為感興趣的人輸入不同的名字。如果標(biāo)記器104不能確定感興趣的人的名字,那么將當(dāng)前不使用的標(biāo)識符分配給感興趣的人(例如"人物12"),并且數(shù)字圖像收集子集112的圖像和視頻由標(biāo)記器104相應(yīng)地標(biāo)記。可選地,標(biāo)記器104可以為感興趣的人確定幾個〗'美選標(biāo)記。4矣選標(biāo)記可以列表的形式顯示^^用戶。該4美選標(biāo)記列表可以是在過去已經(jīng)用過的標(biāo)記的列表,或者對于當(dāng)前特定的感興趣的人的最可能的標(biāo)記的列表。用戶然后可以從列表中為感興趣的人的選擇希望的標(biāo)記。可選地,如果標(biāo)記器104不能確定感興趣的人的名字,可以通過在顯示器332上顯示消息"這是誰?,,并允許用戶輸入感興趣的人的名字來請求用戶輸入感興趣的人的名字,然后標(biāo)記器104可以使用該名字來標(biāo)記數(shù)字圖像收集子集112的圖像和視頻。用戶還可以經(jīng)由用戶界面指示數(shù)字圖像收集子集112的不包含感興趣的人的圖像和視頻的那些圖像。然后從數(shù)字圖像收集子集112中去除被指示的圖像,并且可以如前所述標(biāo)記剩余的圖像。可以標(biāo)記被指示的圖像以指示它們不包含感興趣的人,使得在對該相同的感興趣的人的未來搜索中,不向用戶顯示明確標(biāo)記為不包含感興趣的人的圖像。例如,圖6示出了在去除了被不正確地認(rèn)為包含感興趣的人的圖像之后的數(shù)字圖像收集子集112。圖7是示出用于識別認(rèn)為包含感興趣的人的圖像的另一方法的流程圖。在這個實施例中,用戶標(biāo)記一個或多個圖像或浮見頻中的人,發(fā)起對感興趣的人的搜索,并且系統(tǒng)從數(shù)字圖像收集102的子集中確定并顯示i人為包含感興趣的人的圖^f象或一見頻。#:顯示的圖<象可以由用戶回顧,并且用戶可以指示被顯示的圖像是否確實含有感興趣的人。此外,用戶可以驗證或提供感興趣的人的名字。最后,基于來自用戶的輸入,該系統(tǒng)可以再次確定認(rèn)為包含感興趣的人的圖像集。在塊202,在顯示器332上顯示圖像。在塊204,用戶選擇圖像,其中每個圖像包含感興趣的人。被選擇的圖像中至少一個包含多于一個人。在塊206,用戶經(jīng)由標(biāo)記器104提供標(biāo)記以標(biāo)識在被選擇的圖像中的人。優(yōu)選地,該標(biāo)記不指示該圖像或視頻內(nèi)的人的位置。優(yōu)選地,該標(biāo)記指示該被選擇的圖像或視頻內(nèi)的人或人們的名字。圖8示出了兩個被選擇的圖像以及指示這兩個被選擇的圖像的每一個中的人們的名字的相關(guān)聯(lián)的標(biāo)記226。在塊207,用戶發(fā)起對感興趣的人的搜索。該感興趣的人是當(dāng)標(biāo)記被選擇的圖像中的人時已經(jīng)用作標(biāo)記的人的名字。例如,用戶發(fā)起對"Jonah"的圖像的搜索。在塊208,人物識別器訪問來自特征提取器106的特征以及存儲在數(shù)據(jù)庫114中的相關(guān)聯(lián)的標(biāo)記,并且確定認(rèn)為包含感興趣的人的圖像和視頻的數(shù)字圖像收集子集112。在塊210,該數(shù)字圖像收集子集112被顯示在顯示器332上。圖9示出該數(shù)字圖像收集子集112包含被標(biāo)記的圖像220、被正確地認(rèn)為包含感興趣的人的圖像222、以及凈皮不正確地認(rèn)為包含感興趣的人的圖像224。這是目前的臉部檢測和識別技術(shù)還不完善的本性的結(jié)果。在塊212,用戶回顧該數(shù)字圖像收集子集112,并且可以指示該數(shù)字圖像收集子集112中每個圖像的正確性。在塊204,該正確性的用戶指示用于經(jīng)由標(biāo)記器104提供額外的標(biāo)記。例如,用戶經(jīng)由用戶界面指示數(shù)字圖像收集子集112的所有正確地認(rèn)為包含感興趣的人的圖像和視頻222確實包含感興趣的人。用戶還可以經(jīng)由用戶界面指示數(shù)字圖像收集子集112的圖像和視頻中不包含感興趣的人的那些圖像。然后從數(shù)字圖像收集子集112中去除被指示的圖像,并且如前所述地標(biāo)記剩余圖像。然后用感興趣的人的名字標(biāo)記數(shù)字圖像收集子集112的每個圖像和視頻。用戶可以經(jīng)由顯示器回顧由標(biāo)記器104確定的感興趣的人的名字。在用戶指示數(shù)字圖像收集子集112的圖像和視頻包含感興趣的人后,消息"標(biāo)記為Jonah"出現(xiàn),用戶可以通過按下"是"來確認(rèn)所確定的感興趣人的名字,或者通過按下"否"來為感興趣的人輸入不同的名字。圖10示出了在用戶已經(jīng)去除不正確地認(rèn)為包含感興趣的人的圖像之后的數(shù)字圖像收集子集112,以及用于標(biāo)記用戶已經(jīng)回顧過的圖像的自動產(chǎn)生的標(biāo)記228。注意可以通過本領(lǐng)域中已知的任何用戶界面選擇感興趣的人和圖像或^L頻。例如,如果顯示器332是觸摸感應(yīng)顯示器,那么感興趣的人的近似位置可以通過確定用戶觸摸顯示器332的位置來找到。圖11更詳細(xì)地描述了圖2的特征提取器106。特征提取器106從數(shù)字圖像收集中的圖像和視頻確定與人相關(guān)的特征。這些特征然后由人物發(fā)現(xiàn)器108用來在數(shù)字圖像收集中尋找認(rèn)為包含感興趣的人的圖像或視頻。特征提取器106確定兩種類型的與人相關(guān)的特征。全局特征;險測器242確定全局特征246。全局特征246是與一見頻的圖像中的個體的身份或位置無關(guān)的特征。例如,因為不管多少人在圖像或視頻中,攝影者的身份是不變的,并且同樣與人的位置和身份無關(guān),因此攝影者的身份是全局特征。其他全局特征246包括圖像/視頻文件名。圖像A見頻捕捉時間。圖像捕捉時間可以精確到時間上的分鐘,例如2004年3月27日10:17AM?;蛘邎D像捕捉時間可以不那么精確,例如2004年或者2004年3月。圖^象捕捉時間的形式可以是一既率分布函數(shù),例如2004年3月27日+/-2天,置信度是95%。通常捕捉時間嵌入在數(shù)字圖像或視頻的文件報頭中。例如,EXIF圖像格式(在www.exif.org有所描述)允許圖像或視頻捕捉設(shè)備在文件報頭中存儲與圖像或視頻相關(guān)的信息。"日期\時間"條目與捕捉圖像的日期和時間相關(guān)。在一些情況下,數(shù)字圖像或視頻從掃描膠片中得到,并且圖像捕捉時間通過檢測打印到圖像(通常在捕捉時刻完成)區(qū)域中的日期而確定,該區(qū)域通常在圖像的左下角。打印照片的日期經(jīng)常打印在照片的背面??蛇x地,一些膠片系統(tǒng)包括膠片中的磁層,用于存儲諸如捕捉日期之類的信息。捕捉條件元數(shù)據(jù)(例如閃光(flashfire)信息、快門速度、光圈、ISO、場景亮度等)。地理位置。該位置優(yōu)選地以綿度和經(jīng)度的單位存儲。場景環(huán)境信息。場景環(huán)境信息是從不包含人的區(qū)域中的圖像或視頻的像素值導(dǎo)出的信息。例如,圖像或視頻中的無人區(qū)域的平均值是場景環(huán)境信息的實例。場景環(huán)境信息的另一個實例是紋理樣本(例如從圖像中的壁紙區(qū)域的像素值的采樣)。地理位置和場景環(huán)境信息是相關(guān)圖像中的人的身份的重要線索。例如,攝影者對祖母房屋的參觀可能是拍攝祖母的唯一位置。當(dāng)兩個圖像在相似的地理位置和環(huán)境中捕捉時,這兩個圖像中檢測到的人更有可能也是相同的。場景環(huán)境信息可以由人物檢測器110用來配準(zhǔn)兩個圖像。當(dāng)被照相的人主要是靜止的,但是照相機在連續(xù)的照片之間稍微移動時,這是有用的。使用場景環(huán)境信息配準(zhǔn)這兩個圖像,從而在這兩個畫面中對準(zhǔn)人的位置。這種對準(zhǔn)由人物發(fā)現(xiàn)器108使用,因為當(dāng)在接近的時間捕捉的并且配準(zhǔn)的兩個圖^f象中兩個人具有相同的位置時,那么這兩個人是相同個體的可能性4艮高。局部特征;險測器240計算局部特征244。局部特征是與圖^f象或纟見頻中的人的外表直接相關(guān)的特征。對圖像或視頻中的人的這些特征的計算要求知道人的位置。從人物檢測器IIO、或者數(shù)據(jù)庫114或者兩者向局部特征檢測器240傳遞與視頻圖像中的人物的位置有關(guān)的信息。人物檢測器IIO可以是手工操作,其中用戶通過勾勒出人的輪廓、指示眼睛位置等輸入圖像和視頻中的人的位置。優(yōu)選地,人物檢測器110實施臉部檢測算法。用于檢測人臉的方法在數(shù)字圖像處理領(lǐng)域中是眾所周知的。例如,用于在圖像中尋找人臉的臉部檢測方法在以下文獻中有所描述Jones,M.J.;Viola,P.,"FastMulti-viewFaceDetection",IE朋Co"/erewceowCom/她rK/57'o/tmt/^cogm'"'o/7fCI^P7^),June2003。一種有效的人物檢測器110是基于與數(shù)字圖像和視頻相關(guān)的圖像捕捉時間,將參考圖12A對其進行描述。數(shù)字圖像收集102的圖像和視頻由臉部檢測器270分析,諸如上述的Jones和Viola的臉部檢測器。調(diào)整臉部檢測器以提供檢測到的人274同時最小化錯誤檢測。結(jié)果,圖像中的許多人都沒有^皮沖企測到。這可能是因為例如他們背對著照相機或者手遮住了臉。將來自臉部檢測器270的檢測到的臉部和數(shù)字圖像收集102傳遞到捕捉時間分析器272以尋找包含被臉部檢測器270遺漏的人的圖像。捕捉時間分析器272的操作基于這樣的觀點當(dāng)兩個圖像在非常接近的時間捕捉時,很可能如果一個體出現(xiàn)在一個圖像中,那么他或她也出現(xiàn)在另一個圖像中。實際上,當(dāng)圖像中的人們身份已知時,通過分析大量的圖像可以相當(dāng)精確地確定這種關(guān)系。為了處理視頻,使用臉部跟蹤技術(shù)尋找跨過視頻的多個幀的人的位置。視頻中臉部跟蹤的一個方法在美國專利No.6700999中有所描述,其中使用運動分析來跟蹤一見頻中的臉部。圖12B示出了捕捉時間分析器272所使用的關(guān)系的曲錢圖。該曲線圖示出了假定一個人出現(xiàn)在第一圖像中,該人出現(xiàn)在第二圖像中的概率,該概率是圖像之間的圖像捕捉時間的差的函數(shù)。正如所期望的,當(dāng)兩個圖像是快速連續(xù)捕捉的時侯,一個人出現(xiàn)在一個圖像而沒有出現(xiàn)在另一個圖像中的可能性非常低。捕捉時間分析器272檢查數(shù)字圖像收集110中的圖像和視頻。當(dāng)臉部檢測器270在給定圖像中檢測到臉部時,那么使用圖12B示出的關(guān)系計算相同的人出現(xiàn)在另一個圖像中的概率。例如,假設(shè)臉部檢測器270在一個圖像中檢測到兩個臉部,并且在僅1秒后捕捉的第二圖像中臉部檢測器270只找到一個臉部。假設(shè)從第一圖像中檢測到的臉部是真實的情況,則第二圖像也包含兩個臉部的概率相當(dāng)高(0.99*0.99),而臉部檢測器270只找到一個臉部。那么,第二圖像檢測到的人274是通過臉部檢測器270找到的該一個臉部,以及置信度為0.98的第二臉部。該第二臉部的位置未知,但是可以估計出來,因為當(dāng)捕捉時間差異很小時,不論是照相機還是被拍攝的人都不會很快移動。因此,第二圖像中第二臉部的位置由捕捉時間分析器272估計。例如,當(dāng)一個體出現(xiàn)在兩個圖像中時,可以檢查相對的臉部尺寸(較小臉部相對于較大臉部的尺寸之比)。當(dāng)包含同一人的兩個圖像的捕捉時間差異很小,相對的臉部尺寸通常接近1,因為攝影者、被拍攝的人、和照相機設(shè)置幾乎不變。圖12C中畫出了作為圖像捕捉時間的差異的函數(shù)的相對臉部尺寸的下限。這個縮放因子可以與第一圖像中的臉部的已知臉部位置一起使用,以估計該臉部出現(xiàn)在第二圖像中的區(qū)域。注意捕捉時間分析器272使用的該方法也可以由人物發(fā)現(xiàn)器108用來確定感興趣的人在特定圖像或視頻中的可能性。同樣,數(shù)據(jù)庫114存儲與來自圖2的標(biāo)記器104的標(biāo)記相關(guān)聯(lián)的信息。當(dāng)該標(biāo)記包含與人相關(guān)的位置信息時,局部特征;險測器240可以確定與該人相關(guān)的局部特征244。一旦知道了人的位置,局部特4正;險測器240可以4企測與該人相關(guān)的局部特征244。一旦知道了臉部位置,也可以4吏用眾所周知的方法來定位臉部特征(例如眼睛、鼻子、嘴等),所述方法諸如Ymlle等在"FeatureExtractionFromFacesUsingDeformableTemplates",Int.JournalofComp.Vis.,Vol.8,Iss.2,1992,pp.99-111中描述的。作者描述了使用利用才莫板匹配的能量最小化來定位嘴、眼睛和虹膜/鞏膜邊界的方法。也可以使用主動表觀才莫型(activeappearancemodel)來找到臉部特征,諸如T.F.Cootes和C.J,Taylor在"Constrainedactiveappearancemodels",她/"^w加》w"/Cow/erewceCowpw/^rWw'ow,volume1,pp.748-754,IEEEComputerSocietyPress,July2001中描述的。在優(yōu)選的實施例中,使用基于人臉的主動形狀才莫型(activeshapemodel)定位臉部特征點的方法,該方法在Bolin禾口Chen的"Anautomaticfacialfeaturefindingsystemforportraitimages",ProceedingsofIS&TPICSconference,2002中有所描述。局部特征244是人的定量描述。優(yōu)選地,人物發(fā)現(xiàn)器特征提取器106為每個片全測到的人輸出一組局部特征244和一組全局特征246。優(yōu)選地,局部特征244是基于與特定的臉部特征相關(guān)的82個特征點的位置,該82個特征點是使用類似于前述的Cootes等的主動表觀才莫型的方法找到的。作為示例,在圖12D示出了臉部的圖像的局部特征點的直觀表示。局部特征也可以是特定特征點之間的距離或由連接多組特定特征點的線形成的角度,或者將特征點投影到描述臉部表觀中的變化性的主分量上的系數(shù)。所用的特征在表1歹'J出,并且它們的計算涉及在圖12D中編號示出的臉部上的點。Arc(Pn,Pm)被定義為^p"-外'")ii,其中||Pn-PmII指的是特4正點n和m之間的歐氏3巨離(Euclideandistance)。這些arc長度特征^皮除以眼睛間的距離以在不同臉部尺寸之間歸一化。點PC是位于點0和1的形心處的點(即正好位于眼睛之間的點)。這里所用的臉部測量是從人臉的人體測量中得到的,已經(jīng)顯示出對于判斷性別、年齡、吸引力和種族性是相關(guān)的。(參考"AnthropometryoftheHeadandFace"byFarkas(Ed.),2ndedition,RavenPress,NewYork,1994)表l:定量(ration)特征列表<table>tableseeoriginaldocumentpage18</column></row><table>表2:Arc長度特征列表<table>tableseeoriginaldocumentpage18</column></row><table>一旦人物發(fā)現(xiàn)器106定位了人和臉部特征,就容易地從數(shù)字圖像或視頻中提取色彩貓(colorcue)。可選地,也可以4吏用不同的局部特4正。例如,一實施例可以基于臉部相似性度量,這在M.Turk和A.Pentland的"EigenfacesforRecognition".Jowma/o/"C<5gm77veA^wmsc/e"".^/.;'/^"/.//-!^,799/中有所描述。通過將臉部圖像投影到描述臉部表觀的變化性的一組主分量函數(shù)上而獲得臉部描述符。任何兩個臉部之間的相似性是通過計算通過將每個臉部投影到相同的函數(shù)組上而獲得的特征的歐氏距離來測量的。局部特征244可以包括諸如特征臉(Eigenface)、臉部測量、色彩/紋理信息、小波特征等的幾個不同特征類型的組合。可選地,局部特征244可以額外地用可量化的描述符來表示,所述可量化的描述符諸如眼睛顏色、皮膚顏色、臉部形狀、眼鏡的存在、衣服的描述、頭發(fā)的描述等。侈寸^口,Wiskott在"PhantomFacesforFaceAnalysis,,,尸""erwAecogm"w,Vol.30,No.6,pp.837-846,1997中描述了一種用于檢測臉上的眼鏡的存在的方法。該局部特征包括與眼鏡的存在和形狀有關(guān)的信息。圖12E示出了圖像中基于臉部檢測器所生成的眼睛位置而假設(shè)為臉部區(qū)域282、衣服區(qū)域284和背景區(qū)域286的區(qū)域。尺寸是用眼睛間距離或IOD(左眼位置和右眼位置之間的距離)來測量的。臉部覆蓋三倍IOD乘以四倍IOD的區(qū)域,如圖所示。衣服區(qū)域覆蓋五倍IOD并且延伸到圖像底部。圖像中的剩余區(qū)域被當(dāng)作背景。注意一些衣服區(qū)域可以被其他臉部和對應(yīng)于那些臉部的衣服區(qū)域所覆蓋。根據(jù)美國專利No.號6606411,數(shù)字圖像收集102中的圖像和—見頻被分組為具有一致的色彩分布的事件和子事件,并且因此,這些圖片可能是以用相同的背景拍攝的。對于每個子事件,為放在一起的所有背景區(qū)域一起計算單個色彩和紋理表示。該色彩和紋理表示以及相似性是從Zhu和Mehrotra的美國專利No.號6480840中得到的。根據(jù)他們的方法,基于色彩特征的圖像表示是基于這樣的假設(shè)圖像的顯著尺寸相關(guān)色彩區(qū)域在知覺上是重要的。因此,顯著尺寸相關(guān)色彩區(qū)域的色彩被認(rèn)為是知覺上重要的色彩。因此,對于每個輸入圖像,首先計算其相關(guān)色彩直方圖,其中圖像的相關(guān)色彩直方圖是屬于相關(guān)色彩區(qū)域的特定色彩的像素數(shù)量的函數(shù)。如果像素的色彩等于或類似于預(yù)先指定的最小數(shù)量的鄰近像素的色彩,則認(rèn)為該像素屬于相關(guān)色彩區(qū)域。此外,圖像的基于紋理特征的表示是基于這樣的假設(shè)每個知覺上重要的紋理由相同色彩轉(zhuǎn)變的大量重復(fù)構(gòu)成。因此,通過識別經(jīng)常發(fā)生的色彩轉(zhuǎn)變并分析其紋理屬性,可以提取并表示知覺上重要的紋理。使用臉部檢測器生成的眼睛位置初始化用于臉部特征尋找的起始臉部位置。圖12F示出了臉上的特征點的位置以及可被定位的被命名的次級特征的對應(yīng)圖像塊(patch)。表3列出了對于圖12F中示出的這些圖像塊的邊界框,這些圖像塊為頭發(fā)區(qū)域502、前額頭發(fā)區(qū)域504、眼鏡區(qū)域506、臉頰區(qū)域508、長發(fā)區(qū)域510、胡子區(qū)域512以及絡(luò)腮胡區(qū)域514,其中Pn指的是圖12F或圖12D中的臉部點數(shù),并且[x]和[y]指的是該點的x坐標(biāo)和y坐標(biāo)。(Pn-Pm)是點n和m之間的歐氏距離。"臉頰"和"頭發(fā),,塊被當(dāng)作參考塊(在表中由[R]標(biāo)注),分別表示臉部的無特征區(qū)域和人的頭發(fā)。次級特征被計算為包含該次級特征的可能塊和適當(dāng)?shù)膮⒖級K之間的灰度等級直方圖差異。將左邊的塊和右邊的塊組合以產(chǎn)生每個次級特征的直方圖。該直方圖通過像素數(shù)目歸一化,使得正被比較的塊的相對尺寸不是計算的差異中的因子。將次級特征作為二元特征處理一一它們不是存在就是不存在。使用閾值確定次級特征是否存在。表4給出了示出用于要檢測的每個次級特征的直方圖差異的表。表3臉部特征區(qū)域的邊界框<table>tableseeoriginaldocumentpage20</column></row><table>表4次級特征的直方圖差異特征直方圖差異測試長發(fā)長發(fā)-頭發(fā)<閾值眼鏡眼鏡-臉頰>閾值前額頭發(fā)劉海-臉頰>閾值絡(luò)腮胡絡(luò)腮胡-臉頰>閾值胡子胡子-臉頰>閾值再次參考圖11,全局特征246和局部特征244存儲在數(shù)據(jù)庫114中。與圖像中所有人相關(guān)的全局特征用Fg表示。與圖像中的N個人相關(guān)的N組局部特征被表示為FLo,Fu,…,F(xiàn)ln.!。圖像中的人n的完整的特征組被表示為Fn并且包括全局特征FG和局部特征FLn。與圖像相關(guān)聯(lián)的M個標(biāo)記一皮表示為Lo,L!,…,Livm。當(dāng)標(biāo)記不包含人的位置時,不能明確知道哪個標(biāo)記與哪組代表圖像或視頻中的人的特征相關(guān)聯(lián)。例如,當(dāng)有描述圖像中的兩個人的兩組特征和兩個標(biāo)記時,哪個特征屬于哪個標(biāo)記并不明顯。人物發(fā)現(xiàn)器108解決將多個標(biāo)記與多組局部特征相配的這個約束分類(constrainedclassification)問題,其中該多個標(biāo)記和局部特征與單個圖像相關(guān)聯(lián)??梢杂腥我鈹?shù)量的標(biāo)記和局部特征,并且每個的數(shù)量甚至可以不同。下面是數(shù)據(jù)庫114中與一圖像相關(guān)聯(lián)的標(biāo)記和特征的示范條目圖像101_346.JPG才示"i己Lo:Hannah標(biāo)記Li:Jonah特征F0:全局特征Fg:捕捉時間2005年8月7日,6:41PMEST.閃火無快門速度l/724sec.照相機型號KodakC360變焦數(shù)字照相機光圏F/2.7環(huán)境局部特征Fu):位置左眼[1400198]右眼[1548202]C0=[-0.8-0.01],;眼鏡無相關(guān)^4標(biāo)i己未知特征F!:全局特征Fg:捕捉時間2005年8月7日,6:41PMEST.閃火無'決門速度1/724sec.照相才幾型號KodakC360變焦數(shù)字照相機光圈F/2.7環(huán)境局部特征Fu:位置左眼[810192]右眼[956190]C產(chǎn),;眼鏡無相關(guān)M才示i己未^口圖13更詳細(xì)地描述了圖2的人物發(fā)現(xiàn)器108。人物識別器250考慮數(shù)據(jù)庫114中的特征和標(biāo)記并確定用不包含人的位置的標(biāo)記估文標(biāo)記的圖像中的人們的身份(即確定一組相關(guān)特征)。人物識別器250將來自特征提取器106的特征與來自標(biāo)記器104的標(biāo)記相關(guān)聯(lián),從而識別圖像或視頻中的人。人物識別器250更新來自數(shù)據(jù)庫的特征并且產(chǎn)生存儲在數(shù)據(jù)庫114中的經(jīng)過修改的特征254。作為實例,考慮圖8中示出的圖像。第一圖像260包括2個人,根據(jù)標(biāo)記226這兩個人是Hannah和Jonah。然而,因為標(biāo)記不包含位置,不知道哪個人是Hannah,哪個人是Jonah。第二圖^f象262,皮標(biāo)記為Hannah。因為只有一個人,可以以高置信度將該人識別為Hannah。通過使用來自第二圖像262的與Hannah有關(guān)的特征并比較第一圖像260中的人的特征,人物識別器250可以確定第一圖像260中的人的身份。人266的特征類似于在第二圖像262中識別為Hannah的人264的特征。人物識別器250可以高置信度推斷第一圖像260中的人266是Hannah,并且通過排除推斷人268是Jonah。將第一圖像260的標(biāo)記226Hannah與圖像的全局特征Fg和與人266相關(guān)的局部特征相關(guān)聯(lián)。第一圖像260的標(biāo)記226Jonah與該圖像的全局特征和與人268相關(guān)的局部特征相關(guān)聯(lián)。由于確定了人們的身份,用戶可以使用合適的特征發(fā)起對Hannah或Jonah的搜索。一般來講,人物識別器250解決分類問題。該問題是將不具有位置信息的標(biāo)記與局部特征相關(guān)聯(lián),其中該標(biāo)記和局部特征都與同一圖像相關(guān)聯(lián)。解決該問題的算法由人物識別器250實施。圖14示出了從數(shù)字圖像收集計算的實際的局部特征的表示。在標(biāo)示圖上標(biāo)志出了15組局部特征的位置。用于表示標(biāo)志的符號指示與該局部特征相關(guān)聯(lián)的人的真實身份,其中"x,,代表Hannah,"+,,代表Jonah,"*"代表Holly,而"□,,(方塊)代表Andy。每組局部特征可以與分配給該圖像的任何標(biāo)記相關(guān)聯(lián)。在圖上標(biāo)出的每組局部特征的附近是可以與該局部特征相關(guān)聯(lián)的可能標(biāo)記,其中"A"代表Andy、"H,,代表Hannah,"J"代表Jonah而"O"代表Holly。下面的表示出了數(shù)據(jù)。圖上的標(biāo)志之間的連接指示這些局部特征組來自同一圖像。用于分配局部特征到標(biāo)記的算法是通過找到使數(shù)據(jù)點的集合變量(即分配給每個人的數(shù)據(jù)點的散布(spread)的和)最小化的局部特征到標(biāo)記的分配來工作的。局部特征到標(biāo)記的分配受到這樣的限制對于每個圖像一個標(biāo)記只能使用一次(即對于由連接相連的每組數(shù)據(jù)點只能使用一次)。優(yōu)選地,將集合變量計算為每個數(shù)據(jù)點上的從該數(shù)據(jù)點到分配給該同一個體的所有數(shù)據(jù)點的形心的平方距離的和。用于對局部特征分類的算法可以用下式來概括<formula>formulaseeoriginaldocumentpage23</formula>其中fj表示第j組局部特征,dj表示第j組局部特征被分配到的類(即個體的身份),Cdj表示第j組局部特征被分配到的類的形心。通過為每一第j組局部特征選擇類的分配來最小化該表達式。在這個式子中,使用歐氏距離度量。本領(lǐng)域技術(shù)人員將認(rèn)識到也可以使用許多不同的距離度量,諸如馬氏距離(Mahalanobisdistance)或當(dāng)前數(shù)據(jù)點和分配到同一類的另一個數(shù)據(jù)點之間的最小距離。該算法正確地將實例中的所有15個局部特征與正確的標(biāo)記相關(guān)聯(lián)。雖然在這個實例中,對于每個圖像,每個圖像中標(biāo)記的數(shù)量和局部特征組的數(shù)量是相同的,但是這對有用的人物識別器250所用的算法并不是必須的。例如,用戶可以為包含三個人并且/人中導(dǎo)出三組局部特^正的圖像提供僅兩個標(biāo)記。在一些情況下,可以直接從數(shù)據(jù)庫114產(chǎn)生來自人物識別器250的經(jīng)過j奮改的特征254。例如,當(dāng)數(shù)據(jù)庫只包含全局特征而沒有局部特征時,那么與每個標(biāo)記相關(guān)聯(lián)的特征(不管標(biāo)記是否包含位置信息)將是相同的。例如,如果該唯一的特征是圖像捕捉時間,那么與圖像相關(guān)聯(lián)的每個標(biāo)記都與圖像捕捉時間相關(guān)聯(lián)。還有,如果標(biāo)記包含位置信息,那么將特征與標(biāo)記相關(guān)聯(lián)是容易的,因為要么特征不包含局部特征,從而相同的特征與每個標(biāo)記相關(guān)聯(lián),或者特征包含局部特征,那么使用在其上計算局部特征的圖像區(qū)域的位置將特征與標(biāo)記相關(guān)聯(lián)(基于接近度)。人物分類器256使用經(jīng)過修改的特征254和感興趣的人的身份252來確定認(rèn)為包含感興趣的人的圖像和視頻的數(shù)字圖像收集子集112。經(jīng)過修改的特征254包括具有相關(guān)聯(lián)的標(biāo)記的一些特征(稱為已標(biāo)記的特征)。其他特征(稱為未標(biāo)記的特征)不具有相關(guān)聯(lián)的標(biāo)記(例如,沒有被標(biāo)記器104標(biāo)記的數(shù)字圖像收集102中的所有圖Y象和視頻)。人物分類器256使用已標(biāo)記的特征對未標(biāo)記的特征進行分類。雖然這個問題在實際中相當(dāng)困難,但是在模式識別的領(lǐng)域?qū)ζ溥M行了研究。可以使用任何分類器對未標(biāo)記的特征進行分類。優(yōu)選地,人物分類器為每個未標(biāo)記的特征確定建議的標(biāo)記以及與該建i義的標(biāo)記相關(guān)聯(lián)的置信度、信4壬或概率。通常,分類器通過考慮未標(biāo)記的特征特定組和已標(biāo)記的特征組之間的相似性來將標(biāo)記分配給未標(biāo)記的特征。利用一些分類器(例如高斯最大似然(GaussianMaximumLikelihood)),與單個個體的人相關(guān)聯(lián)的已標(biāo)記的特征組被集合起來以形成該個體的表觀的模型。數(shù)字圖像收集子集112是以超過閾值To的概率具有相關(guān)聯(lián)的建議標(biāo)記的圖像和視頻的收集,其中To的范圍是0<=T0<=1.0。優(yōu)選地,數(shù)字圖像收集子集112還包含與具有匹配感興趣的人的身份252的標(biāo)記的特征相關(guān)聯(lián)的圖像和視頻。對數(shù)字圖像收集子集的圖像和視頻進行分類,使得確定為具有包含感興趣的人的最高信任的圖像和視頻出現(xiàn)在該子集的頂部,僅跟隨具有帶有匹配感興趣的人的身份252的標(biāo)記的特征的圖像和視頻。人物分類器256可以測量與兩個或更多人相關(guān)聯(lián)的多組特征之間的相似性以確定這些人的相似性,并且從而確定這些人是同一人的可能性。測量多組特征的相似性是通過測量這些特征的子集的相似性來完成的。例如,當(dāng)局部特征描述衣服時,使用以下方法比較兩組特征。如果圖像捕捉時間的差異小(即小于幾個小時),并且如果在這兩組特征的每一個中衣服的定量描述是相似的,那么這兩組局部特征屬于同一個人的可能性增加。此外,如果對于這兩組局部特征衣服都具有非常獨特或與眾不同的圖案(例如大塊綠色、紅色和藍色的襯衫),那么相關(guān)聯(lián)的人是同一個體的可能性更大??梢圆煌姆绞奖硎疽路T赯hu和Mehrotra的美國專利No.6480840中描述的色彩和紋理表示以及相似性是一種可能的方式。在另一個可能的表示中,Zhu和Mehrotra描述了一種特別用于表示和匹配諸如在美國專利No.6584465中的紡織品中找到的圖案的方法。該方法是與色彩不變的,并且使用邊緣方向的直方圖作為特征??蛇x地,從衣服塊圖像的傅立葉變換系數(shù)或邊緣圖導(dǎo)出的特征可以用作用于匹配的特征。在計算基于邊緣或基于傅立葉的特征之前,將這些塊歸一化到相同的尺寸以使得邊緣的頻率相對于對象距離照相機/變焦鏡頭的距離不變。計算乘法因子,該乘法因子將檢測到的臉部的眼睛間距離轉(zhuǎn)換為標(biāo)準(zhǔn)的眼睛間距離。由于塊尺寸是由眼睛間距離計算的,然后用這個因子對衣服塊進行二次采樣或擴展,以對應(yīng)于標(biāo)準(zhǔn)尺寸的臉部。為每個衣服圖案計算獨特性度量,該度量確定匹配或不匹配對人的整體匹配分?jǐn)?shù)的貢獻,如表5所示,其中+表示正貢獻,-表示負(fù)貢獻,+或-的數(shù)量用來指示貢獻的強度。該獨特性分?jǐn)?shù)被計算為圖案獨特性和色彩獨特性的和。圖案獨特性與塊的傅立葉變換中在閾值之上的傅立葉系數(shù)的數(shù)量成比例。例如,無圖案塊和具有單一等間距條紋的塊分別具有1個(只有dc)和2個系數(shù),并且因此具有低獨特性分?jǐn)?shù)。圖案越復(fù)雜,對其進行描述所需要的系數(shù)的數(shù)量越大,并且其獨特性分?jǐn)?shù)越高。色彩獨特性是通過從人的圖像的大數(shù)據(jù)庫中獲知特定色彩在衣服中出現(xiàn)的可能性而測量的。例如,穿白襯衫的人的可能性要遠(yuǎn)遠(yuǎn)大于穿橙色和綠色襯衫的人的可能性。可選地,在沒有可靠的可能性統(tǒng)計的情況下,色彩獨特性基于其飽和度,因為飽和的色彩不但較稀少而且可以用較小的不確定性來匹配。通過這種方式,衣服相似性或不相似性以及衣服的獨特性,與圖像的捕捉時間一起成為人物分類器256識別感興趣的人的重要特征。衣服獨特性是通過從人的圖像的大數(shù)據(jù)庫中獲知特定衣服出現(xiàn)的可能性而測量的。例如,穿白襯衫的人的可能性要遠(yuǎn)遠(yuǎn)大于穿橙色和綠色格子襯衫的人的可能性。通過這種方式,衣服相似性或不相似性以及衣服的獨特性,與圖像的捕捉時間一起成為人物分類器256識別感興趣的人的重要特征。表5衣服對兩個人是同一個體的可能性的影響<table>tableseeoriginaldocumentpage26</column></row><table>表5示出了如何通過使用衣服的描述影響兩個人的相似性。當(dāng)這兩個人是來自從同一事件得到的圖像或視頻時,那么當(dāng)衣服不匹配時,這兩個人是同一個體的可能性大大減小(…)。"同一事件,,意味著這些圖像在圖像捕捉時間之間只有小的差別(即小于幾個小時),或者這些圖像已經(jīng)由用戶或通過諸如美國專利No.6606411中描述的算法分類為屬于同一事件。簡要概括之,基于圖像的時間和/或日期分組確定該圖像收集的一個或多個最大時間差異,并且基于使事件之間具有對應(yīng)于該一個或多個最大時間差異的一個或多個邊界將該多個圖像分為各事件,將圖像收集分類為一個或多個事件。當(dāng)兩個人的衣服匹配并且圖像是來自同一事件時,那么這兩個人是同一個體的可能性取決于衣服的獨特性。在這兩個人之間匹配的衣服越獨特,這兩個人是同一個體的可能性越大。當(dāng)這兩個人來自屬于不同事件的圖像時,衣服之間的不匹配對這兩個人是同一個體的可能性沒有影響(因為人可能換衣服)。優(yōu)選地,用戶可以通過用戶界面調(diào)整To的值。隨著該值增加,數(shù)字圖像收集子集112包含更少的圖像或視頻,但是數(shù)字圖像收集子集112中的圖像和視頻實際上包含感興趣的人的可能性增加。通過這種方式,用戶可以確定搜索結(jié)果的數(shù)量和精確度。本發(fā)明可以一皮推廣到識別人以外的如圖15中示出的一般對象識別方法,圖15類似于圖2。人物發(fā)現(xiàn)器408搜索包含多個對象的數(shù)字圖像收集102,以尋找感興趣的對象。數(shù)字圖像收集子集112顯示在顯示器332上,供使用者回顧。用戶如下所述發(fā)起對感興趣的對象的搜索數(shù)字圖像收集102的圖像或視頻顯示在顯示器332上并由用戶觀看。用戶利用標(biāo)記器104為一個或多個圖像建立一個或多個標(biāo)記。特征提取器106從數(shù)字圖像收集中提取與來自標(biāo)記器104的(多個)標(biāo)記相關(guān)聯(lián)的特征。該特征;故與標(biāo)記相關(guān)聯(lián)地存儲在數(shù)據(jù)庫114中??梢钥蛇x地使用對象檢測器410幫助作標(biāo)記和特征提取。當(dāng)數(shù)字圖像收集子集112顯示在顯示器332上時,用戶可以回顧結(jié)果并進一步標(biāo)記顯示的圖像。來自標(biāo)記器104的標(biāo)記指示特定的圖像或視頻包含感興趣的人,并且包括以下內(nèi)容的至少其中之一(1)圖像或視頻中的感興趣的對象的名稱。(2)與感興趣的人相關(guān)聯(lián)的標(biāo)識符,諸如文本串或諸如"對象A"或"對象B"的標(biāo)識符。(3)圖像或視頻內(nèi)感興趣的對象的位置。優(yōu)選地,感興趣的對象的位置可以由圍繞感興趣的對象的框的坐標(biāo)來規(guī)定。用戶可以通過例如使用鼠標(biāo)在眼睛的位置上點擊來指示感興趣的對象的位置。當(dāng)對象檢測器410檢測到對象時,可以通過例如在顯示器332上圏住該對象來向用戶突出顯示該對象的位置。然后用戶可以為被突出顯示的對象提供名稱或標(biāo)識符,從而將對象的位置與用戶提供的標(biāo)記相關(guān)聯(lián)。(4)從圖像收集中搜索認(rèn)為包含感興趣的對象的圖像或視頻的指示。(5)不在圖像中的感興趣的對象的名稱或標(biāo)識符。例如,感興趣的對象可以是人、臉部、汽車、車輛或動物。部件列表10圖像捕捉25—起獲取的背景區(qū)域40通用控制計算機102數(shù)字圖像收集104標(biāo)記器106特征提取器108人物發(fā)現(xiàn)器110人物;險測器112數(shù)字圖像收集子集114數(shù)據(jù)庫202204206208210212214塊220已標(biāo)記的圖像222被正確地認(rèn)為包含感興趣的人的圖像224纟皮不正確地認(rèn)為包含感興趣的人的圖像226標(biāo)記228生成的標(biāo)記240局部特4i;險測器242全局特征;險測器244局部特4i246全局特征250人物識別器252感興趣的人的身份254經(jīng)過》f改的特;f正256人物分類器260第一圖像262第二圖像264266268人270臉部4企測器272捕捉時間分析器2744全測到的人282臉部區(qū)域284衣月良區(qū)域286背景區(qū)域301數(shù)字照相電話303閃光305透鏡311CMOS圖像傳感器312定時發(fā)生器314圖像傳感器陣列316A/D轉(zhuǎn)換器電路318DRAM緩沖存儲器320數(shù)字處理器322RAM存4諸器324實時時鐘325位置確定器328固件存儲器330圖像/數(shù)據(jù)存儲器332彩色顯示器334用戶控制340音頻編解碼器342麥克風(fēng)344揚聲器350無線調(diào)制解調(diào)器352RF信道358電話網(wǎng)絡(luò)362雞站接口364雞站/充電器370因特網(wǎng)372服務(wù)提供商408對象發(fā)現(xiàn)器410對象4全測器502頭發(fā)區(qū)域504額前頭發(fā)區(qū)域06眼鏡區(qū)i或508臉頰區(qū)域510長發(fā)區(qū)域512胡子區(qū)域514絡(luò)腮、胡區(qū)域權(quán)利要求1.一種識別數(shù)字圖像收集中的特定的人的方法,其中該數(shù)字圖像收集中的至少其中一個圖像包括多于一個的人,該方法包括(a)為包含特定的人和至少一個其他人的該數(shù)字圖像收集中的第一圖像提供至少一個第一標(biāo)記;其中該第一標(biāo)記標(biāo)識該特定的人,以及為數(shù)字圖像收集中的第二圖像提供標(biāo)識該特定的人的第二標(biāo)記;(b)使用該第一和第二標(biāo)記識別該特定的人;(c)從該第一圖像或第二圖像或兩者確定與該特定的人有關(guān)的特征;以及(d)使用這種特定的特征識別數(shù)字圖像收集中認(rèn)為包含該特定的人的另一個圖像。2.如權(quán)利要求1所述的方法,其中該第一和第二標(biāo)記每個都包括該特定的人的名字或者該特定的人在第一和第二圖像兩者中的指示。3.如權(quán)利要求1所述的方法,其中存在對應(yīng)于數(shù)字圖像收集中的不同圖像的多于兩個的標(biāo)記。4.如權(quán)利要求l所述的方法,其中用戶提供該第一和第二標(biāo)記。5.如權(quán)利要求l所述的方法,其中步驟(c)包括檢測圖像中的人以確定該特定的人的特4正。6.如權(quán)利要求4所述的方法,其中用戶不提供圖像中該特定的人的位置。7.如權(quán)利要求4所述的方法,其中用戶提供該數(shù)字圖像收集的至少一個圖像中的該特定的人的位置。8.如權(quán)利要求1所述的方法,其中該第一標(biāo)記包括該特定的人的名字和第一圖像中該特定的人的位置,并且第二標(biāo)記指示該特定的人在包含多個人的第二圖像中。9.如權(quán)利要求8所述的方法,其中存在標(biāo)識多個不同的人的多個標(biāo)記。10.如權(quán)利要求9所述的方法,其中用戶提供標(biāo)識該特定的人的標(biāo)記和該人在圖^f象中的位置,并且該多個標(biāo)^己#:用于識別包含該特定的人并且分析已用的被識別的人以確定特征的那些圖像。11.如權(quán)利要求io所述的方法,其中每個標(biāo)記包括該特定的人的名字。12.如權(quán)利要求l所述的方法,還包括(e)顯示認(rèn)為包括該特定的人的(多個)圖像給用戶;以及(f)用戶觀看顯示的(多個)圖像以驗證該特定的人是否包括在顯示的(多個)圖像中。13.—種識別數(shù)字圖像收集中的特定的人的方法,其中至少一個圖像包括多于一個的人,該方法包括(a)給包含特定的人的圖像提供至少一個標(biāo)記;其中該標(biāo)記標(biāo)識該圖像包含該特定的人;(b)確定與該特定的人有關(guān)的特征;(c)使用這種特定的人的特征和該標(biāo)記識別該收集中認(rèn)為包含該特定的人的(多個)圖像;(d)顯示認(rèn)為包含該特定的人的(多個)圖像給用戶;以及(e)用戶觀看顯示的多個圖像以^S正該特定的人是否包括在顯示的(多個)圖像中。14.如權(quán)利要求13所述的方法,其中當(dāng)用戶已經(jīng)驗證該特定的人包含在顯示的圖像中時,用戶提供標(biāo)記。15.如權(quán)利要求14所述的方法,其中使用用戶提供的標(biāo)記更新所確定的特征。16.如權(quán)利要求l所述的方法,其中從臉部測量、衣服或眼鏡或它們的組合確定特征。17.如權(quán)利要求13所述的方法,其中從臉部測量、衣服或眼鏡或它們的組合確定特征。全文摘要一種識別數(shù)字圖像收集中的特定的人的方法,其中該數(shù)字圖像收集中的至少一個圖像包括多于一個的人,該方法包括為包含特定的人和至少一個其他人的該數(shù)字圖像收集中的第一圖像提供至少一個第一標(biāo)記;其中該第一標(biāo)記標(biāo)識該特定的人,以及為數(shù)字圖像收集中的第二圖像提供識別該特定的人的第二標(biāo)記;使用第一和第二標(biāo)記識別該特定的人;從第一圖像或第二圖像或兩者確定與該特定的人有關(guān)的特征;以及使用這種特定的特征識別數(shù)字圖像收集中認(rèn)為包含該特定的人的另一圖像。文檔編號G06K9/62GK101300588SQ200680040933公開日2008年11月5日申請日期2006年10月27日優(yōu)先權(quán)日2005年10月31日發(fā)明者A·C·加拉赫爾,A·C·路易,M·達斯申請人:伊斯曼柯達公司