專利名稱:使用多種類型的輸入對人進行標識的制作方法
使用多種類型的輸入對人進行標識
祖旦 冃眾
存在多種多樣期望使用至少部分自動化的系統(tǒng)標識人(包括正在說話的 人)的情形。 一些標識說話者的現(xiàn)有系統(tǒng)使用音頻——例如,他們可能使用"聲 源定位",這包括處理來自不同位置的多個話筒的輸入來嘗試標識語音起源的 一或多個方向。 一些其它系統(tǒng)嘗試通過執(zhí)行"決策級融合(decision level fusion)" 來提高如聲源定位的方法的精確性,其中在作出有關(guān)人或說話者檢測的決策時 將來自多個輸入的數(shù)據(jù)組合起來。
概述
下面呈現(xiàn)本公開的簡化概述以便為讀者提供基本的理解。本概述不是本公 開的詳盡概觀,并不標識本發(fā)明的關(guān)鍵或重要元素或者描繪本發(fā)明的范圍。其 唯一目的是以簡化形式呈現(xiàn)本文公開的一些概念作為稍后呈現(xiàn)的更詳細的描 述的序言。
本文描述的是針對人(包括說話者)的標識的各種技術(shù)和技術(shù)方法。這樣 的技術(shù)和技術(shù)方法包括對來自包括音頻和視頻兩者的多種類型的輸入或者模 態(tài)(計算系統(tǒng)可通過其識別輸入的路徑)()的標識"特征"池的標識;以及 "分類器"的生成,分類器包括來自特征池的特征子集,其中選擇這些特征子 集使得分類器能高效地標識人或說話者可能存在的區(qū)域。
附圖描述
圖1例示示出其中可完成人檢測的一個系統(tǒng)的示例性概圖。 圖2例示一個示例性圖象以及可標識為包含人或說話者的示例性區(qū)域的 圖形表示。
圖3例示包含可在標識人時執(zhí)行的各種操作的示例性概括操作流。
圖4例示示出可在一些實現(xiàn)中標識和使用的一些示例性特征的示例性概圖。
圖5例示一些示例性視頻特征。
圖6例示包括一些示例性視頻特征的代表性示例性特征矩形。 圖7例示示出其中可完成用于人或說話者檢測的分類器的生成的一個系 統(tǒng)的示例性概圖。
圖8例示示出其中可完成人或說話者的檢測的一個系統(tǒng)的示例性概圖。 圖9例示可用作檢測人或說話者的過程的一部分的檢測窗口的一些示例
性表示。 '
圖io例示其中可實現(xiàn)本文描述的各種技術(shù)的示例性計算機設(shè)備。
詳細描述
本發(fā)明延及針對人(包括說話者)的標識的各種技術(shù)和方法。更具體地, 本文描述了促進使用多種類型的輸入對人進行標識的方法和系統(tǒng),其中設(shè)想在 檢測過程的開始時而非檢測過程的結(jié)束時將多種類型的輸入組合起來。
現(xiàn)在轉(zhuǎn)到圖1,其中例示的是示出其中可完成人檢測的一個系統(tǒng)100的示 例性概圖。對圖1的描述是參考圖IO作出的。然而,應當理解參考圖1描述 的元素并不旨在限于與參考圖IO描述的元素一起使用。另外,盡管圖1的示 例性圖指示了具體的元素,但在一些實現(xiàn)中不是所有這些元素都存在,并且在 一些實現(xiàn)中可存在另外的元素。
圖1中包括有一或多個視頻輸入設(shè)備110、 一或多個音頻輸入設(shè)備120、 一或多個其它輸入設(shè)備130、視頻數(shù)據(jù)140、音頻數(shù)據(jù)150、其它數(shù)據(jù)160、在 檢測器設(shè)備165中實現(xiàn)的人檢測器170、輔助設(shè)備175以及人檢測器的輸出即 任何檢測到的人或說話者180。
檢測器170接受輸入,它隨后可用于嘗試標識一或多個人180,包括正在 說話的人即說話者。檢測器可使用各種機制來嘗試標識人,包括在本文更詳細 地討論的那些機制。在一些實現(xiàn)中,檢測器可執(zhí)行在其它地方確定的檢測機制, 而在其它實現(xiàn)中檢測器可確定并執(zhí)行檢測機制。檢測器可使用各種輸入,包括 視頻數(shù)據(jù)140、音頻數(shù)據(jù)150和其它數(shù)據(jù)160。
一或多個視頻輸入設(shè)備110可包括各種視頻輸入設(shè)備,包括具有各種具有一定功能的相機和相機類型。在一個實現(xiàn)中,視頻輸入設(shè)備110可包括以圓形
排列定位的多個相機以便提供360°視圖。在其它實現(xiàn)中,相同的360°視圖
可由單個可能具有單個透鏡的相機來提供。在又一實現(xiàn)中, 一或多個視頻輸入
設(shè)備可提供覆蓋小于360°范圉的視圖。 一
一或多個視頻輸入設(shè)備110的輸出的至少一部分是視頻數(shù)據(jù)140。該數(shù)據(jù) 可包括視頻數(shù)據(jù)的多個單幀,其中每個幀包括由多個像素構(gòu)成的圖象。例如, 能夠以每秒30個視頻幀的速率產(chǎn)生視頻的相機可每秒輸出30個圖象。在一些 實現(xiàn)中,由相機產(chǎn)生的每個圖象可稱為"基圖象"(以將它與其它計算得到的 圖象如下面說明的短期差異和長期平均圖象相區(qū)別')。注意一或多個視頻輸入 設(shè)備110可提供各種形式的數(shù)據(jù),包括其中每個視頻幀的所有像素不是地從視 頻輸入設(shè)備顯式發(fā)送的形式。例如, 一或多個視頻輸入設(shè)備110的輸出可包括 單個初始視頻幀,其中提供該幀中所有像素的值,并且至少一些附加的后續(xù)幀 的輸出可僅包括距該初始幀的變化。在該情形中,任何后續(xù)幀的逐個像素的表 示可通過將這些變化應用于原始幀來確定。在任一情形中,由相機產(chǎn)生的每個 基圖象可視為包括完全的逐個像素的圖象。
另外,視頻數(shù)據(jù)140還可包括其它計算得到的數(shù)據(jù)。例如,在一些實現(xiàn)中, 使用多個視頻幀計算"短期差異"可能是有用的。這樣的短期差異可用于例如 標識運動。盡管短期差異可用各種方法來計算,但一種可能的方法是,對于圖 象中的每個像素,從當前幀中的像素值中減去緊接的前一幀中的像素值。同時, 該方法還可從當前幀中的像素值中減去緊接的前面第二幀中的像素值。然后, 可取兩個減法操作的最小值作為該像素的當前值。對于沒有運動存在的像 素——即對于圖象保持相同的區(qū)域——該方法往往將產(chǎn)生接近于零的值。對于 最近有運動的像素,該方法在一些情形中產(chǎn)生遠大于零的值。該特定方法可由 下面的等式來表示,其中A/,是在時刻/處的短期差異圖象并且/,是在時刻/ 處來自相機的圖象
M,=min(|/,-/,—」」/,-/,—2|)
注意,取決于相機的幀速率,由該計算使用的"前面的"幀可以不僅是緊 接的前面二個幀。例如,當使用具有每秒30幀的幀速率的相機時,可以使用 10幀以前和20幀以前的幀而非緊接的前面二個幀。
7在相同或其它實現(xiàn)中,計算視頻幀的"長期平均"可能是有用的,它也可 以是視頻數(shù)據(jù)140的一部分。長期平均可標識由一或多個視頻輸入設(shè)備110捕 捉的區(qū)域中先前存在過運動的部分,即使該運動在最近沒有發(fā)生。盡管長期平 均可用各種方法來計算,但一種可能的方法是計算短期差異圖象(可能包括用
先前描述的短期差異方法產(chǎn)生的圖象)的移動平均(running average)。使用 這樣一種方法,長期平均視頻幀可不斷地更新使得幀中的每個像素由來自所有 或許多前面的短期差異圖象幀的該像素的平均值組成。對于由相機捕捉的區(qū)域 中在捕捉該視頻過程中很少有運動或沒有運動的范圍,該方法往往產(chǎn)生接近于 零的值。相反,對于在過去某些時刻有運動的范圍,這通常包括區(qū)域中包含人 的范圍,該方法往往產(chǎn)生非零值。
另外,在一些實現(xiàn)中,代替考慮根據(jù)視頻數(shù)據(jù)的最近幀計算得到的圖象如 短期差異和長期平均,將它們設(shè)想為還包括至少一些"將來的"數(shù)據(jù)可能是有 用的。例如,短期差異可能通過等待直至捕捉到下一視頻幀來使用當前幀、最 近的前一幀以及"下一幀"作為輸入并使用這三個所標識的幀來計算短期差異。 任何這樣的操作可使人檢測過程的至少該部分的等待時間增加捕捉附加的"將 來"數(shù)據(jù)所需的時間,但在一些情形中該增加的等待時間可由計算得到的圖象 所最終表示的數(shù)據(jù)來彌補。
視頻數(shù)據(jù)140可包括先前討論的任何或所有圖象以及附加圖象或視頻幀。 這些圖象可從各種位置提供,或者如果必要的話可計算得到,這些位置包括一 或多個視頻輸入設(shè)備110、檢測器170或任何其它設(shè)備。另外,盡管該討論涉 及"視頻",但重要的是要理解可使用任何能夠產(chǎn)生圖象的相機,包括在傳統(tǒng) 上不被視為"攝像機"的那些相機。例如,在一些實現(xiàn)中可使用能夠按序拍攝 多個照片的"靜物"相機。此外,如果認為檢測運動不重要,則在一些實現(xiàn)中 可使用單個的靜止圖象。另外,在一些情形中可使用附加數(shù)據(jù)。例如,檢測器
可使用皮膚顏色作為用于標識可能包含人的區(qū)域的附加手段。
一或多個音頻輸入設(shè)備120可包括各種音頻輸入設(shè)備,包括各種具有一定 功能的話筒和話筒類型。在一些實現(xiàn)中, 一或多個音頻設(shè)備可包括由位于不同 位置的多個話筒構(gòu)成的話筒陣列。使用來自這樣一組話筒的各種信息,可能包 括對話筒的不同位置的了解以及在由這些話筒檢測到的聲音的幅度和到達時
8間方面的差異, 一或多個音頻輸入設(shè)備可提供包括聲音起源的方向的數(shù)據(jù)。這 樣的輸入有時作為稱為"聲源定位"(SSL)的技術(shù)方法的一部分而被包括。 在一些情形中,這樣的方向信息在確定說話者時是有用的。
音頻數(shù)據(jù)150在一些實現(xiàn)中通過某種處理可包括"概率分布函數(shù)",它提 供表示可能包括說話者的語音的聲音來自任何特定方向的概率的似然值。例 如,如果來自一或多個音頻輸入設(shè)備110的信息可用于定位來自任何方向的聲
音,則概率分布函數(shù)(本文也稱為SSL似然函數(shù))可包含不同方位或方向的概
率值。對于其中檢測到很少或檢測不到聲音的那些方向,概率值低,而檢測到 較多聲音的那些方向,概率值高。
在一些實現(xiàn)中,可能取決于音頻輸入設(shè)備120的能力,音頻數(shù)據(jù)150可包 括附加信息。例如,在一些實現(xiàn)中,音頻數(shù)據(jù)可包括聲源的范圍或距離和/或聲 源的仰角。在一些實現(xiàn)中,該數(shù)據(jù)一一如聲源的范圍和/或聲源的仰角——也可 與概率分布函數(shù)相關(guān)聯(lián)。
音頻數(shù)據(jù)150可包括先前討論的任何或全部數(shù)據(jù)以及附加數(shù)據(jù)。該數(shù)據(jù)可 從包括關(guān)聯(lián)于一或多個音頻輸入設(shè)備120、檢測器170或任何其它設(shè)備的硬件 的各種位置提供,或者如果必要的話可計算得到。例如,在一些實現(xiàn)中可能產(chǎn) 生SSL似然函數(shù)的聲源定位可使用關(guān)聯(lián)于一或多個音頻輸入設(shè)備的硬件來執(zhí) 行、可使用關(guān)聯(lián)于檢測器的硬件來執(zhí)行或者可使用某種其它硬件或者在某個其 它一位置來執(zhí)行。
在一些實現(xiàn)中,視頻數(shù)據(jù)140和音頻數(shù)據(jù)150可在某種程度上鏈接起來, 使得關(guān)聯(lián)于視頻數(shù)據(jù)的方向可與關(guān)聯(lián)于音頻數(shù)據(jù)的方向相關(guān)。例如,在這樣一 個實現(xiàn)中,從一個方位到另一方位的SSL似然函數(shù)的區(qū)域可與一或多個視頻幀 中可能由水平像素位置標識的特定區(qū)域相關(guān)。例如,在一個實現(xiàn)中,從例如10 °到20°的區(qū)域可與位于例如從水平像素位置100至200的像素相關(guān)。使用這 樣的相關(guān)性,來自一或多個音頻輸入設(shè)備120的信息可在標識圖象中由一或多 個視頻設(shè)備110提供的特定區(qū)域時使用,反之亦然。對于包括附加信息如仰角 的音頻數(shù)據(jù)150,附加信息還可與圖象中的特定區(qū)域相關(guān)。例如,仰角信息可 與垂直像素位置相關(guān)。取決于這些設(shè)備的本質(zhì)和操作,對任何一或多個其它輸 入設(shè)備130中的任何一個也可能存在類似類型的相關(guān)性。
9在一些實現(xiàn)中,存在附加類型的輸入并且可用作檢測過程的一部分。在一 些情形中,這些附加類型的輸入可起源于一或多個其它輸入設(shè)備130并且產(chǎn)生 其它數(shù)據(jù)160的至少一部分。例如, 一個可能的其它輸入設(shè)備可包括三維相機, 它能夠提供對圖象中元素的距離或深度的某種度量。
檢測器170可在各種計算設(shè)備中實現(xiàn),包括如所示的檢測器設(shè)備165。在
一些實現(xiàn)中,該檢測器設(shè)備可包含用于實現(xiàn)人檢測的必要硬件并且可以例如通
過各種連接手段諸如USB、包括無線網(wǎng)絡的任何各種網(wǎng)絡等等連接到一或多個 視頻輸入設(shè)備和一或多個音頻輸入設(shè)備,如本領(lǐng)域的技術(shù)人員所了解的。在其 它實現(xiàn)中,檢測器可用包括一或多個視頻輸入設(shè)備或一或多個音頻輸入設(shè)備諸 如可能是一或多個視頻輸入設(shè)備110和一或多個音頻輸入設(shè)備120的檢測器設(shè) 備實現(xiàn)。任何檢測器設(shè)備可包括各種處理元件,包括通用中央處理單元(CPU) 和/或數(shù)字信號處理器(DSP)單元。下面參考圖10討論其中可實現(xiàn)檢測器的 一個示例性計算環(huán)境。
無論檢測器設(shè)備165包含還是連接至如一或多個視頻輸入設(shè)備110、 一或 多個音頻輸入設(shè)備120和其它輸入設(shè)備130的元素,檢測器設(shè)備在一些實現(xiàn)中 還可連接至一或多個輔助設(shè)備175。在該上下文中,輔助設(shè)備可以是提供可與 檢測器設(shè)備165相關(guān)聯(lián)或者可用于檢測器設(shè)備165的附加功能的任何設(shè)備。例 如,在一些實現(xiàn)中,輔助設(shè)備可包括包含檢測器設(shè)備可在其上存儲捕捉的視頻、 音頻以及可能檢測到人或說話者的區(qū)域的硬盤驅(qū)動器的膝上型計算機的輔助 設(shè)備。在相同或其它實現(xiàn)中,輔助設(shè)備可向檢測器設(shè)備提供計算機處理周期, 使得例如檢測器設(shè)備可將其部分或全部檢測處理卸載至輔助設(shè)備。在其他實現(xiàn) 中,輔助設(shè)備可僅包括存儲裝置——它可以是例如USB外殼中的硬盤驅(qū)動器。 通常,輔助設(shè)備可使用包括USB、任何形式的網(wǎng)絡等連接手段連接至檢測器設(shè) 備。
在一些實現(xiàn)中,對來自不同輸入設(shè)備的數(shù)據(jù)進行同步是重要的。例如,來 自 一或多個視頻輸入設(shè)備110的輸入可與來自一或多個音頻設(shè)備120的輸入同 步。
現(xiàn)在轉(zhuǎn)到圖2,其中示出了一個示例性圖象200以及可標識為包含人或說 話者的示例性區(qū)域的圖形表示。該圖形表示包括有關(guān)聯(lián)于第一標識人的第一區(qū)域210、關(guān)聯(lián)于第二標識人的第二區(qū)域220和第三區(qū)域230。圖2的該描述是 參考圖l作出的。然而,應當理解參考圖2描述的元素并不旨在限于與參考圖 l描述的元素一起使用。另外,盡管圖2的示例性圖指示了具體的元素,但在 一些實現(xiàn)中不是所有這些元素都存在,并且在一些實現(xiàn)中可存在另外的元素。
示例性圖象200可表示由可能包括先前參考圖1描述的一或多個視頻輸入 設(shè)備110的一或多個視頻輸入設(shè)備產(chǎn)生的視頻中的一個幀。
在一些實現(xiàn)中,可能如圖1的檢測器170的檢測器可使用表示矩形或某種 其它形狀的水平和物理像素位置來指示所標識的人或說話者。例如,檢測器可 指示第一區(qū)域210具有與人或說話者相關(guān)聯(lián)的高概率。同樣,并且有可能同時, 它可指示第二區(qū)域220也具有與人或說話者相關(guān)聯(lián)的高概率。如可通過檢查圖 2來了解的,在第一區(qū)域210和第二區(qū)域220的情形中,這樣的檢測器是正確 的,因為每個區(qū)域包含一個人。檢測器還可將第三區(qū)域230標識為具有與人相 關(guān)聯(lián)的高概率——可能例如因為來自墻或其它表面的聲音反射。因為檢測器可 僅指示特定區(qū)域與人相關(guān)聯(lián)的概率,所以在一些情形中由檢測器標識的區(qū)域可 能實際上不包含人。檢測器認為一個區(qū)域包含人的閾值或水平可取決于檢測器 的應用或使用來改變或定義。例如,在一些實現(xiàn)中,這樣的閾值可以設(shè)置為某 個相當高的值,這可能將限制可能與人相關(guān)聯(lián)的區(qū)域的數(shù)目同時還可能限制最 終被誤標識的區(qū)域的數(shù)目。
示例性圖象200旨在用于說明目的并且不應當解釋為限制任何所要求保 護的本發(fā)明的范圍。同樣,所標識的人和誤標識的區(qū)域的表示僅說明示出標識 和誤標識的區(qū)域的一個圖形手段??墒褂帽硎净蚶緟^(qū)域的任何手段。
現(xiàn)在轉(zhuǎn)到圖3,其中示出的是包括可在標識人時執(zhí)行的各種操作的示例性 概括操作流300。圖3的以下描述是參考包括圖1、圖4、圖8和圖9的其它附 圖來作出的。然而,應當理解參考圖3描述的操作流不旨在限制于與參考這些 其它附圖描述的元素一起使用。另外,盡管圖3的示例性操作流指示執(zhí)行的特 定順序,但在一或多個替換實施例中,這些操作的次序可有所不同。此外,盡 管示例性操作流包含多個步驟,但應當認識到在一些實現(xiàn)中這些操作中的至少 一些可組合起來或同時執(zhí)行。
在操作310的一個實現(xiàn)中,標識特征池。然后可在執(zhí)行生成分類器操作
11315時使用特征池作為輸入。在該上下文中,特征是關(guān)聯(lián)于一或多個類型的輸 入的實體,它用于量化在特定時刻的這一或多個輸入的某個元素。存在音頻特 征、視頻特征和關(guān)聯(lián)于其它類型輸入的其它特征。例如,在包括SSL似然函數(shù)
的音頻輸入的情形中,可至少部分地由SSL似然函數(shù)的"局部"最小和最大值 與同一 SSL似然函數(shù)的"全局"最小和最大值的某種比較來定義(其中"局部" 指整個SSL似然函數(shù)的子集的值而"全局"指整個SSL似然函數(shù)的值)。取 決于SSL似然函數(shù)的值,不同的音頻特征將產(chǎn)生不同的數(shù)值結(jié)果。適用于與可 使用的這些特征有關(guān)的一些實現(xiàn)的一些特定細節(jié),包括有關(guān)專用于音頻和視頻 輸入的特征的更多信息,在下面例如參考圖4更詳細地進行討論。
可標識特征池的手段可根據(jù)特征和與其相關(guān)聯(lián)的輸入的性質(zhì)而變化。標識 特征以及生成這些特征的方式通常是具有適用于要為其生成的特征池的目標 范圍的該領(lǐng)域?qū)I(yè)知識的一或多個設(shè)計者的任務。例如,至少部分地由在給出 來自SSL似然函數(shù)的值時產(chǎn)生一個數(shù)的函數(shù)定義的音頻特征的創(chuàng)建可能需要 設(shè)計音頻特征的人類設(shè)計者方面的考慮。
在一些情形中,可挑選認為提供有關(guān)人或說話者存在性的某種信息的特 征。然而,重要的是注意特征不必提供特別"良好"或始終準確的結(jié)果。下面 討論的生成分類器操作315可用于通過另一過程來選擇最適合于人或說話者檢 測的特征。
在這樣的生成分類器操作315的示例性實現(xiàn)中,可選擇在操作310中標識 的特征的子集來形成"分類器"。如本文所使用的,術(shù)語"分類器"指一種實 體,在向它提供輸入時——在一些實現(xiàn)中包括如在本申請書中其它部分討論的 音頻和視頻輸入一一可提供近似結(jié)果,該結(jié)果提供對圖象中的特定區(qū)域是否包 含人或說話者的的某種估計。
分類器通常使用自動化過程來建立或創(chuàng)建。例如,在一些實現(xiàn)中,分類器 可使用某種"學習算法"來創(chuàng)建,該算法包括取某個輸入并且產(chǎn)生可分類或回 答特定問題的輸出的過程。所生成的分類器一般由在操作310中所標識的特征 的某個子集組成,其中學習算法己經(jīng)選擇了該子集中的這些特征來回答關(guān)聯(lián)于
該分類器的問題。取決于各種需求,所選的特征能更準確、更高效地回答問題。 在一些實現(xiàn)中,作為分類器一部分的特征可能以使得在用于檢測時改進分類器的操作的方式位于分類器中。例如,可對優(yōu)選的特征定序,使得如果這些特征 的評估需要相對較少的計算資源或者如果與其它特征相比這些特征與人或說 話者具有更高的相關(guān)性時,這些優(yōu)選的特征在分類器中被較早地評估。這樣的
定序可通過在生成分類器時對優(yōu)選的特征加權(quán)、通過在已經(jīng)生成分類器之后分 揀分類器中的特征或者通過其它手段來執(zhí)行。適用于與使用學習算法的分類器 生成有關(guān)的一些實現(xiàn)的一些特定細節(jié)在下面例如參考圖7更詳細地描述。
一旦己經(jīng)在操作315中生成了分類器,就可以在操作320中使用它來標識 人或說話者。 一般而言,操作320的實現(xiàn)將諸如音頻和視頻的輸入饋送給分類 器,后者使用該輸入來確定人或說話者存在的似然性。在一些實現(xiàn)中, 一或多 個視頻幀可作為輸入提供并且可在邏輯上細分為各種尺寸的區(qū)域,并且隨后可 在每個細分的區(qū)域上評估分類器。如本文所使用的,每個細分的區(qū)域可稱為"檢
測窗口"。對于每個檢測窗口,檢測器可評估分類器中特征的某個數(shù)量,最終 以某個置信度級別確定特定區(qū)域是否包含人或說話者的。在一些實現(xiàn)中,在已 經(jīng)針對人或說話者評估了檢測窗口之后,最有希望的——在一些情形中為最有 可能的——區(qū)域可被標識并且輸出為包含人或說話者的區(qū)域。最有可能的區(qū)域 可部分地通過挑選具有某種相對較大數(shù)量的陽性檢測窗口的區(qū)域來標識??蓱?用于與使用分類器來標識人或說話者有關(guān)的一些實現(xiàn)的一些特定細節(jié),包括檢 測窗口,在下面例如參考圖8和圖9更詳細地描述。
重要的是注意,參考圖3例示的操作可在各種不同的計算設(shè)備或平臺中實 現(xiàn)或執(zhí)行,包括在同一實現(xiàn)中使用多個計算設(shè)備。例如,標識特征操作310和 生成分類器操作315可關(guān)聯(lián)于一或多個個人計算機設(shè)備來執(zhí)行,而評估用于檢 測的分類器操作320可在與例如關(guān)聯(lián)于生成分類器操作的一或多個設(shè)備分開的 設(shè)備上執(zhí)行。這在至少一個示例性實現(xiàn)中包括如圖1所示的檢測器設(shè)備165的 設(shè)備。還重要的是理解一些操作可比其它操作執(zhí)行較少或較多次數(shù)。例如,在 一些實現(xiàn)中,通常要執(zhí)行標識特征操作310和生成分類器操作315某個數(shù)量的 次數(shù),直至找到合適的分類器為止。隨后如由操作320例示的使用該分類器實 現(xiàn)檢測的可執(zhí)行代碼可使用某個其它設(shè)備一一包括例如適于在會議室中使用 的相機設(shè)備——來實現(xiàn)并且隨后重復地執(zhí)行以實際檢測說話者中的人。在其它 實現(xiàn)中,生成分類器操作315和評估用于檢測的分類器操作320都可在同一設(shè)備中實現(xiàn)。在這樣的實現(xiàn)中,或者在其它實現(xiàn)中,生成分類器操作可針對每個 使用設(shè)備的新房間或者區(qū)域來執(zhí)行,并且可為每個新房間或區(qū)域產(chǎn)生不同的分 類器。
現(xiàn)在轉(zhuǎn)到圖4,其中例示的是示出可在一些實現(xiàn)中標識和使用的一些示例 性特征的示例性概圖。圖4的該描述是參考圖5和圖6來作出的。然而,應當 理解,參考圖4描述的元素不旨在限于與參考這些其它附圖描述的元素一起使 用。另外,盡管圖4的示例性圖指示了具體的元素,但在一些實現(xiàn)中不是所有 這些元素都存在,并且在一些實現(xiàn)中可存在另外的元素。
示例性圖400包括特征池410,它可包含音頻特征420、視頻特征430和 其它特征450。
一般而言,音頻特征是關(guān)聯(lián)于某種類型的音頻輸入的特征??蓜?chuàng)建音頻特 征以反映任意數(shù)量的各種音頻參數(shù),包括音頻信號的幅度、音頻信號的頻率等 等。
在音頻數(shù)據(jù)包括SSL似然函數(shù)的環(huán)境中,音頻特征可使用關(guān)聯(lián)于SSL似
然函數(shù)的某個信息集合。在一些實現(xiàn)中,基于SSL似然函數(shù)的音頻特征集合可
使用來自關(guān)聯(lián)于每個檢測窗口的SSL似然函數(shù)的值以及整個SSL似然函數(shù)的
全局值。它可使用離散的時間點上的這些值——例如當前時刻(SSL數(shù)據(jù)最近
'可用的時刻)或者例如最后一分鐘內(nèi)的任何時刻一一以及在某個時間段上聚 合。
例如,假設(shè)SSL似然函數(shù)全局最大、全局最小以及全局平均如下計算得 到全局最大是SSL似然函數(shù)在整個SSL似然函數(shù)上的最大值;全局 最小()是SSL似然函數(shù)在整個SSL似然函數(shù)上的最小值;全局平均(gvg )
是SSL似然函數(shù)在整個SSL似然函數(shù)上的平均值。
還假設(shè),對于每個檢測窗口,使用對應于特定檢測窗口的SSL似然函數(shù)
的區(qū)域來計算一些局部值(這可能要求將圖象和/或檢測窗口使用的坐標空間轉(zhuǎn) 換成SSL似然函數(shù)使用的——有可能按角度的——坐標空間):局部最大(ZU
是SSL似然函數(shù)在檢測窗口中的最大值;局部最小(Z^)是SSL似然函數(shù)在 檢測窗口中的最小值;局部平均(U是SSL似然函數(shù)在檢測窗口上的平均 值;以及局部中間輸出(丄」)是SSL似然函數(shù)在檢測窗口中點處的值——例
14如如果檢測窗口包括從10°到20°的角度,則局部中間輸出可計算為SSL似 然函數(shù)在15度處的值。還假設(shè)存在"其余"最大值(Z=),它是SSL似然
函數(shù)在特定檢測窗口之外的最大值。
給出這些值,可通過添加至少部分地由如下面列表中的那些函數(shù)定義的音 頻特征420來填充特征池410的一部分 1.
丄m3x一C mm
丄g 加xrmn
max"mm
/g
—i/. "mm
《 丄'—8.9.10.11.12.13.14.
丄'—
《 丄'—
丄L 丄'
丄
A—
丄f
15.丄L
全局峰值)
《ax<s (二元特征,它測試檢測窗口是否包含SSL似然函數(shù)的
1516. ^22^
L加x
創(chuàng)建音頻特征的另一種手段可按與先前說明相似的方式使用來自SSL似 然函數(shù)的數(shù)據(jù),但可使用來自一或多個"先前的"時間段而非只使用來自"當 前"時間段的函數(shù)的數(shù)據(jù)。例如,除了創(chuàng)建部分由先前列出的函數(shù)定義的(其 中由這些函數(shù)使用的數(shù)據(jù)是由SSL似然函數(shù)產(chǎn)生的最新近的數(shù)據(jù))音頻特征集 合之外,可創(chuàng)建附加特征,其中由這些函數(shù)使用的數(shù)據(jù)來自一或多個先前的時 間段。例如,全局最大(Pmax )值可保留SSL似然函數(shù)在整個SSL似然函數(shù)上
的最大值,但可能在不同的時刻,例如1/60秒之前——使用第二最新近的SSL ,似然函數(shù)值??蔀槿我鈹?shù)量的先前時間段創(chuàng)建類似的附加特征。例如,在每1/60 秒提供新SSL似然函數(shù)的環(huán)境中,可創(chuàng)建使用緊接的前六十(60)個SSL似 然函數(shù)的特征——如果為先前列出的十六(16)個函數(shù)中的每一個創(chuàng)建特征, 則這可導致九百六十(960)個SSL音頻特征。
除了使用SSL似然函數(shù)在離散時間點處的值之外,還可創(chuàng)建使用從多個 先前的SSL似然函數(shù)得到的某個聚合值的一些特征。例如,在一些特征中,全 局最大(丄乙)值可定義為SSL似然函數(shù)在例如前一秒內(nèi)出現(xiàn)的絕對最大值,
而非只是如由SSL似然函數(shù)的最新近實例提供的SSL似然函數(shù)的最大值。同 樣,例如,全局平均可定義為SSL似然函數(shù)在某個先前的時間段內(nèi)在
全部SSL似然函數(shù)上的平均值。
- 除了使用來自先前SSL似然函數(shù)的數(shù)據(jù)之外,如果由等待捕捉將來的數(shù) 據(jù)而引起的增加的等待時間是可接受的,則還有可能使用來自"將來"SSL似 然函數(shù)的數(shù)據(jù)。
任何或所有這些附加特征隨后可添加至同一特征池410并且在生成分類 器的過程中使用。還可包括至少部分基于SSL似然函數(shù)的其它特征,或者當然 包括基于其它音頻數(shù)據(jù)的其它特征,或者包括與來自其它輸入的其它數(shù)據(jù)組合 在一起的音頻數(shù)據(jù)。
可以作為特征池410的一部分的另一特征集合是視頻特征420。通常視頻 特征可以是關(guān)聯(lián)于某種類型的視頻輸入的任何特征。視頻特征可例如對圖象中 的部分或全部像素進行某種數(shù)學運算,這些圖象包括基圖象以及可能如計算得 到的短期差異和長期平均圖象的其它圖象。可應用于與視頻圖象的定義有關(guān)的一些實現(xiàn)的一些特定細節(jié)在下面例如參考圖5和圖6更詳細地描述。
特征池410中還包括有其它特征450。這些其它特征450包括標識為在生 成分類器時可供考慮的任何附加特征。在一些實現(xiàn)中,在其中存在其它類型的 輸入的環(huán)境中,關(guān)聯(lián)于其它類型的輸入的特征可以是其它特征的一部分。例如, 在包括來自三維相機的輸入諸如圖象中的元素的距離或深度的某種度量的環(huán) 境中,其它特征可包括或者獨立于其它輸入或者可能結(jié)合其它輸入來量化該附
加數(shù)據(jù)的其它特征。在相同或其它實現(xiàn)中,其它特征可包括一起使用其它輸入 的組合的特征——例如, 一些特征可在相同的一或多個特征中一起使用音頻輸 入和視頻輸入兩者。
在其中輸入提供360。視圖的實現(xiàn)中,可實現(xiàn)至少一些特征使得它們"環(huán) 繞"——也就是說使得某些特征考慮來自例如由特定輸入提供的數(shù)據(jù)的"開始" 和"末端"兩者的輸入。例如,在包括提供36(T視圖的音頻輸入的環(huán)境中, 至少一些特征可并入例如從355°方位至5°方位的輸入。這樣的特征在一些 情形中可捕捉恰巧位于這些輸入提供的數(shù)據(jù)的"開始"和"末端"之間的邊界 上的人或說話者。
現(xiàn)在轉(zhuǎn)到圖5,其中示出一些示例性視頻特征。圖5的該描述是參考圖6 作出的,它討論了使用視頻特征的一些方式。然而,應當理解參考圖5描述的 元素并不旨在限于與參考圖6描述的元素一起使用。另外,盡管圖5的示例性 圖指示了具體的元素,但在一些實現(xiàn)中不是所有這些元素都存在,并且在一些 實現(xiàn)中可存在另外的元素。
盡管視頻特征可包括能夠量化特定時刻的視頻輸入的某個元素的任何實 體,但一種有用類型的視頻特征是部分地由一或多個矩形形成的視頻特征。一 般而言,對關(guān)聯(lián)于一或多個矩形中的像素的值進行求和或者以其它數(shù)學方法來 處理以確定關(guān)聯(lián)于特定矩形的視頻特征的數(shù)值。例如,在其中每個像素或開或 關(guān)(即二進制的一 (1)或零(0))的黑白圖象中,關(guān)聯(lián)于視頻特征的數(shù)值可 以是例如特定矩形中開的像素或者值具有一 (1)的像素之和。在圖5中矩形 550和矩形560在圖形上示出兩個可能的單矩形視頻特征。在灰度級或彩色圖 象中,關(guān)聯(lián)于特定像素的數(shù)值可相似地處理。例如,在其中關(guān)聯(lián)于每個像素的 數(shù)值范圍從零(0)至二百五十五(255)的灰度級圖象中,特征可以與矩形中像素的灰度級值之和相關(guān)聯(lián)。注意盡管在本文例示和討論矩形,但關(guān)聯(lián)于視頻 特征的一或多個區(qū)域可具有任何形狀,而不限于矩形。
另一種視頻特征可使用父矩形內(nèi)的二或多個子矩形。矩形510、矩形520、
矩形530和矩形540都是使用子矩形的視頻特征的圖形示例。在這樣的視頻特 征中,關(guān)聯(lián)于特征的數(shù)值可通過例如在這兩個子矩形中對像素值求和且隨后從 所得到的和之一中減去另一個和來計算。在這樣一個實現(xiàn)中,取決于子矩形的 位置和方向,所得到的數(shù)值可以不同,即使在特征被應用于圖象的相同部分時 也是如此。例如,父矩形510中的子矩形是水平方向的,而父矩形530的子矩 形是垂直方向的,并且因此所得到的關(guān)聯(lián)于使用這些矩形的視頻特征的數(shù)值可 以不同,即使在這些矩形應用于圖象的相同部分時也是如此。在一些情形中這 種類型的特征可協(xié)助標識高相對對比度的區(qū)域一一包括例如可能存在于臉上 眼睛(通常是暗黑的)與周圍的皮膚(通常不是暗黑的)之間的對比度。
盡管圖5例示包括兩個子矩形的視頻特征的圖形表示,但也有可能定義包 括三個矩形、四個矩形等等的視頻特征。關(guān)聯(lián)于這些視頻特征的數(shù)值可用多種 方法來計算得到,包括通過取不同子矩形中的像素計數(shù)之間的差。
現(xiàn)在轉(zhuǎn)到圖6,其中示出包括一些示例性視頻特征的代表性示例性特征矩 形610。圖6的該描述是參考圖1、圖4和圖5作出的。然而,應當理解參考 圖6描述的元素不旨在限制于與參考這些其它附圖描述的元素一起使用。另外, 盡管圖6的示例性圖指示了具體的元素,但在一些實現(xiàn)中不是所有這些元素都 存在,并且在一些實現(xiàn)中可存在另外的元素。
盡管圖5中的示圖示出關(guān)聯(lián)于一些示例性視頻特征的矩形(且在一些情形 中為子矩形),但圖5中的示圖沒有明確地示出如何使用這些矩形和相應的視 頻特征來生成或評估分類器。標識要被包括在特征池中的視頻特征的一種機制 是取與各種形狀相關(guān)聯(lián)的各種特征,包括如先前參考圖5描述的那些,并且改 變這些形狀在代表性特征矩形610上的位置和尺寸。代表性特征矩形以及視頻 特征的矩形在其中的位置,隨后可在圖象的特定區(qū)域上在不同的時刻或者針對 不同的目的來進行評估,包括作為檢測過程的一部分。
在代表性特征矩形610內(nèi),可改變關(guān)聯(lián)于視頻特征的形狀的位置和尺寸。 例如如所示的,關(guān)聯(lián)于特定視頻特征的父矩形620占據(jù)代表性特征矩形的左上角。除了父矩形620例示的特定位置和尺寸之外,父矩形(及其子矩形)可在 代表性特征矩形內(nèi)沿水平和垂直兩種方向上移動,每次定義一個新的視頻特 征。在一些實現(xiàn)中,父矩形的位置可用確保整個代表性特征矩形保證得到覆蓋 的方式改變多次。在同一或其它實現(xiàn)中,當改變父矩形的位置時,新的位置可 重疊先前定義的視頻特征的父矩形或者重疊己經(jīng)定義或者將要定義的視頻特 征的父矩形。 .
同樣,父矩形的尺寸也可修改以定義新的視頻特征。例如,在與父矩形
620相比時,父矩形630、父矩形640和父矩形650示出對不同尺寸的使用。 在一些實例中,可以想象父矩形可放大直至它占據(jù)整個代表性特征矩形。
在一些實現(xiàn)中,使用左右對稱來模擬具有特定父矩形的視頻特征的存在是 有用的。也就是說,當存在一個具有特定位置中的父矩形的視頻特征時,定義 另一個具有作為第一視頻特征的父矩形的鏡像圖象的父矩形的視頻特征是有
用的。 一個發(fā)生這種情況的示例性情形由父矩形630和父矩形640例示。
在一些實現(xiàn)中,可生成應用于包括先前參考圖1描述的圖象類型在內(nèi)的不 同圖象的多個視頻特征。例如,可生成一些視頻特征應用于基圖象,同時其它 視頻特征應用于短期差異圖象,以及還有一些其它的視頻特征應用于長期平均 圖象。
在改變包括關(guān)聯(lián)于視頻特征的矩形的位置、關(guān)聯(lián)于視頻特征的矩形的尺寸 和應用視頻特征的圖象的各種因素以及為這些因素的任何和所有組合生成不 同視頻特征之后,具有作為如之前參考圖4所述的特征池410的特征池的一部 分的數(shù)千視頻特征并非不常見。在一些實現(xiàn)中,可在生成分類器過程期間從這 大量的視頻特征中選擇某個視頻特征集合。
重要的是再次注意圖5和圖6沒有示出所有可能的視頻特征。在許多實現(xiàn) 中,視頻特征將以聚合方式覆蓋一個或多個圖象的整體。圖5和圖6所示的視 頻特征僅用于演示如何定義一些視頻特征。
現(xiàn)在轉(zhuǎn)到圖7,其中示出一個示例性概圖,它示出其中可完成用于人或說 話者檢測的分類器的生成的一個系統(tǒng)700。圖7的該描述是參考圖3、圖4和 圖10作出的。然而,應當理解參考圖7描述的元素不旨在限于與參考這些其 它附圖描述的元素一起使用。另外,盡管圖7的示例性圖指示了具體的元素,但在一些實現(xiàn)中不是所有這些元素都存在,并且在一些實現(xiàn)中可存在另外的元 素。
系統(tǒng)700可包括特征池710、訓練輸入數(shù)據(jù)720、輸入數(shù)據(jù)的標記730、 與學習算法745相關(guān)聯(lián)的訓練模塊740和分類器755。
如上面在參考圖3描述的操作流中介紹的,給定特征池諸如特征池710, 有可能生成可用于實現(xiàn)人或說話者檢測的分類器。圖7例示的系統(tǒng)演示可用于 生成這樣的分類器的一些機制。
示例性訓練模塊740可使用特定的輸入來生成分類器諸如分類器755。訓 練模塊可在一或多個計算設(shè)備中實現(xiàn),包括下面參考圖10描述的示例性計算 設(shè)備。
通常,訓練模塊可與某種形式的學習算法相關(guān)聯(lián)。學習算法包括產(chǎn)生分類 器的自動化過程。 一些學習算法通過接受特征池710、訓練輸入數(shù)據(jù)720和輸 入數(shù)據(jù)的標記730來產(chǎn)生分類器。特征池710可以是可量化包括訓練輸入數(shù)據(jù) 720在內(nèi)的輸入數(shù)據(jù)的某個或某些元素的實體集合。在一些實現(xiàn)中,特征池可 包括如先前參考圖4和其它相關(guān)附圖討論的那些特征。訓練輸入數(shù)據(jù)720通常 可由如一旦生成分類器就將向分類器給出的那些輸入數(shù)據(jù)組成。在一些實現(xiàn) 中,訓練輸入數(shù)據(jù)可包括視頻幀組合,可從其檢索或計算得到圖象——如基圖 象、短期差異圖象和長期平均圖象,以及音頻信息,可從其生成SSL似然函數(shù)。 輸入數(shù)據(jù)的標記730 —般由理想的分類器在給定訓練輸入數(shù)據(jù)時會產(chǎn)生的"正 確的"回答組成。例如,對于每個視頻幀和音頻輸入集合,輸入數(shù)據(jù)的標記可 標識視頻幀內(nèi)存在人或說話者的特定區(qū)域。
給定特征池710、訓練輸入數(shù)據(jù)720和輸入數(shù)據(jù)的標記730,訓練模塊740 可使用其相關(guān)聯(lián)的學習算法745來生成分類器。學習算法的操作取決于所使用 的特定學習算法而變化,這在本領(lǐng)域是周知的并且不必在本申請書中詳細地說 明。例如,如果學習算法是Adaboost算法的形式,則學習算法的操作可包括 選擇一系列特征使得所得到的分類器的準確性隨著Adaboost算法的進行而提 高。如果學習算法是除Adaboost算法以外的算法,諸如例如祌經(jīng)網(wǎng),則學習 算法的操作可能不同。
訓練模塊740和學習算法745的最終輸出包括當在一個特定區(qū)域或檢測窗口上對其評估時,返回對該特定區(qū)域包括人或說話者的似然性的某種估計的分 類器。分類器本身一般可由已經(jīng)由訓練模塊選擇的特征子集構(gòu)成。該所選特征 集合一般比未被選擇的特征能在某種程度上更準確地執(zhí)行。在一些情形中,分 類器的元素,包括特征子集在內(nèi),被稱為"節(jié)點",其中例如每個所選特征與 分類器的單個節(jié)點相關(guān)聯(lián)。
分類器755中的不同特征可能需要不同量的計算時間用于在檢測期間進 行評估或計算。例如, 一些特征——如至少在一些實現(xiàn)中的音頻特征——能夠 比其它特征——如至少在一些實現(xiàn)中的視頻特征更快速地評估或計算。因為評 估速度上的差異,在一些實現(xiàn)中在所生成的分類器中對特定特征定序使得將評 估需要較少時間的特征定序在評估需要較多時間的特征之前是有用的。
在分類器755中的部分所選特征與其它所選特征相比,可相對較好地完成 在檢測窗口中標識人或說話者的任務。例如,特定的音頻或視頻特征與某個其 它音頻或視頻特征相比,與人或說話者的檢測更高度相關(guān)。在一些實現(xiàn)中,度 分類器的特征定序,使得與人檢測更高度相關(guān)的特征在相對較不準確的特征之 前出現(xiàn)是有用的。
無論是否與評估的速度、準確的程度或者某個其它屬性有關(guān),特定的特征 可使用各種機制定序在其它特征之前。在一些實現(xiàn)中,學習算法本身在生成分 類器時可考慮所需的或者較佳的屬性——包括評估的速度和準確程度,這可能 通過與其它特征相比對這些特定或較佳的特征加更大的權(quán)來實現(xiàn),可導致特定 特征在所生成的分類器中往往較早出現(xiàn)。在相同或其它實現(xiàn)中,所生成的分類 器中的特征可在學習算法生成分類器之后重新定序或分揀。
一般而言,用于生成分類器755的訓練輸入數(shù)據(jù)720越多,所得到的分類 器將越準確。然而,產(chǎn)生訓練輸入數(shù)據(jù)需要時間和精力——例如可能必須為每 個視頻幀生成輸入數(shù)據(jù)的標記730形式的"正確"回答。 一種增加與產(chǎn)生全新 訓練輸入數(shù)據(jù)相比可能需要相對較少工作的訓練輸入數(shù)據(jù)量的方法是創(chuàng)建己 經(jīng)存在的訓練輸入數(shù)據(jù)和輸入數(shù)據(jù)的標記的鏡像圖象。例如,給定視頻幀和 SSL似然函數(shù),可創(chuàng)建作為原始視頻幀的鏡像圖象的新視頻幀并且還對SSL似 然函數(shù)和輸入數(shù)據(jù)的標記形成鏡像。
在至少一些實現(xiàn)中可選擇一些特征,至少部分地使得在許多情形中"假陽
21性"與另一個人相關(guān)聯(lián)而不與非人的對象或?qū)嶓w相關(guān)聯(lián)。也就是說,在沒有檢 測到期望的人或說話者的情形中,可選擇特征使得在許多情形中檢測到另一個 人而不是某個非人的對象或?qū)嶓w。例如,可選擇視頻特征,使得在許多情形中 當未檢測到說話者時檢測到不在說話的人。
現(xiàn)在轉(zhuǎn)到圖8,其中所示的是示例性概圖,它示出其中可完成人或說話者
的檢測的一個系統(tǒng)800。圖8的該描述是參考圖1、圖3、圖7、圖9和圖10 作出的。然而,應當理解參考圖8描述的元素不旨在限于與參考這些其它附圖 描述的元素一起使用。另外,盡管圖8的示例性圖指示了具體的元素,但在一 些實現(xiàn)中不是所有這些元素都存在,并且在一些實現(xiàn)中可存在另外的元素。
系統(tǒng)800可包括輸入數(shù)據(jù)810、關(guān)聯(lián)于分類器855的檢測器模塊840和檢 測結(jié)果865。
如以上在參考圖3描述的操作流中介紹的,給定分類器855,包括如圖7 的所生成的分類器755的分類器,可能在檢測器模塊840中實現(xiàn)的檢測器可檢 查輸入數(shù)據(jù)810并使用分類器來產(chǎn)生檢測結(jié)果865。圖8例示的系統(tǒng)演示可使 用這樣的分類器來檢測人或說話者的某些機制。檢測器模塊可在一或多個計算 設(shè)備中實現(xiàn),包括先前參考圖1描述的檢測器設(shè)備165和在下面參考圖10描 述的示例性計算設(shè)備。
輸入數(shù)據(jù)810可包括多種多樣的輸入數(shù)據(jù)。在一些實現(xiàn)中輸入數(shù)據(jù)可包括 如先前例如參考圖1描述的輸入數(shù)據(jù),包括一系列視頻幀,從其可確定一系列 基圖象、短期差異圖象和長期平均圖象。輸入數(shù)據(jù)還可包括如與一或多個視頻 幀相關(guān)聯(lián)的一系列SSL似然函數(shù)的音頻數(shù)據(jù)。輸入數(shù)據(jù)還可包括其它類型的數(shù) 據(jù),包括先前例如參考圖1描述的那些。
檢測器模塊840隨后可使用分類器855來確定輸入視頻數(shù)據(jù)中的區(qū)域可包 括人或說話者。在一些實現(xiàn)中這可通過將至少一部分輸入數(shù)據(jù)細分成一系列稱 為檢測窗口的較小區(qū)域來完成。檢測窗口可用各種方法來定義,包括在下面參 考圖9更詳細地討論的一些方法。
對于每個檢測窗口,檢測器模塊840可針對該檢測窗口的輸入數(shù)據(jù)評估分 類器855。分類器的評估通??僧a(chǎn)生對人或說話者存在于特定檢測窗口中的似 然性的某種估計。在至少一些實現(xiàn)中,該似然性估計可以是檢測結(jié)果865的一
22部分。
一旦已經(jīng)評估了某個數(shù)量或者全部的檢測窗口,在一些實現(xiàn)中即可進行合 并操作以確定輸入數(shù)據(jù)中特別有可能包含人或說話者的特定區(qū)域。這在一些實 現(xiàn)中可通過挑選具有相對大數(shù)量的檢測窗口進而具有包含人或說話者的高似 然性的區(qū)域來完成。這些所標識的區(qū)域在至少一些實現(xiàn)中也可以是檢測結(jié)果 865的一部分。
在一些實現(xiàn)中,可在完全確定特定檢測窗口包含人或說話者的似然性之前 評估分類器的所有元素或者節(jié)點。在一些實現(xiàn)中有可能使用稱為"修剪"的技 術(shù)方法來縮短為一些檢測窗口評估分類器所需的時間。
當使用修剪時,分類器的評估可在分類器中的所有節(jié)點得到評估之前停 止。例如如果可以確定已經(jīng)計算出的結(jié)果提供特定檢測窗口包含或者不包含人 或說話者的某種水平的確定性,則可停止分類器的評估。例如,可以知道,例 如分類器中的前四個節(jié)點全部評估為特定結(jié)果,檢測窗口總是包含人(至少對 于用于訓練分類器的數(shù)據(jù)而言)。在該實例中,在檢測過程期間分類器的評估 可在所有節(jié)點已經(jīng)得到評估之前停止,并且可將檢測窗口確定為包含人或說話 者。
在一些實現(xiàn)中,輸入數(shù)據(jù)的特定子區(qū)域可排除在考慮進行人或說話者檢測 的區(qū)域之外。例如, 一個房間可能有電視或投影儀屏幕,在一些情形中它可顯 示的人或說話者,這不應當由檢測器標識為人或說話者。在這個示例性情形中, 輸入數(shù)據(jù)中關(guān)聯(lián)于電視或投影儀屏幕的子區(qū)域可排除在考慮進行人或說話者 檢測的區(qū)域之外。這可用各種方法來完成,包括例如通過不定義涵蓋要排除的 子區(qū)域的檢測窗口。
現(xiàn)在在轉(zhuǎn)到圖9,其中示出可用作檢測人或說話者的過程的一部分的檢測
窗口的一些示例性表示。圖9的該描述是參考圖6作出的并且與為圖8提供的 討論有關(guān)。然而,應當理解參考圖9描述的元素不旨在限于與參考這些其它附 圖描述的元素一起使用。另外,盡管圖9的示例性圖指示了具體的元素,但在 一些實現(xiàn)中不是所有這些元素都存在,并且在一些實現(xiàn)中可存在另外的元素。 在一些實現(xiàn)中,如視頻幀或者從視頻幀導出的一或多個圖象的輸入數(shù)據(jù)可 細分成用作檢測人或說話者的過程的一部分的多個檢測窗口。
23如圖9所示,示例性圖象905可包含多個示例性檢測窗口,包括檢測窗口
910、檢測窗口 920、檢測窗口 930、檢測窗口 940和檢測窗口 950。每個檢測 窗口占據(jù)圖象的某個部分。重要的是注意,沒有示出可能存在于圖象905中的 所有檢測窗口。在許多實現(xiàn)中,檢測窗口將以聚合方式覆蓋整個圖象。圖9所 示的檢測窗口僅用于演示如何定義檢測窗口。此外,盡管檢測窗口示為矩形, 但檢測窗口可以用任何形狀來定義。而且,盡管檢測窗口是參考"圖象"來描 述的,但檢測窗口也可應用于非視覺輸入,包括如先前己經(jīng)描述的音頻輸入。 例如,關(guān)聯(lián)于音頻輸入的SSL似然函數(shù)的檢測窗口可包括SSL似然函數(shù)的某 個子集。
示例性檢測窗口 910占據(jù)圖象905的左上角。示例性檢測窗口 920和示例 性檢測窗口 930示出檢測窗口可延伸以覆蓋圖象的更多區(qū)域的一種方式。盡管 未示出,檢測窗口可定義為在由箭頭960表示的方向上繼續(xù)。這樣的檢測窗口 可覆蓋圖象的整個上部。
同樣,示例性檢測窗口 940示出檢測窗口如何垂直延伸以覆蓋圖象的附加 區(qū)域。箭頭970例示這樣的檢測窗口可繼續(xù)的一個方向,以覆蓋圖象的整個左 部。
通過向右延伸示例性檢測窗口 940,使得在示例性檢測窗口 920、示例性 檢測窗口 930之下、且在箭頭960所示方向上存在檢測窗口,例示定義檢測窗 口使得它們覆蓋整個圖象905的一種方法。
檢測窗口可任意程度地重疊。例如如所示的,檢測窗口 920的一半與檢測 窗口910重疊。除了所示的重疊,在表示360°視圖的全景圖象中,檢測窗口 也可重疊圖象905的端部。例如,未示出的檢測窗口可占據(jù)圖象的最右邊和圖 象的最左邊。
在一些實現(xiàn)中,可使用各種尺寸的檢測窗口。例如,檢測窗口 950大于檢 測窗口910。在一些實現(xiàn)中可使用許多不同尺寸的檢測窗口。例如在一個實現(xiàn) 中,可使用10種不同尺寸的檢測窗口。每個相同尺寸的檢測窗口的集合可被 延伸以覆蓋整個圖象905,例如使用如先前參考檢測窗口 910和其它具有與檢 測窗口 910相同尺寸的檢測窗口說明的同一過程。
一些視頻特征可使用如先前參考圖6討論的代表性特征矩形。在檢測過程期間,可縮放代表性特征矩形以適合檢測窗口,并且可在同時成比例縮放關(guān)聯(lián) 于代表性特征矩形的任何視頻特征。例如,假設(shè)一個尺寸為50像素寬乘50像 素高的示例性代表性特征矩形,包含許多視頻特征,其中一個視頻特征具有尺 寸為10像素寬乘20像素高的矩形。如果這個代表性特征矩形與相同尺寸的檢 測窗口一起使用,則該視頻特征的矩形也可保持相同尺寸。如果該代表性特征
矩形與一個四倍尺寸的檢測窗口——例如與尺寸為IOO像素寬乘IOO像素高的
檢測窗口一一起使用,則代表性特征矩形及其相關(guān)聯(lián)的視頻特征矩形也可縮
放以適合該較大的檢測窗口。在該示例中,視頻特征的矩形可縮放至尺寸為20 像素寬乘40像素高。
在一些實現(xiàn)中,使用檢測器的空間或房間的尺寸和/或方向可能影響在檢 測過程中使用的檢測窗口的尺寸。例如,在小房間中,關(guān)聯(lián)于人或說話者的物 理特征——如臉或軀干——與關(guān)聯(lián)于大房間中的人或說話者的物理特征相比, 在從一或多個輸入設(shè)備的角度來看往往很大,或者在尺寸上變化的程度較小。 發(fā)生這種情況是因為在小房間中,人或說話者離一或多個輸入設(shè)備的距離相對 較小一一例如可能導致較大的臉一一而在較大房間中的人或說話者可能離一
或多個輸入設(shè)備或近或遠,并且因此相關(guān)聯(lián)的物理特征的尺寸可在較大程度上 變化。因此,在一些實現(xiàn)中,可使用這樣的檢測窗口,使得例如在小房間中檢 測窗口可限于較大的尺寸,并且可能在尺寸上的范圍變化相對較少。相反,在 較大房間中,檢測窗口的范圍可從小到大以便嘗試捕捉物理特征在尺寸方面的 較大變化。
示例的計算環(huán)境
現(xiàn)在轉(zhuǎn)到圖10,該圖和相關(guān)的討論旨在提供對其中可實現(xiàn)本文描述的各 種技術(shù)的示例性計算環(huán)境的簡要概括的描述。盡管不是必需的,本文至少部分 地在由諸如圖IO所示的計算設(shè)備1000的控制器、處理器、個人計算機或其它 計算設(shè)備執(zhí)行的計算機可執(zhí)行指令諸如程序模塊的一般上下文中描述這些技 術(shù)。
一般而言,程序模塊包括例程、程序、對象、組件、用戶界面、數(shù)據(jù)結(jié)構(gòu) 等,它們執(zhí)行特定的任務、顯示特定的信息或者實現(xiàn)特定的抽象數(shù)據(jù)類型。由程序模塊執(zhí)行的操作先前已經(jīng)在一或多個框圖和操作流程圖的幫助下進行了 描述。
本領(lǐng)域的技術(shù)人員可以以計算機可執(zhí)行指令的形式實現(xiàn)這些描述、框圖和 流程圖,這些計算機可執(zhí)行指令可體現(xiàn)為一或多種計算機可讀介質(zhì)的形式。如 本文所使用的,計算機可讀指令可以是能存儲或具體化以計算機可訪問和理解 的形式編碼的信息的任何介質(zhì)。計算機可讀介質(zhì)的典型形式非限制性地包括易 失性和非易失性存儲器、數(shù)據(jù)存儲設(shè)備,包括可移動和/或不可移動介質(zhì),以及 通信介質(zhì)。
通信介質(zhì)以已調(diào)制數(shù)據(jù)信號如載波或其它傳輸機制具體化計算機可讀信 息,并且包括任何信息傳遞介質(zhì)。術(shù)語"已調(diào)制數(shù)據(jù)信號"指以將信息編碼到 信號中的方式設(shè)置或改變其一或多個特性的信號。作為示例而非限制,通信介
質(zhì)包括有線介質(zhì)如有線網(wǎng)絡或直接線連接以及無線介質(zhì)如聲音、RF、紅外和其 它無線介質(zhì)。
圖10所示的計算設(shè)備1000在其最基本的配置中包括至少一個處理單元 1002和存儲器1004。在一些實現(xiàn)中,處理單元1002可以是如存在于例如包括 臺式和膝上型計算機在內(nèi)的各種計算機上的通用中央處理單元(CPU)。在其 它實現(xiàn)中,處理單元也可以是數(shù)字信號處理器(DSP),它特別適合數(shù)字信號 處理任務,包括例如由如先前參考圖1描述的檢測器設(shè)備165的檢測器設(shè)備所 執(zhí)行的那些任務。取決于計算設(shè)備的精確配置和類型,存儲器1004可以是易 失性(如RAM)、非易失性(諸如ROM、閃存等)或兩者的某種組合。該最 基本的配置在圖IO中由虛線1006例示。另外,計算設(shè)備100還可具有附加的 特征和功能。例如,計算設(shè)備1000還可包括附加的存儲(可移動和/或不可移 動),包括但不限于磁或光盤或帶。這樣的附加存儲在圖10中由可移動存儲 1008和不可移動存儲1010例示。
計算設(shè)備1000還可包含一或多個通信連接1012,它(們)允許計算設(shè)備 1000與其它設(shè)備和服務通信。例如,計算設(shè)備可具有至包括例如先前參考圖1 描述的輔助設(shè)備175在內(nèi)的其它計算設(shè)備的一或多個連接。計算設(shè)備1000還 可具有一或多個輸入設(shè)備1014,諸如如相機或掃描儀的圖象輸入設(shè)備、鍵盤、 鼠標、筆、包括話筒陣列在內(nèi)的語音輸入設(shè)備、觸摸輸入設(shè)備等等。諸如顯示器、揚聲器、打印機等等的一或多個輸出設(shè)備1016也可包括在計算設(shè)備1000 中。
本領(lǐng)域的技術(shù)人員將了解,本文描述的技術(shù)可由除圖io例示的計算設(shè)備 IOOO之外的計算設(shè)備來實踐。例如且非限制性地,本文描述的技術(shù)同樣可在包 括移動電話和PDA在內(nèi)的手持式設(shè)備、多處理器系統(tǒng)、基于微處理器或可編 程消費電子產(chǎn)品、網(wǎng)絡PC、小型機、大型機等等中實踐。這些計算設(shè)備每一 個可由圖IO的系統(tǒng)以某種詳細級別來描述,或者可不同地描述。
本文描述的技術(shù)還可在分布式計算環(huán)境中實現(xiàn),其中操作是由通過通信網(wǎng) 絡鏈接的遠程處理設(shè)備執(zhí)行的。在分布式計算環(huán)境中,程序模塊可位于本地或 遠程設(shè)備兩者中。
盡管本文所描述的技術(shù)是用軟件實現(xiàn)的,但還可了解,本文描述的技術(shù)或 者可全部或者部分地實現(xiàn)為硬件、固件或者軟件、硬件和/或固件的各種組合。
盡管已經(jīng)在附圖中例示和在上述文本中描述了方法和系統(tǒng)的一些特定實 現(xiàn),但將理解,所示和所述的方法和系統(tǒng)不限于所述的特定實現(xiàn),而可以是在 不脫離由所附權(quán)利要求書闡述和定義的精神的情況下進行眾多重置、修改和代 替。 '
權(quán)利要求
1. 一種方法包括標識包括至少一個來自第一類型的輸入的特征以及至少一個來自第二類型的輸入的特征的特征池(310),其中所述第二類型輸入不同于所述第一類型輸入;以及使用學習算法生成用于說話者檢測的分類器(315),其中所述分類器的節(jié)點是使用所述特征池來選擇的。
2. 如權(quán)利要求1所述的方法,其特征在于,還包括評估檢測人的所述分類器(320)。
3. 如權(quán)利要求2所述的方法,其特征在于,所述至少一個來自第一類型的 輸入的特征或者所述至少一個來自第二類型的輸入的特征中的至少一個操作, 使得假陽性結(jié)果與所述之人不同的第二人相關(guān)聯(lián)。
4. 如權(quán)利要求1所述的方法,其特征在于,還包括 在所述生成步驟(315)之后對所述分類器的所述節(jié)點分揀,使得較佳特征在所述分類器中位于較不佳特征之前。
5. 如權(quán)利要求4所述的方法,其特征在于,所述較佳特征與所述較不佳特 征相比要求較少的計算。
6. 如權(quán)利要求4所述的方法,其特征在于,與所述較不佳特征相比,所述 較佳特征與說話者檢測更高度相關(guān)。
7. 如權(quán)利要求1所述的方法,其特征在于,所述生成步驟(315)還包括, 與較不佳特征相比,對較佳特征加更高的權(quán),使得所述較佳特征在所述分類器 中位于所述較不佳特征之前。
8. 如權(quán)利要求1所述的方法,其特征在于,所述第一類型輸入或者所述第 二類型輸入包括音頻輸入(120),所述特征池包括關(guān)聯(lián)于聲源定位輸入的音 頻特征(420)。
9. 如權(quán)利要求8所述的方法,其特征在于,所述音頻特征(420)與從下 列函數(shù)中選擇的函數(shù)相關(guān)聯(lián)<formula>formula see original document page 3</formula>
10. 如權(quán)利要求1所述的方法,其特征在于,所述第一類型輸入或者所述 第二類型輸入包括視頻輸入(110),所述特征池包括由矩形定義的視頻特征(430)。
11. 如權(quán)利要求1所述的方法,其特征在于,所述學習算法(745)包括 AdaBoost算法。
12. —種方法包括接受包括第一類型的輸入數(shù)據(jù)和不同于所述第一類型的輸入數(shù)據(jù)的第二類型的輸入數(shù)據(jù)的輸入數(shù)據(jù)(810);以及評估人檢測分類器(855)以檢測人,其中所述分類器已經(jīng)通過以下步驟 創(chuàng)建標識包括至少一個關(guān)聯(lián)于所述第一類型的輸入數(shù)據(jù)的特征和至少一個關(guān) 聯(lián)于所述第二類型的輸入數(shù)據(jù)的特征的特征池(310);以及通過使用所述特征池選擇所述分類器的節(jié)點,使用學習算法生成所述分類器c
13. 如權(quán)利要求12所述的方法,其特征在于,所述之人是說話者。
14. 如權(quán)利要求12所述的方法,其特征在于,所述分類器是還通過在所述 生成步驟之后對所述分類器的節(jié)點進行分揀使得較佳特征在所述分類器中位 于較不佳特征之前來創(chuàng)建的。
15. 如權(quán)利要求14所述的方法,其特征在于,與所述較不佳特征相比,所 述較佳特征要求較少的計算。
16. 如權(quán)利要求14所述的方法,其特征在于,與所述較不佳特征相比,所 述較佳特征與人檢測更高度相關(guān)。
17. 如權(quán)利要求12所述的方法,其特征在于,所述生成步驟還包括,與較 不佳特征相比,對較佳特征加更高的權(quán),使得所述較佳特征在所述分類器中位 于所述較不佳特征之前。
18. —種系統(tǒng)包括產(chǎn)生視頻數(shù)據(jù)(140)的視頻輸入設(shè)備(110); 產(chǎn)生音頻數(shù)據(jù)(150)的音頻輸入設(shè)備(120);以及包括檢測器(170)的檢測器設(shè)備(165),所述檢測器(170)被配置為 接受所述視頻數(shù)據(jù)和所述音頻數(shù)據(jù)并且評估人檢測分類器以檢測人,其中所述 分類器已經(jīng)通過以下步驟創(chuàng)建-標識包括至少一個關(guān)聯(lián)于所述視頻數(shù)據(jù)的特征和至少一個關(guān)聯(lián)于所述音 頻數(shù)據(jù)的特征的特征池(310);以及通過使用所述特征池選擇所述分類器的節(jié)點,使用學習算法生成所述分類器o
19. 如權(quán)利要求18所述的系統(tǒng),其特征在于,還包括輔助設(shè)備(175),為至少一部分所述視頻數(shù)據(jù)或者至少一部分所述音頻 數(shù)據(jù)提供存儲。
20. 如權(quán)利要求18所述的系統(tǒng),其特征在于,所述音頻數(shù)據(jù)包括聲源定位 數(shù)據(jù),以及所述特征池包括關(guān)聯(lián)于從下列函數(shù)中選擇的函數(shù)的音頻特征(420):<formula>formula see original document page 4</formula>
全文摘要
公開了以自動化方式檢測人或說話者的系統(tǒng)和方法??蓸俗R包括多于一種類型的輸入(如音頻輸入和視頻輸入)的特征池,該特征池可與學習算法一起使用來生成標識人或說話者的分類器??稍u估所得到的分類器以檢測人或說話者。
文檔編號G01L17/00GK101473207SQ200780022873
公開日2009年7月1日 申請日期2007年2月13日 優(yōu)先權(quán)日2006年6月22日
發(fā)明者C·張, P·A·沃拉, P·尹, R·G·柯特勒, X·孫, Y·瑞 申請人:微軟公司