欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息處理設(shè)備和信息處理方法與計算機(jī)程序的制作方法

文檔序號:6468555閱讀:177來源:國知局
專利名稱:信息處理設(shè)備和信息處理方法與計算機(jī)程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明包含與2007年12月7日在日本專利局提交的日本專利申請JP 2007-317711相關(guān)的主題,其整體內(nèi)^ii過引用包含在此。
本發(fā)明涉及信息處理設(shè)備和信息處理方法以及計算^^呈序。具體地,本 發(fā)明涉及下述處理設(shè)備和信息處理方法以及計算機(jī)程序,其中,輸入諸如圖 像或者音頻等來自外部世界的信息,并且基于輸入信息執(zhí)行對外部環(huán)境的分 析,具體地是執(zhí)行對講話人的位置或者講話人的身份等的分析的處理。
背景技術(shù)
用于執(zhí)行在人和諸如PC或者機(jī)器人的信息處理設(shè)備之間的相互處理的 系統(tǒng)稱為人機(jī)交互系統(tǒng),例如執(zhí)行通信或者交互處理的系統(tǒng)。在這個人機(jī)交 互系統(tǒng)中,諸如PC或者機(jī)器人的信息處理設(shè)備輸入用于識別諸如人的移動 或者話語等人的行為的圖像信息或者音頻信息,并且,根據(jù)輸入信息來進(jìn)行 分析。
在人們發(fā)送信息的情況下,人們不僅使用話語,而且使用各種渠道,諸 如身體語言、視線和表情來作為信息發(fā)送渠道,如果能夠在機(jī)器上對大量的 這樣的渠道執(zhí)行分析,則人和機(jī)器之間的交流可以達(dá)到人與人之間的交流的 類似程度。用于分析來自這樣的多個渠道(也稱為模態(tài)或者形式)的輸入信 息的接口稱為多模態(tài)接口 。今年來已經(jīng)積極地進(jìn)行了多模態(tài)接口的研發(fā)。
例如,在輸入和分析攝像機(jī)拍攝的圖像信息和通過麥克風(fēng)獲取的音頻信 息的情況下,為了執(zhí)行更詳細(xì)的分析,從在各點(diǎn)安裝的多個攝^^和多個麥 克風(fēng)輸入大量信息是有效的。
作為具體系統(tǒng),例如,可以想象下面的系統(tǒng)??梢詫崿F(xiàn)這^t羊一種系統(tǒng) 信息處理設(shè)備(電視機(jī))經(jīng)由攝^^L或者麥克風(fēng)來輸入在電g之前存在的 用戶(父親、母親、姐妹和兄弟)的圖係奉音頻,并且執(zhí)行對例如相應(yīng)的用 戶的位置和說出特定話語的人的身份的分析。然后,電視機(jī)按照分析信息來 執(zhí)行處理,例如使攝^^U推近鏡頭到講話的用戶、向調(diào)"活的用戶發(fā)出適當(dāng)?shù)捻憫?yīng)等。
在現(xiàn)有技術(shù)中通常的人機(jī)交互系統(tǒng)以決定論方式(deterministic manner)綜合來自多個渠道(模態(tài))的信息,并且執(zhí)行確定多個用戶分別 位于何處、用戶身份并且誰發(fā)出特定信號的處理。例如,作為現(xiàn)有技術(shù),日 本未審查專利申請公布第2005-271137和曰本未審查專利申請公布第2002 - 264051號公開了這樣的系統(tǒng)。
但是,按照現(xiàn)有技術(shù)的系統(tǒng)中執(zhí)行的使用從麥克風(fēng)和攝H^L輸入的不確 定和異步數(shù)據(jù)的決定論方式的綜合處理方法缺少魯棒性,并且存在的問M 只能獲取具有較低精度的數(shù)據(jù)。在實際系統(tǒng)中,在真實環(huán)境中可以獲取的傳 感信息,即從照像機(jī)輸入的圖像和從麥克風(fēng)輸入的音頻信息是不確定的數(shù) 據(jù),其包括各種無意義信息,諸如噪聲和無效信息。為了執(zhí)行圖像分析處理 和音頻分析處理,重要的是執(zhí)行從上述傳感信息中有效地綜合多個有用信息 的處理。

發(fā)明內(nèi)容
考慮到上述情況建立了本發(fā)明,因此,本發(fā)明提供信息處理設(shè)備和信息 處理方法以及計算機(jī)程序,用于分析來自多個渠道(模態(tài)或者形式)的輸入 信息,具體地,例如,在執(zhí)行用于識別在周圍區(qū)域等的人的位置的處理的系 統(tǒng)中,對于在在諸如圖像信息和音頻信息的各種輸入信息中包括的不確定向 執(zhí)行概率處理,并且執(zhí)行綜合被估計為具有高精度的信息段的處理,以改善 魯棒性,并且執(zhí)行具有高精度的分析。
根據(jù)本發(fā)明的一個實施例,提供了一種信息處理設(shè)備,包括多個信息 輸入單元,配置為輸入真實空間中的觀測信息;事件檢測單元,配置為通過 分析從信息輸入單元輸入的信息來產(chǎn)生包括關(guān)于在真實空間中存在的用戶 的估計位置信息和估計識別信息的事件信息;以及信息綜合處理單元,配置 為通過基于事件信息的假設(shè)更新和分選來設(shè)定與關(guān)于用戶的位置信息和識 別信息相關(guān)的假設(shè)概率分布數(shù)據(jù),并且產(chǎn)生包括關(guān)于在真實空間中存在的用 戶的位置信息的分析信息;其中,事件檢測單元配置為從自圖像信息輸入單 元輸入的圖像幀檢測面部區(qū)域,#測到的面部區(qū)域提取面部屬性信息,計 算對應(yīng)于所提取的面部屬性信息的面部屬性分?jǐn)?shù),并且向信息綜合處理單元 輸出面部屬性分?jǐn)?shù);其中,信息綜合處理單元應(yīng)用從事件檢測單元輸入的面 部屬性分?jǐn)?shù),計算與相應(yīng)的目標(biāo)對應(yīng)的面部屬性期望值。另夕卜,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為執(zhí)行粒子濾波處理,在粒子濾波處理中應(yīng)用多個粒子,在多個粒子中設(shè) 定了與虛擬用戶對應(yīng)的多個目標(biāo)數(shù)據(jù),并且適用于產(chǎn)生包括關(guān)于存在于真實
空間中的用戶的位置信息的分析信息;以及信息綜合處理單元配置為將已經(jīng) 設(shè)定到粒子的相應(yīng)目標(biāo)數(shù)據(jù)設(shè)定為與事件檢測單元輸入的相應(yīng)事件關(guān)聯(lián),并 且適用于按照輸入事件標(biāo)識符對與事件對應(yīng)的、M目應(yīng)的粒子選擇的目標(biāo)數(shù) 據(jù)進(jìn)行更新。
另夕卜,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為執(zhí)行所述處理,并且同時以在事件檢測單元中檢測的面部圖像為單位將 目標(biāo)與相應(yīng)的事件相關(guān)聯(lián)。
另夕卜,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為執(zhí)行粒子濾波處理,并且產(chǎn)生分析信息,所述分析信息包括關(guān)于在真實 空間中的用戶的用戶位置信息和用戶識別信息。
另夕卜,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,由事件檢測單元檢測 的面部屬性分^bl根據(jù)在面部區(qū)域中的嘴部活動而產(chǎn)生的分?jǐn)?shù),以及由信息 綜合處理單元產(chǎn)生的面部屬性期望值是與目標(biāo)是講話者的概率對應(yīng)的值。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,事件檢測單元通過其 中應(yīng)用視覺語音檢測的處理執(zhí)行對面部區(qū)域中的嘴部活動的檢測。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,在從事件輸入單元輸 入的事件信息不包括面部屬性分?jǐn)?shù)的情況下,信息綜合處理單元使用預(yù)先設(shè)
定的先驗知識Sp^的值。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為在音頻輸入時段應(yīng)用面部屬性分?jǐn)?shù)的值和從用戶位置信息和用戶識別 信息計算的語音源概率P (tiD ),用戶位置信息和用戶識別信息是從事件檢 測單元所檢測的信息獲取的,并計算相應(yīng)目標(biāo)的講話者概率。
另夕卜,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配
置為當(dāng)音頻輸入時段設(shè)定為At時,通過使用下面的表達(dá)式,通過語音源概 率P[ (tID)]和面部屬性分?jǐn)?shù)[S (tID)]的加;M目加而計算相應(yīng)的目標(biāo)的講 話者概率[Ps (tID) 1:
Ps(tID) = Ws(tlD)/i:Ws(tlD) 其中Ws(tID) = (1國a)P(tID)At + aSAt(tID) a是加權(quán)因子。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為當(dāng)音頻輸入時段設(shè)定為厶t時,通過使用下面的表達(dá)式,通過語音源概 率P[ (tID) 1和面部屬性分?jǐn)?shù)[S (tID)的加 M目加而計算相應(yīng)的目標(biāo)的講 話者概率Pp (tID)]:
Pp(tID) = Wp(tlD)/5:Wp(tlD) 其中
Wp(tID) = (P(tID)At)(1 a) x SAt(tID)a a是加權(quán)因子。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,事件檢測單元配置為 產(chǎn)生事件信息,所述事件信息包括由高斯分布構(gòu)成的關(guān)于用戶的估計位置信 息,并包括指示出用戶對應(yīng)度的概率值的用戶確信度信息,其中,信息綜合 處理單元配置為用于*粒子,所述粒子中設(shè)定多個目標(biāo),所述多個目標(biāo)中 具有由高斯分布構(gòu)成的與虛擬用戶對應(yīng)的用戶位置信息,以及指示出用戶對
應(yīng)度的概率值的置信度因子信息。
另夕卜,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為計算設(shè)定于相應(yīng)的粒子的事件產(chǎn)生源假設(shè)目標(biāo)和從事件檢測單元輸入 的事件信息之間的似然性,并且在相應(yīng)的粒子中將按照似然性的幅度的值設(shè) 定為粒子權(quán)重值。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為執(zhí)行重采樣處理,所述重采樣處理優(yōu)先選擇具有較大粒子權(quán)重值的粒 子,并且對于粒子執(zhí)行更新處理。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為根據(jù)所過去的時間來對設(shè)定于相應(yīng)的粒子的目標(biāo)執(zhí)4亍更新處理。
另外,在根據(jù)本發(fā)明的實施例的信息處理設(shè)備中,信息綜合處理單元配 置為按照在相應(yīng)的粒子中設(shè)定的事件產(chǎn)生源假設(shè)目標(biāo)的數(shù)量來產(chǎn)生作為事 件產(chǎn)生源的概率值的信號信息。
此外,根據(jù)本發(fā)明的一個實施例,提供了一種信息處理方法,用于在信 息處理設(shè)備中執(zhí)行信息分析處理,所述信息處理方法包括步驟由多個信息 輸入單元輸入真實空間中的觀測信息;由事件檢測單元通it^信息輸入單元輸入的信息的分析來產(chǎn)生事件信息,事件信息包括關(guān)于在真實空間中存在的
用戶的估計位置信息和估計識別信息;以及由信息綜合處理單元通過假i5^ 于事件信息的更新和分選來設(shè)定與關(guān)于用戶的位置信息和識別信息相關(guān)聯(lián) 的假設(shè)概率分布數(shù)據(jù),并且產(chǎn)生包括關(guān)于在真實空間中存在的用戶的位置信 息的分析信息,其中事件檢測步驟包括從自圖像信息輸入單元輸入的圖像 幀檢測面部區(qū)域,從檢測到的面部區(qū)域提取面部屬性信息,計算對應(yīng)于所提 取的面部屬性信息的面部屬性分?jǐn)?shù),向信息綜合處理單元輸出所述面部屬性 分?jǐn)?shù);以及其中信息綜合處理步驟包括應(yīng)用從事件檢測單元輸入的面部屬 性分?jǐn)?shù),計算與相應(yīng)的目標(biāo)對應(yīng)的面部屬性期望值。
另外,在根據(jù)本發(fā)明的實施例的信息處理方法中,信息綜合處理步驟包 括執(zhí)行所述處理,并且同時以在事件檢測單元中檢測的面部圖像為單位將 目標(biāo)與相應(yīng)的事件相關(guān)聯(lián)。
另夕卜,在根據(jù)本發(fā)明的實施例的信息處理方法中,由事件檢測單元檢測 的面部屬性分ltA根據(jù)在面部區(qū)域中的嘴部活動而產(chǎn)生的分?jǐn)?shù),以及在信息 綜合處理步驟中產(chǎn)生的面部屬性期望值是與目標(biāo)是講話者的概率對應(yīng)的值。
此外,根據(jù)本發(fā)明的一個實施例,提供了一種計算積應(yīng)序,用于在信息 處理設(shè)備中執(zhí)行信息分析處理,所述計算M序包括步驟由多個信息輸入 單元輸入真實空間中的觀測信息;由事件檢測單元通it^信息輸入單元輸入 的信息的分析來產(chǎn)生事件信息,事件信息包括關(guān)于在真實空間中存在的用戶 的估計位置信息和估計識別信息;以及由信息綜合處理單元通過假i5:基于事 件信息的更新和分選來設(shè)定與關(guān)于用戶的位置信息和識別信息相關(guān)聯(lián)的假 i史概率分布數(shù)據(jù),并且產(chǎn)生包括關(guān)于在真實空間中存在的用戶的位置信息的 分析信息,其中事件檢測步驟包括從自圖像信息輸入單元輸入的圖像幀檢 測面部區(qū)域,從檢測到的面部區(qū)域提取面部屬性信息,計算對應(yīng)于所提取的 面部屬性信息的面部屬性分?jǐn)?shù),并且向信息綜合處理單元輸出所述面部屬性 分?jǐn)?shù);以及其中信息綜合處理步驟包括應(yīng)用從事件檢測單元輸入的面部屬 性分?jǐn)?shù),計算與相應(yīng)的目標(biāo)對應(yīng)的面部屬性期望值。
應(yīng)當(dāng)注意,根據(jù)本發(fā)明的實施例的計算機(jī)程序是可以被提供到通用計算 機(jī)系統(tǒng)的計算;^4呈序,通用計算機(jī)系統(tǒng)能夠例如通過以計算機(jī)可讀格式的存 儲介質(zhì)或者通信介質(zhì)執(zhí)行各種程序代碼。通過提供以計算機(jī)可讀格式的這樣 的程序,在計算機(jī)系統(tǒng)上實現(xiàn)按照程序的處理。
通it^發(fā)明的以下詳細(xì)說明和本發(fā)明的示例實施例和附圖,本發(fā)明的其 他特征和優(yōu)點(diǎn)將變得清楚。應(yīng)當(dāng)注意,在本說明書中所述的系統(tǒng)是多個設(shè)備的邏輯集合結(jié)構(gòu),并且不限于在同 一外殼中容納相應(yīng)配置的設(shè)備的示例。
根據(jù)本發(fā)明的實施例,根據(jù)從照像機(jī)和麥克風(fēng)獲取的圖像信息和音頻信 息來輸入包括關(guān)于用戶的所估計的位置信息和所估計的識別信息的事件信 息,從自圖像信息輸入單元輸入的圖像幀來檢測面部區(qū)域,并且從所檢測的 面部區(qū)域提取面部屬性信息,并且應(yīng)用與所提取的面部屬性信息對應(yīng)的面部 屬性分?jǐn)?shù)計算與各個目標(biāo)對應(yīng)的面部屬性期望值。即使當(dāng)不確定的和異步的 位置信息被設(shè)定為輸入信息,也能夠有效地允許保持可信的信息,并且可以 具有可信度地有效產(chǎn)生用戶位置信息和用戶識別信息。另外,實現(xiàn)了用于識 別#^者等的高精度處理。


圖1是用于描述由根據(jù)本發(fā)明的實施例的信息處理i殳^U亍的處理的概
觀的說明圖2是用于描述根據(jù)本發(fā)明的實施例的信息處理設(shè)備的配置和處理的說 明圖3A和3B是用于描述要輸入到音頻/圖像綜合處理單元的、由音頻事
件檢測單元產(chǎn)生的信息的示例和由圖像事件檢測單元產(chǎn)生的信息的示例的
說明圖4A到4C是用于描述應(yīng)用粒子濾波器的基本處理示例的說明圖5是用于描述按照本處理示例設(shè)定的粒子的配置的說明圖6是用于描^相應(yīng)的粒子中包括的每個目標(biāo)的目標(biāo)數(shù)據(jù)的配置的說 明圖7是用于描述目標(biāo)信息的配置和產(chǎn)生處理的說明圖8是用于描述目標(biāo)信息的配置和產(chǎn)生處理的說明圖9是用于描述目標(biāo)信息的配置和產(chǎn)生處理的說明圖10是用于描述由音頻/圖像綜合處理單元執(zhí)行的處理序列的流程圖11是用于描述粒子加權(quán)計算處理的細(xì)節(jié)的說明圖12是用于描述應(yīng)用面部屬性信息的講話者識別處理的說明圖;以及
圖13是用于描述應(yīng)用面部屬性信息的i絲者識別處理的說明圖。
具體實施例方式
以下,將參考

根據(jù)本發(fā)明的實施例的信息處理設(shè)備和信息處理
方法以及計算;^4呈序的細(xì)節(jié)。
首先,參考圖1,將說明根據(jù)本發(fā)明的實施例的信息處理設(shè)備執(zhí)行的處 理的概規(guī)。根據(jù)本發(fā)明的實施例的信息處理設(shè)備100從例如攝^J機(jī)21和多 個麥克風(fēng)31到34的配置為在真實空間中輸入觀測信息的傳感器輸入圖像信 息和音頻信息,并且根據(jù)這些輸入信息來執(zhí)行環(huán)境分析。具體地,執(zhí)行對附 圖標(biāo)記11到14表示的多個用戶1到4的位置的分析和位于所述位置的用戶 的識別。
在附圖所示的示例中,例如,當(dāng)由附圖標(biāo)記ll到14表示的用戶l到4 分別是一家人的父親、母親、姐妹和兄弟時,信息處理設(shè)備100對從攝^^ 21和多個麥克風(fēng)31到34輸入的圖像信息和音頻信息執(zhí)行分析,以識別四個 用戶l到4的位置和在相應(yīng)的位置的哪些用戶是父親、母親、姐妹和兄弟。 識別處理的結(jié)果用于各種處理。例如,使^i^l^推近鏡頭到講話的用戶、向 i絲的用戶發(fā)出適當(dāng)?shù)捻憫?yīng)等。
應(yīng)當(dāng)注意,由根據(jù)本發(fā)明的實施例的信息處理設(shè)備100執(zhí)行的主要處理 包括基于來自多個信息輸入單元(攝# 21和麥克風(fēng)31 - 34 )的輸A/ff息 的用戶位置識別處理和用戶識別處理,作為用戶指定處理。這個識別結(jié)果利 用處理的目的不被特別限制。從攝{|^ 21和多個麥克風(fēng)31 — 34輸入的圖像 信息和音頻信息包括各種不確定的信息。在根據(jù)本發(fā)明的實施例的信息處理 設(shè)備100中,對于在這些輸入信息中包括的不確定信息執(zhí)行概率處理,并且 執(zhí)行綜合被估計為具有高精度的信息的處理。通過估計處理,魯棒性得到改 善,并且執(zhí)行具有高精度的分析。
圖2示出了信息處理設(shè)備100的配置示例。信息處理設(shè)備100包括作為 輸入裝置的圖像輸入單元(攝像機(jī))111和多個音頻輸入單元(麥克風(fēng))121a -121d。從圖像輸入單元(攝像機(jī))111輸入圖像信息,并_§^音頻輸入單 元(麥克風(fēng))121輸入音頻信息,以便根據(jù)這些輸入信息來執(zhí)行分析。多個 音頻輸入單元(麥克風(fēng))121a到121d分別布置在圖1中示出的各個位置上。
經(jīng)由音頻事件檢測單元122向音頻/圖像綜合處理單元131輸入從多個麥 克風(fēng)121a - 121d輸入的音頻信息。音頻事件檢測單元122分析和綜合從布 置在多個不同位置的多個音頻輸入單元(麥克風(fēng))121a - 121d輸入的音頻信
13息。具體地,根據(jù)從音頻輸入單元(麥克風(fēng))121a - 121d輸入的音頻信息產(chǎn)
生并向音頻/圖〗象綜合處理單元131 ^r入用于指示產(chǎn)生音頻的位置和哪個用
戶已經(jīng)產(chǎn)生了音頻的識別信息。
應(yīng)當(dāng)注意,由信息處理設(shè)備100執(zhí)行的具體處理是例如在如圖l中所 示的存在多個用戶的環(huán)境中執(zhí)行關(guān)于用戶A - D位于何處以及哪個用戶i絲 的識別的處理,即關(guān)于用戶位置識別和用戶識別的識別的處理,以及,用于 識別諸如發(fā)出語音的人(講話者)的事件產(chǎn)生源的處理。
音頻事件檢測單元122配置來分析從位于多個不同位置的多個音頻輸入 單元(麥克風(fēng))121a - 121d輸入的音頻信息,并且產(chǎn)生關(guān)于音頻產(chǎn)生源的位 置信息來作為概率分布數(shù)據(jù)。具體地,產(chǎn)生在音頻源方向上的期望值和方差 數(shù)據(jù)N(me,CTe)。另夕卜,根據(jù)與關(guān)于先前注冊的用戶語音的特征信息的比較處 理,產(chǎn)生用戶識別信息。這個識別信息也產(chǎn)生為概率分布數(shù)估計值。在音頻 事件檢測單元122中,預(yù)先注冊關(guān)于要驗證的用戶的語音的多個特征信息。 通過執(zhí)行輸入的音頻和注冊的音頻之間的比較處理的,執(zhí)行下述處理確定 是否從哪個用戶發(fā)出聲音的概率高,以計算所有的注冊用戶的后驗概率或者 分?jǐn)?shù)。
以這種方式,根據(jù)由概率分布數(shù)據(jù)構(gòu)成的[綜合音頻事件信息
和由要輸 入到音頻/圖像綜合處理單元131的概率估計值構(gòu)成的識別信息,音頻事件檢 測單元122分析從在多個不同的位置的多個音頻輸入單元(麥克風(fēng))121a-121d輸入的音頻信息,以產(chǎn)生音頻產(chǎn)生源的位置信息。
另一方面,經(jīng)由圖像事件檢測單元112向音頻/圖像綜合處理單元131 輸入從圖傳瑜入單元(攝4|^) 111輸入的圖像信息。圖像事件檢測單元112 配置來分析從圖^^T入單元(攝#^) 111輸入的圖像信息,以提林圖像 中包括的人的面部,并且產(chǎn)生面部位置信息作為概率分布數(shù)據(jù)。具體地,產(chǎn) 生涉及面部的位置和方向的期望值和方差數(shù)據(jù)N(me, CTe)。
另外,圖像事件檢測單元112根據(jù)與先前注冊的關(guān)于用戶面部的特征信 息的比較處理而識別面部,并且產(chǎn)生用戶識別信息。這個識別信息也產(chǎn)生為 概率估計值。在圖像事件檢測單元112中,預(yù)先注冊關(guān)于要驗證的多個用戶 的面部的多個特征信息。通過在關(guān)于在從輸入圖傳炎取的面部區(qū)域的圖像的 特征信息和預(yù)先注冊的面部圖像特征信息之間的比較處理,執(zhí)行下述處理 確定面部是哪個用戶的概率高以計算所有的注冊用戶的后驗概率或者分?jǐn)?shù)。
另外,圖像事件檢測單元112計算與從圖像輸入單元(攝像機(jī))111輸入的圖像中包括的面部對應(yīng)的屬性分?jǐn)?shù),例如根據(jù)嘴部區(qū)域的活動而產(chǎn)生的 面部屬性分?jǐn)?shù)。
面部屬性分?jǐn)?shù)可以設(shè)定為例如以下各種面部屬性分?jǐn)?shù)。
(a) 與包括在圖像中的面部的嘴部區(qū)域的活動對應(yīng)的分?jǐn)?shù)
(b) 與包括在圖像中的面部是否是笑臉對應(yīng)的分?jǐn)?shù)
(c) 按照包括在圖像中的面部是男人或者女人而設(shè)定的分?jǐn)?shù)
(d) 按照包括在圖像中的面部是否是成年人或者兒童而設(shè)定的分?jǐn)?shù)
在如下所述的實施例中,提供了一個示例,其中,計算面部屬性分?jǐn)?shù)并 用作(a)與包括在圖像中的面部的嘴部區(qū)域的活動對應(yīng)的分?jǐn)?shù)。即,計算 與包括在圖像中的面部的嘴部區(qū)域的活動對應(yīng)的分?jǐn)?shù)作為面部屬性分?jǐn)?shù),根 據(jù)面部屬性分?jǐn)?shù)來識別講話者。
圖像事件檢測單元112從圖,入單元(攝#) 111輸入的圖像中包 括的面部區(qū)域識別嘴部區(qū)域。然后,執(zhí)行嘴部區(qū)域的活動檢測,并且計算與 嘴部區(qū)域的活動檢測結(jié)果對應(yīng)的分?jǐn)?shù)。例如,在確定存在嘴部活動的情況下, 計算出較高的分?jǐn)?shù)。
應(yīng)當(dāng)注意,將檢測嘴部區(qū)域的活動的處理執(zhí)行為例如應(yīng)用視覺語音檢測 的處理。能夠應(yīng)用與本發(fā)明的申請M目同的日本未審查專利申請公布第2005 -157679號中公開的方法。具體地,例如,從圖像輸入單元(攝像機(jī))111 的輸入圖像檢測的面部圖像檢測嘴唇的左右端點(diǎn)。在第N幀和第N+l幀中, 嘴唇的左右端點(diǎn)對齊,然后,計算在亮度上的差別。通過對于這個差值執(zhí)行 閾值處理,能夠檢測嘴部活動。
應(yīng)當(dāng)注意,對音頻事件檢測單元122和圖像事件檢測單元112中執(zhí)行的 音頻識別處理、面部檢測處理和面部識別處理應(yīng)用現(xiàn)有技術(shù)。例如,能夠?qū)?在下面的文件中公開的技術(shù)應(yīng)用為面部檢測處理和面部識別處理。
Kohtaro Sabe and Ken'ichi Idai, "Real — time multi — view face detection using pixel difference feature", Proceedings of the 10th Symposium on Sensing via Imaging Information, pp. 547—552, 2004
曰本未審查專利申請第2004-302644號[發(fā)明名稱face identification apparatus, face identification method, recording medium, and robot apparatus]
音頻/圖像綜合處理單元131執(zhí)行處理,在該處理中根據(jù)從音頻事件檢測單元122和圖像事件檢測單元112輸入的信息,概率地估計多個用戶的每個 位于何處、用戶是誰和由誰發(fā)出諸如語音的信號。下面更詳細(xì)地說明這個處 理。根據(jù)從音頻事件檢測單元122和圖像事件檢測單元112輸入的信息,音 頻/圖像綜合處理單元131向處理確定單元132輸出(a)[目標(biāo)信息,作為 多個用戶的每個位于何處和用戶是誰的估計信息;以及(b)作為[信號信 息的事件產(chǎn)生源,例如禍i的用戶。
接收這些識別處理結(jié)果的處理確定單元132執(zhí)行其中使用識別處理結(jié)果 的處理,例如向許活的用戶推鏡頭、從電視機(jī)向i來活的用戶的響應(yīng)等。
如上所述,音頻事件檢測單元122產(chǎn)生關(guān)于音頻產(chǎn)生源的位置信息的概 率分布數(shù)據(jù),具體地為在音頻源方向上的期望值和方差lt據(jù)N (me,CTe)。另 外,根據(jù)與關(guān)于先前注冊的用戶語音的特征信息的比較處理,產(chǎn)生用戶識別 信息,并且輸入到音頻/圖像綜合處理單元131。
另外,圖像事件檢測單元112提取和產(chǎn)生包括在作為面部位置信息的圖 像中的人的面部來作為概率分?jǐn)?shù)數(shù)據(jù)。具體地,產(chǎn)生涉及面部的位置和方向 的期望值和方差數(shù)據(jù)N (me, ae)。另外,才艮據(jù)與關(guān)于先前注冊的用戶語音的 特征信息的比較處理,產(chǎn)生用戶識別信息,并且輸入到音頻/圖像綜合處理單 元131。此外,計算面部屬性分?jǐn)?shù)作為從圖^^T入單元(攝IWi) 111輸入 的圖像中的面部屬性信息。分?jǐn)?shù)例如是執(zhí)行嘴部區(qū)域的活動檢測后與嘴部區(qū) 域的活動檢測結(jié)果對應(yīng)的分?jǐn)?shù)。具體地,面部屬性分?jǐn)?shù)的計算方式是在確定 嘴部活動大的情況下計算出較高分?jǐn)?shù),并且面部屬性分?jǐn)?shù)輸入到音頻/圖像綜 合處理單元131。
參考圖3A和3B,將說明由音頻事件檢測單元122和圖像事件檢測單元 112產(chǎn)生并且向音頻/圖像綜合處理單元131輸入的信息的示例。
在根據(jù)本發(fā)明的所述實施例的配置中,圖像事件檢測單元112產(chǎn)生下面 的數(shù)據(jù),并且向音頻/圖像綜合處理單元131輸入這些數(shù)據(jù)。
(Va)涉及面部的位置和方向的期望值和方差數(shù)據(jù)N (me,CTe)
(Vb)基于面部圖像的特征信息的用戶識別信息
(Vc)與所檢測的面部的屬性對應(yīng)的分?jǐn)?shù),諸如才艮據(jù)嘴部區(qū)域的活動而 產(chǎn)生的面部屬性分?jǐn)?shù)
然后,音頻事件檢測單元122向音頻/圖像綜合處理單元131輸入下面的 數(shù)據(jù)。(Aa)在音頻源方向上的期望值和方差數(shù)據(jù)N (me, cre) (Ab )基于語音的特征信息的用戶識別信息
圖3A示出了一種實際環(huán)境示例,其中,提供了與參考圖l所述的那些 類似的攝<^和麥克風(fēng),并且存在由附圖標(biāo)記201 -20k表示的多個用戶1 到k。在這個實施例中,當(dāng)特定用戶^Ht時,通過麥克風(fēng)來輸入音頻。另夕卜, 攝#^連續(xù)地拍攝圖像。
由音頻事件檢測單元122和圖像事件檢測單元112產(chǎn)生并且被輸入到音 頻/圖像綜合處理單元131的信息被大致劃分為下面三種類型
(a) 用戶位置信息
(b) 用戶識別信息(面部識別信息或者講話者識別信息)
(c) 面部屬性信息(面部屬性分?jǐn)?shù))
其中,U)用戶位置信息是下面的數(shù)據(jù)的綜合數(shù)據(jù)
(Va)由圖像事件檢測單元112產(chǎn)生的、涉及面部的位置和方向的期望 值和方差數(shù)據(jù)N (me, (je)
(Aa)由音頻事件檢測單元122產(chǎn)生的、在音頻源方向上的期望值和方 差數(shù)據(jù)N(me,(Te)
另夕卜,(b)用戶識別信息(面部識別信息或者講話者識別信息)是下面 的數(shù)據(jù)的綜合數(shù)據(jù)。
(Vb )由圖像事件檢測單元112產(chǎn)生的基于面部圖像的特征信息的用戶 識別信息
(Ab )由音頻事件檢測單元122產(chǎn)生的基于語音的特征信息的用戶識別
信息
(c)面部屬性信息(面部屬性分?jǐn)?shù))是下面的數(shù)據(jù)的綜合數(shù)據(jù)。
(Vc)由圖像事件檢測單元112產(chǎn)生的與所檢測的面部的屬性對應(yīng)的分 數(shù),諸如根據(jù)嘴部區(qū)域的活動而產(chǎn)生的面部屬性分?jǐn)?shù)
每次當(dāng)引起事件時產(chǎn)生下面三^HT息
(a)用戶位置信息
(b )用戶識別信息(面部識別信息或者講話者識別信息) (c)面部屬性信息(面部屬性分?jǐn)?shù))
17在從音頻輸入單元(麥克風(fēng))121a-121d輸入音頻信息的情況下,音 頻事件檢測單元122才艮據(jù)音頻信息產(chǎn)生如上所述的(a)用戶位置信息和(b ) 用戶識別信息,并且向音頻/圖像綜合處理單元131輸入(a)用戶位置信息 和(b)用戶識別信息。圖像事件檢測單元112例如以預(yù)先確定的恒定幀間 隔根據(jù)從圖像輸入單元(攝H^) lll輸入的圖像信息產(chǎn)生U)用戶位置信 息、(b)用戶識別信息和(c)面部屬性信息(面部屬性分?jǐn)?shù)),并且向音頻 /圖像綜合處理單元131輸入(a)用戶位置信息、(b)用戶識別信息和(c) 面部屬性信息(面部屬性分?jǐn)?shù))。應(yīng)當(dāng)注意,按照本示例,已經(jīng)說明了一種 設(shè)定,其中一個攝H4^被設(shè)定為圖像輸入單元(攝像機(jī))111,并且通過該 攝^N^捕獲多個用戶的圖像。在這種情況下,對于在一個圖像中包括的多個 面部的每個產(chǎn)生用戶識別信息,并且將其輸入到音頻/圖像綜合處理單元
131。
下面說明由音頻事件檢測單元122執(zhí)行的、根據(jù)從音頻輸入單元(麥克 風(fēng))121a - 121d輸入的音頻信息產(chǎn)生以下信息的處理。
(a) 用戶位置信息
(b) 用戶識別信息(面部識別信息或者講話者識別信息)的位置的估計信 息。即,以由期望值(平均值)[me]和方差信息[CTe]構(gòu)成的高斯分布(正態(tài) 分布)數(shù)據(jù)N (me,ae)產(chǎn)生估計講話者所處的位置。的對應(yīng)目標(biāo)=[目標(biāo)ID
事件ID = 2 ( eID = 2 )的對應(yīng)目標(biāo)- [目標(biāo)ID
(2)粒子2 (pad = 2)具有下面的設(shè)定。的對應(yīng)目標(biāo)-[目標(biāo)ID
(m)粒子m (pad-m)具有下面的設(shè)定。
=1 (tID = 1)]
=2 (tID = 2 )
=1 (tID = l)
=2 (tID = 2 ) 1信息361僅僅選擇性地更新目標(biāo)ID = 1 (tID = 1)的數(shù)據(jù)。
類似地,同樣在粒子2 (pID = 2 )中,圖5所示的與[事件ID = 1 ( eID =1) I事件對應(yīng)的信息361僅僅選擇性地更新目標(biāo)ID = 1 (tID = 1)的數(shù)據(jù)。 同樣,在粒子m (pID = m)中,在圖5中所示的與[事件10 = 1 (eID-l)
事件對應(yīng)的信息361僅僅選擇性地更新[目標(biāo)ID = 2 (tID = 2 )]的數(shù)據(jù)。
在圖5中所示的事件產(chǎn)生源假設(shè)數(shù)據(jù)371和372是在相應(yīng)的粒子中設(shè)定 的事件產(chǎn)生源假設(shè)數(shù)據(jù)。在相應(yīng)的粒子中設(shè)定這些事件產(chǎn)生源假設(shè)數(shù)據(jù),并 且按照這個信息確定與事件ID對應(yīng)的更新目標(biāo)。
將參考圖6來說明在相應(yīng)的粒子中包括的目標(biāo)數(shù)據(jù)。圖6示出了在圖5 中示出的粒子1中包括的目標(biāo)之一 (目標(biāo)ID: tID = n) 375上的目標(biāo)數(shù)據(jù)的 配置。目標(biāo)375的目標(biāo)數(shù)據(jù)由在圖6中所示的以下數(shù)據(jù)構(gòu)成。
(a) 與相應(yīng)的目標(biāo)對應(yīng)的存在位置的概率分布 [高斯分布N (mln, cyln)
(b) 用戶置信度因子信息(uID),用于指示相應(yīng)的目標(biāo)是誰 aiding = 0.0 '
uIDln2 = 0.1
uIDlnk = 0.5
應(yīng)當(dāng)注意,在(a)中示出的高斯分布N(mm,CTm)中mm, CTm的(ln) 表示作為與在粒子ID: pID-l中的目標(biāo)ID: tID = n對應(yīng)高斯分布作為存 在概率分布。
另外,在(b)中示出的用戶置信度因子信息(uID)中的[uID,m中包 括的(lnl)表示用戶-在粒子ID: pID-l中的目標(biāo)ID: tID-n的用戶l 的概率。即,目標(biāo)ID-n的數(shù)據(jù)表示如下。
用戶是用戶1的概率是O.O
用戶是用戶2的概率是0.1
用戶是用戶k的概率是0.5
再次參考圖5,將繼續(xù)說明由音頻/圖像綜合處理單元131設(shè)定的粒子。 如圖5中示出,音頻/圖像綜合處理單元131設(shè)定先前確定數(shù)量的(=m)的
24粒子(PID = 1到m )。估計為在真實空間中存在的相應(yīng)目標(biāo)(tID = 1到n ) 具有下面的目標(biāo)數(shù)據(jù)
(a) 與相應(yīng)目標(biāo)對應(yīng)的存在位置的概率分布[高斯分布N (m, a);以

(b) 用于指示相應(yīng)的目標(biāo)是誰的用戶置信度因子信息(uID)
音頻/圖像綜合處理單元131從音頻事件檢測單元122和圖像事件檢測單 元112輸入在圖3B中角的下面的事件信息(eID = l, 2,...),并且執(zhí)行與 在相應(yīng)的粒子中的先前^L定的事件對應(yīng)的目標(biāo)的更新。
(a)用戶位置信息
(b )用戶識別信息(面部識別信息或者講話者識別信息)
(c) 面部屬性信息(面部屬性分?jǐn)?shù)[Sero)
應(yīng)當(dāng)注意,更新目標(biāo)是在相應(yīng)的目標(biāo)數(shù)據(jù)中包括的下面的數(shù)據(jù)。 (a)用戶位置信息
(b )用戶識別信息(面部識別信息或者講話者識別信息)
然后,最后使用(c)面部屬性信息(面部屬性分?jǐn)?shù)[Sero)作為指示事
件產(chǎn)生源的[信號信息]。當(dāng)輸入特定數(shù)量的事件時,也更新相應(yīng)的粒子的加
權(quán)。具有與真實空間中的信息最接近的信息的粒子的加權(quán)變得更大,并且具 有與真實空間中的信息不匹配的信息的粒子的加權(quán)變得更小。在產(chǎn)生偏差然
后匯聚在粒子的加權(quán)中的階段,計算基于面部屬性信息(面部屬性分?jǐn)?shù))的
信號信息,即用于指示事件產(chǎn)生源的[信號信息。
特定目標(biāo)x (tID = x)是特定事件(eID = y )的產(chǎn)生源的概率表示如下。
PeID=x (tID = y )
例如,如圖5所示,設(shè)定了 m個粒子(pID-l到m),并且在相應(yīng)的 粒子中設(shè)定兩個目標(biāo)(tID-l, 2)的情況下,第一目標(biāo)(tID-l)是第一 事件(eID = 1)的產(chǎn)生源的概率是PeID=1 (tID = 1),并且第二目標(biāo)(tID = 2 ) 是第一事件(eID = l)的產(chǎn)生源的概率是Pen^ (tID = 2)。
另外,笫一目標(biāo)(tID-l)是第二事件(eID = 2)的產(chǎn)生源的概率是 PeID=2 (tID = 1 ),并且第二目標(biāo)(tID = 2 )是第二事件(eID = 2)的產(chǎn)生源 的概率是Prf歸(tID = 2)。
用于指示事件產(chǎn)生源的[信號信息是特定事件(eID = y)的產(chǎn)生源是特定目標(biāo)x (tID=x)的概率,表示如下。 PeID=x (tID = y )
這等同于由音頻/圖像綜合處理單元131設(shè)定的粒子的數(shù)量(m)與分配 到相應(yīng)的事件的目標(biāo)的數(shù)量的比。在圖5所示的示例中,建立了以下對應(yīng)關(guān) 系
Pen^ (tID = 1)=[其中將第一事件(eID = 1)分配為tID = 1/ ( m ) 的粒子的數(shù)量]
Pen^ (tID = 2 )=[其中將第一事件(eID = 1)分配為tID = 2/ ( m) 的粒子的數(shù)量]
PeID=2 (tID = 1)=[其中將第二事件(eID = 2 )分配為tID = 1/ ( m) 的粒子的數(shù)量
PeID=2 (tID = 2 )=[其中將第二事件(eID = 2 )分配為tID = 2/ (m) 的粒子的數(shù)量]。
這個數(shù)據(jù)最后用作指示事件產(chǎn)生源的[信號信息。
此外,計算特定事件(eID = y)的產(chǎn)生源是粒子目標(biāo)x (tID = x)的概 率,表示如下。
PeID=x (tID = y )
這個數(shù)據(jù)也應(yīng)用于對目標(biāo)信息中包括的面部屬性信息的計算。即,該數(shù) 據(jù)也用于計算面部屬性信息Stro^n。面部屬性信息StID-x等同于目標(biāo)ID = x 的目標(biāo)的值的面部屬性期望值,即為講話者的概率值。
音頻/圖像綜合處理單元131從音頻事件檢測單元122和圖像事件檢測單 元112輸入事件信息(eID-l, 2,…),并且執(zhí)行對在相應(yīng)的粒子中預(yù)先設(shè) 定的與事件對應(yīng)的目標(biāo)的更新。然后,音頻/圖像綜合處理單元131產(chǎn)生要輸 出到處理確定單元132的以下數(shù)據(jù)。
(a) [目標(biāo)信息l,包括關(guān)于多個用戶位于何處的位置估計信息、指示用 戶是誰的估計信息(uID估計信息),并且還包括面部屬性信息(StID)的期 望值,例如用于指示嘴部運(yùn)動以講話的面部屬性期望值。
(b) [信號信息],用于指示事件產(chǎn)生源,例如調(diào)"活的用戶。
如在圖7的右端上的目標(biāo)信息380中所示,目標(biāo)信息產(chǎn)生為與相應(yīng)的 粒子(PID=1到m)中包括的相應(yīng)目標(biāo)(tID = 1到n)對應(yīng)的數(shù)據(jù)的加權(quán)總和數(shù)據(jù)。圖7示出了音頻/圖像綜合處理單元131的m個粒子(pID = 1到 m)和從這m個粒子(pad = 1到m)產(chǎn)生的目標(biāo)信息380。下面說明相應(yīng) 的氺立子的加權(quán)。
目標(biāo)信息380指示與由音頻/圖像綜合處理單元131預(yù)先設(shè)定的虛擬用戶 對應(yīng)的目標(biāo)(tID = 1到n )的以下信息。
(a) 當(dāng)前位置
(b) 用戶是誰(uIDl-uIDk的哪個)
(c) 面部屬性期望值(按照當(dāng)前的處理示例,用戶是講話者的期望值 (概率))
如上所述,根據(jù)等同于用于指示事件產(chǎn)生源的[信號信息的概率PeID=x (tID = y)和對應(yīng)于相應(yīng)的事件的面部屬性分?jǐn)?shù)SeID=i,計算相應(yīng)目標(biāo)的(c ) 面部屬性期望值按照當(dāng)前的處理示例,用戶是講話者的期望值(概率))。其 中i表示事件ID。
例如,通過下面的表達(dá)式計算目標(biāo)ID-1的面部屬性期望值StroM。
StID=l = EeH)PelD— ( tID = 1 ) X SeiD=i
一般而言,通過下面的表達(dá)式來計算目標(biāo)的面部屬性期望值StID。
StID = 5:eiDPeID=i (tID ) x SeID " (表達(dá)式1)
例如,如圖5所示,在兩個目標(biāo)位于系統(tǒng)中的情況下,圖8示出了當(dāng)在 一個圖像幀中從圖像事件檢測單元112向音頻/圖像綜合處理單元131輸入兩 個面部圖像事件(eID-1, 2)時的相應(yīng)目標(biāo)(tID-l, 2)的面部屬性期望 值計算示例。
在圖8的右端上的數(shù)據(jù)是等同于在圖7中示出的目標(biāo)信息380的目標(biāo)信 息3卯。目標(biāo)信息390等同于產(chǎn)生為與相應(yīng)的粒子(PID = 1到m)中包括的 相應(yīng)目標(biāo)(tID = 1到n )對應(yīng)的數(shù)據(jù)的加權(quán)總和數(shù)據(jù)的信息。
如上所述,根據(jù)等同于用于指示事件產(chǎn)生源的[信號信息]的概率PeID=x (tID = y)和對應(yīng)于相應(yīng)的事件的面部屬性分?jǐn)?shù)[SrfDM,計算目標(biāo)信息3卯 中的相應(yīng)目標(biāo)的面部屬性。其中i表示事件ID。
目標(biāo)ID-1的面部屬性期望值Stn^表示如下。
StID=l = EeIDPeID=i ( tID = 1 ) X Sen)=i
目標(biāo)ID-2的面部屬性期望值Stroi表示如下。
27StiD=2 = Sen)PeID=i ( tID = 2 ) X Sei。=i
對于所有目標(biāo)的相應(yīng)目標(biāo)的面部屬性期望值Stro的總和變?yōu)閇l。按照 本處理示例,對于相應(yīng)的目標(biāo),"沒定面部屬性期望值1-0: StlD,并且確定 具有大期望值的目標(biāo)是講話者的概率高。
應(yīng)當(dāng)注意,在面部圖像事件eID中不存在面部屬性分?jǐn)?shù)[Sero的情況下 (例如在能夠執(zhí)行面部檢測但是由手蓋著嘴部并且難于執(zhí)行嘴部活動檢測
的情況下),使用先驗值[Spri。r等作為面部屬性分?jǐn)?shù)Sero]。對于先驗值,可
以采用這樣的配置在剛剛為每個相應(yīng)目標(biāo)獲取的值存在的情況下,使用所
述值,或者執(zhí)行了計算先前脫離面部圖像事件獲取的面部屬性的平均值,而 使用平均值。
在一幀圖像中的目標(biāo)的數(shù)量和面部圖像事件的數(shù)量在一些情況下可能 不同。當(dāng)目標(biāo)的數(shù)量大于面部圖像事件的數(shù)量時,與如上所述的用于指示事
件產(chǎn)生源的[信號信息]等同的概率[Pero (tID)]的總和不變?yōu)閇l
。因此,上 ii^目應(yīng)目標(biāo)的面部屬性期望值計算表達(dá)式,即在下面的表達(dá)式中的相應(yīng)目標(biāo) 的期望值的總和也不變?yōu)閇l。
StID = 2:eiDPero=i (tID ) x SeID … (表達(dá)式1)
因此,未計算出具有高精度的期望值。
如圖9所示,在未檢測到與圖像幀350中的前一個處理幀中存在的第三 事件對應(yīng)的第三面部圖像395的情況下,上述表達(dá)式(表達(dá)式l)的相應(yīng)目 標(biāo)的期望值的總和也不變?yōu)閇ll,并且未計算出具有高精度的期望值。在這種 情況下,改變相應(yīng)的目標(biāo)的面部屬性期望值計算表達(dá)式。即,為了將相應(yīng)的 目標(biāo)的面部屬性期望值[Stro]的總和設(shè)定為[1,使用補(bǔ)數(shù)[l -》IDPeID (tID )
和先驗值Sprf。rl來通過下面的表達(dá)式(表達(dá)式2)計算面部事件屬性的期望
值StID。
StID = 2eioPelD ( tID ) X Sen) + ( 1 - 2en)PeID ( tID ) ) X Sprior
(表達(dá)式2 )
圖9示出了面部屬性期望值計算示例,其中,在系統(tǒng)中設(shè)定了對應(yīng)于目 標(biāo)的三個事件,但是僅僅從圖像事件檢測單元112向音頻/圖像綜合處理單元 131輸入了兩個與事件對應(yīng)的對象作為一幀圖像中的面部圖像事件。
目標(biāo)ID = 1的面部屬性期望值Stn^計算如下。
StID=l = 2eIDPeID=i ( tID = 1 ) X SeiD=i + ( 1 - EeiDPeiD ( tID = 1 ) X Sprior目標(biāo)ID
2的面部屬性期望值Stn^2計算如下。
2:eiDPeiD=i "ID = 2 ) x SeID=i + (1 - 2eIDPeID (tID = 2 ) x S'
3的面部屬性期望值Stn^3計算如下。
EeroPeID-i ( tID=3 ) X Se!D=i + ( 1 - Een)PeID ( tID=3 ) X Sprio
應(yīng)當(dāng)注意,相反,當(dāng)目標(biāo)的數(shù)量小于面部圖像事件的數(shù)量時,為了將目 標(biāo)的數(shù)量設(shè)定為與事件的數(shù)量相同,產(chǎn)生目標(biāo)。通過應(yīng)用上W達(dá)式i,計
算相應(yīng)目標(biāo)的面部屬性期望值[SflD = l]。
應(yīng)當(dāng)注意,根據(jù)本處理示例,已經(jīng)將面部屬性描述為基于與嘴部活動對 應(yīng)的分?jǐn)?shù)的面部屬性期望值,即用于指示相應(yīng)的目標(biāo)是講話者的期望值的數(shù) 據(jù)。然而,如上所述,可以將面部屬性分?jǐn)?shù)計算為用于笑臉、年齡等的分?jǐn)?shù)。 在這種情況下,將面部屬性期望值計算為對應(yīng)于與分?jǐn)?shù)對應(yīng)的屬性的數(shù)據(jù)。
目標(biāo)信息與粒子更新一起依序更新。例如,在用戶l到k在真實環(huán)境中
不移動的情況下,用戶1到k的每一個匯聚為對應(yīng)于從n個目標(biāo)(tID = l 到n)選擇的k個目標(biāo)的數(shù)據(jù)。
例如,圖7示出的目標(biāo)信息380的最高一層上的目標(biāo)1 (tID = 1)的數(shù) 據(jù)中包括的用戶置信度因子信息(uID)在用戶2處具有最高概率(uID12 = 0.7)。因此,在目標(biāo)l (tID = l)上的這個數(shù)據(jù)估計為對應(yīng)于用戶2。應(yīng)當(dāng)注 意,在用于指示用戶置信度因子信息(uID )的數(shù)據(jù)[uIDu = 0.7
中的(uID12) 中的(12)指示與目標(biāo)ID = 1的用戶=2的用戶置信度因子信息(uID)對 應(yīng)的概率。
在目標(biāo)信息380的最高一層上的目標(biāo)l (tID-l)的數(shù)據(jù)估計用戶是用 戶2的概率最高,并且用戶2的位置在由目標(biāo)信息380中的最高一層上的目 標(biāo)l (tID = l)的數(shù)據(jù)中包括的存在概率分布數(shù)據(jù)指示的范圍內(nèi)。
以這種方式,目標(biāo)信息380指示關(guān)于初始祐 沒定為虛擬對象(虛擬用戶) 的相應(yīng)目標(biāo)(tID = 1到n )的下述信息。
(a )存在位置
(b )用戶是誰(uIDl到uIDk的哪個)
(c)面部屬性期望值(按照當(dāng)前的處理示例,用戶是講話者的期望值 (概率))
因此,相應(yīng)目標(biāo)(tID = 1到n )的k條目標(biāo)信息的每一個被匯聚,以便在用戶不移動的情況下對應(yīng)于用戶1到k。
如上所述,音頻/圖像綜合處理單元131根據(jù)輸入信息來執(zhí)行粒子更新處 理,并且產(chǎn)生要輸出到處理確定單元132的下述信息。
(a) [目標(biāo)信息,其作為多個用戶的每個位于何處和用戶是誰的估計信

(b) [信號信息,用于指示諸如調(diào)"活的用戶的事件產(chǎn)生源。
以這種方式,音頻/圖像綜合處理單元131執(zhí)行其中應(yīng)用與虛擬用戶對應(yīng) 的多個目標(biāo)數(shù)據(jù)的粒子濾波處理,并且產(chǎn)生分析信息,分析信息包括關(guān)于在 真實空間上存在的用戶的位置信息。即,在粒子中設(shè)定的目標(biāo)數(shù)據(jù)的每個與 從事件檢測單元輸入的相應(yīng)事件相關(guān)聯(lián)。接著,按照輸入事件標(biāo)識符,執(zhí)行 與^目應(yīng)的粒子選擇的目標(biāo)數(shù)據(jù)對應(yīng)的事件的更新。
另外,音頻/圖像綜合處理單元131計算在相應(yīng)粒子中設(shè)定的事件產(chǎn)生源 假設(shè)目標(biāo)和從事件檢測單元輸入的事件信息之間的似然性,并且將按照相應(yīng) 粒子中的似然性的大小的值設(shè)定為粒子加權(quán)。接著,音頻/圖像綜合處理單元 131執(zhí)行重新優(yōu)先選擇具有大粒子加權(quán)的粒子的重采樣處理,并且執(zhí)行粒子 更新處理。下面說明這個處理。此外,對于在相應(yīng)粒子中設(shè)定的目標(biāo),執(zhí)行 同時考慮流逝的時間的更新處理。另外,按照在相應(yīng)粒子中設(shè)定的事件產(chǎn)生 源假設(shè)目標(biāo)的數(shù)量,產(chǎn)生信號信息^L作為事件產(chǎn)生源的概率值。
將參考在圖10中所示的流程圖描述這樣的處理序列。即,音頻/圖像綜 合處理單元131從音頻事件檢測單元122和圖像事件檢測單元112輸入在圖 3B中示出的以下事件信息,即用戶位置信息和用戶識別信息(面部識別信 息或者許活者識別信息)。
(a) [目標(biāo)信息,其作為對多個用戶的每個位于何處和用戶是誰的估計
信息
(b) [信號信息,用于指示諸如講話的用戶的事件產(chǎn)生源
首先。在步驟S101中,音頻/圖像綜合處理單元131從音頻事件檢測單 元122和圖像事件檢測單元112輸入下面的事件信息。
(a) 用戶位置信息
(b) 用戶識別信息(面部識別信息或者講話者識別信息)
(c) 面部屬性信息(面部屬性分?jǐn)?shù))在對事件信息的獲取成功的情況下,流程進(jìn)行到步驟S102。在對事件 信息的獲取失敗的情況下,流程前進(jìn)到步驟S121。下面說明在步驟S121中 的處理。
在事件信息的獲取成功的情況下,音頻/圖〗象綜合處理單元131在步驟 S102和隨后的步驟根據(jù)輸入信息來執(zhí)行粒子更新處理。在粒子更新處理之 前,首先,在步驟S102,確定對于相應(yīng)的粒子是否要求新的目標(biāo)設(shè)定。在根 據(jù)本發(fā)明的實施例的配置中,如上參考圖5所述,在由音頻/圖像綜合處理單 元131設(shè)定的相應(yīng)粒子1到m中包括的目標(biāo)1到n的每一個預(yù)先與相應(yīng)的 輸入事件信息(eID = 1到k)相關(guān)聯(lián)。根據(jù)該關(guān)聯(lián),更新配置為對與輸入的 事件關(guān)聯(lián)的所選目標(biāo)執(zhí)行。
因此,例如在從圖像事件檢測單元112輸入的事件的數(shù)量比目標(biāo)的數(shù)量 大的情況下,要求新的目標(biāo)設(shè)定。具體地,例如,所述情況對應(yīng)于迄今尚未 存在的面部出現(xiàn)在圖5中示出的圖像幀350中等的情況。在這樣的情況下, 流程進(jìn)行到步驟S103,并且在相應(yīng)的粒子中設(shè)定新的目標(biāo)。這個目標(biāo)被設(shè)定 為在對應(yīng)于這個新的事件的同時被更新的目標(biāo).
接著,在步驟S104中,對由音頻/圖像綜合處理單元131設(shè)定的相應(yīng)粒 子1到m的m個粒子(pad = 1到m)設(shè)定對事件產(chǎn)生源的假設(shè)。例如在音 頻事件的情況下,事件產(chǎn)生源是講話的用戶。在音頻事件的情況下,事件產(chǎn) 生源是具有揭^取的面部的用戶。
如上參考圖5等所述,根據(jù)本發(fā)明的實施例的假設(shè)設(shè)定處理對相應(yīng)的輸 入事件信息(eID = 1到k)進(jìn)行沒定,以便與在粒子1到m中包括的目標(biāo)1 到n的每一個相關(guān)聯(lián)。
即,如上參考圖5等所述,預(yù)先設(shè)定在粒子1到m中包括的相應(yīng)目標(biāo)1 到n與事件(eID - 1到k )相關(guān)聯(lián),并且預(yù)先設(shè)定對相應(yīng)粒子中的哪個目標(biāo) 更新。以這種方式,產(chǎn)生與所獲取的事件數(shù)量相同的事件產(chǎn)生源假設(shè),以避 免在相應(yīng)粒子中的重疊。應(yīng)當(dāng)注意,在初始階段,例如,可以采用下述i殳定 均勻地分布相應(yīng)的事件。粒子的數(shù)量設(shè)定m大于目標(biāo)n的數(shù)量,因此, 多個粒子被設(shè)定為具有相同事件ID和目標(biāo)ID的這樣的關(guān)聯(lián)的粒子。例如, 在目標(biāo)的數(shù)量n是10的情況下,執(zhí)4ti殳定粒子的數(shù)量m =約100到1000 等的處理。
在步驟S104中的假設(shè)設(shè)定后,流程進(jìn)行到步驟S105。在步驟S105中, 計算對應(yīng)于相應(yīng)粒子的加權(quán),即粒子加權(quán)[Wpm。對于相應(yīng)粒子將粒子加權(quán)
31[Wpro在初始階段設(shè)定為均等、但是按照事件輸入而更新的值。
參見圖11和12,將"i兌明粒子加權(quán)[Wprol的計算處理的細(xì)節(jié)。粒子加權(quán) [Wpro等同于對產(chǎn)生事件產(chǎn)生源的假設(shè)目標(biāo)的相應(yīng)粒子的假設(shè)的正確指數(shù)。 粒子加權(quán)[Wpro]計算為事件和目標(biāo)之間的似然性,在相應(yīng)的m個粒子(pad =1到m)中設(shè)定的多個目標(biāo)的每個的事件產(chǎn)生源的輸入事件的類似性。
圖11示出了對應(yīng)于由音頻/圖像綜合處理單元131從音頻事件檢測單元 122和圖像事件檢測單元112輸入的一個事件(eID = 1)的事件信息401和 由音頻/圖像綜合處理單元131保存的一個粒子421。粒子421的目標(biāo)(tID =2)是與事件(eID = l)相關(guān)聯(lián)的目標(biāo)。
在圖11的下層中,示出了事件和目標(biāo)之間的似然性的計算處理示例。 粒子加權(quán)[Wpro計算為與似然性的總和對應(yīng)的值,似然性是作為事件-目標(biāo) 的類似指數(shù)的、在相應(yīng)粒子中計算的在事件和目標(biāo)之間的似然性。
圖11的下層中示出的似然性計算處理示出了單獨(dú)地計算下面的數(shù)據(jù)的 示例。
(a )作為事件和目標(biāo)數(shù)據(jù)之間涉及用戶位置信息的類似度數(shù)據(jù)的高斯 分布之間的似然性[DL
(b)作為事件和目標(biāo)數(shù)據(jù)之間涉及用戶識別信息(面部識別信息或者 講話者識別信息)的類似度數(shù)據(jù)的用戶置信度因子信息(uID)之間的似然 性[DL]
(a) 按照下述執(zhí)行對作為事件和目標(biāo)數(shù)據(jù)之間涉及用戶位置信息的類 似度數(shù)據(jù)的高斯分布之間的似然性[DL的計算處理。
設(shè)定與輸入的事件信息中的用戶位置信息對應(yīng)的高斯分布為 N (me, ae)。
設(shè)定與選擇自粒子的假設(shè)目標(biāo)中的用戶位置信息對應(yīng)的高斯分布為N (mt, (jt)。
通過下式計算高斯分布之間的似然性[DL。
DL = N (mt, <jt + CTe) x |me 上述的表達(dá)式是計算高斯分布中的位置x-me的值的表達(dá)式,其中,中
心是mt,并且方差是(Tt + CJe。
(b) 按照下述執(zhí)行對作為事件和目標(biāo)數(shù)據(jù)之間涉及用戶識別信息(面部識別信息或者講話者識別信息)的類似度數(shù)據(jù)的用戶置信度因子信息
(uID)之間的似然性[DL]的計算處理。
關(guān)于在輸入事件信息中的用戶置信度因子信息(uID)的相應(yīng)用戶l到 k的置信因子的值(分?jǐn)?shù))設(shè)定為Pe[i。應(yīng)當(dāng)注意,其中i是對應(yīng)于用戶標(biāo) 識符l到k的變量。
雖然關(guān)于從粒子選擇的假設(shè)目標(biāo)的用戶置信度因子信息(uID)的相應(yīng) 用戶1到k的置信因子的值(分?jǐn)?shù))設(shè)定為Pt[i,但是通過下式計算用戶置 信度因子信息(uID)之間的似然性[UL]。
UL = 5:Pe[i] xPt[i
上述的表達(dá)式是用于獲取與在兩個數(shù)據(jù)的置信度因子信息(uID)中包 括的相應(yīng)對應(yīng)用戶所對應(yīng)的置信因子的值(分?jǐn)?shù))的乘積的和的表達(dá)式,該 值設(shè)定為用戶置信度因子信息(uID)之間的似然性[UL。
通過使用加權(quán)a (a-0到1)的下式,使用上述兩個似然性、即高斯分 布之間的似然性[DL和用戶置信度因子之間的似然性[UL,計算粒子加權(quán) [WpID]。
粒子加權(quán)[Wpro=5UJL" x DL1 -a
式中,n代表與包括在粒子中目標(biāo)對應(yīng)的事件的數(shù)量。
通過上述的表達(dá)式,計算粒子加權(quán)[Wpro]。
應(yīng)當(dāng)注意,a-0到1。
對相應(yīng)的粒子單獨(dú)地計算粒子加權(quán)[Wpro]。
應(yīng)當(dāng)注意,用于計算粒子加權(quán)[Wpro的加權(quán)[a]可以是預(yù)先固定的值,或 者可以采用下面的設(shè)定所述值按照輸入事件變化。例如,當(dāng)輸入事件是圖 像時,在面部檢測成功并且獲取位置信息但是面部識別失敗等的情況下,可 以采用下述配置對于a-0的設(shè)定,因為用戶置信度因子信息之間的似然 性(uID): UL = 1 ,僅僅根據(jù)高斯分布之間的似然性[DLI計算粒子加權(quán)[Wp,D。 另外,當(dāng)輸入事件是音頻時,在講話者識別成功并且獲取講話者信息但是位 置信息的獲取失敗等的情況下,可以采用下述配置對于a-0的設(shè)定,因 為高斯分布之間的似然性[DLI = 1 ,僅僅根據(jù)用戶置信度因子信息(uID)之 間的似然性[ULl計算粒子加權(quán)[Wpro。
圖IO所示的的流程的步驟S105中對粒子的加權(quán)Wp!D的計算是以與參 考圖ll描述的處理相同的方式執(zhí)行的。接著,在步驟S106中,執(zhí)行基于在
33步驟S105中設(shè)定的相應(yīng)粒子的粒子加權(quán)[Wpro]的粒子重釆樣處理。
這個粒子重采樣處理被執(zhí)行為按照粒子加權(quán)Wpro從m個粒子分選出 粒子的處理。具體地,例如,當(dāng)粒子的數(shù)量m = 5時,在分別設(shè)定下面的 粒子加權(quán)的情況下,以40。/。的概率重釆樣粒子1,并且以10%的概率重采樣 粒子2。
粒子l:粒子加權(quán)[Wpro] = 0.40
粒子2:粒子加權(quán)[Wpro] = 0.10
粒子3:粒子加權(quán)WpH)] = 0.25
粒子4:粒子加權(quán)[Wpro
=0.05
粒子5:粒子加權(quán)[Wpro=0.20
應(yīng)當(dāng)注意,實際上,設(shè)定大量的m = 100到1000,并且重采樣后的結(jié)果 由具有按照粒子加權(quán)的分布率的粒子構(gòu)成。
通過這個處理,更多具有大粒子加權(quán)Wpro的粒子剩下。應(yīng)當(dāng)注意,即 使在重采樣后,粒子[m的總數(shù)也不改變。另外,在重采樣后,重新設(shè)定相 應(yīng)粒子加權(quán)Wpro],并且按照新事件的輸入從步驟S101重復(fù)執(zhí)行處理。
在步驟S107,執(zhí)行對于在相應(yīng)粒子中包括的目標(biāo)數(shù)據(jù)(用戶位置和用 戶置信度因子)的更新處理。相應(yīng)的目標(biāo)由參考圖7等上述的下面的數(shù)據(jù)構(gòu) 成。
(a) 用戶位置與相應(yīng)的目標(biāo)對應(yīng)的當(dāng)前位置的概率分布[高斯分布 N (mt,CTt)

(b) 用戶置信度因子相應(yīng)用戶l到k的概率值(分?jǐn)?shù)),作為用于指 示相應(yīng)目標(biāo)是誰的用戶置信度因子信息(uID): Pt[il (i = 1到k ),即uIDtl =Pt[l、uIDt2 = Pt[2]、 ...uIDtk = Pt[k
(c) 面部屬性期望值(按照當(dāng)前的處理示例為用戶是講話者的期望值 (概率))
根據(jù)等同于用于這是事件產(chǎn)生源的信號信息的概率PeID.x (tID = y)和
對應(yīng)于相應(yīng)的事件的面部屬性分?jǐn)?shù)Sero",如上所述,計算(c)面部屬性期 望值(按照當(dāng)前的處理示例為用戶是講話者的期望值(概率))。i表示事件 ID。
例如,通過下面的表達(dá)式來計算目標(biāo)ID-l的面部屬性期望值S -,:SflD^l = 2eIDPeID=i ( tID = 1 ) X Sen)=i
一般而言,通過下面的表達(dá)式來計算目標(biāo)的面部屬性期望值StID:
StID = SeIDPeID=i (tID) x SeID " (表達(dá)式1)
應(yīng)當(dāng)注意,當(dāng)目標(biāo)的數(shù)量大于面部圖像事件的數(shù)量時,為了使得各個目 標(biāo)的面部屬性期望值[Stm]的總和變?yōu)閇l],通過使用補(bǔ)數(shù)[l -》IDPeID (tID )
和先驗值Spri。J來通過下面的表達(dá)式(表達(dá)式2)計算面部事件屬性的期望 值StID。
StID = EeroPeID ( tID ) X Sem + ( 1 - EeroPeID ( tID ) ) X Sprior
(表達(dá)式2)
在步驟S107中執(zhí)行對關(guān)于(a)用戶位置、(b)用戶置信度因子、(c) 面部屬性期望值(按照當(dāng)前的處理示例為用戶是講話者的期望值(概率)), 的目標(biāo)教:據(jù)的更新。首先,將說明對(a)用戶位置的更新處理。
用戶位置更新被執(zhí)行為下面兩個階段的更新處理。
(al)用于對于在所有粒子中的所有目標(biāo)進(jìn)行的更新處理
(a2)對于在各個粒子中設(shè)定的事件產(chǎn)生源假設(shè)目標(biāo)的更新處理
對于被選擇為事件產(chǎn)生源假設(shè)目標(biāo)的目標(biāo)和所有的其他目標(biāo)執(zhí)行(al) 用于對于在所有粒子中的所有目標(biāo)進(jìn)行的更新處理。根據(jù)下面的假設(shè)來執(zhí)行 這個處理隨著時間的過去用戶位置變化擴(kuò)展,并且通過使用卡爾曼濾波器 根據(jù)自前一個更新處理起過去的時間和事件的位置信息更新用戶位置的變 化。
以下,將說明在位置信息是一維的情況下的更新處理示例。首先,將自 前一個更新處理時間起過去的時間表示為[dt],并且計算所有目標(biāo)的、在[dt

后的用戶位置的預(yù)測分布。即,對作為用戶位置分布戶信息的高斯分布N( mt, at)的期望值(平均)[mt和方差[cjt],執(zhí)行下面的更新。
mt = mt + xc x dt
at2 = dt2 + ere2 x dt
應(yīng)當(dāng)注意,附圖標(biāo)號如下。
mt:預(yù)測狀態(tài)
at2:預(yù)測估計協(xié)方差
xc:控制模型cjc2:處理噪聲
應(yīng)當(dāng)注意,在用戶不移動的狀態(tài)下執(zhí)行處理的情況下,能夠使用xc-O 的設(shè)定執(zhí)行更新處理。
通過上述的計算處理,更新所有的目標(biāo)N(mt,CTt)包括的用戶位置信 息的高斯分布。
(a2)對于在各個粒子中設(shè)定的事件產(chǎn)生源假設(shè)目標(biāo)的更新處理 接著,將說明用于在各個粒子中設(shè)定的事件產(chǎn)生源假設(shè)目標(biāo)的更新處理。
在對步驟S103中設(shè)定的事件產(chǎn)生源的假設(shè)之后選擇的目標(biāo)被更新。如 上參考圖5等所述,在粒子1到m中包括的各個目標(biāo)1到n被設(shè)定為與各 個事件(eID-l到k)關(guān)聯(lián)的目標(biāo)。
即,按照事件1D (eID),預(yù)先設(shè)定更新在相應(yīng)的粒子中包括的哪個目 標(biāo)。在設(shè)定后,僅僅更新與相應(yīng)的輸入事件相關(guān)聯(lián)的目標(biāo)。例如,根據(jù)在圖 5中所示的與事件對應(yīng)的信息361[事件ID = 1 ( eID - 1),在粒子1 (pad =1)中,僅僅選擇性地更新目標(biāo)ID=1 (tID = l)的數(shù)據(jù)。
在事件產(chǎn)生源的這個假設(shè)之后的更新處理中,以這種方式來更新與事件 相關(guān)聯(lián)的目標(biāo)的更新。執(zhí)行使用例如高斯分布N (me, cye)的更新處理,高 斯分布N (me, cye)用于指示在從音頻事件檢測單元122和圖像事件檢測單 元112輸入的事件信息中包括的用戶位置。
例如,附圖標(biāo)記如下。
K:卡爾曼增益
me:在輸入事件信息N(me,cre)中包括的觀測值(^f見測狀態(tài))
cye2:在輸入事件信息N(me,ae )中包括的觀測值(被觀測協(xié)方差)
執(zhí)行下面的更新處理。
K = CTtV (CTt2 + cre2)
mt = mt + K (xc _ mt)
CTt2 = ( 1 - K ) CTt2
接著,將說明作為對目標(biāo)數(shù)據(jù)的更新處理的對(b)用戶置信度因子的 更新處理。目標(biāo)數(shù)據(jù)除了用戶位置信息之外,還包括作為用戶置信度因子信
息(uID)的、是相應(yīng)用戶1到k的概率(分?jǐn)?shù))Pt[i] (i = l到k),用戶置信度因子信息指示相應(yīng)的目標(biāo)是誰。在步驟S107中,也對這個用戶置信 度因子信息(uID)執(zhí)行更新處理。
通過根據(jù)所有注冊用戶的后驗概率和在從音頻事件檢測單元122和圖像 事件檢測單元112輸入的事件信息中包括的用戶置信度因子信息(uID ): Pt[i] (iM到k)來應(yīng)用具有在范圍0到1內(nèi)的先前設(shè)定的值的更新率[p,執(zhí)行 對在相應(yīng)粒子中包括的目標(biāo)的用戶置信度因子信息(uID ): Pt[il (i = 1到k) 的更新。
通過下面的表達(dá)式來執(zhí)行對于目標(biāo)的用戶置信度因子信息(uID): Pt[i
(i-l到k)的更新。
Pt[i=(1 - P) x Pt[il + P*Pe[i
應(yīng)當(dāng)注意,建立了下面的M。
i = 1到k
J3: 0到1
應(yīng)當(dāng)注意更新率[P是在范圍0到1中的值,并且預(yù)先設(shè)定。 在步驟S107中,在被更新的目標(biāo)數(shù)據(jù)中包括的數(shù)據(jù)由下面的數(shù)據(jù)構(gòu)成。
(a) 用戶位置與相應(yīng)的目標(biāo)對應(yīng)的當(dāng)前位置的概率分布高斯分布 N (mt, cjt)]
(b) 概率值(分?jǐn)?shù)):相應(yīng)用戶l到k的Pt[i
(i-l到k):作為用戶 置信度因子信息(uID),用于指示相應(yīng)目標(biāo)是誰,即uIDtl = Pt[l,uIDt2 = Pt[2,…,uIDtk = Pt[k]
(c) 面部屬性期望值(按照當(dāng)前的處理示例為用戶是講話者的期望值 (概率))
根據(jù)上述的數(shù)據(jù)和相應(yīng)的粒子加權(quán)[Wpro,產(chǎn)生目標(biāo)信息并輸出到處理 確定單元132。
應(yīng)當(dāng)注意,目標(biāo)信息被產(chǎn)生為與在相應(yīng)的粒子(PID = 1到m)中包括 的相應(yīng)目標(biāo)(tID-l到m)對應(yīng)的數(shù)據(jù)是加權(quán)總和數(shù)據(jù)。所述數(shù)據(jù)在圖7 的右端的目標(biāo)信息380中示出。目標(biāo)信息生成為包括下面的相應(yīng)目標(biāo)(tID =1到11)的信息的信息。
(a) 用戶位置信息
(b) 用戶置信度因子信息(C)面部屬性期望值(按照當(dāng)前的處理示例為用戶是講話者的期望值 (概率))
例如,在對應(yīng)于目標(biāo)(tID = l)的目標(biāo)信息中的用戶位置信息被下面的 表達(dá)式表示。 Wi表示粒子加權(quán)[Wprol'
另外,通過下面的表達(dá)式來表示目標(biāo)信息中與目標(biāo)(tID = l)的對應(yīng)的 用戶置信度因子信息。是關(guān)于誰 講話的數(shù)據(jù),即指示講話者]的數(shù)據(jù)。對于圖像事件,[信號信息是用于指 示在圖像中包括的面部是誰的和[講話者]的數(shù)據(jù)。
根據(jù)在相應(yīng)的粒子中設(shè)定的事件產(chǎn)生源的假設(shè)目標(biāo)的數(shù)量,音頻/圖像綜 合處理單元131計算每個相應(yīng)目標(biāo)是事件產(chǎn)生源的概率。即,每個目標(biāo)(tID =1到n)是事件產(chǎn)生源的概率被表示為[P (tID-i),其中,i = l到n。 例如,如上所述,特定事件(eID = y)的產(chǎn)生源是特定目標(biāo)x (tID = x)的 概率表示如下。
P參x (tID = y)
這等同于由音頻/圖像綜合處理單元131設(shè)定的粒子的數(shù)量(m)對被分 配到相應(yīng)事件的目標(biāo)的數(shù)量的比率。例如,在圖5中所示的示例中,建立下 面的對應(yīng)關(guān)系。
PeID=1 (tID =1)=[粒子中tID = 1分配了第一事件(eID - 1)的粒子的 數(shù)量/ (m)
PeID=1 (tID =2)=[粒子中tlD-2分配了第一事件(eID = l)的粒子的 數(shù)量/ (m)
PeID=2 (tID =1)=[粒子中tID = l分配了第一事件(eID = 2)的粒子的 數(shù)量/ (m)
PeID=2 (tID =2)=[粒子中tlD-2分配了第一事件(eID = 2)的粒子的 數(shù)量/ (m)
這一數(shù)據(jù)作為指示時間產(chǎn)生源的[信號信息]輸出到處理確定單元132 。
當(dāng)在步驟S108中的處理結(jié)束時,流程返回到步驟SIOI,并且狀態(tài)轉(zhuǎn)移 到從音頻事件檢測單元122和圖像事件檢測單元112的事件信息的輸入的待 機(jī)狀態(tài)。上述的說明用于在圖10中示出的流程中的步驟S101到S108。在步驟 S101中,即使在其中音頻/圖像綜合處理單元131不從音頻事件檢測單元122 和圖像事件檢測單元112獲取在圖3B中示出的事件信息的情況下,在步驟 S121,也執(zhí)行在相應(yīng)的粒子中包括的目標(biāo)配置數(shù)據(jù)的更新。這個更新是考慮 隨著時間過去在用戶位置上的改變的處理。
這個目標(biāo)更新處理類似于在步驟S107中上述的(al)用于對于在所有 粒子中的所有目標(biāo)進(jìn)行的更新處理。才艮據(jù)用戶位置的變化隨著時間流逝而擴(kuò) 展這一假設(shè)執(zhí)行目標(biāo)更新處理。通過使用卡爾曼濾波器才艮據(jù)自前一個更新處 理起過去的時間和事件的位置信息執(zhí)行更新。
以下,將說明在位置信息是一維的情況下的更新處理示例。首先,將自 前一個更新處理時間起過去的時間表示為[dtl,并且計算所有目標(biāo)的、在[dtl 后的用戶位置的預(yù)測分布。即,關(guān)于作為用戶位置分布戶信息的高斯分布N (mt,cTt)的期望值(平均)[mt和方差[cit,執(zhí)行下面的更新。
mt = mt + xc x dt
crt2 = crt2 + ere2 x dt
應(yīng)當(dāng)注意,附圖標(biāo)記如下。
mt:預(yù)測狀態(tài)
cyt2:預(yù)測估計協(xié)方差
xc:控制模型
eye2:處理噪聲
應(yīng)當(dāng)注意,在用戶不移動的狀態(tài)下執(zhí)行處理的情況下,能夠使用xc-O 的設(shè)定來執(zhí)行更新處理。
通過上述的計算處理,更新在所有的目標(biāo)N(mt,at)中包括的用戶位 置信息的高斯分布。
應(yīng)當(dāng)注意,在相應(yīng)的粒子的目標(biāo)中包括的用戶置信度因子信息(uID) 不被更新,除非不獲取所有的事件注冊的用戶的后驗概率,或者獲取來自事 件信息的分?jǐn)?shù)[Pe。
當(dāng)結(jié)束在步驟S121中的處理時,在步驟S122,確定是否要刪除目標(biāo)。 當(dāng)確定要刪除目標(biāo)時,在步驟S123,刪除目標(biāo)。目標(biāo)刪除被執(zhí)行為刪除例如 在目標(biāo)等中包括的用戶位置信息中未檢測到峰值的情況下不獲取特定用戶
40位置的數(shù)據(jù)的處理。在其中這樣的目標(biāo)不存在的情況下,在其中不執(zhí)行刪除
處理的步驟S122和S123中的處理后,流程返回到步驟S101。狀態(tài)轉(zhuǎn)移待 機(jī)狀態(tài),等待事件信息從音頻事件檢測單元122和圖像事件檢測單元112的 輸入。
已經(jīng)在上面參考圖IO描述了由音頻/圖像綜合處理單元131執(zhí)行的處理。 每次從音頻事件檢測單元122和圖像事件檢測單元112輸入事件信息時,音 頻/圖像綜合處理單元131按照在圖10中示出的流程重復(fù)地執(zhí)行處理。通過 這個重復(fù)的處理,其中將具有較高可靠性的目標(biāo)設(shè)定為假設(shè)目標(biāo)的粒子的加 權(quán)提高,并且通過基于粒子加權(quán)的重采樣處理,保留具有更大加權(quán)的粒子。 結(jié)果,類似于從音頻事件檢測單元122和圖像事件檢測單元112輸入的事件 信息的、具有較高可靠性的數(shù)據(jù)被保留。最后,產(chǎn)生下面的具有高可靠性的 信息并輸出到處理確定單元132。
(a) [目標(biāo)信息,作為多個用戶的每個位于何處和用戶是誰的估計信息
(b) [信號信息],用于指示事件產(chǎn)生源,諸如調(diào)"活的用戶的值被更新,并且在 需要時同時被歸一化。面部屬性分?jǐn)?shù)[S (tID)]是根據(jù)當(dāng)前處理示例的按照 嘴部活動的分?jǐn)?shù),并且也是通過應(yīng)用VSD (視覺語音檢測)而計算的分?jǐn)?shù)。
在這個處理過程中,例如在特時間段At = t一end到t—begin期間,輸入 音頻,并且假設(shè)獲取音頻事件的音頻源方向信息一講話者識別信息。從音頻 事件的音頻源方向信息、從講話者識別信息獲取的用戶位置信息和用戶識別 信息僅僅獲取的目標(biāo)tID的語音源概率設(shè)定為P (tID )。
音頻/圖像綜合處理單元131可以通過下述方式來計算相應(yīng)目標(biāo)的講話 者概率通過經(jīng)由下面的方法將這個語音源概率[P (tID)和相應(yīng)粒子的與 事件對應(yīng)的目標(biāo)的面部屬性值[S (tID)綜合。通過這種方法,能夠改善講 話者識別處理的執(zhí)行。
將參考圖12和13來說明這個處理。
目標(biāo)tID在時間t的面部屬性分?jǐn)?shù)[S (tID )設(shè)定為S (tID) t。如在圖 12的右上端中的觀測值zl中示出,將音頻事件的間隔設(shè)定為[t一begin, to t_end。其中在音頻事件的輸入時段[t—begin, to t—end布置在圖12的中部中
41示出的m個與事件對應(yīng)的目標(biāo)(tID二l、 2、 ...m)的面部屬性分?jǐn)?shù)[S(tID)l 的分?jǐn)?shù)值的時間序列數(shù)據(jù)設(shè)定為在圖12的下部示出的面部屬性分?jǐn)?shù)時間序 列數(shù)據(jù)511、 512、…51m。時間序列數(shù)據(jù)的面部屬性分?jǐn)?shù)S (tID)的面積 被設(shè)定為SAt (tID )。
為了綜合下面兩個值,執(zhí)行這樣的處理。
(a)從音頻事件的音頻源方向信息僅僅獲取的目標(biāo)tID、從講話者識別 信息獲取的用戶位置信息和用戶識別信息的語音源概率P (tID )
(b )面部屬性分?jǐn)?shù)[S (tID)]的面積SAt (tID )
首先,P(tID)乘以At,然后執(zhí)行下面的計算
P (tID ) x At 然后,通過下面的表達(dá)式來歸一化SAt (tID)
SAt (tID ) < = SAt (tID ) /2tIDSAt (tID )...(表達(dá)式3 )
圖13的上部示出了對于相應(yīng)的目標(biāo)(tID = l、 2、 m)以這種方式計算 的下面的相應(yīng)值。
P (tID ) x At
SAt (tID)
另外,在通過使用作為下面的(a)和(b)的分布加權(quán)因子的a而考慮 加權(quán)的同時,通過相加或者相乘來計算相應(yīng)目標(biāo)(tID = 1到m)的講話者概 率Ps (tID )或者Pp (tID ),
(a) 從音頻事件的音頻源方向信息僅僅獲取的目標(biāo)tID、從說話者識別 信息獲取的用戶位置信息和用戶識別信息的語言源概率P (tID )
(b) 面部屬性分?jǐn)?shù)[S (tID)的面積SAt (tID)
通過下面的表達(dá)式(表達(dá)式4)計算在考慮加權(quán)a的同時通it^目加而計 算的目標(biāo)的講話者概率Ps (tID )。
Ps (tID) =Ws (tID) /SWs (tID)…(表達(dá)式4)
應(yīng)當(dāng)注意,Ws (tID ) = (1 - a) P (tID ) At + aSAt (tID )
另外,通過下面的表達(dá)式(表達(dá)式5)來計算在考慮加權(quán)a的同時通過 相乘而計算的目標(biāo)的講話者概率Ps (tID )。
Pp (tID) =Wp (tID) /SWp (tID) " (表達(dá)式5)應(yīng)當(dāng)注意,Wp(tID) = (P (tID) At) (1-a)xSAt (tID) a 在圖13的下端示出了這些表達(dá)式。
通過應(yīng)用這些表達(dá)式之一,改善相應(yīng)目標(biāo)是事件產(chǎn)生源的概率估計的效 果。即,在綜合從音頻事件的音頻源方向信息僅僅獲取的目標(biāo)tID、從#^ 者識別信息獲取的用戶位置信息和用戶識別信息的語音源概率P (tID )與相 應(yīng)粒子的事件對應(yīng)目標(biāo)的面部屬性值[S (tID)的同時執(zhí)行語音源估計,能 夠改善作為"^活者識別處理的記日記的執(zhí)行。
至此,已經(jīng)參考具體實施例詳細(xì)說明了本發(fā)明。但是,本領(lǐng)域中的技術(shù) 人員應(yīng)當(dāng)明白,可以根據(jù)設(shè)計要求和其他因素進(jìn)行各種修改、組合、子組合 和替代,只要它們在所附的權(quán)利要求或者其等同物的范圍內(nèi)。即,已經(jīng)通過 所示例的模式來公開了本發(fā)明,并且不應(yīng)在受限的程度上理解本發(fā)明。為了 確定本發(fā)明的宗旨,應(yīng)當(dāng)考慮權(quán)利要求。
另夕卜,可以通過硬件、軟件或者硬件和軟件的復(fù)合配置來執(zhí)行在說明書 中描述的系列處理。在通過軟件來執(zhí)行處理的情況下,能夠?qū)⒂涗浱幚硇蛄?的程序安裝在容納于專用硬件的計算機(jī)中的存儲器中,并得到執(zhí)行,或者程 序被安裝到能夠執(zhí)行各種處理的通用計算機(jī)中。例如,可以預(yù)先在記錄介質(zhì) 上記錄程序。除了從記錄介質(zhì)向計算機(jī)的安裝之外,也可能程序經(jīng)由LAN (局域網(wǎng))或者諸如因特網(wǎng)的網(wǎng)絡(luò)被接收,以及被安裝在諸如內(nèi)置硬盤的記 錄介質(zhì)上。
應(yīng)當(dāng)注意,不僅通過下面的說明以時間系列的方式來執(zhí)行在說明書中描 述的各種處理,而且按照執(zhí)行處理的設(shè)備或者按照情況的要求來并行或者單 獨(dú)地執(zhí)行各種處理。另外,在本說明書中的系統(tǒng)是多個設(shè)備的邏輯集合配置, 并且不限于相應(yīng)的配置的該:備位于同 一外殼中的情況。
權(quán)利要求
1. 一種信息處理設(shè)備,包括多個信息輸入單元,配置為輸入真實空間中的觀測信息;事件檢測單元,配置為通過分析從所述信息輸入單元輸入的信息來產(chǎn)生包括關(guān)于在真實空間中存在的用戶的估計位置信息和估計識別信息的事件信息;以及信息綜合處理單元,配置為通過基于所述事件信息的假設(shè)更新和分選來設(shè)定與關(guān)于用戶的位置信息和識別信息相關(guān)的假設(shè)概率分布數(shù)據(jù),并且產(chǎn)生包括關(guān)于在真實空間中存在的用戶的位置信息的分析信息,其中,所述事件檢測單元配置為從自圖像信息輸入單元輸入的圖像幀檢測面部區(qū)域,從檢測到的面部區(qū)域提取面部屬性信息,計算對應(yīng)于所提取的面部屬性信息的面部屬性分?jǐn)?shù),并且向所述信息綜合處理單元輸出所述面部屬性分?jǐn)?shù),其中,所述信息綜合處理單元應(yīng)用從所述事件檢測單元輸入的所述面部屬性分?jǐn)?shù),計算與相應(yīng)的目標(biāo)對應(yīng)的面部屬性期望值。
2. 根據(jù)權(quán)利要求1的信息處理設(shè)備,其中,所述信息綜合處理單元配置為執(zhí)行粒子濾波處理,在所#子 濾波處理中應(yīng)用多個粒子,在所述多個粒子中設(shè)定了與虛擬用戶對應(yīng)的多 個目標(biāo)數(shù)據(jù),并且適用于產(chǎn)生包括關(guān)于存在于所述真實空間中的用戶的位 置信息的分析信息;以及其中,所述信息綜合處理單元配置為將已經(jīng)設(shè)定到所述粒子的相應(yīng)目 標(biāo)數(shù)據(jù)設(shè)定為與所述事件檢測單元輸入的相應(yīng)事件關(guān)聯(lián),并且適用于按照 輸入事件標(biāo)識符對與所述事件對應(yīng)的、W目應(yīng)的粒子選擇的目標(biāo)數(shù)據(jù)進(jìn)行 更新c
3. 根據(jù)權(quán)利要求1的信息處理設(shè)備,其中,,述信息綜合處理單元配置為執(zhí)行所述處理,并且同時以在所 述事件檢測單元中檢測的面部圖像為單位將所述目標(biāo)與所述相應(yīng)的事件 相關(guān)聯(lián)。
4. 根據(jù)權(quán)利要求l的信息處理設(shè)備,其中,所述信息綜合處理單元配置為執(zhí)行所述粒子濾波處理,并且產(chǎn)生所述分析信息,所述分析信息包括關(guān)于在所述真實空間中的所述用戶的 用戶位置信息和用戶識別信息。
5. 根據(jù)權(quán)利要求1的信息處理設(shè)備,其中,由所述事件檢測單元檢測的所述面部屬性分?jǐn)?shù)是根據(jù)在所述面 部區(qū)域中的嘴部活動而產(chǎn)生的分?jǐn)?shù),以及其中,由所述信息綜合處理單元產(chǎn)生的所述面部屬性期望值是與所述 目標(biāo)是講話者的概率對應(yīng)的值。
6. 根據(jù)權(quán)利要求5的信息處理設(shè)備,其中,所述事件檢測單元通過其中應(yīng)用視覺語音檢測的處理執(zhí)行對所 述面部區(qū)域中的所述嘴部活動的檢測。
7. 根據(jù)權(quán)利要求1的信息處理設(shè)備,其中,在從所述事件輸入單元輸入的所述事件信息不包括所述面部屬性分?jǐn)?shù)的情況下,所述信息綜合處理單元使用預(yù)先設(shè)定的先驗知識[Spri。r的值。
8. 根據(jù)權(quán)利要求1的信息處理設(shè)備,其中,所述信息綜合處理單元配置為在音頻輸入時段應(yīng)用所述面部屬 性分?jǐn)?shù)的值和從所述用戶位置信息和所述用戶識別信息計算的語音源概率P (tID ),所述用戶位置信息和所述用戶識別信息是從所述事件檢測單 元所檢測的信息獲取的,并計算相應(yīng)目標(biāo)的講話者概率。
9. 根據(jù)權(quán)利要求8的信息處理設(shè)備,其中,所述信息綜合處理單元配置為當(dāng)所述音頻輸入時段設(shè)定為At 時,通過使用下面的表達(dá)式,通過語音源概率P[ (tID)和面部屬性分?jǐn)?shù) [S (tID)的加;M目加而計算相應(yīng)的目標(biāo)的講話^概率[Ps (tID)Ps(tID) =Ws (tID) /2:Ws (tID) 其中,Ws(tID) = (1 - a) P (tID) At + aSAt "ID) a是加權(quán)因子。
10. 根據(jù)權(quán)利要求8的信息處理設(shè)備,其中,所述信息綜合處理單元配置為當(dāng)所述音頻輸入時段設(shè)定為At時,通過使用下面的表達(dá)式,通過語音源概率P[ (tID)和面部屬性分?jǐn)?shù) [S (tID)]的加;W目加而計算相應(yīng)的目標(biāo)的講話i"概率[Pp (tID)Pp(tID) = Wp(tlD)/SWp(tlD) 其中Wp(tID) = (P(tID)At)(1 00 x SAt(tID)a a是加權(quán)因子。
11. 根據(jù)權(quán)利要求1的信息處理設(shè)備,其中,所述事件檢測單元配置為產(chǎn)生事件信息,所述事件信息包括由 高斯分布構(gòu)成的關(guān)于用戶的估計位置信息,并包括指示出用戶對應(yīng)度的概 率值的用戶確信度信息,其中,所述信息綜合處理單元配置為用于*粒子,所述粒子中設(shè)定 多個目標(biāo),所述多個目標(biāo)中具有由高斯分布構(gòu)成的與虛擬用戶對應(yīng)的用戶 位置信息,以及指示出用戶對應(yīng)度的概率值的置信度因子信息。
12. 根據(jù)權(quán)利要求l的信息處理設(shè)備,其中,所述信息綜合處理單元配置為計算設(shè)定于所勤目應(yīng)的粒子的事 件產(chǎn)生源假設(shè)目標(biāo)和從所述事件檢測單元輸入的事件信息之間的似然性, 并且在相應(yīng)的粒子中將按照似然性的幅度的值設(shè)定為粒子加權(quán)值。
13. 根據(jù)權(quán)利要求2的信息處理設(shè)備,其中,所述信息綜合處理單元配置為執(zhí)行重釆樣處理,所述重釆樣處 理優(yōu)先選擇具有較大粒子加權(quán)值的粒子,并且對于所述粒子執(zhí)行更新處 理。
14. 根據(jù)權(quán)利要求2的信息處理設(shè)備,其中,所述信息綜合處理單元配置為根據(jù)所過去的時間來對設(shè)定于所 ^目應(yīng)的粒子的目標(biāo)執(zhí)行更新處理。
15. 根據(jù)權(quán)利要求2的信息處理設(shè)備,其中,所述信息綜合處理單元配置為按照在所W目應(yīng)的粒子中設(shè)定的 事件產(chǎn)生源假設(shè)目標(biāo)的數(shù)量來產(chǎn)生作為事件產(chǎn)生源的概率值的信號信息。
16. —種信息處理方法,用于在信息處理設(shè)備中執(zhí)行信息分析處理, 所述信息處理方法包括步驟由多個信息輸入單元輸入真實空間中的觀測信息;由事件檢測單元通過從所述信息輸入單元輸入的信息的分析來產(chǎn)生 事件信息,所述事件信息包括關(guān)于在真實空間中存在的用戶的估計位置信 息和估計識別信息;以及由信息綜合處理單元通過假設(shè)基于所述事件信息的更新和分選來設(shè) 定與關(guān)于所述用戶的位置信息和識別信息相關(guān)聯(lián)的假設(shè)概率分布數(shù)據(jù),并 且產(chǎn)生包括關(guān)于在所述真實空間中存在的所述用戶的位置信息的分析信 息,其中,所述事件檢測步驟包括從自圖像信息輸入單元輸入的圖像幀 檢測面部區(qū)域,從檢測到的面部區(qū)域提取面部屬性信息,計算對應(yīng)于所提 取的面部屬性信息的面部屬性分?jǐn)?shù),向所述信息綜合處理單元輸出所述面 部屬性分?jǐn)?shù),以及其中,所述信息綜合處理步驟包括應(yīng)用從所述事件檢測單元輸入的 所述面部屬性分?jǐn)?shù),并且計算與相應(yīng)的目標(biāo)對應(yīng)的面部屬性期望值。
17. 根據(jù)權(quán)利要求16的信息處理方法,其中,所述信息綜合處理步驟包括執(zhí)行所述處理,并且同時以在所 述事件檢測單元中檢測的面部圖像為單位將所述目標(biāo)與所述相應(yīng)的事件 相關(guān)聯(lián)。
18. 根據(jù)權(quán)利要求16的信息處理方法,其中,由所述事件檢測單元檢測的所述面部屬性分?jǐn)?shù)是根據(jù)在所述面 部區(qū)域中的嘴部活動而產(chǎn)生的分?jǐn)?shù),以及其中,在所述信息綜合處理步驟中產(chǎn)生的所述面部屬性期望值是與所 述目標(biāo)是講話者的概率對應(yīng)的值。
19. 一種計算積4呈序,用于在信息處理設(shè)備中執(zhí)行信息分析處理,所 述計算機(jī)程序包括步驟由多個信息輸入單元輸入真實空間中的觀測信息;由事件檢測單元通過從所述信息輸入單元輸入的信息的分析來產(chǎn)生 事件信息,所述事件信息包括關(guān)于在真實空間中存在的用戶的估計位置信 息和估計識別信息;以及由信息綜合處理單元通過假設(shè)基于所述事件信息的更新和分選來設(shè)定與關(guān)于所述用戶的位置信息和識別信息相關(guān)聯(lián)的假設(shè)概率分布數(shù)據(jù),并 且產(chǎn)生包括關(guān)于在所述真實空間中存在的所述用戶的位置信息的分析信 息,其中,所述事件檢測步驟包括從自圖像信息輸入單元輸入的圖像幀 檢測面部區(qū)域,從檢測到的面部區(qū)域提取面部屬性信息,計算對應(yīng)于所提 取的面部屬性信息的面部屬性分?jǐn)?shù),并且向所述信息綜合處理單元輸出所 述面部屬性分?jǐn)?shù),以及其中,所述信息綜合處理步驟包括應(yīng)用從所述事件檢測單元輸入的 所述面部屬性分?jǐn)?shù),并且計算與相應(yīng)的目標(biāo)對應(yīng)的面部屬性期望值。
20. —種信息處理設(shè)備,包括多個信息輸入部件,配置為輸入真實空間中的觀測信息;事件檢測部件,其被配置來通過分析從所述信息輸入部件輸入的信息 來產(chǎn)生包括關(guān)于在真實空間中存在的用戶的估計位置信息和估計識別信 息的事件信息;以及,信息綜合處理部件,其被配置來通過基于所述事件信息的假設(shè)更新和 分選來設(shè)定與關(guān)于所述用戶的位置信息和識別信息相關(guān)聯(lián)的假設(shè)概率分 布數(shù)據(jù),并且產(chǎn)生包括關(guān)于在所述真實空間中存在的所述用戶的位置信息 的分析信息,其中,所述事件檢測部件是下述的配置,所述配置用于從自圖像信息 輸入部件輸入的圖像幀檢測面部區(qū)域,從檢測到的面部區(qū)域提取面部屬性 信息,計算對應(yīng)于所4^取的面部屬性信息的面部屬性分?jǐn)?shù),并且向所述信 息綜合處理部件輸出所述面部屬性分?jǐn)?shù),其中,所述信息綜合處理部件應(yīng)用從所述事件檢測部件輸入的所述面 部屬性分?jǐn)?shù),并且計算與相應(yīng)的目標(biāo)對應(yīng)的面部屬性期望值。
全文摘要
本發(fā)明提供一種信息處理設(shè)備和信息處理方法與計算機(jī)程序,包括多個信息輸入單元,用于輸入真實空間中的觀測信息;事件檢測單元,通過分析輸入信息來產(chǎn)生包括關(guān)于在真實空間中存在的用戶的估計位置信息和估計識別信息的事件信息;以及信息綜合處理單元,通過基于事件信息的假設(shè)更新和分選來設(shè)定與關(guān)于用戶位置和用戶識別信息相關(guān)聯(lián)的假設(shè)概率分布數(shù)據(jù),并且產(chǎn)生包括關(guān)于在真實空間中存在的用戶的位置信息的分析信息;其中,事件檢測單元從自圖像信息輸入單元輸入的圖像幀檢測面部區(qū)域,從檢測到的面部區(qū)域提取面部屬性信息,計算并且向信息綜合處理單元輸出對應(yīng)于所提取的面部屬性信息的面部屬性分?jǐn)?shù);信息綜合處理單元應(yīng)用面部屬性分?jǐn)?shù)以計算目標(biāo)面部屬性期望值。
文檔編號G06K9/00GK101452529SQ200810182768
公開日2009年6月10日 申請日期2008年12月4日 優(yōu)先權(quán)日2007年12月7日
發(fā)明者大橋武史, 澤田務(wù) 申請人:索尼株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
出国| 石阡县| 灵台县| 沾化县| 泰宁县| 利津县| 花莲县| 咸丰县| 铜陵市| 天峨县| 时尚| 固安县| 齐河县| 丰顺县| 青川县| 襄垣县| 陵川县| 阜新| 望城县| 石景山区| 怀仁县| 唐河县| 滨海县| 印江| 凭祥市| 疏勒县| 方山县| 土默特右旗| 博罗县| 阿图什市| 建平县| 郯城县| 阿拉善盟| 海兴县| 河间市| 马龙县| 文登市| 清原| 吉安市| 彭水| 鄂托克前旗|