專利名稱:基于視覺唇形識(shí)別的設(shè)備控制的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理設(shè)備、信息處理方法和程序,尤其涉及能夠基于通過對說話 者成像而獲得的活動(dòng)圖像來識(shí)別說話內(nèi)容,即能夠?qū)崿F(xiàn)唇讀技術(shù)的信息處理設(shè)備、信息處 理方法和程序。
背景技術(shù):
對以下技術(shù)(在下文中稱為唇讀技術(shù))的研究從二十世紀(jì)80年代末期開始已經(jīng) 存在在活動(dòng)圖像中通過使用圖像識(shí)別過程來檢測作為對象的說話者的嘴唇區(qū)域的動(dòng)作, 并基于檢測結(jié)果來識(shí)別說話者的說話內(nèi)容。與用于基于語音來識(shí)別說話內(nèi)容的語音識(shí)別技術(shù)相比,基于這種圖像識(shí)別過程的 唇讀技術(shù)具有以下優(yōu)點(diǎn),該技術(shù)不受環(huán)境噪聲的影響,并可以對多個(gè)對象同時(shí)發(fā)聲的情況 進(jìn)行響應(yīng)。但是,和語音識(shí)別技術(shù)相比,在當(dāng)前狀態(tài)下的唇讀技術(shù)還不能獲得針對未指明的 說話者的高的識(shí)別能力。因此,目前以視聽語音識(shí)別(AVSR)的形式來研究唇讀技術(shù),在 視聽語音識(shí)別中,唇讀技術(shù)在嘈雜環(huán)境中為語音識(shí)別技術(shù)起補(bǔ)充的作用。換句話說,利用 AVSR,基于語音和唇形的變化來推斷說話內(nèi)容。在相關(guān)技術(shù)中存在各種用于從嘴唇區(qū)域的圖像中提取唇形特征量的方法。例如,在 Proceedings of the IEEE,Vol. 91,No. 9,S印tember,2003 中由 G. Potamianos 等人發(fā)表的題為"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中公開了通過識(shí)別嘴唇位置來使用幾何信息如嘴唇的縱橫 比的方法,通過對塊形圖像執(zhí)行離散傅里葉變換過程來進(jìn)行圖像的時(shí)間序列信號(hào)建模的方 法,對圖像執(zhí)行塊的離散余弦變換過程以便將從該過程的結(jié)果中獲得的特征量分類為多個(gè) 口形中的任何一個(gè)的方法,等等。在 Technical Report of the Institute of Television Engineers of Japan, Vol. 13,No. 44,pp. 7-12,1989 中由 K. Mase 和 A. Pentalnd 發(fā)表的題為 “Lip-reading by Optical Flow”的文章中公開了裁剪嘴唇區(qū)域的圖像以及使用光流的方法。在 National Conference of the Forum on Information Technology in 2002, pp.203-204 中由 Ishikawa 等人發(fā)表的題為"Audio-visual Large Vocabulary Continuous Speech Recognition based on Feature Integration,,白勺了 Μ Μ !禾呈白勺 圖像被制作成低維圖像以便用作特征量的方法。此外,存在其它方法,包括通過將發(fā)光帶附著于說話者的嘴上來檢測具有標(biāo)記的
5傅里葉描述子表示唇形來指明音素的方法(例如,參考日本未經(jīng)審查的 專利申請公布No. 2008-146268),通過測量嘴唇區(qū)域的肌電位來指明元音的方法(例如,參 考日本未經(jīng)審查的專利申請公布No. 2008-233438)等。此夕卜,在 Proceedings of the IEEE,Vol. 91,No. 9,S印tember,2003 中由 G. Potamianos 等人發(fā)表的題為"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中、在日本未經(jīng)審查的專利申請公布No. 2008-233438中、在日 本未經(jīng)審查的專利申請公布No. 2008-310382等中包括通過將唇形分成幾種類型來識(shí)別 說話的方法(例如,參考在 Proceedings of the IEEE, Vol. 91, No. 9, S印tember,2003 中 由 G. Potamianos 等人發(fā)表的題為"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章,日本未經(jīng)審查的專利申請公布No. 2008-233438以及日本未 經(jīng)審查的專利申請公布No. 2008-310382)。
發(fā)明內(nèi)容
如上所述,在相關(guān)技術(shù)中,唇形的特征量通過各種方法來獲得,但是問題在于,在 特征量空間中難以根據(jù)唇形來進(jìn)行分離,另外,個(gè)體之間嘴唇區(qū)域的差異非常大,并且根據(jù) 未指明的說話者來識(shí)別說話是一種挑戰(zhàn)。此外,在考慮實(shí)際唇讀技術(shù)時(shí),不認(rèn)為以上提及的使用標(biāo)記和測量肌電位的方法 是合適的。此外,通過將唇形分成幾種類型來識(shí)別說話的方法僅對發(fā)出元音的嘴唇狀態(tài)和嘴 唇的閉合狀態(tài)進(jìn)行分類,并不能對話語進(jìn)行區(qū)分和識(shí)別,例如具有相同元音和不同輔音的 “hanashi” 禾口 "tawashi,,。本發(fā)明考慮以上情形,并且希望在使用活動(dòng)圖像的唇讀技術(shù)中提供針對來自未指 明的說話者的說話內(nèi)容的高度精確的識(shí)別性能。具體來說,本發(fā)明涉及信息處理設(shè)備,包括圖像獲取部,用于獲取圖像數(shù)據(jù)幀的 時(shí)間序列;檢測單元,用于從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像;識(shí)別單元,用于 根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語;以及控制器,用于根據(jù)通過識(shí)別單元識(shí)別 的話語來控制信息處理設(shè)備的操作。信息處理設(shè)備可以是數(shù)字靜態(tài)照相機(jī)。在這種情況下,圖像獲取單元是數(shù)字靜態(tài) 照相機(jī)的成像器件,控制器在識(shí)別單元識(shí)別預(yù)定話語時(shí)命令數(shù)字靜態(tài)照相機(jī)的成像器件捕 捉靜止圖像。信息處理設(shè)備還可以包括臉部區(qū)域檢測單元,用于在圖像數(shù)據(jù)幀序列中檢測多張 臉,識(shí)別單元根據(jù)所存儲(chǔ)的臉部識(shí)別數(shù)據(jù)來從多張臉中識(shí)別特定的臉,并根據(jù)所檢測的該 特定臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。信息處理設(shè)備還可以包括臉部區(qū)域檢測單元,用于在圖像數(shù)據(jù)幀序列中檢測多張 臉,識(shí)別單元根據(jù)所檢測的多張臉中的任何一張臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。信息處理設(shè)備還可以包括臉部區(qū)域檢測單元,用于在圖像數(shù)據(jù)幀序列中檢測多張 臉,識(shí)別單元根據(jù)所檢測的多張臉的子集的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。信息處理設(shè)備還可以包括登記單元,在通過識(shí)別單元識(shí)別話語時(shí)對使得控制器控 制信息處理設(shè)備的操作的話語進(jìn)行登記。
信息處理設(shè)備還可以包括存儲(chǔ)器,用于存儲(chǔ)多個(gè)視位,每個(gè)視位與特定音素相關(guān) 聯(lián),其中識(shí)別單元被配置成通過將檢測的嘴唇區(qū)域的嘴唇圖像與存儲(chǔ)在存儲(chǔ)器中的多個(gè)視 位進(jìn)行比較來識(shí)別話語。信息處理設(shè)備還可以包括學(xué)習(xí)功能部,該學(xué)習(xí)功能部包括圖像分離單元,配置成 接收帶有語音的說話活動(dòng)圖像,將該帶有語音的說話活動(dòng)圖像分離成說話活動(dòng)圖像和說話 語音,并輸出該說話活動(dòng)圖像和說話語音;臉部區(qū)域檢測單元,配置成從圖像分離單元接收 說話活動(dòng)圖像,將說話活動(dòng)圖像拆分成幀,從每一幀檢測臉部區(qū)域,并輸出說話活動(dòng)圖像的 一幀以及所檢測的臉部區(qū)域的位置信息;嘴唇區(qū)域檢測單元,配置成從臉部區(qū)域檢測單元 接收說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息,從這一幀的臉部區(qū)域檢測嘴 唇區(qū)域,并輸出說話活動(dòng)圖像的一幀以及嘴唇區(qū)域的位置信息;嘴唇圖像生成單元,配置成 接收來自嘴唇區(qū)域檢測單元的嘴唇區(qū)域的位置信息以及說話活動(dòng)圖像的一幀,對說話活動(dòng) 圖像的所述一幀執(zhí)行旋轉(zhuǎn)校正,生成嘴唇圖像,并將嘴唇圖像輸出到視位標(biāo)簽添加單元;音 素標(biāo)簽分配單元,配置成從圖像分離單元接收說話語音,將指示音素的音素標(biāo)簽分配給說 話語音,并輸出該標(biāo)簽;視位標(biāo)簽轉(zhuǎn)換單元,配置成從音素標(biāo)簽分配單元接收標(biāo)簽,將分配 給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲期間的唇形的視位標(biāo)簽,并輸出該視位 標(biāo)簽;視位標(biāo)簽添加單元,配置成接收從嘴唇圖像生成單元輸出的嘴唇圖像以及從視位標(biāo) 簽轉(zhuǎn)換單元輸出的視位標(biāo)簽,將視位標(biāo)簽添加到嘴唇圖像,并輸出添加有視位標(biāo)簽的嘴唇 圖像;學(xué)習(xí)樣本存儲(chǔ)單元,配置成從視位標(biāo)簽添加單元接收并存儲(chǔ)添加有視位標(biāo)簽的嘴唇 圖像,其中識(shí)別單元被配置成通過將從每個(gè)圖像數(shù)據(jù)幀檢測到的嘴唇區(qū)域的位置與通過學(xué) 習(xí)樣本存儲(chǔ)單元存儲(chǔ)的數(shù)據(jù)進(jìn)行比較來識(shí)別話語。
圖1是示出了本發(fā)明所應(yīng)用的說話識(shí)別器件的組成例子的框圖;圖2A到圖2C是示出了臉部圖像、嘴唇區(qū)域和嘴唇圖像的例子的圖;圖3是示出了用于將音素標(biāo)簽轉(zhuǎn)換成視位標(biāo)簽的轉(zhuǎn)換表的例子的圖;圖4是示出了學(xué)習(xí)樣本的例子的圖;圖5是示出了時(shí)間序列特征量的例子的圖;圖6是說明說話識(shí)別過程的流程圖;圖7是說明學(xué)習(xí)過程的流程圖;圖8是說明處理用于學(xué)習(xí)的說話活動(dòng)圖像的流程圖;圖9是說明處理用于學(xué)習(xí)的說話語音的流程圖;圖10是說明AdaBoost ECOC學(xué)習(xí)過程的流程圖;圖11是說明二進(jìn)制分類的弱分類器的學(xué)習(xí)過程的流程圖;圖12是說明登記過程的流程圖;圖13是說明K維得分向量計(jì)算過程的流程圖;圖14是說明識(shí)別過程的流程圖;圖15是示出了用于登記的說話話語的例子的圖;圖16是示出了識(shí)別能力的圖;圖17是示出了本發(fā)明所應(yīng)用的數(shù)字靜態(tài)照相機(jī)的組成的例子的框7
圖18是示出了自動(dòng)快門控制單元的組成的例子的框圖;圖19是說明自動(dòng)快門登記過程的流程圖;圖20是說明自動(dòng)快門執(zhí)行過程的流程圖;以及圖21是示出了計(jì)算機(jī)的組成的例子的圖。
具體實(shí)施例方式下面將結(jié)合附圖對用于執(zhí)行本發(fā)明的示例性實(shí)施例(以下稱為實(shí)施例)進(jìn)行詳細(xì) 描述。此外將按以下順序提供描述。1.第一實(shí)施例2.第二實(shí)施例1.第一實(shí)施例說話識(shí)別器件的組成例子圖1是示出了第一實(shí)施例的說話識(shí)別器件10的組成例子的圖。說話識(shí)別器件10 根據(jù)通過對作為對象的說話者進(jìn)行視頻捕捉而獲得的活動(dòng)圖像來識(shí)別說話者的說話內(nèi)容。說話識(shí)別器件10包括學(xué)習(xí)系統(tǒng)11,用于執(zhí)行學(xué)習(xí)過程;登記系統(tǒng)12,用于實(shí)現(xiàn) 登記過程;以及識(shí)別系統(tǒng)13,用于實(shí)現(xiàn)識(shí)別過程。學(xué)習(xí)系統(tǒng)11包括圖像-語音分離單元21、臉部區(qū)域檢測單元22、嘴唇區(qū)域檢測 單元23、嘴唇圖像生成單元24、音素標(biāo)簽分配單元25、音素詞典26、視位標(biāo)簽轉(zhuǎn)換單元27、 視位標(biāo)簽添加單元28、學(xué)習(xí)樣本存儲(chǔ)單元29、視位分類器學(xué)習(xí)單元30以及視位分類器31。登記系統(tǒng)12包括視位分類器31、臉部區(qū)域檢測單元41、嘴唇區(qū)域檢測單元42、 嘴唇圖像生成單元43、說話時(shí)期檢測單元44、時(shí)間序列特征量生成單元45、時(shí)間序列特征 量學(xué)習(xí)單元46以及說話識(shí)別器47。識(shí)別系統(tǒng)13包括視位分類器31、臉部區(qū)域檢測單元41、嘴唇區(qū)域檢測單元42、 嘴唇圖像生成單元43、說話時(shí)期檢測單元44、時(shí)間序列特征量生成單元45以及說話識(shí)別器 47。換句話說,視位分類器31以重疊方式屬于學(xué)習(xí)系統(tǒng)11、登記系統(tǒng)12和識(shí)別系統(tǒng) 13,并且通過從登記系統(tǒng)12中排除時(shí)間序列特征量學(xué)習(xí)單元46而設(shè)置的系統(tǒng)是識(shí)別系統(tǒng) 13。圖像-語音分離單元21接收通過對說任意話語的說話者進(jìn)行視頻捕捉而獲得的 帶有語音的活動(dòng)圖像的輸入(以下稱為用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖像),并將輸入 的圖像分離成用于學(xué)習(xí)的說話活動(dòng)圖像和用于學(xué)習(xí)的說話語音。分離出的用于學(xué)習(xí)的說話 活動(dòng)圖像被輸入到臉部區(qū)域檢測單元22,并且分離出的用于學(xué)習(xí)的說話語音被輸入到音素 標(biāo)簽分配單元25。此外,可以通過用于學(xué)習(xí)的視頻捕捉來準(zhǔn)備用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖 像,并例如可以使用內(nèi)容,如電視節(jié)目等。臉部區(qū)域檢測單元22將用于學(xué)習(xí)的說話活動(dòng)圖像拆分成幀,檢測每幀中包括人 臉的臉部區(qū)域,如圖2A所示,并將每幀的臉部區(qū)域的位置信息連同用于學(xué)習(xí)的說話活動(dòng)圖 像輸出到嘴唇區(qū)域檢測單元23。嘴唇區(qū)域檢測單元23從用于學(xué)習(xí)的說話活動(dòng)圖像的每幀的臉部區(qū)域中檢測包括域,如圖2B所示,并將每幀的嘴唇區(qū)域的位置信息連同 用于學(xué)習(xí)的說話活動(dòng)圖像輸出到嘴唇圖像生成單元24。此外,對于用來檢測臉部區(qū)域和嘴唇區(qū)域的方法,可以應(yīng)用任何現(xiàn)有技術(shù)(例 如在日本未經(jīng)審查的專利申請公布No. 2005-284348、日本未經(jīng)審查的專利申請公布 No. 2009-49489等中公開的技術(shù))。嘴唇圖像生成單元24對用于學(xué)習(xí)的說話活動(dòng)圖像的每一幀適當(dāng)執(zhí)行旋轉(zhuǎn)校正, 使得連接嘴唇處嘴的拐角的邊緣點(diǎn)的線是水平的。此外嘴唇圖像生成單元24在旋轉(zhuǎn)校正 之后從每一幀提取嘴唇區(qū)域,并通過將所提取的嘴唇區(qū)域調(diào)整到預(yù)先確定的圖像尺寸(例 如32X32像素)來生成嘴唇圖像,如圖2C所示。以該方式生成的用于每一幀的嘴唇圖像 被提供給視位標(biāo)簽添加單元28。音素標(biāo)簽分配單元25根據(jù)音素詞典26為用于學(xué)習(xí)的說話語音分配指示音素的音 素標(biāo)簽,并將音素標(biāo)簽輸出到視位標(biāo)簽轉(zhuǎn)換單元27。對于分配音素標(biāo)簽的方法,可以應(yīng)用語 音識(shí)別研究領(lǐng)域的方法(稱為自動(dòng)音素標(biāo)記)。視位標(biāo)簽轉(zhuǎn)換單元27將分配給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲 過程中的唇形的視位標(biāo)簽,并將轉(zhuǎn)換的標(biāo)簽輸出到視位標(biāo)簽添加單元28。此外,預(yù)先準(zhǔn)備的 轉(zhuǎn)換表用于轉(zhuǎn)換。圖3示出了用于將音素標(biāo)簽轉(zhuǎn)換成視位標(biāo)簽的轉(zhuǎn)換表的例子。當(dāng)使用圖中的轉(zhuǎn)換 表時(shí),分成40種的音素標(biāo)簽被轉(zhuǎn)換成分成19種的視位標(biāo)簽。例如,音素標(biāo)簽[a]和[a:] 被轉(zhuǎn)換成視位標(biāo)簽[a]。另外,例如,音素標(biāo)簽[by]、[my]和[py]被轉(zhuǎn)換成視位標(biāo)簽[py]。 此外,轉(zhuǎn)換表并不限于圖3中所示的一種,可以使用任何轉(zhuǎn)換表。視位標(biāo)簽添加單元28將從視位標(biāo)簽轉(zhuǎn)換單元27輸入的分配給說話語音的視位標(biāo) 簽添加到從嘴唇圖像生成單元24輸入的用于學(xué)習(xí)的說話活動(dòng)圖像的每一幀的嘴唇圖像, 并將添加有視位標(biāo)簽的嘴唇圖像輸出到學(xué)習(xí)樣本存儲(chǔ)單元29。學(xué)習(xí)樣本存儲(chǔ)單元29存儲(chǔ)多個(gè)帶有添加的視位標(biāo)簽的嘴唇圖像(以下稱為帶有 視位標(biāo)簽的嘴唇圖像)作為學(xué)習(xí)樣本。更具體地說,如圖4所示,M個(gè)學(xué)習(xí)樣本(xi,yk)處于這樣的狀態(tài)對應(yīng)于視位標(biāo) 簽的分類標(biāo)簽yk(k = 1,2,...,K)被分配給M張嘴唇圖像xi (i = 1,2,...,M)。此外,在 該情況下,分類標(biāo)簽的種類的數(shù)量K為19。視位分類器學(xué)習(xí)單元30從存儲(chǔ)在學(xué)習(xí)樣本存儲(chǔ)單元29中的作為多個(gè)學(xué)習(xí)樣本的 帶有視位標(biāo)簽的嘴唇圖像獲得圖像特征量,通過AdaBoostECOC來學(xué)習(xí)多個(gè)弱分類器,并生 成由多個(gè)弱分類器形成的視位分類器31。作為嘴唇圖像的圖像特征量,例如,可以使用本發(fā)明的發(fā)明者建議的像素差特征 (PixDif 特征)。此夕卜,在由 Sabe 禾口 Hidai 在 Proceedings of the IOth Symposium on Sensing via Image Information, pp. 547-552,2004 Φ M ^ StJ "Learning of a Real-time Arbitrary Posture and Face Detector using Pixel Difference Features,,、日本未經(jīng) 審查的專利申請公布No. 2005-157679等中公開了 PixDif特征(像素差特征)。像素差特征可以通過計(jì)算圖像(在這種情況下為嘴唇圖像)上的兩個(gè)像素的像素 值(亮度值)Il和12的差(11-12)來獲得。在對應(yīng)于兩個(gè)像素的每種組合的二進(jìn)制分類
9的弱分類器h(x)中,如以下示出的公式(1)所示,通過像素差特征11-12和閾值Th來確定 真(+1)或假H)。h (χ) = -1,如果 11-12 彡 Thh (χ) =+1,如果 11-12 > Th . . . (1)例如,當(dāng)嘴唇圖像的尺寸是32X32像素時(shí),可以獲得一組1024X1023像素的像素 差特征。多組兩個(gè)像素的那些組合以及閾值Th是每個(gè)二進(jìn)制分類的弱分類器的參數(shù),這些 參數(shù)中的最佳的一個(gè)通過推進(jìn)(boosting)學(xué)習(xí)來選擇。視位分類器31在由說話時(shí)期檢測單元44通知的說話時(shí)期過程中計(jì)算對應(yīng)于從嘴 唇圖像生成單元43輸入的嘴唇圖像的K維得分向量,并將結(jié)果輸出到時(shí)間序列特征量生成 單元45。這里,K維得分向量是指示輸入嘴唇圖像對應(yīng)于K(在該情況下K = 19)種視位中 的哪一種的索引,且由表示與K種的每個(gè)視位對應(yīng)的概率的K維得分形成。屬于登記系統(tǒng)12和識(shí)別系統(tǒng)13的臉部區(qū)域檢測單元41、嘴唇區(qū)域檢測單元42以 及嘴唇圖像生成單元43與上述屬于學(xué)習(xí)系統(tǒng)11的臉部區(qū)域檢測單元22、嘴唇區(qū)域檢測單 元23以及嘴唇圖像生成單元24相同。此外,向登記系統(tǒng)12輸入通過對已經(jīng)確定的說話內(nèi)容(用于登記的說話話語)和 通過對說出該內(nèi)容的說話者進(jìn)行視頻捕捉而產(chǎn)生的活動(dòng)圖像(以下稱為用于登記的說話 活動(dòng)圖像)進(jìn)行組合而獲得的多個(gè)登記數(shù)據(jù)。此外,向識(shí)別系統(tǒng)13輸入通過對說出作為要被識(shí)別的對象的說話內(nèi)容的說話者 進(jìn)行視頻捕捉而產(chǎn)生的活動(dòng)圖像(以下稱為用于識(shí)別的說話活動(dòng)圖像)。換句話說,在登記過程中,臉部區(qū)域檢測單元41將用于登記的說話活動(dòng)圖像拆分 成幀,檢測每一幀的臉部區(qū)域,并將每一幀中的臉部區(qū)域的位置信息連同用于登記的說話 活動(dòng)圖像輸出到嘴唇區(qū)域檢測單元42。嘴唇區(qū)域檢測單元42從用于登記的說話活動(dòng)圖像的每一幀中的臉部區(qū)域中檢測 嘴唇區(qū)域,并將每一幀中的嘴唇區(qū)域的位置信息連同用于登記的說話活動(dòng)圖像輸出到嘴唇 圖像生成單元43。嘴唇圖像生成單元43在對用于登記的說話活動(dòng)圖像的每一幀適當(dāng)執(zhí)行旋轉(zhuǎn)校正 之后從每一幀提取嘴唇區(qū)域,通過調(diào)整大小來生成嘴唇圖像,并將該圖像輸出到視位分類 器31和說話時(shí)期檢測單元44。此外,在識(shí)別過程中,臉部區(qū)域檢測單元41將用于識(shí)別的說話活動(dòng)圖像(說話者 的說話內(nèi)容不清楚的活動(dòng)圖像)拆分成幀,檢測每一幀的臉部區(qū)域,并將每一幀的臉部區(qū) 域的位置信息連同用于識(shí)別的說話活動(dòng)圖像輸出到嘴唇區(qū)域檢測單元42。嘴唇區(qū)域檢測單元42從用于識(shí)別的說話活動(dòng)圖像的每一幀中的臉部區(qū)域檢測嘴 唇區(qū)域,并將每一幀中的嘴唇區(qū)域的位置信息連同用于識(shí)別的說話活動(dòng)圖像輸出到嘴唇圖 像生成單元43。嘴唇圖像生成單元43在對用于識(shí)別的說話活動(dòng)圖像的每一幀適當(dāng)執(zhí)行旋轉(zhuǎn)校正 之后從每一幀提取嘴唇區(qū)域,通過調(diào)整大小來生成嘴唇圖像,并將該圖像輸出到視位分類 器31和說話時(shí)期檢測單元44。說話時(shí)期檢測單元44基于從嘴唇圖像生成單元43輸入的用于識(shí)別的說話活動(dòng)圖
10像和用于登記的說話活動(dòng)圖像的每一幀中的嘴唇圖像來指明說話者進(jìn)行說話的時(shí)期(以 下稱為說話時(shí)期),并通知視位分類器31和時(shí)間序列特征量生成單元45每一幀中的嘴唇圖 像是否對應(yīng)于說話時(shí)期。時(shí)間序列特征量生成單元45在由說話時(shí)期檢測單元44通知的說話時(shí)間過程中通 過以時(shí)間序列來安排從視位分類器31輸入的K維得分向量來生成時(shí)間序列特征量。圖5示出了對應(yīng)于說話者使得說話“引起注意”時(shí)的說話時(shí)期的時(shí)間序列特征量。 換句話說,如果說話時(shí)期是一秒且?guī)俾蕿?0幀/秒,則生成包括60K得分的時(shí)間序列特 征量。所生成的時(shí)間序列特征量在登記過程中被輸出到時(shí)間序列特征量學(xué)習(xí)單元46,并在 識(shí)別過程中被輸出到說話識(shí)別器47。時(shí)間序列特征量學(xué)習(xí)單元46通過將特征量與在登記過程中輸入的用于登記的說 話話語(用于登記的說話活動(dòng)圖像中的說話者的說話內(nèi)容)進(jìn)行關(guān)聯(lián)、使用隱馬爾可夫模 型(HMM)來針對從時(shí)間序列特征量生成單元45輸入的時(shí)間序列特征量進(jìn)行建模。此外,建 模技術(shù)不僅限于HMM,可以用于對時(shí)間序列特征量進(jìn)行建模的任何技術(shù)都是可以的。建模后 的時(shí)間序列特征量被存儲(chǔ)在內(nèi)建于說話識(shí)別器47中的學(xué)習(xí)數(shù)據(jù)庫48中。說話識(shí)別器47在識(shí)別過程中在存儲(chǔ)于學(xué)習(xí)數(shù)據(jù)庫48中的時(shí)間序列特征量的模 型中指明與從時(shí)間序列特征量生成單元45輸入的時(shí)間序列特征量最相似的時(shí)間序列特征 量。此外,說話識(shí)別器47輸出與指定的模型關(guān)聯(lián)的用于登記的說話話語作為對應(yīng)于用于識(shí) 別的說話活動(dòng)圖像的說話識(shí)別的結(jié)果。操作描述圖6是說明說話識(shí)別器件10的操作的流程圖。在步驟Sl中,說話識(shí)別器件10的學(xué)習(xí)系統(tǒng)11通過執(zhí)行學(xué)習(xí)過程而生成視位分類 器31。在步驟S2中,說話識(shí)別器件10的登記系統(tǒng)12通過執(zhí)行登記過程來生成對應(yīng)于用 于登記的說話活動(dòng)圖像的時(shí)間序列特征量,使用HMM來進(jìn)行建模,并將通過把特征量與用 于登記的說話話語進(jìn)行關(guān)聯(lián)而得到的時(shí)間序列特征量模型登記到學(xué)習(xí)數(shù)據(jù)庫48中。在步驟S3中,說話識(shí)別器件10的識(shí)別系統(tǒng)13通過執(zhí)行識(shí)別過程而在用于識(shí)別的 說話活動(dòng)圖像中識(shí)別說話者的說話內(nèi)容。下面將對上述從步驟Sl到步驟S3的過程進(jìn)行詳細(xì)描述。學(xué)習(xí)過程細(xì)節(jié)圖7是詳細(xì)說明步驟Sl的學(xué)習(xí)過程的流程圖。在步驟Sll中,用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖像被輸入到圖像-語音分離單 元21中。圖像-語音分離單元21將用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖像分離成用于學(xué)習(xí) 的說話活動(dòng)圖像和用于學(xué)習(xí)的說話語音,并將用于學(xué)習(xí)的說話活動(dòng)圖像輸出到臉部區(qū)域檢 測單元22,而將用于學(xué)習(xí)的說話語音輸出到音素標(biāo)簽分配單元25。在步驟S12中,進(jìn)行對用于學(xué)習(xí)的說話活動(dòng)圖像的處理。在步驟S13中,進(jìn)行對用 于學(xué)習(xí)的說話語音的處理。實(shí)際上,步驟S12和步驟S13彼此合作同時(shí)執(zhí)行。此外,處理后 的用于學(xué)習(xí)的說話活動(dòng)圖像(嘴唇圖像)的輸出和與之對應(yīng)的經(jīng)處理的用于學(xué)習(xí)的說話語 音(附帶有視位標(biāo)簽的用于學(xué)習(xí)的說話語音)的輸出被同時(shí)提供給視位標(biāo)簽添加單元28。圖8是說明在步驟S12中處理用于學(xué)習(xí)的說話活動(dòng)圖像的流程圖。
在步驟S21中,臉部區(qū)域檢測單元22將用于學(xué)習(xí)的說話活動(dòng)圖像拆分成幀,并使 得每一幀作為用于處理的目標(biāo)。臉部區(qū)域檢測單元22在步驟S22中從作為處理目標(biāo)的幀 中檢測臉部區(qū)域,并在步驟S23中判斷是否已經(jīng)檢測到臉部區(qū)域。當(dāng)確定已經(jīng)檢測到臉部 區(qū)域,則該過程進(jìn)行到步驟S24。相反,當(dāng)確定沒有檢測到臉部區(qū)域,則該過程進(jìn)行到步驟 S26。在步驟S24中,臉部區(qū)域檢測單元22將臉部區(qū)域的位置信息連同作為處理目標(biāo) 的用于學(xué)習(xí)的說話活動(dòng)圖像的一幀部分輸出到嘴唇區(qū)域檢測單元23。嘴唇區(qū)域檢測單元 23從作為處理目標(biāo)的幀的臉部區(qū)域檢測嘴唇區(qū)域,并在步驟S25中確定是否檢測到嘴唇區(qū) 域。當(dāng)確定檢測到嘴唇區(qū)域,則該過程進(jìn)行到步驟S27。相反,當(dāng)沒有檢測到嘴唇區(qū)域,則該 過程進(jìn)行到步驟S26。此外,當(dāng)該過程從步驟S23或步驟S25進(jìn)行到步驟S26時(shí),使用在作為處理目標(biāo)的 幀之前的一幀中的臉部區(qū)域或嘴唇區(qū)域中的至少一個(gè)的位置信息。在步驟S27中,嘴唇區(qū)域檢測單元23將嘴唇區(qū)域的位置信息連同作為處理目標(biāo)的 用于學(xué)習(xí)的說話活動(dòng)圖像的一幀部分輸出到嘴唇圖像生成單元24。嘴唇圖像生成單元24 對于作為處理目標(biāo)的用于學(xué)習(xí)的說話活動(dòng)圖像的一幀適當(dāng)進(jìn)行旋轉(zhuǎn)校正,使得連接嘴唇處 嘴的拐角的邊緣點(diǎn)的線是水平的。此外,嘴唇圖像生成單元24在旋轉(zhuǎn)校正之后從每一幀提 取嘴唇區(qū)域,通過將所提取的嘴唇區(qū)域調(diào)整到預(yù)先確定的圖像尺寸來生成嘴唇圖像,并將 該圖像輸出到視位標(biāo)簽添加單元28。之后,該過程返回步驟S21,并且從步驟S21到步驟S27的過程被重復(fù),直到用于學(xué) 習(xí)的說話活動(dòng)圖像的信號(hào)輸入完成。接下來,圖9是詳細(xì)說明在步驟S13中處理用于學(xué)習(xí)的說話語音的流程圖。在步驟S31中,音素標(biāo)簽分配單元25通過參考音素詞典26將指示音素的音素標(biāo) 簽分配給用于學(xué)習(xí)的說話語音,并將該標(biāo)簽輸出給視位標(biāo)簽轉(zhuǎn)換單元27。在步驟S32中,視位標(biāo)簽轉(zhuǎn)換單元27通過使用預(yù)先存儲(chǔ)的轉(zhuǎn)換表來將分配給用于 學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲過程中的唇形的視位標(biāo)簽,并將該標(biāo)簽輸出到 視位標(biāo)簽添加單元28。之后,該處理返回步驟S31,并且從步驟S31到步驟S32的過程被重復(fù),直到用于學(xué) 習(xí)的說話語音的輸入結(jié)束。返回圖7,在步驟S14中,視位標(biāo)簽添加單元28使用從視位標(biāo)簽轉(zhuǎn)換單元27輸入 的、分配給用于學(xué)習(xí)的說話語音的視位標(biāo)簽并將其添加到從嘴唇圖像生成單元24輸入的 對應(yīng)于用于學(xué)習(xí)的說話活動(dòng)圖像的每一幀的嘴唇圖像,并將添加有視位標(biāo)簽的嘴唇圖像輸 出到學(xué)習(xí)樣本存儲(chǔ)單元29。學(xué)習(xí)樣本存儲(chǔ)單元29將帶有視位標(biāo)簽的嘴唇圖像存儲(chǔ)為學(xué)習(xí) 樣本。在預(yù)定數(shù)量(M)的學(xué)習(xí)樣本被存儲(chǔ)到學(xué)習(xí)樣本存儲(chǔ)單元29中之后,執(zhí)行步驟S15以 及之后的過程。在步驟S15中,視位分類器學(xué)習(xí)單元30獲得作為存儲(chǔ)在學(xué)習(xí)樣本存儲(chǔ)單元29中 的學(xué)習(xí)樣本的多個(gè)嘴唇圖像的圖像特征量,通過AdaBoost ECOC來學(xué)習(xí)多個(gè)弱分類器,并生 成包括多個(gè)弱分類器的視位分類器31。圖10是詳細(xì)說明步驟S15的過程(AdaBoost ECOC學(xué)習(xí)過程)的流程圖。在步驟S41中,視位分類器學(xué)習(xí)單元30從學(xué)習(xí)樣本存儲(chǔ)單元29中獲取M個(gè)學(xué)習(xí)
12樣本(xi,yk),如圖4所示。在步驟S42中,視位分類器學(xué)習(xí)單元30根據(jù)以下公式(2)對由第M行及第K列表 示的樣本權(quán)重Pt(i,k)進(jìn)行初始化。具體來說,對于樣本權(quán)重Pt(i,k)的初始值Pl(i,k), 對應(yīng)于實(shí)際學(xué)習(xí)樣本(xi,yk)的一個(gè)初始值被設(shè)置為0,而其它初始值被設(shè)置使得它們的 和等于1的統(tǒng)一值。Pl (i, k) = 1/M(K-1), yk ^ K …(2)以下描述的從步驟S43到步驟S48的過程被重復(fù)任意次數(shù)T。此外,任意重復(fù)數(shù)T 可以是在嘴唇圖像上獲得的最大數(shù)量的像素差特征,并且獲得了與重復(fù)數(shù)T相同數(shù)量的弱 分類器。在步驟S43中,視位分類器學(xué)習(xí)單元30在第1行第K列生成ECOC表。此外,ECOC 表的第k列中的值yt(k)是-1或+1,并且該表中的值被隨機(jī)分配,使得-1的數(shù)量和+1的
數(shù)量相同。μ t(k) = {-1,+1}. . . (3)在步驟S44中,視位分類器學(xué)習(xí)單元30根據(jù)以下公式(4)計(jì)算由第M行第1列表 示的二進(jìn)制分類的權(quán)重Dt (i)。此外,在公式(4)中,在以下的[]中的公式是邏輯表示,1 代表真,0代表假。[表達(dá)式1]
Σ P(i.k) [/Zt(Vi)^J"(k)]Dt (i) =
ZZP(j,k)[/it(yj)^//(k)]
j k…(4)在步驟S45中,視位分類器學(xué)習(xí)單元30在用于從步驟S44中獲得的二進(jìn)制分類的 權(quán)重Dt(i)的情況下學(xué)習(xí)具有以下公式(5)中所示的加權(quán)誤差率^t的二進(jìn)制分類的弱分 類器hto[表達(dá)式2]^=. , Σ Dt(I)
ι:ht(Xi)^//(Vi) ... (5)圖11是詳細(xì)說明步驟S45的過程的流程圖。在步驟S61中,視位分類器學(xué)習(xí)單元30從嘴唇圖像的所有像素中隨機(jī)選擇兩個(gè)像 素。例如,當(dāng)嘴唇圖像具有32X32像素時(shí),從1024X 1023像素組中選擇一個(gè)像素以用于兩 個(gè)像素的選擇。這里,兩個(gè)像素的像素位置是Sl和S2,并且像素值(亮度值)是Il和12。在步驟S62中,視位分類器學(xué)習(xí)單元30針對所有學(xué)習(xí)樣本、通過使用在步驟S61 中選擇的兩個(gè)像素的像素值Il和12來計(jì)算像素差特征(11-12),并獲得頻率分布。在步驟S63中,視位分類器學(xué)習(xí)單元30基于像素差特征的頻率分布來獲得使得在 公式(5)中所示的加權(quán)誤差率ε t為最小值emin的閾值Thmin。在步驟S64中,視位分類器學(xué)習(xí)單元30基于像素差特征的頻率分布來獲得使得在 公式(5)中所示的加權(quán)誤差率ε t為最大值£111 的閾值111111 。此外,視位分類器學(xué)習(xí)單
13元30根據(jù)以下公式(6)對閾值Thmax進(jìn)行反轉(zhuǎn)。ε ‘ max = 1_ ε maxS' 1 = S2S' 2 = SlTh' max = -THmax ... (6)在步驟65中,視位分類器學(xué)習(xí)單元30根據(jù)上述加權(quán)誤差率ε t的最小值ε min 和最大值ε max的大小關(guān)系來確定二進(jìn)制分類的弱分類器的參數(shù)閾值Th和兩個(gè)像素的位 置Sl和S2。換句話說,當(dāng)ε min < ε ‘ max時(shí),兩個(gè)像素的位置Sl和S2以及閾值Thmin被用 作參數(shù)。此外,當(dāng)emin彡ε ‘ max時(shí),兩個(gè)像素的位置S' 1和S' 2以及閾值Th' max 被用作參數(shù)。在步驟S66中,視位分類器學(xué)習(xí)單元30判斷上述從步驟S61到步驟S65的過程是 否重復(fù)了預(yù)定次數(shù),在視位分類器學(xué)習(xí)單元30確定這些過程已經(jīng)重復(fù)了預(yù)定次數(shù)之前,過 程返回到步驟S61,并且重復(fù)步驟S61及之后的步驟。此外,當(dāng)視位分類器學(xué)習(xí)單元30確定 從步驟S61到步驟S65的過程已經(jīng)重復(fù)了預(yù)定次數(shù),該過程進(jìn)行到步驟S67。在步驟S67中,最終,視位分類器學(xué)習(xí)單元30從在上述已經(jīng)重復(fù)了預(yù)定次數(shù)的步 驟S65的過程中確定的二進(jìn)制分類的弱分類器(的參數(shù))中,采用使得加權(quán)誤差率ε t為 最小值的一個(gè)參數(shù)作為一個(gè)二進(jìn)制分類的弱分類器ht (的參數(shù))。如上所述,在確定了一個(gè)二進(jìn)制分類的弱分類器ht之后,過程返回到如圖10所示 的步驟S46。在步驟S46中,視位分類器學(xué)習(xí)單元30基于與在步驟S45的過程中確定的二進(jìn)制 分類的弱分類器ht對應(yīng)的加權(quán)誤差率ε t、根據(jù)以下公式(7)來計(jì)算置信水平at。[表達(dá)式3]at= 1/21η(1- ε t/ ε t) …(7)在步驟S47中,視位分類器學(xué)習(xí)單元30通過將在步驟S45的過程中確定的二進(jìn)制 分類的弱分類器ht乘以在步驟S46的過程中計(jì)算的置信水平a t來獲得具有置信水平的 二進(jìn)制分類的弱分類器ft (xi),如以下公式(8)所示。ft (xi) = a t ht …(8)在步驟S48中,視位分類器學(xué)習(xí)單元30根據(jù)以下公式(9)對由第M行第K列表示 的樣本權(quán)重Pt(i,k)進(jìn)行更新。
權(quán)利要求
一種信息處理設(shè)備,包括圖像獲取單元,配置成獲取圖像數(shù)據(jù)幀的時(shí)間序列;檢測單元,配置成從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像;識(shí)別單元,配置成根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語;以及控制器,配置成根據(jù)通過識(shí)別單元識(shí)別的話語來控制信息處理設(shè)備的操作。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中圖像處理設(shè)備是數(shù)字靜態(tài)照相機(jī),圖像 獲取單元是數(shù)字靜態(tài)照相機(jī)的成像器件。
3.根據(jù)權(quán)利要求2所述的信息處理設(shè)備,其中控制器被配置成在識(shí)別單元識(shí)別預(yù)定話 語時(shí)命令數(shù)字靜態(tài)照相機(jī)的成像器件捕捉靜止圖像。
4.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括臉部區(qū)域檢測單元,配置成在圖像數(shù)據(jù)幀序列中檢測多張臉,其中 識(shí)別單元被配置成根據(jù)所存儲(chǔ)的臉部識(shí)別數(shù)據(jù)來從多張臉中識(shí)別特定的臉,并根據(jù)所 檢測的該特定臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
5.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括臉部區(qū)域檢測單元,配置成在圖像數(shù)據(jù)幀序列中檢測多張臉,其中 識(shí)別單元被配置成根據(jù)所檢測的多張臉中的任何一張臉的嘴唇區(qū)域的嘴唇圖像來識(shí) 別話語。
6.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括臉部區(qū)域檢測單元,配置成在圖像數(shù)據(jù)幀序列中檢測多張臉,其中識(shí)別單元被配置成根據(jù)所檢測的多張臉的子集的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
7.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括登記單元,配置成在通過識(shí)別單元識(shí)別話語時(shí)對使得控制器控制信息處理設(shè)備的操作 的話語進(jìn)行登記。
8.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括存儲(chǔ)器,配置成存儲(chǔ)多個(gè)視位,每個(gè)視位與特定音素相關(guān)聯(lián),其中識(shí)別單元被配置成通 過將檢測的嘴唇區(qū)域的嘴唇圖像與存儲(chǔ)在存儲(chǔ)器中的多個(gè)視位進(jìn)行比較來識(shí)別話語。
9.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括圖像分離單元,配置成接收帶有語音的說話活動(dòng)圖像,將該帶有語音的說話活動(dòng)圖像 分離成說話活動(dòng)圖像和說話語音,并輸出該說話活動(dòng)圖像和說話語音;臉部區(qū)域檢測單元,配置成從圖像分離單元接收說話活動(dòng)圖像,將說話活動(dòng)圖像拆分 成幀,從每一幀檢測臉部區(qū)域,并輸出說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置 fn息;嘴唇區(qū)域檢測單元,配置成從臉部區(qū)域檢測單元接收說話活動(dòng)圖像的一幀以及所檢測 的臉部區(qū)域的位置信息,從這一幀的臉部區(qū)域檢測嘴唇區(qū)域,并輸出一幀說話活動(dòng)圖像以 及嘴唇區(qū)域的位置信息;嘴唇圖像生成單元,配置成接收來自嘴唇區(qū)域檢測單元的嘴唇區(qū)域的位置信息以及說 話活動(dòng)圖像的一幀,對說話活動(dòng)圖像的所述一幀執(zhí)行旋轉(zhuǎn)校正,生成嘴唇圖像,并將嘴唇圖 像輸出到視位標(biāo)簽添加單元;音素標(biāo)簽分配單元,配置成從圖像分離單元接收說話語音,將指示音素的音素標(biāo)簽分配給說話語音,并輸出該標(biāo)簽;視位標(biāo)簽轉(zhuǎn)換單元,配置成從音素標(biāo)簽分配單元接收標(biāo)簽,將分配給用于學(xué)習(xí)的說話 語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲期間的唇形的視位標(biāo)簽,并輸出該視位標(biāo)簽;視位標(biāo)簽添加單元,配置成接收從嘴唇圖像生成單元輸出的嘴唇圖像以及從視位標(biāo)簽 轉(zhuǎn)換單元輸出的視位標(biāo)簽,將視位標(biāo)簽添加到嘴唇圖像,并輸出添加有視位標(biāo)簽的嘴唇圖 像;學(xué)習(xí)樣本存儲(chǔ)單元,配置成從視位標(biāo)簽添加單元接收并存儲(chǔ)添加有視位標(biāo)簽的嘴唇圖 像,其中識(shí)別單元被配置成通過將從每個(gè)圖像數(shù)據(jù)幀檢測到的嘴唇區(qū)域的位置與學(xué)習(xí)樣本存 儲(chǔ)單元存儲(chǔ)的數(shù)據(jù)進(jìn)行比較來識(shí)別話語。
10.一種非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),包括計(jì)算機(jī)程序指令,該計(jì)算機(jī)程序指令在通過 信息處理設(shè)備執(zhí)行時(shí)使得信息處理設(shè)備執(zhí)行以下的方法,所述方法包括獲取圖像數(shù)據(jù)幀的時(shí)間序列; 從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像; 根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語;以及 根據(jù)識(shí)別的話語來控制信息處理設(shè)備的操作。
11.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中圖像處理設(shè)備是數(shù)字靜態(tài) 照相機(jī),并且圖像數(shù)據(jù)幀的時(shí)間序列通過數(shù)字靜態(tài)照相機(jī)的成像器件來獲取。
12.根據(jù)權(quán)利要求11所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),還包括 在識(shí)別預(yù)定話語時(shí)控制數(shù)字靜態(tài)照相機(jī)的成像器件捕捉靜止圖像。
13.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),還包括 在圖像數(shù)據(jù)幀序列中檢測多張臉;根據(jù)所存儲(chǔ)的臉部識(shí)別數(shù)據(jù)來從多張臉中識(shí)別特定的臉;以及 根據(jù)所檢測的特定臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
14.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),還包括 在圖像數(shù)據(jù)幀序列中檢測多張臉;以及根據(jù)所檢測多張臉中的任何一張臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
15.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),還包括 在圖像數(shù)據(jù)幀序列中檢測多張臉;以及根據(jù)所檢測的多張臉的子集的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
16.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),還包括對在識(shí)別話語時(shí)使得控制器控制信息處理設(shè)備的操作的話語進(jìn)行登記。
17.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),還包括存儲(chǔ)多個(gè)視位,每個(gè)視位與特定音素相關(guān)聯(lián),其中識(shí)別包括通過將檢測的嘴唇區(qū)域的 嘴唇圖像與存儲(chǔ)在存儲(chǔ)器中的多個(gè)視位進(jìn)行比較來識(shí)別話語。
18.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),還包括 在信息處理設(shè)備的圖像分離單元接收帶有語音的說話活動(dòng)圖像;將該帶有語音的說話活動(dòng)圖像分離成說話活動(dòng)圖像和說話語音;以及輸出該說話活動(dòng)圖像和說話語音, 在信息處理設(shè)備的臉部區(qū)域檢測單元 從圖像分離單元接收說話活動(dòng)圖像; 將說話活動(dòng)圖像拆分成幀; 從每一幀檢測臉部區(qū)域;以及輸出說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息,在信息處理設(shè)備的嘴唇 區(qū)域檢測單元從臉部區(qū)域檢測單元接收說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息; 從所述一幀的臉部區(qū)域檢測嘴唇區(qū)域;以及 輸出說話活動(dòng)圖像的一幀以及嘴唇區(qū)域的位置信息, 在信息處理設(shè)備的嘴唇圖像生成單元接收來自嘴唇區(qū)域檢測單元的嘴唇區(qū)域的位置信息以及說話活動(dòng)圖像的一幀;對說話活動(dòng)圖像的所述一幀執(zhí)行旋轉(zhuǎn)校正;生成嘴唇圖像;以及將嘴唇圖像輸出到視位標(biāo)簽添加單元,在信息處理設(shè)備的音素標(biāo)簽分配單元從圖像分離單元接收說話語音;將指示音素的音素標(biāo)簽分配給說話語音;以及輸出該標(biāo)簽,在信息處理設(shè)備的視位標(biāo)簽轉(zhuǎn)換單元 從音素標(biāo)簽分配單元接收標(biāo)簽;將分配給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲期間的唇形的視位標(biāo)簽;以及輸出該視位標(biāo)簽,在信息處理設(shè)備的視位標(biāo)簽添加單元接收從嘴唇圖像生成單元輸出的嘴唇圖像以及從視位標(biāo)簽轉(zhuǎn)換單元輸出的視位標(biāo)簽;將視位標(biāo)簽添加到嘴唇圖像;以及 輸出添加有視位標(biāo)簽的嘴唇圖像, 在信息處理設(shè)備的學(xué)習(xí)樣本存儲(chǔ)單元從視位標(biāo)簽添加單元接收并存儲(chǔ)添加有視位標(biāo)簽的嘴唇圖像,其中 所述識(shí)別通過將從每個(gè)圖像數(shù)據(jù)幀檢測到的嘴唇區(qū)域的位置與學(xué)習(xí)樣本存儲(chǔ)單元存 儲(chǔ)的數(shù)據(jù)進(jìn)行比較來識(shí)別話語。
19. 一種信息處理設(shè)備,包括 用于獲取圖像數(shù)據(jù)幀的時(shí)間序列的裝置; 用于從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像的裝置; 用于根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像的位置來識(shí)別話語的裝置;以及 用于根據(jù)通過用于識(shí)別的裝置識(shí)別的話語來控制信息處理設(shè)備的操作的裝置。
全文摘要
本申請涉及基于視覺唇形識(shí)別的設(shè)備控制。提供了一種信息處理設(shè)備,包括圖像獲取單元,用于獲取圖像數(shù)據(jù)幀的時(shí)間序列;檢測單元,用于從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像;識(shí)別單元,用于根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語;以及控制器,用于根據(jù)通過識(shí)別單元識(shí)別的話語來控制信息處理設(shè)備的操作。
文檔編號(hào)G06F3/01GK101937268SQ20101021339
公開日2011年1月5日 申請日期2010年6月23日 優(yōu)先權(quán)日2009年6月30日
發(fā)明者伊藤真人, 佐部浩太郎, 青山一美 申請人:索尼公司