基于視覺唇形識(shí)別的設(shè)備控制的制作方法

文檔序號(hào)：6605004閱讀：238來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于視覺唇形識(shí)別的設(shè)備控制的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理設(shè)備、信息處理方法和程序，尤其涉及能夠基于通過對說話者成像而獲得的活動(dòng)圖像來識(shí)別說話內(nèi)容，即能夠?qū)崿F(xiàn)唇讀技術(shù)的信息處理設(shè)備、信息處理方法和程序。
背景技術(shù)：
對以下技術(shù)(在下文中稱為唇讀技術(shù))的研究從二十世紀(jì)80年代末期開始已經(jīng) 存在在活動(dòng)圖像中通過使用圖像識(shí)別過程來檢測作為對象的說話者的嘴唇區(qū)域的動(dòng)作，并基于檢測結(jié)果來識(shí)別說話者的說話內(nèi)容。與用于基于語音來識(shí)別說話內(nèi)容的語音識(shí)別技術(shù)相比，基于這種圖像識(shí)別過程的唇讀技術(shù)具有以下優(yōu)點(diǎn)，該技術(shù)不受環(huán)境噪聲的影響，并可以對多個(gè)對象同時(shí)發(fā)聲的情況進(jìn)行響應(yīng)。但是，和語音識(shí)別技術(shù)相比，在當(dāng)前狀態(tài)下的唇讀技術(shù)還不能獲得針對未指明的說話者的高的識(shí)別能力。因此，目前以視聽語音識(shí)別(AVSR)的形式來研究唇讀技術(shù)，在視聽語音識(shí)別中，唇讀技術(shù)在嘈雜環(huán)境中為語音識(shí)別技術(shù)起補(bǔ)充的作用。換句話說，利用 AVSR，基于語音和唇形的變化來推斷說話內(nèi)容。在相關(guān)技術(shù)中存在各種用于從嘴唇區(qū)域的圖像中提取唇形特征量的方法。例如，在 Proceedings of the IEEE，Vol. 91，No. 9，S印tember，2003 中由 G. Potamianos 等人發(fā)表的題為"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中公開了通過識(shí)別嘴唇位置來使用幾何信息如嘴唇的縱橫比的方法，通過對塊形圖像執(zhí)行離散傅里葉變換過程來進(jìn)行圖像的時(shí)間序列信號(hào)建模的方法，對圖像執(zhí)行塊的離散余弦變換過程以便將從該過程的結(jié)果中獲得的特征量分類為多個(gè) 口形中的任何一個(gè)的方法，等等。在 Technical Report of the Institute of Television Engineers of Japan, Vol. 13，No. 44，pp. 7-12,1989 中由 K. Mase 和 A. Pentalnd 發(fā)表的題為 “Lip-reading by Optical Flow”的文章中公開了裁剪嘴唇區(qū)域的圖像以及使用光流的方法。在 National Conference of the Forum on Information Technology in 2002, pp.203-204 中由 Ishikawa 等人發(fā)表的題為"Audio-visual Large Vocabulary Continuous Speech Recognition based on Feature Integration，，白勺了 Μ Μ !禾呈白勺圖像被制作成低維圖像以便用作特征量的方法。此外，存在其它方法，包括通過將發(fā)光帶附著于說話者的嘴上來檢測具有標(biāo)記的
5傅里葉描述子表示唇形來指明音素的方法(例如，參考日本未經(jīng)審查的專利申請公布No. 2008-146268)，通過測量嘴唇區(qū)域的肌電位來指明元音的方法(例如，參考日本未經(jīng)審查的專利申請公布No. 2008-233438)等。此夕卜，在 Proceedings of the IEEE，Vol. 91，No. 9，S印tember，2003 中由 G. Potamianos 等人發(fā)表的題為"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中、在日本未經(jīng)審查的專利申請公布No. 2008-233438中、在日本未經(jīng)審查的專利申請公布No. 2008-310382等中包括通過將唇形分成幾種類型來識(shí)別說話的方法(例如，參考在 Proceedings of the IEEE, Vol. 91, No. 9, S印tember，2003 中由 G. Potamianos 等人發(fā)表的題為"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章，日本未經(jīng)審查的專利申請公布No. 2008-233438以及日本未經(jīng)審查的專利申請公布No. 2008-310382)。

發(fā)明內(nèi)容
如上所述，在相關(guān)技術(shù)中，唇形的特征量通過各種方法來獲得，但是問題在于，在特征量空間中難以根據(jù)唇形來進(jìn)行分離，另外，個(gè)體之間嘴唇區(qū)域的差異非常大，并且根據(jù) 未指明的說話者來識(shí)別說話是一種挑戰(zhàn)。此外，在考慮實(shí)際唇讀技術(shù)時(shí)，不認(rèn)為以上提及的使用標(biāo)記和測量肌電位的方法是合適的。此外，通過將唇形分成幾種類型來識(shí)別說話的方法僅對發(fā)出元音的嘴唇狀態(tài)和嘴唇的閉合狀態(tài)進(jìn)行分類，并不能對話語進(jìn)行區(qū)分和識(shí)別，例如具有相同元音和不同輔音的 “hanashi” 禾口 "tawashi，，。本發(fā)明考慮以上情形，并且希望在使用活動(dòng)圖像的唇讀技術(shù)中提供針對來自未指明的說話者的說話內(nèi)容的高度精確的識(shí)別性能。具體來說，本發(fā)明涉及信息處理設(shè)備，包括圖像獲取部，用于獲取圖像數(shù)據(jù)幀的時(shí)間序列；檢測單元，用于從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像；識(shí)別單元，用于根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語；以及控制器，用于根據(jù)通過識(shí)別單元識(shí)別的話語來控制信息處理設(shè)備的操作。信息處理設(shè)備可以是數(shù)字靜態(tài)照相機(jī)。在這種情況下，圖像獲取單元是數(shù)字靜態(tài) 照相機(jī)的成像器件，控制器在識(shí)別單元識(shí)別預(yù)定話語時(shí)命令數(shù)字靜態(tài)照相機(jī)的成像器件捕捉靜止圖像。信息處理設(shè)備還可以包括臉部區(qū)域檢測單元，用于在圖像數(shù)據(jù)幀序列中檢測多張臉，識(shí)別單元根據(jù)所存儲(chǔ)的臉部識(shí)別數(shù)據(jù)來從多張臉中識(shí)別特定的臉，并根據(jù)所檢測的該特定臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。信息處理設(shè)備還可以包括臉部區(qū)域檢測單元，用于在圖像數(shù)據(jù)幀序列中檢測多張臉，識(shí)別單元根據(jù)所檢測的多張臉中的任何一張臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。信息處理設(shè)備還可以包括臉部區(qū)域檢測單元，用于在圖像數(shù)據(jù)幀序列中檢測多張臉，識(shí)別單元根據(jù)所檢測的多張臉的子集的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。信息處理設(shè)備還可以包括登記單元，在通過識(shí)別單元識(shí)別話語時(shí)對使得控制器控制信息處理設(shè)備的操作的話語進(jìn)行登記。
信息處理設(shè)備還可以包括存儲(chǔ)器，用于存儲(chǔ)多個(gè)視位，每個(gè)視位與特定音素相關(guān) 聯(lián)，其中識(shí)別單元被配置成通過將檢測的嘴唇區(qū)域的嘴唇圖像與存儲(chǔ)在存儲(chǔ)器中的多個(gè)視位進(jìn)行比較來識(shí)別話語。信息處理設(shè)備還可以包括學(xué)習(xí)功能部，該學(xué)習(xí)功能部包括圖像分離單元，配置成接收帶有語音的說話活動(dòng)圖像，將該帶有語音的說話活動(dòng)圖像分離成說話活動(dòng)圖像和說話語音，并輸出該說話活動(dòng)圖像和說話語音；臉部區(qū)域檢測單元，配置成從圖像分離單元接收說話活動(dòng)圖像，將說話活動(dòng)圖像拆分成幀，從每一幀檢測臉部區(qū)域，并輸出說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息；嘴唇區(qū)域檢測單元，配置成從臉部區(qū)域檢測單元接收說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息，從這一幀的臉部區(qū)域檢測嘴唇區(qū)域，并輸出說話活動(dòng)圖像的一幀以及嘴唇區(qū)域的位置信息；嘴唇圖像生成單元，配置成接收來自嘴唇區(qū)域檢測單元的嘴唇區(qū)域的位置信息以及說話活動(dòng)圖像的一幀，對說話活動(dòng) 圖像的所述一幀執(zhí)行旋轉(zhuǎn)校正，生成嘴唇圖像，并將嘴唇圖像輸出到視位標(biāo)簽添加單元；音素標(biāo)簽分配單元，配置成從圖像分離單元接收說話語音，將指示音素的音素標(biāo)簽分配給說話語音，并輸出該標(biāo)簽；視位標(biāo)簽轉(zhuǎn)換單元，配置成從音素標(biāo)簽分配單元接收標(biāo)簽，將分配給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲期間的唇形的視位標(biāo)簽，并輸出該視位標(biāo)簽；視位標(biāo)簽添加單元，配置成接收從嘴唇圖像生成單元輸出的嘴唇圖像以及從視位標(biāo) 簽轉(zhuǎn)換單元輸出的視位標(biāo)簽，將視位標(biāo)簽添加到嘴唇圖像，并輸出添加有視位標(biāo)簽的嘴唇圖像；學(xué)習(xí)樣本存儲(chǔ)單元，配置成從視位標(biāo)簽添加單元接收并存儲(chǔ)添加有視位標(biāo)簽的嘴唇圖像，其中識(shí)別單元被配置成通過將從每個(gè)圖像數(shù)據(jù)幀檢測到的嘴唇區(qū)域的位置與通過學(xué) 習(xí)樣本存儲(chǔ)單元存儲(chǔ)的數(shù)據(jù)進(jìn)行比較來識(shí)別話語。

圖1是示出了本發(fā)明所應(yīng)用的說話識(shí)別器件的組成例子的框圖；圖2A到圖2C是示出了臉部圖像、嘴唇區(qū)域和嘴唇圖像的例子的圖；圖3是示出了用于將音素標(biāo)簽轉(zhuǎn)換成視位標(biāo)簽的轉(zhuǎn)換表的例子的圖；圖4是示出了學(xué)習(xí)樣本的例子的圖；圖5是示出了時(shí)間序列特征量的例子的圖；圖6是說明說話識(shí)別過程的流程圖；圖7是說明學(xué)習(xí)過程的流程圖；圖8是說明處理用于學(xué)習(xí)的說話活動(dòng)圖像的流程圖；圖9是說明處理用于學(xué)習(xí)的說話語音的流程圖；圖10是說明AdaBoost ECOC學(xué)習(xí)過程的流程圖；圖11是說明二進(jìn)制分類的弱分類器的學(xué)習(xí)過程的流程圖；圖12是說明登記過程的流程圖；圖13是說明K維得分向量計(jì)算過程的流程圖；圖14是說明識(shí)別過程的流程圖；圖15是示出了用于登記的說話話語的例子的圖；圖16是示出了識(shí)別能力的圖；圖17是示出了本發(fā)明所應(yīng)用的數(shù)字靜態(tài)照相機(jī)的組成的例子的框7
圖18是示出了自動(dòng)快門控制單元的組成的例子的框圖；圖19是說明自動(dòng)快門登記過程的流程圖；圖20是說明自動(dòng)快門執(zhí)行過程的流程圖；以及圖21是示出了計(jì)算機(jī)的組成的例子的圖。
具體實(shí)施例方式下面將結(jié)合附圖對用于執(zhí)行本發(fā)明的示例性實(shí)施例(以下稱為實(shí)施例)進(jìn)行詳細(xì) 描述。此外將按以下順序提供描述。1.第一實(shí)施例2.第二實(shí)施例1.第一實(shí)施例說話識(shí)別器件的組成例子圖1是示出了第一實(shí)施例的說話識(shí)別器件10的組成例子的圖。說話識(shí)別器件10 根據(jù)通過對作為對象的說話者進(jìn)行視頻捕捉而獲得的活動(dòng)圖像來識(shí)別說話者的說話內(nèi)容。說話識(shí)別器件10包括學(xué)習(xí)系統(tǒng)11，用于執(zhí)行學(xué)習(xí)過程；登記系統(tǒng)12，用于實(shí)現(xiàn) 登記過程；以及識(shí)別系統(tǒng)13，用于實(shí)現(xiàn)識(shí)別過程。學(xué)習(xí)系統(tǒng)11包括圖像-語音分離單元21、臉部區(qū)域檢測單元22、嘴唇區(qū)域檢測單元23、嘴唇圖像生成單元24、音素標(biāo)簽分配單元25、音素詞典26、視位標(biāo)簽轉(zhuǎn)換單元27、視位標(biāo)簽添加單元28、學(xué)習(xí)樣本存儲(chǔ)單元29、視位分類器學(xué)習(xí)單元30以及視位分類器31。登記系統(tǒng)12包括視位分類器31、臉部區(qū)域檢測單元41、嘴唇區(qū)域檢測單元42、嘴唇圖像生成單元43、說話時(shí)期檢測單元44、時(shí)間序列特征量生成單元45、時(shí)間序列特征量學(xué)習(xí)單元46以及說話識(shí)別器47。識(shí)別系統(tǒng)13包括視位分類器31、臉部區(qū)域檢測單元41、嘴唇區(qū)域檢測單元42、嘴唇圖像生成單元43、說話時(shí)期檢測單元44、時(shí)間序列特征量生成單元45以及說話識(shí)別器 47。換句話說，視位分類器31以重疊方式屬于學(xué)習(xí)系統(tǒng)11、登記系統(tǒng)12和識(shí)別系統(tǒng) 13，并且通過從登記系統(tǒng)12中排除時(shí)間序列特征量學(xué)習(xí)單元46而設(shè)置的系統(tǒng)是識(shí)別系統(tǒng) 13。圖像-語音分離單元21接收通過對說任意話語的說話者進(jìn)行視頻捕捉而獲得的帶有語音的活動(dòng)圖像的輸入(以下稱為用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖像)，并將輸入的圖像分離成用于學(xué)習(xí)的說話活動(dòng)圖像和用于學(xué)習(xí)的說話語音。分離出的用于學(xué)習(xí)的說話活動(dòng)圖像被輸入到臉部區(qū)域檢測單元22，并且分離出的用于學(xué)習(xí)的說話語音被輸入到音素標(biāo)簽分配單元25。此外，可以通過用于學(xué)習(xí)的視頻捕捉來準(zhǔn)備用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖像，并例如可以使用內(nèi)容，如電視節(jié)目等。臉部區(qū)域檢測單元22將用于學(xué)習(xí)的說話活動(dòng)圖像拆分成幀，檢測每幀中包括人臉的臉部區(qū)域，如圖2A所示，并將每幀的臉部區(qū)域的位置信息連同用于學(xué)習(xí)的說話活動(dòng)圖像輸出到嘴唇區(qū)域檢測單元23。嘴唇區(qū)域檢測單元23從用于學(xué)習(xí)的說話活動(dòng)圖像的每幀的臉部區(qū)域中檢測包括域，如圖2B所示，并將每幀的嘴唇區(qū)域的位置信息連同用于學(xué)習(xí)的說話活動(dòng)圖像輸出到嘴唇圖像生成單元24。此外，對于用來檢測臉部區(qū)域和嘴唇區(qū)域的方法，可以應(yīng)用任何現(xiàn)有技術(shù)(例如在日本未經(jīng)審查的專利申請公布No. 2005-284348、日本未經(jīng)審查的專利申請公布 No. 2009-49489等中公開的技術(shù))。嘴唇圖像生成單元24對用于學(xué)習(xí)的說話活動(dòng)圖像的每一幀適當(dāng)執(zhí)行旋轉(zhuǎn)校正，使得連接嘴唇處嘴的拐角的邊緣點(diǎn)的線是水平的。此外嘴唇圖像生成單元24在旋轉(zhuǎn)校正之后從每一幀提取嘴唇區(qū)域，并通過將所提取的嘴唇區(qū)域調(diào)整到預(yù)先確定的圖像尺寸(例如32X32像素)來生成嘴唇圖像，如圖2C所示。以該方式生成的用于每一幀的嘴唇圖像被提供給視位標(biāo)簽添加單元28。音素標(biāo)簽分配單元25根據(jù)音素詞典26為用于學(xué)習(xí)的說話語音分配指示音素的音素標(biāo)簽，并將音素標(biāo)簽輸出到視位標(biāo)簽轉(zhuǎn)換單元27。對于分配音素標(biāo)簽的方法，可以應(yīng)用語音識(shí)別研究領(lǐng)域的方法(稱為自動(dòng)音素標(biāo)記)。視位標(biāo)簽轉(zhuǎn)換單元27將分配給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲過程中的唇形的視位標(biāo)簽，并將轉(zhuǎn)換的標(biāo)簽輸出到視位標(biāo)簽添加單元28。此外，預(yù)先準(zhǔn)備的轉(zhuǎn)換表用于轉(zhuǎn)換。圖3示出了用于將音素標(biāo)簽轉(zhuǎn)換成視位標(biāo)簽的轉(zhuǎn)換表的例子。當(dāng)使用圖中的轉(zhuǎn)換表時(shí)，分成40種的音素標(biāo)簽被轉(zhuǎn)換成分成19種的視位標(biāo)簽。例如，音素標(biāo)簽[a]和[a:] 被轉(zhuǎn)換成視位標(biāo)簽[a]。另外，例如，音素標(biāo)簽[by]、[my]和[py]被轉(zhuǎn)換成視位標(biāo)簽[py]。此外，轉(zhuǎn)換表并不限于圖3中所示的一種，可以使用任何轉(zhuǎn)換表。視位標(biāo)簽添加單元28將從視位標(biāo)簽轉(zhuǎn)換單元27輸入的分配給說話語音的視位標(biāo) 簽添加到從嘴唇圖像生成單元24輸入的用于學(xué)習(xí)的說話活動(dòng)圖像的每一幀的嘴唇圖像，并將添加有視位標(biāo)簽的嘴唇圖像輸出到學(xué)習(xí)樣本存儲(chǔ)單元29。學(xué)習(xí)樣本存儲(chǔ)單元29存儲(chǔ)多個(gè)帶有添加的視位標(biāo)簽的嘴唇圖像(以下稱為帶有視位標(biāo)簽的嘴唇圖像)作為學(xué)習(xí)樣本。更具體地說，如圖4所示，M個(gè)學(xué)習(xí)樣本(xi，yk)處于這樣的狀態(tài)對應(yīng)于視位標(biāo) 簽的分類標(biāo)簽yk(k = 1，2，...，K)被分配給M張嘴唇圖像xi (i = 1，2，...，M)。此外，在該情況下，分類標(biāo)簽的種類的數(shù)量K為19。視位分類器學(xué)習(xí)單元30從存儲(chǔ)在學(xué)習(xí)樣本存儲(chǔ)單元29中的作為多個(gè)學(xué)習(xí)樣本的帶有視位標(biāo)簽的嘴唇圖像獲得圖像特征量，通過AdaBoostECOC來學(xué)習(xí)多個(gè)弱分類器，并生成由多個(gè)弱分類器形成的視位分類器31。作為嘴唇圖像的圖像特征量，例如，可以使用本發(fā)明的發(fā)明者建議的像素差特征 (PixDif 特征)。此夕卜，在由 Sabe 禾口 Hidai 在 Proceedings of the IOth Symposium on Sensing via Image Information, pp. 547-552,2004 Φ M ^ StJ "Learning of a Real-time Arbitrary Posture and Face Detector using Pixel Difference Features，，、日本未經(jīng) 審查的專利申請公布No. 2005-157679等中公開了 PixDif特征(像素差特征)。像素差特征可以通過計(jì)算圖像(在這種情況下為嘴唇圖像)上的兩個(gè)像素的像素值(亮度值)Il和12的差(11-12)來獲得。在對應(yīng)于兩個(gè)像素的每種組合的二進(jìn)制分類
9的弱分類器h(x)中，如以下示出的公式(1)所示，通過像素差特征11-12和閾值Th來確定真(+1)或假H)。h (χ) = -1，如果 11-12 彡 Thh (χ) =+1，如果 11-12 > Th . . . (1)例如，當(dāng)嘴唇圖像的尺寸是32X32像素時(shí)，可以獲得一組1024X1023像素的像素差特征。多組兩個(gè)像素的那些組合以及閾值Th是每個(gè)二進(jìn)制分類的弱分類器的參數(shù)，這些參數(shù)中的最佳的一個(gè)通過推進(jìn)(boosting)學(xué)習(xí)來選擇。視位分類器31在由說話時(shí)期檢測單元44通知的說話時(shí)期過程中計(jì)算對應(yīng)于從嘴唇圖像生成單元43輸入的嘴唇圖像的K維得分向量，并將結(jié)果輸出到時(shí)間序列特征量生成單元45。這里，K維得分向量是指示輸入嘴唇圖像對應(yīng)于K(在該情況下K = 19)種視位中的哪一種的索引，且由表示與K種的每個(gè)視位對應(yīng)的概率的K維得分形成。屬于登記系統(tǒng)12和識(shí)別系統(tǒng)13的臉部區(qū)域檢測單元41、嘴唇區(qū)域檢測單元42以及嘴唇圖像生成單元43與上述屬于學(xué)習(xí)系統(tǒng)11的臉部區(qū)域檢測單元22、嘴唇區(qū)域檢測單元23以及嘴唇圖像生成單元24相同。此外，向登記系統(tǒng)12輸入通過對已經(jīng)確定的說話內(nèi)容(用于登記的說話話語)和通過對說出該內(nèi)容的說話者進(jìn)行視頻捕捉而產(chǎn)生的活動(dòng)圖像(以下稱為用于登記的說話活動(dòng)圖像)進(jìn)行組合而獲得的多個(gè)登記數(shù)據(jù)。此外，向識(shí)別系統(tǒng)13輸入通過對說出作為要被識(shí)別的對象的說話內(nèi)容的說話者進(jìn)行視頻捕捉而產(chǎn)生的活動(dòng)圖像(以下稱為用于識(shí)別的說話活動(dòng)圖像)。換句話說，在登記過程中，臉部區(qū)域檢測單元41將用于登記的說話活動(dòng)圖像拆分成幀，檢測每一幀的臉部區(qū)域，并將每一幀中的臉部區(qū)域的位置信息連同用于登記的說話活動(dòng)圖像輸出到嘴唇區(qū)域檢測單元42。嘴唇區(qū)域檢測單元42從用于登記的說話活動(dòng)圖像的每一幀中的臉部區(qū)域中檢測嘴唇區(qū)域，并將每一幀中的嘴唇區(qū)域的位置信息連同用于登記的說話活動(dòng)圖像輸出到嘴唇圖像生成單元43。嘴唇圖像生成單元43在對用于登記的說話活動(dòng)圖像的每一幀適當(dāng)執(zhí)行旋轉(zhuǎn)校正之后從每一幀提取嘴唇區(qū)域，通過調(diào)整大小來生成嘴唇圖像，并將該圖像輸出到視位分類器31和說話時(shí)期檢測單元44。此外，在識(shí)別過程中，臉部區(qū)域檢測單元41將用于識(shí)別的說話活動(dòng)圖像(說話者的說話內(nèi)容不清楚的活動(dòng)圖像)拆分成幀，檢測每一幀的臉部區(qū)域，并將每一幀的臉部區(qū) 域的位置信息連同用于識(shí)別的說話活動(dòng)圖像輸出到嘴唇區(qū)域檢測單元42。嘴唇區(qū)域檢測單元42從用于識(shí)別的說話活動(dòng)圖像的每一幀中的臉部區(qū)域檢測嘴唇區(qū)域，并將每一幀中的嘴唇區(qū)域的位置信息連同用于識(shí)別的說話活動(dòng)圖像輸出到嘴唇圖像生成單元43。嘴唇圖像生成單元43在對用于識(shí)別的說話活動(dòng)圖像的每一幀適當(dāng)執(zhí)行旋轉(zhuǎn)校正之后從每一幀提取嘴唇區(qū)域，通過調(diào)整大小來生成嘴唇圖像，并將該圖像輸出到視位分類器31和說話時(shí)期檢測單元44。說話時(shí)期檢測單元44基于從嘴唇圖像生成單元43輸入的用于識(shí)別的說話活動(dòng)圖
10像和用于登記的說話活動(dòng)圖像的每一幀中的嘴唇圖像來指明說話者進(jìn)行說話的時(shí)期(以下稱為說話時(shí)期)，并通知視位分類器31和時(shí)間序列特征量生成單元45每一幀中的嘴唇圖像是否對應(yīng)于說話時(shí)期。時(shí)間序列特征量生成單元45在由說話時(shí)期檢測單元44通知的說話時(shí)間過程中通過以時(shí)間序列來安排從視位分類器31輸入的K維得分向量來生成時(shí)間序列特征量。圖5示出了對應(yīng)于說話者使得說話“引起注意”時(shí)的說話時(shí)期的時(shí)間序列特征量。換句話說，如果說話時(shí)期是一秒且?guī)俾蕿?0幀/秒，則生成包括60K得分的時(shí)間序列特征量。所生成的時(shí)間序列特征量在登記過程中被輸出到時(shí)間序列特征量學(xué)習(xí)單元46，并在識(shí)別過程中被輸出到說話識(shí)別器47。時(shí)間序列特征量學(xué)習(xí)單元46通過將特征量與在登記過程中輸入的用于登記的說話話語(用于登記的說話活動(dòng)圖像中的說話者的說話內(nèi)容)進(jìn)行關(guān)聯(lián)、使用隱馬爾可夫模型(HMM)來針對從時(shí)間序列特征量生成單元45輸入的時(shí)間序列特征量進(jìn)行建模。此外，建模技術(shù)不僅限于HMM，可以用于對時(shí)間序列特征量進(jìn)行建模的任何技術(shù)都是可以的。建模后的時(shí)間序列特征量被存儲(chǔ)在內(nèi)建于說話識(shí)別器47中的學(xué)習(xí)數(shù)據(jù)庫48中。說話識(shí)別器47在識(shí)別過程中在存儲(chǔ)于學(xué)習(xí)數(shù)據(jù)庫48中的時(shí)間序列特征量的模型中指明與從時(shí)間序列特征量生成單元45輸入的時(shí)間序列特征量最相似的時(shí)間序列特征量。此外，說話識(shí)別器47輸出與指定的模型關(guān)聯(lián)的用于登記的說話話語作為對應(yīng)于用于識(shí) 別的說話活動(dòng)圖像的說話識(shí)別的結(jié)果。操作描述圖6是說明說話識(shí)別器件10的操作的流程圖。在步驟Sl中，說話識(shí)別器件10的學(xué)習(xí)系統(tǒng)11通過執(zhí)行學(xué)習(xí)過程而生成視位分類器31。在步驟S2中，說話識(shí)別器件10的登記系統(tǒng)12通過執(zhí)行登記過程來生成對應(yīng)于用于登記的說話活動(dòng)圖像的時(shí)間序列特征量，使用HMM來進(jìn)行建模，并將通過把特征量與用于登記的說話話語進(jìn)行關(guān)聯(lián)而得到的時(shí)間序列特征量模型登記到學(xué)習(xí)數(shù)據(jù)庫48中。在步驟S3中，說話識(shí)別器件10的識(shí)別系統(tǒng)13通過執(zhí)行識(shí)別過程而在用于識(shí)別的說話活動(dòng)圖像中識(shí)別說話者的說話內(nèi)容。下面將對上述從步驟Sl到步驟S3的過程進(jìn)行詳細(xì)描述。學(xué)習(xí)過程細(xì)節(jié)圖7是詳細(xì)說明步驟Sl的學(xué)習(xí)過程的流程圖。在步驟Sll中，用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖像被輸入到圖像-語音分離單元21中。圖像-語音分離單元21將用于學(xué)習(xí)的帶有語音的說話活動(dòng)圖像分離成用于學(xué)習(xí) 的說話活動(dòng)圖像和用于學(xué)習(xí)的說話語音，并將用于學(xué)習(xí)的說話活動(dòng)圖像輸出到臉部區(qū)域檢測單元22，而將用于學(xué)習(xí)的說話語音輸出到音素標(biāo)簽分配單元25。在步驟S12中，進(jìn)行對用于學(xué)習(xí)的說話活動(dòng)圖像的處理。在步驟S13中，進(jìn)行對用于學(xué)習(xí)的說話語音的處理。實(shí)際上，步驟S12和步驟S13彼此合作同時(shí)執(zhí)行。此外，處理后的用于學(xué)習(xí)的說話活動(dòng)圖像(嘴唇圖像)的輸出和與之對應(yīng)的經(jīng)處理的用于學(xué)習(xí)的說話語音(附帶有視位標(biāo)簽的用于學(xué)習(xí)的說話語音)的輸出被同時(shí)提供給視位標(biāo)簽添加單元28。圖8是說明在步驟S12中處理用于學(xué)習(xí)的說話活動(dòng)圖像的流程圖。
在步驟S21中，臉部區(qū)域檢測單元22將用于學(xué)習(xí)的說話活動(dòng)圖像拆分成幀，并使得每一幀作為用于處理的目標(biāo)。臉部區(qū)域檢測單元22在步驟S22中從作為處理目標(biāo)的幀中檢測臉部區(qū)域，并在步驟S23中判斷是否已經(jīng)檢測到臉部區(qū)域。當(dāng)確定已經(jīng)檢測到臉部區(qū)域，則該過程進(jìn)行到步驟S24。相反，當(dāng)確定沒有檢測到臉部區(qū)域，則該過程進(jìn)行到步驟 S26。在步驟S24中，臉部區(qū)域檢測單元22將臉部區(qū)域的位置信息連同作為處理目標(biāo) 的用于學(xué)習(xí)的說話活動(dòng)圖像的一幀部分輸出到嘴唇區(qū)域檢測單元23。嘴唇區(qū)域檢測單元 23從作為處理目標(biāo)的幀的臉部區(qū)域檢測嘴唇區(qū)域，并在步驟S25中確定是否檢測到嘴唇區(qū) 域。當(dāng)確定檢測到嘴唇區(qū)域，則該過程進(jìn)行到步驟S27。相反，當(dāng)沒有檢測到嘴唇區(qū)域，則該過程進(jìn)行到步驟S26。此外，當(dāng)該過程從步驟S23或步驟S25進(jìn)行到步驟S26時(shí)，使用在作為處理目標(biāo)的幀之前的一幀中的臉部區(qū)域或嘴唇區(qū)域中的至少一個(gè)的位置信息。在步驟S27中，嘴唇區(qū)域檢測單元23將嘴唇區(qū)域的位置信息連同作為處理目標(biāo)的用于學(xué)習(xí)的說話活動(dòng)圖像的一幀部分輸出到嘴唇圖像生成單元24。嘴唇圖像生成單元24 對于作為處理目標(biāo)的用于學(xué)習(xí)的說話活動(dòng)圖像的一幀適當(dāng)進(jìn)行旋轉(zhuǎn)校正，使得連接嘴唇處嘴的拐角的邊緣點(diǎn)的線是水平的。此外，嘴唇圖像生成單元24在旋轉(zhuǎn)校正之后從每一幀提取嘴唇區(qū)域，通過將所提取的嘴唇區(qū)域調(diào)整到預(yù)先確定的圖像尺寸來生成嘴唇圖像，并將該圖像輸出到視位標(biāo)簽添加單元28。之后，該過程返回步驟S21，并且從步驟S21到步驟S27的過程被重復(fù)，直到用于學(xué) 習(xí)的說話活動(dòng)圖像的信號(hào)輸入完成。接下來，圖9是詳細(xì)說明在步驟S13中處理用于學(xué)習(xí)的說話語音的流程圖。在步驟S31中，音素標(biāo)簽分配單元25通過參考音素詞典26將指示音素的音素標(biāo) 簽分配給用于學(xué)習(xí)的說話語音，并將該標(biāo)簽輸出給視位標(biāo)簽轉(zhuǎn)換單元27。在步驟S32中，視位標(biāo)簽轉(zhuǎn)換單元27通過使用預(yù)先存儲(chǔ)的轉(zhuǎn)換表來將分配給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲過程中的唇形的視位標(biāo)簽，并將該標(biāo)簽輸出到視位標(biāo)簽添加單元28。之后，該處理返回步驟S31，并且從步驟S31到步驟S32的過程被重復(fù)，直到用于學(xué) 習(xí)的說話語音的輸入結(jié)束。返回圖7，在步驟S14中，視位標(biāo)簽添加單元28使用從視位標(biāo)簽轉(zhuǎn)換單元27輸入的、分配給用于學(xué)習(xí)的說話語音的視位標(biāo)簽并將其添加到從嘴唇圖像生成單元24輸入的對應(yīng)于用于學(xué)習(xí)的說話活動(dòng)圖像的每一幀的嘴唇圖像，并將添加有視位標(biāo)簽的嘴唇圖像輸出到學(xué)習(xí)樣本存儲(chǔ)單元29。學(xué)習(xí)樣本存儲(chǔ)單元29將帶有視位標(biāo)簽的嘴唇圖像存儲(chǔ)為學(xué)習(xí) 樣本。在預(yù)定數(shù)量(M)的學(xué)習(xí)樣本被存儲(chǔ)到學(xué)習(xí)樣本存儲(chǔ)單元29中之后，執(zhí)行步驟S15以及之后的過程。在步驟S15中，視位分類器學(xué)習(xí)單元30獲得作為存儲(chǔ)在學(xué)習(xí)樣本存儲(chǔ)單元29中的學(xué)習(xí)樣本的多個(gè)嘴唇圖像的圖像特征量，通過AdaBoost ECOC來學(xué)習(xí)多個(gè)弱分類器，并生成包括多個(gè)弱分類器的視位分類器31。圖10是詳細(xì)說明步驟S15的過程(AdaBoost ECOC學(xué)習(xí)過程)的流程圖。在步驟S41中，視位分類器學(xué)習(xí)單元30從學(xué)習(xí)樣本存儲(chǔ)單元29中獲取M個(gè)學(xué)習(xí)
12樣本(xi，yk)，如圖4所示。在步驟S42中，視位分類器學(xué)習(xí)單元30根據(jù)以下公式(2)對由第M行及第K列表示的樣本權(quán)重Pt(i，k)進(jìn)行初始化。具體來說，對于樣本權(quán)重Pt(i，k)的初始值Pl(i，k)，對應(yīng)于實(shí)際學(xué)習(xí)樣本(xi，yk)的一個(gè)初始值被設(shè)置為0，而其它初始值被設(shè)置使得它們的和等于1的統(tǒng)一值。Pl (i, k) = 1/M(K-1), yk ^ K …(2)以下描述的從步驟S43到步驟S48的過程被重復(fù)任意次數(shù)T。此外，任意重復(fù)數(shù)T 可以是在嘴唇圖像上獲得的最大數(shù)量的像素差特征，并且獲得了與重復(fù)數(shù)T相同數(shù)量的弱分類器。在步驟S43中，視位分類器學(xué)習(xí)單元30在第1行第K列生成ECOC表。此外，ECOC 表的第k列中的值yt(k)是-1或+1，并且該表中的值被隨機(jī)分配，使得-1的數(shù)量和+1的
數(shù)量相同。μ t(k) = {-1，+1}. . . (3)在步驟S44中，視位分類器學(xué)習(xí)單元30根據(jù)以下公式(4)計(jì)算由第M行第1列表示的二進(jìn)制分類的權(quán)重Dt (i)。此外，在公式(4)中，在以下的[]中的公式是邏輯表示，1 代表真，0代表假。[表達(dá)式1]
Σ P(i.k) [/Zt(Vi)^J"(k)]Dt (i) =
ZZP(j,k)[/it(yj)^//(k)]
j k…(4)在步驟S45中，視位分類器學(xué)習(xí)單元30在用于從步驟S44中獲得的二進(jìn)制分類的權(quán)重Dt(i)的情況下學(xué)習(xí)具有以下公式(5)中所示的加權(quán)誤差率^t的二進(jìn)制分類的弱分類器hto[表達(dá)式2]^=. , Σ Dt(I)
ι:ht(Xi)^//(Vi) ... (5)圖11是詳細(xì)說明步驟S45的過程的流程圖。在步驟S61中，視位分類器學(xué)習(xí)單元30從嘴唇圖像的所有像素中隨機(jī)選擇兩個(gè)像素。例如，當(dāng)嘴唇圖像具有32X32像素時(shí)，從1024X 1023像素組中選擇一個(gè)像素以用于兩個(gè)像素的選擇。這里，兩個(gè)像素的像素位置是Sl和S2，并且像素值(亮度值)是Il和12。在步驟S62中，視位分類器學(xué)習(xí)單元30針對所有學(xué)習(xí)樣本、通過使用在步驟S61 中選擇的兩個(gè)像素的像素值Il和12來計(jì)算像素差特征(11-12)，并獲得頻率分布。在步驟S63中，視位分類器學(xué)習(xí)單元30基于像素差特征的頻率分布來獲得使得在公式(5)中所示的加權(quán)誤差率ε t為最小值emin的閾值Thmin。在步驟S64中，視位分類器學(xué)習(xí)單元30基于像素差特征的頻率分布來獲得使得在公式(5)中所示的加權(quán)誤差率ε t為最大值￡111 的閾值111111 。此外，視位分類器學(xué)習(xí)單
13元30根據(jù)以下公式(6)對閾值Thmax進(jìn)行反轉(zhuǎn)。ε ‘ max = 1_ ε maxS' 1 = S2S' 2 = SlTh' max = -THmax ... (6)在步驟65中，視位分類器學(xué)習(xí)單元30根據(jù)上述加權(quán)誤差率ε t的最小值ε min 和最大值ε max的大小關(guān)系來確定二進(jìn)制分類的弱分類器的參數(shù)閾值Th和兩個(gè)像素的位置Sl和S2。換句話說，當(dāng)ε min < ε ‘ max時(shí)，兩個(gè)像素的位置Sl和S2以及閾值Thmin被用作參數(shù)。此外，當(dāng)emin彡ε ‘ max時(shí)，兩個(gè)像素的位置S' 1和S' 2以及閾值Th' max 被用作參數(shù)。在步驟S66中，視位分類器學(xué)習(xí)單元30判斷上述從步驟S61到步驟S65的過程是否重復(fù)了預(yù)定次數(shù)，在視位分類器學(xué)習(xí)單元30確定這些過程已經(jīng)重復(fù)了預(yù)定次數(shù)之前，過程返回到步驟S61，并且重復(fù)步驟S61及之后的步驟。此外，當(dāng)視位分類器學(xué)習(xí)單元30確定從步驟S61到步驟S65的過程已經(jīng)重復(fù)了預(yù)定次數(shù)，該過程進(jìn)行到步驟S67。在步驟S67中，最終，視位分類器學(xué)習(xí)單元30從在上述已經(jīng)重復(fù)了預(yù)定次數(shù)的步驟S65的過程中確定的二進(jìn)制分類的弱分類器(的參數(shù))中，采用使得加權(quán)誤差率ε t為最小值的一個(gè)參數(shù)作為一個(gè)二進(jìn)制分類的弱分類器ht (的參數(shù))。如上所述，在確定了一個(gè)二進(jìn)制分類的弱分類器ht之后，過程返回到如圖10所示的步驟S46。在步驟S46中，視位分類器學(xué)習(xí)單元30基于與在步驟S45的過程中確定的二進(jìn)制分類的弱分類器ht對應(yīng)的加權(quán)誤差率ε t、根據(jù)以下公式(7)來計(jì)算置信水平at。[表達(dá)式3]at= 1/21η(1- ε t/ ε t) …(7)在步驟S47中，視位分類器學(xué)習(xí)單元30通過將在步驟S45的過程中確定的二進(jìn)制分類的弱分類器ht乘以在步驟S46的過程中計(jì)算的置信水平a t來獲得具有置信水平的二進(jìn)制分類的弱分類器ft (xi)，如以下公式(8)所示。ft (xi) = a t ht …(8)在步驟S48中，視位分類器學(xué)習(xí)單元30根據(jù)以下公式(9)對由第M行第K列表示的樣本權(quán)重Pt(i，k)進(jìn)行更新。
權(quán)利要求
一種信息處理設(shè)備，包括圖像獲取單元，配置成獲取圖像數(shù)據(jù)幀的時(shí)間序列；檢測單元，配置成從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像；識(shí)別單元，配置成根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語；以及控制器，配置成根據(jù)通過識(shí)別單元識(shí)別的話語來控制信息處理設(shè)備的操作。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備，其中圖像處理設(shè)備是數(shù)字靜態(tài)照相機(jī)，圖像獲取單元是數(shù)字靜態(tài)照相機(jī)的成像器件。
3.根據(jù)權(quán)利要求2所述的信息處理設(shè)備，其中控制器被配置成在識(shí)別單元識(shí)別預(yù)定話語時(shí)命令數(shù)字靜態(tài)照相機(jī)的成像器件捕捉靜止圖像。
4.根據(jù)權(quán)利要求1所述的信息處理設(shè)備，還包括臉部區(qū)域檢測單元，配置成在圖像數(shù)據(jù)幀序列中檢測多張臉，其中識(shí)別單元被配置成根據(jù)所存儲(chǔ)的臉部識(shí)別數(shù)據(jù)來從多張臉中識(shí)別特定的臉，并根據(jù)所檢測的該特定臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
5.根據(jù)權(quán)利要求1所述的信息處理設(shè)備，還包括臉部區(qū)域檢測單元，配置成在圖像數(shù)據(jù)幀序列中檢測多張臉，其中識(shí)別單元被配置成根據(jù)所檢測的多張臉中的任何一張臉的嘴唇區(qū)域的嘴唇圖像來識(shí) 別話語。
6.根據(jù)權(quán)利要求1所述的信息處理設(shè)備，還包括臉部區(qū)域檢測單元，配置成在圖像數(shù)據(jù)幀序列中檢測多張臉，其中識(shí)別單元被配置成根據(jù)所檢測的多張臉的子集的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
7.根據(jù)權(quán)利要求1所述的信息處理設(shè)備，還包括登記單元，配置成在通過識(shí)別單元識(shí)別話語時(shí)對使得控制器控制信息處理設(shè)備的操作的話語進(jìn)行登記。
8.根據(jù)權(quán)利要求1所述的信息處理設(shè)備，還包括存儲(chǔ)器，配置成存儲(chǔ)多個(gè)視位，每個(gè)視位與特定音素相關(guān)聯(lián)，其中識(shí)別單元被配置成通過將檢測的嘴唇區(qū)域的嘴唇圖像與存儲(chǔ)在存儲(chǔ)器中的多個(gè)視位進(jìn)行比較來識(shí)別話語。
9.根據(jù)權(quán)利要求1所述的信息處理設(shè)備，還包括圖像分離單元，配置成接收帶有語音的說話活動(dòng)圖像，將該帶有語音的說話活動(dòng)圖像分離成說話活動(dòng)圖像和說話語音，并輸出該說話活動(dòng)圖像和說話語音；臉部區(qū)域檢測單元，配置成從圖像分離單元接收說話活動(dòng)圖像，將說話活動(dòng)圖像拆分成幀，從每一幀檢測臉部區(qū)域，并輸出說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置 fn息；嘴唇區(qū)域檢測單元，配置成從臉部區(qū)域檢測單元接收說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息，從這一幀的臉部區(qū)域檢測嘴唇區(qū)域，并輸出一幀說話活動(dòng)圖像以及嘴唇區(qū)域的位置信息；嘴唇圖像生成單元，配置成接收來自嘴唇區(qū)域檢測單元的嘴唇區(qū)域的位置信息以及說話活動(dòng)圖像的一幀，對說話活動(dòng)圖像的所述一幀執(zhí)行旋轉(zhuǎn)校正，生成嘴唇圖像，并將嘴唇圖像輸出到視位標(biāo)簽添加單元；音素標(biāo)簽分配單元，配置成從圖像分離單元接收說話語音，將指示音素的音素標(biāo)簽分配給說話語音，并輸出該標(biāo)簽；視位標(biāo)簽轉(zhuǎn)換單元，配置成從音素標(biāo)簽分配單元接收標(biāo)簽，將分配給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲期間的唇形的視位標(biāo)簽，并輸出該視位標(biāo)簽；視位標(biāo)簽添加單元，配置成接收從嘴唇圖像生成單元輸出的嘴唇圖像以及從視位標(biāo)簽轉(zhuǎn)換單元輸出的視位標(biāo)簽，將視位標(biāo)簽添加到嘴唇圖像，并輸出添加有視位標(biāo)簽的嘴唇圖像；學(xué)習(xí)樣本存儲(chǔ)單元，配置成從視位標(biāo)簽添加單元接收并存儲(chǔ)添加有視位標(biāo)簽的嘴唇圖像，其中識(shí)別單元被配置成通過將從每個(gè)圖像數(shù)據(jù)幀檢測到的嘴唇區(qū)域的位置與學(xué)習(xí)樣本存儲(chǔ)單元存儲(chǔ)的數(shù)據(jù)進(jìn)行比較來識(shí)別話語。
10.一種非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，包括計(jì)算機(jī)程序指令，該計(jì)算機(jī)程序指令在通過信息處理設(shè)備執(zhí)行時(shí)使得信息處理設(shè)備執(zhí)行以下的方法，所述方法包括獲取圖像數(shù)據(jù)幀的時(shí)間序列；從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像；根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語；以及根據(jù)識(shí)別的話語來控制信息處理設(shè)備的操作。
11.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，其中圖像處理設(shè)備是數(shù)字靜態(tài) 照相機(jī)，并且圖像數(shù)據(jù)幀的時(shí)間序列通過數(shù)字靜態(tài)照相機(jī)的成像器件來獲取。
12.根據(jù)權(quán)利要求11所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，還包括在識(shí)別預(yù)定話語時(shí)控制數(shù)字靜態(tài)照相機(jī)的成像器件捕捉靜止圖像。
13.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，還包括在圖像數(shù)據(jù)幀序列中檢測多張臉；根據(jù)所存儲(chǔ)的臉部識(shí)別數(shù)據(jù)來從多張臉中識(shí)別特定的臉；以及根據(jù)所檢測的特定臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
14.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，還包括在圖像數(shù)據(jù)幀序列中檢測多張臉；以及根據(jù)所檢測多張臉中的任何一張臉的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
15.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，還包括在圖像數(shù)據(jù)幀序列中檢測多張臉；以及根據(jù)所檢測的多張臉的子集的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語。
16.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，還包括對在識(shí)別話語時(shí)使得控制器控制信息處理設(shè)備的操作的話語進(jìn)行登記。
17.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，還包括存儲(chǔ)多個(gè)視位，每個(gè)視位與特定音素相關(guān)聯(lián)，其中識(shí)別包括通過將檢測的嘴唇區(qū)域的嘴唇圖像與存儲(chǔ)在存儲(chǔ)器中的多個(gè)視位進(jìn)行比較來識(shí)別話語。
18.根據(jù)權(quán)利要求10所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，還包括在信息處理設(shè)備的圖像分離單元接收帶有語音的說話活動(dòng)圖像；將該帶有語音的說話活動(dòng)圖像分離成說話活動(dòng)圖像和說話語音；以及輸出該說話活動(dòng)圖像和說話語音，在信息處理設(shè)備的臉部區(qū)域檢測單元從圖像分離單元接收說話活動(dòng)圖像；將說話活動(dòng)圖像拆分成幀；從每一幀檢測臉部區(qū)域；以及輸出說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息，在信息處理設(shè)備的嘴唇區(qū)域檢測單元從臉部區(qū)域檢測單元接收說話活動(dòng)圖像的一幀以及所檢測的臉部區(qū)域的位置信息；從所述一幀的臉部區(qū)域檢測嘴唇區(qū)域；以及輸出說話活動(dòng)圖像的一幀以及嘴唇區(qū)域的位置信息，在信息處理設(shè)備的嘴唇圖像生成單元接收來自嘴唇區(qū)域檢測單元的嘴唇區(qū)域的位置信息以及說話活動(dòng)圖像的一幀；對說話活動(dòng)圖像的所述一幀執(zhí)行旋轉(zhuǎn)校正；生成嘴唇圖像；以及將嘴唇圖像輸出到視位標(biāo)簽添加單元，在信息處理設(shè)備的音素標(biāo)簽分配單元從圖像分離單元接收說話語音；將指示音素的音素標(biāo)簽分配給說話語音；以及輸出該標(biāo)簽，在信息處理設(shè)備的視位標(biāo)簽轉(zhuǎn)換單元從音素標(biāo)簽分配單元接收標(biāo)簽；將分配給用于學(xué)習(xí)的說話語音的音素標(biāo)簽轉(zhuǎn)換成指示發(fā)聲期間的唇形的視位標(biāo)簽；以及輸出該視位標(biāo)簽，在信息處理設(shè)備的視位標(biāo)簽添加單元接收從嘴唇圖像生成單元輸出的嘴唇圖像以及從視位標(biāo)簽轉(zhuǎn)換單元輸出的視位標(biāo)簽；將視位標(biāo)簽添加到嘴唇圖像；以及輸出添加有視位標(biāo)簽的嘴唇圖像，在信息處理設(shè)備的學(xué)習(xí)樣本存儲(chǔ)單元從視位標(biāo)簽添加單元接收并存儲(chǔ)添加有視位標(biāo)簽的嘴唇圖像，其中所述識(shí)別通過將從每個(gè)圖像數(shù)據(jù)幀檢測到的嘴唇區(qū)域的位置與學(xué)習(xí)樣本存儲(chǔ)單元存儲(chǔ)的數(shù)據(jù)進(jìn)行比較來識(shí)別話語。
19. 一種信息處理設(shè)備，包括用于獲取圖像數(shù)據(jù)幀的時(shí)間序列的裝置；用于從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像的裝置；用于根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像的位置來識(shí)別話語的裝置；以及用于根據(jù)通過用于識(shí)別的裝置識(shí)別的話語來控制信息處理設(shè)備的操作的裝置。
全文摘要
本申請涉及基于視覺唇形識(shí)別的設(shè)備控制。提供了一種信息處理設(shè)備，包括圖像獲取單元，用于獲取圖像數(shù)據(jù)幀的時(shí)間序列；檢測單元，用于從圖像數(shù)據(jù)的每一幀檢測嘴唇區(qū)域和嘴唇圖像；識(shí)別單元，用于根據(jù)所檢測的嘴唇區(qū)域的嘴唇圖像來識(shí)別話語；以及控制器，用于根據(jù)通過識(shí)別單元識(shí)別的話語來控制信息處理設(shè)備的操作。
文檔編號(hào)G06F3/01GK101937268SQ20101021339
公開日2011年1月5日申請日期2010年6月23日優(yōu)先權(quán)日2009年6月30日
發(fā)明者伊藤真人, 佐部浩太郎, 青山一美申請人:索尼公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：青山一美;佐部浩太郎;伊藤真人
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

上一篇：信息處理裝置、圖像顯示裝置及信息處理方法
上一篇：信息處理設(shè)備、信息處理方法和程序的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

機(jī)器視覺檢測設(shè)備相關(guān)技術(shù)

視覺檢測設(shè)備相關(guān)技術(shù)

ccd視覺檢測設(shè)備相關(guān)技術(shù)

機(jī)器視覺設(shè)備相關(guān)技術(shù)

視覺設(shè)備相關(guān)技術(shù)

視覺自動(dòng)化設(shè)備相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于視覺唇形識(shí)別的設(shè)備控制的制作方法