專利名稱:組合唇讀與語音識(shí)別的多模式界面系統(tǒng)的制作方法
組合唇讀與語音識(shí)別的多模式界面系統(tǒng)技術(shù)領(lǐng)域
本發(fā)明總體涉及一種組合唇讀與語音識(shí)別的多模式界面系統(tǒng)。更具體地,在優(yōu) 選實(shí)施例中,本發(fā)明涉及一種組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其能夠主要通過 且優(yōu)選地僅通過語音和嘴唇運(yùn)動(dòng)適當(dāng)?shù)匕l(fā)布導(dǎo)航操作指令,因此,優(yōu)選地使得駕駛員在 導(dǎo)航操作過程中向前看,并且適當(dāng)?shù)販p少在行駛過程中與導(dǎo)航操作相關(guān)的車輛事故。
背景技術(shù):
目前,隨著汽車技術(shù)的發(fā)展和日常生活中車輛使用的增加,對安全的關(guān)注與需 求也已經(jīng)在增加。并且,隨著電子技術(shù)的發(fā)展,各種類型的裝置常規(guī)地安裝于車輛上, 例如,但并不限于,音頻設(shè)備、電話以及導(dǎo)航系統(tǒng)。
常規(guī)地,導(dǎo)航系統(tǒng)優(yōu)選地通過經(jīng)由觸摸屏輸入指令來進(jìn)行操作。雖然使用觸摸 屏可以使輸入錯(cuò)誤最小化,但是使用者必須同時(shí)使用他/她的手和眼睛,這使得在行駛 過程中操作導(dǎo)航系統(tǒng)變得困難,并且還分散使用者的注意力,因此增加了事故的風(fēng)險(xiǎn)。 作為這種方式的替換,已經(jīng)使用了使用語音識(shí)別的指令輸入方法。然而,這種方法對音 頻噪聲敏感,因此在噪聲環(huán)境下可能發(fā)生識(shí)別故障。
基于嘴唇圖像數(shù)據(jù)使用唇讀的語音識(shí)別技術(shù)的研究仍處于算法研究的初始階 段。為了實(shí)現(xiàn)實(shí)時(shí)操作的唇讀系統(tǒng),必須穩(wěn)定地檢測使用者的嘴唇,適當(dāng)?shù)卣业阶齑降?特征點(diǎn),并且適當(dāng)?shù)匮杆俑櫵鼈?。因此,一系列步驟,包括但不限于面部檢測、嘴唇 檢測、嘴唇跟蹤、特征定義、數(shù)據(jù)歸一化、語音片段檢測、識(shí)別等,優(yōu)選地一起工作。 然而,目前,還不存在對所有步驟的一致性研究。
常規(guī)地,已經(jīng)提出了基于主動(dòng)外觀模型(AAM)或主動(dòng)形狀模型(ASM)的嘴唇 擬合算法。其性能對初始位置敏感,并且不能魯棒地跟蹤嘴唇在說話中的快速運(yùn)動(dòng),從 而使得在視頻跟蹤時(shí)難以獲得穩(wěn)定的特征值。雖然為了在視頻獲得嘴唇特征的變化作為 特征值之后識(shí)別該特征值,需要用于一致性地檢測語音片段并將其分割為幀的自動(dòng)語音 檢測算法,但對該算法尚無研究。此外,雖然已經(jīng)對使用隱馬爾可夫模型(HMM)或神 經(jīng)網(wǎng)絡(luò)的識(shí)別器算法開展了研究,但是這些算法需要一定量的用于學(xué)習(xí)的學(xué)習(xí)數(shù)據(jù),并 且進(jìn)一步需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí),以實(shí)現(xiàn)精細(xì)的識(shí)別器。已知,學(xué)習(xí)現(xiàn)有的基于音頻 的說話者無關(guān)(speaker-independent)的語音識(shí)別器需要每個(gè)單詞來自多于2000人的學(xué)習(xí) 數(shù)據(jù)。因此,當(dāng)旨在實(shí)現(xiàn)說話者無關(guān)的唇讀識(shí)別器時(shí),不容易確保HM學(xué)習(xí)所需的足夠 的學(xué)習(xí)數(shù)據(jù)。而且,因?yàn)镠MM學(xué)習(xí)涉及復(fù)雜的數(shù)學(xué)計(jì)算過程,所以需要許多系統(tǒng)資源 和時(shí)間,因此使得難以在例如導(dǎo)航系統(tǒng)的低規(guī)格系統(tǒng)中執(zhí)行在線學(xué)習(xí)。
目前,唇讀系統(tǒng)的獨(dú)立識(shí)別率為40%至60%,其遠(yuǎn)低于語音識(shí)別器的獨(dú)立識(shí)別 率。這是因?yàn)閺淖齑綀D像可識(shí)別的發(fā)音的基本單位(視位)的數(shù)目(1 比基于音頻的語 音識(shí)別中的發(fā)音的基本單位(音位)的數(shù)目G4)少70%,從而顯著地降低了區(qū)別口型看 似相似的單詞的能力。因此,實(shí)際應(yīng)用服務(wù)系統(tǒng)難以單獨(dú)通過唇讀實(shí)現(xiàn)指令識(shí)別系統(tǒng)。
在此背景技術(shù)部分中公開的以上信息僅用于增強(qiáng)對本發(fā)明的背景技術(shù)的理解,因此其可能包含不構(gòu)成在本國對于本領(lǐng)域技術(shù)人員而言已公知的現(xiàn)有技術(shù)的信息。 發(fā)明內(nèi)容
本發(fā)明在優(yōu)選方面提供了一種組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其實(shí)現(xiàn) 了通過攝像機(jī)從面部圖像有效地檢測嘴唇的唇讀系統(tǒng),適當(dāng)?shù)馗欁齑竭\(yùn)動(dòng),并且基于 嘴唇的特征值適當(dāng)?shù)刈R(shí)別語音指令,隨后適當(dāng)?shù)亟M合唇讀系統(tǒng)與基于音頻的語音識(shí)別系 統(tǒng),使得使用攝像機(jī)圖像的唇讀能夠在語音識(shí)別器由于噪聲而無法工作的環(huán)境中適當(dāng)?shù)?接收指令。
在一些優(yōu)選實(shí)施例中,本發(fā)明優(yōu)選地提供了一種組合唇讀與語音識(shí)別的多模式 界面系統(tǒng),其基于適合的情景適當(dāng)?shù)嘏渲米鳛榻换ハ到y(tǒng)的導(dǎo)航系統(tǒng)的應(yīng)用服務(wù)屏幕,并 且限制將要識(shí)別的指令,使得可根據(jù)各服務(wù)屏幕狀態(tài)僅識(shí)別必要的指令,由此提高單個(gè) 指令的識(shí)別率。
在另外的優(yōu)選實(shí)施例中,本發(fā)明提供了一種組合唇讀與語音識(shí)別的多模式界面 系統(tǒng),其適當(dāng)?shù)貞?yīng)用能夠?qū)崟r(shí)在線學(xué)習(xí)的識(shí)別器算法,以便當(dāng)駕駛者長時(shí)間使用該系統(tǒng) 時(shí),使識(shí)別器適當(dāng)?shù)剡m應(yīng)駕駛者的語音特征,由此逐漸提高識(shí)別率。
優(yōu)選地,根據(jù)本發(fā)明的優(yōu)選實(shí)施例的組合唇讀與語音識(shí)別的多模式界面系統(tǒng)包 括,但可不僅限于,音頻語音輸入單元、語音識(shí)別單元、語音識(shí)別指令和估計(jì)概率輸出 單元、嘴唇視頻圖像輸入單元、唇讀單元、唇讀識(shí)別指令輸出單元、以及語音識(shí)別與唇 讀識(shí)別結(jié)果組合單元,其中音頻語音輸入單元適當(dāng)?shù)孬@得通過音頻輸入傳感器輸入的聲 音信號(hào)或者通過有線或無線連接從外部傳送的輸入音頻信號(hào);語音識(shí)別單元從輸入音頻 信號(hào)適當(dāng)?shù)刈R(shí)別語音并且計(jì)算估計(jì)的識(shí)別準(zhǔn)確度;語音識(shí)別指令和估計(jì)概率輸出單元適 當(dāng)?shù)剌敵雠c語音識(shí)別單元識(shí)別的語音相應(yīng)的指令和估計(jì)的識(shí)別概率值;嘴唇視頻圖像輸 入單元適當(dāng)?shù)孬@得通過圖像輸入傳感器輸入的輸入圖像或者通過有線或無線連接從外部 傳送的輸入圖像;唇讀單元通過處理輸入圖像適當(dāng)?shù)刈R(shí)別說話者的唇讀指令;唇讀識(shí)別 指令輸出單元適當(dāng)?shù)剌敵鲇纱阶x單元識(shí)別的唇讀指令;如果估計(jì)的概率高于閾值,則語 音識(shí)別與唇讀識(shí)別結(jié)果組合單元適當(dāng)?shù)剌敵稣Z音識(shí)別指令,如果估計(jì)的概率低于閾值, 則其適當(dāng)?shù)剌敵龃阶x指令。
根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例,唇讀單元可優(yōu)選地包括,但可不僅限于,嘴唇 檢測器、嘴唇模型生成器、嘴唇跟蹤器、語音片段檢測器、系統(tǒng)模式確定器、唇讀識(shí)別 學(xué)習(xí)單元、指令識(shí)別單元以及嘴唇特征數(shù)據(jù)庫,其中嘴唇檢測器使用來自嘴唇視頻圖像 輸入單元的輸入圖像適當(dāng)?shù)貦z測嘴唇特征;嘴唇模型生成器使用主動(dòng)外觀模型(AAM)嘴 唇模型適當(dāng)?shù)厣尚螤钅P秃屯庥^模型;嘴唇跟蹤器使用由嘴唇模型生成器生成的形狀 模型和Lucas-Kanade (LK)算法,適當(dāng)?shù)馗欁鳛樵谧齑綑z測后AAM擬合的結(jié)果而獲得 的嘴唇特征點(diǎn);語音片段檢測器將預(yù)定周期的幀數(shù)據(jù)適當(dāng)?shù)剌斎氲缴窠?jīng)網(wǎng)絡(luò)識(shí)別器中, 以便基于作為對連續(xù)的輸入圖像進(jìn)行嘴唇跟蹤的結(jié)果而獲得的一系列嘴唇模型參數(shù),確 定片段是語音片段還是靜音片段;系統(tǒng)模式確定器適當(dāng)?shù)卮_定系統(tǒng)是處于嘴唇特征數(shù)據(jù) 的標(biāo)簽已知的學(xué)習(xí)模式,還是處于嘴唇特征數(shù)據(jù)的標(biāo)簽未知的識(shí)別模式;如果系統(tǒng)處于 學(xué)習(xí)模式,則唇讀識(shí)別學(xué)習(xí)單元使用特征數(shù)據(jù)和輸入標(biāo)簽適當(dāng)?shù)貙W(xué)習(xí)K最近鄰(K-NN) 學(xué)習(xí)器;如果系統(tǒng)處于識(shí)別模式,則指令識(shí)別單元通過習(xí)得的K-NN識(shí)別器適當(dāng)?shù)卣业脚c特征數(shù)據(jù)最相似的學(xué)習(xí)模式,并且輸出作為特征值的結(jié)果指令;嘴唇特征數(shù)據(jù)庫適當(dāng) 地存儲(chǔ)離線或在線習(xí)得的每個(gè)指令的模式。
根據(jù)本發(fā)明另外的優(yōu)選實(shí)施例,組合唇讀與語音識(shí)別的多模式界面系統(tǒng)還可包 括,但可不僅限于,唇讀特征檢測單元、語音識(shí)別單詞估計(jì)概率確定單元、嘴唇特征檢 測確定單元和實(shí)時(shí)唇讀學(xué)習(xí)單元,其中唇讀特征檢測單元從來自語音片段檢測器的輸入 圖像適當(dāng)?shù)貦z測唇讀特征;如果由語音識(shí)別模塊識(shí)別的指令的估計(jì)概率高于閾值,則語 音識(shí)別單詞估計(jì)概率確定單元確定使用唇讀特征檢測單元檢測的嘴唇圖像作為嘴唇特征 的學(xué)習(xí)標(biāo)簽執(zhí)行學(xué)習(xí);嘴唇特征檢測確定單元適當(dāng)?shù)卮_定是否正確地檢測到圖像特征數(shù) 據(jù);實(shí)時(shí)唇讀學(xué)習(xí)單元通過使用從基于的語音識(shí)別模塊提供的指令作為標(biāo)簽,對從唇讀 特征檢測單元提供的嘴唇特征值適當(dāng)?shù)貓?zhí)行k-NN學(xué)習(xí),來更新嘴唇特征數(shù)據(jù)庫,由此實(shí) 現(xiàn)說話者自適應(yīng)實(shí)時(shí)學(xué)習(xí)系統(tǒng)。
優(yōu)選地,組合唇讀與語音識(shí)別的多模式界面系統(tǒng)還可包括交互服務(wù)單元,其根 據(jù)服務(wù)情景以有限的方式適當(dāng)?shù)刈R(shí)別必要的指令,由此實(shí)現(xiàn)能夠?qū)崟r(shí)學(xué)習(xí)的在線學(xué)習(xí)識(shí) 別算法。
根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例,交互服務(wù)單元可優(yōu)選地包括服務(wù)情景數(shù)據(jù)庫, 其優(yōu)選地預(yù)先定義可對各屏幕適當(dāng)輸入的一序列指令,并且在執(zhí)行唇讀或語音識(shí)別時(shí)提 供可對各服務(wù)屏幕或者在各階段適當(dāng)輸入的該序列指令;服務(wù)屏幕;屏幕轉(zhuǎn)換單元,其 根據(jù)在服務(wù)情景數(shù)據(jù)庫中定義的功能,響應(yīng)于輸入指令執(zhí)行屏幕轉(zhuǎn)換,并且向服務(wù)屏幕 提供當(dāng)前服務(wù)狀態(tài)的信息;識(shí)別目標(biāo)單詞序列設(shè)置單元,其適當(dāng)?shù)卦O(shè)置在根據(jù)服務(wù)情景 數(shù)據(jù)庫發(fā)生狀態(tài)改變的情況下各服務(wù)狀態(tài)或屏幕所需要的一序列單詞。
在本發(fā)明的其它進(jìn)一步的實(shí)施例中,多模式界面系統(tǒng)通過參照由識(shí)別目標(biāo)單詞 序列設(shè)置單元設(shè)置的識(shí)別目標(biāo)單詞序列適當(dāng)?shù)亟M合唇讀與語音識(shí)別,來執(zhí)行抗噪語音識(shí) 別;服務(wù)執(zhí)行單元,其響應(yīng)于輸入指令適當(dāng)?shù)貓?zhí)行屏幕轉(zhuǎn)換、語音引導(dǎo)、信息注冊和其 它注冊的應(yīng)用服務(wù);以及識(shí)別結(jié)果確定單元,其適當(dāng)?shù)卮_定語音識(shí)別或者唇讀識(shí)別是否 失敗,以決定是否對輸入音頻和視頻信號(hào)執(zhí)行服務(wù),從而限制在實(shí)際服務(wù)中要識(shí)別的單 詞的數(shù)目,由此顯著提高識(shí)別率。
應(yīng)該理解的是,這里使用的術(shù)語“車輛”或“車輛的”或其它類似術(shù)語包括通 常的機(jī)動(dòng)車輛,例如包括運(yùn)動(dòng)型多用途車6UV)、公共汽車、卡車、各種商用車在內(nèi)的 客運(yùn)車輛,包括各種艇和船只在內(nèi)的水運(yùn)工具,以及航空器等,并且包括混合動(dòng)力車、 電動(dòng)車、插電式混合動(dòng)力電動(dòng)車、氫動(dòng)力車和其它替代燃料車(例如,從石油以外的資 源所得到的燃料)。
如文中所提到的,混合動(dòng)力車是具有兩種或更多種動(dòng)力源的車輛,例如既有汽 油動(dòng)力又有電動(dòng)力的車輛。
本發(fā)明的上述特征和優(yōu)點(diǎn),從附圖和以下具體實(shí)施方式
中將是顯而易見的或者 在其中被更加詳細(xì)地闡明,其中附圖并入且形成此說明書的一部分,并與具體實(shí)施方式
共同用于通過舉例的方式說明本發(fā)明的原理。
現(xiàn)在將參照附圖所示出的某些示例性實(shí)施例詳細(xì)說明本發(fā)明的上述及其它特征,這些實(shí)施方式在下文中僅以例示的方式給出,因此不對本發(fā)明構(gòu)成限制,并且其 中
圖1是示出根據(jù)本發(fā)明的示例性實(shí)施例的組合唇讀與語音識(shí)別的多模式界面系 統(tǒng)的框圖2是示出圖1中的唇讀模塊的詳細(xì)框圖3是示出作為交互服務(wù)系統(tǒng)實(shí)施的根據(jù)本發(fā)明的優(yōu)選實(shí)施例的組合唇讀與語 音識(shí)別的多模式界面系統(tǒng)的詳細(xì)框圖;并且
圖4是示出說話者自適應(yīng)實(shí)時(shí)唇讀學(xué)習(xí)系統(tǒng)的詳細(xì)框圖。
應(yīng)該理解的是,附圖不一定成比例,而是示出了說明本發(fā)明的基本原理的各種 優(yōu)選特征的某種程度的簡化表示。這里所公開的、包括例如具體尺寸、方向、位置和形 狀的本發(fā)明的具體設(shè)計(jì)特征,將由具體期望的應(yīng)用和使用環(huán)境部分地確定。
具體實(shí)施方式
在第一方面,本發(fā)明的特征在于一種組合唇讀與語音識(shí)別的多模式界面系統(tǒng), 包括音頻語音輸入單元、語音識(shí)別單元、語音識(shí)別指令和估計(jì)概率輸出單元、嘴唇視頻 圖像輸入單元、唇讀單元、唇讀識(shí)別指令輸出單元、語音識(shí)別與唇讀識(shí)別結(jié)果組合單 元,該單元輸出語音識(shí)別指令。
在一個(gè)實(shí)施例中,音頻語音輸入單元獲得通過音頻輸入傳感器輸入的聲音信號(hào) 或者通過有線或無線連接從外部傳送的輸入音頻信號(hào)。
在另一實(shí)施例中,語音識(shí)別單元從輸入音頻信號(hào)識(shí)別語音并且計(jì)算估計(jì)的識(shí)別 準(zhǔn)確度。
在又一實(shí)施例中,語音識(shí)別指令和估計(jì)概率輸出單元輸出與語音識(shí)別單元識(shí)別 的語音相應(yīng)的指令和估計(jì)的識(shí)別概率值。
在再一實(shí)施例中,嘴唇視頻圖像輸入單元獲得通過圖像輸入傳感器輸入的輸入 圖像或者通過有線或無線連接從外部傳送的輸入圖像。
在另一實(shí)施例中,唇讀單元通過處理輸入圖像識(shí)別說話者的唇讀指令。
在又一實(shí)施例中,唇讀識(shí)別指令輸出單元輸出由唇讀單元識(shí)別的唇讀指令。
在再一實(shí)施例中,如果估計(jì)的概率高于閾值,則語音識(shí)別與唇讀識(shí)別結(jié)果組合 單元輸出語音識(shí)別指令,如果估計(jì)的概率低于閾值,則輸出唇讀指令。
本發(fā)明的優(yōu)點(diǎn)和特征以及實(shí)現(xiàn)這些優(yōu)點(diǎn)和特征的方法通過參考以下示例性實(shí)施 例的詳細(xì)說明和附圖將更容易理解。然而,本發(fā)明可以多種不同的形式實(shí)現(xiàn),并且不應(yīng) 解釋為局限于本文給出的實(shí)施例。相反,這些實(shí)施例的給出使得本公開將是詳盡和完整 的,并且將充分地將本發(fā)明的構(gòu)思傳達(dá)給本領(lǐng)域技術(shù)人員,而且本發(fā)明將僅通過所附權(quán) 利要求進(jìn)行限定。
以下,將參照用以示出根據(jù)本發(fā)明的優(yōu)選實(shí)施例的、組合唇讀與語音識(shí)別的多 模式界面系統(tǒng)的框圖,說明本發(fā)明的示例性實(shí)施例。根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例,應(yīng) 當(dāng)理解各框圖可通過計(jì)算機(jī)程序指令適當(dāng)?shù)貙?shí)現(xiàn)。優(yōu)選地,這些計(jì)算機(jī)程序指令可以適 當(dāng)?shù)靥峁┙o通用計(jì)算機(jī)、專用計(jì)算機(jī)、或者其它可編程數(shù)據(jù)處理裝置的處理器以產(chǎn)生一 種機(jī)器,使得通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器適當(dāng)?shù)貓?zhí)行的指令產(chǎn)生實(shí)現(xiàn)流程圖框中指定的功能的裝置。
根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例,這些計(jì)算機(jī)程序指令還可存儲(chǔ)在計(jì)算機(jī)可用或 計(jì)算機(jī)可讀的存儲(chǔ)器中,這樣的存儲(chǔ)器可適當(dāng)?shù)刂敢?jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置 以特定的方式工作,使得存儲(chǔ)在計(jì)算機(jī)可用或計(jì)算機(jī)可讀的存儲(chǔ)器中的指令產(chǎn)生制造的 產(chǎn)品,優(yōu)選地包括適當(dāng)?shù)貙?shí)現(xiàn)流程圖框中指定的功能的指令裝置。
根據(jù)一些優(yōu)選實(shí)施例,計(jì)算機(jī)程序指令還可適當(dāng)?shù)剌d入到計(jì)算機(jī)或其它可編程 數(shù)據(jù)處理裝置上,使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算 機(jī)實(shí)現(xiàn)的過程,使得在計(jì)算機(jī)或其它可編程裝置上適當(dāng)?shù)貓?zhí)行的指令優(yōu)選地提供用以實(shí) 現(xiàn)流程圖框中指定的功能的步驟。
優(yōu)選地,流程圖示例中的每個(gè)方框可代表代碼的模塊、分段或部分,其適當(dāng)?shù)?包括用于實(shí)現(xiàn)指定的邏輯功能的一個(gè)或多個(gè)可執(zhí)行指令。根據(jù)本發(fā)明另外的示例性實(shí)施 例,在方框中注釋的功能可優(yōu)選地不按順序執(zhí)行。例如,取決于所涉及的功能性,連續(xù) 示出的兩個(gè)方框可優(yōu)選地基本上同時(shí)執(zhí)行,或者有時(shí)方框可以相反的順序執(zhí)行。
在一些優(yōu)選實(shí)施例中,如其中所使用的,術(shù)語“模塊”包括但不局限于執(zhí)行一 定任務(wù)的軟件或硬件組件,諸如現(xiàn)場可編程門陣列(FPGA)或者專用集成電路(A^tC)。 優(yōu)選地,模塊可被優(yōu)選地配置為駐留在可尋址存儲(chǔ)介質(zhì)上并且優(yōu)選地配置為在一個(gè)或多 個(gè)處理器上執(zhí)行。因此,在另外的優(yōu)選實(shí)施例中,示例性模塊可優(yōu)選地包括,但可不僅 限于組件,諸如,軟件組件,面向?qū)ο蟮能浖M件,類組件和任務(wù)組件,進(jìn)程,函數(shù), 屬性,過程,子程序,程序代碼段,驅(qū)動(dòng)程序,固件,微碼,電路,數(shù)據(jù),數(shù)據(jù)庫,數(shù) 據(jù)結(jié)構(gòu),表,數(shù)組和變量。優(yōu)選地,在組件和模塊中提供的功能可適當(dāng)?shù)亟M合到更少的 組件和模塊中或者進(jìn)一步分割到附加的組件和模塊中。
下面將參照附圖詳細(xì)說明本發(fā)明的示例性實(shí)施例。
在一些優(yōu)選實(shí)施例中,本發(fā)明提出了一種組合唇讀與語音識(shí)別的多模式界面系 統(tǒng),其實(shí)現(xiàn)了一種從通過攝像機(jī)獲得的面部圖像有效地檢測嘴唇,適當(dāng)?shù)馗欁齑竭\(yùn) 動(dòng),并且基于嘴唇的特征值適當(dāng)?shù)刈R(shí)別語音指令的唇讀系統(tǒng),然后適當(dāng)?shù)亟M合唇讀系統(tǒng) 與基于音頻的語音識(shí)別系統(tǒng)。因此,因?yàn)楸景l(fā)明不受音頻噪聲的影響,所以本發(fā)明適當(dāng) 地允許使用攝像機(jī)圖像的唇讀技術(shù)在某一環(huán)境中通過接收指令而提供服務(wù),在該環(huán)境中 由于在室內(nèi)收聽廣播時(shí)或者在車窗落下而駕駛車輛時(shí)所產(chǎn)生的噪聲,語音識(shí)別器不能工 作。
在另外的優(yōu)選實(shí)施例中,在根據(jù)本發(fā)明的導(dǎo)航系統(tǒng)中,使用嘴唇圖像的唇讀系 統(tǒng)從輸入圖像適當(dāng)?shù)貦z測駕駛者的面部,從檢測到的面部區(qū)域適當(dāng)?shù)貦z測相對于嘴唇候 選區(qū)的嘴唇的位置,然后使用嘴唇形狀模型相對于檢測到的嘴唇適當(dāng)?shù)卮_定用于跟蹤的 嘴唇特征點(diǎn)的精確位置。因此,提出了一系列過程,其中通過圖像匹配算法適當(dāng)?shù)馗?圖像特征點(diǎn),從特征的時(shí)間變化的數(shù)據(jù)適當(dāng)?shù)貦z測語音片斷,并且識(shí)別器基于按單詞排 序的一系列嘴唇特征值識(shí)別指令。
根據(jù)本發(fā)明的另外的優(yōu)選實(shí)施例,為了彌補(bǔ)唇讀技術(shù)的識(shí)別性能較低的問題, 本發(fā)明作為一個(gè)示例性實(shí)施例提出了一種方法,在減少要識(shí)別的單詞的數(shù)量導(dǎo)致更好的 識(shí)別,而當(dāng)同時(shí)識(shí)別所有注冊在識(shí)別器中的指令時(shí)準(zhǔn)確度降低的情況下,通過基于情景 配置作為交互系統(tǒng)的導(dǎo)航系統(tǒng)的應(yīng)用服務(wù)屏幕,然后適當(dāng)?shù)叵拗浦噶睿沟每筛鶕?jù)服務(wù)的屏幕狀態(tài)僅識(shí)別必需的指令,能夠適當(dāng)?shù)靥岣邌蝹€(gè)指令的識(shí)別率。
另外,在使用嘴唇特征的語音識(shí)別的一些實(shí)例中,通常特征是因人而異的,因 此識(shí)別器需要適當(dāng)大量的學(xué)習(xí)數(shù)據(jù)。因此,本發(fā)明提出了一種自適應(yīng)學(xué)習(xí)系統(tǒng),其應(yīng)用 能夠?qū)崟r(shí)在線學(xué)習(xí)的識(shí)別器,以便如果駕駛者長時(shí)間使用此系統(tǒng),則使識(shí)別器適當(dāng)?shù)剡m 應(yīng)駕駛者的語音特征,由此逐漸提高識(shí)別率。在一些示例性實(shí)施例中,在學(xué)習(xí)數(shù)據(jù)采集 受到限制的情況下,說話者無關(guān)的識(shí)別器的識(shí)別率較低。根據(jù)一些優(yōu)選實(shí)施例,導(dǎo)航 系統(tǒng)包括說話者自適應(yīng)實(shí)時(shí)唇讀學(xué)習(xí)算法,該算法在服務(wù)的實(shí)際操作中并沒有很多使用 者,因而作為固定駕駛者的少數(shù)幾個(gè)經(jīng)常的使用者頻繁使用一些特定指令的情況下,通 過實(shí)時(shí)地學(xué)習(xí)并向識(shí)別器添加數(shù)據(jù)而實(shí)時(shí)地學(xué)習(xí)當(dāng)前說話者的唇讀特征數(shù)據(jù),從而能夠 隨著使用者使用該系統(tǒng)而逐漸提高識(shí)別率。
根據(jù)如本文所述的本發(fā)明的優(yōu)選實(shí)施例,語音識(shí)別和唇讀技術(shù)是一種機(jī)器與人 之間的基本交互技術(shù),例如基本人機(jī)交互(HCI)技術(shù),其可廣泛地用于諸如但不限于電 視、空調(diào)等的電子產(chǎn)品,機(jī)械人控制,以及車輛。
根據(jù)一些示例性實(shí)施例,并且如圖1中所示,圖1是示出組合唇讀與語音識(shí)別的 多模式界面系統(tǒng)的框圖。
在一些優(yōu)選實(shí)施例中,組合唇讀與語音識(shí)別的多模式界面系統(tǒng)100包括音頻語 音輸入單元110,語音識(shí)別模塊120,語音識(shí)別指令和估計(jì)概率輸出單元130,嘴唇視頻 圖像輸入單元140,唇讀模塊150,唇讀識(shí)別指令輸出單元160,語音識(shí)別與唇讀識(shí)別結(jié) 果組合單元170,最終識(shí)別指令輸出單元180。優(yōu)選地,語音識(shí)別與唇讀識(shí)別結(jié)果組合單 元170包括語音識(shí)別結(jié)果確定單元171,唇讀語音識(shí)別結(jié)果確定單元172,組合識(shí)別指令 (語音)輸出單元173,和組合識(shí)別指令(唇讀)輸出單元174。
優(yōu)選地,音頻語音輸入單元110可適當(dāng)?shù)孬@得通過音頻輸入傳感器輸入的聲音 信號(hào)或者通過有線或無線連接從外部傳送的輸入音頻信號(hào)。例如,在一些優(yōu)選實(shí)施例 中,例如在通過音頻輸入傳感器獲得輸入音頻信號(hào)的情況下,可通過將經(jīng)由給定的擴(kuò)音 器輸入的聲信號(hào)轉(zhuǎn)換為電信號(hào)而適當(dāng)?shù)孬@得輸入聲音信號(hào)。因此,可通過用于將獲得的 電信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的模/數(shù)轉(zhuǎn)換器和用于處理通過模/數(shù)轉(zhuǎn)換器獲得的語音信號(hào)的數(shù) 字信號(hào)處理器(DSP)適當(dāng)?shù)孬@得預(yù)定的輸入聲音信號(hào)。在另外的優(yōu)選實(shí)施例中,輸入聲 音可適當(dāng)?shù)卮鎯?chǔ)在存儲(chǔ)介質(zhì)中或者以有線或無線的方式傳送,由此獲得預(yù)定的輸入聲音 信號(hào)。
在另外的優(yōu)選實(shí)施例中,語音識(shí)別模塊120是商用的語音識(shí)別模塊,其能夠適 當(dāng)?shù)卦O(shè)置用于孤立單詞識(shí)別的識(shí)別單詞,具有說話者無關(guān)的識(shí)別功能,并且能夠輸出具 有關(guān)于注冊的識(shí)別單詞和相應(yīng)的單詞的以百分率(%)表示的估計(jì)的識(shí)別準(zhǔn)確度的識(shí)別結(jié)果。
優(yōu)選地,語音識(shí)別指令和估計(jì)概率輸出單元130輸出孤立指令和由語音識(shí)別器 識(shí)別的相應(yīng)的輸入語音信號(hào)為識(shí)別的單詞的概率值。
在另外的優(yōu)選實(shí)施例中,嘴唇視頻圖像輸入單元140可適當(dāng)?shù)孬@得通過圖像輸 入傳感器輸入的輸入圖像或者通過有線或無線連接從外部傳送的輸入圖像。例如,在一 些優(yōu)選實(shí)施例中,在通過圖像輸入傳感器獲得輸入圖像的情況下,可通過將通過給定的 透鏡入射的目標(biāo)的圖像信號(hào)轉(zhuǎn)換為電信號(hào)而適當(dāng)?shù)孬@得輸入圖像。例如,在一些優(yōu)選實(shí)施例中,圖像輸入傳感器可包括電荷耦合裝置(CCD),CMOS,和其它商用的圖像采集 裝置。另外,可通過用于將由圖像輸入傳感器獲得的電信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的模/數(shù)轉(zhuǎn) 換器和用于處理由模/數(shù)轉(zhuǎn)換器轉(zhuǎn)換為圖像信號(hào)的數(shù)字信號(hào)的數(shù)字信號(hào)處理器(DSP)適 當(dāng)?shù)孬@得預(yù)定的輸入圖像。在另外的優(yōu)選實(shí)施例中,輸入圖像可適當(dāng)?shù)卮鎯?chǔ)在存儲(chǔ)介質(zhì) 中或者以有線或無線的方式傳送,由此獲得預(yù)定的輸入圖像。優(yōu)選地,嘴唇視頻圖像輸 入單元140可適當(dāng)?shù)貙@得的輸入圖像轉(zhuǎn)換為單通道圖像。例如,在一些示例性實(shí)施例 中,輸入圖像可被改變?yōu)榛叶?。替代性地,在其它的示例性?shí)施例中,如果輸入圖像是 “RGB”通道的多通道圖像,則輸入圖像可被適當(dāng)?shù)馗淖優(yōu)閱瓮ǖ乐?。因此,輸入圖像 的亮度分布可通過將輸入圖像轉(zhuǎn)換為單通道的強(qiáng)度值而容易地表示。
優(yōu)選地,唇讀模塊150通過處理輸入圖像數(shù)據(jù)而識(shí)別來自說話者的語音指令。
優(yōu)選地,唇讀識(shí)別指令輸出單元160輸出由唇讀模塊150識(shí)別的指令。
根據(jù)本發(fā)明的另外的優(yōu)選實(shí)施例,語音識(shí)別與唇讀識(shí)別結(jié)果組合單元170以這 樣的方式適當(dāng)?shù)亟M合基于音頻的語音識(shí)別結(jié)果與基于圖像的唇讀結(jié)果,以便適當(dāng)?shù)貓?zhí)行 各個(gè)模式特征數(shù)據(jù)的組合或者組合由各個(gè)系統(tǒng)識(shí)別的結(jié)果。優(yōu)選地,在一些優(yōu)選實(shí)施例 中,本發(fā)明的目的是通過自由地使用現(xiàn)有的獨(dú)立的語音識(shí)別器將結(jié)果與唇讀組合。優(yōu)選 地,語音識(shí)別結(jié)果確定單元171和172接收獨(dú)立的音頻語音輸入單元110的語音識(shí)別指令 和估計(jì)概率輸出單元130的結(jié)果,確定單詞識(shí)別的可靠性的概率是高于還是低于適當(dāng)?shù)?特定的閾值,并且輸出確定結(jié)果。優(yōu)選地,可以根據(jù)系統(tǒng)調(diào)整和調(diào)節(jié)閾值,并且可以證 實(shí)試驗(yàn)結(jié)果典型地示出關(guān)于50%的可靠性的最高組合識(shí)別率。優(yōu)選地,當(dāng)從語音識(shí)別結(jié) 果確定單元171和172的結(jié)果確定可靠性的概率高于閾值時(shí),組合識(shí)別指令輸出單元173 和174向最終識(shí)別指令輸出單元180輸出語音識(shí)別器的識(shí)別結(jié)果指令,否則,輸出唇讀識(shí) 別結(jié)果指令作為識(shí)別結(jié)果。
如本文所述,可如下面的實(shí)例中所述擴(kuò)展這樣的組合語音識(shí)別與唇讀結(jié)果的方 法。在一定的示例性實(shí)施例中,如果語音識(shí)別結(jié)果確定單元171和172的語音識(shí)別的可 靠性適當(dāng)?shù)氐陀陂撝挡⑶掖阶x模塊沒有檢測到任何指令,則適當(dāng)?shù)夭划a(chǎn)生輸出,以便防 止語音識(shí)別器由于噪聲而發(fā)生故障。如本文所述,當(dāng)識(shí)別模塊中只有一個(gè)適當(dāng)?shù)貦z測到 特定的單詞而其它識(shí)別器沒有檢測到任何單詞時(shí),可以通過限定各自的操作而適當(dāng)?shù)匦?改組合算法。
根據(jù)一定的示例性實(shí)施例,并且如圖2中所示,圖2是詳細(xì)示出圖1中的唇讀模 塊150的框圖。
優(yōu)選地,唇讀模塊150包括嘴唇檢測器210,用于檢測和跟蹤的嘴唇模型生成器 220,嘴唇跟蹤器230,語音片段檢測器M0,系統(tǒng)模式確定器250,唇讀識(shí)別學(xué)習(xí)單元 260,指令識(shí)別單元270和嘴唇特征數(shù)據(jù)庫觀0。
根據(jù)一些示例性實(shí)施例,如果來自嘴唇視頻圖像輸入單元140的輸入圖像是彩 色圖像,則嘴唇檢測器210適當(dāng)?shù)貙⑤斎雸D像轉(zhuǎn)換為黑/白圖像。對使用彩色圖像的嘴 唇檢測算法已有研究,然而,已經(jīng)發(fā)現(xiàn)該算法可受照明影響并且在夜間在紅外圖像中可 能不能正確工作。因此,在上述示例性實(shí)施例中,將關(guān)于僅使用黑/白圖像檢測并跟蹤 嘴唇的情況給出說明。因此,可以在白天和夜間以魯棒的方式檢測并跟蹤嘴唇。根據(jù) 一些示例性實(shí)施例,在嘴唇檢測步驟中,首先通過自適應(yīng)增強(qiáng)(Adaboost)算法基于局部二進(jìn)制模式(LBP)檢測面部,并且關(guān)于嘴唇在面部的大致位置以同樣的方式適當(dāng)?shù)貦z測 嘴唇。因此,在另外的相關(guān)實(shí)施例中,適當(dāng)?shù)卦试S檢測器使用規(guī)一化面部和嘴唇圖像學(xué) 習(xí)。優(yōu)選地,Adaboost方法不能確定用于唇讀的嘴唇特征點(diǎn)的精確位置。因此,本發(fā)明 的目的在于使用主動(dòng)外觀模型(AAM)嘴唇模型產(chǎn)生形狀和外觀模型,并使用該模型適當(dāng) 地獲得精確的嘴唇特征點(diǎn)。
根據(jù)另外的優(yōu)選實(shí)施例,嘴唇模型生成器220在學(xué)習(xí)圖像上關(guān)于嘴唇圖像適當(dāng) 地指出通過手而手工獲得的特征點(diǎn)的位置,收集這樣的數(shù)據(jù)以通過主成分分析(PCA)適 當(dāng)?shù)厣尚螤钅P秃屯庥^模型,并且在AAM擬合和嘴唇特征跟蹤中使用這些模型。
優(yōu)選地,嘴唇跟蹤器230使用由嘴唇模型生成器220生成的形狀模型和 Lucas-kanade(LK)算法,跟蹤作為在嘴唇檢測后AAM擬合的結(jié)果而獲得的嘴唇特征 點(diǎn)。優(yōu)選地,使用作為特征值的形狀參數(shù),將對于各輸入圖像的嘴唇跟蹤結(jié)果適當(dāng)?shù)靥?供給唇讀模塊150。
在又一個(gè)實(shí)施例中,語音片段檢測器240將預(yù)定周期的幀數(shù)據(jù)適當(dāng)?shù)剌斎氲缴?經(jīng)網(wǎng)絡(luò)識(shí)別器中,以便基于作為對連續(xù)的輸入圖像進(jìn)行嘴唇跟蹤的結(jié)果而適當(dāng)?shù)孬@得的 一系列嘴唇模型參數(shù),確定片段是語音片段還是靜音片段。因此,作為確定結(jié)果,如果 語音片段延續(xù)然后改變?yōu)殪o音片段,則適當(dāng)?shù)靥崛〔⑤敵稣Z音片段的特征數(shù)據(jù)。
根據(jù)一些優(yōu)選實(shí)施例,系統(tǒng)模式確定器250適當(dāng)?shù)卮_定系統(tǒng)是處于嘴唇特征數(shù) 據(jù)的標(biāo)簽已知的學(xué)習(xí)模式,還是處于嘴唇特征數(shù)據(jù)的標(biāo)簽未知的識(shí)別模式。優(yōu)選地,在 學(xué)習(xí)模式中,使唇讀識(shí)別學(xué)習(xí)單元260使用特征數(shù)據(jù)和輸入標(biāo)簽學(xué)習(xí)K最近鄰(K-NN)學(xué) 習(xí)器。優(yōu)選地,與HMM不同,可以通過少量的學(xué)習(xí)數(shù)據(jù)實(shí)現(xiàn)有效的學(xué)習(xí),并且識(shí)別器 因?yàn)槠浣Y(jié)構(gòu)簡單可通過實(shí)時(shí)學(xué)習(xí)而逐漸更新。優(yōu)選地,在其中輸入特征值沒有標(biāo)簽的識(shí) 別模式中,指令識(shí)別單元270通過在唇讀識(shí)別學(xué)習(xí)單元260中習(xí)得的K-NN識(shí)別器找到與 特征數(shù)據(jù)最相似的適當(dāng)?shù)膶W(xué)習(xí)模式,并將作為特征值的結(jié)果指令適當(dāng)?shù)剌敵鲋链阶x識(shí)別 指令輸出單元160。
優(yōu)選地,嘴唇特征數(shù)據(jù)庫280存儲(chǔ)離線或在線習(xí)得的每個(gè)指令的模式。
以下將更詳細(xì)地說明根據(jù)優(yōu)選的示例性實(shí)施例的唇讀模塊150的操作。
根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例,嘴唇檢測器210通過使用LBP圖像轉(zhuǎn)換和 Adaboost算法在白天和夜間以魯棒的方式提供關(guān)于單色圖像(mono image)的嘴唇的大致 位置,使用整體嘴唇模型適當(dāng)?shù)卮_定嘴唇的整體位置,使用唇角模型適當(dāng)?shù)貦z測嘴唇的 角落,使用AAM嘴唇模型通過將嘴唇的角落位置設(shè)定為初始位置而適當(dāng)?shù)貓?zhí)行精確擬 合,并且適當(dāng)?shù)靥峁┨卣鼽c(diǎn)的坐標(biāo)作為嘴唇跟蹤器230的初始位置值。
在一些示例性實(shí)施例中,嘴唇跟蹤器230使用基于LK的圖像配準(zhǔn)算法和嘴唇形 狀模型,通過將各個(gè)AAM嘴唇探測結(jié)果設(shè)定為初始特征點(diǎn),而跟蹤隨后的輸入圖像上的 特征點(diǎn)周圍的mXm個(gè)像素區(qū)域。另外,雖然可優(yōu)選地調(diào)整像素的數(shù)目,但是從下一幀 適當(dāng)?shù)貦z測到并且關(guān)于每個(gè)特征點(diǎn)11X11個(gè)像素區(qū)域地匹配最相似的區(qū)域,并且將匹配 結(jié)果適當(dāng)?shù)剌斎胫列螤钅P停员愕玫叫螤钅P蛥?shù)并將其提供給語音片段檢測器對0。
優(yōu)選地,語音片段檢測器240適當(dāng)?shù)亟邮兆鳛橐幌盗袝r(shí)間流(temporal stream)的 嘴唇的形狀模型參數(shù),通過神經(jīng)網(wǎng)絡(luò)識(shí)別器適當(dāng)?shù)卮_定每一幀的預(yù)定片段是否為語音, 當(dāng)語音片段在持續(xù)預(yù)定的時(shí)間之后變化為非語音片段時(shí)適當(dāng)?shù)靥崛≌Z音片段的特征數(shù)據(jù),并將數(shù)據(jù)適當(dāng)?shù)靥峁┙o唇讀識(shí)別學(xué)習(xí)單元260。
根據(jù)本發(fā)明的另外的優(yōu)選實(shí)施例,唇讀識(shí)別學(xué)習(xí)單元260適當(dāng)?shù)厥褂冒磫卧~和 標(biāo)簽信息分組的準(zhǔn)備好的嘴唇特征數(shù)據(jù)離線地學(xué)習(xí)K-NN唇讀識(shí)別器,并且作為結(jié)果優(yōu) 選地向唇讀模塊150提供初始識(shí)別器。
優(yōu)選地,指令識(shí)別單元270基于唇讀識(shí)別學(xué)習(xí)單元260的結(jié)果,關(guān)于新的輸入數(shù) 據(jù),通過k-NN識(shí)別算法適當(dāng)?shù)刈R(shí)別單詞,并且適當(dāng)?shù)叵虼阶x模塊150返回結(jié)果指令。
根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例,并且如圖3中所示,圖3是適當(dāng)?shù)貙?shí)現(xiàn)組合唇讀 與語音識(shí)別的多模式界面系統(tǒng)的詳細(xì)框圖。
優(yōu)選地,交互服務(wù)系統(tǒng)300包括服務(wù)情景數(shù)據(jù)庫310,服務(wù)屏幕320,屏幕轉(zhuǎn)換 單元330,識(shí)別目標(biāo)單詞序列設(shè)置單元340,服務(wù)執(zhí)行單元350,多模式界面系統(tǒng)100和識(shí) 別結(jié)果確定單元360。
在另外的優(yōu)選實(shí)施例中,交互服務(wù)系統(tǒng)300通過交互系統(tǒng)或者情景庫系統(tǒng)適當(dāng) 地限制在實(shí)際服務(wù)中要識(shí)別的單詞的數(shù)目,以便彌補(bǔ)唇讀系統(tǒng)200的識(shí)別率降低的基本 問題,從而達(dá)到識(shí)別率的顯著改善。
根據(jù)本發(fā)明的一些示例性實(shí)施例,服務(wù)情景數(shù)據(jù)庫310可優(yōu)選地假定配有導(dǎo)航 服務(wù)。優(yōu)選地,服務(wù)的屏幕可以適當(dāng)?shù)卦O(shè)計(jì)為必要的服務(wù)屏幕,例如啟動(dòng)屏幕、主菜單 屏幕、定位屏幕、路徑選擇屏幕、實(shí)際道路引導(dǎo)屏幕等。優(yōu)選地,服務(wù)情景數(shù)據(jù)庫310 預(yù)先定義可對各屏幕輸入的一序列指令,并且在執(zhí)行唇讀或語音識(shí)別時(shí)適當(dāng)?shù)靥峁┛蓪?各服務(wù)屏幕或者在各階段輸入的該序列指令。
優(yōu)選地,服務(wù)屏幕320表示各個(gè)服務(wù)屏幕,諸如但不限于,初始屏幕,主菜單屏眷等ο
優(yōu)選地,屏幕轉(zhuǎn)換單元330根據(jù)在服務(wù)情景數(shù)據(jù)庫310中定義的功能,響應(yīng)于輸 入指令執(zhí)行屏幕轉(zhuǎn)換,并且向服務(wù)屏幕320提供當(dāng)前服務(wù)狀態(tài)的信息。
在另外的優(yōu)選實(shí)施例中,識(shí)別目標(biāo)單詞序列設(shè)置單元340適當(dāng)?shù)卦O(shè)置在根據(jù)服 務(wù)情景數(shù)據(jù)庫310發(fā)生狀態(tài)改變的情況下,各服務(wù)狀態(tài)或屏幕所需要的一序列單詞。
優(yōu)選地,服務(wù)執(zhí)行單元350響應(yīng)于輸入指令適當(dāng)?shù)貓?zhí)行屏幕轉(zhuǎn)換、語音引導(dǎo)、 信息注冊和其它注冊的應(yīng)用服務(wù)。
在另外的優(yōu)選實(shí)施例中,多模式界面系統(tǒng)100通過參照由識(shí)別目標(biāo)單詞序列設(shè) 置單元340設(shè)置的識(shí)別目標(biāo)單詞序列組合唇讀與語音識(shí)別,而適當(dāng)?shù)貓?zhí)行抗噪語音識(shí) 別。
優(yōu)選地,識(shí)別結(jié)果確定單元360適當(dāng)?shù)卮_定語音識(shí)別或者唇讀識(shí)別是否失敗, 以決定是否對輸入音頻和視頻信號(hào)執(zhí)行服務(wù)。根據(jù)一些優(yōu)選實(shí)施例,這是通過使用其本 身的指令識(shí)別的估計(jì)可靠性來確定的。在另外的優(yōu)選實(shí)施例中,如果識(shí)別成功,則服務(wù) 執(zhí)行單元350適當(dāng)?shù)貓?zhí)行相應(yīng)于指令的服務(wù),否則,在服務(wù)等待模式中等待指令輸入。
根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例并且如圖4中所示,圖4是示出說話者自適應(yīng)實(shí)時(shí) 唇讀學(xué)習(xí)系統(tǒng)的詳細(xì)框圖。
在一些優(yōu)選實(shí)施例中,說話者自適應(yīng)實(shí)時(shí)唇讀學(xué)習(xí)系統(tǒng)400適當(dāng)?shù)匕ù阶x特 征檢測單元410、語音識(shí)別單詞估計(jì)概率確定單元420,嘴唇特征檢測確定單元430,和 實(shí)時(shí)唇讀學(xué)習(xí)單元440。在一些優(yōu)選實(shí)施例中,要求實(shí)時(shí)學(xué)習(xí)的原因在于,盡管唇讀適當(dāng)?shù)匾蟠罅康膶W(xué)習(xí)數(shù)據(jù)以學(xué)習(xí)具有大的個(gè)人特征數(shù)據(jù)偏差的說話者無關(guān)的識(shí)別器,然而 收集學(xué)習(xí)數(shù)據(jù)并不容易,因此實(shí)時(shí)唇讀學(xué)習(xí)單元440需要學(xué)習(xí)k-NN識(shí)別器,以便在實(shí)際 情況下適應(yīng)于個(gè)體的服務(wù)使用者。
在本發(fā)明的一些優(yōu)選實(shí)施例中,唇讀特征檢測單元410從來自唇讀模塊150的語 音片段檢測器MO的輸入圖像適當(dāng)?shù)貦z測唇讀特征。
根據(jù)本發(fā)明的一些優(yōu)選實(shí)施例,語音識(shí)別單詞估計(jì)概率確定單元420適當(dāng)?shù)卦u 價(jià)由語音識(shí)別模塊120識(shí)別的指令的可靠性,以確定該指令是否可以用作由唇讀特征檢 測單元410檢測到的嘴唇圖像特征的學(xué)習(xí)標(biāo)簽。優(yōu)選地,如果由語音識(shí)別模塊120識(shí)別 的指令的可靠性的估計(jì)值高于特定的閾值,則執(zhí)行學(xué)習(xí),否則,不執(zhí)行學(xué)習(xí)。
優(yōu)選地,嘴唇特征檢測確定單元430適當(dāng)?shù)卮_定是否正確地檢測到圖像特征數(shù) 據(jù),從而為即使語音識(shí)別模塊120已適當(dāng)?shù)刈R(shí)別指令也沒有檢測到圖像特征數(shù)據(jù)的情況 作準(zhǔn)備。
優(yōu)選地,在一些實(shí)施例中,實(shí)時(shí)唇讀學(xué)習(xí)單元440通過使用從語音識(shí)別模塊120 提供的指令作為標(biāo)簽,以與離線同樣的方式,對在實(shí)際服務(wù)系統(tǒng)中從唇讀特征檢測單元 410提供的嘴唇特征值適當(dāng)?shù)貓?zhí)行k-NN學(xué)習(xí),來更新圖2中的嘴唇特征數(shù)據(jù)庫觀0。優(yōu) 選地,在服務(wù)期間對于每個(gè)輸入,這樣的一系列學(xué)習(xí)持續(xù),以學(xué)習(xí)基于在無噪聲環(huán)境下 的語音識(shí)別模塊120的高識(shí)別性能的唇讀模塊150,從而即使在噪聲環(huán)境下語音識(shí)別模塊 120不能再工作,也使唇讀模塊150能夠適當(dāng)?shù)刈R(shí)別指令并繼續(xù)服務(wù)。
本發(fā)明優(yōu)選地提供了一種對于在現(xiàn)有語音識(shí)別方法中觀察到的識(shí)別率降低的問 題的解決方案。因此,本發(fā)明優(yōu)選地允許使用者在噪聲持續(xù)存在的環(huán)境中,諸如行駛 的車輛的內(nèi)部,取代基于音頻的語音識(shí)別器而適當(dāng)?shù)夭僮鲗?dǎo)航的基本指令。本發(fā)明進(jìn)一 步提供了在駕駛過程中通過經(jīng)由觸摸屏操作導(dǎo)航系統(tǒng)而不分散使用者注意力的方法和系 統(tǒng),因此防止了事故的風(fēng)險(xiǎn)。另外,本發(fā)明提供了一種使用語音識(shí)別器操作諸如總是產(chǎn) 生噪聲的音頻設(shè)備的裝置的方法。
優(yōu)選地,本發(fā)明并不局限于特定的服務(wù),而是可應(yīng)用于幾乎所有目前應(yīng)用語音 識(shí)別器的服務(wù),例如但不限于,車輛、機(jī)械手、家用電器等。因此,這克服了適當(dāng)?shù)貞?yīng) 用在暴露于日常噪聲的實(shí)際環(huán)境中可能不能正確工作的現(xiàn)有的語音識(shí)別器的難題。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,組合唇讀與語音識(shí)別的多模式界面系統(tǒng)實(shí)現(xiàn)了一種 從通過攝像機(jī)獲得的面部圖像適當(dāng)?shù)貦z測嘴唇,跟蹤嘴唇運(yùn)動(dòng),并且基于嘴唇的特征值 適當(dāng)?shù)刈R(shí)別語音指令的唇讀系統(tǒng),然后適當(dāng)?shù)亟M合唇讀系統(tǒng)與基于音頻的語音識(shí)別系 統(tǒng),由此提供了一種多模式語音識(shí)別系統(tǒng)。優(yōu)選地,因?yàn)榻M合唇讀與語音識(shí)別的多模式 界面系統(tǒng)適當(dāng)?shù)夭皇芤纛l噪聲的影響,所以組合唇讀與語音識(shí)別的多模式界面系統(tǒng)優(yōu)選 地允許使用攝像機(jī)圖像的唇讀技術(shù)在一定的環(huán)境中通過接收指令而提供服務(wù),在該環(huán)境 中由于在室內(nèi)收聽廣播時(shí)或者在車窗落下而駕駛車輛時(shí)所產(chǎn)生的噪聲,語音識(shí)別器無法 工作。
在另一優(yōu)選實(shí)施例中,組合唇讀與語音識(shí)別的多模式界面系統(tǒng)可基于情景適當(dāng) 地配置作為交互系統(tǒng)的導(dǎo)航系統(tǒng)的應(yīng)用服務(wù)屏幕,并且適當(dāng)?shù)叵拗埔R(shí)別的指令,使得 可根據(jù)各服務(wù)屏幕狀態(tài)適當(dāng)?shù)貎H識(shí)別必要的指令,由此提高單個(gè)指令的識(shí)別率。
在本發(fā)明的另外的優(yōu)選實(shí)施例中,組合唇讀與語音識(shí)別的多模式界面系統(tǒng)應(yīng)用能夠?qū)崟r(shí)在線學(xué)習(xí)的識(shí)別器算法,以便如果駕駛者長時(shí)間使用該系統(tǒng),則使識(shí)別器適當(dāng) 地適應(yīng)駕駛者的語音特征,由此逐漸提高識(shí)別率。
本發(fā)明的以上實(shí)施例是示例性的而非限制性的。各種替代方案和等同方案都是 可能的。本發(fā)明不受本文所述實(shí)施例的限制。本發(fā)明也不局限于任何特定形式的半導(dǎo)體 裝置。鑒于本公開,其它的增加、減少或改型都是顯而易見的,并且意在屬于所附權(quán)利 要求的范圍。0092]附圖中各元件的標(biāo)記0093]100組合唇讀與語音識(shí)別的多模式界面系統(tǒng)0094]110音頻語音輸入單元0095]120語音識(shí)別模塊0096]130語音識(shí)別指令和估計(jì)概率輸出單元0097]140嘴唇視頻圖像輸入單元0098]150唇讀模塊0099]160唇讀識(shí)別指令輸出單元0100]170語音識(shí)別與唇讀識(shí)別結(jié)果組合單元0101]171語音識(shí)別結(jié)果確定單元0102]172唇讀識(shí)別結(jié)果確定單元0103]173組合識(shí)別指令(語音)輸出單元0104]174組合識(shí)別指令(唇讀)輸出單元0105]180最終識(shí)別指令輸出單元0106]210嘴唇檢測器0107]220嘴唇模型生成器0108]230嘴唇跟蹤器0109]240語音片段檢測器0110]250系統(tǒng)模式確定器0111]260唇讀識(shí)別學(xué)習(xí)單元0112]270指令識(shí)別單元0113]280嘴唇特征數(shù)據(jù)庫0114]300交互服務(wù)系統(tǒng)0115]310服務(wù)情景數(shù)據(jù)庫0116]320服務(wù)屏幕0117]330屏幕轉(zhuǎn)換單元0118]350服務(wù)執(zhí)行單元0119]360識(shí)別結(jié)果確定單元0120]400說話者自適應(yīng)實(shí)時(shí)唇讀學(xué)習(xí)系統(tǒng)0121]410唇讀特征檢測單元0122]420語音識(shí)別單詞估計(jì)概率確定單元0123]430嘴唇特征檢測確定單元0124]440實(shí)時(shí)唇讀學(xué)習(xí)單元
權(quán)利要求
1.一種組合唇讀與語音識(shí)別的多模式界面系統(tǒng),包括音頻語音輸入單元,其獲得通過音頻輸入傳感器輸入的聲音信號(hào)或者通過有線或無 線連接從外部傳送的輸入音頻信號(hào);語音識(shí)別單元,其從輸入音頻信號(hào)識(shí)別語音并且計(jì)算估計(jì)的識(shí)別準(zhǔn)確度; 語音識(shí)別指令和估計(jì)概率輸出單元,其輸出與語音識(shí)別單元識(shí)別的語音相對應(yīng)的指 令和估計(jì)的識(shí)別概率值;嘴唇視頻圖像輸入單元,其獲得通過圖像輸入傳感器輸入的輸入圖像或者通過有線 或無線連接從外部傳送的輸入圖像;唇讀單元,其通過處理輸入圖像識(shí)別說話者的唇讀指令; 唇讀識(shí)別指令輸出單元,其輸出由唇讀單元識(shí)別的唇讀指令;以及 語音識(shí)別與唇讀識(shí)別結(jié)果組合單元,如果估計(jì)的概率高于閾值,則其輸出語音識(shí)別 指令,如果估計(jì)的概率低于閾值,則其輸出唇讀指令。
2.如權(quán)利要求1所述的系統(tǒng),其中唇讀單元包括嘴唇檢測器,其使用來自嘴唇視頻圖像輸入單元的輸入圖像檢測嘴唇特征; 嘴唇模型生成器,其使用主動(dòng)外觀模型(AAM)嘴唇模型生成形狀模型和外觀模型;嘴唇跟蹤器,其使用由嘴唇模型生成器生成的形狀模型和Lucas-KanadeCLK)算法, 跟蹤作為在嘴唇檢測后AAM擬合的結(jié)果而獲得的嘴唇特征點(diǎn);語音片段檢測器,其將預(yù)定周期的幀數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)識(shí)別器中,以便基于作為 對連續(xù)的輸入圖像進(jìn)行嘴唇跟蹤的結(jié)果而獲得的一系列嘴唇模型參數(shù),確定片段是語音 片段還是靜音片段;系統(tǒng)模式確定器,其確定系統(tǒng)是處于嘴唇特征數(shù)據(jù)的標(biāo)簽已知的學(xué)習(xí)模式,還是處 于嘴唇特征數(shù)據(jù)的標(biāo)簽未知的識(shí)別模式;唇讀識(shí)別學(xué)習(xí)單元,如果系統(tǒng)處于學(xué)習(xí)模式,則其使用特征數(shù)據(jù)和輸入標(biāo)簽學(xué)習(xí)K 最近鄰域(K-NN)學(xué)習(xí)器;指令識(shí)別單元,如果系統(tǒng)處于識(shí)別模式,則其通過習(xí)得的K-NN識(shí)別器找到與特征 數(shù)據(jù)最相似的學(xué)習(xí)模式,并且輸出作為特征值的結(jié)果指令;以及 嘴唇特征數(shù)據(jù)庫,其存儲(chǔ)離線或在線習(xí)得的每個(gè)指令的模式。
3.如權(quán)利要求2所述的系統(tǒng),還包括唇讀特征檢測單元,其從來自語音片段檢測器的輸入圖像檢測唇讀特征; 語音識(shí)別單詞估計(jì)概率確定單元,如果由語音識(shí)別模塊識(shí)別的指令的估計(jì)概率高于 閾值,則確定使用由唇讀特征檢測單元檢測的嘴唇圖像作為嘴唇特征的學(xué)習(xí)標(biāo)簽執(zhí)行學(xué) 習(xí);嘴唇特征檢測確定單元,其確定是否正確地檢測到圖像特征數(shù)據(jù);以及 實(shí)時(shí)唇讀學(xué)習(xí)單元,其通過使用從基于的語音識(shí)別模塊提供的指令作為標(biāo)簽,對從 唇讀特征檢測單元提供的嘴唇特征值執(zhí)行k-NN學(xué)習(xí),來更新嘴唇特征數(shù)據(jù)庫,由此實(shí)現(xiàn) 說話者自適應(yīng)實(shí)時(shí)學(xué)習(xí)系統(tǒng)。
4.如權(quán)利要求1所述的系統(tǒng),還包括交互服務(wù)單元,其根據(jù)服務(wù)情景以有限的方式識(shí) 別必要的指令,由此實(shí)現(xiàn)能夠?qū)崟r(shí)學(xué)習(xí)的在線學(xué)習(xí)識(shí)別算法。
5.如權(quán)利要求4所述的系統(tǒng),其中交互服務(wù)單元包括服務(wù)情景數(shù)據(jù)庫,其預(yù)先定義可對各屏幕輸入的一序列指令,并且在執(zhí)行唇讀或者 語音識(shí)別時(shí)提供可對各服務(wù)屏幕或者在各階段輸入的該序列指令; 服務(wù)屏幕;屏幕轉(zhuǎn)換單元,其根據(jù)在服務(wù)情景數(shù)據(jù)庫中定義的功能響應(yīng)于輸入指令執(zhí)行屏幕轉(zhuǎn) 換,并且向服務(wù)屏幕提供當(dāng)前服務(wù)狀態(tài)的信息;識(shí)別目標(biāo)單詞序列設(shè)置單元,其設(shè)置在基于服務(wù)情景數(shù)據(jù)庫發(fā)生狀態(tài)改變的情況 下,各服務(wù)狀態(tài)或者屏幕所要求的一序列單詞;如權(quán)利要求1所述的多模式界面系統(tǒng),其通過參照由識(shí)別目標(biāo)單詞序列設(shè)置單元設(shè) 置的識(shí)別目標(biāo)單詞序列組合唇讀與語音識(shí)別,來執(zhí)行抗噪語音識(shí)別;服務(wù)執(zhí)行單元,其響應(yīng)于輸入指令執(zhí)行屏幕轉(zhuǎn)換、語音引導(dǎo)、信息注冊和其它注冊 的應(yīng)用服務(wù);以及識(shí)別結(jié)果確定單元,其確定語音識(shí)別或者唇讀識(shí)別是否失敗,以決定是否對輸入音 頻和視頻信號(hào)執(zhí)行服務(wù),從而限制在實(shí)際服務(wù)中要識(shí)別的單詞的數(shù)目,由此顯著提高識(shí) 別率。
6.一種組合唇讀與語音識(shí)別的多模式界面系統(tǒng),包括 音頻語音輸入單元;語音識(shí)別單元;語音識(shí)別指令和估計(jì)概率輸出單元; 嘴唇視頻圖像輸入單元; 唇讀單元;唇讀識(shí)別指令輸出單元;以及語音識(shí)別與唇讀識(shí)別結(jié)果組合單元,其輸出語音識(shí)別指令。
7.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中音頻語音輸入單 元獲得通過音頻輸入傳感器輸入的聲音信號(hào)或者通過有線或無線連接從外部傳送的輸入音頻信號(hào)。
8.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中語音識(shí)別單元從 輸入音頻信號(hào)識(shí)別語音并且計(jì)算估計(jì)的識(shí)別準(zhǔn)確度。
9.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中語音識(shí)別指令和 估計(jì)概率輸出單元輸出與語音識(shí)別單元識(shí)別的語音相對應(yīng)的指令和估計(jì)的識(shí)別概率值。
10.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中嘴唇視頻圖像 輸入單元獲得通過圖像輸入傳感器輸入的輸入圖像或者通過有線或無線連接從外部傳送 的輸入圖像。
11.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中唇讀單元通過 處理輸入圖像識(shí)別說話者的唇讀指令。
12.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中唇讀識(shí)別指令 輸出單元輸出由唇讀單元識(shí)別的唇讀指令。
13.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中如果估計(jì)的概 率高于閾值,則語音識(shí)別與唇讀識(shí)別結(jié)果組合單元輸出語音識(shí)別指令。
14.如權(quán)利要求6所述的組合唇讀與語音識(shí)別的多模式界面系統(tǒng),其中如果估計(jì)的概 率低于閾值,則語音識(shí)別與唇讀識(shí)別結(jié)果組合單元輸出唇讀指令。
全文摘要
本發(fā)明提供了一種組合唇讀與語音識(shí)別的多模式界面系統(tǒng),可僅通過語音和嘴唇運(yùn)動(dòng)發(fā)布導(dǎo)航操作指令,因此使得駕駛員在導(dǎo)航操作過程中向前看,并且減少在行駛過程中與導(dǎo)航操作相關(guān)的車輛事故。根據(jù)本發(fā)明的組合唇讀與語音識(shí)別的多模式界面系統(tǒng)包括音頻語音輸入單元;語音識(shí)別單元;語音識(shí)別指令和估計(jì)概率輸出單元;嘴唇視頻圖像輸入單元;唇讀單元;唇讀識(shí)別指令輸出單元;和語音識(shí)別與唇讀識(shí)別結(jié)果組合單元,其輸出語音識(shí)別指令。
文檔編號(hào)G06F3/01GK102023703SQ20091024688
公開日2011年4月20日 申請日期2009年12月3日 優(yōu)先權(quán)日2009年9月22日
發(fā)明者李振碩, 李珍, 申鐘柱, 金大熙, 金大鎮(zhèn) 申請人:現(xiàn)代自動(dòng)車株式會(huì)社, 起亞自動(dòng)車株式會(huì)社