專利名稱:以言語方式進(jìn)行交流的面部響應(yīng)電視設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及電視機(jī),更具體地涉及一種響應(yīng)于面部辨認(rèn)而以言語方式與用戶進(jìn)行交流的電視。
背景技術(shù):
用戶通過家里的電視機(jī)來收看新聞、電影、表演等。鑒于其用途,電視機(jī)變得越來越大,并且在許多家庭中已占據(jù)中心位置。然而,大部分電視仍然是必須依靠直接或者遠(yuǎn)程的控制輸入的被動裝置。另外,電視裝置對于觀看它們的用戶而言仍然是非人性化的。
發(fā)明內(nèi)容
因此,本發(fā)明提供了一種增強(qiáng)的個性化電視體驗,同時克服了之前的電視控制設(shè)備的缺點。本發(fā)明所教導(dǎo)的電視設(shè)備以個性化的會話方式與用戶進(jìn)行言語交流。該交流是響應(yīng)于攝像機(jī)收集的圖像信息進(jìn)行的,其中,該攝像機(jī)與電視中執(zhí)行圖像處理(例如,包括面部辨認(rèn))以識別靠近電視的個人觀看者和觀看者群組的計算機(jī)相連接。該系統(tǒng)不僅確定人是否位于電視裝置附近,而且實際上對這些人的身份進(jìn)行確定,并且交互地利用此信息來生成個性化的言語輸出。響應(yīng)于確定這些個人的身份并查找有關(guān)他們各自的偏好集(preference set)及觀看歷史的信息,個性化的言語通告被生成,從而使得電視與這些個人“交談”,從而提供有用信息并在某些情況下進(jìn)行“聊天”。詞語“聊天”被用在本發(fā)明中來表示言語輸出,該言語輸出可能完全缺乏信息內(nèi)容,但是同時可以使用戶獲得一些人際互動的感覺。人物(個人)辨認(rèn)允許在電視與觀看者之間形成一定水平的以前不可獲得的音頻互動?;趯€人和/或個人群組的辨認(rèn),可為每個用戶或用戶組合定制自定義的狀態(tài)和偏好集。此外,電視的言語輸出不僅僅局限于狀態(tài),而且本發(fā)明實施例可提供關(guān)于特定觀看者所感興趣的事情的特定言語警報,該警報包括有關(guān)預(yù)計感興趣的表演(例如,觀看次數(shù)和頻道、背景信息)、天氣狀況、新聞、甚至在某些實施例中進(jìn)入電子郵件的可能性、約會日期等的信息?;诶昧藖碜运R別出的個人的偏好設(shè)置的信息的上下文、模板和啟發(fā),以私人的會話方式生成言語輸出。
盡管本發(fā)明的電視系統(tǒng)的某些實施方式可獲得有益于所識別出的個人和群組的外部信息,但它不要求單獨的計算機(jī)服務(wù)器的實現(xiàn),盡管它可配置成與一個計算機(jī)服務(wù)器協(xié)作。本發(fā)明提供了很多有益因素,這些因素可以在不背離本發(fā)明教導(dǎo)的情況下單獨或者以任何期望的組合形式被實現(xiàn)。本說明書的下述部分描述了本發(fā)明的其他方面和實施例,其中詳細(xì)描述是以充分公開本發(fā)明的優(yōu)選實施例為目的,而不是為了限制本發(fā)明。
通過參照以下的僅用于說明目的的附圖將更充分地理解本發(fā)明,其中 圖I是根據(jù)本發(fā)明實施例的電視設(shè)備的框圖,其示出了該設(shè)備內(nèi)的計算機(jī)和存儲器。圖2是根據(jù)本發(fā)明實施例的由配置有面部辨認(rèn)功能的電視所執(zhí)行的言語交流的流程圖。圖3是根據(jù)本發(fā)明實施例的言語交流選擇的流程圖。圖4是由根據(jù)本發(fā)明實施例配置的電視所執(zhí)行的可選擇的言語辨認(rèn)的流程圖。
具體實施例方式根據(jù)本發(fā)明的電視設(shè)備為個人觀看者和群組提供了新型言語交流能力。這種與特定用戶“交談”的能力使電視(TV)能夠向每個用戶提供定制信息,并且可以使電視體驗更加個性化、信息更加豐富、更具娛樂性且更加友好。圖I示出了以言語方式做出響應(yīng)的電視機(jī)設(shè)備的示例性實施例10,其中,該電視機(jī)設(shè)備響應(yīng)于圖像辨認(rèn)(更優(yōu)選為面部辨認(rèn))而進(jìn)行操作。控制子系統(tǒng)12控制多個輸入和輸出裝置,這些輸入和輸出裝置包括至少一個電視顯示器14、由手動(觸覺)用戶界面16表示的用戶界面裝置、無線用戶接口 18、和相關(guān)聯(lián)的遙控器20。言語輸出被配置為在具有音頻報警器(揚(yáng)聲器)且優(yōu)選具有至少兩個這種報警器/揚(yáng)聲器24、26的音頻子系統(tǒng)22上生成,用以提供立體聲輸出。所示出的圖像捕捉裝置28被配置用于捕捉靠近電視設(shè)備的靜止圖像和/或視頻圖像。為簡單起見而不是為了限制,所示出的攝像機(jī)沒有外部照明、可變焦距或縮放元件。應(yīng)當(dāng)理解的是,可以支持任何形式的增強(qiáng)型攝像機(jī)特征。在本發(fā)明的一個實施例中,電視提供紅外光源(例如,諸如發(fā)光二極管(LED)之類的一個或多個元件),例如以攝像機(jī)鏡頭為中心的環(huán)形構(gòu)造的紅外光源。在本發(fā)明的某些實施中包含紅外照明,使得圖像/面部辨認(rèn)子系統(tǒng)甚至在電視觀看期間常見的低環(huán)境照明情況下也能可靠運(yùn)行。在本發(fā)明的一種模式中,程序(programming)被配置為響應(yīng)于從顯示器輸出的光來執(zhí)行圖像/面部辨認(rèn),并基于從電視顯示器輸出的顏色、圖案和亮度來自動補(bǔ)償顏色和亮度水平,從而對所收集的圖像圖案進(jìn)行校正。例如,可以利用平均機(jī)制(例如,具有不同顏色輸出的交叉巾貞(acrossframes)),利用已知的顏色校正機(jī)制或者其他已知方法來進(jìn)行補(bǔ)償,從而提供足夠精確的識別。還示出了可選的傳聲器30,其用于支持根據(jù)本發(fā)明的至少一個實施例的言語辨認(rèn)。另外,示出了可選的廣域網(wǎng)接口 32,該廣域網(wǎng)接口例如用于通過本發(fā)明的言語響應(yīng)機(jī)制在無需用戶介入的條件下提供到被自動利用的互聯(lián)網(wǎng)的連接。與任何電視一樣,它能接收來自多種節(jié)目源34(例如,來自機(jī)頂盒(STB)、電纜輸入、視頻播放器、空中(OTA)編程和其他媒體源)的媒體信息。電視設(shè)備的控制子系統(tǒng)12包括至少一個計算機(jī)處理元件,該計算機(jī)處理元件被描述為中央處理單元(CPU) 36,其中該中央處理單元36連接到用于存儲可在處理器36中執(zhí)行的程序40、以及包含用戶信息、圖像辨認(rèn)圖案、選擇偏好和其他期望數(shù)據(jù)在內(nèi)的數(shù)據(jù)42的存儲器38。應(yīng)當(dāng)理解的是,本發(fā)明的元件也可以被實現(xiàn)為存儲在媒體中的程序,并且被配置為用于具有相關(guān)聯(lián)的圖像捕捉裝置的電視設(shè)備中。電視機(jī)配置有用于捕捉圖像的攝像機(jī)28,以對與選擇偏好集相關(guān)聯(lián)的個人和群組進(jìn)行辨認(rèn),以便在通過圖像/面部辨認(rèn)識別出個人時可以檢索(查找)他們各自的偏好設(shè)置和歷史。通過示例而非限制,電視可提供設(shè)置過程,該過程指導(dǎo)用戶輸入他們各自的偏好并且指導(dǎo)用戶考慮攝像機(jī),從而使得圖像辨認(rèn)信息可以被與由用戶設(shè)置的偏好(包括他們的姓名)相關(guān)聯(lián)。應(yīng)當(dāng)理解的是,電視優(yōu)選地在此過程中輸出來自攝像機(jī)的視頻以提供用戶反饋。在此識別過程中,系統(tǒng)利用儲存?zhèn)溆玫谋嬲J(rèn)數(shù)據(jù)(例如,點集、特征集、辨認(rèn)模板或者根據(jù)可用辨認(rèn)算法的其他描述符)來執(zhí)行圖像辨認(rèn)(優(yōu)選的主要包括面部辨認(rèn))。還應(yīng)當(dāng)理解的是,在其他過程和環(huán)境中,所述系統(tǒng)可以對“未知”用戶與他們的觀看歷史信息進(jìn)行關(guān)聯(lián)。例如,在一種模式中,所述系統(tǒng)捕捉以下未知方的圖像,其中這些未知方的姓名和偏好數(shù)據(jù)還沒有被與他們的捕捉圖像數(shù)據(jù)相關(guān)聯(lián)地輸入。所述系統(tǒng)對每個人附接臨時標(biāo)記(姓名),選擇默認(rèn)偏好集,并且存儲數(shù)據(jù)。如果個人被辨認(rèn)為未知個人中的一位,則該個人的默認(rèn)偏好和觀看歷史仍然可用于所述系統(tǒng)對言語響應(yīng)的個性化處理。應(yīng)當(dāng)理解的是,所述系統(tǒng)優(yōu)選地被配置成存儲觀看歷史(例如,表演、次數(shù)、類型等等),甚至對于尚未專門輸入其偏好信息和姓名的觀看者也是如此。此信息可用于對言語輸出進(jìn)行個性化處理,甚至可在不知道包含在言語輸出中的姓名的情況下使用。在某種情況下,例如在同一個人反復(fù)地多次使用該電視的情況下,可以詢問他們是否想要選擇他們的言語交流偏好。在運(yùn)行期間,電視機(jī)捕捉靠近觀看區(qū)域的圖像,執(zhí)行圖像-面部辨認(rèn),并且執(zhí)行查找以確定在場人員并獲得他們的偏好設(shè)置、歷史數(shù)據(jù)及針對該個人存儲的其他信息。例如,可以經(jīng)由廣域網(wǎng)連接(例如,到互聯(lián)網(wǎng)的連接)獲得其他數(shù)據(jù)(外部數(shù)據(jù)),例如具有表演、次數(shù)、頻道、天氣信息、新聞和其他可用信息的節(jié)目指南。電視可以與一個或多個個人進(jìn)行言語交流,諸如“歡迎雅各布(Jacob)回家”、或者“嘿,鮑勃(Bob),杰作劇院(Masterpiece Theatre)即將在十分鐘后于12頻道播放”、或者“內(nèi)德(Ned),現(xiàn)在大約是晚上8點”、或者“33分鐘后電影Forging a Fickle Stream將于4頻道中播放,該片主角為您最喜愛的演員‘Tide Cleave’”。此外,言語輸出可以包括友好的“逗弄”,例如當(dāng)用戶選擇來自DVD播放器的輸入時,電視會說“你打算去看電影嗎?我希望它是部好電影”。這可以基于經(jīng)互聯(lián)網(wǎng)獲取日歷數(shù)據(jù)而被擴(kuò)展為例如“今晚是滿月-也許是觀看驚悚片的好夜晚”。應(yīng)理解的是,在關(guān)于用戶的偏好設(shè)置、觀看歷史(例如,最喜愛的表演、觀看天數(shù)、次數(shù)、類型等)和其他信息、天氣、新聞、關(guān)于不同表演的興趣信息、以及用戶已在偏好設(shè)置內(nèi)或者通過與電視的交流表示興趣且對與用戶的交流有用的任何其他信息方面,為特定用戶定制言語輸出。在本發(fā)明中,電視基于所收集的與用戶的興趣有關(guān)的信息來提供預(yù)期程度的聊天,從而最大化友好氣氛中的觀看體驗,其中所述信息包括但不限于用戶的歷史(使用)、連接、存在、動作。另外,許多電視觀眾單獨生活或者利用電視來營造家庭內(nèi)的環(huán)境氣氛。如果電視似乎在與他們進(jìn)行交流,則其中一些用戶可能會對此較為欣賞或喜愛。因為并非所有用戶均需要一臺“健談的”電視,所以本發(fā)明的實施例允許用戶選擇言語表達(dá)的程度和性質(zhì),例如在偏好設(shè)置中選擇這些內(nèi)容。在本發(fā)明的一個實施例中,聊天模式優(yōu)選地被配置用于檢測各種狀況(至少包括用戶接近性以及用戶觀看歷史),并且可選擇性地收集額外信息。根據(jù)至少一個裝置實施例配置聊天模式,以提供對聊天上下文和措詞的某種程度的隨機(jī)選擇,從而使得聊天不完全是可預(yù)知的。 在可選實施例中,言語(聊天)模式可以注冊來自用戶的輸入,例如響應(yīng)于圖像辨認(rèn)而注冊的手勢,和/或經(jīng)由傳聲器30應(yīng)用語音辨認(rèn)。本領(lǐng)域技術(shù)人員將認(rèn)識到,在不背離本發(fā)明的情況下,本發(fā)明的上述元件可通過替代方式實現(xiàn)。因此,可以將本發(fā)明中的電視裝置描述成合作運(yùn)行的多個裝置元件,以便電視對圖像辨認(rèn)(優(yōu)選為面部辨認(rèn))做出響應(yīng),如下面圖I中所述。用于控制電視的裝置12提供了對于顯示視頻圖像和生成音頻輸出的控制。提供了一種用于向用戶顯示視頻圖像的裝置14,同時提供了用于收集直接的用戶輸入(例如觸覺)的裝置16和/或通過無線連接18 (例如,遠(yuǎn)程裝置20)的用戶輸入的用于收集用戶輸入的裝置。還提供了用于生成音頻輸出的裝置22,所述系統(tǒng)經(jīng)由該裝置可以生成言語輸出。用于捕捉圖像的裝置28允許電視進(jìn)行操作,以捕捉靠近電視設(shè)備的靜止圖像和/或視頻圖像。所述電視配置有用于接收供在電視上輸出的媒體內(nèi)容的裝置34??蛇x地,所述電視設(shè)備包括用于對來自用戶的言語輸入進(jìn)行語言辨認(rèn)的裝置30,其中,控制裝置12對音頻輸入進(jìn)行音頻處理以辨認(rèn)來自用戶的言語輸入。優(yōu)選地包括用于建立與廣域網(wǎng)(例如,互聯(lián)網(wǎng))的連接的裝置32。圖2示出了根據(jù)本發(fā)明的言語交流方法的示例性實施例。在本發(fā)明的至少一個實施例中,存儲一個或多個個人(或群組)的偏好50。在圖2中,步驟50被用星號標(biāo)出,以將其表示為一系列方法步驟中的可選步驟,因為在不背離本發(fā)明的教導(dǎo)的情況下,偏好可以用各種方式按不同次數(shù)加以存儲。偏好設(shè)置描述了如何在所述系統(tǒng)中對每個個人(或群體)的言語交流進(jìn)行處理,并且提供了有關(guān)用戶的信息,從而使所述系統(tǒng)能提供大范圍的語言功能。偏好設(shè)置或者獨立的數(shù)據(jù)庫中包括每個個人的識別特征(例如,圖像和面部辨認(rèn))。應(yīng)當(dāng)理解的是,在不背離本發(fā)明的教導(dǎo)的情況下,數(shù)據(jù)庫可以以任何期望的方式出現(xiàn)或者被分開。將注意到,盡管群組是個人的集合,但是當(dāng)對任意群組或所選擇的群組進(jìn)行處理時,偏好設(shè)置可產(chǎn)生不同的言語輸出。例如,家庭中的個人盡管具有各自的偏好設(shè)置,但當(dāng)多于一個個人在場時或者響應(yīng)于來自該群體的特定個人的存在,家庭中的個人可以由群體偏好設(shè)置處理。偏好設(shè)置可允許用戶選擇言語交流的許多方面,例如言語表達(dá)的程度、語音(例如,男性/女性、話音質(zhì)量、語調(diào)、重音、語言(例如,英語、德語、西班牙語、法語等)、子語言(標(biāo)準(zhǔn)英語、美國英語、南方英語、克里奧耳語等)、互動的主題范圍(例如,用戶最喜愛的表演、最喜愛的表演類型以及表演題目、演員表和背景信息、電影信息、天氣、當(dāng)前事件、本地新聞等)。應(yīng)當(dāng)理解的是,上述詞語“表演”被最廣義地應(yīng)用,以表示電視內(nèi)容的任何可選部分,包括電影、連續(xù)劇的一個節(jié)目段、紀(jì)錄片、新聞節(jié)目、動畫片等。當(dāng)輸入偏好設(shè)置時,用戶也可提供與他們的特殊喜惡有關(guān)的信息,例如他們最喜愛的表演類型(例如,類型(電影、情景喜劇、真人秀等)、體裁(古典片、偵探片、西部片、恐怖片、言情片等)、長度、最喜愛的觀看次數(shù)等。根據(jù)此信息,所述系統(tǒng)可以更容易地決定什么言語信息是用戶感興趣的,并且推薦表演,提供關(guān)于表演的背景信息,并且通過在通信信道(例如,互聯(lián)網(wǎng)連接32)中獲取其他信息來提供有關(guān)其他主題(例如天氣、新聞等)的信息。應(yīng)當(dāng)理解的是,上述類別被作為示例提供而非用于限制,因為所述系統(tǒng)可以很容易地被配置成允許不受限制地在任意一個或多個主題范圍內(nèi)進(jìn)行互動。—旦確立了偏好設(shè)置,則電視能利用圖像/面部辨認(rèn)來識別個人,并且能提示將生成何種類型及程度的言語輸出。然而,應(yīng)注意到,本發(fā)明的模式可以在沒有偏好設(shè)置的情況下生成默認(rèn)水平的言語通告,并且可要求用戶自己進(jìn)行識別(如果裝置安裝有語音辨認(rèn)功能則通過言語方式進(jìn)行識別、或者通過文本輸入或者通過其他方式進(jìn)行辨認(rèn))。由此,所述系統(tǒng)可不受限制地在運(yùn)行中獲取信息,從而提高言語交流的功用。然后,電視捕捉靠近所述裝置的個人的圖像(例如,靜止圖像或視頻圖像)52,并且相對于特性數(shù)據(jù)庫來執(zhí)行圖像/面部辨認(rèn)54以確定哪些個人在場,以及在多人在場的情況下他們是否定義了一個其附加信息可用的群組。檢索這些個人和群組的語言參數(shù)和定制信息56,并且使用該語言參數(shù)和定制信息來生成言語輸出。如圖2中星號所示,可選步驟58示出在至少一個實施例中,所述電視可被配置以至少一個傳聲器和用于語音辨認(rèn)以注冊來自靠近電視和/或正在觀看電視的個人的諸如命令和響應(yīng)之類的言語輸入58的相關(guān)程序。所述系統(tǒng)可選地經(jīng)由通信連接(如圖I中所示的廣域網(wǎng)32)檢索其他信息(如附圖中星號所標(biāo)示的)60,所述其他信息例如是與個人的偏好信息及他們各自的觀看歷史有關(guān)的信息。然后,言語交流/通告由程序生成62,該言語交流/通告是針對個人和/或其群組的,且可在運(yùn)行中被輸出或者可選地響應(yīng)于檢測出媒體中斷64而被輸出(如附圖中星號所標(biāo)示的),以便使言語通報在適當(dāng)?shù)臅r間被輸出,從而使對觀看者體驗造成的打擾降至最低。例如,在本發(fā)明的至少一種模式中,在通報期間減弱來自節(jié)目源的音頻輸出,例如減弱電視播放的商業(yè)中斷的音頻并輸出該音頻。在另一個實例中,所述程序被配置為例如響應(yīng)于他們的暫時存在并且可選地基于他們自身的會話或者所生成的噪音(例如,談話、四處走動、在相鄰廚房中準(zhǔn)備點心等),來辨認(rèn)用戶何時不再關(guān)注電視播放的程序。在本發(fā)明的一種模式中,如果可以暫停程序源(例如,來自媒體源(DVD、DVR或者其他存儲媒體或似乎合理的媒體),則可暫停至關(guān)重要的言語輸出消息的回放。圖3示出了響應(yīng)于“上下文”和“模板”而生成言語通告從而提供會話輸出的一個示例性實施例,其中所述會話輸出是不太可預(yù)知的(包括確保給定的“上下文”和措詞最近尚未使用)。首先選擇可以被認(rèn)為是“主題”,但是在某種意義上與以前的言語輸出有關(guān)聯(lián)并且可以被細(xì)分的上下文70。上下文的示例可包括今天播放的可能會感興趣的電視表演、今天的當(dāng)?shù)販囟?降水、風(fēng)暴警告、新聞警報、與最喜愛的表演有關(guān)的演員表和背景信息以及大范圍的話題和子話題,這些話題和子話題僅被局限于使信息能夠被所述系統(tǒng)使用的程度以及其如何符合用戶偏好的關(guān)系(例如,他們是否想聽到關(guān)于天氣或者其他方面的信息)。然后,在言語上下文中,通過一些隨機(jī)貢獻(xiàn)選擇“短語模板”72,同時連接到之前的短語輸出。例如,一個上下文可以是天氣,其中選擇短語模板并且填入關(guān)于溫度的信息,例如“約翰(John),今天確實升溫了,...氣溫應(yīng)達(dá)到85度”。實際高溫“85”是從外部數(shù)據(jù)源獲得的(例如,經(jīng)由互聯(lián)網(wǎng)連接獲得),并且被用于填入短語模板中。然后,也可通過在此上下文中選擇后面的措詞74來模仿常規(guī)語言會話的平滑流,從而來結(jié)合此言語輸出。在上述天氣上下文的例子中,可以在后面的短語模板中輸出其他信息,例如天氣預(yù)報、歷史趨勢等;通過選擇隨機(jī)化的輸入,并且通過防止選擇最近已被使用的措詞的系統(tǒng),確保了所述系統(tǒng)不會過度地重復(fù)相同的上下文。在擴(kuò)展模式中,信息可以是關(guān)于其他地點或地區(qū)的言語表達(dá),例如非局部范圍中的天氣、新聞等,正如偏好設(shè)置中所規(guī)定的,例如家庭成員所在地 區(qū)的信息。在本發(fā)明的一個實施例中,可以響應(yīng)于以下內(nèi)容使聊天啟發(fā)(chatterheuristics)參數(shù)化(a)“用戶統(tǒng)計”,例如姓名、地點、購買歷史、用戶興趣以及需要的其他信息;(b) “觀看歷史”;和(C) “合作信息”,其中基于上述用于“短語模板”的參數(shù)來收集信息。最理想地,可經(jīng)由網(wǎng)絡(luò)連接來收集該信息,以提供填入合適的“短語模板”的數(shù)據(jù)。圖4示出了所述系統(tǒng)對觀看者手勢和/或語音輸入進(jìn)行注冊從而優(yōu)化言語輸出的方法。在這些可選實施例中,電視的言語輸出至少是部分響應(yīng)于對手勢和/或語音辨認(rèn)形式的用戶輸入的注冊。應(yīng)當(dāng)理解的是,如果攝像機(jī)被配置用于提供足夠的幀率(framingrate),則可以利用從攝像機(jī)捕捉的信息來進(jìn)行手勢辨認(rèn),并可以根據(jù)圖像辨認(rèn)程序中的用于確定手勢的已知技術(shù)對手勢辨認(rèn)進(jìn)行處理。語音輸入的辨認(rèn)要求在由電視(例如經(jīng)由圖I中所示的傳聲器30)捕捉的音頻上應(yīng)用語音辨認(rèn)程序。通過舉例的方式而非限制,手勢可包括手勢與命令之間的任何期望的相關(guān)性,例如將水平的類似掌劈的手部運(yùn)動定義為使電視降低其聊天模式的命令,或者將不受限制的其他手勢定義為控制聊天的其他方面的命令。與上述相似,所述系統(tǒng)可以響應(yīng)于對用戶語音的辨認(rèn)而執(zhí)行各種命令和控制,如圖4所示。利用語音辨認(rèn),經(jīng)由傳聲器接收特定的用戶控制詞語,并且通過執(zhí)行語音辨認(rèn)而將音頻轉(zhuǎn)換成文本。為簡化辨認(rèn)過程,可利用關(guān)鍵短語來表達(dá)來自用戶的請求。甚至特定的用戶可以訓(xùn)練所述系統(tǒng)(例如,用戶說出特定的短語要素)以提高準(zhǔn)確度。言語音頻數(shù)據(jù)首先被捕捉90。應(yīng)當(dāng)理解的是,優(yōu)選地所述系統(tǒng)必須首先判斷噪音與語音輸入之間的差另IJ。所述系統(tǒng)忽略(濾除)正在電視播放的音頻,從而使得此材料可以不被認(rèn)為是音頻輸入。另外,該單元優(yōu)選地被配置用于分辨來自其他音頻源的輸出(例如,來自用戶的無線電程序)。執(zhí)行言語辨認(rèn)92,以分辨來自用戶的命令信息。然后,利用此命令信息來修改特定個人的用戶偏好或改變言語上下文特性(例如,主題、輸出特性等)94,從而基于語言辨認(rèn)來選擇言語通告。在生成上述言語通告之前或之后,可根據(jù)分配給語言辨認(rèn)的含義而選擇性地收集其他信息96。
應(yīng)當(dāng)理解的是,根據(jù)本發(fā)明的語音辨認(rèn)也可以被用戶用來將期望的信息告知所述系統(tǒng)(期望的信息可得到滿足,并以言語系統(tǒng)輸出的形式輸出),或者用來發(fā)布提示(例如,重要日期、生日、要做的事情等),滿足用戶對信息的請求等。應(yīng)當(dāng)指出的是,盡管圖4是針對語音輸入的,但手勢辨認(rèn)可以遵循相同的基本流程(其中不提供單獨的流程圖)。本發(fā)明提供了用于來自電視機(jī)的言語交流的方法和設(shè)備,該方法和設(shè)備可通過大范圍的可選方式和實施例來實現(xiàn)。因此,可以看出,本發(fā)明包括下列發(fā)明性實施例,其中I. 一種電視設(shè)備,包括用于顯示所接收的媒體程序的視頻圖像的裝置;用于生成音頻輸出的裝置;用于收集用戶輸入的裝置;用于捕捉靠近所述設(shè)備的區(qū)域的圖像作為
捕捉圖像的裝置;用于響應(yīng)于來自所述用于收集用戶輸入的裝置和所述用于捕捉圖像的裝置的輸入,控制所述視頻圖像的顯示及所述音頻輸出的生成的裝置;以及用于響應(yīng)于對所述捕捉圖像執(zhí)行圖像和/或面部辨認(rèn),以識別正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的個人,并且從所述設(shè)備檢索用于生成個性化言語輸出的相關(guān)聯(lián)地存儲的偏好,從而生成個性化言語輸出的裝置。2.如實施例I中所述的設(shè)備,其中用于對用戶輸入進(jìn)行注冊的裝置對來自從以下來源群組中選擇的來源的用戶輸入進(jìn)行注冊,其中,所述來源組群組包括來自有線或無線用戶界面的觸覺界面輸入、手勢辨認(rèn)和語音辨以。3. 一種電視設(shè)備,包括顯示子系統(tǒng),配置用于顯示視頻圖像;音頻輸出子系統(tǒng);用戶界面,配置用于對電視設(shè)備的操作特性和媒體程序進(jìn)行用戶選擇;攝像機(jī)子系統(tǒng);計算機(jī),配置用于響應(yīng)于來自所述用戶界面和所述攝像機(jī)子系統(tǒng)的輸入而控制所述顯示子系統(tǒng)和所述音頻子系統(tǒng);以及可在計算機(jī)上執(zhí)行的程序,該程序用于控制所述攝像機(jī)子系統(tǒng)捕捉正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的個人的圖像;相對于數(shù)據(jù)庫執(zhí)行面部辨認(rèn),以確定正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的一個或多個個人;檢索關(guān)于正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的一個或多個個人的存儲信息;以及當(dāng)所述一個或多個個人正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動時,基于對所述存儲信息的檢索而生成言語通告。4.如實施例3中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于存儲關(guān)于正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的一個或多個個人中的每個個人的電視偏好的信息的程序。5.如實施例3中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于當(dāng)觀看者沒有被所述設(shè)備辨認(rèn)出來時選擇默認(rèn)言語通告模式的程序。6.如實施例3中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于在與所述設(shè)備的有效交流中經(jīng)由廣域網(wǎng)連接檢索用于所述言語通告的信息的程序。7.如實施例6中所述的設(shè)備,其中所述信息是從包括以下各項的信息群組中選擇的媒體節(jié)目信息、天氣信息、新聞和歷史信息。8.如實施例3中所述的設(shè)備,其中所述偏好是針對所述設(shè)備的至少一個個人觀看者從包括以下各項的偏好群組中選擇的最喜愛的頻道、最喜愛的表演、觀看歷史、顯示設(shè)置、音頻設(shè)置和觀看次數(shù)。9.如實施例3中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于檢測由所述設(shè)備播放的媒體中的商業(yè)或程序中斷,并且在這些中斷期間生成所述言語通告的程序。10.如實施例3中所述的設(shè)備,其中所述言語通告的上下文是響應(yīng)于所述存儲信息而選擇的;并且其中所述上下文中的短語模板是至少部分地基于隨機(jī)選擇而選擇的。11.如實施例3中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于選擇維持相互間的關(guān)系從而模仿會話中的短語的相鄰短語模板的程序。12.如實施例3中所述的設(shè)備,還包括傳聲器;以及可在計算機(jī)上執(zhí)行的用于對來自所述傳聲器的輸出執(zhí)行語音辨認(rèn),以控制對來自所述設(shè)備的言語通告的選擇和/或?qū)碜运鲋辽僖粋€個人的言語命令的注冊的程序。13.如實施例12中所述的設(shè)備,其中語音辨認(rèn)被配置用于控制和/或確定對來自 所述設(shè)備的言語通告的選擇。14. 一種電視設(shè)備,包括顯示子系統(tǒng),配置用于顯示視頻圖像;音頻輸出子系統(tǒng);用戶界面,配置用于對電視設(shè)備的操作特性和媒體程序進(jìn)行用戶選擇;攝像機(jī)子系統(tǒng);計算機(jī),配置用于響應(yīng)于來自所述用戶界面和所述攝像機(jī)子系統(tǒng)的輸入而控制所述顯示子系統(tǒng)和所述音頻子系統(tǒng);可在計算機(jī)上執(zhí)行的程序,用于存儲關(guān)于正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的個人的電視偏好的信息;控制所述攝像機(jī)子系統(tǒng)捕捉正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的個人的圖像;相對于數(shù)據(jù)庫執(zhí)行面部辨認(rèn),以確定正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的一個或多個個人;檢索關(guān)于正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的一個或多個個人的存儲信息;并且當(dāng)所述一個或多個個人正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動時,基于對所述存儲信息的檢索而生成言語通告。15.如實施例14中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于當(dāng)所述個人中的一個個人沒有被所述設(shè)備辨認(rèn)出來時選擇默認(rèn)言語通告模式的程序。16.如實施例14中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于在與所述設(shè)備的有效交流中經(jīng)由廣域網(wǎng)連接檢索用于所述言語通告的信息的程序。17.如實施例14中所述的設(shè)備,其中所述信息是從包括以下各項的信息群組中選擇的媒體節(jié)目信息、天氣信息、新聞和歷史信息。18.如實施例14中所述的設(shè)備,其中所述偏好是針對所述設(shè)備的至少一個個人觀看者從包括以下各項的偏好群組中選擇的最喜愛的頻道、最喜愛的表演、觀看歷史、顯示設(shè)置、音頻設(shè)置和觀看次數(shù)。19.如實施例14中所述的設(shè)備,還包括可在計算機(jī)上執(zhí)行的用于檢測由所述設(shè)備播放的媒體中的商業(yè)或程序中斷,并在這些中斷期間生成所述言語通告的程序。20.如實施例14中所述的設(shè)備,還包括傳聲器;和可在計算機(jī)上執(zhí)行的用于對來自傳聲器的輸出執(zhí)行語音辨認(rèn),以控制對來自所述設(shè)備的言語通告的選擇和/或?qū)碜运鲋辽僖粋€個人的語言命令的注冊的程序。本發(fā)明的另一個實施例是一種響應(yīng)于圖像辨認(rèn)(特別是面部辨認(rèn))而與特定個人和/或群組進(jìn)行言語和私人交流的電視。本發(fā)明的另一個實施例是一種具有用于捕捉靠近電視(更具體地,在正常觀看電視的屏幕的前方區(qū)域)的圖像的至少一個攝像機(jī)(例如,連接到所述電視,或者更優(yōu)選地并入所述電視)的電視機(jī)。
本發(fā)明的另一個實施例是一種提供響應(yīng)于個人觀看者或其群組而生成會話言語通告的能力的電視。本發(fā)明的另一個實施例是一種存儲利用電視的個人觀看者的言語交流偏好,并且可以基于未識別出的觀看者的觀看歷史而選擇他們的默認(rèn)言語交流模式的電視。本發(fā)明的另一個實施例是一種以會話方式生成針對個人用戶的言語輸出的電視,其中,該言語輸出具有以下主題(上下文),在該主題中填充并利用了相互關(guān)聯(lián)的短語模板。本發(fā)明的另一個實施例是一種生成不重復(fù)、不可預(yù)測或不單調(diào)的言語輸出的電視。本發(fā)明的另一個實施例是一種根據(jù)所識別出的用戶的偏好選擇并且可選地響應(yīng)于來自該用戶的輸入(例如,言語和/手勢)向所識別出的用戶提供信息的電視。 本發(fā)明的另一個實施例是一種自動向用戶提供信息的電視,該等功能超出了電視的一般功能,所述信息諸如是關(guān)于由用戶選擇的興趣項所獲得的電子信息(例如,節(jié)目信息、天氣(本地天氣和用戶選擇的地區(qū)的天氣)、新聞以及相似的具有特定主題的信息)。本發(fā)明的又一個實施例是一種可以常規(guī)方式或者利用言語交流運(yùn)行的電視??蓞⒄崭鶕?jù)本發(fā)明實施例的方法和系統(tǒng)和/或也可以實現(xiàn)為計算機(jī)程序產(chǎn)品的算法、公式或者其他計算描述的流程圖說明,來描述本發(fā)明的實施例。在這方面,流程圖的各方框或步驟、以及流程圖中的方框(和/或步驟)的組合、算法、公式、或計算描寫可以由各種裝置執(zhí)行,這些裝置例如是硬件、固件和/或具體化為計算機(jī)可讀程序代碼邏輯的包括一條或多條計算機(jī)程序指令的軟件。正如將被理解的,可將任何這種計算機(jī)程序指令加載到計算機(jī)(包括但不限于通用計算機(jī)或?qū)S糜嬎銠C(jī),或者產(chǎn)生機(jī)器的其他可編程處理設(shè)備)上,以便在計算機(jī)或其他可編程處理設(shè)備上執(zhí)行的計算機(jī)程序指令創(chuàng)建用于執(zhí)行流程圖方框中所指定的功能的裝置。因此,流程圖的方框、算法、公式或者計算描述支持用于執(zhí)行指定功能的裝置的組合、用于執(zhí)行指定功能的步驟的組合、和用于執(zhí)行指定功能的計算機(jī)程序指令(例如,具體化為計算機(jī)可讀程序代碼邏輯裝置的計算機(jī)程序指令)。也將理解的是,本文中描述的流程圖的各方框說明、算法、公式或者計算描述及其組合,可以由執(zhí)行指定功能或步驟的基于專用硬件的計算機(jī)系統(tǒng)、或者專用硬件與計算機(jī)可讀程序代碼邏輯裝置的組合來實現(xiàn)。此外,這些計算機(jī)程序指令(例如,具體化為計算機(jī)可讀程序代碼邏輯)也可以被存儲在計算機(jī)可讀存儲器中。該存儲器可以指導(dǎo)計算機(jī)或其他可編程處理設(shè)備以特定的方式進(jìn)行工作,以便存儲在計算機(jī)可讀存儲器中的指令產(chǎn)生包括執(zhí)行流程圖方框中指定的功能的指令裝置的產(chǎn)品。也可將計算機(jī)程序指令加載到計算機(jī)或其他可編程的處理設(shè)備上,從而使得在計算機(jī)或其他可編程處理設(shè)備中執(zhí)行一系列操作步驟,以產(chǎn)生計算機(jī)執(zhí)行的步驟,進(jìn)而使得在計算機(jī)或其他可編程處理設(shè)備中執(zhí)行的指令可提供執(zhí)行流程圖方框中所指定的功能、算法、公式或者計算描述的步驟。盡管以上描述中包含許多細(xì)節(jié),但這些細(xì)節(jié)不應(yīng)當(dāng)被解釋為限制本發(fā)明的范圍,而僅應(yīng)該作為提供了本發(fā)明優(yōu)選實施例的一部分的說明。因此,可以理解的是,本發(fā)明的范圍完全包括對本領(lǐng)域技術(shù)人員而言顯而易見的其他實施例,并且本發(fā)明的范圍只受所附的權(quán)利要求書的限制,其中單數(shù)形式的要素并非意圖表示“一個且僅有一個”,除非明確規(guī)定,否則表示“一個或多個”。上述優(yōu)選實施例中的本領(lǐng)域技術(shù)人員已知的各元素的所有結(jié)構(gòu)性和功能性等效物通過引用被明確地并入本文中,并且意欲被本發(fā)明的權(quán)利要求所覆蓋。此外,裝置或方法不必解決謀求由本發(fā)明解決的每個問題,因為其將被包含在本發(fā)明的權(quán)利要求中。此外,無論元件、構(gòu)件或方法步驟是否在權(quán)利要求書中被明確陳述,本公開中的元件、構(gòu)件或方法步驟并非意欲貢獻(xiàn)給公眾。本文中的權(quán)利要求要素不被理解成遵守35U.S. C. 112第六款的 條款,除非用短語“用于一的方法”對該元件進(jìn)行明確描述。
權(quán)利要求
1.一種電視設(shè)備,包括 顯示子系統(tǒng),配置用于顯示視頻圖像; 音頻輸出子系統(tǒng); 用戶界面,配置用于對所述電視設(shè)備的操作特性和媒體程序進(jìn)行用戶選擇; 攝像機(jī)子系統(tǒng); 計算機(jī),配置用于響應(yīng)于來自所述用戶界面和所述攝像機(jī)子系統(tǒng)的輸入,而控制所述顯示子系統(tǒng)和所述音頻子系統(tǒng);以及 可在所述計算機(jī)上執(zhí)行的程序,用于 控制所述攝像機(jī)子系統(tǒng)捕捉正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的個人的圖像; 相對于數(shù)據(jù)庫執(zhí)行面部辨認(rèn),以確定正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的一個或多個個人; 檢索關(guān)于正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的所述一個或多個個人的存儲信息;以及 當(dāng)所述一個或多個個人正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動時,基于對所述存儲信息的檢索而生成言語通告。
2.如權(quán)利要求I所述的設(shè)備,還包括可在所述計算機(jī)上執(zhí)行的用于存儲有關(guān)正在觀看所述電視設(shè)備和/或與所述電視設(shè)備互動的所述一個或多個個人中的每個個人的電視偏好的信息的程序。
3.如權(quán)利要求I所述的設(shè)備,還包括可在所述計算機(jī)上執(zhí)行的用于當(dāng)觀看者沒有被所述設(shè)備辨認(rèn)出來時選擇默認(rèn)言語通告模式的程序。
4.如權(quán)利要求I所述的設(shè)備,還包括可在所述計算機(jī)上執(zhí)行的用于在與所述設(shè)備的有效交流中經(jīng)由廣域網(wǎng)連接檢索用于所述言語通告的信息的程序。
5.如權(quán)利要求4所述的設(shè)備,其中所述信息是從包括以下各項的信息群組中選擇的媒體節(jié)目信息、天氣信息、新聞和歷史信息。
6.如權(quán)利要求I所述的設(shè)備,還包括可在所述計算機(jī)上執(zhí)行的用于檢測由所述設(shè)備播放的媒體中的商業(yè)或編程中斷,并在這些中斷期間生成所述言語通告的程序。
7.如權(quán)利要求I所述的設(shè)備, 其中所述言語通告的上下文是響應(yīng)于所述存儲信息而選擇的; 并且其中所述上下文中的短語模板是至少部分地基于隨機(jī)選擇而選擇的。
8.如權(quán)利要求I所述的設(shè)備,還包括可在所述計算機(jī)上執(zhí)行的用于選擇維持相互間關(guān)系進(jìn)而模仿會話中的短語的相鄰短語模板的程序。
9.如權(quán)利要求I所述的設(shè)備,還包括 傳聲器;并且 還包括可在所述計算機(jī)上執(zhí)行的用于對來自所述傳聲器的輸出執(zhí)行語音辨認(rèn),以控制對來自所述設(shè)備的言語通告的選擇和/或?qū)碜运鲋辽僖粋€個人的言語命令的注冊的程序。
10.如權(quán)利要求9所述的設(shè)備,其中語音辨認(rèn)被配置用于控制和/或確定對來自所述設(shè)備的言語通告的選擇。
全文摘要
公開了以言語方式進(jìn)行交流的面部響應(yīng)電視設(shè)備。一種電視設(shè)備,用于響應(yīng)于識別個人觀看者而生成個性化的言語輸出。攝像機(jī)和圖像/面部辨認(rèn)子系統(tǒng)被配置為識別個人并檢索用于生成對于觀看者的個性化言語輸出的存儲信息。
文檔編號H04N21/466GK102984589SQ20121031898
公開日2013年3月20日 申請日期2012年8月29日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者高谷典史 申請人:索尼公司