本文整體涉及確定在用戶說話時用戶的視覺注意力是否指向電子設(shè)備。
背景技術(shù):
1、智能自動化助理(或數(shù)字助理)可在人類用戶與電子設(shè)備之間提供有利界面。此類助理可允許用戶使用自然語言以語音形式和/或文本形式與設(shè)備或系統(tǒng)進行交互。例如,用戶可向正在電子設(shè)備上操作的數(shù)字助理提供包含用戶請求的言語輸入。數(shù)字助理可從該言語輸入解譯用戶意圖并且將用戶意圖操作化成任務(wù)。隨后可通過執(zhí)行電子設(shè)備的一個或多個服務(wù)來執(zhí)行這些任務(wù),并且可將響應(yīng)于用戶請求的相關(guān)輸出返回給用戶。
技術(shù)實現(xiàn)思路
1、本文公開了示例方法。一種示例方法包括在具有一個或多個處理器和存儲器的電子設(shè)備處:并發(fā)地接收音頻流和視頻流;基于在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的音頻流的第一部分和在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的視頻流的第一部分來確定在用戶說話時用戶的視覺注意力是否指向電子設(shè)備;以及根據(jù)確定在該用戶說話時該用戶的該視覺注意力指向該電子設(shè)備:將該音頻流的第二部分標(biāo)識為包括預(yù)期用于該電子設(shè)備的用戶言語;由在該電子設(shè)備上操作的數(shù)字助理基于該音頻流的該第二部分來發(fā)起任務(wù);并且提供指示所發(fā)起的任務(wù)的輸出。
2、本文公開了示例非暫態(tài)計算機可讀介質(zhì)。一種示例非暫態(tài)計算機可讀存儲介質(zhì)存儲一個或多個程序。一個或多個程序包括指令,該指令當(dāng)由電子設(shè)備的一個或多個處理器執(zhí)行時,使得電子設(shè)備:并發(fā)地接收音頻流和視頻流;基于在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的音頻流的第一部分和在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的視頻流的第一部分來確定在用戶說話時用戶的視覺注意力是否指向電子設(shè)備;以及根據(jù)確定在用戶說話時用戶的視覺注意力指向電子設(shè)備:將音頻流的第二部分標(biāo)識為包括預(yù)期用于電子設(shè)備的用戶言語;由在電子設(shè)備上操作的數(shù)字助理基于音頻流的第二部分來發(fā)起任務(wù);并且提供指示所發(fā)起的任務(wù)的輸出。
3、本文公開了示例電子設(shè)備。一種示例性電子設(shè)備包括一個或多個處理器;存儲器;以及一個或多個程序,其中該一個或多個程序存儲在存儲器中并被配置為由一個或多個處理器執(zhí)行,該一個或多個程序包括用于以下操作的指令:并發(fā)地接收音頻流和視頻流;基于在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的音頻流的第一部分和在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的視頻流的第一部分來確定在用戶說話時用戶的視覺注意力是否指向電子設(shè)備;以及根據(jù)確定在該用戶說話時該用戶的該視覺注意力指向該電子設(shè)備:將該音頻流的第二部分標(biāo)識為包括預(yù)期用于該電子設(shè)備的用戶言語;由在該電子設(shè)備上操作的數(shù)字助理基于該音頻流的該第二部分來發(fā)起任務(wù);并且提供指示所發(fā)起的任務(wù)的輸出。
4、一種示例電子設(shè)備包括用于以下操作的構(gòu)件:并發(fā)地接收音頻流和視頻流;基于在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的音頻流的第一部分和在當(dāng)前時間之前的預(yù)先確定的持續(xù)時間內(nèi)接收到的視頻流的第一部分來確定在用戶說話時用戶的視覺注意力是否指向電子設(shè)備;以及根據(jù)確定在該用戶說話時該用戶的該視覺注意力指向該電子設(shè)備:將該音頻流的第二部分標(biāo)識為包括預(yù)期用于該電子設(shè)備的用戶言語;由在該電子設(shè)備上操作的數(shù)字助理基于該音頻流的該第二部分來發(fā)起任務(wù);并且提供指示所發(fā)起的任務(wù)的輸出。
5、根據(jù)確定在用戶說話時用戶的視覺注意力指向電子設(shè)備來標(biāo)識音頻流的第二部分可允許該設(shè)備更準(zhǔn)確且有效地對言語輸入作出響應(yīng)。例如,用戶可簡單地看著該設(shè)備(或其部分),同時說出讓該設(shè)備提供相關(guān)響應(yīng)的用戶請求。此外,為了提供相關(guān)響應(yīng),該設(shè)備可不需要明確指示言語輸入預(yù)期用于該設(shè)備的附加用戶輸入,例如,口頭觸發(fā)輸入、按鈕的選擇、所顯示的示能表示的選擇等。以此方式,用戶-設(shè)備接口可更有效且準(zhǔn)確(例如,通過減少操作該設(shè)備所需的用戶輸入的量、通過減少阻止該設(shè)備不正確地對并非預(yù)期用于該設(shè)備的言語輸入作出響應(yīng)所需的用戶輸入、通過準(zhǔn)確地對預(yù)期用于該設(shè)備的言語輸入作出響應(yīng)、通過避免對該設(shè)備的重復(fù)言語輸入),這通過使用戶能夠更快速且有效地使用該設(shè)備而額外地減少電力使用并延長該設(shè)備的電池壽命。
6、本文公開了示例方法。一種示例方法包括在具有一個或多個處理器和存儲器的電子設(shè)備處:并發(fā)地接收音頻流和視頻流;將視頻流的第一部分標(biāo)識為包括第一用戶;將視頻流的第二部分標(biāo)識為包括第二用戶;根據(jù)基于音頻流和視頻流的第一部分來確定在第一用戶說話時第一用戶的視覺注意力指向電子設(shè)備:將音頻流的第一部分標(biāo)識為包括第一用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第一部分來提供第一輸出;以及根據(jù)基于音頻流和視頻流的第二部分來確定在第二用戶說話時第二用戶的視覺注意力指向電子設(shè)備:將音頻流的第二部分標(biāo)識為包括第二用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第二部分來提供第二輸出。
7、本文公開了示例非暫態(tài)計算機可讀介質(zhì)。一種示例非暫態(tài)計算機可讀存儲介質(zhì)存儲一個或多個程序。一個或多個程序包括指令,該指令當(dāng)由電子設(shè)備的一個或多個處理器執(zhí)行時,使得電子設(shè)備:并發(fā)地接收音頻流和視頻流;將視頻流的第一部分標(biāo)識為包括第一用戶;將視頻流的第二部分標(biāo)識為包括第二用戶;根據(jù)基于音頻流和視頻流的第一部分來確定在第一用戶說話時第一用戶的視覺注意力指向電子設(shè)備:將音頻流的第一部分標(biāo)識為包括第一用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第一部分來提供第一輸出;以及根據(jù)基于音頻流和視頻流的第二部分來確定在第二用戶說話時第二用戶的視覺注意力指向電子設(shè)備:將音頻流的第二部分標(biāo)識為包括第二用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第二部分來提供第二輸出。
8、本文公開了示例電子設(shè)備。一種示例性電子設(shè)備包括一個或多個處理器;存儲器;以及一個或多個程序,其中該一個或多個程序存儲在存儲器中并被配置為由一個或多個處理器執(zhí)行,該一個或多個程序包括用于以下操作的指令:并發(fā)地接收音頻流和視頻流;將視頻流的第一部分標(biāo)識為包括第一用戶;將視頻流的第二部分標(biāo)識為包括第二用戶;根據(jù)基于音頻流和視頻流的第一部分來確定在第一用戶說話時第一用戶的視覺注意力指向電子設(shè)備:將音頻流的第一部分標(biāo)識為包括第一用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第一部分來提供第一輸出;以及根據(jù)基于音頻流和視頻流的第二部分來確定在第二用戶說話時第二用戶的視覺注意力指向電子設(shè)備:將音頻流的第二部分標(biāo)識為包括第二用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第二部分來提供第二輸出。
9、一種示例電子設(shè)備包括用于以下操作的構(gòu)件:并發(fā)地接收音頻流和視頻流;將視頻流的第一部分標(biāo)識為包括第一用戶;將視頻流的第二部分標(biāo)識為包括第二用戶;根據(jù)基于音頻流和視頻流的第一部分來確定在第一用戶說話時第一用戶的視覺注意力指向電子設(shè)備:將音頻流的第一部分標(biāo)識為包括第一用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第一部分來提供第一輸出;以及根據(jù)基于音頻流和視頻流的第二部分來確定在第二用戶說話時第二用戶的視覺注意力指向電子設(shè)備:將音頻流的第二部分標(biāo)識為包括第二用戶的預(yù)期用于電子設(shè)備的言語;以及基于處理音頻流的第二部分來提供第二輸出。
10、基于根據(jù)滿足預(yù)先確定的條件處理音頻流的所標(biāo)識的部分來提供輸出可允許該設(shè)備準(zhǔn)確且有效地對多用戶環(huán)境中的正確用戶的言語作出響應(yīng)。例如,在多用戶環(huán)境中,為了對用戶的言語作出響應(yīng),該設(shè)備確定同一用戶在說話時看著該設(shè)備。因此,該設(shè)備可避免錯誤地對并非預(yù)期用于該設(shè)備的用戶言語作出響應(yīng)。例如,如果第一用戶在不說話時看著該設(shè)備并且第二用戶在不看著該設(shè)備時說話,則該設(shè)備不會錯誤地對第二用戶的言語作出響應(yīng)。以此方式,用戶-設(shè)備接口可更有效且準(zhǔn)確(例如,通過減少操作該設(shè)備所需的用戶輸入的量、通過減少阻止該設(shè)備對不正確用戶的言語作出響應(yīng)所需的用戶輸入、通過準(zhǔn)確地標(biāo)識來自正確用戶的言語輸入并對該言語輸入作出響應(yīng)、通過避免對設(shè)備的重復(fù)言語輸入),這通過使用戶能夠更快速且有效地使用該設(shè)備而額外地減少電力使用并延長該設(shè)備的電池壽命。
11、本文公開了示例方法。一種示例方法包括在具有一個或多個處理器和存儲器的電子設(shè)備處:并發(fā)地接收音頻流和視頻流;基于音頻流和視頻流來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的第一類型的置信度得分;以及在確定第一類型的置信度得分之后:基于第一類型的置信度得分和指示用戶的視覺注意力是否指向電子設(shè)備的第二類型的置信度得分來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的最終置信度得分;以及根據(jù)確定最終置信度得分超過閾值:將音頻流的部分標(biāo)識為包括預(yù)期用于電子設(shè)備的用戶言語;以及基于處理音頻流的該部分來提供輸出。
12、本文公開了示例非暫態(tài)計算機可讀介質(zhì)。一種示例非暫態(tài)計算機可讀存儲介質(zhì)存儲一個或多個程序。一個或多個程序包括指令,該指令當(dāng)由電子設(shè)備的一個或多個處理器執(zhí)行時,使得電子設(shè)備:并發(fā)地接收音頻流和視頻流;基于音頻流和視頻流來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的第一類型的置信度得分;以及在確定第一類型的置信度得分之后:基于第一類型的置信度得分和指示用戶的視覺注意力是否指向電子設(shè)備的第二類型的置信度得分來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的最終置信度得分;以及根據(jù)確定最終置信度得分超過閾值:將音頻流的部分標(biāo)識為包括預(yù)期用于電子設(shè)備的用戶言語;以及基于處理音頻流的該部分來提供輸出。
13、本文公開了示例電子設(shè)備。一種示例性電子設(shè)備包括一個或多個處理器;存儲器;以及一個或多個程序,其中該一個或多個程序存儲在存儲器中并被配置為由一個或多個處理器執(zhí)行,該一個或多個程序包括用于以下操作的指令:并發(fā)地接收音頻流和視頻流;基于音頻流和視頻流來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的第一類型的置信度得分;以及在確定第一類型的置信度得分之后:基于第一類型的置信度得分和指示用戶的視覺注意力是否指向電子設(shè)備的第二類型的置信度得分來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的最終置信度得分;以及根據(jù)確定最終置信度得分超過閾值:將音頻流的部分標(biāo)識為包括預(yù)期用于電子設(shè)備的用戶言語;以及基于處理音頻流的該部分來提供輸出。
14、一種示例電子設(shè)備包括用于以下操作的構(gòu)件:并發(fā)地接收音頻流和視頻流;基于音頻流和視頻流來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的第一類型的置信度得分;以及在確定第一類型的置信度得分之后:基于第一類型的置信度得分和指示用戶的視覺注意力是否指向電子設(shè)備的第二類型的置信度得分來確定指示在用戶說話時用戶的視覺注意力是否指向電子設(shè)備的最終置信度得分;以及根據(jù)確定最終置信度得分超過閾值:將音頻流的部分標(biāo)識為包括預(yù)期用于電子設(shè)備的用戶言語;以及基于處理音頻流的該部分來提供輸出。
15、根據(jù)確定最終置信度得分超過閾值來標(biāo)識音頻流的該部分可允許該設(shè)備更準(zhǔn)確且有效地對言語輸入作出響應(yīng)。例如,確定最終置信度得分允許該設(shè)備考慮附加相關(guān)因素(例如,用戶姿勢、用戶注視、用戶與該設(shè)備之間的相對運動等)以更準(zhǔn)確地確定用戶在說話時看著該設(shè)備。如所描述,確定用戶是否在說話時看著該設(shè)備允許該設(shè)備有效且準(zhǔn)確地對言語輸入作出響應(yīng),例如不需要附加用戶輸入。以此方式,用戶-設(shè)備接口可更有效且準(zhǔn)確(例如,通過減少操作該設(shè)備所需的用戶輸入的量、通過減少阻止該設(shè)備不正確地對并非預(yù)期用于該設(shè)備的言語輸入作出響應(yīng)所需的用戶輸入、通過準(zhǔn)確地對預(yù)期用于該設(shè)備的言語輸入作出響應(yīng)、通過避免對該設(shè)備的重復(fù)言語輸入),這通過使用戶能夠更快速且有效地使用該設(shè)備而額外地減少電力使用并延長該設(shè)備的電池壽命。