戶意圖的結果的語音數(shù)據(jù)是否與用戶最初意圖的相一致。輸出控制模塊230可以執(zhí)行控制,以當接收來自用戶的輸出確認命令時向另一方的電子設備發(fā)送語音數(shù)據(jù)。語音數(shù)據(jù)可以從呼叫線路上的另一方的電子設備輸出。輸出控制模塊230可以執(zhí)行控制,以取決于用戶進行的設置,在沒有用戶確認的情況下向另一方的電子設備發(fā)送語音數(shù)據(jù)。
[0092]圖7是示出了根據(jù)本公開的實施例的從電子設備輸出語音數(shù)據(jù)的操作的流程圖700。具體地,圖7示出了當電子設備101是移動電話時由電子設備101執(zhí)行的語音數(shù)據(jù)輸出操作。
[0093]當電子設備101接收呼叫連接請求或呼叫請求時,處理器120在顯示器150上顯示分別用于選擇正常模式、禮貌模式、以及呼叫拒絕模式的按鈕801、802和803,如圖8A所示。在正常模式下,電子設備101的用戶可以使用電子設備101與呼叫線路上的另一方執(zhí)行語音通話。根據(jù)本公開的實施例,在禮貌模式下,電子設備101的用戶可以使用由相機模塊獲取的圖像數(shù)據(jù)來輸出語音數(shù)據(jù)。本文中使用的術語“呼叫拒絕”的意思可以是用戶可以拒絕來自另一方的電子設備的呼入呼叫的命令。如圖8A所示,在接收呼叫連接請求或呼叫請求時,電子設備101可以在顯示器150上顯示另一方的電話號碼、圖片或圖像805。
[0094]在操作720處,當用戶選擇按鈕802時,處理器120執(zhí)行禮貌模式,以允許電子設備101的用戶執(zhí)行與另一方的語音通話。在顯示器150包括觸摸屏201的情況下,按鈕801、802和803可以通過用戶的觸摸來選擇。在操作720處,用戶可以選擇按鈕810以執(zhí)行正常模式。當正在執(zhí)行正常模式時,或者當通過電子設備101的麥克風接收到的語音數(shù)據(jù)在預定時間內(nèi)保持在不高于基準值的值上時,電子設備101可以自動切換到禮貌模式。當電子設備101切換到禮貌模式時,可以在電子設備101的顯示器150上顯示可見的指示811(例如指示在禮貌模式下電子設備101在呼叫的線路上的文本或圖標),或者可以使用不可見的方式來通知在禮貌模式下電子設備101在呼叫的線路上(例如使用光線、振動或氣味)。當電子設備101切換到禮貌模式時,可以激活相機模塊和語音輸出模塊170。
[0095]在操作730處,檢測模塊210可以實時或在每個預定的時間處接收用于傳達用戶意圖的圖像數(shù)據(jù)。檢測模塊210可以通過相機模塊來獲取圖像數(shù)據(jù)。
[0096]在操作740處,檢測模塊210可以在存儲器130中存儲圖像數(shù)據(jù),并且可以使用圖像處理算法對圖像數(shù)據(jù)進行預處理(例如噪聲移除、信號放大、以及灰度級別歸一化)。檢測模塊210可以根據(jù)預處理的圖像數(shù)據(jù)來檢測至少一個特征,例如用戶的嘴的形狀、嘴周圍的形狀、用戶相貌的變化(面部肌肉的運動)、用戶的眼部形狀、眨眼、或用戶眉毛的位置變化。檢測模塊210可以向識別模塊220發(fā)送檢測到的特征。
[0097]在操作750處,識別模塊220可以將接收的特征組合到一個模式中。
[0098]在操作760處,識別模塊220可以通過將模式應用到模式識別算法(例如神經(jīng)網(wǎng)絡方案)來確定與模式相對應的文本數(shù)據(jù)(音素、音節(jié)、短語、從句、或句子)。識別模塊220可以向輸出控制模塊230發(fā)送所確定的與用戶的意圖相對應的文本。
[0099]在操作770處,輸出控制模塊230可以將TTS方案應用到接收的文本數(shù)據(jù),以將文本數(shù)據(jù)轉換成語音數(shù)據(jù)。
[0100]在操作780處,輸出控制模塊230可以執(zhí)行控制,以通過電子設備101的揚聲器或耳機或者通過另一方的電子設備來輸出經(jīng)轉換的語音數(shù)據(jù)。
[0101]此外,在操作780處,如圖8B所示,輸出控制模塊230可以執(zhí)行控制,以在電子設備的顯示器150上顯示與語音數(shù)據(jù)相對應的文本數(shù)據(jù)。用戶可以通過檢查在顯示器150上顯示的文本來識別作為用戶意圖的識別結果的語音數(shù)據(jù)是否與用戶最初意圖相一致。輸出控制模塊230可以執(zhí)行控制,以當接收來自用戶的輸出確認命令時向另一方的電子設備發(fā)送語音數(shù)據(jù)。輸出控制模塊230可以執(zhí)行控制,以取決于用戶進行的設置,在不需要用戶確認的情況下向另一方的電子設備發(fā)送語音數(shù)據(jù)。圖SB示出了由用戶獲取的并在顯示器150上顯示的與語音數(shù)據(jù)相對應的文本數(shù)據(jù)被確定為說“下午3點劇場見”的文本的示例。在轉換成語音數(shù)據(jù)之前,確定的文本數(shù)據(jù)在顯示器150上可見地顯示。因此,用戶可以根據(jù)在顯示器150上顯示的文本數(shù)據(jù)來識別他的意圖是否通過電子設備101顯示為語音數(shù)據(jù)。備選地,處理器120可以執(zhí)行控制,以防止在用戶根據(jù)在顯示器150上顯示的文本數(shù)據(jù)來識別是否從電子設備101輸出他的意圖之前,通過電子設備101輸出語音數(shù)據(jù)。在電子設備101的顯示器150具有觸摸屏201的情況下,處理器120可以執(zhí)行控制,以在顯示器150上生成確認按鈕813,并當通過用戶觸摸選擇確認按鈕813時輸出語音數(shù)據(jù)。處理器120可以執(zhí)行控制,以通過根據(jù)相機模塊180獲取的圖像數(shù)據(jù)識別作為命令的預定手勢,來輸出或不輸出語音數(shù)據(jù)。這樣的手勢可以包括(但不限于):眨眼(用戶的任意一個或兩個眼睛)、手指手勢、觸摸屏蒂、點頭、或搖頭。
[0102]圖9是示出了根據(jù)本公開的實施例的從電子設備輸出語音數(shù)據(jù)的操作的流程圖900。具體地,圖9示出了根據(jù)本公開的實施例的當由位于遠處的服務器106執(zhí)行與電子設備101的語音輸出模塊170相對應的功能時操作來自圖1的電子設備101的語音數(shù)據(jù)的示例操作。
[0103]在操作910處,當電子設備101從另一方的電子設備接收呼叫連接請求時,處理器120在顯示器150上顯示分別用于選擇正常模式、禮貌模式和呼叫拒絕模式的按鈕801、802和803,如圖8A所示。
[0104]在操作920處,當用戶選擇按鈕802時,處理器120執(zhí)行禮貌模式。并且執(zhí)行電子設備101與另一方的電子設備之間的語音呼叫。在顯示器150包括觸摸屏的情況下,可以通過用戶在屏幕上的觸摸來選擇按鈕801、802和803。在操作920處,當用戶選擇按鈕801以執(zhí)行正常模式時,或者當通過電子設備101的麥克風接收的語音數(shù)據(jù)在預定的時間內(nèi)保持在不高于基準值的值時,電子設備101可以自動切換到禮貌模式。當電子設備101切換到禮貌模式時,相機模塊180和語音輸出模塊170可以進入激活模式。
[0105]在操作930處,語音輸出模塊170可以實時或在每個預定的時間處接收用于傳遞用戶意圖的圖像數(shù)據(jù)。語音輸出模塊170可以使用相機模塊180來獲取圖像數(shù)據(jù)。
[0106]在操作940處,語音輸出模塊170向遠程服務器106發(fā)送圖像數(shù)據(jù),以請求服務器106并發(fā)送識別用戶意圖的請求。
[0107]在操作950處,服務器106從電子設備101接收請求和圖像數(shù)據(jù)。
[0108]在操作951處,服務器106可以在存儲器130中存儲圖像數(shù)據(jù),并且可以對圖像數(shù)據(jù)進行預處理(例如噪聲移除、信號放大、或灰度級別歸一化)。服務器106可以根據(jù)預處理的圖像數(shù)據(jù)來檢測至少一個特征,例如:嘴的形狀、嘴周圍的形狀、相貌(面部肌肉的運動)、眼部形狀、眨眼、或眉毛的位置變化。
[0109]在操作952處,服務器106可以將至少一個特征組合到模式中。
[0110]在操作953處,服務器106可以將獲取的模式應用到模式識別算法(例如神經(jīng)網(wǎng)絡方案)以確定與模式相對應的文本數(shù)據(jù)(音素、音節(jié)、短語、從句、或句子)。
[0111]在操作954處,服務器106向電子設備101發(fā)送確定的文本數(shù)據(jù)。
[0112]在操作960處,電子設備101接收響應于識別用戶意圖的請求的與用戶意圖的識別結果相對應的發(fā)送的文本數(shù)據(jù)。
[0113]在操作970處,電子設備101的處理器120可以使用TTS方案將文本數(shù)據(jù)轉換成語音數(shù)據(jù)。
[0114]在操作980處,處理器120可以執(zhí)行控制,以通過電子設備的揚聲器或耳機,或者通過在與電子設備的呼叫線路上的另一方的電子設備輸出經(jīng)轉換的語音數(shù)據(jù)。電子設備101的處理器120可以向另一方的電子設備發(fā)送通過對語音數(shù)據(jù)進行語音調(diào)制所獲取的數(shù)據(jù)。例如,電子設備101的處理器120可以將用戶語音的頻率或音調(diào)改變?yōu)楦鞣N不同的語調(diào),例如低的語調(diào)、高的語調(diào)、女性語調(diào)、成年人語調(diào)、或孩子的語調(diào)。
[0115]此外,在操作980處,處理器120可以執(zhí)行控制,以在電子設備的顯示器150上顯示與語音數(shù)據(jù)相對應的文本數(shù)據(jù),如圖SB所示。用戶可以通過檢查在顯示器150上顯示的文本數(shù)據(jù)812來識別語音數(shù)據(jù)(用戶意圖的識別結果)是否與用戶初始意圖相一致。處理器120可以執(zhí)行控制,以向在呼叫線路上的另一方的電子設備發(fā)送語音數(shù)據(jù),使得當從用戶輸入輸出確認命令時,可以通過另一方的電子設備輸出語音數(shù)據(jù)。處理器120可以執(zhí)行控制,以取決于用戶進行的設置,在不需要用戶確認的情況下向另一方的電子設備發(fā)送語音數(shù)據(jù)。備選地,處理器120可以執(zhí)行控制,以在用戶根據(jù)在顯示器150上的文本數(shù)據(jù)812識別是否從電子設備101輸出他的意圖之前,防止電子設備101輸出語音數(shù)據(jù)。
[0116]此外,在操作930處,電子設備101可以向服務器106發(fā)送壓縮形式的語音數(shù)據(jù),并且在操作950處,服務器106可以接收并解壓縮該壓縮語音數(shù)據(jù)。此外,在操作953處,服務器106可以向電子設備101發(fā)送與用戶意圖的識別結果相對應的壓縮形式的文本數(shù)據(jù),并且在操作960處,電子設備101可以對該壓縮文本數(shù)據(jù)進行解壓縮。
[0117]電子設備101的處理器120可以對從相機模塊180獲得的圖像數(shù)據(jù)進行預處理(例如噪聲移除、濾波、或壓縮),并且處理器120可以選擇性地以原始數(shù)據(jù)或壓縮圖像數(shù)據(jù)的形式在存儲器130中存儲預處理的圖像數(shù)據(jù)。預處理可以由工作存儲器(例如隨機存取存儲器(RAM)或緩沖存儲器)來執(zhí)行??梢酝ㄟ^通信接口 160向預定的或隨機分配的服務器106傳遞以壓縮數(shù)據(jù)形式存儲的圖像數(shù)據(jù)。處理器120可以執(zhí)行控制,以在不需要預處理的情況下經(jīng)由電子設備的通信接口 160向服務器106發(fā)送圖像數(shù)據(jù)。
[0118]圖10是示出了根據(jù)本公開的實施例的服務器106的配置的框圖。
[0119]參照圖10,服務器106可以包括通信模塊1010、處理器1020和存儲器1030。處理器1020還可以被稱作控制器。
[0120]通信模塊1010與電子設備101通信。通信模塊1010從電子設備101接收識別用戶意圖的請求以及與識別請求相對應的語音數(shù)據(jù)。語音數(shù)據(jù)可以是壓縮的或預處理的,并且可以接收壓縮的或預處理的語音數(shù)據(jù)。通信模塊1010向電子設備101發(fā)送用戶意圖的識別結果,以及與識別結果相對應的文本數(shù)據(jù)或語音數(shù)據(jù)??梢栽诎l(fā)送之前對文本數(shù)據(jù)或語音數(shù)據(jù)進行壓縮。
[0121]處理器1020可以具有與電子設備101的語音輸出模塊170的功能類似的功能。因此,當接收沒有進行預處理的圖像數(shù)據(jù)時,處理器1020可以對該圖像數(shù)據(jù)進行預處理。備選地,在從電子設備101接收預處理的圖像數(shù)據(jù)時,處理器1020可以在不需要對圖像數(shù)據(jù)進行預處理的情況下根據(jù)圖像數(shù)據(jù)來檢測至少一個特征。處理器1020可以將檢測到的至少一個特征組合到模式中,可以將模式識別算法應用到獲取的模式以確定文本數(shù)據(jù),并且可以向電子設備101發(fā)送確定的文本數(shù)據(jù)。處理器1020可以執(zhí)行控制,以通過TTS方案將確定的文本數(shù)據(jù)轉換成語音數(shù)據(jù)并向