用于支持語(yǔ)音對(duì)話服務(wù)的交互裝置和方法
【專(zhuān)利摘要】本發(fā)明提供一種用于支持語(yǔ)音對(duì)話服務(wù)的交互裝置和方法。所述方法包括:基于選擇的輸入模式接收用戶(hù)輸入;當(dāng)接收到的用戶(hù)輸入是非語(yǔ)音輸入時(shí),從接收到的用戶(hù)輸入提取文本;將提取出的文本作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器;從服務(wù)器接收響應(yīng)于請(qǐng)求信號(hào)的對(duì)話識(shí)別的結(jié)果;基于接收到的對(duì)話識(shí)別的結(jié)果,執(zhí)行對(duì)接收到的用戶(hù)輸入的響應(yīng)。
【專(zhuān)利說(shuō)明】用于支持語(yǔ)音對(duì)話服務(wù)的交互裝置和方法
【技術(shù)領(lǐng)域】
[0001]本公開(kāi)涉及一種用于支持語(yǔ)音對(duì)話服務(wù)的交互裝置和方法。更具體地,本公開(kāi)涉及提供允許多模式輸入的語(yǔ)音對(duì)話服務(wù)。
【背景技術(shù)】
[0002]語(yǔ)音對(duì)話服務(wù)允許用戶(hù)和語(yǔ)音代理之間的基于語(yǔ)音的交互。目前,由包括各種便攜式終端的很多交互裝置提供這樣的語(yǔ)音對(duì)話服務(wù)。典型的交互裝置支持語(yǔ)音對(duì)話服務(wù)。然而,通常語(yǔ)音對(duì)話服務(wù)未能充分利用除了語(yǔ)音以外的任何輸入/輸出交互,從而限制表達(dá)。此外,隨著語(yǔ)音輸入的長(zhǎng)度增加,語(yǔ)音識(shí)別中的錯(cuò)誤的概率也會(huì)增加。
[0003]鑒于上述問(wèn)題,已引入了基于各種交互的多模式交互技術(shù)。
[0004]提出上述信息僅作為背景信息,以幫助對(duì)本公開(kāi)的理解。不確定并且不斷言關(guān)于是否任何上述內(nèi)容可作為相對(duì)于本公開(kāi)的現(xiàn)有技術(shù)而被應(yīng)用。
【發(fā)明內(nèi)容】
[0005]本公開(kāi)的各個(gè)方面在于解決至少上述問(wèn)題和/或缺點(diǎn),并提供至少下面描述的優(yōu)點(diǎn)。因此,本公開(kāi)的一方面在于提供一種用于基于多模式輸入執(zhí)行語(yǔ)音對(duì)話服務(wù)的交互裝置和方法。
[0006]根據(jù)本公開(kāi)的一方面,提供一種用于支持語(yǔ)音對(duì)話服務(wù)的交互方法。所述方法包括:基于選擇的輸入模式接收用戶(hù)輸入;當(dāng)接收到的用戶(hù)輸入是非語(yǔ)音輸入時(shí),從接收到的用戶(hù)輸入提取文本;將提取出的文本作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器;從服務(wù)器接收響應(yīng)于請(qǐng)求信號(hào)的對(duì)話識(shí)別的結(jié)果;基于接收到的對(duì)話識(shí)別的結(jié)果,執(zhí)行對(duì)接收到的用戶(hù)輸入的響應(yīng)。
[0007]根據(jù)本公開(kāi)的另一方面,提供一種用于支持語(yǔ)音對(duì)話服務(wù)的交互裝置。所述裝置包括:輸入單元,被配置為基于選擇的輸入模式接收用戶(hù)輸入;通信單元,被配置為與服務(wù)器通信;控制單元,被配置為當(dāng)接收到的用戶(hù)輸入是非語(yǔ)音輸入時(shí),從接收到的用戶(hù)輸入提取文本,將提取出的文本作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器,從服務(wù)器接收響應(yīng)于請(qǐng)求信號(hào)的對(duì)話識(shí)別的結(jié)果,基于接收到的對(duì)話識(shí)別的結(jié)果,執(zhí)行對(duì)用戶(hù)輸入的響應(yīng);輸出單元,被配置為輸出執(zhí)行對(duì)接收到的用戶(hù)輸入的響應(yīng)的結(jié)果。
[0008]從下面結(jié)合附圖公開(kāi)本公開(kāi)的各種實(shí)施例的詳細(xì)描述中,本公開(kāi)的其它方面、優(yōu)點(diǎn)和顯著特征對(duì)本領(lǐng)域技術(shù)人員而言將變得清楚。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0009]從下面結(jié)合附圖的描述,本公開(kāi)的上述和另外方面、特征和優(yōu)點(diǎn)將會(huì)變得更加清楚,其中:
[0010]圖1是示出根據(jù)本公開(kāi)的實(shí)施例的用于支持語(yǔ)音對(duì)話服務(wù)的系統(tǒng)的框圖。
[0011]圖2是示出根據(jù)本公開(kāi)的實(shí)施例的用于在系統(tǒng)處執(zhí)行語(yǔ)音對(duì)話服務(wù)的方法的框圖。
[0012]圖3是示出根據(jù)本公開(kāi)的實(shí)施例的用于在交互裝置處執(zhí)行語(yǔ)音對(duì)話服務(wù)的方法的流程圖。
[0013]圖4是示出根據(jù)本公開(kāi)的實(shí)施例的圖3中示出的文本提取操作的詳細(xì)處理的流程圖。
[0014]圖5是示出根據(jù)本公開(kāi)的實(shí)施例的在服務(wù)器處確定相關(guān)內(nèi)容提供器的示例的表格。
[0015]圖6A和圖6B是示出根據(jù)本公開(kāi)的實(shí)施例的在交互裝置處執(zhí)行語(yǔ)音對(duì)話服務(wù)的處理的截屏。
[0016]在整個(gè)服務(wù)中,應(yīng)注意相同的標(biāo)號(hào)用于表示相同或相似的元件、特征和結(jié)構(gòu)。
【具體實(shí)施方式】
[0017]提供下面參照附圖的描述以幫助全面理解由權(quán)利要求及其等同物所限定的本公開(kāi)的各種實(shí)施例。所述描述包括各種具體細(xì)節(jié)以幫助理解,但是這些具體細(xì)節(jié)將被認(rèn)為僅僅是示例性的。因此,本領(lǐng)域的普通技術(shù)人員將認(rèn)識(shí)到,在不脫離本公開(kāi)的范圍和精神的情況下,可以對(duì)這里所描述的各種實(shí)施例進(jìn)行各種改變和修改。此外,為了清楚和簡(jiǎn)明,可省略對(duì)公知功能和構(gòu)造的描述。
[0018]下面的描述和權(quán)利要求中所使用的術(shù)語(yǔ)和詞語(yǔ)不局限于書(shū)面意義,而僅僅被發(fā)明人使用以使本公開(kāi)得以清楚和一致的理解。因此,本領(lǐng)域的技術(shù)人員應(yīng)該清楚,提供下面對(duì)本公開(kāi)的各種實(shí)施例的描述僅是為了說(shuō)明的目的,而不是為了限制本公開(kāi)的目的,其中,本公開(kāi)由權(quán)利要求和它們的等同物所限定。
[0019]應(yīng)當(dāng)理解,除非上下文清楚地另有指示,否則單數(shù)形式包括復(fù)數(shù)指示物。因此,例如,參照“信號(hào)”包括參照一個(gè)或多個(gè)這樣的信號(hào)。
[0020]在本公開(kāi)中,術(shù)語(yǔ)多模式指人類(lèi)和機(jī)器之間的交互中的各種類(lèi)型的輸入/輸出機(jī)制的使用,因此多模式輸入可利用語(yǔ)音識(shí)別、鍵盤(pán)、鍵區(qū)、觸摸傳感器、圖像捕捉等。另外,術(shù)語(yǔ)語(yǔ)音輸入指通過(guò)麥克風(fēng)接收到的用戶(hù)的語(yǔ)音的輸入。語(yǔ)音輸入是在語(yǔ)音對(duì)話服務(wù)中提供的一般交互類(lèi)型。相反,術(shù)語(yǔ)非語(yǔ)音輸入指除了所述語(yǔ)音輸入以外的任何輸入。如果在一般語(yǔ)音交互中執(zhí)行了輸入模式轉(zhuǎn)換,則通過(guò)轉(zhuǎn)換的交互類(lèi)型接收輸入。
[0021]圖1是示出根據(jù)本公開(kāi)的實(shí)施例的用于支持語(yǔ)音對(duì)話服務(wù)的系統(tǒng)的框圖。
[0022]參照?qǐng)D1,用于支持語(yǔ)音對(duì)話服務(wù)的系統(tǒng)包括交互裝置110和服務(wù)器120。
[0023]交互裝置110是支持用戶(hù)和語(yǔ)音代理之間的語(yǔ)音對(duì)話服務(wù)的裝置。交互裝置110具有經(jīng)由網(wǎng)絡(luò)與服務(wù)器120通信的能力,以從語(yǔ)音代理取得對(duì)用戶(hù)輸入的響應(yīng)。語(yǔ)音代理可指在語(yǔ)音對(duì)話服務(wù)中執(zhí)行語(yǔ)音交互的虛擬實(shí)體。
[0024]交互裝置110可包括輸入單元111、控制單元114、通信單元116和輸出單元117,但不限于此。
[0025]輸入單元111被配置為執(zhí)行在語(yǔ)音對(duì)話服務(wù)中接收用戶(hù)輸入的功能。輸入單元111可包括用于接收用戶(hù)的語(yǔ)音輸入的語(yǔ)音輸入單元112,以及用于接收除了語(yǔ)音輸入以外的非語(yǔ)音輸入的非語(yǔ)音輸入單元113。例如可以是麥克風(fēng)的語(yǔ)音輸入單元112可接收用戶(hù)的語(yǔ)音輸入,并將它轉(zhuǎn)換為語(yǔ)音輸入信號(hào)。非語(yǔ)音輸入單元113可接收用戶(hù)的非語(yǔ)音輸入,諸如,文本、圖像、音樂(lè)等。文本可被接收為通過(guò)鍵盤(pán)輸入、觸摸傳感器手勢(shì)輸入、文本復(fù)制輸入等的用戶(hù)輸入。圖像可通過(guò)相機(jī)功能、從存儲(chǔ)的圖像列表選擇圖像、圖像復(fù)制輸入等被接收為用戶(hù)輸入。音樂(lè)在被通過(guò)音樂(lè)播放器播放時(shí)可被接收為用戶(hù)輸入。本領(lǐng)域中的技術(shù)人員將理解,任意其它輸入模式可被應(yīng)用為輸入交互類(lèi)型。
[0026]控制單元114控制語(yǔ)音對(duì)話服務(wù)的執(zhí)行。具體地,控制單元114可處理從輸入單元111接收到的用戶(hù)輸入信號(hào),并隨后將用戶(hù)輸入信號(hào)發(fā)送到輸出單元117和服務(wù)器120。
[0027]在接收到語(yǔ)音輸入的情況下,控制單元114可將語(yǔ)音輸入信號(hào)轉(zhuǎn)換為文本,并隨后將文本輸出到輸出單元117,以顯示用戶(hù)輸入。另外,控制單元114可將所述語(yǔ)音輸入信號(hào)或文本作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器120。當(dāng)從服務(wù)器120接收到響應(yīng)于所述請(qǐng)求信號(hào)的對(duì)話識(shí)別的結(jié)果時(shí),控制單元114可執(zhí)行與接收到的對(duì)話識(shí)別的結(jié)果相應(yīng)的特定功能,并隨后將響應(yīng)輸出到輸出單元117。
[0028]此外,在接收到非語(yǔ)音輸入的情況下,控制單元114可包括用于從非語(yǔ)音信號(hào)提取文本的文本提取單元115。如果例如輸入了包含元數(shù)據(jù)的圖像或音樂(lè)文件,則文本提取單元115可識(shí)別包含在圖像或音樂(lè)文件中的元數(shù)據(jù)的文本,并執(zhí)行用于選擇必要文本的過(guò)濾處理。例如,當(dāng)元數(shù)據(jù)具有描述(即,關(guān)鍵字)、保存時(shí)間、版權(quán)所有人和任何其它文件信息時(shí),描述可被預(yù)定義為在過(guò)濾處理中將被選擇為必要文本。然而,這僅是示例性的,并不意味著限制本公開(kāi)。
[0029]另外,在包含字符的圖像文件的情況下,文本提取單元115可通過(guò)光學(xué)字符識(shí)別(OCR)處理來(lái)識(shí)別包含在圖像文件中的文本。可在過(guò)濾處理中選擇用戶(hù)期望的文本的特定部分??筛鶕?jù)預(yù)定義的規(guī)則或用戶(hù)的選擇來(lái)執(zhí)行所述過(guò)濾處理。
[0030]控制單元114可將提取出的非語(yǔ)音輸入的文本輸出到輸出單元117,以顯示用戶(hù)的輸入。另外,控制單元114可將所述提取出的非語(yǔ)音輸入的文本作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器120。當(dāng)從服務(wù)器120接收到響應(yīng)于所述請(qǐng)求信號(hào)的對(duì)話識(shí)別的結(jié)果時(shí),控制單元114可執(zhí)行與接收到的對(duì)話識(shí)別的結(jié)果相應(yīng)的特定功能,并隨后將響應(yīng)輸出到輸出單元117。
[0031]在將請(qǐng)求信號(hào)發(fā)送到服務(wù)器120之后,控制單元114可從服務(wù)器120接收詢(xún)問(wèn)是否應(yīng)用相關(guān)內(nèi)容提供器的消息。下面將描述相關(guān)內(nèi)容提供器的確定。
[0032]通信單元116被配置為通過(guò)有線網(wǎng)絡(luò)或無(wú)線網(wǎng)絡(luò)支持交互裝置110和服務(wù)120之間的通信。
[0033]輸出單元117可從控制單元114接收對(duì)話內(nèi)容信號(hào)(即,經(jīng)過(guò)處理的用戶(hù)輸入信號(hào)和語(yǔ)音代理的響應(yīng)信號(hào)),并隨后在語(yǔ)音對(duì)話服務(wù)被執(zhí)行時(shí)輸出對(duì)話內(nèi)容信號(hào)。具體地,輸出單元117可包括顯示器118和揚(yáng)聲器119。在對(duì)話內(nèi)容信號(hào)不需要視頻信號(hào)時(shí),可通過(guò)關(guān)閉顯示器118并打開(kāi)揚(yáng)聲器119來(lái)僅通過(guò)聲音輸出語(yǔ)音代理的響應(yīng)。可選擇地,可也打開(kāi)顯示器118,以便顯示用戶(hù)輸入的文本和語(yǔ)音代理的響應(yīng)。如果用戶(hù)輸入被接收為非語(yǔ)音輸入,則可打開(kāi)顯示器118以顯示提取出的非語(yǔ)音輸入的文本。另外,輸出單元117可顯示語(yǔ)音對(duì)話服務(wù)中提供的各種功能和內(nèi)容。
[0034]服務(wù)器120被配置為從交互裝置110接收用戶(hù)輸入(即,請(qǐng)求信號(hào)),從語(yǔ)音代理取得對(duì)請(qǐng)求信號(hào)的響應(yīng),并將取得的結(jié)果發(fā)送到交互裝置110。當(dāng)從交互裝置110接收到語(yǔ)音信號(hào)時(shí),服務(wù)器120可執(zhí)行用于將接收到的語(yǔ)音信號(hào)轉(zhuǎn)換為文本的功能。
[0035]服務(wù)器120可包括基于與用戶(hù)輸入相應(yīng)的文本從數(shù)據(jù)庫(kù)取得語(yǔ)音代理的響應(yīng)的對(duì)話管理器122。如果例如識(shí)別出文本“Google”,則對(duì)話管理器122可確定用戶(hù)期望“Google搜索”,并從而可取得結(jié)果“訪問(wèn)Google主頁(yè)”作為系統(tǒng)響應(yīng)。這個(gè)對(duì)話結(jié)果可被發(fā)送到交互裝置110,并隨后交互裝置110可執(zhí)行對(duì)Google的主頁(yè)的訪問(wèn)。
[0036]同時(shí),服務(wù)器120可還包括基于與用戶(hù)輸入相應(yīng)的文本確定相關(guān)內(nèi)容提供器的相關(guān)內(nèi)容服務(wù)器(CP)確定單元121。即,根據(jù)包含在文本中的詞語(yǔ)的每個(gè)分類(lèi)的權(quán)值確定文本的類(lèi)型,并隨后從文本的類(lèi)型推斷相關(guān)內(nèi)容提供器。例如,如果確定包含在文本中的詞語(yǔ)是地址類(lèi)型,則地圖服務(wù)可被推斷為相關(guān)內(nèi)容提供器。另外,服務(wù)器120可詢(xún)問(wèn)是否應(yīng)用相關(guān)內(nèi)容提供器,即可請(qǐng)求交互裝置110檢查地圖服務(wù)的適用性。如果用戶(hù)接受相關(guān)內(nèi)容提供器的適用性,則對(duì)話管理器122可基于相關(guān)內(nèi)容提供器推斷并提供語(yǔ)音代理的響應(yīng)。
[0037]圖2是示出根據(jù)本公開(kāi)的實(shí)施例的用于在系統(tǒng)處執(zhí)行語(yǔ)音對(duì)話服務(wù)的方法的流程圖。
[0038]參照?qǐng)D2,在操作S201,交互裝置110可選擇輸入模式??蓪⒄Z(yǔ)音輸入設(shè)置為語(yǔ)音對(duì)話服務(wù)的默認(rèn)輸入模式,之后可通過(guò)語(yǔ)音命令執(zhí)行輸入模式的切換。例如,如果接收到語(yǔ)音命令“打開(kāi)相機(jī)”,則交互裝置110可將輸入模式切換為通過(guò)相機(jī)的圖像輸入。
[0039]在操作S202,交互裝置110可基于選擇的輸入模式接收用戶(hù)輸入。隨后,在操作S203,如圖1中先前所討論的,交互裝置110可從接收到的用戶(hù)輸入提取作為對(duì)話的內(nèi)容的文本。
[0040]之后,在操作S204,交互裝置110可將提取出的文本發(fā)送到服務(wù)器120。優(yōu)選地,在操作S205,服務(wù)器120可從接收到的文本確定相關(guān)內(nèi)容提供器。在操作S206,服務(wù)器120可將用于檢查相關(guān)內(nèi)容提供器的適用性的請(qǐng)求發(fā)送到交互裝置110。隨后,在操作S207,交互裝置110可將檢查相關(guān)內(nèi)容提供器的適用性的結(jié)果發(fā)送到服務(wù)器120。
[0041]在操作S208,服務(wù)器120可通過(guò)整體地考慮接收到的文本和接收到的相關(guān)內(nèi)容提供器的適用性的檢查結(jié)果來(lái)取得語(yǔ)音代理的響應(yīng)。隨后,在操作S209,服務(wù)器120可基于取得的響應(yīng),將對(duì)話識(shí)別的結(jié)果發(fā)送到交互裝置110。
[0042]在操作S210,交互裝置110可基于接收到的對(duì)話識(shí)別結(jié)果執(zhí)行響應(yīng),并將它提供給用戶(hù)。
[0043]圖3是示出根據(jù)本公開(kāi)的實(shí)施例的用于在交互裝置處執(zhí)行語(yǔ)音對(duì)話服務(wù)的方法的流程圖。
[0044]參照?qǐng)D3,交互裝置110在操作S301接收用戶(hù)輸入,并隨后在操作S302確定接收到的用戶(hù)輸入是否是語(yǔ)音輸入。在語(yǔ)音輸入的情況下,在操作S303,交互裝置110將所述語(yǔ)音或從語(yǔ)音轉(zhuǎn)換的文本發(fā)送到服務(wù)器120。
[0045]相反,在非語(yǔ)音輸入的情況下,在操作S304,交互裝置110從非語(yǔ)音輸入提取文本,并隨后在操作S305將提取出的文本發(fā)送到服務(wù)器120。
[0046]圖4是示出根據(jù)本公開(kāi)的實(shí)施例的圖3中示出的文本提取操作的詳細(xì)處理的流程圖。
[0047]參照?qǐng)D4,詳細(xì)示出操作S304,在非語(yǔ)音輸入是圖像輸入的情況下,在操作S401,交互裝置110可識(shí)別包含在圖像文件中的元數(shù)據(jù)的文本,并隨后在操作S402執(zhí)行過(guò)濾處理,和/或可通過(guò)執(zhí)行OCR從圖像文件識(shí)別文本,并在操作S403執(zhí)行過(guò)濾處理。如果僅執(zhí)行了操作S402和S403中的一個(gè),則提供通過(guò)執(zhí)行的操作提取的文本。然而,如果操作S402和S403均被執(zhí)行,則可最終提供通過(guò)所述操作中的一個(gè)提取的文本。
[0048]返回參照?qǐng)D3,在操作S306,交互裝置110檢查由服務(wù)器120確定的相關(guān)內(nèi)容提供器的適用性,并隨后將檢查結(jié)果發(fā)送到服務(wù)器120。在操作S307,交互裝置110從服務(wù)器120接收對(duì)話識(shí)別的結(jié)果,并隨后基于接收到的結(jié)果,執(zhí)行響應(yīng)以將結(jié)果提供給用戶(hù)。
[0049]圖5是示出根據(jù)本公開(kāi)的實(shí)施例的在服務(wù)器處確定相關(guān)內(nèi)容提供器的示例的表格。
[0050]參照?qǐng)D5,在由交互裝置110提取的文本被發(fā)送到服務(wù)器120的情況下,相關(guān)內(nèi)容提供器確定單元121可通過(guò)分析包含在文本中的詞語(yǔ)來(lái)確定提取出的文本的類(lèi)型。如圖5中所不,如果提取出的文本是“8 Rue du Fouarre 75005Paris, France”501,則這個(gè)文本包含國(guó)家的名稱(chēng)、城市的名稱(chēng)和街道的名稱(chēng),因此文本類(lèi)型可被確定為地點(diǎn)(地址)502。如果提取出的文本是“Samsung, Sennheiser, Ferrari” 504,則文本類(lèi)型可被確定為公司名稱(chēng)505。如果提取出的文本是“Dark knight, Spider man”507,則文本類(lèi)型可被確定為內(nèi)容名稱(chēng)(電影)508。
[0051]如果文本類(lèi)型是地點(diǎn)(地址)502,則地圖服務(wù)503可被提供為相關(guān)內(nèi)容提供器。如果文本類(lèi)型是公司名稱(chēng)505,則搜索網(wǎng)絡(luò)506可被提供為相關(guān)內(nèi)容提供器。如果文本類(lèi)型是內(nèi)容名稱(chēng)(電影)508,則電影服務(wù)應(yīng)用509可被提供為相關(guān)內(nèi)容提供器。
[0052]如果用戶(hù)接受提供到交互裝置110的相關(guān)內(nèi)容提供器的適用性,則服務(wù)器120可請(qǐng)求交互裝置110在其上顯示相關(guān)內(nèi)容提供器中的關(guān)于文本的信息。S卩,交互裝置110可將相關(guān)內(nèi)容提供器中的關(guān)于文本的信息作為對(duì)從用戶(hù)輸入提取的文本的響應(yīng)提供給用戶(hù)。
[0053]圖6A和圖6B是示出根據(jù)本公開(kāi)的實(shí)施例的在交互裝置處執(zhí)行語(yǔ)音對(duì)話服務(wù)的處理的截屏。
[0054]首先參照?qǐng)D6A,交互裝置110可將用戶(hù)和語(yǔ)音代理之間的對(duì)話顯示在屏幕上。在實(shí)施例中,一些圖標(biāo)(諸如,用于控制語(yǔ)音對(duì)話服務(wù)的開(kāi)關(guān)狀態(tài)的圖標(biāo)(開(kāi)/關(guān))、用于控制麥克風(fēng)的激活的圖標(biāo)(mic.)、用于選擇輸入模式的圖標(biāo)(SEL)等)可被顯示在屏幕上。
[0055]當(dāng)如截屏610中所示,語(yǔ)音代理提供通知語(yǔ)音對(duì)話服務(wù)的評(píng)論601時(shí),如截屏620中所示,用戶(hù)可將語(yǔ)音輸入602作為響應(yīng)提供到語(yǔ)音代理。在這種情況下,用戶(hù)輸入語(yǔ)音“導(dǎo)航到這個(gè)地方”。作為答復(fù),如截屏630中所示,語(yǔ)音代理提供與用戶(hù)的語(yǔ)音輸入相應(yīng)的響應(yīng)603。在這種情況下,語(yǔ)音代理提供響應(yīng)“這是哪? ”。
[0056]參照?qǐng)D6B,示出輸入模式的切換和根據(jù)圖像輸入的交互的響應(yīng)。
[0057]如截屏640中所示,響應(yīng)于語(yǔ)音代理的請(qǐng)求,用戶(hù)可期望提供圖像輸入,并從而需要輸入模式的切換。可使用語(yǔ)音命令執(zhí)行這個(gè)輸入模式的切換。在這種情況下,可通過(guò)語(yǔ)音輸入604 “打開(kāi)相機(jī)并讀取這個(gè)圖像”來(lái)切換輸入模式。
[0058]隨后,如截屏650中所示,交互裝置110可通過(guò)運(yùn)行相機(jī)來(lái)捕捉圖像,并從捕捉的圖像提取文本部分。例如,可通過(guò)OCR處理識(shí)別包含在捕捉的圖像中的文本,可通過(guò)過(guò)濾處理在識(shí)別出的文本中選擇期望的文本部分。如截屏660中所示,從圖像輸入提取出的文本部分605可作為用戶(hù)響應(yīng)被顯示在屏幕上。之后,語(yǔ)音代理輸出對(duì)提取出的文本部分605的響應(yīng)。由于提取出的文本部分605指示地點(diǎn)(地址),因此如截屏670中所示,語(yǔ)音代理可提供用于表示地點(diǎn)(地址)的地圖服務(wù)。
[0059]如上面充分討論的,可通過(guò)除了語(yǔ)音以外的各種輸入交互提供語(yǔ)音對(duì)話服務(wù)。
[0060]將理解,可按照硬件、軟件或硬件和軟件的組合的形式實(shí)現(xiàn)根據(jù)權(quán)利要求書(shū)和說(shuō)明書(shū)中的描述的本公開(kāi)的各種實(shí)施例。
[0061]任何這樣的軟件可被存儲(chǔ)在非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)一個(gè)或更多個(gè)程序(軟件模塊)。所述一個(gè)或更多個(gè)程序包括指令,當(dāng)所述指令被電子裝置中的一個(gè)或更多個(gè)處理器執(zhí)行時(shí),使得電子裝置執(zhí)行本公開(kāi)的方法。
[0062]任意這樣的軟件可以以易失性或非易失性存儲(chǔ)器的形式(例如,如不論是否可擦除或可重寫(xiě)的只讀存儲(chǔ)器(ROM)的存儲(chǔ)裝置)被存儲(chǔ),或者以存儲(chǔ)器的形式(例如,隨機(jī)存取存儲(chǔ)器(RAM)、存儲(chǔ)芯片、器件或集成電路)被存儲(chǔ),或被存儲(chǔ)在光學(xué)或磁性可讀介質(zhì)(諸如,壓縮光盤(pán)(CD)、數(shù)字多功能光盤(pán)(DVD)、磁盤(pán)或磁帶等)上。將理解,存儲(chǔ)裝置和存儲(chǔ)介質(zhì)是非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)器的各種實(shí)施例,所述非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)器適合存儲(chǔ)包括當(dāng)被運(yùn)行時(shí)實(shí)現(xiàn)本公開(kāi)的各種實(shí)施例的指令的程序。因此,各種實(shí)施例提供包括用于實(shí)現(xiàn)如本說(shuō)明書(shū)的權(quán)利要求書(shū)中的任意一個(gè)所述的設(shè)備或方法的代碼的程序,以及存儲(chǔ)這樣的程序的非暫時(shí)性機(jī)器可讀存儲(chǔ)器。
[0063]雖然已經(jīng)參照本公開(kāi)的各種實(shí)施例顯示和描述了本公開(kāi),但是本領(lǐng)域的技術(shù)人員將理解,在不脫離由權(quán)利要求書(shū)及其等同物限定的本公開(kāi)的精神和范圍的情況下,可在其中進(jìn)行形式和細(xì)節(jié)上的各種改變。
【權(quán)利要求】
1.一種用于支持語(yǔ)音對(duì)話服務(wù)的交互方法,所述交互方法包括: 執(zhí)行用于語(yǔ)音對(duì)話服務(wù)的界面; 通過(guò)執(zhí)行的界面,接收包括語(yǔ)音輸入和非語(yǔ)音輸入的用戶(hù)輸入; 當(dāng)接收到的用戶(hù)輸入是語(yǔ)音輸入時(shí),將語(yǔ)音輸入或從語(yǔ)音輸入提取出的文本中的至少一個(gè)作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器; 當(dāng)接收到的用戶(hù)輸入是非語(yǔ)音輸入時(shí),將從非語(yǔ)音輸入提取的文本作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器; 從服務(wù)器接收響應(yīng)于請(qǐng)求信號(hào)的對(duì)話識(shí)別的結(jié)果; 基于接收到的對(duì)話識(shí)別的結(jié)果,執(zhí)行對(duì)接收到的用戶(hù)輸入的響應(yīng)。
2.如權(quán)利要求1所述的交互方法,還包括: 基于用戶(hù)控制設(shè)置界面的輸入模式, 其中,設(shè)置輸入模式的步驟包括以下步驟中的至少一個(gè): 響應(yīng)于輸入,選擇顯示在屏幕上的輸入模式的菜單; 響應(yīng)于語(yǔ)音命令,運(yùn)行與輸入模式相關(guān)的應(yīng)用。
3.如權(quán)利要求1所述的交互方法,其中,當(dāng)非語(yǔ)音輸入是圖像輸入時(shí),所述方法還包括: 識(shí)別包含在圖像輸入中的元數(shù)據(jù)的文本; 通過(guò)過(guò)濾處理,在識(shí)別出的文本中選擇特定部分。
4.如權(quán)利要求1所述的交互方法,其中,當(dāng)非語(yǔ)音輸入是圖像輸入時(shí),所述方法還包括: 通過(guò)光學(xué)字符識(shí)別處理,從圖像輸入識(shí)別文本; 通過(guò)過(guò)濾處理,在識(shí)別出的文本中選擇特定部分。
5.如權(quán)利要求1所述的交互方法,還包括: 從服務(wù)器接收用于檢查是否應(yīng)用由服務(wù)器確定的相關(guān)內(nèi)容提供器的請(qǐng)求; 檢查是否應(yīng)用由服務(wù)器確定的相關(guān)內(nèi)容提供器,并將檢查的結(jié)果發(fā)送到服務(wù)器。
6.如權(quán)利要求5所述的交互方法,其中,執(zhí)行對(duì)接收到的用戶(hù)輸入的響應(yīng)的步驟包括:當(dāng)相關(guān)內(nèi)容提供器的適用性被接受時(shí),運(yùn)行所述相關(guān)內(nèi)容提供器。
7.一種用于支持語(yǔ)音對(duì)話服務(wù)的交互裝置,所述交互裝置包括: 輸入單元,被配置為接收包括語(yǔ)音輸入和非語(yǔ)音輸入的用戶(hù)輸入; 通信單元,被配置為與服務(wù)器通信; 控制單元,被配置為執(zhí)行用于語(yǔ)音對(duì)話服務(wù)的界面,通過(guò)執(zhí)行的界面接收用戶(hù)輸入,當(dāng)接收到的用戶(hù)輸入是語(yǔ)音輸入時(shí),將語(yǔ)音輸入或從語(yǔ)音輸入提取出的文本中的至少一個(gè)作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器,當(dāng)接收到的用戶(hù)輸入是非語(yǔ)音輸入時(shí),將從非語(yǔ)音輸入提取的文本作為請(qǐng)求信號(hào)發(fā)送到服務(wù)器,從服務(wù)器接收響應(yīng)于請(qǐng)求信號(hào)的對(duì)話識(shí)別的結(jié)果,基于接收到的對(duì)話識(shí)別的結(jié)果,執(zhí)行對(duì)接收到的用戶(hù)輸入的響應(yīng); 輸出單元,被配置為輸出執(zhí)行對(duì)接收到的用戶(hù)輸入的響應(yīng)的結(jié)果。
8.如權(quán)利要求7所述的交互裝置,其中,控制單元還被配置為通過(guò)執(zhí)行以下操作中的至少一個(gè)來(lái)基于用戶(hù)控制設(shè)置界面的輸入模式: 響應(yīng)于輸入,選擇顯示在屏幕上的輸入模式的菜單, 響應(yīng)于語(yǔ)音命令,運(yùn)行與輸入模式相關(guān)的應(yīng)用。
9.如權(quán)利要求7所述的交互裝置,其中,當(dāng)非語(yǔ)音輸入是圖像輸入時(shí),控制單元還被配置為識(shí)別包含在圖像輸入中的元數(shù)據(jù)的文本,并通過(guò)過(guò)濾處理在識(shí)別出的文本中選擇特定部分。
10.如權(quán)利要求7所述的交互裝置,其中,當(dāng)非語(yǔ)音輸入是圖像輸入時(shí),控制單元還被配置為通過(guò)光學(xué)字符識(shí)別處理從圖像輸入識(shí)別文本,并通過(guò)過(guò)濾處理在識(shí)別出的文本中選擇特定部分。
11.如權(quán)利要求7所述的交互裝置,其中,控制單元還被配置為從服務(wù)器接收用于檢查是否應(yīng)用由服務(wù)器確定的相關(guān)內(nèi)容提供器的請(qǐng)求,檢查是否應(yīng)用由服務(wù)器確定的相關(guān)內(nèi)容提供器,并將檢查的結(jié)果發(fā)送到服務(wù)器。
12.如權(quán)利要求11所述的交互裝置,其中,控制單元還被配置為當(dāng)相關(guān)內(nèi)容提供器的適用性被接受時(shí),運(yùn)行所述相關(guān)內(nèi)容提供器。
【文檔編號(hào)】H04L29/06GK104348828SQ201410384423
【公開(kāi)日】2015年2月11日 申請(qǐng)日期:2014年8月5日 優(yōu)先權(quán)日:2013年8月5日
【發(fā)明者】全賀英, 金少拉, 金熙云, 安由美, 安智賢 申請(qǐng)人:三星電子株式會(huì)社