語音控制方法及語音控制系統(tǒng)與流程

文檔序號：12459469閱讀：764來源：國知局

本發(fā)明是有關(guān)于一種語音控制方法，且特別是有關(guān)于一種可兼顧操作便利及安全性的語音控制方法及語音控制系統(tǒng)。

背景技術(shù)：

目前市面上的作業(yè)系統(tǒng)多有提供個人語音助理系統(tǒng)。這些個人語音助理系統(tǒng)除了可提供對答的功能之外，由于聲音控制具有人性化且簡單操作的特點，利用聲控來控制其他裝置的方式越來越普遍。例如，智能家庭服務(wù)或是物聯(lián)網(wǎng)即有提供聲控功能。

然而，目前市面上的控制裝置大都僅以集成感測監(jiān)控設(shè)備為主，而未考量安全性的問題。以智能家庭服務(wù)為例，現(xiàn)有技術(shù)僅針對說話者的語音內(nèi)容進行辨識，導致任何人都可利用控制裝置來操作智能家電產(chǎn)品。因此，可能造成幼童誤用危險性高的電器，甚至陌生人也能夠隨意使用智能家電產(chǎn)品，嚴重影響居家安全。

技術(shù)實現(xiàn)要素：

本發(fā)明提供一種語音控制方法及語音控制系統(tǒng)，其可對用戶設(shè)定使用權(quán)限，并同時考量使用情境以調(diào)整使用權(quán)限或是自動執(zhí)行其他操作模式，從而兼顧智能家庭服務(wù)的操作便利性以及安全性。

本發(fā)明提出一種語音控制方法，其適用于連結(jié)至區(qū)域網(wǎng)絡(luò)的語音控制裝置。所述語音控制方法包括下列步驟。接收語音數(shù)據(jù)，對語音數(shù)據(jù)執(zhí)行語音辨識動作以獲得語音數(shù)據(jù)對應(yīng)的聲紋信息以及提示命令，依據(jù)聲紋信息以及提示命令，以決定聲紋信息對應(yīng)的權(quán)限信息，以及依據(jù)權(quán)限信息、提示命令以及環(huán)境信息的至少其中之一，以通過區(qū)域網(wǎng)絡(luò)控制電子裝置。

本發(fā)明另提出一種語音控制系統(tǒng)，其包括至少一個電子裝置以及語音控制裝置。電子裝置包括第一通信單元，其連結(jié)至區(qū)域網(wǎng)絡(luò)。語音控制裝置包括第二通信單元、存儲單元以及處理單元。第二通信單元連結(jié)至區(qū)域網(wǎng)絡(luò)。存儲單元記錄多個模塊。處理單元耦接第二通信單元以及存儲單元，用以存取并執(zhí)行存儲單元中記錄的所述模塊。所述模塊包括語音通信模塊、語音助理模塊、權(quán)限設(shè)定模塊以及控制模塊。語音通信模塊接收語音數(shù)據(jù)。語音助理模塊對語音數(shù)據(jù)執(zhí)行語音辨識動作以獲得語音數(shù)據(jù)對應(yīng)的聲紋信息以及提示命令。權(quán)限設(shè)定模塊依據(jù)聲紋信息以及提示命令，以決定聲紋信息對應(yīng)的權(quán)限信息?？刂颇K依據(jù)權(quán)限信息、提示命令以及環(huán)境信息的至少其中之一，以通過區(qū)域網(wǎng)絡(luò)控制電子裝置。

基于上述，本發(fā)明實施例可利用聲紋辨識來確認用戶是否為合法用戶，并對合法用戶設(shè)定不同等級的使用權(quán)限。此外，還可通過提示命令和/或環(huán)境信息來適時地調(diào)整使用權(quán)限以及判斷目前的使用情境，進而決定語音控制裝置所提供的聲控功能或可自動執(zhí)行的操作模式。由此，可以兼顧智能家庭服務(wù)的操作便利性及安全性。

為讓本發(fā)明的上述特征和優(yōu)點能更明顯易懂，下文特舉實施例，并配合附圖作詳細說明如下。

附圖說明

圖1是本發(fā)明一實施例所示出的語音控制系統(tǒng)的方塊圖；

圖2是本發(fā)明一實施例所示出的語音控制方法的流程圖；

圖3是本發(fā)明一實施例所示出的語音控制系統(tǒng)的方塊圖；

圖4是本發(fā)明另一實施例所示出的語音控制方法的流程圖；

圖5是本發(fā)明一實施例所示出的語音控制系統(tǒng)的方塊圖；

圖6是本發(fā)明另一實施例所示出的語音控制方法的流程圖；

圖7是本發(fā)明另一實施例所示出的語音控制方法的流程圖；

圖8是本發(fā)明另一實施例所示出的語音控制方法的流程圖；

圖9是本發(fā)明一實施例所示出的語音控制方法的流程圖。

附圖標記說明：

10、30、50：語音控制系統(tǒng)；

100、500：語音控制裝置；

110、210、510：通信單元；

120、520：存儲單元；

122、522：語音通信模塊；

124、524：語音助理模塊；

126：系統(tǒng)語音輸入模塊；

128：系統(tǒng)語音輸出模塊；

130、530：處理單元；

200：電子裝置；

300：用戶裝置；

526：權(quán)限設(shè)定模塊；

528：控制模塊；

S202～S208、S402～S410、S602～S612、S702～S718、S802～S806、S902～S908：步驟。

具體實施方式

本發(fā)明實施例利用聲紋辨識用戶身份，并通過使用權(quán)限、用戶狀態(tài)(例如提示命令包括的位置信息)以及環(huán)境信息，從而決定用戶的使用權(quán)限以及判斷目前的使用情境。由此，本發(fā)明實施例除了可判斷用戶對于語音控制的權(quán)限之外，還能夠在特定的使用情境下進一步限制語音控制裝置對用戶所提供的聲控功能，或是使語音控制裝置自動執(zhí)行特定的操作模式，故可有效提升智能家庭服務(wù)的安全性并保有操作便利的特點。另一方面，本發(fā)明實施例還可提供遠端聲控功能，其利用網(wǎng)際網(wǎng)絡(luò)語音協(xié)定(Voice over Internet Protocol，簡稱VoIP)技術(shù)以將通過網(wǎng)際網(wǎng)絡(luò)所接收的語音數(shù)據(jù)橋接至語音助理，讓用戶能夠通過語音而在遠端與語音控制裝置進行語音互動，進而遠端控制智能家庭服務(wù)中的其他智能家電。

在以下實施例中，圖1至圖4用以說明遠端聲控功能的部分，圖5至圖8則用以說明安全性考量的控制設(shè)定。

圖1是本發(fā)明一實施例所示出的語音控制系統(tǒng)的方塊圖。請參照圖1，本實施例的語音控制系統(tǒng)10包括語音控制裝置100、至少一個電子裝置200以及用戶裝置300。為了便于說明，在圖1中僅示出出一個電子裝置200作為示意。其中，語音控制裝置100例如是臺式電腦、筆記本電腦等電子裝置，其具有基本的網(wǎng)絡(luò)連線及運算能力。另外，電子裝置200例如是智能家電裝置(例如智能型電視、智能型燈泡、投影機等)或其他電子裝置。至于用戶裝置300則例如是臺式電腦、筆記本電腦等電子裝置，或也可以是平板電腦、智能手機等移動裝置。語音控制裝置100可通過網(wǎng)際網(wǎng)絡(luò)接收用戶裝置300所發(fā)出的語音數(shù)據(jù)，并可通過區(qū)域網(wǎng)絡(luò)而與電子裝置200連結(jié)，以讓用戶裝置300可接收用戶的語音信號，并將此語音信號通過網(wǎng)絡(luò)而直接傳送至語音控制裝置100，藉以遠端執(zhí)行語音控制裝置100的聲控功能。

值得一提的是，本發(fā)明實施例的語音控制裝置100設(shè)置于一私有網(wǎng)絡(luò)(例如家用網(wǎng)絡(luò)等區(qū)域網(wǎng)絡(luò))中，并例如作為此私有網(wǎng)絡(luò)中的伺服器或是主控裝置。因此，相對于一般設(shè)置于外部網(wǎng)絡(luò)的伺服器而言，本發(fā)明實施例可避免外部裝置侵入或是不當操作的問題。

具體而言，語音控制裝置100包括通信單元110、存儲單元120以及處理單元130。通信單元110例如是有線網(wǎng)絡(luò)接口卡或是支持電機電子工程師學會(Institute of Electrical and Electronics Engineers，簡稱：IEEE)802.11b/g/n等通信協(xié)定的無線網(wǎng)絡(luò)接口卡，或支持其他網(wǎng)絡(luò)協(xié)議的網(wǎng)絡(luò)通信模塊，其可用以通過網(wǎng)絡(luò)來傳送數(shù)據(jù)或接收數(shù)據(jù)。在本實施例中，通信單元110可用以連結(jié)網(wǎng)際網(wǎng)絡(luò)，讓語音控制裝置100可通過網(wǎng)際網(wǎng)絡(luò)以將數(shù)據(jù)傳送至用戶裝置300，以及通過網(wǎng)際網(wǎng)絡(luò)以從用戶裝置300接收數(shù)據(jù)。此外，通信單元110并可連結(jié)區(qū)域網(wǎng)絡(luò)，以提供語音控制裝置100通過區(qū)域網(wǎng)絡(luò)來控制位于同一區(qū)域網(wǎng)絡(luò)中的電子裝置200(例如，智能家庭中的智能家電產(chǎn)品，其隸屬于同一家用網(wǎng)絡(luò))。

存儲單元120例如是各種非易失性(non-volatile)存儲器或其組合，例如只讀存儲器(Read-Only Memory，簡稱ROM)和/或快閃存儲器(flash memory)。另外，存儲單元120也可包括硬盤、光盤或外接式存儲裝置(如記憶卡、隨身碟等)等存儲媒體或其組合，在此并不對存儲單元120的體現(xiàn)方式加以限制。在本實施例中，存儲單元120用以記錄語音通信模塊122以及語音助理模塊124。這些模塊例如是存儲在存儲單元120中的程序，其可載入語音控制裝置100的處理單元130，而由處理單元130執(zhí)行語音接收、辨識及控制等功能。需說明的是，本實施例中所述存儲單元120并未限制是單一存儲器元件，上述模塊也可以分開存儲在兩個或兩個以上相同或不同形態(tài)的存儲器元件中。

另外，存儲單元120還可包括語音數(shù)據(jù)庫(未示出)，并可選擇性地包括聲紋數(shù)據(jù)庫(未示出)。語音數(shù)據(jù)庫用以記錄多個預(yù)設(shè)音頻信號，并可例如對應(yīng)于多個字匯或音序等。聲紋數(shù)據(jù)庫用以記錄多個預(yù)設(shè)聲紋，這些預(yù)設(shè)聲紋可分別對應(yīng)于不同的用戶。簡單來說，這些預(yù)設(shè)聲紋所對應(yīng)的用戶可視為是被允許存取語音控制裝置100的合法用戶。

處理單元130例如是中央處理單元，或是其他可編程的一般用途或特殊用途的微處理器(Microprocessor)、數(shù)字信號處理器(Digital Signal Processor，簡稱DSP)、可編程控制器、專用集成電路(Application Specific Integrated Circuits，簡稱ASIC)、可編程邏輯裝置(Programmable Logic Device，簡稱PLD)或其他類似裝置或這些裝置的組合。處理單元130耦接通信單元110以及存儲單元120，其用以存取并執(zhí)行存儲單元120中記錄的模塊，并控制語音控制裝置100的整體運作，從而實現(xiàn)本實施例的語音控制方法。本實施例中所述處理單元130并未限制是單一處理元件，也可以是由兩個或兩個以上的處理元件共同執(zhí)行。

電子裝置200包括通信單元210。通信單元210例如是有線網(wǎng)絡(luò)接口卡或是支持電機電子工程師學會(Institute of Electrical and Electronics Engineers，IEEE)802.11b/g/n等通信協(xié)議的無線網(wǎng)絡(luò)接口卡，或支持其他網(wǎng)絡(luò)協(xié)議的網(wǎng)絡(luò)通信模塊，其可用以通過網(wǎng)絡(luò)來傳送數(shù)據(jù)或接收數(shù)據(jù)。在本實施例中，通信單元210可連結(jié)區(qū)域網(wǎng)絡(luò)以提供電子裝置200接收來自語音控制裝置100的控制指令，并使電子裝置200可依據(jù)控制指令而執(zhí)行對應(yīng)的操作。

另外，電子裝置200還可包括存儲單元(未示出)以及處理單元(未示出)。其中，電子裝置200的存儲單元例如是各種非易失性(non-volatile)存儲器或其組合，例如只讀存儲器(Read-Only Memory，簡稱ROM)和/或快閃存儲器(flash memory)，或也可包括硬盤、光碟或外接式存儲裝置(如記憶卡、隨身碟等)等存儲媒體或其組合，其可用以存儲接收到的控制指令。至于電子裝置200的處理單元則例如是中央處理單元，或是其他可程序化的一般用途或特殊用途的微處理器(Microprocessor)、數(shù)字信號處理器(Digital Signal Processor，簡稱DSP)、可編程控制器、專用集成電路(Application Specific Integrated Circuits，簡稱ASIC)、可編程邏輯裝置(Programmable Logic Device，簡稱PLD)或其他類似裝置或這些裝置的組合，其用以控制電子裝置200的整體運作。

圖2是本發(fā)明一實施例所示出的語音控制方法的流程圖，其適用于圖1的語音控制系統(tǒng)10。以下即搭配語音控制系統(tǒng)10中的各項元件，說明本實施例方法的詳細流程。

請參照圖1和圖2，在步驟S202中，語音通信模塊122通過網(wǎng)際網(wǎng)絡(luò)接收語音數(shù)據(jù)。上述的語音數(shù)據(jù)例如是基于VoIP的語音數(shù)據(jù)，且是經(jīng)數(shù)字化后的語音信號。

語音通信模塊122例如是接收由用戶裝置300通過網(wǎng)際網(wǎng)絡(luò)所發(fā)出的語音數(shù)據(jù)。在一實施例中，語音通信模塊122例如是Skype、Line等VoIP應(yīng)用程序。因此，當語音控制裝置100和用戶裝置300皆執(zhí)行VoIP應(yīng)用程序，且用戶在遠端操作用戶裝置300并通過VoIP以和語音控制裝置100建立通話時，用戶發(fā)出的語音信號便可通過用戶裝置300上的VoIP應(yīng)用程序而轉(zhuǎn)換成基于VoIP的語音數(shù)據(jù)，并且被傳送至語音通信模塊122。從另一角度而言，本實施例的語音控制裝置100可通過應(yīng)用程序來接收語音數(shù)據(jù)。

在步驟S204中，語音助理模塊124對語音數(shù)據(jù)執(zhí)行語音辨識動作以獲得語音數(shù)據(jù)中的控制指令。詳言之，語音助理模塊124例如包括語音識別器，其可具有語音辨識與分析功能。在本實施例中，語音助理模塊124可比對語音數(shù)據(jù)是否符合語音數(shù)據(jù)庫中的預(yù)設(shè)音頻信號的至少其中之一。當上述比對結(jié)果為是時，語音助理模塊124便可將與語音數(shù)據(jù)符合的預(yù)設(shè)音頻信號視為控制指令。進一步來說，上述的預(yù)設(shè)音頻信號可以對應(yīng)于聲學模型和/或語言模型，其中，聲學模型例如是一個或多個發(fā)音上的最小單位(例如，KK音標或注音符號(Phonetic Symbol)等)的組合。至于語言模型則例如是特定語言(例如英文或中文等)的常用語法規(guī)則。因此，語音助理模塊124可從語音數(shù)據(jù)中獲取聲學特征，并將聲學特征與語音數(shù)據(jù)庫所包括的聲學模型和語言模型進行比對，據(jù)以判斷出與語音數(shù)據(jù)相應(yīng)的字匯或音節(jié)，并獲得語音數(shù)據(jù)中的控制指令。

在本實施例中，語音助理模塊124例如是使用單一的語音數(shù)據(jù)庫以對語音數(shù)據(jù)進行辨識。在另一實施例中，語音助理模塊124則可對不同用戶分別建立的語音數(shù)據(jù)庫，以使用與用戶相對應(yīng)的語音數(shù)據(jù)庫來對此用戶的語音數(shù) 據(jù)進行辨識。在此架構(gòu)下，語音助理模塊124還可通過學習機制以對特定用戶的語音辨識進行優(yōu)化。此部分的細節(jié)將在之后的實施例中再行描述。

此外，在其他實施例中，語音助理模塊124也可通過網(wǎng)絡(luò)連接至一云端服務(wù)器，且語音助理模塊124可與云端服務(wù)器通信，以在判斷語音數(shù)據(jù)中的控制指令必須通過連接網(wǎng)絡(luò)才能處理時，由云端服務(wù)器來協(xié)助處理此控制指令。

之后，在步驟S206中，語音通信模塊122通過網(wǎng)際網(wǎng)絡(luò)傳送反應(yīng)于控制指令的語音回應(yīng)信息，以及，在步驟S208中，語音助理模塊124依據(jù)控制指令以通過區(qū)域網(wǎng)絡(luò)控制電子裝置200。上述的語音回應(yīng)信息例如是由語音助理模塊124依據(jù)控制指令所產(chǎn)生，并在之后由語音通信模塊122將語音回應(yīng)信息回傳至用戶裝置300。換言之，語音回應(yīng)信息的數(shù)據(jù)格式可與語音數(shù)據(jù)相同。在本實施例中，語音回應(yīng)信息也例如是基于VoIP的數(shù)據(jù)格式。

由此，用戶裝置300可在接收到語音回應(yīng)信息之后，例如通過語音輸出單元(例如揚聲器)而直接將基于VoIP的語音回應(yīng)信息轉(zhuǎn)換成模擬形式的語音信號并輸出，以向遠端用戶呈現(xiàn)關(guān)于此控制指令的語音辨識結(jié)果或是關(guān)于電子裝置200的控制信息?；蛘撸脩粞b置300也可利用顯示單元(例如屏幕)而以文字的方式來呈現(xiàn)語音辨識結(jié)果或相關(guān)的控制信息。上述在用戶裝置300端呈現(xiàn)語音回應(yīng)信息的方式可依實務(wù)上的需求而定，本發(fā)明對此不限制。

如此一來，本實施例通過VoIP技術(shù)在用戶裝置300和語音控制裝置100之間傳送語音數(shù)據(jù)以及語音回應(yīng)信息，可讓用戶通過用戶裝置300以遠端操作語音控制裝置100的語音助理模塊124，從而實現(xiàn)語音控制裝置100與遠端操作的用戶裝置300之間的語音互動。

另一方面，由于語音控制裝置100和電子裝置200可分別通過通信單元110與通信單元210而連結(jié)至同一區(qū)域網(wǎng)絡(luò)，因此，在語音助理模塊124獲得語音數(shù)據(jù)中的控制指令之后，也可據(jù)以通過區(qū)域網(wǎng)絡(luò)來控制電子裝置200，從而使電子裝置200執(zhí)行與控制指令相應(yīng)的動作。由此，用戶便可在遠端以聲控的方式來對智能家庭服務(wù)中的家電進行控制。

圖3是本發(fā)明一實施例所示出的語音控制系統(tǒng)的方塊圖，其示出語音控制裝置100的詳細架構(gòu)。請參照圖3，語音控制系統(tǒng)30包括語音控制裝置100、至少一個電子裝置200(圖3中僅示出一個電子裝置200以便于說明)以及用戶裝置300。語音控制系統(tǒng)30與圖1的語音控制系統(tǒng)10類似，故相同或相似之處不再贅述。

在本實施例中，語音控制裝置100的存儲單元120還用以記錄系統(tǒng)語音輸入模塊126以及系統(tǒng)語音輸出模塊128，其例如是存儲在存儲單元120中的程序，可載入語音控制裝置100的處理單元130，并由處理單元130執(zhí)行，以分別橋接語音通信模塊122與語音助理模塊124之間的語音數(shù)據(jù)傳輸。

具體而言，語音通信模塊122可通過網(wǎng)際網(wǎng)絡(luò)接收語音數(shù)據(jù)，并將語音數(shù)據(jù)提供至系統(tǒng)語音輸入模塊126。系統(tǒng)語音輸入模塊126可對語音數(shù)據(jù)進行格式轉(zhuǎn)換，并將經(jīng)過格式轉(zhuǎn)換后的語音數(shù)據(jù)提供至語音助理模塊124。若以語音通信模塊122接收的是基于VoIP的語音數(shù)據(jù)為例，則系統(tǒng)語音輸入模塊126例如是將基于VoIP的語音數(shù)據(jù)轉(zhuǎn)換成具有系統(tǒng)語音輸入規(guī)格的語音數(shù)據(jù)，以提供給語音助理模塊124以進行辨識。

在語音助理模塊124對語音數(shù)據(jù)進行的語音辨識動作完成之后，語音助理模塊124可獲得控制指令，并依據(jù)控制指令產(chǎn)生語音回應(yīng)信息，以及將語音回應(yīng)信息提供至系統(tǒng)語音輸出模塊128。系統(tǒng)語音輸出模塊128可對語音回應(yīng)信息進行格式轉(zhuǎn)換，并將經(jīng)過格式轉(zhuǎn)換后的語音回應(yīng)信息提供至語音通信模塊122。上述的語音回應(yīng)信息例如具有系統(tǒng)語音輸出規(guī)格，故系統(tǒng)語音輸出模塊128可例如將具有系統(tǒng)語音輸出規(guī)格的語音回應(yīng)信息轉(zhuǎn)換成基于VoIP的語音回應(yīng)信息，以將語音回應(yīng)信息提供至語音通信模塊122，并由語音通信模塊122通過網(wǎng)際網(wǎng)絡(luò)以將語音回應(yīng)信息傳送至用戶裝置300。

值得一提的是，本發(fā)明實施例僅由語音控制裝置100來對語音數(shù)據(jù)進行語音辨識，用戶裝置300無需執(zhí)行語音辨識動作，故也不需要在用戶裝置300上特別配置具有強大運算能力的處理器以及記錄大量預(yù)設(shè)語音音頻信號的語音數(shù)據(jù)庫，因此能夠簡化用戶裝置300的設(shè)計。此外，通過VoIP技術(shù)來傳輸語音，還可避免網(wǎng)絡(luò)上的防火墻及網(wǎng)絡(luò)設(shè)定可能阻擋網(wǎng)絡(luò)連線的問題。

另外，考量遠端聲控功能的安全性問題以及語音辨識的準確度，在一些實施例中，語音助理模塊124還可通過聲紋辨識以確認用戶身份，并針對用戶提供個別的語音數(shù)據(jù)庫以進行控制指令的比對，由此避免因用戶的口音或說話習慣不同而影響控制指令辨識的準確度。

在此舉一實施例進行說明。圖4是本發(fā)明另一實施例所示出的語音控制方法的流程圖，其示出出語音助理模塊124對語音數(shù)據(jù)執(zhí)行語音辨識動作的詳細步驟。本實施例適用于圖1的語音控制系統(tǒng)10，而與前述實施例的不同之處在于，本實施例的語音控制裝置100還包括聲紋數(shù)據(jù)庫以及多個語音數(shù)據(jù)庫，其可分別記錄于存儲單元120中。其中，聲紋數(shù)據(jù)庫可記錄多個預(yù)設(shè)聲紋，這些預(yù)設(shè)聲紋分別對應(yīng)所述語音數(shù)據(jù)庫，且各語音數(shù)據(jù)庫可記錄多個預(yù)設(shè)音頻信號。

請參照圖4，在步驟S402中，語音助理模塊124依據(jù)語音數(shù)據(jù)的特征參數(shù)以獲得語音數(shù)據(jù)中的聲紋信息。舉例而言，語音助理模塊124可通過線性預(yù)測系數(shù)(Linear Prediction Coefficient，簡稱LPC)、梅爾頻率倒頻譜系數(shù)(Mel-Frequency Cepstral Coefficient，簡稱MFCC)等運算，以提取語音數(shù)據(jù)的特征參數(shù)并作為聲紋信息。

在步驟S404中，語音助理模塊124比對聲紋信息是否符合聲紋數(shù)據(jù)庫中的多個預(yù)設(shè)聲紋的其中之一。若是，則語音助理模塊124判定此聲紋信息對應(yīng)的是合法用戶，且在步驟S406中，語音助理模塊124獲得與聲紋信息符合的預(yù)設(shè)聲紋所對應(yīng)的語音數(shù)據(jù)庫，并將此語音數(shù)據(jù)庫視為語音數(shù)據(jù)對應(yīng)的特定語音數(shù)據(jù)庫。若否，則語音助理模塊124可判定此聲紋信息不具有語音控制裝置100的存取權(quán)限，故不再對此語音數(shù)據(jù)進行后續(xù)處理，并回到步驟S402以重新接收語音數(shù)據(jù)。

接著，在步驟S408中，語音助理模塊124比對語音數(shù)據(jù)是否符合特定語音數(shù)據(jù)庫中的多個預(yù)設(shè)音頻信號的至少其中之一。若是，則在步驟S410中，語音助理模塊124將與語音數(shù)據(jù)符合的預(yù)設(shè)音頻信號視為控制指令。若否，則語音助理模塊124可判定此語音數(shù)據(jù)中的控制指令并非權(quán)限中的控制指令，故不執(zhí)行此控制指令，并回到步驟S402。

值得一提的是，在一實施例中，語音控制裝置100還可提供機器學習機制，以依據(jù)用戶的輸入操作來對上述的特定語音數(shù)據(jù)庫進行更新。例如，在用戶裝置300接收到語音控制裝置100所回傳的語音回應(yīng)信息時，用戶裝置300還可例如提供一輸入接口，讓用戶能夠通過例如文字輸入的方式來反饋對于語音辨識結(jié)果的修正意見。由此，語音控制裝置100可通過數(shù)據(jù)訓練來調(diào)整此特定語音數(shù)據(jù)庫中的聲學模型和/或語言模型，從而優(yōu)化對此用戶的語音辨識的準確度。

接下來則說明語音控制裝置如何利用聲紋信息、提示命令以及環(huán)境信息等參數(shù)以實現(xiàn)基于安全性考量的控制設(shè)定。

圖5是本發(fā)明一實施例所示出的語音控制系統(tǒng)的方塊圖。請參照圖5，語音控制系統(tǒng)50包括語音控制裝置500以及至少一個電子裝置200(圖5中僅示出一個電子裝置200以便于說明)。語音控制裝置500包括通信單元510、存儲單元520以及處理單元530。其中，存儲單元520用以記錄語音通信模塊522、語音助理模塊524、權(quán)限設(shè)定模塊526以及控制模塊528，其例如是存儲在存儲單元520中的程序，并可載入語音控制裝置500的處理單元530，而由處理單元530執(zhí)行語音辨識、權(quán)限設(shè)定及控制等功能。另外，電子裝置200則包括通信單元210、存儲單元(未示出)以及處理單元(未示出)。本實施例的各個元件分別與前述實施例類似，故相同或相似之處不再贅述。

詳細來說，語音通信模塊522可用以接收語音數(shù)據(jù)。在本實施例中，語音通信模塊522例如可通過收音裝置(例如麥克風或其他收音器)直接接收用戶所發(fā)出的語音信號，并由語音通信模塊522對語音信號進行數(shù)字化處理以獲得語音數(shù)據(jù)。換言之，本實施例的用戶與語音控制裝置500位在同一房間、會議室等空間之中。在其他實施例中，語音通信模塊522也可通過網(wǎng)際網(wǎng)絡(luò)接收來自用戶裝置(例如圖1實施例中的用戶裝置300)的語音數(shù)據(jù)，且此語音數(shù)據(jù)例如是基于VoIP的語音數(shù)據(jù)。此部分的實施細節(jié)與前述實施例類似，故不再重復說明。

語音助理模塊524可對語音數(shù)據(jù)執(zhí)行語音辨識動作以獲得語音數(shù)據(jù)對應(yīng)的聲紋信息以及提示命令。語音助理模塊524例如是通過獲取語音數(shù)據(jù)中的特征參數(shù)以獲得聲紋信息，其可用以確認用戶身份。另外，語音助理模塊524例如是通過比對語音數(shù)據(jù)以及語音數(shù)據(jù)庫以獲得提示命令。在本實施例中，所述提示命令例如包括“外出中”、“在家中”等特定字句的位置信息，其可用以記錄為用戶狀態(tài)。上述語音助理模塊524執(zhí)行語音辨識動作以獲得語音數(shù)據(jù)對應(yīng)的聲紋信息以及提示命令的詳細流程可與圖4的實施例類似，故其細節(jié)請參照前述。

權(quán)限設(shè)定模塊526可依據(jù)聲紋信息以及提示命令，以決定聲紋信息對應(yīng)的權(quán)限信息。具體而言，權(quán)限設(shè)定模塊526可對用戶(分別對應(yīng)于不同聲紋信息)設(shè)定不同的權(quán)限等級。這些權(quán)限等級可用以決定受控于此聲紋信息(對應(yīng)用戶)的電子裝置200的裝置數(shù)量、功能數(shù)量或其組合，并可例如以查找表的方式存儲于存儲單元520中。

至于控制模塊528則可依據(jù)權(quán)限信息、提示命令以及環(huán)境信息的至少其中之一，以通過區(qū)域網(wǎng)絡(luò)控制電子裝置200。換句話說，本實施例可通過權(quán)限信息以及環(huán)境信息的組合來設(shè)定多種使用情境，從而使控制模塊528依照不同的使用情境來對電子裝置200進行控制。

例如，當語音控制系統(tǒng)50包括一個電子裝置200時，權(quán)限等級的高低可決定此聲紋信息可控制電子裝置200的功能數(shù)量的多少。再如語音控制系統(tǒng)50包括多個電子裝置200的情況，權(quán)限等級的高低除了能夠決定此聲紋信息可控制每一電子裝置200的功能數(shù)量多少之外，還能夠決定此聲紋信息在語音控制系統(tǒng)50中可控制的電子裝置200的裝置數(shù)量。從另一角度而言，當權(quán)限等級較高時，對應(yīng)于聲紋信息的語音數(shù)據(jù)可控制語音控制系統(tǒng)50的能力較強，而當權(quán)限等級較低時，對應(yīng)于聲紋信息的語音數(shù)據(jù)可控制語音控制系統(tǒng)50的能力則受到限制。

因此，在本實施例中，當語音助理模塊524獲得聲紋信息時，權(quán)限設(shè)定模塊526便可依據(jù)聲紋信息查找數(shù)據(jù)庫，以從多個權(quán)限等級中選擇其中之一以作為此聲紋信息所對應(yīng)的權(quán)限信息。此外，權(quán)限設(shè)定模塊526還可根據(jù)提示命令中是否包含用戶的位置信息，以適應(yīng)性地提高或降低權(quán)限信息的權(quán)限等級。

在此以圖6的實施例對決定權(quán)限信息的詳細步驟進行說明。圖6是本發(fā)明另一實施例所示出的語音控制方法的流程圖，其適用于圖5的語音控制系統(tǒng)50。

請參照圖6，在步驟S602中，權(quán)限設(shè)定模塊526依據(jù)聲紋信息，選擇多個權(quán)限等級的其中之一以設(shè)定為權(quán)限信息。換言之，權(quán)限設(shè)定模塊526可先查找數(shù)據(jù)庫中此聲紋信息所對應(yīng)的預(yù)設(shè)權(quán)限等級，并設(shè)定為目前的權(quán)限信息。

在步驟S604中，權(quán)限設(shè)定模塊526提供聲紋信息對應(yīng)的用戶狀態(tài)。所述用戶狀態(tài)例如是記錄于存儲單元520中，或是可記錄于其他的寄存器。

接著，在步驟S606中，權(quán)限設(shè)定模塊526將提示命令包括的位置信息記錄至用戶狀態(tài)。詳言之，權(quán)限設(shè)定模塊526可判斷提示命令是否包括位置信息，并當提示命令包括位置信息時，權(quán)限設(shè)定模塊526可將位置信息記錄至用戶狀態(tài)。所述位置信息可例如是前述的“外出中”、“在家中”等特定字句。

之后，在步驟S608中，權(quán)限設(shè)定模塊526判斷用戶狀態(tài)是否依據(jù)位置信息而變更，且當用戶狀態(tài)依據(jù)位置信息而變更時，在步驟S610中，權(quán)限設(shè)定模塊526更新權(quán)限信息的權(quán)限等級。其中，上述對于權(quán)限信息的更新動作例如是由權(quán)限設(shè)定模塊526依據(jù)用戶狀態(tài)以將第一權(quán)限信息調(diào)整為所述權(quán)限等級的其中的另一。

另一方面，若用戶狀態(tài)并未變更，則進入步驟S612，權(quán)限設(shè)定模塊526不執(zhí)行權(quán)限信息的更新動作。

舉例來說，當語音通信模塊522通過語音控制裝置500的收音單元直接接收到一合法用戶的語音數(shù)據(jù)時，權(quán)限設(shè)定模塊526可依照此用戶的聲紋信息而對應(yīng)查找出權(quán)限信息。另外，權(quán)限設(shè)定模塊526并可將此聲紋信息對應(yīng)的用戶狀態(tài)預(yù)設(shè)成“在家中”。當權(quán)限設(shè)定模塊526判斷提示命令包括“外出中”或其他與“在家中”不同的位置信息時，權(quán)限設(shè)定模塊526可將上述的位置信息(例如“外出中”)記錄至用戶狀態(tài)。此時，由于用戶狀態(tài)因位置信息而發(fā)生變更，故權(quán)限設(shè)定模塊526會調(diào)整權(quán)限信息的權(quán)限等級。在此實施例中，當用戶狀態(tài)從“在家中”而被切換成“外出中”時，權(quán)限設(shè)定模塊526例如是降低權(quán)限信息的權(quán)限等級。另一方面，當提示命令未包括位置信息、或是提示命令只包括“在家中”的位置信息時，權(quán)限設(shè)定模塊526則不變更用戶狀態(tài)，也因此不對權(quán)限信息進行更新/調(diào)整，而直接將目前的權(quán)限等級設(shè)定為此聲紋信息對應(yīng)的權(quán)限信息。

由此，本實施例可提供用戶通過聲控的方式以將用戶狀態(tài)(例如用戶是否為外出)告知語音控制裝置500，再由語音控制裝置500決定是否依據(jù)用戶狀態(tài)來調(diào)整權(quán)限信息的權(quán)限等級。從另一角度而言，本實施例通過調(diào)整權(quán)限信息以限制不在家中的用戶對于控制語音控制裝置500的使用權(quán)限以及操作模式。

在另一實施例中，當語音控制裝置500接收到多個用戶的語音數(shù)據(jù)時，若判斷具有高使用權(quán)限的用戶在家，則權(quán)限設(shè)定模塊526可對應(yīng)地提高具有低使用權(quán)限的用戶所對應(yīng)的權(quán)限信息的權(quán)限等級。

以語音控制裝置100分別接收到第一用戶的第一語音數(shù)據(jù)以及第二用戶的第二語音數(shù)據(jù)的情況為例，若第一用戶和第二用戶皆為合法用戶，且相對于第二用戶而言，第一用戶對應(yīng)的權(quán)限信息的權(quán)限等級較高，則當權(quán)限設(shè)定模塊526判斷第一提示命令包括“在家中”的字句時，權(quán)限設(shè)定模塊526可將“在家中”記錄至第一用戶的用戶狀態(tài)，并提高第二用戶對應(yīng)的權(quán)限信息的權(quán)限等級，例如讓第二用戶可通過語音控制來操作的電子裝置200的功能數(shù)量增加。

上述情境可以圖7的流程圖來表示。圖7是本發(fā)明另一實施例所示出的語音控制方法的流程圖，其適用于圖5的語音控制系統(tǒng)50。

請參照圖7，在步驟S702中，語音通信模塊522接收第一語音數(shù)據(jù)。在步驟S704中，語音助理模塊524對第一語音數(shù)據(jù)執(zhí)行語音辨識動作以獲得第一語音數(shù)據(jù)對應(yīng)的第一聲紋信息以及第一提示命令。在步驟S706中，權(quán)限設(shè)定模塊526依據(jù)第一聲紋信息以及第一提示命令，以決定第一聲紋信息對應(yīng)的第一權(quán)限信息。此外，在步驟S708中，語音通信模塊522接收第二語音數(shù)據(jù)。在步驟S710中，語音助理模塊524對第二語音數(shù)據(jù)執(zhí)行語音辨識動作以獲得第二語音數(shù)據(jù)對應(yīng)的第二聲紋信息以及第二提示命令。其中第二聲紋信息與第一聲紋信息不同。在步驟S712中，權(quán)限設(shè)定模塊526依據(jù)第二聲紋信息以及第二提示命令，以決定第二聲紋信息對應(yīng)的第二權(quán)限信息。

上述決定第一權(quán)限信息的步驟(即步驟S702、S704、S706)以及決定第二權(quán)限信息的步驟(即步驟S708、S710、S712)的實施細節(jié)已在前述實施例中有詳細說明，故請參照前述。另外值得一提的是，上述決定第一權(quán)限信息的步驟和決定第二權(quán)限信息的步驟的執(zhí)行順序可依實務(wù)上的需求而定，例如，步驟S708、S710、S712可與步驟S702、S704、S706同時或之前進行，本發(fā)明對此不限制。

接著，在步驟S714中，權(quán)限設(shè)定模塊526判斷第一聲紋信息對應(yīng)的用戶狀態(tài)是否記錄特定位置信息且第一權(quán)限信息是否高于第二權(quán)限信息。當?shù)谝宦暭y信息對應(yīng)的用戶狀態(tài)記錄特定位置信息且第一權(quán)限信息高于第二權(quán)限信息時，在步驟S716中，權(quán)限設(shè)定模塊526依據(jù)第一權(quán)限信息以提高第二權(quán)限信息的權(quán)限等級。而若步驟S714的判斷結(jié)果為否，則在步驟S718中，權(quán)限設(shè)定模塊526不對第二權(quán)限信息的權(quán)限等級進行調(diào)整。

在另一實施例中，語音控制裝置500還可在用戶意圖控制特定電子裝置(例如特定家電)，也即辨識出提示命令中包括一特定電子裝置200的情況下，提醒最高權(quán)限等級的用戶。具體而言，控制模塊528可判斷提示命令中是否包括電子裝置200的裝置信息(例如電子裝置200的名稱)，若是，則控制模塊528可搜尋所述預(yù)設(shè)聲紋中對應(yīng)于最高權(quán)限等級的特定聲紋，并將提示信息傳送至此特定聲紋所對應(yīng)的用戶。上述的提示信息可例如通過用戶的用戶裝置來接收?；蛘撸斂刂颇K528判斷此用戶與語音控制裝置500本身位于同一空間當中時，控制模塊528也可直接控制由裝置本身的輸出單元(例如揚聲器、屏幕、LED燈)來提示此用戶。本發(fā)明并不限制提示信息的呈現(xiàn)方式。

此外，在其他實施例中，語音控制裝置500還可依據(jù)環(huán)境信息以決定語音控制裝置500對于電子裝置200的控制模式。上述的環(huán)境信息可包括時間信息，其例如是一時間區(qū)間或是一特定時間點。

舉例來說，語音控制裝置500的一種自動操作模式為當語音控制裝置500允許存取的合法用戶都不在家時，語音控制裝置500會在下午六點時自動開啟玄關(guān)的燈光。控制模塊528可持續(xù)檢測時間，并當在下午六點時，判斷語音控制裝置500允許存取的合法用戶所對應(yīng)的用戶狀態(tài)是否都不是被記錄成“在家中”的位置信息。若皆不是，控制模塊528判斷這些用戶都不在家，并執(zhí)行上述開啟玄關(guān)燈光的自動操作。

上述情境可以圖8的流程圖來表示。圖8是本發(fā)明另一實施例所示出的語音控制方法的流程圖，并適用于圖5的語音控制系統(tǒng)50。

請參照圖8，在步驟S802中，當檢測到環(huán)境信息為一特定時間點時，控制模塊528獲得預(yù)設(shè)聲紋分別對應(yīng)的多個用戶狀態(tài)。在步驟S804中，控制模塊528判斷各用戶狀態(tài)是否被設(shè)定為特定位置信息。當所述用戶狀態(tài)皆未被設(shè)定為特定位置信息時，在步驟S806中，控制模塊528執(zhí)行此特定時間點對應(yīng)的操作模式以控制電子裝置200。

在另一范例中，語音控制裝置500可被設(shè)置于會議室。其中，語音控制裝置500可提供聲控功能以提供用戶控制會議室中的投影機以及音頻輸出設(shè)備，并可在午休期間限制用戶使用上述的聲控功能。例如，一般音頻輸出設(shè)備的輸出音量可讓用戶在一強度區(qū)間內(nèi)進行調(diào)整，但在午休期間，用戶則例如被限制而僅能將輸出音量控制在上述強度區(qū)間的最大強度的一半或以下。另一方面，對于具有不同權(quán)限信息的用戶而言，在午休期間，語音控制裝置500也可選擇性地禁止具有較低權(quán)限等級的用戶在午休期間操作投影機以及音頻輸出設(shè)備的所有功能。

換言之，上述范例中的控制模塊528可檢測環(huán)境信息是否符合一特定時間區(qū)間(例如上述的午休期間)，且當環(huán)境信息符合此特定時間區(qū)間時，控制模塊528可依據(jù)權(quán)限信息以限制執(zhí)行語音數(shù)據(jù)對于電子裝置200的控制動作。

基于上述的實施例，本發(fā)明實施例另提出一種語音控制方法。請參照圖9，圖9是本發(fā)明一實施例所示出的語音控制方法的流程圖，其適用于圖5的語音控制系統(tǒng)50。在步驟S902中，語音通信模塊522接收語音數(shù)據(jù)。在步驟S904中，語音助理模塊524對語音數(shù)據(jù)執(zhí)行語音辨識動作以獲得語音數(shù)據(jù)對應(yīng)的聲紋信息以及提示命令。在步驟S906中，權(quán)限設(shè)定模塊526依據(jù)聲紋信息以及提示命令，以決定聲紋信息對應(yīng)的權(quán)限信息。在步驟S908中，控制模塊528依據(jù)權(quán)限信息、提示命令以及環(huán)境信息的至少其中之一，以通過區(qū)域網(wǎng)絡(luò)控制電子裝置200。

綜上所述，本發(fā)明實施例依據(jù)聲紋辨識、使用權(quán)限設(shè)定、用戶狀態(tài)以及環(huán)境信息等多項參數(shù)，從而在多種情境下實現(xiàn)基于安全考量的控制設(shè)定，例如限制語音控制裝置對用戶所提供的聲控功能，或是使語音控制裝置自動執(zhí)行特定的操作模式。此外，本發(fā)明實施例還可提供遠端聲控功能。由此，本發(fā)明實施例可以有效兼顧智能家庭服務(wù)的操作便利性以及安全性。

最后應(yīng)說明的是：以上各實施例僅用以說明本發(fā)明的技術(shù)方案，而非對其限制；盡管參照前述各實施例對發(fā)明進行了詳細的說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當理解：其依然可以對前述各實施例所記載的技術(shù)方案進行修改，或者對其中部分或者全部技術(shù)特征進行等同替換；而這些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何亮融;許銀雄
技術(shù)所有人：宏碁股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、王老師：電子信息處理、先進檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

智能家居語音控制系統(tǒng)相關(guān)技術(shù)

智能語音控制系統(tǒng)相關(guān)技術(shù)

車載語音控制系統(tǒng)相關(guān)技術(shù)

自動語音呼叫系統(tǒng)相關(guān)技術(shù)

汽車語音控制系統(tǒng)相關(guān)技術(shù)

語音控制系統(tǒng)相關(guān)技術(shù)

語音光端機相關(guān)技術(shù)

語音叫號系統(tǒng)相關(guān)技術(shù)

電腦語音控制系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音控制方法及語音控制系統(tǒng)與流程