一種機(jī)器人系統(tǒng)的聲音識別系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種機(jī)器人系統(tǒng)的聲音識別系統(tǒng),包括:麥克風(fēng),用于接收語音指令;本地語音檢測器,對語音指令進(jìn)行檢測并進(jìn)行輸出;本地語音識別模塊,接收語音檢測器輸出的人聲語音信號并選擇進(jìn)行甄別選擇進(jìn)行輸出;本地語音編碼模塊,用于對人聲語音信號進(jìn)行編碼后輸出;遠(yuǎn)程語音解碼模塊,用于接收本地語音編碼模塊輸出的編碼過的語音信號進(jìn)行解碼后輸出;遠(yuǎn)程語音識別模塊和遠(yuǎn)程語言處理模塊,遠(yuǎn)程語音識別模塊接收遠(yuǎn)程語音解碼模塊輸出的經(jīng)解碼過的人聲語音信號,在進(jìn)行轉(zhuǎn)換后輸出到遠(yuǎn)程語言處理模塊,遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令;執(zhí)行模塊,用于執(zhí)行遠(yuǎn)程語言處理模塊的操作指令。
【專利說明】
一種機(jī)器人系統(tǒng)的聲音識別系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及智能語音領(lǐng)域,具體涉及一種機(jī)器人系統(tǒng)的聲音識別系統(tǒng)及方法。
【背景技術(shù)】
[0002]機(jī)器人系統(tǒng)的聲音識別系統(tǒng)主要涉及兩大主要技術(shù):語音識別技術(shù)及自然語言處理技術(shù)。
[0003]語音識別技術(shù),也被稱為自動語音識別(Automatic Speech Recognit1n,ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。
[0004]自然語言處理技術(shù)(Natural Language Processing,簡稱NLP),是人工智能和語言學(xué)的分支科學(xué),它的主要目的是為了實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信。
[0005]現(xiàn)有主流機(jī)器人系統(tǒng)的聲音識別系統(tǒng)都運用了這兩大技術(shù)。
[0006]機(jī)器人系統(tǒng)的聲音識別過程可分為四個階段:接收語音,語音識別,自然語言處理和動作執(zhí)行。
[0007]現(xiàn)有機(jī)器人系統(tǒng)對語音的接收方式不一,主要可概括為以下三種:1、非實時輸入:機(jī)器人只有在額外觸發(fā)動作執(zhí)行,確認(rèn)觸發(fā)之后再開始接收語音輸入。2、實時輸入:機(jī)器人一直接收外界的語音輸入,對所有判斷為人聲輸入的。3、實時輸入:機(jī)器人一直接收外界的語音輸入,每次語音輸入需要使用固定語句來進(jìn)行觸發(fā)。
[0008]無論用哪種語音接收方式,當(dāng)機(jī)器人接收到語音信號之后,首先通過語音識別技術(shù)將語音轉(zhuǎn)換成計算機(jī)可讀輸入,通常為字符序列,即文字;然后通過自然語言處理技術(shù)將語音識別的結(jié)果進(jìn)行自然語言分析及處理,以得到該語音信號的真正意思;最后根據(jù)自然語言處理的結(jié)果做出相應(yīng)的反應(yīng),執(zhí)行命令及動作。
[0009]現(xiàn)有機(jī)器人系統(tǒng)的聲音識別系統(tǒng)主要有以下三個問題:
[0010]1、需要額外觸發(fā)動作觸發(fā)才能開始進(jìn)行語音交流:在最自然的交互方式中增加了多余的交互,降低了用戶體驗。
[0011]2、并非真正的可以讓人使用自然語言與機(jī)器人進(jìn)行交談,多為固定的語句或句式,涉及的使用范圍非常有限,當(dāng)一個人不知道這些固定的語句或句式的時候,他將不知道如何去與機(jī)器人交流。
[0012]3、要么不能做到實時反饋,要么能耗太高并且有大量的誤觸發(fā),使得人與機(jī)器人之間的交互不流暢,與機(jī)器人的交流會變得小心翼翼。
【發(fā)明內(nèi)容】
[0013]針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了一種機(jī)器人系統(tǒng)的聲音識別系統(tǒng),其中,包括:
[0014]麥克風(fēng),以實時接收外部的語音信號;
[0015]本地語音檢測器,對所述語音信號進(jìn)行檢測,并判斷當(dāng)前的語音信號是否包含人聲,若包含人聲則進(jìn)行輸出;
[0016]本地語音識別模塊,接收所述語音檢測器輸出的人聲語音信號并進(jìn)行甄別,以判斷當(dāng)前的人聲語音信號是否包含喚醒指令,若包含喚醒指令則進(jìn)行輸出;
[0017]本地語音編碼模塊,用于對人聲語音信號進(jìn)行編碼后輸出;
[0018]遠(yuǎn)程語音解碼模塊,所述遠(yuǎn)程語音解碼模塊用于接收本地語音編碼模塊輸出的編碼過的語音信號進(jìn)行解碼后輸出;
[0019]遠(yuǎn)程語音識別模塊和遠(yuǎn)程語言處理模塊,所述遠(yuǎn)程語音識別模塊接收所述遠(yuǎn)程語音解碼模塊輸出的經(jīng)解碼過的人聲語音信號,在進(jìn)行轉(zhuǎn)換后輸出到所述遠(yuǎn)程語言處理模塊,所述遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令;
[0020]執(zhí)行模塊,用于執(zhí)行所述遠(yuǎn)程語言處理模塊的操作指令。
[0021]上述的聲音識別系統(tǒng),其中,所述麥克風(fēng)位于始終開啟的狀態(tài),以不間斷的實時接收外部語音信號。
[0022]上述的聲音識別系統(tǒng),其中,所述系統(tǒng)還包括一多媒體模塊,通過所述多媒體模塊來執(zhí)行所述操作指令。
[0023]上述的聲音識別系統(tǒng),其中,所述本地語音識別模塊通過數(shù)據(jù)流的方式將人聲語音信號輸出到所述遠(yuǎn)程語音識別模塊。
[0024]上述的聲音識別系統(tǒng),其中,所述系統(tǒng)還包括一喚醒指令編輯模塊,以對所述喚醒指令進(jìn)行編輯。
[0025]上述的聲音識別系統(tǒng),其中,所述本地語音檢測器為基于神經(jīng)網(wǎng)絡(luò)算法的語音檢測器。
[0026]上述的聲音識別系統(tǒng),其中,所述遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令的處理時間在10?20ms之間。
[0027]同時本發(fā)明還公開了一種采用上述識別系統(tǒng)的識別方法,其中,包括如下步驟:
[0028]利用所述麥克風(fēng)實時接收外部的語音信號;
[0029]利用所述本地語音檢測器來判斷當(dāng)前的語音信號是否包含人聲,若包含人聲則輸出至所述本地語音識別模塊;
[0030]利用所述本地語音識別模塊對人聲語音信號進(jìn)行甄別,以判斷當(dāng)前的人聲語音信號是否包含喚醒指令,若包含喚醒指令則將所述人聲語音信號進(jìn)一步進(jìn)行輸出至所述本地語音編碼模塊;
[0031]所述本地語音編碼模塊對人聲語音信號進(jìn)行編碼后傳輸?shù)剿鲞h(yuǎn)程語音編碼模塊;
[0032]所述遠(yuǎn)程語音解碼模塊對收到的人聲語音信號進(jìn)行解碼后傳輸?shù)剿鲞h(yuǎn)程語音識別t吳塊;
[0033]利用所述遠(yuǎn)程語音識別模塊對所述遠(yuǎn)程語音解碼模塊輸出的人聲語音信號進(jìn)行轉(zhuǎn)換,并輸出到所述遠(yuǎn)程語言處理模塊;
[0034]所述遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令;
[0035]所述執(zhí)行模塊通過操控所述多媒體模塊來執(zhí)行所述操作指令。
[0036]上述的方法,其中,在所述本地語音識別模塊甄別到當(dāng)前的人聲語音信號包含有喚醒指令時,本地語音識別模塊關(guān)閉,人聲語音信號經(jīng)過所述本地語音編碼模塊的編碼之后,直接傳輸?shù)剿鲞h(yuǎn)程語音解碼模塊進(jìn)行解碼后傳輸?shù)嚼盟鲞h(yuǎn)程語音識別模塊。
【附圖說明】
[0037]通過閱讀參照以下附圖對非限制性實施例所作的詳細(xì)描述,本發(fā)明及其特征、夕卜形和優(yōu)點將會變得更明顯。在全部附圖中相同的標(biāo)記指示相同的部分。并未刻意按照比例繪制附圖,重點在于示出本發(fā)明的主旨。
[0038]圖1為本發(fā)明聲音識別系統(tǒng)結(jié)構(gòu)和運行案例。
【具體實施方式】
[0039]在下文的描述中,給出了大量具體的細(xì)節(jié)以便提供對本發(fā)明更為徹底的理解。然而,對于本領(lǐng)域技術(shù)人員而言顯而易見的是,本發(fā)明可以無需一個或多個這些細(xì)節(jié)而得以實施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對于本領(lǐng)域公知的一些技術(shù)特征未進(jìn)行描述。
[0040]為了徹底理解本發(fā)明,將在下列的描述中提出詳細(xì)的步驟以及詳細(xì)的結(jié)構(gòu),以便闡釋本發(fā)明的技術(shù)方案。本發(fā)明的較佳實施例詳細(xì)描述如下,然而除了這些詳細(xì)描述外,本發(fā)明還可以具有其他實施方式。
[0041]本發(fā)明作為機(jī)器人系統(tǒng)的耳朵,是機(jī)器人理解人的語言以及最自然的人機(jī)交互體驗的重要部分,因此需要解決以下三個方面的問題:1、完全使用語音來進(jìn)行交流,不需要任何額外的觸發(fā)動作。2、可以讓人真正的使用自然語言與機(jī)器人進(jìn)行交流,不需要固定的語句或句式就可以在工作、生活的各個領(lǐng)域進(jìn)行交流。3、在做到實時反饋、極少誤觸發(fā)的情況下保持可觀的能耗。
[0042]為了解決上述技術(shù)問題,本發(fā)明提供了一種機(jī)器人系統(tǒng)的聲音識別系統(tǒng),包括:
[0043]1、麥克風(fēng),以實時接收外部的語音信號。在本發(fā)明一可選但非限制的實施例中,麥克風(fēng)位于始終開啟的狀態(tài),以不間斷的實時接收外部語音信號。其作用是收集外界的語音數(shù)據(jù),作為機(jī)器人系統(tǒng)的耳朵。
[0044]2、本地語音檢測器,對語音信號進(jìn)行檢測,并判斷當(dāng)前的語音信號是否包含人聲,若包含人聲則進(jìn)行輸出。由于本發(fā)明中的機(jī)器人系統(tǒng)麥克風(fēng)始終處于開啟狀態(tài),但環(huán)境中會有各種各樣的聲音,其中很大一部分是噪聲,對機(jī)器人系統(tǒng)的聲音識別是無意義的,為了避免無意義的性能損耗及大量的誤觸發(fā),機(jī)器人系統(tǒng)需要對收集到的聲音進(jìn)行分析和判斷,只有認(rèn)為收集到的聲音主要來自人聲(即人說話的聲音)才會將該聲音數(shù)據(jù)傳到識別系統(tǒng)。
[0045]在本發(fā)明一可選但非限制的實施例中,本地語音檢測器為基于神經(jīng)網(wǎng)絡(luò)算法的語音檢測器,能夠準(zhǔn)確、快速地對輸入的語音數(shù)據(jù)進(jìn)行人聲判斷,這是避免環(huán)境噪聲造成誤觸發(fā),降低網(wǎng)絡(luò)及服務(wù)請求開銷的關(guān)鍵部分。
[0046]3、本地語音識別模塊,接收語音檢測器輸出的人聲語音信號并進(jìn)行甄別,以判斷當(dāng)前的人聲語音信號是否包含喚醒指令,若包含喚醒指令則進(jìn)行輸出。在本發(fā)明的機(jī)器人系統(tǒng)中,即使由語音檢測器判斷出收集到的聲音是來自人聲,這段人聲也未必是有意義的。通俗而言即這段話并非是對機(jī)器人而講,如果將這段語音也上傳到服務(wù)端進(jìn)行分析,則會浪費大量的時間和性能。因此,就需要首先在本地快速判斷這段聲音是否是對機(jī)器人而講,就像人與人說話一樣,人會先判斷是否在對自己說話,然后才做出回應(yīng)。
[0047]在本發(fā)明中,采用特殊調(diào)優(yōu)過的本地語音識別模塊可以快速的識別出所輸入的自然語言是否是說給機(jī)器人聽的,并且可以隨時地任意地更新、修改激活的詞匯或短語(在本發(fā)明的機(jī)器人系統(tǒng)中定義為機(jī)器人的名字,就如同一個人或一只寵物的名字),其判斷準(zhǔn)確率可達(dá)90%。在本發(fā)明一可選但非限制的實施例中,假設(shè)機(jī)器人的名字即喚醒指令,那么可以通過一喚醒指令編輯模塊,以對喚醒指令進(jìn)行編輯,人們可根據(jù)自己的喜好任意的設(shè)定機(jī)器人的名稱,方便快捷。
[0048]4、遠(yuǎn)程語音解碼模塊,遠(yuǎn)程語音解碼模塊用于接收本地語音編碼模塊輸出的編碼過的語音信號進(jìn)行解碼后輸出。
[0049]5、遠(yuǎn)程語音識別模塊和遠(yuǎn)程語言處理模塊,遠(yuǎn)程語音識別模塊接收遠(yuǎn)程語音解碼模塊輸出的經(jīng)解碼過的人聲語音信號,在進(jìn)行轉(zhuǎn)換后輸出到遠(yuǎn)程語言處理模塊,遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令。
[0050]其中,遠(yuǎn)程語音識別模塊擁有更完整的語言模型和聲學(xué)模型,能夠覆蓋日常生活中的90%以上的常用語言,能夠支持多種語言,如英文,中文及日文等;并可以支持中文的多種方言,如廣東話,四川話,河南話等。對本發(fā)明中的機(jī)器人系統(tǒng)所涉及的特定領(lǐng)域亦有更強優(yōu)化,其語音識別的準(zhǔn)確率可達(dá)95%以上。另外,在本發(fā)明一可選但非限制的實施例中,本發(fā)明中的本地語音識別模塊是通過數(shù)據(jù)流的方式將人聲語音信號輸出到遠(yuǎn)程語音識別模塊,語音識別模塊從收到的第一幀數(shù)據(jù)開始就已經(jīng)開始進(jìn)行實時識別了,因此當(dāng)語音結(jié)束后,整句話的識別結(jié)果已經(jīng)產(chǎn)生,真正做到了實時性,從語音數(shù)據(jù)發(fā)送結(jié)束到最終識別結(jié)果的形成不超過100ms。遠(yuǎn)程自然語言處理服務(wù)可覆蓋日常生活中80%的使用場景,能夠快速的命中所輸入的自然語言涉及到的所有領(lǐng)域,處理時間通常在10-20ms之間。因此,在網(wǎng)絡(luò)穩(wěn)定的情況下,本發(fā)明中的整個聲音識別過程不會超過500ms。
[0051]6、執(zhí)行模塊,用于執(zhí)行遠(yuǎn)程語言處理模塊操作指令。在本發(fā)明一可選但非限制的實施例中,該執(zhí)行模塊通過操控一多媒體模塊來執(zhí)行遠(yuǎn)程語言處理模塊下發(fā)的操作指令,例如打開音樂、導(dǎo)航、發(fā)短信、控制燈光等等操作。
[0052]用戶體驗:只需要使用最符合人的交互方式一語音、自然語言。以上模塊共同保證了本發(fā)明中機(jī)器人系統(tǒng)真正能夠完全使用自然語言來進(jìn)行實時輸入和實時反饋,并保證了系統(tǒng)的性能功耗的平衡及整個系統(tǒng)的穩(wěn)定。
[0053]同時本發(fā)明還提供了一種上述識別系統(tǒng)的識別方法,包括如下步驟:
[0054]步驟S1:利用麥克風(fēng)實時接收外部的語音信號;
[0055]步驟S2:利用本地語音檢測器來判斷當(dāng)前的語音信號是否包含人聲,若包含人聲則輸出至本地語音識別模塊;
[0056]步驟S3:利用本地語音識別模塊對人聲語音信號進(jìn)行甄別,以判斷當(dāng)前的人聲語音信號是否包含喚醒指令,若包含喚醒指令則將人聲語音信號進(jìn)一步進(jìn)行輸出至本地語音編碼模塊;
[0057]步驟S4:本地語音編碼模塊對人聲語音信號進(jìn)行編碼后傳輸?shù)竭h(yuǎn)程語音解碼模塊;
[0058]步驟S5:遠(yuǎn)程語音解碼模塊對經(jīng)編碼過的人聲語音信號進(jìn)行解碼后傳輸?shù)竭h(yuǎn)程語音識別模塊;
[0059]步驟S6:利用遠(yuǎn)程語音識別模塊對遠(yuǎn)程語音解碼模塊輸出的人聲語音信號進(jìn)行轉(zhuǎn)換,并輸出到遠(yuǎn)程語言處理模塊;
[0060]步驟S7:遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令;
[0061]步驟S8:執(zhí)行模塊,通過操控多媒體模塊來執(zhí)行操作指令。
[0062]可選但非限制,在本地語音識別模塊甄別到當(dāng)前的人聲語音信號包含有喚醒指令時,本地語音識別模塊關(guān)閉,人聲語音信號經(jīng)過本地語音編碼模塊的編碼之后,直接傳輸?shù)剿鲞h(yuǎn)程語音解碼模塊進(jìn)行解碼后傳輸?shù)嚼眠h(yuǎn)程語音識別模塊.
[0063]請參照圖1所示,假設(shè)機(jī)器人叫做“R2”,主人對機(jī)器人說:“R2,我現(xiàn)在心情不好,來點音樂吧”,這時處于一直收聽狀態(tài)的麥克風(fēng)收到的數(shù)據(jù)經(jīng)過本地語音檢測器,本地語音檢測器檢測到這時候已經(jīng)不是環(huán)境噪聲了,而是有人在說話了,但機(jī)器人需要知道是不是在跟自己說話,于是這段語音就會被送到本地語音檢測器進(jìn)行識別,這時候本地語音識別服務(wù)發(fā)現(xiàn)是在叫自己(因為叫了它的名字“R2”),所以后面的話都是跟自己說的,為了理解這句話的意思,這段語音先通過本地語音編碼模塊的編碼后,之后再通過網(wǎng)絡(luò)發(fā)送到遠(yuǎn)程語音解碼模塊進(jìn)行解碼后輸出到遠(yuǎn)程語音識別服務(wù)進(jìn)行識別,進(jìn)而進(jìn)行自然語言的分析,經(jīng)過分析,發(fā)現(xiàn)這句話要表達(dá)的意思是主人“心情不好,需要點音樂”,于是將這個結(jié)果發(fā)給機(jī)器人行為決策系統(tǒng)(相當(dāng)于思考怎么回應(yīng)),經(jīng)過一番思考,機(jī)器人決定為主人放一些“治愈系的音樂”,并將這個決策發(fā)回到本地系統(tǒng),最后本地系統(tǒng)會根據(jù)這個結(jié)果找到一些“治愈系的音樂”并開始播放。
[0064]綜上所述,由于本發(fā)明采用了如上技術(shù)方案,可以完全使用語音來進(jìn)行交流,不需要任何額外的觸發(fā)動作;同時可以讓人真正的使用自然語言與機(jī)器人進(jìn)行交流,不需要固定的語句或句式就可以在工作、生活的各個領(lǐng)域進(jìn)行交流;在做到實時反饋、極少誤觸發(fā)的情況下保持可觀的能耗。
[0065]以上對本發(fā)明的較佳實施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,其中未盡詳細(xì)描述的設(shè)備和結(jié)構(gòu)應(yīng)該理解為用本領(lǐng)域中的普通方式予以實施;任何熟悉本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍情況下,都可利用上述揭示的方法和技術(shù)內(nèi)容對本發(fā)明技術(shù)方案做出許多可能的變動和修飾,或修改為等同變化的等效實施例,這并不影響本發(fā)明的實質(zhì)內(nèi)容。因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所做的任何簡單修改、等同變化及修飾,均仍屬于本發(fā)明技術(shù)方案保護(hù)的范圍內(nèi)。
【主權(quán)項】
1.一種機(jī)器人系統(tǒng)的聲音識別系統(tǒng),其特征在于,包括: 麥克風(fēng),以實時接收外部的語音信號; 本地語音檢測器,對所述語音信號進(jìn)行檢測,并判斷當(dāng)前的語音信號是否包含人聲,若包含人聲則進(jìn)行輸出; 本地語音識別模塊,接收所述語音檢測器輸出的人聲語音信號并進(jìn)行甄別,以判斷當(dāng)前的人聲語音信號是否包含喚醒指令,若包含喚醒指令則進(jìn)行輸出; 本地語音編碼模塊,用于對人聲語音信號進(jìn)行編碼后輸出; 遠(yuǎn)程語音解碼模塊,所述遠(yuǎn)程語音解碼模塊用于接收本地語音編碼模塊輸出的編碼過的語音信號進(jìn)行解碼后輸出; 遠(yuǎn)程語音識別模塊和遠(yuǎn)程語言處理模塊,所述遠(yuǎn)程語音識別模塊接收所述遠(yuǎn)程語音解碼模塊輸出的經(jīng)解碼過的人聲語音信號,在進(jìn)行轉(zhuǎn)換后輸出到所述遠(yuǎn)程語言處理模塊,所述遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令; 執(zhí)行模塊,用于執(zhí)行所述遠(yuǎn)程語言處理模塊的操作指令。2.如權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于,所述麥克風(fēng)位于始終開啟的狀態(tài),以不間斷的實時接收外部語音信號。3.如權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于,所述系統(tǒng)還包括一多媒體模塊,通過所述多媒體模塊來執(zhí)行所述操作指令。4.如權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于,所述本地語音識別模塊通過數(shù)據(jù)流的方式將人聲語音信號輸出到所述遠(yuǎn)程語音識別模塊。5.如權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于,所述系統(tǒng)還包括一喚醒指令編輯模塊,以對所述喚醒指令進(jìn)行編輯。6.如權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于,所述本地語音檢測器為基于神經(jīng)網(wǎng)絡(luò)算法的語音檢測器。7.如權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于,所述遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令的處理時間在10?20ms之間。8.一種采用如權(quán)利要求1-7任意一項所述識別系統(tǒng)的識別方法,其特征在于,包括如下步驟: 利用所述麥克風(fēng)實時接收外部的語音信號; 利用所述本地語音檢測器來判斷當(dāng)前的語音信號是否包含人聲,若包含人聲則輸出至所述本地語音識別模塊; 利用所述本地語音識別模塊對人聲語音信號進(jìn)行甄別,以判斷當(dāng)前的人聲語音信號是否包含喚醒指令,若包含喚醒指令則將所述人聲語音信號進(jìn)一步進(jìn)行輸出至所述本地語音編碼模塊; 所述本地語音編碼模塊對人聲語音信號進(jìn)行編碼后傳輸?shù)剿鲞h(yuǎn)程語音編碼模塊;所述遠(yuǎn)程語音解碼模塊對收到的人聲語音信號進(jìn)行解碼后傳輸?shù)剿鲞h(yuǎn)程語音識別豐吳塊; 利用所述遠(yuǎn)程語音識別模塊對所述遠(yuǎn)程語音解碼模塊輸出的人聲語音信號進(jìn)行轉(zhuǎn)換,并輸出到所述遠(yuǎn)程語言處理模塊; 所述遠(yuǎn)程語言處理模塊根據(jù)轉(zhuǎn)換后的人聲語音信號生成相應(yīng)的操作指令; 所述執(zhí)行模塊通過操控所述多媒體模塊來執(zhí)行所述操作指令。9.如權(quán)利要求8所述的方法,其特征在于,在所述本地語音識別模塊甄別到當(dāng)前的人聲語音信號包含有喚醒指令時,本地語音識別模塊關(guān)閉,人聲語音信號經(jīng)過所述本地語音編碼模塊的編碼之后,直接傳輸?shù)剿鲞h(yuǎn)程語音解碼模塊進(jìn)行解碼后傳輸?shù)嚼盟鲞h(yuǎn)程語首識別I旲塊O
【文檔編號】G10L15/26GK105845135SQ201510015421
【公開日】2016年8月10日
【申請日】2015年1月12日
【發(fā)明人】蔡鵬 , 高鵬, 江濤, 程堂, 程一堂, 向文杰
【申請人】芋頭科技(杭州)有限公司