專利名稱:基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種玩具語音控制方法及系統(tǒng),尤其涉及一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng)。
背景技術(shù):
隨著社會的發(fā)展及語音技術(shù)的提高,語音玩具越來越來廣泛應(yīng)用?,F(xiàn)有語音玩具大多在玩具上設(shè)置語音識別芯片,存儲簡單的語音指令及內(nèi)容,通過語音識別后調(diào)用存儲的指令和內(nèi)容,從而運行語音玩具。就目前而言,現(xiàn)有技術(shù)存在以下缺陷1、通常玩具 需要控制成本,低成本的玩具所具有的指令及內(nèi)容存儲容量有限,內(nèi)容少;2、每個玩具本身需要具備一套語音輸入、語音識別芯片及存儲組件,這樣導(dǎo)致成本高;3、現(xiàn)有語音識別轉(zhuǎn)換,需要以標(biāo)準(zhǔn)語音信息才能進(jìn)行準(zhǔn)確的轉(zhuǎn)換,這大大限制了自然語音控制玩具的使用。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題是構(gòu)建一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),克服現(xiàn)有技術(shù)語音玩具存儲容量有限導(dǎo)致內(nèi)容少、成本高以及不能以自然語音進(jìn)行控制的技術(shù)問題。本發(fā)明的技術(shù)方案是提供一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法,包括具有語音輸入的玩具、進(jìn)行語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器,所述控制方法包括如下步驟
輸入語音通過所述玩具輸入語音;
上傳語音將所述玩具連接互聯(lián)網(wǎng),并將輸入的語音信息通過互聯(lián)網(wǎng)上傳到所述網(wǎng)絡(luò)服務(wù)器;
語音識別轉(zhuǎn)換所述網(wǎng)絡(luò)服務(wù)器和所述玩具并行對接收的語音進(jìn)行識別轉(zhuǎn)換;
執(zhí)行識別轉(zhuǎn)換結(jié)果所述網(wǎng)絡(luò)服務(wù)器和所述玩具共同執(zhí)行或由所述玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。本發(fā)明的進(jìn)一步技術(shù)方案是還包括根據(jù)識別場景構(gòu)建語義知識庫,所述語義知識庫包括字詞的語義屬性,在語音識別轉(zhuǎn)換步驟中,將語音識別的結(jié)果進(jìn)行轉(zhuǎn)換包括根據(jù)語音識別結(jié)果進(jìn)行語義識別轉(zhuǎn)換,具體包括如下步驟
分詞及語義消歧根據(jù)知識庫字詞的語義屬性對語音識別結(jié)果進(jìn)行分詞并進(jìn)行語義消
歧;
意圖分類及參數(shù)提取對分詞及語義消歧的結(jié)果進(jìn)行意圖分類,并進(jìn)行參數(shù)提取。本發(fā)明的進(jìn)一步技術(shù)方案是在語音識別轉(zhuǎn)換步驟中,所述網(wǎng)絡(luò)服務(wù)器和所述玩具的語音識別轉(zhuǎn)換結(jié)果均包括語音識別轉(zhuǎn)換的置信度,所述玩具設(shè)置語音識別轉(zhuǎn)換結(jié)果的置信度閥值,當(dāng)所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度大于等于該置信度閥值時,取該語音識別轉(zhuǎn)換結(jié)果,若所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度小于該置信度閥值時,取所述網(wǎng)絡(luò)服務(wù)器語音識別轉(zhuǎn)換結(jié)果的置信度和所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度中較大值的語音識別轉(zhuǎn)換結(jié)果。
本發(fā)明的進(jìn)一步技術(shù)方案是所述網(wǎng)絡(luò)服務(wù)器存儲與語音指令相應(yīng)的內(nèi)容或相應(yīng)交互信息,所述網(wǎng)絡(luò)服務(wù)器根據(jù)語音轉(zhuǎn)換結(jié)果調(diào)用該與語音指令相應(yīng)的內(nèi)容或相應(yīng)交互信息并傳送到所述玩具。本發(fā)明的進(jìn)一步技術(shù)方案是在輸入不能識別的語音信息或不能執(zhí)行的語音信息時,通過所述玩具輸入語音與所述網(wǎng)絡(luò)服務(wù)器進(jìn)行交互語音,以獲取能識別或能執(zhí)行的語
音信息。本發(fā)明的進(jìn)一步技術(shù)方案是還包括對所述玩具喚醒進(jìn)行接收輸入語音狀態(tài)的喚醒步驟。本發(fā)明的技術(shù)方案是構(gòu)建一種基于互聯(lián)網(wǎng)語音交互的玩具控制系統(tǒng),包括具有語音輸入的玩具、具有語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器,所述玩具包括輸入語音的語音輸入模塊、連接所述網(wǎng)絡(luò)服務(wù)器的網(wǎng)絡(luò)連接模塊、第二語音識別轉(zhuǎn)換單元,所述網(wǎng)絡(luò)服務(wù)器具有進(jìn)行語音識別轉(zhuǎn)換的第一語音轉(zhuǎn)換單元,所述玩具將所述語音輸入模塊輸入的語音信息上傳 到所述網(wǎng)絡(luò)服務(wù)器,所述網(wǎng)絡(luò)服務(wù)器的第一語音識別轉(zhuǎn)換單元和所述玩具的第二語音識別轉(zhuǎn)換單元并行對接收的語音進(jìn)行識別轉(zhuǎn)換,所述網(wǎng)絡(luò)服務(wù)器和所述玩具共同執(zhí)行或由所述玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。本發(fā)明的進(jìn)一步技術(shù)方案是所述第一語音轉(zhuǎn)換單元包括語音識別模塊和語義識別模塊,所述語義識別模塊配合所述語音識別模塊識別的語音判斷出所述語音輸入模塊輸入語音的語義。本發(fā)明的進(jìn)一步技術(shù)方案是所述網(wǎng)絡(luò)服務(wù)器和所述玩具的語音識別轉(zhuǎn)換結(jié)果均包括語音識別轉(zhuǎn)換的置信度,所述玩具設(shè)置語音識別轉(zhuǎn)換結(jié)果的置信度閥值,當(dāng)所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度大于等于該置信度閥值時,取該語音識別轉(zhuǎn)換結(jié)果,若所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度小于該置信度閥值時,取所述網(wǎng)絡(luò)服務(wù)器語音識別轉(zhuǎn)換結(jié)果的置信度和所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度中較大值的語音識別轉(zhuǎn)換結(jié)果。本發(fā)明的進(jìn)一步技術(shù)方案是玩具還包括喚醒玩具進(jìn)入輸入語音的狀態(tài)的喚醒模塊,所述喚醒模塊包括語音指令、按鍵或無線信號中的任一種方式。本發(fā)明的進(jìn)一步技術(shù)方案是所述網(wǎng)絡(luò)服務(wù)器和所述玩具均設(shè)置或其中任意一個設(shè)置存儲語音指令及與語音指令相配合的內(nèi)容的存儲單元。本發(fā)明的進(jìn)一步技術(shù)方案是所述存儲單元包括進(jìn)行存儲進(jìn)行語音交互的交互語音庫,所述交互語音庫存儲相應(yīng)交互信息,所述與語音指令相應(yīng)的內(nèi)容或相應(yīng)交互信息包括音頻內(nèi)容、文字內(nèi)容中的一種或多種。本發(fā)明的技術(shù)效果是本發(fā)明包括具有語音輸入的玩具、具有語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器,所述玩具包括輸入語音的語音輸入模塊、連接所述網(wǎng)絡(luò)服務(wù)器的網(wǎng)絡(luò)連接模塊,所述網(wǎng)絡(luò)服務(wù)器具有進(jìn)行語音識別轉(zhuǎn)換的第一語音轉(zhuǎn)換單元,所述玩具將所述語音輸入模塊輸入的語音信息上傳到所述網(wǎng)絡(luò)服務(wù)器,所述網(wǎng)絡(luò)服務(wù)器和所述玩具并行對接收的語音進(jìn)行識別轉(zhuǎn)換,所述網(wǎng)絡(luò)服務(wù)器和所述玩具共同執(zhí)行或由所述玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。本發(fā)明一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),使玩具的內(nèi)容更加豐富,功能更加強(qiáng)大,同時,以自然控制語音輸入即可,大大提高了語音玩具的智能化,方便了使用,節(jié)約了成本。
圖I為本發(fā)明的流程圖。圖2為本發(fā)明的結(jié)構(gòu)示意圖。
具體實施例方式下面結(jié)合具體實施例,對本發(fā)明技術(shù)方案進(jìn)一步說明。如圖I、圖2所示,本發(fā)明的具體實施方式
是提供一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法,包括具有語音輸入的玩具I、進(jìn)行語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器2,所述控制方法包括如下步驟
步驟100 :輸入語音,即通過所述玩具I輸入語音;
步驟200 :上傳語音,即將所述玩具I連接互聯(lián)網(wǎng),并將輸入的語音信息通過互聯(lián)網(wǎng)上傳到所述網(wǎng)絡(luò)服務(wù)器;
步驟300 :語音識別轉(zhuǎn)換,即所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I并行對接收的語音進(jìn)行識別轉(zhuǎn)換;
步驟400 :執(zhí)行轉(zhuǎn)換結(jié)果,即所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I共同執(zhí)行或由所述玩具I執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。如圖I、圖2所示,本發(fā)明的具體實施過程是由玩具I的語音輸入模塊11輸入語音,玩具I將輸入的語音通過互聯(lián)網(wǎng)上傳到所述網(wǎng)絡(luò)服務(wù)器2,所述網(wǎng)絡(luò)服務(wù)器2和所述玩 具I并行將語音進(jìn)行識別轉(zhuǎn)換,該語音識別轉(zhuǎn)換結(jié)果為指令或指令和參數(shù)。具體來說,所述網(wǎng)絡(luò)服務(wù)器2將接收的語音進(jìn)行識別,再將語音識別結(jié)果進(jìn)行轉(zhuǎn)換,所述語音轉(zhuǎn)換結(jié)果為指令或指令和參數(shù)的形式,同時,所述玩具I將接收的語音進(jìn)行識別,再將語音識別結(jié)果進(jìn)行轉(zhuǎn)換,所述語音轉(zhuǎn)換結(jié)果為指令或指令和參數(shù)的形式。所述網(wǎng)絡(luò)服務(wù)器2與所述玩具共同執(zhí)行該語音識別轉(zhuǎn)換結(jié)果,具體舉例如下所述網(wǎng)絡(luò)服務(wù)器2具有存儲語音指令及與語音指令相配合的內(nèi)容以及相應(yīng)交互信息的存儲單元21,所述網(wǎng)絡(luò)服務(wù)器2根據(jù)識別轉(zhuǎn)換的指令和參數(shù)調(diào)用所述存儲單元21中存儲的相應(yīng)語音指令及與該語音指令相配合的內(nèi)容,并將調(diào)用結(jié)果傳輸?shù)剿鐾婢?,所述指令包括對玩具進(jìn)行控制的控制指令,比如播放音樂、講故事、起飛、旋轉(zhuǎn)等。所述玩具I根據(jù)接收的所述網(wǎng)絡(luò)服務(wù)器2傳輸?shù)恼{(diào)用結(jié)果,執(zhí)行該調(diào)用結(jié)果,具體實施例中,所述調(diào)用結(jié)果為存儲單元21中存儲的語音指令及與語音指令相配合的內(nèi)容,所述內(nèi)容包括音頻內(nèi)容、文字內(nèi)容中的一種或多種。比如,播放“小燕子”,則“播放”為指令,而“小燕子”音頻內(nèi)容為內(nèi)容作為參數(shù)。對于具體的語音轉(zhuǎn)換結(jié)果,包括由所述網(wǎng)絡(luò)服務(wù)器2執(zhí)行所述語音轉(zhuǎn)換結(jié)果,將執(zhí)行結(jié)果傳送到所述玩具I。比如,播放“小燕子”歌曲,由網(wǎng)絡(luò)播放,然后將播放的音頻信號通過網(wǎng)絡(luò)傳送到玩具I上。由所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I共同執(zhí)行所述語音轉(zhuǎn)換結(jié)果,還比如在玩具I上存儲“小燕子”歌曲,由所述網(wǎng)絡(luò)服務(wù)器2查找后將播放指令發(fā)送到玩具1,由玩具I播放。由玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果,由所述網(wǎng)絡(luò)服務(wù)器2將語音識別轉(zhuǎn)換結(jié)果傳送到所述玩具1,由玩具執(zhí)行。如圖2所示,本發(fā)明的優(yōu)選實施方式是所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I的語音識別轉(zhuǎn)換結(jié)果均包括語音識別轉(zhuǎn)換的置信度,所謂置信度,也叫置信水平。它是指特定個體對待特定命題真實性相信的程度,也就是概率是對個人信念合理性的量度.概率的置信度解釋表明,事件本身并沒有什么概率,事件之所以指派有概率只是指派概率的人頭腦中所具有的信念證據(jù)。置信水平是指總體參數(shù)值落在樣本統(tǒng)計值某一區(qū)內(nèi)的概率;而置信區(qū)間是指在某一置信水平下,樣本統(tǒng)計值與總體參數(shù)值間誤差范圍。置信區(qū)間越大,置信水平越高。語音識別轉(zhuǎn)換的置信度即對語音識別轉(zhuǎn)換結(jié)果真實性的相信程度。所述玩具I設(shè)置語音識別轉(zhuǎn)換結(jié)果的置信度閥值,當(dāng)所述玩具I語音識別轉(zhuǎn)換結(jié)果的置信度大于等于該置信度閥值時,取該語音識別轉(zhuǎn)換結(jié)果,若所述玩具I語音識別轉(zhuǎn)換結(jié)果的置信度小于該置信度閥值時,取所述網(wǎng)絡(luò)服務(wù)器2語音識別轉(zhuǎn)換結(jié)果的置信度和所述玩具I語音識別轉(zhuǎn)換結(jié)果的置信度中較大值的語音識別轉(zhuǎn)換結(jié)果。如圖I、圖2所示,本發(fā)明的優(yōu)選實施方式是在輸入不能識別語音信息或不能執(zhí) 行的語音信息時,通過所述玩具輸入語音與所述網(wǎng)絡(luò)服務(wù)器2進(jìn)行交互語音,以獲取所述網(wǎng)絡(luò)服務(wù)器2能識別或能執(zhí)行的語音信息。比如,在輸入“開機(jī)”語音信息時,若可能由于語音不清楚或者與標(biāo)準(zhǔn)語音差別過大,導(dǎo)致不能識別時,可以調(diào)用交互語音信息庫進(jìn)行提示再輸入語音。再比如,在輸入“現(xiàn)在打開故事吧”,此時,可能網(wǎng)絡(luò)服務(wù)器2不能將該語音指令轉(zhuǎn)換為控制指令,此時,需要補(bǔ)充輸入語音信息,比如,調(diào)用交互信息庫“您是想聽故事嗎? ”這樣語音交互提示,完成語音指令信息的補(bǔ)充,實現(xiàn)以自然語音即可控制玩具。若語音識別結(jié)果包括交互信息,則由所述網(wǎng)絡(luò)服務(wù)器2調(diào)用存儲的相應(yīng)交互信息并傳輸?shù)剿鐾婢逫。該相應(yīng)的交互信息包括存儲在所述網(wǎng)絡(luò)服務(wù)器2的交互信息,比如,將一些問題的答案預(yù)先存儲在所述網(wǎng)絡(luò)服務(wù)器2,在問到相應(yīng)的語音信息時,調(diào)用預(yù)先存儲對應(yīng)的信息進(jìn)行交互。也包括通過所述網(wǎng)絡(luò)服務(wù)器2獲取的交互信息,比如,要通過交互語音“有沒有王菲的歌”,則所述網(wǎng)絡(luò)服務(wù)器2通過查詢,得到查詢結(jié)果為“有”或“無”,該查詢結(jié)果“有”或“無”則為相應(yīng)的交互信息。本發(fā)明的具體實施例中,所述玩具I還包括進(jìn)行喚醒所述玩具接收輸入語音狀態(tài)的喚醒步驟,所述喚醒步驟中,通過輸入語音指令或按按鍵實現(xiàn)喚醒。如圖I、圖2所示,本發(fā)明的優(yōu)選實施方式是還包括根據(jù)識別場景構(gòu)建語義知識庫,所述語義知識庫包括字詞的語義屬性。比如根據(jù)實際過程,設(shè)定各種場景,例如,娛樂、天氣、體育、人物等,根據(jù)識別場景構(gòu)建相應(yīng)的語義知識庫。構(gòu)建語義知識庫為語義識別的基本條件,對一些字詞構(gòu)建其知識庫,定義其語義屬性。比如“劉德華”,其知識庫包括男、香港人、歌手、演員,其語義屬性為“娛樂人物”?!跋掠辍?,則為一種天氣情況,天氣預(yù)報,其語義屬性為“天氣”。在語音轉(zhuǎn)換步驟中,還包括根據(jù)語音轉(zhuǎn)換結(jié)果進(jìn)行語義轉(zhuǎn)換。具體包括
步驟10:分詞及語義消歧,即根據(jù)知識庫字詞的語義屬性對語音識別結(jié)果進(jìn)行分詞并進(jìn)行語義消歧。具體過程如下根據(jù)字詞在知識庫中的語義屬性,對語音識別結(jié)果進(jìn)行分詞或消除歧義,比如語音識別結(jié)果為“明天北京會下雨嗎? ”根據(jù)知識庫字詞的語義屬性分詞為“明天”、“北京”、“會”、“下雨”、“嗎”,“明天”為時間屬性,“北京”為地點屬性,“會”為動詞,“下雨”為天氣屬性,“嗎”為提問。在某些情況下,需要消除歧義,比如“劉德華的歌”,可能識別為“瀏得滑”,但經(jīng)過知識庫對“劉德華”的定義,分析判斷為“劉德華”。這屬于根據(jù)知識庫字詞的語義屬性消除歧義。步驟20:意圖分類及參數(shù)提取,即對分詞及語義消歧的結(jié)果進(jìn)行意圖分類,并進(jìn)行參數(shù)提取。比如語音識別結(jié)果為“明天北京會下雨嗎? ”根據(jù)分詞及語義消歧的結(jié)果進(jìn)行意圖分類,其意圖類為“查詢天氣”,提取參數(shù)為地點是北京,時間是明天。這樣對“明天北京會下雨嗎? ”進(jìn)行了語義轉(zhuǎn)換。具體過程如下比如,輸入語音為“今天天氣好嗎? ”,首先,進(jìn)行語音識別,輸出識別結(jié)果為“今天天氣好嗎? ”然后根據(jù)語音識別結(jié)果,進(jìn)行語義判斷,根據(jù)語義判斷為播出今天該地的天氣情況。再比如語音輸入為“我想聽王菲的音樂”,最終語義識別分析得到用戶的意圖為“播放歌曲”,參數(shù)是“王菲”,然后根據(jù)分析結(jié)果,調(diào)用歌曲播放功能并直接播放王菲的歌曲。因為采用有語義識別,用戶并不需要記住固定的語音控制命令,而是可以采用用戶自己最習(xí)慣的語言表達(dá)來與玩具互動。所以對上一條意圖,用戶也可以說“請幫我找王菲的歌”、“有沒有王菲最新的專輯?”、“王菲的執(zhí)迷不悟”,也就是說,用戶可自由表達(dá)自己的命令和意圖,移動終端上強(qiáng)大的語音識別和語義理解引擎,都可以非常好的識別出用戶的真正意圖播放王菲的歌曲,或播放王菲的某一首歌曲。如此,讓智能玩具和用戶的交互更佳自由、有趣,而且也沒有增加原來玩具終端的直接硬件成本,讓玩具廠商可以用比較低的成本,卻實現(xiàn)了高性能的人機(jī)交互效果。本發(fā)明的技術(shù)方案是構(gòu)建一種基于互聯(lián)網(wǎng)語音交互的玩具控制系統(tǒng),包括具有 語音輸入及待控制的玩具I、具有語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器2,所述玩具I包括輸入語音的語音輸入模塊11、連接所述網(wǎng)絡(luò)服務(wù)器2的網(wǎng)絡(luò)連接模塊12、第二語音識別轉(zhuǎn)換單元13,所述網(wǎng)絡(luò)服務(wù)器2具有存儲語音指令及與該語音指令相應(yīng)的內(nèi)容以及交互信息庫的存儲單元21、對接收的語音信息進(jìn)行識別轉(zhuǎn)換處理的第一語音轉(zhuǎn)換單元22,所述玩具I將所述語音輸入模塊11輸入的語音信息上傳到所述網(wǎng)絡(luò)服務(wù)器2,所述網(wǎng)絡(luò)服務(wù)器2的第一語音識別轉(zhuǎn)換單元22和所述玩具I的第二語音識別轉(zhuǎn)換單元13并行對接收的語音進(jìn)行識別轉(zhuǎn)換,所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I共同執(zhí)行或由所述玩具I執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。如圖2所示,本發(fā)明的具體實施過程是由玩具I的語音輸入模塊11輸入語音,玩具I通過網(wǎng)絡(luò)連接模塊12連接所述網(wǎng)絡(luò)服務(wù)器2,玩具I將輸入的語音通過互聯(lián)網(wǎng)上傳到所述網(wǎng)絡(luò)服務(wù)器2,所述網(wǎng)絡(luò)服務(wù)器2的第一語音識別轉(zhuǎn)換單元22和所述玩具I的第二語音識別轉(zhuǎn)換單元13并行對接收的語音進(jìn)行識別轉(zhuǎn)換,該語音識別轉(zhuǎn)換結(jié)果為指令或指令和參數(shù)。具體來說,所述網(wǎng)絡(luò)服務(wù)器2將接收的語音進(jìn)行識別,再將語音識別結(jié)果進(jìn)行轉(zhuǎn)換,所述語音轉(zhuǎn)換結(jié)果為指令或指令和參數(shù)的形式,同時,所述玩具I將接收的語音進(jìn)行識另O,再將語音識別結(jié)果進(jìn)行轉(zhuǎn)換,所述語音轉(zhuǎn)換結(jié)果為指令或指令和參數(shù)的形式。所述網(wǎng)絡(luò)服務(wù)器2與所述玩具共同執(zhí)行該語音識別轉(zhuǎn)換結(jié)果,具體舉例如下所述網(wǎng)絡(luò)服務(wù)器2具有存儲語音指令及與語音指令相配合的內(nèi)容以及相應(yīng)交互信息的存儲單元21,所述網(wǎng)絡(luò)服務(wù)器2根據(jù)識別轉(zhuǎn)換的指令和參數(shù)調(diào)用所述存儲單元21中存儲的相應(yīng)語音指令及與該語音指令相配合的內(nèi)容,并將調(diào)用結(jié)果傳輸?shù)剿鐾婢?,所述指令包括對玩具進(jìn)行控制的控制指令,比如播放音樂、講故事、起飛、旋轉(zhuǎn)等。所述玩具I根據(jù)接收的所述網(wǎng)絡(luò)服務(wù)器2傳輸?shù)恼{(diào)用結(jié)果,執(zhí)行該調(diào)用結(jié)果,具體實施例中,所述調(diào)用結(jié)果為存儲單元21中存儲的語音指令及與語音指令相配合的內(nèi)容,所述內(nèi)容包括音頻內(nèi)容、文字內(nèi)容中的一種或多種。比如,播放“小燕子”,則“播放”為指令,而“小燕子”音頻內(nèi)容為內(nèi)容作為參數(shù)。對于具體的語音轉(zhuǎn)換結(jié)果,包括由所述網(wǎng)絡(luò)服務(wù)器2執(zhí)行所述語音轉(zhuǎn)換結(jié)果,將執(zhí)行結(jié)果傳送到所述玩具I。比如,播放“小燕子”歌曲,由網(wǎng)絡(luò)播放,然后將播放的音頻信號通過網(wǎng)絡(luò)傳送到玩具I上。由所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I共同執(zhí)行所述語音轉(zhuǎn)換結(jié)果,還比如在玩具I上存儲“小燕子”歌曲,由所述網(wǎng)絡(luò)服務(wù)器2查找后將播放指令發(fā)送到玩具1,由玩具I播放。由玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果,由所述網(wǎng)絡(luò)服務(wù)器2將語音識別轉(zhuǎn)換結(jié)果傳送到所述玩具1,由玩具執(zhí)行。如圖2所示,本發(fā)明的優(yōu)選實施方式是所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I的語音識別轉(zhuǎn)換結(jié)果均包括語音識別轉(zhuǎn)換的置信度,所謂置信度,也叫置信水平。它是指特定個體對待特定命題真實性相信的程度,也就是概率是對個人信念合理性的量度.概率的置信度解釋表明,事件本身并沒有什么概率,事件之所以指派有概率只是指派概率的人頭腦中所具有的信念證據(jù)。置信水平是指總體參數(shù)值落在樣本統(tǒng)計值某一區(qū)內(nèi)的概率;而置信區(qū)間是指在某一置信水平下,樣本統(tǒng)計值與總體參數(shù)值間誤差范圍。置信區(qū)間越大,置信水平越高。語音識別轉(zhuǎn)換的置信度即對語音識別轉(zhuǎn)換結(jié)果真實性的相信程度。所述玩具I設(shè)置語音識別轉(zhuǎn)換結(jié)果的置信度閥值,當(dāng)所述玩具I語音識別轉(zhuǎn)換結(jié)果的置信度大于等于該置信度閥值時,取該語音識別轉(zhuǎn)換結(jié)果,若所述玩具I語音識別轉(zhuǎn)換結(jié)果的置信度小于該置信度閥值時,取所述網(wǎng)絡(luò)服務(wù)器2語音識別轉(zhuǎn)換結(jié)果的置信度和所述玩具I語音識別轉(zhuǎn)換結(jié)果的置信度中較大值的語音識別轉(zhuǎn)換結(jié)果。如圖2所示,本發(fā)明的優(yōu)選實施方式是所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I均設(shè)置或 其中任意一個設(shè)置進(jìn)行語音交互的交互語音庫15。所述交互語音庫15存儲與語音指令相應(yīng)的內(nèi)容或相應(yīng)交互信息,所述與語音指令相應(yīng)的內(nèi)容或相應(yīng)交互信息包括音頻內(nèi)容、文字內(nèi)容中的一種或多種。在輸入不能識別語音信息或不能執(zhí)行的語音信息時,通過所述玩具輸入語音與所述網(wǎng)絡(luò)服務(wù)器2進(jìn)行交互語音,以獲取所述網(wǎng)絡(luò)服務(wù)器2能執(zhí)行的語音信息。比如,在輸入“開機(jī)”語音信息時,若可能由于語音不清楚或者與標(biāo)準(zhǔn)語音差別過大,導(dǎo)致不能識別時,可以調(diào)用交互語音信息庫進(jìn)行提示再輸入語音。再比如,在輸入“現(xiàn)在打開故事吧”,此時,可能網(wǎng)絡(luò)服務(wù)器2不能將該語音指令轉(zhuǎn)換為控制指令,此時,需要補(bǔ)充輸入語音信息,比如,調(diào)用交互信息庫“您是想聽故事嗎? ”這樣語音交互提示,完成語音指令信息的補(bǔ)充,實現(xiàn)以自然語音即可控制玩具。本發(fā)明的具體實施例中,所述玩具I還包括進(jìn)行喚醒所述玩具接收輸入語音狀態(tài)的喚醒模塊16,所述喚醒模塊16通過輸入語音指令或按按鍵實現(xiàn)喚醒玩具進(jìn)入到接收輸入語音的狀態(tài)。如圖2所示,本發(fā)明的優(yōu)選實施方式是所述網(wǎng)絡(luò)服務(wù)器2的所述第一語音轉(zhuǎn)換單元22還包括語義識別模塊222,所述語義識別模塊222配合所述語音識別模塊221識別的語音判斷出所述玩具I輸入語音的語義。比如,所述語音輸入模塊11輸入語音為“今天天氣好嗎? ”,首先,進(jìn)行語音識別,輸出識別結(jié)果為“今天天氣好嗎? ”然后根據(jù)語音識別結(jié)果,進(jìn)行語義判斷,所述語義識別模塊222根據(jù)語義判斷為播出今天該地的天氣情況。具體工作過程如下所述語義識別模塊222具體工作過程如下構(gòu)建語義知識庫,即根據(jù)識別場景構(gòu)建語義知識庫,所述語義知識庫包括字詞的語義屬性。比如根據(jù)實際過程,設(shè)定各種場景,例如,娛樂、天氣、體育、人物等,根據(jù)識別場景構(gòu)建相應(yīng)的語義知識庫。構(gòu)建語義知識庫為語義識別的基本條件,對一些字詞構(gòu)建其知識庫,定義其語義屬性。比如··“劉德華”,其知識庫包括男、香港人、歌手、演員,其語義屬性為“娛樂人物”?!跋掠辍保瑒t為一種天氣情況,天氣預(yù)報,其語義屬性為“天氣”。分詞及語義消歧,即根據(jù)知識庫字詞的語義屬性對語音識別結(jié)果進(jìn)行分詞并進(jìn)行語義消歧。具體過程如下根據(jù)字詞在知識庫中的語義屬性,對語音識別結(jié)果進(jìn)行分詞或消除歧義,比如語音識別結(jié)果為“明天北京會下雨嗎? ”根據(jù)知識庫字詞的語義屬性分詞為“明天”、“北京”、“會”、“下雨”、“嗎”,“明天”為時間屬性,“北京”為地點屬性,“會”為動詞,“下雨”為天氣屬性,“嗎”為提問。在某些情況下,需要消除歧義,比如“劉德華的歌”,可能識別為“瀏得滑”,但經(jīng)過知識庫對“劉德華”的定義,分析判斷為“劉德華”。這屬于根據(jù)知識庫字詞的語義屬性消除歧義。意圖分類及參數(shù)提取,即:對分詞及語義消歧的結(jié)果進(jìn)行意圖分類,并進(jìn)行參數(shù)提取。比如語音識別結(jié)果為“明天北京會下雨嗎?”根據(jù)分詞及語義消歧的結(jié)果進(jìn)行意圖分類,其意圖類為“查詢天氣”,提取參數(shù)為地點是北京,時間是明天。這樣對“明天北京會下雨嗎? ”進(jìn)行了語義轉(zhuǎn)換。再比如比如,所述語音輸入模塊11輸入語音為“今天天氣好嗎? ”,首先,進(jìn)行語音識別,輸出識別結(jié)果為“今天天氣好嗎? ”然后所述語義識別模塊222根據(jù)語音識別結(jié)果,進(jìn)行語義判斷,根據(jù)語義判斷為播出今天該地的天氣情況。再比如語音輸入為“我想聽王菲的音樂”,所述語義識別模塊222語義識別分析得到用戶的意圖為“播放歌曲”,參數(shù)是“王菲”,然后根據(jù)分析結(jié)果,調(diào)用歌曲播放功能并直接播放王菲的歌曲。因為采用有語義識另O,用戶并不需要記住固定的語音控制命令,而是可以采用用戶自己最習(xí)慣的語言表達(dá)來與玩具互動。所以對上一條意圖,用戶也可以說“請幫我找王菲的歌”、“有沒有王菲最新的專輯? ”、“王菲的執(zhí)迷不悟”,也就是說,用戶可自由表達(dá)自己的命令和意圖,移動終端上強(qiáng)大的語音識別和語義理解引擎,都可以非常好的識別出用戶的真正意圖播放王菲的歌曲,或播放王菲的某一首歌曲。如此,讓智能玩具和用戶的交互更佳自由、有趣,而且也沒有增 加原來玩具終端的直接硬件成本,讓玩具廠商可以用比較低的成本,卻實現(xiàn)了高性能的人機(jī)交互效果。具體實施例中,所述與語音指令相配合的內(nèi)容包括音頻內(nèi)容、文字內(nèi)容中的一種或多種。本發(fā)明的技術(shù)效果是本發(fā)明一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),包括具有語音輸入及待控制的玩具I、具有語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器2,所述玩具I與所述網(wǎng)絡(luò)服務(wù)器2通過互聯(lián)網(wǎng)建立通訊連接并輸入語音,所述玩具I將輸入的語音上傳到所述網(wǎng)絡(luò)服務(wù)器2,所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I并行對接收的語音進(jìn)行識別轉(zhuǎn)換,所述網(wǎng)絡(luò)服務(wù)器2和所述玩具I共同執(zhí)行或由所述玩具I執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。本發(fā)明一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),利用網(wǎng)絡(luò)服務(wù)器2較強(qiáng)的數(shù)據(jù)處理能力及豐富的內(nèi)容服務(wù),通過互聯(lián)網(wǎng)對玩具I進(jìn)行語音控制。本發(fā)明一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),使玩具的內(nèi)容更加豐富,功能更加強(qiáng)大,同時,大大節(jié)約了成本。以上內(nèi)容是結(jié)合具體的優(yōu)選實施方式對本發(fā)明所作的進(jìn)一步詳細(xì)說明,不能認(rèn)定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干簡單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法,其特征在于,包括具有語音輸入的玩具、進(jìn)行語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器,所述控制方法包括如下步驟 輸入語音通過所述玩具輸入語音; 上傳語音將所述玩具連接互聯(lián)網(wǎng),并將輸入的語音信息通過互聯(lián)網(wǎng)上傳到所述網(wǎng)絡(luò)服務(wù)器; 語音識別轉(zhuǎn)換所述網(wǎng)絡(luò)服務(wù)器和所述玩具并行對接收的語音進(jìn)行識別轉(zhuǎn)換; 執(zhí)行識別轉(zhuǎn)換結(jié)果所述網(wǎng)絡(luò)服務(wù)器和所述玩具共同執(zhí)行或由所述玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。
2.根據(jù)權(quán)利要求I所述基于互聯(lián)網(wǎng)語音交互的玩具控制方法,其特征在于,還包括根據(jù)識別場景構(gòu)建語義知識庫,所述語義知識庫包括字詞的語義屬性,在語音識別轉(zhuǎn)換步驟中,將語音識別的結(jié)果進(jìn)行轉(zhuǎn)換包括根據(jù)語音識別結(jié)果進(jìn)行語義識別轉(zhuǎn)換,具體包括如下步驟 分詞及語義消歧根據(jù)知識庫字詞的語義屬性對語音識別結(jié)果進(jìn)行分詞并進(jìn)行語義消歧; 意圖分類及參數(shù)提取對分詞及語義消歧的結(jié)果進(jìn)行意圖分類,并進(jìn)行參數(shù)提取。
3.根據(jù)權(quán)利要求I所述基于互聯(lián)網(wǎng)語音交互的玩具控制方法,其特征在于,在語音識別轉(zhuǎn)換步驟中,所述網(wǎng)絡(luò)服務(wù)器和所述玩具的語音識別轉(zhuǎn)換結(jié)果均包括語音識別轉(zhuǎn)換的置信度,所述玩具設(shè)置語音識別轉(zhuǎn)換結(jié)果的置信度閥值,當(dāng)所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度大于等于該置信度閥值時,取該語音識別轉(zhuǎn)換結(jié)果,若所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度小于該置信度閥值時,取所述網(wǎng)絡(luò)服務(wù)器語音識別轉(zhuǎn)換結(jié)果的置信度和所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度中較大值的語音識別轉(zhuǎn)換結(jié)果。
4.根據(jù)權(quán)利要求I所述基于互聯(lián)網(wǎng)語音交互的玩具控制方法,其特征在于,在輸入不能識別的語音信息或不能執(zhí)行的語音信息時,通過所述玩具輸入語音進(jìn)行交互語音,以獲取能識別或能執(zhí)行的語音信息。
5.根據(jù)權(quán)利要求I所述基于互聯(lián)網(wǎng)語音交互的玩具控制方法,其特征在于,還包括對所述玩具喚醒進(jìn)行接收輸入語音狀態(tài)的喚醒步驟。
6.一種基于互聯(lián)網(wǎng)語音交互的玩具控制系統(tǒng),其特征在于,包括具有語音輸入的玩具、具有語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器,所述玩具包括輸入語音的語音輸入模塊、連接所述網(wǎng)絡(luò)服務(wù)器的網(wǎng)絡(luò)連接模塊、第二語音識別轉(zhuǎn)換單元,所述網(wǎng)絡(luò)服務(wù)器具有進(jìn)行語音識別轉(zhuǎn)換的第一語音轉(zhuǎn)換單元,所述玩具將所述語音輸入模塊輸入的語音信息上傳到所述網(wǎng)絡(luò)服務(wù)器,所述網(wǎng)絡(luò)服務(wù)器的第一語音識別轉(zhuǎn)換單元和所述玩具的第二語音識別轉(zhuǎn)換單元并行對接收的語音進(jìn)行識別轉(zhuǎn)換,所述網(wǎng)絡(luò)服務(wù)器和所述玩具共同執(zhí)行或由所述玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。
7.根據(jù)權(quán)利要求6所述基于互聯(lián)網(wǎng)語音交互的玩具控制系統(tǒng),其特征在于,所述第一語音轉(zhuǎn)換單元包括語音識別模塊和語義識別模塊,所述語義識別模塊配合所述語音識別模塊識別的語音判斷出所述語音輸入模塊輸入語音的語義。
8.根據(jù)權(quán)利要求6所述基于互聯(lián)網(wǎng)語音交互的玩具控制系統(tǒng),其特征在于,所述網(wǎng)絡(luò)服務(wù)器和所述玩具的語音識別轉(zhuǎn)換結(jié)果均包括語音識別轉(zhuǎn)換的置信度,所述玩具設(shè)置語音識別轉(zhuǎn)換結(jié)果的置信度閥值,當(dāng)所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度大于等于該置信度閥值時,取該語音識別轉(zhuǎn)換結(jié)果,若所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度小于該置信度閥值時,取所述網(wǎng)絡(luò)服務(wù)器語音識別轉(zhuǎn)換結(jié)果的置信度和所述玩具語音識別轉(zhuǎn)換結(jié)果的置信度中較大值的語音識別轉(zhuǎn)換結(jié)果。
9.根據(jù)權(quán)利要求6所述基于互聯(lián)網(wǎng)語音交互的玩具控制系統(tǒng),其特征在于,玩具還包括喚醒玩具進(jìn)入輸入語音的狀態(tài)的喚醒模塊,所述喚醒模塊包括語音指令、按鍵或無線信號中的任一種方式。
10.根據(jù)權(quán)利要求6所述基于互聯(lián)網(wǎng)語音交互的玩具控制系統(tǒng),其特征在于,所述網(wǎng)絡(luò)服務(wù)器和所述玩具均設(shè)置或其中任意一個設(shè)置存儲語音指令及與語音指令相配合的內(nèi)容的存儲單元。
全文摘要
本發(fā)明涉及一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),包括具有語音輸入及待控制的玩具、具有語音識別轉(zhuǎn)換的網(wǎng)絡(luò)服務(wù)器,所述玩具與所述網(wǎng)絡(luò)服務(wù)器通過互聯(lián)網(wǎng)建立通訊連接并輸入語音,所述玩具將輸入的語音上傳到所述網(wǎng)絡(luò)服務(wù)器,所述網(wǎng)絡(luò)服務(wù)器和所述玩具并行對接收的語音進(jìn)行識別轉(zhuǎn)換,所述網(wǎng)絡(luò)服務(wù)器和所述玩具共同執(zhí)行或由所述玩具執(zhí)行該語音識別轉(zhuǎn)換結(jié)果。本發(fā)明一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),利用網(wǎng)絡(luò)服務(wù)器較強(qiáng)的數(shù)據(jù)處理能力及豐富的內(nèi)容服務(wù),通過互聯(lián)網(wǎng)對玩具進(jìn)行語音控制。本發(fā)明一種基于互聯(lián)網(wǎng)語音交互的玩具控制方法及系統(tǒng),使玩具的內(nèi)容更加豐富,功能更加強(qiáng)大,同時,以自然控制語音輸入即可,大大提高了語音玩具的智能化,方便了使用,節(jié)約了成本。
文檔編號G10L15/26GK102831892SQ201210328348
公開日2012年12月19日 申請日期2012年9月7日 優(yōu)先權(quán)日2012年9月7日
發(fā)明者吳玉勝, 李新崗 申請人:深圳市信利康電子有限公司