本發(fā)明涉及智能機(jī)器人技術(shù)領(lǐng)域,尤其涉及一種機(jī)器人系統(tǒng)及其控制方法。
背景技術(shù):
隨著人工智能、計(jì)算機(jī)軟硬件技術(shù)的發(fā)展,機(jī)器人技術(shù)的發(fā)展經(jīng)歷了一個(gè)從低級到高級的發(fā)展過程。第一代機(jī)器人裝有記憶存儲(chǔ)器,由人將作業(yè)的各種要求示范給機(jī)器人,使其記住操作的程序和要領(lǐng),當(dāng)它接收到再現(xiàn)的命令時(shí),則自主地模仿示范動(dòng)作作業(yè)。第二代機(jī)器人是裝有小型計(jì)算機(jī)和傳感器的離散編程的工業(yè)機(jī)器人,它能感知外界信號并進(jìn)行“思維”,它比第一代機(jī)器人更靈活、更能適應(yīng)環(huán)境變化的需求。第三代機(jī)器人是智能機(jī)器人,它不但有第二代機(jī)器人的感覺功能和簡單的自適應(yīng)能力,而且能充分識別工作對象和工作環(huán)境,并能根據(jù)人給的指令和它自身的判斷結(jié)果自動(dòng)確定與之相適應(yīng)的工作,是人工智能發(fā)展的高級產(chǎn)物,也是當(dāng)今機(jī)器人發(fā)展的熱點(diǎn)。
現(xiàn)有機(jī)器人系統(tǒng)更多應(yīng)用在工業(yè)場景下,工業(yè)機(jī)器人的控制存在程式化、編程難度高、操作界面不友好等問題,在工業(yè)場景下機(jī)器人的形態(tài)也被限定在機(jī)械臂等機(jī)器設(shè)備屬性更強(qiáng)的應(yīng)用,難以與人們更好地交互。同時(shí),現(xiàn)有機(jī)器人系統(tǒng)及控制技術(shù)存在難以普及,開發(fā)成本高等問題。另外,現(xiàn)有機(jī)器人系統(tǒng)及控制技術(shù)難以應(yīng)用在家居場景,無法友好地在家居場景內(nèi)與家庭成員友好交互,更難以為家庭成員提供高品質(zhì)、便捷的服務(wù)。
技術(shù)實(shí)現(xiàn)要素:
針對上述技術(shù)問題,本申請?zhí)峁┝艘环N機(jī)器人系統(tǒng),包括:
麥克風(fēng)陣列,接收用戶發(fā)出的語音信號;
雙目深度攝像頭,同步采集兩通道圖像信號;
處理模塊,分別與所述麥克風(fēng)陣列和所述雙目深度攝像頭相連,以接收并處理所述語音信號和所述圖像信號生成語音識別信號和轉(zhuǎn)動(dòng)角度信號;
電機(jī)轉(zhuǎn)動(dòng)模塊,與所述處理模塊相連,接收并根據(jù)所述轉(zhuǎn)動(dòng)角度信號進(jìn)行平滑轉(zhuǎn)動(dòng)。
較佳的,所述處理模塊包括:
DSP加速協(xié)處理器,分別與所述麥克風(fēng)陣列和所述雙目深度攝像頭連接,用以接收所述語音信號和所述圖像信號,對所述語音信號進(jìn)行語音增強(qiáng)處理,對所述圖像信號進(jìn)行處理獲取測距信號;
機(jī)器人主控制器,與所述DSP加速協(xié)處理器通過USB接口連接,接收經(jīng)語音增強(qiáng)處理 的所述語音信號和所述測距信號,并根據(jù)所述測距信號對所述語音信號進(jìn)行自動(dòng)增益處理,以獲取所述語音識別信號;以及
根據(jù)對所述語音信號進(jìn)行定位,以獲取所述轉(zhuǎn)動(dòng)角度信號。
較佳的,所述機(jī)器人主控制器為多核ARM處理器。
較佳的,所述機(jī)器人系統(tǒng)還包括:
云端語音識別引擎,接收所述語音識別信號與所述機(jī)器人主控制器進(jìn)行交互,向用戶反饋?zhàn)詣?dòng)語音識別與自然語義處理的結(jié)果。
較佳的,所述機(jī)器人系統(tǒng)還包括:
DLP內(nèi)投顯示模塊,位于機(jī)器人系統(tǒng)頭部的內(nèi)部,將所述機(jī)器人的交互界面投影在所述機(jī)器人的臉部。
較佳的,所述機(jī)器人主控制器通過I2C串行控制協(xié)議及HDIM接口與所述DLP內(nèi)投顯示模式連接。
較佳的,所述麥克風(fēng)陣列為多通道麥克風(fēng)陣列。
本發(fā)明還提供了一種機(jī)器人控制方法,適用于所述的機(jī)器人系統(tǒng),其特征在于,包括步驟:
S1:接收所述語音信號和所述圖像信號,并傳遞至所述DSP加速協(xié)處理器;
S2:所述DSP加速協(xié)處理器對所述語音信號和所述圖像信號進(jìn)行處理后傳遞至所述機(jī)器人主控制器,獲取語音識別信號以及轉(zhuǎn)動(dòng)角度信號;
S3:所述云端語音識別引擎接收所述語音識別信號,向戶反饋?zhàn)詣?dòng)語音識別與自然語義處理的結(jié)果;
S4:所述轉(zhuǎn)動(dòng)控制模塊接收所述轉(zhuǎn)動(dòng)角度信號,并根據(jù)所述轉(zhuǎn)動(dòng)角度信號進(jìn)行平滑轉(zhuǎn)動(dòng)。
較佳的,所述步驟S1包括步驟:
S11:所述多通道麥克風(fēng)陣列同步采集不同方向的所述語音信號,傳遞至所述DSP加速協(xié)處理器;
S12:所述雙目深度攝像頭同步采集兩通道的所述圖像信號,傳遞至所述DSP加速協(xié)處理器。
較佳的,所述步驟S2包括步驟:
S21:所述DSP加速協(xié)處理器將所述語音信號進(jìn)行波束形成處理,并對所述語音信號中混雜的噪聲及回聲信號進(jìn)行語音增強(qiáng)處理;
S22:所述DSP加速協(xié)處理器對雙目深度視覺算法進(jìn)行硬件并行加速,對所述圖像信號進(jìn)行處理,獲取所述測距信號;
S23:所述機(jī)器人主控制器根據(jù)所述測距信號對所述語音信號進(jìn)行自動(dòng)增益處理;
S24:所述機(jī)器人主控制器接收所述語音信號獲取所述語音識別信號,并對所述語音信號進(jìn)行定位獲取所述轉(zhuǎn)動(dòng)角度信號。
綜上所述,由于采用了上述技術(shù)方案,本專利申請記載了一種機(jī)器人系統(tǒng)及其控制方法,其有益效果有:所述機(jī)器人系統(tǒng),通過語音這種人類最自然的人機(jī)交互方式,在家居環(huán)境內(nèi),解放人們的雙手,讓機(jī)器人系統(tǒng)成為一種高品質(zhì)的伴侶;所述雙目深度攝像頭對家庭用戶進(jìn)行自動(dòng)識別與測距,并根據(jù)所述測距信號實(shí)現(xiàn)語音信號自動(dòng)增益控制的智能化,便于用戶在家居場景中不同距離內(nèi),采用自然說話音量都能夠使得所述機(jī)器人系統(tǒng)獲取高準(zhǔn)確率的語音識別效果;并對所述語音信號進(jìn)行定位以及電機(jī)轉(zhuǎn)動(dòng)模塊實(shí)現(xiàn)平滑轉(zhuǎn)動(dòng),使得所述多通道麥克風(fēng)陣列和所述雙目深度攝像頭自動(dòng)對準(zhǔn)目標(biāo),實(shí)現(xiàn)了屏蔽噪聲、提升語音拾取信噪比;且所述DLP內(nèi)投顯示模塊解決了交互界面不友好的問題,為用戶提供更加便捷也更具未來科技的顯示體驗(yàn)。
附圖說明
圖1是本發(fā)明一種機(jī)器人系統(tǒng)的結(jié)構(gòu)示意圖;
圖2是本發(fā)明一種機(jī)器人控制方法的流程圖一;
圖3是本發(fā)明一種機(jī)器人控制方法的流程圖二;
圖4是本發(fā)明一種機(jī)器人控制方法的流程圖三。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式作進(jìn)一步的說明。
實(shí)施例一
如圖1所示,本發(fā)明提供了一種機(jī)器人系統(tǒng),所述機(jī)器人系統(tǒng)包括:
麥克風(fēng)陣列,對多路麥克風(fēng)語音信號進(jìn)行同步采集,并將采集到的所述語音信號通過I2S音頻接口實(shí)時(shí)傳遞至DSP加速協(xié)處理器3;
雙目深度攝像頭2,同步采集兩通道圖像信號,并將采集到的所述圖像信號通過USB接口實(shí)時(shí)傳輸至DSP加速協(xié)處理器3;
DSP加速協(xié)處理器3,接收所述語音信號和所述圖像信號,對語音增強(qiáng)算法及雙目深度視覺算法加速,將所述語音信號和所述圖像信號分別進(jìn)行語音增強(qiáng)處理以及數(shù)目視覺處理獲取測距信號,并將處理結(jié)果傳遞至機(jī)器人主控制器4;
機(jī)器人主控制器4,與所述DSP加速協(xié)處理器3通過USB接口相連,接收處理后的所述語音信號和所述測距信號,根據(jù)所述測距信號對所述語音信號進(jìn)行自動(dòng)增益控制,并根據(jù) 對所述語音信號進(jìn)行定位獲取轉(zhuǎn)動(dòng)角度信號,實(shí)現(xiàn)調(diào)度和控制所述機(jī)器人系統(tǒng);
云端語音識別引擎5,與所述機(jī)器人主控制器4進(jìn)行交互,反饋給用戶準(zhǔn)確及個(gè)性化的自動(dòng)語音識別與自然語義處理的結(jié)果,實(shí)現(xiàn)遠(yuǎn)場自動(dòng)語音識別的Hands-free的產(chǎn)品體驗(yàn)。
電機(jī)轉(zhuǎn)動(dòng)模塊6,與所述機(jī)器人系統(tǒng)中轉(zhuǎn)動(dòng)結(jié)構(gòu)無縫連接,根據(jù)所述機(jī)器人主控制器4發(fā)送的轉(zhuǎn)動(dòng)角度信號進(jìn)行平滑轉(zhuǎn)動(dòng);
DLP內(nèi)投顯示模塊7,位于所述機(jī)器人頭部的內(nèi)部,將所述機(jī)器人的交互界面高清投影在所述機(jī)器人的臉部,為用戶帶來未來交互方式的科技感。
其中,所述麥克風(fēng)陣列為多通道麥克風(fēng)陣列1,能夠同步采集不同方向的語音信號。所述DSP加速協(xié)處理器3采用T1德州儀器高性能浮點(diǎn)運(yùn)算數(shù)字信號處理器平臺,所述機(jī)器人主控制器4采用多核ARM處理器。所述DSP加速協(xié)處理器3接收所述圖像信號,并對所述圖像信號中的目標(biāo)用戶進(jìn)行識別,獲取目標(biāo)用于與所述機(jī)器人的距離,即所述測距信號。
所述機(jī)器人主控制器4接收所述DSP加速協(xié)處理器3增強(qiáng)后的高信噪比的所述語音信號,實(shí)現(xiàn)語音激活、語音尋向、本地自動(dòng)語音識別,獲取語音識別信號,并與所述云端語音識別引擎5進(jìn)行交互,反饋給用戶準(zhǔn)確及個(gè)性化的自動(dòng)語音識別與自然語義處理結(jié)果。從而實(shí)現(xiàn)遠(yuǎn)場自動(dòng)語音上識別的Hands-free的產(chǎn)品體驗(yàn)。另外,所述機(jī)器人主控制器4接收并實(shí)時(shí)更新所述DSP加速協(xié)處理器3經(jīng)雙目視覺深度算法處理后提取的測距信號,并根據(jù)所述測距信號對所述語音信號進(jìn)行自動(dòng)增益控制,從而實(shí)現(xiàn)用戶在家居場景的遠(yuǎn)距離條件下,不同距離都可以用自然的說話音量快速激活所述機(jī)器人,并進(jìn)行自動(dòng)語音識別交互。
所述機(jī)器人主控制器4通過I2C串行控制協(xié)議及HDMI接口與所述DLP內(nèi)投顯示模塊7連接,實(shí)現(xiàn)機(jī)器人表情,并對從所述DSP加速協(xié)處理器3中采集到的所述測距信號處理后獲取轉(zhuǎn)動(dòng)角度信號,所述電機(jī)轉(zhuǎn)動(dòng)模塊6根據(jù)所述轉(zhuǎn)動(dòng)角度信號進(jìn)行轉(zhuǎn)動(dòng),將所述多通道麥克風(fēng)陣列1對準(zhǔn)說話用戶,通過波束形成的方式來抑制遠(yuǎn)場環(huán)境中的噪聲與回聲,提高語音信號的信噪比,從而提升語音識別的準(zhǔn)確率。同時(shí),語音尋向轉(zhuǎn)動(dòng)可以將所述機(jī)器人界面最準(zhǔn)用戶,從而進(jìn)一步提高所述機(jī)器人系統(tǒng)與用戶交互的趣味性。
所述機(jī)器人系統(tǒng),通過語音這種人類最自然的人機(jī)交互方式,在家居環(huán)境內(nèi),解放人們的雙手,讓機(jī)器人系統(tǒng)成為一種高品質(zhì)的伴侶。所述雙目深度攝像頭2對家庭用戶進(jìn)行自動(dòng)識別與測距,并根據(jù)所述測距信號實(shí)現(xiàn)語音信號自動(dòng)增益控制的智能化,便于用戶在家居場景中不同距離內(nèi),采用自然說話音量都能夠使得所述機(jī)器人系統(tǒng)獲取高準(zhǔn)確率的語音識別效果。并對所述語音信號進(jìn)行定位以及電機(jī)轉(zhuǎn)動(dòng)模塊6實(shí)現(xiàn)平滑轉(zhuǎn)動(dòng),使得所述多通道麥克風(fēng)陣列1和所述雙目深度攝像頭2自動(dòng)對準(zhǔn)目標(biāo),實(shí)現(xiàn)了屏蔽噪聲、提升語音拾取信噪比。且所述DLP內(nèi)投顯示模塊7解決了交互界面不友好的問題,為用戶提供更加便捷也更具未來科技的顯示體驗(yàn)。
實(shí)施例二
根據(jù)實(shí)施例一提出的一種機(jī)器人系統(tǒng),本實(shí)施例基于該系統(tǒng)提出了一種機(jī)器人控制方 法,如圖2所示,具體包括步驟:
S1:采取語音信號和圖像信號,并將這兩種信號傳輸給所述DSP加速協(xié)處理器3;
S2:所述DSP加速協(xié)處理器3對所述語音信號和所述圖像信號進(jìn)行處理后傳遞至所述機(jī)器人主控制器4,獲取語音識別信號以及轉(zhuǎn)動(dòng)角度信號;
S3:所述云端語音識別引擎5接收所述語音識別信號,向用戶反饋?zhàn)詣?dòng)語音識別與自然語義處理的結(jié)果;
S4:所述電機(jī)轉(zhuǎn)動(dòng)模塊6接收所述轉(zhuǎn)動(dòng)角度信號,并根據(jù)所述轉(zhuǎn)動(dòng)角度信號進(jìn)行平滑轉(zhuǎn)動(dòng)。
其中,如圖3所示步驟S1包括:
S11:所述多通道麥克風(fēng)陣列1同步采集不同方向的語音信號,傳遞至所述DSP加速協(xié)處理器3;
S12:所述雙目深度攝像頭2同步采集兩通道的所述圖像信號,傳遞至所述DSP加速協(xié)處理器3。
如圖4所示,所述步驟S2包括:
S21:所述DSP加速協(xié)處理器3將所述語音信號進(jìn)行波束形成處理,并對語音信號中混雜的噪聲及回聲信號進(jìn)行語音增強(qiáng)處理;
S22:所述DSP加速協(xié)處理器3對雙目深度視覺算法進(jìn)行硬件并行加速,對所述圖像信號進(jìn)行處理,獲取測距信號;
S23:所述機(jī)器人主控制器4根據(jù)所述測距信號對所述語音信號進(jìn)行自動(dòng)增益處理;
S24:所述機(jī)器人主控制器4接收所述語音信號獲取所述語音識別信號,并對所述語音信號進(jìn)行定位獲取所述轉(zhuǎn)動(dòng)角度信號。
所述機(jī)器人控制方法,通過所述多通道麥克風(fēng)陣列1和所述雙目深度攝像頭2獲取所述語音信號和所述圖像信號,對所述圖像信號進(jìn)行處理后獲取識別和測距信號,所述語音信號根據(jù)所述識別和測距信號進(jìn)行相應(yīng)的自動(dòng)增益處理,便于用戶在家居場景中不同距離內(nèi),采用自然說話音量都能夠使得所述機(jī)器人系統(tǒng)獲取高準(zhǔn)確率的語音識別效果。對所述語音信號進(jìn)行定位,所述電機(jī)轉(zhuǎn)動(dòng)模塊6根據(jù)定位結(jié)果進(jìn)行平滑轉(zhuǎn)動(dòng),使得所述多通道麥克風(fēng)陣列1和所述雙目深度攝像頭2對準(zhǔn)目標(biāo),實(shí)現(xiàn)了屏蔽噪聲、提升語音拾取信噪比的效果。
以上所述僅為本發(fā)明較佳的實(shí)施例,并非因此限制本發(fā)明的實(shí)施方式及保護(hù)范圍,對于本領(lǐng)域技術(shù)人員而言,應(yīng)當(dāng)能夠意識到凡運(yùn)用本發(fā)明說明書及圖示內(nèi)容所做出的等同替換和顯而易見的變化所得到的方案,均應(yīng)當(dāng)包含在本發(fā)明的保護(hù)范圍內(nèi)。