一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法與流程

文檔序號(hào)：11268433閱讀：436來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>五金工具產(chǎn)品及配附件制造技術(shù)

本發(fā)明涉及一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法。

背景技術(shù)：

如今，獨(dú)生子女一代正在成為社會(huì)的中堅(jiān)力量，而他們所面臨的父母及孩子的陪伴看護(hù)等問題也日益凸顯，因此家庭陪護(hù)機(jī)器人的需求也日益旺盛。相較于工業(yè)機(jī)器人，服務(wù)機(jī)器人起步相對(duì)較晚，還不夠成熟，目前僅有掃地機(jī)器人在家庭中間擁有相對(duì)較高的普及率，其他大部分服務(wù)機(jī)器人還停留在實(shí)驗(yàn)室階段，其功能服務(wù)同消費(fèi)者的期望還有很大的差距。

根據(jù)國家統(tǒng)計(jì)局最新發(fā)布的數(shù)據(jù)，顯示老齡化程度進(jìn)一步加深。其中，60周歲及以上人口23086萬人，占總?cè)丝诘?6.7％；65周歲及以上人口15003萬人，占總?cè)丝诘?0.8％。同時(shí)，單獨(dú)二孩政策已在各地陸續(xù)正式實(shí)施，兒童的數(shù)量在現(xiàn)有基礎(chǔ)上，還會(huì)有一定幅度的增加。因此，大力發(fā)展家庭陪護(hù)機(jī)器人，發(fā)揮他們?cè)谂阕o(hù)和啟蒙教育等方面的作用將是社會(huì)發(fā)展的必然要求，這將大大減輕年輕人的負(fù)擔(dān)，社會(huì)意義重大，但同時(shí)對(duì)服務(wù)機(jī)器人的人機(jī)交互方式也提出了更高的要求。

而日常生活中，人們之間的交互方式主要包括語音、視覺、手勢(shì)等形式，其中語音是最為簡(jiǎn)單高效的一種交互形式，也最符合人們的交流習(xí)慣。語音識(shí)別技術(shù)是近幾年的研究熱點(diǎn)，已取得較大進(jìn)展，并在很多領(lǐng)域得到了應(yīng)用，比如車載設(shè)備、游戲、智能家電等。語音識(shí)別技術(shù)能夠讓機(jī)器理解用戶所說的內(nèi)容，解放了用戶雙手，提升人機(jī)交互體驗(yàn)。

針對(duì)應(yīng)用場(chǎng)合的不同，語音識(shí)別的側(cè)重點(diǎn)也不盡相同。有些情況僅僅需要識(shí)別其中的一些關(guān)鍵詞即可，比如基于語音關(guān)鍵詞的運(yùn)動(dòng)控制；有一些場(chǎng)景要求盡量準(zhǔn)確的識(shí)別出語音包含的所有漢字，比如語音輸入；還有些情況不僅要求完整識(shí)別文字，還要求能夠洞察出說話人的情感信息。要想使用戶有好的人機(jī)交互體驗(yàn)，除了語音識(shí)別技術(shù)外，同樣也離不開聲源定位技術(shù)，只有讓機(jī)器知曉說話人的方位，才能夠有針對(duì)性的做出動(dòng)作響應(yīng)，而且將定位信息進(jìn)一步同視覺等信息結(jié)合，可以開發(fā)出更多的功能場(chǎng)景。雖然語音技術(shù)已經(jīng)在很多領(lǐng)域都已經(jīng)有廣泛應(yīng)用，但是在機(jī)器人行業(yè)中還沒有完全普及，也存在一些技術(shù)問題有待解決。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明為了解決上述問題，提出了一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法，本發(fā)明能夠?qū)崿F(xiàn)機(jī)器人對(duì)說話人位置的估計(jì)及語音指令的響應(yīng)等功能,有利于服務(wù)型機(jī)器人與人的交互。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案：

一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)，包括服務(wù)器、客戶端和設(shè)置于機(jī)器人本體上的控制單元，其中：

所述服務(wù)器，被配置為存儲(chǔ)有賬戶信息、權(quán)限設(shè)置和語音與視頻信息，基于云共享機(jī)制，實(shí)現(xiàn)機(jī)器人的群體學(xué)習(xí)與進(jìn)化；

所述客戶端，顯示機(jī)器人經(jīng)由服務(wù)器傳送的語音和視頻信息，并可進(jìn)行權(quán)限修改、資源管理和遠(yuǎn)程控制操作；

所述控制單元，包括相互通信的上層處理系統(tǒng)和下層控制系統(tǒng)，所述上層處理系統(tǒng)被配置為具有多個(gè)采集模塊，分別采集語音和視頻信息，并根據(jù)語音的聲源進(jìn)行定位，進(jìn)而控制機(jī)器人本體運(yùn)動(dòng)，識(shí)別語音內(nèi)容；

所述下層控制系統(tǒng)被配置為接受并解析下達(dá)的運(yùn)動(dòng)指令，利用電機(jī)驅(qū)動(dòng)單元驅(qū)動(dòng)電機(jī)按照設(shè)定的速度運(yùn)動(dòng)，并將機(jī)器人的運(yùn)行情況反饋至上層處理系統(tǒng)，實(shí)現(xiàn)語音的實(shí)時(shí)控制；

所述機(jī)器人本體根據(jù)識(shí)別的語音內(nèi)容執(zhí)行相應(yīng)的語音操作，并識(shí)別語音信息中的情緒，控制本體上設(shè)置的表情模塊展示不同的表情。

進(jìn)一步的，所述下層控制系統(tǒng)包括主控核心單元及作為冗余配置的監(jiān)控核心單元，主控核心單元與上層處理系統(tǒng)進(jìn)行通信，同時(shí)通過rs232與客戶端進(jìn)行通信，解析出速度設(shè)定值，同時(shí)捕獲碼盤的脈沖數(shù)，得到電機(jī)的實(shí)際速度，構(gòu)成速度閉環(huán)控制，根據(jù)速度設(shè)定值和實(shí)際速度值，每隔設(shè)定的時(shí)間進(jìn)行一次pid運(yùn)算，通過pwm調(diào)制方式控制電機(jī)的轉(zhuǎn)速。

進(jìn)一步的，所述監(jiān)控核心單元包括冗余處理器，冗余處理器捕獲碼盤脈沖數(shù)，解析電機(jī)的實(shí)際速度，并與主控核心單元解析的速度值進(jìn)行比較，當(dāng)兩者不一致時(shí)，根據(jù)故障處理機(jī)制及時(shí)處理異常，主控核心單元和冗余處理器之間定期進(jìn)行數(shù)據(jù)傳輸，當(dāng)冗余處理器接收不到主控核心單元發(fā)送的數(shù)據(jù)或者接收到錯(cuò)誤數(shù)據(jù)時(shí)，冗余處理器及時(shí)復(fù)位主控核心單元。

進(jìn)一步的，所述機(jī)器人本體上設(shè)置有五麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)采集語音信息，具體包括位于圓心的一個(gè)麥克風(fēng)以及圍繞該麥克風(fēng)為圓心圍繞其均勻分布的四個(gè)麥克風(fēng)。

進(jìn)一步的，所述機(jī)器人本體上設(shè)置有表情模塊，為led點(diǎn)陣屏，根據(jù)識(shí)別的用戶情緒展現(xiàn)多種表情，且機(jī)器人本體的頭部設(shè)置有高清攝像頭，根據(jù)識(shí)別的聲源位置通過頭部俯仰電機(jī)自動(dòng)調(diào)整位置并響應(yīng)語音指令。

進(jìn)一步的，所述上層處理系統(tǒng)設(shè)置有語音識(shí)別與交互模塊，所述語音識(shí)別與交互模塊與服務(wù)器通信，在ubuntu平臺(tái)上實(shí)現(xiàn)語音識(shí)別，通過mongodb數(shù)據(jù)庫構(gòu)建聊天知識(shí)庫，語音識(shí)別有離線識(shí)別和在線識(shí)別兩種模式，當(dāng)處于離線模式時(shí)，上層處理系統(tǒng)建立語法文件，其中定義語音識(shí)別語句，當(dāng)從采集到的語音中識(shí)別到有效語句時(shí)，翻譯成對(duì)應(yīng)文字，進(jìn)行中文分詞，加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表，識(shí)別句子中的每一個(gè)情感詞，并以情感詞為中心滑動(dòng)檢測(cè)周邊副詞及否定詞情況，最后對(duì)所有情感詞及其修飾詞的情感值累加，得到當(dāng)前句子的情感值，判斷出用戶當(dāng)前的情緒狀態(tài)，發(fā)送給表情模塊；當(dāng)處于在線模式時(shí)，直接將識(shí)別的語句上傳至服務(wù)器，由服務(wù)器分析感知用戶情緒，進(jìn)而從網(wǎng)絡(luò)抓取相關(guān)內(nèi)容并回傳至機(jī)器人系統(tǒng)。

基于上述機(jī)器人系統(tǒng)的工作方法，不斷采集周圍的語音信息，當(dāng)存在語音指令后，進(jìn)行聲源定位，控制機(jī)器人本體移動(dòng)到聲源位置，對(duì)采集的語音信息進(jìn)行識(shí)別，識(shí)別到有效語句時(shí)，發(fā)送相應(yīng)的控制指令給機(jī)器人本體執(zhí)行對(duì)應(yīng)的操作，同時(shí)將有效語句翻譯成對(duì)應(yīng)文字，進(jìn)行中文分詞，加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表，識(shí)別句子中的每一個(gè)情感詞，根據(jù)識(shí)別結(jié)果展示相應(yīng)的表情。

進(jìn)一步的，所述機(jī)器人本體接收客戶端的遠(yuǎn)程控制指令，當(dāng)進(jìn)行遠(yuǎn)程看護(hù)時(shí)，服務(wù)器同時(shí)啟用主連接監(jiān)聽和協(xié)助打洞監(jiān)聽，客戶端通過身份驗(yàn)證后，機(jī)器人本體同客戶端都與服務(wù)器保持主連接暢通，當(dāng)客戶端需要連接機(jī)器人時(shí)，借助服務(wù)器的協(xié)助打洞端口，將客戶端通過網(wǎng)絡(luò)地址翻譯后的公網(wǎng)ip通知給機(jī)器人本體，然后機(jī)器人嘗試與客戶端進(jìn)行連接，同時(shí)在相同的端口啟動(dòng)偵聽，并通過服務(wù)器將經(jīng)過網(wǎng)絡(luò)地址翻譯的ip通知給客戶端，當(dāng)客戶端主動(dòng)連接機(jī)器人時(shí)，機(jī)器人允許連接，網(wǎng)絡(luò)打洞成功。

進(jìn)一步的，首先連接機(jī)器人本體的默認(rèn)為主客戶端，在查看機(jī)器人拍攝視頻的同時(shí)向機(jī)器人發(fā)送運(yùn)動(dòng)控制指令，其他連接為從客戶端，只能查看機(jī)器人的拍攝視頻和當(dāng)前狀態(tài)，不能進(jìn)行運(yùn)動(dòng)控制，當(dāng)主客戶端下線后，公網(wǎng)服務(wù)器會(huì)通知其他從客戶端使其通過申請(qǐng)成為主客戶端。

進(jìn)一步的，聲源定位方法利用改進(jìn)的基于到達(dá)時(shí)延的廣義互相關(guān)法定位算法，通過對(duì)各個(gè)麥克風(fēng)拾取的語音信號(hào)采取快速傅氏變換，得到互功率譜，利用phat加權(quán)函數(shù)削弱語音信號(hào)中的噪聲部分，結(jié)合互相關(guān)函數(shù)峰值偏移量以及信號(hào)采樣頻率，準(zhǔn)確估算出各個(gè)麥克風(fēng)的時(shí)延，進(jìn)而求得聲源的方位信息。

進(jìn)一步的，語音識(shí)別方法采用kaldi開源語音識(shí)別開發(fā)平臺(tái)，基于準(zhǔn)備的訓(xùn)練數(shù)據(jù)及腳本，采用了一種基于三音子的lsm語音識(shí)別模型。

進(jìn)一步的，聲源定位方和語音識(shí)別時(shí)，采用雙門限檢測(cè)算法來從信號(hào)流中檢測(cè)出語音的起始點(diǎn)和終止點(diǎn)。

具體為對(duì)信號(hào)做濾波去噪以及分幀加窗的處理，分別計(jì)算短時(shí)能量和短時(shí)過零率，進(jìn)行多級(jí)判定，第一級(jí)判定依據(jù)信號(hào)的平均能量值設(shè)定一個(gè)閾值略高的門限值t1，判斷語音信號(hào)的起始點(diǎn)，再結(jié)合實(shí)際環(huán)境噪聲的大小設(shè)置一個(gè)略低的門限值t2，判斷出語音結(jié)的束點(diǎn)，第二級(jí)判定，依據(jù)環(huán)境噪聲的過零率來設(shè)定一個(gè)門限值t3，確定一級(jí)判定中語音前端的清音和末端的尾音。

與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：

服務(wù)型機(jī)器人所處的家庭環(huán)境通常比較復(fù)雜，而且面向的用戶群體大多是兒童和老人，通過按鍵或觸屏等方式操控機(jī)器人的傳統(tǒng)方式越來越無法滿足大眾的需求。而本發(fā)明基于語音的控制方式則可以使用戶幾乎不需要任何培訓(xùn)和學(xué)習(xí)，就能夠以自己最為熟悉自然的方式來和機(jī)器人進(jìn)行交互，大大提升了人機(jī)交互的體驗(yàn)效果。

該機(jī)器人系統(tǒng)的運(yùn)動(dòng)控制方式靈活多樣，既可通過語音指令控制機(jī)器人的運(yùn)動(dòng)，也支持手機(jī)app觸屏控制；具有語音識(shí)別功能，可根據(jù)聊天內(nèi)容，配合機(jī)器人語速、語調(diào)以及面部表情變化，表達(dá)機(jī)器人的喜怒哀樂；具有聲源定位功能，當(dāng)用戶語音喚醒機(jī)器人時(shí)，機(jī)器人可以定位出用戶的位置信息，自主轉(zhuǎn)向移動(dòng)到用戶面前；具有遠(yuǎn)程看護(hù)功能，用戶可以遠(yuǎn)程登錄機(jī)器人查看家中老人及兒童當(dāng)前狀態(tài)。

為了確保機(jī)器人的安全可靠運(yùn)行，服務(wù)型機(jī)器人具備故障檢測(cè)及自處理功能，可以實(shí)時(shí)監(jiān)控機(jī)器人的運(yùn)行狀況，及時(shí)處理瘋跑、過流、通信亂碼等機(jī)器故障。同時(shí)，該機(jī)器人配有避障系統(tǒng)和防跌落系統(tǒng)，在用戶使用的過程中自動(dòng)規(guī)避障礙物，起到自我保護(hù)的作用。

附圖說明

構(gòu)成本申請(qǐng)的一部分的說明書附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解，本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng)，并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。

圖1為本發(fā)明的整體設(shè)計(jì)方案框圖；

圖2為本發(fā)明的上層處理系統(tǒng)模塊劃分圖；

圖3為本發(fā)明的網(wǎng)絡(luò)通信結(jié)構(gòu)圖；

圖4為本發(fā)明的語音控制系統(tǒng)流程圖；

圖5為本發(fā)明的情緒系統(tǒng)設(shè)計(jì)框圖；

圖6為本發(fā)明的數(shù)據(jù)庫結(jié)構(gòu)圖；

圖7為本發(fā)明的麥克風(fēng)陣列分布圖；

圖8為本發(fā)明的gcc時(shí)延估計(jì)定位流程框圖；

圖9為本發(fā)明的語音端點(diǎn)檢測(cè)流程圖；

圖10為本發(fā)明的kaldi語音識(shí)別平臺(tái)數(shù)據(jù)準(zhǔn)備框圖；

圖11為本發(fā)明的語音識(shí)別搜索網(wǎng)絡(luò)層級(jí)圖；

圖12為本發(fā)明的語音識(shí)別流程框圖；

圖13為本發(fā)明的聲源定位轉(zhuǎn)向分段運(yùn)動(dòng)控制流程框圖。

圖14為本發(fā)明的機(jī)器人面部表情圖。

具體實(shí)施方式：

下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。

應(yīng)該指出，以下詳細(xì)說明都是例示性的，旨在對(duì)本申請(qǐng)?zhí)峁┻M(jìn)一步的說明。除非另有指明，本文使用的所有技術(shù)和科學(xué)術(shù)語具有與本申請(qǐng)所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。

需要注意的是，這里所使用的術(shù)語僅是為了描述具體實(shí)施方式，而非意圖限制根據(jù)本申請(qǐng)的示例性實(shí)施方式。如在這里所使用的，除非上下文另外明確指出，否則單數(shù)形式也意圖包括復(fù)數(shù)形式，此外，還應(yīng)當(dāng)理解的是，當(dāng)在本說明書中使用術(shù)語“包含”和/或“包括”時(shí)，其指明存在特征、步驟、操作、器件、組件和/或它們的組合。

正如背景技術(shù)所介紹的，現(xiàn)有技術(shù)中存在服務(wù)型機(jī)器人的聲源定位與語音識(shí)別存在不準(zhǔn)確和識(shí)別內(nèi)容不全面，以及服務(wù)型機(jī)器人與被陪護(hù)人的交互不人性化的不足，為了解決如上的技術(shù)問題，本申請(qǐng)?zhí)岢隽艘环N基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法，本發(fā)明能夠?qū)崿F(xiàn)機(jī)器人對(duì)說話人位置的估計(jì)及語音指令的響應(yīng)等功能,有利于服務(wù)型機(jī)器人與人的交互。

包括云服務(wù)器、手機(jī)app和機(jī)器人本體三部分。

所述云服務(wù)器主要作用是存儲(chǔ)機(jī)器人的一些賬戶信息、權(quán)限設(shè)置和日常錄制的一些語音及視頻信息。此外，還可以進(jìn)行一些復(fù)雜的數(shù)據(jù)處理及運(yùn)算，在云端進(jìn)行有機(jī)結(jié)合實(shí)現(xiàn)機(jī)器人智能化認(rèn)知，并基于云端知識(shí)共享機(jī)制，實(shí)現(xiàn)機(jī)器人的群體學(xué)習(xí)與進(jìn)化，云端學(xué)習(xí)到的知識(shí)源源不斷的下載到機(jī)器人本體。這種分層次的體系架構(gòu)可以大幅度提高家庭陪護(hù)機(jī)器人的認(rèn)知能力、智力水平和人性化服務(wù)水平，并有效降低機(jī)器人個(gè)體成本，使得家用陪護(hù)機(jī)器人“物美價(jià)廉”，打破阻礙機(jī)器人推廣應(yīng)用的瓶頸。

所述手機(jī)app的作用是方便在外工作的子女通過音視頻了解到家中老人、兒童的實(shí)時(shí)狀況，也可以方便的發(fā)送指令，遠(yuǎn)程操控機(jī)器人。

所述機(jī)器人本體由上層處理系統(tǒng)和下層控制系統(tǒng)組成，它們之間通過rs232串口進(jìn)行通信。

所述上層處理系統(tǒng)包括語音識(shí)別模塊、聲源定位模塊、表情模塊、實(shí)時(shí)音視頻模塊、運(yùn)動(dòng)控制模塊等，這些模塊各自通過軟件接口同智能分析模塊連接，由智能分析模塊進(jìn)行統(tǒng)一調(diào)度處理，上層處理系統(tǒng)通過無線裝置與路由器通信，路由器通過公網(wǎng)服務(wù)器與遠(yuǎn)程終端客戶端進(jìn)行實(shí)時(shí)通信。

其中，機(jī)器人面部led點(diǎn)陣屏可以根據(jù)識(shí)別的用戶情緒展現(xiàn)多種表情實(shí)現(xiàn)娛樂陪護(hù)的功能；頭部高清攝像頭可以根據(jù)識(shí)別的聲源位置通過頭部俯仰電機(jī)自動(dòng)調(diào)整位置并響應(yīng)拍照等語音指令；手機(jī)app與機(jī)器人本體進(jìn)行遠(yuǎn)程通信，實(shí)時(shí)查看機(jī)器人拍攝視頻的同時(shí)可以向其發(fā)送運(yùn)動(dòng)控制語音指令。

所述下層控制系統(tǒng)包括主控核心單元及作為冗余配置的監(jiān)控核心單元，主控核心單元與上層處理系統(tǒng)進(jìn)行通信，接受并解析下達(dá)的運(yùn)動(dòng)指令，利用電機(jī)驅(qū)動(dòng)單元驅(qū)動(dòng)電機(jī)按照設(shè)定的速度運(yùn)動(dòng)，并將機(jī)器人的運(yùn)行情況返回上層處理系統(tǒng)，監(jiān)控核心單元與主控核心單元進(jìn)行實(shí)時(shí)通信。

所述主控核心單元包括主處理器，主處理器通過rs232與客戶端進(jìn)行通信，解析出速度設(shè)定值，同時(shí)捕獲碼盤的脈沖數(shù)，得到電機(jī)的實(shí)際速度，構(gòu)成速度閉環(huán)控制系統(tǒng)，根據(jù)速度設(shè)定值和實(shí)際速度值，每隔設(shè)定的時(shí)間進(jìn)行一次pid運(yùn)算，通過pwm調(diào)制方式控制電機(jī)的轉(zhuǎn)速。

所述監(jiān)控核心單元包括冗余處理器，冗余處理器捕獲碼盤脈沖數(shù)，解析電機(jī)的實(shí)際速度，并與主處理器解析的速度值進(jìn)行比較，當(dāng)兩者不一致時(shí)，根據(jù)故障處理機(jī)制及時(shí)處理異常，主處理器和冗余處理器之間定期進(jìn)行數(shù)據(jù)傳輸，當(dāng)冗余處理器接收不到主處理器發(fā)送的數(shù)據(jù)或者接收到錯(cuò)誤數(shù)據(jù)時(shí)，冗余處理器及時(shí)復(fù)位主處理器。

所述冗余處理器與聲光報(bào)警電路、過流檢測(cè)電路、過熱檢測(cè)電路及開關(guān)電路相連，當(dāng)檢測(cè)到過流、過熱及電池電壓過低狀況時(shí)，關(guān)斷開關(guān)電路，切斷電池供電。

利用遠(yuǎn)程看護(hù)系統(tǒng)進(jìn)行遠(yuǎn)程看護(hù)時(shí)，公網(wǎng)服務(wù)器啟動(dòng)兩個(gè)監(jiān)聽，一個(gè)是主連接監(jiān)聽，一個(gè)是協(xié)助打洞監(jiān)聽，客戶端通過身份驗(yàn)證后，機(jī)器人本體同客戶端都與服務(wù)器保持主連接暢通，當(dāng)客戶端需要連接機(jī)器人時(shí)，借助服務(wù)器的協(xié)助打洞端口，將客戶端通過網(wǎng)絡(luò)地址翻譯后的公網(wǎng)ip通知給機(jī)器人本體，然后機(jī)器人嘗試與客戶端進(jìn)行連接，同時(shí)在相同的端口啟動(dòng)偵聽，并通過服務(wù)器將經(jīng)過網(wǎng)絡(luò)地址翻譯的ip通知給客戶端，當(dāng)客戶端主動(dòng)連接機(jī)器人時(shí)，機(jī)器人允許連接，網(wǎng)絡(luò)打洞成功。首先連接客戶端的默認(rèn)為主客戶端，在查看客戶端拍攝視頻的同時(shí)可以向客戶端發(fā)送運(yùn)動(dòng)控制指令，其他連接為從客戶端，只能查看機(jī)器人的拍攝視頻和當(dāng)前狀態(tài)，不能進(jìn)行運(yùn)動(dòng)控制，當(dāng)主客戶端下線后，公網(wǎng)服務(wù)器會(huì)通知其他從客戶端使其通過申請(qǐng)成為主客戶端。

所述情緒交互系統(tǒng)在ubuntu平臺(tái)上實(shí)現(xiàn)語音識(shí)別，通過mongodb數(shù)據(jù)庫構(gòu)建了聊天知識(shí)庫，語音識(shí)別有離線識(shí)別和在線識(shí)別兩種模式，當(dāng)處于離線模式時(shí)，系統(tǒng)需要建立語法文件，其中定義語音識(shí)別語句，當(dāng)系統(tǒng)從采集到的語音中識(shí)別到有效語句時(shí)，會(huì)翻譯成對(duì)應(yīng)文字，語義理解及情感分析單元進(jìn)行中文分詞，加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表，識(shí)別句子中的每一個(gè)情感詞，并以情感詞為中心滑動(dòng)檢測(cè)周邊副詞及否定詞情況，最后對(duì)所有情感詞及其修飾詞的情感值累加，得到當(dāng)前句子的情感值，判斷出用戶當(dāng)前的情緒狀態(tài)，發(fā)送給表情模塊，當(dāng)處于在線模式時(shí)，可直接將識(shí)別的語句上傳至服務(wù)器，由服務(wù)器分析感知用戶情緒，進(jìn)而從網(wǎng)絡(luò)抓取相關(guān)內(nèi)容并回傳至機(jī)器人系統(tǒng)，在判斷出用戶情緒后，表情模塊通過切換動(dòng)態(tài)臉部表情和擬人化的手勢(shì)，配合定制的個(gè)性化語音，使機(jī)器人做出合理的反應(yīng)，在用戶情緒低落的時(shí)候給與安慰，在用戶情緒消沉?xí)r進(jìn)行鼓勵(lì)，使用戶在與機(jī)器人交流過程中感到舒心。

本發(fā)明的下層控制系統(tǒng)專注于底層的服務(wù)，通過rs232與客戶端進(jìn)行通信，通過軟件接口實(shí)現(xiàn)命令包和數(shù)據(jù)包的交換；上層處理系統(tǒng)固定于機(jī)器人內(nèi)部鋁架上，運(yùn)行ubuntu系統(tǒng)，經(jīng)語音識(shí)別后智能感知用戶情緒，通過面部多種表情，實(shí)現(xiàn)娛樂陪護(hù)的功能；平板攝像頭作為視頻采集通道，通過網(wǎng)絡(luò)透網(wǎng)傳輸給用戶手機(jī)等終端，實(shí)現(xiàn)遠(yuǎn)程看護(hù)老人及兒童的功能，同時(shí)也可以響應(yīng)拍照等語音指令；通過聲源定位功能，當(dāng)用戶語音喚醒機(jī)器人時(shí)，機(jī)器人可以定位出用戶的位置信息，自主轉(zhuǎn)向移動(dòng)到用戶面前。

本申請(qǐng)的一種典型的實(shí)施方式中，如圖1所示，該機(jī)器人采用典型的c/s機(jī)器人工作模式。底層控制系統(tǒng)包括電源管理單元，電源管理單元為整個(gè)系統(tǒng)提供穩(wěn)定可靠的輸出電壓及電流，電池電量由主控核心測(cè)量，在數(shù)碼管上實(shí)時(shí)顯示，可實(shí)現(xiàn)低壓報(bào)警及關(guān)斷功能；主控核心單元接受并解析上層處理系統(tǒng)下達(dá)的運(yùn)動(dòng)指令，驅(qū)動(dòng)電機(jī)按照設(shè)定的速度運(yùn)動(dòng)，同時(shí)開啟紅外避障防跌落功能，并將機(jī)器人的運(yùn)行情況返回上層處理系統(tǒng)。監(jiān)控核心單元作為冗余單元，負(fù)責(zé)監(jiān)控機(jī)器人是否存在失控、堵轉(zhuǎn)、過流及通信亂碼等故障。上層處理系統(tǒng)主要包含情緒交互系統(tǒng)，遠(yuǎn)程看護(hù)系統(tǒng)和聲源定位系統(tǒng)，具體包含的軟件模塊如圖2所示。情緒交互系統(tǒng)通過語音識(shí)別和語義識(shí)別感知用戶情緒，結(jié)合面部表情動(dòng)畫做出人性化反饋；遠(yuǎn)程看護(hù)系統(tǒng)有遠(yuǎn)程透網(wǎng)傳輸和遠(yuǎn)程語音運(yùn)動(dòng)控制兩個(gè)部分；聲源定位系統(tǒng)可以定位出用戶的位置信息，使機(jī)器人自主轉(zhuǎn)向移動(dòng)到用戶面前。

機(jī)器人整體通信網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，主要包括云服務(wù)器、用戶端及機(jī)器人三部分。其中，云服務(wù)器端又分為消息服務(wù)器、音視頻服務(wù)器及html5服務(wù)器。消息服務(wù)器主要功能是實(shí)現(xiàn)用戶端和機(jī)器人之間的消息轉(zhuǎn)發(fā)、雙方網(wǎng)絡(luò)的識(shí)別發(fā)現(xiàn)以及報(bào)警消息的推送。音視頻服務(wù)器主要功能則是通過stun協(xié)議實(shí)現(xiàn)nat穿越以及記錄用戶音視頻使用日志。html5服務(wù)器主要是實(shí)現(xiàn)手機(jī)app以及瀏覽器的通用功能。機(jī)器人端分為客戶端和服務(wù)器兩部分，分別同云服務(wù)器及用戶端連接。用戶端則包括手機(jī)app及瀏覽器，借助他們遠(yuǎn)程連接機(jī)器人服務(wù)器，以上所提到的服務(wù)器均是指軟件層面。

整個(gè)的機(jī)器人語音控制如圖4所示：語音信號(hào)通過語音采集輸入設(shè)備傳輸?shù)铰曉炊ㄎ荒K，之后通過算法定位聲源方位并將相關(guān)位置信息發(fā)送給機(jī)器人上層處理系統(tǒng)的運(yùn)動(dòng)控制模塊，進(jìn)而根據(jù)接收的聲源的定位信息計(jì)算出相應(yīng)的運(yùn)動(dòng)指令，通過串口發(fā)送給下層控制系統(tǒng)，最終實(shí)現(xiàn)機(jī)器人自主的精準(zhǔn)轉(zhuǎn)向運(yùn)動(dòng)。此外，機(jī)器人可根據(jù)用戶下達(dá)的語音指令實(shí)現(xiàn)前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)以及漫游巡邏等動(dòng)作和聲控拍照等非運(yùn)動(dòng)指令，使得用戶幾乎不需要前期培訓(xùn)學(xué)習(xí)就能依靠語音方便的來控制機(jī)器人，提升了機(jī)器人的智能化水平以及用戶的使用體驗(yàn)。

主控核心單元和監(jiān)控核心單元均采用基于cortex-m3內(nèi)核的stm32單片機(jī)；主控單元負(fù)責(zé)機(jī)器人運(yùn)動(dòng)控制、傳感器數(shù)據(jù)采集與融合及電源管理等任務(wù)，并為上層處理系統(tǒng)提供平臺(tái)控制的各種接口；監(jiān)控核心單元對(duì)常見錯(cuò)誤進(jìn)行實(shí)時(shí)監(jiān)視，包括機(jī)器人控制系統(tǒng)電源故障、主控制器程序執(zhí)行出錯(cuò)、運(yùn)行狀態(tài)出錯(cuò)(主要指運(yùn)行姿態(tài)或速度異常)等，當(dāng)機(jī)器人系統(tǒng)出現(xiàn)錯(cuò)誤時(shí)，控制系統(tǒng)能夠根據(jù)錯(cuò)誤的嚴(yán)重等級(jí)，采取分級(jí)應(yīng)對(duì)策略以保障機(jī)器人能夠安全、可靠、高效的工作。

情緒交互系統(tǒng)設(shè)計(jì)框圖如圖5所示。機(jī)器人基于kaldi開源語音識(shí)別工具在ubuntu平臺(tái)上實(shí)現(xiàn)語音識(shí)別，通過mongodb數(shù)據(jù)庫構(gòu)建了機(jī)器人的聊天知識(shí)庫與情感感知系統(tǒng)。語音識(shí)別有離線識(shí)別和在線識(shí)別兩種模式，由系統(tǒng)根據(jù)當(dāng)前網(wǎng)絡(luò)情況自主選擇。當(dāng)處于離線模式時(shí)，系統(tǒng)需要建立語法文件，其中定義了語音識(shí)別語句。當(dāng)系統(tǒng)從采集到的語音中識(shí)別到有效語句時(shí)，會(huì)翻譯成對(duì)應(yīng)文字，語義理解及情感分析單元進(jìn)行中文分詞，加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表，識(shí)別句子中的每一個(gè)情感詞，并以情感詞為中心滑動(dòng)檢測(cè)周邊副詞及否定詞情況，最后對(duì)所有情感詞及其修飾詞的情感值累加，得到當(dāng)前句子的情感值，判斷出用戶當(dāng)前的情緒，傳給情緒表現(xiàn)單元。當(dāng)處于在線模式時(shí)，可直接將識(shí)別的語句上傳至服務(wù)器，由服務(wù)器分析感知用戶情緒，進(jìn)而從網(wǎng)絡(luò)抓取相關(guān)內(nèi)容并回傳至機(jī)器人。在判斷出用戶情緒后，情緒表現(xiàn)單元通過切換動(dòng)態(tài)臉部表情和擬人化的手勢(shì)，配合定制的個(gè)性化語音，使機(jī)器人可以做出合理的反應(yīng)，可以在用戶情緒低落的時(shí)候給與安慰，在用戶情緒消沉?xí)r進(jìn)行鼓勵(lì)，使用戶在與機(jī)器人交流過程中感到舒心。

陪護(hù)機(jī)器人數(shù)據(jù)庫主要包括云服務(wù)器、手機(jī)app、人臉識(shí)別拍照開源庫以及機(jī)器人本體四部分，數(shù)據(jù)庫結(jié)構(gòu)及各部分所包含字段以及相互間的連接關(guān)系如圖6所示。

本發(fā)明綜合考慮安裝尺寸以及定位精度要求等因素，選取的是一種二維的五麥克風(fēng)圓形陣列，其中陣列的直徑為60mm，在圓心處放置一個(gè)麥克風(fēng)，其余幾個(gè)麥克風(fēng)均勻排布在陣列四周，如圖7所示。在安裝過程中，為了減小震動(dòng)影響，通過在麥克風(fēng)外圍增加了一圈硅膠套來達(dá)到減震效果，同時(shí)為了避免麥克風(fēng)和硅膠套以及硅膠套和機(jī)器人殼體之間形成空腔反射，在安裝時(shí)進(jìn)行了密封處理。

聲源定位方面，本文在比較分析經(jīng)典聲源定位算法的基礎(chǔ)上，選取一種基于到達(dá)時(shí)延的廣義互相關(guān)法(gcc：generalizedcrosscorrelation)定位算法。針對(duì)該算法在噪聲和回響較大環(huán)境中效果不夠理想的問題，對(duì)其進(jìn)行了改進(jìn)，增加一個(gè)phat加權(quán)函數(shù)，對(duì)頻譜信號(hào)進(jìn)行處理；同時(shí)引入一種拋物線插值算法，在不提高采樣頻率的前提下，有效提高了空間搜索定位精度，具體的流程如圖8所示：首先，通過對(duì)各個(gè)麥克風(fēng)拾取的語音信號(hào)采取快速傅氏變換，從而得到互功率譜；然后，再進(jìn)行加權(quán)削弱語音信號(hào)中的噪聲部分，從而使實(shí)際的有效信號(hào)得到增強(qiáng)；最后，結(jié)合互相關(guān)函數(shù)峰值偏移量以及信號(hào)采樣頻率，準(zhǔn)確估算出各個(gè)麥克風(fēng)的時(shí)延，進(jìn)而求得聲源的方位信息。

以陣列的第i個(gè)麥克風(fēng)為例進(jìn)行分析，不考慮信號(hào)幅值在傳播過程中的衰減，則其接收到的語音信號(hào)為：

xi(n)＝s(n-τi)+ni

其中，τi是麥克風(fēng)i拾取聲源信號(hào)s(n)的時(shí)延，ni表示噪聲，τi可通過以下式計(jì)算：

其中，rs和ri分別代表聲源和麥克風(fēng)的位置坐標(biāo)。

同理，對(duì)于第j個(gè)麥克風(fēng)，可以類比得到：

xj(n)＝s(n-τj)+nj

則這兩個(gè)麥克風(fēng)拾取信號(hào)xi(n)和xj(n)的互相關(guān)函數(shù)為：

rij(τ)＝e[xi(n)xj(n-τ)]

即：

rij(τ)＝e[s(n-τi)s(n-τj-τ)]+e[s(n-τi)nj(n-τ)]+

e[s(n-τ-τj)ni(τ)]+e[ni(τ)nj(n-τ)]

由于噪聲和聲源信號(hào)間不具有互相關(guān)性，所以可知e[s(n-τi)nj(n-τ)]和e[s(n-τ-τj)ni(τ)]兩項(xiàng)均為零，則簡(jiǎn)化為：

rij(τ)＝e[s(n-τi)s(n-τj-τ)]+e[ni(τ)nj(n-τ)]在信噪比較大的時(shí)候，可以不考慮第二項(xiàng)的影響，可簡(jiǎn)化為：

rij(τ)＝e[s(n-τi)s(n-τj-τ)]

顯然，當(dāng)τi＝τj時(shí)，互相關(guān)函數(shù)值最大，這里采用積分式：

但是在離散序列情況下，沒有辦法直接求取上述積分，需要采用相關(guān)定理來求取互相關(guān)函數(shù)最大值：

由于在實(shí)際中，觀測(cè)值并非是無限長(zhǎng)的，可以在離散域上改寫為：

其中，xi(k)和xj(k)分別為xi(n)和xj(n)的傅立葉變換，l為每幀信號(hào)的數(shù)據(jù)長(zhǎng)度。

考慮到實(shí)際應(yīng)用中會(huì)出現(xiàn)混響，最終的傳播模型可表示為：

xi(n)＝si(n)+hi(n)*s(n)+ni(n)＝s(n-τ)+hi(n)*s(n)+ni(n)

xj(n)＝sj(n)+hj(n)*s(n)+nj(n)＝s(n-τ)+hj(n)*s(n)+nj(n)

實(shí)際測(cè)試表明，在噪聲和回響較低的環(huán)境里，上述方法有較好的表現(xiàn)，但是在噪聲和回響較大環(huán)境中，效果則不夠理想，為此本文在上述算法的基礎(chǔ)上增加一個(gè)加權(quán)函數(shù)ψ(k)，對(duì)頻譜信號(hào)進(jìn)行處理。

本文選用phat方法，可轉(zhuǎn)化為：

此外，由于采樣率通常都不會(huì)很高，假設(shè)采樣率為10khz，聲速為340m/s，則單個(gè)樣本點(diǎn)的時(shí)延為1/10000＝0.1ms，能夠達(dá)到的空間搜索精度即為0.034m。由此可見，想要提高gcc方法的時(shí)延估計(jì)精度就需要提高采樣率，在單位時(shí)間內(nèi)獲得更多的樣本數(shù)量，但是受系統(tǒng)的硬件限制，采樣率不可能無限制提高。為了在不提高采樣精度的前提下提高時(shí)延估計(jì)的精度，本文采用了一種拋物線插值算法，從而使得采樣點(diǎn)的空間搜索精度得到有效提升。

該方法基于拋物線的峰值點(diǎn)來對(duì)時(shí)延進(jìn)行估測(cè)，從而達(dá)到在采樣率不變的前提下，提高時(shí)延的估測(cè)精度。具體方法是：

設(shè)原始語音信號(hào)序列為γ(t)，γmax為最大值點(diǎn)，γmax-1和γmax+1分別是最大值點(diǎn)的左右相鄰點(diǎn)，tmax、tmax-1和tmax+1分別是三個(gè)點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)。

假設(shè)拋物線方程為：

γ(t)＝at²+bt+c

由拋物線方程性質(zhì)可得三點(diǎn)的坐標(biāo)關(guān)系為：

由上面方程組計(jì)算可得：

進(jìn)一步可求得插值之后的峰值為：

本發(fā)明在進(jìn)行語音識(shí)別及聲源定位時(shí)，采用了雙門限檢測(cè)算法來從信號(hào)流中檢測(cè)出語音的起始點(diǎn)和終止點(diǎn)，這樣就可以只對(duì)有用信號(hào)段進(jìn)行分析處理，避免靜音段以及噪音段的干擾，減小數(shù)據(jù)計(jì)算量和處理時(shí)間，具體流程如圖9所示：首先，對(duì)信號(hào)做濾波去噪以及分幀加窗的處理；然后，分別計(jì)算短時(shí)能量和短時(shí)過零率。第一級(jí)判定依據(jù)信號(hào)的平均能量值設(shè)定一個(gè)閾值略高的門限值t1，判斷語音信號(hào)的起始點(diǎn)，再結(jié)合實(shí)際環(huán)境噪聲的大小設(shè)置一個(gè)略低的門限值t2，判斷出語音結(jié)的束點(diǎn)；第二級(jí)判定，依據(jù)環(huán)境噪聲的過零率來設(shè)定一個(gè)門限值t3，確定一級(jí)判定中語音前端的清音和末端的尾音。

本發(fā)明在基于kaldi平臺(tái)進(jìn)行語音識(shí)別時(shí)，除了原始語料的準(zhǔn)備，還需要手動(dòng)創(chuàng)建一系列腳本文件。其中，wav.scp文件的主要作用是指明所下載語料庫中語音文件的存放位置；text文件的作用主要是存放對(duì)應(yīng)語音段的文本標(biāo)注內(nèi)容；utt2spk文件的作用是指明語音段同說話人對(duì)應(yīng)關(guān)系，即指明該段語音的錄制人編號(hào)。除了準(zhǔn)備上述三個(gè)與語音數(shù)據(jù)相關(guān)的文件，還需要準(zhǔn)備包括發(fā)音詞典以及指定發(fā)音音素和靜音音素的相關(guān)文件：lexicon.txt文件中的每個(gè)字詞的發(fā)音都被聲韻母符號(hào)所標(biāo)注，而且還加入了聲調(diào)來對(duì)多音字進(jìn)行了追加標(biāo)注；silence_phones.txt文件僅包含音素“sil”用來表示靜音音素；nonsilence_phones.txt文件則是包含了所有的發(fā)音音素；optional_silence.txt文件包含了出現(xiàn)在詞與詞之間的一個(gè)音素，這里也是用符號(hào)“sil”進(jìn)行表示；所有上述需要手動(dòng)創(chuàng)建的文件目錄如圖10所示。

本發(fā)明在語音識(shí)別時(shí)，解碼采用的是一種加權(quán)有限狀態(tài)機(jī)(wfst)的靜態(tài)空間網(wǎng)絡(luò)，如圖11所示，它涵蓋了聲學(xué)模型層，語言模型層以及發(fā)音詞典層，在整個(gè)網(wǎng)絡(luò)中間進(jìn)行搜索尋優(yōu)，其中搜索算法就是采用的上節(jié)提到的viterbi算法：基于似然概率準(zhǔn)則，在由眾多聲學(xué)狀態(tài)組成的網(wǎng)絡(luò)中通過動(dòng)態(tài)規(guī)劃計(jì)算得到一條最優(yōu)路徑。

本發(fā)明整個(gè)的語音識(shí)別框架包含聲學(xué)模型訓(xùn)練及語言模型訓(xùn)練，如圖12所示。

本發(fā)明為了提高運(yùn)動(dòng)控制精度，采取了一種分段控制策略，如圖13所示。其核心思想是基于誤差和誤差變化率在模糊控制和pid控制間切換，在不同階段發(fā)揮各自的優(yōu)勢(shì)。在起始段和中間段，采用模糊控制來發(fā)揮其快速性好、抗擾動(dòng)能力強(qiáng)的優(yōu)勢(shì)；在結(jié)束段，采用pid控制來發(fā)揮其穩(wěn)定性好、控制精度高的優(yōu)勢(shì)。在保證運(yùn)動(dòng)流暢的同時(shí)，提升運(yùn)動(dòng)控制的精度。

本發(fā)明的機(jī)器人系統(tǒng)具有學(xué)習(xí)能力，不僅可以完成開發(fā)人員預(yù)想到的用戶需求，還可在用戶的使用過程中自主進(jìn)化出更適合用戶使用的功能。在網(wǎng)絡(luò)連接情況下，當(dāng)機(jī)器人與用戶的對(duì)話超過知識(shí)庫的范圍時(shí)，機(jī)器人會(huì)將當(dāng)前對(duì)話上傳服務(wù)器進(jìn)行查詢，并返回結(jié)果進(jìn)行語音回答，同時(shí)將查詢結(jié)果添加到知識(shí)庫中，不斷擴(kuò)展自己的知識(shí)庫。此外用戶也可以通過語音或文字輸入的方式來教給機(jī)器人知識(shí)，擴(kuò)展知識(shí)庫和語音識(shí)別離線模式時(shí)語法文件中的識(shí)別語句。

如圖14所示，機(jī)器人本體會(huì)按照識(shí)別的用戶的情緒相應(yīng)的做出表情，以安撫用戶或與用戶進(jìn)行交流。

以上所述僅為本申請(qǐng)的優(yōu)選實(shí)施例而已，并不用于限制本申請(qǐng)，對(duì)于本領(lǐng)域的技術(shù)人員來說，本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。

上述雖然結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行了描述，但并非對(duì)本發(fā)明保護(hù)范圍的限制，所屬領(lǐng)域技術(shù)人員應(yīng)該明白，在本發(fā)明的技術(shù)方案的基礎(chǔ)上，本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動(dòng)即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周風(fēng)余;姜志飛;田天;王玉剛;尹磊;陳科;趙陽;萬方
技術(shù)所有人：山東大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、平老師：1.功能涂層設(shè)計(jì)與應(yīng)用 2.柔性電子器件設(shè)計(jì)與應(yīng)用 3.結(jié)構(gòu)動(dòng)態(tài)參數(shù)測(cè)試與裝置研發(fā) 4.智能機(jī)電一體化產(chǎn)品研發(fā) 5.3D打印工藝與設(shè)備
2、潘老師：1.機(jī)電一體化裝備及其控制技術(shù) 2.多傳感器信息融合與質(zhì)量評(píng)定
3、王老師：機(jī)械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽能電池
5、李老師：新型電力電子技術(shù)在微網(wǎng)中的應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法與流程