欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法與流程

文檔序號(hào):11268433閱讀:436來源:國知局
一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法與流程

本發(fā)明涉及一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法。



背景技術(shù):

如今,獨(dú)生子女一代正在成為社會(huì)的中堅(jiān)力量,而他們所面臨的父母及孩子的陪伴看護(hù)等問題也日益凸顯,因此家庭陪護(hù)機(jī)器人的需求也日益旺盛。相較于工業(yè)機(jī)器人,服務(wù)機(jī)器人起步相對(duì)較晚,還不夠成熟,目前僅有掃地機(jī)器人在家庭中間擁有相對(duì)較高的普及率,其他大部分服務(wù)機(jī)器人還停留在實(shí)驗(yàn)室階段,其功能服務(wù)同消費(fèi)者的期望還有很大的差距。

根據(jù)國家統(tǒng)計(jì)局最新發(fā)布的數(shù)據(jù),顯示老齡化程度進(jìn)一步加深。其中,60周歲及以上人口23086萬人,占總?cè)丝诘?6.7%;65周歲及以上人口15003萬人,占總?cè)丝诘?0.8%。同時(shí),單獨(dú)二孩政策已在各地陸續(xù)正式實(shí)施,兒童的數(shù)量在現(xiàn)有基礎(chǔ)上,還會(huì)有一定幅度的增加。因此,大力發(fā)展家庭陪護(hù)機(jī)器人,發(fā)揮他們?cè)谂阕o(hù)和啟蒙教育等方面的作用將是社會(huì)發(fā)展的必然要求,這將大大減輕年輕人的負(fù)擔(dān),社會(huì)意義重大,但同時(shí)對(duì)服務(wù)機(jī)器人的人機(jī)交互方式也提出了更高的要求。

而日常生活中,人們之間的交互方式主要包括語音、視覺、手勢(shì)等形式,其中語音是最為簡(jiǎn)單高效的一種交互形式,也最符合人們的交流習(xí)慣。語音識(shí)別技術(shù)是近幾年的研究熱點(diǎn),已取得較大進(jìn)展,并在很多領(lǐng)域得到了應(yīng)用,比如車載設(shè)備、游戲、智能家電等。語音識(shí)別技術(shù)能夠讓機(jī)器理解用戶所說的內(nèi)容,解放了用戶雙手,提升人機(jī)交互體驗(yàn)。

針對(duì)應(yīng)用場(chǎng)合的不同,語音識(shí)別的側(cè)重點(diǎn)也不盡相同。有些情況僅僅需要識(shí)別其中的一些關(guān)鍵詞即可,比如基于語音關(guān)鍵詞的運(yùn)動(dòng)控制;有一些場(chǎng)景要求盡量準(zhǔn)確的識(shí)別出語音包含的所有漢字,比如語音輸入;還有些情況不僅要求完整識(shí)別文字,還要求能夠洞察出說話人的情感信息。要想使用戶有好的人機(jī)交互體驗(yàn),除了語音識(shí)別技術(shù)外,同樣也離不開聲源定位技術(shù),只有讓機(jī)器知曉說話人的方位,才能夠有針對(duì)性的做出動(dòng)作響應(yīng),而且將定位信息進(jìn)一步同視覺等信息結(jié)合,可以開發(fā)出更多的功能場(chǎng)景。雖然語音技術(shù)已經(jīng)在很多領(lǐng)域都已經(jīng)有廣泛應(yīng)用,但是在機(jī)器人行業(yè)中還沒有完全普及,也存在一些技術(shù)問題有待解決。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明為了解決上述問題,提出了一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法,本發(fā)明能夠?qū)崿F(xiàn)機(jī)器人對(duì)說話人位置的估計(jì)及語音指令的響應(yīng)等功能,有利于服務(wù)型機(jī)器人與人的交互。

為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種基于智能聲源定位與語音控制的機(jī)器人系統(tǒng),包括服務(wù)器、客戶端和設(shè)置于機(jī)器人本體上的控制單元,其中:

所述服務(wù)器,被配置為存儲(chǔ)有賬戶信息、權(quán)限設(shè)置和語音與視頻信息,基于云共享機(jī)制,實(shí)現(xiàn)機(jī)器人的群體學(xué)習(xí)與進(jìn)化;

所述客戶端,顯示機(jī)器人經(jīng)由服務(wù)器傳送的語音和視頻信息,并可進(jìn)行權(quán)限修改、資源管理和遠(yuǎn)程控制操作;

所述控制單元,包括相互通信的上層處理系統(tǒng)和下層控制系統(tǒng),所述上層處理系統(tǒng)被配置為具有多個(gè)采集模塊,分別采集語音和視頻信息,并根據(jù)語音的聲源進(jìn)行定位,進(jìn)而控制機(jī)器人本體運(yùn)動(dòng),識(shí)別語音內(nèi)容;

所述下層控制系統(tǒng)被配置為接受并解析下達(dá)的運(yùn)動(dòng)指令,利用電機(jī)驅(qū)動(dòng)單元驅(qū)動(dòng)電機(jī)按照設(shè)定的速度運(yùn)動(dòng),并將機(jī)器人的運(yùn)行情況反饋至上層處理系統(tǒng),實(shí)現(xiàn)語音的實(shí)時(shí)控制;

所述機(jī)器人本體根據(jù)識(shí)別的語音內(nèi)容執(zhí)行相應(yīng)的語音操作,并識(shí)別語音信息中的情緒,控制本體上設(shè)置的表情模塊展示不同的表情。

進(jìn)一步的,所述下層控制系統(tǒng)包括主控核心單元及作為冗余配置的監(jiān)控核心單元,主控核心單元與上層處理系統(tǒng)進(jìn)行通信,同時(shí)通過rs232與客戶端進(jìn)行通信,解析出速度設(shè)定值,同時(shí)捕獲碼盤的脈沖數(shù),得到電機(jī)的實(shí)際速度,構(gòu)成速度閉環(huán)控制,根據(jù)速度設(shè)定值和實(shí)際速度值,每隔設(shè)定的時(shí)間進(jìn)行一次pid運(yùn)算,通過pwm調(diào)制方式控制電機(jī)的轉(zhuǎn)速。

進(jìn)一步的,所述監(jiān)控核心單元包括冗余處理器,冗余處理器捕獲碼盤脈沖數(shù),解析電機(jī)的實(shí)際速度,并與主控核心單元解析的速度值進(jìn)行比較,當(dāng)兩者不一致時(shí),根據(jù)故障處理機(jī)制及時(shí)處理異常,主控核心單元和冗余處理器之間定期進(jìn)行數(shù)據(jù)傳輸,當(dāng)冗余處理器接收不到主控核心單元發(fā)送的數(shù)據(jù)或者接收到錯(cuò)誤數(shù)據(jù)時(shí),冗余處理器及時(shí)復(fù)位主控核心單元。

進(jìn)一步的,所述機(jī)器人本體上設(shè)置有五麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)采集語音信息,具體包括位于圓心的一個(gè)麥克風(fēng)以及圍繞該麥克風(fēng)為圓心圍繞其均勻分布的四個(gè)麥克風(fēng)。

進(jìn)一步的,所述機(jī)器人本體上設(shè)置有表情模塊,為led點(diǎn)陣屏,根據(jù)識(shí)別的用戶情緒展現(xiàn)多種表情,且機(jī)器人本體的頭部設(shè)置有高清攝像頭,根據(jù)識(shí)別的聲源位置通過頭部俯仰電機(jī)自動(dòng)調(diào)整位置并響應(yīng)語音指令。

進(jìn)一步的,所述上層處理系統(tǒng)設(shè)置有語音識(shí)別與交互模塊,所述語音識(shí)別與交互模塊與服務(wù)器通信,在ubuntu平臺(tái)上實(shí)現(xiàn)語音識(shí)別,通過mongodb數(shù)據(jù)庫構(gòu)建聊天知識(shí)庫,語音識(shí)別有離線識(shí)別和在線識(shí)別兩種模式,當(dāng)處于離線模式時(shí),上層處理系統(tǒng)建立語法文件,其中定義語音識(shí)別語句,當(dāng)從采集到的語音中識(shí)別到有效語句時(shí),翻譯成對(duì)應(yīng)文字,進(jìn)行中文分詞,加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表,識(shí)別句子中的每一個(gè)情感詞,并以情感詞為中心滑動(dòng)檢測(cè)周邊副詞及否定詞情況,最后對(duì)所有情感詞及其修飾詞的情感值累加,得到當(dāng)前句子的情感值,判斷出用戶當(dāng)前的情緒狀態(tài),發(fā)送給表情模塊;當(dāng)處于在線模式時(shí),直接將識(shí)別的語句上傳至服務(wù)器,由服務(wù)器分析感知用戶情緒,進(jìn)而從網(wǎng)絡(luò)抓取相關(guān)內(nèi)容并回傳至機(jī)器人系統(tǒng)。

基于上述機(jī)器人系統(tǒng)的工作方法,不斷采集周圍的語音信息,當(dāng)存在語音指令后,進(jìn)行聲源定位,控制機(jī)器人本體移動(dòng)到聲源位置,對(duì)采集的語音信息進(jìn)行識(shí)別,識(shí)別到有效語句時(shí),發(fā)送相應(yīng)的控制指令給機(jī)器人本體執(zhí)行對(duì)應(yīng)的操作,同時(shí)將有效語句翻譯成對(duì)應(yīng)文字,進(jìn)行中文分詞,加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表,識(shí)別句子中的每一個(gè)情感詞,根據(jù)識(shí)別結(jié)果展示相應(yīng)的表情。

進(jìn)一步的,所述機(jī)器人本體接收客戶端的遠(yuǎn)程控制指令,當(dāng)進(jìn)行遠(yuǎn)程看護(hù)時(shí),服務(wù)器同時(shí)啟用主連接監(jiān)聽和協(xié)助打洞監(jiān)聽,客戶端通過身份驗(yàn)證后,機(jī)器人本體同客戶端都與服務(wù)器保持主連接暢通,當(dāng)客戶端需要連接機(jī)器人時(shí),借助服務(wù)器的協(xié)助打洞端口,將客戶端通過網(wǎng)絡(luò)地址翻譯后的公網(wǎng)ip通知給機(jī)器人本體,然后機(jī)器人嘗試與客戶端進(jìn)行連接,同時(shí)在相同的端口啟動(dòng)偵聽,并通過服務(wù)器將經(jīng)過網(wǎng)絡(luò)地址翻譯的ip通知給客戶端,當(dāng)客戶端主動(dòng)連接機(jī)器人時(shí),機(jī)器人允許連接,網(wǎng)絡(luò)打洞成功。

進(jìn)一步的,首先連接機(jī)器人本體的默認(rèn)為主客戶端,在查看機(jī)器人拍攝視頻的同時(shí)向機(jī)器人發(fā)送運(yùn)動(dòng)控制指令,其他連接為從客戶端,只能查看機(jī)器人的拍攝視頻和當(dāng)前狀態(tài),不能進(jìn)行運(yùn)動(dòng)控制,當(dāng)主客戶端下線后,公網(wǎng)服務(wù)器會(huì)通知其他從客戶端使其通過申請(qǐng)成為主客戶端。

進(jìn)一步的,聲源定位方法利用改進(jìn)的基于到達(dá)時(shí)延的廣義互相關(guān)法定位算法,通過對(duì)各個(gè)麥克風(fēng)拾取的語音信號(hào)采取快速傅氏變換,得到互功率譜,利用phat加權(quán)函數(shù)削弱語音信號(hào)中的噪聲部分,結(jié)合互相關(guān)函數(shù)峰值偏移量以及信號(hào)采樣頻率,準(zhǔn)確估算出各個(gè)麥克風(fēng)的時(shí)延,進(jìn)而求得聲源的方位信息。

進(jìn)一步的,語音識(shí)別方法采用kaldi開源語音識(shí)別開發(fā)平臺(tái),基于準(zhǔn)備的訓(xùn)練數(shù)據(jù)及腳本,采用了一種基于三音子的lsm語音識(shí)別模型。

進(jìn)一步的,聲源定位方和語音識(shí)別時(shí),采用雙門限檢測(cè)算法來從信號(hào)流中檢測(cè)出語音的起始點(diǎn)和終止點(diǎn)。

具體為對(duì)信號(hào)做濾波去噪以及分幀加窗的處理,分別計(jì)算短時(shí)能量和短時(shí)過零率,進(jìn)行多級(jí)判定,第一級(jí)判定依據(jù)信號(hào)的平均能量值設(shè)定一個(gè)閾值略高的門限值t1,判斷語音信號(hào)的起始點(diǎn),再結(jié)合實(shí)際環(huán)境噪聲的大小設(shè)置一個(gè)略低的門限值t2,判斷出語音結(jié)的束點(diǎn),第二級(jí)判定,依據(jù)環(huán)境噪聲的過零率來設(shè)定一個(gè)門限值t3,確定一級(jí)判定中語音前端的清音和末端的尾音。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

服務(wù)型機(jī)器人所處的家庭環(huán)境通常比較復(fù)雜,而且面向的用戶群體大多是兒童和老人,通過按鍵或觸屏等方式操控機(jī)器人的傳統(tǒng)方式越來越無法滿足大眾的需求。而本發(fā)明基于語音的控制方式則可以使用戶幾乎不需要任何培訓(xùn)和學(xué)習(xí),就能夠以自己最為熟悉自然的方式來和機(jī)器人進(jìn)行交互,大大提升了人機(jī)交互的體驗(yàn)效果。

該機(jī)器人系統(tǒng)的運(yùn)動(dòng)控制方式靈活多樣,既可通過語音指令控制機(jī)器人的運(yùn)動(dòng),也支持手機(jī)app觸屏控制;具有語音識(shí)別功能,可根據(jù)聊天內(nèi)容,配合機(jī)器人語速、語調(diào)以及面部表情變化,表達(dá)機(jī)器人的喜怒哀樂;具有聲源定位功能,當(dāng)用戶語音喚醒機(jī)器人時(shí),機(jī)器人可以定位出用戶的位置信息,自主轉(zhuǎn)向移動(dòng)到用戶面前;具有遠(yuǎn)程看護(hù)功能,用戶可以遠(yuǎn)程登錄機(jī)器人查看家中老人及兒童當(dāng)前狀態(tài)。

為了確保機(jī)器人的安全可靠運(yùn)行,服務(wù)型機(jī)器人具備故障檢測(cè)及自處理功能,可以實(shí)時(shí)監(jiān)控機(jī)器人的運(yùn)行狀況,及時(shí)處理瘋跑、過流、通信亂碼等機(jī)器故障。同時(shí),該機(jī)器人配有避障系統(tǒng)和防跌落系統(tǒng),在用戶使用的過程中自動(dòng)規(guī)避障礙物,起到自我保護(hù)的作用。

附圖說明

構(gòu)成本申請(qǐng)的一部分的說明書附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解,本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。

圖1為本發(fā)明的整體設(shè)計(jì)方案框圖;

圖2為本發(fā)明的上層處理系統(tǒng)模塊劃分圖;

圖3為本發(fā)明的網(wǎng)絡(luò)通信結(jié)構(gòu)圖;

圖4為本發(fā)明的語音控制系統(tǒng)流程圖;

圖5為本發(fā)明的情緒系統(tǒng)設(shè)計(jì)框圖;

圖6為本發(fā)明的數(shù)據(jù)庫結(jié)構(gòu)圖;

圖7為本發(fā)明的麥克風(fēng)陣列分布圖;

圖8為本發(fā)明的gcc時(shí)延估計(jì)定位流程框圖;

圖9為本發(fā)明的語音端點(diǎn)檢測(cè)流程圖;

圖10為本發(fā)明的kaldi語音識(shí)別平臺(tái)數(shù)據(jù)準(zhǔn)備框圖;

圖11為本發(fā)明的語音識(shí)別搜索網(wǎng)絡(luò)層級(jí)圖;

圖12為本發(fā)明的語音識(shí)別流程框圖;

圖13為本發(fā)明的聲源定位轉(zhuǎn)向分段運(yùn)動(dòng)控制流程框圖。

圖14為本發(fā)明的機(jī)器人面部表情圖。

具體實(shí)施方式:

下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。

應(yīng)該指出,以下詳細(xì)說明都是例示性的,旨在對(duì)本申請(qǐng)?zhí)峁┻M(jìn)一步的說明。除非另有指明,本文使用的所有技術(shù)和科學(xué)術(shù)語具有與本申請(qǐng)所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。

需要注意的是,這里所使用的術(shù)語僅是為了描述具體實(shí)施方式,而非意圖限制根據(jù)本申請(qǐng)的示例性實(shí)施方式。如在這里所使用的,除非上下文另外明確指出,否則單數(shù)形式也意圖包括復(fù)數(shù)形式,此外,還應(yīng)當(dāng)理解的是,當(dāng)在本說明書中使用術(shù)語“包含”和/或“包括”時(shí),其指明存在特征、步驟、操作、器件、組件和/或它們的組合。

正如背景技術(shù)所介紹的,現(xiàn)有技術(shù)中存在服務(wù)型機(jī)器人的聲源定位與語音識(shí)別存在不準(zhǔn)確和識(shí)別內(nèi)容不全面,以及服務(wù)型機(jī)器人與被陪護(hù)人的交互不人性化的不足,為了解決如上的技術(shù)問題,本申請(qǐng)?zhí)岢隽艘环N基于智能聲源定位與語音控制的機(jī)器人系統(tǒng)及方法,本發(fā)明能夠?qū)崿F(xiàn)機(jī)器人對(duì)說話人位置的估計(jì)及語音指令的響應(yīng)等功能,有利于服務(wù)型機(jī)器人與人的交互。

包括云服務(wù)器、手機(jī)app和機(jī)器人本體三部分。

所述云服務(wù)器主要作用是存儲(chǔ)機(jī)器人的一些賬戶信息、權(quán)限設(shè)置和日常錄制的一些語音及視頻信息。此外,還可以進(jìn)行一些復(fù)雜的數(shù)據(jù)處理及運(yùn)算,在云端進(jìn)行有機(jī)結(jié)合實(shí)現(xiàn)機(jī)器人智能化認(rèn)知,并基于云端知識(shí)共享機(jī)制,實(shí)現(xiàn)機(jī)器人的群體學(xué)習(xí)與進(jìn)化,云端學(xué)習(xí)到的知識(shí)源源不斷的下載到機(jī)器人本體。這種分層次的體系架構(gòu)可以大幅度提高家庭陪護(hù)機(jī)器人的認(rèn)知能力、智力水平和人性化服務(wù)水平,并有效降低機(jī)器人個(gè)體成本,使得家用陪護(hù)機(jī)器人“物美價(jià)廉”,打破阻礙機(jī)器人推廣應(yīng)用的瓶頸。

所述手機(jī)app的作用是方便在外工作的子女通過音視頻了解到家中老人、兒童的實(shí)時(shí)狀況,也可以方便的發(fā)送指令,遠(yuǎn)程操控機(jī)器人。

所述機(jī)器人本體由上層處理系統(tǒng)和下層控制系統(tǒng)組成,它們之間通過rs232串口進(jìn)行通信。

所述上層處理系統(tǒng)包括語音識(shí)別模塊、聲源定位模塊、表情模塊、實(shí)時(shí)音視頻模塊、運(yùn)動(dòng)控制模塊等,這些模塊各自通過軟件接口同智能分析模塊連接,由智能分析模塊進(jìn)行統(tǒng)一調(diào)度處理,上層處理系統(tǒng)通過無線裝置與路由器通信,路由器通過公網(wǎng)服務(wù)器與遠(yuǎn)程終端客戶端進(jìn)行實(shí)時(shí)通信。

其中,機(jī)器人面部led點(diǎn)陣屏可以根據(jù)識(shí)別的用戶情緒展現(xiàn)多種表情實(shí)現(xiàn)娛樂陪護(hù)的功能;頭部高清攝像頭可以根據(jù)識(shí)別的聲源位置通過頭部俯仰電機(jī)自動(dòng)調(diào)整位置并響應(yīng)拍照等語音指令;手機(jī)app與機(jī)器人本體進(jìn)行遠(yuǎn)程通信,實(shí)時(shí)查看機(jī)器人拍攝視頻的同時(shí)可以向其發(fā)送運(yùn)動(dòng)控制語音指令。

所述下層控制系統(tǒng)包括主控核心單元及作為冗余配置的監(jiān)控核心單元,主控核心單元與上層處理系統(tǒng)進(jìn)行通信,接受并解析下達(dá)的運(yùn)動(dòng)指令,利用電機(jī)驅(qū)動(dòng)單元驅(qū)動(dòng)電機(jī)按照設(shè)定的速度運(yùn)動(dòng),并將機(jī)器人的運(yùn)行情況返回上層處理系統(tǒng),監(jiān)控核心單元與主控核心單元進(jìn)行實(shí)時(shí)通信。

所述主控核心單元包括主處理器,主處理器通過rs232與客戶端進(jìn)行通信,解析出速度設(shè)定值,同時(shí)捕獲碼盤的脈沖數(shù),得到電機(jī)的實(shí)際速度,構(gòu)成速度閉環(huán)控制系統(tǒng),根據(jù)速度設(shè)定值和實(shí)際速度值,每隔設(shè)定的時(shí)間進(jìn)行一次pid運(yùn)算,通過pwm調(diào)制方式控制電機(jī)的轉(zhuǎn)速。

所述監(jiān)控核心單元包括冗余處理器,冗余處理器捕獲碼盤脈沖數(shù),解析電機(jī)的實(shí)際速度,并與主處理器解析的速度值進(jìn)行比較,當(dāng)兩者不一致時(shí),根據(jù)故障處理機(jī)制及時(shí)處理異常,主處理器和冗余處理器之間定期進(jìn)行數(shù)據(jù)傳輸,當(dāng)冗余處理器接收不到主處理器發(fā)送的數(shù)據(jù)或者接收到錯(cuò)誤數(shù)據(jù)時(shí),冗余處理器及時(shí)復(fù)位主處理器。

所述冗余處理器與聲光報(bào)警電路、過流檢測(cè)電路、過熱檢測(cè)電路及開關(guān)電路相連,當(dāng)檢測(cè)到過流、過熱及電池電壓過低狀況時(shí),關(guān)斷開關(guān)電路,切斷電池供電。

利用遠(yuǎn)程看護(hù)系統(tǒng)進(jìn)行遠(yuǎn)程看護(hù)時(shí),公網(wǎng)服務(wù)器啟動(dòng)兩個(gè)監(jiān)聽,一個(gè)是主連接監(jiān)聽,一個(gè)是協(xié)助打洞監(jiān)聽,客戶端通過身份驗(yàn)證后,機(jī)器人本體同客戶端都與服務(wù)器保持主連接暢通,當(dāng)客戶端需要連接機(jī)器人時(shí),借助服務(wù)器的協(xié)助打洞端口,將客戶端通過網(wǎng)絡(luò)地址翻譯后的公網(wǎng)ip通知給機(jī)器人本體,然后機(jī)器人嘗試與客戶端進(jìn)行連接,同時(shí)在相同的端口啟動(dòng)偵聽,并通過服務(wù)器將經(jīng)過網(wǎng)絡(luò)地址翻譯的ip通知給客戶端,當(dāng)客戶端主動(dòng)連接機(jī)器人時(shí),機(jī)器人允許連接,網(wǎng)絡(luò)打洞成功。首先連接客戶端的默認(rèn)為主客戶端,在查看客戶端拍攝視頻的同時(shí)可以向客戶端發(fā)送運(yùn)動(dòng)控制指令,其他連接為從客戶端,只能查看機(jī)器人的拍攝視頻和當(dāng)前狀態(tài),不能進(jìn)行運(yùn)動(dòng)控制,當(dāng)主客戶端下線后,公網(wǎng)服務(wù)器會(huì)通知其他從客戶端使其通過申請(qǐng)成為主客戶端。

所述情緒交互系統(tǒng)在ubuntu平臺(tái)上實(shí)現(xiàn)語音識(shí)別,通過mongodb數(shù)據(jù)庫構(gòu)建了聊天知識(shí)庫,語音識(shí)別有離線識(shí)別和在線識(shí)別兩種模式,當(dāng)處于離線模式時(shí),系統(tǒng)需要建立語法文件,其中定義語音識(shí)別語句,當(dāng)系統(tǒng)從采集到的語音中識(shí)別到有效語句時(shí),會(huì)翻譯成對(duì)應(yīng)文字,語義理解及情感分析單元進(jìn)行中文分詞,加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表,識(shí)別句子中的每一個(gè)情感詞,并以情感詞為中心滑動(dòng)檢測(cè)周邊副詞及否定詞情況,最后對(duì)所有情感詞及其修飾詞的情感值累加,得到當(dāng)前句子的情感值,判斷出用戶當(dāng)前的情緒狀態(tài),發(fā)送給表情模塊,當(dāng)處于在線模式時(shí),可直接將識(shí)別的語句上傳至服務(wù)器,由服務(wù)器分析感知用戶情緒,進(jìn)而從網(wǎng)絡(luò)抓取相關(guān)內(nèi)容并回傳至機(jī)器人系統(tǒng),在判斷出用戶情緒后,表情模塊通過切換動(dòng)態(tài)臉部表情和擬人化的手勢(shì),配合定制的個(gè)性化語音,使機(jī)器人做出合理的反應(yīng),在用戶情緒低落的時(shí)候給與安慰,在用戶情緒消沉?xí)r進(jìn)行鼓勵(lì),使用戶在與機(jī)器人交流過程中感到舒心。

本發(fā)明的下層控制系統(tǒng)專注于底層的服務(wù),通過rs232與客戶端進(jìn)行通信,通過軟件接口實(shí)現(xiàn)命令包和數(shù)據(jù)包的交換;上層處理系統(tǒng)固定于機(jī)器人內(nèi)部鋁架上,運(yùn)行ubuntu系統(tǒng),經(jīng)語音識(shí)別后智能感知用戶情緒,通過面部多種表情,實(shí)現(xiàn)娛樂陪護(hù)的功能;平板攝像頭作為視頻采集通道,通過網(wǎng)絡(luò)透網(wǎng)傳輸給用戶手機(jī)等終端,實(shí)現(xiàn)遠(yuǎn)程看護(hù)老人及兒童的功能,同時(shí)也可以響應(yīng)拍照等語音指令;通過聲源定位功能,當(dāng)用戶語音喚醒機(jī)器人時(shí),機(jī)器人可以定位出用戶的位置信息,自主轉(zhuǎn)向移動(dòng)到用戶面前。

本申請(qǐng)的一種典型的實(shí)施方式中,如圖1所示,該機(jī)器人采用典型的c/s機(jī)器人工作模式。底層控制系統(tǒng)包括電源管理單元,電源管理單元為整個(gè)系統(tǒng)提供穩(wěn)定可靠的輸出電壓及電流,電池電量由主控核心測(cè)量,在數(shù)碼管上實(shí)時(shí)顯示,可實(shí)現(xiàn)低壓報(bào)警及關(guān)斷功能;主控核心單元接受并解析上層處理系統(tǒng)下達(dá)的運(yùn)動(dòng)指令,驅(qū)動(dòng)電機(jī)按照設(shè)定的速度運(yùn)動(dòng),同時(shí)開啟紅外避障防跌落功能,并將機(jī)器人的運(yùn)行情況返回上層處理系統(tǒng)。監(jiān)控核心單元作為冗余單元,負(fù)責(zé)監(jiān)控機(jī)器人是否存在失控、堵轉(zhuǎn)、過流及通信亂碼等故障。上層處理系統(tǒng)主要包含情緒交互系統(tǒng),遠(yuǎn)程看護(hù)系統(tǒng)和聲源定位系統(tǒng),具體包含的軟件模塊如圖2所示。情緒交互系統(tǒng)通過語音識(shí)別和語義識(shí)別感知用戶情緒,結(jié)合面部表情動(dòng)畫做出人性化反饋;遠(yuǎn)程看護(hù)系統(tǒng)有遠(yuǎn)程透網(wǎng)傳輸和遠(yuǎn)程語音運(yùn)動(dòng)控制兩個(gè)部分;聲源定位系統(tǒng)可以定位出用戶的位置信息,使機(jī)器人自主轉(zhuǎn)向移動(dòng)到用戶面前。

機(jī)器人整體通信網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,主要包括云服務(wù)器、用戶端及機(jī)器人三部分。其中,云服務(wù)器端又分為消息服務(wù)器、音視頻服務(wù)器及html5服務(wù)器。消息服務(wù)器主要功能是實(shí)現(xiàn)用戶端和機(jī)器人之間的消息轉(zhuǎn)發(fā)、雙方網(wǎng)絡(luò)的識(shí)別發(fā)現(xiàn)以及報(bào)警消息的推送。音視頻服務(wù)器主要功能則是通過stun協(xié)議實(shí)現(xiàn)nat穿越以及記錄用戶音視頻使用日志。html5服務(wù)器主要是實(shí)現(xiàn)手機(jī)app以及瀏覽器的通用功能。機(jī)器人端分為客戶端和服務(wù)器兩部分,分別同云服務(wù)器及用戶端連接。用戶端則包括手機(jī)app及瀏覽器,借助他們遠(yuǎn)程連接機(jī)器人服務(wù)器,以上所提到的服務(wù)器均是指軟件層面。

整個(gè)的機(jī)器人語音控制如圖4所示:語音信號(hào)通過語音采集輸入設(shè)備傳輸?shù)铰曉炊ㄎ荒K,之后通過算法定位聲源方位并將相關(guān)位置信息發(fā)送給機(jī)器人上層處理系統(tǒng)的運(yùn)動(dòng)控制模塊,進(jìn)而根據(jù)接收的聲源的定位信息計(jì)算出相應(yīng)的運(yùn)動(dòng)指令,通過串口發(fā)送給下層控制系統(tǒng),最終實(shí)現(xiàn)機(jī)器人自主的精準(zhǔn)轉(zhuǎn)向運(yùn)動(dòng)。此外,機(jī)器人可根據(jù)用戶下達(dá)的語音指令實(shí)現(xiàn)前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)以及漫游巡邏等動(dòng)作和聲控拍照等非運(yùn)動(dòng)指令,使得用戶幾乎不需要前期培訓(xùn)學(xué)習(xí)就能依靠語音方便的來控制機(jī)器人,提升了機(jī)器人的智能化水平以及用戶的使用體驗(yàn)。

主控核心單元和監(jiān)控核心單元均采用基于cortex-m3內(nèi)核的stm32單片機(jī);主控單元負(fù)責(zé)機(jī)器人運(yùn)動(dòng)控制、傳感器數(shù)據(jù)采集與融合及電源管理等任務(wù),并為上層處理系統(tǒng)提供平臺(tái)控制的各種接口;監(jiān)控核心單元對(duì)常見錯(cuò)誤進(jìn)行實(shí)時(shí)監(jiān)視,包括機(jī)器人控制系統(tǒng)電源故障、主控制器程序執(zhí)行出錯(cuò)、運(yùn)行狀態(tài)出錯(cuò)(主要指運(yùn)行姿態(tài)或速度異常)等,當(dāng)機(jī)器人系統(tǒng)出現(xiàn)錯(cuò)誤時(shí),控制系統(tǒng)能夠根據(jù)錯(cuò)誤的嚴(yán)重等級(jí),采取分級(jí)應(yīng)對(duì)策略以保障機(jī)器人能夠安全、可靠、高效的工作。

情緒交互系統(tǒng)設(shè)計(jì)框圖如圖5所示。機(jī)器人基于kaldi開源語音識(shí)別工具在ubuntu平臺(tái)上實(shí)現(xiàn)語音識(shí)別,通過mongodb數(shù)據(jù)庫構(gòu)建了機(jī)器人的聊天知識(shí)庫與情感感知系統(tǒng)。語音識(shí)別有離線識(shí)別和在線識(shí)別兩種模式,由系統(tǒng)根據(jù)當(dāng)前網(wǎng)絡(luò)情況自主選擇。當(dāng)處于離線模式時(shí),系統(tǒng)需要建立語法文件,其中定義了語音識(shí)別語句。當(dāng)系統(tǒng)從采集到的語音中識(shí)別到有效語句時(shí),會(huì)翻譯成對(duì)應(yīng)文字,語義理解及情感分析單元進(jìn)行中文分詞,加載情感詞典、程度副詞詞典、否定詞詞表和關(guān)聯(lián)詞詞表,識(shí)別句子中的每一個(gè)情感詞,并以情感詞為中心滑動(dòng)檢測(cè)周邊副詞及否定詞情況,最后對(duì)所有情感詞及其修飾詞的情感值累加,得到當(dāng)前句子的情感值,判斷出用戶當(dāng)前的情緒,傳給情緒表現(xiàn)單元。當(dāng)處于在線模式時(shí),可直接將識(shí)別的語句上傳至服務(wù)器,由服務(wù)器分析感知用戶情緒,進(jìn)而從網(wǎng)絡(luò)抓取相關(guān)內(nèi)容并回傳至機(jī)器人。在判斷出用戶情緒后,情緒表現(xiàn)單元通過切換動(dòng)態(tài)臉部表情和擬人化的手勢(shì),配合定制的個(gè)性化語音,使機(jī)器人可以做出合理的反應(yīng),可以在用戶情緒低落的時(shí)候給與安慰,在用戶情緒消沉?xí)r進(jìn)行鼓勵(lì),使用戶在與機(jī)器人交流過程中感到舒心。

陪護(hù)機(jī)器人數(shù)據(jù)庫主要包括云服務(wù)器、手機(jī)app、人臉識(shí)別拍照開源庫以及機(jī)器人本體四部分,數(shù)據(jù)庫結(jié)構(gòu)及各部分所包含字段以及相互間的連接關(guān)系如圖6所示。

本發(fā)明綜合考慮安裝尺寸以及定位精度要求等因素,選取的是一種二維的五麥克風(fēng)圓形陣列,其中陣列的直徑為60mm,在圓心處放置一個(gè)麥克風(fēng),其余幾個(gè)麥克風(fēng)均勻排布在陣列四周,如圖7所示。在安裝過程中,為了減小震動(dòng)影響,通過在麥克風(fēng)外圍增加了一圈硅膠套來達(dá)到減震效果,同時(shí)為了避免麥克風(fēng)和硅膠套以及硅膠套和機(jī)器人殼體之間形成空腔反射,在安裝時(shí)進(jìn)行了密封處理。

聲源定位方面,本文在比較分析經(jīng)典聲源定位算法的基礎(chǔ)上,選取一種基于到達(dá)時(shí)延的廣義互相關(guān)法(gcc:generalizedcrosscorrelation)定位算法。針對(duì)該算法在噪聲和回響較大環(huán)境中效果不夠理想的問題,對(duì)其進(jìn)行了改進(jìn),增加一個(gè)phat加權(quán)函數(shù),對(duì)頻譜信號(hào)進(jìn)行處理;同時(shí)引入一種拋物線插值算法,在不提高采樣頻率的前提下,有效提高了空間搜索定位精度,具體的流程如圖8所示:首先,通過對(duì)各個(gè)麥克風(fēng)拾取的語音信號(hào)采取快速傅氏變換,從而得到互功率譜;然后,再進(jìn)行加權(quán)削弱語音信號(hào)中的噪聲部分,從而使實(shí)際的有效信號(hào)得到增強(qiáng);最后,結(jié)合互相關(guān)函數(shù)峰值偏移量以及信號(hào)采樣頻率,準(zhǔn)確估算出各個(gè)麥克風(fēng)的時(shí)延,進(jìn)而求得聲源的方位信息。

以陣列的第i個(gè)麥克風(fēng)為例進(jìn)行分析,不考慮信號(hào)幅值在傳播過程中的衰減,則其接收到的語音信號(hào)為:

xi(n)=s(n-τi)+ni

其中,τi是麥克風(fēng)i拾取聲源信號(hào)s(n)的時(shí)延,ni表示噪聲,τi可通過以下式計(jì)算:

其中,rs和ri分別代表聲源和麥克風(fēng)的位置坐標(biāo)。

同理,對(duì)于第j個(gè)麥克風(fēng),可以類比得到:

xj(n)=s(n-τj)+nj

則這兩個(gè)麥克風(fēng)拾取信號(hào)xi(n)和xj(n)的互相關(guān)函數(shù)為:

rij(τ)=e[xi(n)xj(n-τ)]

即:

rij(τ)=e[s(n-τi)s(n-τj-τ)]+e[s(n-τi)nj(n-τ)]+

e[s(n-τ-τj)ni(τ)]+e[ni(τ)nj(n-τ)]

由于噪聲和聲源信號(hào)間不具有互相關(guān)性,所以可知e[s(n-τi)nj(n-τ)]和e[s(n-τ-τj)ni(τ)]兩項(xiàng)均為零,則簡(jiǎn)化為:

rij(τ)=e[s(n-τi)s(n-τj-τ)]+e[ni(τ)nj(n-τ)]在信噪比較大的時(shí)候,可以不考慮第二項(xiàng)的影響,可簡(jiǎn)化為:

rij(τ)=e[s(n-τi)s(n-τj-τ)]

顯然,當(dāng)τi=τj時(shí),互相關(guān)函數(shù)值最大,這里采用積分式:

但是在離散序列情況下,沒有辦法直接求取上述積分,需要采用相關(guān)定理來求取互相關(guān)函數(shù)最大值:

由于在實(shí)際中,觀測(cè)值并非是無限長(zhǎng)的,可以在離散域上改寫為:

其中,xi(k)和xj(k)分別為xi(n)和xj(n)的傅立葉變換,l為每幀信號(hào)的數(shù)據(jù)長(zhǎng)度。

考慮到實(shí)際應(yīng)用中會(huì)出現(xiàn)混響,最終的傳播模型可表示為:

xi(n)=si(n)+hi(n)*s(n)+ni(n)=s(n-τ)+hi(n)*s(n)+ni(n)

xj(n)=sj(n)+hj(n)*s(n)+nj(n)=s(n-τ)+hj(n)*s(n)+nj(n)

實(shí)際測(cè)試表明,在噪聲和回響較低的環(huán)境里,上述方法有較好的表現(xiàn),但是在噪聲和回響較大環(huán)境中,效果則不夠理想,為此本文在上述算法的基礎(chǔ)上增加一個(gè)加權(quán)函數(shù)ψ(k),對(duì)頻譜信號(hào)進(jìn)行處理。

本文選用phat方法,可轉(zhuǎn)化為:

此外,由于采樣率通常都不會(huì)很高,假設(shè)采樣率為10khz,聲速為340m/s,則單個(gè)樣本點(diǎn)的時(shí)延為1/10000=0.1ms,能夠達(dá)到的空間搜索精度即為0.034m。由此可見,想要提高gcc方法的時(shí)延估計(jì)精度就需要提高采樣率,在單位時(shí)間內(nèi)獲得更多的樣本數(shù)量,但是受系統(tǒng)的硬件限制,采樣率不可能無限制提高。為了在不提高采樣精度的前提下提高時(shí)延估計(jì)的精度,本文采用了一種拋物線插值算法,從而使得采樣點(diǎn)的空間搜索精度得到有效提升。

該方法基于拋物線的峰值點(diǎn)來對(duì)時(shí)延進(jìn)行估測(cè),從而達(dá)到在采樣率不變的前提下,提高時(shí)延的估測(cè)精度。具體方法是:

設(shè)原始語音信號(hào)序列為γ(t),γmax為最大值點(diǎn),γmax-1和γmax+1分別是最大值點(diǎn)的左右相鄰點(diǎn),tmax、tmax-1和tmax+1分別是三個(gè)點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)。

假設(shè)拋物線方程為:

γ(t)=at2+bt+c

由拋物線方程性質(zhì)可得三點(diǎn)的坐標(biāo)關(guān)系為:

由上面方程組計(jì)算可得:

進(jìn)一步可求得插值之后的峰值為:

本發(fā)明在進(jìn)行語音識(shí)別及聲源定位時(shí),采用了雙門限檢測(cè)算法來從信號(hào)流中檢測(cè)出語音的起始點(diǎn)和終止點(diǎn),這樣就可以只對(duì)有用信號(hào)段進(jìn)行分析處理,避免靜音段以及噪音段的干擾,減小數(shù)據(jù)計(jì)算量和處理時(shí)間,具體流程如圖9所示:首先,對(duì)信號(hào)做濾波去噪以及分幀加窗的處理;然后,分別計(jì)算短時(shí)能量和短時(shí)過零率。第一級(jí)判定依據(jù)信號(hào)的平均能量值設(shè)定一個(gè)閾值略高的門限值t1,判斷語音信號(hào)的起始點(diǎn),再結(jié)合實(shí)際環(huán)境噪聲的大小設(shè)置一個(gè)略低的門限值t2,判斷出語音結(jié)的束點(diǎn);第二級(jí)判定,依據(jù)環(huán)境噪聲的過零率來設(shè)定一個(gè)門限值t3,確定一級(jí)判定中語音前端的清音和末端的尾音。

本發(fā)明在基于kaldi平臺(tái)進(jìn)行語音識(shí)別時(shí),除了原始語料的準(zhǔn)備,還需要手動(dòng)創(chuàng)建一系列腳本文件。其中,wav.scp文件的主要作用是指明所下載語料庫中語音文件的存放位置;text文件的作用主要是存放對(duì)應(yīng)語音段的文本標(biāo)注內(nèi)容;utt2spk文件的作用是指明語音段同說話人對(duì)應(yīng)關(guān)系,即指明該段語音的錄制人編號(hào)。除了準(zhǔn)備上述三個(gè)與語音數(shù)據(jù)相關(guān)的文件,還需要準(zhǔn)備包括發(fā)音詞典以及指定發(fā)音音素和靜音音素的相關(guān)文件:lexicon.txt文件中的每個(gè)字詞的發(fā)音都被聲韻母符號(hào)所標(biāo)注,而且還加入了聲調(diào)來對(duì)多音字進(jìn)行了追加標(biāo)注;silence_phones.txt文件僅包含音素“sil”用來表示靜音音素;nonsilence_phones.txt文件則是包含了所有的發(fā)音音素;optional_silence.txt文件包含了出現(xiàn)在詞與詞之間的一個(gè)音素,這里也是用符號(hào)“sil”進(jìn)行表示;所有上述需要手動(dòng)創(chuàng)建的文件目錄如圖10所示。

本發(fā)明在語音識(shí)別時(shí),解碼采用的是一種加權(quán)有限狀態(tài)機(jī)(wfst)的靜態(tài)空間網(wǎng)絡(luò),如圖11所示,它涵蓋了聲學(xué)模型層,語言模型層以及發(fā)音詞典層,在整個(gè)網(wǎng)絡(luò)中間進(jìn)行搜索尋優(yōu),其中搜索算法就是采用的上節(jié)提到的viterbi算法:基于似然概率準(zhǔn)則,在由眾多聲學(xué)狀態(tài)組成的網(wǎng)絡(luò)中通過動(dòng)態(tài)規(guī)劃計(jì)算得到一條最優(yōu)路徑。

本發(fā)明整個(gè)的語音識(shí)別框架包含聲學(xué)模型訓(xùn)練及語言模型訓(xùn)練,如圖12所示。

本發(fā)明為了提高運(yùn)動(dòng)控制精度,采取了一種分段控制策略,如圖13所示。其核心思想是基于誤差和誤差變化率在模糊控制和pid控制間切換,在不同階段發(fā)揮各自的優(yōu)勢(shì)。在起始段和中間段,采用模糊控制來發(fā)揮其快速性好、抗擾動(dòng)能力強(qiáng)的優(yōu)勢(shì);在結(jié)束段,采用pid控制來發(fā)揮其穩(wěn)定性好、控制精度高的優(yōu)勢(shì)。在保證運(yùn)動(dòng)流暢的同時(shí),提升運(yùn)動(dòng)控制的精度。

本發(fā)明的機(jī)器人系統(tǒng)具有學(xué)習(xí)能力,不僅可以完成開發(fā)人員預(yù)想到的用戶需求,還可在用戶的使用過程中自主進(jìn)化出更適合用戶使用的功能。在網(wǎng)絡(luò)連接情況下,當(dāng)機(jī)器人與用戶的對(duì)話超過知識(shí)庫的范圍時(shí),機(jī)器人會(huì)將當(dāng)前對(duì)話上傳服務(wù)器進(jìn)行查詢,并返回結(jié)果進(jìn)行語音回答,同時(shí)將查詢結(jié)果添加到知識(shí)庫中,不斷擴(kuò)展自己的知識(shí)庫。此外用戶也可以通過語音或文字輸入的方式來教給機(jī)器人知識(shí),擴(kuò)展知識(shí)庫和語音識(shí)別離線模式時(shí)語法文件中的識(shí)別語句。

如圖14所示,機(jī)器人本體會(huì)按照識(shí)別的用戶的情緒相應(yīng)的做出表情,以安撫用戶或與用戶進(jìn)行交流。

以上所述僅為本申請(qǐng)的優(yōu)選實(shí)施例而已,并不用于限制本申請(qǐng),對(duì)于本領(lǐng)域的技術(shù)人員來說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。

上述雖然結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對(duì)本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動(dòng)即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
东兰县| 聂荣县| 郑州市| 宁武县| 丰城市| 阜阳市| 抚松县| 长治市| 西峡县| 论坛| 栾川县| 札达县| 时尚| 丘北县| 和平区| 五指山市| 东乌珠穆沁旗| 当涂县| 丹阳市| 左云县| 抚远县| 新河县| 闽侯县| 伊春市| 古交市| 黔江区| 秀山| 二连浩特市| 浪卡子县| 伊金霍洛旗| 长葛市| 祁连县| 新乐市| 新化县| 上虞市| 揭东县| 湖州市| 兰西县| 新昌县| 多伦县| 正镶白旗|