面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法和系統(tǒng)的制作方法

文檔序號：10471554閱讀：264來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法，其包括以下步驟：對目標(biāo)在一段時(shí)間內(nèi)所發(fā)出的一系列動作進(jìn)行捕捉并記錄；同步地識別并記錄分別與所捕捉的一系列動作相關(guān)聯(lián)的信息集合，所述信息集合由信息元構(gòu)成；整理所記錄的動作和與之關(guān)聯(lián)的信息集合并將它們按照對應(yīng)關(guān)系存儲到機(jī)器人的記憶庫中；當(dāng)機(jī)器人接收動作輸出指令時(shí)，調(diào)取記憶庫中存儲的信息集合中的與要表達(dá)的內(nèi)容相匹配的信息集合并作出與該信息集合相對應(yīng)的動作，以對人類動作表達(dá)進(jìn)行模仿。本發(fā)明將動作表達(dá)與其他與語言表達(dá)有關(guān)的信息關(guān)聯(lián)起來，經(jīng)過模仿訓(xùn)練之后，機(jī)器人可以進(jìn)行多樣化的輸出，使得溝通形式豐富并且更具人性，智能程度得到更大的提升。
【專利說明】
面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及智能機(jī)器人領(lǐng)域，具體地說，涉及一種面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法和系統(tǒng)。
【背景技術(shù)】
[0002]人機(jī)交互是指人與機(jī)器的互動和交流，其最終目的是使機(jī)器人善解人意，能領(lǐng)會和模仿人的語言和行為，讓人類能夠更有效且更自然地實(shí)現(xiàn)與機(jī)器人之間的互動。然而，人與人之間的互動交流很大程度上依賴于語音和視覺，因此人機(jī)交互的發(fā)展就是語音交互和視覺交互的發(fā)展。
[0003]人與機(jī)器的交流方式有很多種，最為理想的就是語音和動作進(jìn)行結(jié)合的交流方式，因?yàn)檫@更類似于人與人的交流。這種交流方式能增強(qiáng)用戶體驗(yàn)，增加溝通的靈活性和有效性。
[0004]然而，世界上并沒有一臺能夠自由模擬人類動作表達(dá)的機(jī)器人，僅有的也只是能做幾個(gè)固定的仿人的動作。因?yàn)閯幼鞯谋磉_(dá)和語言表達(dá)一樣，其含義層和表現(xiàn)層都是不可窮盡的。很難通過設(shè)定規(guī)則讓機(jī)器人進(jìn)行模仿。但是，脫離了語言的動作，只是啞語，一般的人也難以理解其中含義。因此，動作表達(dá)需要和語言一起展示才能真正傳達(dá)意思。
[0005]但是，眾所周知的是，其中基于動作的交流，讓機(jī)器人看懂人的一些動作，并進(jìn)行模仿涉及的知識比較廣，需要機(jī)器人硬件的相關(guān)技術(shù)支撐，跨學(xué)科程度極強(qiáng)，極富挑戰(zhàn)性。因此，事實(shí)上現(xiàn)有技術(shù)中還沒有研制出一種能夠自由模仿人類動作表達(dá)的機(jī)器人。

【發(fā)明內(nèi)容】

[0006]本發(fā)明為解決上述問題，提供了一種面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法，其包括以下步驟:
[0007]S101、對目標(biāo)在一段時(shí)間內(nèi)所發(fā)出的一系列動作進(jìn)行捕捉并記錄；
[0008]S102、同步地識別并記錄分別與所捕捉的一系列動作相關(guān)聯(lián)的信息集合，所述信息集合由信息元構(gòu)成；
[0009]S103、整理所記錄的動作和與之關(guān)聯(lián)的信息集合并將它們按照對應(yīng)關(guān)系存儲到機(jī)器人的記憶庫中；
[0010]S104、當(dāng)機(jī)器人接收動作輸出指令時(shí)，調(diào)取記憶庫中存儲的信息集合中的與要表達(dá)的內(nèi)容相匹配的信息集合并作出與該信息集合相對應(yīng)的動作，以對人類動作表達(dá)進(jìn)行模仿。
[0011]根據(jù)本發(fā)明的一個(gè)實(shí)施例，在面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法的步驟S104中，機(jī)器人在進(jìn)行動作表達(dá)的同時(shí)還進(jìn)行語音、圖像的多模態(tài)輸出。
[0012]根據(jù)本發(fā)明的一個(gè)實(shí)施例，所捕捉的動作包括和時(shí)間對應(yīng)的肢體動作以及和時(shí)間對應(yīng)的表情動作，其中所述肢體動作用肢體的各自由度、各自由度的角度以及肢體的位移來表征，所述表情動作用面部特征點(diǎn)的分布、角度和位移來表征。
[0013]根據(jù)本發(fā)明的一個(gè)實(shí)施例，整理所記錄的動作和與之關(guān)聯(lián)的信息集合包括步驟:
[0014]將所述信息集合中的重復(fù)的信息元進(jìn)行過濾。
[0015]根據(jù)本發(fā)明的一個(gè)實(shí)施例，整理所記錄的動作和與之關(guān)聯(lián)的信息集合還包括步驟:
[0016]針對同一組信息集合，判斷所述信息集合是否對應(yīng)了不同的幾個(gè)動作；
[0017]如果所述信息集合對應(yīng)了不同的幾個(gè)動作，則基于所述信息集合中的至少一個(gè)信息元或全部信息元來判斷不同的動作中是否存在錯(cuò)誤的動作，如果是，則將該錯(cuò)誤動作刪除，如果否，則將該信息集合對應(yīng)的所有正確動作歸為同一動作集合。
[0018]根據(jù)本發(fā)明的一個(gè)實(shí)施例，整理所記錄的動作和與之關(guān)聯(lián)的信息集合還包括:
[0019]針對多組信息集合對應(yīng)同一動作的情況，獲取多組信息集合中各個(gè)信息元之間與該動作的規(guī)律，對所述多組信息集合進(jìn)行重組，形成單一的與該動作相關(guān)聯(lián)的新的信息集入口 ο
[0020]根據(jù)本發(fā)明的一個(gè)實(shí)施例，與所學(xué)習(xí)的動作關(guān)聯(lián)的信息元包括:
[0021](a)經(jīng)語音識別或者聲音情感識別得到的語言、語氣、語調(diào)、語速、音量；
[0022](b)經(jīng)語義識別得到的目標(biāo)所表達(dá)的語義；
[0023](c)與第二人對話時(shí)，經(jīng)語音識別或者聲音情感識別得到的第二人的語言、語氣、語調(diào)、語速、音量；
[0024](d)獲取的環(huán)境信息；
[0025](e)經(jīng)視覺識別得到的情緒；
[0026](f)經(jīng)視覺識別得到的特征，如身高、體重、年齡、性別和國籍的一種或幾種的組合；
[0027](g)經(jīng)圖義識別得到的目標(biāo)所表達(dá)的圖義；
[0028](h)與第二人對話時(shí)，經(jīng)視覺識別得到的情緒；
[0029](i)與第二人對話時(shí)，經(jīng)視覺識別得到的特征，如身高、體重、年齡、性別和國籍的一種或幾種的組合；
[0030](j)與第二人對話時(shí)，經(jīng)圖義識別得到的目標(biāo)所表達(dá)的圖義；以及[0031 ] (k)交談雙方的感情深度和/或關(guān)系。
[0032]根據(jù)本發(fā)明的另一個(gè)方面，還提供了一種面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，該裝置包括:
[0033]動作捕捉模塊，其用于對目標(biāo)在一段時(shí)間內(nèi)所發(fā)出的一系列動作進(jìn)行捕捉并記錄；
[0034]關(guān)聯(lián)信息識別記錄模塊，其用于同步地識別并記錄分別與所捕捉的一系列動作相關(guān)聯(lián)的信息集合，所述信息集合由信息元構(gòu)成；
[0035]整理模塊，其用于整理所記錄的動作和與之關(guān)聯(lián)的信息集合并將它們按照對應(yīng)關(guān)系存儲到機(jī)器人的記憶庫中；
[0036]動作模仿模塊，其用于當(dāng)機(jī)器人接收動作輸出指令時(shí)，調(diào)取記憶庫中存儲的信息集合中的與要表達(dá)的內(nèi)容相匹配的信息集合并作出與該信息集合相對應(yīng)的動作，以對人類動作表達(dá)進(jìn)行模仿。
[0037]根據(jù)本發(fā)明的一個(gè)實(shí)施例，所提供的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置的優(yōu)選實(shí)施例是，在動作模仿模塊中還包括多模態(tài)輸出模塊，其用于在機(jī)器人在進(jìn)行動作表達(dá)的同時(shí)還進(jìn)行語音、圖像的多模態(tài)輸出。
[0038]根據(jù)本發(fā)明，所提供的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置的優(yōu)選實(shí)例是，所捕捉的動作包括和時(shí)間對應(yīng)的肢體動作以及和時(shí)間對應(yīng)的表情動作，其中所述肢體動作用肢體的各自由度、各自由度的角度以及肢體的位移來表征，所述表情動作用面部特征點(diǎn)的分布、角度和位移來表征。
[0039]在根據(jù)本發(fā)明的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置中，優(yōu)選的是，所述整理模塊包括:
[0040]過濾模塊，其用于將所述信息集合中的重復(fù)的信息元進(jìn)行過濾。
[0041]根據(jù)本發(fā)明，提供的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置的優(yōu)選實(shí)施例是，所述整理模塊還包括:
[0042]第一判斷模塊，其用于針對同一組信息集合，判斷所述信息集合是否對應(yīng)了不同的幾個(gè)動作；
[0043]第二判斷模塊，其用于如果所述信息集合對應(yīng)了不同的幾個(gè)動作，則基于所述信息集合中的至少一個(gè)信息元或全部信息元來判斷不同的動作中是否存在錯(cuò)誤的動作，如果是，則將該錯(cuò)誤動作刪除，如果否，則將該信息集合對應(yīng)的所有正確動作歸為同一動作集入口 ο
[0044]根據(jù)本發(fā)明，所提供的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置的一個(gè)優(yōu)選實(shí)施例中，所述整理模塊還包括:
[0045]存儲模塊，其用于如果所述信息集合只對應(yīng)于一個(gè)動作，則將該動作和與之關(guān)聯(lián)的信息集合按照對應(yīng)關(guān)系存儲到記憶庫中。
[0046]根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述整理模塊還包括:
[0047]信息集合重組模塊，其用于針對多組信息集合對應(yīng)同一動作的情況，獲取多組信息集合中各個(gè)信息元之間與該動作的規(guī)律，對所述多組信息集合進(jìn)行重組，形成單一的與該動作相關(guān)聯(lián)的新的信息集合。
[0048]由于機(jī)器人在進(jìn)行語音輸出的同時(shí)，還輔以模仿的動作表達(dá)，使得人機(jī)交互更加自然，人與機(jī)器之間的溝通更加類似于人于人之間的溝通。本發(fā)明將動作表達(dá)與其他與語言表達(dá)有關(guān)的信息關(guān)聯(lián)起來，經(jīng)過模仿訓(xùn)練之后，機(jī)器人可以進(jìn)行多樣化的輸出，使得溝通形式豐富并且更具人性，智能程度得到更大的提升。
[0049]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【附圖說明】
[0050]附圖用來提供對本發(fā)明的進(jìn)一步理解，并且構(gòu)成說明書的一部分，與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0051]圖1為現(xiàn)有的擁有多個(gè)自由度的機(jī)器人的示意圖；
[0052]圖2為顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例讓機(jī)器人進(jìn)行動作模仿的總體流程圖；
[0053]圖3為現(xiàn)有技術(shù)中的對捕獲的圖像的人體姿態(tài)進(jìn)行估計(jì)分析的示意圖；
[0054]圖4顯示了將人體分為若干肢體部分以及各個(gè)關(guān)節(jié)之間形成夾角的示意圖；
[0055]圖5顯示了根據(jù)本發(fā)明一個(gè)實(shí)施例的采用機(jī)器人進(jìn)行動作表達(dá)的流程圖；以及
[0056]圖6顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的整理與動作關(guān)聯(lián)的信息集合的流程圖。
【具體實(shí)施方式】
[0057]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，以下結(jié)合附圖對本發(fā)明實(shí)施例作進(jìn)一步地詳細(xì)說明。
[0058]本發(fā)明的實(shí)施例可以在例如圖1所示的機(jī)器人上進(jìn)行實(shí)施。圖1所示的機(jī)器人有多個(gè)自由度，例如25個(gè)。在該機(jī)器人上設(shè)置有各種傳感器包括攝像頭、麥克風(fēng)、紅外裝置，用以感知外界多種信息。該機(jī)器人集聽覺、視覺、語音及運(yùn)動能力于一身。攝像頭可以設(shè)置在頭部，類似于人眼。紅外裝置可以設(shè)置在軀干的任意部位上，或者其它位置，用以輔助攝像頭感應(yīng)物體的存在或者外界環(huán)境。
[0059]機(jī)器人一般由執(zhí)行機(jī)構(gòu)、驅(qū)動裝置、控制系統(tǒng)和感知系統(tǒng)構(gòu)成。在執(zhí)行機(jī)構(gòu)中主要包括頭部、上肢部、軀干和下肢部，在驅(qū)動裝置中，包括電驅(qū)動裝置、液壓驅(qū)動裝置和氣壓驅(qū)動裝置?？刂葡到y(tǒng)作為機(jī)器人的核心部分，類似于人的大腦，其主要包括處理器和關(guān)節(jié)伺服控制器。感知系統(tǒng)包括內(nèi)部傳感器和外部傳感器。外部傳感器例如包括上述的紅外裝置和攝像頭。
[0060]圖1所示的機(jī)器人最初可能并不知道例如打招呼時(shí)需要伸出手來做出握手的動作。當(dāng)使用者說出“你好!”的同時(shí)，伸出了右手。根據(jù)本發(fā)明的機(jī)器人首先實(shí)時(shí)捕獲人體的動態(tài)圖像，將使用者伸出右手的動作通過例如攝像頭記錄下來。由攝像頭將該圖片傳入到后臺進(jìn)行圖像處理，采用設(shè)計(jì)好的人體姿態(tài)檢測器對該圖像進(jìn)行解析從而獲得右上肢與軀干之間的夾角。然后由驅(qū)動系統(tǒng)根據(jù)該夾角命令右上肢做出轉(zhuǎn)動，從而模仿使用者伸出右手的動作。在捕獲用戶動作的同時(shí)，機(jī)器人也記錄下用戶的語音。判斷用戶說出的話的語義，結(jié)合該語義，機(jī)器人可以在發(fā)出“你好”的語音的同時(shí)，伸出右手，并握住對方的手。可以設(shè)置機(jī)器人，通過其手部的感應(yīng)器感應(yīng)出用戶結(jié)束握手的動作時(shí)，自動收回手臂。機(jī)器人將這一系列動作連續(xù)捕捉下來，通過與例如語音等進(jìn)行關(guān)聯(lián)動作的學(xué)習(xí)，從而對人類動作的模仿。
[0061]需要特別說明的是，本發(fā)明的方法描述的是在計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)的。該計(jì)算機(jī)系統(tǒng)例如可以設(shè)置在機(jī)器人的控制核心處理器中。例如，本文所述的方法可以實(shí)現(xiàn)為能以控制邏輯來執(zhí)行的軟件，其由機(jī)器人控制系統(tǒng)中的CHJ來執(zhí)行。本文所述的功能可以實(shí)現(xiàn)為存儲在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中的程序指令集合。當(dāng)以這種方式實(shí)現(xiàn)時(shí)，該計(jì)算機(jī)程序包括一組指令，當(dāng)該組指令由計(jì)算機(jī)運(yùn)行時(shí)其促使計(jì)算機(jī)執(zhí)行能實(shí)施上述功能的方法?？删幊踢壿嬁梢詴簳r(shí)或永久地安裝在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中，例如只讀存儲器芯片、計(jì)算機(jī)存儲器、磁盤或其他存儲介質(zhì)。除了以軟件來實(shí)現(xiàn)之外，本文所述的邏輯可利用分立部件、集成電路、與可編程邏輯設(shè)備(諸如，現(xiàn)場可編程門陣列(FPGA)或微處理器)結(jié)合使用的可編程邏輯，或者包括它們?nèi)我饨M合的任何其他設(shè)備來體現(xiàn)。所有此類實(shí)施例旨在落入本發(fā)明的范圍之內(nèi)。
[0062]實(shí)施例一
[0063]圖2為顯示了根據(jù)本發(fā)明一個(gè)實(shí)施例進(jìn)行動作模仿的總體流程圖。該方法開始于步驟S201，機(jī)器人實(shí)時(shí)捕獲動態(tài)圖像。例如，可以通過采用機(jī)械式、聲學(xué)式、電磁式、光學(xué)式、慣性導(dǎo)航式等動作捕捉技術(shù)來進(jìn)行目標(biāo)動作的捕捉和記錄。
[0064]在捕獲的圖像中結(jié)合圖像處理、模式識別等技術(shù)判斷是否有人體存在。在一個(gè)實(shí)施例中，可采用基于HOG特征的人體檢測算法，捕獲到人體圖像，然后將圖像規(guī)范化使得人基本位于整幅圖像的中心。
[0065]如果沒有人體存在，則系統(tǒng)繼續(xù)停留在捕捉圖像的狀態(tài)。如果有人體存在，在步驟S202中，進(jìn)行人體姿態(tài)的分析，例如通過采用例如人體姿態(tài)檢測器的方式解析出人體姿態(tài)。
[0066]然而，現(xiàn)有技術(shù)中，關(guān)于人體姿態(tài)分析的方法有好幾種。
[0067]—種是先建立大規(guī)模的人體姿態(tài)圖像數(shù)據(jù)庫，然后在數(shù)據(jù)庫中匹配輸入圖像，獲得與輸入圖像接近的實(shí)例。最后以此實(shí)例的姿態(tài)作為輸入圖像中的人體姿態(tài)估計(jì)結(jié)果?；谒阉鲌D像庫的方法如圖3所示。在該方法中，將一系列包含不同人體姿態(tài)的二維圖像作為實(shí)例，并在這些二維圖像上標(biāo)示出人體重要關(guān)節(jié)的位置(例如按照下文所述的10個(gè)肢體部分之間的連接處)，然后把輸入圖像與這些圖像進(jìn)行匹配?？梢酝ㄟ^基于上下文的匹配策略來在數(shù)據(jù)庫中找到合適的圖像作為輸入圖像的估計(jì)。
[0068]將所捕獲的人體圖像301利用搜索匹配策略對數(shù)據(jù)庫進(jìn)行搜索，從搜索的結(jié)果中找到與所捕獲的人體圖像最為匹配的人體姿態(tài)，作為估計(jì)的結(jié)果，以便后續(xù)進(jìn)行模仿。在該數(shù)據(jù)庫中，已經(jīng)經(jīng)過訓(xùn)練包含了大量的人體姿態(tài)圖。
[0069]不過，這種方法需要建立巨大的數(shù)據(jù)庫，數(shù)據(jù)庫的質(zhì)量與匹配的結(jié)果精度密切相關(guān)。
[0070]還有一種方法是基于模型的方法。在該方法中，先對人體的結(jié)構(gòu)建模，將人體分為各個(gè)部件，然后在圖像中尋找這些部件的位置和方向，最后得到整個(gè)的人體姿態(tài)估計(jì)結(jié)果。
[0071]在本文中，主要介紹了采用上述兩種方法來得到估計(jì)的人體姿態(tài)分析。然而，事實(shí)上，本發(fā)明可以采用現(xiàn)有技術(shù)的任何一種方法來進(jìn)行人體姿態(tài)的分析，這里并不作任何限制。
[0072]在圖2的方法中，通過分析得到運(yùn)動的肢體位置和方位，但得到這些還不夠，還要知道人體各個(gè)關(guān)鍵關(guān)節(jié)的轉(zhuǎn)動角度，才能恢復(fù)人體姿態(tài)。并對關(guān)節(jié)間的夾角進(jìn)行計(jì)算
[0073]由于，機(jī)器人的肢體運(yùn)動是相對運(yùn)動，即每個(gè)肢體都是對其上級肢體運(yùn)動的，因此要確定各個(gè)肢體的運(yùn)動情況必須計(jì)算得到各個(gè)肢體的相對夾角。
[0074]如圖4所示，可以按照對人體結(jié)構(gòu)的劃分將機(jī)器人分成10個(gè)部分:軀干、頭部、左上肢上部、左上肢下部、右上肢上部、右上肢下部、左下肢上部、左上肢下部、右下肢上部、右下肢下部。例如，軀干為頭部、左上肢上部和右上肢上部的上級，而左上肢上部和右上肢上部為左上肢下部和右上肢下部的上級。要計(jì)算的就是這些上下級肢體之間的相對夾角。
[0075 ]肢體的傾角定義為肢體部分的主軸方向與水平線的夾角。肢體間的夾角定義為下級肢體的傾角與下級肢體的傾角之差。在圖4中，例如，定義A-A ’即為肢體間的夾角。
[0076]根據(jù)圖像識別，獲取圖像中的人體的各個(gè)關(guān)節(jié)夾角的角度，將這些角度傳送到機(jī)器人驅(qū)動系統(tǒng)中，使機(jī)器人模仿出人體擺出的動作。
[0077]計(jì)算出10對上下級肢體之間的相對夾角，利用這些夾角就可以驅(qū)動機(jī)器人的關(guān)節(jié)轉(zhuǎn)動相應(yīng)的角度，從而擺出與人體類似的姿態(tài)。
[0078]實(shí)施例二
[0079]如圖5所示，其中顯示了根據(jù)本發(fā)明的思想的又一具體實(shí)施例。在該圖中，方法開始于步驟SlOl。在該步驟中，對目標(biāo)在一段時(shí)間內(nèi)所發(fā)出的一系列動作進(jìn)行捕捉并記錄。該步驟仍然例如通過機(jī)器人的攝像頭等光學(xué)傳感部件完成。然后，根據(jù)需要還要對圖像進(jìn)行預(yù)處理方面的很多工作。例如在復(fù)雜背景下準(zhǔn)確提取出人體，得到人體前景圖等。在本發(fā)明中，基于立體視覺而不是單目視覺得到深度信息，從圖像中恢復(fù)出立體的人體姿態(tài)。這樣能夠保證捕獲的動作的準(zhǔn)確性。
[0080]此外，還需要對人體動作關(guān)鍵幀進(jìn)行準(zhǔn)確提取。機(jī)器人通過自身的視覺系統(tǒng)捕獲人體動作序列幀時(shí)，不用對每一幀圖像進(jìn)行處理，只需處理關(guān)鍵幀，其余的幀通過插值的方法估計(jì)出即可。這樣可以大大提高運(yùn)算速度，從而使機(jī)器人學(xué)習(xí)能力提高，甚至可以做到邊學(xué)邊用。
[0081]與第一實(shí)施例類似，也需要判斷圖片中是否有人體的存在。只有人體存在的圖像才會進(jìn)行接下來的處理。例如步驟S101’，采用人體姿態(tài)檢測器解析出人體姿態(tài)，得到動作的數(shù)據(jù)表示。
[0082]為了讓機(jī)器人發(fā)出的動作與實(shí)際要表達(dá)的內(nèi)容相符，機(jī)器人還要同步地識別并記錄分別與所捕捉的一系列動作相關(guān)聯(lián)的信息集合，請參見步驟S102。其中，信息集合由信息元構(gòu)成。
[0083]與所學(xué)習(xí)的動作關(guān)聯(lián)的信息元包括但不限于以下內(nèi)容:
[0084](a)經(jīng)語音識別或者聲音情感識別得到的語言、語氣、語調(diào)、語速、音量；
[0085](b)經(jīng)語義識別得到的目標(biāo)所表達(dá)的語義；
[0086](c)與第二人對話時(shí)，經(jīng)語音識別或者聲音情感識別得到的第二人的語言、語氣、語調(diào)、語速、音量；
[0087](d)獲取的環(huán)境信息；
[0088](e)經(jīng)視覺識別得到的情緒；
[0089](f)經(jīng)視覺識別得到的特征，如身高、體重、年齡、性別和國籍的一種或幾種的組合；
[0090](g)經(jīng)圖義識別得到的目標(biāo)所表達(dá)的圖義；
[0091](h)與第二人對話時(shí)，經(jīng)視覺識別得到的情緒；
[0092](i)與第二人對話時(shí)，經(jīng)視覺識別得到的特征，如身高、體重、年齡、性別和國籍的一種或幾種的組合；
[0093](j)與第二人對話時(shí)，經(jīng)圖義識別得到的目標(biāo)所表達(dá)的圖義；以及
[0094](k)交談雙方的感情深度和/或關(guān)系。
[0095]為了讓機(jī)器人能夠模仿人類作出與要表達(dá)的內(nèi)容相配的動作，機(jī)器人學(xué)習(xí)過程中，還需要整理所記錄的動作和與之關(guān)聯(lián)的信息集合并將它們按照對應(yīng)關(guān)系存儲到機(jī)器人的記憶庫中，如步驟S103。
[0096]接下來，在步驟S104中，當(dāng)機(jī)器人接收動作輸出指令時(shí)，就會調(diào)取記憶庫中存儲的信息集合中的與要表達(dá)的內(nèi)容相匹配的信息集合并作出與該信息集合相對應(yīng)的動作，以對人類動作表達(dá)進(jìn)行模仿。
[0097]例如針對用戶發(fā)出“太好了！”的語音并伴隨有鼓掌的動作，機(jī)器人通過捕獲到這樣的圖像之后，進(jìn)行圖像分析處理，提取出人體前景圖像。接下來可以按照人體結(jié)構(gòu)進(jìn)行圖像重構(gòu)，得到人體各個(gè)部件的位置和方位。在接下來的步驟中，可以根據(jù)人體各個(gè)部件的位置和方向計(jì)算關(guān)節(jié)之間的夾角，例如左上肢上部和下部，以及右上肢上部和下部的夾角值，以及做右上肢與軀干的夾角值。最后根據(jù)這些夾角值，向機(jī)器人的驅(qū)動系統(tǒng)發(fā)出指令，驅(qū)動機(jī)器人的對應(yīng)肢體部位旋轉(zhuǎn)，以使得機(jī)器人對應(yīng)的關(guān)節(jié)夾角與計(jì)算得到的關(guān)節(jié)夾角相同。這樣便實(shí)現(xiàn)了機(jī)器人對人體動作的模仿。
[0098]在本發(fā)明中，基于人體動作的人機(jī)交互技術(shù)融入了圖像處理、模式識別以及數(shù)據(jù)挖掘等技術(shù)。提高運(yùn)算速度使得機(jī)器人能夠像人一樣做出敏捷快速的反應(yīng)是非常重要的，因此選擇合適的處理器以及合適的處理算法相當(dāng)關(guān)鍵。
[0099]如圖所示，在步驟S104中，機(jī)器人在進(jìn)行動作表達(dá)的同時(shí)還進(jìn)行語音、圖像的多模態(tài)輸出。
[0100]另外，要指出的是，上述所捕捉的動作實(shí)際上包括和時(shí)間對應(yīng)的肢體動作以及和時(shí)間對應(yīng)的表情動作，其中所述肢體動作用肢體的各自由度、各自由度的角度以及肢體的位移來表征，所述表情動作用面部特征點(diǎn)的分布、角度和位移來表征。
[0101]在整理所記錄的動作和與之關(guān)聯(lián)的信息集合過程中，其具體還包括一系列如圖6所示的步驟。
[0102]在圖6中，整理的方法開始于步驟S601。在接下來的步驟S602中，首先將信息集合中的重復(fù)的信息元進(jìn)行過濾。例如，對于人作出“驚訝”動作這樣的一個(gè)情景，機(jī)器人記憶庫中可能已經(jīng)存儲了用戶兩次類似或相同的信息集合，這種情況下，只要保留其中的一個(gè)就可以，因此對重復(fù)的信息元進(jìn)行濾除。
[0103]在步驟S603中，如果機(jī)器人針對的是同一組信息集合，首先會判斷該信息集合是否對應(yīng)了不同的幾個(gè)動作。如果是，則在步驟S604中，基于所述信息集合中的至少一個(gè)信息元或全部信息元來判斷不同的動作中是否存在錯(cuò)誤的動作。如果發(fā)現(xiàn)確是存在錯(cuò)誤動作，則將該錯(cuò)誤動作刪除S605。如果這些不同的動作都正確并與信息集合特別相關(guān)，則將該信息集合對應(yīng)的所有正確動作歸為同一動作集合，S606。
[0104]如果信息集合只對應(yīng)于一個(gè)動作，則可以直接執(zhí)行圖5的步驟S103的存儲記憶庫的步驟以將該動作和與之關(guān)聯(lián)的信息集合按照對應(yīng)關(guān)系存儲到記憶庫中?；蛘呷鐖D6所示，到達(dá)步驟S606，進(jìn)行正確動作的歸一整理。
[0105]接下來，在步驟S607中，針對多組信息集合對應(yīng)同一動作的情況，獲取多組信息集合中各個(gè)信息元之間與該動作的規(guī)律，對所述多組信息集合進(jìn)行重組，形成單一的與該動作相關(guān)聯(lián)的新的信息集合。
[0106]最后，該方法在步驟S608處結(jié)束。接下來繼續(xù)圖5所示的處理，例如進(jìn)行機(jī)器人動作的驅(qū)動輸出以及其他情景的輸出。
[0107]實(shí)施例三
[0108]本發(fā)明還提供了一種面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，其包括:
[0109]動作捕捉模塊，其用于對目標(biāo)在一段時(shí)間內(nèi)所發(fā)出的一系列動作進(jìn)行捕捉并記錄；
[0110]關(guān)聯(lián)信息識別記錄模塊，其用于同步地識別并記錄分別與所捕捉的一系列動作相關(guān)聯(lián)的信息集合，所述信息集合由信息元構(gòu)成；
[0111]整理模塊，其用于整理所記錄的動作和與之關(guān)聯(lián)的信息集合并將它們按照對應(yīng)關(guān)系存儲到機(jī)器人的記憶庫中；
[0112]動作模仿模塊，其用于當(dāng)機(jī)器人接收動作輸出指令時(shí)，調(diào)取記憶庫中存儲的信息集合中的與要表達(dá)的內(nèi)容相匹配的信息集合并作出與該信息集合相對應(yīng)的動作，以對人類動作表達(dá)進(jìn)行模仿。
[0113]其中，優(yōu)選的是，在動作模仿模塊中還包括多模態(tài)輸出模塊，其用于在機(jī)器人在進(jìn)行動作表達(dá)的同時(shí)還進(jìn)行語音、圖像的多模態(tài)輸出。
[0114]如上所述的，所捕捉的動作包括和時(shí)間對應(yīng)的肢體動作以及和時(shí)間對應(yīng)的表情動作，其中所述肢體動作用肢體的各自由度、各自由度的角度以及肢體的位移來表征，所述表情動作用面部特征點(diǎn)的分布、角度和位移來表征。
[0115]在根據(jù)本發(fā)明的數(shù)據(jù)處理裝置中，上述整理模塊包括:
[0116]過濾模塊，其用于將所述信息集合中的重復(fù)的信息元進(jìn)行過濾。
[0117]第一判斷模塊，其用于針對同一組信息集合，判斷所述信息集合是否對應(yīng)了不同的幾個(gè)動作；
[0118]第二判斷模塊，其用于如果所述信息集合對應(yīng)了不同的幾個(gè)動作，則基于所述信息集合中的至少一個(gè)信息元或全部信息元來判斷不同的動作中是否存在錯(cuò)誤的動作，如果是，則將該錯(cuò)誤動作刪除，如果否，則將該信息集合對應(yīng)的所有正確動作歸為同一動作集入口 ο
[0119]優(yōu)選的是，該整理模塊還包括:
[0120]存儲模塊，其用于如果所述信息集合只對應(yīng)于一個(gè)動作，則將該動作和與之關(guān)聯(lián)的信息集合按照對應(yīng)關(guān)系存儲到記憶庫中。
[0121]在另一個(gè)優(yōu)選實(shí)施例中，所述整理模塊還包括:
[0122]信息集合重組模塊，其用于針對多組信息集合對應(yīng)同一動作的情況，獲取多組信息集合中各個(gè)信息元之間與該動作的規(guī)律，對所述多組信息集合進(jìn)行重組，形成單一的與該動作相關(guān)聯(lián)的新的信息集合。
[0123]應(yīng)該理解的是，本發(fā)明所公開的實(shí)施例不限于這里所公開的特定結(jié)構(gòu)、處理步驟或材料，而應(yīng)當(dāng)延伸到相關(guān)領(lǐng)域的普通技術(shù)人員所理解的這些特征的等同替代。還應(yīng)當(dāng)理解的是，在此使用的術(shù)語僅用于描述特定實(shí)施例的目的，而并不意味著限制。
[0124]說明書中提到的“一個(gè)實(shí)施例”或“實(shí)施例”意指結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此，說明書通篇各個(gè)地方出現(xiàn)的短語“一個(gè)實(shí)施例”或“實(shí)施例”并不一定均指同一個(gè)實(shí)施例。
[0125]因此，任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員，在不脫離本發(fā)明所公開的精神和范圍的前提下，可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化，但本發(fā)明的專利保護(hù)范圍，仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法，其特征在于，所述方法包括以下步驟: 5101、對目標(biāo)在一段時(shí)間內(nèi)所發(fā)出的一系列動作進(jìn)行捕捉并記錄； 5102、同步地識別并記錄分別與所捕捉的一系列動作相關(guān)聯(lián)的信息集合，所述信息集合由信息元構(gòu)成； 5103、整理所記錄的動作和與之關(guān)聯(lián)的信息集合并將它們按照對應(yīng)關(guān)系存儲到機(jī)器人的記憶庫中；5104、當(dāng)機(jī)器人接收動作輸出指令時(shí)，調(diào)取記憶庫中存儲的信息集合中的與要表達(dá)的內(nèi)容相匹配的信息集合并作出與該信息集合相對應(yīng)的動作，以對人類動作表達(dá)進(jìn)行模仿。2.根據(jù)權(quán)利要求1所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法，其特征在于，在步驟S104中，機(jī)器人在進(jìn)行動作表達(dá)的同時(shí)還進(jìn)行語音、圖像的多模態(tài)輸出。3.根據(jù)權(quán)利要求1所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法，其特征在于，所捕捉的動作包括和時(shí)間對應(yīng)的肢體動作以及和時(shí)間對應(yīng)的表情動作，其中所述肢體動作用肢體的各自由度、各自由度的角度以及肢體的位移來表征，所述表情動作用面部特征點(diǎn)的分布、角度和位移來表征。4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法，其特征在于，整理所記錄的動作和與之關(guān)聯(lián)的信息集合包括: 將所述信息集合中的重復(fù)的信息元進(jìn)行過濾。5.根據(jù)權(quán)利要求4所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法，其特征在于，整理所記錄的動作和與之關(guān)聯(lián)的信息集合還包括: 針對同一組信息集合，判斷所述信息集合是否對應(yīng)了不同的幾個(gè)動作；如果所述信息集合對應(yīng)了不同的幾個(gè)動作，則基于所述信息集合中的至少一個(gè)信息元或全部信息元來判斷不同的動作中是否存在錯(cuò)誤的動作，如果是，則將該錯(cuò)誤動作刪除，如果否，則將該信息集合對應(yīng)的所有正確動作歸為同一動作集合。6.根據(jù)權(quán)利要求5所述的機(jī)器人學(xué)習(xí)動作表達(dá)的方法，其特征在于，整理所記錄的動作和與之關(guān)聯(lián)的信息集合還包括: 針對多組信息集合對應(yīng)同一動作的情況，獲取多組信息集合中各個(gè)信息元之間與該動作的規(guī)律，對所述多組信息集合進(jìn)行重組，形成單一的與該動作相關(guān)聯(lián)的新的信息集合。7.根據(jù)權(quán)利要求1所述的機(jī)器人學(xué)習(xí)動作表達(dá)的方法，其特征在于，與所學(xué)習(xí)的動作關(guān)聯(lián)的信息元包括: (a)經(jīng)語音識別或者聲音情感識別得到的語言、語氣、語調(diào)、語速、音量； (b)經(jīng)語義識別得到的目標(biāo)所表達(dá)的語義； (C)與第二人對話時(shí)，經(jīng)語音識別或者聲音情感識別得到的第二人的語言、語氣、語調(diào)、語速、音量； (d)獲取的環(huán)境信息； (e)經(jīng)視覺識別得到的情緒； (f)經(jīng)視覺識別得到的特征，如身高、體重、年齡、性別和國籍的一種或幾種的組合； (g)經(jīng)圖義識別得到的目標(biāo)所表達(dá)的圖義； (h)與第二人對話時(shí)，經(jīng)視覺識別得到的情緒； (i)與第二人對話時(shí)，經(jīng)視覺識別得到的特征，如身高、體重、年齡、性別和國籍的一種或幾種的組合； (j)與第二人對話時(shí)，經(jīng)圖義識別得到的目標(biāo)所表達(dá)的圖義；以及 (k)交談雙方的感情深度和/或關(guān)系。8.—種面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，其特征在于，所述裝置包括: 動作捕捉模塊，其用于對目標(biāo)在一段時(shí)間內(nèi)所發(fā)出的一系列動作進(jìn)行捕捉并記錄；關(guān)聯(lián)信息識別記錄模塊，其用于同步地識別并記錄分別與所捕捉的一系列動作相關(guān)聯(lián)的信息集合，所述信息集合由信息元構(gòu)成；整理模塊，其用于整理所記錄的動作和與之關(guān)聯(lián)的信息集合并將它們按照對應(yīng)關(guān)系存儲到機(jī)器人的記憶庫中；動作模仿模塊，其用于當(dāng)機(jī)器人接收動作輸出指令時(shí)，調(diào)取記憶庫中存儲的信息集合中的與要表達(dá)的內(nèi)容相匹配的信息集合并作出與該信息集合相對應(yīng)的動作，以對人類動作表達(dá)進(jìn)行模仿。9.根據(jù)權(quán)利要求8所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，其特征在于，在動作模仿模塊中還包括多模態(tài)輸出模塊，其用于在機(jī)器人在進(jìn)行動作表達(dá)的同時(shí)還進(jìn)行語音、圖像的多模態(tài)輸出。10.根據(jù)權(quán)利要求9所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，其特征在于，所捕捉的動作包括和時(shí)間對應(yīng)的肢體動作以及和時(shí)間對應(yīng)的表情動作，其中所述肢體動作用肢體的各自由度、各自由度的角度以及肢體的位移來表征，所述表情動作用面部特征點(diǎn)的分布、角度和位移來表征。11.根據(jù)權(quán)利要求9-10中任一項(xiàng)所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，其特征在于，所述整理模塊包括: 過濾模塊，其用于將所述信息集合中的重復(fù)的信息元進(jìn)行過濾。12.根據(jù)權(quán)利要求11所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，其特征在于，所述整理模塊還包括: 第一判斷模塊，其用于針對同一組信息集合，判斷所述信息集合是否對應(yīng)了不同的幾個(gè)動作；第二判斷模塊，其用于如果所述信息集合對應(yīng)了不同的幾個(gè)動作，則基于所述信息集合中的至少一個(gè)信息元或全部信息元來判斷不同的動作中是否存在錯(cuò)誤的動作，如果是，則將該錯(cuò)誤動作刪除，如果否，則將該信息集合對應(yīng)的所有正確動作歸為同一動作集合。13.根據(jù)權(quán)利要求12所述的面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理裝置，其特征在于，所述整理模塊還包括: 存儲模塊，其用于如果所述信息集合只對應(yīng)于一個(gè)動作，則將該動作和與之關(guān)聯(lián)的信息集合按照對應(yīng)關(guān)系存儲到記憶庫中。
【文檔編號】G06N3/00GK105825268SQ201610157146
【公開日】2016年8月3日
【申請日】2016年3月18日
【發(fā)明人】郭家
【申請人】北京光年無限科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭家;
技術(shù)所有人：北京光年無限科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向機(jī)器人學(xué)習(xí)動作表達(dá)的數(shù)據(jù)處理方法和系統(tǒng)的制作方法