本發(fā)明涉及機器人交互技術領域,尤其涉及一種同步語音及虛擬動作的方法、系統(tǒng)及機器人。
背景技術:
機器人作為與人類的交互工具,使用的場合越來越多,例如一些老人、小孩較孤獨時,就可以與機器人交互,包括對話、娛樂等。而為了讓機器人與人類交互時更加擬人化,發(fā)明人研究出一種虛擬機器人的顯示設備和成像系統(tǒng),能夠形成3D的動畫形象,虛擬機器人的主機接受人類的指令例如語音等與人類進行交互,然后虛擬的3D動畫形象會根據(jù)主機的指令進行聲音和動作的回復,這樣就可以讓機器人更加擬人化,不僅在聲音、表情上能夠與人類交互,而且還可以在動作等上與人類交互,大大提高了交互的體驗感。
然而,虛擬機器人如何將回復內(nèi)容中的語音和虛擬動作進行同步是一個比較復雜的問題,如果語音和動作不能匹配,則會大大影響用戶的交互體驗。
因此,如何提供一種同步語音及虛擬動作的方法、系統(tǒng)及機器人,提升人機交互體驗成為亟需解決的技術問題。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種同步語音及虛擬動作的方法、系統(tǒng)及機器人,提升人機交互體驗。
本發(fā)明的目的是通過以下技術方案來實現(xiàn)的:
一種同步語音及虛擬動作的方法,包括:
獲取用戶的多模態(tài)信息;
根據(jù)用戶的多模態(tài)信息和可變參數(shù)生成交互內(nèi)容,所述交互內(nèi)容至少包括語音信息和動作信息;
將語音信息的時間長度和動作信息的時間長度調(diào)整到相同。
優(yōu)選的,所述將語音信息的時間長度和動作信息的時間長度調(diào)整到相同的具體步驟包括:
若語音信息的時間長度與動作信息的時間長度的差值不大于閾值,當語音信息的時間長度小于動作信息的時間長度,則加快動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
優(yōu)選的,當語音信息的時間長度大于動作信息的時間長度,則加快語音信息的播放速度或/和減緩動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
優(yōu)選的,所述將語音信息的時間長度和動作信息的時間長度調(diào)整到相同的具體步驟包括:
若語音信息的時間長度與動作信息的時間長度的差值大于閾值,當語音信息的時間長度大于動作信息的時間長度時,則將至少兩組動作信息進行排序組合,使組合后的動作信息的時間長度等于所述語音信息的時間長度。
優(yōu)選的,當語音信息的時間長度小于動作信息的時間長度時,則選取動作信息中的部分動作,使選取的部分動作的時間長度等于所述語音信息的時間長度。
優(yōu)選的,所述機器人可變參數(shù)的生成方法包括:將機器人的自我認知的參數(shù)與可變參數(shù)中場景的參數(shù)進行擬合,生成機器人可變參數(shù)。
優(yōu)選的,所述可變參數(shù)至少包括改變用戶原本的行為和改變之后的行為,以及代表改變用戶原本的行為和改變之后的行為的參數(shù)值。
優(yōu)選的,所述根據(jù)所述多模態(tài)信息和可變參數(shù)生成交互內(nèi)容的步驟具體包括:根據(jù)所述多模態(tài)信息和可變參數(shù)以及參數(shù)改變概率的擬合曲線生成交互內(nèi)容。
優(yōu)選的,所述參數(shù)改變概率的擬合曲線的生成方法包括:使用概率算法,將機器人之間的參數(shù)用網(wǎng)絡做概率估計,計算當生活時間軸上的機器人在生活時間軸上的場景參數(shù)改變后,每個參數(shù)改變的概率,形成所述參數(shù)改變概率的擬合曲線。
一種同步語音及虛擬動作的系統(tǒng),包括:
獲取模塊,用于獲取用戶的多模態(tài)信息;
人工智能模塊,用于根據(jù)用戶的多模態(tài)信息和可變參數(shù)生成交互內(nèi)容,所述交互內(nèi)容至少包括語音信息和動作信息;
控制模塊,用于將語音信息的時間長度和動作信息的時間長度調(diào)整到相同。
優(yōu)選的,所述控制模塊具體用于:
若語音信息的時間長度與動作信息的時間長度的差值不大于閾值,當語音信息的時間長度小于動作信息的時間長度,則加快動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
優(yōu)選的,當語音信息的時間長度大于動作信息的時間長度,則加快語音信息的播放速度或/和減緩動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
優(yōu)選的,所述控制模塊具體用于:
若語音信息的時間長度與動作信息的時間長度的差值大于閾值,當語音信息的時間長度大于動作信息的時間長度時,則將至少兩組動作信息進行組合,使組合后的動作信息的時間長度等于所述語音信息的時間長度。
優(yōu)選的,當語音信息的時間長度小于動作信息的時間長度時,則選取動作信息中的部分動作,使選取的部分動作的時間長度等于所述語音信息的時間長度。
優(yōu)選的,所述系統(tǒng)還包括處理模塊,用于將機器人的自我認知的參數(shù)與可變參數(shù)中場景的參數(shù)進行擬合,生成可變參數(shù)。
優(yōu)選的,所述可變參數(shù)至少包括改變用戶原本的行為和改變之后的行為,以及代表改變用戶原本的行為和改變之后的行為的參數(shù)值。
優(yōu)選的,所述人工智能模塊具體用于:根據(jù)所述多模態(tài)信息和可變參數(shù)以及參數(shù)改變概率的擬合曲線生成交互內(nèi)容。
優(yōu)選的,所述系統(tǒng)包括擬合曲線生成模塊,用于使用概率算法,將機器人之間的參數(shù)用網(wǎng)絡做概率估計,計算當生活時間軸上的機器人在生活時間軸上的場景參數(shù)改變后,每個參數(shù)改變的概率,形成所述參數(shù)改變概率的擬合曲線。
本發(fā)明公開一種機器人,包括如上述任一所述的一種同步語音及虛擬動作的系統(tǒng)。
相比現(xiàn)有技術,本發(fā)明具有以下優(yōu)點:本發(fā)明的同步語音及虛擬動作的方法由于包括:獲取用戶的多模態(tài)信息;根據(jù)用戶的多模態(tài)信息和可變參數(shù)生成交互內(nèi)容,所述交互內(nèi)容至少包括語音信息和動作信息;將語音信息的時間長度和動作信息的時間長度調(diào)整到相同。這樣就可以通過用戶的多模態(tài)信息例如用戶語音、用戶表情、用戶動作等的一種或幾種,來生成交互內(nèi)容,交互內(nèi)容中至少包括語音信息和動作信息,而為了讓語音信息和動作信息能夠同步,將語音信息的時間長度和動作信息的時間長度調(diào)整到相同,這樣就可以讓機器人在播放聲音和動作時可以同步匹配,使機器人在交互時不僅具有語音表現(xiàn),還可以具有動作等多樣的表現(xiàn)形式,機器人的表現(xiàn)形式更加多樣化,使機器人更加擬人化,也提高了用戶于機器人交互時的體驗度。
附圖說明
圖1是本發(fā)明實施例一的一種同步語音及虛擬動作的方法的流程圖;
圖2是本發(fā)明實施例二的一種同步語音及虛擬動作的系統(tǒng)的示意圖。
具體實施方式
雖然流程圖將各項操作描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實施。各項操作的順序可以被重新安排。當其操作完成時處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。處理可以對應于方法、函數(shù)、規(guī)程、子例程、子程序等等。
計算機設備包括用戶設備與網(wǎng)絡設備。其中,用戶設備或客戶端包括但不限于電腦、智能手機、PDA等;網(wǎng)絡設備包括但不限于單個網(wǎng)絡服務器、多個網(wǎng)絡服務器組成的服務器組或基于云計算的由大量計算機或網(wǎng)絡服務器構成的云。計算機設備可單獨運行來實現(xiàn)本發(fā)明,也可接入網(wǎng)絡并通過與網(wǎng)絡中的其他計算機設備的交互操作來實現(xiàn)本發(fā)明。計算機設備所處的網(wǎng)絡包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡等。
在這里可能使用了術語“第一”、“第二”等等來描述各個單元,但是這些單元不應當受這些術語限制,使用這些術語僅僅是為了將一個單元與另一個單元進行區(qū)分。這里所使用的術語“和/或”包括其中一個或更多所列出的相關聯(lián)項目的任意和所有組合。當一個單元被稱為“連接”或“耦合”到另一單元時,其可以直接連接或耦合到所述另一單元,或者可以存在中間單元。
這里所使用的術語僅僅是為了描述具體實施例而不意圖限制示例性實施例。除非上下文明確地另有所指,否則這里所使用的單數(shù)形式“一個”、“一項”還意圖包括復數(shù)。還應當理解的是,這里所使用的術語“包括”和/或“包含”規(guī)定所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在,而不排除存在或添加一個或更多其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。
下面結合附圖和較佳的實施例對本發(fā)明作進一步說明。
實施例一
如圖1所示,本實施例中公開一種同步語音及虛擬動作的方法,包括:
S101、獲取用戶的多模態(tài)信息;
S102、根據(jù)用戶的多模態(tài)信息和可變參數(shù)300生成交互內(nèi)容,所述交互內(nèi)容至少包括語音信息和動作信息;
S103、將語音信息的時間長度和動作信息的時間長度調(diào)整到相同。
本發(fā)明的同步語音及虛擬動作的方法由于包括:獲取用戶的多模態(tài)信息;根據(jù)用戶的多模態(tài)信息和可變參數(shù)生成交互內(nèi)容,所述交互內(nèi)容至少包括語音信息和動作信息;將語音信息的時間長度和動作信息的時間長度調(diào)整到相同。這樣就可以通過用戶的多模態(tài)信息例如用戶語音、用戶表情、用戶動作等的一種或幾種,來生成交互內(nèi)容,交互內(nèi)容中至少包括語音信息和動作信息,而為了讓語音信息和動作信息能夠同步,將語音信息的時間長度和動作信息的時間長度調(diào)整到相同,這樣就可以讓機器人在播放聲音和動作時可以同步匹配,使機器人在交互時不僅具有語音表現(xiàn),還可以具有動作等多樣的表現(xiàn)形式,機器人的表現(xiàn)形式更加多樣化,使機器人更加擬人化,也提高了用戶于機器人交互時的體驗度。
本實施例中的多模態(tài)信息可以是用戶表情、語音信息、手勢信息、場景信息、圖像信息、視頻信息、人臉信息、瞳孔虹膜信息、光感信息和指紋信息等其中的其中一種或幾種。
本實施例中,可變參數(shù)具體是:人與機器發(fā)生的突發(fā)改變,比如時間軸上的一天生活是吃飯、睡覺、交互、跑步、吃飯、睡覺。那在這個情況下,假如突然改變機器人的場景,比如在跑步的時間段帶去海邊等等,這些人類主動對于機器人的參數(shù),作為可變參數(shù),這些改變會使得機器人的自我認知產(chǎn)生改變。生活時間軸與可變參數(shù)可以對自我認知中的屬性,例如心情值,疲勞值等等的更改,也可以自動加入新的自我認知信息,比如之前沒有憤怒值,基于生活時間軸和可變因素的場景就會自動根據(jù)之前模擬人類自我認知的場景,從而對機器人的自我認知進行添加。
例如,按照生活時間軸,在中午12點的時候應該是吃飯的時間,而如果改變了這個場景,比如在中午12點的時候出去逛街了,那么機器人就會將這個作為其中的一個可變參數(shù)進行寫入,在這個時間段內(nèi)用戶與機器人交互時,機器人就會結合到中午12點出去逛街進行生成交互內(nèi)容,而不是以之前的中午12點在吃飯進行結合生成交互內(nèi)容,在具體生成交互內(nèi)容時,機器人就會結合獲取的用戶的多模態(tài)信息,例如語音信息、視屏信息、圖片信息等和可變參數(shù)進行生成。這樣就可以加入一些人類生活中的突發(fā)事件在機器人的生活軸中,讓機器人的交互更加擬人化。
本實施例中,所述將語音信息的時間長度和動作信息的時間長度調(diào)整到相同的具體步驟包括:
若語音信息的時間長度與動作信息的時間長度的差值不大于閾值,當語音信息的時間長度小于動作信息的時間長度,則加快動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
當語音信息的時間長度大于動作信息的時間長度,則加快語音信息的播放速度或/和減緩動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
因此,當語音信息的時間長度與動作信息的時間長度的差值不大于閾值,調(diào)整的具體含義可以為壓縮或拉伸語音信息的時間長度或/和動作信息的時間長度,也可以是加快播放速度或者減緩播放速度,例如將語音信息的播放速度乘以2,或者將動作信息的播放時間乘以0.8等等。
例如,語音信息的時間長度與動作信息的時間長度的閾值是一分鐘,機器人根據(jù)用戶的多模態(tài)信息生成的交互內(nèi)容中,語音信息的時間長度是1分鐘,動作信息的時間長度是2分鐘,那么就可以將動作信息的播放速度加快,為原來播放速度的兩倍,那么動作信息調(diào)整后的播放時間就會為1分鐘,從而與語音信息進行同步。當然,也可以讓語音信息的播放速度減緩,調(diào)整為原來播放速度的0.5倍,這樣就會讓語音信息經(jīng)過調(diào)整后減緩為2分鐘,從而與動作信息同步。另外,也可以將語音信息和動作信息都調(diào)整,例如語音信息減緩,同時將動作信息加快,都調(diào)整到1分30秒,也可以讓語音和動作進行同步。
此外,本實施例中,所述將語音信息的時間長度和動作信息的時間長度調(diào)整到相同的具體步驟包括:
若語音信息的時間長度與動作信息的時間長度的差值大于閾值,當語音信息的時間長度大于動作信息的時間長度時,則將至少兩組動作信息進行排序組合,使組合后的動作信息的時間長度等于所述語音信息的時間長度。
當語音信息的時間長度小于動作信息的時間長度時,則選取動作信息中的部分動作,使選取的部分動作的時間長度等于所述語音信息的時間長度。
因此,當語音信息的時間長度與動作信息的時間長度的差值大于閾值,調(diào)整的含義就是添加或者刪除部分動作信息,以使動作信息的時間長度與語音信息的時間長度相同。
例如,語音信息的時間長度與動作信息的時間長度的閾值是30秒,機器人根據(jù)用戶的多模態(tài)信息生成的交互內(nèi)容中,語音信息的時間長度是3分鐘,動作信息的時間長度是1分鐘,那么就需要將其他的動作信息也加入到原本的動作信息中,例如找到一個時間長度為2分鐘的動作信息,將上述兩組動作信息進行排序組合后就與語音信息的時間長度匹配到相同了。當然,如果沒有找到時間長度為2分鐘的動作信息,而找到了一個時間長度為了2分半的,那么就可以選取這個2分半的動作信息中的部分動作(可以是部分幀),使選取后的動作信息的時間長度為2分鐘,這樣就可以語音信息的時間長度匹配相同了。
本實施例中,可以根據(jù)語音信息的時間長度,選擇與語音信息的時間長度最接近的動作信息,也可以根據(jù)動作信息的時間長度選擇最接近的語音信息。
這樣在選擇的時候根據(jù)語音信息的時間長度進行選擇,可以方便控制模塊對語音信息和動作信息的時間長度的調(diào)整,更加容易調(diào)整到一致,而且調(diào)整后的播放更加自然,平滑。
根據(jù)其中一個示例,在將語音信息的時間長度和動作信息的時間長度調(diào)整到相同的步驟之后還包括:將調(diào)整后的語音信息和動作信息輸出到虛擬影像進行展示。
這樣就可以在調(diào)整一致后進行輸出,輸出可以是在虛擬影像上進行輸出,從而使虛擬機器人更加擬人化,提高用戶體驗度。
根據(jù)其中一個示例,所述機器人可變參數(shù)的生成方法包括:將機器人的自我認知的參數(shù)與可變參數(shù)中場景的參數(shù)進行擬合,生成機器人可變參數(shù)。這樣通過在結合可變參數(shù)的機器人的場景,將機器人本身的自我認知行擴展,對自我認知中的參數(shù)與可變參會蘇軸中使用場景的參數(shù)進行擬合,產(chǎn)生擬人化的影響。
根據(jù)其中一個示例,所述可變參數(shù)至少包括改變用戶原本的行為和改變之后的行為,以及代表改變用戶原本的行為和改變之后的行為的參數(shù)值。
可變參數(shù)就是按照原本計劃,是處于一種狀態(tài)的,突然的改變讓用戶處于了另一種狀態(tài),可變參數(shù)就代表了這種行為或狀態(tài)的變化,以及變化之后用戶的狀態(tài)或者行為,例如原本在下午5點是在跑步,突然有其他的事,例如去打球,那么從跑步改為打球就是可變參數(shù),另外還要研究這種改變的幾率。
根據(jù)其中一個示例,所述根據(jù)所述多模態(tài)信息和可變參數(shù)生成交互內(nèi)容的步驟具體包括:根據(jù)所述多模態(tài)信息和可變參數(shù)以及參數(shù)改變概率的擬合曲線生成交互內(nèi)容。
這樣就可以通過可變參數(shù)的概率訓練生成擬合曲線,從而生成機器人交互內(nèi)容。
根據(jù)其中一個示例,所述參數(shù)改變概率的擬合曲線的生成方法包括:使用概率算法,將機器人之間的參數(shù)用網(wǎng)絡做概率估計,計算當生活時間軸上的機器人在生活時間軸上的場景參數(shù)改變后,每個參數(shù)改變的概率,形成所述參數(shù)改變概率的擬合曲線。其中,概率算法可以采用貝葉斯概率算法。
通過在結合可變參數(shù)的機器人的場景,將機器人本身的自我認知行擴展,對自我認知中的參數(shù)與可變參會蘇軸中使用場景的參數(shù)進行擬合,產(chǎn)生擬人化的影響。同時,加上對于地點場景的識別,使得機器人會知道自己的地理位置,會根據(jù)自己所處的地理環(huán)境,改變交互內(nèi)容生成的方式。另外,我們使用貝葉斯概率算法,將機器人之間的參數(shù)用貝葉斯網(wǎng)絡做概率估計,計算生活時間軸上的機器人本身時間軸場景參數(shù)改變后,每個參數(shù)改變的概率,形成擬合曲線,動態(tài)影響機器人本身的自我認知。這種創(chuàng)新的模塊使得機器人本身具有人類的生活方式,對于表情這塊,可按照所處的地點場景,做表情方面的改變。
實施例二
如圖2所示,本實施例中公開一種同步語音及虛擬動作的系統(tǒng),包括:
獲取模塊201,用于獲取用戶的多模態(tài)信息;
人工智能模塊202,用于根據(jù)用戶的多模態(tài)信息和可變參數(shù)生成交互內(nèi)容,所述交互內(nèi)容至少包括語音信息和動作信息,其中可變參數(shù)由可變參數(shù)模塊301生成;
控制模塊203,用于將語音信息的時間長度和動作信息的時間長度調(diào)整到相同。
這樣就可以通過用戶的多模態(tài)信息例如用戶語音、用戶表情、用戶動作等的一種或幾種,來生成交互內(nèi)容,交互內(nèi)容中至少包括語音信息和動作信息,而為了讓語音信息和動作信息能夠同步,將語音信息的時間長度和動作信息的時間長度調(diào)整到相同,這樣就可以讓機器人在播放聲音和動作時可以同步匹配,使機器人在交互時不僅具有語音表現(xiàn),還可以具有動作等多樣的表現(xiàn)形式,機器人的表現(xiàn)形式更加多樣化,使機器人更加擬人化,也提高了用戶于機器人交互時的體驗度。
本實施例中的多模態(tài)信息可以是用戶表情、語音信息、手勢信息、場景信息、圖像信息、視頻信息、人臉信息、瞳孔虹膜信息、光感信息和指紋信息等其中的其中一種或幾種。
本實施例中,可變參數(shù)具體是:人與機器發(fā)生的突發(fā)改變,比如時間軸上的一天生活是吃飯、睡覺、交互、跑步、吃飯、睡覺。那在這個情況下,假如突然改變機器人的場景,比如在跑步的時間段帶去海邊等等,這些人類主動對于機器人的參數(shù),作為可變參數(shù),這些改變會使得機器人的自我認知產(chǎn)生改變。生活時間軸與可變參數(shù)可以對自我認知中的屬性,例如心情值,疲勞值等等的更改,也可以自動加入新的自我認知信息,比如之前沒有憤怒值,基于生活時間軸和可變因素的場景就會自動根據(jù)之前模擬人類自我認知的場景,從而對機器人的自我認知進行添加。
例如,按照生活時間軸,在中午12點的時候應該是吃飯的時間,而如果改變了這個場景,比如在中午12點的時候出去逛街了,那么機器人就會將這個作為其中的一個可變參數(shù)進行寫入,在這個時間段內(nèi)用戶與機器人交互時,機器人就會結合到中午12點出去逛街進行生成交互內(nèi)容,而不是以之前的中午12點在吃飯進行結合生成交互內(nèi)容,在具體生成交互內(nèi)容時,機器人就會結合獲取的用戶的多模態(tài)信息,例如語音信息、視屏信息、圖片信息等和可變參數(shù)進行生成。這樣就可以加入一些人類生活中的突發(fā)事件在機器人的生活軸中,讓機器人的交互更加擬人化。
本實施例中,所述控制模塊具體用于:
若語音信息的時間長度與動作信息的時間長度的差值不大于閾值,當語音信息的時間長度小于動作信息的時間長度,則加快動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
當語音信息的時間長度大于動作信息的時間長度,則加快語音信息的播放速度或/和減緩動作信息的播放速度,使動作信息的時間長度等于所述語音信息的時間長度。
因此,當語音信息的時間長度與動作信息的時間長度的差值不大于閾值,調(diào)整的具體含義可以壓縮或拉伸語音信息的時間長度或/和動作信息的時間長度,也可以是加快播放速度或者減緩播放速度,例如將語音信息的播放速度乘以2,或者將動作信息的播放時間乘以0.8等等。
例如,語音信息的時間長度與動作信息的時間長度的閾值是一分鐘,機器人根據(jù)用戶的多模態(tài)信息生成的交互內(nèi)容中,語音信息的時間長度是1分鐘,動作信息的時間長度是2分鐘,那么就可以將動作信息的播放速度加快,為原來播放速度的兩倍,那么動作信息調(diào)整后的播放時間就會為1分鐘,從而與語音信息進行同步。當然,也可以讓語音信息的播放速度減緩,調(diào)整為原來播放速度的0.5倍,這樣就會讓語音信息經(jīng)過調(diào)整后減緩為2分鐘,從而與動作信息同步。另外,也可以將語音信息和動作信息都調(diào)整,例如語音信息減緩,同時將動作信息加快,都調(diào)整到1分30秒,也可以讓語音和動作進行同步。
此外,本實施例中,所述控制模塊具體用于:
若語音信息的時間長度與動作信息的時間長度的差值大于閾值,當語音信息的時間長度大于動作信息的時間長度時,則將至少兩組動作信息進行組合,使組合后的動作信息的時間長度等于所述語音信息的時間長度。
當語音信息的時間長度小于動作信息的時間長度時,則選取動作信息中的部分動作,使選取的部分動作的時間長度等于所述語音信息的時間長度。
因此,當語音信息的時間長度與動作信息的時間長度的差值大于閾值,調(diào)整的含義就是添加或者刪除部分動作信息,以使動作信息的時間長度與語音信息的時間長度相同。
例如,語音信息的時間長度與動作信息的時間長度的閾值是30秒,機器人根據(jù)用戶的多模態(tài)信息生成的交互內(nèi)容中,語音信息的時間長度是3分鐘,動作信息的時間長度是1分鐘,那么就需要將其他的動作信息也加入到原本的動作信息中,例如找到一個時間長度為2分鐘的動作信息,將上述兩組動作信息進行排序組合后就與語音信息的時間長度匹配到相同了。當然,如果沒有找到時間長度為2分鐘的動作信息,而找到了一個時間長度為了2分半的,那么就可以選取這個2分半的動作信息中的部分動作(可以是部分幀),使選取后的動作信息的時間長度為2分鐘,這樣就可以語音信息的時間長度匹配相同了。
本實施例中,可以為所述人工智能模塊具體用于:根據(jù)語音信息的時間長度,選擇與語音信息的時間長度最接近的動作信息,也可以根據(jù)動作信息的時間長度選擇最接近的語音信息。
這樣在選擇的時候根據(jù)語音信息的時間長度進行選擇,可以方便控制模塊對語音信息和動作信息的時間長度的調(diào)整,更加容易調(diào)整到一致,而且調(diào)整后的播放更加自然,平滑。
根據(jù)其中一個示例,所述系統(tǒng)還包括輸出模塊204,用于將調(diào)整后的語音信息和動作信息輸出到虛擬影像進行展示。
這樣就可以在調(diào)整一致后進行輸出,輸出可以是在虛擬影像上進行輸出,從而使虛擬機器人更加擬人化,提高用戶體驗度。
根據(jù)其中一個示例,所述系統(tǒng)還包括處理模塊,用于將機器人的自我認知的參數(shù)與可變參數(shù)中場景的參數(shù)進行擬合,生成可變參數(shù)。
這樣通過在結合可變參數(shù)的機器人的場景,將機器人本身的自我認知行擴展,對自我認知中的參數(shù)與可變參會蘇軸中使用場景的參數(shù)進行擬合,產(chǎn)生擬人化的影響。
根據(jù)其中一個示例,所述可變參數(shù)至少包括改變用戶原本的行為和改變之后的行為,以及代表改變用戶原本的行為和改變之后的行為的參數(shù)值。
可變參數(shù)就是按照原本計劃,是處于一種狀態(tài)的,突然的改變讓用戶處于了另一種狀態(tài),可變參數(shù)就代表了這種行為或狀態(tài)的變化,以及變化之后用戶的狀態(tài)或者行為,例如原本在下午5點是在跑步,突然有其他的事,例如去打球,那么從跑步改為打球就是可變參數(shù),另外還要研究這種改變的幾率。
根據(jù)其中一個示例,所述人工智能模塊具體用于:根據(jù)所述多模態(tài)信息和可變參數(shù)以及參數(shù)改變概率的擬合曲線生成交互內(nèi)容。
這樣就可以通過可變參數(shù)的概率訓練生成擬合曲線,從而生成機器人交互內(nèi)容。
根據(jù)其中一個示例,所述系統(tǒng)包括擬合曲線生成模塊,用于使用概率算法,將機器人之間的參數(shù)用網(wǎng)絡做概率估計,計算當生活時間軸上的機器人在生活時間軸上的場景參數(shù)改變后,每個參數(shù)改變的概率,形成所述參數(shù)改變概率的擬合曲線。其中,概率算法可以采用貝葉斯概率算法。
通過在結合可變參數(shù)的機器人的場景,將機器人本身的自我認知行擴展,對自我認知中的參數(shù)與可變參會蘇軸中使用場景的參數(shù)進行擬合,產(chǎn)生擬人化的影響。同時,加上對于地點場景的識別,使得機器人會知道自己的地理位置,會根據(jù)自己所處的地理環(huán)境,改變交互內(nèi)容生成的方式。另外,我們使用貝葉斯概率算法,將機器人之間的參數(shù)用貝葉斯網(wǎng)絡做概率估計,計算生活時間軸上的機器人本身時間軸場景參數(shù)改變后,每個參數(shù)改變的概率,形成擬合曲線,動態(tài)影響機器人本身的自我認知。這種創(chuàng)新的模塊使得機器人本身具有人類的生活方式,對于表情這塊,可按照所處的地點場景,做表情方面的改變。
本發(fā)明公開一種機器人,包括如上述任一所述的一種同步語音及虛擬動作的系統(tǒng)。
以上內(nèi)容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本發(fā)明的保護范圍。