本技術(shù)涉及智能教育領(lǐng)域,且更為具體地,涉及一種基于兒童語音模態(tài)特性感知的語音教育機(jī)器人。
背景技術(shù):
1、隨著教育技術(shù)的不斷進(jìn)步,個(gè)性化教育已成為一種趨勢(shì)。兒童在學(xué)習(xí)過程中展現(xiàn)出多樣化的興趣、能力和情感狀態(tài),這些個(gè)體差異要求教育方法更加靈活和針對(duì)性。語音教育機(jī)器人通過自然和親切的互動(dòng),使兒童在與其交流中感受到被理解和關(guān)注,從而激發(fā)他們的學(xué)習(xí)興趣和積極性。
2、然而,現(xiàn)有的語音教育機(jī)器人通常采用固定的回復(fù)模板,這種方式缺乏靈活性,無法根據(jù)兒童的實(shí)時(shí)反饋和情感變化進(jìn)行動(dòng)態(tài)調(diào)整,從而影響互動(dòng)效果。例如,當(dāng)兒童表現(xiàn)出困惑或不感興趣時(shí),機(jī)器人無法及時(shí)調(diào)整回復(fù)內(nèi)容,提供更有針對(duì)性的幫助。此外,現(xiàn)有的語音處理技術(shù)在情感識(shí)別方面存在不足,其主要依賴于文本信息,以致難以準(zhǔn)確捕捉和理解兒童的語氣和情感狀態(tài)變化,從而導(dǎo)致機(jī)器人在與兒童互動(dòng)時(shí),無法及時(shí)識(shí)別和響應(yīng)兒童的情感需求,影響互動(dòng)的自然度和親和力。
3、因此,期望一種優(yōu)化的語音教育機(jī)器人。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,提出了本技術(shù)。本技術(shù)的實(shí)施例提供了一種基于兒童語音模態(tài)特性感知的語音教育機(jī)器人。
2、根據(jù)本技術(shù)的一個(gè)方面,提供了一種基于兒童語音模態(tài)特性感知的語音教育機(jī)器人,其包括:麥克風(fēng)陣列,用于捕捉目標(biāo)兒童對(duì)象的語音輸入信號(hào);語音教育處理器,用于基于端對(duì)端語音大模型對(duì)所述語音輸入信號(hào)進(jìn)行處理以生成對(duì)應(yīng)于所述語音輸入信號(hào)的教育回復(fù)語音;揚(yáng)聲器,用于播放所述教育回復(fù)語音;其中,所述語音教育處理器,包括:聲音特征提取模塊,用于對(duì)所述語音輸入信號(hào)進(jìn)行聲音特性提取以得到音高的時(shí)間隊(duì)列和音強(qiáng)的時(shí)間隊(duì)列;音高音強(qiáng)模態(tài)感知模塊,用于對(duì)所述音高的時(shí)間隊(duì)列和所述音強(qiáng)的時(shí)間隊(duì)列進(jìn)行語音模態(tài)感知以得到音高時(shí)序關(guān)聯(lián)模式特征和音強(qiáng)時(shí)序關(guān)聯(lián)模式特征;聲音特征補(bǔ)償交互模塊,用于對(duì)所述音高時(shí)序關(guān)聯(lián)模式特征和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征進(jìn)行特征間共性補(bǔ)償交互以得到兒童語音模態(tài)特性表示;語音信號(hào)嵌入編碼模塊,用于對(duì)所述語音輸入信號(hào)進(jìn)行嵌入編碼以得到語音輸入信號(hào)片段語義嵌入特征的序列;回復(fù)語音生成模塊,用于基于所述兒童語音模態(tài)特性表示和所述語音輸入信號(hào)片段語義嵌入特征的序列,得到所述教育回復(fù)語音。
3、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述音高音強(qiáng)模態(tài)感知模塊,用于:將所述音高的時(shí)間隊(duì)列和所述音強(qiáng)的時(shí)間隊(duì)列輸入基于前向lstm模型的語音模態(tài)感知器以得到音高時(shí)序關(guān)聯(lián)模式特征向量作為所述音高時(shí)序關(guān)聯(lián)模式特征和音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量作為所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征。
4、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述聲音特征補(bǔ)償交互模塊,包括:音高音強(qiáng)時(shí)序共性提取單元,用于將所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量輸入共性特征提取網(wǎng)絡(luò)以得到音高-音強(qiáng)時(shí)序特征間共性特征表示向量;音高音強(qiáng)特征補(bǔ)償單元,用于基于所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量,分別計(jì)算所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量的細(xì)粒度補(bǔ)償向量以得到音高時(shí)序細(xì)粒度補(bǔ)償向量和音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量;音高音強(qiáng)特征補(bǔ)償融合單元,用于基于所述音高時(shí)序細(xì)粒度補(bǔ)償向量和所述音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量,對(duì)所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量進(jìn)行細(xì)粒度特征補(bǔ)償融合以得到所述兒童語音模態(tài)特性表示。
5、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述音高音強(qiáng)時(shí)序共性提取單元,用于:將所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量進(jìn)行按位置點(diǎn)加以得到音高-音強(qiáng)時(shí)序點(diǎn)加向量;將所述音高-音強(qiáng)時(shí)序點(diǎn)加向量與權(quán)重矩陣相乘,將得到的音高-音強(qiáng)時(shí)序權(quán)重向量與偏置向量進(jìn)行按位置相加以得到音高-音強(qiáng)時(shí)序共性向量;將所述音高-音強(qiáng)時(shí)序共性向量輸入tanh函數(shù)進(jìn)行處理以得到所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量。
6、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述音高音強(qiáng)特征補(bǔ)償單元,包括:特征向量概率化處理子單元,用于將所述音高時(shí)序關(guān)聯(lián)模式特征向量、所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量和所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量輸入基于sigmoid函數(shù)的向量概率化單元以得到概率化音高時(shí)序關(guān)聯(lián)模式特征向量、概率化音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量和概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量;音高特征時(shí)序補(bǔ)償子單元,用于計(jì)算所述概率化音高時(shí)序關(guān)聯(lián)模式特征向量相對(duì)于所述概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量的所述音高時(shí)序細(xì)粒度補(bǔ)償向量;音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量生成子單元,用于計(jì)算所述概率化音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量相對(duì)于所述概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量的所述音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量。
7、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述音高特征時(shí)序補(bǔ)償子單元,用于:計(jì)算所述概率化音高時(shí)序關(guān)聯(lián)模式特征向量與所述概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量的按位置點(diǎn)除以得到音高時(shí)序貢獻(xiàn)向量;計(jì)算所述音高時(shí)序貢獻(xiàn)向量的每個(gè)特征值的絕對(duì)值的以二為底的對(duì)數(shù)函數(shù)值以得到音高時(shí)序貢獻(xiàn)對(duì)數(shù)向量;計(jì)算所述概率化音高時(shí)序關(guān)聯(lián)模式特征向量與所述音高時(shí)序貢獻(xiàn)對(duì)數(shù)向量的按位置點(diǎn)乘以得到點(diǎn)乘向量,并計(jì)算以自然常數(shù)e為底的,所述點(diǎn)乘向量中各個(gè)點(diǎn)乘值為指數(shù)的指數(shù)函數(shù)值以得到音高時(shí)序補(bǔ)償向量;將所述音高時(shí)序補(bǔ)償向量輸入softmax函數(shù)以得到所述音高時(shí)序細(xì)粒度補(bǔ)償向量。
8、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述音高音強(qiáng)特征補(bǔ)償融合單元,包括:音高特征時(shí)序細(xì)粒度補(bǔ)償子單元,用于將所述音高時(shí)序細(xì)粒度補(bǔ)償向量和所述音高時(shí)序關(guān)聯(lián)模式特征向量輸入細(xì)粒度補(bǔ)償模塊以得到音高時(shí)序細(xì)粒度特征補(bǔ)償向量;音強(qiáng)特征時(shí)序細(xì)粒度補(bǔ)償子單元,用于將所述音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量輸入所述細(xì)粒度補(bǔ)償模塊以得到音強(qiáng)時(shí)序細(xì)粒度特征補(bǔ)償向量;兒童語音模態(tài)特性表示生成子單元,用于將所述音高時(shí)序細(xì)粒度特征補(bǔ)償向量、所述音強(qiáng)時(shí)序細(xì)粒度特征補(bǔ)償向量和所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量進(jìn)行級(jí)聯(lián)以得到兒童語音模態(tài)特性表示向量作為所述兒童語音模態(tài)特性表示。
9、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述音高特征時(shí)序細(xì)粒度補(bǔ)償子單元,用于:計(jì)算所述音高時(shí)序關(guān)聯(lián)模式特征向量與所述音高時(shí)序細(xì)粒度補(bǔ)償向量的按位置點(diǎn)乘以得到所述音高時(shí)序細(xì)粒度特征補(bǔ)償向量。
10、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述語音信號(hào)嵌入編碼模塊,用于:使用語音信號(hào)嵌入矩陣對(duì)所述語音輸入信號(hào)進(jìn)行嵌入編碼以得到語音輸入信號(hào)片段語義嵌入編碼向量的序列作為所述語音輸入信號(hào)片段語義嵌入特征的序列。
11、在上述基于兒童語音模態(tài)特性感知的語音教育機(jī)器人中,所述回復(fù)語音生成模塊,用于:以所述兒童語音模態(tài)特性表示向量作為提示信息,將所述兒童語音模態(tài)特性表示向量添加至所述語音輸入信號(hào)片段語義嵌入編碼向量的序列的尾部后,將其輸入所述端對(duì)端語音大模型以得到所述教育回復(fù)語音。
12、與現(xiàn)有技術(shù)相比,本技術(shù)提供的基于兒童語音模態(tài)特性感知的語音教育機(jī)器人,其采用基于ai和端對(duì)端的語音分析和處理技術(shù)來從語音輸入信號(hào)中提取出音高和音強(qiáng)的時(shí)間序列并對(duì)其進(jìn)行時(shí)序關(guān)聯(lián)模式分析,接著,對(duì)音高時(shí)序關(guān)聯(lián)模式特征和音強(qiáng)時(shí)序關(guān)聯(lián)模式特征進(jìn)行特征共性補(bǔ)償,同時(shí),對(duì)語音輸入信號(hào)進(jìn)行片段嵌入編碼,以此通過補(bǔ)償后的特征和各個(gè)語音輸入信號(hào)片段語義嵌入特征,來智能地生成教育回復(fù)語音。這樣,機(jī)器人能夠根據(jù)兒童的實(shí)時(shí)反饋和情感變化,動(dòng)態(tài)調(diào)整回復(fù)內(nèi)容,生成個(gè)性化的教育回復(fù)語音,這有助于增強(qiáng)互動(dòng)效果,提升兒童學(xué)習(xí)的積極性。