1.一種基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,包括:麥克風(fēng)陣列,用于捕捉目標(biāo)兒童對(duì)象的語(yǔ)音輸入信號(hào);語(yǔ)音教育處理器,用于基于端對(duì)端語(yǔ)音大模型對(duì)所述語(yǔ)音輸入信號(hào)進(jìn)行處理以生成對(duì)應(yīng)于所述語(yǔ)音輸入信號(hào)的教育回復(fù)語(yǔ)音;揚(yáng)聲器,用于播放所述教育回復(fù)語(yǔ)音;其中,所述語(yǔ)音教育處理器,包括:聲音特征提取模塊,用于對(duì)所述語(yǔ)音輸入信號(hào)進(jìn)行聲音特性提取以得到音高的時(shí)間隊(duì)列和音強(qiáng)的時(shí)間隊(duì)列;音高音強(qiáng)模態(tài)感知模塊,用于對(duì)所述音高的時(shí)間隊(duì)列和所述音強(qiáng)的時(shí)間隊(duì)列進(jìn)行語(yǔ)音模態(tài)感知以得到音高時(shí)序關(guān)聯(lián)模式特征和音強(qiáng)時(shí)序關(guān)聯(lián)模式特征;聲音特征補(bǔ)償交互模塊,用于對(duì)所述音高時(shí)序關(guān)聯(lián)模式特征和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征進(jìn)行特征間共性補(bǔ)償交互以得到兒童語(yǔ)音模態(tài)特性表示;語(yǔ)音信號(hào)嵌入編碼模塊,用于對(duì)所述語(yǔ)音輸入信號(hào)進(jìn)行嵌入編碼以得到語(yǔ)音輸入信號(hào)片段語(yǔ)義嵌入特征的序列;回復(fù)語(yǔ)音生成模塊,用于基于所述兒童語(yǔ)音模態(tài)特性表示和所述語(yǔ)音輸入信號(hào)片段語(yǔ)義嵌入特征的序列,得到所述教育回復(fù)語(yǔ)音。
2.根據(jù)權(quán)利要求1所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述音高音強(qiáng)模態(tài)感知模塊,用于:將所述音高的時(shí)間隊(duì)列和所述音強(qiáng)的時(shí)間隊(duì)列輸入基于前向lstm模型的語(yǔ)音模態(tài)感知器以得到音高時(shí)序關(guān)聯(lián)模式特征向量作為所述音高時(shí)序關(guān)聯(lián)模式特征和音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量作為所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征。
3.根據(jù)權(quán)利要求2所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述聲音特征補(bǔ)償交互模塊,包括:音高音強(qiáng)時(shí)序共性提取單元,用于將所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量輸入共性特征提取網(wǎng)絡(luò)以得到音高-音強(qiáng)時(shí)序特征間共性特征表示向量;音高音強(qiáng)特征補(bǔ)償單元,用于基于所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量,分別計(jì)算所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量的細(xì)粒度補(bǔ)償向量以得到音高時(shí)序細(xì)粒度補(bǔ)償向量和音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量;音高音強(qiáng)特征補(bǔ)償融合單元,用于基于所述音高時(shí)序細(xì)粒度補(bǔ)償向量和所述音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量,對(duì)所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量進(jìn)行細(xì)粒度特征補(bǔ)償融合以得到所述兒童語(yǔ)音模態(tài)特性表示。
4.根據(jù)權(quán)利要求3所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述音高音強(qiáng)時(shí)序共性提取單元,用于:將所述音高時(shí)序關(guān)聯(lián)模式特征向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量進(jìn)行按位置點(diǎn)加以得到音高-音強(qiáng)時(shí)序點(diǎn)加向量;將所述音高-音強(qiáng)時(shí)序點(diǎn)加向量與權(quán)重矩陣相乘,將得到的音高-音強(qiáng)時(shí)序權(quán)重向量與偏置向量進(jìn)行按位置相加以得到音高-音強(qiáng)時(shí)序共性向量;將所述音高-音強(qiáng)時(shí)序共性向量輸入tanh函數(shù)進(jìn)行處理以得到所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量。
5.根據(jù)權(quán)利要求4所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述音高音強(qiáng)特征補(bǔ)償單元,包括:特征向量概率化處理子單元,用于將所述音高時(shí)序關(guān)聯(lián)模式特征向量、所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量和所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量輸入基于sigmoid函數(shù)的向量概率化單元以得到概率化音高時(shí)序關(guān)聯(lián)模式特征向量、概率化音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量和概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量;音高特征時(shí)序補(bǔ)償子單元,用于計(jì)算所述概率化音高時(shí)序關(guān)聯(lián)模式特征向量相對(duì)于所述概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量的所述音高時(shí)序細(xì)粒度補(bǔ)償向量;音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量生成子單元,用于計(jì)算所述概率化音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量相對(duì)于所述概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量的所述音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量。
6.根據(jù)權(quán)利要求5所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述音高特征時(shí)序補(bǔ)償子單元,用于:計(jì)算所述概率化音高時(shí)序關(guān)聯(lián)模式特征向量與所述概率化音高-音強(qiáng)時(shí)序特征間共性特征表示向量的按位置點(diǎn)除以得到音高時(shí)序貢獻(xiàn)向量;計(jì)算所述音高時(shí)序貢獻(xiàn)向量的每個(gè)特征值的絕對(duì)值的以二為底的對(duì)數(shù)函數(shù)值以得到音高時(shí)序貢獻(xiàn)對(duì)數(shù)向量;計(jì)算所述概率化音高時(shí)序關(guān)聯(lián)模式特征向量與所述音高時(shí)序貢獻(xiàn)對(duì)數(shù)向量的按位置點(diǎn)乘以得到點(diǎn)乘向量,并計(jì)算以自然常數(shù)e為底的,所述點(diǎn)乘向量中各個(gè)點(diǎn)乘值為指數(shù)的指數(shù)函數(shù)值以得到音高時(shí)序補(bǔ)償向量;將所述音高時(shí)序補(bǔ)償向量輸入softmax函數(shù)以得到所述音高時(shí)序細(xì)粒度補(bǔ)償向量。
7.根據(jù)權(quán)利要求6所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述音高音強(qiáng)特征補(bǔ)償融合單元,包括:音高特征時(shí)序細(xì)粒度補(bǔ)償子單元,用于將所述音高時(shí)序細(xì)粒度補(bǔ)償向量和所述音高時(shí)序關(guān)聯(lián)模式特征向量輸入細(xì)粒度補(bǔ)償模塊以得到音高時(shí)序細(xì)粒度特征補(bǔ)償向量;音強(qiáng)特征時(shí)序細(xì)粒度補(bǔ)償子單元,用于將所述音強(qiáng)時(shí)序細(xì)粒度補(bǔ)償向量和所述音強(qiáng)時(shí)序關(guān)聯(lián)模式特征向量輸入所述細(xì)粒度補(bǔ)償模塊以得到音強(qiáng)時(shí)序細(xì)粒度特征補(bǔ)償向量;兒童語(yǔ)音模態(tài)特性表示生成子單元,用于將所述音高時(shí)序細(xì)粒度特征補(bǔ)償向量、所述音強(qiáng)時(shí)序細(xì)粒度特征補(bǔ)償向量和所述音高-音強(qiáng)時(shí)序特征間共性特征表示向量進(jìn)行級(jí)聯(lián)以得到兒童語(yǔ)音模態(tài)特性表示向量作為所述兒童語(yǔ)音模態(tài)特性表示。
8.根據(jù)權(quán)利要求7所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述音高特征時(shí)序細(xì)粒度補(bǔ)償子單元,用于:計(jì)算所述音高時(shí)序關(guān)聯(lián)模式特征向量與所述音高時(shí)序細(xì)粒度補(bǔ)償向量的按位置點(diǎn)乘以得到所述音高時(shí)序細(xì)粒度特征補(bǔ)償向量。
9.根據(jù)權(quán)利要求8所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述語(yǔ)音信號(hào)嵌入編碼模塊,用于:使用語(yǔ)音信號(hào)嵌入矩陣對(duì)所述語(yǔ)音輸入信號(hào)進(jìn)行嵌入編碼以得到語(yǔ)音輸入信號(hào)片段語(yǔ)義嵌入編碼向量的序列作為所述語(yǔ)音輸入信號(hào)片段語(yǔ)義嵌入特征的序列。
10.根據(jù)權(quán)利要求9所述的基于兒童語(yǔ)音模態(tài)特性感知的語(yǔ)音教育機(jī)器人,其特征在于,所述回復(fù)語(yǔ)音生成模塊,用于:以所述兒童語(yǔ)音模態(tài)特性表示向量作為提示信息,將所述兒童語(yǔ)音模態(tài)特性表示向量添加至所述語(yǔ)音輸入信號(hào)片段語(yǔ)義嵌入編碼向量的序列的尾部后,將其輸入所述端對(duì)端語(yǔ)音大模型以得到所述教育回復(fù)語(yǔ)音。