本申請涉及音頻處理領(lǐng)域,尤其涉及一種基于深度聲學(xué)特征的笑聲檢測方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、笑聲檢測是對話式語音合成系統(tǒng)重要的一環(huán)。笑聲檢測技術(shù)在多個領(lǐng)域具有重要的應(yīng)用價(jià)值,如情感分析、用戶體驗(yàn)研究、心理健康監(jiān)測等;笑聲作為語音額外的補(bǔ)償,能提供更多的情感表達(dá)。比如,在金融領(lǐng)域中,它能夠幫助系統(tǒng)自動識別和分析人們在交流中的笑聲,從而提供更豐富的情感信息,幫助金融工作人員了解對話對象的心理狀態(tài)。所以笑聲的識別、測量和分割等不同范圍內(nèi)的研究發(fā)揮著重要的重用。
2、笑聲分割能給我提供與說話人相關(guān)的笑聲信息。有了標(biāo)記好的笑聲信息能在對話式語音合成中加入額外的笑聲??梢栽谡5暮铣烧Z音中額外的插入不成程度的笑聲表達(dá),使得對話式語音合成系統(tǒng)的表達(dá)更加自然。
3、但是,笑聲檢測通常需要在嘈雜的環(huán)境中進(jìn)行,背景噪音、回聲和混響都會干擾笑聲的識別;并且,笑聲不僅僅是一個簡單的生理反應(yīng),它還與情感狀態(tài)緊密相關(guān),不同的情感狀態(tài)可能會產(chǎn)生不同特征的笑聲,增加了檢測的難度。
4、因此,如何提高笑聲檢測準(zhǔn)確率成為目前亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請?zhí)峁┝艘环N基于深度聲學(xué)特征的笑聲檢測方法、裝置、設(shè)備及介質(zhì),旨在提高笑聲檢測準(zhǔn)確率。
2、第一方面,本申請?zhí)峁┮环N基于深度聲學(xué)特征的笑聲檢測方法,所述基于深度聲學(xué)特征的笑聲檢測方法包括以下步驟:
3、基于特征提取算法,對至少一個分段聲學(xué)信號進(jìn)行特征提取,獲得第一聲學(xué)特征;
4、基于語音預(yù)訓(xùn)練模型,對所述分段聲學(xué)信號進(jìn)行深度聲學(xué)特征提取,獲得第二聲學(xué)特征;
5、基于笑聲檢測模型,對所述第一聲學(xué)特征和所述第二聲學(xué)特征的融合特征進(jìn)行笑聲特征識別,獲得笑聲檢測信息。
6、第二方面,本申請還提供一種基于深度聲學(xué)特征的笑聲檢測裝置,所述基于深度聲學(xué)特征的笑聲檢測裝置包括:
7、第一特征提取模塊,用于基于特征提取算法,對至少一個分段聲學(xué)信號進(jìn)行特征提取,獲得第一聲學(xué)特征;
8、第二特征提取模塊,用于基于語音預(yù)訓(xùn)練模型,對所述分段聲學(xué)信號進(jìn)行深度聲學(xué)特征提取,獲得第二聲學(xué)特征;
9、笑聲檢測模塊,用于基于笑聲檢測模型,對所述第一聲學(xué)特征和所述第二聲學(xué)特征的融合特征進(jìn)行笑聲特征識別,獲得笑聲檢測信息。
10、第三方面,本申請還提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被所述處理器執(zhí)行時,實(shí)現(xiàn)如上述的基于深度聲學(xué)特征的笑聲檢測方法的步驟。
11、第四方面,本申請還提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被處理器執(zhí)行時,實(shí)現(xiàn)如上述的基于深度聲學(xué)特征的笑聲檢測方法的步驟。
12、本申請?zhí)峁┮环N基于深度聲學(xué)特征的笑聲檢測方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì),本申請方法包括基于特征提取算法,對至少一個分段聲學(xué)信號進(jìn)行特征提取,獲得第一聲學(xué)特征;基于語音預(yù)訓(xùn)練模型,對所述分段聲學(xué)信號進(jìn)行深度聲學(xué)特征提取,獲得第二聲學(xué)特征;基于笑聲檢測模型,對所述第一聲學(xué)特征和所述第二聲學(xué)特征的融合特征進(jìn)行笑聲特征識別,獲得笑聲檢測信息。通過上述方式,本申請利用特征提取算法捕捉聲學(xué)信號的第一聲學(xué)特征;通過語音預(yù)訓(xùn)練模型對信號進(jìn)行深度聲學(xué)特征提取,挖掘更深層次的語音特性,獲得第二聲學(xué)特征,通過結(jié)合特征提取算法和語音預(yù)訓(xùn)練模型,實(shí)現(xiàn)了對聲學(xué)信號的多層次特征分析。將第一聲學(xué)特征和第二聲學(xué)特征進(jìn)行融合,并輸入到笑聲檢測模型中進(jìn)行特征識別,綜合了不同層面的信息,使得模型能夠更全面地理解和識別笑聲,從而提高笑聲檢測的準(zhǔn)確性。
1.一種基于深度聲學(xué)特征的笑聲檢測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于深度聲學(xué)特征的笑聲檢測方法,其特征在于,所述基于特征提取算法,對至少一個分段聲學(xué)信號進(jìn)行特征提取,獲得第一聲學(xué)特征,包括:
3.根據(jù)權(quán)利要求1所述的基于深度聲學(xué)特征的笑聲檢測方法,其特征在于,所述基于特征提取算法,對至少一個分段聲學(xué)信號進(jìn)行特征提取,獲得第一聲學(xué)特征之前,還包括:
4.根據(jù)權(quán)利要求1所述的基于深度聲學(xué)特征的笑聲檢測方法,其特征在于,所述基于笑聲檢測模型,對所述第一聲學(xué)特征和所述第二聲學(xué)特征的融合特征進(jìn)行笑聲特征識別,獲得笑聲檢測信息,包括:
5.根據(jù)權(quán)利要求1所述的基于深度聲學(xué)特征的笑聲檢測方法,其特征在于,所述基于笑聲檢測模型,對所述第一聲學(xué)特征和所述第二聲學(xué)特征的融合特征進(jìn)行笑聲特征識別,獲得笑聲檢測信息,還包括:
6.根據(jù)權(quán)利要求5所述的基于深度聲學(xué)特征的笑聲檢測方法,其特征在于,所述笑聲檢測信息包括笑聲位置信息;
7.根據(jù)權(quán)利要求1所述的基于深度聲學(xué)特征的笑聲檢測方法,其特征在于,所述基于笑聲檢測模型,對所述第一聲學(xué)特征和所述第二聲學(xué)特征的融合特征進(jìn)行笑聲特征識別,獲得笑聲檢測信息之前,還包括:
8.一種基于深度聲學(xué)特征的笑聲檢測裝置,其特征在于,所述基于深度聲學(xué)特征的笑聲檢測裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被所述處理器執(zhí)行時,實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于深度聲學(xué)特征的笑聲檢測方法的步驟。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被處理器執(zhí)行時,實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于深度聲學(xué)特征的笑聲檢測方法的步驟。