本公開涉及一種用于場景分類的音頻的方法和設(shè)備,并且更具體地,涉及一種用于對音頻信號(hào)的場景進(jìn)行分類并根據(jù)場景分類的結(jié)果處理音頻信號(hào)的方法和設(shè)備。
背景技術(shù):
1、根據(jù)過頂(ott)服務(wù)的擴(kuò)展、電視(tv)的分辨率的增加以及電子裝置(諸如平板電腦)的屏幕的放大,想要體驗(yàn)沉浸式聲音(諸如家庭環(huán)境中的劇院內(nèi)容)的觀看者的需求不斷增加。為了滿足這種觀看者的需求,需要通過對音頻信號(hào)的場景進(jìn)行分類來根據(jù)場景類型處理音頻信號(hào)。
2、另外,需要通過考慮屏幕上的實(shí)體(聲源)的聲音表示來處理通道被布置在收聽者前方的三維音頻通道布局(收聽者前方的三維音頻通道布局)的音頻信號(hào)。當(dāng)處理三維音頻通道布局的音頻信號(hào)時(shí),需要通過對音頻信號(hào)的場景進(jìn)行分類來執(zhí)行有效的下混合。
3、因此,由于場景類型的數(shù)量的增加,存在對一種音頻場景分類模塊的新興需求,該音頻場景分類模塊具有用于音頻信號(hào)場景分類的低時(shí)延、高分類準(zhǔn)確度和低復(fù)雜度的結(jié)構(gòu)。
技術(shù)實(shí)現(xiàn)思路
1、問題的解決方案
2、提供了一種通過使用場景分類結(jié)果來處理來自多通道音頻信號(hào)的較低通道布局的音頻信號(hào)的方法和設(shè)備。
3、提供了一種用于根據(jù)場景分類結(jié)果對多通道音頻信號(hào)進(jìn)行下混合或上混合的方法和設(shè)備。
4、根據(jù)本公開的實(shí)施例,一種音頻處理方法可以包括:獲得與第一幀對應(yīng)的第一音頻信號(hào),通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量,獲得時(shí)間相關(guān)性向量,該時(shí)間相關(guān)性向量表示第一特征向量和從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)提取的至少一個(gè)第二特征向量之間的相似性,以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。
5、根據(jù)本公開的實(shí)施例,一種音頻處理設(shè)備包括存儲(chǔ)至少一個(gè)指令的存儲(chǔ)器,以及被配置為執(zhí)行存儲(chǔ)在存儲(chǔ)器中的至少一個(gè)指令的至少一個(gè)處理器。至少一個(gè)處理器可以被配置為執(zhí)行至少一個(gè)指令以獲得與第一幀對應(yīng)的第一音頻信號(hào),通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量,獲得表示第一特征向量和從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)提取的至少一個(gè)第二特征向量之間的相似性的時(shí)間相關(guān)性向量,以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。
6、根據(jù)本公開的實(shí)施例,一種音頻處理方法包括:從比特流獲得包括與原始音頻信號(hào)對應(yīng)的下混合音頻信號(hào)和場景分類結(jié)果的下混合相關(guān)信息,基于下混合相關(guān)信息對下混合音頻信號(hào)進(jìn)行解混合,以及基于解混合音頻信號(hào)重構(gòu)包括至少一個(gè)通道的音頻信號(hào)。場景分類結(jié)果可以基于與原始音頻信號(hào)的第一幀對應(yīng)的第一特征向量和與時(shí)間上在原始音頻信號(hào)的第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二特征向量之間的時(shí)間相關(guān)性向量來獲得。
7、根據(jù)本公開的實(shí)施例,一種音頻處理設(shè)備包括存儲(chǔ)至少一個(gè)指令的存儲(chǔ)器,以及被配置為執(zhí)行至少一個(gè)指令的至少一個(gè)處理器。至少一個(gè)處理器可以進(jìn)一步被配置為從原始音頻信號(hào)獲得包括下混合音頻信號(hào)和場景分類結(jié)果的下混合相關(guān)信息,基于下混合相關(guān)信息對下混合音頻信號(hào)進(jìn)行解混合,以及基于解混合音頻信號(hào)重構(gòu)音頻信號(hào)。場景分類結(jié)果可以基于與原始音頻信號(hào)的第一幀對應(yīng)的第一特征向量和與時(shí)間上在原始音頻信號(hào)的第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二特征向量之間的時(shí)間相關(guān)性向量來獲得。
8、根據(jù)本公開的實(shí)施例,提供了一種計(jì)算機(jī)可讀記錄介質(zhì),其上記錄有用于在計(jì)算機(jī)上執(zhí)行音頻處理方法的程序。
1.一種用于場景分類的音頻處理方法,所述音頻處理方法包含:
2.根據(jù)權(quán)利要求1所述的音頻處理方法,其中,所述獲得所述第一音頻信號(hào)(s1410)包含:
3.根據(jù)權(quán)利要求2所述的音頻處理方法,還包含:基于對所述場景進(jìn)行所述分類的結(jié)果,對與所述第一幀對應(yīng)的所述多通道音頻信號(hào)進(jìn)行下混合(s1450)。
4.根據(jù)權(quán)利要求3所述的音頻處理方法,其中,所述下混合包含:
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的音頻處理方法,其中,所述時(shí)間相關(guān)性向量包含所述第一特征向量和所述至少一個(gè)第二特征向量的第一內(nèi)積以及所述第一特征向量和所述第一特征向量的第二內(nèi)積。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的音頻處理方法,其中,所述第二神經(jīng)網(wǎng)絡(luò)接收通過級聯(lián)所述第一特征向量、所述至少一個(gè)第二特征向量和所述時(shí)間相關(guān)性向量而獲得的值作為輸入。
7.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的音頻處理方法,其中,所述至少一個(gè)第二特征向量包含n個(gè)第二特征向量,
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的音頻處理方法,其中,對所述場景進(jìn)行所述分類(s1340;s1440;s1640;s1740)包含:將所述第一音頻信號(hào)的所述場景分類為對話類型、音樂類型和音效類型中的任一種。
9.根據(jù)權(quán)利要求1和5至8中任一項(xiàng)所述的音頻處理方法,還包含:基于對所述場景進(jìn)行分類的結(jié)果,從主動(dòng)噪聲消除的模式中選擇模式(s1650)。
10.根據(jù)權(quán)利要求9所述的音頻處理方法,其中,對所述場景進(jìn)行所述分類包含:對與所述第一音頻信號(hào)對應(yīng)的危險(xiǎn)程度進(jìn)行分類,以及
11.根據(jù)權(quán)利要求1和5至8中任一項(xiàng)所述的音頻處理方法,還包含:基于對所述場景進(jìn)行分類的結(jié)果,調(diào)整所述第一音頻信號(hào)的聲場(s1750)。
12.一種用于場景分類的音頻處理設(shè)備,所述音頻處理設(shè)備包含:
13.根據(jù)權(quán)利要求12所述的音頻處理設(shè)備,其中,所述至少一個(gè)處理器(1830)還被配置為執(zhí)行所述至少一個(gè)指令以基于所述場景分類的結(jié)果來選擇主動(dòng)噪聲消除的模式之一。
14.根據(jù)權(quán)利要求12所述的音頻處理設(shè)備,其中,所述至少一個(gè)處理器(1830)還被配置為執(zhí)行所述至少一個(gè)指令以基于對所述場景進(jìn)行分類的結(jié)果來調(diào)整所述第一音頻信號(hào)的聲場。
15.一種用于場景分類的音頻處理方法,所述音頻處理方法包含: