用于處理音頻以便對場景進(jìn)行分類的方法和裝置與流程

文檔序號(hào)：40424885發(fā)布日期：2024-12-24 14:58閱讀：29來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及一種用于場景分類的音頻的方法和設(shè)備，并且更具體地，涉及一種用于對音頻信號(hào)的場景進(jìn)行分類并根據(jù)場景分類的結(jié)果處理音頻信號(hào)的方法和設(shè)備。

背景技術(shù)：

1、根據(jù)過頂(ott)服務(wù)的擴(kuò)展、電視(tv)的分辨率的增加以及電子裝置(諸如平板電腦)的屏幕的放大，想要體驗(yàn)沉浸式聲音(諸如家庭環(huán)境中的劇院內(nèi)容)的觀看者的需求不斷增加。為了滿足這種觀看者的需求，需要通過對音頻信號(hào)的場景進(jìn)行分類來根據(jù)場景類型處理音頻信號(hào)。

2、另外，需要通過考慮屏幕上的實(shí)體(聲源)的聲音表示來處理通道被布置在收聽者前方的三維音頻通道布局(收聽者前方的三維音頻通道布局)的音頻信號(hào)。當(dāng)處理三維音頻通道布局的音頻信號(hào)時(shí)，需要通過對音頻信號(hào)的場景進(jìn)行分類來執(zhí)行有效的下混合。

3、因此，由于場景類型的數(shù)量的增加，存在對一種音頻場景分類模塊的新興需求，該音頻場景分類模塊具有用于音頻信號(hào)場景分類的低時(shí)延、高分類準(zhǔn)確度和低復(fù)雜度的結(jié)構(gòu)。

技術(shù)實(shí)現(xiàn)思路

1、問題的解決方案

2、提供了一種通過使用場景分類結(jié)果來處理來自多通道音頻信號(hào)的較低通道布局的音頻信號(hào)的方法和設(shè)備。

3、提供了一種用于根據(jù)場景分類結(jié)果對多通道音頻信號(hào)進(jìn)行下混合或上混合的方法和設(shè)備。

4、根據(jù)本公開的實(shí)施例，一種音頻處理方法可以包括：獲得與第一幀對應(yīng)的第一音頻信號(hào)，通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量，獲得時(shí)間相關(guān)性向量，該時(shí)間相關(guān)性向量表示第一特征向量和從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)提取的至少一個(gè)第二特征向量之間的相似性，以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。

5、根據(jù)本公開的實(shí)施例，一種音頻處理設(shè)備包括存儲(chǔ)至少一個(gè)指令的存儲(chǔ)器，以及被配置為執(zhí)行存儲(chǔ)在存儲(chǔ)器中的至少一個(gè)指令的至少一個(gè)處理器。至少一個(gè)處理器可以被配置為執(zhí)行至少一個(gè)指令以獲得與第一幀對應(yīng)的第一音頻信號(hào)，通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量，獲得表示第一特征向量和從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)提取的至少一個(gè)第二特征向量之間的相似性的時(shí)間相關(guān)性向量，以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。

6、根據(jù)本公開的實(shí)施例，一種音頻處理方法包括：從比特流獲得包括與原始音頻信號(hào)對應(yīng)的下混合音頻信號(hào)和場景分類結(jié)果的下混合相關(guān)信息，基于下混合相關(guān)信息對下混合音頻信號(hào)進(jìn)行解混合，以及基于解混合音頻信號(hào)重構(gòu)包括至少一個(gè)通道的音頻信號(hào)。場景分類結(jié)果可以基于與原始音頻信號(hào)的第一幀對應(yīng)的第一特征向量和與時(shí)間上在原始音頻信號(hào)的第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二特征向量之間的時(shí)間相關(guān)性向量來獲得。

7、根據(jù)本公開的實(shí)施例，一種音頻處理設(shè)備包括存儲(chǔ)至少一個(gè)指令的存儲(chǔ)器，以及被配置為執(zhí)行至少一個(gè)指令的至少一個(gè)處理器。至少一個(gè)處理器可以進(jìn)一步被配置為從原始音頻信號(hào)獲得包括下混合音頻信號(hào)和場景分類結(jié)果的下混合相關(guān)信息，基于下混合相關(guān)信息對下混合音頻信號(hào)進(jìn)行解混合，以及基于解混合音頻信號(hào)重構(gòu)音頻信號(hào)。場景分類結(jié)果可以基于與原始音頻信號(hào)的第一幀對應(yīng)的第一特征向量和與時(shí)間上在原始音頻信號(hào)的第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二特征向量之間的時(shí)間相關(guān)性向量來獲得。

8、根據(jù)本公開的實(shí)施例，提供了一種計(jì)算機(jī)可讀記錄介質(zhì)，其上記錄有用于在計(jì)算機(jī)上執(zhí)行音頻處理方法的程序。

技術(shù)特征：

1.一種用于場景分類的音頻處理方法，所述音頻處理方法包含：

2.根據(jù)權(quán)利要求1所述的音頻處理方法，其中，所述獲得所述第一音頻信號(hào)(s1410)包含：

3.根據(jù)權(quán)利要求2所述的音頻處理方法，還包含：基于對所述場景進(jìn)行所述分類的結(jié)果，對與所述第一幀對應(yīng)的所述多通道音頻信號(hào)進(jìn)行下混合(s1450)。

4.根據(jù)權(quán)利要求3所述的音頻處理方法，其中，所述下混合包含：

5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的音頻處理方法，其中，所述時(shí)間相關(guān)性向量包含所述第一特征向量和所述至少一個(gè)第二特征向量的第一內(nèi)積以及所述第一特征向量和所述第一特征向量的第二內(nèi)積。

6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的音頻處理方法，其中，所述第二神經(jīng)網(wǎng)絡(luò)接收通過級聯(lián)所述第一特征向量、所述至少一個(gè)第二特征向量和所述時(shí)間相關(guān)性向量而獲得的值作為輸入。

7.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的音頻處理方法，其中，所述至少一個(gè)第二特征向量包含n個(gè)第二特征向量，

8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的音頻處理方法，其中，對所述場景進(jìn)行所述分類(s1340；s1440；s1640；s1740)包含：將所述第一音頻信號(hào)的所述場景分類為對話類型、音樂類型和音效類型中的任一種。

9.根據(jù)權(quán)利要求1和5至8中任一項(xiàng)所述的音頻處理方法，還包含：基于對所述場景進(jìn)行分類的結(jié)果，從主動(dòng)噪聲消除的模式中選擇模式(s1650)。

10.根據(jù)權(quán)利要求9所述的音頻處理方法，其中，對所述場景進(jìn)行所述分類包含：對與所述第一音頻信號(hào)對應(yīng)的危險(xiǎn)程度進(jìn)行分類，以及

11.根據(jù)權(quán)利要求1和5至8中任一項(xiàng)所述的音頻處理方法，還包含：基于對所述場景進(jìn)行分類的結(jié)果，調(diào)整所述第一音頻信號(hào)的聲場(s1750)。

12.一種用于場景分類的音頻處理設(shè)備，所述音頻處理設(shè)備包含：

13.根據(jù)權(quán)利要求12所述的音頻處理設(shè)備，其中，所述至少一個(gè)處理器(1830)還被配置為執(zhí)行所述至少一個(gè)指令以基于所述場景分類的結(jié)果來選擇主動(dòng)噪聲消除的模式之一。

14.根據(jù)權(quán)利要求12所述的音頻處理設(shè)備，其中，所述至少一個(gè)處理器(1830)還被配置為執(zhí)行所述至少一個(gè)指令以基于對所述場景進(jìn)行分類的結(jié)果來調(diào)整所述第一音頻信號(hào)的聲場。

15.一種用于場景分類的音頻處理方法，所述音頻處理方法包含：

技術(shù)總結(jié)
一種音頻處理方法包括：獲得與第一幀對應(yīng)的第一音頻信號(hào)；通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量；獲得時(shí)間相關(guān)性向量，所述時(shí)間相關(guān)性向量表示第一特征向量和至少一個(gè)第二特征向量之間的相似性，所述至少一個(gè)第二特征向量是從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)中提取的；以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。

技術(shù)研發(fā)人員：金敬來,南佑鉉
受保護(hù)的技術(shù)使用者：三星電子株式會(huì)社
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金敬來,南佑鉉
技術(shù)所有人：三星電子株式會(huì)社
我是此專利的發(fā)明人

上一篇：一種便于插接的溫控器的制作方法
上一篇：一種觸摸感應(yīng)門板星空燈的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于處理音頻以便對場景進(jìn)行分類的方法和裝置與流程