欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于處理音頻以便對場景進(jìn)行分類的方法和裝置與流程

文檔序號(hào):40424885發(fā)布日期:2024-12-24 14:58閱讀:29來源:國知局
用于處理音頻以便對場景進(jìn)行分類的方法和裝置與流程

本公開涉及一種用于場景分類的音頻的方法和設(shè)備,并且更具體地,涉及一種用于對音頻信號(hào)的場景進(jìn)行分類并根據(jù)場景分類的結(jié)果處理音頻信號(hào)的方法和設(shè)備。


背景技術(shù):

1、根據(jù)過頂(ott)服務(wù)的擴(kuò)展、電視(tv)的分辨率的增加以及電子裝置(諸如平板電腦)的屏幕的放大,想要體驗(yàn)沉浸式聲音(諸如家庭環(huán)境中的劇院內(nèi)容)的觀看者的需求不斷增加。為了滿足這種觀看者的需求,需要通過對音頻信號(hào)的場景進(jìn)行分類來根據(jù)場景類型處理音頻信號(hào)。

2、另外,需要通過考慮屏幕上的實(shí)體(聲源)的聲音表示來處理通道被布置在收聽者前方的三維音頻通道布局(收聽者前方的三維音頻通道布局)的音頻信號(hào)。當(dāng)處理三維音頻通道布局的音頻信號(hào)時(shí),需要通過對音頻信號(hào)的場景進(jìn)行分類來執(zhí)行有效的下混合。

3、因此,由于場景類型的數(shù)量的增加,存在對一種音頻場景分類模塊的新興需求,該音頻場景分類模塊具有用于音頻信號(hào)場景分類的低時(shí)延、高分類準(zhǔn)確度和低復(fù)雜度的結(jié)構(gòu)。


技術(shù)實(shí)現(xiàn)思路

1、問題的解決方案

2、提供了一種通過使用場景分類結(jié)果來處理來自多通道音頻信號(hào)的較低通道布局的音頻信號(hào)的方法和設(shè)備。

3、提供了一種用于根據(jù)場景分類結(jié)果對多通道音頻信號(hào)進(jìn)行下混合或上混合的方法和設(shè)備。

4、根據(jù)本公開的實(shí)施例,一種音頻處理方法可以包括:獲得與第一幀對應(yīng)的第一音頻信號(hào),通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量,獲得時(shí)間相關(guān)性向量,該時(shí)間相關(guān)性向量表示第一特征向量和從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)提取的至少一個(gè)第二特征向量之間的相似性,以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。

5、根據(jù)本公開的實(shí)施例,一種音頻處理設(shè)備包括存儲(chǔ)至少一個(gè)指令的存儲(chǔ)器,以及被配置為執(zhí)行存儲(chǔ)在存儲(chǔ)器中的至少一個(gè)指令的至少一個(gè)處理器。至少一個(gè)處理器可以被配置為執(zhí)行至少一個(gè)指令以獲得與第一幀對應(yīng)的第一音頻信號(hào),通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量,獲得表示第一特征向量和從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)提取的至少一個(gè)第二特征向量之間的相似性的時(shí)間相關(guān)性向量,以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。

6、根據(jù)本公開的實(shí)施例,一種音頻處理方法包括:從比特流獲得包括與原始音頻信號(hào)對應(yīng)的下混合音頻信號(hào)和場景分類結(jié)果的下混合相關(guān)信息,基于下混合相關(guān)信息對下混合音頻信號(hào)進(jìn)行解混合,以及基于解混合音頻信號(hào)重構(gòu)包括至少一個(gè)通道的音頻信號(hào)。場景分類結(jié)果可以基于與原始音頻信號(hào)的第一幀對應(yīng)的第一特征向量和與時(shí)間上在原始音頻信號(hào)的第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二特征向量之間的時(shí)間相關(guān)性向量來獲得。

7、根據(jù)本公開的實(shí)施例,一種音頻處理設(shè)備包括存儲(chǔ)至少一個(gè)指令的存儲(chǔ)器,以及被配置為執(zhí)行至少一個(gè)指令的至少一個(gè)處理器。至少一個(gè)處理器可以進(jìn)一步被配置為從原始音頻信號(hào)獲得包括下混合音頻信號(hào)和場景分類結(jié)果的下混合相關(guān)信息,基于下混合相關(guān)信息對下混合音頻信號(hào)進(jìn)行解混合,以及基于解混合音頻信號(hào)重構(gòu)音頻信號(hào)。場景分類結(jié)果可以基于與原始音頻信號(hào)的第一幀對應(yīng)的第一特征向量和與時(shí)間上在原始音頻信號(hào)的第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二特征向量之間的時(shí)間相關(guān)性向量來獲得。

8、根據(jù)本公開的實(shí)施例,提供了一種計(jì)算機(jī)可讀記錄介質(zhì),其上記錄有用于在計(jì)算機(jī)上執(zhí)行音頻處理方法的程序。



技術(shù)特征:

1.一種用于場景分類的音頻處理方法,所述音頻處理方法包含:

2.根據(jù)權(quán)利要求1所述的音頻處理方法,其中,所述獲得所述第一音頻信號(hào)(s1410)包含:

3.根據(jù)權(quán)利要求2所述的音頻處理方法,還包含:基于對所述場景進(jìn)行所述分類的結(jié)果,對與所述第一幀對應(yīng)的所述多通道音頻信號(hào)進(jìn)行下混合(s1450)。

4.根據(jù)權(quán)利要求3所述的音頻處理方法,其中,所述下混合包含:

5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的音頻處理方法,其中,所述時(shí)間相關(guān)性向量包含所述第一特征向量和所述至少一個(gè)第二特征向量的第一內(nèi)積以及所述第一特征向量和所述第一特征向量的第二內(nèi)積。

6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的音頻處理方法,其中,所述第二神經(jīng)網(wǎng)絡(luò)接收通過級聯(lián)所述第一特征向量、所述至少一個(gè)第二特征向量和所述時(shí)間相關(guān)性向量而獲得的值作為輸入。

7.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的音頻處理方法,其中,所述至少一個(gè)第二特征向量包含n個(gè)第二特征向量,

8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的音頻處理方法,其中,對所述場景進(jìn)行所述分類(s1340;s1440;s1640;s1740)包含:將所述第一音頻信號(hào)的所述場景分類為對話類型、音樂類型和音效類型中的任一種。

9.根據(jù)權(quán)利要求1和5至8中任一項(xiàng)所述的音頻處理方法,還包含:基于對所述場景進(jìn)行分類的結(jié)果,從主動(dòng)噪聲消除的模式中選擇模式(s1650)。

10.根據(jù)權(quán)利要求9所述的音頻處理方法,其中,對所述場景進(jìn)行所述分類包含:對與所述第一音頻信號(hào)對應(yīng)的危險(xiǎn)程度進(jìn)行分類,以及

11.根據(jù)權(quán)利要求1和5至8中任一項(xiàng)所述的音頻處理方法,還包含:基于對所述場景進(jìn)行分類的結(jié)果,調(diào)整所述第一音頻信號(hào)的聲場(s1750)。

12.一種用于場景分類的音頻處理設(shè)備,所述音頻處理設(shè)備包含:

13.根據(jù)權(quán)利要求12所述的音頻處理設(shè)備,其中,所述至少一個(gè)處理器(1830)還被配置為執(zhí)行所述至少一個(gè)指令以基于所述場景分類的結(jié)果來選擇主動(dòng)噪聲消除的模式之一。

14.根據(jù)權(quán)利要求12所述的音頻處理設(shè)備,其中,所述至少一個(gè)處理器(1830)還被配置為執(zhí)行所述至少一個(gè)指令以基于對所述場景進(jìn)行分類的結(jié)果來調(diào)整所述第一音頻信號(hào)的聲場。

15.一種用于場景分類的音頻處理方法,所述音頻處理方法包含:


技術(shù)總結(jié)
一種音頻處理方法包括:獲得與第一幀對應(yīng)的第一音頻信號(hào);通過將第一音頻信號(hào)輸入到第一神經(jīng)網(wǎng)絡(luò)來提取第一特征向量;獲得時(shí)間相關(guān)性向量,所述時(shí)間相關(guān)性向量表示第一特征向量和至少一個(gè)第二特征向量之間的相似性,所述至少一個(gè)第二特征向量是從與時(shí)間上在第一幀之前的至少一個(gè)第二幀對應(yīng)的至少一個(gè)第二音頻信號(hào)中提取的;以及通過將第一特征向量、至少一個(gè)第二特征向量和時(shí)間相關(guān)性向量輸入到第二神經(jīng)網(wǎng)絡(luò)來對第一音頻信號(hào)的場景進(jìn)行分類。

技術(shù)研發(fā)人員:金敬來,南佑鉉
受保護(hù)的技術(shù)使用者:三星電子株式會(huì)社
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
临猗县| 南川市| 大田县| 大厂| 黄大仙区| 曲水县| 霍林郭勒市| 尤溪县| 黄冈市| 博罗县| 神池县| 湄潭县| 普安县| 旌德县| 望都县| 罗山县| 萍乡市| 依安县| 河源市| 小金县| 舒兰市| 茂名市| 酉阳| 宝兴县| 泽普县| 虎林市| 福建省| 宁国市| 深圳市| 新巴尔虎左旗| 富阳市| 刚察县| 钟山县| 扶余县| 集贤县| 临清市| 资溪县| 芦山县| 义马市| 铜梁县| 大化|