本公開總體上涉及修改音頻內(nèi)容,并且具體地涉及基于收聽者的偏好來修改音頻內(nèi)容。
背景技術(shù):
1、有時(shí)在觀看內(nèi)容時(shí),用戶更喜歡以較高音量聽到音頻的一些部分,而其他部分以較低音量聽到。此外,在可獲得的內(nèi)容中,用戶可能喜歡或不喜歡某些媒體對(duì)象。
2、當(dāng)前,大量多媒體裝置(諸如,電視和條形音箱)正在使用基于對(duì)象的媒體傳輸和渲染技術(shù)。與基于信道的系統(tǒng)相比,基于對(duì)象的媒體通信提供了更大的靈活性。對(duì)于每個(gè)多媒體場(chǎng)景,可以以特殊方式分析和編碼音頻對(duì)象和視頻對(duì)象,以提供更好的用戶體驗(yàn)。
3、此外,市場(chǎng)上存在一些技術(shù)可用于管理音頻以獲得更好的用戶體驗(yàn)。這些技術(shù)包括源分離和基于情緒的處理。
4、源分離是將音頻分離為各個(gè)分量的技術(shù)。存在許多主要基于unet架構(gòu)模型工作的用于源分離的現(xiàn)有技術(shù)。
5、基于情緒的處理通過使特征更加面向情緒,極大地提高了技術(shù)的個(gè)性化程度。經(jīng)由音頻以及視頻(組合或單獨(dú))的情緒檢測(cè)的現(xiàn)有成熟解決方案存在使用cnn,其利用客觀音頻/視頻特征來檢測(cè)其中包含的情緒。
6、然而,存在一些限制,例如音頻對(duì)象的個(gè)性化并不突出。本領(lǐng)域現(xiàn)有的解決方案主要集中于修改整個(gè)音頻部分。作為示例:在特定于兒童的內(nèi)容中,被標(biāo)記為成人的內(nèi)容被完全靜音或者幀被完全去除。沒有一種考慮用戶的情緒簡(jiǎn)檔來自動(dòng)增強(qiáng)、減弱或使特定音頻對(duì)象靜音的技術(shù)。
7、現(xiàn)有技術(shù)不包括用于檢測(cè)收聽者的偏好并基于該偏好修改音頻的方法。此外,現(xiàn)有技術(shù)不包括用于針對(duì)音頻的一些部分對(duì)音頻的影響來選擇性地修改所述部分的方法。
8、需要一種克服上述缺點(diǎn)的方案。
技術(shù)實(shí)現(xiàn)思路
1、技術(shù)方案
2、提供本
技術(shù)實(shí)現(xiàn)要素:
以便以簡(jiǎn)要形式介紹一部分概念,這些概念將在本公開的具體實(shí)施描述中進(jìn)一步描述。本發(fā)明內(nèi)容不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵或必要的發(fā)明構(gòu)思,也不旨在確定所要求保護(hù)的主題的范圍。根據(jù)本公開的目的,如本文體現(xiàn)和廣泛描述的本公開描述了針對(duì)收聽者修改音頻內(nèi)容的方法和系統(tǒng)。
3、根據(jù)本發(fā)明構(gòu)思的一些示例實(shí)施例,公開了一種用于針對(duì)收聽者修改音頻內(nèi)容的方法。所述方法包括確定定義與音頻內(nèi)容相關(guān)聯(lián)的多個(gè)音頻對(duì)象中的每個(gè)音頻對(duì)象的音頻對(duì)象情緒的明確情緒值。所述方法包括確定表示多個(gè)基本情緒中的每個(gè)音頻對(duì)象的明確情緒值中的一個(gè)或更多個(gè)基本情緒的組分因子。所述方法包括計(jì)算收聽者與在組分因子中表示的一個(gè)或更多個(gè)基本情緒中的每一個(gè)基本情緒相關(guān)聯(lián)的概率。所述方法包括基于收聽者與在每個(gè)音頻對(duì)象的組分因子中表示的一個(gè)或更多個(gè)基本情緒中的每一個(gè)基本情緒相關(guān)聯(lián)的概率以及每個(gè)音頻對(duì)象的組分因子來計(jì)算與每個(gè)音頻對(duì)象相關(guān)聯(lián)的優(yōu)先級(jí)值。所述方法還包括生成包括以關(guān)于與多個(gè)音頻對(duì)象中的每個(gè)音頻對(duì)象相關(guān)聯(lián)的優(yōu)先級(jí)值的指定順序排列的多個(gè)音頻對(duì)象的列表。所述方法還包括通過調(diào)整與列表中的多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象相關(guān)聯(lián)的增益來修改音頻內(nèi)容。
4、根據(jù)本發(fā)明構(gòu)思的一些示例實(shí)施例,公開了一種用于修改音頻內(nèi)容的系統(tǒng)。所述系統(tǒng)包括:明確情緒值確定引擎,被配置為確定定義與音頻內(nèi)容相關(guān)聯(lián)的多個(gè)音頻對(duì)象中的每個(gè)音頻對(duì)象的音頻對(duì)象情緒的明確情緒值。所述系統(tǒng)包括:適配組分因子確定引擎,被配置為確定表示多個(gè)基本情緒中的每個(gè)音頻對(duì)象的明確情緒值中的一個(gè)或更多個(gè)基本情緒的組分因子。所述系統(tǒng)包括:音頻對(duì)象修改引擎,被配置為計(jì)算收聽者與在組分因子中表示的一個(gè)或更多個(gè)基本情緒中的每一個(gè)基本情緒相關(guān)聯(lián)的概率。所述音頻對(duì)象修改引擎被配置為基于收聽者與在每個(gè)音頻對(duì)象的組分因子中表示的一個(gè)或更多個(gè)基本情緒中的每一個(gè)基本情緒相關(guān)聯(lián)的概率以及每個(gè)音頻對(duì)象的組分因子來計(jì)算與每個(gè)音頻對(duì)象相關(guān)聯(lián)的優(yōu)先級(jí)值。所述音頻對(duì)象修改引擎還被配置為生成包括以關(guān)于與多個(gè)音頻對(duì)象中的每個(gè)音頻對(duì)象相關(guān)聯(lián)的優(yōu)先級(jí)值的指定順序排列的多個(gè)音頻對(duì)象的列表。所述音頻對(duì)象修改引擎還被配置為通過調(diào)整與列表中的多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象相關(guān)聯(lián)的增益來修改音頻內(nèi)容。
5、從以下結(jié)合附圖的詳細(xì)描述和權(quán)利要求中,將更清楚地理解這些方面和優(yōu)點(diǎn)。
1.一種用于修改音頻內(nèi)容的方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,還包括:
3.根據(jù)權(quán)利要求1所述的方法,其中,確定每個(gè)音頻對(duì)象的所述明確情緒值的步驟包括:
4.根據(jù)權(quán)利要求1所述的方法,其中,所述共同標(biāo)度是快感標(biāo)度和喚醒標(biāo)度中的一個(gè)。
5.根據(jù)權(quán)利要求1所述的方法,其中,確定所述組分因子的步驟包括:
6.根據(jù)權(quán)利要求5所述的方法,還包括:
7.根據(jù)權(quán)利要求5所述的方法,其中,所述一個(gè)或更多個(gè)基本情緒的貢獻(xiàn)是基于在映射時(shí)每個(gè)音頻對(duì)象的所述明確情緒值在所述一個(gè)或更多個(gè)適配情緒核上的位置來確定的。
8.根據(jù)權(quán)利要求1所述的方法,其中,計(jì)算與在所述組分因子中表示的每個(gè)基本情緒相關(guān)聯(lián)的概率基于以下中的至少一個(gè):
9.根據(jù)權(quán)利要求6或8所述的方法,其中,所述多個(gè)反饋參數(shù)包括與所述收聽者相關(guān)聯(lián)的視覺反饋、傳感器反饋、先前反饋和手動(dòng)反饋中的至少一個(gè)。
10.根據(jù)權(quán)利要求1所述的方法,其中,計(jì)算與每個(gè)音頻對(duì)象相關(guān)聯(lián)的優(yōu)先級(jí)值的步驟包括:
11.根據(jù)權(quán)利要求1所述的方法,其中,通過調(diào)整所述至少一個(gè)參數(shù)來修改所述音頻內(nèi)容的步驟包括:
12.根據(jù)權(quán)利要求1所述的方法,還包括:
13.根據(jù)權(quán)利要求12所述的方法,其中,將所述音頻內(nèi)容分離為所述多個(gè)音頻對(duì)象的步驟包括:
14.根據(jù)權(quán)利要求1或12所述的方法,其中,基于以下步驟來確定與每個(gè)音頻對(duì)象相關(guān)聯(lián)的所述音頻對(duì)象情緒水平:
15.一種用于針對(duì)收聽者修改音頻內(nèi)容的系統(tǒng)(202),所述系統(tǒng)(202)包括: