混音方法及裝置制造方法
【專利摘要】本發(fā)明提供一種混音方法及裝置。本發(fā)明實(shí)施例通過對(duì)所獲取的至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù),進(jìn)而利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),使得能夠?qū)γ總€(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理,由于利用指定的方位信息,對(duì)待混音音源的音頻信號(hào)進(jìn)行濾波處理,使得每個(gè)音源的聲像能夠位于不同的位置,而不是都在一個(gè)位置,因此,混音后的每個(gè)音源在聽覺上會(huì)感到非常清晰,從而提高了混音后的音頻質(zhì)量。
【專利說明】混音方法及裝置 【【技術(shù)領(lǐng)域】】
[0001] 本發(fā)明涉及音頻處理技術(shù),尤其涉及一種混音方法及裝置。 【【背景技術(shù)】】
[0002] 隨著通信技術(shù)的發(fā)展,逐漸出現(xiàn)了多方交流的應(yīng)用平臺(tái),例如,視頻會(huì)議或直播電 臺(tái)等,因此,在音頻的處理上,需要對(duì)多路音頻信號(hào)進(jìn)行混音,以使得多路音頻信號(hào)聽起來 類似于一個(gè)聲音,其效果就像同時(shí)聽到多個(gè)人的發(fā)言一樣?,F(xiàn)有技術(shù)中,一般采用線性疊加 的方式,即對(duì)多路的音頻信號(hào)先進(jìn)行數(shù)據(jù)的量化,然后把全部的數(shù)據(jù)相加。這樣,混音后的 音頻質(zhì)量不高。 【
【發(fā)明內(nèi)容】
】
[0003] 本發(fā)明的多個(gè)方面提供一種混音方法及裝置,用以提高混音后的音頻質(zhì)量。
[0004] 本發(fā)明的一方面,提供一種混音方法,包括:
[0005] 獲取至少兩個(gè)音源的原始音頻數(shù)據(jù);
[0006] 對(duì)所述至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換 處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù);
[0007] 利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻 域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),對(duì)每個(gè)音源的 原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理。
[0008] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲取至 少兩個(gè)音源的原始音頻數(shù)據(jù),包括:
[0009] 對(duì)目標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的目標(biāo)聲道數(shù)目;對(duì) 所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得音源的原始音頻數(shù)據(jù);以及根據(jù)所述目標(biāo)聲 道數(shù)目和所述音源的原始音頻數(shù)據(jù),獲得每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù);和/或 [0010] 對(duì)至少一個(gè)目標(biāo)聲道的音頻信號(hào)進(jìn)行抽樣、量化和編碼處理,以獲得所述至少一 個(gè)目標(biāo)聲道中每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)。
[0011] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述對(duì)所述 至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換處理,以獲得每個(gè) 音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù),包括:
[0012] 確定待混音的至少兩個(gè)目標(biāo)聲道,以作為混音聲道;
[0013] 對(duì)每個(gè)混音聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得每個(gè)混音聲道的至 少一幀音頻數(shù)據(jù);
[0014] 對(duì)每個(gè)混音聲道的至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每個(gè)混音聲道 所對(duì)應(yīng)的頻域數(shù)據(jù)。
[0015] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述利用預(yù) 先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波 處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所 對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理,包括:
[0016] 根據(jù)每個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù);
[0017] 根據(jù)每個(gè)混音聲道的頻率響應(yīng)參數(shù)和每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù),獲得每個(gè) 混音聲道的濾波數(shù)據(jù);
[0018] 對(duì)每個(gè)混音聲道的濾波數(shù)據(jù),進(jìn)行混音處理。
[0019] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述頻域變 換處理為快速傅里葉變換方法;所述根據(jù)每個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的 頻率響應(yīng)參數(shù),包括:
[0020] 根據(jù)每個(gè)混音聲道的方位信息,并利用公式t(k,m)= round(NXfkX τ (0m)+〇. 5),獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù);其中,fk = kXfs/N; τ (0m) = 〇.2Xsin(0m)/v ;其中,
[0021] k為頻點(diǎn),取值范圍[0,N-1];
[0022] t (k, m)為第k個(gè)頻點(diǎn)的頻率響應(yīng)參數(shù)值;
[0023] fs為采樣率;
[0024] fk為第k個(gè)頻點(diǎn)的頻率;
[0025] N為快速傅里葉變換方法的點(diǎn)數(shù);
[0026] θπ*每個(gè)混音聲道的方位信息,m= 1,2,···,Μ為,Μ為混音聲道的數(shù)目;
[0027] ν為聲速,340米/秒;
[0028] round (X)表示取最接近X的整數(shù)。
[0029] 本發(fā)明的另一方面,提供一種混音裝置,包括:
[0030] 獲取單元,用于獲取至少兩個(gè)音源的原始音頻數(shù)據(jù);
[0031] 變換單元,用于對(duì)所述至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音頻數(shù)據(jù) 進(jìn)行頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù);
[0032] 混音單元,用于利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻 數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù) 據(jù),對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理。
[0033] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲取單 元,具體用于
[0034] 對(duì)目標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的目標(biāo)聲道數(shù)目;對(duì) 所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得音源的原始音頻數(shù)據(jù);以及根據(jù)所述目標(biāo)聲 道數(shù)目和所述音源的原始音頻數(shù)據(jù),獲得每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù);和/或
[0035] 對(duì)至少一個(gè)目標(biāo)聲道的音頻信號(hào)進(jìn)行抽樣、量化和編碼處理,以獲得所述至少一 個(gè)目標(biāo)聲道中每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)。
[0036] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述變換單 元,用于
[0037] 確定待混音的至少兩個(gè)目標(biāo)聲道,以作為混音聲道;
[0038] 對(duì)每個(gè)混音聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得每個(gè)混音聲道的至 少一幀音頻數(shù)據(jù);以及
[0039] 對(duì)每個(gè)混音聲道的至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每個(gè)混音聲道 所對(duì)應(yīng)的頻域數(shù)據(jù)。
[0040] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述混音單 元,具體用于音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)
[0041] 根據(jù)每個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù);
[0042] 根據(jù)每個(gè)混音聲道的頻率響應(yīng)參數(shù)和每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù),獲得每個(gè) 混音聲道的濾波數(shù)據(jù);以及
[0043] 對(duì)每個(gè)混音聲道的濾波數(shù)據(jù),進(jìn)行混音處理。
[0044] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述頻域變 換處理為快速傅里葉變換方法;所述混音單元,具體用于
[0045] 根據(jù)每個(gè)混音聲道的方位信息,并利用公式t(k,m) = round(NXfkX τ ( Θ m)+〇. 5), 獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù);其中,fk = kX fs/N ; τ ( Θ m) = 〇. 2X sin ( Θ m)/v ;其中,
[0046] k為頻點(diǎn),取值范圍[0,N-1];
[0047] t (k, m)為第k個(gè)頻點(diǎn)的頻率響應(yīng)參數(shù)值;
[0048] fs為采樣率;
[0049] fk為第k個(gè)頻點(diǎn)的頻率;
[0050] N為快速傅里葉變換方法的點(diǎn)數(shù);
[0051] 0mS每個(gè)混音聲道的方位信息,m= 1,2,···,Μ為,Μ為混音聲道的數(shù)目;
[0052] ν為聲速,340米/秒;
[0053] round (X)表示取最接近X的整數(shù)。
[0054] 由上述技術(shù)方案可知,本發(fā)明實(shí)施例通過對(duì)所獲取的至少兩個(gè)音源的原始音頻數(shù) 據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng) 的頻域數(shù)據(jù),進(jìn)而利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所 對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),使得 能夠?qū)γ總€(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理,由于利用指定的方位 信息,對(duì)待混音音源的音頻信號(hào)進(jìn)行濾波處理,使得每個(gè)音源的聲像能夠位于不同的位置, 而不是都在一個(gè)位置,因此,混音后的每個(gè)音源在聽覺上會(huì)感到非常清晰,從而提高了混音 后的音頻質(zhì)量。 【【專利附圖】
【附圖說明】】
[0055] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述 中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí) 施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附 圖獲得其他的附圖。
[0056] 圖1為本發(fā)明一實(shí)施例提供的混音方法的流程示意圖;
[0057] 圖2為本發(fā)明另一實(shí)施例提供的混音裝置的結(jié)構(gòu)示意圖。 【【具體實(shí)施方式】】
[0058] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的全部其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0059] 需要說明的是,本發(fā)明實(shí)施例中所涉及的終端可以包括但不限于手機(jī)、個(gè)人數(shù)字 助理(Personal Digital Assistant, PDA)、無線手持裝置、無線上網(wǎng)本、便攜電腦、個(gè)人電 腦(Personal Computer, PC)、MP3 播放器、MP4 播放器等。
[0060] 另外,本文中術(shù)語"和/或",僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在 三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情 況。另外,本文中字符"/",一般表示前后關(guān)聯(lián)對(duì)象是一種"或"的關(guān)系。
[0061] 圖1為本發(fā)明一實(shí)施例提供的一種混音方法的流程示意圖,如圖1所示。
[0062] 101、獲取至少兩個(gè)音源的原始音頻數(shù)據(jù)。
[0063] 102、對(duì)所述至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域 變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)。
[0064] 103、利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng) 的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),對(duì)每個(gè)音 源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理。
[0065] 其中,所述方位信息,用于指示音源的聲像位置??梢圆捎萌魏螀⒄瘴?,例如,人的 任意一個(gè)耳朵、人的兩個(gè)耳朵中間的位置等。
[0066] 需要說明的是,101?103的執(zhí)行主體可以為處理裝置,可以位于本地的應(yīng)用 (Application,App)例如,百度樂播中,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,或者還可以一 部分位于本地的應(yīng)用中,另一部分位于網(wǎng)絡(luò)側(cè)的服務(wù)器。
[0067] 可以理解的是,所述應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeAPP),或者還可 以是終端上的瀏覽器的一個(gè)網(wǎng)頁(webAPP),只要能夠?qū)崿F(xiàn)音頻數(shù)據(jù)的處理的客觀存在形式 都可以,本實(shí)施例對(duì)此不進(jìn)行限定。
[0068] 所謂音源,就是音頻信號(hào)的源頭。音頻信號(hào),是一種連續(xù)變化的模擬信號(hào)。音頻處 理設(shè)備可以對(duì)所采集的音頻信號(hào)進(jìn)行抽樣、量化和編碼處理,以獲得脈沖編碼調(diào)制(Pulse Code M〇dulati〇n,PCM)數(shù)據(jù),進(jìn)而再采用壓縮算法,對(duì)PCM數(shù)據(jù)進(jìn)行壓縮,以獲得不同壓縮 格式的音頻文件。
[0069] 其中,所述音頻文件可以包括現(xiàn)有技術(shù)中各種壓縮格式的音頻文件,例如,動(dòng)態(tài)圖 像專家組(Moving Picture Experts Group,MPEG)層 3 (MPEGLayer_3,MP3)格式音頻文件、 WMA (Windows Media Audio)格式音頻文件、高級(jí)音頻編碼(Advanced Audio Coding,AAC) 格式音頻文件、無損音頻壓縮編碼(Free Lossless Audio Codec,F(xiàn)LAC)或APE格式音頻文 件等,本實(shí)施例對(duì)此不進(jìn)行特別限定。
[0070] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在101中,處理裝置具體可以對(duì)目 標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的目標(biāo)聲道數(shù)目;對(duì)所述目標(biāo)音頻 文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得音源的原始音頻數(shù)據(jù),即PCM數(shù)據(jù);以及根據(jù)所述目標(biāo)聲道 數(shù)目和所述音源的原始音頻數(shù)據(jù),獲得每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)。
[0071] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在101中,處理裝置具體可以對(duì)至 少一個(gè)目標(biāo)聲道的音頻信號(hào)(即聲音模擬信號(hào))進(jìn)行抽樣、量化和編碼處理,以獲得所述至 少一個(gè)目標(biāo)聲道中每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù),即PCM數(shù)據(jù)。
[0072] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在102中,處理裝置具體可以確定 待混音的至少兩個(gè)目標(biāo)聲道,以作為混音聲道。然后,所述處理裝置對(duì)每個(gè)混音聲道所對(duì)應(yīng) 的聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得每個(gè)混音聲道的至少一幀音頻數(shù)據(jù),進(jìn)而對(duì)每個(gè)混 音聲道的至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù)。
[0073] 具體地,由于混音操作是按照聲道對(duì)應(yīng)執(zhí)行,因此,所述處理裝置具體可以根據(jù)每 個(gè)音源所對(duì)應(yīng)的聲道數(shù)目,確定待混音的至少兩個(gè)目標(biāo)聲道,以作為混音聲道。
[0074] 例如,音源1的聲道數(shù)目是1,可以記為L11,音源2的聲道數(shù)目也是1,可以記為 L21,那么,所述處理裝置則可以確定L11和L21為混音聲道。
[0075] 或者,再例如,音源1的聲道數(shù)目是2,可以記為L12和L13,音源2的聲道數(shù)目也 是2,可以記為L22和L23,那么,所述處理裝置則可以確定L12和L22為一組混音聲道,確 定L13和L23為另一組混音聲道。
[0076] 例如,音源1的聲道數(shù)目是1,可以記為L14,音源2的聲道數(shù)目是2,可以記為L24 和L25。那么,所述處理裝置則可以采用兩種方式,進(jìn)行混音聲道的確定。
[0077] -種方式為,所述處理裝置可以對(duì)音源2的兩個(gè)聲道的原始音頻數(shù)據(jù)進(jìn)行處理, 以獲得1個(gè)聲道即L26的原始音頻數(shù)據(jù)。處理裝置具體可以采用現(xiàn)有技術(shù)中的處理方法, 將2個(gè)聲道的原始音頻數(shù)據(jù)轉(zhuǎn)換成1個(gè)聲道的原始音頻數(shù)據(jù),詳細(xì)描述可以參見現(xiàn)有技術(shù) 中的相關(guān)內(nèi)容,此處不再贅述。這樣,則可以確定L14和L26為混音聲道。
[0078] 另一種方式為,所述處理裝置可以對(duì)音源1的1個(gè)聲道的原始音頻數(shù)據(jù)進(jìn)行處理, 以獲得2個(gè)聲道即L15和L16的原始音頻數(shù)據(jù)。處理裝置具體可以采用現(xiàn)有技術(shù)中的處理 方法,將1個(gè)聲道的原始音頻數(shù)據(jù)轉(zhuǎn)換成2個(gè)聲道的原始音頻數(shù)據(jù),詳細(xì)描述可以參見現(xiàn)有 技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。這樣,則可以確定L15和L24為一組混音聲道,確定L16 和L25為另一組混音聲道。
[0079] 具體地,所述頻域變換處理可以包括但不限于快速傅里葉變換(Fast Fourier Transform, FFT)〇
[0080] 例如,所述處理裝置可以對(duì)每個(gè)混音聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)按照預(yù)設(shè)時(shí)間間 隔,例如,20ms,進(jìn)行分幀處理,且相鄰幀之間有部分的數(shù)據(jù)重疊,例如50%的數(shù)據(jù)重疊,這 樣,能夠獲得每個(gè)混音聲道的至少一幀音頻數(shù)據(jù)。然后,所述處理裝置則可以對(duì)每個(gè)混音聲 道的至少一幀音頻數(shù)據(jù),進(jìn)行 FFT處理,以獲得每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù),記為Ai j ; 其中,i表示頻點(diǎn)的編號(hào),j表示幀的編號(hào),Ay表示第j個(gè)幀在第i個(gè)頻點(diǎn)處的頻域數(shù)據(jù)。
[0081] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在103中,處理裝置具體可以根據(jù) 每個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù),進(jìn)而根據(jù)每個(gè)混音聲道的 頻率響應(yīng)參數(shù)和每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù),獲得每個(gè)混音聲道的濾波數(shù)據(jù)。然后,所 述處理裝置則可以對(duì)每個(gè)混音聲道的濾波數(shù)據(jù),進(jìn)行混音處理。
[0082] 例如,所述頻域變換處理為FFT處理,所述處理裝置具體可以根據(jù)每個(gè)混音聲道 的方位信息,并利用公式t(k,m) =r〇und(NXfkX τ (θπ)+〇.5),獲得每個(gè)混音聲道的頻率 響應(yīng)參數(shù);其中,fk = kXfs/N;T (0J =〇. 2Xsin(0m)/v;其中,
[0083] k為頻點(diǎn),取值范圍[0,N-1];
[0084] t (k, m)為第k個(gè)頻點(diǎn)的頻率響應(yīng)參數(shù)值;
[0085] fs為采樣率;
[0086] fk為第k個(gè)頻點(diǎn)的頻率;
[0087] N為快速傅里葉變換方法的點(diǎn)數(shù);
[0088] θπ*每個(gè)混音聲道的方位信息,m= 1,2,···,Μ為,Μ為混音聲道的數(shù)目;
[0089] ν為聲速,340米/秒;
[0090] round (X)表示取最接近X的整數(shù)。
[0091] 具體地,θπ*設(shè)置具體可以根據(jù)混音聲道的數(shù)目M,進(jìn)行靈活設(shè)置,盡量使得每個(gè) 音源的聲像能夠位于不同的位置。
[0092] 例如,假設(shè)音源1的聲道數(shù)目是1,記為L11,音源2的聲道數(shù)目也是1,記為L21, 所述處理裝置確定L11和L21為混音聲道。L11所對(duì)應(yīng)的頻域數(shù)據(jù),記為Hll,L21所對(duì)應(yīng) 的頻域數(shù)據(jù),記為Η21。
[0093] 那么,L11的濾波數(shù)據(jù)則可以為HllXt(k,l) ;L21的濾波數(shù)據(jù)則可以為 HllXt(k,2);其中,Θ i 關(guān) θ2。
[0094] 然后,所述處理裝置則可以分別對(duì)L11的濾波數(shù)據(jù)和L21的濾波數(shù)據(jù)進(jìn)行反FFT 處理,以獲得L11的虛擬音頻數(shù)據(jù)和L21的虛擬音頻數(shù)據(jù)。最后,所述處理裝置具體可以采 用現(xiàn)有技術(shù)中的混音方法,對(duì)L11的虛擬音頻數(shù)據(jù)和L21的虛擬音頻數(shù)據(jù)進(jìn)行混音處理,詳 細(xì)描述可以參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。
[0095] 或者,再例如,音源1的聲道數(shù)目是2,記為L12和L13,音源2的聲道數(shù)目也是2, 記為L22和L23,所述處理裝置確定L12和L22為一組混音聲道,確定L13和L23為另一組 混音聲道。L12和L13所對(duì)應(yīng)的頻域數(shù)據(jù),記為Η12和Η13,L22和L23所對(duì)應(yīng)的頻域數(shù)據(jù), 記為Η22和Η23。
[0096] 那么,L12的濾波數(shù)據(jù)則可以為H12Xt(k,l)+H13Xt(k,1),L13的濾波數(shù)據(jù)則 可以為H12Xt(k,l' )+H13Xt(k,l' ),0i,關(guān)360° -01;L22的濾波數(shù)據(jù)則可以為 H22Xt(k,2)+H23Xt(k,2),L23 的濾波數(shù)據(jù)則可以為 H22Xt(k,2' )+H23Xt(k,2'), θ2,尹 360。-θ2;其中,θ2。
[0097] 然后,所述處理裝置則可以分別對(duì)L12的濾波數(shù)據(jù)和L22的濾波數(shù)據(jù)進(jìn)行反FFT 處理,以獲得L12的虛擬音頻數(shù)據(jù)和L22的虛擬音頻數(shù)據(jù),以及分別對(duì)L13的濾波數(shù)據(jù)和 L23的濾波數(shù)據(jù)進(jìn)行反FFT處理,以獲得L13的虛擬音頻數(shù)據(jù)和L23的虛擬音頻數(shù)據(jù)。
[0098] 最后,所述處理裝置具體可以采用現(xiàn)有技術(shù)中的混音方法,對(duì)L12的虛擬音頻數(shù) 據(jù)和L22的虛擬音頻數(shù)據(jù)進(jìn)行混音處理,以及對(duì)L13的虛擬音頻數(shù)據(jù)和L23的虛擬音頻數(shù) 據(jù)進(jìn)行混音處理,進(jìn)而將經(jīng)過混音處理的兩部分音頻數(shù)據(jù)重新組合成聲道數(shù)目是2的音頻 數(shù)據(jù)。其中,混音處理的詳細(xì)描述可以參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。
[0099] 本實(shí)施例中,通過對(duì)所獲取的至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音 頻數(shù)據(jù)進(jìn)行頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù),進(jìn)而利用 預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾 波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),使得能夠?qū)γ總€(gè)音源的原始 音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理,由于利用指定的方位信息,對(duì)待混音音源的音 頻信號(hào)進(jìn)行濾波處理,使得每個(gè)音源的聲像能夠位于不同的位置,而不是都在一個(gè)位置,因 此,混音后的每個(gè)音源在聽覺上會(huì)感到非常清晰,從而提高了混音后的音頻質(zhì)量。
[0100] 需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列 的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)?依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知 悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明 所必須的。
[0101] 在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部 分,可以參見其他實(shí)施例的相關(guān)描述。
[0102] 圖2為本發(fā)明另一實(shí)施例提供的混音裝置的結(jié)構(gòu)示意圖,如圖2所示。本實(shí)施例 的混音裝置可以包括獲取單元21、變換單元22和混音單元23。其中,獲取單元21,用于獲 取至少兩個(gè)音源的原始音頻數(shù)據(jù);變換單元22,用于對(duì)所述至少兩個(gè)音源的原始音頻數(shù)據(jù) 中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的 頻域數(shù)據(jù);混音單元23,用于利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始 音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波 數(shù)據(jù),對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理。
[0103] 其中,所述方位信息,用于指示音源的聲像位置。可以采用任何參照物,例如,人的 任意一個(gè)耳朵、人的兩個(gè)耳朵中間的位置等。
[0104] 需要說明的是,本實(shí)施例所提供的混音裝置可以為一處理裝置,可以位于本地的 應(yīng)用(Application,App)例如,百度樂播中,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,或者還可 以一部分功能單元位于本地的應(yīng)用中,另一部分功能單元位于網(wǎng)絡(luò)側(cè)的服務(wù)器。
[0105] 可以理解的是,所述應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeAPP),或者還可 以是終端上的瀏覽器的一個(gè)網(wǎng)頁(webAPP),只要能夠?qū)崿F(xiàn)音頻數(shù)據(jù)的處理的客觀存在形式 都可以,本實(shí)施例對(duì)此不進(jìn)行限定。
[0106] 圖1對(duì)應(yīng)的實(shí)施例中的方法,均可以由本實(shí)施例提供的混音裝置實(shí)現(xiàn),詳細(xì)描述 可以參見圖1對(duì)應(yīng)的實(shí)施例中的相關(guān)內(nèi)容。
[0107] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述獲取單元21,具體可以用于對(duì) 目標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的目標(biāo)聲道數(shù)目;對(duì)所述目標(biāo)音 頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得音源的原始音頻數(shù)據(jù);以及根據(jù)所述目標(biāo)聲道數(shù)目和所 述音源的原始音頻數(shù)據(jù),獲得每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)。
[0108] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述獲取單元21,具體可以用于對(duì) 至少一個(gè)目標(biāo)聲道的音頻信號(hào)進(jìn)行抽樣、量化和編碼處理,以獲得所述至少一個(gè)目標(biāo)聲道 中每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)。
[0109] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述變換單元22,具體可以用于確 定待混音的至少兩個(gè)目標(biāo)聲道,以作為混音聲道;對(duì)每個(gè)混音聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù) 進(jìn)行分幀處理,以獲得每個(gè)混音聲道的至少一幀音頻數(shù)據(jù);以及對(duì)每個(gè)混音聲道的至少一 幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù)。
[0110] 可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述混音單元23,具體可以根據(jù)每 個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù);根據(jù)每個(gè)混音聲道的頻率響 應(yīng)參數(shù)和每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù),獲得每個(gè)混音聲道的濾波數(shù)據(jù);以及對(duì)每個(gè)混 音聲道的濾波數(shù)據(jù),進(jìn)行混音處理。
[0111] 例如,所述頻域變換處理為FFT處理,所述混音單元23,具體可以用于根據(jù)每個(gè)混 音聲道的方位信息,并利用公式t(k,m) =round(NXfkX τ (0m)+〇. 5),獲得每個(gè)混音聲道 的頻率響應(yīng)參數(shù);其中,fk = kXfs/N;T (θπ) =〇. 2Xsin(0m)/v^*,
[0112] k為頻點(diǎn),取值范圍[0,N-1];
[0113] t(k,m)為第k個(gè)頻點(diǎn)的頻率響應(yīng)參數(shù)值;
[0114] fs為采樣率;
[0115] fk為第k個(gè)頻點(diǎn)的頻率;
[0116] N為快速傅里葉變換方法的點(diǎn)數(shù);
[0117] Θ m為每個(gè)混音聲道的方位信息,m = 1,2,…,Μ為,Μ為混音聲道的數(shù)目;
[0118] ν為聲速,340米/秒;
[0119] round(X)表示取最接近X的整數(shù)。
[0120] 具體地,θπ*設(shè)置具體可以根據(jù)混音聲道的數(shù)目M,進(jìn)行靈活設(shè)置,盡量使得每個(gè) 音源的聲像能夠位于不同的位置。
[0121] 本實(shí)施例中,通過變換單元對(duì)獲取單元所獲取的至少兩個(gè)音源的原始音頻數(shù)據(jù)中 每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻 域數(shù)據(jù),進(jìn)而由混音單元利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻 數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù) 據(jù),使得能夠?qū)γ總€(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理,由于利用指定 的方位信息,對(duì)待混音音源的音頻信號(hào)進(jìn)行濾波處理,使得每個(gè)音源的聲像能夠位于不同 的位置,而不是都在一個(gè)位置,因此,混音后的每個(gè)音源在聽覺上會(huì)感到非常清晰,從而提 1? 了混首后的首頻質(zhì)量。
[0122] 所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng), 裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
[0123] 在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以 通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的 劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件 可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或 討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦 合或通信連接,可以是電性,機(jī)械或其它的形式。
[0124] 所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0125] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單 元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0126] 上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存 儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī) 裝置(可以是個(gè)人計(jì)算機(jī),音頻處理引擎,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本 發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ) 器(Read-Only Memory,ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM)、磁碟或者光 盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0127] 最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡 管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然 可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替 換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精 神和范圍。
【權(quán)利要求】
1. 一種混音方法,其特征在于,包括: 獲取至少兩個(gè)音源的原始音頻數(shù)據(jù); 對(duì)所述至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換處理, 以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù); 利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù) 據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),對(duì)每個(gè)音源的原始 音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取至少兩個(gè)音源的原始音頻數(shù)據(jù), 包括: 對(duì)目標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的目標(biāo)聲道數(shù)目;對(duì)所述 目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得音源的原始音頻數(shù)據(jù);以及根據(jù)所述目標(biāo)聲道數(shù) 目和所述音源的原始音頻數(shù)據(jù),獲得每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù);和/或 對(duì)至少一個(gè)目標(biāo)聲道的音頻信號(hào)進(jìn)行抽樣、量化和編碼處理,以獲得所述至少一個(gè)目 標(biāo)聲道中每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述至少兩個(gè)音源的原始音頻數(shù) 據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng) 的頻域數(shù)據(jù),包括: 確定待混音的至少兩個(gè)目標(biāo)聲道,以作為混音聲道; 對(duì)每個(gè)混音聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得每個(gè)混音聲道的至少一 幀音頻數(shù)據(jù); 對(duì)每個(gè)混音聲道的至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每個(gè)混音聲道所對(duì) 應(yīng)的頻域數(shù)據(jù)。
4. 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述利用預(yù)先設(shè)置的至少兩個(gè)方位信 息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的 原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),對(duì)每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混 音處理,包括: 根據(jù)每個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù); 根據(jù)每個(gè)混音聲道的頻率響應(yīng)參數(shù)和每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù),獲得每個(gè)混音 聲道的濾波數(shù)據(jù); 對(duì)每個(gè)混音聲道的濾波數(shù)據(jù),進(jìn)行混音處理。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述頻域變換處理為快速傅里葉變換方 法;所述根據(jù)每個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù),包括: 根據(jù)每個(gè)混音聲道的方位信息,并利用公式t(k,m) =round(NXfkX τ (θπ)+〇.5),獲 得每個(gè)混音聲道的頻率響應(yīng)參數(shù);其中,fk = kX fs/N ; τ ( θ m) = 〇. 2 X sin ( θ m)/ν ;其中, k為頻點(diǎn),取值范圍[0,Ν-1]; t (k, m)為第k個(gè)頻點(diǎn)的頻率響應(yīng)參數(shù)值; fs為采樣率; fk為第k個(gè)頻點(diǎn)的頻率; N為快速傅里葉變換方法的點(diǎn)數(shù); Θ m為每個(gè)混音聲道的方位信息,m = 1,2,…,Μ為,Μ為混音聲道的數(shù)目; ν為聲速,340米/秒; round (X)表示取最接近X的整數(shù)。
6. -種混音裝置,其特征在于,包括: 獲取單元,用于獲取至少兩個(gè)音源的原始音頻數(shù)據(jù); 變換單元,用于對(duì)所述至少兩個(gè)音源的原始音頻數(shù)據(jù)中每個(gè)音源的原始音頻數(shù)據(jù)進(jìn)行 頻域變換處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的頻域數(shù)據(jù); 混音單元,用于利用預(yù)先設(shè)置的至少兩個(gè)方位信息,分別對(duì)每個(gè)音源的原始音頻數(shù)據(jù) 所對(duì)應(yīng)的頻域數(shù)據(jù)進(jìn)行濾波處理,以獲得每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),對(duì) 每個(gè)音源的原始音頻數(shù)據(jù)所對(duì)應(yīng)的濾波數(shù)據(jù),進(jìn)行混音處理。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取單元,具體用于 對(duì)目標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的目標(biāo)聲道數(shù)目;對(duì)所述 目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得音源的原始音頻數(shù)據(jù);以及根據(jù)所述目標(biāo)聲道數(shù) 目和所述音源的原始音頻數(shù)據(jù),獲得每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù);和/或 對(duì)至少一個(gè)目標(biāo)聲道的音頻信號(hào)進(jìn)行抽樣、量化和編碼處理,以獲得所述至少一個(gè)目 標(biāo)聲道中每個(gè)目標(biāo)聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述變換單元,用于 確定待混音的至少兩個(gè)目標(biāo)聲道,以作為混音聲道; 對(duì)每個(gè)混音聲道所對(duì)應(yīng)的聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得每個(gè)混音聲道的至少一 幀音頻數(shù)據(jù);以及 對(duì)每個(gè)混音聲道的至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每個(gè)混音聲道所對(duì) 應(yīng)的頻域數(shù)據(jù)。
9. 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述混音單元,具體用于 根據(jù)每個(gè)混音聲道的方位信息,獲得每個(gè)混音聲道的頻率響應(yīng)參數(shù); 根據(jù)每個(gè)混音聲道的頻率響應(yīng)參數(shù)和每個(gè)混音聲道所對(duì)應(yīng)的頻域數(shù)據(jù),獲得每個(gè)混音 聲道的濾波數(shù)據(jù);以及 對(duì)每個(gè)混音聲道的濾波數(shù)據(jù),進(jìn)行混音處理。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述頻域變換處理為快速傅里葉變換方 法;所述混音單元,具體用于 根據(jù)每個(gè)混音聲道的方位信息,并利用公式t(k,m) =round(NXfkX τ (θπ)+〇.5),獲 得每個(gè)混音聲道的頻率響應(yīng)參數(shù);其中,fk = kX fs/N ; τ ( θ m) = 〇. 2 X sin ( θ m)/ν ;其中, k為頻點(diǎn),取值范圍[0,Ν-1]; t (k, m)為第k個(gè)頻點(diǎn)的頻率響應(yīng)參數(shù)值; fs為采樣率; fk為第k個(gè)頻點(diǎn)的頻率; N為快速傅里葉變換方法的點(diǎn)數(shù); Θ m為每個(gè)混音聲道的方位信息,m = 1,2,…,Μ為,Μ為混音聲道的數(shù)目; ν為聲速,340米/秒; round (X)表示取最接近X的整數(shù)。
【文檔編號(hào)】G10L19/00GK104064191SQ201410256380
【公開日】2014年9月24日 申請(qǐng)日期:2014年6月10日 優(yōu)先權(quán)日:2014年6月10日
【發(fā)明者】田彪 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司