一種聲音處理方法、裝置、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：12890296閱讀：212來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種聲音處理方法、裝置、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及音頻分析處理領(lǐng)域，具體涉及一種聲音處理方法、裝置、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

背景技術(shù)：

在視頻會(huì)議場(chǎng)景中，一般使用指向或者全向麥克風(fēng)來(lái)進(jìn)行聲音采集。對(duì)于指向性麥克風(fēng)拾音的范圍是有限的，所以就需要多個(gè)指向性麥克風(fēng)同時(shí)采集來(lái)滿足擴(kuò)展拾音范圍，即通過(guò)多個(gè)獨(dú)立的指向性麥克風(fēng)采集音頻到同一個(gè)會(huì)議終端設(shè)備，由調(diào)音臺(tái)或會(huì)議終端集中混音，這種方式需要人工根據(jù)會(huì)場(chǎng)布置麥克風(fēng)的位置，講話的時(shí)候需要手動(dòng)開(kāi)關(guān)啞音鍵，使用非常不方便，體驗(yàn)比較差。

對(duì)于全向性麥克風(fēng)可以進(jìn)行廣范圍的拾音，但是全向麥克風(fēng)采集聲音的時(shí)候并不能區(qū)分哪些是現(xiàn)場(chǎng)與會(huì)者的聲音，哪些是播放設(shè)備播放的遠(yuǎn)端與會(huì)者的聲音，這樣就導(dǎo)致同時(shí)采集到現(xiàn)場(chǎng)和遠(yuǎn)端的聲音并同時(shí)以相同的倍數(shù)進(jìn)行放大后傳輸，導(dǎo)致現(xiàn)場(chǎng)與會(huì)者的聲音不夠清晰，如果播放設(shè)備的音量過(guò)大，甚至?xí)耆谏w現(xiàn)場(chǎng)與會(huì)者的聲音。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明實(shí)施例提供了一種聲音處理方法、裝置、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，以解決現(xiàn)有技術(shù)中采用指向性麥克風(fēng)拾音時(shí)，由于指向性麥克風(fēng)拾音范圍有限，需要人工根據(jù)會(huì)場(chǎng)布置麥克風(fēng)的位置，操作不方便以及采用全向性麥克風(fēng)拾音時(shí)，全向性麥克風(fēng)無(wú)法有效分辨有效聲源和噪聲聲源，而對(duì)有效聲源和噪聲聲源發(fā)出的聲音信號(hào)進(jìn)行無(wú)差別的拾音，導(dǎo)致采集到的有效聲源發(fā)出的聲音信號(hào)質(zhì)量較差的問(wèn)題。

為此本發(fā)明第一方面，提供了一種聲音處理方法，包括如下步驟：獲取麥克風(fēng)多個(gè)咪頭采集到的多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)；其中，所述多個(gè)第一聲音信號(hào)由第一聲源產(chǎn)生，所述多個(gè)第二聲音信號(hào)由第二聲源產(chǎn)生；確定所述第一聲源與所述多個(gè)咪頭的相對(duì)位置以及所述第二聲源與所述多個(gè)咪頭的相對(duì)位置；為從所述多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從所述多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重，其中，所述第一組權(quán)重為根據(jù)所述第一聲源與所述多個(gè)咪頭的相對(duì)位置確定的，所述第二組權(quán)重為根據(jù)所述第二聲源與所述多個(gè)咪頭的相對(duì)位置確定的；利用所述第一組權(quán)重和所述第二組權(quán)重分別對(duì)所述多個(gè)第一聲音信號(hào)和所述多個(gè)第二聲音信號(hào)進(jìn)行混音處理。

可選地，確定所述第一聲源與所述多個(gè)咪頭的相對(duì)位置以及所述第二聲源與所述多個(gè)咪頭的相對(duì)位置包括：獲取所述多個(gè)第一聲音信號(hào)的能量和所述多個(gè)第二聲音信號(hào)的能量；將所述多個(gè)第一聲音信號(hào)的能量相互比較，得到第一比較結(jié)果；將所述多個(gè)第二聲音信號(hào)的能量相互比較，得到第二比較結(jié)果；根據(jù)所述第一比較結(jié)果確定所述多個(gè)咪頭與所述第一聲源的相對(duì)位置；根據(jù)所述第二比較結(jié)果確定所述多個(gè)咪頭與所述第二聲源的相對(duì)位置。

可選地，利用所述第一組權(quán)重和所述第二組權(quán)重分別對(duì)從所述多個(gè)第一聲音信號(hào)和所述多個(gè)第二聲音信號(hào)進(jìn)行混音處理包括：由所述第一組權(quán)重和所述第二組權(quán)重計(jì)算得到所述多個(gè)咪頭的混音權(quán)重，其中，每個(gè)咪頭的混音權(quán)重用于表示該咪頭采集到的聲音信號(hào)在混音后的聲音信號(hào)中的比重；根據(jù)所述多個(gè)咪頭的混音權(quán)重對(duì)各個(gè)咪頭獲取的聲音信號(hào)進(jìn)行混音處理。

可選地，在所述第一聲源為視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者，所述第二聲源為會(huì)議終端播放設(shè)備時(shí)，為從所述多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從所述多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重包括：在第一咪頭與所述會(huì)議終端播放設(shè)備的距離小于其他各個(gè)咪頭與所述會(huì)議終端播放設(shè)備的距離時(shí)，為從所述第一咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重小于為從其他各個(gè)咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重；和/或，在第二咪頭與所述會(huì)議終端播放設(shè)備的距離大于其他各個(gè)咪頭與所述會(huì)議終端播放設(shè)備的距離時(shí)，為從所述第二咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重大于為從其他各個(gè)咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重；和/或，在第三咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離小于其他各個(gè)咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離時(shí)，為從所述第三咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重大于為從其他各個(gè)咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重；和/或，在第四咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離大于其他各個(gè)咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離時(shí)，為從所述第四咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重小于為從其他各個(gè)咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重。

可選地，在所述第一聲源為視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者，所述第二聲源為會(huì)議終端播放設(shè)備時(shí)，獲取多個(gè)咪頭采集到的多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)包括：從所述會(huì)議終端播放設(shè)備獲取參考音頻信號(hào)；從所述多個(gè)咪頭采集整體會(huì)場(chǎng)的聲音信號(hào)；根據(jù)所述參考音頻信號(hào)從所述整體會(huì)場(chǎng)的聲音信號(hào)中分離中所述第一聲音信號(hào)和所述第二聲音信號(hào)。

本發(fā)明第二方面，提供了一種聲音處理裝置，包括：獲取模塊，用于獲取麥克風(fēng)多個(gè)咪頭采集到的多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)；其中，所述多個(gè)第一聲音信號(hào)由第一聲源產(chǎn)生，所述多個(gè)第二聲音信號(hào)由第二聲源產(chǎn)生；確定模塊，用于確定所述第一聲源與所述多個(gè)咪頭的相對(duì)位置以及所述第二聲源與所述多個(gè)咪頭的相對(duì)位置；分配模塊，用于為從所述多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從所述多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重，其中，所述第一組權(quán)重為根據(jù)所述第一聲源與所述多個(gè)咪頭的相對(duì)位置確定的，所述第二組權(quán)重為根據(jù)所述第二聲源與所述多個(gè)咪頭的相對(duì)位置確定的；處理模塊，用于利用所述第一組權(quán)重和所述第二組權(quán)重分別對(duì)所述多個(gè)第一聲音信號(hào)和所述多個(gè)第二聲音信號(hào)進(jìn)行混音處理。

可選地，所述確定模塊包括：獲取單元，用于獲取所述多個(gè)第一聲音信號(hào)的能量和所述多個(gè)第二聲音信號(hào)的能量；比較單元，用于將所述多個(gè)第一聲音信號(hào)的能量相互比較，得到第一比較結(jié)果；將所述多個(gè)第二聲音信號(hào)的能量相互比較，得到第二比較結(jié)果；確定單元，用于根據(jù)所述第一比較結(jié)果確定所述多個(gè)咪頭與所述第一聲源的相對(duì)位置；根據(jù)所述第二比較結(jié)果確定所述多個(gè)咪頭與所述第二聲源的相對(duì)位置。

可選地，所述處理模塊包括：計(jì)算單元，用于由所述第一組權(quán)重和所述第二組權(quán)重計(jì)算得到所述多個(gè)咪頭的混音權(quán)重，其中，每個(gè)咪頭的混音權(quán)重用于表示該咪頭采集到的聲音信號(hào)在混音后的聲音信號(hào)中的比重；混音單元，用于根據(jù)所述多個(gè)咪頭的混音權(quán)重對(duì)各個(gè)咪頭獲取的聲音信號(hào)進(jìn)行混音處理。

本發(fā)明第三方面，提供了一種終端，包括：至少一個(gè)處理器；以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，所述存儲(chǔ)器存儲(chǔ)有可被所述一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器執(zhí)行上述任一所述方法的步驟。

本發(fā)明第四方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)指令，該指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一所述方法的步驟。

本發(fā)明技術(shù)方案，具有如下優(yōu)點(diǎn)：

1.本發(fā)明實(shí)施例提供的聲音處理方法及裝置，獲取麥克風(fēng)多個(gè)咪頭采集到的多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)；其中，多個(gè)第一聲音信號(hào)由第一聲源產(chǎn)生，多個(gè)第二聲音信號(hào)由第二聲源產(chǎn)生；確定第一聲源與多個(gè)咪頭的相對(duì)位置以及第二聲源與多個(gè)咪頭的相對(duì)位置；為從多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重，其中，第一組權(quán)重為根據(jù)第一聲源與多個(gè)咪頭的相對(duì)位置確定的，第二組權(quán)重為根據(jù)第二聲源與多個(gè)咪頭的相對(duì)位置確定的；利用第一組權(quán)重和第二組權(quán)重分別對(duì)多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)進(jìn)行混音處理。也就是說(shuō)，咪頭為來(lái)自不同位置聲源的聲音分配不同的權(quán)重，對(duì)不同聲源的聲音進(jìn)行區(qū)別處理，可為混音處理自動(dòng)選擇采集方位，使得麥克風(fēng)的采集范圍盡量主動(dòng)避開(kāi)播放設(shè)備的播放方向，而盡可能采集現(xiàn)場(chǎng)與會(huì)者的聲音，使得與會(huì)者的聲音清晰。

2.通過(guò)麥克風(fēng)咪頭聲音信號(hào)的能量并通過(guò)設(shè)置閾值進(jìn)行比較，從而能較好地獲取麥克風(fēng)咪頭相對(duì)于聲源的位置；通過(guò)從會(huì)議終端播放設(shè)備獲取實(shí)時(shí)的參考信號(hào)從而能夠有效地將與會(huì)者的聲音信號(hào)和終端的回聲信號(hào)進(jìn)行分離，為后續(xù)處理做好鋪墊。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹：顯而易見(jiàn)地，下面描述中的附圖是本發(fā)明的一些實(shí)施方式，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1a為本發(fā)明實(shí)施例1中聲音處理終端示意圖；

圖1b為本發(fā)明實(shí)施例1中聲音處理方法的流程圖；

圖1c為本發(fā)明實(shí)施例1中聲音處理方法的視頻會(huì)議使用場(chǎng)景示意圖；

圖1d為本發(fā)明實(shí)施例1中聲音處理方法的兩種位置模型示意圖；

圖1e為本發(fā)明實(shí)施例1中聲音處理方法的混音模塊框圖；

圖1f為現(xiàn)有技術(shù)中各個(gè)咪頭拾音范圍示意圖；

圖1g為本發(fā)明實(shí)施例1中的各個(gè)咪頭拾音范圍示意圖；

圖1h現(xiàn)有技術(shù)中聲音處理方法的流程圖；

圖2為本發(fā)明中實(shí)施例2中聲音處理裝置的一個(gè)具體示例的原理框圖；

圖3是本發(fā)明實(shí)施例提供的終端的硬件結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

此外，下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。

實(shí)施例1

本實(shí)施例提供了一種聲音處理方法，該聲音處理方法可以適用于各種聲音處理終端，其中，該聲音處理終端包括麥克風(fēng)，該麥克風(fēng)包括多個(gè)咪頭，如圖1a所示為聲音處理終端的示意圖，如圖1b所示，該聲音處理終端對(duì)聲音的處理包括如下步驟：

s10：獲取麥克風(fēng)多個(gè)咪頭采集到的多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)；其中，多個(gè)第一聲音信號(hào)由第一聲源產(chǎn)生，多個(gè)第二聲音信號(hào)由第二聲源產(chǎn)生。

如圖1c所示，數(shù)字麥克風(fēng)通過(guò)音頻播放接口將采集的音頻數(shù)據(jù)輸送到會(huì)議終端。第一聲源為視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者，第二聲源為會(huì)議終端播放設(shè)備，第一聲音信號(hào)和第二聲音信號(hào)分別是來(lái)自現(xiàn)場(chǎng)與會(huì)者的產(chǎn)生的聲音信號(hào)和會(huì)議終端播放設(shè)備產(chǎn)生的聲音信號(hào)。數(shù)字麥克風(fēng)里的多個(gè)咪頭同時(shí)采集這兩種聲音信號(hào)。

s20：確定所述第一聲源與多個(gè)咪頭的相對(duì)位置以及第二聲源與多個(gè)咪頭的相對(duì)位置。

結(jié)合麥克風(fēng)使用的3個(gè)咪頭進(jìn)行采集為例，那么至少可以抽象成如圖1d的兩種位置關(guān)系模型，即第一種位置關(guān)系是一個(gè)咪頭正對(duì)著播放設(shè)備(例如,電視機(jī))方向，第二種位置關(guān)系是一個(gè)咪頭背對(duì)著電視機(jī)方向，而虛線表示麥克風(fēng)可以采集的拾音范圍。當(dāng)然麥克風(fēng)的咪頭相對(duì)于第一聲源和第二聲源的位置信息并不限于上述兩種正規(guī)的位置關(guān)系，咪頭不是正對(duì)或者背對(duì)播放設(shè)備的各種位置關(guān)系都包含在其中。其中，步驟s10和步驟s20沒(méi)有嚴(yán)格的順序限制，步驟s10可以在步驟s20之前也可以在步驟s20之后。

s30：為從多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重，其中，第一組權(quán)重為根據(jù)第一聲源與所述多個(gè)咪頭的相對(duì)位置確定的，所述第二組權(quán)重為根據(jù)第二聲源與多個(gè)咪頭的相對(duì)位置確定的。

在一個(gè)可選實(shí)施例中，例如在視頻會(huì)議使用場(chǎng)景中，麥克風(fēng)的每個(gè)咪頭都可以得到兩組權(quán)重，一組是與會(huì)者聲音的權(quán)重，一組是回聲的權(quán)重，而且每組權(quán)重值之和為1。繼續(xù)以上述3個(gè)咪頭的麥克風(fēng)為例，當(dāng)回聲方位選擇判斷為咪頭正對(duì)播放設(shè)備，該咪頭的回聲權(quán)重分配為0，另外兩個(gè)為0.5、0.5；方位判斷為咪頭背對(duì)播放設(shè)備，該咪頭的回聲權(quán)重分配為0.5，另外兩個(gè)為0.25、0.25；與會(huì)者方位判斷為咪頭正對(duì)與會(huì)者，該咪頭的與會(huì)者聲音權(quán)重分配為0.6、另外兩個(gè)為0.2、0.2；方位判斷為咪頭背對(duì)與會(huì)者，該咪頭的會(huì)者聲音權(quán)重分配為0，其他咪頭分別為0.5、0.5。需要說(shuō)明的是，上述權(quán)重值僅僅是為了清楚描述本實(shí)施例，并不對(duì)本發(fā)明有不當(dāng)限定。

s40：根據(jù)上述第一組權(quán)重和上述第二組權(quán)重分別對(duì)多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)進(jìn)行混音處理。

把麥克風(fēng)的多個(gè)咪頭采集的與會(huì)者聲音數(shù)據(jù)和回聲數(shù)據(jù)根據(jù)計(jì)算的混音權(quán)重結(jié)果進(jìn)行混音處理，得到混音數(shù)據(jù)。

通過(guò)上述步驟,在視頻會(huì)議場(chǎng)景中采用全向性麥克風(fēng)對(duì)來(lái)自現(xiàn)場(chǎng)與會(huì)者和終端播放設(shè)備進(jìn)行拾音過(guò)程中,根據(jù)各個(gè)聲源的位置信息為來(lái)自各個(gè)聲源的聲音信號(hào)分配不同的權(quán)重,使用各個(gè)權(quán)重對(duì)其對(duì)應(yīng)的聲音信號(hào)進(jìn)行區(qū)別處理,相比于現(xiàn)有技術(shù)中,全向性麥克風(fēng)對(duì)現(xiàn)場(chǎng)與會(huì)者和終端播放設(shè)備進(jìn)行無(wú)差別的拾音，導(dǎo)致現(xiàn)場(chǎng)與會(huì)者的聲音不夠清晰,本可選實(shí)施例的上述步驟自動(dòng)選擇采集方位，使得麥克風(fēng)的采集范圍盡量主動(dòng)避開(kāi)終端播放設(shè)備的播放方向，而盡可能采集現(xiàn)場(chǎng)與會(huì)者的聲音信號(hào)，提高了與會(huì)者聲音信號(hào)的清晰度。

上述步驟s20中涉及到，獲取麥克風(fēng)的多個(gè)咪頭相對(duì)于第一聲源和第二聲源的位置信息,需要說(shuō)明的是,可以通過(guò)多種方式獲取到上述位置信息,例如在一個(gè)可選實(shí)施例中,在首次安裝全向性麥克風(fēng)時(shí)已經(jīng)按照預(yù)定位置進(jìn)行了安裝,即上述位置可以是預(yù)先獲知的。

在另一個(gè)可選實(shí)施例中，將多個(gè)第一聲音信號(hào)的能量相互比較，得到第一比較結(jié)果，根據(jù)第一比較結(jié)果確定所述多個(gè)咪頭與上述第一聲源的相對(duì)位置；將多個(gè)第二聲音信號(hào)的能量相互比較，得到第二比較結(jié)果，根據(jù)第二比較結(jié)果確定多個(gè)咪頭與上述第二聲源的相對(duì)位置。上述聲音信號(hào)的能量可以是聲音信號(hào)的響度也可以是聲音信號(hào)的頻率。

具體地，根據(jù)第一比較結(jié)果確定多個(gè)咪頭與上述第一聲源的相對(duì)位置包括：確定多個(gè)第一聲音信號(hào)中音量大于其他第一聲音信號(hào)的音量達(dá)到第一預(yù)設(shè)閾值的第一聲音信號(hào)對(duì)應(yīng)的咪頭與第一聲源處于正對(duì)位置；確定多個(gè)第一聲音信號(hào)中音量小于其他第一聲音信號(hào)的音量達(dá)到第二預(yù)設(shè)閾值的第一聲音信號(hào)對(duì)應(yīng)的咪頭與第一聲源處于背對(duì)位置。

另一方面，根據(jù)第二比較結(jié)果確定多個(gè)咪頭與上述第二聲源的相對(duì)位置包括：確定多個(gè)第人二聲音信號(hào)中音量大于其他第二聲音信號(hào)的音量達(dá)到第三預(yù)設(shè)閾值的第二聲音信號(hào)對(duì)應(yīng)的咪頭與第二聲源處于正對(duì)位置；確定多個(gè)第人二聲音信號(hào)中音量小于其他第二聲音信號(hào)的音量達(dá)到第四預(yù)設(shè)閾值的第二聲音信號(hào)對(duì)應(yīng)的咪頭與第二聲源處于背對(duì)位置。

上述第一預(yù)設(shè)閾值、第二預(yù)設(shè)閾值、第三預(yù)設(shè)閾值和第四預(yù)設(shè)閾值均可以根據(jù)需要進(jìn)行設(shè)置，可以相同，也可以不同。

位置不同的咪頭同時(shí)采集到與會(huì)者的聲音能量是不同的，同理三路回聲的能量也不同。根據(jù)能量大小進(jìn)行聲音方位的判斷，能量最大的即為聲音的方位選擇結(jié)果。這里以聲音響度為6db為預(yù)設(shè)閾值簡(jiǎn)化為兩種位置關(guān)系模型，第一種是如果一個(gè)咪頭的回聲(相當(dāng)于上述第二聲音信號(hào))能量比其他兩個(gè)咪頭都大于6db以上，那么就認(rèn)為這個(gè)咪頭是正對(duì)播放設(shè)備方向；第二種是如果一個(gè)咪頭的回聲能量比其他兩個(gè)咪頭都小于6db以上，那么就認(rèn)為這個(gè)咪頭是背對(duì)播放設(shè)備方向；當(dāng)兩種情況都不滿足時(shí)，以第二種條件優(yōu)先判斷作為默認(rèn)方向選擇。

上述步驟s30涉及到為多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重，在一個(gè)可選實(shí)施例中，在第一聲源為視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者，第二聲源為會(huì)議終端播放設(shè)備時(shí)，在第一咪頭與會(huì)議終端播放設(shè)備的距離小于其他各個(gè)咪頭與會(huì)議終端播放設(shè)備的距離時(shí)，為第一咪頭獲取的第二聲音信號(hào)配置的權(quán)重小于為從其他各個(gè)咪頭獲取的第二聲音信號(hào)配置的權(quán)重；例如，裝有三個(gè)咪頭的麥克風(fēng)，第一咪頭正對(duì)于會(huì)議終端播放設(shè)備，其距離會(huì)議終端播放設(shè)備的距離小于其他各個(gè)咪頭與會(huì)議終端播放設(shè)備的距離，這時(shí)回聲權(quán)重(第二聲音信號(hào)的權(quán)重)分配為0，另外兩個(gè)為0.5、0.5；在第二咪頭與會(huì)議終端播放設(shè)備的距離大于其他各個(gè)咪頭與會(huì)議終端播放設(shè)備的距離時(shí)，為從第二咪頭獲取的第二聲音信號(hào)配置的權(quán)重大于為從其他各個(gè)咪頭獲取的第二聲音信號(hào)配置的權(quán)重；例如，第二咪頭背對(duì)于會(huì)議終端播放設(shè)備，其距離與會(huì)議終端播放設(shè)備的距離大于其他各個(gè)咪頭與會(huì)議終端播放設(shè)備的距離，這時(shí)回聲權(quán)重分配為0.5、0.25、0.25；在第三咪頭與視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離小于其他各個(gè)咪頭與視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離時(shí)，為從第三咪頭獲取的第一聲音信號(hào)配置的權(quán)重大于為從其他各個(gè)咪頭獲取的第一聲音信號(hào)配置的權(quán)重；例如，第三咪頭正對(duì)于與會(huì)者，其與與會(huì)者的距離小于其他各個(gè)咪頭與視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離，這時(shí)與會(huì)者聲音(第一聲音信號(hào))權(quán)重分配為0.6、另外兩個(gè)為0.2、0.2；在第四咪頭與視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離大于其他各個(gè)咪頭與視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離時(shí)，為從第四咪頭獲取的第一聲音信號(hào)配置的權(quán)重小于為從其他各個(gè)咪頭獲取的第一聲音信號(hào)配置的權(quán)重；例如，第四咪頭背對(duì)于與會(huì)者，其與與會(huì)者的距離大于其他各個(gè)咪頭與視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離，這時(shí)與會(huì)者聲音權(quán)重分配為0、0.5、0.5。

為了對(duì)來(lái)自不同聲源的聲音信號(hào)進(jìn)行綜合處理，在一個(gè)可選實(shí)施例中，在步驟s40之后，根據(jù)第一權(quán)重和第二權(quán)重獲取咪頭的混音權(quán)重，如圖1e所示，根據(jù)麥克風(fēng)的各個(gè)咪頭的混音權(quán)重對(duì)各個(gè)咪頭獲取的聲音進(jìn)行混音處理。例如，根據(jù)與會(huì)者聲音權(quán)重和回聲的權(quán)重進(jìn)行二次計(jì)算，最終得到與會(huì)者的混音權(quán)重，可選地對(duì)應(yīng)咪頭的權(quán)重分別相加取平均，即為最后權(quán)重結(jié)果。具體地：

舉例1：咪頭a正對(duì)播放設(shè)備，背對(duì)與會(huì)者，那么回聲權(quán)重結(jié)果為0、0.5、0.5，與會(huì)者聲音權(quán)重結(jié)果為0、0.5、0.5，最后混音權(quán)重結(jié)果為0、0.5、0.5。

舉例2：咪頭a正對(duì)播放設(shè)備，咪頭b正對(duì)與會(huì)者，那么回聲權(quán)重結(jié)果為0、0.5、0.5，與會(huì)者聲音權(quán)重結(jié)果為0.2、0.6、0.2，最后混音權(quán)重結(jié)果為0.1、0.55、0.35。

舉例3：如果咪頭a背對(duì)播放設(shè)備，正對(duì)與會(huì)者，那么回聲權(quán)重結(jié)果為0.5、0.25、0.25，與會(huì)者聲音權(quán)重結(jié)果為0.6、0.2、0.2，最后混音權(quán)重結(jié)果為0.55、0.225、0.225。

舉例4：咪頭a背對(duì)播放設(shè)備，咪頭b正對(duì)與會(huì)者，那么回聲權(quán)重結(jié)果為0.5、0.25、0.25，與會(huì)者聲音權(quán)重結(jié)果為0.2、0.6、0.2，最后混音權(quán)重結(jié)果為0.35、0.425、0.225。

最后把三個(gè)咪頭的與會(huì)者聲音數(shù)據(jù)根據(jù)計(jì)算的混音權(quán)重結(jié)果進(jìn)行混音處理，得到混音數(shù)據(jù)。

顯然，本發(fā)明實(shí)施例中所述的權(quán)重均是指對(duì)應(yīng)的聲音信號(hào)在混音后的音頻的占比，權(quán)重越大，其對(duì)應(yīng)的聲音信號(hào)對(duì)混音后的音頻影響越大。

在現(xiàn)有技術(shù)中對(duì)各個(gè)咪頭采集到的聲音信號(hào)不做處理的情況下，如圖1f所示，麥克風(fēng)各個(gè)咪頭對(duì)各個(gè)聲源發(fā)出的聲音信號(hào)進(jìn)行無(wú)差別的拾音。經(jīng)過(guò)上述實(shí)施例對(duì)各個(gè)咪頭采集到的聲音信號(hào)進(jìn)行處理之后，各個(gè)咪頭拾音范圍如圖1g所示。

如圖1h得到混音數(shù)據(jù)以后，接下來(lái)對(duì)混音數(shù)據(jù)做后續(xù)的處理，優(yōu)選地后續(xù)處理可以是通過(guò)級(jí)聯(lián)環(huán)回裝置產(chǎn)生的參考信號(hào)數(shù)據(jù)通過(guò)回聲消除裝置進(jìn)行回音消除，就可以通過(guò)音頻播放接口傳送給會(huì)議終端通過(guò)播放設(shè)備播出。

步驟s10涉及到從上述咪頭獲取第一聲音信號(hào)和第二聲音信號(hào)，在一個(gè)可選實(shí)施例中，從會(huì)議終端播放設(shè)備獲取參考音頻信號(hào)，從咪頭采集整體會(huì)場(chǎng)的聲音信號(hào)，根據(jù)參考音頻信號(hào)從整體會(huì)場(chǎng)的聲音信號(hào)中分離中第一聲音信號(hào)和第二聲音信號(hào)。音頻分離處理是基于回聲抵消原理，對(duì)原算法不進(jìn)行消除回聲，而是同時(shí)保留回聲信號(hào)和本地會(huì)場(chǎng)的其他信號(hào)，也不增加舒適背景噪聲處理，以避免信噪比降低。如圖1h所示，第一聲源是發(fā)言人，第二聲源是會(huì)議終端的播放設(shè)備。通過(guò)會(huì)議終端播放音頻數(shù)據(jù)，一路傳輸給播放設(shè)備，使得會(huì)場(chǎng)人員聽(tīng)到會(huì)議語(yǔ)音；另一路傳輸給數(shù)字麥克風(fēng)的級(jí)聯(lián)回環(huán)控制裝置，該裝置負(fù)責(zé)同步復(fù)制多路信號(hào)數(shù)據(jù)，一路給本級(jí)麥克風(fēng)的回聲消除算法提供參考音頻信號(hào)，還有一路給本級(jí)麥克風(fēng)的智能混音模塊提供參考信號(hào)。麥克風(fēng)的多個(gè)咪頭同時(shí)采集由發(fā)言人發(fā)出的本地語(yǔ)音和播放設(shè)備產(chǎn)生的回聲，將采集的音頻數(shù)據(jù)輸入到智能混音模塊，得到混音數(shù)據(jù)。

如圖1e所示，咪頭a、b和c采集到會(huì)場(chǎng)聲音后，分別進(jìn)行音頻分離處理，即通過(guò)比對(duì)參考信號(hào)，將采集音頻a、b和c進(jìn)行與會(huì)者聲音和回聲的分離處理，這時(shí)得到6路數(shù)據(jù)，三個(gè)與會(huì)者聲音，三個(gè)回聲。

實(shí)施例2

本實(shí)施例提供一種聲音處理的裝置，如圖2所示，數(shù)字麥克風(fēng)通過(guò)音頻播放接口將采集的音頻數(shù)據(jù)輸送到會(huì)議終端，具體的包括：獲取模塊10、確定模塊20、分配模塊30、處理模塊40。

獲取模塊10，用于獲取麥克風(fēng)多個(gè)咪頭采集到的多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)；其中，所述多個(gè)第一聲音信號(hào)由第一聲源產(chǎn)生，所述多個(gè)第二聲音信號(hào)由第二聲源產(chǎn)生；

確定模塊20，用于確定所述第一聲源與所述多個(gè)咪頭的相對(duì)位置以及所述第二聲源與所述多個(gè)咪頭的相對(duì)位置；

進(jìn)一步地，作為本實(shí)施例的一種優(yōu)選實(shí)施方式，確定模塊20包括：獲取單元21、比較單元22和確定單元23。

獲取單元21，用于獲取所述多個(gè)第一聲音信號(hào)的能量和所述多個(gè)第二聲音信號(hào)的能量；

比較單元22，用于將所述多個(gè)第一聲音信號(hào)的能量相互比較，得到第一比較結(jié)果；將所述多個(gè)第二聲音信號(hào)的能量相互比較，得到第二比較結(jié)果；

確定單元23，用于根據(jù)所述第一比較結(jié)果確定所述多個(gè)咪頭與所述第一聲源的相對(duì)位置；根據(jù)所述第二比較結(jié)果確定所述多個(gè)咪頭與所述第二聲源的相對(duì)位置。

分配模塊30，用于為從所述多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從所述多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重，其中，所述第一組權(quán)重為根據(jù)所述第一聲源與所述多個(gè)咪頭的相對(duì)位置確定的，所述第二組權(quán)重為根據(jù)所述第二聲源與所述多個(gè)咪頭的相對(duì)位置確定的。

處理模塊40，用于利用所述第一組權(quán)重和所述第二組權(quán)重分別對(duì)所述多個(gè)第一聲音信號(hào)和所述多個(gè)第二聲音信號(hào)進(jìn)行混音處理。

作為本實(shí)施例的一種優(yōu)選實(shí)施方式，處理模塊40還包括：

計(jì)算單元41，用于由所述第一組權(quán)重和所述第二組權(quán)重計(jì)算得到所述多個(gè)咪頭的混音權(quán)重，其中，每個(gè)咪頭的混音權(quán)重用于表示該咪頭采集到的聲音信號(hào)在混音后的聲音信號(hào)中的比重；

混音單元42，用于根據(jù)所述多個(gè)咪頭的混音權(quán)重對(duì)各個(gè)咪頭獲取的聲音信號(hào)進(jìn)行混音處理。

請(qǐng)參閱圖3，圖3是本發(fā)明可選實(shí)施例提供的一種終端的結(jié)構(gòu)示意圖，如圖3所示，該終端可以包括：至少一個(gè)處理器301，例如cpu(centralprocessingunit，中央處理器)，至少一個(gè)通信接口303，存儲(chǔ)器304，至少一個(gè)通信總線302。其中，通信總線302用于實(shí)現(xiàn)這些組件之間的連接通信。其中，通信接口303可以包括顯示屏(display)、鍵盤(keyboard)，可選通信接口303還可以包括標(biāo)準(zhǔn)的有線接口、無(wú)線接口。存儲(chǔ)器304可以是高速ram存儲(chǔ)器(ramdomaccessmemory，易揮發(fā)性隨機(jī)存取存儲(chǔ)器)，也可以是非不穩(wěn)定的存儲(chǔ)器(non-volatilememory)，例如至少一個(gè)磁盤存儲(chǔ)器。存儲(chǔ)器304可選的還可以是至少一個(gè)位于遠(yuǎn)離前述處理器301的存儲(chǔ)裝置。其中處理器301可以結(jié)合圖2所描述的裝置，存儲(chǔ)器304中存儲(chǔ)一組程序代碼，且處理器301調(diào)用存儲(chǔ)器304中存儲(chǔ)的程序代碼，以用于執(zhí)行一種聲音處理方法，即用于執(zhí)行以下操作：

獲取麥克風(fēng)多個(gè)咪頭采集到的多個(gè)第一聲音信號(hào)和多個(gè)第二聲音信號(hào)；其中，所述多個(gè)第一聲音信號(hào)由第一聲源產(chǎn)生，所述多個(gè)第二聲音信號(hào)由第二聲源產(chǎn)生；

確定所述第一聲源與所述多個(gè)咪頭的相對(duì)位置以及所述第二聲源與所述多個(gè)咪頭的相對(duì)位置；

為從所述多個(gè)咪頭獲取的多個(gè)第一聲音信號(hào)分別配置第一組權(quán)重，為從所述多個(gè)咪頭獲取的多個(gè)第二聲音信號(hào)配置第二組權(quán)重，其中，所述第一組權(quán)重為根據(jù)所述第一聲源與所述多個(gè)咪頭的相對(duì)位置確定的，所述第二組權(quán)重為根據(jù)所述第二聲源與所述多個(gè)咪頭的相對(duì)位置確定的；

利用所述第一組權(quán)重和所述第二組權(quán)重分別對(duì)所述多個(gè)第一聲音信號(hào)和所述多個(gè)第二聲音信號(hào)進(jìn)行混音處理。

本發(fā)明實(shí)施例中，處理器301調(diào)用存儲(chǔ)器304中的程序代碼，還用于執(zhí)行以下操作：

獲取所述多個(gè)第一聲音信號(hào)的能量和所述多個(gè)第二聲音信號(hào)的能量；

將所述多個(gè)第一聲音信號(hào)的能量相互比較，得到第一比較結(jié)果；將所述多個(gè)第二聲音信號(hào)的能量相互比較，得到第二比較結(jié)果；

根據(jù)所述第一比較結(jié)果確定所述多個(gè)咪頭與所述第一聲源的相對(duì)位置；根據(jù)所述第二比較結(jié)果確定所述多個(gè)咪頭與所述第二聲源的相對(duì)位置。

本發(fā)明實(shí)施例中，處理器301調(diào)用存儲(chǔ)器304中的程序代碼，還用于執(zhí)行以下操作：

由所述第一組權(quán)重和所述第二組權(quán)重計(jì)算得到所述多個(gè)咪頭的混音權(quán)重，其中，每個(gè)咪頭的混音權(quán)重用于表示該咪頭采集到的聲音信號(hào)在混音后的聲音信號(hào)中的比重；

根據(jù)所述多個(gè)咪頭的混音權(quán)重對(duì)各個(gè)咪頭獲取的聲音信號(hào)進(jìn)行混音處理。

本發(fā)明實(shí)施例中，處理器301調(diào)用存儲(chǔ)器304中的程序代碼，還用于執(zhí)行以下操作：

在第一咪頭與所述會(huì)議終端播放設(shè)備的距離小于其他各個(gè)咪頭與所述會(huì)議終端播放設(shè)備的距離時(shí)，為從所述第一咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重小于為從其他各個(gè)咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重；和/或，

在第二咪頭與所述會(huì)議終端播放設(shè)備的距離大于其他各個(gè)咪頭與所述會(huì)議終端播放設(shè)備的距離時(shí)，為從所述第二咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重大于為從其他各個(gè)咪頭獲取的所述第二聲音信號(hào)配置的權(quán)重；和/或，

在第三咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離小于其他各個(gè)咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離時(shí)，為從所述第三咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重大于為從其他各個(gè)咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重；和/或，

在第四咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離大于其他各個(gè)咪頭與所述視頻會(huì)議現(xiàn)場(chǎng)與會(huì)者的距離時(shí)，為從所述第四咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重小于為從其他各個(gè)咪頭獲取的所述第一聲音信號(hào)配置的權(quán)重。

本發(fā)明實(shí)施例中，處理器301調(diào)用存儲(chǔ)器304中的程序代碼，還可以執(zhí)行以下操作：

從所述會(huì)議終端播放設(shè)備獲取參考音頻信號(hào)；

從所述多個(gè)咪頭采集整體會(huì)場(chǎng)的聲音信號(hào)；

根據(jù)所述參考音頻信號(hào)從所述整體會(huì)場(chǎng)的聲音信號(hào)中分離中所述第一聲音信號(hào)和所述第二聲音信號(hào)。

其中，通信總線302可以是外設(shè)部件互連標(biāo)準(zhǔn)(peripheralcomponentinterconnect，簡(jiǎn)稱pci)總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(extendedindustrystandardarchitecture，簡(jiǎn)稱eisa)總線等。通信總線302可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示，圖3中僅用一條粗線表示，但并不表示僅有一根總線或一種類型的總線。

其中，存儲(chǔ)器304可以包括易失性存儲(chǔ)器(英文：volatilememory)，例如隨機(jī)存取存儲(chǔ)器(英文：random-accessmemory，縮寫(xiě)：ram)；存儲(chǔ)器也可以包括非易失性存儲(chǔ)器(英文：non-volatilememory)，例如快閃存儲(chǔ)器(英文：flashmemory)，硬盤(英文：harddiskdrive，縮寫(xiě)：hdd)或固態(tài)硬盤(英文：solid-statedrive，縮寫(xiě)：ssd)；存儲(chǔ)器304還可以包括上述種類的存儲(chǔ)器的組合。

其中，處理器301可以是中央處理器(英文：centralprocessingunit，縮寫(xiě)：cpu)，網(wǎng)絡(luò)處理器(英文：networkprocessor，縮寫(xiě)：np)或者cpu和np的組合。

其中，處理器301還可以進(jìn)一步包括硬件芯片。上述硬件芯片可以是專用集成電路(英文：application-specificintegratedcircuit，縮寫(xiě)：asic)，可編程邏輯器件(英文：programmablelogicdevice，縮寫(xiě)：pld)或其組合。上述pld可以是復(fù)雜可編程邏輯器件(英文：complexprogrammablelogicdevice，縮寫(xiě)：cpld)，現(xiàn)場(chǎng)可編程邏輯門陣列(英文：field-programmablegatearray，縮寫(xiě)：fpga)，通用陣列邏輯(英文：genericarraylogic,縮寫(xiě)：gal)或其任意組合。

可選地，存儲(chǔ)器304還用于存儲(chǔ)程序指令。處理器301可以調(diào)用程序指令，實(shí)現(xiàn)如本申請(qǐng)實(shí)施例中圖1b所示的聲音處理方法。

本發(fā)明實(shí)施例還提供了一種非暫態(tài)計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，該計(jì)算機(jī)可執(zhí)行指令可執(zhí)行上述任意方法實(shí)施例中的聲音處理方法。其中，所述存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory，rom)、隨機(jī)存儲(chǔ)記憶體(randomaccessmemory，ram)、快閃存儲(chǔ)器(flashmemory)、硬盤(harddiskdrive，縮寫(xiě)：hdd)或固態(tài)硬盤(solid-statedrive，ssd)等；所述存儲(chǔ)介質(zhì)還可以包括上述種類的存儲(chǔ)器的組合。

顯然，上述實(shí)施例僅僅是為清楚地說(shuō)明所作的舉例，而并非對(duì)實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在上述說(shuō)明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見(jiàn)的變化或變動(dòng)仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王雪寧;許世林;陳衛(wèi)東
技術(shù)所有人：蘇州科達(dá)科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>