一種遠場語音增強的視頻通話方法與系統(tǒng)與流程

文檔序號：12378557閱讀：456來源：國知局

本發(fā)明涉及機頂盒技術(shù)領(lǐng)域，尤其涉及一種遠場語音增強的視頻通話方法和系統(tǒng)。

背景技術(shù)：

遠場語音通話，即遠距離語音通話，尤其是通話人距離麥克風3至5米的距離，由于噪聲和/或混響等干擾因素的影響，視頻通話過程中，語音的效果非常差。實際的遠場語音通信包含以下一些噪音源：(1)混響噪音：聲波在室內(nèi)傳播時，要被障礙物反射和吸收，最后消失，我們就感覺到聲源停止發(fā)聲后還有若干個聲波混合持續(xù)一段時間，即混響時間(reverberation)?；祉憰r間的長短是音樂廳、劇院、禮堂等建筑物的重要聲學特性。(2)背景噪音：背景噪聲是指除研究對象以外所有噪聲的總稱。(3)人聲干擾:環(huán)境人聲，非研究對象的聲音。(4)回聲噪音:聲波在傳播過程中，碰到大的反射面(如建筑物的墻壁、大山里面等)在界面將發(fā)生反射，人們把能夠與原聲區(qū)分開的反射聲波叫做回聲。

綜上所述，遠場視頻通話時，遠場的語音需要過濾到多種噪聲，才能得到純凈的通話參與者的清晰的聲音信號。

現(xiàn)有技術(shù)中公開有申請?zhí)枮椋?01310066421.X，專利名稱為《語音增強處理方法和裝置》的中國專利，該發(fā)明實施例提供一種語音增強處理方法和裝置，該方法，包括：解碼比特流，獲取當前待處理語音子幀的編碼參數(shù)，編碼參數(shù)包括第一代數(shù)碼書增益和第一自適應(yīng)碼書增益；調(diào)整第一代數(shù)碼書增益，得到第二代數(shù)碼書增益；根據(jù)第一自適應(yīng)碼書增益和第二代數(shù)碼書增益，確定第二自適應(yīng)碼書增益；采用第二代數(shù)碼書增益和第二自適應(yīng)碼書增益的量化索引替換比特流中第一代數(shù)碼書增益和第一自適應(yīng)碼書增益對應(yīng)的比特。該發(fā)明的技術(shù)方案，可以有效改善消除噪音的效果，提高語音通話質(zhì)量。但是該對比專利與本專利申請采取的技術(shù)路徑完全不同。

現(xiàn)有技術(shù)中還公開了《一種基于無線定位麥克風陣列語音增強的通話系統(tǒng)及方法》，見申請?zhí)枺?01310513373.4的中國專利，該發(fā)明公開了一種基于無線定位麥克風陣列語音增強的通話系統(tǒng)及方法，系統(tǒng)包括無線定位發(fā)射模塊、無線定位接收模塊、麥克風陣列語音接收模塊、語音增強模塊、遠端語音播放模塊和通信模塊，其中無線定位發(fā)射模塊與無線定位接收模塊采用無線的方式連接，無線定位接收模塊和麥克風陣列語音接收模塊分別與語音增強模塊連接，語音增強模塊與通信模塊連接，遠端語音播放模塊與通信模塊連接。通話方法首先采用無線定位技術(shù)來對目標聲源進行定位，再對目標說話人的語音采用麥克風陣列進行語音增強處理及通信。該發(fā)明具有定位快速準確、增強效果好、魯棒性高等優(yōu)點，能有效提高現(xiàn)有通話系統(tǒng)的語音質(zhì)量。對比專利主要關(guān)注麥克風陣列的聲源定位和定向人聲增強。本專利申請關(guān)注遠場視頻通話時，通話主體的聲音增強和多噪音源的抑制。

技術(shù)實現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題之一，在于提供一種遠場語音增強的視頻通話系統(tǒng)，使用多噪音過濾引擎，抑制多種噪音源增強通話主體的聲音，進而提高遠場視頻通話的通話質(zhì)量。

本發(fā)明問題之一是這樣實現(xiàn)的：一種遠場語音增強的視頻通話系統(tǒng)，所述系統(tǒng)包括：至少兩個視頻通話終端，多噪音過濾處理引擎、以及多噪音過濾API管理服務(wù)器；所述多噪音過濾處理引擎、多噪音過濾API管理服務(wù)器通過通信網(wǎng)與兩個視頻通話終端連接；

一端的視頻通話終端進行遠場視頻通話時，通話者遠場聲音和多種噪音源會同時被視頻通話終端接收和錄制；

多噪音過濾處理引擎對遠場聲音和多種噪音源進行過濾處理；

多噪音過濾API管理服務(wù)器抑制多種噪音源增強通話主體的聲音，

另一端的視頻通話終端再接收經(jīng)過處理后的通話者主體的聲音。

進一步地，所述視頻通話終端中設(shè)置有硬件驅(qū)動、操作系統(tǒng)模塊、視頻通話中間件模塊、麥克風陣列錄音模塊、原始聲音增強模塊、通話主聲音和噪音源分離模塊、多噪音過濾引擎API、通話主聲音和噪音源合并模塊、視頻通話音視頻打包模塊、視頻通話傳輸模塊；

所述硬件驅(qū)動：設(shè)備包括內(nèi)部或外部硬件模塊，硬件驅(qū)動是硬件模塊的驅(qū)動軟件，一般在操作系統(tǒng)初始化階段完成初始化；

所述操作系統(tǒng)是設(shè)備硬件和硬件接口的統(tǒng)一接口抽象，操作系統(tǒng)是軟件運行的基礎(chǔ)環(huán)境；

所述視頻通話中間件模塊：具有視頻通話功能基礎(chǔ)功能的軟件包；

所述麥克風陣列錄音模塊：調(diào)用操作系統(tǒng)的麥克風陣列接口，錄制聲音的模塊；

所述原始聲音增強模塊：調(diào)用音頻算法，將錄制的原始聲音增強，即聲音信號的放大處理；

所述通話主聲音和噪音源分離模塊：調(diào)用多噪音過濾引擎API，將增強原始聲音作為輸入，輸出主聲音和噪音源；

所述多噪音過濾引擎API：作用是將增強原始聲音作為輸入，輸出主聲音人聲和噪音源；多噪音過濾引擎API能部署在本地設(shè)備或服務(wù)器上；

所述通話主聲音和噪音源合并模塊：增強主聲音，并抑制噪音源后，再將增強后的主聲音和減弱后的噪音源，合成一個聲音；

所述視頻通話音視頻打包模塊：視頻流按照H264/H265編碼方式編碼，再封裝成PES流；音頻按照AAC，AC3編碼方式編碼，再封裝PES流；音視頻的PES流再打包成適合網(wǎng)絡(luò)傳輸?shù)腡S流；

所述視頻通話傳輸模塊：TS流按照視頻通話業(yè)務(wù)邏輯在通信網(wǎng)絡(luò)中傳輸。

進一步地，所述視頻通話中間件模塊包括：輸入設(shè)備管理模塊、音視頻預(yù)處理模塊、音視頻編碼模塊、音視頻打包模塊、以及網(wǎng)絡(luò)傳輸模塊。

進一步地，所述遠場語音增強的視頻通話中要關(guān)注數(shù)據(jù)的在各個模塊的輸入和輸出；

遠場聲音輸入，包括：通話語音、環(huán)境噪音、回聲噪音、混響噪音和多人聲噪音；

麥克風陣列錄音模塊接收和錄制上述遠場聲音，并輸出數(shù)字信號的聲音；

數(shù)字化的遠場聲音輸入到多噪音過濾處理引擎；

多噪音過濾處理引擎訪問多噪音過濾API管理服務(wù)器獲取多噪音過濾引擎API；

多噪音過濾API管理服務(wù)器管理外部多噪音過濾引擎API；

多噪音過濾處理引擎調(diào)用多噪音過濾引擎API處理數(shù)字化的遠場聲音，處理后得到增強遠場人聲抑制多噪音源的聲音數(shù)據(jù)。

進一步地，所述多噪音過濾API管理服務(wù)器主要有以下功能：維護多噪音過濾引擎API，管理外部多噪音過濾引擎API，維護外部多噪音過濾引擎API適配內(nèi)部多噪音過濾引擎API；維護多噪音過濾引擎API的更新策略，維護外部多噪音過濾引擎API的管理策略，負責審計多噪音過濾引擎API的服務(wù)質(zhì)量。

進一步地，所述遠場語音增強的視頻通話操作具體為：一端的視頻通話終端的麥克風陣列錄音模塊接收遠場視頻通話參與者的聲音以及相關(guān)聯(lián)的多種噪音源，視頻通話終端將原始的聲音數(shù)據(jù)通過原始聲音增強模塊做信號放大處理，然后交由本地或在線多噪音過濾處理引擎處理；本地或在線多噪音過濾處理引擎處理首先：通過通話主聲音和噪音源分離模塊分離出通話主體的聲音和多種噪音源；進而通過所述多噪音過濾引擎API增強通話主體的聲音并抑制多種噪音源；進而通過所述通話主聲音和噪音源合并模塊將增強后的通話主體聲音和抑制后的多種噪音源合并，并回傳給視頻通話終端；視頻通話終端將視頻數(shù)據(jù)和處理后的音頻數(shù)據(jù)通過所述視頻通話音視頻打包模塊打包成適合網(wǎng)絡(luò)傳輸?shù)木W(wǎng)絡(luò)包，經(jīng)過視頻通話中間件模塊的視頻通話傳輸模塊將音視頻數(shù)據(jù)傳輸給另一端的視頻通話終端。

進一步地，所述視頻通話終端包含一個或多個處理器，一個內(nèi)存，一個或多個存儲器，一個電源，一個或多個連接器，一個網(wǎng)絡(luò)接口以及一個麥克風陣列；所述視頻通話終端也包含一個操作系統(tǒng)，操作系統(tǒng)包含若干能夠在一個或多個處理器上運行的模塊或應(yīng)用；視頻通話終端能包含待機喚醒模塊，所述處理器、內(nèi)存、存儲器、電源、連接器、網(wǎng)絡(luò)接口、麥克風陣列采用內(nèi)部組件通信的方式互聯(lián)起來；

一個或多個處理器，被配置為在視頻通話終端中執(zhí)行功能或過程指令；一個或多個處理器能夠處理存儲在內(nèi)存或存儲器中指令；這些指令能用來操作操作硬件模塊，來完成特定的功能或過程；

內(nèi)存是與CPU直接交換數(shù)據(jù)的內(nèi)部存儲器，存儲單元的內(nèi)容能按需隨意取出或存入，且存取的速度與存儲單元的位置無關(guān)的存儲器。

本發(fā)明要解決的技術(shù)問題之二，在于提供一種遠場語音增強的視頻通話方法，使用多噪音過濾引擎，抑制多種噪音源增強通話主體的聲音，進而提高遠場視頻通話的通話質(zhì)量。

本發(fā)明問題之二是這樣實現(xiàn)的：一種遠場語音增強的視頻通話方法，所述方法需提供至少兩個視頻通話終端，多噪音過濾處理引擎、以及多噪音過濾API管理服務(wù)器；

所述方法具體為：一端的視頻通話終端進行遠場視頻通話時，通話者遠場聲音和多種噪音源會同時被視頻通話終端接收和錄制；在通過多噪音過濾處理引擎對遠場聲音和多種噪音源進行過濾處理；進而多噪音過濾API管理服務(wù)器抑制多種噪音源增強通話主體的聲音，再將處理后的通話者主體的聲音發(fā)送給另一端的視頻通話終端。

所述硬件驅(qū)動：設(shè)備包括內(nèi)部或外部硬件模塊，硬件驅(qū)動是硬件模塊的驅(qū)動軟件，一般在操作系統(tǒng)初始化階段完成初始化；

所述操作系統(tǒng)是設(shè)備硬件和硬件接口的統(tǒng)一接口抽象，操作系統(tǒng)是軟件運行的基礎(chǔ)環(huán)境；

所述視頻通話中間件模塊：具有視頻通話功能基礎(chǔ)功能的軟件包；

所述麥克風陣列錄音模塊：調(diào)用操作系統(tǒng)的麥克風陣列接口，錄制聲音的模塊；

所述原始聲音增強模塊：調(diào)用音頻算法，將錄制的原始聲音增強，即聲音信號的放大處理；

所述通話主聲音和噪音源分離模塊：調(diào)用多噪音過濾引擎API，將增強原始聲音作為輸入，輸出主聲音和噪音源；

所述多噪音過濾引擎API：作用是將增強原始聲音作為輸入，輸出主聲音人聲和噪音源；多噪音過濾引擎API能部署在本地設(shè)備或服務(wù)器上；

所述通話主聲音和噪音源合并模塊：增強主聲音，并抑制噪音源后，再將增強后的主聲音和減弱后的噪音源，合成一個聲音；

所述視頻通話傳輸模塊：TS流按照視頻通話業(yè)務(wù)邏輯在通信網(wǎng)絡(luò)中傳輸。

進一步地，所述遠場語音增強的視頻通話中要關(guān)注數(shù)據(jù)的在各個模塊的輸入和輸出；

遠場聲音輸入，包括：通話語音、環(huán)境噪音、回聲噪音、混響噪音和多人聲噪音；

麥克風陣列錄音模塊接收和錄制上述遠場聲音，并輸出數(shù)字信號的聲音；

數(shù)字化的遠場聲音輸入到多噪音過濾處理引擎；

多噪音過濾處理引擎訪問多噪音過濾API管理服務(wù)器獲取多噪音過濾引擎API；

多噪音過濾API管理服務(wù)器管理外部多噪音過濾引擎API；

多噪音過濾處理引擎調(diào)用多噪音過濾引擎API處理數(shù)字化的遠場聲音，處理后得到增強遠場人聲抑制多噪音源的聲音數(shù)據(jù)。

本發(fā)明具有如下優(yōu)點：本發(fā)明視頻通話終端通過基礎(chǔ)通信網(wǎng)(互聯(lián)網(wǎng)等)互聯(lián)互通；視頻通話包含多噪音過濾引擎；視頻通話包含多噪音過濾API管理服務(wù)器；遠場視頻通話時，通話者遠場聲音和多種噪音源會同時被麥克風陣列接收和錄制，通話者主聲音往往會被多種噪音源淹沒，導致通話質(zhì)量嚴重下降。本發(fā)明使用多噪音過濾引擎，抑制多種噪音源增強通話主體的聲音，進而提高遠場視頻通話的通話質(zhì)量。

附圖說明

下面參照附圖結(jié)合實施例對本發(fā)明作進一步的說明。

圖1為本發(fā)明的系統(tǒng)總體框架圖。

圖2為本發(fā)明視頻通話終端中各模塊的結(jié)構(gòu)示意圖。

圖3為本發(fā)明遠場語音增強系統(tǒng)的過濾噪聲的過程的流程示意圖。

圖4為本發(fā)明視頻通話終端的硬件結(jié)構(gòu)示意圖。

圖5為本發(fā)明方法操作流程示意圖。

具體實施方式

請參閱圖1至圖4所示，一種遠場語音增強的視頻通話系統(tǒng)，所述系統(tǒng)包括：至少兩個視頻通話終端，多噪音過濾處理引擎、以及多噪音過濾API管理服務(wù)器；所述多噪音過濾處理引擎、多噪音過濾API管理服務(wù)器通過通信網(wǎng)與兩個視頻通話終端連接；

一端的視頻通話終端進行遠場視頻通話時，通話者遠場聲音和多種噪音源會同時被視頻通話終端接收和錄制；

多噪音過濾處理引擎對遠場聲音和多種噪音源進行過濾處理；

多噪音過濾API管理服務(wù)器抑制多種噪音源增強通話主體的聲音，

另一端的視頻通話終端再接收經(jīng)過處理后的通話者主體的聲音。

所述視頻通話終端中設(shè)置有硬件驅(qū)動、操作系統(tǒng)模塊、視頻通話中間件模塊、麥克風陣列錄音模塊、原始聲音增強模塊、通話主聲音和噪音源分離模塊、多噪音過濾引擎API、通話主聲音和噪音源合并模塊、視頻通話音視頻打包模塊、視頻通話傳輸模塊；

所述硬件驅(qū)動：設(shè)備包括內(nèi)部或外部硬件模塊，硬件驅(qū)動是硬件模塊的驅(qū)動軟件(網(wǎng)絡(luò)驅(qū)動，麥克風陣列驅(qū)動)，一般在操作系統(tǒng)初始化階段完成初始化；

所述操作系統(tǒng)是設(shè)備硬件和硬件接口的統(tǒng)一接口抽象，操作系統(tǒng)是軟件運行的基礎(chǔ)環(huán)境；

所述視頻通話中間件模塊：具有視頻通話功能基礎(chǔ)功能的軟件包；一般包括：輸入設(shè)備管理(麥克風等)、音視頻預(yù)處理、音視頻編碼、音視頻打包、網(wǎng)絡(luò)傳輸?shù)饶K。視頻通話中間件模塊的運行以操作系統(tǒng)。

所述麥克風陣列錄音模塊：調(diào)用操作系統(tǒng)的麥克風陣列接口，錄制聲音的模塊；

所述原始聲音增強模塊：調(diào)用音頻算法，將錄制的原始聲音增強，即聲音信號的放大處理；

所述通話主聲音和噪音源分離模塊：調(diào)用多噪音過濾引擎API，將增強原始聲音作為輸入，輸出主聲音和噪音源；

所述多噪音過濾引擎API：作用是將增強原始聲音作為輸入，輸出主聲音人聲和噪音源；多噪音過濾引擎API能部署在本地設(shè)備或服務(wù)器上；

所述通話主聲音和噪音源合并模塊：增強主聲音，并抑制噪音源后，再將增強后的主聲音和減弱后的噪音源，合成一個聲音；

所述視頻通話傳輸模塊：TS流按照視頻通話業(yè)務(wù)邏輯在通信網(wǎng)絡(luò)中傳輸。

如圖3所示，在本發(fā)明中，所述遠場語音增強的視頻通話中要關(guān)注數(shù)據(jù)的在各個模塊的輸入和輸出；

遠場聲音輸入，包括：通話語音(Cn)、環(huán)境噪音、回聲噪音、混響噪音和多人聲噪音；

麥克風陣列錄音模塊接收和錄制上述遠場聲音，并輸出數(shù)字信號的聲音；

數(shù)字化的遠場聲音輸入到多噪音過濾處理引擎；

多噪音過濾處理引擎訪問多噪音過濾API管理服務(wù)器獲取多噪音過濾引擎API；

多噪音過濾API管理服務(wù)器管理外部多噪音過濾引擎API；

多噪音過濾處理引擎調(diào)用多噪音過濾引擎API處理數(shù)字化的遠場聲音，處理后得到增強遠場人聲抑制多噪音源的聲音數(shù)據(jù)。

所述多噪音過濾API管理服務(wù)器主要有以下功能：維護多噪音過濾引擎API，管理外部多噪音過濾引擎API，維護外部多噪音過濾引擎API適配內(nèi)部多噪音過濾引擎API；維護多噪音過濾引擎API的更新策略，維護外部多噪音過濾引擎API的管理策略，負責審計多噪音過濾引擎API的服務(wù)質(zhì)量。

如圖5所示，本發(fā)明的所述遠場語音增強的視頻通話操作具體為：一端的視頻通話終端的麥克風陣列錄音模塊接收遠場視頻通話參與者的聲音以及相關(guān)聯(lián)的多種噪音源，視頻通話終端將原始的聲音數(shù)據(jù)通過原始聲音增強模塊做信號放大處理，然后交由本地或在線多噪音過濾處理引擎處理；本地或在線多噪音過濾處理引擎處理首先：通過通話主聲音和噪音源分離模塊分離出通話主體的聲音和多種噪音源；進而通過所述多噪音過濾引擎API增強通話主體的聲音并抑制多種噪音源；進而通過所述通話主聲音和噪音源合并模塊將增強后的通話主體聲音和抑制后的多種噪音源合并，并回傳給視頻通話終端；視頻通話終端將視頻數(shù)據(jù)和處理后的音頻數(shù)據(jù)通過所述視頻通話音視頻打包模塊打包成適合網(wǎng)絡(luò)傳輸?shù)木W(wǎng)絡(luò)包，經(jīng)過視頻通話中間件模塊的視頻通話傳輸模塊將音視頻數(shù)據(jù)傳輸給另一端的視頻通話終端。

另外，本發(fā)明的所述視頻通話終端包含一個或多個處理器，一個內(nèi)存，一個或多個存儲器，一個電源，一個或多個連接器，一個網(wǎng)絡(luò)接口(WIFI/3G/4G)以及一個麥克風陣列；所述視頻通話終端也包含一個操作系統(tǒng)，操作系統(tǒng)包含若干能夠在一個或多個處理器上運行的模塊或應(yīng)用；視頻通話終端能包含待機喚醒模塊，所述處理器、內(nèi)存、存儲器、電源、連接器、網(wǎng)絡(luò)接口、麥克風陣列采用內(nèi)部組件通信的方式互聯(lián)(物理連接，雙向通信，雙向操作)起來；

一個或多個處理器，可以被配置為在遠場視頻通話設(shè)備中執(zhí)行功能或過程指令。一個或多個處理器能夠處理存儲在內(nèi)存或存儲器中指令。這些指令可能用來操作操作硬件模塊，來完成特定的功能或過程。

內(nèi)存是與CPU直接交換數(shù)據(jù)的內(nèi)部存儲器，存儲單元的內(nèi)容可按需隨意取出或存入，且存取的速度與存儲單元的位置無關(guān)的存儲器。內(nèi)存通常作為操作系統(tǒng)或其他正在運行中的程序的臨時數(shù)據(jù)存儲媒介。內(nèi)存是一個臨時存儲介質(zhì)，用于軟件或程序在執(zhí)行過程中，存儲臨時的數(shù)據(jù)或指令。內(nèi)存一般采用RAM或SRAM。

一個或多個存儲器包含一個或多個計算機可讀的存儲介質(zhì)。一個或多個存儲器用于持久化數(shù)據(jù)或信息的存儲。一個或多個存儲器包括非易失性存儲介質(zhì)，比如：硬盤，SSD,Flash,EEPROM等)。

遠場視頻通話設(shè)備可以包含網(wǎng)絡(luò)接口。網(wǎng)絡(luò)接口用于局域網(wǎng)或廣域網(wǎng)通信。WIFI用于局域網(wǎng)通信。3G/4G模塊用于廣域網(wǎng)通信。遠場視頻通話設(shè)備通過網(wǎng)絡(luò)接口可以外部的遠場視頻通話設(shè)備設(shè)備通信(手機/平板/電視/機頂盒/視頻通話服務(wù)器等)

遠場視頻通話設(shè)備可以包含連接器(WIFI網(wǎng)絡(luò)、藍牙連接、全球?qū)Ш叫l(wèi)星系統(tǒng)、FM收音)

遠場視頻通話設(shè)備可以包含電源，電源可能是可充電電池，電池可能是鋰電池，石墨烯或其他合適的材料制成。電源可能包含一個變壓器，能將外部電源轉(zhuǎn)成合適充電的電源。

遠場視頻通話設(shè)備可以包含麥克風陣列，麥克風陣列是將兩個麥克風的信號耦合為一個信號。采用該技術(shù)，能利用兩個麥克風接收到聲波的相位之間的差異對聲波進行過濾，能最大限度將環(huán)境背景聲音濾掉，只剩下需要的聲波。對于在嘈雜的環(huán)境下使用采用了這種配置的設(shè)備，在嘈雜的環(huán)境下能使聽者聽起來很清晰，沒雜音。

遠場視頻通話設(shè)備中，處理器，內(nèi)存，存儲器，電源，連接器是系統(tǒng)運行所需要的最小系統(tǒng)。網(wǎng)絡(luò)接口(WIFI/3G/4G),麥克風陣列是實現(xiàn)遠場視頻通話功能的硬件基礎(chǔ)。

操作系統(tǒng)(Linux和Android)控制遠場視頻通話設(shè)備中硬件模塊的運行。操作系統(tǒng)能將硬件復(fù)雜多變的操作控制封裝在硬件驅(qū)動層。保持操作系統(tǒng)層硬件接口調(diào)用的統(tǒng)一。操作系統(tǒng)是用戶和計算機的接口，同時也是計算機硬件和其他軟件的接口。操作系統(tǒng)的功能包括管理計算機系統(tǒng)的硬件、軟件及數(shù)據(jù)資源，控制程序運行，改善人機界面，為其它應(yīng)用軟件提供支持，讓計算機系統(tǒng)所有資源最大限度地發(fā)揮作用，提供各種形式的用戶界面，使用戶有一個好的工作環(huán)境，為其它軟件的開發(fā)提供必要的服務(wù)和相應(yīng)的接口等。

請參閱圖4和圖5所示，本發(fā)明的一種遠場語音增強的視頻通話方法，所述方法需提供至少兩個視頻通話終端，多噪音過濾處理引擎、以及多噪音過濾API管理服務(wù)器；

所述操作系統(tǒng)是設(shè)備硬件和硬件接口的統(tǒng)一接口抽象，操作系統(tǒng)是軟件運行的基礎(chǔ)環(huán)境；

所述麥克風陣列錄音模塊：調(diào)用操作系統(tǒng)的麥克風陣列接口，錄制聲音的模塊；

所述原始聲音增強模塊：調(diào)用音頻算法，將錄制的原始聲音增強，即聲音信號的放大處理；

所述通話主聲音和噪音源分離模塊：調(diào)用多噪音過濾引擎API，將增強原始聲音作為輸入，輸出主聲音和噪音源；

所述多噪音過濾引擎API：作用是將增強原始聲音作為輸入，輸出主聲音人聲和噪音源；多噪音過濾引擎API能部署在本地設(shè)備或服務(wù)器上；

所述通話主聲音和噪音源合并模塊：增強主聲音，并抑制噪音源后，再將增強后的主聲音和減弱后的噪音源，合成一個聲音；

所述視頻通話傳輸模塊：TS流按照視頻通話業(yè)務(wù)邏輯在通信網(wǎng)絡(luò)中傳輸。

在本發(fā)明中，所述遠場語音增強的視頻通話中要關(guān)注數(shù)據(jù)的在各個模塊的輸入和輸出；

遠場聲音輸入，包括：通話語音(Cn)、環(huán)境噪音、回聲噪音、混響噪音和多人聲噪音；

麥克風陣列錄音模塊接收和錄制上述遠場聲音，并輸出數(shù)字信號的聲音；

數(shù)字化的遠場聲音輸入到多噪音過濾處理引擎；

多噪音過濾處理引擎訪問多噪音過濾API管理服務(wù)器獲取多噪音過濾引擎API；

多噪音過濾API管理服務(wù)器管理外部多噪音過濾引擎API；

多噪音過濾處理引擎調(diào)用多噪音過濾引擎API處理數(shù)字化的遠場聲音，處理后得到增強遠場人聲抑制多噪音源的聲音數(shù)據(jù)。

另外，如圖4所示，本發(fā)明的所述視頻通話終端包含一個或多個處理器，一個內(nèi)存，一個或多個存儲器，一個電源，一個或多個連接器，一個網(wǎng)絡(luò)接口(WIFI/3G/4G)以及一個麥克風陣列；所述視頻通話終端也包含一個操作系統(tǒng)，操作系統(tǒng)包含若干能夠在一個或多個處理器上運行的模塊或應(yīng)用；視頻通話終端能包含待機喚醒模塊，所述處理器、內(nèi)存、存儲器、電源、連接器、網(wǎng)絡(luò)接口、麥克風陣列采用內(nèi)部組件通信的方式互聯(lián)(物理連接，雙向通信，雙向操作)起來；

遠場視頻通話設(shè)備可以包含連接器(WIFI網(wǎng)絡(luò)、藍牙連接、全球?qū)Ш叫l(wèi)星系統(tǒng)、FM收音)

雖然以上描述了本發(fā)明的具體實施方式，但是熟悉本技術(shù)領(lǐng)域的技術(shù)人員應(yīng)當理解，我們所描述的具體的實施例只是說明性的，而不是用于對本發(fā)明的范圍的限定，熟悉本領(lǐng)域的技術(shù)人員在依照本發(fā)明的精神所作的等效的修飾以及變化，都應(yīng)當涵蓋在本發(fā)明的權(quán)利要求所保護的范圍內(nèi)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：洪濤;孫銘俊
技術(shù)所有人：福州瑞芯微電子股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

遠場語音識別相關(guān)技術(shù)

遠場語音交互相關(guān)技術(shù)

遠場語音相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種遠場語音增強的視頻通話方法與系統(tǒng)與流程