一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)及方法與流程

文檔序號(hào)：12609280閱讀：382來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音信號(hào)處理領(lǐng)域，特別是一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)。
背景技術(shù)：
：通話(huà)設(shè)備在實(shí)際使用環(huán)境中容易受到背景噪音和混響等干擾，使語(yǔ)音信號(hào)的質(zhì)量和可懂度受到影響，因此在許多通話(huà)應(yīng)用中都需要進(jìn)行有效的語(yǔ)音增強(qiáng)處理，以抑制噪聲，提高語(yǔ)音清晰度、可懂度和舒適度。目前常用的語(yǔ)音增強(qiáng)方法主要包括兩類(lèi)，一類(lèi)是基于單麥克風(fēng)的語(yǔ)音增強(qiáng)方法，包括譜減法、維納濾波、MMSE、卡爾曼濾波、小波變換等，這類(lèi)方法利用單麥克風(fēng)接收語(yǔ)音信號(hào)，通過(guò)時(shí)域、頻域、小波變換域等濾波和處理來(lái)抑制噪聲，提高語(yǔ)音的質(zhì)量；另一類(lèi)是基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)方法，利用多個(gè)麥克風(fēng)接收到的語(yǔ)音信號(hào)里包含的空間相位信息對(duì)輸入語(yǔ)音進(jìn)行空間濾波，形成具有指向性的空間波束，對(duì)指定方向上的語(yǔ)音信號(hào)進(jìn)行增強(qiáng)，能取得比單麥克風(fēng)更好的增強(qiáng)效果?，F(xiàn)有的麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)可以大致分為固定波束形成法、自適應(yīng)波束形成法、后置濾波法三類(lèi)。固定波束形成法采用延遲相加進(jìn)行時(shí)延補(bǔ)償且濾波器的權(quán)值固定不變，具有運(yùn)算量低，容易實(shí)現(xiàn)等優(yōu)點(diǎn)，但不具備自適應(yīng)抑制強(qiáng)干擾的能力。自適應(yīng)波束形成法中，濾波器系數(shù)隨著輸入信號(hào)統(tǒng)計(jì)特性的變化而變化，使波束方向零陷對(duì)準(zhǔn)噪聲方向，而注視方向上信號(hào)的頻率響應(yīng)固定不變，以此來(lái)抑制其它方向上的干擾噪聲。后置濾波法根據(jù)各信道接收信號(hào)間的自相關(guān)和互相關(guān)特性調(diào)整維納濾波器的系數(shù)，含噪的語(yǔ)音信號(hào)經(jīng)過(guò)維納濾波后得到最小均方誤差準(zhǔn)則下的目標(biāo)語(yǔ)音估計(jì)信號(hào)，可以在不相關(guān)噪聲的環(huán)境下以較少的麥克風(fēng)數(shù)目獲得較好的消噪性能。但現(xiàn)有的麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)均基于空氣傳導(dǎo)的語(yǔ)音傳感器，在實(shí)際應(yīng)用中存在著以下的不足：(1)當(dāng)環(huán)境噪聲較強(qiáng)時(shí)，輸出的語(yǔ)音質(zhì)量不高；(2)當(dāng)使用環(huán)境中存在多個(gè)聲源時(shí)，麥克風(fēng)陣列的來(lái)波方向估計(jì)容易出現(xiàn)錯(cuò)誤判斷；(3)當(dāng)使用環(huán)境中存在多個(gè)聲源時(shí)，傳統(tǒng)的來(lái)波方向估計(jì)通常選擇聲音最強(qiáng)的聲源信號(hào)進(jìn)行增強(qiáng)，不方便使用者指定某個(gè)聲源進(jìn)行監(jiān)聽(tīng)。技術(shù)實(shí)現(xiàn)要素：針對(duì)現(xiàn)有麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)的不足，本發(fā)明提供一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)及方法，該系統(tǒng)利用音頻和視頻信息受噪聲影響方式的不同，將視頻信息用于提高麥克風(fēng)陣列來(lái)波方向估計(jì)準(zhǔn)確度和麥克風(fēng)陣列增強(qiáng)語(yǔ)音的質(zhì)量，能顯著提高現(xiàn)有麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)的性能，可以廣泛應(yīng)用于視頻會(huì)議、車(chē)載電話(huà)、移動(dòng)視頻通話(huà)終端等場(chǎng)合。本發(fā)明的目的至少通過(guò)如下技術(shù)方案之一實(shí)現(xiàn)。一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)，其包括視頻采集模塊、麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊和音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊，其中視頻采集模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接，用于采集應(yīng)用場(chǎng)景中說(shuō)話(huà)人的視頻信號(hào)；麥克風(fēng)陣列接收模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，用于接收說(shuō)話(huà)人的音頻信號(hào)；音視頻來(lái)波方向聯(lián)合估計(jì)模塊與視頻采集模塊、麥克風(fēng)陣列接收模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，利用音視頻信息聯(lián)合估計(jì)說(shuō)話(huà)人音頻的來(lái)波方向；麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊與麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接，利用麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)；音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊與視頻采集模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，利用經(jīng)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊增強(qiáng)后的語(yǔ)音和視頻采集模塊輸出的視頻信號(hào)聯(lián)合對(duì)語(yǔ)音進(jìn)行二次增強(qiáng)處理。進(jìn)一步地，所述音視頻來(lái)波方向聯(lián)合估計(jì)模塊包括視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和音視頻定位信息融合模塊，其中視頻聲源定位模塊與音視頻定位信息融合模塊、上述視頻采集模塊連接，根據(jù)視頻信號(hào)估計(jì)說(shuō)話(huà)人在視頻畫(huà)面中的位置；麥克風(fēng)陣列聲源定位模塊與音視頻定位信息融合模塊、上述麥克風(fēng)陣列接收模塊連接，根據(jù)麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向；音視頻定位信息融合模塊與視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，由視頻定位信息與麥克風(fēng)陣列聲源定位信息估計(jì)當(dāng)前說(shuō)話(huà)人語(yǔ)音的來(lái)波方向。進(jìn)一步地，所述音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊包括噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊和濾波模塊，其中噪聲估計(jì)模塊與最佳濾波器系數(shù)生成模塊、所述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，用于估計(jì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音中的噪聲頻譜；音視頻聯(lián)合分類(lèi)模塊與音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、上述視頻采集模塊、所述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，根據(jù)說(shuō)話(huà)人產(chǎn)生的視頻和音頻信號(hào)對(duì)當(dāng)前語(yǔ)音幀進(jìn)行分類(lèi)；音視頻聯(lián)合模型庫(kù)與音視頻聯(lián)合分類(lèi)模塊連接，用于保存音視頻聯(lián)合分類(lèi)的模型；最佳濾波器系數(shù)生成模塊與噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、濾波模塊連接，根據(jù)音視頻聯(lián)合分類(lèi)模塊的分類(lèi)結(jié)果和噪聲計(jì)算當(dāng)前語(yǔ)音幀的最佳濾波器系數(shù)；濾波模塊與最佳濾波器系數(shù)生成模塊、所述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，用于對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音進(jìn)行濾波增強(qiáng)。利用所述的一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法，包括以下步驟：步驟1：通過(guò)視頻采集模塊、麥克風(fēng)陣列接收模塊同步采集視頻和音頻信號(hào)；步驟2：音視頻來(lái)波方向聯(lián)合估計(jì)模塊根據(jù)步驟1采集得到的同步音視頻信號(hào)估計(jì)說(shuō)話(huà)人音頻的來(lái)波方向；步驟3：麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊根據(jù)說(shuō)話(huà)人音頻的來(lái)波方向，對(duì)麥克風(fēng)陣列接收模塊采集到的音頻信號(hào)進(jìn)行增強(qiáng)；步驟4：將步驟3中麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)與步驟1中視頻采集模塊采集的視頻信號(hào)進(jìn)行同步，并通過(guò)音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)。進(jìn)一步地，步驟2中，音視頻來(lái)波方向聯(lián)合估計(jì)模塊采用以下步驟估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向：步驟2.1：根據(jù)視頻采集模塊和麥克風(fēng)陣列接收模塊的相對(duì)位置，確定視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系；步驟2.2：通過(guò)視頻聲源定位模塊估計(jì)說(shuō)話(huà)人唇部在視頻畫(huà)面中的位置，在音視頻定位信息融合模塊中將其映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)，其中θlc為方位角，φl(shuí)c為仰視角；步驟2.3：通過(guò)麥克風(fēng)陣列聲源定位模塊確定當(dāng)前所有聲源的來(lái)波方向(θi,φi)，其中0≤i≤I-1，I為所確定的聲源個(gè)數(shù)；在音視頻定位信息融合模塊中，選擇與(θlc,φl(shuí)c)差異最小的(θi,φi)作為需監(jiān)聽(tīng)的說(shuō)話(huà)人音頻的來(lái)波方向。進(jìn)一步地，步驟2.2采用以下步驟實(shí)現(xiàn)：步驟2.2.1：利用人臉資源庫(kù)建立人臉膚色模型；步驟2.2.2：根據(jù)步驟2.2.1中的人臉膚色模型，分割出視頻畫(huà)面中的人臉區(qū)域，并對(duì)人臉中的唇部進(jìn)行定位，得到視頻畫(huà)面中說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)；步驟2.2.3：根據(jù)步驟2.1得到的視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系，將說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)。進(jìn)一步地，步驟2中，當(dāng)視頻中檢測(cè)不到說(shuō)話(huà)人時(shí)，采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向；步驟2中，若存在多個(gè)說(shuō)話(huà)人，由使用者在視頻畫(huà)面上指定需監(jiān)聽(tīng)的說(shuō)話(huà)人；步驟2中，當(dāng)使用者未指定說(shuō)話(huà)人時(shí)，采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向。進(jìn)一步地，步驟4中，音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊采用以下方法對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)：步驟4.1：同步采集說(shuō)話(huà)人干凈的視頻信號(hào)和語(yǔ)音信號(hào)并分幀，提取每幀的音視頻聯(lián)合特征，訓(xùn)練音視頻聯(lián)合分類(lèi)模型，并保存每一分類(lèi)的語(yǔ)音頻譜均值；步驟4.2：噪聲估計(jì)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行端點(diǎn)檢測(cè)，提取其中的純?cè)肼曇纛l片段，計(jì)算噪聲的線(xiàn)性頻譜均值；步驟4.3：音視頻聯(lián)合分類(lèi)模塊將視頻采集模塊采集的視頻信號(hào)和麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行同步和分幀，提取每幀的音視頻聯(lián)合特征，并利用步驟4.1中得到的音視頻聯(lián)合分類(lèi)模型，計(jì)算當(dāng)前音視頻幀屬于各分類(lèi)的得分；步驟4.4：最佳濾波器系數(shù)生成模塊采用式(1)或式(2)構(gòu)造當(dāng)前語(yǔ)音幀的最佳維納濾波器：G(z)=Σi=1Kmax{p(m|z)}(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(1)]]>G(z)=Σm=1MΣi=1Kp(m|z)(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(2)]]>其中p(m|z)為步驟4.3中得到的音視頻聯(lián)合特征z對(duì)音視頻聯(lián)合分類(lèi)模型中第m分類(lèi)的得分，K為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)的均值矢量維數(shù)，M是音視頻聯(lián)合分類(lèi)模型的混合分量數(shù)，為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)對(duì)應(yīng)的干凈語(yǔ)音頻譜均值矢量的第i個(gè)分量，為說(shuō)話(huà)人語(yǔ)音經(jīng)麥克風(fēng)陣列增強(qiáng)后殘留噪聲的線(xiàn)性頻譜均值矢量的第i個(gè)分量；步驟4.5：濾波模塊采用步驟4.4得到的最佳維納濾波器對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻進(jìn)行濾波，得到濾波增強(qiáng)后的語(yǔ)音信號(hào)。進(jìn)一步地，步驟4.1中音視頻聯(lián)合分類(lèi)模型采用高斯混合模型或者隱馬爾科夫模型。進(jìn)一步地，步驟4.3中，音視頻聯(lián)合特征屬于各分類(lèi)的得分采用以下方法計(jì)算：對(duì)于每幀音視頻聯(lián)合特征，估計(jì)其每個(gè)特征分量的可靠性，并采用下式計(jì)算相對(duì)于聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的邊緣概率pm(zr)：pm(zr)=∫-∞+∞p(z|λm)dzu---(3)]]>上式中λm是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的模型參數(shù)，p(z|λm)是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的概率密度函數(shù)；其中xr、yr分別為視頻特征x和音頻特征y中可靠性大于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量，xu、yu分別為視頻特征x和音頻特征y中可靠性小于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量；音視頻聯(lián)合特征每個(gè)特征分量的可靠性采用以下方法計(jì)算：估計(jì)每個(gè)特征分量的信噪比，當(dāng)信噪比小于預(yù)設(shè)閾值時(shí)，該特征分量的可靠性為0，否則該特征分量的可靠性為1；步驟4.4中，p(m|z)＝pm(zr)。與現(xiàn)有技術(shù)相比，本發(fā)明的有益之處有：(1)本發(fā)明采用了兩級(jí)增強(qiáng)的結(jié)構(gòu)，對(duì)麥克風(fēng)陣列增強(qiáng)后的說(shuō)話(huà)人語(yǔ)音進(jìn)行了二次增強(qiáng)，并在兩級(jí)增強(qiáng)系統(tǒng)中充分地利用視頻和音頻信息，因此能有效地減少環(huán)境噪聲的影響，顯著提高系統(tǒng)的抗噪聲性能。(2)本發(fā)明同時(shí)使用音頻和視頻信息來(lái)確定說(shuō)話(huà)人語(yǔ)音的來(lái)波方向，即使使用環(huán)境中存在多個(gè)聲源時(shí)，也能保證來(lái)波方向估計(jì)的準(zhǔn)確性，避免了傳統(tǒng)麥克風(fēng)陣列來(lái)波方向估計(jì)出現(xiàn)聲源誤判的不足。(3)使用者可以方便地通過(guò)視頻畫(huà)面指定需監(jiān)聽(tīng)的說(shuō)話(huà)人，克服了傳統(tǒng)麥克風(fēng)陣列難以指定目標(biāo)說(shuō)話(huà)人的不足。附圖說(shuō)明圖1為本發(fā)明實(shí)施例系統(tǒng)結(jié)構(gòu)框圖；圖2為本發(fā)明實(shí)施例中麥克風(fēng)陣列與視頻采集裝置位置關(guān)系的示意圖；圖3為本發(fā)明實(shí)施例中音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法的流程圖；圖4為本發(fā)明實(shí)施例中來(lái)波方向聯(lián)合估計(jì)的流程圖。圖5為本發(fā)明實(shí)施例中對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)的流程圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的具體實(shí)施步驟作進(jìn)一步的說(shuō)明，但本發(fā)明的實(shí)施方式不限于此。本發(fā)明實(shí)施例的系統(tǒng)結(jié)構(gòu)如圖1所示，由視頻采集模塊、麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊共同構(gòu)成，其中視頻采集模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接，用于采集應(yīng)用場(chǎng)景中說(shuō)話(huà)人的視頻信號(hào)；麥克風(fēng)陣列接收模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，用于接收說(shuō)話(huà)人的音頻信號(hào)；音視頻來(lái)波方向聯(lián)合估計(jì)模塊與視頻采集模塊、麥克風(fēng)陣列接收模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，利用音視頻信息聯(lián)合估計(jì)說(shuō)話(huà)人音頻的來(lái)波方向；麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊與麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接，利用麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)；音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊與視頻采集模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，利用經(jīng)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊增強(qiáng)后的語(yǔ)音和視頻采集模塊輸出的視頻信號(hào)聯(lián)合對(duì)語(yǔ)音進(jìn)行二次增強(qiáng)處理。上述實(shí)施例中，視頻采集模塊采用攝像頭來(lái)實(shí)現(xiàn)，麥克風(fēng)陣列接收模塊由6個(gè)麥克風(fēng)m1，m2，m3，m4，m5，m6及相應(yīng)的放大電路和A/D轉(zhuǎn)換電路構(gòu)成，麥克風(fēng)與攝像頭的安裝位置如圖2所示，其中攝像頭C位于原點(diǎn)，其光軸與x軸重合，麥克風(fēng)m1，m4位于x軸，m2，m5位于y軸，m3，m6位于z軸，均以原點(diǎn)為對(duì)稱(chēng)中心。音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊由CPU或嵌入式芯片及相應(yīng)的外圍電路構(gòu)成，音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊還包含D/A轉(zhuǎn)換及放大驅(qū)動(dòng)電路。上述音視頻來(lái)波方向聯(lián)合估計(jì)模塊，由視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和音視頻定位信息融合模塊共同構(gòu)成，其中視頻聲源定位模塊與音視頻定位信息融合模塊、上述視頻采集模塊連接，根據(jù)視頻信號(hào)估計(jì)說(shuō)話(huà)人在視頻畫(huà)面中的位置；麥克風(fēng)陣列聲源定位模塊與音視頻定位信息融合模塊、上述麥克風(fēng)陣列接收模塊連接，根據(jù)麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向；音視頻定位信息融合模塊與視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，由視頻定位信息與麥克風(fēng)陣列聲源定位信息估計(jì)當(dāng)前說(shuō)話(huà)人語(yǔ)音的來(lái)波方向。上述實(shí)施例中，視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和音視頻定位信息融合模塊在CPU或嵌入式芯片中用軟件來(lái)實(shí)現(xiàn)。上述音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊，由噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、濾波模塊共同構(gòu)成，其中噪聲估計(jì)模塊與最佳濾波器系數(shù)生成模塊、上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，用于估計(jì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音中的噪聲頻譜；音視頻聯(lián)合分類(lèi)模塊與音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、上述視頻采集模塊、上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，根據(jù)說(shuō)話(huà)人產(chǎn)生的視頻和音頻信號(hào)對(duì)當(dāng)前語(yǔ)音幀進(jìn)行分類(lèi)；音視頻聯(lián)合模型庫(kù)與音視頻聯(lián)合分類(lèi)模塊連接，用于保存音視頻聯(lián)合分類(lèi)的模型；最佳濾波器系數(shù)生成模塊與噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、濾波模塊連接，根據(jù)音視頻聯(lián)合分類(lèi)模塊的分類(lèi)結(jié)果和噪聲計(jì)算當(dāng)前語(yǔ)音幀的最佳濾波器系數(shù)；濾波模塊與最佳濾波器系數(shù)生成模塊、上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接，用于對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音進(jìn)行濾波增強(qiáng)。上述實(shí)施例中，噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、濾波模塊在CPU或嵌入式芯片中用軟件來(lái)實(shí)現(xiàn)。本發(fā)明提供的音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)，采用以下方法對(duì)輸入的語(yǔ)音進(jìn)行增強(qiáng)，其流程如圖3所示：步驟1：通過(guò)視頻采集模塊、麥克風(fēng)陣列接收模塊同步采集視頻和音頻信號(hào)。上述實(shí)施例中，麥克風(fēng)陣列接收模塊通過(guò)每一個(gè)麥克風(fēng)采集到說(shuō)話(huà)人的多通道語(yǔ)音信號(hào)，同時(shí)視頻采集模塊利用攝像頭對(duì)前方連續(xù)拍攝，作為視頻輸入信號(hào)。步驟2：音視頻來(lái)波方向聯(lián)合估計(jì)模塊根據(jù)步驟1采集得到的同步音視頻信號(hào)估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向，具體又可以分為以下幾步，流程如圖4所示：步驟2.1：根據(jù)視頻采集模塊和麥克風(fēng)陣列接收模塊的相對(duì)位置，確定視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系。上述實(shí)施例中，如圖2所示，以攝像頭C為空間坐標(biāo)系原點(diǎn)O建立空間坐標(biāo)系Oxyz，攝像頭C的焦距為f，攝像頭成像的像素平面大小為Px×Py，成像中心的像素坐標(biāo)為(xc,yc)，水平方向和垂直方向單位距離上的像素點(diǎn)數(shù)分別是Wx和Wy。若聲源s的方位角為θ，仰視角為φ，視頻畫(huà)面中的說(shuō)話(huà)人唇部中心位置與成像中心的水平距離為dx，垂直距離為dy，即說(shuō)話(huà)人唇部中心在成像平面的像素坐標(biāo)為(xc+dx,yc+dy)，則視頻畫(huà)面中說(shuō)話(huà)人唇部中心位置與麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)的映射關(guān)系為：θlc=arctan(Px·dxf·Wx)---(4)]]>φlc=arctan(Py·dyf·Wycosθlc)---(5)]]>在其他的一些實(shí)施例中，根據(jù)視頻采集模塊和麥克風(fēng)陣列接收模塊擺放位置的不同，上述視頻畫(huà)面中說(shuō)話(huà)人唇部中心位置與麥克風(fēng)陣列的來(lái)波方向具有不同的映射關(guān)系。步驟2.2：通過(guò)視頻聲源定位模塊估計(jì)說(shuō)話(huà)人唇部在視頻畫(huà)面中的位置，在音視頻定位信息融合模塊中將其映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)，其中θlc為方位角，φl(shuí)c為仰視角。上述實(shí)例中，首先通過(guò)建立高斯人臉膚色模型來(lái)對(duì)視頻畫(huà)面中說(shuō)話(huà)人臉部區(qū)域進(jìn)行檢測(cè)定位，然后根據(jù)定位到的說(shuō)話(huà)人人臉位置，采用自適應(yīng)色度濾波算法對(duì)說(shuō)話(huà)人唇部中心位置進(jìn)行定位，具體采用以下步驟實(shí)現(xiàn)：步驟2.2.1：利用人臉資源庫(kù)建立人臉膚色模型。上述實(shí)施例中，在人臉圖像庫(kù)中選取J幅人臉彩色圖像，預(yù)處理后保留人臉區(qū)域，然后將其每個(gè)像素點(diǎn)從RGB顏色空間分別用式(6)和式(7)投影到Y(jié)CbCr顏色空間和chromatic顏色空間YCbCr=10.9560.6211-0.272-0.6471-1.106-1.703RGB---(6)]]>r=R/(R+G+B)g=G/(R+G+B)---(7)]]>采用高斯模型對(duì)矢量t＝[Cb,Cr,r,g]T進(jìn)行建模，其概率密度函數(shù)為：p(t)＝exp{-0.5(t-μ)T∑-1(t-μ)}(8)上式中均值μ和方差矩陣∑為：μ＝[μCb,μCr,μr,μg]T(9)Σ=ΣCbrΣCbrΣCbrΣrgΣrgΣCbrΣrgΣrg---(10)]]>其中Kj為第j幅人臉圖像中像素點(diǎn)的數(shù)目，Cbjk、Crjk、rjk、gjk分別為第j幅人臉圖像中第k個(gè)像素點(diǎn)Cb、Cr、r、g的值，∑(*)是顏色空間元素(*)的方差(矩陣)。步驟2.2.2：根據(jù)步驟2.2.1中的人臉膚色模型，分割出視頻畫(huà)面中的人臉區(qū)域，并對(duì)人臉中的唇部進(jìn)行定位，得到視頻畫(huà)面中說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)。上述實(shí)施例中，將待檢測(cè)的視頻畫(huà)面中的第k個(gè)像素點(diǎn)在聯(lián)合顏色空間上表示為tk＝[Cbk,Crk,rk,gk]T，根據(jù)步驟2.2.1中的高斯人臉膚色模型可以計(jì)算得到該像素點(diǎn)屬于人臉膚色的概率為：p(tk)＝exp{-0.5(tk-μ)T∑-1(tk-μ)}(11)若p(tk)>δ，其中δ為預(yù)設(shè)的閾值，則判斷該像素點(diǎn)位于人臉區(qū)域，否則該像素點(diǎn)為非人臉區(qū)域，由此將待檢測(cè)視頻畫(huà)面中的人臉區(qū)域分割出來(lái)。得到人臉的位置信息后，采用自適應(yīng)色度濾波算法對(duì)說(shuō)話(huà)人唇部中心位置進(jìn)行定位，得到視頻畫(huà)面中說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)。步驟2.2.3：根據(jù)步驟2.1得到的視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系，將說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)。上述實(shí)施例中，根據(jù)式(4)和式(5)將(xlc,ylc)映射為(θlc,φl(shuí)c)。步驟2.3：通過(guò)麥克風(fēng)陣列聲源定位模塊確定當(dāng)前所有聲源的來(lái)波方向(θi,φi)，其中0≤i≤I-1，I為所確定的聲源個(gè)數(shù)。在音視頻定位信息融合模塊中，選擇與(θlc,φl(shuí)c)差異最小的(θi,φi)作為需監(jiān)聽(tīng)的說(shuō)話(huà)人音頻的來(lái)波方向。上述實(shí)例中，空間存在I個(gè)聲源，空間噪聲為零均值且與信號(hào)相互獨(dú)立的高斯白噪聲，麥克風(fēng)陣列聲源定位模塊采用三維MUSIC近場(chǎng)聲源識(shí)別算法來(lái)確定當(dāng)前所有聲源的來(lái)波方向。如圖2所示，將坐標(biāo)系原點(diǎn)O(0,0,0)設(shè)為麥克風(fēng)陣列的參考點(diǎn)，聲源si(1≤i≤I)的空間坐標(biāo)為(li,θi,π-φi)，聲源si與第j個(gè)麥克風(fēng)的距離為lij(j＝1～6)，則麥克風(fēng)接收的信號(hào)為：X＝AS+N(12)其中S為聲源信號(hào)矩陣，N為噪聲信號(hào)矩陣，A為陣列方向矩陣，A每個(gè)元素可以表示為是聲音從si到達(dá)陣列參考點(diǎn)O(0,0,0)與到達(dá)第j個(gè)麥克風(fēng)之間的時(shí)間差，c＝340m/s是聲音的傳播速度。計(jì)算麥克風(fēng)接收信號(hào)X的協(xié)方差，然后對(duì)所得協(xié)方差矩陣進(jìn)行分解可得到信號(hào)子空間Us和噪聲子空間UN：R＝Us∑sUsH+UN∑NUNH(13)計(jì)算PMUSIC=∂iH∂i1LΣj=1Lwj||δjHUN||2---(14)]]>其中為信號(hào)的方向向量，L為對(duì)空間譜加窗的長(zhǎng)度，wj是第j個(gè)頻率點(diǎn)的權(quán)重，實(shí)施例中聲源信號(hào)的頻率特性未知，wj設(shè)置為1。PMUSIC取得極大值時(shí)所對(duì)應(yīng)的(li,θi,φi)即為當(dāng)前聲源si的位置，(θi,φi)為聲源si的來(lái)波方向。得到所有聲源的來(lái)波方向后，采用下式計(jì)算所有(θi,φi)與(θlc,φl(shuí)c)的距離，di=(θi-θlc)2+(φi-φc)2---(15)]]>令di最小的(θi,φi)即為當(dāng)前指定說(shuō)話(huà)人相對(duì)于麥克風(fēng)陣列的來(lái)波方向。上述步驟2中，當(dāng)視頻中檢測(cè)不到說(shuō)話(huà)人時(shí)，采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向。上述步驟2中，若存在多個(gè)說(shuō)話(huà)人，由使用者在視頻畫(huà)面上指定需監(jiān)聽(tīng)的說(shuō)話(huà)人，攝像機(jī)對(duì)說(shuō)話(huà)人進(jìn)行跟蹤，獲取指定檢測(cè)的說(shuō)話(huà)人臉部及唇部定位信息。上述步驟2中，當(dāng)使用者未指定說(shuō)話(huà)人時(shí)，采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向。步驟3：麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊根據(jù)說(shuō)話(huà)人音頻的來(lái)波方向，對(duì)麥克風(fēng)陣列接收模塊采集到的音頻信號(hào)進(jìn)行增強(qiáng)。上述實(shí)施例中，麥克風(fēng)陣列m1、m2、m3、m4、m5、m6采集到的待檢測(cè)語(yǔ)音信號(hào)為S＝{x1,x2,x3,x4,x5,x6}，麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊采用廣義旁瓣抵消器(GSC)算法對(duì)麥克風(fēng)接收到的音頻信號(hào)進(jìn)行陣列增強(qiáng)。廣義旁瓣抵消器由延時(shí)-累加波束形成器、阻塞矩陣和噪聲抵消器組成。輸入的語(yǔ)音信號(hào)分為上下兩條支路進(jìn)行處理，其中上支路中利用延時(shí)-累加波束形成器對(duì)陣列的輸入語(yǔ)音在來(lái)波方向進(jìn)行增強(qiáng)，并抑制其他方向的干擾噪聲，其輸出為：yc＝ATS(16)其中A＝C(CHC)-1F為權(quán)系數(shù)向量，C為約束矩陣，F(xiàn)為對(duì)應(yīng)的約束響應(yīng)向量。下支路包含阻塞矩陣和噪聲抵消器，首先通過(guò)構(gòu)造一個(gè)秩r(B)≤3的阻塞矩陣B來(lái)濾除期望信號(hào)，其輸出為干擾和噪聲的組合N：N＝BS(17)然后噪聲抵消器根據(jù)N估算出延時(shí)-累加波束形成器輸出信號(hào)中的噪聲信號(hào)yn：yn＝WTN(18)根據(jù)式(16)和式(18)可以計(jì)算得到干凈語(yǔ)音信號(hào)的估計(jì)值ye：ye＝y(tǒng)c-yn(19)式(18)中WT＝[w1,w2,...,w6]T為權(quán)重矢量，采用下式進(jìn)行調(diào)整，式中i為迭代步數(shù)：Wi+1=Wi+ye||N||2N---(20)]]>步驟4：將步驟3中麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)與步驟1中視頻采集模塊采集的視頻信號(hào)進(jìn)行同步，并通過(guò)音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)。上述步驟4中，音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊采用以下方法對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)，其流程如圖5所示：步驟4.1：同步采集說(shuō)話(huà)人干凈的視頻信號(hào)和語(yǔ)音信號(hào)并分幀，提取每幀的音視頻聯(lián)合特征，訓(xùn)練音視頻聯(lián)合分類(lèi)模型，并保存每一分類(lèi)的語(yǔ)音頻譜均值。上述實(shí)施例中，同步采集1000段不同說(shuō)話(huà)人干凈的音頻信號(hào)和視頻信號(hào)，然后分別提取每一幀音頻信號(hào)的mfcc參數(shù)，將音頻信號(hào)幀的mfcc特征矢量序列記為x，用活動(dòng)形狀模型提取視頻信號(hào)幀中說(shuō)話(huà)人的唇部幾何信息，再加上圖像灰度外觀特征構(gòu)成唇部特征序列，記為y，將第h幀音頻信號(hào)特征矢量和第h幀唇部特征矢量進(jìn)行拼接，得到第h幀音視頻聯(lián)合特征矢量為由此得到聯(lián)合模型庫(kù)的訓(xùn)練數(shù)據(jù)集。獲得訓(xùn)練數(shù)據(jù)集后，采用混合高斯模型(GMM)來(lái)擬合音視頻聯(lián)合特征矢量的概率分布，令Z＝{z1,z2,...,zn}表示訓(xùn)練用的音視頻聯(lián)合特征矢量集合，則混合高斯模型聯(lián)合概率密度函數(shù)為：其中M是GMM中的混合分量數(shù)，πm是模型混合分量先驗(yàn)權(quán)重，1≤m≤M，且πm≥0，μm和∑m分別表示混合高斯模型第m分量的均值矢量和方差矩陣，混合高斯模型每一混合分量概率密度函數(shù)為單高斯函數(shù)，代表一個(gè)分類(lèi)。令λ＝{(πm,μm,∑m)|1≤m≤M}表示混合高斯模型的參數(shù)集，采用最大期望算法求出λ的最大似然估計(jì)。建立音視頻聯(lián)合分類(lèi)模型后，計(jì)算該模型中屬于每一分類(lèi)的所有干凈音頻幀的頻譜均值保存在音視頻聯(lián)合模型庫(kù)中。在另外一些實(shí)施例中，采用隱馬爾科夫模型作為聯(lián)合統(tǒng)計(jì)模型，并以隱馬爾科夫模型中的每個(gè)混合高斯分量表示一個(gè)分類(lèi)。步驟4.2：噪聲估計(jì)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行端點(diǎn)檢測(cè)，提取其中的純?cè)肼曇纛l片段，計(jì)算噪聲的線(xiàn)性頻譜均值；上述實(shí)施例中，經(jīng)麥克風(fēng)陣列獲取增強(qiáng)語(yǔ)音后，噪聲估計(jì)模塊對(duì)其進(jìn)行分幀，然后根據(jù)每幀的短時(shí)自相關(guān)函數(shù)Rw(τ)和短時(shí)能量Ew，計(jì)算每幀陣列增強(qiáng)語(yǔ)音的短時(shí)平均過(guò)門(mén)限率Cw(n)：Cw(n)=Στ=n-Nw+1n{|sgn[Rw(τ)-αT]-sgn[Rw(τ-1)-αT]|+|sgn[Rw(τ)+αT]-sgn[Rw(τ-1)+αT]|}w(n-τ)---(22)]]>其中sgn[·]為取符號(hào)運(yùn)算，是調(diào)節(jié)因子，w(n)是矩形窗函數(shù)，Nw為其窗長(zhǎng)，τ是時(shí)延，T是門(mén)限初值。當(dāng)Cw(n)大于預(yù)設(shè)的門(mén)限值時(shí)，判斷該幀為語(yǔ)音，否則為噪聲信號(hào)。根據(jù)每幀的判決結(jié)果得到陣列增強(qiáng)語(yǔ)音的端點(diǎn)位置。提取麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)中的純?cè)肼曇纛l片段，計(jì)算并保存其線(xiàn)性頻譜均值作為經(jīng)麥克風(fēng)陣列增強(qiáng)后的說(shuō)話(huà)人語(yǔ)音殘留噪聲的幅度均值參數(shù)。步驟4.3：音視頻聯(lián)合分類(lèi)模塊將視頻采集模塊采集的視頻信號(hào)和麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行同步和分幀，提取每幀的音視頻聯(lián)合特征，并利用步驟4.1中得到的音視頻聯(lián)合分類(lèi)模型，計(jì)算當(dāng)前音視頻幀屬于各分類(lèi)的得分。上述實(shí)施例中，采用與步驟4.1相同的方法對(duì)視頻采集模塊采集的視頻信號(hào)和麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行同步和分幀，并提取每幀的音視頻聯(lián)合特征。對(duì)于每幀音視頻聯(lián)合特征，采用以下方法計(jì)算其屬于各分類(lèi)的得分：估計(jì)當(dāng)前音視頻聯(lián)合特征中每個(gè)特征分量的可靠性，并采用下式計(jì)算相對(duì)于聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的邊緣概率pm(zr)：pm(zr)=∫-∞+∞p(z|λm)dzu---(23)]]>上式中λm是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的模型參數(shù)，p(z|λm)是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的概率密度函數(shù)；其中xr、yr分別為視頻特征x和音頻特征y中可靠性大于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量，xu、yu分別為視頻特征x和音頻特征y中可靠性小于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量。上述音視頻聯(lián)合特征中每個(gè)特征分量的可靠性采用以下方法計(jì)算：估計(jì)每個(gè)特征分量的信噪比，當(dāng)信噪比小于預(yù)設(shè)閾值時(shí)，該特征分量的可靠性為0，否則該特征分量的可靠性為1。步驟4.4：最佳濾波器系數(shù)生成模塊根據(jù)步驟4.3的分類(lèi)結(jié)果，構(gòu)造當(dāng)前語(yǔ)音幀的最佳維納濾波器。上述實(shí)施例中，根據(jù)步驟4.2估計(jì)的噪聲線(xiàn)性頻譜均值和步驟4.1音視頻聯(lián)合模型庫(kù)中存儲(chǔ)的每個(gè)分類(lèi)模型對(duì)應(yīng)的干凈語(yǔ)音頻譜均值以及音視頻聯(lián)合特征z對(duì)音視頻聯(lián)合分類(lèi)模型中第m個(gè)分類(lèi)的得分p(m|z)，計(jì)算當(dāng)前語(yǔ)音幀最佳濾波器的頻域增益函數(shù)：G(z)=Σi=1Kmax{p(m|z)}(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(24)]]>其中K為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)的均值矢量維數(shù)，M是音視頻聯(lián)合分類(lèi)模型的混合分量數(shù)，為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)對(duì)應(yīng)的干凈語(yǔ)音頻譜均值矢量的第i個(gè)分量，為說(shuō)話(huà)人語(yǔ)音經(jīng)麥克風(fēng)陣列增強(qiáng)后殘留噪聲的線(xiàn)性頻譜均值矢量的第i個(gè)分量。上述實(shí)施例中，p(m|z)＝pm(zr)，即音視頻聯(lián)合特征z在高斯混合模型中的得分等于音視頻聯(lián)合統(tǒng)計(jì)模型第m分量的邊緣概率。在另一實(shí)施例中，最佳濾波器的頻域增益函數(shù)還可以采用下式計(jì)算：G(z)=Σm=1MΣi=1Kp(m|z)(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(25)]]>步驟4.5：濾波模塊采用步驟4.4得到的最佳維納濾波器對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的語(yǔ)音進(jìn)行濾波，得到濾波增強(qiáng)后的語(yǔ)音信號(hào)。當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張軍;陳鑫源;寧更新;馮義志;季飛;余華;陳芳炯;
技術(shù)所有人：華南理工大學(xué);
我是此專(zhuān)利的發(fā)明人

上一篇：一種自動(dòng)攪拌式面包機(jī)的制作方法與工藝
上一篇：一種一體式漂座的制作方法與工藝

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

麥克風(fēng)陣列語(yǔ)音增強(qiáng)相關(guān)技術(shù)

陣列麥克風(fēng)tecohoo相關(guān)技術(shù)

陣列麥克風(fēng)相關(guān)技術(shù)

麥克風(fēng)陣列解決方案相關(guān)技術(shù)

科大訊飛麥克風(fēng)陣列相關(guān)技術(shù)

麥克風(fēng)陣列聲源定位相關(guān)技術(shù)

麥克風(fēng)陣列信號(hào)處理相關(guān)技術(shù)

麥克風(fēng)陣列降噪算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)及方法與流程