本發(fā)明涉及語(yǔ)音信號(hào)處理領(lǐng)域,特別是一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)。
背景技術(shù):
:通話(huà)設(shè)備在實(shí)際使用環(huán)境中容易受到背景噪音和混響等干擾,使語(yǔ)音信號(hào)的質(zhì)量和可懂度受到影響,因此在許多通話(huà)應(yīng)用中都需要進(jìn)行有效的語(yǔ)音增強(qiáng)處理,以抑制噪聲,提高語(yǔ)音清晰度、可懂度和舒適度。目前常用的語(yǔ)音增強(qiáng)方法主要包括兩類(lèi),一類(lèi)是基于單麥克風(fēng)的語(yǔ)音增強(qiáng)方法,包括譜減法、維納濾波、MMSE、卡爾曼濾波、小波變換等,這類(lèi)方法利用單麥克風(fēng)接收語(yǔ)音信號(hào),通過(guò)時(shí)域、頻域、小波變換域等濾波和處理來(lái)抑制噪聲,提高語(yǔ)音的質(zhì)量;另一類(lèi)是基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)方法,利用多個(gè)麥克風(fēng)接收到的語(yǔ)音信號(hào)里包含的空間相位信息對(duì)輸入語(yǔ)音進(jìn)行空間濾波,形成具有指向性的空間波束,對(duì)指定方向上的語(yǔ)音信號(hào)進(jìn)行增強(qiáng),能取得比單麥克風(fēng)更好的增強(qiáng)效果?,F(xiàn)有的麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)可以大致分為固定波束形成法、自適應(yīng)波束形成法、后置濾波法三類(lèi)。固定波束形成法采用延遲相加進(jìn)行時(shí)延補(bǔ)償且濾波器的權(quán)值固定不變,具有運(yùn)算量低,容易實(shí)現(xiàn)等優(yōu)點(diǎn),但不具備自適應(yīng)抑制強(qiáng)干擾的能力。自適應(yīng)波束形成法中,濾波器系數(shù)隨著輸入信號(hào)統(tǒng)計(jì)特性的變化而變化,使波束方向零陷對(duì)準(zhǔn)噪聲方向,而注視方向上信號(hào)的頻率響應(yīng)固定不變,以此來(lái)抑制其它方向上的干擾噪聲。后置濾波法根據(jù)各信道接收信號(hào)間的自相關(guān)和互相關(guān)特性調(diào)整維納濾波器的系數(shù),含噪的語(yǔ)音信號(hào)經(jīng)過(guò)維納濾波后得到最小均方誤差準(zhǔn)則下的目標(biāo)語(yǔ)音估計(jì)信號(hào),可以在不相關(guān)噪聲的環(huán)境下以較少的麥克風(fēng)數(shù)目獲得較好的消噪性能。但現(xiàn)有的麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)均基于空氣傳導(dǎo)的語(yǔ)音傳感器,在實(shí)際應(yīng)用中存在著以下的不足:(1)當(dāng)環(huán)境噪聲較強(qiáng)時(shí),輸出的語(yǔ)音質(zhì)量不高;(2)當(dāng)使用環(huán)境中存在多個(gè)聲源時(shí),麥克風(fēng)陣列的來(lái)波方向估計(jì)容易出現(xiàn)錯(cuò)誤判斷;(3)當(dāng)使用環(huán)境中存在多個(gè)聲源時(shí),傳統(tǒng)的來(lái)波方向估計(jì)通常選擇聲音最強(qiáng)的聲源信號(hào)進(jìn)行增強(qiáng),不方便使用者指定某個(gè)聲源進(jìn)行監(jiān)聽(tīng)。技術(shù)實(shí)現(xiàn)要素:針對(duì)現(xiàn)有麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)的不足,本發(fā)明提供一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)及方法,該系統(tǒng)利用音頻和視頻信息受噪聲影響方式的不同,將視頻信息用于提高麥克風(fēng)陣列來(lái)波方向估計(jì)準(zhǔn)確度和麥克風(fēng)陣列增強(qiáng)語(yǔ)音的質(zhì)量,能顯著提高現(xiàn)有麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)的性能,可以廣泛應(yīng)用于視頻會(huì)議、車(chē)載電話(huà)、移動(dòng)視頻通話(huà)終端等場(chǎng)合。本發(fā)明的目的至少通過(guò)如下技術(shù)方案之一實(shí)現(xiàn)。一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng),其包括視頻采集模塊、麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊和音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊,其中視頻采集模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接,用于采集應(yīng)用場(chǎng)景中說(shuō)話(huà)人的視頻信號(hào);麥克風(fēng)陣列接收模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,用于接收說(shuō)話(huà)人的音頻信號(hào);音視頻來(lái)波方向聯(lián)合估計(jì)模塊與視頻采集模塊、麥克風(fēng)陣列接收模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,利用音視頻信息聯(lián)合估計(jì)說(shuō)話(huà)人音頻的來(lái)波方向;麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊與麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接,利用麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng);音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊與視頻采集模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,利用經(jīng)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊增強(qiáng)后的語(yǔ)音和視頻采集模塊輸出的視頻信號(hào)聯(lián)合對(duì)語(yǔ)音進(jìn)行二次增強(qiáng)處理。進(jìn)一步地,所述音視頻來(lái)波方向聯(lián)合估計(jì)模塊包括視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和音視頻定位信息融合模塊,其中視頻聲源定位模塊與音視頻定位信息融合模塊、上述視頻采集模塊連接,根據(jù)視頻信號(hào)估計(jì)說(shuō)話(huà)人在視頻畫(huà)面中的位置;麥克風(fēng)陣列聲源定位模塊與音視頻定位信息融合模塊、上述麥克風(fēng)陣列接收模塊連接,根據(jù)麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向;音視頻定位信息融合模塊與視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,由視頻定位信息與麥克風(fēng)陣列聲源定位信息估計(jì)當(dāng)前說(shuō)話(huà)人語(yǔ)音的來(lái)波方向。進(jìn)一步地,所述音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊包括噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊和濾波模塊,其中噪聲估計(jì)模塊與最佳濾波器系數(shù)生成模塊、所述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,用于估計(jì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音中的噪聲頻譜;音視頻聯(lián)合分類(lèi)模塊與音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、上述視頻采集模塊、所述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,根據(jù)說(shuō)話(huà)人產(chǎn)生的視頻和音頻信號(hào)對(duì)當(dāng)前語(yǔ)音幀進(jìn)行分類(lèi);音視頻聯(lián)合模型庫(kù)與音視頻聯(lián)合分類(lèi)模塊連接,用于保存音視頻聯(lián)合分類(lèi)的模型;最佳濾波器系數(shù)生成模塊與噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、濾波模塊連接,根據(jù)音視頻聯(lián)合分類(lèi)模塊的分類(lèi)結(jié)果和噪聲計(jì)算當(dāng)前語(yǔ)音幀的最佳濾波器系數(shù);濾波模塊與最佳濾波器系數(shù)生成模塊、所述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,用于對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音進(jìn)行濾波增強(qiáng)。利用所述的一種音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng)的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法,包括以下步驟:步驟1:通過(guò)視頻采集模塊、麥克風(fēng)陣列接收模塊同步采集視頻和音頻信號(hào);步驟2:音視頻來(lái)波方向聯(lián)合估計(jì)模塊根據(jù)步驟1采集得到的同步音視頻信號(hào)估計(jì)說(shuō)話(huà)人音頻的來(lái)波方向;步驟3:麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊根據(jù)說(shuō)話(huà)人音頻的來(lái)波方向,對(duì)麥克風(fēng)陣列接收模塊采集到的音頻信號(hào)進(jìn)行增強(qiáng);步驟4:將步驟3中麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)與步驟1中視頻采集模塊采集的視頻信號(hào)進(jìn)行同步,并通過(guò)音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)。進(jìn)一步地,步驟2中,音視頻來(lái)波方向聯(lián)合估計(jì)模塊采用以下步驟估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向:步驟2.1:根據(jù)視頻采集模塊和麥克風(fēng)陣列接收模塊的相對(duì)位置,確定視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系;步驟2.2:通過(guò)視頻聲源定位模塊估計(jì)說(shuō)話(huà)人唇部在視頻畫(huà)面中的位置,在音視頻定位信息融合模塊中將其映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c),其中θlc為方位角,φl(shuí)c為仰視角;步驟2.3:通過(guò)麥克風(fēng)陣列聲源定位模塊確定當(dāng)前所有聲源的來(lái)波方向(θi,φi),其中0≤i≤I-1,I為所確定的聲源個(gè)數(shù);在音視頻定位信息融合模塊中,選擇與(θlc,φl(shuí)c)差異最小的(θi,φi)作為需監(jiān)聽(tīng)的說(shuō)話(huà)人音頻的來(lái)波方向。進(jìn)一步地,步驟2.2采用以下步驟實(shí)現(xiàn):步驟2.2.1:利用人臉資源庫(kù)建立人臉膚色模型;步驟2.2.2:根據(jù)步驟2.2.1中的人臉膚色模型,分割出視頻畫(huà)面中的人臉區(qū)域,并對(duì)人臉中的唇部進(jìn)行定位,得到視頻畫(huà)面中說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc);步驟2.2.3:根據(jù)步驟2.1得到的視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系,將說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)。進(jìn)一步地,步驟2中,當(dāng)視頻中檢測(cè)不到說(shuō)話(huà)人時(shí),采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向;步驟2中,若存在多個(gè)說(shuō)話(huà)人,由使用者在視頻畫(huà)面上指定需監(jiān)聽(tīng)的說(shuō)話(huà)人;步驟2中,當(dāng)使用者未指定說(shuō)話(huà)人時(shí),采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向。進(jìn)一步地,步驟4中,音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊采用以下方法對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng):步驟4.1:同步采集說(shuō)話(huà)人干凈的視頻信號(hào)和語(yǔ)音信號(hào)并分幀,提取每幀的音視頻聯(lián)合特征,訓(xùn)練音視頻聯(lián)合分類(lèi)模型,并保存每一分類(lèi)的語(yǔ)音頻譜均值;步驟4.2:噪聲估計(jì)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行端點(diǎn)檢測(cè),提取其中的純?cè)肼曇纛l片段,計(jì)算噪聲的線(xiàn)性頻譜均值;步驟4.3:音視頻聯(lián)合分類(lèi)模塊將視頻采集模塊采集的視頻信號(hào)和麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行同步和分幀,提取每幀的音視頻聯(lián)合特征,并利用步驟4.1中得到的音視頻聯(lián)合分類(lèi)模型,計(jì)算當(dāng)前音視頻幀屬于各分類(lèi)的得分;步驟4.4:最佳濾波器系數(shù)生成模塊采用式(1)或式(2)構(gòu)造當(dāng)前語(yǔ)音幀的最佳維納濾波器:G(z)=Σi=1Kmax{p(m|z)}(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(1)]]>G(z)=Σm=1MΣi=1Kp(m|z)(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(2)]]>其中p(m|z)為步驟4.3中得到的音視頻聯(lián)合特征z對(duì)音視頻聯(lián)合分類(lèi)模型中第m分類(lèi)的得分,K為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)的均值矢量維數(shù),M是音視頻聯(lián)合分類(lèi)模型的混合分量數(shù),為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)對(duì)應(yīng)的干凈語(yǔ)音頻譜均值矢量的第i個(gè)分量,為說(shuō)話(huà)人語(yǔ)音經(jīng)麥克風(fēng)陣列增強(qiáng)后殘留噪聲的線(xiàn)性頻譜均值矢量的第i個(gè)分量;步驟4.5:濾波模塊采用步驟4.4得到的最佳維納濾波器對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻進(jìn)行濾波,得到濾波增強(qiáng)后的語(yǔ)音信號(hào)。進(jìn)一步地,步驟4.1中音視頻聯(lián)合分類(lèi)模型采用高斯混合模型或者隱馬爾科夫模型。進(jìn)一步地,步驟4.3中,音視頻聯(lián)合特征屬于各分類(lèi)的得分采用以下方法計(jì)算:對(duì)于每幀音視頻聯(lián)合特征,估計(jì)其每個(gè)特征分量的可靠性,并采用下式計(jì)算相對(duì)于聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的邊緣概率pm(zr):pm(zr)=∫-∞+∞p(z|λm)dzu---(3)]]>上式中λm是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的模型參數(shù),p(z|λm)是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的概率密度函數(shù);其中xr、yr分別為視頻特征x和音頻特征y中可靠性大于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量,xu、yu分別為視頻特征x和音頻特征y中可靠性小于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量;音視頻聯(lián)合特征每個(gè)特征分量的可靠性采用以下方法計(jì)算:估計(jì)每個(gè)特征分量的信噪比,當(dāng)信噪比小于預(yù)設(shè)閾值時(shí),該特征分量的可靠性為0,否則該特征分量的可靠性為1;步驟4.4中,p(m|z)=pm(zr)。與現(xiàn)有技術(shù)相比,本發(fā)明的有益之處有:(1)本發(fā)明采用了兩級(jí)增強(qiáng)的結(jié)構(gòu),對(duì)麥克風(fēng)陣列增強(qiáng)后的說(shuō)話(huà)人語(yǔ)音進(jìn)行了二次增強(qiáng),并在兩級(jí)增強(qiáng)系統(tǒng)中充分地利用視頻和音頻信息,因此能有效地減少環(huán)境噪聲的影響,顯著提高系統(tǒng)的抗噪聲性能。(2)本發(fā)明同時(shí)使用音頻和視頻信息來(lái)確定說(shuō)話(huà)人語(yǔ)音的來(lái)波方向,即使使用環(huán)境中存在多個(gè)聲源時(shí),也能保證來(lái)波方向估計(jì)的準(zhǔn)確性,避免了傳統(tǒng)麥克風(fēng)陣列來(lái)波方向估計(jì)出現(xiàn)聲源誤判的不足。(3)使用者可以方便地通過(guò)視頻畫(huà)面指定需監(jiān)聽(tīng)的說(shuō)話(huà)人,克服了傳統(tǒng)麥克風(fēng)陣列難以指定目標(biāo)說(shuō)話(huà)人的不足。附圖說(shuō)明圖1為本發(fā)明實(shí)施例系統(tǒng)結(jié)構(gòu)框圖;圖2為本發(fā)明實(shí)施例中麥克風(fēng)陣列與視頻采集裝置位置關(guān)系的示意圖;圖3為本發(fā)明實(shí)施例中音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法的流程圖;圖4為本發(fā)明實(shí)施例中來(lái)波方向聯(lián)合估計(jì)的流程圖。圖5為本發(fā)明實(shí)施例中對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)的流程圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的具體實(shí)施步驟作進(jìn)一步的說(shuō)明,但本發(fā)明的實(shí)施方式不限于此。本發(fā)明實(shí)施例的系統(tǒng)結(jié)構(gòu)如圖1所示,由視頻采集模塊、麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊共同構(gòu)成,其中視頻采集模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接,用于采集應(yīng)用場(chǎng)景中說(shuō)話(huà)人的視頻信號(hào);麥克風(fēng)陣列接收模塊與音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,用于接收說(shuō)話(huà)人的音頻信號(hào);音視頻來(lái)波方向聯(lián)合估計(jì)模塊與視頻采集模塊、麥克風(fēng)陣列接收模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,利用音視頻信息聯(lián)合估計(jì)說(shuō)話(huà)人音頻的來(lái)波方向;麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊與麥克風(fēng)陣列接收模塊、音視頻來(lái)波方向聯(lián)合估計(jì)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊連接,利用麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng);音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊與視頻采集模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,利用經(jīng)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊增強(qiáng)后的語(yǔ)音和視頻采集模塊輸出的視頻信號(hào)聯(lián)合對(duì)語(yǔ)音進(jìn)行二次增強(qiáng)處理。上述實(shí)施例中,視頻采集模塊采用攝像頭來(lái)實(shí)現(xiàn),麥克風(fēng)陣列接收模塊由6個(gè)麥克風(fēng)m1,m2,m3,m4,m5,m6及相應(yīng)的放大電路和A/D轉(zhuǎn)換電路構(gòu)成,麥克風(fēng)與攝像頭的安裝位置如圖2所示,其中攝像頭C位于原點(diǎn),其光軸與x軸重合,麥克風(fēng)m1,m4位于x軸,m2,m5位于y軸,m3,m6位于z軸,均以原點(diǎn)為對(duì)稱(chēng)中心。音視頻來(lái)波方向聯(lián)合估計(jì)模塊、麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊、音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊由CPU或嵌入式芯片及相應(yīng)的外圍電路構(gòu)成,音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊還包含D/A轉(zhuǎn)換及放大驅(qū)動(dòng)電路。上述音視頻來(lái)波方向聯(lián)合估計(jì)模塊,由視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和音視頻定位信息融合模塊共同構(gòu)成,其中視頻聲源定位模塊與音視頻定位信息融合模塊、上述視頻采集模塊連接,根據(jù)視頻信號(hào)估計(jì)說(shuō)話(huà)人在視頻畫(huà)面中的位置;麥克風(fēng)陣列聲源定位模塊與音視頻定位信息融合模塊、上述麥克風(fēng)陣列接收模塊連接,根據(jù)麥克風(fēng)陣列接收模塊接收到的陣列語(yǔ)音信號(hào)來(lái)估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向;音視頻定位信息融合模塊與視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,由視頻定位信息與麥克風(fēng)陣列聲源定位信息估計(jì)當(dāng)前說(shuō)話(huà)人語(yǔ)音的來(lái)波方向。上述實(shí)施例中,視頻聲源定位模塊、麥克風(fēng)陣列聲源定位模塊和音視頻定位信息融合模塊在CPU或嵌入式芯片中用軟件來(lái)實(shí)現(xiàn)。上述音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊,由噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、濾波模塊共同構(gòu)成,其中噪聲估計(jì)模塊與最佳濾波器系數(shù)生成模塊、上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,用于估計(jì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音中的噪聲頻譜;音視頻聯(lián)合分類(lèi)模塊與音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、上述視頻采集模塊、上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,根據(jù)說(shuō)話(huà)人產(chǎn)生的視頻和音頻信號(hào)對(duì)當(dāng)前語(yǔ)音幀進(jìn)行分類(lèi);音視頻聯(lián)合模型庫(kù)與音視頻聯(lián)合分類(lèi)模塊連接,用于保存音視頻聯(lián)合分類(lèi)的模型;最佳濾波器系數(shù)生成模塊與噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、濾波模塊連接,根據(jù)音視頻聯(lián)合分類(lèi)模塊的分類(lèi)結(jié)果和噪聲計(jì)算當(dāng)前語(yǔ)音幀的最佳濾波器系數(shù);濾波模塊與最佳濾波器系數(shù)生成模塊、上述麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊連接,用于對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出語(yǔ)音進(jìn)行濾波增強(qiáng)。上述實(shí)施例中,噪聲估計(jì)模塊、音視頻聯(lián)合分類(lèi)模塊、音視頻聯(lián)合模型庫(kù)、最佳濾波器系數(shù)生成模塊、濾波模塊在CPU或嵌入式芯片中用軟件來(lái)實(shí)現(xiàn)。本發(fā)明提供的音視頻信息融合的麥克風(fēng)陣列語(yǔ)音增強(qiáng)系統(tǒng),采用以下方法對(duì)輸入的語(yǔ)音進(jìn)行增強(qiáng),其流程如圖3所示:步驟1:通過(guò)視頻采集模塊、麥克風(fēng)陣列接收模塊同步采集視頻和音頻信號(hào)。上述實(shí)施例中,麥克風(fēng)陣列接收模塊通過(guò)每一個(gè)麥克風(fēng)采集到說(shuō)話(huà)人的多通道語(yǔ)音信號(hào),同時(shí)視頻采集模塊利用攝像頭對(duì)前方連續(xù)拍攝,作為視頻輸入信號(hào)。步驟2:音視頻來(lái)波方向聯(lián)合估計(jì)模塊根據(jù)步驟1采集得到的同步音視頻信號(hào)估計(jì)說(shuō)話(huà)人語(yǔ)音的來(lái)波方向,具體又可以分為以下幾步,流程如圖4所示:步驟2.1:根據(jù)視頻采集模塊和麥克風(fēng)陣列接收模塊的相對(duì)位置,確定視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系。上述實(shí)施例中,如圖2所示,以攝像頭C為空間坐標(biāo)系原點(diǎn)O建立空間坐標(biāo)系Oxyz,攝像頭C的焦距為f,攝像頭成像的像素平面大小為Px×Py,成像中心的像素坐標(biāo)為(xc,yc),水平方向和垂直方向單位距離上的像素點(diǎn)數(shù)分別是Wx和Wy。若聲源s的方位角為θ,仰視角為φ,視頻畫(huà)面中的說(shuō)話(huà)人唇部中心位置與成像中心的水平距離為dx,垂直距離為dy,即說(shuō)話(huà)人唇部中心在成像平面的像素坐標(biāo)為(xc+dx,yc+dy),則視頻畫(huà)面中說(shuō)話(huà)人唇部中心位置與麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)的映射關(guān)系為:θlc=arctan(Px·dxf·Wx)---(4)]]>φlc=arctan(Py·dyf·Wycosθlc)---(5)]]>在其他的一些實(shí)施例中,根據(jù)視頻采集模塊和麥克風(fēng)陣列接收模塊擺放位置的不同,上述視頻畫(huà)面中說(shuō)話(huà)人唇部中心位置與麥克風(fēng)陣列的來(lái)波方向具有不同的映射關(guān)系。步驟2.2:通過(guò)視頻聲源定位模塊估計(jì)說(shuō)話(huà)人唇部在視頻畫(huà)面中的位置,在音視頻定位信息融合模塊中將其映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c),其中θlc為方位角,φl(shuí)c為仰視角。上述實(shí)例中,首先通過(guò)建立高斯人臉膚色模型來(lái)對(duì)視頻畫(huà)面中說(shuō)話(huà)人臉部區(qū)域進(jìn)行檢測(cè)定位,然后根據(jù)定位到的說(shuō)話(huà)人人臉位置,采用自適應(yīng)色度濾波算法對(duì)說(shuō)話(huà)人唇部中心位置進(jìn)行定位,具體采用以下步驟實(shí)現(xiàn):步驟2.2.1:利用人臉資源庫(kù)建立人臉膚色模型。上述實(shí)施例中,在人臉圖像庫(kù)中選取J幅人臉彩色圖像,預(yù)處理后保留人臉區(qū)域,然后將其每個(gè)像素點(diǎn)從RGB顏色空間分別用式(6)和式(7)投影到Y(jié)CbCr顏色空間和chromatic顏色空間YCbCr=10.9560.6211-0.272-0.6471-1.106-1.703RGB---(6)]]>r=R/(R+G+B)g=G/(R+G+B)---(7)]]>采用高斯模型對(duì)矢量t=[Cb,Cr,r,g]T進(jìn)行建模,其概率密度函數(shù)為:p(t)=exp{-0.5(t-μ)T∑-1(t-μ)}(8)上式中均值μ和方差矩陣∑為:μ=[μCb,μCr,μr,μg]T(9)Σ=ΣCbrΣCbrΣCbrΣrgΣrgΣCbrΣrgΣrg---(10)]]>其中Kj為第j幅人臉圖像中像素點(diǎn)的數(shù)目,Cbjk、Crjk、rjk、gjk分別為第j幅人臉圖像中第k個(gè)像素點(diǎn)Cb、Cr、r、g的值,∑(*)是顏色空間元素(*)的方差(矩陣)。步驟2.2.2:根據(jù)步驟2.2.1中的人臉膚色模型,分割出視頻畫(huà)面中的人臉區(qū)域,并對(duì)人臉中的唇部進(jìn)行定位,得到視頻畫(huà)面中說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)。上述實(shí)施例中,將待檢測(cè)的視頻畫(huà)面中的第k個(gè)像素點(diǎn)在聯(lián)合顏色空間上表示為tk=[Cbk,Crk,rk,gk]T,根據(jù)步驟2.2.1中的高斯人臉膚色模型可以計(jì)算得到該像素點(diǎn)屬于人臉膚色的概率為:p(tk)=exp{-0.5(tk-μ)T∑-1(tk-μ)}(11)若p(tk)>δ,其中δ為預(yù)設(shè)的閾值,則判斷該像素點(diǎn)位于人臉區(qū)域,否則該像素點(diǎn)為非人臉區(qū)域,由此將待檢測(cè)視頻畫(huà)面中的人臉區(qū)域分割出來(lái)。得到人臉的位置信息后,采用自適應(yīng)色度濾波算法對(duì)說(shuō)話(huà)人唇部中心位置進(jìn)行定位,得到視頻畫(huà)面中說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)。步驟2.2.3:根據(jù)步驟2.1得到的視頻畫(huà)面中像素坐標(biāo)與麥克風(fēng)陣列的來(lái)波方向之間的映射關(guān)系,將說(shuō)話(huà)人唇部中心的像素坐標(biāo)(xlc,ylc)映射為麥克風(fēng)陣列的來(lái)波方向(θlc,φl(shuí)c)。上述實(shí)施例中,根據(jù)式(4)和式(5)將(xlc,ylc)映射為(θlc,φl(shuí)c)。步驟2.3:通過(guò)麥克風(fēng)陣列聲源定位模塊確定當(dāng)前所有聲源的來(lái)波方向(θi,φi),其中0≤i≤I-1,I為所確定的聲源個(gè)數(shù)。在音視頻定位信息融合模塊中,選擇與(θlc,φl(shuí)c)差異最小的(θi,φi)作為需監(jiān)聽(tīng)的說(shuō)話(huà)人音頻的來(lái)波方向。上述實(shí)例中,空間存在I個(gè)聲源,空間噪聲為零均值且與信號(hào)相互獨(dú)立的高斯白噪聲,麥克風(fēng)陣列聲源定位模塊采用三維MUSIC近場(chǎng)聲源識(shí)別算法來(lái)確定當(dāng)前所有聲源的來(lái)波方向。如圖2所示,將坐標(biāo)系原點(diǎn)O(0,0,0)設(shè)為麥克風(fēng)陣列的參考點(diǎn),聲源si(1≤i≤I)的空間坐標(biāo)為(li,θi,π-φi),聲源si與第j個(gè)麥克風(fēng)的距離為lij(j=1~6),則麥克風(fēng)接收的信號(hào)為:X=AS+N(12)其中S為聲源信號(hào)矩陣,N為噪聲信號(hào)矩陣,A為陣列方向矩陣,A每個(gè)元素可以表示為是聲音從si到達(dá)陣列參考點(diǎn)O(0,0,0)與到達(dá)第j個(gè)麥克風(fēng)之間的時(shí)間差,c=340m/s是聲音的傳播速度。計(jì)算麥克風(fēng)接收信號(hào)X的協(xié)方差,然后對(duì)所得協(xié)方差矩陣進(jìn)行分解可得到信號(hào)子空間Us和噪聲子空間UN:R=Us∑sUsH+UN∑NUNH(13)計(jì)算PMUSIC=∂iH∂i1LΣj=1Lwj||δjHUN||2---(14)]]>其中為信號(hào)的方向向量,L為對(duì)空間譜加窗的長(zhǎng)度,wj是第j個(gè)頻率點(diǎn)的權(quán)重,實(shí)施例中聲源信號(hào)的頻率特性未知,wj設(shè)置為1。PMUSIC取得極大值時(shí)所對(duì)應(yīng)的(li,θi,φi)即為當(dāng)前聲源si的位置,(θi,φi)為聲源si的來(lái)波方向。得到所有聲源的來(lái)波方向后,采用下式計(jì)算所有(θi,φi)與(θlc,φl(shuí)c)的距離,di=(θi-θlc)2+(φi-φc)2---(15)]]>令di最小的(θi,φi)即為當(dāng)前指定說(shuō)話(huà)人相對(duì)于麥克風(fēng)陣列的來(lái)波方向。上述步驟2中,當(dāng)視頻中檢測(cè)不到說(shuō)話(huà)人時(shí),采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向。上述步驟2中,若存在多個(gè)說(shuō)話(huà)人,由使用者在視頻畫(huà)面上指定需監(jiān)聽(tīng)的說(shuō)話(huà)人,攝像機(jī)對(duì)說(shuō)話(huà)人進(jìn)行跟蹤,獲取指定檢測(cè)的說(shuō)話(huà)人臉部及唇部定位信息。上述步驟2中,當(dāng)使用者未指定說(shuō)話(huà)人時(shí),采用信號(hào)最強(qiáng)的音頻來(lái)波方向作為聲源的來(lái)波方向。步驟3:麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊根據(jù)說(shuō)話(huà)人音頻的來(lái)波方向,對(duì)麥克風(fēng)陣列接收模塊采集到的音頻信號(hào)進(jìn)行增強(qiáng)。上述實(shí)施例中,麥克風(fēng)陣列m1、m2、m3、m4、m5、m6采集到的待檢測(cè)語(yǔ)音信號(hào)為S={x1,x2,x3,x4,x5,x6},麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊采用廣義旁瓣抵消器(GSC)算法對(duì)麥克風(fēng)接收到的音頻信號(hào)進(jìn)行陣列增強(qiáng)。廣義旁瓣抵消器由延時(shí)-累加波束形成器、阻塞矩陣和噪聲抵消器組成。輸入的語(yǔ)音信號(hào)分為上下兩條支路進(jìn)行處理,其中上支路中利用延時(shí)-累加波束形成器對(duì)陣列的輸入語(yǔ)音在來(lái)波方向進(jìn)行增強(qiáng),并抑制其他方向的干擾噪聲,其輸出為:yc=ATS(16)其中A=C(CHC)-1F為權(quán)系數(shù)向量,C為約束矩陣,F(xiàn)為對(duì)應(yīng)的約束響應(yīng)向量。下支路包含阻塞矩陣和噪聲抵消器,首先通過(guò)構(gòu)造一個(gè)秩r(B)≤3的阻塞矩陣B來(lái)濾除期望信號(hào),其輸出為干擾和噪聲的組合N:N=BS(17)然后噪聲抵消器根據(jù)N估算出延時(shí)-累加波束形成器輸出信號(hào)中的噪聲信號(hào)yn:yn=WTN(18)根據(jù)式(16)和式(18)可以計(jì)算得到干凈語(yǔ)音信號(hào)的估計(jì)值ye:ye=y(tǒng)c-yn(19)式(18)中WT=[w1,w2,...,w6]T為權(quán)重矢量,采用下式進(jìn)行調(diào)整,式中i為迭代步數(shù):Wi+1=Wi+ye||N||2N---(20)]]>步驟4:將步驟3中麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)與步驟1中視頻采集模塊采集的視頻信號(hào)進(jìn)行同步,并通過(guò)音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng)。上述步驟4中,音視頻聯(lián)合語(yǔ)音增強(qiáng)模塊采用以下方法對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行增強(qiáng),其流程如圖5所示:步驟4.1:同步采集說(shuō)話(huà)人干凈的視頻信號(hào)和語(yǔ)音信號(hào)并分幀,提取每幀的音視頻聯(lián)合特征,訓(xùn)練音視頻聯(lián)合分類(lèi)模型,并保存每一分類(lèi)的語(yǔ)音頻譜均值。上述實(shí)施例中,同步采集1000段不同說(shuō)話(huà)人干凈的音頻信號(hào)和視頻信號(hào),然后分別提取每一幀音頻信號(hào)的mfcc參數(shù),將音頻信號(hào)幀的mfcc特征矢量序列記為x,用活動(dòng)形狀模型提取視頻信號(hào)幀中說(shuō)話(huà)人的唇部幾何信息,再加上圖像灰度外觀特征構(gòu)成唇部特征序列,記為y,將第h幀音頻信號(hào)特征矢量和第h幀唇部特征矢量進(jìn)行拼接,得到第h幀音視頻聯(lián)合特征矢量為由此得到聯(lián)合模型庫(kù)的訓(xùn)練數(shù)據(jù)集。獲得訓(xùn)練數(shù)據(jù)集后,采用混合高斯模型(GMM)來(lái)擬合音視頻聯(lián)合特征矢量的概率分布,令Z={z1,z2,...,zn}表示訓(xùn)練用的音視頻聯(lián)合特征矢量集合,則混合高斯模型聯(lián)合概率密度函數(shù)為:其中M是GMM中的混合分量數(shù),πm是模型混合分量先驗(yàn)權(quán)重,1≤m≤M,且πm≥0,μm和∑m分別表示混合高斯模型第m分量的均值矢量和方差矩陣,混合高斯模型每一混合分量概率密度函數(shù)為單高斯函數(shù),代表一個(gè)分類(lèi)。令λ={(πm,μm,∑m)|1≤m≤M}表示混合高斯模型的參數(shù)集,采用最大期望算法求出λ的最大似然估計(jì)。建立音視頻聯(lián)合分類(lèi)模型后,計(jì)算該模型中屬于每一分類(lèi)的所有干凈音頻幀的頻譜均值保存在音視頻聯(lián)合模型庫(kù)中。在另外一些實(shí)施例中,采用隱馬爾科夫模型作為聯(lián)合統(tǒng)計(jì)模型,并以隱馬爾科夫模型中的每個(gè)混合高斯分量表示一個(gè)分類(lèi)。步驟4.2:噪聲估計(jì)模塊對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行端點(diǎn)檢測(cè),提取其中的純?cè)肼曇纛l片段,計(jì)算噪聲的線(xiàn)性頻譜均值;上述實(shí)施例中,經(jīng)麥克風(fēng)陣列獲取增強(qiáng)語(yǔ)音后,噪聲估計(jì)模塊對(duì)其進(jìn)行分幀,然后根據(jù)每幀的短時(shí)自相關(guān)函數(shù)Rw(τ)和短時(shí)能量Ew,計(jì)算每幀陣列增強(qiáng)語(yǔ)音的短時(shí)平均過(guò)門(mén)限率Cw(n):Cw(n)=Στ=n-Nw+1n{|sgn[Rw(τ)-αT]-sgn[Rw(τ-1)-αT]|+|sgn[Rw(τ)+αT]-sgn[Rw(τ-1)+αT]|}w(n-τ)---(22)]]>其中sgn[·]為取符號(hào)運(yùn)算,是調(diào)節(jié)因子,w(n)是矩形窗函數(shù),Nw為其窗長(zhǎng),τ是時(shí)延,T是門(mén)限初值。當(dāng)Cw(n)大于預(yù)設(shè)的門(mén)限值時(shí),判斷該幀為語(yǔ)音,否則為噪聲信號(hào)。根據(jù)每幀的判決結(jié)果得到陣列增強(qiáng)語(yǔ)音的端點(diǎn)位置。提取麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)中的純?cè)肼曇纛l片段,計(jì)算并保存其線(xiàn)性頻譜均值作為經(jīng)麥克風(fēng)陣列增強(qiáng)后的說(shuō)話(huà)人語(yǔ)音殘留噪聲的幅度均值參數(shù)。步驟4.3:音視頻聯(lián)合分類(lèi)模塊將視頻采集模塊采集的視頻信號(hào)和麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行同步和分幀,提取每幀的音視頻聯(lián)合特征,并利用步驟4.1中得到的音視頻聯(lián)合分類(lèi)模型,計(jì)算當(dāng)前音視頻幀屬于各分類(lèi)的得分。上述實(shí)施例中,采用與步驟4.1相同的方法對(duì)視頻采集模塊采集的視頻信號(hào)和麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的音頻信號(hào)進(jìn)行同步和分幀,并提取每幀的音視頻聯(lián)合特征。對(duì)于每幀音視頻聯(lián)合特征,采用以下方法計(jì)算其屬于各分類(lèi)的得分:估計(jì)當(dāng)前音視頻聯(lián)合特征中每個(gè)特征分量的可靠性,并采用下式計(jì)算相對(duì)于聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的邊緣概率pm(zr):pm(zr)=∫-∞+∞p(z|λm)dzu---(23)]]>上式中λm是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的模型參數(shù),p(z|λm)是音視頻聯(lián)合統(tǒng)計(jì)模型第m分類(lèi)的概率密度函數(shù);其中xr、yr分別為視頻特征x和音頻特征y中可靠性大于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量,xu、yu分別為視頻特征x和音頻特征y中可靠性小于預(yù)設(shè)閾值的特征分量構(gòu)成的矢量。上述音視頻聯(lián)合特征中每個(gè)特征分量的可靠性采用以下方法計(jì)算:估計(jì)每個(gè)特征分量的信噪比,當(dāng)信噪比小于預(yù)設(shè)閾值時(shí),該特征分量的可靠性為0,否則該特征分量的可靠性為1。步驟4.4:最佳濾波器系數(shù)生成模塊根據(jù)步驟4.3的分類(lèi)結(jié)果,構(gòu)造當(dāng)前語(yǔ)音幀的最佳維納濾波器。上述實(shí)施例中,根據(jù)步驟4.2估計(jì)的噪聲線(xiàn)性頻譜均值和步驟4.1音視頻聯(lián)合模型庫(kù)中存儲(chǔ)的每個(gè)分類(lèi)模型對(duì)應(yīng)的干凈語(yǔ)音頻譜均值以及音視頻聯(lián)合特征z對(duì)音視頻聯(lián)合分類(lèi)模型中第m個(gè)分類(lèi)的得分p(m|z),計(jì)算當(dāng)前語(yǔ)音幀最佳濾波器的頻域增益函數(shù):G(z)=Σi=1Kmax{p(m|z)}(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(24)]]>其中K為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)的均值矢量維數(shù),M是音視頻聯(lián)合分類(lèi)模型的混合分量數(shù),為音視頻聯(lián)合分類(lèi)模型第m分類(lèi)對(duì)應(yīng)的干凈語(yǔ)音頻譜均值矢量的第i個(gè)分量,為說(shuō)話(huà)人語(yǔ)音經(jīng)麥克風(fēng)陣列增強(qiáng)后殘留噪聲的線(xiàn)性頻譜均值矢量的第i個(gè)分量。上述實(shí)施例中,p(m|z)=pm(zr),即音視頻聯(lián)合特征z在高斯混合模型中的得分等于音視頻聯(lián)合統(tǒng)計(jì)模型第m分量的邊緣概率。在另一實(shí)施例中,最佳濾波器的頻域增益函數(shù)還可以采用下式計(jì)算:G(z)=Σm=1MΣi=1Kp(m|z)(μmmag(i))2(μmmag(i))2+(μ~mag(i))2---(25)]]>步驟4.5:濾波模塊采用步驟4.4得到的最佳維納濾波器對(duì)麥克風(fēng)陣列語(yǔ)音增強(qiáng)模塊輸出的語(yǔ)音進(jìn)行濾波,得到濾波增強(qiáng)后的語(yǔ)音信號(hào)。當(dāng)前第1頁(yè)1 2 3