本發(fā)明涉及一種語(yǔ)音采集裝置,尤其是涉及一種聲像聯(lián)合定位的遠(yuǎn)距離語(yǔ)音采集裝置。
背景技術(shù):
在安保、安防等領(lǐng)域,各類(lèi)視頻監(jiān)控系統(tǒng)已經(jīng)得到廣泛應(yīng)用。依托各類(lèi)視頻監(jiān)控系統(tǒng),可以對(duì)遠(yuǎn)距離視頻中相關(guān)人員進(jìn)行確認(rèn)、甄別。在利用視頻監(jiān)控系統(tǒng)進(jìn)行遠(yuǎn)距離嫌疑人確認(rèn)、甄別時(shí)如能通過(guò)遠(yuǎn)距離語(yǔ)音采集利用語(yǔ)言、對(duì)話(huà)信息,將可大大影響了工作效率。但在實(shí)際環(huán)境背景噪聲條件下進(jìn)行遠(yuǎn)距離語(yǔ)音采集仍具有極高難度。
由于環(huán)境噪聲的存在,遠(yuǎn)距離語(yǔ)音采集時(shí)必須利用采集裝置的高指向性來(lái)保證采集的遠(yuǎn)距離語(yǔ)音質(zhì)量。目前的遠(yuǎn)距離語(yǔ)音采集裝置主要采用干涉管結(jié)構(gòu)的槍式麥克風(fēng)形成高指向性。
如中國(guó)專(zhuān)利ZL 2010101269089公開(kāi)一種拾音裝置,其包括:容置體、第一壓電元件、第二壓電元件及電路單元,該容置體具有拾音口,該第壓電元件設(shè)置于容置體內(nèi),以感測(cè)高頻聲波的振動(dòng)而轉(zhuǎn)換輸出信號(hào),該第二壓電元件設(shè)置于容置體內(nèi),以感測(cè)低頻聲波的振動(dòng)而轉(zhuǎn)換輸出信號(hào),該電路單元電連接于第一壓電元件及第二壓電元件,以接收第一壓電元件及第二壓電元件的信號(hào),并進(jìn)行處理產(chǎn)生聲音信號(hào);因此,具有較好的感測(cè)靈敏度及較寬廣的音頻,可提升音質(zhì)。
中國(guó)專(zhuān)利ZL2010591158.2公開(kāi)了一種視頻定位的長(zhǎng)距離拾音裝置,通過(guò)在以攝像機(jī)為中心的圓周安裝2個(gè)內(nèi)置指向麥克風(fēng)的聲聚焦結(jié)構(gòu)桶體形成高指向性,結(jié)合桶體側(cè)壁外安裝2個(gè)拾取環(huán)境噪聲的全向麥克風(fēng)獲取參考噪聲,聲聚焦結(jié)構(gòu)桶體隨攝像頭轉(zhuǎn)動(dòng),操作人員根據(jù)視頻圖像內(nèi)容進(jìn)行視頻定位后該裝置只獲取與攝像頭同方向的語(yǔ)音信號(hào),并利用數(shù)字信號(hào)處理器進(jìn)行自適應(yīng)降噪處理。
但由于上述形成高指向性的遠(yuǎn)距離語(yǔ)音采集裝置均只能在裝置正前方形成固定的高指向性波束,在實(shí)際使用中需通過(guò)裝置的轉(zhuǎn)動(dòng)來(lái)對(duì)準(zhǔn)運(yùn)動(dòng)的遠(yuǎn)距離說(shuō)話(huà)人目標(biāo),增加了額外的機(jī)械機(jī)械隨動(dòng)控制成本;同時(shí),考慮到視頻監(jiān)控對(duì)遠(yuǎn)距離目標(biāo)具有較大視場(chǎng),從遠(yuǎn)距離視頻圖像中隨可通過(guò)對(duì)焦看到人像,但往往無(wú)法直接鑒別、發(fā)現(xiàn)說(shuō)話(huà)動(dòng)作,導(dǎo)致視頻攝像頭和遠(yuǎn)距離拾音裝置進(jìn)行機(jī)械移動(dòng)對(duì)準(zhǔn)目 標(biāo)說(shuō)話(huà)人時(shí)存在不易同步的問(wèn)題,也將造成監(jiān)控系統(tǒng)設(shè)計(jì)使用上的不方便。
麥克風(fēng)陣列由多個(gè)麥克風(fēng)按照一定拓?fù)浣Y(jié)構(gòu)組成,可通過(guò)波束成形算法對(duì)不同方向上的信號(hào)形成不同響應(yīng),也即陣列的空間指向特性,使陣列麥克風(fēng)具有聲源定位和跟蹤、語(yǔ)音提取和分離以及去噪等功能,從而提高在復(fù)雜背景下的語(yǔ)音信號(hào)質(zhì)量,彌補(bǔ)孤立麥克風(fēng)無(wú)法獲取和利用空間信息的缺陷,并可避免采用機(jī)械轉(zhuǎn)動(dòng)裝置來(lái)對(duì)準(zhǔn)目標(biāo)說(shuō)話(huà)人。
中國(guó)專(zhuān)利ZL 2013102011025公開(kāi)一種遠(yuǎn)距離語(yǔ)音識(shí)別中的模型域補(bǔ)償新方法,該方法針對(duì)麥克風(fēng)陣列在室內(nèi)遠(yuǎn)距離語(yǔ)音采集和識(shí)別中的困難提出模擬室內(nèi)的混響聲學(xué)環(huán)境,并通過(guò)輸入的室內(nèi)空間尺寸生成不同位置的房間沖擊響應(yīng)序列,從而在模型域進(jìn)行室內(nèi)遠(yuǎn)距離語(yǔ)音的補(bǔ)償提高采集和識(shí)別處理性能。
但對(duì)于安保、安防等領(lǐng)域的室外場(chǎng)景遠(yuǎn)距離語(yǔ)音采集場(chǎng)合,所需進(jìn)行語(yǔ)音采集的說(shuō)話(huà)人對(duì)象距離遠(yuǎn)大于室內(nèi)應(yīng)用場(chǎng)景,且存在嚴(yán)重的環(huán)境噪聲。此時(shí),單純依靠麥克風(fēng)陣列算法很難獲得說(shuō)話(huà)人方向從而進(jìn)行語(yǔ)音增強(qiáng)和采集。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)遠(yuǎn)距離、噪聲背景下語(yǔ)音采集的難點(diǎn),結(jié)合視頻攝像頭、麥克風(fēng)陣列進(jìn)行聲像聯(lián)合確定目標(biāo)說(shuō)話(huà)人,從而解決單純使用攝像頭、高指向性麥克風(fēng)或麥克風(fēng)陣列存在的目標(biāo)說(shuō)話(huà)人確定困難、需機(jī)械轉(zhuǎn)動(dòng)裝置等問(wèn)題,本發(fā)明提出結(jié)合監(jiān)控?cái)z像頭、麥克風(fēng)陣列波束成形技術(shù)的一種語(yǔ)音采集裝置進(jìn)行聲像聯(lián)合確定目標(biāo)說(shuō)話(huà)人定位,從而改善環(huán)境噪聲條件下室外遠(yuǎn)距離語(yǔ)音增強(qiáng)采集的性能。
一種聲像聯(lián)合定位的遠(yuǎn)距離語(yǔ)音采集裝置,包括以下模塊,
監(jiān)控?cái)z像頭:用于采集遠(yuǎn)距離視頻圖像;
麥克風(fēng)陣列:用于語(yǔ)音信號(hào)多通道采集、前置處理和模數(shù)轉(zhuǎn)換;
波束掃描模塊,其輸入端連接麥克風(fēng)陣列輸出端:用于進(jìn)行波束掃描,獲取遠(yuǎn)距離語(yǔ)音和噪聲的方向分布信息;
聲像聯(lián)合處理模塊,其輸入端分別連接監(jiān)控?cái)z像頭與波束掃描模塊的輸出端:用于將監(jiān)控?cái)z像頭傳輸?shù)膱D像信息、波束掃描模塊獲取的語(yǔ)音和噪聲方向信息經(jīng)坐標(biāo)轉(zhuǎn)換后送入設(shè)有的聲像聯(lián)合監(jiān)控顯示屏進(jìn)行聲像聯(lián)合定位顯示;
聲像聯(lián)合監(jiān)控顯示屏,其輸入端連接聲像聯(lián)合處理模塊輸出端:用于接收聲像聯(lián)合成像處理模塊送來(lái)的聲像聯(lián)合信息并進(jìn)行屏幕顯示。
目標(biāo)選定模塊:用于監(jiān)控操作人員根據(jù)聲像聯(lián)合監(jiān)控顯示屏上的圖像、聲音聯(lián)合信息選定目標(biāo)說(shuō)話(huà)人。
波束對(duì)準(zhǔn)模塊,其輸入端分別連接目標(biāo)選定模塊與麥克風(fēng)陣列的輸出端:根據(jù)目標(biāo)選定模塊選定的目標(biāo)說(shuō)話(huà)人對(duì)于方向進(jìn)行麥克風(fēng)陣列波束對(duì)準(zhǔn)。
語(yǔ)音采集模塊,其輸入端連接波束對(duì)準(zhǔn)模塊的輸出端:對(duì)波束對(duì)準(zhǔn)模塊的語(yǔ)音信息進(jìn)行采集。
所述麥克風(fēng)陣列包括增強(qiáng)模塊,所述麥克風(fēng)陣列各通道語(yǔ)音信號(hào)輸出端經(jīng)增強(qiáng)模塊分別連接波束掃描模塊與波束對(duì)準(zhǔn)模塊,所述增強(qiáng)模塊用于增強(qiáng)麥克風(fēng)陣列的語(yǔ)音信息。
所述增強(qiáng)模塊包括前置放大電路與模數(shù)轉(zhuǎn)換器。
所述麥克風(fēng)陣列包括反射罩:用于安裝在麥克風(fēng)上進(jìn)行語(yǔ)音信號(hào)聚焦;
所述目標(biāo)選定模塊設(shè)有鼠標(biāo)輸入端,操作人員通過(guò)觀察聲像聯(lián)合監(jiān)控顯示屏通過(guò)鼠標(biāo)輸入端選定目標(biāo)說(shuō)話(huà)人,目標(biāo)選定模塊經(jīng)坐標(biāo)轉(zhuǎn)換后輸出目標(biāo)說(shuō)話(huà)人的方向信息至波束對(duì)準(zhǔn)模塊。
使用所述聲像聯(lián)合定位的遠(yuǎn)距離語(yǔ)音采集裝置的步驟如下:
一個(gè)初始化步驟:各模塊參數(shù)初始化設(shè)置;
一個(gè)視頻采集步驟:監(jiān)控?cái)z像頭采集遠(yuǎn)距離視頻圖像;
一個(gè)波束掃描步驟:麥克風(fēng)陣列對(duì)遠(yuǎn)距離語(yǔ)音和信號(hào)進(jìn)行方向掃描,獲取方向分布信息;
一個(gè)聲像聯(lián)合處理步驟:將波束掃描結(jié)果進(jìn)行坐標(biāo)轉(zhuǎn)換后合并加入視頻圖像,形成聲像聯(lián)合視頻圖像。
一個(gè)聲像聯(lián)合顯示步驟:聲像聯(lián)合顯示屏將聲像聯(lián)合處理結(jié)果進(jìn)行顯示;
一個(gè)目標(biāo)選定步驟:操作人員在聲像聯(lián)合顯示屏上結(jié)合圖像、聲音信息利用鼠標(biāo)選定目標(biāo)說(shuō)話(huà)人,并通過(guò)坐標(biāo)轉(zhuǎn)換輸出目標(biāo)說(shuō)話(huà)的方向信息;
一個(gè)波束對(duì)準(zhǔn)步驟:將選定的目標(biāo)說(shuō)話(huà)人方向輸入麥克風(fēng)陣列進(jìn)行波束對(duì)準(zhǔn);
一個(gè)語(yǔ)音采集步驟:對(duì)麥克風(fēng)陣列波束對(duì)準(zhǔn)信號(hào)進(jìn)行采集。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的結(jié)構(gòu)組成框圖;
圖2為本發(fā)明實(shí)施例的麥克風(fēng)反射罩示意圖;
圖3為本發(fā)明實(shí)施例的5元麥克風(fēng)陣列及其與微處理器連接電路圖;
圖4為本發(fā)明實(shí)施例的波束掃描原理示意圖;
圖5為本發(fā)明實(shí)施例的攝像頭與微處理器連接電路圖。
具體實(shí)施方式
為了使本發(fā)明的技術(shù)內(nèi)容、特征、優(yōu)點(diǎn)更加明顯易懂,以下實(shí)施例將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
所述聲像聯(lián)合定位的陣列式遠(yuǎn)距離語(yǔ)音采集裝置實(shí)施例中麥克風(fēng)陣列由5個(gè)等間距排列的麥克風(fēng)(m0,m1,…,m4)組成麥克風(fēng)線(xiàn)列陣,陣列中各麥克風(fēng)安裝有圖2所示反射罩,反射罩的反射面與中軸線(xiàn)成45度,反射罩材料為不銹鋼以適應(yīng)本發(fā)明裝置的室外安裝使用,本實(shí)施例中為了聚焦遠(yuǎn)距離語(yǔ)音,設(shè)置發(fā)射罩直徑d0=40cm。麥克風(fēng)陣列獲得的語(yǔ)音信號(hào)利用波束掃描算法進(jìn)行波束掃描獲取遠(yuǎn)距離語(yǔ)音和噪聲的方向分布信息。
麥克風(fēng)陣列由麥克風(fēng)及硬件電路組成,其中麥克風(fēng)陣列由體積小、結(jié)構(gòu)簡(jiǎn)單、電聲性能好的全向麥克風(fēng)m0,…,m4,NJM2100運(yùn)算放大器芯片構(gòu)成的前置放大電路及MAX118模數(shù)轉(zhuǎn)換芯片構(gòu)成(如圖3所示),在本實(shí)施例中,為了采集遠(yuǎn)距離語(yǔ)音,設(shè)置麥克風(fēng)間距d=40cm。
波束掃描模塊、聲像聯(lián)合處理模塊、波束對(duì)準(zhǔn)與增強(qiáng)模塊、目標(biāo)選定模塊等組成模塊均屬于數(shù)字信號(hào)處理模塊,在本實(shí)施例中采用ARM9 S3C2440微處理器進(jìn)行軟件編程實(shí)現(xiàn)。
麥克風(fēng)陣列與微處理器的連接方式為:麥克風(fēng)陣列中5個(gè)麥克風(fēng)輸出信號(hào)經(jīng)過(guò)圖2所示運(yùn)算放大器構(gòu)成的2級(jí)前置放大電路放大后輸入多通道模數(shù)轉(zhuǎn)換芯片MAX118,S3C2440微處理器通過(guò)IO口GPB2,3,4控制MAX118的輸入通道端A1、A2、A3,通過(guò)定時(shí)器輸出腳TOUT0、TOUT1控制MAX118的讀出/寫(xiě)入端口WR、RD進(jìn)行采樣頻率16ksps的模數(shù)轉(zhuǎn)換,通過(guò)數(shù)據(jù)線(xiàn)DATA0至DATA7進(jìn)行8bit模數(shù)轉(zhuǎn)換結(jié)果到S3C2440微處理器的傳送。
所述聲像聯(lián)合定位的陣列式遠(yuǎn)距離語(yǔ)音采集裝置實(shí)施例中多通道語(yǔ)音信號(hào)模數(shù)轉(zhuǎn)換進(jìn)入微處理器后,以軟件編程形式運(yùn)行的各數(shù)字信號(hào)處理模塊間的數(shù)據(jù)、控制流連接方式如圖3所示,具體說(shuō)明如下:
波束掃描模塊通過(guò)對(duì)麥克風(fēng)陣列各通道信號(hào)時(shí)延進(jìn)行逐次時(shí)延調(diào)整后疊加以獲得不同的波束對(duì)應(yīng)的波束成形信號(hào)。波束掃描原理結(jié)合圖3具體說(shuō)明如下:在本發(fā)明實(shí)施例中,以5元麥克風(fēng)線(xiàn)陣所在水平線(xiàn)為X軸,以5元麥克風(fēng)線(xiàn)陣中間的麥克風(fēng)m2位置為坐標(biāo)原點(diǎn)建立定位坐標(biāo)系,線(xiàn)陣各陣元間距為d。以本實(shí)施例線(xiàn)陣的中心陣元麥克風(fēng)m2作為基準(zhǔn)進(jìn)行波束掃描:即,m2接收的語(yǔ)音信號(hào)不作時(shí)延補(bǔ)償,線(xiàn)陣中其余通道麥克風(fēng)接收的語(yǔ)音信號(hào)xi進(jìn)行如下時(shí)延補(bǔ)償計(jì)算后得到x’i(如圖4所示):
x′i(k,j)=xi(k′);
其中i為線(xiàn)陣中各通道的編號(hào);取波束掃描間隔為1.25度,則對(duì)麥克風(fēng)線(xiàn)陣前方180度范圍進(jìn)行掃描需掃描144次,左右各掃描72次,即j=0,±1,±2,±3,...±72代表波束掃描序號(hào);θj為每次時(shí)延調(diào)整后形成的掃描波束,C為空氣中的聲速(本實(shí)施例中取340m/s),fs為麥克風(fēng)陣列語(yǔ)音信號(hào)的采樣頻率(單位為Hz,在本實(shí)施例中取16000Hz),round()代表取整運(yùn)算。則逐次時(shí)延補(bǔ)償后對(duì)各通道語(yǔ)音信號(hào)x’i進(jìn)行疊加即可實(shí)現(xiàn)正、負(fù)90度范圍(本實(shí)施例中對(duì)麥克風(fēng)線(xiàn)陣前方180度范圍進(jìn)行波束掃描)的波束掃描,在計(jì)算窗長(zhǎng)L內(nèi)(本實(shí)施例中L=800)對(duì)接收的含噪語(yǔ)音進(jìn)行波束掃描可獲得包含遠(yuǎn)距離語(yǔ)音聲源、噪聲源方向的正、負(fù)90度范圍波束信息E(θj),j=0,±1,±2,±3,...±7。
監(jiān)控?cái)z像頭視頻采集:由于監(jiān)控?cái)z像頭視頻采集為本領(lǐng)域通用技術(shù),本發(fā)明實(shí)施例中不對(duì)這部分展開(kāi)具體描述,本實(shí)施例采用本領(lǐng)域通用的帶有0V9650芯片的CMOS攝像頭進(jìn)行遠(yuǎn)距離視頻采集,攝像頭采集的視頻圖像通過(guò)本領(lǐng)域通用的USB接口輸入S3C2440微處理器進(jìn)行聲像聯(lián)合處理。
聲像聯(lián)合處理:聲像聯(lián)合處理步驟對(duì)分別由麥克風(fēng)陣列和攝像頭獲取的波束 掃描結(jié)果和視頻圖像進(jìn)行聲學(xué)聯(lián)合處理,在S3C2440微處理器中將波束掃描獲得的波束信息根據(jù)攝像頭視場(chǎng)進(jìn)行坐標(biāo)變換。本實(shí)施例中OV9650攝像頭為定焦攝像頭(視頻圖像格式設(shè)置為640×320,幀率15fps)。本實(shí)施例采用OV9650攝像頭監(jiān)控的距離60米遠(yuǎn)的固定場(chǎng)所,以攝像頭中軸線(xiàn)為中心,測(cè)量得到OV9650攝像頭視場(chǎng)中60米距離處作為監(jiān)控目標(biāo)的固定場(chǎng)所對(duì)應(yīng)的水平角度為±45度。則進(jìn)行如下坐標(biāo)轉(zhuǎn)換將波束掃描結(jié)果轉(zhuǎn)換為聲像聯(lián)合處理中攝像頭視場(chǎng)范圍內(nèi)對(duì)應(yīng)的波束數(shù)據(jù):
具體地,通過(guò)聲像聯(lián)合處理后顯示屏以紅色高亮曲線(xiàn)在640×320視頻圖像顯示的最下角顯示坐標(biāo)轉(zhuǎn)換后圖像信息中對(duì)應(yīng)角度的聲能量波束情況,監(jiān)控操作人員可以方便地根據(jù)圖像和聲能量波束的聯(lián)合處理顯示選定需要采集的是說(shuō)話(huà)人的語(yǔ)音。經(jīng)過(guò)聲像處理坐標(biāo)變換后,將獲得的攝像頭視場(chǎng)范圍內(nèi)對(duì)應(yīng)的波束數(shù)據(jù)利用本領(lǐng)域通用的內(nèi)插算法計(jì)算得到320點(diǎn)波束曲線(xiàn),并疊加在攝像頭獲取圖像數(shù)據(jù)中將320點(diǎn)波束曲線(xiàn)以紅色高亮曲線(xiàn)表示。
聲像聯(lián)合顯示:將聲像處理后的攝像頭疊加波束曲線(xiàn)數(shù)據(jù)送入本領(lǐng)域通用的監(jiān)控顯示屏中,則可保證本實(shí)施例中OV9650攝像頭視場(chǎng)內(nèi)60米距離處場(chǎng)所對(duì)應(yīng)的±45度水平范圍內(nèi)噪聲、信號(hào)能量分布情況直觀地以紅色高亮曲線(xiàn)的方式疊加顯示在640×320顯示屏上。
目標(biāo)選定:操作人員通過(guò)直接觀察640×320監(jiān)控圖像,可以同時(shí)看到監(jiān)控圖像中60米距離處人員圖像以及對(duì)應(yīng)視場(chǎng)內(nèi)的語(yǔ)音、噪聲能量波束,特別在視場(chǎng)內(nèi)有多人,多車(chē)輛或其他噪聲源時(shí),操作人員可以方便地根據(jù)視頻圖像和聲音波束曲線(xiàn)聯(lián)合確定目標(biāo)說(shuō)話(huà)人,并利用鼠標(biāo)進(jìn)行目標(biāo)說(shuō)話(huà)人的確定。鼠標(biāo)確定目標(biāo)說(shuō)話(huà)人后,利用本領(lǐng)域通用技術(shù),可以將屏幕上鼠標(biāo)確定點(diǎn)的水平坐標(biāo)位置z轉(zhuǎn)換為對(duì)應(yīng)的目標(biāo)角度θt。轉(zhuǎn)換具體原理為:
波束對(duì)準(zhǔn)與增強(qiáng):在本實(shí)施例中,通過(guò)聲像聯(lián)合定位確定遠(yuǎn)距離目標(biāo)說(shuō)話(huà)人方向后,將麥克風(fēng)陣列各通道信號(hào)按照目標(biāo)角度θt計(jì)算相應(yīng)的各通道時(shí)延值進(jìn) 行補(bǔ)齊,對(duì)補(bǔ)齊后的各通道信號(hào)加權(quán)疊加,得到對(duì)準(zhǔn)目標(biāo)說(shuō)話(huà)人的波束形成輸出信號(hào),從而獲取遠(yuǎn)距離增強(qiáng)語(yǔ)音;
語(yǔ)音采集:利用本領(lǐng)域通用技術(shù)對(duì)波束對(duì)準(zhǔn)和增強(qiáng)后的遠(yuǎn)距離語(yǔ)音進(jìn)行采集,并保持在設(shè)定的存儲(chǔ)介質(zhì)中。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明。本發(fā)明公開(kāi)的聲像聯(lián)合定位的陣列式遠(yuǎn)距離語(yǔ)音采集裝置最大的特點(diǎn)在于結(jié)合反射罩麥克風(fēng)陣列提供的噪聲語(yǔ)音方向信息與監(jiān)控?cái)z像頭提供的目標(biāo)視頻圖像聯(lián)合定位獲取遠(yuǎn)距離目標(biāo)說(shuō)話(huà)人,克服了傳統(tǒng)方法在遠(yuǎn)距離、存在環(huán)境噪聲條件下不易確定目標(biāo)說(shuō)話(huà)人的缺點(diǎn),特別是通過(guò)聲像聯(lián)合定位確定目標(biāo)說(shuō)話(huà)人方向后,結(jié)合反射罩和麥克風(fēng)陣列語(yǔ)音增強(qiáng)算法可進(jìn)一步抑制環(huán)境噪聲的影響,改善遠(yuǎn)距離語(yǔ)音采集性能。