欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息處理裝置和信息處理方法與流程

文檔序號:12696191閱讀:195來源:國知局
信息處理裝置和信息處理方法與流程

本發(fā)明涉及一種信息處理裝置和信息處理方法。



背景技術:

迄今為止,用于聲音檢測和語音識別的技術被應用于各種領域并且正在被使用。例如,已經提出了作為控制接口的應用,例如,移動電話、個人計算機(PC)或汽車導航系統(tǒng)。日本特開2014-137323號公報描述了一種異常診斷裝置,其被構造為,根據對象物的圖像和收集到的聲壓信號計算分布并將聲壓圖(sound pressure map)疊加在圖像上,以診斷異常區(qū)域。

然而,在諸如語音識別等的技術中,需要適當地實施諸如收集聲音的麥克風的音量增益等的設置,并且,用戶需要調整麥克風的設置。例如,在用戶期望在特定區(qū)域中進行語音識別的情況下,用戶需要提取該區(qū)域的代表點,并且在代表點處生成測試聲音,以進行諸如音量增益等的設置。即使當進行上述調整時,用戶期望進行語音識別的區(qū)域也可能會偏離實際上能夠進行適當語音識別的區(qū)域,結果是,在一些情況下不能獲得用戶期待的語音識別的精度等。



技術實現(xiàn)要素:

為了支持用于進行用戶的聲音檢測處理的設置操作,例如,一種信息處理裝置包括以下結構。

也就是說,根據本發(fā)明的一個方面的一種信息處理裝置包括:獲得單元,其被構造為獲得由攝像單元拍攝的圖像;檢測單元,其被構造為根據由聲音收集單元獲得的音頻數據檢測與檢測目標相對應的目標聲音;區(qū)域估計單元,其被構造為基于所述聲音收集單元的方向性和與產生目標聲音的目標聲源的位置相距的距離中的至少一者,估計由拍攝圖像表示的區(qū)域中的能夠檢測到所述目標聲音的可檢測區(qū)域;以及生成單元,其被構造為生成表示所述可檢測區(qū)域的區(qū)域圖像。

根據下面參照附圖對示例性實施例的描述,本發(fā)明的其他的特征將變得清楚。

附圖說明

圖1示出監(jiān)視系統(tǒng)的硬件結構。

圖2示出信息處理裝置的軟件結構。

圖3A和圖3B是用于描述坐標系的說明圖。

圖4是用于描述特性信息和安裝信息的說明圖。

圖5是示出檢測異常聲音的設置處理的流程圖。

圖6A至圖6C示出顯示畫面的示例。

圖7示出根據變形例的監(jiān)視系統(tǒng)。

圖8示出根據第二示例性實施例的信息處理裝置的軟件結構。

圖9是示出級別比估計值梯度估計處理的流程圖。

圖10示出根據第三示例性實施例的信息處理裝置的軟件結構。

圖11示出區(qū)域圖像的示例。

圖12A至圖12C是用于更詳細地描述可檢測區(qū)域的說明圖。

圖13A和圖13B示出可檢測區(qū)域的其它顯示示例。

具體實施方式

在下文中,將參照附圖描述本發(fā)明的示例性實施例。

第一示例性實施例

圖1示出根據第一示例性實施例的監(jiān)視系統(tǒng)100的硬件結構。監(jiān)視系統(tǒng)100是被構造為進行監(jiān)視以便檢測異常聲音的系統(tǒng)。在監(jiān)視區(qū)域中產生諸如尖叫或吼叫的異常聲音的情況下,監(jiān)視系統(tǒng)100將該聲音檢測為異常聲音,并向諸如監(jiān)視代理的用戶通知該事件。監(jiān)視系統(tǒng)100包括與攝像裝置的示例相對應的照相機110、以及信息處理裝置120。

照相機110拍攝監(jiān)視區(qū)域的視頻,并將該視頻發(fā)送到信息處理裝置120。照相機110還收集聲音并將音頻數據發(fā)送到信息處理裝置120。信息處理裝置120顯示接收到的視頻。另外,信息處理裝置120根據音頻數據確定異常聲音的存在或不存在。在產生了異常聲音的情況下,信息處理裝置120進行通知用戶產生了異常聲音的處理。信息處理裝置120還估計可以進行異常聲音的檢測的區(qū)域,并將估計的可檢測區(qū)域疊加在要顯示的視頻上。

照相機110包括攝像單元111、圖像處理單元112、麥克風113、CPU 114、ROM 115、RAM 116和通信單元117。攝像單元111包括由被構造為將光學圖像轉換為電信號的CCD或CMOS元件構成的圖像拾取元件、透鏡組、快門等,并且拍攝監(jiān)視區(qū)域的視頻。圖像處理單元112進行諸如像素插值處理或顏色轉換處理的圖像處理。麥克風113包括放大電路和控制單元,并且收集環(huán)境聲音。

CPU 114讀出存儲在ROM 115中的控制程序,并執(zhí)行各種處理。RAM 116用作臨時存儲區(qū)域,例如,CPU 114的主存儲器或工作區(qū)域。應當注意,當CPU 114讀出存儲在ROM 115中的程序并執(zhí)行該程序時,實現(xiàn)將在下面描述的照相機110的功能和處理。通信單元117經由網絡與諸如信息處理裝置120等的外部裝置進行通信。

信息處理裝置120包括CPU 121、ROM 122、RAM 123、HDD 124、顯示單元125、輸入單元126和通信單元127。CPU 121、ROM 122、RAM 123和通信單元127分別類似于CPU 114、ROM 115、RAM 116和通信單元117。HDD 124存儲諸如圖像數據和各種程序等的各種信息。顯示單元125顯示各種信息。輸入單元126包括鍵盤和鼠標并且接受用戶的各種操作。

圖2示出信息處理裝置120的軟件結構。通信處理單元200控制與外部裝置的通信。通信處理單元200從照相機110接收例如音頻數據、視頻數據和攝像信息。攝像信息包括搖攝角、傾斜角和視角。特征量提取單元201(檢測單元)基于從照相機110輸入的音頻數據來提取聲音的特征量。這里,將聲音的基本頻率、共振峰頻率、頻譜、根據倒譜獲得的梅爾頻率倒譜系數(MFCC)、零交叉、子帶能量等表示為特征量。關于各個聲學模型的各個特征量的概率分布被登記在特征量數據庫(DB)202中。這里,聲學模型是通過對與目標聲音相對應的尖叫、吼叫、其它背景聲音(例如商店的環(huán)境聲音)等進行學習和建模而獲得的。

似然度計算單元203計算輸入音頻數據的特征量向量相對于在特征量DB 202中登記的各個聲學模型的各個特征量向量的似然度。隨后,似然度計算單元203將包括檢測結果的模型候選的N最佳結果和似然度計算的得分發(fā)送到異常聲音確定單元204。異常聲音確定單元204選擇在似然度計算單元203中獲得的最高候選(top candidate)作為檢測結果。在所選擇的候選是被登記為異常聲音的聲音并且其得分超過預定閾值的情況下,異常聲音判斷單元204確定發(fā)生了異常,并將表示發(fā)生了異常的事件發(fā)送到顯示處理單元205(顯示控制單元)。顯示處理單元205顯示各種信息。當顯示處理單元205接收到事件時,例如,顯示處理單元205為用戶在顯示單元125上顯示表示發(fā)生了異常的信息。

麥克風數據庫(DB)206存儲表示照相機110的麥克風113(聲音收集單元)的靈敏度方向性的特性信息和與麥克風113的安裝位置相關的安裝信息。特性信息是在如下情況下以1度為單位表示各個位置的相對靈敏度值的信息:在原點被設置于麥克風113的中心上的三維球面坐標系中,對于關于垂直軸的傾斜角θ和在水平面內的傾斜角的最高靈敏度被設置為1。通常,笛卡爾坐標系和三維極坐標系之間的比例因子關系由式(1)表示。

圖3A示出三維笛卡爾坐標系和三維極坐標系之間的關系。如圖3B所示,特性信息的θ和對應于這樣的坐標系,其中,將具有最佳靈敏度特性的平面設置為xy平面,并且將平面中具有最佳靈敏度特性的方向設置為x軸。在下文中,將該坐標系稱為麥克風相對坐標系。這里,圖3B中右側的圖中的虛線圓D1_1是其中相對靈敏度值為作為最大值的1的圓,并且,閉合曲線D1_2表示在由傾斜角θ=θ0切割的平面上的相對麥克風靈敏度值。如圖4所示,參照圖3B描述的相對麥克風靈敏度值作為麥克風的特性信息登記在麥克風DB 206中。

另一方面,這樣定義笛卡爾坐標系,其中,攝像單元111的中心位于原點,照相機110的光軸被設置為x軸,在平行于攝像平面的平面中垂直于x軸的軸被設置為y軸,并且,垂直于上述x軸和y軸的軸被設置為z軸。在下文中,將該坐標系稱為照相機絕對坐標系。麥克風113的安裝信息包括如從照相機絕對坐標系觀看的麥克風相對坐標系的原點的位置和麥克風相對坐標系中的x軸、y軸和z軸的方向上的單位向量。因此,在使用安裝信息的同時,可以實現(xiàn)從麥克風相對坐標系到照相機絕對坐標系的變換。

根據本示例性實施例,麥克風113內置在照相機110中,并且,將麥克風113的安裝信息和特性信息預先登記在麥克風DB 206中。然而,應當注意,代替麥克風113,可以使用外部麥克風來檢測異常聲音。在這種情況下,輸入單元126接受該外部麥克風的安裝信息和特性信息的用戶輸入,并且CPU 121將該外部麥克風的安裝信息和特性信息登記在麥克風DB 206中。

將再次參照圖2給出描述。檢測概率數據庫(DB)207(存儲單元)存儲聲壓與檢測概率相關聯(lián)的對應表。這里,聲壓是在預定聲源中產生的聲音的聲壓。根據本示例性實施例,聲壓是來自位于與麥克風113相距10m遠的位置處的聲源的聲音的聲壓。檢測概率是在檢測相應聲壓的聲音的嘗試次數中的成功檢測的比率。應當注意,隨著聲壓越高,檢測概率越高。因此,更高的檢測概率與更高的聲壓相關聯(lián)。

聲壓估計單元208經由通信處理單元200從照相機110獲得視頻數據(拍攝圖像)。聲壓估計單元208還經由通信處理單元200從照相機110獲得攝像信息,并且還從麥克風DB 206獲得麥克風113的特性信息和設置信息。聲壓估計單元208基于這些信息來計算拍攝圖像中的各點的聲壓估計值。在下文中,將各點的聲壓估計值的集合稱為聲壓估計值梯度。下面將詳細描述聲壓估計單元208的處理。

轉換單元209參照檢測概率DB 207,并且,將由聲壓估計單元208獲得的各點的聲壓估計值轉換為檢測概率。區(qū)域估計單元210將檢測概率高于或等于閾值的區(qū)域估計為異常聲音的可檢測區(qū)域。區(qū)域圖像生成單元211(生成單元)生成表示可檢測區(qū)域的區(qū)域圖像。應當注意,區(qū)域圖像由顯示處理單元205疊加在視頻數據上并顯示在顯示單元125上。接受單元212接受經由輸入單元126從用戶輸入的指令。

圖5是示出由信息處理裝置120進行的異常聲音檢測的設置處理的流程圖。在S501中,聲壓估計單元208經由通信處理單元200獲得拍攝圖像(由獲得單元進行的獲得處理)。接下來,在S502中,聲壓估計單元208計算聲壓估計值梯度。這里,聲壓估計值梯度是拍攝圖像中的各點的聲壓估計值的集合。聲壓估計單元208獲得照相機絕對坐標中的光軸的取向和攝像視角作為攝像信息。然后,聲壓估計單元208基于照相機絕對坐標中的光軸的取向、攝像視角和麥克風113的安裝信息,將攝像視角變換為照相機絕對坐標系中的坐標值(x,y)。具體地,聲壓估計單元208通過式(2)進行坐標變換。應該注意,l表示焦距。

此外,聲壓估計單元208基于麥克風113的安裝信息將照相機絕對坐標系中的坐標值變換為麥克風相對坐標系中的坐標值。隨后,聲壓估計單元208參照麥克風113的特性信息,并且在如下情況下計算拍攝圖像中的各點的聲壓估計值:在預定方向上與麥克風113相距10m遠的位置處產生聲壓為85dB[SPL(sound pressure level,聲壓級)]的聲音。這里,拍攝圖像中的各點是與麥克風113相距10m遠的多個位置。本處理是對拍攝圖像中的與麥克風113相距預定距離的區(qū)域中的多個位置處的聲壓進行估計的聲壓估計處理的示例。聲壓估計單元208將各點的坐標處的聲壓估計值彼此相關聯(lián)以記錄在HDD 124等中。應當注意,麥克風113的位置和聲壓不限于例舉的實施例。

接著,在S503中,轉換單元209參照檢測概率DB 207,并將在S502中獲得的各聲壓估計值轉換為檢測概率(轉換處理)。接下來,在S504中,區(qū)域估計單元210估計可檢測區(qū)域(區(qū)域估計處理)。具體地,區(qū)域估計單元210將檢測概率高于或等于閾值的區(qū)域估計為可檢測區(qū)域。根據本示例性實施例,閾值被設置為90%,但是,對閾值沒有特別的限制。

接下來,在S505中,區(qū)域圖像生成單元211生成表示可檢測區(qū)域的區(qū)域圖像(生成處理)。區(qū)域圖像生成單元211生成例如以黃色著色的可檢測區(qū)域的圖像作為區(qū)域圖像。接下來,在S506中,顯示處理單元205將區(qū)域圖像疊加在視頻數據上,并將其顯示在顯示單元125上(顯示控制處理)。顯示處理單元205生成區(qū)域圖像例如以α=0.3的比率進行了α混合的疊加圖像,并將該圖像顯示在顯示單元125上。

圖6A示出在S506中在顯示單元125上顯示的顯示畫面600的示例。顯示畫面600顯示疊加圖像610以及操作條621和622。在疊加圖像610上顯示表示可檢測區(qū)域的邊界線613。在邊界線613的外側顯示視頻數據(拍攝圖像)612。區(qū)域圖像疊加在邊界線613的內側上的視頻數據612上。也就是說,在邊界線613的內側示出的區(qū)域是當在與麥克風113相距10m遠的距離處產生85dB[SPL(聲壓級)]的異常聲音時以90%的概率可檢測到異常聲音的區(qū)域。用戶通過視覺檢查疊加圖像610,使得可以檢查與異常聲音的檢測目標相對應的區(qū)域是否被包括在可檢測區(qū)域中。

操作條621是用于輸入與麥克風113相距的距離(投影距離)的用戶界面,并且,操作條622是用于輸入用于估計可檢測區(qū)域的檢測概率的閾值的用戶界面。當調整操作條621和622的按鈕時,用戶可以向信息處理裝置120輸入投影距離和檢測概率的閾值的改變指令。

表示可檢測區(qū)域的邊界線613根據變焦倍率而改變。圖12A示出變焦倍率為遠攝時的狀態(tài),并且,圖12B示出變焦倍率為廣角時的狀態(tài)。這里,將遠攝時的變焦倍率設置為Z1,并將廣角時的變焦倍率設置為Z2。如圖12C所示,可以通過包括x'=x×(Z1/Z2)和y'=y(tǒng)×(Z1/Z2)的兩個式子變換廣角時的邊界線613中的各個坐標(x,y)來獲得遠攝時的邊界線中的各個坐標值(x',y')。

將再次參照圖5給出描述。在S506中的處理之后,CPU 121使處理進入S507。在S507中,聲壓估計單元208檢查攝像信息是否改變。在攝像信息改變的情況下(S507:是),聲壓估計單元208使處理進入S501。在攝像信息沒有改變的情況下(S507:否),聲壓估計單元208使處理進入S508。在S508中,接受單元212檢查是否接受了投影距離的改變指令(接受處理)。在接受投影距離的改變指令的情況下(S508:是),接受單元212使處理進入S509。在沒有接受投影距離的改變指令的情況下(S508:否),接受單元212使處理進入S511。

在S509中,區(qū)域估計單元210基于與改變指令相關的投影距離來改變可檢測區(qū)域。根據本示例性實施例,接受單元212通過式(3)將可檢測區(qū)域的邊界線的坐標(x,y)變換為坐標(x',y')。也就是說,坐標(x',y')是變換后的坐標。另外,z表示改變之后的距離。

接下來,在S510中,區(qū)域圖像生成單元211生成表示改變之后的可檢測區(qū)域的區(qū)域圖像。本處理類似于S505中的處理。此后,CPU 121使處理進入S506。

在S511中,接受單元212檢查是否接受了檢測概率的閾值的改變指令(接受處理)。在接受閾值的改變指令的情況下(S511:是),接受單元212使處理進入S512。在沒有接受閾值的改變指令的情況下(S511:否),接受單元212使處理進入S514。在S512中,區(qū)域圖像生成單元211基于與改變指令相關的閾值來改變可檢測區(qū)域。接下來,在S513中,區(qū)域估計單元210生成表示改變之后的可檢測區(qū)域的區(qū)域圖像。本處理類似于S505中的處理。此后,CPU 121使處理進入S506。在S514中,接受單元212檢查是否接受了根據用戶輸入的結束指令。在接受結束指令的情況下(S514:是),接受單元212結束處理。在沒有接受結束指令的情況下(S514:否),接受單元212使處理進入S507。

圖6B示出在投影距離改變?yōu)殚L于10m的距離的情況下的疊加圖像610。在圖6B的示例中,可檢測區(qū)域變小。圖6C示出在檢測概率的閾值改變?yōu)檩^低值的情況下的疊加圖像610。在圖6C的示例中,可檢測區(qū)域613變大。以這種方式,根據本示例性實施例的信息處理裝置120可以根據檢測概率的閾值和投影距離來顯示可檢測區(qū)域。

根據本示例性實施例,由于監(jiān)視系統(tǒng)100如上所述顯示可檢測區(qū)域,因此可以簡化用戶的設置操作并減少設置錯誤。此外,由于用戶可以在進行了適當的設置之后進行異常聲音檢測,所以可以提高異常聲音檢測的檢測精度。

作為第一示例性實施例的第一變形例,與信息處理裝置120的檢測目標相對應的目標聲音不限于異常聲音。目標聲音可以是具有預定頻率的聲音。另外,目標聲音可以是特定詞或短語被可聽地識別的這樣的聲音。也就是說,在這種情況下,在信息處理裝置120通過語音識別檢測到特定詞或短語時就足夠了。

作為第二變形例中,區(qū)域估計單元210可設置多個檢測概率作為閾值,例如,90%的檢測概率,80%的檢測概率和60%檢測概率,并且,區(qū)域估計單元210可估計對應于各個閾值的多個可檢測區(qū)域。另外,區(qū)域圖像生成單元211可生成表示可檢測區(qū)域的多個區(qū)域圖像。

作為第三變形例中,表示可檢測區(qū)域的區(qū)域圖像并不限于示例性實施例。例如,區(qū)域圖像可以是三維地表示可檢測區(qū)域的圖像。

作為第四變形例中,信息處理裝置120的處理可以通過多個裝置來執(zhí)行。例如,信息處理裝置120的處理可以由圖7所示的管理裝置700和客戶端裝置710執(zhí)行。應當注意,圖7所示的管理裝置700和客戶端裝置710的硬件結構與參照圖1描述的信息處理裝置120的硬件結構類似。然而,應當注意,管理裝置700可以省略顯示單元125。

管理裝置700包括通信處理單元200、特征量提取單元201、特征量DB 202、似然度計算單元203、異常聲音確定單元204、麥克風DB 206、檢測概率DB 207、聲壓估計單元208、轉換單元209和區(qū)域估計單元210。各個單元的功能類似于根據第一示例性實施例描述的各個單元的功能。管理裝置700還包括元數據生成單元701。根據本示例性實施例,由異常聲音確定單元204生成的事件被發(fā)送到通信處理單元200。隨后,通信處理單元200(發(fā)送單元)將該事件發(fā)送到客戶端裝置710。

元數據生成單元701生成表示由區(qū)域估計單元210估計出的可檢測區(qū)域的元數據。具體地,元數據生成單元701生成檢測概率高于或等于閾值的坐標組作為元數據。隨后,通信處理單元200將該元數據發(fā)送到客戶端裝置710。

客戶端裝置710包括通信處理單元711、顯示處理單元712、區(qū)域圖像生成單元713和接受單元714。通信處理單元711控制與外部裝置的通信。例如,通信處理單元711從管理裝置700接收視頻數據、上述元數據、事件等。區(qū)域圖像生成單元713基于元數據生成區(qū)域圖像。這里生成的區(qū)域圖像是與由根據第一示例性實施例的區(qū)域圖像生成單元211生成的區(qū)域圖像相同的圖像。

顯示處理單元712以如下方式進行控制,將由區(qū)域圖像生成單元713生成的區(qū)域圖像疊加在經由通信處理單元711從管理裝置700接收到的視頻數據(拍攝圖像)上來顯示。在通信處理單元711接收到事件的情況下,顯示處理單元712基于該事件控制,以顯示表示已經產生異常聲音的信息。

與根據第一示例性實施例的接受單元212中類似,接受單元714接受投影距離的改變指令和檢測概率的改變指令。這些指令經由通信處理單元711發(fā)送到管理裝置700。隨后,區(qū)域估計單元210根據改變指令改變可檢測區(qū)域。然后,元數據生成單元701生成表示改變之后的可檢測區(qū)域的元數據。生成的元數據被發(fā)送到客戶端裝置710。區(qū)域圖像生成單元713生成表示與改變指令相關的可檢測區(qū)域的區(qū)域圖像,并且,顯示處理單元712顯示包括改變之后的區(qū)域圖像的疊加圖像。

第二示例性實施例

接下來,將描述根據第二示例性實施例的監(jiān)視系統(tǒng)。在根據第二示例性實施例的監(jiān)視系統(tǒng)中,信息處理裝置基于由麥克風113收集的音頻數據生成區(qū)域圖像。在下文中,將描述根據第二示例性實施例的監(jiān)視系統(tǒng)與根據第一示例性實施例的監(jiān)視系統(tǒng)100的不同方面。圖8示出根據第二示例性實施例的信息處理裝置130的軟件結構。信息處理裝置130包括通信處理單元200、特征量提取單元201、特征量DB 202、似然度計算單元203、異常聲音確定單元204和麥克風DB 206。信息處理裝置130還包括區(qū)域估計單元210、區(qū)域圖像生成單元211和接受單元212。各個單元的功能類似于根據第一示例性實施例描述的各個單元的功能。

信息處理裝置130還包括級別計算單元800、平均級別計算單元801、距離估計單元802、級別比估計單元803、檢測概率數據庫(DB)804(存儲單元)和轉換單元805。根據本示例性實施例,當確定已經產生異常聲音時,異常聲音確定單元204不僅將該事件發(fā)送到顯示處理單元205,而且還將其發(fā)送到平均級別計算單元801和距離估計單元802。級別計算單元800接收音頻數據的輸入,并計算音頻數據的振幅數據的平方和作為聲壓級。

平均級別計算單元801對由級別計算單元800(識別單元)計算出的聲壓級應用濾波器以獲得平均級別。然后,平均級別計算單元801存儲該平均級別。具體地,在從異常聲音確定單元204接收到事件通知的情況下,平均級別計算單元801進行目標聲音平均化濾波器(主IIR)的應用。具體地,在從異常聲音確定單元204沒有接收到事件通知的情況下,平均級別計算單元801進行背景聲音平均化濾波器(主IIR)的應用。這里,例如,目標聲音平均化濾波器的系數被設置為0.96,背景聲音平均化濾波器的系數被設置為0.96。

距離估計單元802獲得視頻數據(拍攝圖像),并將該視頻數據與先前存儲在HDD 124等中的聲源圖像進行比較,以識別例如聲源的安裝位置。為了識別聲源,距離估計單元802使用模板匹配。距離估計單元802還控制照相機110。距離估計單元802控制照相機110以拍攝其中聚焦在識別的位置上的圖像,并且根據此時的攝像條件估計識別的位置和照相機110之間的距離。

級別比估計單元803經由通信處理單元200從照相機110獲得視頻數據(拍攝圖像)。聲壓估計單元208還經由通信處理單元200從照相機110獲得攝像信息,并且還從麥克風DB 206獲得麥克風113的特性信息和設置信息。聲壓估計單元208基于這些信息,計算拍攝圖像中的各點處的背景聲音和目標聲音的平均級別的比率的估計值(級別比估計值)。在下文中,將各點的級別比估計值的集合稱為級別比估計值梯度。下面將詳細描述聲壓估計單元208的處理。檢測概率DB 804存儲聲壓的級別比與檢測概率相關聯(lián)的對應表。轉換單元805參照檢測概率DB 804,并且,將由級別比估計單元803獲得的各點的級別比估計值轉換為檢測概率。

根據本示例性實施例的信息處理裝置130進行級別比估計值梯度估計處理,而不是根據第一示例性實施例描述的聲壓估計值梯度估計處理(S502)。圖9是示出級別比估計值梯度估計處理的流程圖。在S901中,級別計算單元800計算音頻數據的振幅數據的平方和作為聲壓級。本處理是識別聲壓級的識別處理的示例。接下來,在S902中,平均級別計算單元801檢查是否產生異常聲音。在產生異常聲音的情況下(S902:是),平均級別計算單元801使處理進入S903。在沒有產生異常聲音的情況下(S902:否),平均級別計算單元801使處理進入S906。在S903中,距離估計單元802識別目標聲源并估計識別的聲源與照相機110之間的距離。接下來,在S904中,平均級別計算單元801通過使用目標聲音平均化濾波器對被確定為異常聲音(目標聲音)的音頻數據的聲壓級進行平均。

接下來,在S905中,級別比估計單元803通過使用在S904中計算出的目標聲音的平均聲壓級和麥克風113的特性信息,計算拍攝圖像中的各點處的目標聲音的聲壓級估計值。在下文中,目標聲音的聲壓級估計值將被稱為目標聲級估計值。另外,將各點的目標聲級估計值的集合稱為目標聲級估計值梯度。級別比估計單元803將目標聲級估計值梯度記錄在諸如RAM 123的存儲單元中。具體地,級別比估計單元803基于麥克風113的安裝信息將拍攝圖像的各點的坐標變換為照相機絕對坐標系的坐標以進一步變換為麥克風相對坐標系的坐標,并估計圖像中的聲壓級梯度。隨后,基于聲壓級梯度,由目標聲音的平均聲壓級計算拍攝圖像中的各個點處的目標聲級估計值。此時,級別比估計單元803在聲源坐標被設置為(x,y)=(0,0)且聲源距離被設置為Z的三維空間上切斷Z常數平面時,計算與畫面中的所有區(qū)域的聲源區(qū)域的距離。

此外,例如,級別比估計單元803基于式(4)估計在與聲源區(qū)域相距該距離的位置處產生目標聲音的情況下的聲壓級。

其中,L表示目標聲級估計值,L0表示目標聲音的平均聲壓級,Z表示離聲源的距離,并且(x,y)表示在聲源坐標被設置為原點(0,0)的情況下畫面中的坐標。此外,級別比估計單元803在目標聲級估計值上乘以例如Z2/100,以轉換成在10m的距離處的聲壓級。級別比估計單元803通過在上述估計的聲壓級上乘以圖像中的聲壓級梯度來計算目標聲音估計值。

另一方面,在S906中,平均級別計算單元801通過使用背景聲音平均化濾波器對被確定為背景聲音的音頻數據的聲壓級進行平均。接下來,在S907中,級別比估計單元803通過使用在S1006中計算出的背景聲音的平均聲壓級和麥克風113的特性信息,計算拍攝圖像中的各點處的背景聲音的聲壓級估計值。在下文中,背景聲音的聲壓級估計值將被稱為背景聲級估計值。這里,在拍攝圖像中的靈敏度最高的區(qū)域中接收到平均聲壓級的同時,級別比估計單元803計算背景聲級估計值。應當注意,級別比估計單元803假設背景聲音恒定不變且不依賴于距離,并且,使用麥克風113的特性信息通過乘以聲壓級梯度來計算背景聲級估計值,而不進行距離相關計算。在下文中,在各個點處的背景聲級估計值的集合將被稱為背景聲級估計值梯度。例如,平均級別估計單元801將背景聲級估計值梯度記錄在諸如RAM 123的存儲單元中。

接下來,在S908中,級別比估計單元803檢查是否獲得了目標聲級估計值梯度和背景聲級估計值梯度。在獲得目標聲級估計值梯度和背景聲級估計值梯度的情況下(S908:是),級別比估計單元803使處理進入S909。在沒有獲得目標聲級估計值梯度和背景聲級估計值梯度的情況下(S908:否),級別比估計單元803使處理進入S901。也就是說,在S908中,級別比估計單元803待機直到獲得了目標聲級估計值梯度和背景聲級估計值梯度。應當注意,在S901至S907被重復的情況下,如果信息處理裝置130僅進行在處理時尚未獲得的級別估計值梯度的估計則足夠了。另外,作為另一個例子,信息處理裝置130可以再次進行級別估計值梯度的估計,以被新獲得的級別估計值梯度覆蓋。

在S909中,級別比估計單元803計算在各個點處的目標聲級估計值與背景聲級估計值的比率。在下文中,目標聲級估計值與背景聲級估計值的比率將被稱為級別比估計值。另外,將在各點處的級別比估計值的集合稱為級別比估計值梯度。在S909中的處理之后,CPU 121使處理進入S503。應當注意,根據本示例性實施例中,在S503中,轉換單元805參照檢測概率DB 804并將在各點處的級別比估計值轉換為檢測概率(轉換處理)。結果是,級別比估計值梯度計算處理結束。應當注意,根據第二示例性實施例的信息處理裝置130的其他結構和處理類似于根據第一示例性實施例的監(jiān)視系統(tǒng)100的結構和處理。

如上所述,在根據第二示例性實施例的監(jiān)視系統(tǒng)100中,用戶也通過視覺檢查疊加圖像610,使得可以檢查與異常聲音的檢測目標相對應的區(qū)域是否被包含在可檢測區(qū)域中。結果是,可以簡化用戶的設置操作和減少設置錯誤。此外,由于用戶在進行了適當的設置之后進行異常聲音檢測,所以可以提高異常聲音檢測的檢測精度。

將描述第二示例性實施例的變形例。類似地,如根據第一示例性實施例所述的,信息處理裝置130可基于異常聲音的聲壓估計檢測概率,而不是基于級別比估計值來估計異常聲音。

第三示例性實施例

接下來,將描述根據第三示例性實施例的監(jiān)視系統(tǒng)。在根據第三示例性實施例的監(jiān)視系統(tǒng)中,信息處理裝置生成其中可檢測區(qū)域被投影于地面上的區(qū)域圖像。在下文中,將描述根據第三示例性實施例的監(jiān)視系統(tǒng)與根據第二示例性實施例的監(jiān)視系統(tǒng)100的不同方面。圖10示出根據第三示例性實施例的信息處理裝置140的軟件結構。區(qū)域估計單元1000基于檢測概率的多個閾值估計多個可檢測區(qū)域。根據本示例性實施例中,區(qū)域估計單元1000估計4個可檢測區(qū)域。具體地,區(qū)域估計單元1000使用對于在目標聲源中產生的參照聲音的檢測概率來估計可檢測區(qū)域。在下文中,對于基準聲音的檢測概率將被稱為基準檢測概率。區(qū)域估計單元1000還通過分別使用比基準檢測概率低10%和20%的檢測概率和比基準檢測概率高10%的檢測概率來估計可檢測區(qū)域。

信息處理裝置140還包括水平面檢測單元1001(提取單元)。水平面檢測單元1001基于拍攝圖像的顏色信息或邊緣信息來檢測地面,并從拍攝圖像提取地面區(qū)域(提取處理)。應當注意,相關領域的技術可用于地面檢測處理,并且,處理方法不限于示例性實施例。

麥克風DB 206存儲麥克風113的高度信息作為麥克風113的安裝信息。另外,作為另一個例子,麥克風113的高度可以由用戶輸入。區(qū)域圖像生成單元1002基于從麥克風113到聲源的距離和由麥克風113的安裝信息表示的麥克風113的高度信息來識別從麥克風113到各可檢測區(qū)域的邊界的水平距離。

區(qū)域圖像生成單元1002(投影單元)還基于聲源的位置信息識別聲源的位置到地面上的垂直投影位置(點P)。此外,區(qū)域圖像生成單元1002識別等距線作為其中可檢測區(qū)域被投影到地面區(qū)域上的區(qū)域的邊界線,并將該等距線設置為等距線L0,利用該等距線,離麥克風113的水平距離等于從麥克風113到地面上的點P的水平距離。此外,區(qū)域圖像生成單元1002識別檢測概率降低10%的水平距離、檢測概率降低20%的水平距離以及檢測概率增加10%的水平距離,并且,將各個水平距離設置為等距線L1、L2和L3。本處理是將可檢測區(qū)域投影到地面區(qū)域的投影處理的一個示例。

此外,區(qū)域圖像生成單元1002例如以R=16、G=16且B=16的顏色著色比等距線L3更靠近麥克風113的地面區(qū)域。區(qū)域圖像生成單元1002還例如以R=32、G=32且B=32的顏色著色夾于等距線L0和等距線L3之間的地面區(qū)域。區(qū)域圖像生成單元1002還例如以R=64、G=64且B=64的顏色對夾于等距線L1和等距線L0之間的地面區(qū)域著色。區(qū)域圖像生成單元1002還例如以R=128、G=128且B=128的顏色對夾于等距線L2和等距線L1之間的地面區(qū)域著色。區(qū)域圖像生成單元1002以R=255、G=255且B=255的顏色對遠離等距線L2的區(qū)域著色。通過上述處理,區(qū)域圖像生成單元1002生成地面著色圖像(區(qū)域圖像)。圖11示出區(qū)域圖像的示例。

顯示處理單元205將地面著色圖像疊加在視頻數據上。顯示處理單元205生成例如以α=0.3的比率進行了α混合的疊加圖像,并將該圖像顯示在顯示單元125上。應當注意,根據第三示例性實施例的信息處理裝置140的除此以外的結構和處理類似于根據第二示例性實施例的信息處理裝置130的結構和處理。

如上所述,根據本示例性實施例的信息處理裝置140可以將與檢測概率對應的區(qū)域投影到要顯示的地面上。因此,用戶可以更容易地理解檢測概率和距離之間的關系。結果是,可以簡化用戶的設置操作和減少設置錯誤。此外,由于用戶在進行了適當的設置之后進行異常聲音檢測,所以可以提高異常聲音檢測的檢測精度。

到此為止,已經詳細地描述了本發(fā)明的示例性實施例,但是,本發(fā)明并不限于上述的特定的示例性實施例,并且,可以在權利要求部分中所述的本發(fā)明的要旨內進行各種修改和替換。

例如,如圖13A中所示,表示可檢測區(qū)域613等的線可以被疊加在表示其中可通過在搖攝方向或傾斜方向上移動攝像單元111來進行攝像的整個范圍的全景圖像上。全景圖像是通過相互合成在搖攝方向和傾斜方向上順序地移動攝像單元111的同時拍攝的多個圖像而創(chuàng)建的。在麥克風113能夠收集在大于或等于攝像單元111的視角的大小的范圍內產生的聲音的情況下,本示例是有效的。

例如,如圖13B所示,將考慮通過以角度和相互合成在攝像單元111的攝像方向的水平方向上分別具有角度和的三個圖像而獲得的全景圖像,其中,預定位置被設置為基準。此時,當其中麥克風113具有最高的靈敏度的方向被設置為A4時,選擇在其中A4被包括在攝像范圍中的全景合成之前的圖像(在這種情況下,從到的范圍中的圖像,其中A2被設置為中心),并且,在A4被設置為中心的情況下在該圖像內確定可檢測區(qū)域613。接著,突出部可以被疊加在其它圖像的一部分上。

其他示例性實施例

本發(fā)明也可以通過以如下方式的處理來實現(xiàn):用于實現(xiàn)上述示例性實施例的一個或更多個功能的程序經由網絡或存儲介質被供給到系統(tǒng)或裝置,并且,在系統(tǒng)或裝置的計算機中的一個或更多個處理器讀出該程序并執(zhí)行處理它。另外,本發(fā)明可以通過實現(xiàn)一個或更多個功能的電路(例如,ASIC)來實現(xiàn)。

根據上述的各個示例性實施例中,可以支持用于由用戶進行聲音檢測處理的設置操作。

還可以通過讀出并執(zhí)行記錄在存儲介質(也可更完整地稱為“非暫時性計算機可讀存儲介質”)上的計算機可執(zhí)行指令(例如,一個或更多個程序)以執(zhí)行上述實施例中的一個或更多個的功能、并且/或者包括用于執(zhí)行上述實施例中的一個或更多個的功能的一個或更多個電路(例如,專用集成電路(ASIC))的系統(tǒng)或裝置的計算機,來實現(xiàn)本發(fā)明的實施例,并且,可以利用通過由系統(tǒng)或裝置的計算機例如讀出并執(zhí)行來自存儲介質的計算機可執(zhí)行指令以執(zhí)行上述實施例中的一個或更多個的功能、并且/或者控制一個或更多個電路以執(zhí)行上述實施例中的一個或更多個的功能的方法,來實現(xiàn)本發(fā)明的實施例。計算機可以包括一個或更多個處理器(例如,中央處理單元(CPU),微處理單元(MPU)),并且可以包括分開的計算機或分開的處理器的網絡,以讀出并執(zhí)行計算機可執(zhí)行指令。計算機可執(zhí)行指令可以例如從網絡或存儲介質被提供給計算機。存儲介質可以包括例如硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、分布式計算系統(tǒng)的存儲器、光盤(諸如壓縮光盤(CD)、數字通用光盤(DVD)或藍光光盤(BD)TM)、閃存裝置以及存儲卡等中的一個或更多個。

本發(fā)明的實施例還可以通過如下的方法來實現(xiàn),即,通過網絡或者各種存儲介質將執(zhí)行上述實施例的功能的軟件(程序)提供給系統(tǒng)或裝置,該系統(tǒng)或裝置的計算機或是中央處理單元(CPU)、微處理單元(MPU)讀出并執(zhí)行程序的方法。

雖然針對示例性實施例描述了本發(fā)明,但是,應該理解,本發(fā)明不限于公開的示例性實施例。下述權利要求的范圍應當被賦予最寬的解釋,以便涵蓋所有這類修改以及等同的結構和功能。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阿拉善左旗| 三亚市| 罗江县| 嘉兴市| 宾阳县| 通渭县| 景泰县| 遵义县| 鹿泉市| 秀山| 长沙市| 舞阳县| 仙桃市| 宝鸡市| 高雄市| 五华县| 红安县| 佛山市| 十堰市| 密云县| 红安县| 甘洛县| 邯郸县| 商水县| 福泉市| 安国市| 江山市| 莱芜市| 利川市| 延寿县| 东安县| 芦山县| 黔东| 元氏县| 志丹县| 肇源县| 五莲县| 宣汉县| 营口市| 兴和县| 瓦房店市|