使用多模匹配方案的對(duì)象辨識(shí)的制作方法
【專利摘要】本發(fā)明揭示用于辨識(shí)和定位場(chǎng)景中的一或多個(gè)對(duì)象的方法、系統(tǒng)和制品。俘獲所述場(chǎng)景的圖像和/或視頻。使用在所述場(chǎng)景處記錄的音頻,縮窄所述所俘獲場(chǎng)景的對(duì)象搜索。舉例來(lái)說(shuō),可確定聲音的到達(dá)方向DOA且用以限制所俘獲圖像/視頻中的搜索區(qū)域。在另一實(shí)例中,可基于在所述所記錄音頻中識(shí)別的聲音的類型來(lái)選擇關(guān)鍵點(diǎn)標(biāo)志。關(guān)鍵點(diǎn)標(biāo)志對(duì)應(yīng)于系統(tǒng)經(jīng)配置以辨識(shí)的特定對(duì)象。隨后可使用移位不變特征變換SIFT分析,將所述所俘獲場(chǎng)景中識(shí)別的關(guān)鍵點(diǎn)與所述選定關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)辨識(shí)所述場(chǎng)景中的對(duì)象。
【專利說(shuō)明】使用多模匹配方案的對(duì)象辨識(shí)
[0001] 根據(jù)35U.S.C.§119豐張優(yōu)先權(quán)
[0002] 本專利申請(qǐng)案主張2012年4月13日申請(qǐng)的第61/623,910號(hào)美國(guó)臨時(shí)申請(qǐng)案的 優(yōu)先權(quán),所述美國(guó)臨時(shí)申請(qǐng)案轉(zhuǎn)讓給本受讓人且特此以引用方式并入本文。
【技術(shù)領(lǐng)域】
[0003] 本發(fā)明大體上涉及對(duì)象辨識(shí)設(shè)備和方法。
【背景技術(shù)】
[0004] 各種應(yīng)用可得益于具有能夠識(shí)別視覺(jué)場(chǎng)景中的對(duì)象的機(jī)器或處理器。計(jì)算機(jī)視覺(jué) 的領(lǐng)域嘗試提供準(zhǔn)許識(shí)別場(chǎng)景中的對(duì)象或特征的技術(shù)和/或算法,其中對(duì)象或特征可通過(guò) 識(shí)別一或多個(gè)關(guān)鍵點(diǎn)的描述符來(lái)表征。例如SIFT(尺度不變特征變換)的這些技術(shù)常常也 應(yīng)用于對(duì)象辨識(shí)、對(duì)象檢測(cè)、圖像匹配、3維結(jié)構(gòu)構(gòu)造、立體對(duì)應(yīng)和/或運(yùn)動(dòng)跟蹤、面部辨識(shí) 以及其它應(yīng)用。
[0005] 大多數(shù)對(duì)象辨識(shí)技術(shù)僅依賴于從場(chǎng)景俘獲的視覺(jué)信息,例如視頻、圖像或圖片。
【發(fā)明內(nèi)容】
[0006] 此
【發(fā)明內(nèi)容】
不是所有預(yù)期實(shí)施例的延伸概述,且既定不識(shí)別所有實(shí)施例的重要或 關(guān)鍵元素,也不描繪任何或所有實(shí)施例的范圍。其唯一目的是以簡(jiǎn)化形式呈現(xiàn)一或多個(gè)實(shí) 施例的一些概念,作為隨后呈現(xiàn)的更詳細(xì)描述的序言。
[0007] 揭示用于辨識(shí)和定位場(chǎng)景中的一或多個(gè)對(duì)象的改進(jìn)技術(shù)。這些技術(shù)并入了在場(chǎng)景 處記錄的音頻以及視覺(jué)信息的使用,以幫助辨識(shí)場(chǎng)景中的對(duì)象。根據(jù)這些技術(shù)的一方面,一 種設(shè)備包含:關(guān)鍵點(diǎn)選擇器,其經(jīng)配置以基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中 的對(duì)象的關(guān)鍵點(diǎn);以及關(guān)鍵點(diǎn)匹配裝置,其經(jīng)配置以基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
[0008] 根據(jù)又一方面,一種辨識(shí)場(chǎng)景中的對(duì)象的方法包含:基于在所述場(chǎng)景處記錄的音 頻選擇對(duì)應(yīng)于所述對(duì)象的關(guān)鍵點(diǎn);以及基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
[0009] 根據(jù)又一方面,一種體現(xiàn)可由一或多個(gè)處理器執(zhí)行的指令集的計(jì)算機(jī)可讀媒體。 所述媒體存儲(chǔ)用于基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)的編 程代碼;以及用于基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象的編程代碼。
[0010] 所屬領(lǐng)域的技術(shù)人員在檢視附圖和詳細(xì)描述后將明白或變?yōu)槊靼灼渌矫?、特?和優(yōu)點(diǎn)。既定所有此些額外特征、方面和優(yōu)點(diǎn)包含在本描述內(nèi)且由所附權(quán)利要求書(shū)保護(hù)。
【專利附圖】
【附圖說(shuō)明】
[0011] 應(yīng)了解,附圖僅用于說(shuō)明目的。此外,圖中的組件不一定按比例繪制,而是強(qiáng)調(diào)說(shuō) 明本文描述的技術(shù)和裝置的原理。在圖中,相同參考標(biāo)號(hào)在全部不同視圖中指定對(duì)應(yīng)部分。
[0012] 圖1是說(shuō)明示范性聽(tīng)覺(jué)場(chǎng)景和視聽(tīng)場(chǎng)景分析系統(tǒng)的概念圖。
[0013] 圖2是描繪操作圖1的視聽(tīng)場(chǎng)景分析系統(tǒng)的方法的過(guò)程框圖。
[0014] 圖3是展示使用圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)對(duì)聽(tīng)覺(jué)場(chǎng)景進(jìn)行分解和處理的示范性方 法的流程圖。
[0015] 圖4是展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的示范性方法的流程圖。
[0016] 圖5A到5B展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的第二示范性方法的流程圖。
[0017] 圖6是說(shuō)明可與圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)一起使用的示范性對(duì)象辨識(shí)子系統(tǒng)的某 些組件的框圖。
[0018] 圖7是說(shuō)明用于對(duì)所記錄圖像執(zhí)行對(duì)象辨識(shí)的功能階段的框圖。
[0019] 圖8說(shuō)明示范性圖像處理階段中的高斯尺度空間產(chǎn)生。
[0020] 圖9說(shuō)明示范性圖像處理階段中的特征檢測(cè)。
[0021] 圖10說(shuō)明示范性圖像處理階段中的特征描述符提取。
[0022] 圖11說(shuō)明用于照明不變特征/關(guān)鍵點(diǎn)檢測(cè)的尺度空間正規(guī)化的實(shí)例。
[0023] 圖12說(shuō)明可如何獲得經(jīng)正規(guī)化尺度空間差的一個(gè)層級(jí)的一個(gè)實(shí)例。
[0024] 圖13說(shuō)明用于產(chǎn)生經(jīng)正規(guī)化尺度空間差以獲得改進(jìn)特征檢測(cè)的方法。
[0025] 圖14是說(shuō)明特征/關(guān)鍵點(diǎn)檢測(cè)裝置的實(shí)例的框圖。
[0026] 圖15是說(shuō)明圖像匹配裝置的實(shí)例的框圖。
[0027] 圖16A展示根據(jù)一般配置的設(shè)備AlOO的框圖。
[0028] 圖16B展示包含麥克風(fēng)陣列RlOO和設(shè)備AlOO的實(shí)例的裝置DlO的框圖。
[0029] 圖16C說(shuō)明從點(diǎn)源j接收的信號(hào)分量相對(duì)于陣列RlOO的麥克風(fēng)MClO和MC20的 軸線的到達(dá)方向θρ
[0030] 圖17展示設(shè)備AlOO的實(shí)施方案AllO的框圖。
[0031] 圖18A展示濾波器更新模塊UMlO的實(shí)施方案UM20的框圖。
[0032] 圖18B展示濾波器更新模塊UM20的實(shí)施方案UM22的框圖。
[0033] 圖19A展示具有相機(jī)CMlO的陣列RlOO的四麥克風(fēng)實(shí)施方案R104的布置的一個(gè) 實(shí)例的俯視圖。
[0034] 圖19B展示用于到達(dá)方向估計(jì)的遠(yuǎn)場(chǎng)模型。
[0035] 圖20展示設(shè)備AlOO的實(shí)施方案A120的框圖。
[0036] 圖21展示設(shè)備A120和A200的實(shí)施方案A220的框圖。
[0037] 圖22展示從使用SRP-PHAT用于DOA估計(jì)得到的直方圖的實(shí)例。
[0038] 圖23展示使用IVA調(diào)適規(guī)則(40到60度的源分離)調(diào)適的解混矩陣的不同輸出 通道的一組四個(gè)直方圖的實(shí)例。
[0039] 圖24是經(jīng)配置以在圖像或視頻俘獲期間檢測(cè)場(chǎng)景中的對(duì)象的視差的示范性圖像 俘獲裝置的圖。
[0040] 圖25是圖24的裝置中可包含的示范性圖像處理系統(tǒng)的框圖。
[0041] 圖26A到26B是與所感知對(duì)象深度相關(guān)的對(duì)象視差的說(shuō)明性實(shí)例的圖。
[0042] 圖27A展示根據(jù)一般配置的方法MlOO的流程圖。
[0043] 圖27B展示方法MlOO的實(shí)施方案M200的流程圖。
[0044] 圖27C展不根據(jù)一般配置用于分解音頻信號(hào)的設(shè)備MF100的框圖。
[0045] 圖27D展示根據(jù)另一一般配置用于分解音頻信號(hào)的設(shè)備AlOO的框圖。
[0046] 圖28A展示方法MlOO的實(shí)施方案M300的流程圖。
[0047] 圖28B展示設(shè)備AlOO的實(shí)施方案A300的框圖。
[0048] 圖28C展示設(shè)備AlOO的另一實(shí)施方案A310的框圖。
[0049] 圖29A展示方法M200的實(shí)施方案M400的流程圖。
[0050] 圖29B展示方法M200的實(shí)施方案M500的流程圖。
[0051] 圖30A展示方法MlOO的實(shí)施方案M600的流程圖。
[0052] 圖30B展示設(shè)備AlOO的實(shí)施方案A700的框圖。
[0053] 圖31展示設(shè)備AlOO的實(shí)施方案A800的框圖。
[0054] 圖32說(shuō)明模型Bf=y。
[0055] 圖33說(shuō)明圖32的模型的修改B'f=y。
[0056] 圖34說(shuō)明其中多個(gè)聲音源在作用中的情形。
【具體實(shí)施方式】
[0057] 參考且并入有附圖的以下詳細(xì)描述描述且說(shuō)明一或多個(gè)具體實(shí)施例。并非為了限 制而是僅為了示范和教示而提供的這些實(shí)施例得到展示且用足夠細(xì)節(jié)來(lái)描述,以使得所屬 領(lǐng)域的技術(shù)人員能夠?qū)嵺`所主張的內(nèi)容。因此,為了簡(jiǎn)明,描述可省略所屬領(lǐng)域的技術(shù)人員 已知的某些信息。
[0058] 詞語(yǔ)"示范性"貫穿本發(fā)明用以表示"充當(dāng)實(shí)例、例子或說(shuō)明"。在本文中描述為 "示范性"的任何內(nèi)容不一定解釋為比其它方法或特征優(yōu)選或有利。除非由其上下文明確限 制,否則術(shù)語(yǔ)"信號(hào)"在此用以指示其普通意義中的任一者,包含如在電線、總線或其它傳輸 媒體上表達(dá)的存儲(chǔ)器位置(或存儲(chǔ)器位置集合)的狀態(tài)。
[0059] 雖然在此描述的對(duì)象辨識(shí)技術(shù)可應(yīng)用于許多不同場(chǎng)景,但本文描述的實(shí)例涉及音 樂(lè)場(chǎng)景,其中在單個(gè)場(chǎng)景中存在許多聲音源,例如音樂(lè)家、演奏家、樂(lè)器和類似物。某些視頻 游戲(例如,GuitarHero?、RockBand?)和音樂(lè)會(huì)音樂(lè)場(chǎng)景可涉及在同時(shí)表演的多個(gè)樂(lè) 器和歌手。當(dāng)前的商業(yè)游戲和音樂(lè)制作系統(tǒng)要求循序地或用靠近定位的麥克風(fēng)來(lái)播放這些 情景以能夠分析、后處理以及增頻混合從它們單獨(dú)記錄的音頻。這些約束可能在音樂(lè)制作 的情況下限制了控制干擾和/或記錄空間效果的能力,且在視頻游戲的情況下可能導(dǎo)致有 限的用戶體驗(yàn)。
[0060] 如果有助于縮窄正在演奏何種樂(lè)器以及在場(chǎng)景中存在多少音樂(lè)家和/或聲音源 的一些先驗(yàn)知識(shí)或其它信息可用,那么聽(tīng)音樂(lè)場(chǎng)景分解可大大簡(jiǎn)化。
[0061] 本文揭示的對(duì)象辨識(shí)技術(shù)克服了對(duì)在具有多個(gè)聲音源的場(chǎng)景處記錄的音頻進(jìn)行 分解的先前嘗試的許多限制。大體上,對(duì)象或特征辨識(shí)可涉及識(shí)別圖像中的關(guān)注點(diǎn)(也稱 為關(guān)鍵點(diǎn))和/或那些關(guān)鍵點(diǎn)周圍的局部化特征以用于特征識(shí)別和/或?qū)ο蟊孀R(shí)的目的。 在本文揭示的系統(tǒng)和方法中,組合了某些基于圖像的樂(lè)器和基于音頻的音符/樂(lè)器辨識(shí)技 術(shù)。許多不同裝置能夠使用計(jì)算機(jī)視覺(jué)執(zhí)行特征識(shí)別和/或?qū)ο蟊孀R(shí)。此些裝置的實(shí)例 可在以下各項(xiàng)中實(shí)施:電話手持機(jī)(例如,蜂窩式手持機(jī));能夠進(jìn)行視頻記錄的手持式移 動(dòng)裝置,用以記錄音頻和視頻內(nèi)容的個(gè)人媒體播放器;個(gè)人數(shù)字助理(PDA)或其它手持式 計(jì)算裝置;以及筆記本、筆記本計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)或其它便攜式計(jì)算裝置。 另外,能夠執(zhí)行可涉及在同時(shí)表演的多個(gè)樂(lè)器和歌手的視頻游戲(例如,GuitarHero?、 RockBand?)和音樂(lè)會(huì)音樂(lè)場(chǎng)景的裝置。此類便攜式計(jì)算裝置當(dāng)前包含具有如下名稱的裝 置,例如:膝上型計(jì)算機(jī)、筆記本計(jì)算機(jī)、超便攜式計(jì)算機(jī)、平板計(jì)算機(jī)、移動(dòng)因特網(wǎng)裝置、智 能本和智能電話。
[0062] 在第一方法中,僅基于音頻知識(shí)的信息有助于界定在場(chǎng)景中正在搜索的聲音源的 類型且減少在基于圖像的尺度不變特征變換(SIFT)搜索中應(yīng)當(dāng)考慮的對(duì)象形狀的關(guān)鍵點(diǎn) 標(biāo)志的搜索全域。另外,此關(guān)鍵點(diǎn)搜索不一定限于靜止圖像,而是也可涉及取決于深度(范 圍)層搜索的需要而使用單個(gè)或多個(gè)相機(jī)來(lái)分析典型音樂(lè)家運(yùn)動(dòng)模式的周圍視頻幀。關(guān)鍵 點(diǎn)搜索是經(jīng)由多模貝葉斯估計(jì)而集成以用相關(guān)聯(lián)可能性產(chǎn)生經(jīng)辨識(shí)樂(lè)器。
[0063] 在第二方法中,聲音源(例如,樂(lè)器)位置是從多麥克風(fēng)聲音局部化信息和樂(lè)器形 狀辨識(shí)來(lái)估計(jì)以計(jì)算圖像的某些部分中的穩(wěn)定樂(lè)器關(guān)鍵點(diǎn)。此方法可與第一方法組合以改 善對(duì)象辨識(shí)。
[0064] 在第三方法中,例如語(yǔ)音/音頻辨識(shí)中使用的梅爾頻率倒譜系數(shù)(MFCC)等聲學(xué)特 征連同例如使用第二方法確定的相關(guān)聯(lián)多麥克風(fēng)聲音源局部化信息一起直接在多模貝葉 斯估計(jì)中使用以提供聲音源辨識(shí)。第三方法可與第一方法組合以改善對(duì)象辨識(shí)。
[0065]以上方法可準(zhǔn)許例如在對(duì)從場(chǎng)景記錄的音頻進(jìn)行分解的稀疏恢復(fù)分解方法的情 況下基函數(shù)庫(kù)存的大小的較精細(xì)界定。
[0066] 圖1是說(shuō)明示范性聽(tīng)覺(jué)場(chǎng)景10和示范性聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)12的概念圖。聽(tīng)覺(jué)場(chǎng) 景分析系統(tǒng)12包含場(chǎng)景分析系統(tǒng)14、麥克風(fēng)陣列18以及一或多個(gè)相機(jī)16。相機(jī)16可包含 一或多個(gè)靜止圖像相機(jī)和/或一或多個(gè)攝像機(jī),其相對(duì)于場(chǎng)景10布置在各種位置和角度。
[0067] 場(chǎng)景分析系統(tǒng)14包含對(duì)象辨識(shí)子系統(tǒng)20和聲學(xué)分解子系統(tǒng)22。對(duì)象辨識(shí)子系統(tǒng) 20經(jīng)配置以根據(jù)本文描述的方法基于在場(chǎng)景處記錄的音頻、圖像和/或視頻來(lái)辨識(shí)和定位 場(chǎng)景10中的聲音源。聲學(xué)分解子系統(tǒng)22經(jīng)配置以基于來(lái)自對(duì)象辨識(shí)子系統(tǒng)20的信息將 場(chǎng)景分解為單獨(dú)的聲音源,使得可個(gè)別地處理經(jīng)分離的音頻。
[0068] 圖2是描繪操作圖1的視聽(tīng)場(chǎng)景分析系統(tǒng)10的示范性方法的過(guò)程框圖50。所述 過(guò)程說(shuō)明用于分析在場(chǎng)景處記錄的視聽(tīng)信息以定位和識(shí)別場(chǎng)景中的一或多個(gè)樂(lè)器的步驟。 所述方法包含音頻分析框52、圖像和/或視頻處理框54和音頻處理框56。
[0069]所揭示方法可將所俘獲音頻和/或視頻信號(hào)處理為一系列片段。典型的片段長(zhǎng)度 范圍是從大約一秒到十秒。在一個(gè)特定實(shí)例中,將信號(hào)劃分為一系列不重疊片段或"幀",其 各自具有大約一秒的長(zhǎng)度。通過(guò)此方法處理的片段也可為通過(guò)不同操作處理的較大片段的 片段(即,"子幀"),或反之亦然。
[0070] 音頻分析框52包含基于在場(chǎng)景處記錄的音頻信息確定場(chǎng)景中的聲音源位置的步 驟(方框61)。音頻信息可由麥克風(fēng)陣列18俘獲?;趤?lái)自場(chǎng)景中的源的聲音的估計(jì)到達(dá) 方向(DOA)和/或針對(duì)所述源確定的范圍信息可確定聲音位置。源的DOA可使用本文在以 下描述的音頻DOA估計(jì)技術(shù)來(lái)估計(jì),且聲音源的范圍可使用本文在以下參考圖18到29描 述的范圍發(fā)現(xiàn)技術(shù)來(lái)估計(jì)。
[0071] 音頻分析框52還包含提供場(chǎng)景中的每一源的聲音源的可能類型的步驟(方框 62)。舉例來(lái)說(shuō),對(duì)于樂(lè)器,可使用樂(lè)器音符庫(kù)來(lái)分析在場(chǎng)景處記錄的聲音以匹配聲音源與 產(chǎn)生聲音的可能類型的樂(lè)器。
[0072] 來(lái)自方框61、62的聲音源位置和類型估計(jì)傳遞到圖像/視頻處理框54且用以限 制針對(duì)聲音源的視覺(jué)識(shí)別的搜索。在方框64中,估計(jì)位置信息用以縮窄場(chǎng)景的記錄圖像中 的空間搜索空間以用于關(guān)鍵點(diǎn)匹配。在方框66中,基于可能的樂(lè)器類型而縮窄圖像關(guān)鍵點(diǎn) 搜索。這兩個(gè)步驟均可顯著改善識(shí)別場(chǎng)景中的樂(lè)器的可靠性,且還可減少實(shí)行樂(lè)器的視覺(jué) 辨識(shí)所需的處理量。
[0073]在方框68中,對(duì)在場(chǎng)景處記錄的圖像和視頻數(shù)據(jù)執(zhí)行視覺(jué)對(duì)象辨識(shí)分析以識(shí)別 場(chǎng)景中的樂(lè)器。所述分析可涉及視覺(jué)特征分析方案,例如場(chǎng)景的尺度不變特征變換(SIFT) 分析,其中基于來(lái)自方框61、62的音頻導(dǎo)出的信息而縮窄待分析的圖像的關(guān)鍵點(diǎn)和區(qū)域。 本文在以下參考圖7到17揭示示范性SIFT分析方法的細(xì)節(jié)。
[0074] 視覺(jué)特征分析(方框70)的結(jié)果是聲音源(例如,樂(lè)器)候選及其在場(chǎng)景中的對(duì) 應(yīng)位置的列表,其提供到音頻處理框56。
[0075] 音頻處理框56進(jìn)一步分析從場(chǎng)景記錄的音頻以分解音頻,使得可更好地隔離、識(shí) 別和處理單獨(dú)的聲音源以增強(qiáng)所記錄音頻的質(zhì)量。在方框72中,來(lái)自圖像/視頻處理框52 的位置信息用以產(chǎn)生用于分別朝向所識(shí)別源位置子扇區(qū)中的每一者引導(dǎo)的多麥克風(fēng)陣列 的空間濾波器。這有助于分離所記錄音頻數(shù)據(jù)中的聲音源。在方框74中,將基于單通道基 函數(shù)庫(kù)存的稀疏恢復(fù)技術(shù)應(yīng)用于經(jīng)分離聲音子扇區(qū)中的每一者以改善樂(lè)器聲音源的識(shí)別。 信號(hào)通道恢復(fù)技術(shù)可使用樂(lè)器類別注釋的減少集合來(lái)減少基函數(shù)庫(kù)存,其中所述減少是通 過(guò)由圖像/視頻處理框54提供的樂(lè)器候選列表來(lái)導(dǎo)引(方框70)。本文在以下結(jié)合圖30 到37描述可在方框70中使用的示范性稀疏恢復(fù)技術(shù)。
[0076] 圖3是展示使用圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)12對(duì)聽(tīng)覺(jué)場(chǎng)景進(jìn)行分解的示范性方法 的流程圖200。在步驟202中,系統(tǒng)12記錄音頻和視覺(jué)信息(靜止圖像和/或視頻)。在 步驟204中,對(duì)象辨識(shí)子系統(tǒng)20識(shí)別且定位場(chǎng)景10中的聲音產(chǎn)生對(duì)象中的一或多者。在 步驟206中,聲學(xué)分解子系統(tǒng)22將聲學(xué)場(chǎng)景分解為單獨(dú)的聲音源。在步驟208中,聲學(xué)分 解子系統(tǒng)22將基于信號(hào)通道基函數(shù)庫(kù)存的稀疏恢復(fù)應(yīng)用于經(jīng)分離聲音。
[0077] 圖4是展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的第一示范性方法的流程圖300。此 方法可由對(duì)象辨識(shí)子系統(tǒng)20執(zhí)行。在步驟302中,識(shí)別所俘獲圖像中的關(guān)鍵點(diǎn)。在步驟304 中,基于在場(chǎng)景處記錄的音頻來(lái)選擇對(duì)應(yīng)于例如樂(lè)器等聲音產(chǎn)生對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo) 志。在步驟306中,通過(guò)將圖像中的關(guān)鍵點(diǎn)與選定關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別場(chǎng)景中的至 少一個(gè)對(duì)象。
[0078] 圖5A到5B展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的第二示范性方法的流程圖400。 此方法可由對(duì)象辨識(shí)子系統(tǒng)20執(zhí)行。在步驟402中,識(shí)別所俘獲圖像中的關(guān)鍵點(diǎn)。在步驟 404中,從所識(shí)別關(guān)鍵點(diǎn)中選擇穩(wěn)定的關(guān)鍵點(diǎn)。在步驟406中,基于從場(chǎng)景記錄的音頻來(lái)選 擇場(chǎng)景的圖像中的關(guān)注區(qū)(ROI)。在步驟408中,選擇ROI中的穩(wěn)定關(guān)鍵點(diǎn)。
[0079] 在步驟410中,從場(chǎng)景的視頻計(jì)算局部運(yùn)動(dòng)向量(LMV)。在步驟412中,選擇ROI 中的LMV。
[0080] 在步驟414中,基于在場(chǎng)景處記錄的音頻來(lái)選擇對(duì)應(yīng)于例如樂(lè)器等聲音產(chǎn)生對(duì)象 的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志。
[0081] 在步驟416中,基于從場(chǎng)景記錄的音頻計(jì)算音頻置信度值(CV)。音頻CV可基于例 如MFCC分類器的音頻特征匹配裝置的輸出。音頻CV可為向量,其中所述向量的每一元素 指示對(duì)象是特定類型的對(duì)象(例如,小號(hào)、鋼琴等等)的可能性。
[0082] 在步驟418中,基于場(chǎng)景的所俘獲數(shù)字圖像計(jì)算圖像置信度值(CV)。圖像CV可基 于例如SIFT匹配裝置的匹配裝置的輸出。SIFT匹配裝置將ROI中的穩(wěn)定關(guān)鍵點(diǎn)與選定關(guān) 鍵點(diǎn)標(biāo)志進(jìn)行比較以產(chǎn)生圖像CV。圖像CV可為向量,其中所述向量的每一元素指示對(duì)象是 特定類型的對(duì)象(例如,小號(hào)、鋼琴等等)的可能性。
[0083] 在步驟420中,基于從場(chǎng)景記錄的視頻計(jì)算視頻置信度值(CV)。視頻CV可基于比 較ROI中選擇的LMV的直方圖匹配過(guò)程的輸出。視頻CV可為向量,其中所述向量的每一元 素指示對(duì)象是特定類型的對(duì)象(例如,小號(hào)、鋼琴等等)的可能性。
[0084] 音頻、圖像和視頻CV可各自經(jīng)正規(guī)化。
[0085] 在步驟422中,基于音頻、圖像和視頻CV識(shí)別場(chǎng)景中的對(duì)象。舉例來(lái)說(shuō),最終CV 可計(jì)算為首頻、圖像和視頻CV的經(jīng)加權(quán)和。用于每一CV的加權(quán)系數(shù)可基于相應(yīng)記錄|旲態(tài) 的信噪比(SNR),且尤其可為當(dāng)前記錄幀的SNR的函數(shù)。
[0086] 在其中模態(tài)CV為向量的情況下,最終CV也是向量,其中向量的每一元素指示對(duì)象 是特定類型對(duì)象(例如,小號(hào)、鋼琴等等)的可能性。指示最大可能性的元素識(shí)別對(duì)象。
[0087] 圖6是說(shuō)明可與圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)12 -起使用的示范性對(duì)象辨識(shí)子系統(tǒng) 500的某些組件的框圖。子系統(tǒng)500包含音頻處理器502、圖像處理器504、視頻處理器506、 SIFT匹配裝置532、關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù)(DB) 534、聲學(xué)特征數(shù)據(jù)庫(kù)536、聲學(xué)特征匹配裝置 538、直方圖匹配裝置540、對(duì)象局部運(yùn)動(dòng)向量(LMV)直方圖數(shù)據(jù)庫(kù)542,和多模分類器544。
[0088] 音頻處理器502接收且記錄在場(chǎng)景處來(lái)自麥克風(fēng)陣列18的音頻信號(hào)。圖像處理 器504從拍攝場(chǎng)景的圖片的一或多個(gè)相機(jī)508接收且記錄場(chǎng)景的一或多個(gè)圖像。視頻處理 器506從記錄場(chǎng)景的一或多個(gè)攝像機(jī)510接收且記錄視頻信號(hào)。
[0089] 音頻處理器502包含到達(dá)方向(DOA)檢測(cè)器512、關(guān)注區(qū)(ROI)選擇器514、聲音 分類器516以及聲學(xué)特征提取器518。根據(jù)從麥克風(fēng)陣列18接收的麥克風(fēng)信號(hào),DOA檢測(cè) 器512確定從位于場(chǎng)景內(nèi)的聲音源放射的聲音的到達(dá)方向。本文結(jié)合圖18到25描述DOA 檢測(cè)器512的示范性組件和功能。根據(jù)陣列的DOA和位置,可確定場(chǎng)景中的聲音源的位置 的估計(jì)。將此DOA信息傳遞到ROI選擇器514。ROI選擇器514基于DOA信息和麥克風(fēng)陣 列18的已知位置來(lái)估計(jì)聲音源的位置。ROI選擇器514隨后基于位置信息來(lái)選擇場(chǎng)景的圖 像的特定部分。選定部分或ROI含有聲音源,且因此可用以將關(guān)鍵點(diǎn)搜索和LMV計(jì)算限于 僅場(chǎng)景的部分。
[0090] 聲音分類器516基于所記錄音頻的特性來(lái)分類聲音源的類型。舉例來(lái)說(shuō),分類器 516可使用樂(lè)器音符庫(kù)來(lái)識(shí)別一類樂(lè)器作為聲音源。
[0091] 聲音分類器516的輸出是音頻置信度值,且其作為輸入提供到關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù) 534?;谝纛l置信度值從關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù)534選擇一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志。將這些選定 關(guān)鍵點(diǎn)標(biāo)志提供到SIFT匹配裝置532。
[0092] 聲學(xué)特征提取器518計(jì)算從麥克風(fēng)信號(hào)導(dǎo)出的聲學(xué)特征,例如MFCC或類似物。將 這些提取的特征提供到聲學(xué)特征匹配裝置538,其通過(guò)將提取的特征與用于不同類型聲音 源的聲學(xué)特征數(shù)據(jù)庫(kù)536進(jìn)行比較來(lái)識(shí)別聲音源。聲學(xué)特征匹配裝置的輸出可為聲學(xué)特征 置信度值,其可為具有與上文針對(duì)其它CV論述的元素類似的元素的向量。
[0093] 圖像處理器504包含關(guān)鍵點(diǎn)檢測(cè)器520、穩(wěn)定關(guān)鍵點(diǎn)檢測(cè)器522和ROI關(guān)鍵點(diǎn)選擇 器524。關(guān)鍵點(diǎn)檢測(cè)器520使用本文描述的方法確定場(chǎng)景的所俘獲數(shù)字圖像中的關(guān)鍵點(diǎn)。 穩(wěn)定關(guān)鍵點(diǎn)檢測(cè)器522精煉關(guān)鍵點(diǎn)搜索,且僅選擇穩(wěn)定的那些檢測(cè)到的關(guān)鍵點(diǎn)。ROI關(guān)鍵點(diǎn) 選擇器524從ROI選擇器514接收識(shí)別所俘獲圖像中的ROI的坐標(biāo)信息?;谧鴺?biāo)信息,ROI關(guān)鍵點(diǎn)選擇將圖像關(guān)鍵點(diǎn)選擇縮窄到位于ROI內(nèi)的那些穩(wěn)定關(guān)鍵點(diǎn)。
[0094] 隨后將在ROI內(nèi)檢測(cè)到的穩(wěn)定關(guān)鍵點(diǎn)提供到SIFT匹配裝置532。
[0095] 本質(zhì)上,SIFT匹配裝置532將穩(wěn)定ROI關(guān)鍵點(diǎn)與從關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù)534檢索的 關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以產(chǎn)生圖像CV。
[0096] 視頻處理器506包含LMV計(jì)算器526、ROILMV選擇器528,和ROILMV直方圖計(jì) 算器530。LMV計(jì)算器526從相機(jī)510接收數(shù)字視頻信號(hào)且計(jì)算場(chǎng)景的預(yù)定記錄持續(xù)時(shí)間 中的LMV。隨后將LMV傳遞到ROILMV選擇器528。ROILMV選擇器528從ROI選擇器514 接收ROI的坐標(biāo)信息,且基于坐標(biāo)信息選擇ROI內(nèi)的那些LMV。
[0097] 隨后將ROI內(nèi)的LMV傳遞到ROILMV直方圖計(jì)算器530,其根據(jù)ROI計(jì)算LMV直 方圖。隨后將場(chǎng)景的LMV直方圖傳遞到直方圖匹配裝置540。直方圖匹配裝置540將場(chǎng)景 LMV直方圖與存儲(chǔ)在對(duì)象LMV直方圖數(shù)據(jù)庫(kù)542中的對(duì)象LMV直方圖進(jìn)行比較以找到最接 近的匹配。直方圖匹配裝置540基于此比較輸出視頻CV。
[0098] 多模分類器544基于SIFT匹配裝置532、聲音分類器516、聲學(xué)特征匹配裝置538 和直方圖匹配裝置540的輸出來(lái)識(shí)別場(chǎng)景中的對(duì)象。多模分類器544可通過(guò)計(jì)算最終置信 度值向量來(lái)實(shí)現(xiàn)此情形,所述向量可為音頻CV、圖像CV、視頻CV、聲學(xué)特征CV的經(jīng)加權(quán)和。 分類器544可執(zhí)行貝葉斯估計(jì)以用相關(guān)聯(lián)可能性產(chǎn)生經(jīng)辨識(shí)樂(lè)器。CV的加權(quán)系數(shù)可類似于 結(jié)合圖4A到4B描述的加權(quán)系數(shù)。
[0099] 另外,子系統(tǒng)500也可輸出場(chǎng)景中辨識(shí)的每一對(duì)象的經(jīng)精煉對(duì)象位置。經(jīng)精煉對(duì) 象位置可基于來(lái)自多模分類器544、相機(jī)508的輸出,以及來(lái)自音頻處理器502的ROI選擇 器514的估計(jì)對(duì)象位置。經(jīng)精煉對(duì)象位置可反饋到DOA檢測(cè)器512和/或ROI選擇器514 以改善其在估計(jì)關(guān)注區(qū)或?qū)ο笪恢脮r(shí)的準(zhǔn)確性和速度,例如,前一視頻/圖像幀中確定的 估計(jì)DOA或?qū)ο笪恢每梢平坏较乱粠鳛槌跏甲鴺?biāo)供音頻處理器502用于其ROI選擇過(guò) 程。
[0100] 關(guān)鍵點(diǎn)詵擇和SIFT兀配裝置
[0101] 如下描述示范性關(guān)鍵點(diǎn)檢測(cè)器520、關(guān)鍵點(diǎn)選擇器522和SIFT匹配裝置532的操 作。
[0102] 大體上,對(duì)象或特征辨識(shí)可涉及識(shí)別圖像中的關(guān)注點(diǎn)(也稱為關(guān)鍵點(diǎn))和/或那 些關(guān)鍵點(diǎn)周圍的局部化特征以用于對(duì)象辨識(shí)的目的。雖然圖像數(shù)據(jù)中的此些獨(dú)特元素在此 稱為"關(guān)鍵點(diǎn)",但應(yīng)了解,如本文使用的術(shù)語(yǔ)"關(guān)鍵點(diǎn)"可涉及個(gè)別像素、像素群組、分?jǐn)?shù)像 素部分、一或多個(gè)描述符、其它圖像分量,或者其任一組合。具有特征的高穩(wěn)定性和可重復(fù) 性在這些辨識(shí)算法中非常重要。因此,可選擇和/或處理關(guān)鍵點(diǎn)以使得其對(duì)于圖像尺度改 變和/或旋轉(zhuǎn)是不變的,且提供在失真、視點(diǎn)改變和/或噪聲和照明改變的實(shí)質(zhì)范圍上的穩(wěn) 健匹配。此外,為了良好適合于例如對(duì)象辨識(shí)等任務(wù),在單個(gè)特征可以高概率與來(lái)自多個(gè)目 標(biāo)圖像的較大特征數(shù)據(jù)庫(kù)正確匹配的意義上,特征描述符可優(yōu)選為獨(dú)特的。
[0103] 在檢測(cè)且定位圖像中的關(guān)鍵點(diǎn)之后,可通過(guò)使用各種描述符來(lái)識(shí)別或描述它們。 舉例來(lái)說(shuō),描述符可表示圖像中的內(nèi)容的視覺(jué)特征,例如形狀、顏色、紋理、旋轉(zhuǎn)和/或運(yùn) 動(dòng),以及其它圖像特性。隨后使對(duì)應(yīng)于關(guān)鍵點(diǎn)且由描述符表示的個(gè)別特征匹配于來(lái)自已知 對(duì)象的特征數(shù)據(jù)庫(kù)。
[0104]作為識(shí)別且選擇圖像的關(guān)鍵點(diǎn)的部分,由于缺乏精度或置信度可能需要丟棄已經(jīng) 選擇的一些點(diǎn)。舉例來(lái)說(shuō),可基于不良對(duì)比度和/或沿著邊緣的不良局部化的底限而拒絕 一些初始檢測(cè)到的關(guān)鍵點(diǎn)。在相對(duì)于照明、噪聲和定向變化增加關(guān)鍵點(diǎn)穩(wěn)定性方面,此些拒 絕是重要的。最小化錯(cuò)誤關(guān)鍵點(diǎn)拒絕也是重要的,錯(cuò)誤關(guān)鍵點(diǎn)拒絕將降低特征匹配的可重 復(fù)性。
[0105]大體上認(rèn)識(shí)到,圖像中的照明可通過(guò)空間變化的函數(shù)來(lái)表示。因此,通過(guò)抽取照明 函數(shù)的正規(guī)化過(guò)程,可中和照明效果(例如,遮影、亮圖像、暗圖像等等)以用于特征/關(guān)鍵 點(diǎn)檢測(cè)的目的。舉例來(lái)說(shuō),可通過(guò)使用具有某一范圍的平滑因數(shù)的函數(shù)G(即,內(nèi)核或?yàn)V波 器)漸進(jìn)地模糊圖像以產(chǎn)生圖像的經(jīng)平滑尺度空間L來(lái)處理圖像。隨后可通過(guò)取得經(jīng)平滑 尺度空間層級(jí)的鄰近對(duì)之間的差(Li-LiJ來(lái)獲得圖像的尺度空間D的差。隨后通過(guò)將尺度 空間層級(jí)的每一差除以經(jīng)平滑尺度空間層級(jí)Lk來(lái)實(shí)現(xiàn)尺度空間L的差的正規(guī)化,所述Lk 與用以獲得尺度空間層級(jí)的特定差Di的尺度空間層級(jí)1^中的最平滑者一樣平滑或更平滑。
[0106] 圖7是說(shuō)明用于對(duì)所記錄圖像執(zhí)行對(duì)象辨識(shí)的功能階段的框圖。在圖像俘獲階 段702,可俘獲關(guān)注的圖像708 (即,所記錄圖像)。圖像708可由圖像俘獲裝置俘獲,所述 裝置可包含一或多個(gè)圖像傳感器和/或模/數(shù)轉(zhuǎn)換器,以獲得數(shù)字俘獲圖像。圖像傳感器 (例如,電荷耦合裝置(CCD)、互補(bǔ)金屬半導(dǎo)體(CMOS))可將光轉(zhuǎn)換為電子。電子可形成模 擬信號(hào),所述模擬信號(hào)隨后由模/數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字值。以此方式,可以數(shù)字格式俘獲圖 像708,所述數(shù)字格式可將圖像I(X,y)例如界定為具有對(duì)應(yīng)顏色、照明和/或其它特性的 多個(gè)像素。
[0107]在圖像處理階段704中,隨后通過(guò)產(chǎn)生對(duì)應(yīng)尺度空間710 (例如,高斯尺度空間), 執(zhí)行特征檢測(cè)712,且執(zhí)行特征描述符提取716來(lái)處理所俘獲圖像708。特征檢測(cè)712可針 對(duì)所俘獲圖像708識(shí)別高度獨(dú)特的關(guān)鍵點(diǎn)和/或幾何關(guān)注的關(guān)鍵點(diǎn),其可隨后在特征描述 符提取716中用來(lái)獲得多個(gè)描述符。在圖像比較階段706,這些描述符用以執(zhí)行與已知描述 符的數(shù)據(jù)庫(kù)的特征匹配722(例如,通過(guò)比較關(guān)鍵點(diǎn)和/或關(guān)鍵點(diǎn)周圍的關(guān)鍵點(diǎn)或片的其它 特性)。隨后對(duì)關(guān)鍵點(diǎn)匹配執(zhí)行幾何檢驗(yàn)或一致性檢查724以確認(rèn)正確的特征匹配且提供 匹配結(jié)果726。以此方式,所記錄圖像可與目標(biāo)圖像數(shù)據(jù)庫(kù)進(jìn)行比較和/或從其識(shí)別。
[0108]已觀察到,圖像中的照明改變可對(duì)圖像的特征/關(guān)鍵點(diǎn)辨識(shí)的穩(wěn)定性和/或可重 復(fù)性具有有害影響。也就是說(shuō),圖像中的局部和/或全局照明改變可影響圖像的特征/關(guān) 鍵點(diǎn)的檢測(cè)。舉例來(lái)說(shuō),特征/關(guān)鍵點(diǎn)的數(shù)目和/或位置可取決于圖像中的照明(例如,遮 影、對(duì)比度等等)而改變。因此將有益的是,在圖像中的特征/關(guān)鍵點(diǎn)檢測(cè)之前大體上消除 或最小化局部和/或全局照明改變的影響。
[0109]進(jìn)行此做法的一種方法可為處理圖像本身以在開(kāi)始特征/關(guān)鍵點(diǎn)檢測(cè)之前移除 或補(bǔ)償局部和/或全局照明改變。然而,此過(guò)程可能在計(jì)算上密集。另外,經(jīng)常難以確定圖 像中是否存在局部和/或全局照明改變。此過(guò)程也將必須應(yīng)用于數(shù)據(jù)庫(kù)中的圖像。在不 首先處理目標(biāo)圖像和數(shù)據(jù)庫(kù)圖像以校正照明改變的情況下,特征/關(guān)鍵點(diǎn)匹配可能不會(huì)成 功。但在沒(méi)有照明可如何影響特定圖像的先前知識(shí)的情況下,此過(guò)程相當(dāng)難以自動(dòng)實(shí)施。 [0110] 因此,需要可在無(wú)實(shí)質(zhì)處理開(kāi)銷的情況下執(zhí)行的替代方案。根據(jù)一個(gè)實(shí)例,通過(guò)在 對(duì)尺度空間的差執(zhí)行特征/關(guān)鍵點(diǎn)檢測(cè)之前正規(guī)化尺度空間的差可消除或減少用于特征 檢測(cè)的圖像上的照明的影響(均勻或不均勻)。此正規(guī)化過(guò)程可使用已經(jīng)可用的經(jīng)平滑尺 度空間來(lái)執(zhí)行,因此最小化任何另外的計(jì)算。
[0111] 根據(jù)一個(gè)實(shí)例,尺度空間正規(guī)化器714可實(shí)施為尺度空間產(chǎn)生710的部分以減少 或消除照明改變對(duì)圖像中的關(guān)鍵點(diǎn)/特征辨識(shí)的影響。
[0112] 圖8說(shuō)明示范性圖像處理階段704中的高斯尺度空間產(chǎn)生。已經(jīng)開(kāi)發(fā)例如尺度不 變特征變換(SIFT)等若干算法來(lái)執(zhí)行圖像中的特征檢測(cè)。針對(duì)圖像中的特定對(duì)象的檢測(cè) 的第一步驟是基于所記錄對(duì)象的局部特征來(lái)分類所述對(duì)象。目標(biāo)是識(shí)別和選擇對(duì)例如照 明、圖像噪聲、旋轉(zhuǎn)、縮放和/或視點(diǎn)的小改變不變和/或穩(wěn)健的特征。也就是說(shuō),盡管兩個(gè) 圖像之間的照明、圖像噪聲、旋轉(zhuǎn)、尺度和/或視點(diǎn)之間的差異,也應(yīng)當(dāng)發(fā)現(xiàn)查詢圖像與比 較目標(biāo)圖像之間的匹配。進(jìn)行此做法的一種方法是對(duì)圖像的片執(zhí)行極端檢測(cè)(例如,局部 最大值或最小值)以識(shí)別高度獨(dú)特的特征(例如,圖像中的獨(dú)特的點(diǎn)、像素和/或區(qū))。
[0113] SIFT是用于檢測(cè)和提取對(duì)照明改變、圖像噪聲、旋轉(zhuǎn)、縮放和/或視點(diǎn)的小改變合 理地不變的局部特征的一種方法。用于SIFT的圖像處理階段704可包含:(a)尺度空間極 端檢測(cè),(b)關(guān)鍵點(diǎn)局部化,(c)定向指派,和/或(d)關(guān)鍵點(diǎn)描述符的產(chǎn)生。應(yīng)明了,用于 特征檢測(cè)和后續(xù)特征描述符產(chǎn)生的替代算法,包含加速穩(wěn)健特征(SURF)、梯度位置和定向 直方圖(GLOH)、基于局部能量的形狀直方圖(LESH)、壓縮梯度直方圖(CHoG)等等,也可得 益于本文描述的特征。
[0114] 在高斯尺度空間產(chǎn)生710中,數(shù)字圖像I(x,y) 708經(jīng)逐漸地高斯模糊(即,平滑) 以構(gòu)造高斯金字塔752。高斯模糊(平滑)大體上涉及在尺度cs下使原始圖像I(x,y)與 高斯模糊/平滑函數(shù)G(X,y,cs)卷積,使得高斯模糊/平滑函數(shù)L(X,y,cs)界定為L(zhǎng)(x,y, cs) =G(x,y,cs)*I(x,y)。此處,G是高斯內(nèi)核,cs表示用于模糊圖像I(x,y)的高斯函數(shù) 的標(biāo)準(zhǔn)偏差。由于乘數(shù)c是變化的(Ctl <C1 <C2 <C3 <C4),因此標(biāo)準(zhǔn)偏差CS變化且獲得 逐漸模糊/平滑。西格瑪s是基本尺度變量(例如,高斯內(nèi)核的寬度)。較高尺度(即,較 低分辨率)比較低尺度(即,較高分辨率)模糊/平滑更多。因此,尺度層級(jí)越寬(即,較 低分辨率),圖像越平滑(更模糊)。
[0115] 當(dāng)初始圖像I(X,y)與高斯G遞增卷積以產(chǎn)生模糊圖像L時(shí),模糊圖像L由尺度 空間中的常數(shù)因數(shù)c分離。在高斯模糊(平滑)圖像L的數(shù)目增加且為高斯金字塔752提 供的近似接近連續(xù)空間時(shí),所述兩個(gè)尺度也接近一個(gè)尺度。在一個(gè)實(shí)例中,卷積圖像L可通 過(guò)八元組分組,其中八元組可對(duì)應(yīng)于標(biāo)準(zhǔn)偏差s的值的加倍。而且,乘數(shù)c的值(例如,Ctl <C1 <C2 <C3 <C4...)經(jīng)選擇以使得每八元組獲得固定數(shù)目的卷積圖像L。每一八元組的 縮放對(duì)應(yīng)于明確的圖像重定大小。因此,在通過(guò)逐漸模糊/平滑函數(shù)模糊/平滑原始圖像 I(x,y)時(shí),像素?cái)?shù)目逐漸減少。應(yīng)注意,雖然本文使用高斯平滑函數(shù)用于說(shuō)明,但也可采用 其它類型的平滑內(nèi)核/函數(shù)。
[0116] 通過(guò)計(jì)算高斯金字塔752中的任何兩個(gè)連續(xù)高斯模糊圖像的差來(lái)構(gòu)造高斯差 (DoG)金字塔 754。在DoG空間 754 中,D(X,y,a)=L(x,y,cns)-L(x,y,ClriS)。DoG圖像 D(x,y,s)是在尺度cns和ClriS下兩個(gè)鄰近高斯模糊圖像L之間的差。D(x,y,s)的尺度 位于cns與(V1S之間的某處。DoG圖像D可從每八元組的鄰近高斯模糊圖像L獲得。在每 一八元組之后,可以因數(shù)2將高斯圖像向下取樣且隨后重復(fù)過(guò)程。以此方式,圖像可變換為 對(duì)平移、旋轉(zhuǎn)、縮放和/或其它圖像參數(shù)和/或失真穩(wěn)健或不變的局部特征。
[0117] 一旦產(chǎn)生,用于所記錄圖像的DoG空間754便可用于極端檢測(cè)以識(shí)別關(guān)注特征 (例如,識(shí)別圖像中的高度獨(dú)特的點(diǎn))。這些高度獨(dú)特的點(diǎn)在本文稱為關(guān)鍵點(diǎn)。這些關(guān)鍵點(diǎn) 可通過(guò)每一關(guān)鍵點(diǎn)周圍的片或局部區(qū)的特性來(lái)識(shí)別??舍槍?duì)每一關(guān)鍵點(diǎn)及其對(duì)應(yīng)片產(chǎn)生描 述符,其可用于查詢圖像與所存儲(chǔ)目標(biāo)圖像之間的關(guān)鍵點(diǎn)比較。"特征"可稱為描述符(即, 關(guān)鍵點(diǎn)及其對(duì)應(yīng)片)。一組特征(即,關(guān)鍵點(diǎn)和對(duì)應(yīng)片)可稱為群集。
[0118] 圖9說(shuō)明示范性圖像處理階段704中的特征檢測(cè)。在特征檢測(cè)712中,DoG空間 754可用以識(shí)別圖像I(x,y)的關(guān)鍵點(diǎn)。特征檢測(cè)712試圖確定圖像中的特定樣本點(diǎn)或像 素周圍的局部區(qū)或片是否是潛在關(guān)注片(幾何上來(lái)說(shuō))。
[0119] 大體上,識(shí)別DoG空間754中的局部最大值和/或局部最小值,且將這些最大值和 最小值的位置用作DoG空間754中的關(guān)鍵點(diǎn)位置。在圖9中說(shuō)明的實(shí)例中,關(guān)鍵點(diǎn)760已 經(jīng)以片758識(shí)別。找到局部最大值和最小值(也稱為局部極端檢測(cè))可通過(guò)將DoG空間 754中的每一像素(例如,關(guān)鍵點(diǎn)760的像素)與在相同尺度下其八個(gè)相鄰像素以及在關(guān)鍵 點(diǎn)808的兩側(cè)上的每一相鄰尺度中的九個(gè)相鄰像素(鄰近片756和762)(總共26個(gè)像素 (9x2+8 = 26))進(jìn)行比較來(lái)實(shí)現(xiàn)。此處,片界定為3x3像素區(qū)。大體上,如果關(guān)鍵點(diǎn)758的 像素值是片758、756和760中的全部二十六(26)個(gè)比較像素當(dāng)中的最大值或最小值,那么 將其選擇為關(guān)鍵點(diǎn)??蛇M(jìn)一步處理關(guān)鍵點(diǎn)以使得更準(zhǔn)確地識(shí)別它們的位置且可丟棄一些關(guān) 鍵點(diǎn),例如低對(duì)比度關(guān)鍵點(diǎn)和邊緣關(guān)鍵點(diǎn)。
[0120] 圖10說(shuō)明示范性圖像處理階段704中的特征描述符提取。大體上,特征(例如, 關(guān)鍵點(diǎn)及其對(duì)應(yīng)片)可由描述符表示,其允許特征(來(lái)自查詢圖像)與存儲(chǔ)在目標(biāo)圖像數(shù) 據(jù)庫(kù)中的特征的有效比較。在特征描述符提取716的一個(gè)實(shí)例中,每一關(guān)鍵點(diǎn)可基于局部 圖像梯度的方向而被指派一或多個(gè)定向或方向。通過(guò)基于局部圖像性質(zhì)對(duì)每一關(guān)鍵點(diǎn)指派 一致的定向,關(guān)鍵點(diǎn)描述符可相對(duì)于此定向來(lái)表示且因此實(shí)現(xiàn)對(duì)圖像旋轉(zhuǎn)的不變性。量值 和方向計(jì)算可針對(duì)商斯1?糊圖像L中和/或關(guān)鍵點(diǎn)尺度下的關(guān)鍵點(diǎn)760周圍的相鄰區(qū)中的 每個(gè)像素執(zhí)行。位于(x,y)的關(guān)鍵點(diǎn)760的梯度的量值可表示為m(x,y),且在(x,y)處的 關(guān)鍵點(diǎn)的梯度的定向或方向可表不為Γ(X,y)。關(guān)鍵點(diǎn)的尺度用以選擇具有與關(guān)鍵點(diǎn)760 的尺度最接近的尺度的高斯平滑圖像L,使得以尺度不變方式執(zhí)行所有計(jì)算。對(duì)于在此尺度 下的每一圖像樣本L(x,y),使用像素差來(lái)計(jì)算梯度量值m(x,y)和定向Γ(X,y)。舉例來(lái) 說(shuō),量值m(x,y)可計(jì)算為:
【權(quán)利要求】
1. 一種在裝置中辨識(shí)場(chǎng)景中的對(duì)象的方法,其包括: 基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述對(duì)象的關(guān)鍵點(diǎn);以及 基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
2. 根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè)對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志; 識(shí)別所述場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn);以及 將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述對(duì)象。
3. 根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 基于在所述場(chǎng)景處記錄的所述音頻選擇場(chǎng)景圖像的一部分;以及 僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)。
4. 根據(jù)權(quán)利要求3所述的方法,其中基于在所述場(chǎng)景處記錄的所述音頻選擇所述圖像 的一部分包含: 從所述音頻確定音頻到達(dá)方向DOA ;以及 基于所述音頻DOA選擇所述圖像的所述部分。
5. 根據(jù)權(quán)利要求4所述的方法,其中確定所述音頻DOA包含: 在位于所述場(chǎng)景處的多個(gè)麥克風(fēng)處接收所述音頻,借此產(chǎn)生多個(gè)麥克風(fēng)信號(hào);以及 基于所述麥克風(fēng)信號(hào)確定所述音頻DOA。
6. 根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量;以及 通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn)行比 較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象。
7. 根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征;以及 通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn)行比 較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象。
8. 根據(jù)權(quán)利要求7所述的方法,其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒譜系數(shù)。
9. 根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 確定出現(xiàn)在所述圖像中的一或多個(gè)對(duì)象的范圍信息;以及 基于所述范圍信息分析所述關(guān)鍵點(diǎn)。
10. 根據(jù)權(quán)利要求9所述的方法,其中確定范圍信息是選自由以下各項(xiàng)組成的群組:使 用自動(dòng)聚焦相機(jī)確定范圍信息,使用多相機(jī)圖像視差估計(jì)確定范圍信息,和前述各項(xiàng)的任 一合適組合。
11. 一種設(shè)備,其包括: 關(guān)鍵點(diǎn)選擇器,其經(jīng)配置以基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的 關(guān)鍵點(diǎn);以及 匹配裝置,其經(jīng)配置以基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
12. 根據(jù)權(quán)利要求11所述的設(shè)備,其進(jìn)一步包括: 關(guān)鍵點(diǎn)檢測(cè)器,其經(jīng)配置以識(shí)別場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn); 其中所述關(guān)鍵點(diǎn)選擇器經(jīng)配置以基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè) 對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志; 其中所述匹配裝置經(jīng)配置以將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述場(chǎng) 景中的對(duì)象。
13. 根據(jù)權(quán)利要求11所述的設(shè)備,其進(jìn)一步包括: 第一選擇器,其經(jīng)配置以基于在所述場(chǎng)景處記錄的所述音頻選擇所述場(chǎng)景的圖像的一 部分;以及 第二選擇器,其經(jīng)配置以僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)。
14. 根據(jù)權(quán)利要求13所述的設(shè)備,其中所述第一選擇器包含: 檢測(cè)器,其經(jīng)配置以從所述音頻確定音頻到達(dá)方向DOA ;以及 第三選擇器,其經(jīng)配置以基于所述音頻DOA選擇所述圖像的所述部分。
15. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述檢測(cè)器包含: 位于所述場(chǎng)景處的用于接收所述音頻的多個(gè)麥克風(fēng),其產(chǎn)生多個(gè)麥克風(fēng)信號(hào);以及 音頻處理器,其經(jīng)配置以基于所述麥克風(fēng)信號(hào)確定所述音頻DOA。
16. 根據(jù)權(quán)利要求11所述的設(shè)備,其進(jìn)一步包括: 視頻處理器,其經(jīng)配置以從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量; 其中所述匹配裝置經(jīng)配置以通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定 局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn)行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí) 別所述對(duì)象。
17. 根據(jù)權(quán)利要求11所述的設(shè)備,其進(jìn)一步包括: 音頻處理器,其經(jīng)配置以從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征; 其中所述匹配裝置經(jīng)配置以通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定 聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn)行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí) 別所述對(duì)象。
18. 根據(jù)權(quán)利要求17所述的設(shè)備,其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒譜系數(shù)。
19. 根據(jù)權(quán)利要求11所述的設(shè)備,其進(jìn)一步包括: 范圍檢測(cè)器,其經(jīng)配置以確定出現(xiàn)在所述圖像中的一或多個(gè)對(duì)象的范圍信息;以及 關(guān)鍵點(diǎn)檢測(cè)器,其經(jīng)配置以基于所述范圍信息分析所述關(guān)鍵點(diǎn)。
20. 根據(jù)權(quán)利要求19所述的設(shè)備,其中所述范圍檢測(cè)器包含選自由以下各項(xiàng)組成的群 組的檢測(cè)器:自動(dòng)聚焦相機(jī),多相機(jī)陣列,和前述各項(xiàng)的任一合適組合。
21. -種設(shè)備,其包括: 用于基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)的裝置;以及 用于基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象的裝置。
22. 根據(jù)權(quán)利要求21所述的設(shè)備,其進(jìn)一步包括: 用于基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè)對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志 的裝置; 用于識(shí)別所述場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn)的裝置;以及 用于將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述場(chǎng)景中的所述對(duì)象的裝置。
23. 根據(jù)權(quán)利要求21所述的設(shè)備,其進(jìn)一步包括: 用于基于在所述場(chǎng)景處記錄的所述音頻選擇所述場(chǎng)景的圖像的一部分的裝置;以及 用于僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)的裝置。
24. 根據(jù)權(quán)利要求23所述的設(shè)備,其中所述用于基于在所述場(chǎng)景處記錄的所述音頻選 擇所述圖像的一部分的裝置包含: 用于從所述音頻確定音頻到達(dá)方向DOA的裝置;以及 用于基于所述音頻DOA選擇所述圖像的所述部分的裝置。
25. 根據(jù)權(quán)利要求24所述的設(shè)備,其中用于確定所述音頻DOA的裝置包含: 用于在位于所述場(chǎng)景處的多個(gè)麥克風(fēng)處接收所述音頻借此產(chǎn)生多個(gè)麥克風(fēng)信號(hào)的裝 置;以及 用于基于所述麥克風(fēng)信號(hào)確定所述音頻DOA的裝置。
26. 根據(jù)權(quán)利要求21所述的設(shè)備,其進(jìn)一步包括: 用于從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量的裝置;以及 用于通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的裝置。
27. 根據(jù)權(quán)利要求21所述的設(shè)備,其進(jìn)一步包括: 用于從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征的裝置;以及 用于通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的裝置。
28. 根據(jù)權(quán)利要求27所述的設(shè)備,其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒譜系數(shù)。
29. 根據(jù)權(quán)利要求21所述的設(shè)備,其進(jìn)一步包括: 用于確定出現(xiàn)在圖像中的一或多個(gè)對(duì)象的范圍信息的裝置;以及 用于基于所述范圍信息分析所述關(guān)鍵點(diǎn)的裝置。
30. 根據(jù)權(quán)利要求29所述的設(shè)備,其中用于確定范圍信息的裝置是選自由以下各項(xiàng)組 成的群組:用于使用自動(dòng)聚焦相機(jī)確定范圍信息的裝置,用于使用多相機(jī)圖像視差估計(jì)確 定范圍信息的裝置,和前述各項(xiàng)的任一合適組合。
31. -種體現(xiàn)可由一或多個(gè)處理器執(zhí)行的指令集的計(jì)算機(jī)可讀媒體,其包括: 用于基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)的代碼;以及 用于基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象的代碼。
32. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括: 用于基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè)對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志 的代碼; 用于識(shí)別所述場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn)的代碼;以及 用于將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述場(chǎng)景中的所述對(duì)象的代碼。
33. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括: 用于基于在所述場(chǎng)景處記錄的所述音頻選擇圖像的一部分的代碼;以及 用于僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)的代碼。
34. 根據(jù)權(quán)利要求33所述的計(jì)算機(jī)可讀媒體,其中所述用于基于在所述場(chǎng)景處記錄的 所述音頻選擇所述圖像的一部分的代碼包含: 用于從所述音頻確定音頻到達(dá)方向DOA的代碼;以及 用于基于所述音頻DOA選擇所述圖像的所述部分的代碼。
35. 根據(jù)權(quán)利要求34所述的計(jì)算機(jī)可讀媒體,其中用于確定所述音頻DOA的代碼包 含: 用于在位于所述場(chǎng)景處的多個(gè)麥克風(fēng)處接收所述音頻借此產(chǎn)生多個(gè)麥克風(fēng)信號(hào)的代 碼;以及 用于基于所述麥克風(fēng)信號(hào)確定所述音頻D0A的代碼。
36. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括: 用于從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量的代碼;以及 用于通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的代碼。
37. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括: 用于從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征的代碼;以及 用于通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的代碼。
38. 根據(jù)權(quán)利要求37所述的計(jì)算機(jī)可讀媒體,其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒 譜系數(shù)。
39. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括: 用于確定出現(xiàn)在圖像中的一或多個(gè)對(duì)象的范圍信息的代碼;以及 用于基于所述范圍信息分析所述關(guān)鍵點(diǎn)的代碼。
40. 根據(jù)權(quán)利要求39所述的計(jì)算機(jī)可讀媒體,其中用于確定范圍信息的代碼是選自由 以下各項(xiàng)組成的群組:用于使用自動(dòng)聚焦相機(jī)確定范圍信息的代碼,用于使用多相機(jī)圖像 視差估計(jì)確定范圍信息的代碼,和前述各項(xiàng)的任一合適組合。
【文檔編號(hào)】H04R3/00GK104246796SQ201380019248
【公開(kāi)日】2014年12月24日 申請(qǐng)日期:2013年3月7日 優(yōu)先權(quán)日:2012年4月13日
【發(fā)明者】埃里克·維瑟, 王海音, 哈西卜·A·西迪基, 金萊軒 申請(qǐng)人:高通股份有限公司