使用多模匹配方案的對(duì)象辨識(shí)的制作方法

文檔序號(hào)：7792416閱讀：275來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

使用多模匹配方案的對(duì)象辨識(shí)的制作方法
【專利摘要】本發(fā)明揭示用于辨識(shí)和定位場(chǎng)景中的一或多個(gè)對(duì)象的方法、系統(tǒng)和制品。俘獲所述場(chǎng)景的圖像和/或視頻。使用在所述場(chǎng)景處記錄的音頻，縮窄所述所俘獲場(chǎng)景的對(duì)象搜索。舉例來(lái)說(shuō)，可確定聲音的到達(dá)方向DOA且用以限制所俘獲圖像/視頻中的搜索區(qū)域。在另一實(shí)例中，可基于在所述所記錄音頻中識(shí)別的聲音的類型來(lái)選擇關(guān)鍵點(diǎn)標(biāo)志。關(guān)鍵點(diǎn)標(biāo)志對(duì)應(yīng)于系統(tǒng)經(jīng)配置以辨識(shí)的特定對(duì)象。隨后可使用移位不變特征變換SIFT分析，將所述所俘獲場(chǎng)景中識(shí)別的關(guān)鍵點(diǎn)與所述選定關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)辨識(shí)所述場(chǎng)景中的對(duì)象。
【專利說(shuō)明】使用多模匹配方案的對(duì)象辨識(shí)
[0001] 根據(jù)35U.S.C.§119豐張優(yōu)先權(quán)
[0002] 本專利申請(qǐng)案主張2012年4月13日申請(qǐng)的第61/623,910號(hào)美國(guó)臨時(shí)申請(qǐng)案的優(yōu)先權(quán)，所述美國(guó)臨時(shí)申請(qǐng)案轉(zhuǎn)讓給本受讓人且特此以引用方式并入本文。

【技術(shù)領(lǐng)域】
[0003] 本發(fā)明大體上涉及對(duì)象辨識(shí)設(shè)備和方法。

【背景技術(shù)】
[0004] 各種應(yīng)用可得益于具有能夠識(shí)別視覺(jué)場(chǎng)景中的對(duì)象的機(jī)器或處理器。計(jì)算機(jī)視覺(jué) 的領(lǐng)域嘗試提供準(zhǔn)許識(shí)別場(chǎng)景中的對(duì)象或特征的技術(shù)和/或算法，其中對(duì)象或特征可通過(guò) 識(shí)別一或多個(gè)關(guān)鍵點(diǎn)的描述符來(lái)表征。例如SIFT(尺度不變特征變換）的這些技術(shù)常常也應(yīng)用于對(duì)象辨識(shí)、對(duì)象檢測(cè)、圖像匹配、3維結(jié)構(gòu)構(gòu)造、立體對(duì)應(yīng)和/或運(yùn)動(dòng)跟蹤、面部辨識(shí) 以及其它應(yīng)用。
[0005] 大多數(shù)對(duì)象辨識(shí)技術(shù)僅依賴于從場(chǎng)景俘獲的視覺(jué)信息，例如視頻、圖像或圖片。

【發(fā)明內(nèi)容】

[0006] 此
【發(fā)明內(nèi)容】
不是所有預(yù)期實(shí)施例的延伸概述，且既定不識(shí)別所有實(shí)施例的重要或關(guān)鍵元素，也不描繪任何或所有實(shí)施例的范圍。其唯一目的是以簡(jiǎn)化形式呈現(xiàn)一或多個(gè)實(shí) 施例的一些概念，作為隨后呈現(xiàn)的更詳細(xì)描述的序言。
[0007] 揭示用于辨識(shí)和定位場(chǎng)景中的一或多個(gè)對(duì)象的改進(jìn)技術(shù)。這些技術(shù)并入了在場(chǎng)景處記錄的音頻以及視覺(jué)信息的使用，以幫助辨識(shí)場(chǎng)景中的對(duì)象。根據(jù)這些技術(shù)的一方面，一種設(shè)備包含：關(guān)鍵點(diǎn)選擇器，其經(jīng)配置以基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)；以及關(guān)鍵點(diǎn)匹配裝置，其經(jīng)配置以基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
[0008] 根據(jù)又一方面，一種辨識(shí)場(chǎng)景中的對(duì)象的方法包含：基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述對(duì)象的關(guān)鍵點(diǎn)；以及基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
[0009] 根據(jù)又一方面，一種體現(xiàn)可由一或多個(gè)處理器執(zhí)行的指令集的計(jì)算機(jī)可讀媒體。所述媒體存儲(chǔ)用于基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)的編程代碼；以及用于基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象的編程代碼。
[0010] 所屬領(lǐng)域的技術(shù)人員在檢視附圖和詳細(xì)描述后將明白或變?yōu)槊靼灼渌矫?、特?和優(yōu)點(diǎn)。既定所有此些額外特征、方面和優(yōu)點(diǎn)包含在本描述內(nèi)且由所附權(quán)利要求書(shū)保護(hù)。

【專利附圖】

【附圖說(shuō)明】
[0011] 應(yīng)了解，附圖僅用于說(shuō)明目的。此外，圖中的組件不一定按比例繪制，而是強(qiáng)調(diào)說(shuō) 明本文描述的技術(shù)和裝置的原理。在圖中，相同參考標(biāo)號(hào)在全部不同視圖中指定對(duì)應(yīng)部分。
[0012] 圖1是說(shuō)明示范性聽(tīng)覺(jué)場(chǎng)景和視聽(tīng)場(chǎng)景分析系統(tǒng)的概念圖。
[0013] 圖2是描繪操作圖1的視聽(tīng)場(chǎng)景分析系統(tǒng)的方法的過(guò)程框圖。
[0014] 圖3是展示使用圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)對(duì)聽(tīng)覺(jué)場(chǎng)景進(jìn)行分解和處理的示范性方法的流程圖。
[0015] 圖4是展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的示范性方法的流程圖。
[0016] 圖5A到5B展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的第二示范性方法的流程圖。
[0017] 圖6是說(shuō)明可與圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)一起使用的示范性對(duì)象辨識(shí)子系統(tǒng)的某些組件的框圖。
[0018] 圖7是說(shuō)明用于對(duì)所記錄圖像執(zhí)行對(duì)象辨識(shí)的功能階段的框圖。
[0019] 圖8說(shuō)明示范性圖像處理階段中的高斯尺度空間產(chǎn)生。
[0020] 圖9說(shuō)明示范性圖像處理階段中的特征檢測(cè)。
[0021] 圖10說(shuō)明示范性圖像處理階段中的特征描述符提取。
[0022] 圖11說(shuō)明用于照明不變特征/關(guān)鍵點(diǎn)檢測(cè)的尺度空間正規(guī)化的實(shí)例。
[0023] 圖12說(shuō)明可如何獲得經(jīng)正規(guī)化尺度空間差的一個(gè)層級(jí)的一個(gè)實(shí)例。
[0024] 圖13說(shuō)明用于產(chǎn)生經(jīng)正規(guī)化尺度空間差以獲得改進(jìn)特征檢測(cè)的方法。
[0025] 圖14是說(shuō)明特征/關(guān)鍵點(diǎn)檢測(cè)裝置的實(shí)例的框圖。
[0026] 圖15是說(shuō)明圖像匹配裝置的實(shí)例的框圖。
[0027] 圖16A展示根據(jù)一般配置的設(shè)備AlOO的框圖。
[0028] 圖16B展示包含麥克風(fēng)陣列RlOO和設(shè)備AlOO的實(shí)例的裝置DlO的框圖。
[0029] 圖16C說(shuō)明從點(diǎn)源j接收的信號(hào)分量相對(duì)于陣列RlOO的麥克風(fēng)MClO和MC20的軸線的到達(dá)方向θρ
[0030] 圖17展示設(shè)備AlOO的實(shí)施方案AllO的框圖。
[0031] 圖18A展示濾波器更新模塊UMlO的實(shí)施方案UM20的框圖。
[0032] 圖18B展示濾波器更新模塊UM20的實(shí)施方案UM22的框圖。
[0033] 圖19A展示具有相機(jī)CMlO的陣列RlOO的四麥克風(fēng)實(shí)施方案R104的布置的一個(gè) 實(shí)例的俯視圖。
[0034] 圖19B展示用于到達(dá)方向估計(jì)的遠(yuǎn)場(chǎng)模型。
[0035] 圖20展示設(shè)備AlOO的實(shí)施方案A120的框圖。
[0036] 圖21展示設(shè)備A120和A200的實(shí)施方案A220的框圖。
[0037] 圖22展示從使用SRP-PHAT用于DOA估計(jì)得到的直方圖的實(shí)例。
[0038] 圖23展示使用IVA調(diào)適規(guī)則（40到60度的源分離）調(diào)適的解混矩陣的不同輸出通道的一組四個(gè)直方圖的實(shí)例。
[0039] 圖24是經(jīng)配置以在圖像或視頻俘獲期間檢測(cè)場(chǎng)景中的對(duì)象的視差的示范性圖像俘獲裝置的圖。
[0040] 圖25是圖24的裝置中可包含的示范性圖像處理系統(tǒng)的框圖。
[0041] 圖26A到26B是與所感知對(duì)象深度相關(guān)的對(duì)象視差的說(shuō)明性實(shí)例的圖。
[0042] 圖27A展示根據(jù)一般配置的方法MlOO的流程圖。
[0043] 圖27B展示方法MlOO的實(shí)施方案M200的流程圖。
[0044] 圖27C展不根據(jù)一般配置用于分解音頻信號(hào)的設(shè)備MF100的框圖。
[0045] 圖27D展示根據(jù)另一一般配置用于分解音頻信號(hào)的設(shè)備AlOO的框圖。
[0046] 圖28A展示方法MlOO的實(shí)施方案M300的流程圖。
[0047] 圖28B展示設(shè)備AlOO的實(shí)施方案A300的框圖。
[0048] 圖28C展示設(shè)備AlOO的另一實(shí)施方案A310的框圖。
[0049] 圖29A展示方法M200的實(shí)施方案M400的流程圖。
[0050] 圖29B展示方法M200的實(shí)施方案M500的流程圖。
[0051] 圖30A展示方法MlOO的實(shí)施方案M600的流程圖。
[0052] 圖30B展示設(shè)備AlOO的實(shí)施方案A700的框圖。
[0053] 圖31展示設(shè)備AlOO的實(shí)施方案A800的框圖。
[0054] 圖32說(shuō)明模型Bf=y。
[0055] 圖33說(shuō)明圖32的模型的修改B'f=y。
[0056] 圖34說(shuō)明其中多個(gè)聲音源在作用中的情形。

【具體實(shí)施方式】
[0057] 參考且并入有附圖的以下詳細(xì)描述描述且說(shuō)明一或多個(gè)具體實(shí)施例。并非為了限制而是僅為了示范和教示而提供的這些實(shí)施例得到展示且用足夠細(xì)節(jié)來(lái)描述，以使得所屬領(lǐng)域的技術(shù)人員能夠?qū)嵺`所主張的內(nèi)容。因此，為了簡(jiǎn)明，描述可省略所屬領(lǐng)域的技術(shù)人員已知的某些信息。
[0058] 詞語(yǔ)"示范性"貫穿本發(fā)明用以表示"充當(dāng)實(shí)例、例子或說(shuō)明"。在本文中描述為 "示范性"的任何內(nèi)容不一定解釋為比其它方法或特征優(yōu)選或有利。除非由其上下文明確限制，否則術(shù)語(yǔ)"信號(hào)"在此用以指示其普通意義中的任一者，包含如在電線、總線或其它傳輸媒體上表達(dá)的存儲(chǔ)器位置（或存儲(chǔ)器位置集合）的狀態(tài)。
[0059] 雖然在此描述的對(duì)象辨識(shí)技術(shù)可應(yīng)用于許多不同場(chǎng)景，但本文描述的實(shí)例涉及音樂(lè)場(chǎng)景，其中在單個(gè)場(chǎng)景中存在許多聲音源，例如音樂(lè)家、演奏家、樂(lè)器和類似物。某些視頻游戲（例如，GuitarHero?、RockBand?)和音樂(lè)會(huì)音樂(lè)場(chǎng)景可涉及在同時(shí)表演的多個(gè)樂(lè) 器和歌手。當(dāng)前的商業(yè)游戲和音樂(lè)制作系統(tǒng)要求循序地或用靠近定位的麥克風(fēng)來(lái)播放這些情景以能夠分析、后處理以及增頻混合從它們單獨(dú)記錄的音頻。這些約束可能在音樂(lè)制作的情況下限制了控制干擾和/或記錄空間效果的能力，且在視頻游戲的情況下可能導(dǎo)致有限的用戶體驗(yàn)。
[0060] 如果有助于縮窄正在演奏何種樂(lè)器以及在場(chǎng)景中存在多少音樂(lè)家和/或聲音源的一些先驗(yàn)知識(shí)或其它信息可用，那么聽(tīng)音樂(lè)場(chǎng)景分解可大大簡(jiǎn)化。
[0061] 本文揭示的對(duì)象辨識(shí)技術(shù)克服了對(duì)在具有多個(gè)聲音源的場(chǎng)景處記錄的音頻進(jìn)行分解的先前嘗試的許多限制。大體上，對(duì)象或特征辨識(shí)可涉及識(shí)別圖像中的關(guān)注點(diǎn)（也稱為關(guān)鍵點(diǎn)）和/或那些關(guān)鍵點(diǎn)周圍的局部化特征以用于特征識(shí)別和/或?qū)ο蟊孀R(shí)的目的。在本文揭示的系統(tǒng)和方法中，組合了某些基于圖像的樂(lè)器和基于音頻的音符/樂(lè)器辨識(shí)技術(shù)。許多不同裝置能夠使用計(jì)算機(jī)視覺(jué)執(zhí)行特征識(shí)別和/或?qū)ο蟊孀R(shí)。此些裝置的實(shí)例可在以下各項(xiàng)中實(shí)施：電話手持機(jī)（例如，蜂窩式手持機(jī)）；能夠進(jìn)行視頻記錄的手持式移動(dòng)裝置，用以記錄音頻和視頻內(nèi)容的個(gè)人媒體播放器；個(gè)人數(shù)字助理（PDA)或其它手持式計(jì)算裝置；以及筆記本、筆記本計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)或其它便攜式計(jì)算裝置。另外，能夠執(zhí)行可涉及在同時(shí)表演的多個(gè)樂(lè)器和歌手的視頻游戲（例如，GuitarHero?、 RockBand?)和音樂(lè)會(huì)音樂(lè)場(chǎng)景的裝置。此類便攜式計(jì)算裝置當(dāng)前包含具有如下名稱的裝置，例如：膝上型計(jì)算機(jī)、筆記本計(jì)算機(jī)、超便攜式計(jì)算機(jī)、平板計(jì)算機(jī)、移動(dòng)因特網(wǎng)裝置、智能本和智能電話。
[0062] 在第一方法中，僅基于音頻知識(shí)的信息有助于界定在場(chǎng)景中正在搜索的聲音源的類型且減少在基于圖像的尺度不變特征變換（SIFT)搜索中應(yīng)當(dāng)考慮的對(duì)象形狀的關(guān)鍵點(diǎn) 標(biāo)志的搜索全域。另外，此關(guān)鍵點(diǎn)搜索不一定限于靜止圖像，而是也可涉及取決于深度（范圍）層搜索的需要而使用單個(gè)或多個(gè)相機(jī)來(lái)分析典型音樂(lè)家運(yùn)動(dòng)模式的周圍視頻幀。關(guān)鍵點(diǎn)搜索是經(jīng)由多模貝葉斯估計(jì)而集成以用相關(guān)聯(lián)可能性產(chǎn)生經(jīng)辨識(shí)樂(lè)器。
[0063] 在第二方法中，聲音源（例如，樂(lè)器）位置是從多麥克風(fēng)聲音局部化信息和樂(lè)器形狀辨識(shí)來(lái)估計(jì)以計(jì)算圖像的某些部分中的穩(wěn)定樂(lè)器關(guān)鍵點(diǎn)。此方法可與第一方法組合以改善對(duì)象辨識(shí)。
[0064] 在第三方法中，例如語(yǔ)音/音頻辨識(shí)中使用的梅爾頻率倒譜系數(shù)（MFCC)等聲學(xué)特征連同例如使用第二方法確定的相關(guān)聯(lián)多麥克風(fēng)聲音源局部化信息一起直接在多模貝葉斯估計(jì)中使用以提供聲音源辨識(shí)。第三方法可與第一方法組合以改善對(duì)象辨識(shí)。
[0065]以上方法可準(zhǔn)許例如在對(duì)從場(chǎng)景記錄的音頻進(jìn)行分解的稀疏恢復(fù)分解方法的情況下基函數(shù)庫(kù)存的大小的較精細(xì)界定。
[0066] 圖1是說(shuō)明示范性聽(tīng)覺(jué)場(chǎng)景10和示范性聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)12的概念圖。聽(tīng)覺(jué)場(chǎng) 景分析系統(tǒng)12包含場(chǎng)景分析系統(tǒng)14、麥克風(fēng)陣列18以及一或多個(gè)相機(jī)16。相機(jī)16可包含一或多個(gè)靜止圖像相機(jī)和/或一或多個(gè)攝像機(jī)，其相對(duì)于場(chǎng)景10布置在各種位置和角度。
[0067] 場(chǎng)景分析系統(tǒng)14包含對(duì)象辨識(shí)子系統(tǒng)20和聲學(xué)分解子系統(tǒng)22。對(duì)象辨識(shí)子系統(tǒng) 20經(jīng)配置以根據(jù)本文描述的方法基于在場(chǎng)景處記錄的音頻、圖像和/或視頻來(lái)辨識(shí)和定位場(chǎng)景10中的聲音源。聲學(xué)分解子系統(tǒng)22經(jīng)配置以基于來(lái)自對(duì)象辨識(shí)子系統(tǒng)20的信息將場(chǎng)景分解為單獨(dú)的聲音源，使得可個(gè)別地處理經(jīng)分離的音頻。
[0068] 圖2是描繪操作圖1的視聽(tīng)場(chǎng)景分析系統(tǒng)10的示范性方法的過(guò)程框圖50。所述過(guò)程說(shuō)明用于分析在場(chǎng)景處記錄的視聽(tīng)信息以定位和識(shí)別場(chǎng)景中的一或多個(gè)樂(lè)器的步驟。所述方法包含音頻分析框52、圖像和/或視頻處理框54和音頻處理框56。
[0069]所揭示方法可將所俘獲音頻和/或視頻信號(hào)處理為一系列片段。典型的片段長(zhǎng)度范圍是從大約一秒到十秒。在一個(gè)特定實(shí)例中，將信號(hào)劃分為一系列不重疊片段或"幀"，其各自具有大約一秒的長(zhǎng)度。通過(guò)此方法處理的片段也可為通過(guò)不同操作處理的較大片段的片段（即，"子幀"），或反之亦然。
[0070] 音頻分析框52包含基于在場(chǎng)景處記錄的音頻信息確定場(chǎng)景中的聲音源位置的步驟（方框61)。音頻信息可由麥克風(fēng)陣列18俘獲?；趤?lái)自場(chǎng)景中的源的聲音的估計(jì)到達(dá) 方向（DOA)和/或針對(duì)所述源確定的范圍信息可確定聲音位置。源的DOA可使用本文在以下描述的音頻DOA估計(jì)技術(shù)來(lái)估計(jì)，且聲音源的范圍可使用本文在以下參考圖18到29描述的范圍發(fā)現(xiàn)技術(shù)來(lái)估計(jì)。
[0071] 音頻分析框52還包含提供場(chǎng)景中的每一源的聲音源的可能類型的步驟（方框 62)。舉例來(lái)說(shuō)，對(duì)于樂(lè)器，可使用樂(lè)器音符庫(kù)來(lái)分析在場(chǎng)景處記錄的聲音以匹配聲音源與產(chǎn)生聲音的可能類型的樂(lè)器。
[0072] 來(lái)自方框61、62的聲音源位置和類型估計(jì)傳遞到圖像/視頻處理框54且用以限制針對(duì)聲音源的視覺(jué)識(shí)別的搜索。在方框64中，估計(jì)位置信息用以縮窄場(chǎng)景的記錄圖像中的空間搜索空間以用于關(guān)鍵點(diǎn)匹配。在方框66中，基于可能的樂(lè)器類型而縮窄圖像關(guān)鍵點(diǎn) 搜索。這兩個(gè)步驟均可顯著改善識(shí)別場(chǎng)景中的樂(lè)器的可靠性，且還可減少實(shí)行樂(lè)器的視覺(jué) 辨識(shí)所需的處理量。
[0073]在方框68中，對(duì)在場(chǎng)景處記錄的圖像和視頻數(shù)據(jù)執(zhí)行視覺(jué)對(duì)象辨識(shí)分析以識(shí)別場(chǎng)景中的樂(lè)器。所述分析可涉及視覺(jué)特征分析方案，例如場(chǎng)景的尺度不變特征變換（SIFT) 分析，其中基于來(lái)自方框61、62的音頻導(dǎo)出的信息而縮窄待分析的圖像的關(guān)鍵點(diǎn)和區(qū)域。本文在以下參考圖7到17揭示示范性SIFT分析方法的細(xì)節(jié)。
[0074] 視覺(jué)特征分析（方框70)的結(jié)果是聲音源（例如，樂(lè)器）候選及其在場(chǎng)景中的對(duì) 應(yīng)位置的列表，其提供到音頻處理框56。
[0075] 音頻處理框56進(jìn)一步分析從場(chǎng)景記錄的音頻以分解音頻，使得可更好地隔離、識(shí) 別和處理單獨(dú)的聲音源以增強(qiáng)所記錄音頻的質(zhì)量。在方框72中，來(lái)自圖像/視頻處理框52 的位置信息用以產(chǎn)生用于分別朝向所識(shí)別源位置子扇區(qū)中的每一者引導(dǎo)的多麥克風(fēng)陣列的空間濾波器。這有助于分離所記錄音頻數(shù)據(jù)中的聲音源。在方框74中，將基于單通道基函數(shù)庫(kù)存的稀疏恢復(fù)技術(shù)應(yīng)用于經(jīng)分離聲音子扇區(qū)中的每一者以改善樂(lè)器聲音源的識(shí)別。信號(hào)通道恢復(fù)技術(shù)可使用樂(lè)器類別注釋的減少集合來(lái)減少基函數(shù)庫(kù)存，其中所述減少是通過(guò)由圖像/視頻處理框54提供的樂(lè)器候選列表來(lái)導(dǎo)引（方框70)。本文在以下結(jié)合圖30 到37描述可在方框70中使用的示范性稀疏恢復(fù)技術(shù)。
[0076] 圖3是展示使用圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)12對(duì)聽(tīng)覺(jué)場(chǎng)景進(jìn)行分解的示范性方法的流程圖200。在步驟202中，系統(tǒng)12記錄音頻和視覺(jué)信息（靜止圖像和/或視頻）。在步驟204中，對(duì)象辨識(shí)子系統(tǒng)20識(shí)別且定位場(chǎng)景10中的聲音產(chǎn)生對(duì)象中的一或多者。在步驟206中，聲學(xué)分解子系統(tǒng)22將聲學(xué)場(chǎng)景分解為單獨(dú)的聲音源。在步驟208中，聲學(xué)分解子系統(tǒng)22將基于信號(hào)通道基函數(shù)庫(kù)存的稀疏恢復(fù)應(yīng)用于經(jīng)分離聲音。
[0077] 圖4是展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的第一示范性方法的流程圖300。此方法可由對(duì)象辨識(shí)子系統(tǒng)20執(zhí)行。在步驟302中，識(shí)別所俘獲圖像中的關(guān)鍵點(diǎn)。在步驟304 中，基于在場(chǎng)景處記錄的音頻來(lái)選擇對(duì)應(yīng)于例如樂(lè)器等聲音產(chǎn)生對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo) 志。在步驟306中，通過(guò)將圖像中的關(guān)鍵點(diǎn)與選定關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別場(chǎng)景中的至少一個(gè)對(duì)象。
[0078] 圖5A到5B展示識(shí)別聽(tīng)覺(jué)場(chǎng)景中的聲音產(chǎn)生對(duì)象的第二示范性方法的流程圖400。此方法可由對(duì)象辨識(shí)子系統(tǒng)20執(zhí)行。在步驟402中，識(shí)別所俘獲圖像中的關(guān)鍵點(diǎn)。在步驟 404中，從所識(shí)別關(guān)鍵點(diǎn)中選擇穩(wěn)定的關(guān)鍵點(diǎn)。在步驟406中，基于從場(chǎng)景記錄的音頻來(lái)選擇場(chǎng)景的圖像中的關(guān)注區(qū)（ROI)。在步驟408中，選擇ROI中的穩(wěn)定關(guān)鍵點(diǎn)。
[0079] 在步驟410中，從場(chǎng)景的視頻計(jì)算局部運(yùn)動(dòng)向量（LMV)。在步驟412中，選擇ROI 中的LMV。
[0080] 在步驟414中，基于在場(chǎng)景處記錄的音頻來(lái)選擇對(duì)應(yīng)于例如樂(lè)器等聲音產(chǎn)生對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志。
[0081] 在步驟416中，基于從場(chǎng)景記錄的音頻計(jì)算音頻置信度值（CV)。音頻CV可基于例如MFCC分類器的音頻特征匹配裝置的輸出。音頻CV可為向量，其中所述向量的每一元素指示對(duì)象是特定類型的對(duì)象（例如，小號(hào)、鋼琴等等）的可能性。
[0082] 在步驟418中，基于場(chǎng)景的所俘獲數(shù)字圖像計(jì)算圖像置信度值（CV)。圖像CV可基于例如SIFT匹配裝置的匹配裝置的輸出。SIFT匹配裝置將ROI中的穩(wěn)定關(guān)鍵點(diǎn)與選定關(guān) 鍵點(diǎn)標(biāo)志進(jìn)行比較以產(chǎn)生圖像CV。圖像CV可為向量，其中所述向量的每一元素指示對(duì)象是特定類型的對(duì)象（例如，小號(hào)、鋼琴等等）的可能性。
[0083] 在步驟420中，基于從場(chǎng)景記錄的視頻計(jì)算視頻置信度值（CV)。視頻CV可基于比較ROI中選擇的LMV的直方圖匹配過(guò)程的輸出。視頻CV可為向量，其中所述向量的每一元素指示對(duì)象是特定類型的對(duì)象（例如，小號(hào)、鋼琴等等）的可能性。
[0084] 音頻、圖像和視頻CV可各自經(jīng)正規(guī)化。
[0085] 在步驟422中，基于音頻、圖像和視頻CV識(shí)別場(chǎng)景中的對(duì)象。舉例來(lái)說(shuō)，最終CV 可計(jì)算為首頻、圖像和視頻CV的經(jīng)加權(quán)和。用于每一CV的加權(quán)系數(shù)可基于相應(yīng)記錄|旲態(tài) 的信噪比（SNR)，且尤其可為當(dāng)前記錄幀的SNR的函數(shù)。
[0086] 在其中模態(tài)CV為向量的情況下，最終CV也是向量，其中向量的每一元素指示對(duì)象是特定類型對(duì)象（例如，小號(hào)、鋼琴等等）的可能性。指示最大可能性的元素識(shí)別對(duì)象。
[0087] 圖6是說(shuō)明可與圖1的聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)12 -起使用的示范性對(duì)象辨識(shí)子系統(tǒng) 500的某些組件的框圖。子系統(tǒng)500包含音頻處理器502、圖像處理器504、視頻處理器506、 SIFT匹配裝置532、關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù)（DB) 534、聲學(xué)特征數(shù)據(jù)庫(kù)536、聲學(xué)特征匹配裝置 538、直方圖匹配裝置540、對(duì)象局部運(yùn)動(dòng)向量（LMV)直方圖數(shù)據(jù)庫(kù)542,和多模分類器544。
[0088] 音頻處理器502接收且記錄在場(chǎng)景處來(lái)自麥克風(fēng)陣列18的音頻信號(hào)。圖像處理器504從拍攝場(chǎng)景的圖片的一或多個(gè)相機(jī)508接收且記錄場(chǎng)景的一或多個(gè)圖像。視頻處理器506從記錄場(chǎng)景的一或多個(gè)攝像機(jī)510接收且記錄視頻信號(hào)。
[0089] 音頻處理器502包含到達(dá)方向（DOA)檢測(cè)器512、關(guān)注區(qū)（ROI)選擇器514、聲音分類器516以及聲學(xué)特征提取器518。根據(jù)從麥克風(fēng)陣列18接收的麥克風(fēng)信號(hào)，DOA檢測(cè) 器512確定從位于場(chǎng)景內(nèi)的聲音源放射的聲音的到達(dá)方向。本文結(jié)合圖18到25描述DOA 檢測(cè)器512的示范性組件和功能。根據(jù)陣列的DOA和位置，可確定場(chǎng)景中的聲音源的位置的估計(jì)。將此DOA信息傳遞到ROI選擇器514。ROI選擇器514基于DOA信息和麥克風(fēng)陣列18的已知位置來(lái)估計(jì)聲音源的位置。ROI選擇器514隨后基于位置信息來(lái)選擇場(chǎng)景的圖像的特定部分。選定部分或ROI含有聲音源，且因此可用以將關(guān)鍵點(diǎn)搜索和LMV計(jì)算限于僅場(chǎng)景的部分。
[0090] 聲音分類器516基于所記錄音頻的特性來(lái)分類聲音源的類型。舉例來(lái)說(shuō)，分類器 516可使用樂(lè)器音符庫(kù)來(lái)識(shí)別一類樂(lè)器作為聲音源。
[0091] 聲音分類器516的輸出是音頻置信度值，且其作為輸入提供到關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù) 534?；谝纛l置信度值從關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù)534選擇一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志。將這些選定關(guān)鍵點(diǎn)標(biāo)志提供到SIFT匹配裝置532。
[0092] 聲學(xué)特征提取器518計(jì)算從麥克風(fēng)信號(hào)導(dǎo)出的聲學(xué)特征，例如MFCC或類似物。將這些提取的特征提供到聲學(xué)特征匹配裝置538,其通過(guò)將提取的特征與用于不同類型聲音源的聲學(xué)特征數(shù)據(jù)庫(kù)536進(jìn)行比較來(lái)識(shí)別聲音源。聲學(xué)特征匹配裝置的輸出可為聲學(xué)特征置信度值，其可為具有與上文針對(duì)其它CV論述的元素類似的元素的向量。
[0093] 圖像處理器504包含關(guān)鍵點(diǎn)檢測(cè)器520、穩(wěn)定關(guān)鍵點(diǎn)檢測(cè)器522和ROI關(guān)鍵點(diǎn)選擇器524。關(guān)鍵點(diǎn)檢測(cè)器520使用本文描述的方法確定場(chǎng)景的所俘獲數(shù)字圖像中的關(guān)鍵點(diǎn)。穩(wěn)定關(guān)鍵點(diǎn)檢測(cè)器522精煉關(guān)鍵點(diǎn)搜索，且僅選擇穩(wěn)定的那些檢測(cè)到的關(guān)鍵點(diǎn)。ROI關(guān)鍵點(diǎn) 選擇器524從ROI選擇器514接收識(shí)別所俘獲圖像中的ROI的坐標(biāo)信息?；谧鴺?biāo)信息，ROI關(guān)鍵點(diǎn)選擇將圖像關(guān)鍵點(diǎn)選擇縮窄到位于ROI內(nèi)的那些穩(wěn)定關(guān)鍵點(diǎn)。
[0094] 隨后將在ROI內(nèi)檢測(cè)到的穩(wěn)定關(guān)鍵點(diǎn)提供到SIFT匹配裝置532。
[0095] 本質(zhì)上，SIFT匹配裝置532將穩(wěn)定ROI關(guān)鍵點(diǎn)與從關(guān)鍵點(diǎn)標(biāo)志數(shù)據(jù)庫(kù)534檢索的關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以產(chǎn)生圖像CV。
[0096] 視頻處理器506包含LMV計(jì)算器526、ROILMV選擇器528,和ROILMV直方圖計(jì) 算器530。LMV計(jì)算器526從相機(jī)510接收數(shù)字視頻信號(hào)且計(jì)算場(chǎng)景的預(yù)定記錄持續(xù)時(shí)間中的LMV。隨后將LMV傳遞到ROILMV選擇器528。ROILMV選擇器528從ROI選擇器514 接收ROI的坐標(biāo)信息，且基于坐標(biāo)信息選擇ROI內(nèi)的那些LMV。
[0097] 隨后將ROI內(nèi)的LMV傳遞到ROILMV直方圖計(jì)算器530,其根據(jù)ROI計(jì)算LMV直方圖。隨后將場(chǎng)景的LMV直方圖傳遞到直方圖匹配裝置540。直方圖匹配裝置540將場(chǎng)景 LMV直方圖與存儲(chǔ)在對(duì)象LMV直方圖數(shù)據(jù)庫(kù)542中的對(duì)象LMV直方圖進(jìn)行比較以找到最接近的匹配。直方圖匹配裝置540基于此比較輸出視頻CV。
[0098] 多模分類器544基于SIFT匹配裝置532、聲音分類器516、聲學(xué)特征匹配裝置538 和直方圖匹配裝置540的輸出來(lái)識(shí)別場(chǎng)景中的對(duì)象。多模分類器544可通過(guò)計(jì)算最終置信度值向量來(lái)實(shí)現(xiàn)此情形，所述向量可為音頻CV、圖像CV、視頻CV、聲學(xué)特征CV的經(jīng)加權(quán)和。分類器544可執(zhí)行貝葉斯估計(jì)以用相關(guān)聯(lián)可能性產(chǎn)生經(jīng)辨識(shí)樂(lè)器。CV的加權(quán)系數(shù)可類似于結(jié)合圖4A到4B描述的加權(quán)系數(shù)。
[0099] 另外，子系統(tǒng)500也可輸出場(chǎng)景中辨識(shí)的每一對(duì)象的經(jīng)精煉對(duì)象位置。經(jīng)精煉對(duì) 象位置可基于來(lái)自多模分類器544、相機(jī)508的輸出，以及來(lái)自音頻處理器502的ROI選擇器514的估計(jì)對(duì)象位置。經(jīng)精煉對(duì)象位置可反饋到DOA檢測(cè)器512和/或ROI選擇器514 以改善其在估計(jì)關(guān)注區(qū)或?qū)ο笪恢脮r(shí)的準(zhǔn)確性和速度，例如，前一視頻/圖像幀中確定的估計(jì)DOA或?qū)ο笪恢每梢平坏较乱粠鳛槌跏甲鴺?biāo)供音頻處理器502用于其ROI選擇過(guò) 程。
[0100] 關(guān)鍵點(diǎn)詵擇和SIFT兀配裝置
[0101] 如下描述示范性關(guān)鍵點(diǎn)檢測(cè)器520、關(guān)鍵點(diǎn)選擇器522和SIFT匹配裝置532的操作。
[0102] 大體上，對(duì)象或特征辨識(shí)可涉及識(shí)別圖像中的關(guān)注點(diǎn)（也稱為關(guān)鍵點(diǎn)）和/或那些關(guān)鍵點(diǎn)周圍的局部化特征以用于對(duì)象辨識(shí)的目的。雖然圖像數(shù)據(jù)中的此些獨(dú)特元素在此稱為"關(guān)鍵點(diǎn)"，但應(yīng)了解，如本文使用的術(shù)語(yǔ)"關(guān)鍵點(diǎn)"可涉及個(gè)別像素、像素群組、分?jǐn)?shù)像素部分、一或多個(gè)描述符、其它圖像分量，或者其任一組合。具有特征的高穩(wěn)定性和可重復(fù) 性在這些辨識(shí)算法中非常重要。因此，可選擇和/或處理關(guān)鍵點(diǎn)以使得其對(duì)于圖像尺度改變和/或旋轉(zhuǎn)是不變的，且提供在失真、視點(diǎn)改變和/或噪聲和照明改變的實(shí)質(zhì)范圍上的穩(wěn) 健匹配。此外，為了良好適合于例如對(duì)象辨識(shí)等任務(wù)，在單個(gè)特征可以高概率與來(lái)自多個(gè)目標(biāo)圖像的較大特征數(shù)據(jù)庫(kù)正確匹配的意義上，特征描述符可優(yōu)選為獨(dú)特的。
[0103] 在檢測(cè)且定位圖像中的關(guān)鍵點(diǎn)之后，可通過(guò)使用各種描述符來(lái)識(shí)別或描述它們。舉例來(lái)說(shuō)，描述符可表示圖像中的內(nèi)容的視覺(jué)特征，例如形狀、顏色、紋理、旋轉(zhuǎn)和/或運(yùn) 動(dòng)，以及其它圖像特性。隨后使對(duì)應(yīng)于關(guān)鍵點(diǎn)且由描述符表示的個(gè)別特征匹配于來(lái)自已知對(duì)象的特征數(shù)據(jù)庫(kù)。
[0104]作為識(shí)別且選擇圖像的關(guān)鍵點(diǎn)的部分，由于缺乏精度或置信度可能需要丟棄已經(jīng) 選擇的一些點(diǎn)。舉例來(lái)說(shuō)，可基于不良對(duì)比度和/或沿著邊緣的不良局部化的底限而拒絕一些初始檢測(cè)到的關(guān)鍵點(diǎn)。在相對(duì)于照明、噪聲和定向變化增加關(guān)鍵點(diǎn)穩(wěn)定性方面，此些拒絕是重要的。最小化錯(cuò)誤關(guān)鍵點(diǎn)拒絕也是重要的，錯(cuò)誤關(guān)鍵點(diǎn)拒絕將降低特征匹配的可重復(fù)性。
[0105]大體上認(rèn)識(shí)到，圖像中的照明可通過(guò)空間變化的函數(shù)來(lái)表示。因此，通過(guò)抽取照明函數(shù)的正規(guī)化過(guò)程，可中和照明效果（例如，遮影、亮圖像、暗圖像等等）以用于特征/關(guān)鍵點(diǎn)檢測(cè)的目的。舉例來(lái)說(shuō)，可通過(guò)使用具有某一范圍的平滑因數(shù)的函數(shù)G(即，內(nèi)核或?yàn)V波器）漸進(jìn)地模糊圖像以產(chǎn)生圖像的經(jīng)平滑尺度空間L來(lái)處理圖像。隨后可通過(guò)取得經(jīng)平滑尺度空間層級(jí)的鄰近對(duì)之間的差（Li-LiJ來(lái)獲得圖像的尺度空間D的差。隨后通過(guò)將尺度空間層級(jí)的每一差除以經(jīng)平滑尺度空間層級(jí)Lk來(lái)實(shí)現(xiàn)尺度空間L的差的正規(guī)化，所述Lk 與用以獲得尺度空間層級(jí)的特定差Di的尺度空間層級(jí)1^中的最平滑者一樣平滑或更平滑。
[0106] 圖7是說(shuō)明用于對(duì)所記錄圖像執(zhí)行對(duì)象辨識(shí)的功能階段的框圖。在圖像俘獲階段702,可俘獲關(guān)注的圖像708 (即，所記錄圖像）。圖像708可由圖像俘獲裝置俘獲，所述裝置可包含一或多個(gè)圖像傳感器和/或模/數(shù)轉(zhuǎn)換器，以獲得數(shù)字俘獲圖像。圖像傳感器 (例如，電荷耦合裝置（CCD)、互補(bǔ)金屬半導(dǎo)體（CMOS))可將光轉(zhuǎn)換為電子。電子可形成模擬信號(hào)，所述模擬信號(hào)隨后由模/數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字值。以此方式，可以數(shù)字格式俘獲圖像708,所述數(shù)字格式可將圖像I(X，y)例如界定為具有對(duì)應(yīng)顏色、照明和/或其它特性的多個(gè)像素。
[0107]在圖像處理階段704中，隨后通過(guò)產(chǎn)生對(duì)應(yīng)尺度空間710 (例如，高斯尺度空間），執(zhí)行特征檢測(cè)712,且執(zhí)行特征描述符提取716來(lái)處理所俘獲圖像708。特征檢測(cè)712可針對(duì)所俘獲圖像708識(shí)別高度獨(dú)特的關(guān)鍵點(diǎn)和/或幾何關(guān)注的關(guān)鍵點(diǎn)，其可隨后在特征描述符提取716中用來(lái)獲得多個(gè)描述符。在圖像比較階段706,這些描述符用以執(zhí)行與已知描述符的數(shù)據(jù)庫(kù)的特征匹配722(例如，通過(guò)比較關(guān)鍵點(diǎn)和/或關(guān)鍵點(diǎn)周圍的關(guān)鍵點(diǎn)或片的其它特性）。隨后對(duì)關(guān)鍵點(diǎn)匹配執(zhí)行幾何檢驗(yàn)或一致性檢查724以確認(rèn)正確的特征匹配且提供匹配結(jié)果726。以此方式，所記錄圖像可與目標(biāo)圖像數(shù)據(jù)庫(kù)進(jìn)行比較和/或從其識(shí)別。
[0108]已觀察到，圖像中的照明改變可對(duì)圖像的特征/關(guān)鍵點(diǎn)辨識(shí)的穩(wěn)定性和/或可重復(fù)性具有有害影響。也就是說(shuō)，圖像中的局部和/或全局照明改變可影響圖像的特征/關(guān) 鍵點(diǎn)的檢測(cè)。舉例來(lái)說(shuō)，特征/關(guān)鍵點(diǎn)的數(shù)目和/或位置可取決于圖像中的照明（例如，遮影、對(duì)比度等等）而改變。因此將有益的是，在圖像中的特征/關(guān)鍵點(diǎn)檢測(cè)之前大體上消除或最小化局部和/或全局照明改變的影響。
[0109]進(jìn)行此做法的一種方法可為處理圖像本身以在開(kāi)始特征/關(guān)鍵點(diǎn)檢測(cè)之前移除或補(bǔ)償局部和/或全局照明改變。然而，此過(guò)程可能在計(jì)算上密集。另外，經(jīng)常難以確定圖像中是否存在局部和/或全局照明改變。此過(guò)程也將必須應(yīng)用于數(shù)據(jù)庫(kù)中的圖像。在不首先處理目標(biāo)圖像和數(shù)據(jù)庫(kù)圖像以校正照明改變的情況下，特征/關(guān)鍵點(diǎn)匹配可能不會(huì)成功。但在沒(méi)有照明可如何影響特定圖像的先前知識(shí)的情況下，此過(guò)程相當(dāng)難以自動(dòng)實(shí)施。 [0110] 因此，需要可在無(wú)實(shí)質(zhì)處理開(kāi)銷的情況下執(zhí)行的替代方案。根據(jù)一個(gè)實(shí)例，通過(guò)在對(duì)尺度空間的差執(zhí)行特征/關(guān)鍵點(diǎn)檢測(cè)之前正規(guī)化尺度空間的差可消除或減少用于特征檢測(cè)的圖像上的照明的影響（均勻或不均勻）。此正規(guī)化過(guò)程可使用已經(jīng)可用的經(jīng)平滑尺度空間來(lái)執(zhí)行，因此最小化任何另外的計(jì)算。
[0111] 根據(jù)一個(gè)實(shí)例，尺度空間正規(guī)化器714可實(shí)施為尺度空間產(chǎn)生710的部分以減少或消除照明改變對(duì)圖像中的關(guān)鍵點(diǎn)/特征辨識(shí)的影響。
[0112] 圖8說(shuō)明示范性圖像處理階段704中的高斯尺度空間產(chǎn)生。已經(jīng)開(kāi)發(fā)例如尺度不變特征變換（SIFT)等若干算法來(lái)執(zhí)行圖像中的特征檢測(cè)。針對(duì)圖像中的特定對(duì)象的檢測(cè) 的第一步驟是基于所記錄對(duì)象的局部特征來(lái)分類所述對(duì)象。目標(biāo)是識(shí)別和選擇對(duì)例如照明、圖像噪聲、旋轉(zhuǎn)、縮放和/或視點(diǎn)的小改變不變和/或穩(wěn)健的特征。也就是說(shuō)，盡管兩個(gè) 圖像之間的照明、圖像噪聲、旋轉(zhuǎn)、尺度和/或視點(diǎn)之間的差異，也應(yīng)當(dāng)發(fā)現(xiàn)查詢圖像與比較目標(biāo)圖像之間的匹配。進(jìn)行此做法的一種方法是對(duì)圖像的片執(zhí)行極端檢測(cè)（例如，局部最大值或最小值）以識(shí)別高度獨(dú)特的特征（例如，圖像中的獨(dú)特的點(diǎn)、像素和/或區(qū)）。
[0113] SIFT是用于檢測(cè)和提取對(duì)照明改變、圖像噪聲、旋轉(zhuǎn)、縮放和/或視點(diǎn)的小改變合理地不變的局部特征的一種方法。用于SIFT的圖像處理階段704可包含：(a)尺度空間極端檢測(cè)，（b)關(guān)鍵點(diǎn)局部化，（c)定向指派，和/或（d)關(guān)鍵點(diǎn)描述符的產(chǎn)生。應(yīng)明了，用于特征檢測(cè)和后續(xù)特征描述符產(chǎn)生的替代算法，包含加速穩(wěn)健特征（SURF)、梯度位置和定向直方圖（GLOH)、基于局部能量的形狀直方圖（LESH)、壓縮梯度直方圖（CHoG)等等，也可得益于本文描述的特征。
[0114] 在高斯尺度空間產(chǎn)生710中，數(shù)字圖像I(x，y) 708經(jīng)逐漸地高斯模糊（即，平滑）以構(gòu)造高斯金字塔752。高斯模糊（平滑）大體上涉及在尺度cs下使原始圖像I(x，y)與高斯模糊/平滑函數(shù)G(X，y，cs)卷積，使得高斯模糊/平滑函數(shù)L(X，y，cs)界定為L(zhǎng)(x，y， cs) =G(x，y，cs)*I(x，y)。此處，G是高斯內(nèi)核，cs表示用于模糊圖像I(x，y)的高斯函數(shù) 的標(biāo)準(zhǔn)偏差。由于乘數(shù)c是變化的（Ctl <C1 <C2 <C3 <C4)，因此標(biāo)準(zhǔn)偏差CS變化且獲得逐漸模糊/平滑。西格瑪s是基本尺度變量（例如，高斯內(nèi)核的寬度）。較高尺度（即，較低分辨率）比較低尺度（即，較高分辨率）模糊/平滑更多。因此，尺度層級(jí)越寬（即，較低分辨率），圖像越平滑（更模糊）。
[0115] 當(dāng)初始圖像I(X，y)與高斯G遞增卷積以產(chǎn)生模糊圖像L時(shí)，模糊圖像L由尺度空間中的常數(shù)因數(shù)c分離。在高斯模糊（平滑）圖像L的數(shù)目增加且為高斯金字塔752提供的近似接近連續(xù)空間時(shí)，所述兩個(gè)尺度也接近一個(gè)尺度。在一個(gè)實(shí)例中，卷積圖像L可通過(guò)八元組分組，其中八元組可對(duì)應(yīng)于標(biāo)準(zhǔn)偏差s的值的加倍。而且，乘數(shù)c的值（例如，Ctl <C1 <C2 <C3 <C4...)經(jīng)選擇以使得每八元組獲得固定數(shù)目的卷積圖像L。每一八元組的縮放對(duì)應(yīng)于明確的圖像重定大小。因此，在通過(guò)逐漸模糊/平滑函數(shù)模糊/平滑原始圖像 I(x，y)時(shí)，像素?cái)?shù)目逐漸減少。應(yīng)注意，雖然本文使用高斯平滑函數(shù)用于說(shuō)明，但也可采用其它類型的平滑內(nèi)核/函數(shù)。
[0116] 通過(guò)計(jì)算高斯金字塔752中的任何兩個(gè)連續(xù)高斯模糊圖像的差來(lái)構(gòu)造高斯差 (DoG)金字塔 754。在DoG空間 754 中，D(X，y，a)=L(x，y，cns)-L(x，y，ClriS)。DoG圖像 D(x，y，s)是在尺度cns和ClriS下兩個(gè)鄰近高斯模糊圖像L之間的差。D(x，y，s)的尺度位于cns與(V1S之間的某處。DoG圖像D可從每八元組的鄰近高斯模糊圖像L獲得。在每一八元組之后，可以因數(shù)2將高斯圖像向下取樣且隨后重復(fù)過(guò)程。以此方式，圖像可變換為對(duì)平移、旋轉(zhuǎn)、縮放和/或其它圖像參數(shù)和/或失真穩(wěn)健或不變的局部特征。
[0117] 一旦產(chǎn)生，用于所記錄圖像的DoG空間754便可用于極端檢測(cè)以識(shí)別關(guān)注特征 (例如，識(shí)別圖像中的高度獨(dú)特的點(diǎn)）。這些高度獨(dú)特的點(diǎn)在本文稱為關(guān)鍵點(diǎn)。這些關(guān)鍵點(diǎn) 可通過(guò)每一關(guān)鍵點(diǎn)周圍的片或局部區(qū)的特性來(lái)識(shí)別?？舍槍?duì)每一關(guān)鍵點(diǎn)及其對(duì)應(yīng)片產(chǎn)生描述符，其可用于查詢圖像與所存儲(chǔ)目標(biāo)圖像之間的關(guān)鍵點(diǎn)比較。"特征"可稱為描述符（即，關(guān)鍵點(diǎn)及其對(duì)應(yīng)片）。一組特征（即，關(guān)鍵點(diǎn)和對(duì)應(yīng)片）可稱為群集。
[0118] 圖9說(shuō)明示范性圖像處理階段704中的特征檢測(cè)。在特征檢測(cè)712中，DoG空間 754可用以識(shí)別圖像I(x，y)的關(guān)鍵點(diǎn)。特征檢測(cè)712試圖確定圖像中的特定樣本點(diǎn)或像素周圍的局部區(qū)或片是否是潛在關(guān)注片（幾何上來(lái)說(shuō)）。
[0119] 大體上，識(shí)別DoG空間754中的局部最大值和/或局部最小值，且將這些最大值和最小值的位置用作DoG空間754中的關(guān)鍵點(diǎn)位置。在圖9中說(shuō)明的實(shí)例中，關(guān)鍵點(diǎn)760已經(jīng)以片758識(shí)別。找到局部最大值和最小值（也稱為局部極端檢測(cè)）可通過(guò)將DoG空間 754中的每一像素（例如，關(guān)鍵點(diǎn)760的像素）與在相同尺度下其八個(gè)相鄰像素以及在關(guān)鍵點(diǎn)808的兩側(cè)上的每一相鄰尺度中的九個(gè)相鄰像素（鄰近片756和762)(總共26個(gè)像素 (9x2+8 = 26))進(jìn)行比較來(lái)實(shí)現(xiàn)。此處，片界定為3x3像素區(qū)。大體上，如果關(guān)鍵點(diǎn)758的像素值是片758、756和760中的全部二十六（26)個(gè)比較像素當(dāng)中的最大值或最小值，那么將其選擇為關(guān)鍵點(diǎn)?？蛇M(jìn)一步處理關(guān)鍵點(diǎn)以使得更準(zhǔn)確地識(shí)別它們的位置且可丟棄一些關(guān) 鍵點(diǎn)，例如低對(duì)比度關(guān)鍵點(diǎn)和邊緣關(guān)鍵點(diǎn)。
[0120] 圖10說(shuō)明示范性圖像處理階段704中的特征描述符提取。大體上，特征（例如，關(guān)鍵點(diǎn)及其對(duì)應(yīng)片）可由描述符表示，其允許特征（來(lái)自查詢圖像）與存儲(chǔ)在目標(biāo)圖像數(shù) 據(jù)庫(kù)中的特征的有效比較。在特征描述符提取716的一個(gè)實(shí)例中，每一關(guān)鍵點(diǎn)可基于局部圖像梯度的方向而被指派一或多個(gè)定向或方向。通過(guò)基于局部圖像性質(zhì)對(duì)每一關(guān)鍵點(diǎn)指派一致的定向，關(guān)鍵點(diǎn)描述符可相對(duì)于此定向來(lái)表示且因此實(shí)現(xiàn)對(duì)圖像旋轉(zhuǎn)的不變性。量值和方向計(jì)算可針對(duì)商斯1?糊圖像L中和/或關(guān)鍵點(diǎn)尺度下的關(guān)鍵點(diǎn)760周圍的相鄰區(qū)中的每個(gè)像素執(zhí)行。位于（x，y)的關(guān)鍵點(diǎn)760的梯度的量值可表示為m(x，y)，且在（x，y)處的關(guān)鍵點(diǎn)的梯度的定向或方向可表不為Γ(X，y)。關(guān)鍵點(diǎn)的尺度用以選擇具有與關(guān)鍵點(diǎn)760 的尺度最接近的尺度的高斯平滑圖像L，使得以尺度不變方式執(zhí)行所有計(jì)算。對(duì)于在此尺度下的每一圖像樣本L(x，y)，使用像素差來(lái)計(jì)算梯度量值m(x，y)和定向Γ(X，y)。舉例來(lái) 說(shuō)，量值m(x，y)可計(jì)算為：

【權(quán)利要求】
1. 一種在裝置中辨識(shí)場(chǎng)景中的對(duì)象的方法，其包括：基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述對(duì)象的關(guān)鍵點(diǎn)；以及基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
2. 根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括：基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè)對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志；識(shí)別所述場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn)；以及將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述對(duì)象。
3. 根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括：基于在所述場(chǎng)景處記錄的所述音頻選擇場(chǎng)景圖像的一部分；以及僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)。
4. 根據(jù)權(quán)利要求3所述的方法，其中基于在所述場(chǎng)景處記錄的所述音頻選擇所述圖像的一部分包含：從所述音頻確定音頻到達(dá)方向DOA ;以及基于所述音頻DOA選擇所述圖像的所述部分。
5. 根據(jù)權(quán)利要求4所述的方法，其中確定所述音頻DOA包含：在位于所述場(chǎng)景處的多個(gè)麥克風(fēng)處接收所述音頻，借此產(chǎn)生多個(gè)麥克風(fēng)信號(hào)；以及基于所述麥克風(fēng)信號(hào)確定所述音頻DOA。
6. 根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括：從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量；以及通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn)行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象。
7. 根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括：從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征；以及通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn)行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象。
8. 根據(jù)權(quán)利要求7所述的方法，其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒譜系數(shù)。
9. 根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括：確定出現(xiàn)在所述圖像中的一或多個(gè)對(duì)象的范圍信息；以及基于所述范圍信息分析所述關(guān)鍵點(diǎn)。
10. 根據(jù)權(quán)利要求9所述的方法，其中確定范圍信息是選自由以下各項(xiàng)組成的群組：使用自動(dòng)聚焦相機(jī)確定范圍信息，使用多相機(jī)圖像視差估計(jì)確定范圍信息，和前述各項(xiàng)的任一合適組合。
11. 一種設(shè)備，其包括：關(guān)鍵點(diǎn)選擇器，其經(jīng)配置以基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)；以及匹配裝置，其經(jīng)配置以基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象。
12. 根據(jù)權(quán)利要求11所述的設(shè)備，其進(jìn)一步包括：關(guān)鍵點(diǎn)檢測(cè)器，其經(jīng)配置以識(shí)別場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn)；其中所述關(guān)鍵點(diǎn)選擇器經(jīng)配置以基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè) 對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志；其中所述匹配裝置經(jīng)配置以將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述場(chǎng) 景中的對(duì)象。
13. 根據(jù)權(quán)利要求11所述的設(shè)備，其進(jìn)一步包括：第一選擇器，其經(jīng)配置以基于在所述場(chǎng)景處記錄的所述音頻選擇所述場(chǎng)景的圖像的一部分；以及第二選擇器，其經(jīng)配置以僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)。
14. 根據(jù)權(quán)利要求13所述的設(shè)備，其中所述第一選擇器包含：檢測(cè)器，其經(jīng)配置以從所述音頻確定音頻到達(dá)方向DOA ;以及第三選擇器，其經(jīng)配置以基于所述音頻DOA選擇所述圖像的所述部分。
15. 根據(jù)權(quán)利要求14所述的設(shè)備，其中所述檢測(cè)器包含：位于所述場(chǎng)景處的用于接收所述音頻的多個(gè)麥克風(fēng)，其產(chǎn)生多個(gè)麥克風(fēng)信號(hào)；以及音頻處理器，其經(jīng)配置以基于所述麥克風(fēng)信號(hào)確定所述音頻DOA。
16. 根據(jù)權(quán)利要求11所述的設(shè)備，其進(jìn)一步包括：視頻處理器，其經(jīng)配置以從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量；其中所述匹配裝置經(jīng)配置以通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn)行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí) 別所述對(duì)象。
17. 根據(jù)權(quán)利要求11所述的設(shè)備，其進(jìn)一步包括：音頻處理器，其經(jīng)配置以從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征；其中所述匹配裝置經(jīng)配置以通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn)行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí) 別所述對(duì)象。
18. 根據(jù)權(quán)利要求17所述的設(shè)備，其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒譜系數(shù)。
19. 根據(jù)權(quán)利要求11所述的設(shè)備，其進(jìn)一步包括：范圍檢測(cè)器，其經(jīng)配置以確定出現(xiàn)在所述圖像中的一或多個(gè)對(duì)象的范圍信息；以及關(guān)鍵點(diǎn)檢測(cè)器，其經(jīng)配置以基于所述范圍信息分析所述關(guān)鍵點(diǎn)。
20. 根據(jù)權(quán)利要求19所述的設(shè)備，其中所述范圍檢測(cè)器包含選自由以下各項(xiàng)組成的群組的檢測(cè)器：自動(dòng)聚焦相機(jī)，多相機(jī)陣列，和前述各項(xiàng)的任一合適組合。
21. -種設(shè)備，其包括：用于基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)的裝置；以及用于基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象的裝置。
22. 根據(jù)權(quán)利要求21所述的設(shè)備，其進(jìn)一步包括：用于基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè)對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志的裝置；用于識(shí)別所述場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn)的裝置；以及用于將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述場(chǎng)景中的所述對(duì)象的裝置。
23. 根據(jù)權(quán)利要求21所述的設(shè)備，其進(jìn)一步包括：用于基于在所述場(chǎng)景處記錄的所述音頻選擇所述場(chǎng)景的圖像的一部分的裝置；以及用于僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)的裝置。
24. 根據(jù)權(quán)利要求23所述的設(shè)備，其中所述用于基于在所述場(chǎng)景處記錄的所述音頻選擇所述圖像的一部分的裝置包含：用于從所述音頻確定音頻到達(dá)方向DOA的裝置；以及用于基于所述音頻DOA選擇所述圖像的所述部分的裝置。
25. 根據(jù)權(quán)利要求24所述的設(shè)備，其中用于確定所述音頻DOA的裝置包含：用于在位于所述場(chǎng)景處的多個(gè)麥克風(fēng)處接收所述音頻借此產(chǎn)生多個(gè)麥克風(fēng)信號(hào)的裝置；以及用于基于所述麥克風(fēng)信號(hào)確定所述音頻DOA的裝置。
26. 根據(jù)權(quán)利要求21所述的設(shè)備，其進(jìn)一步包括：用于從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量的裝置；以及用于通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的裝置。
27. 根據(jù)權(quán)利要求21所述的設(shè)備，其進(jìn)一步包括：用于從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征的裝置；以及用于通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的裝置。
28. 根據(jù)權(quán)利要求27所述的設(shè)備，其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒譜系數(shù)。
29. 根據(jù)權(quán)利要求21所述的設(shè)備，其進(jìn)一步包括：用于確定出現(xiàn)在圖像中的一或多個(gè)對(duì)象的范圍信息的裝置；以及用于基于所述范圍信息分析所述關(guān)鍵點(diǎn)的裝置。
30. 根據(jù)權(quán)利要求29所述的設(shè)備，其中用于確定范圍信息的裝置是選自由以下各項(xiàng)組成的群組：用于使用自動(dòng)聚焦相機(jī)確定范圍信息的裝置，用于使用多相機(jī)圖像視差估計(jì)確定范圍信息的裝置，和前述各項(xiàng)的任一合適組合。
31. -種體現(xiàn)可由一或多個(gè)處理器執(zhí)行的指令集的計(jì)算機(jī)可讀媒體，其包括：用于基于在場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于所述場(chǎng)景中的對(duì)象的關(guān)鍵點(diǎn)的代碼；以及用于基于所述選定關(guān)鍵點(diǎn)識(shí)別所述對(duì)象的代碼。
32. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體，其進(jìn)一步包括：用于基于在所述場(chǎng)景處記錄的音頻選擇對(duì)應(yīng)于一或多個(gè)對(duì)象的一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志的代碼；用于識(shí)別所述場(chǎng)景的圖像中的多個(gè)關(guān)鍵點(diǎn)的代碼；以及用于將所述關(guān)鍵點(diǎn)與所述關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較以識(shí)別所述場(chǎng)景中的所述對(duì)象的代碼。
33. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體，其進(jìn)一步包括：用于基于在所述場(chǎng)景處記錄的所述音頻選擇圖像的一部分的代碼；以及用于僅從所述圖像的所述部分內(nèi)選擇所述關(guān)鍵點(diǎn)的代碼。
34. 根據(jù)權(quán)利要求33所述的計(jì)算機(jī)可讀媒體，其中所述用于基于在所述場(chǎng)景處記錄的所述音頻選擇所述圖像的一部分的代碼包含：用于從所述音頻確定音頻到達(dá)方向DOA的代碼；以及用于基于所述音頻DOA選擇所述圖像的所述部分的代碼。
35. 根據(jù)權(quán)利要求34所述的計(jì)算機(jī)可讀媒體，其中用于確定所述音頻DOA的代碼包含：用于在位于所述場(chǎng)景處的多個(gè)麥克風(fēng)處接收所述音頻借此產(chǎn)生多個(gè)麥克風(fēng)信號(hào)的代碼；以及用于基于所述麥克風(fēng)信號(hào)確定所述音頻D0A的代碼。
36. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體，其進(jìn)一步包括：用于從所述場(chǎng)景的視頻記錄計(jì)算多個(gè)局部運(yùn)動(dòng)向量的代碼；以及用于通過(guò)將所述局部運(yùn)動(dòng)向量與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定局部運(yùn)動(dòng)向量數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的代碼。
37. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體，其進(jìn)一步包括：用于從在所述場(chǎng)景處記錄的所述音頻計(jì)算多個(gè)聲學(xué)辨識(shí)特征的代碼；以及用于通過(guò)將所述聲學(xué)辨識(shí)特征與對(duì)應(yīng)于一或多個(gè)對(duì)象的預(yù)定聲學(xué)辨識(shí)特征數(shù)據(jù)庫(kù)進(jìn) 行比較且通過(guò)將所述關(guān)鍵點(diǎn)與一或多個(gè)關(guān)鍵點(diǎn)標(biāo)志進(jìn)行比較來(lái)識(shí)別所述對(duì)象的代碼。
38. 根據(jù)權(quán)利要求37所述的計(jì)算機(jī)可讀媒體，其中所述聲學(xué)辨識(shí)特征包含梅爾頻率倒譜系數(shù)。
39. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體，其進(jìn)一步包括：用于確定出現(xiàn)在圖像中的一或多個(gè)對(duì)象的范圍信息的代碼；以及用于基于所述范圍信息分析所述關(guān)鍵點(diǎn)的代碼。
40. 根據(jù)權(quán)利要求39所述的計(jì)算機(jī)可讀媒體，其中用于確定范圍信息的代碼是選自由以下各項(xiàng)組成的群組：用于使用自動(dòng)聚焦相機(jī)確定范圍信息的代碼，用于使用多相機(jī)圖像視差估計(jì)確定范圍信息的代碼，和前述各項(xiàng)的任一合適組合。
【文檔編號(hào)】H04R3/00GK104246796SQ201380019248
【公開(kāi)日】2014年12月24日申請(qǐng)日期:2013年3月7日優(yōu)先權(quán)日:2012年4月13日
【發(fā)明者】埃里克·維瑟, 王海音, 哈西卜·A·西迪基, 金萊軒申請(qǐng)人:高通股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：埃里克·維瑟;王海音;哈西卜·A·西迪基;金萊軒
技術(shù)所有人：高通股份有限公司
我是此專利的發(fā)明人

上一篇：長(zhǎng)期演進(jìn)中的背景業(yè)務(wù)處置的制作方法
上一篇：用于智能接收器操作的方法與裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

多模匹配相關(guān)技術(shù)

多模匹配算法相關(guān)技術(shù)

對(duì)象與目標(biāo)類型不匹配相關(guān)技術(shù)

ad不匹配參考對(duì)象相關(guān)技術(shù)

不匹配參考對(duì)象相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用多模匹配方案的對(duì)象辨識(shí)的制作方法