專利名稱:語義可視搜索引擎的制作方法
技術領域:
本發(fā)明一般地涉及可視信息分析和語義搜索。更具體地,本發(fā) 明涉及存儲在例如移動電子設備的設備中的內(nèi)容的特征提取、特征 和對象匹配以及特征選擇。
背景技術:
隨著近些年移動設備上的圖像文件、視頻文件、音頻文件等的 多媒體數(shù)據(jù)庫逐漸變得更大,對用于數(shù)據(jù)庫分類、搜索和管理的全 面和精確系統(tǒng)的需求顯著增加。在早些的移動設備中,存儲空間十 分有限,這導致相對小數(shù)目的多媒體對象存儲在設備上。由于僅少 量的對象被存儲,所以精確地分類、搜索和管理實質(zhì)上不太重要。 然而,由于存儲能力已經(jīng)增加,因此已經(jīng)向移動設備用戶提供在例 如移動電話的單個設備上存儲成百并且甚至成千的對象的能力。然 而,由于存儲的對象太多,用戶具有尋找先前存儲的對象或組織他 或她的所有多媒體文件以便稍后訪問的困難時間。
在圖像檢索領域,現(xiàn)有的基于內(nèi)容的圖像檢索(CBIR)系統(tǒng)通 過查找從目標圖像提取的類似低級特征來搜索相關圖像。該方法的 一個問題在于"類似低級特征"不會必然地確保"類似語義內(nèi)容"。 這是由于若干種因素。第一,兩個"類似語義內(nèi)容"可能最終具有 不同的表現(xiàn)。例如,可以存在類間對象變化(例如,山脈不必看起 來類似)。第二,"類似低級特征"可能對應于概念上不類似的對 象。例如,色彩直方圖不能輕易地區(qū)分紅玫瑰與日落。第三,圖像 總是包含背景混亂,這經(jīng)常會干擾低級特征匹配。盡管人類可以輕 易地從語義類似內(nèi)容識別永久性特征(例如,臉部具有代表眼部的 黑色橢圓區(qū)域),但對于計算算法來說,仍極難自動地將永久性特征與低級特征分離。
盡管有多種嘗試通過基于內(nèi)容的圖像檢索來解決上面的問題,
但每個嘗試均具有其自身的缺陷。例如,簽發(fā)給Jain等人的US專 利號5,893,095公開了 一種基于內(nèi)容的圖像檢索系統(tǒng),其基于匹配從 目標圖像提取的低級特征。此類的"原始"特征包括色調(diào)、飽和度 和強度直方圖、邊緣密度等。然而并且如上所述,這些低級特征不 總是對應于圖像語義。
先前開發(fā)的通用圖像識別/檢索系統(tǒng)用于根據(jù)四類低級特征來識 別圖像,即平均色彩、色彩直方圖、紋理和形狀。在該系統(tǒng)下,用 戶能夠人工地在圖像內(nèi)添加用戶定義的形狀和/或感興趣的區(qū)域以精 煉搜索結(jié)果。這些用戶指定的特征經(jīng)常是很有意義的并且可以產(chǎn)生 精確的結(jié)果。然而,輸入這些特征是乏味的并且對于大多數(shù)用戶來 i兌太難。
除了上述的嘗試,還有許多嘗試使用機器學習以便進行特征選 擇。例如, 一個系統(tǒng)涉及使用AdaBoost ( "Adaptive Boosting"的縮 寫)學習算法來訓練臉部檢測器。給定一組訓練臉部圖像,永久性 的面部特征,例如前額和眼部周圍的高對比度區(qū)域被自動地選擇。 盡管該方法演示了監(jiān)督學習以便特征選擇的可行性,但由于背景混 亂的存在,其不能直接應用地圖像數(shù)據(jù)庫檢索。
在另 一 個方法中,選擇局部永久性特征并且接著以合并的概率 模型來表示。該模型有效地適應了類間對象變化。然而,該方法計 算量大并且因此選擇的特征的數(shù)目有限(在一個實施中僅限于六個 特征)。該方法不能凈皮直4妄應用于移動應用。
發(fā)明內(nèi)容
本發(fā)明提供一種語義可視搜索引擎,其使用在例如移動電話的 設備和其他移動電子設備中。利用本發(fā)明,使用監(jiān)督的學習方法可 將永久特征與低級特征分離。永久性特征可用于分類和批注新的目 標圖像。用戶可接著使用關鍵詞和/或模板項目來通過相應的數(shù)據(jù)庫進行搜索。
利用本發(fā)明,可基于"語義"對象類來搜索例如圖像和視頻的 相關項目。另外,利用本發(fā)明,從圖像和視頻編碼搜索得到的結(jié)果 比由常規(guī)系統(tǒng)生成的結(jié)果更為精確和更為有意義。
通過下面結(jié)合附圖的詳細描述,本發(fā)明的這些和其他目標、優(yōu) 勢和特征,連同其操作的組織和方式將變得明顯,其中在下面描述 的若干附圖中,相同的元件具有相同的標號。
圖1是可以在實現(xiàn)本發(fā)明中使用的移動電話的透視圖2是圖1中的移動電話的電話電路的示意圖; 圖3(a)是示出實現(xiàn)本發(fā)明原理的系統(tǒng)的學習處理的示圖;圖3 (b)是示出實現(xiàn)本發(fā)明原理的系統(tǒng)的分類處理的示圖;并且圖3(c)
是實現(xiàn)本發(fā)明原理的系統(tǒng)的搜索處理的示圖4是根據(jù)本發(fā)明 一個實施方式的如何從圖像提取低級特征的
示圖;以及
圖5是示出實現(xiàn)本發(fā)明的各種實施方式的流程圖。
具體實施例方式
圖1和圖2示出其中本發(fā)明可被實現(xiàn)的一個示例性移動電話12。 然而,應當理解,本發(fā)明不旨在限定于一個特定類型的移動電話12 或其他電子設備。例如,本發(fā)明可以被集成進組合的個人數(shù)字助理 (PDA)和移動電話、PDA、集成消息收發(fā)設備(IMD)、臺式計算 機和筆記本計算機。圖1和2中的移動電話12包括殼體30、以液晶 顯示器形式的顯示器32、小鍵盤34、麥克風36、聽筒38、電池40、 紅外端口 42、天線44、根據(jù)本發(fā)明的一個實施例的通用集成電路卡 UICC形式的智能卡46、讀卡器48、無線接口電路52、編解碼器電 路54、控制器56和存儲器58。各個電路和元件都是本領域公知的 類型,例如Nokia移動電話系列。本發(fā)明的搜索系統(tǒng)包括三個相關的處理學習、分類和搜索。 學習處理通過使用監(jiān)督的學習方法來解決先前討論的特征選擇問 題。輸入包括一組相同類的樣本圖像(例如,臉部的圖像)。輸出 包括從低級特征選擇的常見永久性特征,該低級特征從示例圖像導 出。圖3(a)示出學習處理的簡化例子,其中輸入包括一對樣本項目 300,并且作為監(jiān)督學習處理305的結(jié)果,在輸出中識別出永久性特 征310。
在分類處理中,在學習處理期間識別的永久性特征被用于分類 和批注新的目標圖像。如圖3(b)中所示,輸入包括一個或多個目 標項目320,而輸出包括分配給目標項目320的批注330。作為語義 圖像分類處理325的結(jié)果,生成輸出。
根據(jù)本發(fā)明,可以使用不同的搜索方案。如圖3(c)中所示, 用戶可以提交關鍵詞340和/或模板350。系統(tǒng)接著可使用特征選擇 360和基于特征項目匹配370來返回多個4企索項目380。
在搜索方案的第一個中,用戶提交一個或多個關鍵詞。作為響 應,具有相同或類似批注的檢索項目380被返回。在第二個方案中, 提供一個或多個模板350和一個或多個關鍵詞340。在該情形下,從 模板項目或項目350提取的低級特征首先被預過濾,并且接著隨后 與目標項目的特征進行匹配。預過濾用于排除或最小化背景混亂。 最為類似的項目或多個項目被檢索并且為用戶可用。在第三個方案 中,僅一個或多個模板項目350被提供有不感興趣的指定對象。在 該方案中,最為類似的低級特征被匹配。
對于低級特征提取,當涉及圖像時,圖像被轉(zhuǎn)化成多尺度 (multi-scale)局部特征矢量,該矢量包括待處理的候選低級特征。 應該注意到盡管"圖像"在這里被明確地討論,但本發(fā)明可以被應 用到例如音頻文件的非圖像內(nèi)容。低級特征圍繞圖像中的突點局部 地提取。圖4是該處理的示圖,其中三種不同類型的特征(形狀、 色彩和紋理強度)從在三個不同尺度處的各種突點410提取。
對于學習處理,輸入是針對語義內(nèi)容的每個分類的 一 組示例圖像。該組示例圖像或項目在數(shù)目可以成百或更多。語義內(nèi)容包括潛 在相關項目的簡短描述,例如"臉部"、"飛機"、"山脈"和其 他。每個示例圖像轉(zhuǎn)化成多尺度局部特征矢量,它們是將要處理的 候選低級特征。使用監(jiān)督的學習方法,可以選擇與特定的對象類關 聯(lián)的永久性特征(例如,"眼部"對于"臉部"或"車輪"對于"汽 車")。這些選擇的特征構(gòu)成特定對象類的概率模型并且可用于隨 后的分類和搜索處理。
應該注意到本發(fā)明包括通用框架并且不依賴于被實現(xiàn)的學習方
法的性質(zhì)。在本發(fā)明的一個實施方式中,AdaBoosting被用于選擇特 征。AdaBoosting是可視特征選擇域中的有效學習方法。然而,可選 的學習方法,包括但不限于支持向量機器(SVM )模式識別、Bayesian 統(tǒng)計和其他的方法也可結(jié)合本發(fā)明來實施。
對于分類處理,目標圖像首先轉(zhuǎn)化成多尺度局部特征。這些提 取的特征隨后與永久性特征進行匹配,這些永久性特征被表示為概 率模型。如果計算的概率大于特定的閾值,則宣告成功的匹配并且 相應對象分類的批注被輸出。例如,如果由用戶保存的目標圖像具 有包含臉部的某個概率,則將與目標圖像關聯(lián)的批注之一是"臉部"。 也應該注意到概率閾值從本發(fā)明的各種實施方式中的示例圖^f象或項 目學習。在本發(fā)明的一個實施方式中,在這點上無需用戶干預。
在搜索步驟中并且如上所討論,當提供模板項目和關鍵詞時, 根據(jù)感興趣的分類的概率模型,首先對來自模板項目的低級特征進 行預過濾。該預濾波對于排除或最小化背景混亂是重要的,背景混 亂經(jīng)常干擾后續(xù)的圖像匹配處理。選擇的特征與相同分類的目標圖 像或項目匹配。該匹配使用了基于穩(wěn)健的局部特征的圖像匹配方法。 此類特定方法在Lixin Fan的"Intra-Class Variation, Affme Transformation and Background Clutter:Towards Robust Image Matching"詳細討論并且通過參考并入在此。
如果僅模板圖像或項目提供有不感興趣的指定對象,則搜索處 理使用如這里所述的基于低級特征的圖像匹配。再次,此類特定方法在Lixin Fan的 "Intra-Class Variation, Affme Transformation and Background Clutter:Towards Robust Image Matching" i羊纟田i寸^侖。長口果 僅輸入關鍵詞,則系統(tǒng)查找具有與批注相同或類似的關鍵詞的存儲 的圖像。例如,如果單詞"臉部"被輸入,則系統(tǒng)可返回具有如批 注"臉部"的圖像。
圖5示出本發(fā)明的各種實施方式的實現(xiàn)的流程圖。在圖5的步 驟500處,多個圖像或其他項目被轉(zhuǎn)換成多個候選低級特征。對于 多個項目中的每個,圍繞相應項目中的突點來局部地提取候選低級 特征。在步驟510處,上述類型的監(jiān)督學習方法用于從多個候選低 級特征選擇永久性低級特征。永久性的低級特征與預定的對象分類 關聯(lián)。這些預定的對象分類可描述通用對象(例如,汽車、飛機等); 人體的一部分(例如臉部),地理陸標(例如,山脈、樹木等)或 其他項目。
在步驟520處,當新的項目將要被分類時,目標項目被轉(zhuǎn)化為 多個多尺度局部特征。在步驟530處,對于多個多尺度局部特征的 每個,使用概率模型,多尺度局部特征與永久性低級特征關聯(lián)。通 過這種方式,例如,如果目標項目具有臉部,則該特4正將被匹配于 具有臉部的其他項目并且該項目因此可以^皮分類。
在步驟540處,輸入項目由用戶輸入進系統(tǒng),請求對其進行搜 索。輸入項目可包括用于搜索的模板和/或關鍵詞。接著響應于步驟 550處的詢問,類似于輸入項目的項目可提供給用戶。如上討論,精 確的處理可根據(jù)用戶是否僅輸入關鍵詞,僅輸入模板或二者來變化。 應該注意到搜索結(jié)果也可包括本地執(zhí)行和/或位于遠程位置所執(zhí)行的 搜索的結(jié)果,并且被搜索的項目可以位于本地和/或遠端。
在方法步驟的通常環(huán)境中描述了本發(fā)明,其可以通過包括計算 機可沖丸行指令的程序產(chǎn)品在一個實施例中實現(xiàn),例如程序代碼,可 由計算機在網(wǎng)絡互連環(huán)境中執(zhí)行。通常,程序模塊包括執(zhí)行特定任 務或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對象、組件、數(shù)據(jù) 結(jié)構(gòu)等。計算機可執(zhí)行指令,相關聯(lián)的數(shù)據(jù)結(jié)構(gòu)和程序模塊代表用于執(zhí)行在此公開的方法的步驟的程序代碼的例子。這種可執(zhí)行指令 功能的相應動作的例子。
本發(fā)明的軟件和web執(zhí)行可以使用標準編程技術完成,該標準 編程技術具有基于規(guī)則的邏輯和其它邏輯用于完成不同的數(shù)據(jù)庫搜 索步驟、相關性步驟、比較步驟和決定步驟。本發(fā)明也可以使用任 意常見的編程語言(例如(:/0++或匯編語言)來直接實施在軟件中。 本發(fā)明也可以實現(xiàn)在硬件中并且用于消費設備中。還應當注意此處 和權(quán)利要求書中使用的詞語"組件"和"模塊"意欲包含使用一行
或多行軟件代碼的執(zhí)行,和/或硬件執(zhí)行,和/或用于接收手動輸入的 設備。
為了示意和描述的目的已經(jīng)對本發(fā)明的實施例進行了前述描 述。不旨在窮舉或者將本發(fā)明限制在所公開的精確形式下,并且修 改和變化可以參照上述教導做出,或者從本發(fā)明的實踐中獲得。選 擇和描述的實施例用于解釋本發(fā)明的原理及其實際應用以使本領域
以適應于特定的預期應用。
權(quán)利要求
1. 一種用于將移動電子設備上的多個項目進行分類的方法,包括將多個項目轉(zhuǎn)化成多個候選低級特征,對于多個項目的每個,圍繞相應的項目中的突點局部地提取候選低級特征;以及使用監(jiān)督的學習方法從多個所述候選低級特征選擇永久性低級特征,所述永久性低級特征與預定的對象分類關聯(lián)。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述監(jiān)督的學習方法包括 AdaBoosting學習算法。
3. 根據(jù)權(quán)利要求1所述的方法,其中所述監(jiān)督的學習方法包括 Bayesian統(tǒng)計的4吏用。
4. 根據(jù)權(quán)利要求1所述的方法,其中監(jiān)督的學習方法包括SVM 模式識別。
5. 根據(jù)權(quán)利要求1所述的方法,其中多個項目包括視頻。
6. 根據(jù)權(quán)利要求1所述的方法,其中多個項目包括圖像。
7. 根據(jù)權(quán)利要求1所述的方法,進一步包括 將目標項目轉(zhuǎn)化成多個多尺度局部特征; 以及對于多個多尺度局部特征的每個,使用概率模型將多尺度局部 特征與所述永久性低級特征進行匹配。
8. 根據(jù)權(quán)利要求7所述的方法,其中如果多尺度局部特征和永 久性低級特征之間計算的匹配概率大于預定的閾值,則所述多尺度 局部特征與所述永久性低級特征匹配。
9. 根據(jù)權(quán)利要求8所述的方法,其中通過使用所述監(jiān)督的學習 方法來確定所述預定的閾值。
10. 根據(jù)權(quán)利要求7所述的方法,進一步包括 接收來自用戶的輸入;以及向用戶返回與所述輸入共享某些類似性的至少一個項目。
11. 根據(jù)權(quán)利要求IO所述的方法,其中所述輸入包括關鍵詞,并且其中至少一個項目包括類似于關鍵詞的批注。
12. 根據(jù)權(quán)利要求IO所述的方法,其中所述輸入包括模板項目,識別出至少一個項目。
13. 根據(jù)權(quán)利要求IO所述的方法,其中所述輸入包括模板項目和所述關4建詞,并且至少一個項目的返回包括使用感興趣的分類的概率模型來預過濾所述模板項目中的低級 特征;以及將所述預過濾的低級特征與相同分類中的目標圖像進行匹配, 所述分類由關鍵詞來識別。
14. 一種用于將移動電子設備上的多個項目進行分類的計算機 程序產(chǎn)品,包括用于將多個項目轉(zhuǎn)化成多個候選低級特征的計算機代碼,對于 多個項目的每個,圍繞相應的項目中的突點局部地提取候選低級特 征;以及用于使用監(jiān)督的學習方法從多個所述候選低級特征選擇永久性 低級特征的計算機代碼,所述永久性低級特征與預定的對象分類關聯(lián)。
15. 根據(jù)權(quán)利要求14所述的計算機程序產(chǎn)品,進一步包括 用于將目標項目轉(zhuǎn)化成多個多尺度局部特征的計算機代碼;以及用于對于多個多尺度局部特征的每個,使用概率模型將多尺度 局部特征與永久性低級特征進行匹配的計算機代碼。
16. 根據(jù)權(quán)利要求15所述的計算機程序產(chǎn)品,其中如果多尺度 局部特征和永久性低級特征之間計算的匹配概率大于預定的閾值, 則所述多尺度局部特征與所述永久性低級特征匹配。
17. 根據(jù)權(quán)利要求16所述的計算機程序產(chǎn)品,其中通過使用所 述監(jiān)督的學習方法來確定所述預定的閾值。
18. 根據(jù)權(quán)利要求15所述的計算機程序產(chǎn)品,進一步包括 用于接收來自用戶的輸入的計算機代碼;以及 用于向用戶返回與所述輸入共享某些類似性的至少一個項目的計算機代碼。
19. 根據(jù)權(quán)利要求18所述的計算機程序產(chǎn)品,其中所述輸入包 括關鍵詞,并且其中至少一個項目包括類似于關鍵詞的批注。
20. 根據(jù)權(quán)利要求18所述的計算機程序產(chǎn)品,其中所述輸入包 括模板項目,并且其中所述輸入中的低級特征與所述永久性低級特 征進行比較以識別出至少一個項目。
21. 根據(jù)權(quán)利要求18所述的計算機程序產(chǎn)品,其中所述輸入包 括模板項目和所述關4建詞,并且至少一個項目的返回包括用于使用感興趣的分類的概率模型來預過濾模板項目中的低級 特征的計算機代碼;以及用于將所述預過濾的低級特征與相同分類中的目標圖像進行匹 配的計算機代碼,所述分類由關鍵詞來識別。
22. —種電子設備,包括 處理器,以及存儲單元,其操作性地連接到處理器并且包括用于將多個項目轉(zhuǎn)化成多個候選低級特征的計算機代碼, 對于多個項目的每個,圍繞相應的項目中的突點局部地提取候選低 級特征;以及用于使用監(jiān)督的學習方法從多個所述候選低級特征選擇永 久性低級特征的計算機代碼,所述永久性低級特征與預定的對象分 類關聯(lián)。
23. 根據(jù)權(quán)利要求22所述的電子設備,其中所述存儲單元進一 步包括用于將目標項目轉(zhuǎn)化成多個多尺度局部特征的計算機代碼;以及用于對于多個多尺度局部特征的每個,使用概率模型將多尺度局部特征與永久性低級特征進行匹配的計算機代碼。
24. 根據(jù)權(quán)利要求23所述的電子設備,其中如果多尺度局部特 征和永久性低級特征之間計算的匹配概率大于預定的閾值,則所述多尺度局部特征與永久性低級特征匹配。
25. 根據(jù)權(quán)利要求24所述的電子設備,其中通過使用所述監(jiān)督 的學習方法來確定所述預定的閾值。
26. 根據(jù)權(quán)利要求25所述的電子設備,其中所述存儲單元進一 步包括用于接收來自用戶的輸入的計算機代碼;以及 用于向用戶返回與所述輸入共享某些類似性的至少一個項目的 計算機代碼。
全文摘要
一種用于使得系統(tǒng)根據(jù)例如圖像或視頻剪輯的項目的語義意義來對它們進行學習、分類和搜索的改進方法、設備和計算機程序產(chǎn)品。根據(jù)本發(fā)明,可以使用監(jiān)督的學習方法來將永久性特征與低級特征分離。永久性特征用于分類和批注新的目標項目。用戶可接著使用關鍵詞和/或模板項目來通過相應的數(shù)據(jù)庫進行搜索。
文檔編號G06F17/30GK101305368SQ200680041967
公開日2008年11月12日 申請日期2006年9月27日 優(yōu)先權(quán)日2005年9月28日
發(fā)明者范力欣 申請人:諾基亞公司