專利名稱:基于傳感器的移動搜索、相關(guān)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本說明書涉及各種技術(shù);大部分涉及使智能電話和其他移動裝置能夠?qū)τ脩舻沫h(huán)境做出響應(yīng)(例如通過充當直覺的視聽裝置)的方案。
背景技術(shù):
手機已經(jīng)從專用的通信工具發(fā)展成多功能的計算機平臺?!坝幸粋€應(yīng)用軟件可以裝”是為人們所熟悉的口頭禪。超過十萬個應(yīng)用軟件可用于智能電話,從而提供種類極多的服務(wù)。然而,這些服務(wù)中的每一個都必須由用戶特意地識別并啟動。從可以回溯到二十多年前的普適計算(ubiquitous computing)的視角來看,這是極其悲哀的。在上述普適計算中,計算機需要我們更少地去關(guān)注它,而不是更多地去關(guān)注它。真正“智能”的電話應(yīng)該是自主地采取行動來實現(xiàn)推斷出的或預(yù)期到的用戶期望。沿著這一方向向前躍進的一步將會是,為手機配備使其成為智能視聽裝置的技術(shù),從而監(jiān)視用戶的環(huán)境并且響應(yīng)于視覺和/或其他刺激而自動選擇并采取操作。在實現(xiàn)這樣的裝置的過程中存在著許多挑戰(zhàn)。這些挑戰(zhàn)包括理解對裝置輸入的刺激所表示的含義的技術(shù),基于該理解來推斷用戶的期望的技術(shù),以及在滿足這些期望的過程中與用戶進行交互的技術(shù)。這些挑戰(zhàn)中可能最大的挑戰(zhàn)是上述第一個挑戰(zhàn),它基本上是機器認知方面的長期存在的問題??紤]手機攝像機。對于每個所拍攝的幀,手機攝像機輸出大約一百萬個數(shù)字(像素值)。這些數(shù)字表示汽車、條形碼、用戶的孩子、或者一百萬個其他東西之一嗎?假定該問題能夠具有一個直接的解決方案。將這些像素傳送給“云”并使大量匿名計算機將每種已知的圖像識別算法應(yīng)用于該數(shù)據(jù),直到其中一種圖像識別算法最終識別出所描繪的對象。(一種特定的方法是,將未知的圖像與發(fā)布到基于萬維網(wǎng)的公共照片儲存庫(如Flickr和Facebook)中的數(shù)十億圖像中的每一個進行比較。在找到最相似的發(fā)布照片之后,可以記錄與該匹配照片相關(guān)聯(lián)的描述性詞語或“元數(shù)據(jù)”,并將其用作用于識別未知圖像的主題的描述符。)在消耗了幾天或幾個月的云計算能力(和數(shù)兆瓦的電力)之后,答
案得以產(chǎn)生。然而,這樣的解決方案無論在時間方面還是在資源方面都是不實際的。稍微更實際一點的方法是將圖像發(fā)布給眾包(crowd-sourcing)服務(wù),如Amazon的Mechanical Turk。該服務(wù)把圖像提交給一個或更多人類審閱者,這一個或更多人類審閱者將描述性詞語提供回給該服務(wù),隨后這些描述性詞語被傳送回給裝置。當其他解決方案證明無效時,這是可能的替代方案,盡管時間延遲在許多情況下過長。
發(fā)明內(nèi)容
在一個方面中,本說明書涉及可以用來更好地解決認知問題的技術(shù)。在一個實施例中,應(yīng)用圖像處理方案來相繼地獲得更多且更好的關(guān)于所輸入的刺激的信息。圖像內(nèi)容的大概意思可以在一秒鐘內(nèi)獲得。更多信息可以在兩秒鐘之后獲得。利用進一步的處理,更加精煉的評估可以在三或四秒鐘之后獲得,等等。該處理可以通過用戶不需要這樣的處理繼續(xù)進行的(明確的、暗示的或推斷的)指示而在任何一點被中斷。如果這樣的處理不能產(chǎn)生迅速的令人滿意的結(jié)果并且用戶繼續(xù)對圖像的主題感興趣(或者如果用戶沒有相反的指示),那么可以將圖像提交給云進行更加徹底且冗長的分析。書簽等可以存儲在智能電話上,從而允許用戶復(fù)核并了解這種進一步分析的結(jié)果?;蛘呷绻@種進一步的分析得出了可引起行動得以采取的結(jié)論,那么可以提醒用戶。對適當?shù)难b置響應(yīng)的認知和識別可以由附屬信息(如背景環(huán)境)來輔助。如果智能電話從所存儲的概況信息(profile information)得知用戶是35歲的男性,并且從GPS數(shù)據(jù)和相關(guān)地圖信息得知用戶位于波特蘭的星巴克咖啡店,并且從時間和天氣信息得知現(xiàn)在是工作日的昏暗且下雪的早上,并且從裝置的歷史中檢索出在先前幾次造訪該位置時用戶采用手機的電子錢包購買了咖啡和報紙、并使用手機的瀏覽器瀏覽了報導橄欖球比賽結(jié)果的網(wǎng)站,那么智能電話的任務(wù)就得到相當大的簡化??赡艿妮斎氪碳げ辉儆袩o限大的范圍。而是,輸入的景象和聲音很可能是在昏暗且下雪的早上在咖啡店中通常會遇到的那類景象和聲音(或者相反地說,不可能是例如在東京的陽光充足的公園中遇到的景象和聲音)。響應(yīng)于這樣的景象和聲音的適當?shù)目赡軇幼饕膊辉儆袩o限大的范圍。而是,候選動作很可能是與波特蘭的在上班途中的35歲對橄欖球感興趣的喝咖啡的用戶相關(guān)的動作(或者相反地說,不可能是與例如東京的坐在公園中的老年婦女相關(guān)的動作)。通常,最重要的背景環(huán)境信息是位置。第二最相關(guān)的背景環(huán)境信息通常是動作的歷史(通過以往的各星期、季節(jié)等的當前這一天來獲悉)。同樣重要的是關(guān)于用戶的社交群體或用戶的人口統(tǒng)計群體中的其他人在類似的情況下所做的事的信息。(如果在Macys百貨商場的特定位置駐足的最后九個十幾歲的女孩都拍攝了走廊端顯示器上的一雙靴子的圖像、并且全都對了解價格感興趣、并且她們中的兩個人還對了解存貨中有哪些尺碼感興趣,那么在該位置駐足的第十個十幾歲的女孩所拍攝的圖像很可能也是同一雙靴子的圖像,并且該用戶很可能也對了解價格感興趣,或許也對存貨中有哪些尺碼感興趣。)基于這樣的附屬信息,智能電話可以加載適合于在統(tǒng)計上可能出現(xiàn)的刺激的識別軟件,并且可以準備采取在統(tǒng)計上與響應(yīng)相關(guān)的動作。在一個特定實施例中,智能電話可以具有可利用的數(shù)百個備選的軟件代理,這些軟件代理中的每一個都能夠執(zhí)行多種不同的功能,每種功能在例如響應(yīng)時間、CPU利用率、內(nèi)存利用率和/或其他相關(guān)限制方面都有不同的“成本”。于是手機可以進行規(guī)劃練習(planning exercise),例如限定出由各種可利用的代理和功能構(gòu)成的N叉樹、并沿路徑航行穿過該樹以辨別出如何以最低成本執(zhí)行期望的操作組合。有時,規(guī)劃練習可能無法找到適合的解決方案,或者可能會發(fā)現(xiàn)其成本令人望而卻步。在這種情況下,手機可以決定不進行某些操作一至少在當前時刻不進行。手機可以不進行任何關(guān)于該任務(wù)的進一步處理,或者在使解決方案變得實際可行的附加信息變得可獲得的情況下手機可以在過一會之后再試一次?;蛘?,手機可以簡單地將數(shù)據(jù)提交給云以便通過更有能力的云資源來處理,或者手機可以存儲輸入的刺激以便在之后再訪問并有可能進行處理。
系統(tǒng)的處理(例如,圖像處理)中的很大一部分實質(zhì)上可能是投機性的——是帶著某處理可能在當前背景環(huán)境下有用的期待嘗試的。根據(jù)本技術(shù)的另一方面,根據(jù)各種因素來對這些處理分配更多或更少的資源。一個因素是成功率。如果一個處理看上去似乎能產(chǎn)生積極的結(jié)果,那么可以給它分配更多資源(例如,內(nèi)存、網(wǎng)絡(luò)帶寬等),并且可以允許它繼續(xù)進入進一步的操作階段。如果一個處理的結(jié)果看上去似乎是令人沮喪的,那么可以給它分配更少的資源,或者將其完全停止。另一個因素是用戶對特定處理的結(jié)果感興趣與否,這也可以類似地影響是否允許一個處理繼續(xù)進行以及允許該處理用哪些資源繼續(xù)進行。(用戶興趣可以例如通過用戶觸摸屏幕上的某一位置來表達,或者可以根據(jù)用戶的動作或背景環(huán)境來推斷,例如根據(jù)用戶移動攝像機從而將特定對象重新定位在圖像幀的中心的動作來推斷。用戶興趣的缺乏可以類似地通過用戶的動作來表達,或者根據(jù)用戶的動作或用戶動作的缺少來推斷。)另一因素是處理的結(jié)果對正被分配更多資源或更少資源的另一處理的重要性。一旦已經(jīng)實現(xiàn)了認知(例如,一旦已經(jīng)識別圖像的主題),那么手機處理器或云資源就可以建議應(yīng)該提供給用戶的適當響應(yīng)。如果描繪的主題是條形碼,那么可以指示一個響應(yīng)(例如,查找產(chǎn)品信息)。如果描繪的主題是家庭成員,那么可以指示不同的響應(yīng)(例如,發(fā)布到在線相冊上)。然而,有時,適當?shù)捻憫?yīng)不是立即就明顯易見。如果描繪的主題是街道景象或停車計時器,那該怎么辦?再一次,附屬信息源(如背景環(huán)境和來自自然語言處理的信息)可以應(yīng)用于該問題以幫助確定適當?shù)捻憫?yīng)。智能電話的傳感器被不斷地供以刺激(由麥克風感測的聲音、由圖像傳感器感測的光、由加速計感測的運動、由磁力計感測的磁場、由熱敏電阻器感測的周圍溫度、等等)。一些刺激可能是重要的。大多數(shù)刺激是噪聲并且最好被忽略。當然,手機具有各種有限的資源,例如CPU、電池、無線帶寬、金錢預(yù)算等。因此,在另一方面中,本技術(shù)涉及確定要處理密集的一堆數(shù)據(jù)中的哪些,并且涉及使在平臺的約束下進行視覺搜索的數(shù)據(jù)處理方案與系統(tǒng)的其他需求平衡。在另一方面中,本技術(shù)涉及例如與視覺對象(或音頻流)相一致地在移動裝置屏幕上呈現(xiàn)“小玩意(bauble)”。用戶對小玩意的選擇(例如通過輕拍觸摸屏)導致與對象相關(guān)的體驗。小玩意可以隨著裝置逐漸了解更多或者獲得更多關(guān)于對象的信息而在明確性或尺寸方面進化。在早期的實現(xiàn)方案中,所描述的這類系統(tǒng)將是相對基礎(chǔ)的,并且不會展現(xiàn)出較多的洞察力。然而,通過將數(shù)據(jù)細流(或洪流)(連同以這些數(shù)據(jù)為基礎(chǔ)的關(guān)于用戶動作的信息一起)饋送回給云進行存檔和分析,這些初期系統(tǒng)可以建立借以構(gòu)建模板和其他訓練模型的數(shù)據(jù)基礎(chǔ)——使這些系統(tǒng)的后代能夠在被供以刺激時具有高度的直覺性和響應(yīng)性。如接下來將變得明顯的那樣,本說明書也詳述了大量的其他發(fā)明特征和組合。盡管主要在視覺搜索的背景環(huán)境下進行描述,但應(yīng)理解的是,這里詳述的原理也適用于其他背景環(huán)境(如來自其他傳感器或傳感器的組合的刺激的處理)。許多詳述的原理具有寬得多的適用性。類似地,盡管下面的描述集中討論幾個示例性實施例,但應(yīng)理解的是,這些發(fā)明原理不限于以這些特定形式實現(xiàn)。因此,例如,盡管具體提到了一些細節(jié)(如黑板數(shù)據(jù)結(jié)構(gòu)、狀 態(tài)機構(gòu)造、識別代理、延遲執(zhí)行(lazy execution)、等等),但是它們中的任何一個都可能是不需要的(除非由所發(fā)布的權(quán)利要求特別指定)。
圖I用架構(gòu)圖示出采用本技術(shù)的某些方面的實施例。圖2是示出使本地裝置涉及云處理的圖。圖3用不同的功能方面(按照系統(tǒng)模塊和數(shù)據(jù)結(jié)構(gòu))對認知處理的各特征進行映射。圖4示出空間組織和理解的不同水平。圖5、5A和6示出可在構(gòu)成服務(wù)決定的過程中使用的數(shù)據(jù)結(jié)構(gòu)。圖7和8示出根據(jù)人工智能已知的并且在本技術(shù)的某些實施例中采用的規(guī)劃模型的一些方面。圖9標識出可由操作系統(tǒng)執(zhí)行的四個級別的并行處理。圖10對說明性實現(xiàn)方案進一步詳述這四個級別的處理。圖11示出在辨別用戶意圖的過程中涉及的某些方面。圖12描繪出可在某些實現(xiàn)方案中使用的循環(huán)處理方案。圖13是圖12方案的另一視圖。圖14是描繪系統(tǒng)操作的某些方面的概念圖。圖15和16分別示出與識別代理和資源跟蹤相關(guān)的數(shù)據(jù)。圖17示出可用來幫助機器理解觀察空間的圖形目標。圖18示出基于音頻的實現(xiàn)方案的一些方面。
具體實施例方式在許多方面中,本公開的主題可以被認為是對允許用戶使用計算機裝置與用戶的環(huán)境交互而言有用的技術(shù)。這一寬廣的范圍使得所公開的技術(shù)非常適合于不計其數(shù)的應(yīng)用。由于本公開中詳述的主題的范圍和多樣性極大,所以很難實現(xiàn)有條理的介紹。明顯的是,下面呈現(xiàn)的許多主題章節(jié)既以其他章節(jié)為基礎(chǔ),又是其他章節(jié)的基礎(chǔ)。因而,不可避免地,各章節(jié)是按照有點任意的順序呈現(xiàn)的。應(yīng)認識到的是,來自每個章節(jié)的一般原理和特定細節(jié)也可以在其他章節(jié)中得到應(yīng)用。為了防止本公開的長度膨脹失控(簡明總是有益的,特別是在專利說明書中),不同章節(jié)的特征的各種置換和組合并沒有無遺漏地詳述。本發(fā)明人意圖明確地教導這些組合/置換,只是實踐性要求把所詳述的合成方案留給根據(jù)這些教導最終實現(xiàn)本系統(tǒng)的那些人來決定。還應(yīng)注意的是,這里詳述的技術(shù)建立在前面引用的專利申請中所公開的技術(shù)上并對其進行了擴展。因此請讀者參考那些詳述了申請人期望本技術(shù)被應(yīng)用于的方案并且在技術(shù)上對本公開進行了補充的文獻。認知,非居間化(disintermediated)搜索移動裝置(如手機)正在成為認知工具,而不僅僅是通信工具。在一個方面中,認知可以被認為是向一個人告知這個人所處的環(huán)境的活動。認知動作可以包括
基于傳感輸入來感知各種特征; 感知各種形式(例如,確定協(xié)調(diào)地結(jié)合起來的結(jié)構(gòu)); 關(guān)聯(lián),如確定外部結(jié)構(gòu)和關(guān)系; 定義各種問題; 定義問題解決狀態(tài)(例如,它是文本我可以做什么? A.讀取它); 確定解決方案選項; 啟動動作和響應(yīng); 識別通常是確定適當響應(yīng)的過稈中的第一個基本步驟。視聽移動裝置是輔助進行向一個人告知其所處環(huán)境的過程中所涉及的那些處理的工具。移動裝置以驚人的速率激增。許多國家(包括芬蘭、瑞典、挪威、俄羅斯、意大利和英國)據(jù)傳道具有的手機多于人口。根據(jù)GSM聯(lián)盟,當前有近似四十億個GSM和3G手機在使用中。升級周期是如此之短,以致于平均每24個月就要更換一次裝置。因此,移動裝置已經(jīng)是巨大投資的焦點。行業(yè)巨頭(如Google、Microsoft、Apple和Nokia)已經(jīng)認識到巨大的市場取決于擴展這些裝置的功能性,并且已經(jīng)在研究和開發(fā)中投資了相當大的款項。在付出這樣普遍且強烈的努力后,行業(yè)巨頭仍未能開發(fā)出這里詳述的技術(shù),這著實證明了這里詳述的技術(shù)的創(chuàng)造性?!胺蔷娱g化搜索”(如視覺查詢)被相信是對于即將來臨的各代移動裝置而言最引人注目的應(yīng)用之一。在一個方面中,非居間化搜索可以被認為是減少(乃至消除)人類在啟動搜索的過程中的任務(wù)的搜索。例如,智能電話可以始終分析視覺環(huán)境,并且不用特意詢問就提供解釋和相關(guān)信息。在另一方面中,非居間化搜索可以被認為是超越Google的下一步。Google構(gòu)建了統(tǒng)一的大規(guī)模系統(tǒng)來把關(guān)于公共萬維網(wǎng)的全部文本信息組織起來。但是視覺世界太大且太復(fù)雜,以致于甚至是Google都無法控制。一定會牽扯到無數(shù)參與者一每個參與者起著專門的作用,一些作用較大,一些作用較小。將不會存在“一個搜索引擎能支配他們?nèi)俊薄?考慮到潛在地會牽扯到無數(shù)的參與者,或許備選的綽號將是“超居間化搜索(hyperintermediated search),,。)
架構(gòu)I用架構(gòu)圖示出采用本技術(shù)的某些原理的實施例。(應(yīng)該認識到的是,將功能劃分成多個塊是有點任意的。實際的實現(xiàn)方案可能并不遵循這里描繪和描述的特定結(jié)構(gòu)。)ICP 小玩意 & 空間模型組件(ICP Baubles&Spatial Model component)處理涉及觀察空間、顯示、及其關(guān)系的任務(wù)。一些相關(guān)功能包括與把小玩意疊蓋到視覺景象上的過程有關(guān)的姿勢估計、跟蹤、和正射校正映射(ortho-rectified mapping)。在一個方面中,小玩意可以被認為是與所拍攝圖像的特征相關(guān)聯(lián)地顯示在屏幕上的增強現(xiàn)實圖標。這些小玩意可以具有交互性和用戶調(diào)諧性(即,不同的小玩意可以出現(xiàn)在不同用戶的屏幕上,從而察看同一景象)。在一些方案中,小玩意顯現(xiàn)出來指示系統(tǒng)最先隱約識別出的東西。當系統(tǒng)開始辨別出在顯示器上的某一位置處存在著用戶潛在感興趣的某個東西(視覺特征)時,系統(tǒng)呈現(xiàn)小玩意。隨著系統(tǒng)推斷出更多有關(guān)該特征的信息,小玩意的尺寸、形狀、顏色或亮度可以發(fā) 生變化,從而使得其更加突出和/或使得其提供的信息更加豐富。如果用戶輕拍小玩意從而表示對該視覺特征感興趣,那么系統(tǒng)的資源管理器(例如,ICP狀態(tài)機)可以不均衡地對該圖像特征的分析處理撥劃比其他圖像區(qū)域更多的處理資源。(關(guān)于用戶這一輕拍動作的信息也與關(guān)于該特征或該小玩意的信息一起存儲在數(shù)據(jù)存儲器中,使得用戶對該特征的興趣可以在下一次被更快速地識別或自動地識別。)當小玩意第一次出現(xiàn)時,關(guān)于該視覺特征,可能除了它看上去似乎構(gòu)成視覺上分立的實體(例如,明亮的斑點,或具有邊緣輪廓的某個東西)以外什么都不知道。在該理解水平上,可以顯示一般的小玩意(或許被稱為“原型小玩意(proto-bauble)”)如小星形或圓形。隨著更多關(guān)于該特征的信息得以推斷出來(它看上去似乎是面部或條形碼或樹葉),可以顯示使加深的理解得到反映的小玩意圖形。小玩意可以在性質(zhì)上是商用的。在一些環(huán)境中,在顯示屏上可能會泛濫著不同的小玩意來競爭用戶的關(guān)注。為了解決該問題,可以存在用戶可設(shè)定的控制(視覺冗長控制),其能夠調(diào)節(jié)在屏幕上呈現(xiàn)多少信息。附加地或者備選地,可以提供一種控制,其允許用戶建立商用小玩意與非商用小玩意的最大比率。(如同Google那樣,從長期來看,從系統(tǒng)收集原始數(shù)據(jù)會證明比向用戶呈現(xiàn)廣告更有價值。)合乎期望的是,被選擇進行顯示的小玩意是基于各種維度的背景環(huán)境確定的對用戶而言最有價值的那些小玩意。在一些情況下,商用和非商用小玩意都可以基于在云中進行的拍賣處理來選擇??梢蕴峁┝硪?Gn控制來指示用戶的當前興趣(例如,觀光、購物、遠足、社交、航行、吃飯等),并且可以相應(yīng)地調(diào)諧小玩意的呈現(xiàn)。圖示的ICP小玩意&空間模型組件可以借用或者基于發(fā)揮相關(guān)功能的現(xiàn)有軟件工具來構(gòu)建。一個現(xiàn)有軟件工具是ARToolKit——起因于華盛頓大學的人機界面技術(shù)實驗室的研究而產(chǎn)生的可免費獲得的一套軟件(hitl〈dot>Washington〈dot>edu/artoolkit/),現(xiàn)在由西雅圖的ARToolworks公司(artoolworks〈dot>com)進一步開發(fā)。另一套相關(guān)工具是MV工具一一種流行的機器視覺函數(shù)庫。圖I僅示出一些識別代理(RA);可以存在幾十或幾百個識別代理。這些識別代理是幫助識別像素或其他內(nèi)容、并從像素或其他內(nèi)容中提取含義的組件。在一個方面中,一些RA可以類推為是專門搜索引擎。一個可以搜索條形碼,一個可以搜索面部,等等。如同小玩意那樣,可以存在涉及RA的競爭。即,相互重疊的功能性可以由來自幾個不同提供商的幾個不同RA提供。在特定背景環(huán)境中在特定裝置上使用哪個RA的選擇可以隨用戶的選擇、第三方評論、成本、系統(tǒng)限制、輸出數(shù)據(jù)的可再利用性、和/或其他標準而變。最終,達爾文篩選可能會發(fā)生,使得最好地滿足用戶需求的那些RA成為主流。智能電話供應(yīng)商可以在最初為該智能電話提供一組默認的RA。一些供應(yīng)商可以保持對RA選擇的控制(圍墻花園式方法),而一些供應(yīng)商可以鼓勵用戶發(fā)現(xiàn)不同的RA。在線市場(如蘋果應(yīng)用軟件商店)可以發(fā)展成充當RA市場。為不同的客戶群和需求服務(wù)的RA包可能會出現(xiàn),例如一些RA包能幫助視力有限的人(例如,載有視力幫助RA如文本到語音識別),一些RA包能設(shè)法滿足期望最簡單的用戶界面的那些人的需要(例如,大按鈕控制,非行話圖注);一些RA包能設(shè)法滿足戶外愛好者的需要(例如,包括鳥鳴聲識別RA、樹葉識別RA);—些RA包能設(shè)法滿足世界旅行者的需要(例如,包括語言翻譯功能和基于位置的旅行 者服務(wù)),等等。系統(tǒng)可以提供一菜單,借助該菜單用戶可以使裝置在不同的時刻加載不同的RA包。一些或全部RA可以取決于具體情況而將功能性推送給云。例如,如果可利用去往云的快速數(shù)據(jù)連接、并且裝置的電池接近耗盡(或者如果用戶正在玩消耗裝置的大部分CPU/GPU資源的游戲),那么本地RA可以僅在本地完成一小部分任務(wù)(例如,僅進行管理),并將其余的任務(wù)發(fā)給云中的對應(yīng)部分以便在那里執(zhí)行。如本公開中其他地方詳述的那樣,可由RA利用的處理器時間和其他資源可以以動態(tài)方式控制——將更多的資源分配給看上去似乎值得該待遇的那些RA。ICP狀態(tài)機的分配器組件可以專心于這種照管。ICP狀態(tài)機也可以管理在本地RA組件和云中的對應(yīng)部分之間進行的RA操作分配。ICP狀態(tài)機可以采用以安卓開源操作系統(tǒng)(例如,developer<dot>android<dot>com/guide/topics/fundamentals, html)以及 iPhone 和Symbian SDK為模型設(shè)計的一些方面。圖I中的右邊是云&商務(wù)規(guī)則組件,其充當對云相關(guān)處理的接口。它也可以執(zhí)行對云拍賣的管理——確定由多個云服務(wù)提供商中的哪一個來執(zhí)行某些任務(wù)。它通過服務(wù)提供商接口(SPI)與云進行通信,其中服務(wù)提供商接口基本上可以利用任何通信通道和協(xié)議。盡管特定的規(guī)則將是不同的,但是可以用作本架構(gòu)的該方面的模型的示例性基于規(guī)則的系統(tǒng)包括電影實驗室內(nèi)容規(guī)則和權(quán)利方案(例如movielabs〈dot>com/CRR/)和CNRI 處理系統(tǒng)(例如 handle〈dot>net/)。圖I中的左邊是背景環(huán)境引擎,其提供并處理由系統(tǒng)使用的背景環(huán)境信息(例如,當前位置是哪里?用戶在上一分鐘執(zhí)行了什么動作?用戶在上一小時執(zhí)行了什么動作?等等)。背景環(huán)境組件可以跨越接口鏈接到遠程數(shù)據(jù)。遠程數(shù)據(jù)可以包括任何外部信息,例如有關(guān)活動、同等群體(peer)、社交網(wǎng)絡(luò)、消費的內(nèi)容、地理的信息——可以使本用戶與其他人聯(lián)系起來的任何信息(如相似的度假目的地)。(如果裝置包括音樂識別代理,那么它可以查閱用戶的Facebook朋友的播放列表。裝置可以使用該信息來精煉用戶所聽的音樂的模型——還考慮例如關(guān)于用戶預(yù)訂的在線廣播電臺的認識等。)背景環(huán)境引擎和云&商務(wù)規(guī)則組件可以具有殘留在云側(cè)的對應(yīng)部分。即,該功能性可以是分布式的,一部分在本地,并且在云中有一對應(yīng)部分?;谠频慕换タ梢岳藐P(guān)于Google的應(yīng)用軟件引擎(App Engine)(例如,code〈dot>Google〈dot>com/appengine/)和 Amazon 的彈性計算云(Elastic ComputeCloud)(例如,aws<dot>amazon<dot>com/ec2/)進行的相關(guān)云計算已經(jīng)公開的許多工具和軟件。圖I的底部是黑板和聚類引擎(Blackboard and Clustering Engine)。黑板系統(tǒng)在前面已經(jīng)提到過。聚類引擎使多項內(nèi)容數(shù)據(jù)(例如,像素)在關(guān)鍵字向量(KeyVector)中成群到一起。關(guān)鍵字向量可以大致類推為是文本關(guān)鍵字的視聽對應(yīng)物——輸出到處理中以便獲得相關(guān)結(jié)果的一群元素。再一次,前面提到的ARToolKit可以為該功能性的某一方面提供基礎(chǔ)。黑板功能性可以利用開源黑板軟件GBBopen (gbbopen〈dot>org)。在Java虛擬機上運行(并且支 持用JavaScript編寫腳本)的另一開源實現(xiàn)方案是黑板事件處理器(Blackboard EventProcessor) (code〈dot>Google〈dot>com/p/blackboardeventprocessor/)。上文的各方面在本說明書的下面及其他章節(jié)中將進一步詳述。本地裝置&云處理如圖2概念性示出的那樣,非居間化搜索應(yīng)該依靠本地裝置和云的強度/屬性。(云“管道”也作為因素計入該混合物中(例如通過包括帶寬和成本在內(nèi)的限制)。)功能性在本地裝置和云之間的特定分配隨著實現(xiàn)方案的不同而變化。在一個特定實現(xiàn)方案中,功能性被劃分如下本地功能性 背景環(huán)境—用戶身份、偏好、歷史一背景環(huán)境元數(shù)據(jù)處理(例如,我是誰?我現(xiàn)在面向什么方向?) UI —在屏幕上呈遞&反饋(觸摸、按鈕、音頻、接近、等等) 大體定向一全局采樣;在不進行很多分析的情況下進行分類一數(shù)據(jù)對齊(data alignment)和特征提取一特征的枚舉拼湊物(enumerated patchwork)一幀間采集;時間特征的序列 云會話(Cloud Session)管理一對識別代理(RA)的登記、關(guān)聯(lián)&雙向會話操作 識別代理(RA)管理一類似于具有特定功能性的動態(tài)鏈接庫(DLL)——識別特定身份和形式一資源狀態(tài)和檢測狀態(tài)可伸縮性-由識別代理提供的服務(wù)的組成一開發(fā)和許可平臺云功能性
商務(wù)規(guī)則、會話管理、識別代理控制等 許多公司可以在這方面做貢獻,包括Verisign等這里詳述的技術(shù)從包括以下來源的各種來源吸取啟發(fā) 生物學類似于人類視覺系統(tǒng)&高級認知模型 信號處理傳感器融合 計算機視覺圖像處理操作(空間&頻率域) 計算機科學服務(wù)的組成&資源管理,并行計算 機器人學用于自主交互的軟件模型(PLAN、Gazebo等) -Al :評估/匹配/執(zhí)行模型,黑板、規(guī)劃模型等 經(jīng)濟學:拍賣模型(次高價中標(Second Price Wins)…) DRM :權(quán)利表達語言&商務(wù)規(guī)則引擎 人類因素UI,增強現(xiàn)實, 移動價值鏈結(jié)構(gòu)(Mobile Value Chain Structure):風險承擔者,商務(wù)模型,政
策7等等 行為科學社交網(wǎng)絡(luò),眾包/大眾分類法(folksonomy) 傳感器設(shè)計磁力計、近程傳感器、GPS、音頻、光學(景深延伸等)圖3用不同的功能方面(按照系統(tǒng)模塊和數(shù)據(jù)結(jié)構(gòu))對說明性認知處理的各種特征進行映射。因此,例如,直覺計算平臺(ICP, Intuitive Computing Platform)背景環(huán)境引擎把關(guān)聯(lián)、問題解決狀態(tài)、確定解決方案、啟動動作/響應(yīng)、和管理這些認知處理應(yīng)用于系統(tǒng)的背景環(huán)境方面。換句話說,ICP背景環(huán)境引擎嘗試基于歷史等來確定用戶的意圖,并使用這樣的信息來告知系統(tǒng)操作的各方面。同樣,ICP小玩意&空間模型組件在向用戶呈現(xiàn)信息和從用戶接收輸入這些方面進行許多相同的處理。ICP黑板和關(guān)鍵字向量是與系統(tǒng)的定向方面相關(guān)聯(lián)地使用的數(shù)據(jù)結(jié)構(gòu)。黑板是對Daniel Corkill所普及的計算機構(gòu)造的引用。參看例如Corkill的CollaboratingSoftware-Blackboard and Multi-Agent Systems&the Future (Proceedings of theInternational Lisp Conference, 2003)。ICP狀態(tài)機&識別代理管理與識別代理共同照管識別處理以及與識別相關(guān)聯(lián)的服務(wù)的組成。狀態(tài)機通常是實時操作系統(tǒng)。(這些處理也涉及例如ICP黑板和關(guān)鍵字向量。)云管理&商務(wù)規(guī)則處理云登記、關(guān)聯(lián)和會話操作一在識別代理和其他系統(tǒng)組件與云之間提供接口。支持小玩意的本地功能件與小玩意相關(guān)的一個或更多軟件組件所提供的功能中的一些可以包括以下功倉泛 理解用戶的概況、用戶的一般興趣、用戶在其當前背景環(huán)境內(nèi)的當前特定興趣。 對用戶輸入做出響應(yīng)。 使用所選的來自全局圖像處理庫的模塊來對流式形式的多個幀的重疊景象區(qū)域進行空間解析和“對象識別(ob ject-ify)” 把呈分層結(jié)構(gòu)的多層符號(像素分析結(jié)果、ID、屬性等)附加到原型區(qū)域上;將其打包成原型查詢的“關(guān)鍵字向量”。
基于用戶設(shè)定的視覺冗長水平和全局景象理解,設(shè)立小玩意原始顯示功能/正射投影。 將關(guān)鍵字向量路由到適當?shù)谋镜?云地址 使所附加的“完整背景環(huán)境”元數(shù)據(jù)來自列在頂部的路由對象。 如果路由到本地地址,則處理該關(guān)鍵字向量并產(chǎn)生查詢結(jié)果。 收集關(guān)鍵字向量查詢結(jié)果并使適當?shù)男⊥嬉庠谟脩羝聊簧匣钴S/把適當?shù)男⊥嬉馕粔K傳送(blit)到用戶屏幕 小玩意可以是“完全且充分地可引起行動得以采取”,或者可以示出“臨時狀態(tài)”并因此期待用戶交互以便進行更深的查詢鉆研或查詢精煉。肓覺計算平臺(ICP)小玩意 在云中進行提供服務(wù)和高價值的小玩意結(jié)果這一方面的競爭應(yīng)該激勵供應(yīng)商變得優(yōu)異并取得商業(yè)成功。建立具有基線品質(zhì)的非商用服務(wù)的云拍賣地點可以幫助激勵該市場。用戶想要(并且應(yīng)該會需要)最高品質(zhì)和最相關(guān)的小玩意,使商業(yè)入侵程度隨用戶意圖和實際查詢而變地得到調(diào)節(jié)。在對立面上,把屏幕作為不動產(chǎn)購買的購買者可以分成兩類愿意提供非商用小玩意和會話的那些購買者(例如,帶著爭取客戶以打造品牌的目標),以及想要“有資格”擁有作為不動產(chǎn)的屏幕并且僅僅對這些屏幕所代表的商業(yè)機會投標的那些購買者。當然,在把自己的“關(guān)鍵字、拍賣處理、贊助的超鏈接呈現(xiàn)”貨幣化方面,Google已經(jīng)建立了巨大的產(chǎn)業(yè)。然而,對于視覺搜索,單個實體似乎不太可能會相似地支配該處理的所有方面。而是,似乎可能的是,處于中間層的公司將輔助進行用戶查詢/屏幕不動產(chǎn)購買者的匹配。用戶界面可以包括一種控制,借助該控制用戶可以摒棄不感興趣的小玩意一從屏幕上將其去除(并且終止專用于發(fā)現(xiàn)與該視覺特征相關(guān)的進一步信息的任何正在進行的識別代理處理)。關(guān)于被摒棄的小玩意的信息可以記錄到數(shù)據(jù)存儲庫中,并用于擴充用戶的概況信息。如果用戶摒棄關(guān)于星巴克咖啡店和獨立咖啡店的小玩意,那么系統(tǒng)可以推斷出用戶對所有咖啡店都缺乏興趣。如果用戶僅摒棄了關(guān)于星巴克咖啡店的小玩意,那么可以辨別出更窄的用戶興趣缺乏范圍。將來進行的小玩意的顯示可以查閱數(shù)據(jù)存儲庫;早先被摒棄(或者反復(fù)被摒棄)的小玩意通常不會被再次顯示。類似地,如果用戶輕拍小玩意從而表示出興趣,那么該類型或該類別的小玩意(例如,星巴克、或咖啡店)可以在將來在評估(在許多候選者當中)要顯示哪些小玩意時被賦予較高的分數(shù)。關(guān)于用戶與小玩意間的交互的歷史信息可以與當前背景環(huán)境信息結(jié)合使用。例如,如果用戶在下午而不是在上午摒棄了與咖啡店相關(guān)的小玩意,那么系統(tǒng)可以在上午繼續(xù)呈現(xiàn)與咖啡相關(guān)的小玩意。視覺查詢問題固有的復(fù)雜性意味著,許多小玩意將屬于臨時的或原型小玩意那一類——邀請并引導用戶提供人類級別的過濾和導航以便更深入地進行查詢處理。在某一景象上進行的小玩意顯示的進展因此可以隨實時人類輸入以及其他因素而變。當用戶輕拍小玩意或以其他方式表達出對小玩意感興趣(與輕拍初步的原型小玩意形成對比)時,該動作通常會啟動與該小玩意的主題相關(guān)的會話。會話的細節(jié)將取決于特定的小玩意。一些會話可以在性質(zhì)上是商用的(例如,輕拍星巴克小玩意可以獲得星巴克產(chǎn)品的優(yōu)惠一美元的電子贈券)。一些會話可以是提供消息的(例如,輕拍與雕像相關(guān)聯(lián)的小玩意可以導致關(guān)于該雕像或雕刻家的Wikipedia條目的呈現(xiàn))。表示識別出所拍攝的圖像中的面部的小玩意可以導致各種操作(例如,呈現(xiàn)來自社交網(wǎng)絡(luò)(如LinkedIn)的有關(guān)這個人的概況;把該照片的帶有關(guān)于面部的注釋的副本發(fā)布到識別出的這個人的Facebook頁面或發(fā)布到該用戶的Facebook頁面,等等)。有時,輕拍小玩意會喚來由幾個操作構(gòu)成的菜單,用戶可以從該菜單中選擇期望的動作。輕拍小玩意表示該小玩意所對應(yīng)的種類勝過了其他小玩意。如果輕拍的小玩意在性質(zhì)上是商用的,那么該小玩意羸得了對用戶的關(guān)注以及對觀看者的屏幕這一不動產(chǎn)的暫時利用的競爭。在一些情況下,可以做出相關(guān)的支付——或許支付給用戶,或許支付給另一方(例如保證其“贏得”客戶的那一實體)。輕拍的小玩意還表示對偏好的表決一可能達爾文同意該小玩意優(yōu)于其他小玩意。除了影響對在將來呈現(xiàn)給該用戶的待顯示小玩意的選擇之外,這樣的確認也會影響對 顯示給其他用戶的小玩意的選擇。這有希望把小玩意提供商引導到朝向優(yōu)異用戶服務(wù)邁進的良性循環(huán)。(如果只有用戶喜愛的廣告能夠獲得正在進行的播放時間,那么有多少當前的電視廣告會幸存?)如所示的那樣,給定的圖像景象可以為許多小玩意(常常是屏幕可以有效包含的更多小玩意)的顯示提供機會。把該可能性范圍縮小到易管理的集合的處理可以從用戶開始??梢圆捎酶鞣N不同的用戶輸入,從前面提到的冗長控制開始,所述冗長控制僅對用戶希望屏幕被疊蓋有小玩意的頻繁度設(shè)定基線。其他控制可以指示當前偏好、以及商用小玩意與非商用小玩意的指定混合比例。另一維度的控制是用戶在屏幕的特定區(qū)域中的實時興趣表達,例如指示關(guān)于用戶想要獲得更多了解的事物的特征或者指示用戶想要以其他方式進行交互的特征。該興趣可以通過輕拍疊蓋在這些特征上的原型小玩意來指示,盡管也可能不需要原型小玩意(例如,用戶可以簡單地輕拍屏幕的未顯出差別的區(qū)域以便將處理器的注意力集中到圖像幀的該部分上)。另外的用戶輸入是與背景環(huán)境有關(guān)的——包括在其他地方詳述的許多種信息(例如,計算背景環(huán)境、物理背景環(huán)境、用戶背景環(huán)境、實體背景環(huán)境、時間背景環(huán)境和歷史背景環(huán)境)。饋送給小玩意選擇處理的外部數(shù)據(jù)可以包括與第三方交互相關(guān)的信息一其他人選擇與什么小玩意進行交互?賦予該因素的權(quán)重可以取決于其他用戶和本用戶之間的距離度量、以及其他用戶的背景環(huán)境和本背景環(huán)境之間的距離。例如,本用戶的社交朋友在相似背景環(huán)境情況下的動作所表達的小玩意偏好可以被賦予比陌生人在不同情況下的動作所表達的小玩意偏好大得多的權(quán)重。另一外部因素可以是商業(yè)考慮因素,例如,第三方愿意支付多少(并且可能的話愿意支付給誰)來暫時地租借作為不動產(chǎn)的少量用戶屏幕?如上所述,這樣的問題可以作為因素計入基于云的拍賣方案中。拍賣也可以考慮特定小玩意對于其他用戶的流行度。在實現(xiàn)本處理的該方面時,可以參考Google的用于在線拍賣作為不動產(chǎn)的廣告的技術(shù)(參看例如 Levy 的 Secret of Googlenomics:Data-Fueled Recipe Brews Profitability, WiredMagazine, 2009年5月22日)——廣義的次價拍賣的一種變型。本申請人在PCT專利申請PCT/US09/54358中詳述了基于云的拍賣方案。在一個特定實現(xiàn)方案中,可以把幾個小玩意(例如,1-8個)分配給商業(yè)宣傳(例如,通過類似Google的拍賣程序確定,并服從于用戶對商用小玩意與非商用小玩意的比例的調(diào)諧),并且一些小玩意可以基于非商業(yè)因素(如前面提到的那些)來選擇。這些后一種小玩意可以按照基于規(guī)則的方式來選擇,例如應(yīng)用對前面提到的不同因素施加權(quán)重的算法以便對每個小玩意獲得一個分數(shù)。然后對相互競爭的各分數(shù)進行排序,并把分數(shù)最高的N個小玩意呈現(xiàn)在屏幕上(其中N可以由用戶使用冗長控制來設(shè)定)。在另一實現(xiàn)方案中,并不先驗地分配商用小玩意。而是,按照類似于非商用小玩意的方式對這些小玩意進行評分(通常使用不同的標準,但是按比例縮放到相似的分數(shù)范圍)。然后呈現(xiàn)分數(shù)最高的N個小玩意——它們可能全部是商用的、全部是非商用的、或者是混合的。 在另一實現(xiàn)方案中,商用小玩意與非商用小玩意的混合比例是隨用戶的預(yù)訂服務(wù)而變的。對支付介紹性比率的處于入門級別的用戶呈現(xiàn)在尺寸和/或數(shù)量方面較大的商用小玩意。對于為了獲得優(yōu)質(zhì)服務(wù)而付款給服務(wù)提供商的用戶,向他們呈現(xiàn)較小和/或較少的小玩意,或者向他們賦予一定的自由來設(shè)定他們自己的關(guān)于商用小玩意的顯示的參數(shù)。表示小玩意的圖形標志可以在視覺上設(shè)計成適合于指示其特征關(guān)聯(lián),并且可以包括動畫元素來吸引用戶的注意。小玩意提供商可以向系統(tǒng)提供一定尺寸范圍內(nèi)的標志,從而允許系統(tǒng)在用戶放大所顯示圖像的該區(qū)域或者表達對這種小玩意的潛在興趣的情況下,增大小玩意的尺寸和分辨率。在一些情況下,系統(tǒng)必須充當警察一決定不呈現(xiàn)所提供的小玩意,例如因為該小玩意的尺寸超過由所存儲的規(guī)則建立的尺寸、因為該小玩意的外觀被認為是淫穢的、等等。(系統(tǒng)可以自動地將小玩意按比例縮小至適合的尺寸,并且用一般標志(如星形標志)替換不適合的或不可用的標志。)除了與從圖像中辨別出的視覺特征相關(guān)地呈現(xiàn)小玩意以外,還可以以其它方式呈現(xiàn)小玩意。例如,可以呈現(xiàn)小玩意來指示裝置知道其地理位置,或者指示裝置知道其用戶的身份。各種操作反饋因此可以提供給用戶,而不管圖像內(nèi)容如何。除了特定特征識別以外,一些圖像反饋也可以經(jīng)由小玩意提供,例如所拍攝的圖像滿足基線質(zhì)量標準(如焦點或?qū)Ρ榷?。每個小玩意可以包含少量的映射表現(xiàn),或者每個小玩意可以用基本圖元的集合來限定。通常,在平面圖中限定小玩意標志。軟件的空間模型組件可以根據(jù)所拍攝圖像內(nèi)的辨別出的表面來將小玩意標志的投影映射到屏幕上,例如對于與傾斜地觀察的店面相關(guān)聯(lián)的小玩意,其看上去似乎是傾斜的并且或許在透視圖中是扭曲的。這些問題將在下面的章節(jié)中進一步討論??臻g樽型/引擎在建立愉快的用戶體驗的過程中,把3D世界令人滿意地投影并顯示到2D屏幕上是很重要的。因此,優(yōu)選系統(tǒng)包括服務(wù)于這些目的的軟件組件(有各種稱謂,例如空間模型或空間引擎)。
在2D屏幕中再現(xiàn)3D世界開始于理解關(guān)于3D世界的某些事情。對于未加處理的一幀像素(缺乏任何地理位置數(shù)據(jù)或其他空間理解),從哪里開始?如何辨別對象并加以分類?幸運地是,該問題已經(jīng)在許多情況下被面對了許多次。機器視覺和視頻運動編碼是許多領(lǐng)域中提供了有用的現(xiàn)有技術(shù)的兩個領(lǐng)域,假定本領(lǐng)域技術(shù)人員熟悉這些現(xiàn)有技術(shù),并且本領(lǐng)域技術(shù)人員可以從這些現(xiàn)有技術(shù)中吸取與本申請有關(guān)的經(jīng)驗。借助基本原理 攝像機和顯示屏是典型的2D空間結(jié)構(gòu) 攝像機通過3D世界到2D平面的空間投影來工作。 小玩意和原型小玩意被“客觀地體現(xiàn)”到空間框架內(nèi)。下面是把空間理解編碼成正交處理流以及背景環(huán)境條目和屬性條目的提議。該提議利用三個“空間水平”(空間理解的階段)的構(gòu)造。 空間水平I包括基本景象分析和解析。將像素聚簇成多個初始群組。對于所拍攝的作為不動產(chǎn)的景象以及作為不動產(chǎn)的顯示屏,存在著一些基本理解。關(guān)于跨越多個幀的作為不動產(chǎn)的景象構(gòu)成的流,也存在著一些基本認識??臻g水平2進一步聚焦作為不動產(chǎn)的景象??臻g水平2利用景象或景象序列的類似GIS的組織形式,例如向每個識別出的聚簇、對象、或感興趣區(qū)域分配其自己的邏輯數(shù)據(jù)層(這些數(shù)據(jù)層可能有重疊區(qū)域)。每個層可以具有相關(guān)的元數(shù)據(jù)存儲庫。在該水平上,辨別出幀與幀之間的對象連續(xù)性。也可以注意到基本的“世界空間線索”(如消失點、地平線、和“向上/向下”的概念)。空間水平3建立在先前的理解水平上,向外延伸到世界相關(guān)性。用戶被理解為是具有給定投影和時空軌道的世界模型內(nèi)的觀察者。可以應(yīng)用把景象映射到世界和把世界映射到景象的變換方程,使得系統(tǒng)理解它處于空間中的哪里和對象處于空間中的哪里,并且具有關(guān)于各事物間如何發(fā)生聯(lián)系的某種框架。這些分析階段從游戲工業(yè)和增強現(xiàn)實引擎的工作中吸取經(jīng)驗。這些方面中的一些在圖4中示出,圖4概念性地示出空間理解從空間水平I、到2、到3的逐漸增大的復(fù)雜性。在一種說明性應(yīng)用中,不同的軟件組件負責辨別與不同的空間水平相關(guān)聯(lián)的不同類型的信息。例如,聚簇引擎被用于產(chǎn)生空間水平I的理解。聚簇是指把一群(通常是連續(xù)的)像素識別為相互關(guān)聯(lián)的處理。這種關(guān)聯(lián)可以是例如在顏色或紋理方面相似?;蛘哌@種關(guān)聯(lián)可以是一個流中的相似性(例如,相似的面部像素圖案跨越靜態(tài)背景從一幀移位到另一幀)。在一個方案中,在系統(tǒng)已經(jīng)識別出一個像素聚簇之后,系統(tǒng)分配將要與該聚簇相關(guān)聯(lián)的符號(例如,就像ID號那樣簡單)。在進一步管理和分析該聚簇方面,這是有用的(并且在例如數(shù)據(jù)鏈接方案中也是有用的)??梢詫⒃托⊥嬉夥峙浣o該聚簇,并且參考標識符號來跟蹤該原型小玩意。起因于系統(tǒng)所執(zhí)行的解析和定向操作而產(chǎn)生的、使聚簇的位置與攝像機在2D和3D中的位置相關(guān)的信息,可以參考該聚簇的符號來組織。類似地,起因于與該聚簇相關(guān)聯(lián)的圖像處理操作而產(chǎn)生的數(shù)據(jù)可以參考該聚簇的符號來識別。同樣地,用戶的輕拍可以與該符號相關(guān)聯(lián)地記入日志。這種把符號用作借以存儲和管理與聚簇相關(guān)的信息的句柄(handle)的用法,可以延伸到與該聚簇相關(guān)的基于云的處理、與聚簇相關(guān)聯(lián)的小玩意的進化,自始至終通過完整識別聚簇對象并基于此做出響應(yīng)。(下面將介紹更詳細命名的構(gòu)造,例如包括會話ID。)這些空間理解組件可以與其他系統(tǒng)軟件組件并行工作,例如,維持公共/全局空間理解并設(shè)立代理和對象可以利用的空間框架。這樣的操作可以包括把關(guān)于空間環(huán)境的當前信息發(fā)布到可分享的數(shù)據(jù)結(jié)構(gòu)(例如,黑板),識別代理可以查閱該可分享的數(shù)據(jù)結(jié)構(gòu)以幫助理解它們正在看什么,并且圖形系統(tǒng)可以在決定如何在當前景象上描繪小玩意的過程中參考該可分享的數(shù)據(jù)結(jié)構(gòu)。不同的對象和代理可以設(shè)立與三個水平相關(guān)聯(lián)的空間水平字段和屬性條目。通過相繼地產(chǎn)生幾代這些系統(tǒng),空間理解組件預(yù)期會成為裝置的幾乎反射性的生搬硬套的能力。肓覺計算平臺(ICP)狀態(tài)機一服務(wù)的組成;面向服務(wù)的計算
如前所述,ICP狀態(tài)機可以實質(zhì)上包括實時操作系統(tǒng)。它可以照管常規(guī)任務(wù)(如調(diào)度、多重任務(wù)處理、錯誤恢復(fù)、資源管理、信息傳遞和安全性),以及對當前應(yīng)用場合更特定的一些其他任務(wù)。這些附加的任務(wù)可以包括提供檢查跟蹤功能性、保證會話管理、以及確定服務(wù)的組成。檢查跟蹤功能性向商業(yè)實體提供保證,保證這些商業(yè)實體付款贊助的小玩意事實上確實被呈現(xiàn)給用戶。保證會話管理涉及建立和維持與云服務(wù)和對竊聽等有魯棒性(例如通過加密)的其他裝置的連接。服務(wù)的組成是指選擇用于執(zhí)行某些功能的操作(和這些組分操作的相關(guān)配合/編排)。在狀態(tài)機操作的這些方面中會涉及到分派處理,例如使資源與各應(yīng)用相協(xié)調(diào)。某些高級功能可能會使用來自各種低級操作的不同組合的數(shù)據(jù)來實現(xiàn)。對利用哪些功能以及在什么時候利用這些功能的選擇可以基于許多因素。一個因素是有哪些其他操作已經(jīng)在進行中或已經(jīng)完成——其結(jié)果也可能服務(wù)于本需要。舉例來說,條形碼定位通??梢砸蕾囉谟嬎闼ㄎ坏乃綄Ρ榷?,并計算所定位的垂直對比度,并比較這些對比度數(shù)據(jù)。然而,如果跨越一圖像的16x16像素塊的2D FFT數(shù)據(jù)已經(jīng)可從另一處理得到,那么作為替代可以將該信息用于定位候選的條形碼區(qū)域。類似地,某一功能可能會需要關(guān)于圖像中的長邊緣的位置的信息,并且可以啟動專用于產(chǎn)生長邊緣數(shù)據(jù)的操作。然而,另一處理可能已經(jīng)識別出該幀中的各種長度的邊緣,并且可以簡單地對這些現(xiàn)有結(jié)果進行過濾來識別長邊緣,并使其得到再利用。另一實例是基于霍夫變換的特征識別。OpenCV視覺庫指示該功能期望使用邊緣細化的圖像數(shù)據(jù)作為輸入數(shù)據(jù)。該功能還推薦通過將Canny (坎尼)操作應(yīng)用于邊緣數(shù)據(jù)來生成邊緣細化的圖像數(shù)據(jù)。而該邊緣數(shù)據(jù)共同地通過將Sobel (索貝爾)濾波器應(yīng)用于圖像數(shù)據(jù)而生成。因此,霍夫程序的“常規(guī)”實現(xiàn)方案將會從Sobel濾波器開始,隨后是Canny操作,然后調(diào)用霍夫法。但是邊緣也可以通過除Sobel濾波器以外的方法來確定。并且細化的邊緣可以通過除Canny以外的方法確定。如果系統(tǒng)已經(jīng)具有邊緣數(shù)據(jù),即使該邊緣數(shù)據(jù)是由除Sobel濾波器以外的方法生成的,那么仍可以使用該邊緣數(shù)據(jù)。類似地,如果另一處理已經(jīng)產(chǎn)生改良的邊緣數(shù)據(jù),即使該改良的邊緣數(shù)據(jù)不是通過Canny操作生成的,仍可以使用該改良的邊緣數(shù)據(jù)。在一個特定實現(xiàn)方案中,系統(tǒng)(例如,分派處理)可以查閱一數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)具有建立不同類型的關(guān)鍵字向量之間的大致功能對應(yīng)度的信息。通過Canny產(chǎn)生的關(guān)鍵字向量邊緣數(shù)據(jù)會指示出與通過無限對稱指數(shù)濾波器技術(shù)產(chǎn)生的邊緣數(shù)據(jù)具有較高的功能對應(yīng)度,并且與通過Marr-Hildreth (馬爾-希爾德雷斯)程序辨別出的邊緣數(shù)據(jù)有略小的功能對應(yīng)度。通過Harris算子檢測的拐角可以與通過Shi和Tomasi方法檢測的拐角互換。等等該數(shù)據(jù)結(jié)構(gòu)可以包括一個大表格,或者該數(shù)據(jù)結(jié)構(gòu)可以分解為幾個表格——每個表格專用于特定類型的操作。例如,圖5示意性地示出指示出對應(yīng)度(按比例縮放到100)的與邊緣尋找相關(guān)聯(lián)的表格的一部分。
特定的高級功能(例如,條形碼解碼)可能會需要由特定處理(如Canny邊緣濾波器)生成的數(shù)據(jù)。Canny濾波功能可以從系統(tǒng)可利用的軟件處理算法庫中獲得,但是在調(diào)用該操作之前,系統(tǒng)可以參考圖5的數(shù)據(jù)結(jié)構(gòu),以查看是否已經(jīng)有適合的代用數(shù)據(jù)可用或者正在處理中(假定還沒有優(yōu)選的Canny數(shù)據(jù)可用)。該檢查開始于尋找在最左側(cè)一欄中具有名義上期望的功能的行。然后程序在該行中掃描以尋找最高值。在Canny的情況下,最高值是無限對稱指數(shù)濾波器所對應(yīng)的95。系統(tǒng)可以檢查共享的數(shù)據(jù)結(jié)構(gòu)(例如黑板),以便確定對于主題圖像幀而言這樣的數(shù)據(jù)(或適合的替代者)是否可用。如果找到這樣的數(shù)據(jù),那么可以將它代替名義上指定的Canny數(shù)據(jù)使用,并且條形碼解碼操作可以在該基礎(chǔ)上繼續(xù)進行。如果沒有找到這樣的數(shù)據(jù),那么狀態(tài)機繼續(xù)進行處理——尋找次最高的值(例如,Marr-HiIdreth所對應(yīng)的90)。再一次,系統(tǒng)檢查是否有任何該類型的數(shù)據(jù)可用。處理繼續(xù)進行,直到表格中的所有備選者用盡為止。在本優(yōu)選實施例中,該檢查是由分派處理進行的。在這樣的實施例中,大多數(shù)識別處理是作為多個操作的級聯(lián)序列執(zhí)行的——每個操作具有指定的輸入。分派處理的使用允許對服務(wù)的參與組成所做的決定被集中做出。這也允許操作軟件組件被聚焦于圖像處理,而不是還要涉及例如檢查表格以查找適合的輸入資源以及維持對其他處理的操作的注意,這些負擔會使這些組件更復(fù)雜且更難以維持。在一些方案中,通過條形碼解碼功能指定一閾值,或者由系統(tǒng)全局地指定一閾值,指示對于數(shù)據(jù)替代方案而言可接受的最小對應(yīng)值(例如75)。在這種情況下,剛剛描述的處理將不會考慮來自Sobel和Kirch (克?;舴?濾波器的數(shù)據(jù),因為它們與Canny濾波器的對應(yīng)度只是70。盡管其他實現(xiàn)方案可能是不同的,但應(yīng)注意的是,圖5的表格是不對稱的。例如,如果期望的是Canny,那么Sobel具有的指示出的對應(yīng)度只有70。但是如果期望的是Sobel,那么Canny具有的指示出的對應(yīng)度為90。因此,Canny可以代替Sobel,但是如果設(shè)定的閾值為75, Sobel并不能代替Canny。圖5的表格是通用的。然而,對于一些特定應(yīng)用場合,圖5的表格可能是不適合的。例如,某一功能可能會需要用Canny (優(yōu)選)或Kirch或Laplacian (拉普拉斯算子)來尋找邊緣。由于該功能的特性,其他邊緣尋找器可能不是令人滿意的。系統(tǒng)可以允許特定功能提供它們自己的關(guān)于一個或更多操作的對應(yīng)表——優(yōu)先于通用表格使用。對應(yīng)于某一功能的專用對應(yīng)表的存在可以用與該功能相關(guān)聯(lián)的標記位或以其他方式來指示。在剛剛給出的實例中,標記位可以指示應(yīng)該使用圖5A的表格作為替代。該表格僅包括單一一行——用于名義上指定的在該功能中使用的Canny操作。并且該表格僅具有兩欄——對應(yīng)于無限對稱指數(shù)濾波器和Laplacian。(沒有適合的其他數(shù)據(jù)。)對應(yīng)值(S卩,95、80)可以省略,使得該表格可以包括備選處理的簡單列表。為了便于在共享數(shù)據(jù)結(jié)構(gòu)中找到可替代的數(shù)據(jù),可以使用指示特定關(guān)鍵字向量包含什么信息的命名規(guī)則。這種命名規(guī)則可以指示功能的類別(例如,邊緣尋找)、功能的特定種類(例如,Canny)、數(shù)據(jù)所基于的圖像幀、以及數(shù)據(jù)所特有的任何其他參數(shù)(例如,用于Canny濾波器的核的尺寸)。該信息可以以各種方式表示,如按字面意義表示、用縮寫表示、用可以通過另一數(shù)據(jù)結(jié)構(gòu)解析從而獲得完整細節(jié)的一個或更多指標值表示、等等。例如,包含用5x5的模糊核產(chǎn)生的關(guān)于幀1357的Canny邊緣數(shù)據(jù)的關(guān)鍵字向量可以命名為“KV_Edge_Canny_1357_5x5,,。為了向其他處理提醒正在處理中的數(shù)據(jù),當一功能被初始化時可以將空條目寫入共享的數(shù)據(jù)結(jié)構(gòu)——根據(jù)該功能的最終結(jié)果來命名所述空條目。因此,如果系統(tǒng)開始用5x5的模糊核對幀1357執(zhí)行Canny操作,那么空文件可以用上面提到的名稱寫入共享的數(shù)據(jù)結(jié) 構(gòu)。(這可以由該功能執(zhí)行、或者由狀態(tài)機(例如分派處理)執(zhí)行。)如果另一處理需要該信息、并且用空條目找到適當命名的文件,那么它會知道這樣的處理已經(jīng)被啟動。于是它可以監(jiān)視或復(fù)查該共享的數(shù)據(jù)結(jié)構(gòu),并在所需信息變得可用時獲得所需信息。更特別地,需要該信息的處理階段在其輸入?yún)?shù)當中會包括期望的邊緣圖像的規(guī)格——包括描述其所需的質(zhì)量的描述符。系統(tǒng)(例如,分派處理)會檢查當前位于存儲器中(例如,位于黑板上)的數(shù)據(jù)的類型、以及上面提到的表格,以便確定目前是否有適當?shù)臄?shù)據(jù)可用或正在處理中??赡艿膭幼饔谑强梢园ú捎每山邮盏目捎脭?shù)據(jù)開始該處理階段;當預(yù)期數(shù)據(jù)在將來可用時,將開始時刻延遲到將來的時刻;延遲開始時刻,并安排生成所需數(shù)據(jù)的處理(例如,Canny)得以開始;或者由于缺少所需數(shù)據(jù)和生成該所需數(shù)據(jù)所需的資源,而延遲或終止該處理階段。在考慮備選數(shù)據(jù)是否適合于供特定操作使用時,可以對來自其他幀的數(shù)據(jù)加以考慮。如果攝像機處于自由運行模式,那么該攝像機可以每秒鐘拍攝許多幀(例如,30幀)。盡管(在上面給出的實例中)分析處理可能會特別考慮幀1357,但是分析處理也能夠利用從幀1356或者甚至從幀1200或1500取得的信息。在這點上,識別出包括在內(nèi)容上相似的圖像的幀所構(gòu)成的群組是有幫助的。兩個圖像幀是否相似自然地將取決于特定的情況,例如圖像內(nèi)容和所執(zhí)行的操作。在一個示例性方案中,如果(I)相關(guān)的感興趣區(qū)域出現(xiàn)在幀A和幀B這兩個幀中(例如,相同的面部主題或條形碼主題),并且(2)幀A和幀B之間的每個幀也包括該同一感興趣區(qū)域,那么幀A可以被認為與幀B相似(這提供了對如下情況的某種保護措施主題在攝像機最初觀察該主題的狀態(tài)和攝像機返回到該主題的狀態(tài)之間變化)。在另一方案中,如果兩個幀的顏色直方圖在指定閾值內(nèi)相似(例如,它們具有大于0. 95或0. 98的相關(guān)度),那么這兩個幀被認為是相似的。在又一方案中,可以將類似MPEG的技術(shù)應(yīng)用于圖像流,以確定兩個幀之間的差異信息。如果該差異超過閾值,那么這兩個幀被認為是非相似的。除了上面提到的那些標準之外還可以利用的另外的測試是,該幀中的感興趣特征或感興趣區(qū)域的位置是相對固定的(“相對”使得容許的移動可以有一閾值,例如10個像素、幀寬度的10%、等等)。大量種類的其他技術(shù)可以備選地使用;這些技術(shù)僅是例證性的。在一個特定實施例中,移動裝置維持一數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)標識出相似的圖像幀。這可以與標識出每個群組的開始幀和結(jié)束幀的表格一樣簡單,例如
權(quán)利要求
1.一種使用處理圖像數(shù)據(jù)的配備有攝像機的便攜式裝置的方法,所述裝置由用戶攜帶,所述方法包括以下動作 執(zhí)行初始的一組多個不同的圖像處理操作;和 無需明確的用戶命令,在環(huán)境準許的限度內(nèi)調(diào)用額外的圖像處理操作; 其中所述裝置自發(fā)地行動從而滿足推斷出的或預(yù)見到的用戶需求。
2.如權(quán)利要求I所述的方法,包括存儲或者安排存儲由一個或更多所述圖像處理操作產(chǎn)生的數(shù)據(jù)對象,并且將與所述數(shù)據(jù)對象相關(guān)的語義聲明傳送給遠程的鏈接數(shù)據(jù)注冊系統(tǒng)。
3.如權(quán)利要求I所述的方法,包括辨別由所述圖像數(shù)據(jù)表示的景象內(nèi)的一個或更多視 覺特征,并且在所述裝置的屏幕上在與所述景象中的所述視覺特征相對應(yīng)的位置處呈現(xiàn)視覺小玩意。
4.如權(quán)利要求3所述的方法,其中所述小玩意的形狀為非矩形。
5.如權(quán)利要求3所述的方法,包括感測裝置屏幕上與一個或更多小玩意相關(guān)的用戶手勢,并且基于所述用戶手勢采取行動。
6.如權(quán)利要求5所述的方法,其中所述動作包括以下動作中的至少一個 Ca)向與一小玩意相關(guān)聯(lián)的功能分派更多或更少的處理資源,所述功能在感測所述用戶手勢之如已經(jīng)被啟動; (b)提早結(jié)束與一小玩意相關(guān)聯(lián)的處理,并存儲與之相關(guān)的信息,使得能夠辨別用戶偏好或行為模式; (c)至少暫時提前結(jié)束與所述裝置上的一小玩意相關(guān)聯(lián)的處理,同時在遠程處理系統(tǒng)中繼續(xù)相關(guān)處理; (d)編輯圖像以除去一個或更多特征; Ce)改變在所述裝置屏幕上呈現(xiàn)的圖像數(shù)據(jù)中的一個或更多特征的投影;和 Cf)定義由多個小玩意表示的實體之間的社會關(guān)系。
7.如權(quán)利要求3所述的方法,包括透視地扭曲至少一個所述呈現(xiàn)的小玩意,從而與在所述景象中辨別出的表面特征相對應(yīng)。
8.如權(quán)利要求3所述的方法,包括當一個或更多所述圖像處理操作朝著期望的結(jié)果前進、例如識別或鑒別出所述景象中的特征時,改變所述呈現(xiàn)的小玩意之一的亮度、形狀、或尺寸。
9.如權(quán)利要求I所述的方法,其中所述調(diào)用動作包括基于包括以下因素中的至少一個因素的環(huán)境來調(diào)用額外的圖像處理操作 (a)位置; (b)日時; (c)與一個或更多人的接近度; (d)基于所述初始的一組圖像處理操作的輸出;或者 (e)用戶行為的統(tǒng)計模型。
10.如權(quán)利要求I所述的方法,包括根據(jù)包括來自一個或更多所述圖像處理操作的結(jié)果的數(shù)據(jù)來推斷關(guān)于用戶期望的交互的類型的信息,并且基于所述信息來調(diào)用額外的圖像處理操作。
11.如權(quán)利要求I所述的方法,還包括將數(shù)據(jù)發(fā)送給遠程系統(tǒng),使得所述遠程系統(tǒng)能夠執(zhí)行一個或更多與所述裝置相同的圖像處理操作。
12.如權(quán)利要求I所述的方法,其中所述裝置自發(fā)地行動從而確定由所述裝置的攝像機成像的一組硬幣的價值。
13.如權(quán)利要求I所述的方法,包括基于指示一個或更多以下信息的數(shù)據(jù),從較大的第二組可能的圖像處理操作中選擇待執(zhí)行的第一組額外的圖像處理操作 (a)裝置資源利用率; (b)與不同的可能操作相關(guān)聯(lián)的資源需求;和 (c)不同的可能操作之間的對應(yīng)度。
14.如權(quán)利要求I所述的方法,包括辨別由所述圖像數(shù)據(jù)表示的景象內(nèi)的一個或更多視覺特征,并且把和每個這樣的特征相關(guān)的數(shù)據(jù)與對應(yīng)的標識符相關(guān)聯(lián)地存儲,其中所述標識符基于以下信息中的至少兩個 (a)會話ID; (b)明確的對象ID;和 (c)根據(jù)所述特征或根據(jù)相關(guān)環(huán)境取得的數(shù)據(jù)。
15.如權(quán)利要求I所述的方法,包括使用所述裝置中的非圖像傳感器系統(tǒng)來產(chǎn)生非圖像信息,并且將這樣的信息用于以下目的中的至少一個 Ca)影響對圖像處理操作的選擇;和 (b)在關(guān)于所述圖像數(shù)據(jù)的兩個或更多候選結(jié)論之間消除歧義; 其中所述非圖像傳感器系統(tǒng)包括地理位置系統(tǒng)、音頻傳感器、溫度傳感器、磁場傳感器、運動傳感器、和嗅覺傳感器中的至少一種。
16.如權(quán)利要求I所述的方法,還包括將所述圖像數(shù)據(jù)或來自一個或更多所述圖像處理操作的數(shù)據(jù)中的至少某一部分傳送給遠程計算機系統(tǒng),使得所述遠程計算機系統(tǒng)能夠繼續(xù)先前由所述裝置執(zhí)行的圖像處理,試圖搜集所述裝置在其處理中未能辨別出的信息。
17.一種鏈接數(shù)據(jù)方法,其特征在于,限制用戶訪問關(guān)于一物理對象的聲明的能力或者限制用戶做出關(guān)于一物理對象的聲明的能力,除非所述用戶與所述對象或者與先前做出這樣的聲明的另一用戶具有可證明的關(guān)系。
18.如權(quán)利要求17所述的方法,其中所述可證明的關(guān)系是,按照所述用戶攜帶的智能電話裝置中的傳感器系統(tǒng)所產(chǎn)生的數(shù)據(jù)指示出的那樣,所述用戶存在于所述物理對象的一定距離內(nèi)。
19.一種鏈接數(shù)據(jù)方法,其特征在于,基于由用戶攜帶的傳感器產(chǎn)生的數(shù)據(jù)檢查運動信息,并且在所述運動信息指示出所述用戶以限制性方式移動的情況下,限制所述用戶訪問與一物理對象相關(guān)的聲明的能力或者限制所述用戶做出與一物理對象相關(guān)的聲明的能力。
20.如權(quán)利要求19所述的方法,其中所述限制性方式包括以超過閾值的速度運動。
21.一種方法,包括以下動作 在操作的第一階段,從用戶的環(huán)境捕獲一圖像序列; 處理所述序列以識別所述序列中的特征并鑒別相關(guān)信息,所述處理至少部分地由所述用戶攜帶的便攜式裝置執(zhí)行;和 在跟隨在所述第一階段之后的操作的第二階段中,使用與所述便攜式裝置相關(guān)聯(lián)的輸出裝置將所述相關(guān)信息呈現(xiàn)給所述用戶。
22.如權(quán)利要求21所述的方法,包括以下動作中的至少一個 (a)識別所述序列的后面部分中的在所述序列的前面部分中無法識別出的圖像特征,并且使用來自所述后面部分的所述識別結(jié)果來識別所述前面部分中的特征;和 (b)對用戶手勢做出響應(yīng),從而向前或向后前進通過用至少一部分所述相關(guān)信息注釋的所述序列的至少一部分。
23.一種操作配備有磁性傳感器的智能電話的方法,所述方法的特征在于,感測由零售環(huán)境中的多個電磁發(fā)射器發(fā)射的磁性信號,并且基于所述磁性信號向用戶提供導航或產(chǎn)品信息。
24.一種基于傳感器的沿一路線的人力導航方法,包括以下動作 確定去往目的地的路線; 使用由用戶攜帶的電子裝置中的一個或更多傳感器來感測所述用戶沿著所確定的路線的進展;和 向所述用戶提供反饋以幫助導航; 其中所述反饋包括由滴答聲構(gòu)成的樣式,所述樣式隨著所述用戶朝向所述目的地前進而變得更頻繁。
25.如權(quán)利要求24所述的方法,其中所述反饋包括振動反饋。
26.如權(quán)利要求24所述的方法,包括根據(jù)所述用戶面向的方向來改變所述反饋,以幫助所述用戶確定前進的方向。
27.如權(quán)利要求24所述的方法,包括當所述用戶靜止不動時增大所述反饋的幅度,或者當所述用戶正在移動時減小所述反饋的幅度。
28.如權(quán)利要求24所述的方法,其中所述一個或更多傳感器包括產(chǎn)生指示其方向的輸出數(shù)據(jù)的磁力計,其中所述磁力計會由于所述裝置以某一取向被所述用戶攜帶而指示出偏離所述用戶面向的方向的方向,并且其中所述方法包括對所述偏離進行補償。
全文摘要
智能電話感測來自用戶環(huán)境的音頻、圖像、和/或其他刺激,并且自發(fā)地行動從而滿足推斷出的或預(yù)見到的用戶需求。在一個方面中,所詳述的技術(shù)涉及對手機的攝像機觀察到的景象進行基于手機的認知。應(yīng)用于所述景象的圖像處理任務(wù)可以參考資源成本、資源限制、其他刺激信息(例如音頻)、任務(wù)可替代性等因素從各種備選者中選擇。手機可以取決于圖像處理任務(wù)進行的成功程度或者基于用戶對圖像處理任務(wù)的明顯興趣而對所述任務(wù)應(yīng)用更多或更少的資源。在一些方案中,數(shù)據(jù)可以提交給云進行分析或進行搜集。適當?shù)难b置響應(yīng)的認知和識別可以由間接信息(諸如背景環(huán)境)輔助。也詳述了大量其他特征和方案。
文檔編號G06K9/00GK102741858SQ201080059621
公開日2012年10月17日 申請日期2010年10月28日 優(yōu)先權(quán)日2009年10月28日
發(fā)明者B.L.戴維斯, G.B.羅茲, G.B.肖, T.F.羅德里格斯, W.Y.康威爾 申請人:數(shù)字標記公司