用于數字視頻內容的交互式視點創(chuàng)作的方法及裝置的制作方法

文檔序號：6377325閱讀：1131來源：國知局

專利名稱：用于數字視頻內容的交互式視點創(chuàng)作的方法及裝置的制作方法
技術領域：
本發(fā)明涉及用于數字視頻內容的交互式創(chuàng)作、共享和分析的電子方法和系統(tǒng)。
背景技術：
目前已經提出并設計了用于捕捉全景數字影像并對全景數字影像進行交互式導航的各種系統(tǒng)。舉例而言，參見“FlyCam實用全景視頻(FlycamPracticalPanoramic Video)”，IEEE International Conference on Multimedia and Expo會刊第III卷第1419-1422頁(2000年8月)；Nalwa的第6,285,365號美國專利“由圖標定位的全景圖像顯示(Icon-Referenced Panoramic Image Display)”；及Teodosio等人的第6,121,966號美國專利“可導航的觀察系統(tǒng)(Nabigable Viewing System)”。
單獨地，還存在用于注解和共享傳統(tǒng)視頻“剪輯”或選錄的系統(tǒng)。例如，參見“VideoNoter一種用于探索性視頻分析的工具(VideoNoter ATool for ExploratoryVideo Analysis)”，Roschelle，Pea及Trigg，Institute for Research on Learning，Technical Report第17期(1990年)。
然而，至今人們卻幾乎沒有注意到這樣一種更大的需求-及機會即并置的或分散的用戶社區(qū)通過創(chuàng)建、注解、存儲和共享“視點式”可視媒體遍歷的永久記錄來創(chuàng)作和共享對多媒體內容的個人解釋的需求。此等記錄應忠實地捕捉作者在查看特定媒體內容時的獨特觀點(例如，記錄作者的查看經歷的空間焦點和定時)以及通過注釋、分類以及其他的注解符號形式為作者提供一種表達他或她對該媒體內容的解釋的載體。一種解決這一需求的有效解決方案應該提供能夠允許進行強有力的表達但又適用于并非技術專家的作者的充分集成的交互式設備。
此外，該解決方案應使作者能夠與一聯網的用戶社區(qū)共享其解釋，并同樣地使社區(qū)的參與者能夠根據特定媒體內容來發(fā)表其自己的注釋和觀點。此外，所需解決方案應支持使用戶能夠探測和量化所共享的媒體內容和注釋的重要性的分析工具。

發(fā)明內容
簡單地說，本發(fā)明提供用于對數字視頻內容進行交互式創(chuàng)作、共享和分析的電子方法及裝置。
在一方面中，本發(fā)明通過顯示可視數據、將每一遍歷界定為一基于時間的幀序列并注釋和存儲該遍歷的一記錄，來提供一種創(chuàng)作帶注釋的遍歷的交互式電子方法。當重復實施該方法時，該方法會創(chuàng)建復數個可能來自于不同可視源的所存儲遍歷。該可視數據較佳包括動態(tài)視頻、靜止影像、模擬影像/動畫影像、全景影像及/或活動影像。所述全景影像較佳包括使用復數個自一固定點朝向外部(或自一周邊朝向內部)的攝像機所捕捉的影像，以便各遍歷可反映一可由用戶調整的3D立體圖。所述注解較佳包括文本注釋、圖形符號、分類碼、元數據及/或音頻轉錄。所述分類碼是以交互方式選自可由用戶界定的碼模板。在另一方面中，所述所存儲的遍歷記錄可以被壓縮圖像數據的形式對所遍歷的可視數據進行編碼，或將所遍歷的可視數據編碼為一組界定所述遍歷的位置座標。
界定所述遍歷較佳包括通過相對于所述可視數據對一覆蓋窗口進行定位，以交互方式掃視所述數據；通過調整所述覆蓋窗口的大小進行放大或縮?。灰约按鎯λ霰闅v的一記錄。所述可視數據可以一矩形布局進行顯示；或者，另一選擇為，以一圓柱形布局進行顯示，其中所述覆蓋的位置由一位于所述圓柱中央的虛擬攝像機界定。此外，對所述覆蓋窗口進行定位可包括移動所述可視數據，而使所述覆蓋窗口保持固定或者，另一選擇為，移動所述覆蓋窗口，而所述可視數據保持固定。所述覆蓋窗口具有一較佳可由用戶選擇的幾何形狀。本發(fā)明的進一步的方面包括同時使用復數個獨立定位的覆蓋窗口來掃視所述可視數據。
在本發(fā)明的另一方面中，較佳使用一集成圖形界面來實施所述方法。所述圖形用戶界面較佳包括復數個計算機顯示區(qū)-包括一顯示所述可視數據的概覽區(qū)、一在所述覆蓋窗口內顯示當前數據的細節(jié)區(qū)及一顯示一由所述復數個所存儲的帶注解遍歷記錄構成的列表的工作表區(qū)。所述細節(jié)區(qū)以一高于所述概覽區(qū)的放大率或分辨率來顯示數據。該放大率或分辨率可由用戶控制，或由對用戶帶寬連接性或其他與性能相關的量度敏感的網絡服務來使能。通過以交互方式選擇其中一個遍歷記錄，例如通過將一對應于所選記錄的圖形元素從所述工作表拖放至所述細節(jié)區(qū)上，啟動所選存儲記錄在所述細節(jié)區(qū)中的重放。本發(fā)明的進一步的方面包括指定一復合遍歷記錄，即復數個所存儲的遍歷記錄的一組合。重放所述復合遍歷記錄包括相鄰地顯示所組合的各遍歷記錄?？赏ㄟ^選擇一源記錄、關閉所有音頻及/或為每一記錄指定一相對音頻成分，來指定所組合的各遍歷記錄的音頻成分。在另一方面中，在一可使用一標準HTML瀏覽器通過網絡訪問的文檔中公布由帶注解的遍歷記錄構成的工作表區(qū)列表。
在一實施例中，使用一用于以交互方式創(chuàng)作可視數據的帶注解遍歷的遙控數字電子裝置來實施本發(fā)明。所述裝置包括一用于顯示可視數據的第一顯示器件及一與所述第一器件進行通信的手持式遙控器件。所述遙控器經配置用于控制圖形交互作用，所述圖形交互作用界定所顯示的可視數據的遍歷、注解和存儲帶注解遍歷的一基于時間的記錄。界定所述遍歷包括通過相對于所顯示的可視數據對一覆蓋窗口進行定位來掃視所述可視數據，及通過調整所述覆蓋窗口的大小來進行縮放。
本發(fā)明進一步提供一種用于創(chuàng)作可視數據及相關聯的空間音頻數據的遍歷的交互式電子方法。所述方法包括顯示所述可視數據；以交互方式界定所述數據的一遍歷，即一基于時間的幀序列，其中每一幀均包括所述可視數據的一空間子集；以及存儲所述遍歷的一記錄，包括與每一幀中的可視數據相關聯的空間音頻數據。所述可視數據和音頻數據較佳包括對一情景的視聽記錄。所述可視數據也可包括對位置的描繪，且所述音頻數據也可包括對來自所述位置的聲音的記錄。舉例而言，可視數據可描繪一音樂廳或一會議室，而所述空間音頻可包括對所述音樂廳中的音樂或對所述會議室中的談話的記錄。另一方面包括通過轉錄所述記錄中所包含的空間音頻數據來對所述遍歷記錄進行注解。
在另一實施例中，本發(fā)明提供一種用于通過公布(較佳作為一網頁)一由遍歷記錄和注解構成的列表來共享用戶對可視數據的觀點的系統(tǒng)和方法。公布在因特網聯網或一專用內聯網上的網頁較佳提供一用于顯示所選遍歷的區(qū)域。瀏覽或訪問公布頁面的用戶可以交互方式選擇遍歷用于重放，并以交互方式向所述頁面添加注解以供他人查看?？蓪γ恳蛔⒔膺M行編碼(例如，用顏色或陰影以及用名字)，以表明其作者。在另一特征中，所列遍歷記錄包括至少一個復合遍歷記錄(指定一遍歷組合)；根據此特征，重放較佳包括以并排窗格或以窗口中的窗口的格式相鄰地重放相應復數個遍歷的內容。在又一特征中，還公布所述注解的一索引，所述索引可通過一網絡瀏覽器查找。此類索引可提供縮略圖或動態(tài)圖像表示以作為所注解的媒體項的替代物。此特征允許檢索和訪問一個列出那些與在所述查找中指定的注解相關聯的遍歷記錄的網頁。
在另一方面中，本發(fā)明提供一種使用復數個遍歷記錄對可視數據進行交互式電子探測和分析的方法。所述方法包括顯示一抽象映像；在所述映像上相應的復數個位置上繪制復數個標記一每一標記均對應于一遍歷記錄；并響應于選擇所述標記而重復所述遍歷。舉例而言，所述抽象映像可代表來自所述可視數據的一景物的輪廓，其通過使用邊緣檢測算法自動產生，在此種情形中，可根據在每一相應的遍歷記錄中所捕捉的影像的空間位置以邏輯方式繪制所述標記?；蛘?，所述抽象映像可代表一曲線圖，該曲線圖的軸線度量一個或多個為所述存儲記錄指定的注解數據值，在此種情形中，可根據為每一相應遍歷記錄指定的特定注解值以邏輯方式繪制所述標記。在本發(fā)明的又一方面中，使用一圖形用戶界面來實施所述方法，該圖形用戶界面包括一具有一由遍歷記錄和相關注解構成的列表的工作表區(qū)。在這一方面中，所述方法進一步涵蓋在所述抽象映像內以交互方式選擇一空間區(qū)域(例如借助一滑動條)以及響應于此而在所述工作表內顯示一由與那些位于所關心空間區(qū)域內的標記對應的遍歷記錄構成的經過濾的列表。

圖1為一流程圖，其根據本發(fā)明一較佳實施例圖解說明一用于創(chuàng)作可視數據的帶注解的“視點”遍歷的方法。
圖2A根據一矩形實施例圖解說明一用于界定視點遍歷的圖形用戶界面。
圖2B根據一圓柱形實施例圖解說明一用于界定視點遍歷的圖形用戶界面。
圖3圖解說明一用于查看復合遍歷記錄的圖形用戶界面。
圖4圖解說明一用于為一遍歷記錄指派分類代碼注解的圖形選擇模板。
圖5是一流程圖，其圖解說明一種公布并與一網絡社區(qū)的成員共享可視數據的帶注解的“視點”遍歷的方法。
圖6為一流程圖，其圖解說明一種使用數據映像來探測和分析可視數據遍歷的方法。
圖7圖解說明一使用數據映像來探測和分析可視數據遍歷的圖形用戶界面的一實施例。
圖8圖解說明一使用數據映像來探測和分析可視數據遍歷的圖形用戶界面的又一實施例。
圖9圖解說明一使用數據映像來探測和分析可視數據遍歷的圖形用戶界面的又一實施例。
圖10描繪一從具體到抽象呈現的用于探測和分析可視數據遍歷的信息工作流。
圖11圖示一用于實施本文所述較佳實施例的數字電子裝置的網絡。
圖12圖解說明通過“內容循環(huán)”來傳送“元內容”數據包的現有技術。
圖13圖解說明用于適應性速率多服務和外邊緣內容高速緩存的現有技術架構。
具體實施例方式
現在將參照附圖來詳細說明本發(fā)明的較佳實施例。出于本發(fā)明的目的，可視數據通常包括任一形式的數字圖像數據，包括動態(tài)視頻、靜止影像、模擬或動畫影像、全景影像及活動影像-均帶有或不帶有伴隨的音頻通道。
A.創(chuàng)作圖1為一流程圖，其根據本發(fā)明一較佳實施例圖解說明一用于創(chuàng)作可視數據的帶注解的“視點”遍歷的方法。圖2A根據一矩形實施例圖解說明一用于界定視點遍歷的圖形用戶界面。大致地說，所述創(chuàng)作過程由從可視數據中以交互方式選擇一組剪輯的空間和時間選擇、以及在所述工作空間中對其進行標記組成。我們在本文中將這種交互式選擇稱為遍歷。
在100中，在概覽窗口210中顯示可視數據，從而提供整個景物的一概覽。概覽210可與一標準視頻流、靜止圖像或動畫相關聯，或者可利用一視頻景物的全景360度表示法。對于線性視頻，概覽210將顯示一自原始視頻記錄創(chuàng)建的標準43長寬比的視頻流，其中所述景物上的一矩形覆蓋200對應于一對準該特定景物區(qū)域的虛擬攝像機的視野的經剪輯的空間區(qū)域。對于所描繪的全景視頻，概覽210(也稱為“全景概覽”)顯示一自原始圓柱形視頻記錄創(chuàng)建的脫殼(peeled back)的圖像。該全景圖像上的矩形覆蓋200對應于一對準所述特定景物區(qū)域的虛擬攝像機的視場。在兩種情形下，細節(jié)窗口200均較佳提供“攝像機視野”-由概覽210內的矩形覆蓋200的邊界所界定的一更高分辨率圖像。這種更高分辨率較佳可由用戶調整，或者可由對用戶帶寬連接性及/或其他與性能相關的量度敏感的網絡服務來實現和調整。如下文所要進一步論述，工作空間230提供一用于注解和組織選自所述景物的視頻和音頻遍歷的靈活環(huán)境。
在110中，覆蓋窗口200以交互方式定位于在窗口210中顯示的可視數據的一指定的空間子集上。在120中，覆蓋窗口由用戶以交互方式調整大小，以在所選可視數據上“放大”或“縮小”。任務110和120是根據用戶需要而隨時間重復實施，而100中的可視數據則是連續(xù)顯示。用戶由此遍歷可視數據的一所需空間和時間子集。舉例而言，如果所述可視數據包括視頻數據，則通過根據每一當前視頻幀內所特別關注的內容將所述覆蓋窗口定位到200并確定200的大小，所述用戶實際上可創(chuàng)建“電影中的電影”。我們在本文中有時會提及將這種遍歷定義為“視點”創(chuàng)作，因為在每一遍歷中均反映作者/用戶對可視數據的獨特的和個人的視覺觀點。
就全景可視數據而言，創(chuàng)建有效的導航界面為計算機成像和用戶界面設計帶來挑戰(zhàn)和機遇。一方面，全向攝像機可為用戶提供對整個現實世界空間的360度表示(從一單個節(jié)點)。另一方面，用于創(chuàng)建全景概覽的光學裝置會在圖像中引入投影失真(變形)，從而限制其作為一信息圖像的有效性(例如，參見Foote&Kimber 2000)，當用戶需要抽取關于景物中的空間布局、人的位置及身體取向的精確信息時尤其如此。舉例而言，考慮對于一全景概覽而言回答下列問題的難度景物的空間布局是何種布局？哪個方向是前向及后向？左向及右向？各演員彼此離多遠？另一方面，也許存在其他種類的其中所述概覽中的空間失真將不會妨礙信息抽取的任務。舉例而言，一全景概覽很可能將允許用戶回答例如以下等問題誰講了什么？他們何時講的？他們這樣講時的狀態(tài)加何(關于非口頭姿勢、面部表情、身體位置、聲音語調等的信息)？有趣的是，當前用于產生全景概覽的方法可能非常缺乏空間定向力，以致于人們發(fā)現其令人迷惑，無論該任務是否涉及抽取在空間上精確的信息。
考慮到空間定向，圖2B圖解說明具有用于查看和遍歷全景數據的特定值的一本發(fā)明替代實施例。我們將此實施例稱為“旋轉罐”查看。此處，并非將一圓柱形全景圖像脫殼，而是將所述圖像映射到一圓柱或圓筒210上，用戶可將該圓柱或圓筒210圍繞其豎直和水平軸線旋轉，以便檢查其內容。舉例而言，通過在所述圓筒210中央顯示一攝像機圖標260并使用攝像機260的視場界定覆蓋窗口270，可向用戶更清楚地顯示所述觀察圖像是如何形成的及所述攝像機聚焦于所述景物的哪一部分上。通過旋轉所述攝像機或圍繞所述攝像機的圓筒，可在細節(jié)窗口220(其未在圖2B中顯示)中顯示經矯正的部分圖像270。此界面可使用戶更容易理解前/后、左/右取向以及物體在所述景物中的相對位置。
在一較佳實施例中，可視數據包括使用復數個圍繞所述景物并且朝內的攝像機捕捉的全景景物數據。如實踐者所將認識到，這使遍歷能夠反映一經用戶調整的3D立體圖，從而尤其能夠使導航看到原本從一特定攝像機角度看不到的隱藏物體。
在130中，用戶較佳使用圖2A所示的圖形用戶界面對遍歷進行注解，以添加包括自由文本注釋250(a)和分類碼250(c)在內的注解。如在圖4中所描繪，分類碼250(c)為選自一編碼模板菜單400中的預定義的標簽。此特征使用戶能夠根據一支持后續(xù)數據分析(舉例而言，如下文結合圖6-10所述)的統(tǒng)一的分類學對遍歷進行迅速分類。較佳地，分類標簽編碼模板400可由用戶自定義。在另外的實施例中，遍歷注解較佳包括對與每一遍歷中所記錄的視頻(其如果尚不能以電子形式得到，則可使用傳統(tǒng)的語音識別技術自動產生)相對應的音頻250(b)的轉錄以及描述遍歷段的“元數據”250(d)，例如(但不限于)角色名稱、景物名稱、時間/日期，等等。
在140中，存儲所述帶注解的遍歷的一永久記錄，以供將來參考和研究，包括網絡公布和分析(將在下文中根據圖5-10來詳細闡述)。對許多實踐者和應用而言，圖1所示的方法將重復實施，從而產生復數個帶注解的遍歷記錄。圖2A中的工作表區(qū)230顯示此等記錄的一交互式列表。這樣，列240以一代表性縮略圖標識每一遍歷，列250(a)-(d)顯示相關聯的注解。舉例而言，視頻縮略圖可包括靜止圖像、全景縮略圖或動作預覽。
注意，對于圖2A和圖2B二者的實施例，通過使覆蓋窗口200保持固定而移動概覽窗口210或者使概覽窗口210保持固定而移動覆蓋窗口200來將覆蓋窗口200相對定位，可遍歷概覽窗口210中的可視數據。這兩種技術是等效的，其均屬于本發(fā)明的精神和范圍內；實踐者可根據特定應用的詳情來選擇一種方法。
在150-170中，用戶可重放一記錄遍歷的內容。在150中，用戶從在工作表區(qū)230中顯示的列表中以交互方式選擇一存儲遍歷。在一較佳實施例中，可用的選擇機制包括使用鼠標或其他光標控制器件來將一縮略圖從對應于所需遍歷記錄的列240“拖放”至細節(jié)窗口220上。較佳地，這使細節(jié)窗口220以及概覽窗口210復位到所選遍歷序列開始時的適當的幀。較佳地，通過點擊屏幕視頻控制區(qū)215上的“播放”按鈕來啟動在窗口210和220中的遍歷的重放170。
如果所選遍歷為一復合遍歷，即由用戶指定的一個以上存儲遍歷的復合，例如圖3所示的復合遍歷320，那么重放170較佳包括同時和相鄰地重放多個遍歷記錄，例如以并排窗格340的形式或以窗口中的窗口的形式。當所述復合遍歷包括音頻通道時，在160中為重放170指定一合適的音頻混合。所述混合可較佳是一收聽一個遍歷而使其它遍歷無聲的用戶選擇；或使所有音頻均無聲的選擇；或是由用戶選擇的相對衰落(例如使用屏幕上的滑動條來指定)，從而突出復合遍歷中的一個所需遍歷，且不完全使其它遍歷無聲。
附帶注意圖3所示的變化，其中將細節(jié)窗口220顯示為一與工作表區(qū)230重疊的“彈出”窗口，而不是象在圖2A和2B中一般顯示為一與覆蓋窗口210相鄰的固定區(qū)域。實踐者易知，視特定應用的需要和喜好而定，可具有此種變化及其他類似性質的變化，這些變化都屬于本發(fā)明的精神和范圍內。
在某些應用中，可使用一單個工作表區(qū)230來列出和組織來自一個以上源的可視數據的遍歷。舉例而言，此可適用于對不同電影中的相似景物或不同景物和視頻中一單個演員或個人的行為進行比較和對比。
在一針對某些應用的較佳實施例中，一包括空間音頻數據的音頻通道與正被遍歷的可視數據相關聯。舉例而言，正被遍歷的數據可包括一景物的視聽記錄；或者，所述可視數據可包括對一地點的描繪，例如一音樂廳、會議室或講堂的圖像，而相關聯的音頻數據包括對所述音樂廳中的音樂、所述會議室中的談話或所述講堂里的演講的記錄。
如相關技術領域的實踐者所知，空間音頻通常是例如通過在要錄音的地點配備多個麥克風并對合成立體聲數據進行適當的信號處理來捕捉。
作為本發(fā)明的一個優(yōu)點，包括空間音頻數據的實施例較佳隨每一遍歷記錄一起存儲與用戶在整個景物內所遍歷的空間區(qū)域相關聯的音頻數據。舉例而言，一較佳實施例允許用戶以交互方式界定多個離散的空間聲區(qū)，例如通過在概覽窗口210(未顯示)內以圖形方式設置“虛擬麥克風”圖標。隨一特定遍歷一起存儲的音頻數據于是將在所述遍歷的每一幀處反映可在與該特定幀的空間位置相關聯的音區(qū)內聽到的適當聲音。在本發(fā)明所實現的另一特征中，可通過對包含在所述記錄中的空間音頻數據進行轉錄來對所述遍歷記錄進行注解(如上文結合圖1的任務130及圖形界面區(qū)域250b所述)。因此，僅轉錄在空間上相關的音頻可濾除不相關的全局噪聲并提供幾個優(yōu)點。舉例而言，由于濾除了來自其他扇區(qū)的無關噪聲，因此提高了自動語音識別的精確度。同樣，如果產生轉錄，則其將包含僅著重于相關空間內的言辭的可查找文本數據，從而使文本查找更具效率和有效。
B.共享和協作1.網絡公布圖5是一流程圖，其圖解說明一種公布并與一網絡社區(qū)的成員共享可視數據的帶注解的“視點”遍歷的方法。在500中，我們從一帶注解的遍歷記錄列表開始。所述列表可例如使用在本文中結合圖1-4所述的方法和裝置、具體而言使用在工作表區(qū)230中產生的內容來創(chuàng)建。在510中，將此列表作為一網絡文檔或網頁進行公布；較佳地，如所屬領域的技術人員在其他相關背景中所知，較佳提供輸出實用程序來利于進行或為用戶自動進行此過程。所述網頁較佳公布在公用網絡上，例如因特網或專用企業(yè)內聯網上，此視應用性質而定。在515中，由其他用戶通過網絡、較佳使用標準網絡瀏覽器來訪問所述網頁。在520中，訪問所述網頁的用戶以交互方式從所顯示的列表中選擇一所關心的遍歷記錄(例如通過“點擊”該記錄)。作為響應，在530中，通常在網頁的一指定區(qū)域中或者在一彈出式播放窗口中，為用戶重放與所選記錄相對應的遍歷數據。
在網絡用戶查看一遍歷后，可鼓勵所述網絡添加他或她自己關于該遍歷內容的注解。在這種情況下，在540中，所述網絡用戶以交互方式輸入一新的補充注解，并在550處，通過網絡以交互方式將新的注解提交給主持所述網頁的服務器。如實踐者在其他上下文中所熟知，所述網頁較佳利用交互式聯機形式技術以此種方式捕捉新的注解。在560中，所述服務器將所述新的注解添加到所公布的網頁上，并將其作為該頁面的一部分顯示給隨后訪問該頁面的所有網絡用戶。
在本發(fā)明的較佳實施例和應用中，進一步使網絡用戶能夠形成反映共同興趣的社區(qū)和子社區(qū)。(注意我們在本文中有時將本發(fā)明的一實施例稱為一DIVERTM系統(tǒng)，其代表數字交互式視頻探測與反映(Digital Interactive VideoExploration and Reflection)技術，并將所存儲遍歷的一工作表列表230稱為一DIVETM工作表。))舉例而言，本發(fā)明的較佳系統(tǒng)可記錄并向網絡用戶公布所共同感興趣的使用數據，例如最流行的DIVE、最近張貼的DIVE、最近誰訪問過、現在誰在DIVE等。用戶可較佳定閱關于新公布的DIVE或DIVE更新的電子郵件通知，并且在選擇(使用頁面中的HTML定位符)所述電子郵件消息中的一鏈接時，可在515中直接瀏覽一特定的所公布工作表230內的一指定的或突出顯示的窗格。
較佳網絡實施例的進一步特征包括一“HyperDiving”能力，其使所公布網頁中的工作表230表項(例如注解區(qū)250)能夠直接超級鏈接至諸如下列等參考材料類型·現有的視頻DIVE；·另一所公布的DIVE工作表；·網絡URL(即一網頁或一網絡文檔引用)；及，·所加載的文檔(在此種情況下，將較佳為創(chuàng)建此種鏈接的用戶提供一界面，以瀏覽用戶的本地目錄并選擇和向服務器加載一文件，然后，該文件即與所述超級鏈接相關聯)。
在針對協作性網絡應用的較佳實施例中，用戶可使用諸如“公眾”(全部注冊的和非注冊的用戶)、“全部注冊的”(全部注冊用戶)及個別和共同界定的用戶和群組的特定組合等訪問方法，為DIVE設定訪問控制。較佳可賦予不同類別的DIVER用戶適當類別的權利和特權，這些權利和特權包括“全權”(用戶可創(chuàng)建和修改DIVE)、“查看和注解權”(用戶只能查看和注解DIVE)及“只查看”(用戶只能查看DIVE及其注釋；用戶不可以添加注釋)。舉例而言，可能非注冊用戶應全部為“只查看”。
2.網絡視頻分發(fā)問題在因特網上傳送數字視頻在某種意義上已在所屬領域中眾所周知和簡單易懂，但要實現不變的高性能可能極具挑戰(zhàn)性。文件會很大，查看者偏愛高質量和高性能，實時要求很高，管道仍然狹窄-且因特網常常不可靠、擁擠、慢且易于崩潰。可靠的協議(即FTP、HTTP和TCP)可保證傳送，但可能遭受無法接受程度的等待時間和延遲，而且無法保證及時的數據傳送。不可靠的協議(例如UDP或RTSP)可提供更快的性能，但可能遭受數據丟失，并因而導致接收器側的內容不完整。視頻壓縮算法可減少帶寬，但會相應地降低質量。不僅限于回放地對數字視頻進行處理-包括創(chuàng)作、共享、協作及專門的交互作用，是一極大的挑戰(zhàn)，對于復雜問題而言，在處理用于創(chuàng)作、交互作用、協作和傳送的全景的超高帶寬視頻時，這些對于傳統(tǒng)線性視頻內容即已非常嚴重的問題會以指數方式變得更加困難。
幸而，存在很多種在因特網上處理數字視頻的方法，而且這一前景發(fā)展迅速。的確，在該技術前沿上經常出現管理視頻的新方案，并經常出現形成新的視頻創(chuàng)新的機會。由于本發(fā)明的許多應用和實施例可受益于數字視頻內容在因特網上的高性能傳輸，因而本節(jié)對當前的和新興的技術選項進行綜述，以供實踐者在該上下文中考慮(a)流式視頻算法。視頻流式算法和協議的新方法，包括可適合于根據本發(fā)明獨有的特性來傳送視頻的專門算法。
(b)視頻文件傳輸協議。此種解決方案類型包括使用基于軟件的文件傳輸協議的技術方法，包括查看用于諸如對等傳輸和多點傳輸(通常為無狀態(tài)性質)等高速因特網文件傳輸的“下一代協議”。
(c)媒體分發(fā)方法。存在媒體計算、存儲和分發(fā)方法，其可用于提供增強的性能，例如內容高速緩存和復制、聯合服務器和數據庫、網格計算和專用超高速網絡等。
(d)視頻壓縮算法。此種解決方案類型包括視頻壓縮算法。此視頻壓縮算法查看MPEG2國際視頻壓縮標準的替代方案和發(fā)展路徑。
注意我們在下文中有時將本發(fā)明的一實施例稱為DIVERTM(代表數字交互式視頻探測與反映(Digital Video Exploration and Reflection)技術)，并將所存儲遍歷的一工作表列表230稱為一DIVETM工作表。
(a)流式視頻算法在數字視頻領域中，存在很多種眾所周知的流式媒體技術。然而，這些流式算法均未設計成滿足本發(fā)明的獨特要求。為了本文說明的目的，將設計成滿足本發(fā)明的特殊要求的新的類型的流式算法稱為DIVER流。為處理DIVER流，流式算法應較佳能夠解決媒體的甚高帶寬性質、并行流表示(概覽和虛擬攝像機)、線性及/或全景視頻特性、以及如下要求提供對虛擬攝像機電影的時空隨機訪問，以便能夠在空間和時間上縮放和掃視所述景物顯示。下面介紹若干備選方法。
(i)自適應多分辨率提出一種自適應多分辨率存儲和網絡化訪問方法來處理DIVER流，其中所述流能適應可用網絡帶寬和CPU能力?？衫靡浑娪啊盎緦Α?具有一適度分辨率的概覽電影和更高分辨率虛擬攝像機電影。從所述高分辨率基本對得到的其他電影以越來越低的分辨率存儲，從而實質上形成一“圖像金字塔”，即一具有不同分辨率的圖像堆疊(Ramella，2001年)。此方案能夠適應可用帶寬和CPU能力(借助一反饋機構)以確定用于重放的分辨率水平。有人提出根據對網絡帶寬的實時監(jiān)控和桌面CPU性能測量來使用“金字塔分辨率轉換”。
(ii)壓縮數據二次抽樣提出一種壓縮數據二次抽樣方案來允許對壓縮的高分辨率虛擬攝像機電影進行時空隨機訪問，以在進行中產生壓縮的、經過時空剪輯的虛擬攝像機數據流。雖然視頻壓縮會降低存儲和網絡成本，但會提高處理要求，因為數據在處理之前必須解壓縮。解壓縮的開銷非常大壓縮算法(例如JPEG或MPEG)要求每一像素150到300個解壓縮指令，相當于所處理的質量視頻的每一NTSC秒的27億個指令。數據在處理后必須壓縮，此會顯著增加開銷。在解壓縮后處理視頻被稱為空間域處理，這是最常使用的方法。避免這些問題的一種方法是直接以視頻數據的壓縮形式處理視頻數據(Smith 1993年，Arman 1993年)，此會減少處理所需的數據量，并減少復雜且費時的壓縮和解壓縮循環(huán)。這種方法被稱為壓縮域處理，它將空間域處理轉換成其頻域的等效處理。通過如下方式對壓縮的數據進行處理對壓縮的位流進行熵譯碼以在頻域中恢復稀疏向量數據，應用一個或多個壓縮域運算符，并對結果進行量化和壓縮。注意，可對壓縮數據格式、以頻率空間或其他編碼表示形式實施壓縮域處理。
在所提出的方案中，將使用一種能在壓縮域中支持處理和視頻景物二次抽樣的DIVER視頻的壓縮表示形式。此可用于幀間或幀內視頻算法。當在服務器處應用該方法時，該方法將在壓縮的數據流內選擇感興趣的剪輯的時空視頻流區(qū)，并且只隨壓縮的概覽電影一起為虛擬攝像機路徑傳輸對應的壓縮流。一種更大程度地使用客戶機的替代方法是隨界定虛擬攝像機路徑的矩形的空間和時間坐標一起傳輸壓縮的全分辨率虛擬攝像機視頻，然后在客戶機側選擇并解壓縮所述電影的適當區(qū)域。推薦使用服務器側方法，因為其更具前景，但確實要求進行大量的服務器處理。
(iii)逐漸改良提出一種逐漸改良的方案來在用戶與所述DIVE交互作用時提供分辨率隨時間逐漸升高的DIVER視頻影像。所述逐漸改良概念(Cohen 1988年)起源于用于使用輻射通量密度算法來逐漸地迅速渲染復雜3D景物的計算機圖形領域。在DIVER情形中，而是使用一類似機理將逐漸改良應用于數字視頻流。此方法也可以結合上文所述的多分辨率算法使用。在此種情況下，將首先傳輸所述圖像金字塔的最低或較低層，接著傳輸所述金字塔的后續(xù)層。將使用標準內插算法將所述金字塔的一層添加到下一層，并且如果需要，產生若干中間金字塔層。首先發(fā)送所述景物的最低分辨率版本作為一起點并將其用于產生所述概覽電影和所述虛擬攝像機。在用戶與所述電影隨時間交互作用期間，將分辨率逐漸提高的視頻傳輸至客戶機。隨著所述用戶與一特定視頻DIVE的交互越來越多，所述視頻的顯示質量也越來越高。
(iv)服務器側再壓縮提出一種服務器側再壓縮方案來允許創(chuàng)建傳輸中的所剪輯時空虛擬攝像機電影的實時壓縮版本。通過此種方法，在服務器上將高帶寬高分辨率虛擬攝像機原作解壓縮。使用一圖像尺寸減小和過濾過程來減小分辨率并在服務器處產生未壓縮的視頻。所述未壓縮的視頻以一更低的分辨率受到再壓縮并以一壓縮形式傳輸。本方案既可用于概覽又可用于虛擬攝像機。此模型在需要時起作用并且將需要能夠在用戶正查看許多DIVE時處理許多并行的再壓縮。此方法將有可能只用于其中在服務器層上有極高性能的分布式和并行處理陣列可供用于視頻變碼(解壓縮和再壓縮)的情況下。
(v)凹顯示提出一種“凹點”概念(Chang及Yap，1997年)，以在虛擬攝像機和概覽電影中所關心的區(qū)域中提供高分辨率。所述凹點概念模仿人眼的行為?？梢暬饕且环N“心理生理現象”。這一事實可用來解決當前可視化研究中的挑戰(zhàn)。生物視覺的一關鍵事實是其使用“凹的圖像”，在這類圖像中，在凹處的分辨率遠遠高于外圍的分辨率。與標準圖像相比，這些種類的圖像明顯具有極小的數據密度。為對不均勻的分辨率進行調整，必須向查看者提供新程度的“有效控制”(Chang，Yap及Yen，1997年)。在針對DIVER提出的方案中，將有一個用于所關注區(qū)域(剪輯的時空區(qū))且覆蓋一粗粒度的“大圖片”的高分辨率聚焦的虛擬攝像機圖像(在一高級實施方案中，該概念可與眼睛跟蹤結合使用，以根據引起人睛興趣的區(qū)域來精確地提供分辨率)。
(b)文件傳輸協議(i)標準協議HTTP、HTTPS、FTP、WebDAV-這些是當前在因特網上用于文件傳輸和共享的若干標準協議。這些協議和系統(tǒng)均可用于傳輸、共享和分發(fā)大的媒體文件。這些協議最大的優(yōu)點是其無處不在，而最大的缺點是其缺少對增強媒體內容的高性能傳送的特定支持。
(ii)下一代協議FTP(“文件傳送協議”)是在20世紀70年代初作為一在因特網上傳輸文件的協議開發(fā)而成。此標準在客戶機與服務器之間建立一對話，其中數據被分離成信息包并以小的網絡數據包形式傳輸。在典型的數據包丟失和往返時間(RTT)中，FTP通常在擁擠和延遲的環(huán)境下運行。一旦網絡丟失和延遲達到一定限度，對數據傳輸而言，增大帶寬的益處可能極小甚至毫無益處，即使在甚高速鏈路上，數據傳輸率也無法超過一相當低的閾值，從而導致這些鏈路上的效率非常低。FTP因其無處不在而頗為有用，但在用于當前因特網上所需的大文件尺寸傳輸類型時，當數據包丟失增加時，其效率可能非常有限。
最近出現了使用許多種不同的獨特方法來處理與FTP協議的低效率相關的主要根本原因的創(chuàng)新解決方案。現在可得到一組據說“可提供TCP的可靠性和UDP的速度”的新協議；這些方案可比FTP明顯改進，其量化的速度提高量的范圍為5X到10X或更高。
一種特別引起注意的方法是MetaContent方法(Digital Fountain，2002年)，在本文中將其稱為內容循環(huán)(Content cycling)方法，其中內容是以一與順序無關的方式傳輸。如圖12所示，Digital Fountain的數據分發(fā)技術與傳統(tǒng)文件服務器或傳輸協議的數據分發(fā)技術根本不同。該架構由一Digital Fountain服務器、一Digital Fountain客戶機和一叫做“MetaContent(元內容)”的專利概念組成，其中使用數學“比喻”在接收器處重新構造數據。使用MetaContent，將數據作為一“與順序無關”的信息流來接收，此信息流類似于多點傳輸視頻流。包含獨立產生的Meta-Content(元內容)的數據包完全可互換，且接收器可隨時接入數據“源泉”。所述Fountain客戶機接收哪一Meta-Content以及以什么樣的順序接收并不重要。只有所接收的獨立產生的Meta-Content的數量才能決定何時可重新構造原始內容。因此，如果包含Meta-Content的數據包在傳輸中丟失，則在隨后接收的數據包中所包含的任何相等數量的Meta-Content剛好可用于重新構造原始內容。在此種情形中，并非如大多數傳輸協議一般實施嚴格的順序性數據傳送，而是利用循環(huán)的重復性數據方案。
與例如FTP等標準協議相比，使用Digital Foutain可使傳輸速度得到顯著提高。在通常情況下，與FTP相比，傳輸速度通常提高2.5X到5X或更高，并且可以高達2至3個數量級。另外，在某些情況下，Digital Fountain可提供高達95％的鏈路利用率。擁塞流量控制可確保對其他網絡通信量的公平性，而且此方案使用一小的(若干兆字節(jié))的存儲器使用量。Digital Fountain要求所有數據接收方使用專有客戶機側軟件以及在服務器側上使用Transporter Fountain。為使用Transporter Fountain平臺，必須購買一服務器許可證。Digital Fountain使用UDP協議，這可能要求媒體用戶的IT或網絡部門進行防火墻配置工作。雖然DigitalFountain的優(yōu)點可能很大，但其優(yōu)點會根據網絡速度、等待時間和跳躍次數而對上下文非常敏感；實踐者應留心查看此功能的潛在應用，以保證其只用于適當的情況下。
(c)媒體分發(fā)(i)內容高速緩存DIVER工程可考慮許多種內容高速緩存方法來提高終端用戶的視頻性能。DIVER組可使用其自身的開發(fā)資源開發(fā)一組方法。這可能包括用于使用一同步算法將視頻內容從一中央DIVER服務器復制到區(qū)域DIVER服務器的獨特機理，以將經常被訪問的視頻DIVE內容分發(fā)到一由DIVER服務器構成的分布式局部網絡。當一用戶請求所述內容時，可將其指引到滿足所規(guī)定標準(即通信量最少、負荷最小、位置最近或這些量度的組合)的最近的DIVER服務器。另一選擇將是采用市售內容高速緩存產品(Vichare，2002年)。一附加選擇將是將一內部開發(fā)的高速緩存模型與市售高速緩存產品相結合。
目前，內部網和因特網上的終端用戶正使用內容聯網產品(由例如Inktomi、Akamai、CacheFlow、Cisco、Network Appliance等供應商提供)來提高對豐富內容的查看和交互性能。這些產品為以一可縮放的、可靠且安全的方法傳送靜態(tài)內容、流式內容及動態(tài)內容提供基礎結構。高速緩存的要素包括在網絡邊緣處靠近終端用戶存儲的內容，以提高性能并使上游帶寬最小化；內容選路，其對內容進行選路以創(chuàng)建一內容位置目錄，網絡和服務器負荷使用所述目錄將請求選路到最佳的數據中心或提供最近的內容；及內容分發(fā)和管理，其是將靜態(tài)內容、動態(tài)內容和流式內容積極、智能地從任一起始點分發(fā)到網絡邊緣。為了便于在網絡上存取，一高速緩存器件智能并迅速地選擇和存儲Web數據。更頻繁被請求的內容是存儲在網絡上，從而大大減輕Web服務器和防火墻的負擔。因此，網絡可更快地滿足對網頁和增強媒體內容的請求。高速緩存器件用于三種不同的情景中其可以“反向高速緩沖存儲器”形式位于網路服務器前面，以減小服務器負荷和加快站點性能；其可以“正向高速緩沖存儲器”形式位于一企業(yè)LAN面向WAN的位置處，以減少WAN上的通信量；其可沿著一ISP的或運營商的主干線駐存于許多個“分布式高速緩沖存儲器”點上，以減少沿著傳送路線的通信量。
實踐者可對可供用于在分布式環(huán)境中優(yōu)化對DIVER內容的訪問的各種內容高速緩存選項進行評估。
(ii)聯合服務器與數據庫聯合服務器和數據庫是實踐者可考慮用于DIVER的可能感興趣的技術。較佳應用包括開發(fā)一在Video Collaboratories分布式網絡上復制的DIVER環(huán)境；對于此種應用，較佳具有一種允許媒體存儲于分布式數據庫中的系統(tǒng)。這將使各個DIVER中心能夠各自保持其自己的DIVER服務器和內容，但仍然能夠在所有DIVER站點中以全局方式共享內容和元數據。
聯合系統(tǒng)是一種特殊種類的分布式數據庫管理系統(tǒng)(DBMS)(Rutledge，2001年)。聯合系統(tǒng)使人們能夠查詢和檢索位于其他DBMS(例如Oracle、Sybase、Microsoft SQL服務器或如mySQL等Open Source數據庫)上的數據。SQL語句可以在一單個語句中提及多個DBMS或單獨的數據庫。舉例而言，人們可以連接位于一Oracle表格、Microsoft SQL服務器和mySQL視圖中的數據。在一聯合數據庫環(huán)境下，會自多個異質數據源提供一單個同步視圖。聯合系統(tǒng)模型是一適用于具有一般通信量和性能要求的小重要和中等重要應用的架構。
聯合系統(tǒng)由一將用作聯合數據庫(一數據庫實例)的數據庫和一個或多個數據“源”組成。用于標識數據源及其特性的目錄項構成所述聯合數據庫。DBMS和數據構成所述數據源?？墒褂谩熬b號”來指代位于所述數據源中的表格和視圖。應用程序如同連接至任一其他數據庫一般連接至聯合數據庫，并期望仿佛其是一個統(tǒng)一數據庫一般來利用其內容。
在聯合系統(tǒng)建立后，便可訪問各數據源中的信息，仿佛其處于一個大的數據庫中一般。用戶和應用程序向一個聯合數據庫發(fā)送查詢，由所述聯合數據庫從數據源中檢索數據。聯合系統(tǒng)可在某些限制條件下運行；舉例而言，分布式請求僅限于只讀操作。
(iii)網格計算最近幾年中，眾多的開發(fā)已將網格計算(Foster 2001年、Chen 2002年)領域變成一種對大規(guī)模分布式計算任務似乎可取的解決方案。人們已經開始著重于用于科學性可視化、圖像渲染、航天計算和諸如多人多媒體游戲(也稱作MMG-對應于大規(guī)模多人游戲(Massively Multiplayer Gaming，且是IBM Butterfly.Net(http//www.butterfly.net)首創(chuàng)精神的核心)等商業(yè)應用的研究應用。如果DIVER的使用在Digital Video Collaboratories網絡上變得很普遍，并且在一分布式用戶基數中廣泛地需要處理大量的大文件尺寸的全景和傳統(tǒng)視頻，那么網格計算可是一可供考慮的非常令人感興趣的解決方案。網格計算令人感興趣，因為其允許大規(guī)模地捕獲空閑的CPU循環(huán)，從而實質上高效地利用計算資源(并因此顯著降低成本)。一確定一計算任務是否映射到一網格計算解決方案的檢查表可見于(Dyck 2002年)。一典型的網格計算“檢查表”包括確定所述計算是否需要滿足下列標準分散式管理結構需要高級計算計算可分布至各組件封裝內數據已經分布于許多位置中不需要快速或可預測的響應時間計算容忍軟件和硬件故障實踐者應檢查在一特定應用中所述DIVER對數字視頻處理的需要，以確定是否與一網格計算方法潛在地匹配。例如，在實施下列數字視頻分析任務的應用中也可提高網格計算的DIVER值將音頻自動轉錄成可查找的帶索引的文本全景反扭曲將視頻“編碼”成行為類別和統(tǒng)計分析將視頻變碼成低位速率和視頻流格式隨著這些能力日趨復雜和對計算的要求越來越苛求，會尤其如此。
Globus Proiect(http//www.globus.org)是一管理網格計算的Open Source(開放式源碼)開發(fā)、研究和原型的組織。Globus Toolkit2.0現在可供用于生產目的；Globus Toolkit3.0著重于開放網格服務架構(OGSA)-網格計算與網絡服務框架的結合。
(iv)對等式在Kontiki(http//www.kontiki.com)傳送管理系統(tǒng)(Delivery ManagementSystem，圖13所示的架構)中，可得到一組在企業(yè)中提供數字媒體的公布安全性、傳送和跟蹤的應用程序。此技術采用對等式文件共享和一大型文件分發(fā)模型，在所述模型中，一旦內容已在一節(jié)點處得到訪問，便以一分布式方式在廣域網和局域網節(jié)點之間高速緩存數據。在越來越多數量的用戶更頻繁地訪問數據時，數據便被分發(fā)到更多節(jié)點，因而對內容的訪問變得更快。此技術類似于大規(guī)模對等文件共享能力，但注重于增強媒體的更加安全、可靠和企業(yè)強度的傳送。Kontiki解決方案要求一轉有客戶機和一服務器模塊。
此技術是基于Bandwidth Harvesting(包括Adaptive Rate MultiServing(自適應速率多服務，其中Kontiki監(jiān)控正服務于該文件的每一臺計算機的響應時間和可用帶寬，并且自適應性地從提供最佳吞吐量的計算機請求更多的數據)、Caching Content(高速緩存內容，在外部網格邊緣處)、及Time Shifting(時移，其中Kontiki的網絡目錄建立已預定了即將進行的一次性傳送和正在進行的傳送(例如每周新聞提要)的媒體用戶的列表，并在非高峰時間自動傳送這些文件))、Digital Rights Management(數字權限管理)和一Secure Distributed NetworkManagement Protocol(安全分布式網絡管理協議)。
此方法的速度優(yōu)點相當突出，并且類似于Digital Fountain，在各種情形中，回報可能很顯著，其中速度提高多倍或多個數量級(即當在局部網上在一就近的臺式機上就地高速緩存媒體文件時)。
(v)手持式和移動視頻手持式和移動裝置領域繼續(xù)以驚人的步伐前進，新型的手持式裝置和手機可提供彩屏、更大的存儲器、帶寬和存儲能力。合乎邏輯地，可考慮使用這些裝置作為一在上面使用媒體分發(fā)的平臺。舉例而言，數據存儲卡(CompactFlash、SmartMedia及其他數據存儲卡)提供從幾兆字節(jié)一直到四分之一吉字節(jié)或以上的不等的數據存儲能力。此種存儲水平非常適合于處理壓縮的數字視頻文件?？梢栽O想在此種能夠實現高數據存儲能力的新類型裝置上使用線性或全景視頻內容。Kinoma(http//www.kinoma.com)剛剛發(fā)布了一種用于在手持式裝置上顯示高質量數字視頻的有力的解決方案。Kinoma提供一創(chuàng)作環(huán)境，該創(chuàng)作環(huán)境允許獲取一輸入源電影并將它轉換成一適合于在一手持式裝置上重放和交互的專門格式。
為在手持式裝置上使用視頻DIVE，值得考慮多種視頻編碼選項。舉例而言，可以一“可縮放”的方式呈現DIVE視頻，以便以包括適合于低端裝置的位速率在內的多種位速率產生內容?；蛘?，可將視頻變碼成一設計用于手持式裝置上的低位速率視頻的新格式。最后，可使用所述視頻的一“智能”呈現-其將根據可用的計算能力、屏幕尺寸，等而自動按比例縮放。
(d)視頻壓縮(i)觀察視頻壓縮算法是總體視頻傳送圖片的一重要部分。所使用的算法將在確定文件大小、傳輸時間、圖片質量、編輯能力和與工業(yè)標準的相符性中起關鍵作用。在視頻壓縮領域中不斷涌現出創(chuàng)新性的新開發(fā)，其中許多廠家提出許多關于文件大小和圖片質量的強烈權利主張。建議在此領域中謹慎行事，因為新的壓縮算法要求大量的時間和資源投資和投入。應該根據基本的設計參數(壓縮比、文件尺寸、傳輸時間、標準相符性、圖片質量、開放度，等等)對任何新的壓縮算法進行評價。許多供應商只強調其視頻壓縮文件的尺寸和速率信息，但這對于評價而言是不夠的。對一新的編譯碼器來說，一重要的決定因素是圖片質量。目前還沒有用于測定圖片質量的既定的通用定量量度(雖然可使用例如信噪比等量度進行)。在缺少定量數據的條件下，必須對目標用戶實施測試，以確定圖片質量是否滿足對可接受質量視頻的需要。
(ii)標準MPEG-4是由MPEG(運動圖像專家組)開發(fā)的一ISO/IEC標準，該委員會還開發(fā)了稱作MPEG-1的全球標準(從而產生視頻CD、PC重放、MP3)和MPEG-2(當前在DVD和數字電視上廣泛使用)。例如參見http//mpeg.telecomitalialab.com/standards/mpeg-4/mpeg-4.htm。MPEG-4是由全世界數百個研究者和工程師所進行的一項新的國際性努力的結果。MPEG-4是建立在三個領域(數字電視；交互式圖形應用(合成內容)；和交互式多媒體(環(huán)球網，內容的分發(fā)和訪問)的經過證明的成功之上。MPEG-4提供能夠集成所述三個領域的生產、分發(fā)和內容訪問范例的標準化技術元素。相關標準MPEG-7(內容描述標準(Standard for Content Description))和MPEG-21(多媒體框架(Multimedia Framework))當前正在開發(fā)之中，并且很可能會與MPEG-4相關。
MPEG-4是一基于目標的視頻標準，其流式方法會產生與MPEG-2(當前的行業(yè)標準)相同質量的視頻流，但只使用MPEG-2位速率的三分之一。這種在相同質量級別上的位速率降低非常明顯并使傳輸時間顯著加速。MPEG-4在整個帶寬頻譜上-從手機一直到高位速率寬帶-提供極高的質量，這可與當今所具有的最好的專利壓縮算法相媲美。
Apple計算機強力支持MPEG-4。例如參見http//www.apple.com/mpeg4/。MPEG-4將為QuickTime6的一組成要素，Real Networks也已采用這一標準。然而，值得注意的是，Microsoft尚待接受這一標準，且正在提供一種叫做“Corona”(Windows Media9)的替代方案。參看http//www.microsoft.com/windows/windowsmedia/thirdgen/default.asp.
(iii)開放式源碼(編譯碼器)VP3(www.vp3.com)為一“開放式源碼”視頻編譯碼器。該編譯碼器允許開放式源碼社區(qū)訪問一具有增強和擴展視頻處理代碼的選項的視頻編譯碼器源碼基數。VP3的目標是高質量視頻和高壓縮程度，且可在PC和Macintosh計算機上快速解壓。內容可在網上流式傳輸，或由一本地磁盤驅動器、CD或DVD播放。
當前在QuickTime中支持VP3，且VP3支持視頻內容的編碼(以QuickTime5.x Pro)和譯碼(QuickTime 5.x標準)。編碼后的視頻文件自QuickTime StreamServer流式傳輸或由一網絡服務器提供以便逐漸下載。對于Mac和PC，VP3可與QuickTime兼容，而且它可實現使用QuickTime Pro編碼，或任何其他與QuickTime一致的編碼應用。VP3文件也可使用Windows Media Player(其中文件與Direct X和Video For Windows平臺二者都兼容)播放。Windows的VP3允許使用與Video For Windows相一致的編碼器(例如Adobe Premiere和Cleaner)在VP3視頻中編碼。所述編譯碼器的譯碼器部分既與Video For Windows一致又與DirectShow一致。
由于VP3是開放式源碼軟件，因而編譯碼器源可免費得到并可整合入定制應用中。對于視頻捕捉和編碼，雖然可從0n2 Technologies(Open Source Codec forVideo(視頻開放式源碼編譯碼器)的發(fā)起者)得到視頻捕捉和編碼功能，但在該行業(yè)中對VP3的支持有限。
還有一種叫做“Ogg Vorbis”的開放式源碼音頻編譯碼器，其中Ogg Vorbis為非專利性的、開放的、無專利和專利權稅的音頻格式和編譯碼器，其用于固定和可變位速率下的中等到高質量的音頻以供在因特網上傳送。
(iv)開放式源碼(服務器)Real Networks已經宣布了第一個主要的開放式源碼流式媒體服務器-“Helix”Universal Server，參見http//www.realnetworks.com/info/helix/index.html，其支持許多種媒體編譯碼器(即QuickTime、MPEG-2、MPEG-4、WindowsMedia、Real Media，等等)，并還提供對一用于增強和擴展所述媒體服務器的開放式源碼基數的訪問。在按照上文所概述將新的種類的流式媒體算法及協議構建為DIVER流時，此種新服務器可能非常適用于實踐者。其也可適用于建立用于DIVER的定制的Helix編碼器和客戶側播放器(叫做“HelixDNA播放器”)。
表1提供在本節(jié)中所引用的關于數字影像的處理和分發(fā)的技術參考文獻的列表，以供感興趣的實踐者進一步參考和查閱。
表1-參考文獻Foster，I.Kesselman，C，Tuecke，S.(2001)″The Anatomy of the GridEnablingScalable Virtual Organizations，″International J.Supercomputer Applications，15(3)，2001年。
Rutledge，S.，Medicke，J.(2001)″Building Federated Systems withRelational Connect and Database Views，″IBM e-business Solution IntegrationTechnical White Paper，2001年。
Arman，F.，Hsu，A.and Chiu，M.(1993)″Image Processing on CompressedData for Large Video Databases，″Proceedings of the First ACM InternationalConference on Multimedia，1993年8月。
Smith，B.及Rowe，L.(1993)″Algorithms for Manipulating CompressedImages，″IEEE Computer Graphics and Applications，1993年9月，第13卷，(no.5)第34-42頁。34-42.
Vichare，R.，and Borovick，L.(2002)″Content Caching Vendor MarketShare，″2001，IDCBulletin#26785，2002年3月。
Chang，E.，及Yap，C.(1997)″A Wavelet Approach to Foveating Images，″Proc.13th ACM Symposium on Computational Geometry，第397-399頁，1997年。
Chang，E.，Yap，C.及Yen，T.(1997)″RealTime Visualization of Large imagesover a Thinwire，″IEEE Visualization 97(Late Breaking Hot Topics)，Tucson，Arizona.，1997年10月19-24日。CD and Video Proceedings.
Ramella，G.，Sanniti，G.(2001)″Shape and Topology Preserving Multi-ValuedImage Pyramids for Multi-Resolution Skeletonization，″Pattern RecognitionLetters，第22卷，No.5，第741-751頁，2001年。741-751，2001.
Cohen，M.F.，Chen，S.E.，Wallace，J.R.，Greenberg，D.P.(1988)″AProgressive Refinement Approach to Fast Radiosity Image Generation，″SIGGRAPH(1988)第75-84頁。
Digital Fountain Corporation (2002)″Digital Fountain′s MetaContentTechnology，″Technology White Paper，2002年4月23日。
Chen，A.(2002)″Girding for Grid Battle，″eWeek Labs Report，第37頁，2002年7月22日。
Dyck，T.(2002)″Grid Technical Challenges Daunting，″eWeek Labs Report，第38頁，2002年7月22日。
C.分析和探測圖6-10圖解說明稱為交互式全景視頻映像的概念即一交互式、可轉換的表示法，其有助于用戶超越對事件(基本的音頻視頻記錄)表面結構的體驗，以便在視頻數據中探測和分析更多的抽象式樣和關系。我們將這些全景概覽稱為映像，以強調與傳統(tǒng)映像制作和映像理解的類似。如同傳統(tǒng)映像一樣，一全景視頻映像是一比其所代表的真實世界時空事件更為抽象的圖像。并且像傳統(tǒng)映像一樣，為有用，一全景視頻映像在強調原始動態(tài)事件的那些對現有分析任務有用的特征的同時，過濾掉無關的細節(jié)。然而，與傳統(tǒng)的紙上映像不同，全景視頻映像的強大特征之一是其可以是交互式的；其允許用戶選擇適合于現有任務的景物抽象層次。交互式全景映像概覽的方案為了闡明交互式全景映像概覽的概念，我們提供四種顯示其如何用作本發(fā)明應用的用戶方案。如實踐者將了解，這些方案并非窮盡性，而是旨在提供對人機交互的挑戰(zhàn)和機遇的了解，使用本發(fā)明即可有利地解決這些挑戰(zhàn)和機遇。
方案1.在全景概覽內查找注解“熱點”工作空間區(qū)230是用戶可在其中注解、組織和分析將構成一“DIVE”的遍歷(用戶對全景視頻事件的特定觀點)的區(qū)域。在先前在圖2A和2B中所描繪的實施例中，工作表230由一組面板組成，其中每一面板尤其包含一電影縮略圖240、時間碼250(d)和一用于注解所述電影的正文框250(a)?，F在假定一有興趣在學生和教師之間進行非語言式交互作用的研究者已經創(chuàng)建了一包含從一教室事件的全景視頻中選出的幾百個帶注解遍歷的DIVER工作表。進一步假定所述研究者希望得到這些帶注解的“熱點”在所述視頻中的位置的概覽。換句話說，所述注解群集于所述事件中特定時間和空間點的周圍？一沿視頻時間線顯示注解頻率的直方圖將是查看此等熱點的傳統(tǒng)方法。不過，傳統(tǒng)直方圖只顯示注解發(fā)生的時間，但不顯示發(fā)生的地點。圖7顯示一界面窗格，其中帶注解的遍歷710的縮略圖預覽730覆蓋在一邊緣受檢測的全景概覽720上。
注意，全景概覽720已受到邊緣檢測(一種為實踐者所熟知的圖像處理方法)和整理，以突出遍歷縮略圖730的空間位置。因為在標記2D全景內一視頻遍歷段的x-y位置以進行注解時會自動記錄該x-y位置，因此可在2D映像720上顯示遍歷縮略圖730。通過改變一滑動條740的時間范圍，用戶將以動態(tài)方式看到注解活動的空間分布在所述景物內如何改變。舉例而言，在下文的實例中，在該時間片期間，看起來有許多該教師處于其講示工作臺上的帶注解遍歷。為得到更細程度的細節(jié)，可在整個所述全景景物內拖動一注解滑動條740；拖動所述滑動條可過濾所述DIVER工作表，以在與所述滑動條相交的顯示中僅顯示那些帶注解的遍歷。最后，如先前結合圖1-3所述，通過點擊一縮略圖730(n)在一細節(jié)播放器窗口中重放相應的音頻片斷710(n)，用戶便可更進一步地向下觀看。
方案2.使用全景視頻映像進行數據覆蓋全景概覽也可用于信息可視化，尤其用于探測關于自然背景及其對行為的影響的假想。假定一研究者使用DIVER探測一實際課堂課節(jié)的全景視頻，以便形成深入了解并開始創(chuàng)建分析類別。舉例而言，假定所述研究者開發(fā)一交互簡表并就所述教師所從事的交互作用的種類和時間長度，使用DIVER對所述視頻進行編碼(如圖4所示，使用分類碼注解)。將一DIVER編碼表中的分析結果視為一遍歷列表將不能提供關于交互作用模式與自然背景之間關系的大量深入了解。然而，通過使所述系統(tǒng)將所編碼的數據覆蓋到一受到邊緣檢測的全景概覽(所述空間的一種等高線圖)，研究者即可容易地看到群集于房間的不同空間區(qū)域中的各交互作用模式的分布(每一交互式樣較佳均由一著色點編碼)。圖8描繪這樣一種顯示其顯示以一受到邊緣檢測的全景景物810為背景繪制的帶索引號的數據點820。(此實例顯示替代實施例2A和2B對于某些應用的重要性。舉例而言，在這里，如果所述全景概覽在空間上不直觀或不精確，則其作為一可視化映像的適用性可能會受到限制。)不難看出如何在本發(fā)明的精神范圍內對這一概念作進一步的延伸。舉例而言，全景視頻映像可用于檢查同以物理空間如何可由不同的教師使用或用于不同的對象。另一使用一視頻腹腔鏡的全景形式進行醫(yī)學教育的應用能夠檢查具有不同專業(yè)觀察力和能力水平的學生如何對同一身體器官進行手術。
方案3.全景視頻數據的動態(tài)查詢另外，信息可視化技術可幫助用戶發(fā)現選自一全景流中的數據的式樣和關系。舉例而言，假定一個對研究學生一教師的交互作用感興趣的教育研究者已使用了DIVER分類碼注解在例如面部表情、手勢、學生問問題的頻率、講話時間，等類別方面對一大組視頻遍歷進行編碼。進一步假定所述研究者也能在學生名字、年齡、性別、平均測試得分、聲望得分等方面對每一剪輯進行編碼。圖9中的界面圖解說明如何使用動態(tài)查詢技術來幫助所述研究者探測所述數據中的式樣。圖9描繪一散點圖920，其顯示所問問題的平均數與平均測試得分之間的關系。電影縮略圖930用于標記數據點。在左邊，用戶可通過下拉菜單910選擇x和y軸的變量。在此實例中，所述研究者已選擇繪示所問問題的平均數與平均測試得分之間的關系。
所述散點圖有助于研究者看到學生提問題的頻率與其測試得分之間的線性關系。所述關系圖還有助于用戶注意到例外的人930(a)，即平均得分很高但看起來問問題并不多的學生。使用電影縮略圖930作為數據點有助于研究者將數據置于上下文中進行分析(contextualize)；能夠將外圍數據點看作代表一特定的學生可能引發(fā)更多的詢問。舉例而言，通過點擊所述電影縮略圖，研究者不僅能夠在細節(jié)窗口95中播放這一特定數據點所表示的視頻遍歷，而且能夠在全景概覽940中在其原始空間和時間上下文中看到它。通過此種方式，所述界面會鼓勵研究者(以及其他可能在查看所述數據的人)迅速地上下移動抽象標尺(如圖10所示)、輕松地鏈接回到主視頻記錄以便在上下文中查閱人行為的短暫細節(jié)。最后，如先前結合圖3所述，所述界面通過如下方式允許進行更細程度的分析令研究者創(chuàng)建一組空間合成的遍歷(一種新的復合電影)，允許她進行更精細的逐幀分析，將(例如)女孩問問題的遍歷與男孩問問題的遍歷相比較。
一般而言，如圖10所示，可以認為用戶的分析任務是沿一抽象標尺存在。所述標尺的范圍是從對事件1010的直接感覺經歷到更具思考性的思維和發(fā)現模式1030。并且，對于所述標尺的每一尺度，均將有一相應的呈現(1020，1040)，這種呈現的功能是幫助用戶在一特定抽象層次來探測所述事件。事實上，此概念的能力恰好是在研究者專注于所述全景視頻記錄時使她能夠輕松地沿一抽象標尺的任一方向上行進的能力。因此，在本發(fā)明的較佳實施例中，一全景視頻映像是一種可變換的呈現形式，其使用戶能夠在探測所述全景視頻記錄時在各抽象層次之間輕松移換。
圖6為一流程圖，其圖解說明一種使用例如圖7-10所示視頻數據映像來探測和分析視頻數據遍歷的方法。在600中，顯示正被分析的視頻數據的一抽象映像。對于剛剛所述的方案，所述抽象映像將分別包括全景概覽720(圖7)、受到邊緣檢測的景物810(圖8)或散點圖920(圖9)。在610中，使一標記與正被分析的每一遍歷記錄相關聯。同樣，對于剛剛所述的方案，所述標記將包括遍歷縮略圖像730和930(圖7和9)或分類碼點820(圖8)。在620中，沿所述抽象映像在適當位置處繪示所述標記。在630中，用戶以交互方式選擇所關心的標記并在640中重放對應的遍歷記錄，從而在不同的抽象層次之間鏈接和移換，以便探測所述視頻記錄，如圖10所示。
方案4.全景視頻事件的協作性可視化至此所述的各方案涉及由單個用戶分析一全景視頻行為記錄?？稍O想，作為一研究者聯網社區(qū)的一部分，可得到一教室事件的一全景視頻。隨著時間的經過，許多具有不同背景和觀點的研究者可創(chuàng)建與所述全景事件相關的DIVE和分析。如上文結合圖5所闡述，在DIVER中用于共享分析的一基本機理是查看網上所公布的DIVER工作表上的串線式討論。如結合圖6-10所闡述，全景視頻映像通過使用戶能夠看到景物上的可視化和數據覆蓋(可能是數百或也許數千個用戶的總體，每一用戶對所述景物均具有其自己的觀點)，而提供該概念的強大延伸。如實踐者根據本文中的教示所顯而易見，可應用動態(tài)查詢和信息可視化原理來使用戶能夠將一族觀點視為景物上的注解覆蓋，舉例而言，一顯示由以特定顏色或特征形狀編碼的各個人類學家所作注解的時空群集的數據覆蓋。
另一實例將是顯示由創(chuàng)建可通過一網站訪問的動畫視頻記錄的遍歷的不同年齡兒童群組(或那些沿其他可度量尺寸的有差別輪廓)所作注解的時空群集的對比式樣。
雖然上述聯網社區(qū)方案涉及與影像有關的非同步DIVE和分析，但是另一方案涉及多個可同時創(chuàng)建與視頻或其他影像相關的DIVE的個人，如在講堂中或對于例如動畫等娛樂事件。
圖11圖示一用于實施本文所述較佳實施例的數字電子裝置的網絡。創(chuàng)作工作站1100，即一標準個人計算機，包括處理器和存儲器1130、顯示器1110及輸入1120，其用于實施圖1所示的創(chuàng)作方法并產生圖2-4所示的圖形界面顯示。
在一變化形式中，遙控裝置1140較佳以無線方式連接至工作站1100，從而能夠對交互式會話實施方便的手持控制。在某些實施例中，裝置1140可包括足夠的處理能力和存儲能力，以充分控制該邏輯并產生圖1-4所示的交互式顯示，在此種情形中，裝置1100可基本上為一電子顯示器，可不必需要獨立的計算處理能力1130。
總之，裝置1130/1140較佳通過網絡1150(例如，因特網或專用內聯網)與較佳包括標準網絡瀏覽客戶機功能的用戶裝置1160(a)-(n)連接。該聯網裝置社區(qū)按照圖5實施帶注解遍歷的公布和共享。按照圖6-10使用抽象視頻映像進行的遍歷分析可由任一所配備的處理能力和存儲能力足以運行可執(zhí)行結合所述附圖所說明及論述的功能的映射及繪制軟件例程的裝置1130/1140或1160(a)-(n)獨立實施。
本發(fā)明的范圍不應由所闡釋的實施例確定，而應由隨附權利要求書及其合法的等效內容確定。
權利要求
1.一種用于創(chuàng)作可視數據的帶注解遍歷的交互式電子方法，所述方法包括顯示所述可視數據；通過相對于所述所顯示的可視數據對一覆蓋窗口進行定位來以交互方式界定所述所顯示的可視數據的一遍歷，所述遍歷指定一基于時間的幀序列，所述幀中的每一幀均包含由所述覆蓋窗口勾劃的所述可視數據；對所述遍歷進行注解；及存儲所述帶注解的遍歷的一永久記錄。
2.如權利要求1所述的方法，其進一步包括反復地實施所述方法，由此形成復數個所存儲的帶注解的遍歷。
3.如權利要求2所述的方法，其中所述遍歷中的至少兩個遍歷是根據不同的可視數據源來創(chuàng)建。
4.如權利要求1所述的方法，其中所述可視數據至少部分地包含選自一或多個下列類別的數據{動態(tài)視頻、靜止影像、模擬影像、動畫影像、全景影像、活動影像}。
5.如權利要求4所述的方法，其中所述全景影像包括使用復數個自一景物的一周邊朝向內部的攝像機所捕捉的影像，且其中所述遍歷反映一由用戶調整的3D立體圖。
6.如權利要求1所述的方法，其中界定一遍歷進一步包括通過相對于所述所顯示的可視數據對所述覆蓋窗口進行定位來掃視所述可視數據，并通過調整所述覆蓋窗口的大小來以交互方式縮放。
7.如權利要求1所述的方法，其中顯示所述可視數據包括以矩形布局來顯示可視數據。
8.如權利要求1所述的方法，其中顯示所述可視數據包括以一圓柱形布局來顯示可視數據，且其中所述覆蓋窗口的所述定位是由一位于所述圓柱形布局中央的虛擬攝像機的視場界定。
9.如權利要求1所述的方法，其中定位所述覆蓋窗口包括在固定所述覆蓋窗口的同時移動所述可視數據。
10.如權利要求1所述的方法，其中定位所述覆蓋窗口包括在固定所述所顯示的可視數據的同時移動所述覆蓋窗口。
11.如權利要求1所述的方法，其中所述覆蓋窗口具有一可由用戶選擇的幾何形狀。
12.如權利要求1所述的方法，其進一步包括使用復數個獨立定位的覆蓋窗口來同時界定復數個遍歷。
13.如權利要求1所述的方法，其中所述注解至少部分地包含選自一或多個下列類別的數據{文本注釋；圖形符號；分類碼；元數據；音頻轉錄}。
14.如權利要求13所述的方法，其中所述分類碼是以交互方式選自可由用戶界定的碼模板。
15.如權利要求1所述的方法，其中所述所存儲的遍歷記錄包含所述可視數據的一經壓縮部分。
16.如權利要求1所述的方法，其中所述所存儲的遍歷記錄包含一組界定所述遍歷的位置座標。
17.如權利要求2所述的方法，其進一步包括使用一集成圖形用戶界面來實施所述方法，且其中所述圖形用戶界面包括復數個計算機顯示區(qū)，所述復數個計算機顯示區(qū)包括一顯示所述可視數據的概覽區(qū)；一在所述覆蓋窗口內顯示當前數據的細節(jié)區(qū)；及一顯示一由所述復數個所存儲的帶注解的遍歷記錄構成的列表的工作表區(qū)。
18.如權利要求17所述的方法，其中所述細節(jié)區(qū)以一更高的放大率或分辨率來顯示數據，且其中所述更高的放大率或分辨率至少部分地基于一或多個選自包括如下因素的群組中的因素{用戶請求，網絡帶寬，其他網絡條件}。
19.如權利要求17所述的方法，其進一步包括至少部分地通過以交互方式選擇所述所列遍歷記錄中的一所需遍歷記錄來啟動在所述細節(jié)區(qū)中重放一所選的存儲記錄。
20.如權利要求19所述的方法，其中所述以交互方式選擇一所需遍歷記錄包括將一對應于所述所選記錄的圖形元素從所述工作表區(qū)拖放至所述細節(jié)區(qū)上。
21.如權利要求1所述的方法，其進一步包括指定一復合遍歷記錄，即復數個所述所存儲的遍歷記錄的一組合。
22.如權利要求21所述的方法，其進一步包括通過相鄰地顯示所述復數個遍歷記錄中每一遍歷記錄的內容來重放所述復合遍歷記錄。
23.如權利要求21所述的方法，其進一步包括指定來自所述復數個遍歷記錄中每一遍歷記錄的音頻成分。
24.如權利要求23所述的方法，其中所述音頻成分是使用一選自一或多種下列模式的選擇模式來加以指定{選擇一個源記錄；關閉所有音頻；為每一記錄指定一相對音頻成分}。
25.如權利要求17所述的方法，其進一步包括將所述由帶注解的遍歷記錄構成的工作表區(qū)列表公布至一可使用一標準HTML瀏覽器通過網絡訪問的文檔中。
26.一種用于創(chuàng)作可視數據的帶注解遍歷的交互式電子裝置，所述裝置包括顯示構件，其用于顯示所述可視數據；界定構件，其用于通過相對于所述所顯示的可視數據對一覆蓋窗口進行定位來以交互方式界定所述所顯示的可視數據的一遍歷，所述遍歷指定一基于時間的幀序列，所述幀中的每一幀均包含由所述覆蓋窗口勾劃的所述可視數據；注解構件，其用于對所述遍歷進行注解；及存儲構件，其用于存儲所述帶注解遍歷的一永久記錄。
27.一種用于以交互方式創(chuàng)作可視數據的帶注解遍歷的數字電子裝置，所述裝置包括一第一顯示器件，其用于顯示所述可視數據；及一手持式遙控器件，其與所述第一顯示器件進行通信并經配置以控制所述第一顯示器件上的一圖形交互，此包括下列操作界定所述所顯示的可視數據的一遍歷，所述遍歷包含一基于時間的幀序列，所述幀中的每一幀均包含所述可視數據的一空間子集；對所述遍歷進行注解；及存儲所述帶注解遍歷的一永久記錄。
28.如權利要求27所述的裝置，其中所述遙控器件進一步配置成使所述界定一遍歷包括通過相對于所述所顯示的可視數據對一覆蓋窗口進行定位來掃視所述可視數據，并通過調整所述覆蓋窗口的大小來縮放所述可視數據。
29.一種用于創(chuàng)作可視數據及相關聯的空間音頻數據的遍歷的交互式電子方法，所述方法包括顯示所述可視數據；以交互方式界定所述所顯示的可視數據的一遍歷，所述遍歷包含一基于時間的幀序列，所述幀中的每一幀均包含所述可視數據的一空間子集；及存儲所述遍歷的一記錄，包括所述幀的每一幀中與所述可視數據的所述空間子集相關聯的所述空間音頻數據。
30.如權利要求29所述的方法，其中所述可視數據及所述相關聯的音頻數據構成一景物的一視聽記錄。
31.如權利要求29所述的方法，其中所述可視數據包括對一位置的一可視描繪，且所述音頻數據包括對來自所述位置的聲音的一記錄。
32.如權利要求31所述的方法，其中所述可視描繪是抽象的。
33.如權利要求31所述的方法，其中所述景物是一音樂廳，且所述音頻數據包括對在所述音樂廳中演奏的音樂的一記錄。
34.如權利要求31所述的方法，其中所述景物是一會議室，且所述音頻數據包括自所述會議室記錄的談話。
35.如權利要求29所述的方法，其進一步包括使用包含于所述記錄中的所述相關聯的空間音頻數據的一轉錄來對所述遍歷記錄進行注解。
全文摘要
本發(fā)明提供用于以交互方式創(chuàng)作、共享和分析數字視頻內容的電子方法和裝置。創(chuàng)作方法包括顯示可視數據，將每一遍歷界定為一基于時間的幀序列，并注解和存儲所述遍歷的記錄及其相關聯的音頻記錄。界定所述遍歷包括通過相對于所述可視數據定位一覆蓋窗口來以交互方式掃視所述可視數據，并通過調整所述覆蓋窗口的大小來進行放大或縮小。在替代實施例中，可以一矩形布局或一圓柱形布局來顯示所述可視數據。使用一集成圖形界面來實施所述方法，所述集成圖形界面包括一顯示所述可視數據的概覽區(qū)、一在所述覆蓋窗口內顯示當前數據的細節(jié)區(qū)、及一顯示先前所存儲的帶注解的遍歷記錄的列表的工作表區(qū)。在另一方面中，所述帶注解的遍歷記錄的工作表區(qū)列表是在一可使用一標準HTML瀏覽器通過網絡訪問的網絡文檔中公布，并且可由一網絡用戶社區(qū)添加更多的注解。本發(fā)明還提供分析方法，其中相對于交互式抽象映像繪制對應于遍歷記錄的數據標記可使，從而使用戶在探測所述視頻記錄時在各抽象層次之間移換。
文檔編號G06F17/21GK1754160SQ200380109909
公開日2006年3月29日申請日期2003年12月22日優(yōu)先權日2002年12月30日
發(fā)明者羅伊·佩亞, 邁克爾·米爾斯, 約瑟夫·羅森申請人:小利蘭斯坦福大學理事會

完整全部詳細技術資料下載