專利名稱:對(duì)普通聲頻可視數(shù)據(jù)信號(hào)描述的基本實(shí)體關(guān)系模型的制作方法
對(duì)有關(guān)專利申請(qǐng)的參考本專利申請(qǐng)是基于1999年7月3日歸檔的60/142,325號(hào)美國(guó)暫時(shí)的專利申請(qǐng),并要求對(duì)其的優(yōu)先權(quán)。本發(fā)明的背景I、本發(fā)明的領(lǐng)域。
本發(fā)明涉及用于描述多媒體信息的技術(shù),更具體地是涉及到描述視頻和圖象信息,或聲頻信息的技術(shù),以及這種信息的內(nèi)容。所揭示的技術(shù)用于數(shù)字?jǐn)?shù)據(jù)信號(hào)(如多媒體信號(hào))的對(duì)內(nèi)容敏感的索引和分類。
II、有關(guān)技術(shù)的描述隨著全球因特網(wǎng)的成熟及區(qū)域網(wǎng)及局域網(wǎng)的廣泛應(yīng)用,數(shù)字多媒體信息已變得越來(lái)越為消費(fèi)者及商業(yè)所接受。因此開發(fā)那些處理,過濾,搜索及組織數(shù)字多媒體信息,使得能從越來(lái)越龐大的原始信息中篩選有用信息的系統(tǒng)變得越來(lái)越重要。
在撰文當(dāng)前專利申請(qǐng)時(shí),已存在允許消費(fèi)者/或商業(yè)搜索文本信息的解決方安葬。確實(shí),如由yahoo.com,goto.com,excite.com等提供的許多基于文本的搜索引擎在萬(wàn)維網(wǎng)(www)上可以得到并存在于大多數(shù)被訪問的web網(wǎng)站中,這表明對(duì)那樣的信息提取技術(shù)有大量的需求。
不幸的是對(duì)多媒體內(nèi)容不是那樣,因?yàn)閷?duì)這樣的對(duì)象不存在公認(rèn)的描述方法。
數(shù)字圖形和視頻的最近迅速增加為那些在搜索內(nèi)容時(shí)有大量資源的最終用戶帶來(lái)了新的機(jī)遇。可視信息從許多不同的來(lái)源以許多不同的格式在各個(gè)不同的方面到處可得到。這是個(gè)優(yōu)點(diǎn),但同時(shí)也是挑戰(zhàn),因?yàn)橛脩粼谒阉鬟@種內(nèi)容時(shí)不能審閱大量數(shù)據(jù)。因此,必須讓用戶能有效地瀏覽內(nèi)容,或根據(jù)他們特定的需要實(shí)現(xiàn)詢問。但是為了在一個(gè)數(shù)字庫(kù)中提供那樣的功能,重要的是理解這些數(shù)據(jù)并合適地索引它。必須構(gòu)造索引,并必須根據(jù)用戶想如何訪問這種信息來(lái)構(gòu)造。
在傳統(tǒng)的方法中,使用文本標(biāo)記于索引,一個(gè)編目人員手工指定一組關(guān)鍵字或表達(dá)式來(lái)描述一個(gè)圖形。然后用戶能實(shí)現(xiàn)基于文本的詢問或通過手工指定的編目瀏覽。與基于文本方法相反,在基于內(nèi)容檢索方面的現(xiàn)代技術(shù)將目光集中在基于它們可視內(nèi)容的索引圖象。用戶能通過樣本(如象此樣本的圖象)或用戶設(shè)計(jì)圖(如象此設(shè)計(jì)圖的圖象)實(shí)現(xiàn)詢問。更現(xiàn)代的工作試圖根據(jù)它們的內(nèi)容自動(dòng)分類圖象一個(gè)系統(tǒng)分類每個(gè)圖象并指定一個(gè)標(biāo)簽(如室內(nèi),室外,包含一面,等)。
在兩個(gè)范例中有分類的議題,尤其在基于內(nèi)容的檢索方面,這經(jīng)常被忽視。在合適的索引可視信息方面的主要困難可以歸納如下(1)在單個(gè)圖形中有大量的信息(如索引什么?),和(2)可能有不同層次的描述(如如何索引?)。例如,考慮穿著一套制服的男士的畫象。可能用術(shù)語(yǔ)“制服”或“男士”來(lái)標(biāo)簽此圖象。術(shù)語(yǔ)“男士”轉(zhuǎn)而能引出多個(gè)層次的信息概念上,(如在字典中男士的定義)物理上(大小,重量)和視覺上的(頭發(fā)顏色,衣服)及其他。因此,一個(gè)分類標(biāo)簽包含明顯的(如在圖象中的人是男士而非女士),和隱含的或不確定信息(如單從那個(gè)術(shù)語(yǔ)不可能知道那個(gè)男士穿什么)。
在這方面,過去的嘗試是提供多媒體數(shù)據(jù)庫(kù),它允許用戶使用包含在圖形中的視頻對(duì)象中的如顏色,紋理和形狀那樣的特征搜索圖形。但是,在20世紀(jì)末仍然不可能實(shí)現(xiàn)搜索因特網(wǎng)上或大多數(shù)區(qū)域網(wǎng)或局域網(wǎng)上的多媒體內(nèi)容,因?yàn)椴淮嬖谶@方面內(nèi)容的廣泛共識(shí)的描述。此外,對(duì)多媒體內(nèi)容搜索的要求不限于數(shù)據(jù)庫(kù),并擴(kuò)展到如數(shù)字廣播電視和多媒體電話那樣的其他應(yīng)用中。
通過運(yùn)動(dòng)圖形專家組(Motion Picture Expert Group-“MPEG”)的MPEG-7的標(biāo)準(zhǔn)化的努力,一個(gè)開發(fā)此標(biāo)準(zhǔn)的工業(yè)界的試圖已經(jīng)形成一個(gè)多媒體描述架構(gòu)。在1996年10月開始,MPEG-7致力于標(biāo)準(zhǔn)化多媒體數(shù)據(jù)的內(nèi)容描述,以便于針對(duì)內(nèi)容的應(yīng)用,如多媒體搜索,過濾,瀏覽和綜合。MPEG-7標(biāo)準(zhǔn)為對(duì)象的更完全的描述包含在國(guó)際標(biāo)準(zhǔn)化組織(International Organisation forStandardisation)文檔ISO/IEC JTC1/SC29/WG11 N2460(1998.10)中,其內(nèi)容在這是包含作為參考。
MPEG-7標(biāo)準(zhǔn)具有的目標(biāo)是規(guī)定描述符以及用于描述符和它們關(guān)系的結(jié)構(gòu)(稱之為“描述型式”)的一組標(biāo)準(zhǔn)集以描述各種類型的多媒體信息。MPEG-7也提出定義其他描述符及對(duì)這些描述符和它們的關(guān)系的“描述型式”的標(biāo)準(zhǔn)化方法。此描述,即描述符及描述型式的結(jié)合應(yīng)與內(nèi)容本身有關(guān)聯(lián),以允許快速并有效地搜索及過濾用戶感興趣的東西。MPEG-7還建議標(biāo)準(zhǔn)化一個(gè)語(yǔ)言,來(lái)規(guī)定描述型式,即描述定義語(yǔ)言(Description Definition Language--“DDL”),和用于二進(jìn)制編碼多媒體內(nèi)容描述的型式。
在撰文當(dāng)前專利申請(qǐng)時(shí),MPEG征求技術(shù)投標(biāo),它將優(yōu)化的實(shí)現(xiàn)必要的描述型式,用于將來(lái)集成到MPEG標(biāo)準(zhǔn)中去。為了提供那樣的優(yōu)化描述型式,考慮3個(gè)不同的多媒體應(yīng)用的方面。它們是分布式處理情況,內(nèi)容交換情況,和允許個(gè)性化觀看多媒體內(nèi)容的格式。
關(guān)于分布式處理,描述型式必須提供多媒體內(nèi)容的互換描述的能力,而與能進(jìn)行多媒體內(nèi)容分布式處理的任何平臺(tái),任何銷售商及任何應(yīng)用無(wú)關(guān)??苫ゲ僮鞯膬?nèi)容描述的標(biāo)準(zhǔn)化意味著,從各種來(lái)源來(lái)的數(shù)據(jù)能加入到各種分布或應(yīng)用中,如多媒體處理器,編輯器,檢索系統(tǒng),過濾工具等。這些應(yīng)用中的某些可以從第三方提供,產(chǎn)生一個(gè)能用此多媒體數(shù)據(jù)的標(biāo)準(zhǔn)化描述工作的多媒體工具的提供者的子工業(yè)。
用戶應(yīng)能訪問各個(gè)內(nèi)容提供者的網(wǎng)站來(lái)下載內(nèi)容和由某些低層或高層處理獲得的有關(guān)的索引數(shù)據(jù),并進(jìn)而訪問若干工具提供者的網(wǎng)站來(lái)下載工具(如Java應(yīng)用小程序),以便按照用戶的個(gè)人興趣以特別的方法處理異種數(shù)據(jù)描述,這種多媒體工具的一個(gè)例子是視頻編輯器。如果與每個(gè)視頻相關(guān)的描述是MPEG-7相容的,MPEG-7相容的視頻編輯器能管理和處理來(lái)自各種來(lái)源的視頻內(nèi)容。每個(gè)視頻可以帶有變化的描述細(xì)節(jié)程度,如攝影機(jī)運(yùn)動(dòng),場(chǎng)景剪輯,標(biāo)準(zhǔn)及物體分段。
從可互操作的內(nèi)容描述標(biāo)準(zhǔn)得益非淺的第二情況是在各異種多媒體數(shù)據(jù)庫(kù)之間交換多媒體內(nèi)容。MPEG-7致力于提供表示,交換,翻譯和重復(fù)使用多媒體內(nèi)容的現(xiàn)有描述的方法。
當(dāng)前,TV廣播提供者,無(wú)線電廣播提供者和其他內(nèi)容提供者管理并存儲(chǔ)巨量多媒體內(nèi)容。此內(nèi)容目前使用文本信息和專用的數(shù)據(jù)庫(kù)人工描述。沒有可互操作性的內(nèi)容描述,內(nèi)容的使用者需要投資人力來(lái)將由每個(gè)廣播者使用的描述手工翻譯成它們自己適用的型式。如果所有的內(nèi)容提供者包含同樣的型式的內(nèi)容描述型式,多媒體內(nèi)容描述的互換是可能的。
最后,應(yīng)用該描述型式的多媒體播放者及觀看者必須為用戶提供創(chuàng)新的能力如由用戶配置進(jìn)行數(shù)據(jù)的多重觀看。用戶應(yīng)能改變顯示配置而不需要從內(nèi)容的廣播者以不同的程式再次下載數(shù)據(jù)。
上述的例子僅暗示了對(duì)于根據(jù)MPEG-7以標(biāo)準(zhǔn)方式提供的構(gòu)造豐富的數(shù)據(jù)的可能的使用。不幸的是,當(dāng)前尚無(wú)現(xiàn)成的技術(shù)能大體上滿足分布式處理,內(nèi)容改變或個(gè)性化觀看等情況。尤其是,現(xiàn)有的技術(shù)不能根據(jù)一般的特征或語(yǔ)義關(guān)系提供捕捉嵌入在多媒體信息中的內(nèi)容的技術(shù)或提供組織這種內(nèi)容的技術(shù)。因此需要對(duì)一般的多媒體信息的有效的內(nèi)容描述型式的技術(shù)。
在MPEG漢城會(huì)議(1999年3月)期間,根據(jù)DS1(靜止圖象),DS3++(多媒體),DS4(應(yīng)用),尤其是根據(jù)MPEG-7 Evaluation AHL(Lancaster,U.K.1999年2月)(AHG on MPEG-7 Evaluation Logistics,“Report of the Ad-hoc Groupon MPEG-7 Evaluation Logistics”,ISO/TEC JTC1/SC29/WG11 MPEG 99/N4524,漢城韓國(guó),1999年3月)的DS2(視頻)組的某些建議產(chǎn)生了一個(gè)通用可視性描述型式(Generic Visual Description Scheme)(Video Group,“Generic VisualDescription Scheme for MPEG-7”,ISO/IEC JTC-1/SC29/WG11 MPEG99/N2694,漢城,韓國(guó),1999年3月)。該通用可視性描述型式發(fā)展成對(duì)通用可視性描述型式的AHG描述型式(“AVDS”)(AHG on Description Scheme,“Generic Audio Visual Descrption Scheme for MPEG-7(Vo.3)”,ISO/IECJTC1/SC29/WG11 MPEG 99/M4677,溫哥華,加拿大,1999年7月)。GenericAVDS描述了視頻序列或映象的可視性內(nèi)容,以及部分地描述了聲頻序列的內(nèi)容,它不是針對(duì)多媒體或歸檔內(nèi)容。
Generic AVDS的基本構(gòu)成部分是語(yǔ)法結(jié)構(gòu)DS,語(yǔ)義結(jié)構(gòu)DS,語(yǔ)法-語(yǔ)義連接DS,和分析/語(yǔ)法模型DS。語(yǔ)法結(jié)構(gòu)DS由區(qū)域樹(region tree),片樹(Segment tree),和片/區(qū)域關(guān)系圖組成。類似地,語(yǔ)義結(jié)構(gòu)DS由對(duì)象樹(objecttree),事件樹(event tree)和對(duì)象/事件(object/event)關(guān)系圖組成。語(yǔ)法-語(yǔ)義連接DS提供將語(yǔ)法單元(區(qū)域,片段和片段/區(qū)域關(guān)系)與語(yǔ)義單元(對(duì)象,事件,和事件/對(duì)象關(guān)系)的正反向連接。分析/語(yǔ)法模型規(guī)定了語(yǔ)法與語(yǔ)義結(jié)構(gòu)之間的設(shè)計(jì)/登記/概念的對(duì)應(yīng)關(guān)系。通常稱之為內(nèi)容單元的語(yǔ)義和語(yǔ)法單元具有相關(guān)的屬性。例如,用顏色/紋理,形狀,2D-幾何,運(yùn)動(dòng),和變形描述一個(gè)區(qū)域。用類型,對(duì)象行為,和語(yǔ)義標(biāo)記DS描述一個(gè)對(duì)象。
我們已認(rèn)識(shí)到在Generic AVDS的當(dāng)前描述中可能的缺點(diǎn)。Generic AVDS包括內(nèi)容單元和實(shí)體—關(guān)系圖。內(nèi)容單元具有相關(guān)的特征,實(shí)體-關(guān)系圖描述在內(nèi)容單元中的一般關(guān)系。這是根據(jù)實(shí)體-關(guān)系(ER)建模技術(shù)(P.P-S,Chen,“The Entity-Relation Model-Toward a United View of Data,ACM Transaction onDatabase Systems,Vol.1,No.1,pp-9-36,1976年3月)。但是在Generic AVDS中對(duì)這些單元的當(dāng)前描述太一般,以致不能成為描述聲頻-視頻內(nèi)容的有力工具。Generic AVDS也包括層次及層次之間的連接,這些通常是物理上的層次模型。因此,Generic AVDS是不同的概念的和物理的模型的混合。此DS的其他限止是語(yǔ)義和語(yǔ)法結(jié)構(gòu)的剛性分隔,并缺乏其內(nèi)容單元的明確及統(tǒng)一的定義。
根據(jù)對(duì)書面上內(nèi)容的描述的傳統(tǒng)方法,Generic AVDS描述了圖象,視頻序列,和部分地描述聲頻序列(1)文檔的物理的或語(yǔ)法的結(jié)構(gòu)的定義;內(nèi)容表;(2)語(yǔ)義結(jié)構(gòu)的定義,索引;和(3)語(yǔ)義概念出現(xiàn)處的位置的定義,它包括(1)語(yǔ)法結(jié)構(gòu)DS;(2)語(yǔ)義結(jié)構(gòu)DS;(3)語(yǔ)法-語(yǔ)義連接DS;(4)分析/語(yǔ)法模型DS(5)可視化DS;(6)元信息DS;和(7)媒體信息DS。
語(yǔ)法DS用于規(guī)定一幅圖象或定義文檔的內(nèi)容表的視頻序列的物理結(jié)構(gòu)和信號(hào)特性。它包括(1)片段DS;(2)區(qū)域DS;和(3)片段/區(qū)域關(guān)系圖DS。分割DS可用于確定片段樹,后者規(guī)定了視頻節(jié)目的線性時(shí)間結(jié)構(gòu)。片段是在具有相關(guān)特征的視頻序列中一組連續(xù)的幀,特征包括時(shí)間DS;元信息DS,媒體信息DS。一個(gè)特殊類型的片段,即一個(gè)鏡頭包括編輯效果DS,關(guān)鍵幀DS,馬賽克DS,和攝象機(jī)運(yùn)動(dòng)DS。類似地,區(qū)域DS可用于定義區(qū)域樹。一個(gè)區(qū)域可定義為去具有相關(guān)特征的一幅圖象的一個(gè)視頻序列中的一組互相連接的像素,這些特征包括幾何DS,顏色/紋理DS,運(yùn)動(dòng)DS,變形DS,媒體DS,和元信息DS。片段/區(qū)域關(guān)系圖DS規(guī)定了在片段和區(qū)域之間的一般關(guān)系,如“To The Left of-到其左邊去”那樣的空間關(guān)系;“Sequential to-跟在其后面”那樣的時(shí)間關(guān)系;和如“Consist of-包括”那樣的語(yǔ)義關(guān)系。
語(yǔ)義DS用于借助語(yǔ)義對(duì)象和事件規(guī)定一幅圖象或一個(gè)視頻序列的語(yǔ)義特征。它能看成為一組索引。它包括(1)事件DS;(2)對(duì)象DS;和(3)事件/對(duì)象關(guān)系圖DS。事件DS可用于構(gòu)成事件樹,后者對(duì)片段DS中的片段定義一個(gè)語(yǔ)義索引表。事件包括一個(gè)標(biāo)記DS。類似地,對(duì)象DS可用于構(gòu)成對(duì)象樹,后者對(duì)于在對(duì)象DS中的對(duì)象定義一個(gè)語(yǔ)義索引表。事件/對(duì)象圖DS規(guī)定了在事件和對(duì)象中的一般關(guān)系。
語(yǔ)法-語(yǔ)義連接DS在語(yǔ)法單元(片段,區(qū)域,或片段/區(qū)域關(guān)系)和語(yǔ)義單元(事件,對(duì)象,對(duì)事件/對(duì)象關(guān)系)之間是雙向的。分析/綜合模型DS規(guī)定了在語(yǔ)法和語(yǔ)義結(jié)構(gòu)DS之間設(shè)計(jì)/登記/概念的對(duì)應(yīng)關(guān)系。媒體和元信息DS分別包含存儲(chǔ)媒體和作者產(chǎn)生的信息的描述符??梢暬疍S包括一組視圖DS,使一個(gè)視頻節(jié)目能有效的可視化。它包括下列視圖多分辨率空間一頻率略圖,關(guān)鍵幀,高亮度,事件,和其他視圖。這些視圖中每一個(gè)都是獨(dú)立定義的。Generic AV DS的缺點(diǎn)Generic AVDS包括具有相關(guān)特征的內(nèi)容單元(即區(qū)域,對(duì)象,片段,和區(qū)域)。它也包括實(shí)體—關(guān)系圖,描述根據(jù)實(shí)體—關(guān)系模型的內(nèi)容單元個(gè)的一般關(guān)系。當(dāng)前DS的不足之處是去單元中的特征和關(guān)系可以具有廣泛的取值范圍,這就降低了它們的有用性及表達(dá)的能力。一個(gè)明確的例子是在對(duì)象單元中的語(yǔ)義標(biāo)記特征。語(yǔ)義標(biāo)記的值可以是一般的(“男人”),特定的(“JohaDoe”)或抽象的(“幸福-Happiness)概念。
導(dǎo)致本發(fā)明的研發(fā)的原始目標(biāo)是對(duì)Generic AVDS定義明確的實(shí)體—關(guān)系結(jié)構(gòu)以解決這一不足之處。明確的實(shí)體—關(guān)系結(jié)構(gòu)將屬性和關(guān)系歸類到相關(guān)的類別。在此過程中,尤其在產(chǎn)生具體例子過程中(見在圖6-9中示出的棒球的例子),我們覺察到當(dāng)前的Generic AV DS在關(guān)系到DS的全局設(shè)計(jì)方面的其他缺點(diǎn)。我們將在本章節(jié)中提到這些。在此應(yīng)用中,我們提出完整的基本實(shí)體—關(guān)系模型,以試圖解決這些問題。
首先,使用一個(gè)實(shí)體-關(guān)系模型能表示Generic DS的完全的規(guī)定。作為一個(gè)例子,對(duì)在圖6中的棒球的例子的圖7-9中提供的實(shí)體-關(guān)系模型包括由Generic AV DS的大多數(shù)構(gòu)成部分(如事件DS,片段DS,對(duì)象DS,區(qū)域DS,語(yǔ)法-語(yǔ)義連接DS,片段/區(qū)域關(guān)系圖DS,和事件/對(duì)象關(guān)系圖DS)實(shí)現(xiàn)的功能以及更多的功能。實(shí)體-關(guān)系(E-R)模型是一個(gè)常見的高層概念的數(shù)據(jù)模型,它與作為層次的,關(guān)系的或面向?qū)ο蟮哪P偷鹊膶?shí)際實(shí)現(xiàn)無(wú)關(guān)。當(dāng)前的GenericDS版本看來(lái)多個(gè)概念的和實(shí)現(xiàn)的數(shù)據(jù)模型的混合,這些模型是實(shí)體關(guān)系模型(如片段/區(qū)域關(guān)系圖),層次模型(如區(qū)域DS,對(duì)象DS,和語(yǔ)法-語(yǔ)義連接DS),和面向?qū)ο竽P?發(fā)片段DS,可視片段DS,和聲頻片段DS)。
其次,在當(dāng)前的Generic DS中語(yǔ)法和語(yǔ)義之間的分隔太固定。對(duì)于在圖6中的例子中,如當(dāng)前Generic AV DS提出的那樣,我們已區(qū)分了擊球事件和擊球片段的描述(見圖7)。但是在此情況,將兩個(gè)單元合并成一個(gè)單獨(dú)的,具有語(yǔ)義和語(yǔ)法特征的擊球事件是更加方便。從事視頻索引工作的許多組主張語(yǔ)法結(jié)構(gòu)(內(nèi)容表片段和景)和語(yǔ)義結(jié)構(gòu)(語(yǔ)義索引事件)的如此區(qū)分,但是在描述在視頻序列中的圖象或動(dòng)畫對(duì)象時(shí),區(qū)分這些結(jié)構(gòu)的價(jià)值是不太明顯?!罢鎸?shí)對(duì)象-Real Object”通常由它們的語(yǔ)義特征(如語(yǔ)義類別-人,貓等)和由它們的語(yǔ)法特征(如顏色,紋理,和運(yùn)動(dòng))來(lái)描述。當(dāng)前的Generic AVDS在區(qū)域和對(duì)象DS中區(qū)分“真實(shí)對(duì)象”的定義,這可以引起這些描述的低效率的處理。
最后,在Generic DS中,內(nèi)容單元,尤其是對(duì)象和事件缺乏明確的和統(tǒng)一的定義。例如,當(dāng)前的Generic DS將一個(gè)對(duì)象定義成具有某些語(yǔ)義意義并包含其他對(duì)象的對(duì)象。雖然對(duì)象在對(duì)象DS中定義,事件/對(duì)象關(guān)系圖能描述去對(duì)象和事件中的一般關(guān)系。此外,對(duì)象通過語(yǔ)法-語(yǔ)義連接DS被連接到語(yǔ)法DS中的對(duì)應(yīng)區(qū)域,因而,對(duì)象具有跨越Generic Visual DS的許多構(gòu)成部分的分布式定義,它是不太清楚。事件的定義十分相似并含糊不清。對(duì)Generic AV DS的實(shí)體-關(guān)系模型在P.P-S.Chen的文章“The Entity-Relation on Database Systens,Vol.1,No.1pp.9-36,1976年3月,首次提出的實(shí)體-關(guān)系(E-R)模型借助于實(shí)體和它們的關(guān)系描述數(shù)據(jù)。實(shí)體和關(guān)系均能用屬性描述。實(shí)體-關(guān)系模型的基本部分示于
圖1。實(shí)體,實(shí)體屬性,關(guān)系,和關(guān)系屬性很緊密地與名詞(如男孩和蘋果),形容詞(如年輕),動(dòng)詞(如吃)及動(dòng)詞補(bǔ)足語(yǔ)(如慢慢地)相對(duì)應(yīng),它們是描述一般數(shù)據(jù)的主要部分。能以視頻鏡頭描述的“一個(gè)年輕男孩慢慢地吃一個(gè)蘋果”。使用圖2中的實(shí)體-關(guān)系型表示。此建模技術(shù)已用于對(duì)圖形及其特征的內(nèi)容的建模用于圖象的檢索。
在本章節(jié)中,我們對(duì)當(dāng)前的Generic AV DS提出基本實(shí)體-關(guān)系模型,以解決上面討論的缺點(diǎn)?;镜膶?shí)體-關(guān)系模型索引(1)內(nèi)容單元的屬性,(2)這些內(nèi)容單元之間的關(guān)系,和(3)內(nèi)容單元本身。這些模型在圖5中畫出。我們提出的內(nèi)容構(gòu)成在提交到因特網(wǎng)Imaging 2000的A.James和S.-F.Chang的文章“A Conceptual Framework for Indexing Visual Information at Multiple Levels”中提出的索引可視信息的概念結(jié)構(gòu)的頂層。
發(fā)明概述本發(fā)明的一個(gè)目標(biāo)是提供對(duì)一般多媒體信息的內(nèi)容描述型式。
本發(fā)明的另一個(gè)目標(biāo)是提供用于實(shí)現(xiàn)標(biāo)準(zhǔn)的多媒體內(nèi)容描述型式的技術(shù)。
本發(fā)明的又一個(gè)目標(biāo)是提供一個(gè)裝置,它使用戶能在因特網(wǎng)或區(qū)域或局域網(wǎng)上完成對(duì)多媒體的增強(qiáng)的內(nèi)容敏感的一般搜索。
本發(fā)明的另一個(gè)目標(biāo)是提供系統(tǒng)和技術(shù),用于根據(jù)一般特征或語(yǔ)義關(guān)系捕捉嵌入在多媒體信息中的內(nèi)容。
本發(fā)明的又一個(gè)目標(biāo)是提供根據(jù)實(shí)體在語(yǔ)法和語(yǔ)義屬性的差異組織嵌入在多媒體信息中的內(nèi)容的技術(shù)。語(yǔ)法的屬性能歸類成不同層次類型/技術(shù),全局分布,局部結(jié)構(gòu)和全局組成。語(yǔ)義屬性能歸類成不同層次普通對(duì)象,普通場(chǎng)景,特定對(duì)象,特定場(chǎng)景,抽象對(duì)象,和抽象場(chǎng)景。
本發(fā)明又一個(gè)目標(biāo)是將實(shí)體關(guān)系分類成語(yǔ)法和語(yǔ)義的類別。語(yǔ)法關(guān)系可以歸類成空間的,時(shí)間的,和聲頻的類型。語(yǔ)義關(guān)系可以歸類成詞法的和表述的類別??臻g的和瞬時(shí)的關(guān)系可以是拓?fù)涞幕蛴蟹较虻模宦曨l關(guān)系可以是全局的局部的,或合成的;詞法的關(guān)系可以是同義詞,反義詞,亞詞(hyponymy)/超詞(hypernymy),部分詞(meronymy)/全詞(holonymy);和表述關(guān)系可以是動(dòng)作(事件)或狀態(tài)。
本發(fā)明的又一個(gè)目標(biāo)是借助于視頻和聲頻信號(hào)的分類描述每個(gè)層和實(shí)體關(guān)系。
本發(fā)明的另一個(gè)目標(biāo)是通過索引內(nèi)容一單元屬性,內(nèi)容單元之間的關(guān)系,和內(nèi)容單元本身,提供解決這些問題的基本的和清楚的實(shí)體-關(guān)系。
此工作是基于在提交到因特網(wǎng)Imaging 2000的A.Jaimes和S.-F.Chang的文章“A Conceptual Frame-work for Indexing Visual Information of MultipleLevels”中提出的用于索引可視信息的概念性結(jié)構(gòu),它已經(jīng)采用并對(duì)Generic AVDS作了擴(kuò)展。在另外的參考文獻(xiàn)中(如S.Paex A.B.Benitez,S.-F.Chang,C.-S.Li.J.R Smith,L.D.Bergman,A.Puri,C.Swain,和J.Osterman,“Proposal forMPEG-7 Image deseription Scheme,這是對(duì)1999年2月英國(guó)Lancaster的ISO/IECJTC1/SC29/WG11 MPEG 99/P480提出的的工作是恰當(dāng)?shù)模驗(yàn)樗鼌^(qū)分了在內(nèi)容單元和在內(nèi)容單元(具有實(shí)本—關(guān)系圖和層次,一個(gè)實(shí)體—關(guān)系圖的特定情況)中的關(guān)系的規(guī)定的描述。通過這樣做,清楚地規(guī)定了一個(gè)E-R模型。
我們著眼于對(duì)于索引可視信息的多層描述問題。我們提出一個(gè)新穎的概念框架,它統(tǒng)一了在文獻(xiàn)中處于各不相同領(lǐng)域的概念,這些領(lǐng)域如認(rèn)識(shí)上的心理,圖書館科學(xué),藝術(shù)及更新的基于內(nèi)容的檢索。我們?cè)诳梢暸c非可視之間作出區(qū)別并提供恰當(dāng)?shù)慕Y(jié)構(gòu)。提出的10層可視結(jié)構(gòu)提供了根據(jù)語(yǔ)法(如顏色,紋理等)和語(yǔ)義(如對(duì)象,事件等)索引圖象的系統(tǒng)的方法,并包括在一般概念與可視概念之間的區(qū)分。我們?cè)诳梢暯Y(jié)構(gòu)不同層上定義了不同類型的關(guān)系(如語(yǔ)法的,語(yǔ)義的),并且還使用一個(gè)語(yǔ)義信息表來(lái)綜合有關(guān)圖象(如出現(xiàn)在非可視結(jié)構(gòu)中的圖象)的重要方面。
我們的結(jié)構(gòu)正確地放置當(dāng)前技術(shù)水平的基于內(nèi)容的檢索技術(shù),使它們與實(shí)際用戶需求及其他領(lǐng)域中的研究相關(guān)。使用如人們提出的結(jié)構(gòu)不僅通過理解用戶及他們的興趣深益,而且在按照用于訪問可視信息的描述層次表征基于內(nèi)容的檢索問題上得益。
本發(fā)明建議根據(jù)在提交給因特網(wǎng)Imaging 2000的A..Jaimes和S.-F.Chang的“A Conceptual Framework for Indexing Visual Information at Multiple Levels”中提出的10層概念結(jié)構(gòu)來(lái)索引內(nèi)容單元的屬性,該文章如圖3所示根據(jù)語(yǔ)法(如顏色和紋理)及語(yǔ)義(如語(yǔ)義標(biāo)記)區(qū)分屬性,可視結(jié)構(gòu)的頭4層涉及語(yǔ)法,而余下6層涉及語(yǔ)義。語(yǔ)法層是類型/技術(shù),全局分布,局部結(jié)構(gòu),和全局組成。語(yǔ)義層是普通對(duì)象,普通場(chǎng)景,特定對(duì)象,特定場(chǎng)景,抽象對(duì)象,和抽象場(chǎng)景。
我們還提出在Generic AV DS的實(shí)體—關(guān)系圖中的內(nèi)容單元之間關(guān)系的明顯類型。我們區(qū)分語(yǔ)法和語(yǔ)義的關(guān)系,如圖4所示。語(yǔ)法關(guān)系分成空間的,時(shí)間的和可視的??臻g的和時(shí)間的屬性分成拓?fù)浜陀蟹较虻念悇e。語(yǔ)法屬性關(guān)系能進(jìn)一步索引為全局的,局部的及組成。語(yǔ)義關(guān)系補(bǔ)分成詞法的和表述的。詞法關(guān)系被分類成同義詞,反義詞,亞詞/超詞,部分詞/全詞。表述關(guān)系能進(jìn)一步索引為動(dòng)作和事件。
供助內(nèi)容單元的類型,我們建議將它們分類成語(yǔ)法及語(yǔ)義單元。語(yǔ)法單元能分成區(qū)域,動(dòng)畫—區(qū)域,和片段單元;語(yǔ)義單元能索引到對(duì)象,動(dòng)畫對(duì)象,和事件單元。我們提供了這些單元的明顯并統(tǒng)一的定義,它們借助于單元的屬性和與其他單元之間的關(guān)系以提出的基本模型表示,還規(guī)定了在這些單元的某些之間的承繼關(guān)系。
加入到這里并作為本發(fā)明揭示內(nèi)容一部分的附圖示出了本發(fā)明的較佳實(shí)施例,并且于解釋本發(fā)明的原理。
附圖概述圖1是一個(gè)一般實(shí)體—關(guān)系(E-R)模型;圖2提供了對(duì)場(chǎng)景“一個(gè)年輕男孩在4分鐘吃了一個(gè)蘋果”的一個(gè)實(shí)體一關(guān)系模型的例子;圖3用一個(gè)金字塔表示索引可視結(jié)構(gòu);圖4示出如在可視結(jié)構(gòu)的不同層次上提出的關(guān)系;圖5示出內(nèi)容單元的每個(gè)提出的類型的基本模型;圖6圖示了一個(gè)棒球擊球事件圖象;圖7是對(duì)在圖6中顯示的棒球擊球事件圖象的擊球事件的概念描述;圖8是對(duì)圖6的擊球事件的擊球和投球事件的概念描述;圖9是對(duì)圖6的擊球事件現(xiàn)場(chǎng)對(duì)象的概念描述;圖10概念性地表示了非可視信息的分析;圖11示出如何在語(yǔ)義上使用可視的和非可視的信息來(lái)表征一個(gè)圖象或其部分;圖12示出去聲頻結(jié)構(gòu)的不同層次上的關(guān)系。在語(yǔ)法層中的單元按語(yǔ)法關(guān)系相聯(lián)系。在語(yǔ)義層中的單元接語(yǔ)法和語(yǔ)義關(guān)系相聯(lián)系。
較佳實(shí)施例的描述我們選擇在這里使用的建模技術(shù),因?yàn)閷?shí)體—關(guān)系模型是最廣泛使用的概念模型。它們達(dá)到高度的抽象性并與硬件及軟件無(wú)關(guān)。存在特定的過程將這些模型轉(zhuǎn)換成用于實(shí)施的物理模型,后者與硬件與軟件有關(guān)。物理模型的例子是層次模型,關(guān)系模型,和面向?qū)ο竽P汀T贛PEG-7范圍的E-R概念框架在1999年7月加拿大溫哥華的ISO/IEC JTC1/SC29/WG11 MPEG 99的稿件J.R.Smith and C.-S.Li“An E-R Conceptual Modeling Framework for MPEG-7”中討論。
如圖5所示,我們對(duì)屬性(或MPEG7的描述符),關(guān)系,和內(nèi)容單元作出語(yǔ)法和語(yǔ)義之間的區(qū)分。語(yǔ)法涉及內(nèi)容單元安排的方法,而不考慮那樣安排的意義。另一方面語(yǔ)義,處理那些單元的意義及它們的安排的意義。如在本章節(jié)余下部分將討論的那樣,語(yǔ)法和語(yǔ)義屬性能涉及若干層次(語(yǔ)法層是類型,全局分布,局部結(jié)構(gòu),和全局組成;語(yǔ)義層是普通對(duì)象/場(chǎng)景,特定對(duì)象/場(chǎng)景,和抽象對(duì)象/場(chǎng)景),如圖3所示,類似地,語(yǔ)法和語(yǔ)義關(guān)系能進(jìn)一步分成與不同層相關(guān)的子類型,語(yǔ)法關(guān)系歸類成在普通層與特定上的空間的,時(shí)間的和可視的關(guān)系;語(yǔ)義關(guān)系被歸類詞匯和表述的類;見圖4。根據(jù)單元相關(guān)的屬性類型及與其他單元的關(guān)系,我們提供語(yǔ)法及語(yǔ)義單元的緊湊及清楚的定義。然而,與Generic AV DS的重要差別在于我們的語(yǔ)義單元不僅包括語(yǔ)義屬性,還包括語(yǔ)法屬性。因此,如果一個(gè)應(yīng)用寧肯不區(qū)分語(yǔ)法單元和語(yǔ)義單元,通過將所有單元作為語(yǔ)義單元實(shí)施它也可以這樣做。
為了闡明基本的實(shí)體-關(guān)系模型的解釋,我們將使用圖6-9中的例子。圖6示出表示成擊球事件和擊球片段(片段和事件如在Generic AV DS中定義的那樣)的棒球比賽的視頻鏡頭。圖7包括將擊球事件作為下列事件組合的可能的描述現(xiàn)場(chǎng)對(duì)象,擊球事件,投球事件,在投球與擊球事件之間的時(shí)間關(guān)系“Before-去前”,和某些可視性屬性。圖8表示投球和擊球以及它們之間關(guān)系的描述。投球事件是一個(gè)動(dòng)作,即投手對(duì)象對(duì)球?qū)ο髨?zhí)行向擊球手對(duì)象的“投”。對(duì)投于對(duì)象我們提供某些語(yǔ)義屬性。擊球事件是一個(gè)動(dòng)作,即擊球手對(duì)象在同樣的球?qū)ο笊蠄?zhí)行“擊球”。圖9示出將現(xiàn)場(chǎng)對(duì)象分解成3個(gè)不同區(qū)域,其中之一通過空間關(guān)系“在其頂上-On The Top of”與投手對(duì)象有關(guān)。提供這些區(qū)域之一的某些可視性屬性。屬性類型我們提出了在圖象和視頻描述中索引可視內(nèi)容單元(如區(qū)域,整個(gè)圖象,和事件)的10層概念結(jié)構(gòu)。此結(jié)構(gòu)僅對(duì)明確畫去實(shí)際的圖象或視頻序列(如繪畫的價(jià)格將不是可視內(nèi)容的一部分)。
提出的可視結(jié)構(gòu)包括10層頭4層涉及語(yǔ)法,而余下6層涉及語(yǔ)義。在圖3中給出可視結(jié)構(gòu)的概貌。在金字塔中層次越低,就需要越多的知識(shí)去完成索引。每層的寬度是所需知識(shí)量的指示。一個(gè)屬性的索引代價(jià)能作為該屬性的子屬性包含其中。語(yǔ)法層是類型/技術(shù),全局分布,局部結(jié)構(gòu),和全局組成。語(yǔ)義層是普通對(duì)象,普通場(chǎng)景,特定對(duì)象,特定場(chǎng)景,抽象對(duì)象,和抽象場(chǎng)景。雖然這些分割的某些可能是不嚴(yán)格的,但還應(yīng)考慮它們,因?yàn)樵诶斫庥脩羲阉魇裁醇八绾卧噲D在數(shù)據(jù)庫(kù)中找到它方面,這些分割具有直接的影響。它們也借助于所需的知識(shí)強(qiáng)調(diào)不同索引技術(shù)(人工的自動(dòng)的)的局限性。
在圖3中,索引可視結(jié)構(gòu)由一個(gè)金字塔表示。很清楚,在金字塔中層次越低,為完成索引需要更多的知識(shí)與信息。每個(gè)層次的寬度是所需知識(shí)量的指示-例如,為命名在同一場(chǎng)景中的特定對(duì)象需要更多的信息。
在圖5中,語(yǔ)法屬性(語(yǔ)法DS)包括一個(gè)枚舉的屬性,層,其值是在可視結(jié)構(gòu)(圖3)中它對(duì)應(yīng)的語(yǔ)法層一即類型,全局分布,局部結(jié)構(gòu),或全局組成一或“未規(guī)定”。語(yǔ)義屬性也包括一個(gè)枚舉的屬性,層,其值是在語(yǔ)義結(jié)構(gòu)(圖3)中它對(duì)應(yīng)的語(yǔ)義層一即普通對(duì)象,普通場(chǎng)景,特定對(duì)象,特定場(chǎng)景,抽象對(duì)象,和抽象場(chǎng)景一或“未規(guī)定”,對(duì)不同類型的語(yǔ)法與語(yǔ)義屬性建模的另一種可能性是將語(yǔ)法和語(yǔ)義屬性單元進(jìn)行子分類,以分別建立類型,全局分布,局部結(jié)構(gòu),和全局組成的語(yǔ)法屬性;或普通對(duì)象,普通場(chǎng)景,特定對(duì)象,特定場(chǎng)景,抽象對(duì)象,抽象場(chǎng)景屬性(這些類型中某些不應(yīng)用于所有對(duì)象,動(dòng)畫對(duì)象,和事件)。
可視結(jié)構(gòu)的每一層在下面解釋。其后討論各層之間的關(guān)系。根據(jù)此可視結(jié)構(gòu)和各層之間的關(guān)系,我們?cè)谙乱徽鹿?jié)中定義內(nèi)容單元的類型。類型/技術(shù)在最基本的層上,我們關(guān)心的是圖象或視頻序列的一般可視特征。圖象或視頻序列的描述或用于產(chǎn)生它的技術(shù)是非常一般的,但證明在組織一個(gè)可視數(shù)據(jù)庫(kù)時(shí)具有很大的重要性。例如,圖象可以放在如彩繪,黑與白,彩色照片,和繪畫那樣的類別。在此層次的有關(guān)分類型式可以在WebSEEK中自動(dòng)做。對(duì)于在圖6中的類型是彩色視頻序列。全局分布在前一層次中的類型/技術(shù)給出圖象或視頻序列的有關(guān)可視特征的一般信息,但是關(guān)于可視內(nèi)容只給出少量信息。全局分布目的在于根據(jù)其全局內(nèi)容分類圖象或視頻序列,并借助于如空間敏感性(顏色),和頻率敏感性(紋理)那樣的低層覺特征來(lái)測(cè)量。內(nèi)容的各單獨(dú)部分尚未在此層處理(即在測(cè)量是全局性地進(jìn)行的意義下對(duì)這些分布未給定“形式-form”),所以全局分布特征可以包括全局顏色(如主色調(diào),平均,直方圖),全局紋理(如粗糙度,定向性,對(duì)比度),全局形狀(如縱橫比),全局運(yùn)動(dòng)(如速度和加速度),攝影機(jī)運(yùn)動(dòng),全局變形(如成長(zhǎng)速度),和時(shí)間/空間尺度(如空間面積和時(shí)間尺度)。對(duì)于在圖6的擊球片段,作為全局分布屬性的彩色直方圖和時(shí)間區(qū)間被規(guī)定(見圖7)。
即使對(duì)于一個(gè)觀察者這些測(cè)量的某些難以量化,已將這些全局的低層特征成功地用于各種基于內(nèi)容的檢索系統(tǒng),來(lái)組織用于瀏覽的數(shù)據(jù)庫(kù)的內(nèi)容,并實(shí)現(xiàn)范例查詢。局部結(jié)構(gòu)在處理一個(gè)圖象或視頻序列的信息時(shí),我們完成不同層次的組合。與不提供有關(guān)圖象或視頻序列的各個(gè)部分的任何信息的全局結(jié)構(gòu)相反,局部結(jié)構(gòu)層關(guān)注各構(gòu)成部分的概要和特征。在最基本的層上,那些構(gòu)成部分從低層處理得到并包括如點(diǎn)、線、風(fēng)格、顏色和紋理那樣的單元。作為一個(gè)例子,一個(gè)二進(jìn)制形狀表征碼(binary shape mask)描述了在圖6中的擊球片段(見圖7)。局部結(jié)構(gòu)的另外例子是時(shí)間/空間位置(如起始時(shí)間及重心),局部顏色(如M×N布局).,局部運(yùn)動(dòng),局部變形,局部形狀/2D幾何(見定界方框)。
那樣的單元也已在基于內(nèi)容的檢索系統(tǒng)中使用,主要在如Viswal SEEK那樣的按用戶草圖查詢的界面中。這里涉及的不是對(duì)象,而是表示它們的基本單元以及這種單元的組合,例如一個(gè)正方形由4條線構(gòu)成。全局組成在此層,我們著限于由局部結(jié)構(gòu)給出的基本單元的特定安排或組成。換言之,我們作為整體分析此圖象,但只使用在以前層描述的的基本單元(如線和圓)于分析。全局組成涉及在該圖象中單元的安排或空間布局。在業(yè)內(nèi)的傳統(tǒng)分析描述如平衡、對(duì)稱、舉興趣中心(注意中心或焦點(diǎn)),主線索,和視角那樣的組成概念。但是,在此層沒有特定對(duì)象的知識(shí),只考慮基本單元(如點(diǎn)、線、和圓)或基本單元的組。在圖6中Sand1區(qū)域的2D幾何是一個(gè)全局組成屬性(見圖9)。普通對(duì)象直到前一層不需要現(xiàn)實(shí)世界知識(shí)來(lái)實(shí)現(xiàn)索引,所以可以使用自動(dòng)技術(shù)提取這些層上的相關(guān)信息。但是若干研究已證明,人類主要使用高層屬性來(lái)描述,分類的搜索可視資料。見C.Jongensen,“Image Attributes in Describing Tasksan Investgaton”,Informaton Processing & Management,34,(2/3),99.161-17,1998,C.Jongensen,“Rertrieving the UnretrievableArt,Aesthetics,andEmotion in Image Retrieval Systems”,SPIE Conference in Human Vision andElectronic Imaging,IS&T/SPIE99,Vol.3644,San Jose,CA,Jan 1999。對(duì)象是特別的重要,但是它們也能放置在不同層次的類別中-一個(gè)蘋果可以分類成一個(gè)Machintosh蘋果,一個(gè)蘋果,或一個(gè)水果。當(dāng)涉及到普通對(duì)象時(shí),我們感興趣于基本層的類別對(duì)象描述的最普通層,它能以日常知識(shí)加以識(shí)別。對(duì)在圖6中的投手對(duì)象,一個(gè)普通對(duì)象屬性可以是標(biāo)記“男人”(見圖8)。普通場(chǎng)景正如一個(gè)映象或視頻序列能按出現(xiàn)其中的各個(gè)對(duì)象被索引,有可能根據(jù)可視資料所包含的所有對(duì)象集及它們的安排作為整體未索引該資料。場(chǎng)景類別的例子包括城市,風(fēng)景,室內(nèi),室外,寂靜的生活畫面,和肖象。此層的方針是只需要普通知識(shí)。既不需知道特定的街道或建筑物的名字來(lái)確定它是一個(gè)城市的場(chǎng)景,也不需要知道個(gè)人的名字來(lái)得知該圖象是一個(gè)肖象。對(duì)于在圖6中的擊球事件,用值“擊球(Batting)”規(guī)定普通場(chǎng)景的屬性(見圖7)。特定對(duì)象與以前的層次相反,特定對(duì)象涉及已識(shí)別的已命名的對(duì)象。需要在圖象或視頻序列中的各對(duì)象的特定知識(shí),且那樣的知識(shí)是客觀的,因?yàn)樗蕾囉谝阎氖聦?shí)。實(shí)例包括個(gè)人(如在圖6中語(yǔ)義學(xué)標(biāo)記“Peter who,Yankee隊(duì)運(yùn)動(dòng)員3#”或?qū)ο?如體育場(chǎng)名)。特定場(chǎng)景此層類似于一般場(chǎng)景,其差別是此處有有關(guān)場(chǎng)景的特定知識(shí)。雖然在該可視資料中不同的對(duì)象能以不同方式幫助確定所畫的特定場(chǎng)景,有時(shí)單獨(dú)一個(gè)對(duì)象已足夠。例如,清楚地顯示白宮的一張照片,只根據(jù)那個(gè)對(duì)象就能歸類成白宮的場(chǎng)景。對(duì)于在圖7中的擊球事件用值“由Yankee隊(duì)的#32運(yùn)動(dòng)員擊球”規(guī)定特定場(chǎng)景的屬性。抽象對(duì)象在此層使用有關(guān)該對(duì)象表示什么的專門知識(shí)。在完全是主觀上的感覺的意義上索引層是最為困難的,而且不同用戶的評(píng)估可以相差極大。此層的重要性在觀察者使用抽象的屬性描述圖象的實(shí)驗(yàn)中示出。例如,在一張照片中的女人由一個(gè)觀察者看表現(xiàn)為憤怒,對(duì)另一個(gè)則表現(xiàn)為憂郁。對(duì)圖8中投手對(duì)象用值“速度”規(guī)定一個(gè)抽象對(duì)象屬性。抽象場(chǎng)景抽象場(chǎng)景層涉及圖象作為整體表示什么。它可以是非常主觀的。用戶有時(shí)如對(duì)對(duì)象那樣以抽象的術(shù)語(yǔ)描述圖象,如悲傷,幸福,權(quán)威,天堂,和樂園。對(duì)于圖7中的擊球事件,用值“好策略”規(guī)定抽象場(chǎng)景屬性。關(guān)系的類型在本章節(jié)中我們提出包含在Generic AV DS中的內(nèi)容單元之間關(guān)系的明確的類型。如圖4所示,在以前提出的可視結(jié)構(gòu)的不同層次上定義關(guān)系。為了表示在內(nèi)容單元中的關(guān)系,我們考慮在可視結(jié)構(gòu)中分成語(yǔ)法和語(yǔ)義。就下面討論的可視結(jié)構(gòu)的層次而論,我們提出的關(guān)系類型的某些界限并不固定。
可視結(jié)構(gòu)的語(yǔ)法層的關(guān)系只能發(fā)生在2D空間,因?yàn)樵谶@些層上沒有對(duì)象的知識(shí)來(lái)確定3D關(guān)系。在語(yǔ)法層上,只能是語(yǔ)法關(guān)系,即空間(如“下一個(gè)”),時(shí)間(如“同時(shí)地”),和可見(如“更黑”)關(guān)系,它們唯一地根據(jù)語(yǔ)法知識(shí)??臻g和時(shí)間屬性分類成拓?fù)漕惡陀蟹较蝾?。可視關(guān)系能進(jìn)一步索引成全局的,局部的和組成。
在可視結(jié)構(gòu)的語(yǔ)義層,內(nèi)容單元之間的關(guān)系可以在3D由發(fā)生。如圖4所示,在這些層內(nèi)的單元不僅能與語(yǔ)義關(guān)系有關(guān),而且與語(yǔ)法關(guān)系有關(guān)(如“一個(gè)人在另一個(gè)的旁邊”及“一個(gè)人是另一個(gè)的朋友”)。我們區(qū)分兩種不同類型的語(yǔ)義關(guān)系詞法關(guān)系,如同義詞,反義詞,亞詞/超詞和部分詞/全詞;表述關(guān)系涉及動(dòng)作(事件)或狀態(tài)。
在圖4中,在可視結(jié)構(gòu)的不同層次上提出關(guān)系。在語(yǔ)法層中的單元按照一種類型的關(guān)系語(yǔ)法關(guān)系聯(lián)系。在語(yǔ)義層中的單元按照二種類型的關(guān)系語(yǔ)法和語(yǔ)義關(guān)系聯(lián)系。我們將在下面章節(jié)中用例子更廣泛地解釋語(yǔ)法和語(yǔ)義關(guān)系。表1和表2貫綜合了的索引結(jié)構(gòu),包括了例子。語(yǔ)法關(guān)系我們將語(yǔ)法關(guān)系分成三類空間的,時(shí)間的,和可視的。人們可能有爭(zhēng)議,認(rèn)為空間和時(shí)間關(guān)系恰是可視關(guān)系中的特殊情況。我們以特定的方式定義空間和時(shí)間關(guān)系。對(duì)這些關(guān)系,我們將單元分別考慮成在空間和時(shí)間的邊界而不帶有關(guān)大小與持續(xù)期的信息。在表1中看到所提出的語(yǔ)法關(guān)系的類型的綜合及例子。
跟隨下文中的工作D.Hernandez“Qualitative Representation of SpatialKnowledge”,Lecture Notes in Artificial Intelligence,804,Springer-Verlag,Berlin,1994,我們將空間關(guān)系分成下列類別(1)拓?fù)涞?,即單元的邊界是如何相關(guān)的;和(2)定向或有方向的,即單元放置的互相位置(見表1)。拓?fù)潢P(guān)系的例子是“接近于”,“在其中”,和“鄰近于”;有方向關(guān)系的例子是“在其前面”,“在其左邊”,“在其頂上”。眾所周知的空間關(guān)系圖是2D弦,R2,和屬性關(guān)系圖。
以類似的方式我們將時(shí)間關(guān)系歸類成拓?fù)涞暮陀蟹较虻念悇e(見表1)。時(shí)間拓?fù)潢P(guān)系的例子是“同時(shí)發(fā)生”,“重疊(發(fā)生)”,“期間發(fā)生”;有方向時(shí)間關(guān)系的例子是“在前面發(fā)生”,和“在其后發(fā)生”。SMIL(World WideWeb Consortium,SMIL Web Site http//www.w3.org/Audio Video/#SMIL)的同時(shí)及順序的關(guān)系是時(shí)間的拓?fù)潢P(guān)系的例子。
可視關(guān)系根據(jù)單元的可視屬性或特征與那些單元聯(lián)系。這些關(guān)系能被索引成全局的,局部的和組成的類別(見表1)。例如,一個(gè)可視的全局關(guān)系可以是“更光滑”(根據(jù)全局的紋理特征),一個(gè)可視性局部關(guān)系可以是“加速更快”(根據(jù)全局的紋理特征),一個(gè)可視性局部關(guān)系可以是“加速更快”(根據(jù)運(yùn)動(dòng)特征),一個(gè)可視性組成關(guān)系可以是“更加對(duì)稱(根據(jù)2D幾何特征)。能使用可視關(guān)系根據(jù)任何可視特征的組合串聯(lián)視頻鏡頭/關(guān)鍵幀,可視特征包括顏色,紋理,2D幾何,時(shí)間,運(yùn)動(dòng),變形,和攝影機(jī)運(yùn)動(dòng)。表1對(duì)語(yǔ)法關(guān)系的索引結(jié)構(gòu)和例子
以類似于可視結(jié)構(gòu)的單元有不同層次(普通,特定,和抽象)的方法,這些語(yǔ)法關(guān)系的類型(見表1)能以普通層次(“靠近”)或特定層次(離開0.5英尺)定義。例如,如“與其并”,“與其交”,“是其非”那樣操作關(guān)系是拓?fù)涞?,特定的關(guān)系,或是空間的,或是時(shí)間的(見表1)。
繼續(xù)棒球比賽的例子,圖7示出如何通過其組合單元(即擊球段,場(chǎng)景對(duì)象,擊球事件,和投球事件),和它們之間的關(guān)系(即從擊球事件到投球事件的時(shí)間關(guān)系“在前”)來(lái)定義擊球事件。擊球事件和它的組合單元通過空間一時(shí)間關(guān)系“由什么構(gòu)成”互相聯(lián)系。語(yǔ)義關(guān)系語(yǔ)義關(guān)系只能發(fā)生在10層概念結(jié)構(gòu)的語(yǔ)義層的內(nèi)容單元之中。我們將語(yǔ)義關(guān)系劃分成詞匯語(yǔ)義和表達(dá)關(guān)系。表2綜合了語(yǔ)義關(guān)系并包括例子。
表2語(yǔ)義關(guān)系的索引結(jié)構(gòu)和例子
詞法語(yǔ)義關(guān)系對(duì)應(yīng)于在WordNet中使用的名詞之間的語(yǔ)義關(guān)系。這些關(guān)系是同義詞(管線類似于管道),反義詞(幸福與悲傷相反),亞詞(狗是一個(gè)動(dòng)物),超詞(一個(gè)動(dòng)物和一條狗),部分詞(音樂家是樂隊(duì)的成員),和全詞(樂隊(duì)由音樂家們組成)。
表述語(yǔ)義屬性涉及在兩個(gè)或多個(gè)單元之間的動(dòng)作(事件)或狀態(tài)。動(dòng)作關(guān)系的例子是“投”和“擊”。狀態(tài)關(guān)系的例子是“屬于”和“擁有”。圖8包括兩個(gè)動(dòng)作關(guān)系“投”和“擊”。與只將表述語(yǔ)義分成動(dòng)作的狀態(tài)不同,我們能使用在Work Net中使用的部分關(guān)系語(yǔ)義分解。Word Net將動(dòng)詞分成15個(gè)語(yǔ)義領(lǐng)域身體關(guān)心及功能,改變,認(rèn)識(shí),通訊,競(jìng)爭(zhēng),消費(fèi),接觸,建立,情緒,運(yùn)動(dòng),感覺,占有,社會(huì)接觸,和氣候動(dòng)詞。只有那些與描述可視概念有關(guān)的領(lǐng)域能被使用。
至于這里提出的10層可視結(jié)構(gòu),我們能在不同的層次定義語(yǔ)義關(guān)系普通的,特定的,和抽象的。例如,一個(gè)變通的動(dòng)作關(guān)系是“擁有股票”,一個(gè)特定的動(dòng)作關(guān)系是“擁有80%的股票”,一個(gè)抽象的語(yǔ)義關(guān)系是“控制該公司”。
對(duì)于在圖6中的投球和擊球事件,圖8示出使用語(yǔ)義關(guān)系描述兩個(gè)對(duì)象的動(dòng)作投手對(duì)象“投”球?qū)ο蟮綋羟蚴謱?duì)象,而擊球手對(duì)象“擊”球?qū)ο?。?shí)體的類型到這里,我們已經(jīng)提出了在內(nèi)容單元中的屬性和類型的明顯類型。在此章節(jié),我們提出內(nèi)容單元(基本E-R模型的實(shí)體)的新類型,并提出每個(gè)內(nèi)容一單元類型的明顯和統(tǒng)一的定義。
我們根據(jù)(1)描述內(nèi)容單元的屬性和(2)將它們與其他內(nèi)容單元相關(guān)聯(lián)的關(guān)系來(lái)定義內(nèi)容單元的類型。以前,我們?cè)?0層可視結(jié)構(gòu)中索引內(nèi)容單元以可視屬性。金字塔的頭4個(gè)層對(duì)應(yīng)于語(yǔ)法,而其他6個(gè)層對(duì)應(yīng)于語(yǔ)義。此外,我們將關(guān)系分成兩類語(yǔ)法的和語(yǔ)義的。結(jié)果,我們提出了內(nèi)容單元的兩個(gè)基本類型語(yǔ)法的和語(yǔ)義的單元(見圖5)。語(yǔ)法單元只能具有語(yǔ)法屬性和關(guān)系(如顏色直方圖屬性和空間關(guān)系“在其頂上”);語(yǔ)義單元只能具有語(yǔ)法屬性和關(guān)系(如顏色直方圖屬性和空間關(guān)系“在其頂上”);語(yǔ)義單元不僅能有語(yǔ)義屬性和關(guān)系,還能有語(yǔ)法的屬性和關(guān)系(如一個(gè)對(duì)象能用顏色直方圖和語(yǔ)義標(biāo)記描述符描述)。我們方法不同于當(dāng)前的Generic AV DS在于我們的語(yǔ)義(或高層)單元包括語(yǔ)法和語(yǔ)義信息,解決了語(yǔ)法和語(yǔ)義結(jié)構(gòu)的固定區(qū)分問題。
如圖5所示,我們進(jìn)一步將語(yǔ)法單元分類成區(qū)域,和片段單元。相似地,語(yǔ)義單元能分類成下列語(yǔ)義來(lái)對(duì)象,動(dòng)畫對(duì)象,和事件。區(qū)域和對(duì)象是空間實(shí)體。片段和事件是時(shí)間實(shí)體。最后,動(dòng)畫區(qū)域和動(dòng)畫對(duì)象是混合的空間-時(shí)間實(shí)體。因此我們?cè)谡鹿?jié)中解釋每個(gè)類型。語(yǔ)法實(shí)體語(yǔ)法單元是在圖象或視頻數(shù)據(jù)中的內(nèi)容單元,它只由語(yǔ)法屬性,即類型,全局分布,局部結(jié)構(gòu),或全局組成屬性,來(lái)描述(見圖5)。語(yǔ)法單元只能通過可視關(guān)系與其他單元聯(lián)系。我們進(jìn)一步將語(yǔ)法單元?dú)w類成區(qū)域,動(dòng)畫區(qū)域,和片段單元。這些單元通過承繼關(guān)系從語(yǔ)法單元導(dǎo)出。
區(qū)域單元是一個(gè)純粹的空間實(shí)體,它涉及一個(gè)圖象或一個(gè)視頻的一個(gè)任意的,連續(xù)的或不連續(xù)的一部分。一個(gè)區(qū)域由一組語(yǔ)法屬性和一個(gè)區(qū)域的固定義,它們通過空間和可視關(guān)系聯(lián)系(見圖5)。重要的是指出,組成具有空間,拓?fù)漕愋?。區(qū)域的可能屬性是顏色,紋理,及2D幾何。
片段單元是一個(gè)純粹的時(shí)間實(shí)體,它與一個(gè)視頻序列的任意一組連續(xù)或不連續(xù)的幀聯(lián)系。一個(gè)片段由一組語(yǔ)法特征,和一個(gè)片段圖,動(dòng)畫區(qū)域以及通過時(shí)間和可視關(guān)系聯(lián)系的區(qū)域定義(見圖5)。組成的聯(lián)系具有時(shí)間,拓?fù)漕愋???赡艿钠螌傩允菙z影機(jī)運(yùn)動(dòng),和語(yǔ)法特征。例如圖7中的擊球片段是一個(gè)片段單元,它用一個(gè)持續(xù)期(全局分布,語(yǔ)法的),和形狀表征碼(局部結(jié)構(gòu),語(yǔ)法的)屬性描述。這一片段具有與擊球事件的“包括”關(guān)系(空間一時(shí)間關(guān)系,語(yǔ)法的)。
動(dòng)畫區(qū)域單元是一個(gè)混合的空間一時(shí)間實(shí)體,它涉及一個(gè)視頻的任意設(shè)置幀的任意片段。一個(gè)動(dòng)畫幀由一組語(yǔ)法特征,一個(gè)動(dòng)畫區(qū)域圖和通過組合,空間一時(shí)間關(guān)系,和可視關(guān)系聯(lián)系的區(qū)域定義(見圖5)。動(dòng)畫幀能包含從區(qū)域和段單元來(lái)的任意特征。動(dòng)畫區(qū)域是一個(gè)片段和在同一時(shí)間的區(qū)域。例如,在圖8中的投手區(qū)域是一個(gè)動(dòng)畫區(qū)域,它由一個(gè)縱橫比(全局分布,語(yǔ)法的),一個(gè)形狀表征碼(局部結(jié)構(gòu),語(yǔ)法的),和一個(gè)對(duì)稱性(全局分布,語(yǔ)法的)屬性描述。此動(dòng)畫區(qū)域是在Sand 3區(qū)域“的頂上”(空間時(shí)間關(guān)系,語(yǔ)法的)。語(yǔ)義實(shí)體語(yǔ)義單元是一個(gè)內(nèi)容單元,它不僅由語(yǔ)義特征而且由語(yǔ)法特征描述。語(yǔ)義單元通過語(yǔ)義和可視關(guān)系與其他單元聯(lián)系(見圖5)。因此,我們使用承繼關(guān)系從語(yǔ)法單元導(dǎo)出語(yǔ)義單元。我們進(jìn)一步將語(yǔ)義單元?dú)w類成對(duì)象,動(dòng)畫時(shí)象和事件單元。純粹的語(yǔ)義屬性是標(biāo)記,它通常是文本格式(如6-W語(yǔ)義標(biāo)記,自由文本標(biāo)記)。
一個(gè)對(duì)象單元是一個(gè)語(yǔ)義和空間實(shí)體;它聯(lián)系到一個(gè)圖象的一部分任意或視頻的一個(gè)幀。一個(gè)對(duì)象由一組語(yǔ)法和語(yǔ)義特征,和通過空間(組成是空間關(guān)系),可視的,和語(yǔ)義關(guān)系聯(lián)系的對(duì)象和區(qū)域的圖定義(見圖5)。對(duì)象是一個(gè)區(qū)域。事件單元是一個(gè)語(yǔ)義和時(shí)間的實(shí)體;它涉及一個(gè)視頻序列的一個(gè)任意一段。一個(gè)事件由一組語(yǔ)法和語(yǔ)義特征,和通過時(shí)間(組成是一個(gè)時(shí)間關(guān)系),可視的,和語(yǔ)義關(guān)系聯(lián)系的事件,片段、動(dòng)畫區(qū)域,動(dòng)畫對(duì)象,區(qū)域,及對(duì)象的一個(gè)圖定義。事件是具有語(yǔ)義屬性和關(guān)系的一個(gè)片段。例如,在圖7中的擊球事件是一個(gè)事件單元,它由一個(gè)“擊球”(普通場(chǎng)景,語(yǔ)義的)“由Yankee隊(duì)32號(hào)球員擊球“(特定場(chǎng)景,語(yǔ)義的)和一個(gè)“好策略”(抽象場(chǎng)景,語(yǔ)義的)屬性描述。擊球片段的語(yǔ)法屬性能應(yīng)用于擊球事件(即我們可以不區(qū)分擊球事件和擊球片段,且可以將擊球片段的語(yǔ)法屬性賦予擊球事件)。擊球事件由現(xiàn)場(chǎng)對(duì)象,和投球事件和擊球事件組成,它代表兩個(gè)在擊球事件中的主要?jiǎng)幼?即投球和擊球)。投球事件和擊球事件由一個(gè)“在前面”的關(guān)系(時(shí)間關(guān)系,語(yǔ)法的)相聯(lián)系。
最后,動(dòng)畫對(duì)象單元是一個(gè)語(yǔ)義和空間一時(shí)間實(shí)體;它在任意一組視頻序列幀中與任意一段相聯(lián)系。一個(gè)動(dòng)畫對(duì)象由一組語(yǔ)法和語(yǔ)義特征,和通過組成,空間一時(shí)間,可視,和語(yǔ)義關(guān)系聯(lián)系的動(dòng)畫對(duì)象,動(dòng)畫區(qū)域,區(qū)域和對(duì)象的一個(gè)圖定義(見圖5)。動(dòng)畫對(duì)象是一個(gè)事件,同時(shí)是一個(gè)對(duì)象。例如,在圖8中的投手對(duì)象是一個(gè)通過“男人”(普通對(duì)象,語(yǔ)義的),“Yankee隊(duì)3號(hào)隊(duì)員”(特定對(duì)象,語(yǔ)義的),和一個(gè)“速度”(抽象對(duì)象,語(yǔ)義的)屬性描述的動(dòng)畫對(duì)明。此動(dòng)畫對(duì)象是在圖9中所示的Sand3區(qū)域“的頂部”(空間一時(shí)間關(guān)系,語(yǔ)法的)。投手區(qū)域的語(yǔ)法特征可應(yīng)用于投手對(duì)象。我們?nèi)缭贕eneric AV DS中所規(guī)定的那樣區(qū)分此動(dòng)畫對(duì)象的語(yǔ)法和語(yǔ)義屬性。但是,我們?cè)谶@樣做時(shí)損失了靈活性和有效性,因?yàn)槲覀儼选罢鎸?shí)”對(duì)象的定義散布到不同的單元。
圖5提供了內(nèi)容單元每個(gè)提供的類型的基本模型。屬性、單元,和關(guān)系歸類成下列類別語(yǔ)法的和語(yǔ)義的。語(yǔ)法和語(yǔ)義屬性具有相關(guān)的屬性、層,其值對(duì)應(yīng)于可視結(jié)構(gòu)的有關(guān)的層。語(yǔ)法單元進(jìn)一步分成區(qū)域,片段和動(dòng)畫區(qū)域。語(yǔ)義單元?dú)w類為對(duì)象,動(dòng)畫對(duì)象,和事件類別。
圖6畫出一示例性棒球擊球事件。
圖7按照本發(fā)明提供圖6中棒球比賽的擊球事件的概念描述。
圖8按照本發(fā)明對(duì)圖6中的擊球事件提供擊球和投球事件的概念描述。
圖9按照本發(fā)明對(duì)圖6中的擊球事件提供現(xiàn)場(chǎng)對(duì)象的概念描述。感覺對(duì)概念本發(fā)明也可以結(jié)合在分析和分類圖象的特征時(shí)的感覺的概念來(lái)說明。在索引圖象中一個(gè)內(nèi)在的困難是它們能被分析的方法的數(shù)目。單個(gè)圖象可以表示許多事情,不僅是因?yàn)樗S多信息,而且因?yàn)槲覀冊(cè)谠搱D象中所看到的能映射到許多個(gè)抽象概念。在那些可能的抽象的描述和只根據(jù)該圖象的可視方面更具體的描述之間的區(qū)別構(gòu)成索引中的重要步驟。
在下列章節(jié)中,我們作出感覺和概念之間的區(qū)分。然后我們提供對(duì)語(yǔ)法和語(yǔ)義的定義。并最后討論一般的概念空間及可視概念空間。當(dāng)我們確定我們的索引結(jié)構(gòu)時(shí),在基于內(nèi)容的檢索的范圍內(nèi)這些定義的重要性是顯然的。感覺對(duì)概念映象是信息的多維表示,但是在最基本的層上它們簡(jiǎn)單地引起對(duì)光的響應(yīng)(色調(diào)光或缺乏光)。但是在最復(fù)雜的層上,圖象代表抽象的想法,這在很大程度上取決于每個(gè)人的知識(shí),經(jīng)驗(yàn),甚至特別的心情。我們能作出感覺和概念之間的區(qū)別。
感覺涉及到在明亮的可視系統(tǒng)中我們感官覺察到什么。這些光的圖案產(chǎn)生如紋理和顏色那樣的不同單元的感覺。當(dāng)我們談到感覺時(shí)不發(fā)生解釋過程-不需要知識(shí)。
另一方面,一個(gè)概念關(guān)系到從特定的范例產(chǎn)生的抽象的或普通的概念。這樣,它隱含著背景知識(shí)的使用和對(duì)所覺察事物的內(nèi)去解釋。概念在它取決于個(gè)人的知識(shí)和解釋的意義上是非常抽象的一這趨于非常主觀的。語(yǔ)法和語(yǔ)義以感覺不需解釋相似的方法,語(yǔ)法涉及到可視單元安排的方法而不考慮那樣安排的意義。另一方面,語(yǔ)義處理這些單元的意義和它們的安排的意義。如在下面討論中所示的那樣,語(yǔ)法能涉及某些感性的層一從簡(jiǎn)單的全局顏色和紋理到如線和圓那樣的局部幾何形式。語(yǔ)義也能在不同層次上處理。一般概念對(duì)可視概念這里我們希望強(qiáng)調(diào),一般概念與中視概念是不同的,而且這些可以隨個(gè)人而變化。
作為例子使用一個(gè)球,我們客到雖然一個(gè)可能的一般概念將球描述成一個(gè)圓形物質(zhì),不同的人可有不同的一般概念。一個(gè)排球運(yùn)動(dòng)員可以具有與棒球運(yùn)動(dòng)員不同的球的一概念,因?yàn)槿缟纤鲆粋€(gè)概念隱含背景知識(shí)和解釋。對(duì)不同的個(gè)人,自然具有非常不同的概念的解釋(或在此情況對(duì)實(shí)際對(duì)象的解釋)。我們將概念區(qū)分成一般概念和可視概念??梢哉J(rèn)識(shí)到,用于球的一般概念和可視概念的屬性是不同的(可以命名用規(guī)則描述概念,但我們恰恰使用屬性來(lái)簡(jiǎn)化此解釋)。
這些定義是有用的,因?yàn)樗鼈冎赋隽嗽诨趦?nèi)容的檢索中非常重要的結(jié)果不同的用戶具有不同的概念(甚至簡(jiǎn)單對(duì)象的概念),而且甚至簡(jiǎn)單的對(duì)象一能在不同的概念層上看。尤其是,在一般概念(即幫助回答問題它是什么?)和可視概念(即幫助回答問題它看來(lái)象什么?)之間有重要的區(qū)別,而且在設(shè)計(jì)一個(gè)圖象數(shù)據(jù)庫(kù)時(shí)必須予以考慮。我們將這些想法應(yīng)用于構(gòu)造我們的索引結(jié)構(gòu)。概念的分類結(jié)構(gòu)可以根據(jù)感覺的結(jié)構(gòu)??梢暸c非可視的內(nèi)容如在前面章節(jié)中已知,有很多信息層出現(xiàn)在圖象中,且當(dāng)將它們組織到數(shù)字庫(kù)中時(shí)必須考慮它們的多維體。專建立一個(gè)概念性的索引結(jié)構(gòu)中的第一步是在可視與非可視內(nèi)容之間作出區(qū)別。映象的可視內(nèi)容對(duì)應(yīng)于在觀察該映象時(shí)直接感覺到的事物(即由所討論的映象或視頻的可視內(nèi)容直接激發(fā)的描述符一線,形,顏色,物體等)。非可視的內(nèi)容對(duì)應(yīng)于與該圖象密切相關(guān)但不是明顯由其外表給出的信息。如在繪畫中,價(jià)格,當(dāng)前的擁有者等屬于非一可視類別。接著我們對(duì)圖象的可視內(nèi)容提出一個(gè)索引結(jié)構(gòu),并隨后是非可視信息的結(jié)構(gòu)??梢晝?nèi)容隨后的分析的每個(gè)層次僅從圖象獲得。觀察者的知識(shí)永遠(yuǎn)起作用,但是這里的一般規(guī)則是,不是明顯從圖象獲得的信息不進(jìn)入此類別(如一張畫的價(jià)格不是可視內(nèi)容的部分)。換言之,對(duì)可視由容使用的任何描述符是由所討論的圖象或視頻的可視內(nèi)容所激發(fā)。
我們的可視結(jié)構(gòu)包括10層頭4層涉及語(yǔ)法,余下6層涉及語(yǔ)義。此外,1到4層直接聯(lián)系到感覺,5到10層聯(lián)系到可視概念。雖然這些劃分中的某些是不嚴(yán)格的,應(yīng)該考慮它們,因?yàn)樗鼈冊(cè)诶斫庥脩羲阉魇裁匆约八麄內(nèi)绾味葓D在數(shù)據(jù)庫(kù)中尋找它方面具有直接的影響。他們也強(qiáng)調(diào)根據(jù)所需的知識(shí)不同索引技術(shù)(人工或自動(dòng)的)的限制。在圖3中給出該結(jié)構(gòu)的一個(gè)概貌。從上到下觀察此圖,很清楚,在金字塔的較低層需要較多的知識(shí)和信息來(lái)完成索引。每層的寬度給出所需的知識(shí)量的指示,例如在一場(chǎng)景中命名特定對(duì)象需要更多的知識(shí)。每層在下面解釋,且其后出現(xiàn)各層之間關(guān)系的討論。
觀察此結(jié)構(gòu),明確的是大多數(shù)的基于內(nèi)容的檢索的努力集中在語(yǔ)法上(即,到4層)。但是完成在5至10層的語(yǔ)義分類的技術(shù)是非常希望的。我們提出的結(jié)構(gòu)幫助識(shí)別由特定技術(shù)處理或由給定的描述(如MPEG-7標(biāo)記)提供的屬性的層次。類型/技術(shù)在最基本的層我們的興趣在于映象或視頻序列的一般可視特征。映象或視頻序列的類型的描述或用于產(chǎn)生此描述的技術(shù)是非常一般,但證明具有很大的重要性。例如映象可以放入如繪圖,黑與白(b&w),彩色照片,素描那樣的類別。在此層的有關(guān)分類型式已在概念上作出,并在WebSEEK中自動(dòng)做。
在數(shù)字照相的情況,兩個(gè)主要類別可以是彩色和灰度,帶有影響一般可視特征的附加類別/描述。這些能包括顏色數(shù)目,壓縮型式,分辨率等。我們注意到,這些中某些可以與這黑描述的非可視索引狀況有某些重疊。全局分部在前一層中類型/技術(shù)給出有關(guān)映象或視頻序列的可視特征的一般信息,但只給出有關(guān)可視內(nèi)容的很少信息。全局分布目的在于根據(jù)圖象或視頻序列的全局內(nèi)容將其分類,并借助如色譜的敏感性(顏色),和頻率的敏感性(紋理)那樣的低層感覺特征來(lái)測(cè)量。在此層不處理內(nèi)容的單獨(dú)部分(即在測(cè)量是全局性進(jìn)行的意義上對(duì)這些分布不給出“形式-form”)。因此,全局分布特征可以包括全局顏色(如主色調(diào),對(duì)比度),全局形狀(如縱橫比),全局運(yùn)動(dòng)(如速度,加速度,和軌跡),和時(shí)間/空間尺度(如空間面積和時(shí)間尺度),及其他。例如,考慮兩個(gè)具有類似紋理/顏色的圖象。在這特定的情況注意到,這些屬性十分有用,但如果用戶要搜索一個(gè)對(duì)象,它們就不那么有用。
雖然這些測(cè)量中的某些對(duì)一個(gè)觀察者而量難以量化,這些全局低層層特征已經(jīng)成功地用于各種基于內(nèi)容的檢索系統(tǒng)來(lái)實(shí)現(xiàn)范例查詢(QBIC,WebSEEK,Virage),并用于組織數(shù)據(jù)庫(kù)的內(nèi)容,用于瀏覽。局部結(jié)構(gòu)與不提供有關(guān)映象和視頻序列的各單獨(dú)部分的任何信息的全局結(jié)構(gòu)相反,局部結(jié)構(gòu)層關(guān)注映象的各部分的提取和特征。在最基本層上,那些部分從低層處理導(dǎo)出,并包括如點(diǎn),線,包調(diào),顏色和紋理。在Visual Literacy文獻(xiàn)中,上述中某些被稱作為可視通信的“基本單元”并認(rèn)為是基本語(yǔ)法符號(hào)。局部結(jié)構(gòu)屬性的另外例子是時(shí)間/空間位置(如起始時(shí)間)及(重心),局部顏色(如MXN布局),局部運(yùn)動(dòng),局部變形,和局部形狀/2D幾何(如邊界框)。有各種圖象,其中這些類型的屬性是重要的。在X射線和顯微鏡的圖象中常常著重關(guān)注局部細(xì)節(jié)。那些單元也已用在基于內(nèi)容的檢索系統(tǒng)中,主要在按用戶草圖詢問的接口上。這里不關(guān)心對(duì)象,而是關(guān)心表示它們的基本單元及這種單元的組合,例如,一個(gè)正方形由4條線組成。在此意義上,我們此處能包括某些“基本形狀”,如圓,橢圓和多邊形。注意,這能考慮成人們?cè)诟杏X到可視信息時(shí)完成的非?;镜摹胺纸M”的層。全局組成在此層我們的興趣在于由局部結(jié)局給出的基本單元的特定安排,但重點(diǎn)是在全局組成。換言之,我們將映象作為整體分析,但使用上述的基本單元(線,圓等)于分析。
全局組成討論在映象中單元的安排或空間布局。業(yè)內(nèi)的傳統(tǒng)分析描述如平衡,對(duì)稱,興趣中心(如注意力中心或焦點(diǎn)),主線,視角等。但是在此層沒有特定對(duì)象的知識(shí);只考慮基本單元(即點(diǎn),線等)及其組合。在此意義上,一個(gè)圖象的視圖被簡(jiǎn)化成只包含基本語(yǔ)法符號(hào)的圖象一個(gè)圖象由線,圓,方塊等構(gòu)成的組表示。普通對(duì)象直到上一層,強(qiáng)調(diào)的是圖象的感覺方面。在上面任何層上不需要現(xiàn)實(shí)世界的知識(shí)來(lái)實(shí)現(xiàn)索引,而且自動(dòng)化技術(shù)只依賴于低層處理。雖然對(duì)自動(dòng)索引和分類這是個(gè)優(yōu)點(diǎn),研究證明人類主要使用高層屬性描述,分類,和搜索圖象。對(duì)象是特別重要,但它們?cè)诓煌瑢右卜旁陬悇e中-一個(gè)蘋果能歸類成Macintosh蘋果,蘋果,或水果。當(dāng)談到普通對(duì)象,我們著重于基本層分類對(duì)象描述的最一般層。在業(yè)內(nèi)的研究中,此層對(duì)應(yīng)于預(yù)圖解(Pre-Iconography),且在信息科學(xué)中稱它為層的屬(generic)。在這些概念和我們的普通對(duì)象的定義的共同基礎(chǔ)想法是,為識(shí)別對(duì)象只需要一般的日常知識(shí)。例如,Macintosh蘋果應(yīng)歸類成此層的蘋果即是那個(gè)對(duì)象的最一般的描述層。
在我們的定義和業(yè)內(nèi)以前使用的定義之間的可能差別基于下述事實(shí),我們將可視對(duì)象定義為能見到的實(shí)體,某些時(shí)候不同于對(duì)象的傳統(tǒng)定義。象天空或海洋那樣的對(duì)象在傳統(tǒng)定義下可能不認(rèn)為是對(duì)象,但對(duì)應(yīng)于我們的可視對(duì)象(以及象汽車,房子等的傳統(tǒng)對(duì)象)。普通場(chǎng)景正象一個(gè)圖象能按照出現(xiàn)在其中的單個(gè)對(duì)象來(lái)索引那樣,有可能根據(jù)它包含的所有對(duì)象組和它們的安排作為整體來(lái)索引該圖象。場(chǎng)景類型的例子包括城市,風(fēng)景,室內(nèi),室外,靜止生物,肖象等。在自動(dòng)場(chǎng)景分類的某些工作已經(jīng)完成,而且在基本場(chǎng)景分類的研究也存在。
此層的準(zhǔn)則是只需要一般知識(shí)。為確定是一個(gè)城市的場(chǎng)景不必要知道特定的街道或建筑物的名稱,為確定是一個(gè)肖象不需要知道人物的名字。特定對(duì)象與以前的層相反,特定對(duì)象討論能被識(shí)別和命名的對(duì)象。Shatford稱此層為在圖象中的對(duì)象需要的特定知識(shí)的細(xì)節(jié)(Specific),而且那樣的知識(shí)往往是客觀的,因?yàn)樗蕾囈阎氖聦?shí)。例子包括個(gè)人和對(duì)象。特定場(chǎng)景此層模擬一般場(chǎng)景,基差別在于有關(guān)于場(chǎng)景的特定知識(shí)。雖然在映象中的不同對(duì)象以不同的方式用于確定該圖象描畫出的一個(gè)特定場(chǎng)景,有時(shí)單元個(gè)對(duì)象已足夠。例如,一個(gè)清楚顯示埃菲爾鐵塔的照片能歸類成巴黎的場(chǎng)景,它只根據(jù)那個(gè)對(duì)象。抽象對(duì)象在此層,使用有關(guān)該對(duì)象代表什么的專門的或解釋性的知識(shí)。這在業(yè)內(nèi)稱之為Iconology(解釋)或大約(about)層。它是完全主觀的且在不同用戶之間的評(píng)估變化很大,在此意義下此索引層是最困難的層。此層的重要性在實(shí)驗(yàn)中示出,其中觀察者使用抽象的屬性描述映象。例如,照片中的一個(gè)女人對(duì)一個(gè)觀察者可以表示憤怒,對(duì)另一個(gè)觀察者多半是憂郁。抽象場(chǎng)景抽象場(chǎng)景討論圖象作為整體表示什么。這是非常主觀的。有時(shí)用戶以感情的(如情緒)或抽象的(如氣氛,主題)術(shù)語(yǔ)描述映象。在抽象場(chǎng)景層的其他例子包括悲傷、幸福、權(quán)力、天堂和樂園。層之間的關(guān)系我們已選擇了金字塔表示,因?yàn)樗苯臃从沉嗽谖覀兘Y(jié)構(gòu)中固有的某些重要的結(jié)果。很清楚,在金字塔的較低層為了完成索引需要更多的知識(shí)和信息。此知識(shí)是由每層的寬度表示。但是,重要的是指出,此假設(shè)可以具有某些例外。例如,一個(gè)通常的觀察者可以不能夠確定用于創(chuàng)作一幅畫的技術(shù),但是一個(gè)在藝術(shù)領(lǐng)域內(nèi)的專家能夠精確地確定使用什么。在此特定情況的索引在類型/技術(shù)層需要的知識(shí)比在普通對(duì)象層的要多(因?yàn)樾枰嘘P(guān)藝術(shù)技術(shù)的專門知識(shí))。但是,在大多數(shù)情況為了索引所需要的知識(shí)在我們的結(jié)構(gòu)中從頂層到底層增加識(shí)別一個(gè)特定的場(chǎng)景(如紐約的中央公園)比確定普通場(chǎng)景層(如公園)需要更多的知識(shí)。
雖然層間的依賴關(guān)系存存,當(dāng)觀察一個(gè)圖象時(shí)每一層可以看作獨(dú)立的景象或范圍,而且處理每一層的方法取決于數(shù)據(jù)庫(kù),用戶和目的本質(zhì)。可視內(nèi)容關(guān)系在本章節(jié)中我們簡(jiǎn)單地提出對(duì)象映象單元之間的關(guān)系的表示。此結(jié)構(gòu)適應(yīng)不同層次的關(guān)第,且基于以前提出的可視結(jié)構(gòu)。我們注意到,某些層次上的關(guān)系在應(yīng)用于實(shí)施結(jié)構(gòu)的實(shí)體之間時(shí)(如從不同圖象的場(chǎng)景可以比較)最為有用。在每層中的單元按照兩類關(guān)系聯(lián)系語(yǔ)法與語(yǔ)義(只對(duì)5到10層)。例如,兩個(gè)圓(局部結(jié)構(gòu))可以空間上(如相鄰),時(shí)間上(如在前)和/或視覺上(如更黑)相聯(lián)系。在語(yǔ)義層的單元(如對(duì)象)可以具有語(yǔ)法和語(yǔ)義的關(guān)系(如兩個(gè)人互相挨著,他們是朋友)。此外,每個(gè)關(guān)系能在不同的層(普通的,特定的,和抽象的)上描述。我們注意到,在層1,6,8和10之間的關(guān)系在由結(jié)構(gòu)表示的實(shí)體之間(如在圖象之間,在圖象的各部分之間,在場(chǎng)景之間等)最有用。
可視結(jié)構(gòu)能分成語(yǔ)法/感覺和可視概念/語(yǔ)義。為表示關(guān)系,我們觀察那樣的劃分并考慮如下(1)一個(gè)對(duì)象的知識(shí)包含對(duì)象空間尺寸的知識(shí),即它在空間中典型的,可能的,或?qū)嶋H的延伸的可分等及的特征;(2)空間知識(shí)隱含某結(jié)座標(biāo)軸系的可用性,后者確定空間中對(duì)象之間某些尺寸和距離的指示。我們用此表明發(fā)生在可視結(jié)構(gòu)語(yǔ)法層中的關(guān)系只能發(fā)生在2D空間,因?yàn)椴淮嬖趯?duì)象的知識(shí)(即不能確定在3D空間中的關(guān)系)。例如,在局部結(jié)構(gòu)層只考慮可視識(shí)別能力(Literacy)的基本單元,所以在那層上的關(guān)系只在這種單元之間考慮(即它不包括3D信息)。但是在5到10層的單元之間的關(guān)系能按照2D或3D描述。
以類似的方法,關(guān)系本身劃分成語(yǔ)法(即與感覺有關(guān))類和語(yǔ)義(即與意義有關(guān))類。語(yǔ)法關(guān)系可以發(fā)生在任何層的單元之間,但語(yǔ)義關(guān)系只能發(fā)在5到10層的單元之間。例如,繪畫中不同顏色之間語(yǔ)義關(guān)系能被確定(如顏色混合是暖色調(diào)-warm),但我們不把這些包括在我們的模型層上。
我們將空間關(guān)系劃分成下列類(1)拓?fù)涞?即單元的邊界如何聯(lián)系)和(2)取向的(即單元如何互相有關(guān)地放量)。拓?fù)潢P(guān)系包括近、遠(yuǎn)、接觸等,取向的關(guān)系包括與之針對(duì),在其前面等。
時(shí)間關(guān)系討論單元在時(shí)間方面的連接(如在視頻中包括在前,在后,其間,等)。而可視關(guān)系討論可視特征(如蘭,黑,等)。語(yǔ)義關(guān)系與意義相聯(lián)系(如其主人,其朋友,等)。
以類似于可視結(jié)構(gòu)單元具有不同層(普通,特定,抽象)的方法可視聯(lián)系能在不同層上定義。語(yǔ)法關(guān)系可以是普通的(如近)或特定的(如數(shù)字距離測(cè)量)。語(yǔ)義關(guān)系可以是普通,特定,或抽象。
作為一個(gè)例子,空間的全局分布可用距離直方圖表示,局部結(jié)構(gòu)用局部構(gòu)成部分之間的關(guān)系(如可視單元之間的距離)表示,全局組成由可視單元之間的全局關(guān)系表示。非可視信息如在本章節(jié)開始所說明的那樣,非可視信息討論不直接是圖象一部分但以某種方式與其相關(guān)的信息。人們可以將屬性劃分成傳記的和關(guān)系的屬性。雖然對(duì)非可視信息可能由聲音,文字,超鏈接文本等組成,這里我們的目的是提出一個(gè)對(duì)索引給出一般準(zhǔn)則的簡(jiǎn)單準(zhǔn)則,我們簡(jiǎn)單地只集中在文本信息。圖10給出此結(jié)構(gòu)的概貌。傳記的信息真實(shí)抽象的來(lái)源可以是直接的(如自然景色的照片)或間接的(如雕塑,繪畫,建筑物、圖畫的圖象)。在兩種情況可以有傳記信息與圖象相聯(lián)系。在兩種情況可以有傳記信息與圖象相聯(lián)系。此信息本身能對(duì)圖象中的若干對(duì)象重復(fù)(如羅馬西斯廷教堂的天花板可以具有關(guān)繪畫和教堂本身的信息),只存在于該圖象,或完全不存在。在大多數(shù)情況,傳記信息不直接關(guān)系到該圖象的主題,而關(guān)系到作為整體的圖象。例子包含作者,日期,標(biāo)題,素材,技術(shù)等。有關(guān)信息非可視信息的第二類直接以某種方式與圖象連接。有關(guān)的信息包含字幕,文章,聲音記錄等。
如上討論,在許多情況此信息有助于實(shí)現(xiàn)在可視結(jié)構(gòu)中的某些索引,因?yàn)樗嘘P(guān)在映象中畫什么(即主題)的特定信息。在此情況,它在語(yǔ)義層一般非常有用,因?yàn)檎Z(yǔ)義層需要通常只在圖象中不出現(xiàn)的更多的知識(shí)。但是,在某些情況,該信息不直接聯(lián)系該圖象的主題,而是以某種方式上該圖象相關(guān)。例如,一個(gè)伴隨著肖象的聲音記錄可以包括與所畫的人物毫無(wú)關(guān)系的聲音,雖然它們與該圖象聯(lián)系關(guān)且若需要的許可以被索引。物理屬性物理屬性簡(jiǎn)單地關(guān)系到對(duì)作為一個(gè)物理對(duì)象的映象必須做的事。這可以包括圖象的位置,原始來(lái)源的位置,存儲(chǔ)(如大小,壓縮)等。在索引結(jié)構(gòu)之間的關(guān)系我們定義了一個(gè)語(yǔ)義信息表來(lái)匯集有關(guān)圖象的高層信息(見圖11)。此表能用于各個(gè)對(duì)象,對(duì)象組,整個(gè)場(chǎng)景,或圖象的各部分。在大多數(shù)情況可視及非可視住處被用于填入表內(nèi),單從可視內(nèi)容可能不容易確定如室內(nèi)/室外那樣簡(jiǎn)單的場(chǎng)景類別;位置在映象中不明顯等。各個(gè)對(duì)象能根據(jù)非可視住處分類及命名,用于在可視對(duì)象和要領(lǐng)對(duì)象之間的映射。
在圖11中,可視與非可視住處能用于在語(yǔ)義上表征一個(gè)圖象或其各部分。這兩個(gè)形式住處用于回答語(yǔ)義表中的問題的方式可隨內(nèi)容而變。該表有助于回答軺下列的問題主題是什么(人物/對(duì)象等)?主題在做什么?主題在哪里?何時(shí)做?為什么做?該表能用于各個(gè)別對(duì)象,對(duì)象組,整個(gè)場(chǎng)景,或圖象的各部分。
當(dāng)?shù)迷摫響?yīng)用于從5層開始的每一層時(shí),在此結(jié)構(gòu)與可視結(jié)構(gòu)之間的關(guān)系十分明白。我們也注意到,該表提供了關(guān)于圖象的某些住處的緊湊表示,它不替代所提出的索引結(jié)構(gòu)。結(jié)構(gòu)組提供最完全的描述。
有了合適的索引結(jié)構(gòu),我們能著眼于如何能組織一個(gè)數(shù)字庫(kù)的內(nèi)容。在下一章節(jié)中,我們分析在組織和檢索圖象中起關(guān)鍵作用的問題。特征,相似性和歸類為了成功地建立圖象數(shù)字庫(kù),不僅重要的是理解數(shù)據(jù),而且要理解人們關(guān)一類的論點(diǎn)。在本章節(jié)中我們討論在這方面重要的論點(diǎn),并解釋我們是怎樣應(yīng)用此要領(lǐng)于建立我們的圖象索引試驗(yàn)基地。首先我們討論歸類。然后,我們討論在歸類中的層和結(jié)構(gòu)。最后我們提出有關(guān)屬性和相似性的某些論點(diǎn)。歸類和分類歸類可以定義為將一組實(shí)體作為等價(jià)的處理。類是實(shí)體或要領(lǐng)所屬的若干基本的和不同的分類,在類內(nèi)的實(shí)體看來(lái)更相似,而類之間的實(shí)體不那么相似。但是在歸類以前,重要的是對(duì)歸類的數(shù)據(jù)的本質(zhì)有一個(gè)理解。我們現(xiàn)集中討論能夠使用的類的類型。在分類的文獻(xiàn)中,研究者已識(shí)別兩種類(1)敏感的感覺類(如紋理,顏色或說話聲音/e/),和(2)普通知識(shí)(GK)類(如自然類—鳥,人造物—汽車,和事件—吃)。
在我們的結(jié)構(gòu)中我們識(shí)別如顏色和紋理那樣的敏感的感覺。但是GK類起了非常重要的作用,因?yàn)橛脩糁饕P(guān)心出現(xiàn)在映象上的對(duì)象以及那個(gè)對(duì)象表示什么。認(rèn)識(shí)心理學(xué)中的某些理論表示在GK類中的分類是如下做的規(guī)則使用實(shí)體的屬性值(如,規(guī)則在人們的類別中的一個(gè)圖像應(yīng)有人在其中)。
原型類別的原型包括其類別的模型的特征屬性。這此進(jìn)貫穿于類別成員之間最可能發(fā)生的屬性,但對(duì)類別的全體成既不必要也不充分。一個(gè)新的圖象根據(jù)它如何類似于該類的原形來(lái)分類(如風(fēng)景類的原型能是簡(jiǎn)單的日落的素描)。
模型按其最類似的模型的類分類的實(shí)例(如,替代對(duì)人的類別有一個(gè)規(guī)則的方法,我們可以在那上類中有一組例子圖象,并使用那些于分類)。
借助于將映象組織到一個(gè)數(shù)據(jù)庫(kù)此論據(jù)是有用的,因?yàn)槲覀兡苁褂么思夹g(shù)來(lái)實(shí)現(xiàn)分類,并將結(jié)果提供給用戶。這些要領(lǐng)已被用于開發(fā)我們的圖像索引試驗(yàn)基本中。類結(jié)構(gòu)類結(jié)構(gòu)是數(shù)字庫(kù)中的關(guān)鍵因素,并引起若干重要的議題,在此我們簡(jiǎn)單的討論。應(yīng)考慮下列議題在類之間的關(guān)系(如層次關(guān)系或?qū)嶓w關(guān)系),實(shí)現(xiàn)分類的抽象層(如由Rosch研究的)暗示者存在基本層和下級(jí)/上級(jí)層類,水平類結(jié)構(gòu)(即每個(gè)類應(yīng)如何被組織且大每個(gè)類中單元的全體成員的程度能是模糊的或二進(jìn)制的)等。
除了在索引可視信息時(shí)考慮不同的分析層次以外,測(cè)量相似性的方法是很重要的。有關(guān)相似性測(cè)量的問題包括考慮的層次(如部分對(duì)全體),審查的屬性,屬性的類型(如我們結(jié)構(gòu)的層),整個(gè)范圍是否可分等。圖象索引試驗(yàn)基地我們開發(fā)了一個(gè)圖象索引試驗(yàn)基地,它包含了這里提出的要領(lǐng),根據(jù)這里列出的結(jié)構(gòu)使用不同的技術(shù)索引圖象。尤其是對(duì)類型/技術(shù)層我們使用了辨別分析。對(duì)于全局分布層我們使用全局顏色直方圖及Tamura紋理測(cè)量。在局部結(jié)構(gòu)層,通過使用自動(dòng)分段以及相緣變換及投影直方釁的多驚訝分段彎曲直方圖我們能如VideoQ中那樣進(jìn)行草圖查詢。通過完成自動(dòng)分段和合并產(chǎn)生的區(qū)域得到圖象的圖標(biāo)表示而獲得全局組成。
使用Visual Apprentice(可視學(xué)徒工)自動(dòng)檢測(cè)普通對(duì)象。在VisualApprentice中通過定義一個(gè)對(duì)象定義層次(即規(guī)定一個(gè)對(duì)象及其各部分的模型),并提供帶有例子的系統(tǒng)建立可視對(duì)象檢測(cè)器。由在層次結(jié)構(gòu)中不同層次(區(qū)域,感覺的,對(duì)象部分,和對(duì)象)的系統(tǒng)自動(dòng)學(xué)會(huì)多重分類器,并在實(shí)現(xiàn)自動(dòng)分類時(shí)自動(dòng)選擇最好的分類器并被組合。我們也使用AMOS系統(tǒng)實(shí)現(xiàn)對(duì)象的人工標(biāo)記及對(duì)象的搜索。
在普通場(chǎng)景層我們完成城市對(duì)風(fēng)景以及室外對(duì)室內(nèi)的分類。這可以利用OF*IIF技術(shù)自動(dòng)地做,OF*IIF技術(shù)結(jié)合如可供使用的紋理特征(如從圖象的標(biāo)題)及專門的對(duì)象檢測(cè)器(如面部或天空檢測(cè)器)實(shí)現(xiàn)圖象區(qū)域的聚類及分類。
有關(guān)特定對(duì)象的場(chǎng)景的住處使用一個(gè)提取人,地方等的名字的系統(tǒng),從有關(guān)的住處獲得。在抽象層的標(biāo)記進(jìn)行時(shí)用人工完成的。聲頻本發(fā)明的優(yōu)點(diǎn)的另一個(gè)說明性討論通過列出它結(jié)合表示聲頻內(nèi)容的數(shù)字信號(hào)的使用的一個(gè)范例描述而得到。
我們以前提出索引圖象的可視性內(nèi)容單元(如區(qū)域,整個(gè)映象,事件等)的一個(gè)10層概念結(jié)構(gòu)。在那個(gè)工作的分類只涉及用于視頻內(nèi)容的描述符(即本意不是對(duì)“元數(shù)據(jù)”的,例如,拍照人的名字不是可視描述符)。
在本文中,我們提出根據(jù)以前提出的10層概念結(jié)構(gòu)分類聲頻描述符(被包括在標(biāo)準(zhǔn)的MPEG-7聲頻部分)。我們提出的金字搭結(jié)構(gòu)包括與以前結(jié)合圖3和圖4描述的可視性結(jié)構(gòu)恰恰相同的層次。但是每個(gè)層次涉及聲頻單元而非可視單元。在原始結(jié)構(gòu)中,一個(gè)對(duì)象對(duì)應(yīng)一個(gè)可視實(shí)體。在新的結(jié)構(gòu)中,一個(gè)對(duì)象對(duì)應(yīng)一個(gè)聲頻實(shí)體(如人的語(yǔ)音)。
在語(yǔ)法和語(yǔ)義之間區(qū)分的重要性廣泛地被研究者在圖象和視頻索引的領(lǐng)域認(rèn)識(shí)到。雖然我們未覺察到對(duì)聲頻內(nèi)容相似的研究,從考查的研究得出的結(jié)果建議,此區(qū)分在聲頻索引方面很有用。例如,在住處檢索和認(rèn)識(shí)心重 學(xué)方面的研究已同個(gè)人如何使用不同的層描述(或索引)圖象/對(duì)象。雖然我們提出的某些劃分不嚴(yán)格,應(yīng)該予以考慮這些劃分,因?yàn)樗鼈冊(cè)谌绾嗡饕?、處理聲頻內(nèi)容并將那樣的內(nèi)容向用戶(如應(yīng)用或觀察者)表示方面具有直接的影響。
以前對(duì)可視屬性提出的結(jié)構(gòu)吸引了有關(guān)圖象索引的不同領(lǐng)域的研究,它也提供了能容易地應(yīng)用于聲頻的緊湊并有組織的分類。該結(jié)構(gòu)是直覺的和高度起作用的,并強(qiáng)調(diào)需要,需求和不同索引技術(shù)(人工和自動(dòng))的限制。例如,對(duì)聲頻段的索引代價(jià)(計(jì)算的或以所化人力)通常在金字塔的較低層較高自動(dòng)確定內(nèi)容的類型(音樂還是聲音),相對(duì)識(shí)別普通對(duì)象(如男人的聲音),相對(duì)壹對(duì)象(如比爾·克林頓的聲音)。這也隱含著,在較低層需要較多的住處/知識(shí),而且如果一個(gè)用戶(如應(yīng)用)對(duì)另一個(gè)用戶(如應(yīng)用)作出一請(qǐng)求,有一個(gè)清晰度問題,牽涉及需要多少附加信息,或一個(gè)用戶從如5層聲頻分類器期望什么級(jí)別的“服務(wù)”。此外,屬性和關(guān)系的此等分解具有很大價(jià)值,因?yàn)槿藗兘?jīng)常根據(jù)屬性作出比較。所提出的結(jié)構(gòu)的好處已在對(duì)視頻內(nèi)容的基本實(shí)驗(yàn)中示出,且已經(jīng)作出進(jìn)行核心實(shí)驗(yàn)的努力。這些實(shí)驗(yàn)以及允許對(duì)聲頻索引的該結(jié)構(gòu)的使用的靈活性意味著將這類描述符分類應(yīng)到聲頻和視頻內(nèi)容的好處。
在此例中我們描述了聲頻屬性的分類。我們也描述聲頻的關(guān)系。描述符的分類該提出的聲頻結(jié)構(gòu)包含10層頭4層涉及語(yǔ)法,而余下6層涉及語(yǔ)義。聲頻結(jié)構(gòu)的概貌語(yǔ)法,而余下6層涉及語(yǔ)義。聲頻結(jié)構(gòu)的概貌能從圖3得出。每層的寬度是所需的知識(shí)/信息量的指示。語(yǔ)法層是類型/技術(shù),全局分布,局部結(jié)構(gòu),和全局組成。語(yǔ)義層是普通對(duì)象,普通場(chǎng)景,特定對(duì)象,特定場(chǎng)景,抽象對(duì)象,和抽象場(chǎng)景。
語(yǔ)法層分類語(yǔ)法描述符,即通過低層特征描述內(nèi)容的那些描述符。在可視結(jié)構(gòu)中這些涉及出現(xiàn)在映象中的顏色和紋理。在本文的聲頻結(jié)構(gòu)中這些涉及聲頻信號(hào)的低層特征(它是音樂還是語(yǔ)音等)。例子包括基頻,諧音峰值等。
可視結(jié)構(gòu)的語(yǔ)義層分類了有關(guān)對(duì)象和場(chǎng)景的屬性。在聲頻結(jié)構(gòu)的語(yǔ)義層是類似的,其差別在于分類是基于從聲頻信號(hào)本身提取的屬性。如在可視情況一樣,在聲頻情況有可能識(shí)別對(duì)象(如男人的語(yǔ)音,小號(hào)的聲音等)和場(chǎng)景(如街上噪聲,歌劇,等)。
可視結(jié)構(gòu)的每層是類似的以前已經(jīng)予以解釋。接著,我們簡(jiǎn)單地解釋每層,并描述它如何能用于聲頻描述符的分類。我們可交換地使用詞屬性和描述符,并對(duì)每一層給出直觀的例子,作出與可視結(jié)構(gòu)的模仿以幫助闡明此解釋。對(duì)于語(yǔ)義層設(shè)想典型的無(wú)線電新聞廣播是有用的,其中不同的實(shí)體可交換地使用個(gè)人,噪音,音樂,和場(chǎng)景(如在現(xiàn)場(chǎng)報(bào)導(dǎo),在記者報(bào)導(dǎo)前,后或期間常聽到背景噪音或音樂)。類型/技術(shù)聲頻序列的類型的一般描述。例如音樂,噪聲,語(yǔ)音或它們的任意組合;立體聲,聲道數(shù),等。全局分布描述聲頻的全局內(nèi)容的屬性,通過低層特征測(cè)量。在此層的屬性是全局的,因?yàn)樗鼈儾簧婕靶盘?hào)的各個(gè)別分量而涉及全局的描述。例如,一個(gè)信號(hào)可以描述成高斯噪音,這種描述是全局性的,因?yàn)樗豢紤]任何局部分量(如什么單元或低層特征描述此噪聲信號(hào))。局部結(jié)構(gòu)涉及在聲頻段中各個(gè)低層語(yǔ)法部的提取和特征。與以前的層相反,這里的屬性意味著描述信號(hào)的的局部結(jié)構(gòu)。在一圖象中,局部單元由在該圖象中出現(xiàn)的基本語(yǔ)法符號(hào)給出(如線,圓等)。此層在聲頻中用作同樣的功能,所以任何低層(即不是如單詞說話內(nèi)容中的字母那樣語(yǔ)義的)局部描述符應(yīng)在此層分類。全局組成根據(jù)基本單元(即局部結(jié)構(gòu)描述符)的特定安排或組成的一個(gè)聲頻片段的全局描述。雖然局部結(jié)構(gòu)著眼于聲頻的特定局部特征,全局組成著眼于局部單元的結(jié)構(gòu)(如它們是如何安排的)。例如,一個(gè)聲頻序列可用馬爾科夫鍵表示(建模),或用任何其他使用低層局部特征的結(jié)構(gòu)表示。普通對(duì)象直到前一層,為實(shí)現(xiàn)索引不需大量的知識(shí),定量特能自動(dòng)從聲頻片段提取并分類成所描述的語(yǔ)法層,但是,當(dāng)前聲頻片段借助語(yǔ)義(如認(rèn)識(shí))描述時(shí),對(duì)象起了重要的作用。然而,對(duì)象能放在不同層次的類別中,一個(gè)蘋果能分類成,Macintosh蘋果,蘋果,或水果。能基于聲頻片段識(shí)別一個(gè)對(duì)象,因而我們能作出相似的分類。例如,我們能說一個(gè)聲頻實(shí)體(如語(yǔ)音)對(duì)應(yīng)一個(gè)男人,或?qū)?yīng)比爾.克林頓。在討論普通對(duì)象時(shí),我們的興趣在于基本層類別這是用日常知識(shí)能識(shí)別的對(duì)象描述的最一般的層。這就意味著沒有所談?wù)摰膶?duì)象的特定識(shí)別的知識(shí)(如爆炸聲,雨聲,敲擊聲,男人的語(yǔ)音,女人的語(yǔ)音等)。能在此層分類聲頻實(shí)體描述符。一般場(chǎng)景正如聲頻片段能按照各個(gè)對(duì)象索引,也可能根據(jù)其它包含的所有對(duì)象的集以及它們的安排作為整體索引該聲頻片段。聲頻場(chǎng)景類的例子包括街道噪聲,運(yùn)動(dòng)場(chǎng),辦公室,人們交談,音樂會(huì),新聞編輯室等。這層的準(zhǔn)則是只需要一般知識(shí)。不需要識(shí)別特定的聲頻實(shí)體(如是誰(shuí)的語(yǔ)音),或特定的聲頻場(chǎng)景(如是哪個(gè)音樂會(huì))來(lái)獲得在此層的描述符。特定對(duì)象與以前的層相反,特定對(duì)象涉及已識(shí)別及已命名的聲頻實(shí)體。需要特定的知識(shí),且那樣的知識(shí)通常是客觀的,因?yàn)樗蕾囈阎氖聦?shí),在此層識(shí)別和命名品噪聲或聲音。例子包括個(gè)人的語(yǔ)音(如“比爾.克林頓”)或特征噪聲(如,紐約證券交易所的鈴聲),等。特定場(chǎng)景此層類似于普通場(chǎng)景,基差別在于存在有關(guān)在聲頻片段的場(chǎng)景的特定知識(shí)。例如,馬丁.路德.金的講話“我有一個(gè)夢(mèng)”,此聲頻場(chǎng)景能被特定地識(shí)別及命名。1968年在月球著陸等。抽象對(duì)象在此層,使用讀聲頻實(shí)體代表了什么的主觀知識(shí)。此索引層是完全主觀的,在不同用戶這間的評(píng)估變化很大,在此意義上這是最困難的層。對(duì)于圖象,此層的重要性在實(shí)驗(yàn)中示出,其中觀察者使用抽角屬性及其他來(lái)描述圖象。在一個(gè)聲頻段也能為對(duì)象賦予感情屬性。例如,一個(gè)聲音(如在電影中,在音樂中)可描述或恐怖的,幸福的等。抽象場(chǎng)景抽象場(chǎng)景層涉及,作為整體聲頻片段表示什么。這可以是非常主觀。例如,對(duì)于圖象已示出用戶有時(shí)用感情(如情緒)或抽象(如氣氛,題目)術(shù)語(yǔ)描述圖象。類似的描述也能指定給聲頻片段,例如,描述一個(gè)聲頻場(chǎng)景的屬性可以包括悲傷(如人在哭),幸福(如人在笑),等。關(guān)系關(guān)系的類型在本章節(jié),我們提出在我們提出的內(nèi)容單元之間的明顯的關(guān)系類型。這些關(guān)系類似于以前對(duì)可視內(nèi)容提出的那些關(guān)系。如圖12所示,關(guān)系在以前結(jié)合圖3提出的聲頻結(jié)構(gòu)的不同層次上定義。為表示在內(nèi)容單元之間的關(guān)系,我們考慮將基劃分為語(yǔ)法的和語(yǔ)義的。
在語(yǔ)法層,能有一個(gè)語(yǔ)法關(guān)系,即空間的(如“聲音A近似于聲音B”),時(shí)間的(如“同時(shí)的”),和聲頻的(“更響”)的關(guān)系,這些唯一地基于語(yǔ)法知識(shí)??臻g和時(shí)間屬性分成拓?fù)浜陀蟹较蝾?。聲頻關(guān)系能進(jìn)一步索引成全局的,局部的和組成的。如圖12所示,在這些層中的單元能夠不僅與語(yǔ)義關(guān)系,而且與語(yǔ)法關(guān)系相關(guān)(如“小號(hào)聲接近小提琴”、“小號(hào)音調(diào)補(bǔ)充小提琴音調(diào)”)。我們區(qū)分兩種不同類型的語(yǔ)義關(guān)系如同義詞,反義詞,亞詞/超詞,部分詞/全詞那樣的詞法關(guān)系;和關(guān)于動(dòng)作(事件)或狀態(tài)的表達(dá)關(guān)系。
我們這里提出的關(guān)系模仿對(duì)視頻信號(hào)提出的關(guān)系,兩種情況的唯一差別在于使用的屬性,而不在于關(guān)系。例如,從一個(gè)圖象不可能說單元A比單元B更響。從一個(gè)聲頻段不可能說(除非在聲頻內(nèi)本身中明確地表述)單元A比單元B更黑。但是,關(guān)系的類型是相同的一個(gè)是聲頻,另一個(gè)是可視,但它們場(chǎng)是全局普通的(見表4)。
我們將用例子更透徹地解釋語(yǔ)法和語(yǔ)義關(guān)系。下面的表3和表4綜合了對(duì)關(guān)系的索引結(jié)構(gòu)并民括例子。語(yǔ)法關(guān)系我們將語(yǔ)法關(guān)系分成了類空間的,時(shí)間的,和聲頻的。人們可能爭(zhēng)辨,認(rèn)為空間和時(shí)間關(guān)系只是聲頻關(guān)系的特殊情況。但是我們以專門的方法定義空間和時(shí)間關(guān)系,因?yàn)槲覀儗卧謩e看作空間和時(shí)間的邊界而沒有“關(guān)于”或持續(xù)期間的信息。見表3,它是所提出的語(yǔ)法關(guān)系類型的綜合以反例子。
我們將空間關(guān)系分成下列類型(1)拓?fù)涞模磫卧倪吔缛绾蜗嚓P(guān);和(2)定向的或有方向的,即單元互相相對(duì)地放置(見表表3)。注意,這些關(guān)系常常能從聲頻片段提取例如,所新聞報(bào)導(dǎo)的立體聲廣播,常常容易為聲頻實(shí)體指定語(yǔ)法屬性。例如,有可能評(píng)估一個(gè)聲音接近另一個(gè)聲音,或更確切地評(píng)估在不同的聲音來(lái)源之間的語(yǔ)法關(guān)系。在這方面,人們可以確定在信號(hào)中可以是不明顯的某些評(píng)細(xì)的拓?fù)涞暮陀蟹较虻年P(guān)系。拓?fù)潢P(guān)系例子是“近于”,“在其中”,和“與其鄰接”;有方向關(guān)系的例子是“在其前面”,“在其左面”。注意,在這些關(guān)系和從可視信息中得到的關(guān)系之間差別依賴于關(guān)系本身的內(nèi)涵,單從聲頻確定某些空間關(guān)系可以是更加困難,但是在建立合成的聲頻模型時(shí),這些關(guān)系起看非常重要的作用。
以相似的方式,我們將時(shí)間關(guān)系分類成拓?fù)涞暮陀蟹较虻念?見表3)。時(shí)間的拓?fù)潢P(guān)系的例子是“同時(shí)發(fā)生”,“重疊”,“在其間發(fā)生”;有方向的時(shí)間關(guān)系是“在前發(fā)生”,和“在后發(fā)生”。SMIL的同時(shí)和順序關(guān)系是時(shí)間的拓?fù)潢P(guān)系的例子。
聲頻關(guān)系根據(jù)它們的可視屬性或特征聯(lián)系聲頻實(shí)體。這些關(guān)系能夠被索引或全局的,局部的,和組成的類(見表3)。例如,一個(gè)聲頻全局關(guān)系能是“噪聲小于”(根據(jù)全面噪聲特征),一個(gè)聲頻局部關(guān)系能是“聲音大于”(根據(jù)局部響應(yīng)測(cè)量),而一個(gè)聲頻組成關(guān)系能根據(jù)一個(gè)隱藏馬爾科夫(Hidden Markov)模型的結(jié)構(gòu)的比較。
聲頻結(jié)構(gòu)的單元具有不同的層(普通的,特定的,和抽象的),以與其類似的方法能夠在普動(dòng)層(“近于”)或特定層(“距離10米),中定義語(yǔ)法關(guān)系的這些類型(見表3)。例如,如“與其并”,“與其交”,“是其非那樣的操作關(guān)系是拓?fù)涞模囟ǖ年P(guān)系,或者是空間的,或者是時(shí)間的(見表3)。語(yǔ)義關(guān)系語(yǔ)義關(guān)系只能在10層概念結(jié)構(gòu)的語(yǔ)義層上的內(nèi)容單元之間發(fā)生。我們將語(yǔ)義關(guān)系劃分成詞法的和表述的關(guān)系。表4綜合了語(yǔ)義關(guān)系并包括例子。注意,因?yàn)檎Z(yǔ)義關(guān)系根據(jù)內(nèi)容的理解,我們能對(duì)從聲頻內(nèi)容獲得的關(guān)系可以作出與對(duì)從可視內(nèi)容得到的關(guān)系作出一樣的分類。因此,此處語(yǔ)義關(guān)系等同于結(jié)合可視信號(hào)取的方法(即理解聲頻相對(duì)于理解一個(gè)圖象或視頻)。我們雖然有原始例子可以應(yīng)用為了更清楚地作業(yè)解釋,我們使用與聲頻有關(guān)的例子。例如作為一個(gè)普通同義詞的例子,那個(gè)蘋果象那個(gè)桔子;如果說話人談及它們,蘋果和桔子能從聲頻被“識(shí)別”。
詞法語(yǔ)義關(guān)系對(duì)應(yīng)于在WordNet中使用的名詞之間的語(yǔ)義關(guān)系。這些關(guān)系是同義詞(小提琴類似于中提琴),反義詞(長(zhǎng)笛與鼓相反),亞詞(吉他是弦樂器),超詞(弦樂樂器和一個(gè)吉他),部分詞(音樂家是樂隊(duì)的成員),和全詞(樂隊(duì)由音樂家組成)。
表述語(yǔ)義屬性涉及在兩個(gè)或多個(gè)單元中的動(dòng)作(事件)或狀態(tài)。動(dòng)作關(guān)系的例子是“對(duì)其叫嚷”,和“擊打”(例擊球)。狀態(tài)關(guān)系的例子是“屬于”和“擁有”。不是僅將表述語(yǔ)義劃分成動(dòng)作和狀態(tài),我們可以利用在WordNet中使用的部分關(guān)系語(yǔ)義分解。WordNet將動(dòng)詞分成15個(gè)語(yǔ)義域身體照顧及功能的動(dòng)詞,改變,認(rèn)識(shí),通訊,競(jìng)爭(zhēng),消費(fèi),接觸,建立,情緒,運(yùn)動(dòng),感覺,擁有,社會(huì)交往,和氣象動(dòng)詞。只有那些與可視概念的描述有關(guān)的域能被使用。
至于這里提出的10層聲頻結(jié)構(gòu)。我們能在不同的層上定義語(yǔ)義關(guān)系普通的,特定的,和抽象的。例如,一個(gè)普通動(dòng)作關(guān)系是“擁有股票”,一個(gè)特定動(dòng)作關(guān)系是“擁有80%股票”,而最后,一個(gè)抽象語(yǔ)義關(guān)系是“控制該公司”。表3語(yǔ)法關(guān)系的索引結(jié)構(gòu)及例子
表4語(yǔ)義關(guān)系的索引結(jié)構(gòu)和例子
本發(fā)明不僅包括用于為索引和/或分類的目的的多層數(shù)字信號(hào)(如多媒體信號(hào))的分類方法,而且包括計(jì)算機(jī)實(shí)施的系統(tǒng)。上述的方法根據(jù)它們能用于處理這里討論類型的數(shù)字信號(hào)的任何系統(tǒng)中的事實(shí)已在某些一般原則中予以描述,一如任何在MPEG-7標(biāo)準(zhǔn)下與處理數(shù)字多媒體信號(hào)或文件相容的業(yè)內(nèi)認(rèn)識(shí)的(或?qū)?lái)開發(fā)的)系統(tǒng)。
通常認(rèn)為,因?yàn)閷?duì)數(shù)字信號(hào)的標(biāo)準(zhǔn)的目的是促進(jìn)對(duì)那樣信號(hào)發(fā)送,歸檔,和輸出的混合平臺(tái)(Cross-Platform)的兼容性,對(duì)實(shí)施本發(fā)明建立的系統(tǒng)給出系統(tǒng)特定的規(guī)定是不必要也是不希望的。相反的,業(yè)內(nèi)一般熟練人員認(rèn)識(shí)到,使用業(yè)內(nèi)所熟知的所希望的硬件和軟件技術(shù)如何實(shí)施這時(shí)提出的普通技術(shù)。
為了給出廣泛的例子,人們能夠結(jié)合任何兼容設(shè)備考慮一個(gè)實(shí)現(xiàn)本發(fā)明的一個(gè)系統(tǒng)的實(shí)施例,用于處理,顯示,歸檔,或發(fā)送數(shù)字信號(hào)(包括視,聲頻,靜止圖象,及其他包含人的感覺內(nèi)容的數(shù)字信號(hào),但不限于此)。那樣的系統(tǒng)可以是包括奔騰處理器,存儲(chǔ)器(如硬盤驅(qū)動(dòng)器和隨機(jī)訪問存儲(chǔ)器容量),視頻顯示,和合適的多媒體附件的個(gè)人計(jì)算機(jī)工作站。總結(jié)本發(fā)明對(duì)當(dāng)前的Generic AV DS提出基本的實(shí)本一關(guān)系模型,以便著于解決與其整體設(shè)計(jì)相關(guān)的缺點(diǎn)。該基本的實(shí)體一關(guān)系模型索引(1)內(nèi)容單元的屬性,(2)內(nèi)容單元之間的關(guān)系,和(3)內(nèi)容單元本身。我們選擇此建模技術(shù),和(3)內(nèi)容單元本身。我們選擇此建模技術(shù),因?yàn)閷?shí)體一關(guān)系模型最廣泛地使用于概念模型。它們形成高度抽象性并與硬件及軟件無(wú)關(guān)。
我們對(duì)屬性(或MPEG-7描述符),關(guān)系,和內(nèi)容單元在語(yǔ)法和語(yǔ)義上作出區(qū)別。語(yǔ)法涉及內(nèi)容單元安排的方法而不考慮那樣安排的意義。另一方面,語(yǔ)義處理這些單元及其安排的意義。語(yǔ)法和語(yǔ)義屬性能涉及若干層。類似地,語(yǔ)法和語(yǔ)義關(guān)系能進(jìn)一步分成與不同層有關(guān)的子一類型。我們根據(jù)它們的屬性及與其他單元的關(guān)系的類型提出這語(yǔ)法和語(yǔ)義單元的緊湊及明確的定義。但是與Generic AVDS的一個(gè)重要差別是我們的語(yǔ)義單元不僅包括語(yǔ)義屬性,也包括語(yǔ)法屬性。因此,如果一個(gè)應(yīng)用寧可不區(qū)分語(yǔ)法及語(yǔ)義單元,通過只使用語(yǔ)義單元,它也能做。
本發(fā)明的上述例子及說明性實(shí)施例為解釋的目的列出。業(yè)內(nèi)普通熟練人員將認(rèn)識(shí)到,這些講授的例子不限定本發(fā)明的精神與范圍的限止,本發(fā)明只受附后的權(quán)利要求的限止。
權(quán)利要求
1.一種索引多個(gè)數(shù)字信息信號(hào)的方法,其特征在于包括下列步驟(a)對(duì)每個(gè)信號(hào)(i)對(duì)信號(hào)內(nèi)容定義多個(gè)索引層;(ii)選擇至少一個(gè)所述的索引層;(iii)從與每個(gè)所述的選定的索引層有關(guān)的信號(hào)中提取特征;(b)對(duì)每個(gè)信號(hào)分類(信號(hào)之間)在同一選定的索引層的所述提取的特征之間的關(guān)系;和(c)對(duì)該信號(hào)將所述的提取的特征及關(guān)系組織到較高層的描述結(jié)構(gòu)中。
2.如權(quán)利要求1所述的方法,其特征在于所述的索引層包括與語(yǔ)法有關(guān)的層及與語(yǔ)義有關(guān)的層。
3.如權(quán)利要求2所述的方法,其特征在于與語(yǔ)法有關(guān)的層包括至少一個(gè)從與下列有關(guān)的層的組中選定的層(i)類型/技術(shù)(ii)全局分布(iii)局部結(jié)構(gòu);和(iv)全局組成。
4.如權(quán)利要求2所述的方法,其特征在于所述有關(guān)語(yǔ)義的層至少包括一個(gè)從與下列有關(guān)的層的組中選的層(i)普通對(duì)象;(ii)普通場(chǎng)景;(iii)特定對(duì)象;(iv)特定場(chǎng)景;(v)抽象對(duì)象;和(vi)抽象場(chǎng)景。
5.如權(quán)利要求1所述的方法,其特征在于所述的關(guān)系包括語(yǔ)義關(guān)系。
6.如權(quán)利要求5所述的方法,其特征在于所述的語(yǔ)義關(guān)系包括至少一個(gè)從包括下列關(guān)系的組中選出的關(guān)系(a)詞法的;和(b)表述的關(guān)系。
7.如權(quán)利要求1所述的方法,其特征在于所述的關(guān)系包括語(yǔ)法關(guān)系。
8.如權(quán)利要求7所述的方法,其特征在于所述的語(yǔ)法關(guān)系包括從包括下列關(guān)系的組中選出的關(guān)系(a)空間的;(b)時(shí)間的;和(c)可視的關(guān)系。
9.如權(quán)利要求1所述的文法,其特征在于所述數(shù)字信息信號(hào)包括多媒體數(shù)據(jù)文件。
10.如權(quán)利要求9所述的方法,其特征在于所述的方法被應(yīng)用于把所述的數(shù)據(jù)文件組織在數(shù)字庫(kù)中。
11.如權(quán)利要求9所述的方法,其特征在于所述的數(shù)據(jù)文件包括視頻文件。
12.如權(quán)利要求9所述的方法,其特征在于所述的數(shù)據(jù)文件包括聲頻文件。
13.如權(quán)利要求1所述的方法,其特征在于至少一個(gè)所述的數(shù)字信息信號(hào)包括一個(gè)多媒體數(shù)據(jù)文件的一個(gè)片斷部分。
14.如權(quán)利要求13所述的方法,其特征在于所述數(shù)據(jù)文件的片斷部分對(duì)應(yīng)于提供給用戶感覺的多媒體數(shù)據(jù)文件的人類可感知的子部分。
15.如權(quán)利要求14所述的方法,其特征在于所述的人類可感知的子部分包括在視頻圖象文件中的特定的人或?qū)ο蟮膱D象。
16.一個(gè)用于索引多個(gè)數(shù)字信息信號(hào)的系統(tǒng),其特征在于包括(a)至少一個(gè)用于接收信號(hào)的多媒體信息輸入接口;(b)一個(gè)計(jì)算機(jī)處理器,耦合到所述的至少一個(gè)多媒體信息輸入接口,用于(對(duì)每個(gè)信號(hào))(i)對(duì)這些信號(hào)的內(nèi)容定義多個(gè)索引層;(ii)選擇至少一個(gè)所述的索引層;(iii)從與每個(gè)所述的選定的索引層有關(guān)的信息提取特征;而且用于對(duì)這些信號(hào)的每個(gè)分類(在這些信號(hào)之間)同一選定索引層的所述提取的特征之間的關(guān)系;并用于對(duì)這些信號(hào)把所述的提取的特征和關(guān)系組織到較高層的描述結(jié)構(gòu)中。
17.如權(quán)利要求16所述的系統(tǒng),其特征在于還包括(c)操作上與所述處理器耦合的數(shù)據(jù)存儲(chǔ)系統(tǒng),用于存儲(chǔ)與索引有關(guān)的信息。
18.一個(gè)用于分類多個(gè)數(shù)字信息信號(hào)的方法,其特征在于包括下列步驟(a)對(duì)這些信號(hào)中的每一個(gè)(i)對(duì)這些信號(hào)的內(nèi)容定義多個(gè)分類層,所述的分類層包括與概念及感覺有關(guān)的分類層;(ii)選擇至少一個(gè)所述的分類層;(iii)從與每個(gè)所述的選定的分類層有關(guān)的信號(hào)中提取特征;(b)對(duì)這些信號(hào)中的每一個(gè)分類(在這些信號(hào)之間)在同一選定的分類層的所述提取的特征之間的關(guān)系;和(c)對(duì)這些信號(hào)將所述的提取的特征和關(guān)系組織到較高層描述結(jié)構(gòu)。
全文摘要
提供用于從多媒體信息產(chǎn)生標(biāo)準(zhǔn)描述記錄的系統(tǒng)和方法。本發(fā)明使用基本的實(shí)體-關(guān)系模型于Generic AVDS,它把實(shí)體,實(shí)體屬性,和關(guān)系分類成相應(yīng)的類型以便描述可視數(shù)據(jù)。它也涉及將實(shí)體關(guān)系分類成語(yǔ)法和語(yǔ)義屬性。語(yǔ)法屬性可歸類成不同的層:類型/技術(shù),全局分布,局部結(jié)構(gòu),和全局組成。語(yǔ)義屬性能歸類成不同的層:普通對(duì)象,普通場(chǎng)景,特定對(duì)象,特定場(chǎng)景,抽象對(duì)象,和抽象場(chǎng)景。本發(fā)明還使用將實(shí)體關(guān)系分類為語(yǔ)法和語(yǔ)義類別的分類。語(yǔ)法關(guān)系能歸類成空間的,時(shí)間的,和可視類別。語(yǔ)義關(guān)系能歸類成詞法的和表述的類別。
文檔編號(hào)G06F17/30GK1372669SQ00812462
公開日2002年10月2日 申請(qǐng)日期2000年6月30日 優(yōu)先權(quán)日1999年7月3日
發(fā)明者A·貝尼特茲, A·賈米斯, 張世富, J·R·史密斯, 李中生 申請(qǐng)人:紐約市哥倫比亞大學(xué)托管會(huì), Ibm公司