專利名稱:記錄所捕獲圖像的音頻元數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及音頻處理領(lǐng)域,并且更具體地涉及在相關(guān)聯(lián)的靜止或視頻數(shù)字化
圖像的圖像文件中嵌入音頻元數(shù)據(jù)。
背景技術(shù):
數(shù)字照相機(jī)往往包括視頻捕獲能力。另外,一些數(shù)字照相機(jī)具有用音頻注解圖像 捕獲數(shù)據(jù)的能力。音頻波形往往被存儲(chǔ)為數(shù)字編碼的音頻樣本并且放置在文件格式的適當(dāng) 容器內(nèi),例如數(shù)字靜止圖像文件的元數(shù)據(jù)標(biāo)簽或者簡(jiǎn)單地作為視頻文件或流中的(一個(gè)或 多個(gè))編碼音頻層。 在消費(fèi)電子學(xué)工業(yè)中已經(jīng)有許多創(chuàng)新將圖像內(nèi)容與聲音進(jìn)行結(jié)合。例如,伊斯 曼'柯達(dá)公司在US6496656B1中教導(dǎo)了如何在硬拷貝印刷品中嵌入音頻波形。另一個(gè)柯達(dá) 專利US6993196B2教導(dǎo)了如何將音頻數(shù)據(jù)作為非標(biāo)準(zhǔn)元數(shù)據(jù)存儲(chǔ)在圖像文件的結(jié)尾處。
Virage公司具有一個(gè)專利US6833865,該專利教導(dǎo)了關(guān)于一種用于實(shí)時(shí)嵌入的元 數(shù)據(jù)提取的系統(tǒng),所述元數(shù)據(jù)提取能夠是與場(chǎng)景或音頻相關(guān)的,只要音頻已經(jīng)存在于視聽 數(shù)據(jù)流中即可。該處理能夠與捕獲并行地或者順序地進(jìn)行。 US7113219B2是惠普專利,其教導(dǎo)了使用按鈕上的第一位置來捕獲音頻以及使用 第二位置來捕獲圖像。 盡管這樣的音頻信息駐留在圖像或視頻文件中以用于回放目的,但是該音頻除了 允許在以后查看文件時(shí)回放聲音之外沒有其它目的。當(dāng)前,沒有機(jī)制用于在捕獲時(shí)或在以 后自動(dòng)地捕獲與數(shù)字圖像或視頻捕獲同時(shí)的音頻事件以便后續(xù)分析進(jìn)行理解、組織、分類 或搜索/檢索。
發(fā)明內(nèi)容
簡(jiǎn)而言之,依據(jù)本發(fā)明,提供了一種在圖像捕獲期間記錄音頻元數(shù)據(jù)的方法,包 括 a)提供用于捕獲靜止或視頻數(shù)字化的場(chǎng)景圖像和記錄音頻信號(hào)的圖像捕獲設(shè) 備; b)當(dāng)該設(shè)備處于開機(jī)模式時(shí)連續(xù)地記錄所述音頻信號(hào);以及 c)由所述圖像捕獲設(shè)備啟動(dòng)靜止圖像或視頻圖像的捕獲,并且將在靜止圖像或視
頻圖像的捕獲終止之前、期間和之后的時(shí)間內(nèi)產(chǎn)生的音頻信號(hào)存儲(chǔ)為元數(shù)據(jù)。
本發(fā)明自動(dòng)地將音頻元數(shù)據(jù)與圖像捕獲相關(guān)聯(lián)。而且,本發(fā)明自動(dòng)地將同時(shí)發(fā)生
的音頻信息的預(yù)定段與圖像或圖像的視頻序列相關(guān)聯(lián)。 要理解,如本發(fā)明的該說明書中使用的短語(yǔ)"圖像捕獲"、"捕獲的圖像"、"圖像數(shù) 據(jù)"涉及靜止圖像捕獲以及運(yùn)動(dòng)圖像捕獲,如在視頻中。術(shù)語(yǔ)"靜止圖像捕獲"和"視頻捕 獲"或者其變型在需要時(shí)將用來描述不同的靜止或運(yùn)動(dòng)捕獲情況。
本發(fā)明的優(yōu)點(diǎn)源于如下事實(shí)在圖像捕獲之前、期間和之后被捕獲的記錄的音頻信息提供場(chǎng)景的情境以及有用的元數(shù)據(jù),其能夠被分析以語(yǔ)義理解所捕獲的圖像。依據(jù)本 發(fā)明,一個(gè)過程將音頻信息的不斷更新的活動(dòng)窗口與所捕獲的圖像相關(guān)聯(lián),以允許用戶有 不必經(jīng)過驅(qū)動(dòng)按鈕或開關(guān)來主動(dòng)地啟動(dòng)音頻捕獲的自由。用戶所需的物理動(dòng)作是啟動(dòng)圖像 或視頻捕獲事件。音頻信號(hào)與(多個(gè))圖像的關(guān)聯(lián)以及音頻信息的活動(dòng)窗口的管理由設(shè)備 的電子器件自動(dòng)地處理并且對(duì)用戶是完全透明的。 通過查看以下優(yōu)選實(shí)施例的詳細(xì)描述和所附權(quán)利要求并且參照附圖,將更清楚地 理解和明白本發(fā)明的這些以及其它方面、目標(biāo)、特征和優(yōu)點(diǎn)。 本發(fā)明包括這些優(yōu)點(diǎn)存儲(chǔ)于存儲(chǔ)器中的開機(jī)模式中的音頻的連續(xù)捕獲允許捕獲 能夠用于對(duì)圖像數(shù)據(jù)的語(yǔ)義理解的更多信息,以及在查看圖像數(shù)據(jù)時(shí)經(jīng)過音頻的回放來增 強(qiáng)用戶體驗(yàn)。在圖像捕獲時(shí),來自靜止和視頻捕獲之前的一段時(shí)間、靜止和視頻捕獲期間以 及靜止和視頻捕獲之后的一段時(shí)間的音頻樣本作為元數(shù)據(jù)被自動(dòng)地存儲(chǔ)在圖像文件中以 用于以后的語(yǔ)義分析。
圖la是描述發(fā)明的實(shí)施例的框圖; 圖lb示出含有圖像和音頻數(shù)據(jù)的多媒體文件; 圖2a是描述代表性攝影環(huán)境的草圖,含有照相機(jī)用戶、對(duì)象、場(chǎng)景以及其它產(chǎn)生 環(huán)境中聲音的目標(biāo); 圖2b是使用發(fā)明的優(yōu)選實(shí)施例說明在典型使用情況下發(fā)生的高級(jí)事件的流程 圖; 圖3a是示出作為與靜止圖像捕獲情況交疊的時(shí)變信號(hào)的數(shù)字化音頻信號(hào)波形的 詳細(xì)圖; 圖3b是特定于視頻捕獲情況的數(shù)字化音頻信號(hào)波形的詳細(xì)圖;以及
圖4是用于分析所記錄的音頻信號(hào)的圖la所示的分析過程的框圖。
具體實(shí)施例方式
在以下描述中,本發(fā)明將在其優(yōu)選實(shí)施例中被描述為數(shù)字照相機(jī)設(shè)備。本領(lǐng)域技 術(shù)人員將容易意識(shí)到等效發(fā)明還能夠存在于其它實(shí)施例中。 圖la示出了數(shù)字照相機(jī)設(shè)備10的示意圖。數(shù)字照相機(jī)設(shè)備IO含有用于圖像捕 獲的照相機(jī)鏡頭及傳感器系統(tǒng)15。圖像數(shù)據(jù)45(參見圖lb)能夠?yàn)閱为?dú)的靜止圖像或者如 視頻中的一系列圖像。這些圖像數(shù)據(jù)由專用的圖像模擬_數(shù)字轉(zhuǎn)換器20量化并且計(jì)算機(jī) CPU 25處理該圖像數(shù)據(jù)45并將其編碼為數(shù)字多媒體文件40以存儲(chǔ)在內(nèi)部存儲(chǔ)器30或可 移動(dòng)存儲(chǔ)器模塊35中。內(nèi)部存儲(chǔ)器30還為捕獲前緩沖的音頻信號(hào)55a和捕獲后緩沖的音 頻信號(hào)55c以及為照相機(jī)設(shè)置和用戶偏好60提供足夠的存儲(chǔ)空間。另外,數(shù)字照相機(jī)設(shè)備 10含有麥克風(fēng)65,麥克風(fēng)65記錄場(chǎng)景的聲音或者記錄語(yǔ)音以用于其它目的。麥克風(fēng)65所 生成的電信號(hào)由專用的音頻模擬-數(shù)字轉(zhuǎn)換器70數(shù)字化。數(shù)字音頻信號(hào)175被存儲(chǔ)在內(nèi) 部存儲(chǔ)器30中作為捕獲前緩沖的音頻信號(hào)55a和捕獲后緩沖的音頻信號(hào)55c。
圖lb示出了含有數(shù)字多媒體文件40的可移動(dòng)存儲(chǔ)器模塊35 (例如SD存儲(chǔ)卡或 存儲(chǔ)棒)的圖。文件含有先前提到的圖像數(shù)據(jù)45以及相伴的音頻剪輯50。
在圖2a所示的優(yōu)選實(shí)施例的共用情況內(nèi)能夠更好地理解圖la中所描述的各種部 件的操作,其中圖2a描述了代表性攝影環(huán)境。參照?qǐng)D2a,帶有數(shù)字照相機(jī)設(shè)備10的攝影師 90與環(huán)境85中的對(duì)象100進(jìn)行言語(yǔ)交互。環(huán)境85被定義為其中目標(biāo)對(duì)數(shù)字照相機(jī)設(shè)備10 是可見的或可聽到的空間。攝影師90和對(duì)象100的各自言語(yǔ)95和105能夠是對(duì)話的一部 分,或者能夠是由對(duì)象100或攝影師90如以講述或注解的方式單向地產(chǎn)生。攝影場(chǎng)景130 被定義為數(shù)字照相機(jī)設(shè)備10的光學(xué)視場(chǎng)。在環(huán)境85中能夠存在由其它場(chǎng)景相關(guān)目標(biāo)110 所產(chǎn)生的其它場(chǎng)景相關(guān)環(huán)境聲音115。在圖2a的情況下,場(chǎng)景相關(guān)目標(biāo)110是在攝影場(chǎng)景 130內(nèi)的音樂家。來自被示為飛機(jī)的非場(chǎng)景相關(guān)目標(biāo)120的非場(chǎng)景相關(guān)環(huán)境聲音125對(duì)麥 克風(fēng)65是可聽到的并且因此是數(shù)字照相機(jī)設(shè)備10感測(cè)的環(huán)境85的一部分,然而它們不是 攝影場(chǎng)景130的一部分。圖2a還示出了總聲音135,其被定義為入射到麥克風(fēng)65上的環(huán)境 85內(nèi)的所有聲源的總和。 圖2b是涉及捕獲圖2a所示的攝影場(chǎng)景130的靜止圖像的事件序列的流程圖。參 照?qǐng)D2b,數(shù)字照相機(jī)設(shè)備10開機(jī)或喚醒步驟140示出了通過打開電源來激活數(shù)字照相機(jī)設(shè) 備10或者以其它方式從休眠或待機(jī)模式中喚醒。這個(gè)步驟很重要,因?yàn)樵谝纛l信號(hào)緩沖步 驟145中數(shù)字照相機(jī)設(shè)備10立即開始將麥克風(fēng)65產(chǎn)生的數(shù)字音頻信號(hào)175(參見圖3a) 存儲(chǔ)為捕獲前緩沖的音頻信號(hào)55a。音頻信號(hào)緩沖步驟145允許攝影師90在圖像捕獲事件 150之前進(jìn)行與攝影場(chǎng)景130或環(huán)境85中的對(duì)象100或其它屬性的進(jìn)行對(duì)話或者描述所 述對(duì)象100或其它屬性。同時(shí),還可能存在麥克風(fēng)65感測(cè)的其它非言語(yǔ)聲音,諸如先前討 論的場(chǎng)景相關(guān)環(huán)境聲音115或其它非場(chǎng)景相關(guān)環(huán)境聲音125,其能夠給隨后的圖像捕獲事 件150添加額外的情境。重要的是注意,在音頻信號(hào)緩沖步驟145中麥克風(fēng)165和音頻模 擬_數(shù)字轉(zhuǎn)換器70記錄環(huán)境85中存在的總聲音135。在圖像捕獲事件150中,攝影師90 按下捕獲按鈕75(參見圖la),這就啟動(dòng)捕獲攝影場(chǎng)景130的圖像數(shù)據(jù)45。在繼續(xù)的音頻 信號(hào)緩沖步驟155中數(shù)字照相機(jī)設(shè)備10繼續(xù)記錄來自環(huán)境85的總聲音135達(dá)照相機(jī)設(shè)置 和用戶偏好60中指定的額外時(shí)間段。 在這一點(diǎn)上,圖2b的流程圖更詳細(xì)地示出了在音頻信號(hào)緩沖步驟145到繼續(xù)的音 頻信號(hào)緩沖步驟155期間所發(fā)生的情況。參照?qǐng)D3a,示出了由麥克風(fēng)65拾取的作為數(shù)字音 頻信號(hào)175表示的總聲音135、以及相關(guān)聯(lián)的時(shí)間線180。如先前所陳述的,在音頻信號(hào)緩 沖步驟145中,總聲音135被連續(xù)地存儲(chǔ)為捕獲前緩沖的音頻信號(hào)55a。捕獲前緩沖的音頻 信號(hào)55a存儲(chǔ)N秒的音頻信息,如時(shí)間線180上由時(shí)間線180上的"t = -N"時(shí)間標(biāo)記185 所示。"t = -N"時(shí)間標(biāo)記185指明捕獲前緩沖的音頻信號(hào)55a的時(shí)間上的起點(diǎn)。這個(gè)捕獲 前緩沖的音頻信號(hào)55a以"活動(dòng)窗口"的方式進(jìn)行連續(xù)更新,其中在時(shí)間線180上最老的樣 本在"t = -N"時(shí)間標(biāo)記185處溢出緩沖器的末端而當(dāng)前的音頻樣本填充在"t。 = 0"時(shí)間 標(biāo)記190a處的緩沖器的前端。"t。 = 0"時(shí)間標(biāo)記190a代表數(shù)字照相機(jī)設(shè)備10打開并正 在收聽環(huán)境85中存在的總聲音135時(shí)的實(shí)時(shí)當(dāng)前時(shí)刻。捕獲前緩沖的音頻信號(hào)55a能夠 被認(rèn)為是在從"t = -N"時(shí)間標(biāo)記185跨越到"t。 = 0"時(shí)間標(biāo)記190a的FIFO(先進(jìn)先出) 樣本向量中不斷更新的聲音的活動(dòng)窗口。 回頭參照?qǐng)D2b,圖像捕獲事件150 (即,攝影師90按下捕獲按鈕75)與捕獲前緩沖 的音頻信號(hào)55a的填入(population)的完成相一致。在"t。 = 0"時(shí)間標(biāo)記190a處發(fā)生 的圖像捕獲事件150的時(shí)候,繼續(xù)的音頻信號(hào)緩沖步驟155示出了數(shù)字音頻信號(hào)175繼續(xù)填充捕獲后音頻數(shù)據(jù)緩沖器55c達(dá)額外的M秒,如時(shí)間線180上的"t = +M"時(shí)間標(biāo)記195 所示。在靜止圖像捕獲的情況下,理想化的是圖像捕獲事件150(參見圖3a)捕獲時(shí)間上的 無(wú)窮小時(shí)刻,然而圖像捕獲事件實(shí)際上跨越了快門的持續(xù)時(shí)間或傳感器的積分時(shí)間。例如, 數(shù)字照相機(jī)設(shè)備10的曝光時(shí)間可以在照相機(jī)設(shè)置和用戶偏好60中被設(shè)置為1/20秒。在 一秒的這個(gè)分?jǐn)?shù)期間的音頻以無(wú)縫的方式被保存以使數(shù)字音頻信號(hào)175從"t = -N"時(shí)間 標(biāo)記185跨越到"t = +1"時(shí)間標(biāo)記195。在音頻剪輯形成步驟157中捕獲前緩沖的音頻信 號(hào)55a和捕獲后緩沖的音頻信號(hào)55c被組合以形成音頻剪輯50(參見圖3a)。
圖3b示出了特定于視頻捕獲情況的音頻波形的圖,其中總聲音135(參見圖2a) 被記錄同時(shí)數(shù)字照相機(jī)設(shè)備10的照相機(jī)鏡頭及傳感器系統(tǒng)15(參見圖la)將圖像數(shù)據(jù) 45(參見圖lb)記錄為視頻幀。圖像數(shù)據(jù)45被捕獲同時(shí)數(shù)字音頻信號(hào)175繼續(xù)被記錄和存 儲(chǔ)為視頻流55b'的音頻部分達(dá)圖像捕獲事件150的持續(xù)時(shí)間;例如達(dá)額外的T秒,如由從 "t。 = 0"時(shí)間標(biāo)記190a到完成圖像捕獲事件150后的 =+T"時(shí)間標(biāo)記190b的時(shí)間跨 度所示。視頻捕獲前緩沖的音頻信號(hào)55a'、視頻流55b'的音頻部分以及視頻捕獲后緩沖的 音頻信號(hào)55c'被合并以形成與圖像捕獲事件150相關(guān)聯(lián)的音頻剪輯50。
回頭參照?qǐng)D2b,在視頻捕獲的情況下,音頻剪輯形成步驟157組合視頻捕獲前緩 沖的音頻信號(hào)55a'、視頻流55b'的音頻部分以及捕獲后緩沖的音頻信號(hào)55c'(參見圖3b)。 音頻剪輯存儲(chǔ)步驟160將音頻剪輯50存儲(chǔ)為數(shù)字多媒體文件40的一部分。在語(yǔ)義分析步 驟165中,音頻剪輯50通過語(yǔ)義分析過程80(參見圖la)經(jīng)歷進(jìn)一步的分析。最后,增強(qiáng) 的用戶體驗(yàn)步驟170示出音頻剪輯50能夠被用于增強(qiáng)的用戶體驗(yàn)。例如,音頻剪輯50能 夠在查看圖像數(shù)據(jù)時(shí)進(jìn)行簡(jiǎn)單的回放。另外,作為語(yǔ)義分析步驟165的結(jié)果的從音頻剪輯 50中搜集的信息構(gòu)成新的元數(shù)據(jù)205(參見圖4)并且能夠例如被用來增強(qiáng)基于語(yǔ)義的媒體 搜索和檢索。 圖4是用于語(yǔ)義分析步驟165(參見圖2b)的音頻數(shù)據(jù)分析的更詳細(xì)的框圖。語(yǔ) 義分析過程80在本發(fā)明的優(yōu)選實(shí)施例中是語(yǔ)音到文本操作200,語(yǔ)義分析過程80將出現(xiàn) 在音頻剪輯50中的言辭轉(zhuǎn)換成新的元數(shù)據(jù)205。能夠進(jìn)行其它分析,例如檢查音頻剪輯50 以幫助對(duì)捕獲位置和條件的語(yǔ)義理解,檢測(cè)目標(biāo)或人物的出現(xiàn)或身份。在優(yōu)選實(shí)施例中,新 的元數(shù)據(jù)205采取一列識(shí)別的關(guān)鍵字的形式,或者其能夠是一列短語(yǔ)或語(yǔ)音串。新的元數(shù) 據(jù)205通過將元數(shù)據(jù)寫到文件操作210而與數(shù)字多媒體文件40相關(guān)聯(lián)。
回頭參照?qǐng)D3a和3b,捕獲前緩沖的音頻信號(hào)55a(視頻捕獲前緩沖的音頻信號(hào) 55a')和捕獲后緩沖的音頻信號(hào)55c(視頻捕獲后緩沖的音頻信號(hào)55c')的持續(xù)時(shí)間具有 默認(rèn)值并且在照相機(jī)設(shè)置和用戶偏好60中(參見圖la)是用戶可調(diào)節(jié)的,所述照相機(jī)設(shè)置 和用戶偏好60被存儲(chǔ)在內(nèi)部存儲(chǔ)器30中。例如,捕獲前緩沖的音頻信號(hào)55a默認(rèn)持續(xù)時(shí) 間能夠在照相機(jī)設(shè)置和用戶偏好60中被預(yù)置為N = 10秒,而捕獲后緩沖的音頻信號(hào)55c 默認(rèn)持續(xù)時(shí)間能夠在照相機(jī)設(shè)置和用戶偏好60中被預(yù)置為M = 5秒。緩沖器的持續(xù)時(shí)間 是任意的并且在需要更多或更少時(shí)間的情況下是用戶可調(diào)節(jié)的。 如果在捕獲后緩沖的音頻信號(hào)55c仍在用音頻樣本填入自身的過程中啟動(dòng)另一 捕獲事件150(這將是處于突發(fā)模式捕獲的情況),則能夠支持內(nèi)部存儲(chǔ)器30中的多個(gè)緩沖 器(參見圖la)。 獲得等效音頻剪輯50的另一方法將是把全部數(shù)字音頻信號(hào)175(參見圖3a、3b)存儲(chǔ)在數(shù)字照相機(jī)設(shè)備10的內(nèi)部存儲(chǔ)器30中,假設(shè)內(nèi)部存儲(chǔ)器30的存儲(chǔ)容量足夠的話。 在用戶希望捕獲圖像數(shù)據(jù)45(參見圖lb)的那個(gè)時(shí)候,用戶按下捕獲按鈕75(參見圖la) 以啟動(dòng)在"t。 = O"時(shí)間標(biāo)記190a處發(fā)生的捕獲事件150(參見圖3a、3b)。在捕獲事件150 的初始"t。 = 0"時(shí)間標(biāo)記190a處,位于在"t。 = 0"時(shí)間標(biāo)記之前N秒的"t = -N"時(shí)間 標(biāo)記185處的時(shí)移指針定義音頻剪輯50的開始,一旦捕獲后緩沖的音頻信號(hào)55c完成,所 述音頻剪輯50將包括從"t = -N"時(shí)間標(biāo)記185到"t = +M"時(shí)間標(biāo)記195的音頻樣本。
除了具有預(yù)置的時(shí)間長(zhǎng)度來捕獲在圖像捕獲事件之前和之后的音頻之外,還可能 要慎重的是在'切斷數(shù)字音頻信號(hào)'之前實(shí)時(shí)地分析數(shù)字音頻信號(hào)175以確定音頻的連續(xù) 性。例如,發(fā)生在數(shù)字照相機(jī)設(shè)備10的計(jì)算機(jī)CPU 25內(nèi)的連續(xù)音頻分析過程17(參見圖 la)能夠?qū)崟r(shí)地分析數(shù)字音頻信號(hào)175(參見圖3a、3b)并且確定適當(dāng)?shù)奈恢靡蚤_始和結(jié)束 音頻剪輯。例如,如果數(shù)字音頻信號(hào)175包括口頭獨(dú)白,則通過自動(dòng)調(diào)節(jié)"t = -N"時(shí)間標(biāo) 記185將保存更長(zhǎng)或更短的捕獲前緩沖的音頻信號(hào)55a,或者通過自動(dòng)調(diào)節(jié)"t = +M"時(shí)間 標(biāo)記195將保存更長(zhǎng)或更短的捕獲后緩沖的音頻信號(hào)55c,以便維持?jǐn)?shù)字音頻信號(hào)175的連 續(xù)性?;谝纛l連續(xù)性或響度閾值找出數(shù)字音頻信號(hào)175中的適合(convenient)中斷允 許系統(tǒng)適當(dāng)?shù)丶糨嫈?shù)字音頻信號(hào)175,而'固定'時(shí)間可能在字中間切斷數(shù)字音頻信號(hào)175。 換句話說,人們可能期望如果數(shù)字音頻信號(hào)175下降到閾值之下預(yù)定時(shí)間量則終止數(shù)字音 頻信號(hào)175捕獲,因而為聲音不重要時(shí)的那些情況節(jié)省文件空間。相反,可能存在太多的噪 聲以致聲音對(duì)語(yǔ)義或重復(fù)使用等而言是無(wú)用的。音頻分析過程17將采用針對(duì)音頻可用性 的閾值并拋棄任何響亮的、非可辨別的或連續(xù)的噪聲。部件列表10數(shù)字照相機(jī)設(shè)備15照相機(jī)鏡頭及傳感器系統(tǒng)17音頻分析過程20圖像模擬-數(shù)字轉(zhuǎn)換器25計(jì)算機(jī)CPU30內(nèi)部存儲(chǔ)器35可移動(dòng)存儲(chǔ)器模塊40數(shù)字多媒體文件45圖像數(shù)據(jù)50音頻剪輯55a捕獲前緩沖的音頻信號(hào)55a'視頻捕獲前緩沖的音頻信號(hào)55b'視頻流的音頻部分55c捕獲后緩沖的音頻信號(hào)55c'視頻捕獲后緩沖的音頻信號(hào)60照相機(jī)設(shè)置和用戶偏好65麥克風(fēng)70音頻模擬-數(shù)字轉(zhuǎn)換器75捕獲按鈕
80語(yǔ)義分析過程 85環(huán)境 90攝影師 95攝影師的言語(yǔ)/聲音 100對(duì)象 105對(duì)象的言語(yǔ)/聲音 110場(chǎng)景相關(guān)目標(biāo) 115場(chǎng)景相關(guān)環(huán)境聲音 120非場(chǎng)景相關(guān)目標(biāo) 125非場(chǎng)景相關(guān)環(huán)境聲音 130攝影場(chǎng)景 135總聲音 140設(shè)備開機(jī)或喚醒步驟 145音頻信號(hào)緩沖步驟 150圖像捕獲事件(靜止或視頻) 155繼續(xù)的音頻信號(hào)緩沖步驟 157音頻剪輯形成步驟 160音頻剪輯存儲(chǔ)步驟 165語(yǔ)義分析步驟 170增強(qiáng)的用戶體驗(yàn)步驟 175數(shù)字音頻信號(hào) 180時(shí)間線 185t二-N時(shí)間標(biāo)記 190a t0 = 0時(shí)間標(biāo)記 190b tl = T時(shí)間標(biāo)記 195t = +M時(shí)間標(biāo)記 200語(yǔ)音到文本操作 205新的元數(shù)據(jù) 210將元數(shù)據(jù)寫到文件操作
8
權(quán)利要求
一種在圖像捕獲期間記錄音頻元數(shù)據(jù)的方法,包括a)提供用于捕獲靜止或視頻數(shù)字化的場(chǎng)景圖像和記錄音頻信號(hào)的圖像捕獲設(shè)備;b)當(dāng)該設(shè)備處于開機(jī)模式時(shí)將所述音頻信號(hào)連續(xù)地記錄在緩沖器中;以及c)由所述圖像捕獲設(shè)備啟動(dòng)靜止圖像或視頻圖像的捕獲,并且將在靜止圖像或視頻圖像的捕獲終止之前、或期間和之后的時(shí)間內(nèi)產(chǎn)生的音頻信號(hào)存儲(chǔ)為元數(shù)據(jù)。
2. 權(quán)利要求1的方法,還包括在圖像捕獲設(shè)備中提供至少一個(gè)麥克風(fēng)以及將該麥克風(fēng) 捕獲的音頻信號(hào)數(shù)字化以使得所記錄的元數(shù)據(jù)音頻信號(hào)被數(shù)字化。
3. 權(quán)利要求l的方法,其中音頻信息被暫時(shí)存儲(chǔ)在活動(dòng)窗口存儲(chǔ)緩沖器中。
4. 權(quán)利要求1的方法,還包括包含在視頻圖像捕獲期間捕獲的音頻信號(hào)以及存儲(chǔ)在存 儲(chǔ)器中的音頻信號(hào)和在視頻圖像的捕獲終止之后的預(yù)定時(shí)間期間產(chǎn)生的音頻信號(hào)。
5. 權(quán)利要求l的方法,還包括為音頻緩沖器提供默認(rèn)持續(xù)時(shí)間。
6. 權(quán)利要求l的方法,還包括根據(jù)用戶偏好調(diào)節(jié)要設(shè)置的音頻緩沖器的持續(xù)時(shí)間。
7. 權(quán)利要求6的方法,還提供一種基于對(duì)音頻信號(hào)的分析來確定捕獲前音頻緩沖器的 持續(xù)時(shí)間和捕獲后音頻緩沖器的持續(xù)時(shí)間的自動(dòng)模式。
8. 權(quán)利要求l的方法,其中音頻信號(hào)被整體地存儲(chǔ)在存儲(chǔ)器中,并且存儲(chǔ)器地址對(duì)待 與圖像數(shù)據(jù)相關(guān)聯(lián)的音頻元數(shù)據(jù)的開始和結(jié)尾進(jìn)行標(biāo)記。
9. 權(quán)利要求7的方法,還包括包含調(diào)節(jié)待與圖像數(shù)據(jù)相關(guān)聯(lián)的音頻元數(shù)據(jù)的開始和結(jié)尾的存儲(chǔ)器地址。
10. 權(quán)利要求2的方法 音頻元數(shù)據(jù)的圖像文件。
11. 權(quán)利要求4的方法
12. 權(quán)利要求4的方法 義理解。
13. 權(quán)利要求6的方法
14. 權(quán)利要求6的方法
15. 權(quán)利要求6的方法
16. 權(quán)利要求6的方法
17. 權(quán)利要求6的方法
18. 權(quán)利要求6的方法 件的元數(shù)據(jù)。
19. 權(quán)利要求1的方法
20. 權(quán)利要求1的方法
21. 權(quán)利要求1的方法 間是可調(diào)節(jié)的。
22. 權(quán)利要求20的方法,還包括使用音頻剪輯來提供對(duì)音頻信息的語(yǔ)義理解,從而用 于媒體搜索/檢索。
23. 權(quán)利要求l的方法,還包括給突發(fā)捕獲模式提供多個(gè)音頻緩沖器以用于突發(fā)捕獲 序列中的每個(gè)靜止圖像。,還包括提供與捕獲的圖像相關(guān)聯(lián)的具有數(shù)字化圖像和數(shù)字化,還包括提供用于存儲(chǔ)圖像文件的可移動(dòng)存儲(chǔ)卡。 ,還包括分析音頻元數(shù)據(jù)以提供對(duì)捕獲的靜止或視頻圖像的語(yǔ),還包括提供音頻元數(shù)據(jù)的書面文本。,還包括提供對(duì)出現(xiàn)在音頻元數(shù)據(jù)中的環(huán)境聲音的描述。,還包括提供音頻元數(shù)據(jù)中的說話者的身份。,其中對(duì)音頻元數(shù)據(jù)的分析發(fā)生在捕獲設(shè)備內(nèi)。,其中對(duì)音頻元數(shù)據(jù)的分析發(fā)生在計(jì)算設(shè)備而不是捕獲設(shè)備上。,還包括用從所述分析中獲取的附加元數(shù)據(jù)來更新現(xiàn)有圖像文,還包括在圖像捕獲之前存儲(chǔ)音頻信息。,還包括組合所存儲(chǔ)的音頻以形成音頻剪輯。,其中在靜止圖像或視頻圖像的捕獲終止之前、期間和之后的時(shí)
全文摘要
一種在圖像捕獲期間記錄音頻元數(shù)據(jù)的方法包括提供用于捕獲靜止或視頻數(shù)字化的場(chǎng)景圖像和記錄音頻信號(hào)的圖像捕獲設(shè)備;當(dāng)該設(shè)備處于開機(jī)模式時(shí)將所述音頻信號(hào)連續(xù)地記錄在緩沖器中;以及由所述圖像捕獲設(shè)備啟動(dòng)靜止圖像或視頻圖像的捕獲,并且將在靜止圖像或視頻圖像的捕獲終止之前、期間和之后的時(shí)間內(nèi)產(chǎn)生的音頻信號(hào)存儲(chǔ)為元數(shù)據(jù)。
文檔編號(hào)H04N101/00GK101772949SQ200880102117
公開日2010年7月7日 申請(qǐng)日期2008年7月17日 優(yōu)先權(quán)日2007年8月7日
發(fā)明者C·W·洪辛格, J·V·內(nèi)爾遜, K·A·雅各比, T·J·默里 申請(qǐng)人:伊斯曼柯達(dá)公司