視頻標(biāo)記方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總地涉及視頻處理,具體地說,涉及一種對(duì)視頻進(jìn)行標(biāo)記的方法和裝置。
【背景技術(shù)】
[0002] 近年來,可觀看的視頻節(jié)目數(shù)量顯著增長(zhǎng),能對(duì)數(shù)量日益龐大的視頻節(jié)目進(jìn)行整 理、歸納和檢索成為非常重要的工作,為此,需要對(duì)視頻進(jìn)行描述。視頻標(biāo)記是一種將描述 信息與視頻內(nèi)容關(guān)聯(lián)起來的技術(shù)。有了這樣的技術(shù),可以對(duì)視頻節(jié)目中攜帶的人物、物品、 事件、聲音、文字等進(jìn)行描述,從而便于視頻的分類、整理、檢索、分發(fā)和獲取。
[0003] 目前,常用的視頻標(biāo)記方式是,將描述視頻內(nèi)容的信息存儲(chǔ)成文本文件的格式,并 給標(biāo)記相應(yīng)視頻信息的時(shí)間戳。這種視頻標(biāo)記方式分別提供了視頻文件和描述信息的文本 文件,在播放視頻文件時(shí),根據(jù)時(shí)間戳來讀取文本文件中的描述信息。例如,在給電影加字 幕或者旁白時(shí),現(xiàn)有的做法是,將字幕或旁白制作成文本文件,并根據(jù)字幕或旁白在電影播 放過程中出現(xiàn)的時(shí)間點(diǎn)加上適當(dāng)?shù)臅r(shí)間戳。這樣,在播放電影的視頻內(nèi)容時(shí),播放器通過時(shí) 間戳指示的時(shí)間讀取相應(yīng)的字幕或旁白,在圖像上呈現(xiàn)出合適的字幕或旁白。
[0004] 按照這種標(biāo)記方式,視頻文件和描述信息是分離的兩個(gè)文件,極易導(dǎo)致二者之間 的不匹配,甚至描述信息丟失,造成對(duì)視頻描述的無效。再者,如果對(duì)視頻文件進(jìn)行了剪輯 或重新編輯,那么必須對(duì)相應(yīng)的描述信息進(jìn)行修改;否則,由于時(shí)間上的不對(duì)準(zhǔn),必然會(huì)造 成視頻文件與描述信息之間的不匹配。這也是我們常??吹诫娪芭c其對(duì)白對(duì)不上的原因之 〇
[0005] 此外,由于視頻文件和用于標(biāo)記它的文件是兩個(gè)分離的文件,這也給視頻整理、檢 索和獲取造成了不少的麻煩和不小的困難。
[0006] 當(dāng)前的視頻標(biāo)記方式存在著操作復(fù)雜、連續(xù)性不強(qiáng)、標(biāo)記效果不明顯的問題。因 此,如何提高視頻標(biāo)記性能成為一個(gè)亟待解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0007] 有鑒于此,本發(fā)明提供一種基于聲音編碼來標(biāo)記視頻的技術(shù),可以有效地對(duì)視頻 進(jìn)行標(biāo)記,經(jīng)標(biāo)記的視頻只有一個(gè)文件,不會(huì)有描述信息文件丟失造成視頻無標(biāo)記、無法整 理、檢索和/或獲取的問題,并且標(biāo)記后的視頻連續(xù)性強(qiáng),重新剪輯、編輯或刪除部分視頻 內(nèi)容都不會(huì)影響對(duì)視頻文件的標(biāo)記。
[0008] 根據(jù)本發(fā)明的一方面,一種視頻標(biāo)記方法包括:
[0009] 對(duì)標(biāo)記進(jìn)行編碼,其中,所述標(biāo)記與對(duì)視頻進(jìn)行描述的描述信息和位置相對(duì)應(yīng);
[0010] 將編碼后的標(biāo)記轉(zhuǎn)換成音頻文件;以及
[0011] 根據(jù)所述位置,將所述音頻文件插入所述視頻中。
[0012] 其中,將所述標(biāo)記表示成2字節(jié)無符號(hào)整數(shù)、或8字節(jié)無符號(hào)整數(shù)、或16字節(jié)無符 號(hào)整數(shù)。
[0013] -方面,所述將編碼后的標(biāo)記轉(zhuǎn)換成音頻文件的步驟包括:
[0014] 將編碼后的標(biāo)記轉(zhuǎn)換成比特流;
[0015] 利用擴(kuò)頻序列,將所述比特流進(jìn)行直接序列擴(kuò)頻基帶調(diào)制;
[0016] 對(duì)所獲得的直接序列擴(kuò)頻基帶調(diào)制信號(hào)進(jìn)行低通濾波和正交調(diào)制,以獲得中心頻 率是期望頻率的音頻信號(hào);
[0017] 對(duì)所述音頻信號(hào)進(jìn)行采樣和量化,以獲得數(shù)字信號(hào);以及
[0018] 將所述數(shù)字信號(hào)寫成音頻文件。
[0019] 其中,可以將數(shù)字信號(hào)寫成WAV格式且時(shí)長(zhǎng)與原視頻時(shí)長(zhǎng)相同的音頻文件。
[0020] 此外,將所述音頻文件插入到不影響視聽體驗(yàn)的頻段,例如,是17-20kHz之間的 頻段。
[0021] 另一方面,本發(fā)明還提供一種視頻標(biāo)記裝置,其包括:
[0022] 數(shù)據(jù)庫,用于存儲(chǔ)對(duì)視頻進(jìn)行描述的描述信息及其位置,并指示標(biāo)記與所述描述 信息及其位置之間的對(duì)應(yīng)關(guān)系;
[0023] 編碼模塊,用于對(duì)所述標(biāo)記進(jìn)行編碼;
[0024] 轉(zhuǎn)換模塊,用于將經(jīng)編碼的標(biāo)記轉(zhuǎn)換成音頻文件;和
[0025] 混音模塊,用于根據(jù)所述位置,將所述音頻文件與所述視頻文件進(jìn)行混音。
[0026] 其中,所述編碼模塊將所述標(biāo)記表示成2字節(jié)無符號(hào)整數(shù)、或8字節(jié)無符號(hào)整數(shù)、 或16字節(jié)無符號(hào)整數(shù)。
[0027] 其中,所述轉(zhuǎn)換模塊包括:
[0028] 比特流形成模塊,用于將編碼后的標(biāo)記轉(zhuǎn)換成比特流;
[0029] 擴(kuò)頻模塊,用于利用擴(kuò)頻序列,將所述比特流進(jìn)行直接序列擴(kuò)頻基帶調(diào)制;
[0030] 調(diào)制模塊,用于對(duì)所獲得的直接序列擴(kuò)頻基帶調(diào)制信號(hào)進(jìn)行低通濾波和正交調(diào) 制,以獲得中心頻率是期望頻率的音頻信號(hào);
[0031] 采樣模塊,用于對(duì)所述音頻信號(hào)進(jìn)行采樣和量化,以獲得數(shù)字信號(hào);以及
[0032] 格式化模塊,用于將所述數(shù)字信號(hào)寫成音頻文件。
[0033] 其中,所述混音模塊將所述音頻文件混音至不影響視聽體驗(yàn)的頻段,例如, 17_20kHz之間的頻段。
[0034] 采用以上方案,可以有效地對(duì)視頻文件進(jìn)行標(biāo)記,標(biāo)記后的視頻仍然保持一個(gè)文 件的狀態(tài),使得視頻文件的完整性得以體現(xiàn),視頻文件的剪輯、截取、部分刪除等都不影響 對(duì)視頻文件的標(biāo)記,不會(huì)有標(biāo)記丟失造成的各種問題;可標(biāo)記的視頻內(nèi)容也得到大幅提升, 不僅可以標(biāo)記字幕、人物、物品、事件,還可以標(biāo)記畫外音、視頻中不可見的物品或說明,因 此,對(duì)視頻進(jìn)行整理、歸納和/或檢索都更加容易和方便。
【附圖說明】
[0035] 圖1是根據(jù)本發(fā)明的方案對(duì)視頻進(jìn)行標(biāo)記的方法流程圖。
[0036] 圖2是根據(jù)本發(fā)明的方案對(duì)視頻進(jìn)行標(biāo)記的裝置的示意性框圖。
【具體實(shí)施方式】
[0037] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí) 施方式進(jìn)行詳細(xì)說明。附圖中所示和根據(jù)附圖描述的本發(fā)明的實(shí)施方式僅僅是示例性的, 并且本發(fā)明并不限于這些實(shí)施方式。
[0038] 需要說明的是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了 與根據(jù)本發(fā)明的方案密切相關(guān)的結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他 細(xì)節(jié)。
[0039] 本發(fā)明的主要目的在于對(duì)視頻文件進(jìn)行標(biāo)記,這里所述的視頻可以是任何帶有圖 像和/或聲音的文件,包括但不限于一段聲音、音樂、一段圖像、電影、電視節(jié)目、微電影、訪 談、錄像等等。這里所述的"標(biāo)記"可以是標(biāo)記的動(dòng)作,指用某種信息對(duì)視頻進(jìn)行標(biāo)注、描 述、解釋和/或說明,包括但不限于給視頻加電視字幕、電影字幕、旁白等,這些信息在本發(fā) 明中稱為描述信息;也可以是指標(biāo)記信息,其可以指示描述信息及其位置或時(shí)間,所述的位 置信息或者時(shí)間信息例如是視頻圖像的第幾幀、開始時(shí)間、時(shí)間段,位置信息和時(shí)間信息在 本發(fā)明中具有相同的作用和含義。
[0040] 下面,以在一段時(shí)長(zhǎng)10分鐘的視頻的第3分20秒處標(biāo)記X歌手開始唱歌為例,詳 細(xì)描述根據(jù)本發(fā)明的視頻標(biāo)記技術(shù)。
[0041] 在這個(gè)實(shí)施例中,標(biāo)記與"位置/時(shí)間信息--第3分20秒"和"描述信息--X 歌手開始唱歌"存在著 對(duì)應(yīng)的關(guān)系。
[0042] 圖1示出了對(duì)視頻進(jìn)行標(biāo)記的過程。參見圖1,該過程包括了如下步驟:
[0043] SlOl、對(duì)標(biāo)記進(jìn)行編碼;
[0044] 一般而言,與視頻相關(guān)的描述信息及其位置/時(shí)間信息存儲(chǔ)在服務(wù)器的數(shù)據(jù)庫 中,按照數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)的格式或方式,描述信息及其位置/時(shí)間信息作為一條記錄,會(huì)被 分配一索引號(hào),通過該索引號(hào),就可以在數(shù)據(jù)庫中查找到相應(yīng)的記錄。
[0045] 由于標(biāo)記也對(duì)應(yīng)著描述信息及其位置/時(shí)間信息,所以具有索引號(hào)的一條記錄就 對(duì)應(yīng)一個(gè)標(biāo)記。換言之,也可以將標(biāo)記作為相應(yīng)描述信息及其位置/時(shí)間信息的索引,一并 存儲(chǔ)在數(shù)據(jù)庫中。
[0046] 對(duì)于本實(shí)施例而言,描述信息的具體內(nèi)容是"X歌手開始唱歌",其出現(xiàn)的位置/時(shí) 間是第3' 20",在數(shù)據(jù)庫中可將它們存儲(chǔ)成如下形式:
[0048] 上述這條記錄對(duì)應(yīng)著一個(gè)標(biāo)記。作為示例,將該索引號(hào)編碼成2字節(jié)無符號(hào)整數(shù)。 這種編碼方式可表示65536個(gè)標(biāo)記。應(yīng)該理解,本發(fā)明不限于這種編碼方式,將標(biāo)記編碼成 8字節(jié)無符號(hào)整數(shù)或16字節(jié)無符號(hào)整數(shù)等任何其它碼的方式也都落入本發(fā)明的范圍。
[0049] S102、將編碼后的標(biāo)記轉(zhuǎn)換成音頻文件;
[0050] 作為示例,可以采用如下方式將編碼后的標(biāo)記轉(zhuǎn)換成音頻文件:
[0051] (1)將編碼后的標(biāo)記,即2字節(jié)無符號(hào)整數(shù)(或8字節(jié)無符號(hào)整數(shù)或16字節(jié)無符 號(hào)整數(shù)),按照從最低有效位(LSB)到最高有效位(MSB)的順序轉(zhuǎn)換成比特流;
[0052] (2)采用7階m