專利名稱:生成視頻摘要的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,特別涉及生成視頻摘要的方法及裝置。
背景技術(shù):
作為一種團(tuán)體對(duì)抗性運(yùn)動(dòng),足球已經(jīng)融入人們的日常生活。隨著足球賽事 的不斷增多,人們往往無法到比賽現(xiàn)場(chǎng)親身觀看,也難以通過視頻看到所有的 足球比賽,這樣,足球視頻摘要成為人們觀看足球比賽的首選。
足球視頻摘要是指對(duì)足球比賽視頻文檔的簡(jiǎn)短內(nèi)容總結(jié),通常通過提取足
球比賽視頻文檔的特征建立足球視頻摘要。足球比賽視頻文檔的特征包括音 頻特征、視覺特征、文本特征和運(yùn)動(dòng)特征。
其中,音頻特征包括講解員的講解聲、觀眾的歡呼聲、鼓掌聲和背景噪聲 等;視覺特征包括球場(chǎng)輪廓、觀眾席區(qū)、球門區(qū)域和球門框等;文本特征包括 足球比賽視頻文檔下方的字幕欄、左上角的臺(tái)標(biāo)欄和右上角的比分欄鏡頭回放 前的臺(tái)標(biāo)等;運(yùn)動(dòng)特征包括攝像機(jī)的運(yùn)動(dòng)、球員的運(yùn)動(dòng)和球的運(yùn)動(dòng)等。
在特征提取時(shí),提取的特征種類比較多,系統(tǒng)的運(yùn)算量大;在提取運(yùn)動(dòng)特 征時(shí),運(yùn)動(dòng)對(duì)象有效的分離和跟蹤復(fù)雜度高,計(jì)算困難,容易出錯(cuò)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供生成視頻摘要的方法及裝置,提高視頻摘要 生成的效率和準(zhǔn)確率。
本發(fā)明實(shí)施例提供了 一種生成視頻摘要的方法,該方法包括 接收視頻文件;
對(duì)所述視頻文件的視覺精彩度進(jìn)行處理;
將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實(shí)施例還提供了一種生成視頻摘要的方法,該方法包括
接收視頻文件;
對(duì)所述視頻文件的聲音精彩度進(jìn)行處理;
將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實(shí)施例還提供了 一種生成視頻摘要的方法,該方法包括
4妻收纟見頻文件;對(duì)所述視頻文件的視覺精彩度進(jìn)行處理;
.對(duì)所述視頻文件的聲音精彩度進(jìn)行處理;
將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實(shí)施例還提供了一種生成視頻摘要的裝置,該裝置包括 接收單元,用于接收視頻文件;
視覺單元,用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理; 聚合單元,用于將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。 本發(fā)明實(shí)施例還提供了一種生成視頻摘要的裝置,該裝置包括 接收單元,用于接收視頻文件;
聲音單元,用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理; 聚合單元,用于將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。 本發(fā)明實(shí)施例還提供了一種生成視頻摘要的裝置,該裝置包括 接收單元,用于接收視頻文件;
視覺單元,用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理; 聲音單元,用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理; 聚合單元,用于將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻 片斷。
背景技術(shù):
中,對(duì)足球比賽視頻文檔根據(jù)音頻特征、視覺特征、文本特征和 運(yùn)動(dòng)特征等四種特征進(jìn)行處理,得到足球視頻摘要,采用本發(fā)明實(shí)施例生成視 頻摘要的方法及裝置,對(duì)視頻文件的視覺精彩度和/或聲音精彩度進(jìn)行處理, 減少特征種類,降低計(jì)算復(fù)雜度,提高視頻摘要生成的效率和準(zhǔn)確率。
背景技術(shù):
中,對(duì)運(yùn)動(dòng)特征進(jìn)行提取時(shí),運(yùn)動(dòng)對(duì)象有效的分離和跟蹤的復(fù)雜 度高,計(jì)算困難,且對(duì)運(yùn)動(dòng)特征提取的準(zhǔn)確性對(duì)視頻摘要生成效果有很大影響, 采用本發(fā)明實(shí)施例一種生成視頻摘要的方法及裝置,通過視頻文件的視覺精彩 度和/或聲音精彩度進(jìn)行處理,避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響,提高了視頻 摘要的準(zhǔn)確率。
圖1是本發(fā)明生成視頻摘要的方法實(shí)施例三的流程示意圖2是本發(fā)明生成視頻摘要的方法實(shí)施例三中聲音平均短時(shí)能量特征值入隊(duì)的流程示意圖3是本發(fā)明生成視頻摘要的方法實(shí)施例三中聲音平均短時(shí)能量高聲隊(duì)列 特征值重新入隊(duì)列的流程示意圖4是本發(fā)明生成視頻摘要的方法實(shí)施例三中聲音平均短時(shí)能量低聲隊(duì)列 特征值重新入隊(duì)列的流程示意圖5是本發(fā)明生成視頻摘要的方法實(shí)施例三中鏡頭提取結(jié)果示意圖6是本發(fā)明成視頻摘要的裝置實(shí)施例三的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
實(shí)施例一, 一種生成一見頻摘要的方法,該方法包括
步驟一、接收視頻文件;
步驟二、對(duì)視頻文件的視覺精彩度進(jìn)行處理;
可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理
將視頻文件進(jìn)行鏡頭邊界檢測(cè),得到鏡頭集;對(duì)鏡頭集進(jìn)行鏡頭分類;對(duì) 已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組;計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
可以采用以下方式對(duì)浮見頻文件進(jìn)行鏡頭邊界4全測(cè)
計(jì)算^L頻文件兩幀之間的主色比率絕對(duì)差Gd和顏色直方差Hd;通過主色 比率絕對(duì)差Gd和顏色直方差Hd的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。
根據(jù)切變和漸變邊界,得到鏡頭集。
可以采用以下方式對(duì)#;頭集進(jìn)行鏡頭分類
提取鏡頭集中代表鏡頭類型的關(guān)鍵幀;將關(guān)鍵幀分類。
可以采用以下方式提取鏡頭集中代表鏡頭類型的關(guān)鍵幀
取每個(gè)鏡頭的中間幀作為關(guān)鍵幀, 一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為 奇數(shù)時(shí),取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀;當(dāng)N為偶數(shù)時(shí),取第N/2幀 作為該鏡頭的關(guān)鍵幀。對(duì)于每一個(gè)鏡頭而言,中心位置是視覺上最重要的位置, 因此,取每個(gè)鏡頭的中間幀作為關(guān)鍵幀。
可以采用以下方式進(jìn)行關(guān)鍵幀分類
將關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度HSV 空間;將每個(gè)視頻幀分成若干區(qū)域;根據(jù)各區(qū)域的主色覆蓋率將各區(qū)域劃分為 不同類別;為不同類別的區(qū)域分配不同的權(quán)值;根據(jù)權(quán)值將關(guān)鍵幀劃分為以下H=、
類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和 其他鏡頭。
RGB轉(zhuǎn)化到HSV空間的計(jì)算公式如下所示 Max=max ( R,QB ) Min=min (R,G,B )
廣 (G-B) *60/(Max-Min), if Max=R,G>B
360+ (G畫B) *60/(Max-Min), if Max=R,G<B 180+ (B-R) *60/( Max- Min), ifMax= G 240+ (R-G) *60/(Max-Min), if Max=B S= (Max- Min) / Max V= Max
由于在視頻文件中, 一般都有一個(gè)主色,例如,在足球視頻中,綠色為主 色,在籃球視頻中,籃球場(chǎng)地板的木板色為主色;滑冰視頻中,冰的透明色為 主色、、、而主色在—見頻幀的分布具有區(qū)域特征。 一方面,浮見頻幀中一般存在標(biāo) 志覆蓋,例如幀下面的字幕、左上角的臺(tái)標(biāo)、右上角的分?jǐn)?shù)欄,這些標(biāo)志覆 蓋都存在于固定的區(qū)域,區(qū)分出這些覆蓋區(qū)域有利于減少標(biāo)識(shí)覆蓋對(duì)視頻精彩 度結(jié)果的影響。另一方面,在視頻文件的圖片幀中,不少具有水平性和對(duì)稱性 的特點(diǎn),因此,可以將每個(gè)視頻幀分為十六個(gè)區(qū)域,其中長(zhǎng)寬各均分四等分, 每個(gè)區(qū)域之間沒有交集。
當(dāng)視頻文件為足球比賽視頻時(shí),主色為綠色,可以將各區(qū)域劃分為80% 以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下 綠色覆蓋區(qū)。
為80%以上綠色覆蓋區(qū)分配權(quán)值為100, 50%至80%綠色覆蓋區(qū)分配權(quán)值 為10, 20%至50%綠色覆蓋區(qū)分配權(quán)值為1, 20%以下綠色覆蓋區(qū)分配權(quán)值為 0。
根據(jù)權(quán)值得到不同類型的鏡頭長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、 特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
其中,長(zhǎng)鏡頭,體現(xiàn)在區(qū)域特征上,是指中間兩行區(qū)域?yàn)槿魃珷顟B(tài)的鏡 頭,在足球視頻中,長(zhǎng)鏡頭是指中間兩行區(qū)域?yàn)槿G色狀態(tài)的鏡頭。
半鏡頭是中距離鏡頭的一種,用于描述比賽過程運(yùn)動(dòng)員運(yùn)動(dòng)中的中距離特寫,體現(xiàn)在區(qū)域特征上, 一般最上面兩行都被覆蓋,且最下面兩行之可能存在 列覆蓋。
3/4鏡頭也是中距離鏡頭的一種,體現(xiàn)在區(qū)域特征上, 一般是最上面三行
都被覆蓋,同時(shí)最下面一行區(qū)間的覆蓋率在50%以下,在足球視頻中,3/4鏡 頭通常是球員帶球動(dòng)作的特寫。
球門鏡頭,在足球視頻中,球門鏡頭是球場(chǎng)外遠(yuǎn)距離攝像機(jī)對(duì)球門區(qū)域的 跟蹤,體現(xiàn)在區(qū)域特征上,從左到右,在主色覆蓋率上具有遞減或者遞增的趨 勢(shì), 一般最上一行被覆蓋,權(quán)值和最大值大于等于110。在足球視頻中,球門 鏡頭一般用于射門事件的識(shí)別。
特寫鏡頭,體現(xiàn)在區(qū)域特征上, 一般是由下至上遞減的范圍覆蓋,最下面 一行中有全覆蓋區(qū)域,至少存在一列的列覆蓋為零。在足球視頻中,特寫鏡頭 包括運(yùn)動(dòng)員特寫鏡頭和裁判特寫鏡頭。
中鏡頭,體現(xiàn)在區(qū)域特征上, 一般是列覆蓋,即只有幾列存在覆蓋的情況, 最下面一行不存在覆蓋。在足球視頻中,中鏡頭用于較遠(yuǎn)距離描述運(yùn)動(dòng)員帶球 或是過人。
短鏡頭,體現(xiàn)在區(qū)域特征上, 一般都為全覆蓋。在足球視頻中,短鏡頭一 般是對(duì)觀眾席的拍攝記憶對(duì)特寫球員的跟蹤。
其他鏡頭,用于表示由于運(yùn)動(dòng)產(chǎn)生的模糊而無法區(qū)分的鏡頭。
根據(jù)區(qū)域的權(quán)值得到不同類型的鏡頭,各類型鏡頭的權(quán)值不同,權(quán)值越高, 與精彩鏡頭的關(guān)聯(lián)度越大,球門鏡頭的權(quán)值為1、短鏡頭的權(quán)值為1、特寫鏡 頭的權(quán)值為2、 3/4鏡頭的權(quán)值也為2、其他鏡頭的權(quán)值為0、
可以釆用以下方式得到關(guān)聯(lián)鏡頭組根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找 對(duì)應(yīng)的長(zhǎng)鏡頭;生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束 鏡頭的關(guān)聯(lián)鏡頭組。
在比賽視頻中,大量運(yùn)動(dòng)員集中在一個(gè)區(qū)域,可能會(huì)影響該鏡頭的行列特 性,從而該鏡頭的視頻幀中出現(xiàn)孤點(diǎn),孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍 內(nèi),孤點(diǎn)的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi),由于孤點(diǎn)的存在, 會(huì)破壞鏡頭主色覆蓋率的連續(xù)性,容易造成鏡頭的誤檢,因此將孤點(diǎn)的主色覆 蓋率設(shè)置為周圍區(qū)域主色覆蓋率的均值。計(jì)算各關(guān)聯(lián)鏡頭組所包含鏡頭的權(quán)值之和作為各關(guān)聯(lián)鏡頭組視覺精彩度, 將視覺精彩度與不同閾值比較,當(dāng)視覺精彩度在相應(yīng)的閾值范圍時(shí),達(dá)到相應(yīng) 的精彩度級(jí)別。閾值可以根據(jù)視頻文件的情況設(shè)定,也可以根據(jù)觀眾的需求設(shè) 定。
視覺精彩度的闊值可以根據(jù)觀眾的需求設(shè)定,從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求,識(shí)別出各種精彩鏡頭,例如球星的精彩運(yùn)球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
在足球視頻中,可以設(shè)定精彩度級(jí)別為一時(shí),對(duì)應(yīng)的閾值為四;精彩度級(jí) 別為二時(shí),對(duì)應(yīng)的閾值為五;精彩度級(jí)別為三時(shí),對(duì)應(yīng)的閾值為七;精彩度級(jí) 別為四時(shí),對(duì)應(yīng)的閾值為八。第一級(jí)別精彩度視頻幀,為典型犯規(guī)鏡頭,容易 誤檢;第二級(jí)別精彩視頻幀為典型射門鏡頭,漏檢犯規(guī);第三級(jí)別精彩視頻幀 為典型進(jìn)球鏡頭,易漏檢;第四級(jí)別精彩視頻幀為精彩度高鏡頭,多漏檢。當(dāng) 視覺精彩度大于相應(yīng)的閾值,則認(rèn)為滿足視覺精彩度要求。
也可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理
將視頻幀劃分為若干區(qū)域,不同顏色代表不同的數(shù)值,根據(jù)顏色的數(shù)值及 所占比例計(jì)算各區(qū)域的權(quán)值。例如,將視頻文件分成十個(gè)區(qū)域,成兩行五列的 排列,紅色代表八,綠色代表十,黑色代表一,白色代表五、、、第一行第一列 的第一區(qū)域中,紅色所占的比例為三分之一,綠色所占的比例為十分之一,黑 色所占的比例為七分之一,白色所占的比例為十五分之一、、、將第一區(qū)域中所 有顏色代表的數(shù)值與對(duì)應(yīng)的比例乘積之和作為第 一 區(qū)域的權(quán)值,第 一 區(qū)域的權(quán) 值作為第 一 區(qū)域的視覺精彩度。
步驟三、將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
利用符合視覺精彩度鏡頭關(guān)聯(lián)組中的任意一個(gè)關(guān)鍵幀定位其所在的鏡頭 關(guān)聯(lián)組,找出符合視覺精彩度的鏡頭關(guān)聯(lián)組。
將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。
得到的視頻片斷組成視頻摘要。
對(duì)于新聞報(bào)道、體育賽事、風(fēng)景游覽等等視頻文件,為了在較短的時(shí)間內(nèi) 傳遞更多的信息,可以采用本實(shí)施例的方法將視頻文件處理成視頻摘要;對(duì)于 對(duì)抗性體育賽事,例如馬拉松、賽車、自行車比賽、溜水、籃球、足球等,為了將賽事的精彩片段傳遞給觀眾,可以采用本實(shí)施例的方法將視頻文件生成視 頻摘要。
采用本實(shí)施例中生成視頻摘要的方法,僅對(duì)視頻文件的視覺精彩度進(jìn)行處 理,減少特征種類,降低計(jì)算復(fù)雜度,提高視頻摘要生成的效率和準(zhǔn)確率。還 可以避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響,進(jìn)一步提高了視頻摘要的準(zhǔn)確率。
采用本實(shí)施例中生成視頻摘要的方法,從視頻文件的視覺信息入手,對(duì)鏡 頭進(jìn)行精彩程度的量化,可以依據(jù)用戶的不同需求,得出包含不同精彩鏡頭的 視頻摘要,提高了視頻摘要的靈活性和可靠性。
實(shí)施例二, 一種生成^L頻摘要的方法,該方法包:fe:
步驟一、接收視頻文件;
步驟二、對(duì)視頻文件的聲音精彩度進(jìn)行處理;
可以采用如下方式對(duì)視頻文件的聲音精彩度進(jìn)行處理
提取視頻文件的音頻特征;
計(jì)算音頻特征的權(quán)值;
才艮據(jù)不同的特征值閾值將音頻特征的權(quán)值劃分為若干個(gè)區(qū)間,對(duì)應(yīng)不同的 聲音精彩度。
可以采用如下方式提取視頻文件的音頻特征
對(duì)視頻文件進(jìn)行采樣;計(jì)算每個(gè)釆樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和 聲音平均過零率特征值。
一般,采樣點(diǎn)選取在待檢測(cè)視頻的n等分點(diǎn)處,每次的采樣長(zhǎng)度為t(單 位秒)。對(duì)于不同長(zhǎng)度的視頻文件,選擇不同的采樣點(diǎn)個(gè)數(shù),例如,對(duì)于一 個(gè)十五分鐘的視頻,可以選擇五至八個(gè)采樣點(diǎn),每次采樣一分鐘的數(shù)據(jù), 一分 鐘內(nèi)包含若干個(gè)音頻幀。
其中,平均短時(shí)能量(Ste)是指在一個(gè)音頻幀內(nèi),樣本信號(hào)所積聚的平 均能量,反映了聲音信號(hào)振幅或能量隨著時(shí)間的變化規(guī)律。
平均過零率是指在一個(gè)音頻幀內(nèi),離散采樣信號(hào)值由正到負(fù)和由負(fù)到正變 化的次數(shù)與音頻幀長(zhǎng)度的比值,即一幀語音中信號(hào)波形穿過橫軸相鄰兩個(gè)采樣 點(diǎn)改變符號(hào)的比率,是音頻信號(hào)在一幀內(nèi)的平均頻率的反映。
可以根據(jù)聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù),計(jì)算音頻特征的權(quán)值。
計(jì)算聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值;對(duì)于每一
種音頻特征,平均短時(shí)能量或平均過零率,在每一個(gè)采樣點(diǎn)處,采集到k個(gè)值, 而每個(gè)值相對(duì)于均值都有較高或較低的區(qū)別,將比均值大的聲音平均短時(shí)能量 特征值或聲音平均過零率特征值作為高聲特征值,將比均值小的聲音平均短時(shí) 能量特征值或聲音平均過零率特征值作為低聲特征值;選擇兩個(gè)隊(duì)列存放采樣 點(diǎn)的k個(gè)值,將高聲特征值入高聲隊(duì)列,低聲特征值入低聲隊(duì)列,由于每個(gè)釆 樣點(diǎn)有兩種特征值(聲音平均短時(shí)能量特征值或聲音平均過零率特征值),每
種特征值需要兩個(gè)隊(duì)列(高聲隊(duì)列和低聲隊(duì)列),對(duì)于n個(gè)采樣點(diǎn),需要4n個(gè) 隊(duì)列,每個(gè)隊(duì)列有兩個(gè)參數(shù)均值和特征值個(gè)數(shù)。
將音頻特征入隊(duì),包括將聲音平均短時(shí)能量特征值入短時(shí)能量高聲隊(duì)列和 短時(shí)能量低聲隊(duì)列,以及將聲音平均過零率特征值入過零率高聲隊(duì)列和歸零率 低聲隊(duì)列,每種特征值入隊(duì)的流程相同,下面僅以聲音平均短時(shí)能量特征值入 隊(duì)為例進(jìn)行說明,入隊(duì)的流程包括
步驟(一)、初始化短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列。k個(gè)聲音平均 短時(shí)能量特征值的頭兩個(gè)中較高的值入隊(duì)短時(shí)能量高聲隊(duì)列,較低的值入隊(duì)短 時(shí)能量低聲隊(duì)列。同時(shí),將短時(shí)能量高聲隊(duì)列的均值aveH初始化為入隊(duì)第一 個(gè)值,將短時(shí)能量低聲隊(duì)列的均值aveL初始化為入隊(duì)第一個(gè)值。特征值個(gè)數(shù) 均初始化為一。
步驟(二)、判斷是否越界,即判斷是否正在操作第k個(gè)特征值,如果是, 則退出入隊(duì)流程;如果不是,則轉(zhuǎn)入步驟(三)。 步驟(三)、讀取下一個(gè)特征值i。
步驟(四)、計(jì)算特征值i與短時(shí)能量高聲隊(duì)列均值的差n^aveH-i,計(jì)算 特征值i與短時(shí)能量低聲隊(duì)列均值的差n=i-aveL。
步驟(五)、判斷m是否小于n,如果是,則轉(zhuǎn)入步驟(六),如果不是, 則轉(zhuǎn)入步驟(七)。
步驟(六)、特征值i插入高聲隊(duì)列,并修改隊(duì)列參數(shù),將原短時(shí)能量高 聲隊(duì)列均值與特征值i的平均值作為新短時(shí)能量高聲隊(duì)列均值,將原特征值個(gè) 數(shù)加一;轉(zhuǎn)入步驟步驟(八)。步驟(七)、特征值i插入低聲隊(duì)列,并修改隊(duì)列參數(shù),將原短時(shí)能量低
聲隊(duì)列均值與特征值i的平均值作為新短時(shí)能量低聲隊(duì)列均值,將原特征值個(gè) 數(shù)加一;轉(zhuǎn)入步驟(八)。
步驟(八)、判斷特征值i是否小于原短時(shí)能量高聲隊(duì)列均值或原短時(shí)能 量低聲隊(duì)列均值,如果是,則轉(zhuǎn)入步驟(九);否則,轉(zhuǎn)入步驟(十)。
步驟(九)、短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列,轉(zhuǎn)入步驟(二)。 步驟(十)、短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列,轉(zhuǎn)入步驟(二 )。 其中,短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列的流程如下 步驟A、將短時(shí)能量高聲隊(duì)列中的特征值由d、到大排序。
步驟B、判斷隊(duì)列是否越界,即是否超過該隊(duì)列長(zhǎng)度,如果是,則轉(zhuǎn)入步
驟F,如果否,則轉(zhuǎn)入步驟C。
步驟c、將隊(duì)列中的第 一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能 量低聲隊(duì)列均值進(jìn)行比較,如果更接近短時(shí)能量低聲隊(duì)列均值,則轉(zhuǎn)入步驟D, 否則,則轉(zhuǎn)入步驟F。
步驟D、將特征值插入短時(shí)能量低聲隊(duì)列,同時(shí)調(diào)整短時(shí)能量高聲隊(duì)列和 短時(shí)能量低聲隊(duì)列的參數(shù),即調(diào)整均值和特征值個(gè)數(shù)。
步驟E、讀取下一個(gè)特征值,轉(zhuǎn)入步驟B。
步驟F、退出重新入隊(duì)列流程。
短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列的流程如下
步驟a、將短時(shí)能量低聲隊(duì)列中的特征值由大到小排序。
步驟b、判斷隊(duì)列是否越界,即是否超過該隊(duì)列長(zhǎng)度,如果是,則轉(zhuǎn)入步 驟f,如果否,則轉(zhuǎn)入步驟c。
步驟c、將隊(duì)列中的第一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能 量低聲隊(duì)列均值進(jìn)行比較,如果更接近短時(shí)能量高聲隊(duì)列均值,則轉(zhuǎn)入步驟d, 否則,則轉(zhuǎn)入步驟f。
步驟d、將特征值插入短時(shí)能量高聲隊(duì)列,同時(shí)調(diào)整短時(shí)能量高聲隊(duì)列和 短時(shí)能量低聲隊(duì)列的參數(shù),即調(diào)整均值和特征值個(gè)數(shù)。
步驟e、讀取下一個(gè)特征值,轉(zhuǎn)入步驟b。
步驟f、退出重新入隊(duì)列流程。
20計(jì)算每個(gè)高聲隊(duì)列或低聲隊(duì)列的特征值個(gè)數(shù)在整個(gè)高聲隊(duì)列或低聲隊(duì)列
特征值個(gè)數(shù)中所占的比率。
根據(jù)高聲隊(duì)列或低聲隊(duì)列特征值所占整個(gè)高聲隊(duì)列或低聲隊(duì)列特征值的
比率,計(jì)算整個(gè)高聲隊(duì)列權(quán)值和低聲隊(duì)列權(quán)值。將每個(gè)高聲隊(duì)列的特征值比率 與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)高聲隊(duì)列權(quán)值,將每個(gè)低聲隊(duì)列特 征值的比率與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)低聲隊(duì)列權(quán)值。
以整個(gè)高聲隊(duì)列和低聲隊(duì)列的隊(duì)列權(quán)值為基礎(chǔ),設(shè)置聲音精彩度閾值,表 示不同的聲音精彩度。為了保證特征值閾值不超過特征值區(qū)間,將級(jí)別系數(shù) 作為特征值閾值參數(shù),級(jí)別系數(shù)小于一。例如,可以將聲音精彩度劃分為四級(jí), 第一級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.5,則第一級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整
個(gè)低聲隊(duì)列權(quán)值之和乘以0.5;第二級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.6,則第二級(jí)特征值 閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.6;第三級(jí)對(duì)應(yīng)的級(jí) 別系數(shù)為0.7,則第三級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值 之和乘以0.7;第四級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.8,則第四級(jí)特征值閾值為整個(gè)高聲 隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.8。級(jí)別系數(shù)低于0.5定義為不精彩, 級(jí)別系數(shù)大于0.8時(shí),視頻摘要長(zhǎng)度過短,包含的精彩鏡頭過少。也可以根據(jù) 不同的視頻文件具體場(chǎng)景,選擇其他級(jí)別系數(shù)。
利用釆樣點(diǎn)處的音頻特征與聲音精彩度閾值進(jìn)行比較,獲得滿足相應(yīng)的聲 音精彩度的視頻段。利用采樣點(diǎn)處的特征值與聲音精彩度閾值進(jìn)行比較,如果 特征值大于相應(yīng)的閾值,則滿足相應(yīng)的聲音精彩度級(jí)別。此處,采樣點(diǎn)的特征 值可以是采樣點(diǎn)處高聲隊(duì)列的特征值均值,也可以是高聲隊(duì)列特征值均值和低 聲隊(duì)列特征值均值之和的一半。
聲音精多度的閾值可以根據(jù)觀眾的需求設(shè)定,從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求,識(shí)別出各種精彩鏡頭,例如球星的精彩運(yùn)球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
步驟三、將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
關(guān)聯(lián)鏡頭組可以為以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié) 束鏡頭的鏡頭組。
找出符合聲音精彩度的鏡頭關(guān)聯(lián)組。將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。 得到的視頻片斷組成視頻摘要。
對(duì)于新聞報(bào)道、體育賽事、風(fēng)景游覽等等視頻文件,為了在較短的時(shí)間內(nèi) 傳遞更多的信息,可以采用本實(shí)施例的方法將視頻文件處理成視頻摘要;對(duì)于 對(duì)抗性體育賽事,例如馬拉松、賽車、自行車比賽、溜冰、籃球、足球等,為 了將賽事的精彩片段傳遞給觀眾,可以采用本實(shí)施例的方法將視頻文件生成視 頻摘要。
采用本實(shí)施例中生成視頻摘要的方法,僅對(duì)視頻文件的聲音精彩度進(jìn)行處 理,減少特征種類,降低計(jì)算復(fù)雜度,提高視頻摘要生成的效率和準(zhǔn)確率。還 可以避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響,進(jìn)一步提高了視頻摘要的準(zhǔn)確率。
采用本實(shí)施例中生成視頻摘要的方法,從視頻文件的聲音信息入手,對(duì)鏡 頭進(jìn)行精彩程度的量化,可以依據(jù)用戶的不同需求,得出包含不同精彩鏡頭的 視頻摘要,提高了視頻摘要的靈活性和可靠性。
實(shí)施例三, 一種生成視頻摘要的方法,參見圖1,該方法包括
101、 接收視頻文件;
102、 對(duì)視頻文件的視覺精彩度進(jìn)行處理; 可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理 將視頻文件進(jìn)行鏡頭邊界檢測(cè),得到鏡頭集;對(duì)鏡頭集進(jìn)行鏡頭分類;對(duì)
已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組;計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。 可以采用以下方式對(duì)視頻文件進(jìn)行鏡頭邊界檢測(cè)
計(jì)算^L頻文件兩幀之間的主色比率絕對(duì)差Gd和顏色直方差Hd;通過主色 比率絕對(duì)差Gd和顏色直方差Hd的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。 才艮據(jù)切變和漸變邊界,得到鏡頭集。 可以采用以下方式對(duì)鏡頭集進(jìn)行鏡頭分類 提取鏡頭集中代表鏡頭類型的關(guān)鍵幀;將關(guān)鍵幀分類。 可以釆用以下方式提取鏡頭集中代表鏡頭類型的關(guān)鍵幀 取每個(gè)鏡頭的中間幀作為關(guān)鍵幀, 一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為 奇數(shù)時(shí),取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀;當(dāng)N為偶數(shù)時(shí),取第N/2幀 作為該鏡頭的關(guān)鍵幀。對(duì)于每一個(gè)鏡頭而言,中心位置是視覺上最重要的位置,H=、
因此,取每個(gè)鏡頭的中間幀作為關(guān)鍵幀。 可以采用以下方式進(jìn)行關(guān)鍵幀分類
將關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度HSV 空間;將每個(gè)視頻幀分成若干區(qū)域;根據(jù)各區(qū)域的主色覆蓋率將各區(qū)域劃分為 不同類別;為不同類別的區(qū)域分配不同的權(quán)值;根據(jù)一又值將關(guān)^l建幀劃分為以下 類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和 其他鏡頭。
RGB轉(zhuǎn)化到HSV空間的計(jì)算公式如下所示 Max=max (R,QB ) Min=min ( R,QB )
廣 (G-B) *60/(Max-Min), if Max=R,G>B
360+ ( G-B ) *60/( Max- Min), ifMax= R,G<B 180+ (B隱R) *60/( Max- Min), ifMax= G ^ 240+ (R-G) *60/(Max-Min), if Max=B S= (Max- Min) / Max V= Max
由于在視頻文件中, 一般都有一個(gè)主色,例如,在足球視頻中,綠色為主 色,在籃球視頻中,籃球場(chǎng)地板的木板色為主色;滑冰一見頻中,冰的透明色為 主色、、、而主色在視頻幀的分布具有區(qū)域特征。 一方面,視頻幀中一般存在標(biāo) 志覆蓋,例如幀下面的字幕、左上角的臺(tái)標(biāo)、右上角的分?jǐn)?shù)欄,這些標(biāo)志覆 蓋都存在于固定的區(qū)域,區(qū)分出這些覆蓋區(qū)域有利于減少標(biāo)識(shí)覆蓋對(duì)視頻精彩 度結(jié)果的影響。另一方面,在視頻文件的圖片幀中,不少具有水平性和對(duì)稱性 的特點(diǎn),因此,可以將每個(gè)視頻幀分為十六個(gè)區(qū)域,其中長(zhǎng)寬各均分四等分, 每個(gè)區(qū)域之間沒有交集。
當(dāng)視頻文件為足球比賽視頻時(shí),主色為綠色,可以將各區(qū)域劃分為80% 以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下 綠色覆蓋區(qū)。
為80%以上綠色覆蓋區(qū)分配權(quán)值為100, 50%至80%綠色覆蓋區(qū)分配權(quán)值 為10, 20%至50%綠色覆蓋區(qū)分配權(quán)值為1, 20%以下綠色覆蓋區(qū)分配權(quán)值為 0。根據(jù)權(quán)值得到不同類型的鏡頭長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、
特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
其中,長(zhǎng)鏡頭,體現(xiàn)在區(qū)域特征上,是指中間兩行區(qū)域?yàn)槿魃珷顟B(tài)的鏡 頭,在足球視頻中,長(zhǎng)鏡頭是指中間兩行區(qū)域?yàn)槿G色狀態(tài)的鏡頭。
半鏡頭是中距離鏡頭的一種,用于描述比賽過程運(yùn)動(dòng)員運(yùn)動(dòng)中的中距離特 寫,體現(xiàn)在區(qū)域特征上, 一般最上面兩行都被覆蓋,且最下面兩行之可能存在 列覆蓋。
3/4鏡頭也是中距離鏡頭的一種,體現(xiàn)在區(qū)域特征上, 一般是最上面三行 都被覆蓋,同時(shí)最下面一行區(qū)間的覆蓋率在50%以下,在足球^L頻中,3/4鏡 頭通常是球員帶球動(dòng)作的特寫。
球門鏡頭,在足球視頻中,球門鏡頭是球場(chǎng)外遠(yuǎn)距離攝像機(jī)對(duì)球門區(qū)域的 跟蹤,體現(xiàn)在區(qū)域特征上,從左到右,在主色覆蓋率上具有遞減或者遞增的趨 勢(shì), 一般最上一行被覆蓋,權(quán)值和最大值大于等于110。在足球視頻中,球門 鏡頭一般用于射門事件的識(shí)別。
特寫鏡頭,體現(xiàn)在區(qū)域特征上, 一般是由下至上遞減的范圍覆蓋,最下面 一行中有全覆蓋區(qū)域,至少存在一列的列覆蓋為零。在足球視頻中,特寫鏡頭 包括運(yùn)動(dòng)員特寫鏡頭和裁判特寫鏡頭。
中鏡頭,體現(xiàn)在區(qū)域特征上, 一般是列覆蓋,即只有幾列存在覆蓋的情況, 最下面一行不存在覆蓋。在足球視頻中,中鏡頭用于較遠(yuǎn)距離描述運(yùn)動(dòng)員帶球 或是過人。
短鏡頭,體現(xiàn)在區(qū)域特征上, 一般都為全覆蓋。在足球視頻中,短鏡頭一 般是對(duì)觀眾席的拍攝記憶對(duì)特寫球員的跟蹤。
其他鏡頭,用于表示由于運(yùn)動(dòng)產(chǎn)生的模糊而無法區(qū)分的鏡頭。
根據(jù)區(qū)域的權(quán)值得到不同類型的鏡頭,各類型鏡頭的權(quán)值不同,權(quán)值越高, 與精彩鏡頭的關(guān)聯(lián)度越大,球門鏡頭的權(quán)值為1、短鏡頭的權(quán)值為1、特寫鏡 頭的權(quán)值為2、 3/4鏡頭的權(quán)值也為2、其他鏡頭的權(quán)值為0、
可以采用以下方式得到關(guān)聯(lián)鏡頭組根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找 對(duì)應(yīng)的長(zhǎng)鏡頭;生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束 鏡頭的關(guān)聯(lián)鏡頭組。在比賽視頻中,大量運(yùn)動(dòng)員集中在一個(gè)區(qū)域,可能會(huì)影響該鏡頭的行列特 性,從而該鏡頭的視頻幀中出現(xiàn)孤點(diǎn),孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍 內(nèi),孤點(diǎn)的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi),由于孤點(diǎn)的存在, 會(huì)破壞鏡頭主色覆蓋率的連續(xù)性,容易造成鏡頭的誤檢,因此將孤點(diǎn)的主色覆 蓋率設(shè)置為周圍區(qū)域主色覆蓋率的均值。
計(jì)算各關(guān)聯(lián)鏡頭組所包含鏡頭的權(quán)值之和作為各關(guān)聯(lián)鏡頭組視覺精彩度, 將視覺精彩度與不同閾值比較,當(dāng)視覺精彩度在相應(yīng)的閾值范圍時(shí),達(dá)到相應(yīng) 的精彩度級(jí)別。閾值可以根據(jù)視頻文件的情況設(shè)定,也可以才艮據(jù)觀眾的需求設(shè) 定。
視覺精彩度的閾值可以根據(jù)觀眾的需求設(shè)定,從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求,識(shí)別出各種精彩鏡頭,例如球星的精彩運(yùn)球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
在足球視頻中,可以設(shè)定精彩度級(jí)別為一時(shí),對(duì)應(yīng)的閾值為四;精彩度級(jí) 別為二時(shí),對(duì)應(yīng)的閾值為五;精彩度級(jí)別為三時(shí),對(duì)應(yīng)的閾值為七;精彩度級(jí) 別為四時(shí),對(duì)應(yīng)的閾值為八。第一級(jí)別精彩度視頻幀,為典型犯規(guī)鏡頭,容易 誤檢;第二級(jí)別精彩視頻幀為典型射門鏡頭,漏檢犯規(guī);第三級(jí)別精彩視頻幀 為典型進(jìn)球鏡頭,易漏檢;第四級(jí)別精彩視頻幀為精彩度高鏡頭,多漏檢。當(dāng) 視覺精彩度大于相應(yīng)的閾值,則認(rèn)為滿足視覺精彩度要求。
也可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理
將視頻幀劃分為若干區(qū)域,不同顏色代表不同的數(shù)值,根據(jù)顏色的數(shù)值及 所占比例計(jì)算各區(qū)域的權(quán)值。例如,將視頻文件分成十個(gè)區(qū)域,成兩行五列的 排列,紅色代表八,綠色代表十,黑色代表一,白色代表五、、、第一行第一列 的第一區(qū)域中,紅色所占的比例為三分之一,綠色所占的比例為十分之一,黑 色所占的比例為七分之一,白色所占的比例為十五分之一、、、將第一區(qū)域中所 有顏色代表的數(shù)值與對(duì)應(yīng)的比例乘積之和作為第 一 區(qū)域的權(quán)值,第 一 區(qū)域的權(quán) 值作為第 一 區(qū)域的視覺精彩度。
103、對(duì)視頻文件的聲音精彩度進(jìn)行處理;
可以釆用如下方式對(duì)視頻文件的聲音精彩度進(jìn)行處理
提取視頻文件的音頻特征;計(jì)算音頻特征的權(quán)值;
根據(jù)不同的特征值閾值將音頻特征的權(quán)值劃分為若干個(gè)區(qū)間,對(duì)應(yīng)不同的 聲音精彩度。
可以采用如下方式 一是耳又;現(xiàn)頻文件的音頻特征
對(duì)視頻文件進(jìn)行采樣;計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和 聲音平均過零率特征值。
一般,釆樣點(diǎn)選取在待檢測(cè)視頻的n等分點(diǎn)處,每次的采樣長(zhǎng)度為t(單 位秒)。對(duì)于不同長(zhǎng)度的視頻文件,選擇不同的采樣點(diǎn)個(gè)數(shù),例如,對(duì)于一 個(gè)十五分鐘的視頻,可以選擇五至八個(gè)采樣點(diǎn),每次采樣一分鐘的數(shù)據(jù), 一分 鐘內(nèi)包含若干個(gè)音頻幀。
其中,平均短時(shí)能量(Ste)是指在一個(gè)音頻幀內(nèi),樣本信號(hào)所積聚的平 均能量,反映了聲音信號(hào)振幅或能量隨著時(shí)間的變化規(guī)律。
平均過零率是指在一個(gè)音頻幀內(nèi),離散采樣信號(hào)值由正到負(fù)和由負(fù)到正變 化的次數(shù)與音頻幀長(zhǎng)度的比值,即一幀語音中信號(hào)波形穿過橫軸相鄰兩個(gè)釆樣 點(diǎn)改變符號(hào)的比率,是音頻信號(hào)在一幀內(nèi)的平均頻率的反映。
可以根據(jù)聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特 征值的個(gè)數(shù),計(jì)算音頻特征的權(quán)值。
計(jì)算聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值;對(duì)于每一 種音頻特征,平均短時(shí)能量或平均過零率,在每一個(gè)采樣點(diǎn)處,采集到k個(gè)值, 而每個(gè)值相對(duì)于均值都有較高或較低的區(qū)別,將比均值大的聲音平均短時(shí)能量
特征值或聲音平均過零率特征值作為高聲特征值,將比均值小的聲音平均短時(shí) 能量特征值或聲音平均過零率特征值作為低聲特征值;選擇兩個(gè)隊(duì)列存放采樣 點(diǎn)的k個(gè)值,將高聲特征值入高聲隊(duì)列,低聲特征值入低聲隊(duì)列,由于每個(gè)采 樣點(diǎn)有兩種特征值(聲音平均短時(shí)能量特征值或聲音平均過零率特征值),每 種特征值需要兩個(gè)隊(duì)列(高聲隊(duì)列和低聲隊(duì)列),對(duì)于n個(gè)采樣點(diǎn),需要4n個(gè) 隊(duì)列,每個(gè)隊(duì)列有兩個(gè)參數(shù)均值和特征值個(gè)數(shù)。
將音頻特征入隊(duì),包括將聲音平均短時(shí)能量特征值入短時(shí)能量高聲隊(duì)列和 短時(shí)能量低聲隊(duì)列,以及將聲音平均過零率特征值入過零率高聲隊(duì)列和過零率 低聲隊(duì)列,每種特征值入隊(duì)的流程相同,下面僅以聲音平均短時(shí)能量特征值入隊(duì)為例進(jìn)行說明,參見圖2,入隊(duì)的流程包括
201、 初始化短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列。k個(gè)聲音平均短時(shí)能 量特征值的頭兩個(gè)中較高的值入隊(duì)短時(shí)能量高聲隊(duì)列,較低的值入隊(duì)短時(shí)能量 低聲隊(duì)列。同時(shí),將短時(shí)能量高聲隊(duì)列的均值aveH初始化為入隊(duì)第一個(gè)值, 將短時(shí)能量低聲隊(duì)列的均值aveL初始化為入隊(duì)第一個(gè)值。特征值個(gè)數(shù)均初始 化為一。
202、 判斷是否越界,即判斷是否正在操作第k個(gè)特征值,如果是,則退 出入隊(duì)流程;如果不是,則轉(zhuǎn)入步驟203。
203、 讀取下一個(gè)特征值i。
204、 計(jì)算特征值i與短時(shí)能量高聲隊(duì)列均值的差m=aveH-i,計(jì)算特征值 i與短時(shí)能量低聲隊(duì)列均值的差n=i-aveL。
205、 判斷m是否小于n,如果是,則轉(zhuǎn)入步驟206,如果不是,則轉(zhuǎn)入 步驟207。
206、 特征值i插入高聲隊(duì)列,并修改隊(duì)列參數(shù),將原短時(shí)能量高聲隊(duì)列 均值與特征值i的平均值作為新短時(shí)能量高聲隊(duì)列均值,將原特征值個(gè)數(shù)加一; 轉(zhuǎn)入步驟208。
207、 特征值i插入低聲隊(duì)列,并修改隊(duì)列參數(shù),將原短時(shí)能量低聲隊(duì)列 均值與特征值i的平均值作為新短時(shí)能量低聲隊(duì)列均值,將原特征值個(gè)數(shù)加一; 轉(zhuǎn)入步驟208。
208、 判斷特征值i是否小于原短時(shí)能量高聲隊(duì)列均值或原短時(shí)能量低聲 隊(duì)列均值,如果是,則轉(zhuǎn)入步驟209;否則,轉(zhuǎn)入步驟210。
209、 短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列,轉(zhuǎn)入步驟202。
210、 短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列,轉(zhuǎn)入步驟202。
其中,參見圖3,短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列的流程如下
301、 將短時(shí)能量高聲隊(duì)列中的特4正值由小到大排序。
302、 判斷隊(duì)列是否越界,即是否超過該隊(duì)列長(zhǎng)度,如果是,則轉(zhuǎn)入步驟 306,如果否,則轉(zhuǎn)入步驟303。
303 、將隊(duì)列中的第 一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能量 低聲隊(duì)列均值進(jìn)行比較,如果更接近短時(shí)能量低聲隊(duì)列均值,則轉(zhuǎn)入步驟304,否則,則轉(zhuǎn)入步驟306。
304、 將特征值插入短時(shí)能量低聲隊(duì)列,同時(shí)調(diào)整短時(shí)維量高聲隊(duì)列和短 時(shí)能量低聲隊(duì)列的參數(shù),即調(diào)整均值和特征值個(gè)數(shù)。
305、 讀取下一個(gè)特征值,轉(zhuǎn)入步驟302。
306、 退出重新入隊(duì)列流程。
參見圖4,短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列的流程如下
401 、將短時(shí)能量低聲隊(duì)列中的特征值由大到小排序。
402、判斷隊(duì)列是否越界,即是否超過該隊(duì)列長(zhǎng)度,如果是,則轉(zhuǎn)入步驟 406,如果否,則轉(zhuǎn)入步驟403。
403 、將隊(duì)列中的第 一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能量 低聲隊(duì)列均值進(jìn)行比較,如果更接近短時(shí)能量高聲隊(duì)列均值,則轉(zhuǎn)入步驟404, 否則,則轉(zhuǎn)入步驟406。
404、 將特征值插入短時(shí)能量高聲隊(duì)列,同時(shí)調(diào)整短時(shí)能量高聲隊(duì)列和短 時(shí)能量低聲隊(duì)列的參數(shù),即調(diào)整均值和特征值個(gè)數(shù)。
405、 讀取下一個(gè)特征值,轉(zhuǎn)入步驟402.
406、 退出重新入隊(duì)列流程。
計(jì)算每個(gè)高聲隊(duì)列或低聲隊(duì)列的特征值個(gè)數(shù)在整個(gè)高聲隊(duì)列或低聲隊(duì)列 特征值個(gè)數(shù)中所占的比率。
根據(jù)高聲隊(duì)列或低聲隊(duì)列特征值所占整個(gè)高聲隊(duì)列或低聲隊(duì)列特征值的 比率,計(jì)算整個(gè)高聲隊(duì)列權(quán)值和低聲隊(duì)列權(quán)值。將每個(gè)高聲隊(duì)列的特征1直比率 與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)高聲隊(duì)列權(quán)值,將每個(gè)低聲隊(duì)列特 征值的比率與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)低聲隊(duì)列權(quán)值。
以整個(gè)高聲隊(duì)列和低聲隊(duì)列的隊(duì)列權(quán)值為基礎(chǔ),設(shè)置聲音精彩度閾值,表 示不同的聲音精彩度。為了保證特征值閾值不超過特征值區(qū)間,將級(jí)別系數(shù) 作為特征值閾值參數(shù),級(jí)別系數(shù)小于一。例如,可以將聲音精彩度劃分為四級(jí), 第一級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.5,則第一級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)^:與整 個(gè)低聲隊(duì)列權(quán)值之和乘以0.5;第二級(jí)對(duì)應(yīng)的級(jí)別系tt為0.6,則第二級(jí)特征值 閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.6;第三級(jí)對(duì)應(yīng)的級(jí) 別系數(shù)為0.7,則第三級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.7;第四級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.8,則第四級(jí)特征值閾值為整個(gè)高聲 隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.8。級(jí)別系數(shù)低于0.5定義為不精彩, 級(jí)別系數(shù)大于0.8時(shí),視頻摘要長(zhǎng)度過段,包含的精彩鏡頭過少。也可以根據(jù) 不同的視頻文件具體場(chǎng)景,選擇其他級(jí)別系數(shù)。
利用采樣點(diǎn)處的音頻特征與聲音精彩度閾值進(jìn)行比較,獲得滿足相應(yīng)的聲 音精彩度的視頻段。利用采樣點(diǎn)處的特征值與聲音精彩度閾值進(jìn)行比較,如果 特征值大于相應(yīng)的閾值,則滿足相應(yīng)的聲音精彩度級(jí)別。此處,采樣點(diǎn)的特征 值可以是采樣點(diǎn)處高聲隊(duì)列的特征值均值,也可以是高聲隊(duì)列特征值均值和低 聲隊(duì)列特征值均值之和的一半。
聲音精彩度的閾值可以根據(jù)觀眾的需求設(shè)定,從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求,識(shí)別出各種精彩鏡頭,例如球星的精彩運(yùn)球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
104、將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
利用符合視覺精彩度鏡頭關(guān)聯(lián)組中的任意一個(gè)關(guān)鍵幀定位其所在的鏡頭 關(guān)聯(lián)組,找出符合視覺精彩度的鏡頭關(guān)聯(lián)組。
將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。
得到的視頻片斷組成視頻摘要。
在鏡頭關(guān)聯(lián)組中,找出符合聲音精彩度的鏡頭關(guān)聯(lián)組。 利用符合視覺精彩度鏡頭關(guān)聯(lián)組中的任意一個(gè)關(guān)鍵幀定位其所在的鏡頭 關(guān)聯(lián)組,找出符合視覺精彩度的鏡頭關(guān)聯(lián)組。
在符合視覺精彩度的鏡頭關(guān)聯(lián)組中,找出符合聲音精彩度的鏡頭關(guān)聯(lián)組。 將同時(shí)滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。 得到的視頻片斷組成視頻摘要。
對(duì)于新聞報(bào)道、體育賽事、風(fēng)景游覽等等視頻文件,為了在較短的時(shí)間內(nèi) 傳遞更多的信息,可以釆用本實(shí)施例的方法將視頻文件處理成視頻摘要;對(duì)于 對(duì)抗性體育賽事,例如馬拉松、賽車、自行車比賽、溜水、籃球、足球等,為
了將賽事的精彩片段傳遞給觀眾,可以采用本實(shí)施例的方法將視頻文件生成視 頻摘要。
采用本實(shí)施例中生成視頻摘要的方法,僅對(duì)視頻文件的視覺精彩度和聲音精彩度兩種特征進(jìn)行處理,減少特征種類,降低計(jì)算復(fù)雜度,提高視頻摘要生 成的效率和準(zhǔn)確率。還可以避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響,進(jìn)一步提高了視 頻摘要的準(zhǔn)確率。
采用本實(shí)施例中生成視頻摘要的方法,從視頻文件的聲音信息和視覺信息 入手,對(duì)鏡頭進(jìn)行精彩程度的量化,可以依據(jù)用戶的不同需求,得出包含不同 精彩鏡頭的視頻摘要,提高了視頻摘要的靈活性和可靠性。
實(shí)施例四,將實(shí)施例三中生成視頻摘要的方法應(yīng)用到足球視頻中,實(shí)驗(yàn)的
視頻數(shù)據(jù)來自2006年德國(guó)世界杯1/4決賽中意大利對(duì)陣烏克蘭的比賽。
觀眾可以選擇聲音精彩度級(jí)別為三,視覺精彩度級(jí)別為一,對(duì)應(yīng)的視覺精 彩度閣值為四,提取到四組關(guān)聯(lián)鏡頭組,參見圖5,第一組501為射門事件, 第二組502為犯規(guī)事件,第三組503為進(jìn)球事件,第四組504為進(jìn)攻未遂事件。 其中,第一組的視覺精彩度為七,第二組的視覺精彩度為九,第三組的視覺精 彩度為七,第四組的視覺精彩度為五,各關(guān)聯(lián)鏡頭組的視覺精彩度均大于第一 級(jí)視覺精彩度閾值四。
如果選擇聲音精彩度級(jí)別為三,視覺精彩度級(jí)別為三,對(duì)應(yīng)的視覺精彩度 閾值為七,則第四組管理鏡頭組不能提取出來,即只能提取射門鏡頭、犯規(guī)鏡 頭和進(jìn)球鏡頭,不能提取出進(jìn)攻未遂鏡頭。
實(shí)施例一、 一種生成視頻摘要的裝置,該裝置包括
接收單元,用于接收視頻文件;
視覺單元,用于對(duì)視頻文件的視覺精彩度進(jìn)行處理;
聚合單元,用于將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
其中,浮見覺單元可以包括
檢測(cè)子單元,用于將視頻文件進(jìn)行鏡頭邊界檢測(cè),得到鏡頭集; 分類子單元,用于對(duì)鏡頭集進(jìn)行鏡頭分類;
關(guān)聯(lián)子單元,用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組; 計(jì)算子單元,用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
檢測(cè)子單元可以包括
第一才莫塊,用于計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差; 第二模塊,用于通過主色比率絕對(duì)差和顏色直方差的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。
檢測(cè)子單元還可以包括用于根據(jù)切變和漸變邊界得到所述鏡頭集的模塊。
分類子單元可以包括
第三模塊,用于提取鏡頭集中代表鏡頭類型的關(guān)鍵幀; 第四模塊,用于將關(guān)鍵幀分類。
關(guān)聯(lián)子單元可以包括
第五模塊,用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找對(duì)應(yīng)的長(zhǎng)鏡頭; 第六模塊,用于生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為 結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。
實(shí)施例二, 一種生成^L頻摘要的裝置,該裝置包括
接收單元,用于接收視頻文件;
聲音單元,用于對(duì)視頻文件的聲音精彩度進(jìn)行處理;
聚合單元,用于將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
其中聲音單元可以包括
特征子單元,用于^是取^L頻文件的音頻特征;
權(quán)值子單元,用于計(jì)算音頻特征的權(quán)值;
區(qū)間子單元,用于根據(jù)音頻特征的權(quán)值設(shè)置聲音精彩度閾值,并比較音頻 特征與聲音精彩度閾值,獲得相應(yīng)聲音精彩度的視頻段。 特征子單元可以包括
第七模塊,用于對(duì)視頻文件進(jìn)行采樣;
第八模塊,用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平 均過零率特征值。
聚合單元可以包括
第一子單元,用于生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭 為結(jié)束鏡頭的鏡頭組作為關(guān)聯(lián)鏡頭組;
第二子單元,用于選擇滿足聲音精彩度的關(guān)聯(lián)鏡頭組,得到選定關(guān)聯(lián)鏡頭
組;
第三子單元,用于將選定關(guān)聯(lián)鏡頭組聚合成視頻片斷。實(shí)施例三, 一種生成視頻摘要的裝置,參見圖6,該裝置包括 接收單元601,用于接收視頻文件; 視覺單元602,用于對(duì)視頻文件的視覺精彩度進(jìn)行處理; 聲音單元603,用于對(duì)視頻文件的聲音精彩度進(jìn)行處理; 聚合單元604,用于將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成 視頻片斷。
其中,視覺單元可以包括
才企測(cè)子單元,用于將視頻文件進(jìn)行鏡頭邊界檢測(cè),得到鏡頭集; 分類子單元,用于對(duì)鏡頭集進(jìn)行鏡頭分類;
關(guān)聯(lián)子單元,用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組; 計(jì)算子單元,用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
才企測(cè)子單元可以包括
第一模塊,用于計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差; 第二模塊,用于通過主色比率絕對(duì)差和顏色直方差的多個(gè)闊值檢測(cè)鏡頭的 切變和漸變邊界。
檢測(cè)子單元還可以包括用于根據(jù)切變和漸變邊界得到鏡頭集的模塊。 分類子單元可以包括
第三模塊,用于提取鏡頭集中代表鏡頭類型的關(guān)鍵幀; 第四模塊,用于將關(guān)鍵幀分類。
其中,第三模塊可以包括第一子模塊,該第一子模塊用于取每個(gè)鏡頭的中 間幀作為關(guān)鍵幀, 一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為奇數(shù)時(shí),取第(N±l) /2幀作為該鏡頭的關(guān)鍵幀;當(dāng)N為偶數(shù)時(shí),取第N/2幀作為該鏡頭的關(guān)鍵幀。
第四模塊可以包括
第二子模塊,用于將關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、 飽和度、亮度HSV空間;
第三子模塊,用于將每個(gè)視頻幀分成若干區(qū)域;
第四子模塊,用于根據(jù)各區(qū)域的主色覆蓋率將各區(qū)域劃分為不同類別;
第五子模塊,用于為不同類別的區(qū)域分配不同的權(quán)值;
第六子模塊,用于根據(jù)權(quán)值將關(guān)鍵幀劃分為以下類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
第三子模塊可以包括用于將每個(gè)視頻幀分為十六個(gè)區(qū)域,其中長(zhǎng)寬各均分 四等分,每個(gè)區(qū)域之間沒有交集的模塊。
第四子模塊可以包括用于將各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至 80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)的模塊。
第五子模塊可以包括用于分配80%以上綠色覆蓋區(qū)權(quán)值為100, 50%至 80%綠色覆蓋區(qū)權(quán)值為10, 20%至50%綠色覆蓋區(qū)權(quán)值為1, 20%以下綠色覆 蓋區(qū)權(quán)值為0的模塊。
該生成視頻摘要的裝置還可以包括
孤點(diǎn)單元,用于當(dāng)視頻幀出現(xiàn)孤點(diǎn)時(shí),將孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū) 域主色覆蓋率的均值,孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi),孤點(diǎn)的主色 覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)。
關(guān)聯(lián)子單元可以包括
第五模塊,用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找對(duì)應(yīng)的長(zhǎng)鏡頭; 第六模塊,用于生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為 結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。 聲音單元可以包括
特征子單元,用于提取視頻文件的音頻特征; 權(quán)值子單元,用于計(jì)算音頻特征的權(quán)值;
區(qū)間子單元,用于根據(jù)音頻特征的權(quán)值設(shè)置聲音精彩度閾值,并比較所述 音頻特征與所述聲音精彩度閾值,獲得相應(yīng)聲音精彩度的視頻段。 特征子單元可以包括
第七模塊,用于對(duì)視頻文件進(jìn)行采樣;
第八模塊,用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平 均過零率特征值。
權(quán)值子單元可以包括
第九模塊,用于根據(jù)聲音平均短時(shí)能量特征值或聲音平均過零率特征值的 均值和特征值的個(gè)數(shù),計(jì)算音頻特征的權(quán)值。 第九模塊可以包括第七子模塊,用于計(jì)算聲音平均短時(shí)能量特征值或聲音平均過零率特征值 的均值;
第八子模塊,用于將比均值大的所述聲音平均短時(shí)能量特征值或聲音平均 過零率特征值作為高聲特征值,將比均值小的所述聲音平均短時(shí)能量特征值或
聲音平均過零率特征值作為低聲特征值;
第九子模塊,用于計(jì)算高聲特征值或低聲特征值的比率;
第十子模塊,用于根據(jù)高聲特征值或低聲特征值的比率,計(jì)算高聲或低聲
的權(quán)值。
區(qū)間子單元可以包括第十一子才莫塊,用于計(jì)算高聲與低聲的權(quán)值之和;
第十二子模塊,用于將高聲與低聲的權(quán)值之和與特征值閾值參數(shù)相乘,得
到對(duì)應(yīng)的聲音精彩度閾值,特征值閾值參數(shù)小于一。
區(qū)間子單元還可以包括
第十三子模塊,用于比較采樣點(diǎn)處的特征值與聲音精彩度閾值。 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明 可借助軟件加必需的硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以全部通過硬件來實(shí) 施,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方 案對(duì)背景技術(shù)做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì) 算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若 干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通 技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤(rùn)飾, 這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種生成視頻摘要的方法,其特征在于,該方法包括接收視頻文件;對(duì)所述視頻文件的視覺精彩度進(jìn)行處理;將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述視頻文件的視 覺精彩度進(jìn)行處理具體包括將所述視頻文件進(jìn)行鏡頭邊界檢測(cè),得到鏡頭集; 對(duì)所述鏡頭集進(jìn)行鏡頭分類; 對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組; 計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述視頻文件進(jìn)行 鏡頭邊界檢測(cè)具體包括計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差; 通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值檢測(cè)鏡頭的切變和漸 變邊界。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述得到鏡頭集具體包括 根據(jù)所述切變和漸變邊界,得到所述鏡頭集。
5、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述鏡頭集進(jìn)行鏡 頭分類具體包括提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀; 將所述關(guān)鍵幀分類。
6、 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述提取所述鏡頭集中代 表鏡頭類型的關(guān)鍵幀具體包括取每個(gè)鏡頭的中間幀作為關(guān)鍵幀, 一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為 奇數(shù)時(shí),取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀;當(dāng)N為偶數(shù)時(shí),取第N/2幀 作為該鏡頭的關(guān)鍵幀。
7、 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述視頻文件為足球視頻 文件。
8、 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述將所述關(guān)鍵幀分類具體包括將所述關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度 HSV空間;將每個(gè)視頻幀分成若干區(qū)域;根據(jù)所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別; 為不同類別的區(qū)域分配不同的權(quán)值;根據(jù)所述權(quán)值將關(guān)鍵幀劃分為以下類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球 門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
9、 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述將每個(gè)^L頻幀分成若 干區(qū)域具體包括將每個(gè)視頻幀分為十六個(gè)區(qū)域,其中長(zhǎng)寬各均分四等分,每個(gè)區(qū)域之間沒 有交集。
10、 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述各區(qū)域的主 色覆蓋率將所述各區(qū)域劃分為不同類別具體包括將所述各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20% 至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
11、 才艮據(jù)權(quán)利要求10所述的方法,其特征在于,所述為不同類別的區(qū)域 分配不同的4又值具體包括分配80%以上綠色覆蓋區(qū)權(quán)值為100, 50%至80%綠色覆蓋區(qū)權(quán)值為10, 20%至50%綠色覆蓋區(qū)權(quán)值為1, 20%以下綠色覆蓋區(qū)權(quán)值為0。
12、 根據(jù)權(quán)利要求8所述的方法,其特征在于,該方法還包括 當(dāng)視頻幀出現(xiàn)孤點(diǎn)時(shí),將所述孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū)域主色覆蓋率的均值,所述孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi),所述孤點(diǎn)的主色覆 蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)。
13、 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述對(duì)已經(jīng)分類的鏡頭集 進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組具體包括根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找對(duì)應(yīng)的長(zhǎng)鏡頭;生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián) 鏡頭組。
14、 一種生成纟見頻摘要的方法,其特征在于,該方法包括 接收視頻文件;對(duì)所述視頻文件的聲音精彩度進(jìn)行處理; 將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
15、 根據(jù)權(quán)利要求14所述的方法,其特征在于,所述對(duì)所述視頻文件的 聲音精彩度進(jìn)行處理具體包括提取所述視頻文件的音頻特征; 計(jì)算所述音頻特征的權(quán)值; 根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值;比較所述音頻特征與所述聲音精彩度闊值,獲得相應(yīng)聲音精彩度的視頻段。
16、 根據(jù)權(quán)利要求15所述的方法,其特征在于,所述提取所述視頻文件 的音頻特征具體包括對(duì)所述視頻文件進(jìn)行釆樣;計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
17、 根據(jù)權(quán)利要求16所述的方法,其特征在于,所述計(jì)算所述音頻特征 的權(quán)值具體包括根據(jù)所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特 征值的個(gè)數(shù),計(jì)算所述音頻特征的權(quán)值。
18、 根據(jù)權(quán)利要求17所述的方法,其特征在于,所述根據(jù)所述聲音平均 短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù),計(jì)算所述音 頻特征的權(quán)值具體包括計(jì)算所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值; 將比所述均值大的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為高聲特征值,將比所述均值小的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為低聲特征值;計(jì)算所述高聲特征值或低聲特征值的比率;才艮據(jù)所述高聲特征值或低聲特征值的比率,計(jì)算高聲或低聲的權(quán)值。
19、 根據(jù)權(quán)利要求18所述的方法,其特征在于,所述根據(jù)所述音頻特征 的權(quán)值設(shè)置聲音精彩度閾值具體包括計(jì)算所述高聲與低聲的權(quán)值之和;將所述高聲與低聲的權(quán)值之和與特征值閾值參數(shù)相乘,得到對(duì)應(yīng)的聲音精 彩度閾值,所述特征值閾值參數(shù)小于一。
20、 根據(jù)權(quán)利要求19所述的方法,其特征在于,所述比較所述音頻特征 與所述聲音精彩度閾值具體包括比較采樣點(diǎn)處的特征值與所述聲音精彩度閾值。
21、 根據(jù)權(quán)利要求14所述的方法,其特征在于,所述關(guān)聯(lián)鏡頭組以長(zhǎng)鏡 頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭。
22、 根據(jù)權(quán)利要求14所述的方法,其特征在于,所述視頻文件為足3求視 頻文件。
23、 一種生成視頻摘要的方法,其特征在于,該方法包括 接收視頻文件;對(duì)所述視頻文件的視覺精彩度進(jìn)行處理; 對(duì)所述視頻文件的聲音精彩度進(jìn)行處理; 將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
24、 根據(jù)權(quán)利要求23所述的方法,其特征在于,所述對(duì)所述視頻文件的 視覺精彩度進(jìn)行處理具體包括將所述視頻文件進(jìn)行鏡頭邊界;^測(cè),得到鏡頭集; 對(duì)所述鏡頭集進(jìn)行鏡頭分類; 對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組; 計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
25、 根據(jù)權(quán)利要求24所述的方法,其特征在于,所述將所述視頻文件進(jìn) 行鏡頭邊界纟企測(cè)具體包括計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差; 通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值;險(xiǎn)測(cè)鏡頭的切變和漸 變邊界。
26、 根據(jù)權(quán)利要求25所述的方法,其特征在于,所述得到鏡頭集具體包括才艮據(jù)所述切變和漸變邊界,得到所述鏡頭集。
27、 根據(jù)權(quán)利要求24所述的方法,其特征在于,所述對(duì)所述鏡頭集進(jìn)行 鏡頭分類具體包括提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀; 將所述關(guān)鍵幀分類。
28、 根據(jù)權(quán)利要求27所述的方法,其特征在于,所述提取所述鏡頭集中 代表鏡頭類型的關(guān)鍵幀具體包括取每個(gè)鏡頭的中間幀作為關(guān)鍵幀, 一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為 奇數(shù)時(shí),取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀;當(dāng)N為偶數(shù)時(shí),取第N/2幀 作為該鏡頭的關(guān)鍵幀。
29、 根據(jù)權(quán)利要求27所述的方法,其特征在于,所述視頻文件為足5求視 頻文件。
30、 根據(jù)權(quán)利要求29所述的方法,其特征在于,所述將所述關(guān)鍵幀分類 具體包括將所述關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度 HSV空間;將每個(gè)視頻幀分成若干區(qū)域;根據(jù)所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別; 為不同類別的區(qū)域分配不同的權(quán)值;根據(jù)所述權(quán)值將關(guān)鍵幀劃分為以下類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球 門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
31、 根據(jù)權(quán)利要求30所述的方法,其特征在于,所述將每個(gè)視頻幀分成 若干區(qū)域具體包括將每個(gè)視頻幀分為十六個(gè)區(qū)域,其中長(zhǎng)寬各均分四等分,每個(gè)區(qū)域之間沒 有交集。
32、 根據(jù)權(quán)利要求31所述的方法,其特征在于,所述根據(jù)所述各區(qū)域的 主色覆蓋率將所述各區(qū)域劃分為不同類別具體包括將所述各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
33、 根據(jù)權(quán)利要求32所述的方法,其特征在于,所述為不同類別的區(qū)域 分配不同的權(quán)值具體包括分配80%以上綠色覆蓋區(qū)權(quán)值為100, 50%至80%綠色覆蓋區(qū)權(quán)值為10, 20%至50%綠色覆蓋區(qū)權(quán)值為1, 20%以下綠色覆蓋區(qū)^又值為0。
34、 根據(jù)權(quán)利要求30所述的方法,其特征在于,該方法還包括當(dāng)視頻幀出現(xiàn)孤點(diǎn)時(shí),將所述孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū)域主色覆蓋 率的均值,所述孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi),所述^s存、的主色覆 蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)。
35、 根據(jù)權(quán)利要求30所述的方法,其特征在于,所述對(duì)已經(jīng)分類的鏡頭 集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組具體包括根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找對(duì)應(yīng)的長(zhǎng)鏡頭;生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián) 鏡頭組。
36、 根據(jù)權(quán)利要求23所述的方法,其特征在于,所述對(duì)所述視頻文件的 聲音精彩度進(jìn)行處理具體包括提取所述視頻文件的音頻特征; 計(jì)算所述音頻特征的權(quán)值;根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值;比較所述音頻特征與所述聲音精彩度閾值,獲得相應(yīng)聲音精彩度的視頻段。
37、 根據(jù)權(quán)利要求36所述的方法,其特征在于,所述提取所述視頻文件 的音頻特征具體包括對(duì)所述視頻文件進(jìn)行采樣;計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
38、 根據(jù)權(quán)利要求37所述的方法,其特征在于,所述計(jì)算所述音頻特征 的權(quán)值具體包括根據(jù)所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù),計(jì)算所述音頻特征的權(quán)值。
39、 根據(jù)權(quán)利要求38所述的方法,其特征在于,所述根據(jù)所述聲音平均 短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù),計(jì)算所述音 頻特征的權(quán)值具體包括計(jì)算所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值; 將比所述均值大的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為高聲特征值,將比所述均值小的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為低聲特征值;計(jì)算所述高聲特征值或低聲特征值的比率;根據(jù)所述高聲特征值或低聲特征值的比率,計(jì)算高聲或低聲的權(quán)值。
40、 根據(jù)權(quán)利要求39所述的方法,其特征在于,所述根據(jù)所述音頻特征 的權(quán)值設(shè)置聲音精彩度闊值具體包括計(jì)算所述高聲與低聲的權(quán)值之和;將所述高聲與低聲的權(quán)值之和與特征值閾值參數(shù)相乘,得到對(duì)應(yīng)的聲音精 彩度閾值,所述特征值闊值參凄t小于一。
41、 根據(jù)權(quán)利要求40所述的方法,其特征在于,所述比較所述音頻特征 與所述聲音精彩度閾值具體包括比較釆樣點(diǎn)處的特征值與所述聲音精彩度閾值。
42、 一種生成視頻摘要的裝置,其特征在于,該裝置包括 接收單元,用于接收視頻文件;視覺單元,用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理; 聚合單元,用于將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
43、 根據(jù)權(quán)利要求42所述的裝置,其特征在于,所述視覺單元包括 檢測(cè)子單元,用于將所述視頻文件進(jìn)行鏡頭邊界檢測(cè),得到鏡頭集; 分類子單元,用于對(duì)所述鏡頭集進(jìn)行鏡頭分類;關(guān)聯(lián)子單元,用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組; 計(jì)算子單元,用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
44、 根據(jù)權(quán)利要求43所述的裝置,其特征在于,所述檢測(cè)子單元包括 第一模塊,用于計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差;第二才莫塊,用于通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值4企測(cè)鎮(zhèn): 頭的切變和漸變邊界。
45、 根據(jù)權(quán)利要求44所述的裝置,其特征在于,所述檢測(cè)子單元還包括 用于根據(jù)所述切變和漸變邊界得到所述鏡頭集的模塊。
46、 根據(jù)權(quán)利要求43所述的裝置,其特征在于,所述分類子單元包括 第三模塊,用于提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀; 第四模塊,用于將所述關(guān)鍵幀分類。
47、 根據(jù)權(quán)利要求43所述的裝置,其特征在于,所述關(guān)聯(lián)子單元包括 第五模塊,用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找對(duì)應(yīng)的長(zhǎng)鏡頭; 第六模塊,用于生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。
48、 一種生成視頻摘要的裝置,其特征在于,該裝置包括 接收單元,用于接收視頻文件;聲音單元,用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理; 聚合單元,用于將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
49、 根據(jù)權(quán)利要求48所述的裝置,其特征在于,所述聲音單元包括 特征子單元,用于提取所述視頻文件的音頻特征;權(quán)值子單元,用于計(jì)算所述音頻特征的權(quán)值;區(qū)間子單元,用于根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值,并比較 所述音頻特征與所述聲音精彩度閾值,獲得相應(yīng)聲音精彩度的視頻段。
50、 根據(jù)權(quán)利要求49所述的裝置,其特征在于,所述特征子單元包括 第七模塊,用于對(duì)所述視頻文件進(jìn)行采樣;第八模塊,用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平 均過零率特征值。
51、 根據(jù)權(quán)利要求48所述的裝置,其特征在于,所述聚合單元包括 第一子單元,用于生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的鏡頭組作為關(guān)聯(lián)鏡頭組;第二子單元,用于選擇滿足聲音精彩度的關(guān)聯(lián)鏡頭組,得到選定關(guān)聯(lián)鏡頭組;第三子單元,用于將所述選定關(guān)聯(lián)鏡頭組聚合成視頻片斷。
52、 一種生成視頻摘要的裝置,其特征在于,該裝置包括 接收單元,用于接收一見頻文件;視覺單元,用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理; 聲音單元,用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理; 聚合單元,用于將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻 片斷。
53、 根據(jù)權(quán)利要求52所述的裝置,其特征在于,所述視覺單元包括 檢測(cè)子單元,用于將所述視頻文件進(jìn)行鏡頭邊界檢測(cè),得到鏡頭集; 分類子單元,用于對(duì)所述鏡頭集進(jìn)行鏡頭分類;關(guān)聯(lián)子單元,用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合,得到關(guān)聯(lián)鏡頭組; 計(jì)算子單元,用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
54、 根據(jù)權(quán)利要求53所述的裝置,其特征在于,所述;^測(cè)子單元包括 第一才莫塊,用于計(jì)算^L頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差; 第二模塊,用于通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。
55、 根據(jù)權(quán)利要求54所述的裝置,其特征在于,所述檢測(cè)子單元還包括 用于根據(jù)所述切變和漸變邊界得到所述鏡頭集的模塊。
56、 根據(jù)權(quán)利要求53所述的裝置,其特征在于,所述分類子單元包括 第三模塊,用于提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀; 第四模塊,用于將所述關(guān)鍵幀分類。
57、 根據(jù)權(quán)利要求53所述的裝置,其特征在于,所述關(guān)聯(lián)子單元包括 第五模塊,用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀,查找對(duì)應(yīng)的長(zhǎng)鏡頭; 第六沖莫塊,用于生成以長(zhǎng)鏡頭為開始鏡頭,下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。
58、 根據(jù)權(quán)利要求52所述的裝置,其特征在于,所述聲音單元包括 特征子單元,用于提取所述視頻文件的音頻特征;權(quán)值子單元,用于計(jì)算所述音頻特征的權(quán)值;區(qū)間子單元,用于根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值,并比較所述音頻特征與所述聲音精彩度閾值,獲得相應(yīng)聲音精彩度的視頻段。
59、根據(jù)權(quán)利要求58所述的裝置,其特征在于,所述特征子單元包括 第七模塊,用于對(duì)所述視頻文件進(jìn)行采樣;第八模塊,用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平 均過零率特征值。
全文摘要
本發(fā)明公開了生成視頻摘要的方法及裝置,一種方法包括接收視頻文件;對(duì)所述視頻文件的視覺精彩度進(jìn)行處理;對(duì)所述視頻文件的聲音精彩度進(jìn)行處理;將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
背景技術(shù):
中,對(duì)足球比賽視頻文檔根據(jù)音頻特征、視覺特征、文本特征和運(yùn)動(dòng)特征等四種特征進(jìn)行處理,得到足球視頻摘要,采用本發(fā)明實(shí)施例生成視頻摘要的方法及裝置,對(duì)視頻文件的視覺精彩度和/或聲音精彩度進(jìn)行處理,減少特征種類,降低計(jì)算復(fù)雜度,提高視頻摘要生成的效率和準(zhǔn)確率。
文檔編號(hào)G11B27/034GK101431689SQ20071016516
公開日2009年5月13日 申請(qǐng)日期2007年11月5日 優(yōu)先權(quán)日2007年11月5日
發(fā)明者于俊清, 何云峰, 牛彩卿 申請(qǐng)人:華為技術(shù)有限公司;華中科技大學(xué)