生成視頻摘要的方法及裝置的制作方法

文檔序號(hào)：6779564閱讀：258來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>信息存儲(chǔ)應(yīng)用技術(shù)

專利名稱：生成視頻摘要的方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及視頻處理技術(shù)領(lǐng)域，特別涉及生成視頻摘要的方法及裝置。
背景技術(shù)：
作為一種團(tuán)體對(duì)抗性運(yùn)動(dòng)，足球已經(jīng)融入人們的日常生活。隨著足球賽事的不斷增多，人們往往無法到比賽現(xiàn)場(chǎng)親身觀看，也難以通過視頻看到所有的足球比賽，這樣，足球視頻摘要成為人們觀看足球比賽的首選。
足球視頻摘要是指對(duì)足球比賽視頻文檔的簡(jiǎn)短內(nèi)容總結(jié)，通常通過提取足
球比賽視頻文檔的特征建立足球視頻摘要。足球比賽視頻文檔的特征包括音頻特征、視覺特征、文本特征和運(yùn)動(dòng)特征。
其中，音頻特征包括講解員的講解聲、觀眾的歡呼聲、鼓掌聲和背景噪聲等；視覺特征包括球場(chǎng)輪廓、觀眾席區(qū)、球門區(qū)域和球門框等；文本特征包括足球比賽視頻文檔下方的字幕欄、左上角的臺(tái)標(biāo)欄和右上角的比分欄鏡頭回放前的臺(tái)標(biāo)等；運(yùn)動(dòng)特征包括攝像機(jī)的運(yùn)動(dòng)、球員的運(yùn)動(dòng)和球的運(yùn)動(dòng)等。
在特征提取時(shí)，提取的特征種類比較多，系統(tǒng)的運(yùn)算量大；在提取運(yùn)動(dòng)特征時(shí)，運(yùn)動(dòng)對(duì)象有效的分離和跟蹤復(fù)雜度高，計(jì)算困難，容易出錯(cuò)。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供生成視頻摘要的方法及裝置，提高視頻摘要生成的效率和準(zhǔn)確率。
本發(fā)明實(shí)施例提供了一種生成視頻摘要的方法，該方法包括接收視頻文件；
對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；
將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實(shí)施例還提供了一種生成視頻摘要的方法，該方法包括
接收視頻文件；
對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；
將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實(shí)施例還提供了一種生成視頻摘要的方法，該方法包括
4妻收纟見頻文件；對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；
.對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；
將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實(shí)施例還提供了一種生成視頻摘要的裝置，該裝置包括接收單元，用于接收視頻文件；
視覺單元，用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；聚合單元，用于將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。本發(fā)明實(shí)施例還提供了一種生成視頻摘要的裝置，該裝置包括接收單元，用于接收視頻文件；
聲音單元，用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；聚合單元，用于將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。本發(fā)明實(shí)施例還提供了一種生成視頻摘要的裝置，該裝置包括接收單元，用于接收視頻文件；
視覺單元，用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；聲音單元，用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；聚合單元，用于將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
背景技術(shù)：
中，對(duì)足球比賽視頻文檔根據(jù)音頻特征、視覺特征、文本特征和運(yùn)動(dòng)特征等四種特征進(jìn)行處理，得到足球視頻摘要，采用本發(fā)明實(shí)施例生成視頻摘要的方法及裝置，對(duì)視頻文件的視覺精彩度和/或聲音精彩度進(jìn)行處理，減少特征種類，降低計(jì)算復(fù)雜度，提高視頻摘要生成的效率和準(zhǔn)確率。
背景技術(shù)：
中，對(duì)運(yùn)動(dòng)特征進(jìn)行提取時(shí)，運(yùn)動(dòng)對(duì)象有效的分離和跟蹤的復(fù)雜度高，計(jì)算困難，且對(duì)運(yùn)動(dòng)特征提取的準(zhǔn)確性對(duì)視頻摘要生成效果有很大影響，采用本發(fā)明實(shí)施例一種生成視頻摘要的方法及裝置，通過視頻文件的視覺精彩度和/或聲音精彩度進(jìn)行處理，避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響，提高了視頻摘要的準(zhǔn)確率。

圖1是本發(fā)明生成視頻摘要的方法實(shí)施例三的流程示意圖2是本發(fā)明生成視頻摘要的方法實(shí)施例三中聲音平均短時(shí)能量特征值入隊(duì)的流程示意圖3是本發(fā)明生成視頻摘要的方法實(shí)施例三中聲音平均短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列的流程示意圖4是本發(fā)明生成視頻摘要的方法實(shí)施例三中聲音平均短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列的流程示意圖5是本發(fā)明生成視頻摘要的方法實(shí)施例三中鏡頭提取結(jié)果示意圖6是本發(fā)明成視頻摘要的裝置實(shí)施例三的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
實(shí)施例一，一種生成一見頻摘要的方法，該方法包括
步驟一、接收視頻文件；
步驟二、對(duì)視頻文件的視覺精彩度進(jìn)行處理；
可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理
將視頻文件進(jìn)行鏡頭邊界檢測(cè)，得到鏡頭集；對(duì)鏡頭集進(jìn)行鏡頭分類；對(duì) 已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
可以采用以下方式對(duì)浮見頻文件進(jìn)行鏡頭邊界4全測(cè)
計(jì)算^L頻文件兩幀之間的主色比率絕對(duì)差Gd和顏色直方差Hd;通過主色比率絕對(duì)差Gd和顏色直方差Hd的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。
根據(jù)切變和漸變邊界，得到鏡頭集。
可以采用以下方式對(duì)#;頭集進(jìn)行鏡頭分類
提取鏡頭集中代表鏡頭類型的關(guān)鍵幀；將關(guān)鍵幀分類。
可以采用以下方式提取鏡頭集中代表鏡頭類型的關(guān)鍵幀
取每個(gè)鏡頭的中間幀作為關(guān)鍵幀，一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N，當(dāng)N為奇數(shù)時(shí)，取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀；當(dāng)N為偶數(shù)時(shí)，取第N/2幀作為該鏡頭的關(guān)鍵幀。對(duì)于每一個(gè)鏡頭而言，中心位置是視覺上最重要的位置，因此，取每個(gè)鏡頭的中間幀作為關(guān)鍵幀。
可以采用以下方式進(jìn)行關(guān)鍵幀分類
將關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度HSV 空間；將每個(gè)視頻幀分成若干區(qū)域；根據(jù)各區(qū)域的主色覆蓋率將各區(qū)域劃分為不同類別；為不同類別的區(qū)域分配不同的權(quán)值；根據(jù)權(quán)值將關(guān)鍵幀劃分為以下H=、
類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
RGB轉(zhuǎn)化到HSV空間的計(jì)算公式如下所示 Max=max ( R,QB ) Min=min (R，G,B )
廣 (G-B) *60/(Max-Min)， if Max=R,G>B
360+ (G畫B) *60/(Max-Min)， if Max=R，G<B 180+ (B-R) *60/( Max- Min), ifMax= G 240+ (R-G) *60/(Max-Min)， if Max=B S= (Max- Min) / Max V= Max
由于在視頻文件中，一般都有一個(gè)主色，例如，在足球視頻中，綠色為主色，在籃球視頻中，籃球場(chǎng)地板的木板色為主色；滑冰視頻中，冰的透明色為主色、、、而主色在—見頻幀的分布具有區(qū)域特征。一方面，浮見頻幀中一般存在標(biāo) 志覆蓋，例如幀下面的字幕、左上角的臺(tái)標(biāo)、右上角的分?jǐn)?shù)欄，這些標(biāo)志覆蓋都存在于固定的區(qū)域，區(qū)分出這些覆蓋區(qū)域有利于減少標(biāo)識(shí)覆蓋對(duì)視頻精彩度結(jié)果的影響。另一方面，在視頻文件的圖片幀中，不少具有水平性和對(duì)稱性的特點(diǎn)，因此，可以將每個(gè)視頻幀分為十六個(gè)區(qū)域，其中長(zhǎng)寬各均分四等分，每個(gè)區(qū)域之間沒有交集。
當(dāng)視頻文件為足球比賽視頻時(shí)，主色為綠色，可以將各區(qū)域劃分為80% 以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
為80%以上綠色覆蓋區(qū)分配權(quán)值為100, 50%至80%綠色覆蓋區(qū)分配權(quán)值為10， 20%至50%綠色覆蓋區(qū)分配權(quán)值為1, 20%以下綠色覆蓋區(qū)分配權(quán)值為 0。
根據(jù)權(quán)值得到不同類型的鏡頭長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
其中，長(zhǎng)鏡頭，體現(xiàn)在區(qū)域特征上，是指中間兩行區(qū)域?yàn)槿魃珷顟B(tài)的鏡頭，在足球視頻中，長(zhǎng)鏡頭是指中間兩行區(qū)域?yàn)槿G色狀態(tài)的鏡頭。
半鏡頭是中距離鏡頭的一種，用于描述比賽過程運(yùn)動(dòng)員運(yùn)動(dòng)中的中距離特寫，體現(xiàn)在區(qū)域特征上，一般最上面兩行都被覆蓋，且最下面兩行之可能存在列覆蓋。
3/4鏡頭也是中距離鏡頭的一種，體現(xiàn)在區(qū)域特征上，一般是最上面三行
都被覆蓋，同時(shí)最下面一行區(qū)間的覆蓋率在50%以下，在足球視頻中，3/4鏡頭通常是球員帶球動(dòng)作的特寫。
球門鏡頭，在足球視頻中，球門鏡頭是球場(chǎng)外遠(yuǎn)距離攝像機(jī)對(duì)球門區(qū)域的跟蹤，體現(xiàn)在區(qū)域特征上，從左到右，在主色覆蓋率上具有遞減或者遞增的趨勢(shì)，一般最上一行被覆蓋，權(quán)值和最大值大于等于110。在足球視頻中，球門鏡頭一般用于射門事件的識(shí)別。
特寫鏡頭，體現(xiàn)在區(qū)域特征上，一般是由下至上遞減的范圍覆蓋，最下面一行中有全覆蓋區(qū)域，至少存在一列的列覆蓋為零。在足球視頻中，特寫鏡頭包括運(yùn)動(dòng)員特寫鏡頭和裁判特寫鏡頭。
中鏡頭，體現(xiàn)在區(qū)域特征上，一般是列覆蓋，即只有幾列存在覆蓋的情況，最下面一行不存在覆蓋。在足球視頻中，中鏡頭用于較遠(yuǎn)距離描述運(yùn)動(dòng)員帶球或是過人。
短鏡頭，體現(xiàn)在區(qū)域特征上，一般都為全覆蓋。在足球視頻中，短鏡頭一般是對(duì)觀眾席的拍攝記憶對(duì)特寫球員的跟蹤。
其他鏡頭，用于表示由于運(yùn)動(dòng)產(chǎn)生的模糊而無法區(qū)分的鏡頭。
根據(jù)區(qū)域的權(quán)值得到不同類型的鏡頭，各類型鏡頭的權(quán)值不同，權(quán)值越高，與精彩鏡頭的關(guān)聯(lián)度越大，球門鏡頭的權(quán)值為1、短鏡頭的權(quán)值為1、特寫鏡頭的權(quán)值為2、 3/4鏡頭的權(quán)值也為2、其他鏡頭的權(quán)值為0、
可以釆用以下方式得到關(guān)聯(lián)鏡頭組根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。
在比賽視頻中，大量運(yùn)動(dòng)員集中在一個(gè)區(qū)域，可能會(huì)影響該鏡頭的行列特性，從而該鏡頭的視頻幀中出現(xiàn)孤點(diǎn)，孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi)，孤點(diǎn)的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)，由于孤點(diǎn)的存在，會(huì)破壞鏡頭主色覆蓋率的連續(xù)性，容易造成鏡頭的誤檢，因此將孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū)域主色覆蓋率的均值。計(jì)算各關(guān)聯(lián)鏡頭組所包含鏡頭的權(quán)值之和作為各關(guān)聯(lián)鏡頭組視覺精彩度，將視覺精彩度與不同閾值比較，當(dāng)視覺精彩度在相應(yīng)的閾值范圍時(shí)，達(dá)到相應(yīng) 的精彩度級(jí)別。閾值可以根據(jù)視頻文件的情況設(shè)定，也可以根據(jù)觀眾的需求設(shè) 定。
視覺精彩度的闊值可以根據(jù)觀眾的需求設(shè)定，從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求，識(shí)別出各種精彩鏡頭，例如球星的精彩運(yùn)球或過人等，提高了視頻摘要生成的靈活性和可靠性。
在足球視頻中，可以設(shè)定精彩度級(jí)別為一時(shí)，對(duì)應(yīng)的閾值為四；精彩度級(jí) 別為二時(shí)，對(duì)應(yīng)的閾值為五；精彩度級(jí)別為三時(shí)，對(duì)應(yīng)的閾值為七；精彩度級(jí) 別為四時(shí)，對(duì)應(yīng)的閾值為八。第一級(jí)別精彩度視頻幀，為典型犯規(guī)鏡頭，容易誤檢；第二級(jí)別精彩視頻幀為典型射門鏡頭，漏檢犯規(guī)；第三級(jí)別精彩視頻幀為典型進(jìn)球鏡頭，易漏檢；第四級(jí)別精彩視頻幀為精彩度高鏡頭，多漏檢。當(dāng) 視覺精彩度大于相應(yīng)的閾值，則認(rèn)為滿足視覺精彩度要求。
也可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理
將視頻幀劃分為若干區(qū)域，不同顏色代表不同的數(shù)值，根據(jù)顏色的數(shù)值及所占比例計(jì)算各區(qū)域的權(quán)值。例如，將視頻文件分成十個(gè)區(qū)域，成兩行五列的排列，紅色代表八，綠色代表十，黑色代表一，白色代表五、、、第一行第一列的第一區(qū)域中，紅色所占的比例為三分之一，綠色所占的比例為十分之一，黑色所占的比例為七分之一，白色所占的比例為十五分之一、、、將第一區(qū)域中所有顏色代表的數(shù)值與對(duì)應(yīng)的比例乘積之和作為第一區(qū)域的權(quán)值，第一區(qū)域的權(quán) 值作為第一區(qū)域的視覺精彩度。
步驟三、將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
利用符合視覺精彩度鏡頭關(guān)聯(lián)組中的任意一個(gè)關(guān)鍵幀定位其所在的鏡頭關(guān)聯(lián)組，找出符合視覺精彩度的鏡頭關(guān)聯(lián)組。
將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。
得到的視頻片斷組成視頻摘要。
對(duì)于新聞報(bào)道、體育賽事、風(fēng)景游覽等等視頻文件，為了在較短的時(shí)間內(nèi) 傳遞更多的信息，可以采用本實(shí)施例的方法將視頻文件處理成視頻摘要；對(duì)于對(duì)抗性體育賽事，例如馬拉松、賽車、自行車比賽、溜水、籃球、足球等，為了將賽事的精彩片段傳遞給觀眾，可以采用本實(shí)施例的方法將視頻文件生成視頻摘要。
采用本實(shí)施例中生成視頻摘要的方法，僅對(duì)視頻文件的視覺精彩度進(jìn)行處理，減少特征種類，降低計(jì)算復(fù)雜度，提高視頻摘要生成的效率和準(zhǔn)確率。還可以避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響，進(jìn)一步提高了視頻摘要的準(zhǔn)確率。
采用本實(shí)施例中生成視頻摘要的方法，從視頻文件的視覺信息入手，對(duì)鏡頭進(jìn)行精彩程度的量化，可以依據(jù)用戶的不同需求，得出包含不同精彩鏡頭的視頻摘要，提高了視頻摘要的靈活性和可靠性。
實(shí)施例二，一種生成^L頻摘要的方法，該方法包:fe:
步驟一、接收視頻文件；
步驟二、對(duì)視頻文件的聲音精彩度進(jìn)行處理；
可以采用如下方式對(duì)視頻文件的聲音精彩度進(jìn)行處理
提取視頻文件的音頻特征；
計(jì)算音頻特征的權(quán)值；
才艮據(jù)不同的特征值閾值將音頻特征的權(quán)值劃分為若干個(gè)區(qū)間，對(duì)應(yīng)不同的聲音精彩度。
可以采用如下方式提取視頻文件的音頻特征
對(duì)視頻文件進(jìn)行采樣；計(jì)算每個(gè)釆樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
一般，采樣點(diǎn)選取在待檢測(cè)視頻的n等分點(diǎn)處，每次的采樣長(zhǎng)度為t(單位秒)。對(duì)于不同長(zhǎng)度的視頻文件，選擇不同的采樣點(diǎn)個(gè)數(shù)，例如，對(duì)于一個(gè)十五分鐘的視頻，可以選擇五至八個(gè)采樣點(diǎn)，每次采樣一分鐘的數(shù)據(jù)，一分鐘內(nèi)包含若干個(gè)音頻幀。
其中，平均短時(shí)能量(Ste)是指在一個(gè)音頻幀內(nèi)，樣本信號(hào)所積聚的平均能量，反映了聲音信號(hào)振幅或能量隨著時(shí)間的變化規(guī)律。
平均過零率是指在一個(gè)音頻幀內(nèi)，離散采樣信號(hào)值由正到負(fù)和由負(fù)到正變化的次數(shù)與音頻幀長(zhǎng)度的比值，即一幀語音中信號(hào)波形穿過橫軸相鄰兩個(gè)采樣點(diǎn)改變符號(hào)的比率，是音頻信號(hào)在一幀內(nèi)的平均頻率的反映。
可以根據(jù)聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù)，計(jì)算音頻特征的權(quán)值。
計(jì)算聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值；對(duì)于每一
種音頻特征，平均短時(shí)能量或平均過零率，在每一個(gè)采樣點(diǎn)處，采集到k個(gè)值，而每個(gè)值相對(duì)于均值都有較高或較低的區(qū)別，將比均值大的聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為高聲特征值，將比均值小的聲音平均短時(shí) 能量特征值或聲音平均過零率特征值作為低聲特征值；選擇兩個(gè)隊(duì)列存放采樣點(diǎn)的k個(gè)值，將高聲特征值入高聲隊(duì)列，低聲特征值入低聲隊(duì)列，由于每個(gè)釆樣點(diǎn)有兩種特征值(聲音平均短時(shí)能量特征值或聲音平均過零率特征值)，每
種特征值需要兩個(gè)隊(duì)列(高聲隊(duì)列和低聲隊(duì)列)，對(duì)于n個(gè)采樣點(diǎn)，需要4n個(gè) 隊(duì)列，每個(gè)隊(duì)列有兩個(gè)參數(shù)均值和特征值個(gè)數(shù)。
將音頻特征入隊(duì)，包括將聲音平均短時(shí)能量特征值入短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列，以及將聲音平均過零率特征值入過零率高聲隊(duì)列和歸零率低聲隊(duì)列，每種特征值入隊(duì)的流程相同，下面僅以聲音平均短時(shí)能量特征值入隊(duì)為例進(jìn)行說明，入隊(duì)的流程包括
步驟(一)、初始化短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列。k個(gè)聲音平均短時(shí)能量特征值的頭兩個(gè)中較高的值入隊(duì)短時(shí)能量高聲隊(duì)列，較低的值入隊(duì)短時(shí)能量低聲隊(duì)列。同時(shí)，將短時(shí)能量高聲隊(duì)列的均值aveH初始化為入隊(duì)第一個(gè)值，將短時(shí)能量低聲隊(duì)列的均值aveL初始化為入隊(duì)第一個(gè)值。特征值個(gè)數(shù) 均初始化為一。
步驟(二)、判斷是否越界，即判斷是否正在操作第k個(gè)特征值，如果是，則退出入隊(duì)流程；如果不是，則轉(zhuǎn)入步驟(三)。步驟(三)、讀取下一個(gè)特征值i。
步驟(四)、計(jì)算特征值i與短時(shí)能量高聲隊(duì)列均值的差n^aveH-i,計(jì)算特征值i與短時(shí)能量低聲隊(duì)列均值的差n=i-aveL。
步驟(五)、判斷m是否小于n,如果是，則轉(zhuǎn)入步驟(六)，如果不是，則轉(zhuǎn)入步驟(七)。
步驟(六)、特征值i插入高聲隊(duì)列，并修改隊(duì)列參數(shù)，將原短時(shí)能量高聲隊(duì)列均值與特征值i的平均值作為新短時(shí)能量高聲隊(duì)列均值，將原特征值個(gè) 數(shù)加一；轉(zhuǎn)入步驟步驟(八)。步驟(七)、特征值i插入低聲隊(duì)列，并修改隊(duì)列參數(shù)，將原短時(shí)能量低
聲隊(duì)列均值與特征值i的平均值作為新短時(shí)能量低聲隊(duì)列均值，將原特征值個(gè) 數(shù)加一；轉(zhuǎn)入步驟(八)。
步驟(八)、判斷特征值i是否小于原短時(shí)能量高聲隊(duì)列均值或原短時(shí)能量低聲隊(duì)列均值，如果是，則轉(zhuǎn)入步驟(九)；否則，轉(zhuǎn)入步驟(十)。
步驟(九)、短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列，轉(zhuǎn)入步驟(二)。步驟(十)、短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列，轉(zhuǎn)入步驟(二 )。其中，短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列的流程如下步驟A、將短時(shí)能量高聲隊(duì)列中的特征值由d、到大排序。
步驟B、判斷隊(duì)列是否越界，即是否超過該隊(duì)列長(zhǎng)度，如果是，則轉(zhuǎn)入步
驟F,如果否，則轉(zhuǎn)入步驟C。
步驟c、將隊(duì)列中的第一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能量低聲隊(duì)列均值進(jìn)行比較，如果更接近短時(shí)能量低聲隊(duì)列均值，則轉(zhuǎn)入步驟D, 否則，則轉(zhuǎn)入步驟F。
步驟D、將特征值插入短時(shí)能量低聲隊(duì)列，同時(shí)調(diào)整短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列的參數(shù)，即調(diào)整均值和特征值個(gè)數(shù)。
步驟E、讀取下一個(gè)特征值，轉(zhuǎn)入步驟B。
步驟F、退出重新入隊(duì)列流程。
短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列的流程如下
步驟a、將短時(shí)能量低聲隊(duì)列中的特征值由大到小排序。
步驟b、判斷隊(duì)列是否越界，即是否超過該隊(duì)列長(zhǎng)度，如果是，則轉(zhuǎn)入步驟f，如果否，則轉(zhuǎn)入步驟c。
步驟c、將隊(duì)列中的第一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能量低聲隊(duì)列均值進(jìn)行比較，如果更接近短時(shí)能量高聲隊(duì)列均值，則轉(zhuǎn)入步驟d, 否則，則轉(zhuǎn)入步驟f。
步驟d、將特征值插入短時(shí)能量高聲隊(duì)列，同時(shí)調(diào)整短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列的參數(shù)，即調(diào)整均值和特征值個(gè)數(shù)。
步驟e、讀取下一個(gè)特征值，轉(zhuǎn)入步驟b。
步驟f、退出重新入隊(duì)列流程。
20計(jì)算每個(gè)高聲隊(duì)列或低聲隊(duì)列的特征值個(gè)數(shù)在整個(gè)高聲隊(duì)列或低聲隊(duì)列
特征值個(gè)數(shù)中所占的比率。
根據(jù)高聲隊(duì)列或低聲隊(duì)列特征值所占整個(gè)高聲隊(duì)列或低聲隊(duì)列特征值的
比率，計(jì)算整個(gè)高聲隊(duì)列權(quán)值和低聲隊(duì)列權(quán)值。將每個(gè)高聲隊(duì)列的特征值比率與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)高聲隊(duì)列權(quán)值，將每個(gè)低聲隊(duì)列特征值的比率與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)低聲隊(duì)列權(quán)值。
以整個(gè)高聲隊(duì)列和低聲隊(duì)列的隊(duì)列權(quán)值為基礎(chǔ)，設(shè)置聲音精彩度閾值，表示不同的聲音精彩度。為了保證特征值閾值不超過特征值區(qū)間，將級(jí)別系數(shù) 作為特征值閾值參數(shù)，級(jí)別系數(shù)小于一。例如，可以將聲音精彩度劃分為四級(jí)，第一級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.5,則第一級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整
個(gè)低聲隊(duì)列權(quán)值之和乘以0.5;第二級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.6,則第二級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.6;第三級(jí)對(duì)應(yīng)的級(jí) 別系數(shù)為0.7，則第三級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.7;第四級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.8,則第四級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.8。級(jí)別系數(shù)低于0.5定義為不精彩，級(jí)別系數(shù)大于0.8時(shí)，視頻摘要長(zhǎng)度過短，包含的精彩鏡頭過少。也可以根據(jù) 不同的視頻文件具體場(chǎng)景，選擇其他級(jí)別系數(shù)。
利用釆樣點(diǎn)處的音頻特征與聲音精彩度閾值進(jìn)行比較，獲得滿足相應(yīng)的聲音精彩度的視頻段。利用采樣點(diǎn)處的特征值與聲音精彩度閾值進(jìn)行比較，如果特征值大于相應(yīng)的閾值，則滿足相應(yīng)的聲音精彩度級(jí)別。此處，采樣點(diǎn)的特征值可以是采樣點(diǎn)處高聲隊(duì)列的特征值均值，也可以是高聲隊(duì)列特征值均值和低聲隊(duì)列特征值均值之和的一半。
聲音精多度的閾值可以根據(jù)觀眾的需求設(shè)定，從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求，識(shí)別出各種精彩鏡頭，例如球星的精彩運(yùn)球或過人等，提高了視頻摘要生成的靈活性和可靠性。
步驟三、將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
關(guān)聯(lián)鏡頭組可以為以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié) 束鏡頭的鏡頭組。
找出符合聲音精彩度的鏡頭關(guān)聯(lián)組。將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。得到的視頻片斷組成視頻摘要。
對(duì)于新聞報(bào)道、體育賽事、風(fēng)景游覽等等視頻文件，為了在較短的時(shí)間內(nèi) 傳遞更多的信息，可以采用本實(shí)施例的方法將視頻文件處理成視頻摘要；對(duì)于對(duì)抗性體育賽事，例如馬拉松、賽車、自行車比賽、溜冰、籃球、足球等，為了將賽事的精彩片段傳遞給觀眾，可以采用本實(shí)施例的方法將視頻文件生成視頻摘要。
采用本實(shí)施例中生成視頻摘要的方法，僅對(duì)視頻文件的聲音精彩度進(jìn)行處理，減少特征種類，降低計(jì)算復(fù)雜度，提高視頻摘要生成的效率和準(zhǔn)確率。還可以避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響，進(jìn)一步提高了視頻摘要的準(zhǔn)確率。
采用本實(shí)施例中生成視頻摘要的方法，從視頻文件的聲音信息入手，對(duì)鏡頭進(jìn)行精彩程度的量化，可以依據(jù)用戶的不同需求，得出包含不同精彩鏡頭的視頻摘要，提高了視頻摘要的靈活性和可靠性。
實(shí)施例三，一種生成視頻摘要的方法，參見圖1,該方法包括
101、接收視頻文件；
102、對(duì)視頻文件的視覺精彩度進(jìn)行處理；可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理將視頻文件進(jìn)行鏡頭邊界檢測(cè)，得到鏡頭集；對(duì)鏡頭集進(jìn)行鏡頭分類；對(duì)
已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。可以采用以下方式對(duì)視頻文件進(jìn)行鏡頭邊界檢測(cè)
計(jì)算^L頻文件兩幀之間的主色比率絕對(duì)差Gd和顏色直方差Hd;通過主色比率絕對(duì)差Gd和顏色直方差Hd的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。才艮據(jù)切變和漸變邊界，得到鏡頭集。可以采用以下方式對(duì)鏡頭集進(jìn)行鏡頭分類提取鏡頭集中代表鏡頭類型的關(guān)鍵幀；將關(guān)鍵幀分類。可以釆用以下方式提取鏡頭集中代表鏡頭類型的關(guān)鍵幀取每個(gè)鏡頭的中間幀作為關(guān)鍵幀，一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N，當(dāng)N為奇數(shù)時(shí)，取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀；當(dāng)N為偶數(shù)時(shí)，取第N/2幀作為該鏡頭的關(guān)鍵幀。對(duì)于每一個(gè)鏡頭而言，中心位置是視覺上最重要的位置，H=、
因此，取每個(gè)鏡頭的中間幀作為關(guān)鍵幀。可以采用以下方式進(jìn)行關(guān)鍵幀分類
將關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度HSV 空間；將每個(gè)視頻幀分成若干區(qū)域；根據(jù)各區(qū)域的主色覆蓋率將各區(qū)域劃分為不同類別；為不同類別的區(qū)域分配不同的權(quán)值；根據(jù)一又值將關(guān)^l建幀劃分為以下類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
RGB轉(zhuǎn)化到HSV空間的計(jì)算公式如下所示 Max=max (R,QB ) Min=min ( R,QB )
廣 (G-B) *60/(Max-Min), if Max=R,G>B
360+ ( G-B ) *60/( Max- Min), ifMax= R,G<B 180+ (B隱R) *60/( Max- Min), ifMax= G ^ 240+ (R-G) *60/(Max-Min), if Max=B S= (Max- Min) / Max V= Max
由于在視頻文件中，一般都有一個(gè)主色，例如，在足球視頻中，綠色為主色，在籃球視頻中，籃球場(chǎng)地板的木板色為主色；滑冰一見頻中，冰的透明色為主色、、、而主色在視頻幀的分布具有區(qū)域特征。一方面，視頻幀中一般存在標(biāo) 志覆蓋，例如幀下面的字幕、左上角的臺(tái)標(biāo)、右上角的分?jǐn)?shù)欄，這些標(biāo)志覆蓋都存在于固定的區(qū)域，區(qū)分出這些覆蓋區(qū)域有利于減少標(biāo)識(shí)覆蓋對(duì)視頻精彩度結(jié)果的影響。另一方面，在視頻文件的圖片幀中，不少具有水平性和對(duì)稱性的特點(diǎn)，因此，可以將每個(gè)視頻幀分為十六個(gè)區(qū)域，其中長(zhǎng)寬各均分四等分，每個(gè)區(qū)域之間沒有交集。
當(dāng)視頻文件為足球比賽視頻時(shí)，主色為綠色，可以將各區(qū)域劃分為80% 以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
為80%以上綠色覆蓋區(qū)分配權(quán)值為100， 50%至80%綠色覆蓋區(qū)分配權(quán)值為10, 20%至50%綠色覆蓋區(qū)分配權(quán)值為1, 20%以下綠色覆蓋區(qū)分配權(quán)值為 0。根據(jù)權(quán)值得到不同類型的鏡頭長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、
特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
其中，長(zhǎng)鏡頭，體現(xiàn)在區(qū)域特征上，是指中間兩行區(qū)域?yàn)槿魃珷顟B(tài)的鏡頭，在足球視頻中，長(zhǎng)鏡頭是指中間兩行區(qū)域?yàn)槿G色狀態(tài)的鏡頭。
半鏡頭是中距離鏡頭的一種，用于描述比賽過程運(yùn)動(dòng)員運(yùn)動(dòng)中的中距離特寫，體現(xiàn)在區(qū)域特征上，一般最上面兩行都被覆蓋，且最下面兩行之可能存在列覆蓋。
3/4鏡頭也是中距離鏡頭的一種，體現(xiàn)在區(qū)域特征上，一般是最上面三行都被覆蓋，同時(shí)最下面一行區(qū)間的覆蓋率在50%以下，在足球^L頻中，3/4鏡頭通常是球員帶球動(dòng)作的特寫。
球門鏡頭，在足球視頻中，球門鏡頭是球場(chǎng)外遠(yuǎn)距離攝像機(jī)對(duì)球門區(qū)域的跟蹤，體現(xiàn)在區(qū)域特征上，從左到右，在主色覆蓋率上具有遞減或者遞增的趨勢(shì)，一般最上一行被覆蓋，權(quán)值和最大值大于等于110。在足球視頻中，球門鏡頭一般用于射門事件的識(shí)別。
特寫鏡頭，體現(xiàn)在區(qū)域特征上，一般是由下至上遞減的范圍覆蓋，最下面一行中有全覆蓋區(qū)域，至少存在一列的列覆蓋為零。在足球視頻中，特寫鏡頭包括運(yùn)動(dòng)員特寫鏡頭和裁判特寫鏡頭。
中鏡頭，體現(xiàn)在區(qū)域特征上，一般是列覆蓋，即只有幾列存在覆蓋的情況，最下面一行不存在覆蓋。在足球視頻中，中鏡頭用于較遠(yuǎn)距離描述運(yùn)動(dòng)員帶球或是過人。
短鏡頭，體現(xiàn)在區(qū)域特征上，一般都為全覆蓋。在足球視頻中，短鏡頭一般是對(duì)觀眾席的拍攝記憶對(duì)特寫球員的跟蹤。
其他鏡頭，用于表示由于運(yùn)動(dòng)產(chǎn)生的模糊而無法區(qū)分的鏡頭。
根據(jù)區(qū)域的權(quán)值得到不同類型的鏡頭，各類型鏡頭的權(quán)值不同，權(quán)值越高，與精彩鏡頭的關(guān)聯(lián)度越大，球門鏡頭的權(quán)值為1、短鏡頭的權(quán)值為1、特寫鏡頭的權(quán)值為2、 3/4鏡頭的權(quán)值也為2、其他鏡頭的權(quán)值為0、
可以采用以下方式得到關(guān)聯(lián)鏡頭組根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。在比賽視頻中，大量運(yùn)動(dòng)員集中在一個(gè)區(qū)域，可能會(huì)影響該鏡頭的行列特性，從而該鏡頭的視頻幀中出現(xiàn)孤點(diǎn)，孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi)，孤點(diǎn)的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)，由于孤點(diǎn)的存在，會(huì)破壞鏡頭主色覆蓋率的連續(xù)性，容易造成鏡頭的誤檢，因此將孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū)域主色覆蓋率的均值。
計(jì)算各關(guān)聯(lián)鏡頭組所包含鏡頭的權(quán)值之和作為各關(guān)聯(lián)鏡頭組視覺精彩度，將視覺精彩度與不同閾值比較，當(dāng)視覺精彩度在相應(yīng)的閾值范圍時(shí)，達(dá)到相應(yīng) 的精彩度級(jí)別。閾值可以根據(jù)視頻文件的情況設(shè)定，也可以才艮據(jù)觀眾的需求設(shè) 定。
視覺精彩度的閾值可以根據(jù)觀眾的需求設(shè)定，從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求，識(shí)別出各種精彩鏡頭，例如球星的精彩運(yùn)球或過人等，提高了視頻摘要生成的靈活性和可靠性。
在足球視頻中，可以設(shè)定精彩度級(jí)別為一時(shí)，對(duì)應(yīng)的閾值為四；精彩度級(jí) 別為二時(shí)，對(duì)應(yīng)的閾值為五；精彩度級(jí)別為三時(shí)，對(duì)應(yīng)的閾值為七；精彩度級(jí) 別為四時(shí)，對(duì)應(yīng)的閾值為八。第一級(jí)別精彩度視頻幀，為典型犯規(guī)鏡頭，容易誤檢；第二級(jí)別精彩視頻幀為典型射門鏡頭，漏檢犯規(guī)；第三級(jí)別精彩視頻幀為典型進(jìn)球鏡頭，易漏檢；第四級(jí)別精彩視頻幀為精彩度高鏡頭，多漏檢。當(dāng) 視覺精彩度大于相應(yīng)的閾值，則認(rèn)為滿足視覺精彩度要求。
也可以采用以下方式對(duì)視頻文件的視覺精彩度進(jìn)行處理
將視頻幀劃分為若干區(qū)域，不同顏色代表不同的數(shù)值，根據(jù)顏色的數(shù)值及所占比例計(jì)算各區(qū)域的權(quán)值。例如，將視頻文件分成十個(gè)區(qū)域，成兩行五列的排列，紅色代表八，綠色代表十，黑色代表一，白色代表五、、、第一行第一列的第一區(qū)域中，紅色所占的比例為三分之一，綠色所占的比例為十分之一，黑色所占的比例為七分之一，白色所占的比例為十五分之一、、、將第一區(qū)域中所有顏色代表的數(shù)值與對(duì)應(yīng)的比例乘積之和作為第一區(qū)域的權(quán)值，第一區(qū)域的權(quán) 值作為第一區(qū)域的視覺精彩度。
103、對(duì)視頻文件的聲音精彩度進(jìn)行處理；
可以釆用如下方式對(duì)視頻文件的聲音精彩度進(jìn)行處理
提取視頻文件的音頻特征；計(jì)算音頻特征的權(quán)值；
根據(jù)不同的特征值閾值將音頻特征的權(quán)值劃分為若干個(gè)區(qū)間，對(duì)應(yīng)不同的聲音精彩度。
可以采用如下方式一是耳又;現(xiàn)頻文件的音頻特征
對(duì)視頻文件進(jìn)行采樣；計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
一般，釆樣點(diǎn)選取在待檢測(cè)視頻的n等分點(diǎn)處，每次的采樣長(zhǎng)度為t(單位秒)。對(duì)于不同長(zhǎng)度的視頻文件，選擇不同的采樣點(diǎn)個(gè)數(shù)，例如，對(duì)于一個(gè)十五分鐘的視頻，可以選擇五至八個(gè)采樣點(diǎn)，每次采樣一分鐘的數(shù)據(jù)，一分鐘內(nèi)包含若干個(gè)音頻幀。
其中，平均短時(shí)能量(Ste)是指在一個(gè)音頻幀內(nèi)，樣本信號(hào)所積聚的平均能量，反映了聲音信號(hào)振幅或能量隨著時(shí)間的變化規(guī)律。
平均過零率是指在一個(gè)音頻幀內(nèi)，離散采樣信號(hào)值由正到負(fù)和由負(fù)到正變化的次數(shù)與音頻幀長(zhǎng)度的比值，即一幀語音中信號(hào)波形穿過橫軸相鄰兩個(gè)釆樣點(diǎn)改變符號(hào)的比率，是音頻信號(hào)在一幀內(nèi)的平均頻率的反映。
可以根據(jù)聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù)，計(jì)算音頻特征的權(quán)值。
計(jì)算聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值；對(duì)于每一種音頻特征，平均短時(shí)能量或平均過零率，在每一個(gè)采樣點(diǎn)處，采集到k個(gè)值，而每個(gè)值相對(duì)于均值都有較高或較低的區(qū)別，將比均值大的聲音平均短時(shí)能量
特征值或聲音平均過零率特征值作為高聲特征值，將比均值小的聲音平均短時(shí) 能量特征值或聲音平均過零率特征值作為低聲特征值；選擇兩個(gè)隊(duì)列存放采樣點(diǎn)的k個(gè)值，將高聲特征值入高聲隊(duì)列，低聲特征值入低聲隊(duì)列，由于每個(gè)采樣點(diǎn)有兩種特征值(聲音平均短時(shí)能量特征值或聲音平均過零率特征值)，每種特征值需要兩個(gè)隊(duì)列(高聲隊(duì)列和低聲隊(duì)列)，對(duì)于n個(gè)采樣點(diǎn)，需要4n個(gè) 隊(duì)列，每個(gè)隊(duì)列有兩個(gè)參數(shù)均值和特征值個(gè)數(shù)。
將音頻特征入隊(duì)，包括將聲音平均短時(shí)能量特征值入短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列，以及將聲音平均過零率特征值入過零率高聲隊(duì)列和過零率低聲隊(duì)列，每種特征值入隊(duì)的流程相同，下面僅以聲音平均短時(shí)能量特征值入隊(duì)為例進(jìn)行說明，參見圖2，入隊(duì)的流程包括
201、初始化短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列。k個(gè)聲音平均短時(shí)能量特征值的頭兩個(gè)中較高的值入隊(duì)短時(shí)能量高聲隊(duì)列，較低的值入隊(duì)短時(shí)能量低聲隊(duì)列。同時(shí)，將短時(shí)能量高聲隊(duì)列的均值aveH初始化為入隊(duì)第一個(gè)值，將短時(shí)能量低聲隊(duì)列的均值aveL初始化為入隊(duì)第一個(gè)值。特征值個(gè)數(shù)均初始化為一。
202、判斷是否越界，即判斷是否正在操作第k個(gè)特征值，如果是，則退出入隊(duì)流程；如果不是，則轉(zhuǎn)入步驟203。
203、讀取下一個(gè)特征值i。
204、計(jì)算特征值i與短時(shí)能量高聲隊(duì)列均值的差m=aveH-i,計(jì)算特征值 i與短時(shí)能量低聲隊(duì)列均值的差n=i-aveL。
205、判斷m是否小于n,如果是，則轉(zhuǎn)入步驟206,如果不是，則轉(zhuǎn)入步驟207。
206、特征值i插入高聲隊(duì)列，并修改隊(duì)列參數(shù)，將原短時(shí)能量高聲隊(duì)列均值與特征值i的平均值作為新短時(shí)能量高聲隊(duì)列均值，將原特征值個(gè)數(shù)加一；轉(zhuǎn)入步驟208。
207、特征值i插入低聲隊(duì)列，并修改隊(duì)列參數(shù)，將原短時(shí)能量低聲隊(duì)列均值與特征值i的平均值作為新短時(shí)能量低聲隊(duì)列均值，將原特征值個(gè)數(shù)加一；轉(zhuǎn)入步驟208。
208、判斷特征值i是否小于原短時(shí)能量高聲隊(duì)列均值或原短時(shí)能量低聲隊(duì)列均值，如果是，則轉(zhuǎn)入步驟209;否則，轉(zhuǎn)入步驟210。
209、短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列，轉(zhuǎn)入步驟202。
210、短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列，轉(zhuǎn)入步驟202。
其中，參見圖3，短時(shí)能量高聲隊(duì)列特征值重新入隊(duì)列的流程如下
301、將短時(shí)能量高聲隊(duì)列中的特4正值由小到大排序。
302、判斷隊(duì)列是否越界，即是否超過該隊(duì)列長(zhǎng)度，如果是，則轉(zhuǎn)入步驟 306，如果否，則轉(zhuǎn)入步驟303。
303 、將隊(duì)列中的第一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能量低聲隊(duì)列均值進(jìn)行比較，如果更接近短時(shí)能量低聲隊(duì)列均值，則轉(zhuǎn)入步驟304,否則，則轉(zhuǎn)入步驟306。
304、將特征值插入短時(shí)能量低聲隊(duì)列，同時(shí)調(diào)整短時(shí)維量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列的參數(shù)，即調(diào)整均值和特征值個(gè)數(shù)。
305、讀取下一個(gè)特征值，轉(zhuǎn)入步驟302。
306、退出重新入隊(duì)列流程。
參見圖4,短時(shí)能量低聲隊(duì)列特征值重新入隊(duì)列的流程如下
401 、將短時(shí)能量低聲隊(duì)列中的特征值由大到小排序。
402、判斷隊(duì)列是否越界，即是否超過該隊(duì)列長(zhǎng)度，如果是，則轉(zhuǎn)入步驟 406，如果否，則轉(zhuǎn)入步驟403。
403 、將隊(duì)列中的第一個(gè)特征值分別與短時(shí)能量高聲隊(duì)列均值和短時(shí)能量低聲隊(duì)列均值進(jìn)行比較，如果更接近短時(shí)能量高聲隊(duì)列均值，則轉(zhuǎn)入步驟404，否則，則轉(zhuǎn)入步驟406。
404、將特征值插入短時(shí)能量高聲隊(duì)列，同時(shí)調(diào)整短時(shí)能量高聲隊(duì)列和短時(shí)能量低聲隊(duì)列的參數(shù)，即調(diào)整均值和特征值個(gè)數(shù)。
405、讀取下一個(gè)特征值，轉(zhuǎn)入步驟402.
406、退出重新入隊(duì)列流程。
計(jì)算每個(gè)高聲隊(duì)列或低聲隊(duì)列的特征值個(gè)數(shù)在整個(gè)高聲隊(duì)列或低聲隊(duì)列特征值個(gè)數(shù)中所占的比率。
根據(jù)高聲隊(duì)列或低聲隊(duì)列特征值所占整個(gè)高聲隊(duì)列或低聲隊(duì)列特征值的比率，計(jì)算整個(gè)高聲隊(duì)列權(quán)值和低聲隊(duì)列權(quán)值。將每個(gè)高聲隊(duì)列的特征1直比率與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)高聲隊(duì)列權(quán)值，將每個(gè)低聲隊(duì)列特征值的比率與對(duì)應(yīng)的隊(duì)列特征值均值乘積之和作為整個(gè)低聲隊(duì)列權(quán)值。
以整個(gè)高聲隊(duì)列和低聲隊(duì)列的隊(duì)列權(quán)值為基礎(chǔ)，設(shè)置聲音精彩度閾值，表示不同的聲音精彩度。為了保證特征值閾值不超過特征值區(qū)間，將級(jí)別系數(shù) 作為特征值閾值參數(shù)，級(jí)別系數(shù)小于一。例如，可以將聲音精彩度劃分為四級(jí)，第一級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.5,則第一級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)^:與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.5;第二級(jí)對(duì)應(yīng)的級(jí)別系tt為0.6,則第二級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.6;第三級(jí)對(duì)應(yīng)的級(jí) 別系數(shù)為0.7,則第三級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.7;第四級(jí)對(duì)應(yīng)的級(jí)別系數(shù)為0.8,則第四級(jí)特征值閾值為整個(gè)高聲隊(duì)列權(quán)值與整個(gè)低聲隊(duì)列權(quán)值之和乘以0.8。級(jí)別系數(shù)低于0.5定義為不精彩，級(jí)別系數(shù)大于0.8時(shí)，視頻摘要長(zhǎng)度過段，包含的精彩鏡頭過少。也可以根據(jù) 不同的視頻文件具體場(chǎng)景，選擇其他級(jí)別系數(shù)。
利用采樣點(diǎn)處的音頻特征與聲音精彩度閾值進(jìn)行比較，獲得滿足相應(yīng)的聲音精彩度的視頻段。利用采樣點(diǎn)處的特征值與聲音精彩度閾值進(jìn)行比較，如果特征值大于相應(yīng)的閾值，則滿足相應(yīng)的聲音精彩度級(jí)別。此處，采樣點(diǎn)的特征值可以是采樣點(diǎn)處高聲隊(duì)列的特征值均值，也可以是高聲隊(duì)列特征值均值和低聲隊(duì)列特征值均值之和的一半。
聲音精彩度的閾值可以根據(jù)觀眾的需求設(shè)定，從而可以滿足觀眾快速可調(diào) 的精彩鏡頭提取要求，識(shí)別出各種精彩鏡頭，例如球星的精彩運(yùn)球或過人等，提高了視頻摘要生成的靈活性和可靠性。
104、將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
利用符合視覺精彩度鏡頭關(guān)聯(lián)組中的任意一個(gè)關(guān)鍵幀定位其所在的鏡頭關(guān)聯(lián)組，找出符合視覺精彩度的鏡頭關(guān)聯(lián)組。
將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。
得到的視頻片斷組成視頻摘要。
在鏡頭關(guān)聯(lián)組中，找出符合聲音精彩度的鏡頭關(guān)聯(lián)組。利用符合視覺精彩度鏡頭關(guān)聯(lián)組中的任意一個(gè)關(guān)鍵幀定位其所在的鏡頭關(guān)聯(lián)組，找出符合視覺精彩度的鏡頭關(guān)聯(lián)組。
在符合視覺精彩度的鏡頭關(guān)聯(lián)組中，找出符合聲音精彩度的鏡頭關(guān)聯(lián)組。將同時(shí)滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成一個(gè)視頻片斷。得到的視頻片斷組成視頻摘要。
對(duì)于新聞報(bào)道、體育賽事、風(fēng)景游覽等等視頻文件，為了在較短的時(shí)間內(nèi) 傳遞更多的信息，可以釆用本實(shí)施例的方法將視頻文件處理成視頻摘要；對(duì)于對(duì)抗性體育賽事，例如馬拉松、賽車、自行車比賽、溜水、籃球、足球等，為
了將賽事的精彩片段傳遞給觀眾，可以采用本實(shí)施例的方法將視頻文件生成視頻摘要。
采用本實(shí)施例中生成視頻摘要的方法，僅對(duì)視頻文件的視覺精彩度和聲音精彩度兩種特征進(jìn)行處理，減少特征種類，降低計(jì)算復(fù)雜度，提高視頻摘要生成的效率和準(zhǔn)確率。還可以避免運(yùn)動(dòng)特征對(duì)視頻摘要的影響，進(jìn)一步提高了視頻摘要的準(zhǔn)確率。
采用本實(shí)施例中生成視頻摘要的方法，從視頻文件的聲音信息和視覺信息入手，對(duì)鏡頭進(jìn)行精彩程度的量化，可以依據(jù)用戶的不同需求，得出包含不同精彩鏡頭的視頻摘要，提高了視頻摘要的靈活性和可靠性。
實(shí)施例四，將實(shí)施例三中生成視頻摘要的方法應(yīng)用到足球視頻中，實(shí)驗(yàn)的
視頻數(shù)據(jù)來自2006年德國(guó)世界杯1/4決賽中意大利對(duì)陣烏克蘭的比賽。
觀眾可以選擇聲音精彩度級(jí)別為三，視覺精彩度級(jí)別為一，對(duì)應(yīng)的視覺精彩度閣值為四，提取到四組關(guān)聯(lián)鏡頭組，參見圖5,第一組501為射門事件，第二組502為犯規(guī)事件，第三組503為進(jìn)球事件，第四組504為進(jìn)攻未遂事件。其中，第一組的視覺精彩度為七，第二組的視覺精彩度為九，第三組的視覺精彩度為七，第四組的視覺精彩度為五，各關(guān)聯(lián)鏡頭組的視覺精彩度均大于第一級(jí)視覺精彩度閾值四。
如果選擇聲音精彩度級(jí)別為三，視覺精彩度級(jí)別為三，對(duì)應(yīng)的視覺精彩度閾值為七，則第四組管理鏡頭組不能提取出來，即只能提取射門鏡頭、犯規(guī)鏡頭和進(jìn)球鏡頭，不能提取出進(jìn)攻未遂鏡頭。
實(shí)施例一、一種生成視頻摘要的裝置，該裝置包括
接收單元，用于接收視頻文件；
視覺單元，用于對(duì)視頻文件的視覺精彩度進(jìn)行處理；
聚合單元，用于將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
其中，浮見覺單元可以包括
檢測(cè)子單元，用于將視頻文件進(jìn)行鏡頭邊界檢測(cè)，得到鏡頭集；分類子單元，用于對(duì)鏡頭集進(jìn)行鏡頭分類；
關(guān)聯(lián)子單元，用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算子單元，用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
檢測(cè)子單元可以包括
第一才莫塊，用于計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差；第二模塊，用于通過主色比率絕對(duì)差和顏色直方差的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。
檢測(cè)子單元還可以包括用于根據(jù)切變和漸變邊界得到所述鏡頭集的模塊。
分類子單元可以包括
第三模塊，用于提取鏡頭集中代表鏡頭類型的關(guān)鍵幀；第四模塊，用于將關(guān)鍵幀分類。
關(guān)聯(lián)子單元可以包括
第五模塊，用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；第六模塊，用于生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。
實(shí)施例二，一種生成^L頻摘要的裝置，該裝置包括
接收單元，用于接收視頻文件；
聲音單元，用于對(duì)視頻文件的聲音精彩度進(jìn)行處理；
聚合單元，用于將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
其中聲音單元可以包括
特征子單元，用于^是取^L頻文件的音頻特征；
權(quán)值子單元，用于計(jì)算音頻特征的權(quán)值；
區(qū)間子單元，用于根據(jù)音頻特征的權(quán)值設(shè)置聲音精彩度閾值，并比較音頻特征與聲音精彩度閾值，獲得相應(yīng)聲音精彩度的視頻段。特征子單元可以包括
第七模塊，用于對(duì)視頻文件進(jìn)行采樣；
第八模塊，用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
聚合單元可以包括
第一子單元，用于生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的鏡頭組作為關(guān)聯(lián)鏡頭組；
第二子單元，用于選擇滿足聲音精彩度的關(guān)聯(lián)鏡頭組，得到選定關(guān)聯(lián)鏡頭
組；
第三子單元，用于將選定關(guān)聯(lián)鏡頭組聚合成視頻片斷。實(shí)施例三，一種生成視頻摘要的裝置，參見圖6,該裝置包括接收單元601,用于接收視頻文件；視覺單元602,用于對(duì)視頻文件的視覺精彩度進(jìn)行處理；聲音單元603,用于對(duì)視頻文件的聲音精彩度進(jìn)行處理；聚合單元604,用于將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
其中，視覺單元可以包括
才企測(cè)子單元，用于將視頻文件進(jìn)行鏡頭邊界檢測(cè)，得到鏡頭集；分類子單元，用于對(duì)鏡頭集進(jìn)行鏡頭分類；
關(guān)聯(lián)子單元，用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算子單元，用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
才企測(cè)子單元可以包括
第一模塊，用于計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差；第二模塊，用于通過主色比率絕對(duì)差和顏色直方差的多個(gè)闊值檢測(cè)鏡頭的切變和漸變邊界。
檢測(cè)子單元還可以包括用于根據(jù)切變和漸變邊界得到鏡頭集的模塊。分類子單元可以包括
第三模塊，用于提取鏡頭集中代表鏡頭類型的關(guān)鍵幀；第四模塊，用于將關(guān)鍵幀分類。
其中，第三模塊可以包括第一子模塊，該第一子模塊用于取每個(gè)鏡頭的中間幀作為關(guān)鍵幀，一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為奇數(shù)時(shí)，取第(N±l) /2幀作為該鏡頭的關(guān)鍵幀；當(dāng)N為偶數(shù)時(shí)，取第N/2幀作為該鏡頭的關(guān)鍵幀。
第四模塊可以包括
第二子模塊，用于將關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度HSV空間；
第三子模塊，用于將每個(gè)視頻幀分成若干區(qū)域；
第四子模塊，用于根據(jù)各區(qū)域的主色覆蓋率將各區(qū)域劃分為不同類別；
第五子模塊，用于為不同類別的區(qū)域分配不同的權(quán)值；
第六子模塊，用于根據(jù)權(quán)值將關(guān)鍵幀劃分為以下類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
第三子模塊可以包括用于將每個(gè)視頻幀分為十六個(gè)區(qū)域，其中長(zhǎng)寬各均分四等分，每個(gè)區(qū)域之間沒有交集的模塊。
第四子模塊可以包括用于將各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至 80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)的模塊。
第五子模塊可以包括用于分配80%以上綠色覆蓋區(qū)權(quán)值為100, 50%至 80%綠色覆蓋區(qū)權(quán)值為10, 20%至50%綠色覆蓋區(qū)權(quán)值為1, 20%以下綠色覆蓋區(qū)權(quán)值為0的模塊。
該生成視頻摘要的裝置還可以包括
孤點(diǎn)單元，用于當(dāng)視頻幀出現(xiàn)孤點(diǎn)時(shí)，將孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū) 域主色覆蓋率的均值，孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi)，孤點(diǎn)的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)。
關(guān)聯(lián)子單元可以包括
第五模塊，用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；第六模塊，用于生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。聲音單元可以包括
特征子單元，用于提取視頻文件的音頻特征；權(quán)值子單元，用于計(jì)算音頻特征的權(quán)值；
區(qū)間子單元，用于根據(jù)音頻特征的權(quán)值設(shè)置聲音精彩度閾值，并比較所述音頻特征與所述聲音精彩度閾值，獲得相應(yīng)聲音精彩度的視頻段。特征子單元可以包括
第七模塊，用于對(duì)視頻文件進(jìn)行采樣；
第八模塊，用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
權(quán)值子單元可以包括
第九模塊，用于根據(jù)聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù)，計(jì)算音頻特征的權(quán)值。第九模塊可以包括第七子模塊，用于計(jì)算聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值；
第八子模塊，用于將比均值大的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為高聲特征值，將比均值小的所述聲音平均短時(shí)能量特征值或
聲音平均過零率特征值作為低聲特征值；
第九子模塊，用于計(jì)算高聲特征值或低聲特征值的比率；
第十子模塊，用于根據(jù)高聲特征值或低聲特征值的比率，計(jì)算高聲或低聲
的權(quán)值。
區(qū)間子單元可以包括第十一子才莫塊，用于計(jì)算高聲與低聲的權(quán)值之和；
第十二子模塊，用于將高聲與低聲的權(quán)值之和與特征值閾值參數(shù)相乘，得
到對(duì)應(yīng)的聲音精彩度閾值，特征值閾值參數(shù)小于一。
區(qū)間子單元還可以包括
第十三子模塊，用于比較采樣點(diǎn)處的特征值與聲音精彩度閾值。通過以上的實(shí)施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的硬件平臺(tái)的方式來實(shí)現(xiàn)，當(dāng)然也可以全部通過硬件來實(shí) 施，但很多情況下前者是更佳的實(shí)施方式?；谶@樣的理解，本發(fā)明的技術(shù)方案對(duì)背景技術(shù)做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計(jì) 算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中，如ROM/RAM、磁碟、光盤等，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以作出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種生成視頻摘要的方法，其特征在于，該方法包括接收視頻文件；對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
2、根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述視頻文件的視覺精彩度進(jìn)行處理具體包括將所述視頻文件進(jìn)行鏡頭邊界檢測(cè)，得到鏡頭集；對(duì)所述鏡頭集進(jìn)行鏡頭分類；對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
3、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述視頻文件進(jìn)行鏡頭邊界檢測(cè)具體包括計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差；通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。
4、根據(jù)權(quán)利要求3所述的方法，其特征在于，所述得到鏡頭集具體包括根據(jù)所述切變和漸變邊界，得到所述鏡頭集。
5、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述對(duì)所述鏡頭集進(jìn)行鏡頭分類具體包括提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀；將所述關(guān)鍵幀分類。
6、根據(jù)權(quán)利要求5所述的方法，其特征在于，所述提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀具體包括取每個(gè)鏡頭的中間幀作為關(guān)鍵幀，一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為奇數(shù)時(shí)，取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀；當(dāng)N為偶數(shù)時(shí)，取第N/2幀作為該鏡頭的關(guān)鍵幀。
7、根據(jù)權(quán)利要求5所述的方法，其特征在于，所述視頻文件為足球視頻文件。
8、根據(jù)權(quán)利要求7所述的方法，其特征在于，所述將所述關(guān)鍵幀分類具體包括將所述關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度 HSV空間；將每個(gè)視頻幀分成若干區(qū)域；根據(jù)所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別；為不同類別的區(qū)域分配不同的權(quán)值；根據(jù)所述權(quán)值將關(guān)鍵幀劃分為以下類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
9、根據(jù)權(quán)利要求8所述的方法，其特征在于，所述將每個(gè)^L頻幀分成若干區(qū)域具體包括將每個(gè)視頻幀分為十六個(gè)區(qū)域，其中長(zhǎng)寬各均分四等分，每個(gè)區(qū)域之間沒有交集。
10、根據(jù)權(quán)利要求9所述的方法，其特征在于，所述根據(jù)所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別具體包括將所述各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20% 至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
11、才艮據(jù)權(quán)利要求10所述的方法，其特征在于，所述為不同類別的區(qū)域分配不同的4又值具體包括分配80%以上綠色覆蓋區(qū)權(quán)值為100, 50%至80%綠色覆蓋區(qū)權(quán)值為10, 20%至50%綠色覆蓋區(qū)權(quán)值為1, 20%以下綠色覆蓋區(qū)權(quán)值為0。
12、根據(jù)權(quán)利要求8所述的方法，其特征在于，該方法還包括當(dāng)視頻幀出現(xiàn)孤點(diǎn)時(shí)，將所述孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū)域主色覆蓋率的均值，所述孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi)，所述孤點(diǎn)的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)。
13、根據(jù)權(quán)利要求8所述的方法，其特征在于，所述對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組具體包括根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián) 鏡頭組。
14、一種生成纟見頻摘要的方法，其特征在于，該方法包括接收視頻文件；對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
15、根據(jù)權(quán)利要求14所述的方法，其特征在于，所述對(duì)所述視頻文件的聲音精彩度進(jìn)行處理具體包括提取所述視頻文件的音頻特征；計(jì)算所述音頻特征的權(quán)值；根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值；比較所述音頻特征與所述聲音精彩度闊值，獲得相應(yīng)聲音精彩度的視頻段。
16、根據(jù)權(quán)利要求15所述的方法，其特征在于，所述提取所述視頻文件的音頻特征具體包括對(duì)所述視頻文件進(jìn)行釆樣；計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
17、根據(jù)權(quán)利要求16所述的方法，其特征在于，所述計(jì)算所述音頻特征的權(quán)值具體包括根據(jù)所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù)，計(jì)算所述音頻特征的權(quán)值。
18、根據(jù)權(quán)利要求17所述的方法，其特征在于，所述根據(jù)所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù)，計(jì)算所述音頻特征的權(quán)值具體包括計(jì)算所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值；將比所述均值大的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為高聲特征值，將比所述均值小的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為低聲特征值；計(jì)算所述高聲特征值或低聲特征值的比率；才艮據(jù)所述高聲特征值或低聲特征值的比率，計(jì)算高聲或低聲的權(quán)值。
19、根據(jù)權(quán)利要求18所述的方法，其特征在于，所述根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值具體包括計(jì)算所述高聲與低聲的權(quán)值之和；將所述高聲與低聲的權(quán)值之和與特征值閾值參數(shù)相乘，得到對(duì)應(yīng)的聲音精彩度閾值，所述特征值閾值參數(shù)小于一。
20、根據(jù)權(quán)利要求19所述的方法，其特征在于，所述比較所述音頻特征與所述聲音精彩度閾值具體包括比較采樣點(diǎn)處的特征值與所述聲音精彩度閾值。
21、根據(jù)權(quán)利要求14所述的方法，其特征在于，所述關(guān)聯(lián)鏡頭組以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭。
22、根據(jù)權(quán)利要求14所述的方法，其特征在于，所述視頻文件為足3求視頻文件。
23、一種生成視頻摘要的方法，其特征在于，該方法包括接收視頻文件；對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
24、根據(jù)權(quán)利要求23所述的方法，其特征在于，所述對(duì)所述視頻文件的視覺精彩度進(jìn)行處理具體包括將所述視頻文件進(jìn)行鏡頭邊界;^測(cè)，得到鏡頭集；對(duì)所述鏡頭集進(jìn)行鏡頭分類；對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
25、根據(jù)權(quán)利要求24所述的方法，其特征在于，所述將所述視頻文件進(jìn) 行鏡頭邊界纟企測(cè)具體包括計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差；通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值;險(xiǎn)測(cè)鏡頭的切變和漸變邊界。
26、根據(jù)權(quán)利要求25所述的方法，其特征在于，所述得到鏡頭集具體包括才艮據(jù)所述切變和漸變邊界，得到所述鏡頭集。
27、根據(jù)權(quán)利要求24所述的方法，其特征在于，所述對(duì)所述鏡頭集進(jìn)行鏡頭分類具體包括提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀；將所述關(guān)鍵幀分類。
28、根據(jù)權(quán)利要求27所述的方法，其特征在于，所述提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀具體包括取每個(gè)鏡頭的中間幀作為關(guān)鍵幀，一個(gè)鏡頭內(nèi)的視頻幀數(shù)目為N,當(dāng)N為奇數(shù)時(shí)，取第(N±l)/2幀作為該鏡頭的關(guān)鍵幀；當(dāng)N為偶數(shù)時(shí)，取第N/2幀作為該鏡頭的關(guān)鍵幀。
29、根據(jù)權(quán)利要求27所述的方法，其特征在于，所述視頻文件為足5求視頻文件。
30、根據(jù)權(quán)利要求29所述的方法，其特征在于，所述將所述關(guān)鍵幀分類具體包括將所述關(guān)鍵幀由紅、藍(lán)、綠RGB三基色空間轉(zhuǎn)換到色調(diào)、飽和度、亮度 HSV空間；將每個(gè)視頻幀分成若干區(qū)域；根據(jù)所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別；為不同類別的區(qū)域分配不同的權(quán)值；根據(jù)所述權(quán)值將關(guān)鍵幀劃分為以下類別長(zhǎng)鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
31、根據(jù)權(quán)利要求30所述的方法，其特征在于，所述將每個(gè)視頻幀分成若干區(qū)域具體包括將每個(gè)視頻幀分為十六個(gè)區(qū)域，其中長(zhǎng)寬各均分四等分，每個(gè)區(qū)域之間沒有交集。
32、根據(jù)權(quán)利要求31所述的方法，其特征在于，所述根據(jù)所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別具體包括將所述各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
33、根據(jù)權(quán)利要求32所述的方法，其特征在于，所述為不同類別的區(qū)域分配不同的權(quán)值具體包括分配80%以上綠色覆蓋區(qū)權(quán)值為100, 50%至80%綠色覆蓋區(qū)權(quán)值為10, 20%至50%綠色覆蓋區(qū)權(quán)值為1, 20%以下綠色覆蓋區(qū)^又值為0。
34、根據(jù)權(quán)利要求30所述的方法，其特征在于，該方法還包括當(dāng)視頻幀出現(xiàn)孤點(diǎn)時(shí)，將所述孤點(diǎn)的主色覆蓋率設(shè)置為周圍區(qū)域主色覆蓋率的均值，所述孤點(diǎn)的周圍區(qū)域主色覆蓋率在相同范圍內(nèi)，所述^s存、的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內(nèi)。
35、根據(jù)權(quán)利要求30所述的方法，其特征在于，所述對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組具體包括根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián) 鏡頭組。
36、根據(jù)權(quán)利要求23所述的方法，其特征在于，所述對(duì)所述視頻文件的聲音精彩度進(jìn)行處理具體包括提取所述視頻文件的音頻特征；計(jì)算所述音頻特征的權(quán)值；根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值；比較所述音頻特征與所述聲音精彩度閾值，獲得相應(yīng)聲音精彩度的視頻段。
37、根據(jù)權(quán)利要求36所述的方法，其特征在于，所述提取所述視頻文件的音頻特征具體包括對(duì)所述視頻文件進(jìn)行采樣；計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
38、根據(jù)權(quán)利要求37所述的方法，其特征在于，所述計(jì)算所述音頻特征的權(quán)值具體包括根據(jù)所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù)，計(jì)算所述音頻特征的權(quán)值。
39、根據(jù)權(quán)利要求38所述的方法，其特征在于，所述根據(jù)所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值和特征值的個(gè)數(shù)，計(jì)算所述音頻特征的權(quán)值具體包括計(jì)算所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值的均值；將比所述均值大的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為高聲特征值，將比所述均值小的所述聲音平均短時(shí)能量特征值或聲音平均過零率特征值作為低聲特征值；計(jì)算所述高聲特征值或低聲特征值的比率；根據(jù)所述高聲特征值或低聲特征值的比率，計(jì)算高聲或低聲的權(quán)值。
40、根據(jù)權(quán)利要求39所述的方法，其特征在于，所述根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度闊值具體包括計(jì)算所述高聲與低聲的權(quán)值之和；將所述高聲與低聲的權(quán)值之和與特征值閾值參數(shù)相乘，得到對(duì)應(yīng)的聲音精彩度閾值，所述特征值闊值參凄t小于一。
41、根據(jù)權(quán)利要求40所述的方法，其特征在于，所述比較所述音頻特征與所述聲音精彩度閾值具體包括比較釆樣點(diǎn)處的特征值與所述聲音精彩度閾值。
42、一種生成視頻摘要的裝置，其特征在于，該裝置包括接收單元，用于接收視頻文件；視覺單元，用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；聚合單元，用于將滿足視覺精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
43、根據(jù)權(quán)利要求42所述的裝置，其特征在于，所述視覺單元包括檢測(cè)子單元，用于將所述視頻文件進(jìn)行鏡頭邊界檢測(cè)，得到鏡頭集；分類子單元，用于對(duì)所述鏡頭集進(jìn)行鏡頭分類；關(guān)聯(lián)子單元，用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算子單元，用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
44、根據(jù)權(quán)利要求43所述的裝置，其特征在于，所述檢測(cè)子單元包括第一模塊，用于計(jì)算視頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差；第二才莫塊，用于通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值4企測(cè)鎮(zhèn): 頭的切變和漸變邊界。
45、根據(jù)權(quán)利要求44所述的裝置，其特征在于，所述檢測(cè)子單元還包括用于根據(jù)所述切變和漸變邊界得到所述鏡頭集的模塊。
46、根據(jù)權(quán)利要求43所述的裝置，其特征在于，所述分類子單元包括第三模塊，用于提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀；第四模塊，用于將所述關(guān)鍵幀分類。
47、根據(jù)權(quán)利要求43所述的裝置，其特征在于，所述關(guān)聯(lián)子單元包括第五模塊，用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；第六模塊，用于生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。
48、一種生成視頻摘要的裝置，其特征在于，該裝置包括接收單元，用于接收視頻文件；聲音單元，用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；聚合單元，用于將滿足聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
49、根據(jù)權(quán)利要求48所述的裝置，其特征在于，所述聲音單元包括特征子單元，用于提取所述視頻文件的音頻特征；權(quán)值子單元，用于計(jì)算所述音頻特征的權(quán)值；區(qū)間子單元，用于根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值，并比較所述音頻特征與所述聲音精彩度閾值，獲得相應(yīng)聲音精彩度的視頻段。
50、根據(jù)權(quán)利要求49所述的裝置，其特征在于，所述特征子單元包括第七模塊，用于對(duì)所述視頻文件進(jìn)行采樣；第八模塊，用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
51、根據(jù)權(quán)利要求48所述的裝置，其特征在于，所述聚合單元包括第一子單元，用于生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的鏡頭組作為關(guān)聯(lián)鏡頭組；第二子單元，用于選擇滿足聲音精彩度的關(guān)聯(lián)鏡頭組，得到選定關(guān)聯(lián)鏡頭組；第三子單元，用于將所述選定關(guān)聯(lián)鏡頭組聚合成視頻片斷。
52、一種生成視頻摘要的裝置，其特征在于，該裝置包括接收單元，用于接收一見頻文件；視覺單元，用于對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；聲音單元，用于對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；聚合單元，用于將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
53、根據(jù)權(quán)利要求52所述的裝置，其特征在于，所述視覺單元包括檢測(cè)子單元，用于將所述視頻文件進(jìn)行鏡頭邊界檢測(cè)，得到鏡頭集；分類子單元，用于對(duì)所述鏡頭集進(jìn)行鏡頭分類；關(guān)聯(lián)子單元，用于對(duì)已經(jīng)分類的鏡頭集進(jìn)行聚合，得到關(guān)聯(lián)鏡頭組；計(jì)算子單元，用于計(jì)算各關(guān)聯(lián)鏡頭組的權(quán)值之和。
54、根據(jù)權(quán)利要求53所述的裝置，其特征在于，所述;^測(cè)子單元包括第一才莫塊，用于計(jì)算^L頻文件兩幀之間的主色比率絕對(duì)差和顏色直方差；第二模塊，用于通過所述主色比率絕對(duì)差和顏色直方差的多個(gè)閾值檢測(cè)鏡頭的切變和漸變邊界。
55、根據(jù)權(quán)利要求54所述的裝置，其特征在于，所述檢測(cè)子單元還包括用于根據(jù)所述切變和漸變邊界得到所述鏡頭集的模塊。
56、根據(jù)權(quán)利要求53所述的裝置，其特征在于，所述分類子單元包括第三模塊，用于提取所述鏡頭集中代表鏡頭類型的關(guān)鍵幀；第四模塊，用于將所述關(guān)鍵幀分類。
57、根據(jù)權(quán)利要求53所述的裝置，其特征在于，所述關(guān)聯(lián)子單元包括第五模塊，用于根據(jù)被標(biāo)識(shí)為長(zhǎng)鏡頭的關(guān)鍵幀，查找對(duì)應(yīng)的長(zhǎng)鏡頭；第六沖莫塊，用于生成以長(zhǎng)鏡頭為開始鏡頭，下一個(gè)長(zhǎng)鏡頭的前一個(gè)鏡頭為結(jié)束鏡頭的關(guān)聯(lián)鏡頭組。
58、根據(jù)權(quán)利要求52所述的裝置，其特征在于，所述聲音單元包括特征子單元，用于提取所述視頻文件的音頻特征；權(quán)值子單元，用于計(jì)算所述音頻特征的權(quán)值；區(qū)間子單元，用于根據(jù)所述音頻特征的權(quán)值設(shè)置聲音精彩度閾值，并比較所述音頻特征與所述聲音精彩度閾值，獲得相應(yīng)聲音精彩度的視頻段。
59、根據(jù)權(quán)利要求58所述的裝置，其特征在于，所述特征子單元包括第七模塊，用于對(duì)所述視頻文件進(jìn)行采樣；第八模塊，用于計(jì)算每個(gè)采樣點(diǎn)數(shù)據(jù)的聲音平均短時(shí)能量特征值和聲音平均過零率特征值。
全文摘要
本發(fā)明公開了生成視頻摘要的方法及裝置，一種方法包括接收視頻文件；對(duì)所述視頻文件的視覺精彩度進(jìn)行處理；對(duì)所述視頻文件的聲音精彩度進(jìn)行處理；將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片斷。
背景技術(shù)：
中，對(duì)足球比賽視頻文檔根據(jù)音頻特征、視覺特征、文本特征和運(yùn)動(dòng)特征等四種特征進(jìn)行處理，得到足球視頻摘要，采用本發(fā)明實(shí)施例生成視頻摘要的方法及裝置，對(duì)視頻文件的視覺精彩度和/或聲音精彩度進(jìn)行處理，減少特征種類，降低計(jì)算復(fù)雜度，提高視頻摘要生成的效率和準(zhǔn)確率。
文檔編號(hào)G11B27/034GK101431689SQ20071016516
公開日2009年5月13日申請(qǐng)日期2007年11月5日優(yōu)先權(quán)日2007年11月5日
發(fā)明者于俊清, 何云峰, 牛彩卿申請(qǐng)人:華為技術(shù)有限公司;華中科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于俊清;何云峰;牛彩卿
技術(shù)所有人：華為技術(shù)有限公司;華中科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
2、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
3、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
4、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
5、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

生體魔力生成裝置相關(guān)技術(shù)

自動(dòng)生成摘要相關(guān)技術(shù)

wps自動(dòng)生成摘要相關(guān)技術(shù)

摘要生成器相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

生成視頻摘要的方法及裝置的制作方法