專(zhuān)利名稱(chēng):用于提煉音頻分類(lèi)器的訓(xùn)練數(shù)據(jù)集的方法和用于分類(lèi)數(shù)據(jù)的方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及處理視頻,尤其涉及檢測(cè)視頻中的精彩部分(highlight)。
背景技術(shù):
大部分用于檢測(cè)視頻中精彩部分的現(xiàn)有技術(shù)系統(tǒng)使用單信號(hào)傳輸模態(tài)(modality),例如音頻信號(hào)或可見(jiàn)信號(hào)。Rui等人基于解說(shuō)員激動(dòng)的語(yǔ)音和球拍碰撞的聲音檢測(cè)棒球比賽視頻中的精彩部分。他們只使用關(guān)于音頻信號(hào)的方向模板匹配,見(jiàn)2000年第八次ACM國(guó)際多媒體會(huì)議的第105-115頁(yè)上Rui等人所寫(xiě)的“Automaticallyextracting highlights for TV baseball programs”。
Kasashima等人提取視頻幀中的球拍揮動(dòng)特征,見(jiàn)1998年國(guó)際圖像處理會(huì)議的第871-874頁(yè)上Kasashima等人所寫(xiě)的“Indexing ofbaseball telecast for content-based video retrival”。
Xie等人和Xu等人利用只從視頻幀提取的主要顏色與運(yùn)動(dòng)信息將足球視頻分段成比賽和暫停段,見(jiàn)2002年5月國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議學(xué)報(bào)ICASSP-2002上Xie等人所寫(xiě)的“Structure analysisof soccer video with hidden Markov models”和2001年IEEE多媒體與Expo會(huì)議學(xué)報(bào)第928-931頁(yè)Xu等人所寫(xiě)的“Algorithms and systemfor segmentation and structure analysis in soccer video”。
Gong等人提供了用于足球比賽視頻的分析系統(tǒng)。分析基于例如比賽場(chǎng)地的線條圖形的可見(jiàn)特征和球與運(yùn)動(dòng)員的運(yùn)動(dòng),見(jiàn)1995年IEEE國(guó)際多媒體計(jì)算與系統(tǒng)會(huì)議第167-174頁(yè)Gong等人所寫(xiě)的“Automatic parsing of TV soccer programs”。
一種方法基于射門(mén)(shot)檢測(cè)與分類(lèi)分析足球視頻。同樣,有趣的射門(mén)選擇只是基于可見(jiàn)信息,見(jiàn)2003年Symp.電子成像科學(xué)與技術(shù)用于圖像與視頻數(shù)據(jù)庫(kù)IV的存儲(chǔ)與檢索上Ekin等人所寫(xiě)的“Automatic soccer video analysis and summarization”。
有些用于檢測(cè)視頻中精彩部分的現(xiàn)有技術(shù)系統(tǒng)使用組合的信號(hào)傳輸模態(tài),例如既有音頻信號(hào)又有可見(jiàn)信號(hào),見(jiàn)在此引入作為參考的于2003年12月5日由Divakaran等人提交的美國(guó)專(zhuān)利申請(qǐng)序號(hào)10/729,164“Audio-visual Highlights Detection Using Hidden MarkovModels”。Divakaran等人描述了利用基于高斯混合模型(GMM)的音頻分類(lèi)生成音頻標(biāo)記并通過(guò)量化平均運(yùn)動(dòng)向量數(shù)值生成可見(jiàn)標(biāo)記。精彩部分是利用通過(guò)標(biāo)記的視頻訓(xùn)練的離散觀察耦合的隱藏Markov模型(CHMM)建模的。
2003年ICASSP上Xiong等人所寫(xiě)的“Audio Events DetectionBased Highlights Extraction from Baseball,Golf and Soccer Games ina Unified Framework”描述了用于從包括足球、高爾夫球和棒球比賽的不同運(yùn)動(dòng)視頻提取運(yùn)動(dòng)精彩部分的統(tǒng)一音頻分類(lèi)框架。選擇所推薦框架中的音頻類(lèi),例如掌聲、歡呼聲、音樂(lè)、語(yǔ)音及帶音樂(lè)的語(yǔ)音,來(lái)特征化對(duì)所有運(yùn)動(dòng)共同的不同類(lèi)型的聲音。例如,選擇前兩個(gè)類(lèi)來(lái)捕捉各種運(yùn)動(dòng)中觀眾對(duì)有趣事件的反映。
總地來(lái)說(shuō),現(xiàn)有技術(shù)中用于運(yùn)動(dòng)精彩部分檢測(cè)的音頻類(lèi)包括掌聲及激動(dòng)語(yǔ)音、掌聲與歡呼聲的混合。
需要來(lái)自類(lèi)的大量訓(xùn)練數(shù)據(jù)訓(xùn)練來(lái)產(chǎn)生正確的分類(lèi)器。此外,因?yàn)橛?xùn)練數(shù)據(jù)是從實(shí)際廣播的運(yùn)動(dòng)內(nèi)容獲得的,所以訓(xùn)練數(shù)據(jù)常常嚴(yán)重地受周?chē)纛l噪聲的破壞。因此,有些訓(xùn)練導(dǎo)致對(duì)周?chē)肼暯?,而不是?duì)指示有趣事件的音頻事件類(lèi)建模。
因此,需要一種克服現(xiàn)有技術(shù)問(wèn)題的從運(yùn)動(dòng)視頻音頻檢測(cè)精彩部分的方法。
發(fā)明內(nèi)容
本發(fā)明提供了消除變壞的訓(xùn)練數(shù)據(jù)而產(chǎn)生用于從視頻提取運(yùn)動(dòng)精彩部分的精確音頻分類(lèi)器的方法。
具體而言,該方法反復(fù)提煉用于音頻分類(lèi)器組的訓(xùn)練數(shù)據(jù)集。此外,分類(lèi)器組可以在訓(xùn)練過(guò)程中動(dòng)態(tài)更新。
第一組分類(lèi)器是利用標(biāo)記的訓(xùn)練數(shù)據(jù)集的音頻幀訓(xùn)練的。訓(xùn)練數(shù)據(jù)集的標(biāo)記對(duì)應(yīng)于一組音頻特征。然后,訓(xùn)練數(shù)據(jù)集的每個(gè)音頻幀利用第一組分類(lèi)器分類(lèi),來(lái)產(chǎn)生提煉后的訓(xùn)練數(shù)據(jù)集。
此外,分類(lèi)器組可以在訓(xùn)練過(guò)程中動(dòng)態(tài)更新。即,工作不好的分類(lèi)器可以丟棄,新的分類(lèi)器可以引入分類(lèi)器組。然后,提煉后的訓(xùn)練數(shù)據(jù)集可以用于訓(xùn)練更新后的第二組音頻分類(lèi)器。
訓(xùn)練、反復(fù)分類(lèi)及動(dòng)態(tài)更新步驟可以重復(fù),直到獲得期望的最終分類(lèi)器組。然后,最終分類(lèi)器組可以用于從未標(biāo)記內(nèi)容的視頻提取精彩部分。
圖1是根據(jù)本發(fā)明用于提煉用于動(dòng)態(tài)更新音頻分類(lèi)器組的訓(xùn)練數(shù)據(jù)集的方法的框圖。
具體實(shí)施例方式
本發(fā)明提供了用于從多媒體內(nèi)容提取精彩部分的預(yù)處理步驟。多媒體內(nèi)容可以是包括可見(jiàn)與音頻數(shù)據(jù)或只有音頻數(shù)據(jù)的視頻。
如圖1所示,本發(fā)明的方法100以用于音頻精彩部分檢測(cè)的一組音頻分類(lèi)器的音頻訓(xùn)練數(shù)據(jù)集101的標(biāo)記幀作為輸入。在優(yōu)選實(shí)施方式中,本發(fā)明可以用于從運(yùn)動(dòng)視頻提取精彩部分的方法,如于2003年12月5日由Divakaran等人提交并在此引入作為參考的美國(guó)專(zhuān)利申請(qǐng)10/729,164“Audio-visual highlights detection using hidden Markovmodels”中所描述的。在此,音頻類(lèi)中的幀包括例如激動(dòng)的語(yǔ)音和歡呼聲、歡呼聲、掌聲、語(yǔ)音、音樂(lè)等的音頻特征。音頻分類(lèi)器可以利用由在此引入作為參考的于2003年ICASSP上Xiong等人所寫(xiě)的“AudioEvents Detection Based Highlights Extraction from Baseball,Golf andSoccer Games in a Unified Framework”中所描述的方法來(lái)選擇。
標(biāo)記的訓(xùn)練數(shù)據(jù)集101用于基于訓(xùn)練數(shù)據(jù)集101中所表示的標(biāo)記音頻特征102,例如歡呼聲、掌聲、語(yǔ)音或音樂(lè),來(lái)訓(xùn)練110第一組分類(lèi)器111。在優(yōu)選實(shí)施方式中,第一組分類(lèi)器111使用包括高斯分布函數(shù)的混合的模型。其它分類(lèi)器可以使用類(lèi)似的模型。
訓(xùn)練數(shù)據(jù)集101的每個(gè)音頻幀利用第一組分類(lèi)器111來(lái)分類(lèi)120,以便產(chǎn)生提煉后的訓(xùn)練數(shù)據(jù)集121。分類(lèi)120可以多種方式執(zhí)行。一種方式采用基于可能性的分類(lèi),其中為訓(xùn)練數(shù)據(jù)集的每一幀指定包括在類(lèi)中的可能性或概率??赡苄钥梢詷?biāo)準(zhǔn)化成范圍
。
只有可能性大于預(yù)定閾值的幀保留在提煉后的訓(xùn)練數(shù)據(jù)集121中。所有其它的幀都丟棄了。應(yīng)當(dāng)理解,閾值可以反轉(zhuǎn)。即,可能性小于預(yù)定閾值的幀被保留。只有保留的幀形成提煉后的訓(xùn)練數(shù)據(jù)集121。
第一組分類(lèi)器111對(duì)多個(gè)音頻特征102,例如激動(dòng)的語(yǔ)音、歡呼聲、掌聲和音樂(lè),來(lái)訓(xùn)練110。應(yīng)當(dāng)理解,其它特征也可以使用。用于掌聲的訓(xùn)練數(shù)據(jù)集101利用用于每個(gè)音頻特征的第一分類(lèi)器111分類(lèi)120。每一幀都標(biāo)記為屬于特定的音頻特征。只有利用對(duì)應(yīng)于所分類(lèi)特征的標(biāo)記分類(lèi)120的幀保留在提煉后的訓(xùn)練數(shù)據(jù)集121中。與音頻特征不一致的幀被丟棄。
此外,第一組分類(lèi)器可以在訓(xùn)練過(guò)程中動(dòng)態(tài)更新。即,工作不好的分類(lèi)器可以從組中除去,其它新的分類(lèi)器可以引入組中,以產(chǎn)生更新后的第二組分類(lèi)器122。例如,如果用于音樂(lè)特征的分類(lèi)器工作得很好,則音樂(lè)分類(lèi)器的變體可以引入,例如樂(lè)隊(duì)音樂(lè)、節(jié)奏風(fēng)琴和弦或號(hào)角聲。因此,分類(lèi)器動(dòng)態(tài)適于訓(xùn)練數(shù)據(jù)。
然后,提煉后的訓(xùn)練數(shù)據(jù)集121用于訓(xùn)練130更新后的第二組分類(lèi)器131。當(dāng)與只利用未提煉的訓(xùn)練數(shù)據(jù)集101訓(xùn)練的現(xiàn)有技術(shù)靜態(tài)分類(lèi)器比較時(shí),第二組分類(lèi)器提供改進(jìn)的精彩部分141的提取140。
在圖中未示出的可選步驟中,第二分類(lèi)器131可以用于分類(lèi)140提煉后的數(shù)據(jù)集121,以產(chǎn)生進(jìn)一步提煉的數(shù)據(jù)集。類(lèi)似地,第二組分類(lèi)器可以更新,等等。這個(gè)處理可以重復(fù)預(yù)定的迭代次數(shù),或者直到分類(lèi)器達(dá)到用于精彩部分141提取140的用戶定義的性能等級(jí)。
本發(fā)明是利用特定的術(shù)語(yǔ)和例子描述的。應(yīng)當(dāng)理解,在本發(fā)明的主旨與范圍內(nèi),可以進(jìn)行各種其它調(diào)整與修改。因此,所附權(quán)利要求的目的是覆蓋屬于本發(fā)明真正主旨與范圍的所有這種變化與修改。
權(quán)利要求
1.一種用于提煉用于分類(lèi)多媒體內(nèi)容的音頻分類(lèi)器的訓(xùn)練數(shù)據(jù)集的方法,包括利用標(biāo)記的訓(xùn)練數(shù)據(jù)集的音頻幀訓(xùn)練第一組音頻分類(lèi)器,其中訓(xùn)練數(shù)據(jù)集的標(biāo)記對(duì)應(yīng)于音頻特征組;及利用該第一組音頻分類(lèi)器分類(lèi)標(biāo)記的訓(xùn)練數(shù)據(jù)集的每個(gè)音頻幀,以產(chǎn)生提煉后的訓(xùn)練數(shù)據(jù)集。
2.如權(quán)利要求1所述的方法,還包括利用提煉后的訓(xùn)練數(shù)據(jù)集的音頻幀訓(xùn)練第二組音頻分類(lèi)器。
3.如權(quán)利要求2所述的方法,還包括利用該第二組音頻分類(lèi)器從未標(biāo)記的音頻幀提取精彩部分。
4.如權(quán)利要求1所述的方法,其中分類(lèi)的步驟還包括根據(jù)第一組音頻分類(lèi)器為標(biāo)記的訓(xùn)練數(shù)據(jù)集中的每個(gè)音頻幀指定可能性;及將可能性大于預(yù)定閾值的每個(gè)音頻幀保留在提煉后的訓(xùn)練數(shù)據(jù)集中。
5.如權(quán)利要求1所述的方法,其中分類(lèi)的步驟還包括根據(jù)第一組音頻分類(lèi)器為標(biāo)記的訓(xùn)練數(shù)據(jù)集中的每個(gè)音頻幀指定可能性;及將可能性小于預(yù)定閾值的每個(gè)音頻幀保留在提煉后的訓(xùn)練數(shù)據(jù)集中。
6.如權(quán)利要求4所述的方法,還包括丟棄可能性小于預(yù)定閾值的每個(gè)音頻幀。
7.如權(quán)利要求5所述的方法,還包括丟棄可能性大于預(yù)定閾值的每個(gè)音頻幀。
8.如權(quán)利要求1所述的方法,其中第一組音頻分類(lèi)器是對(duì)多個(gè)標(biāo)記的音頻訓(xùn)練數(shù)據(jù)集中的每一個(gè)訓(xùn)練的,每個(gè)標(biāo)記的音頻訓(xùn)練數(shù)據(jù)集的幀具有對(duì)應(yīng)于不同音頻特征的標(biāo)記,且分類(lèi)的步驟還包括利用第一組分類(lèi)器分類(lèi)用于特定音頻特征的特定音頻訓(xùn)練數(shù)據(jù)集的每一幀,從而根據(jù)不同音頻特征中的對(duì)應(yīng)音頻特征標(biāo)記幀;及將具有對(duì)應(yīng)于特定音頻特征的標(biāo)記的音頻幀保留在提煉后的訓(xùn)練數(shù)據(jù)集中。
9.如權(quán)利要求8所述的方法,還包括丟棄具有對(duì)應(yīng)于除所述特定音頻特征以外的音頻特征的標(biāo)記的音頻幀。
10.如權(quán)利要求1所述的方法,還包括更新第一組分類(lèi)器,以獲得第二組分類(lèi)器。
11.如權(quán)利要求10所述的方法,其中更新的步驟還包括向第一組分類(lèi)器添加新的分類(lèi)器,以獲得第二組分類(lèi)器;及從第一組分類(lèi)器除去所選的分類(lèi)器,以獲得第二組分類(lèi)器。
12.一種用于分類(lèi)數(shù)據(jù)的方法,包括利用訓(xùn)練數(shù)據(jù)集訓(xùn)練第一分類(lèi)器組;利用該第一組分類(lèi)器分類(lèi)訓(xùn)練數(shù)據(jù)集,以產(chǎn)生提煉后的訓(xùn)練數(shù)據(jù)集;利用提煉后的訓(xùn)練數(shù)據(jù)集訓(xùn)練第二組分類(lèi)器;及利用該第二組分類(lèi)器分類(lèi)未標(biāo)記的數(shù)據(jù)。
13.如權(quán)利要求12所述的方法,還包括重復(fù)訓(xùn)練與分類(lèi)步驟,直到未標(biāo)記數(shù)據(jù)的分類(lèi)達(dá)到期望的性能等級(jí)。
全文摘要
一種方法提煉多媒體內(nèi)容的標(biāo)記的訓(xùn)練數(shù)據(jù)音頻分類(lèi)。第一組音頻分類(lèi)器是利用具有對(duì)應(yīng)于一組音頻特征的標(biāo)記的訓(xùn)練數(shù)據(jù)集的標(biāo)記音頻幀訓(xùn)練的。標(biāo)記的訓(xùn)練數(shù)據(jù)集的每個(gè)音頻幀利用該第一組音頻分類(lèi)器分類(lèi),以產(chǎn)生提煉后的訓(xùn)練數(shù)據(jù)集。第二組音頻分類(lèi)器是利用提煉后的訓(xùn)練數(shù)據(jù)集的音頻幀獲得的,且精彩部分是利用該第二組音頻分類(lèi)器從未標(biāo)記的音頻幀提取的。
文檔編號(hào)G06F15/18GK101023467SQ200580030599
公開(kāi)日2007年8月22日 申請(qǐng)日期2005年11月22日 優(yōu)先權(quán)日2005年1月4日
發(fā)明者大塚功, 雷古納贊·拉達(dá)克里希南, 阿賈伊·迪瓦卡瑞恩 申請(qǐng)人:三菱電機(jī)株式會(huì)社