專利名稱::字幕存在時(shí)間確定裝置和方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及確定視頻中字幕的存在時(shí)間的裝置和方法。
背景技術(shù):
:近年來,隨著廣播電視電影的發(fā)展,產(chǎn)生了大量的視頻。同時(shí),隨著數(shù)碼相機(jī)和數(shù)碼攝像機(jī)的普及,普通大眾也制作出了各種視頻。對(duì)這些視頻進(jìn)行分析和檢索成為許多人的要求。視頻中通常包含字幕信息。對(duì)現(xiàn)有的圖像應(yīng)用視頻處理、光學(xué)字符識(shí)別技術(shù)來提取字幕信息,為有效的視頻分析和檢索提供了重要的信息。字幕信息包括事件發(fā)生時(shí)間、地點(diǎn)、當(dāng)事人、體育比賽的比分、天氣預(yù)報(bào)、商品的價(jià)格、股票的行情等等。在視頻中,一個(gè)字幕可以在空間和時(shí)間上表示。在空間上,字幕存在于視頻中某一幀圖像的某一位置上,在時(shí)間上,它開始于視頻序列中的某一幀,結(jié)束于視頻序列的某一幀。所以,對(duì)整個(gè)字幕表達(dá)處理過程包括兩個(gè)步驟第一個(gè)步驟是確定字幕在圖像中的位置,第二個(gè)步驟是確定在視頻中的時(shí)間位置,這個(gè)時(shí)間包括字幕的開始時(shí)間和結(jié)束時(shí)間。連續(xù)的一段時(shí)間相對(duì)于單幀圖像更有意義,它可以向用戶提供更全面的"(曰息。對(duì)于第一個(gè)步驟,可以基于不同的特征來提取字幕區(qū)域。例如,連通域特征、邊緣特征和紋理特征?;谶B通域特征的方法算法簡單、運(yùn)算速度快,但很難適應(yīng)復(fù)雜的背景情況。在基于邊緣特征的方法中,有效地統(tǒng)計(jì)邊緣特征是一個(gè)復(fù)雜問題。在基于紋理特征的方法中,運(yùn)算時(shí)間消耗大,通常要利用視頻解碼算法來提取運(yùn)動(dòng)矢量信息。運(yùn)動(dòng)矢量的提取本身就是一個(gè)困難問題,所以使用這種特征的方法很少。本申請(qǐng)的發(fā)明人已經(jīng)在其它專利中提出了基于角點(diǎn)特征的多尺度視頻定位方法。本申請(qǐng)主要解決如何確定字幕的時(shí)間的問題。確定字幕出現(xiàn)時(shí)間的文獻(xiàn)相對(duì)很少。專利文獻(xiàn)1和2使用基于signature算法跟蹤視頻中的文本。由于要對(duì)二值圖進(jìn)行直方圖統(tǒng)計(jì),所以其性能受圖像分割的結(jié)果影響。專利文獻(xiàn)3簡單地使用字幕的位置信息確定音樂視頻中字幕的開始和結(jié)束時(shí)間,如果視頻中連續(xù)的兩個(gè)字幕出現(xiàn)在相似的位置上,該專利就會(huì)失效。專利文獻(xiàn)4使用相似顏色和位置信息作為特征來跟蹤字幕,同樣也要受到上面特殊情況的影響。非專利文獻(xiàn)5的方法使用基于SSD(SumofSquareDifference)的圖像匹配算法來跟蹤文本區(qū)域,這種匹配算法是針對(duì)灰度圖像進(jìn)行的,并沒有考慮到文本的本質(zhì)特征,如紋理和邊緣信息,同時(shí)由于該方法利用原始的圖像信息,因此對(duì)那些背景比較復(fù)雜的情況適應(yīng)性不好。非專利文獻(xiàn)6的方法使用QSDD(QuantizedSpatialDifferenceDensity)來檢測字幕發(fā)生變化的幀的位置,相對(duì)于SSD該技術(shù)有一定的改進(jìn),但是它也僅利用連續(xù)的兩幀而已,過去幀的信息被忽略,沒有一個(gè)逐步學(xué)習(xí)的過程。非專利文獻(xiàn)7和專利文獻(xiàn)8由于利用識(shí)別引擎產(chǎn)生的字符的編碼和可信度等比較上層的特征,確定連續(xù)幀之間的關(guān)系,所以跟蹤效果在時(shí)間的效率不是很高,而且如何合并這些結(jié)果也是一個(gè)復(fù)雜的問題。專禾ll文獻(xiàn)1:RainerWolfgang,Lienhart,AxelWernicke,Generalizedtextlocalizationinimages,PatentNo.6,470,094[美國]專禾U文獻(xiàn)2:RainerWolfgangLienhart,AxelWernicke,Estimatingtextcolorandsegmentationofimages,PatentNo.6,473,522[美國]專禾U文獻(xiàn)3:LuLie,SunYan-Feng,丄iMingjing,HuaXian-Sheng,ZhangHong-Jiang,Automaticdetectionandsegmentationofmusicvideosinanaudio/videostream,Pub.No.:2004/0170392[美國]專禾ll文獻(xiàn)4:SanghoonSuII,HyeokmanKim,MinChung,SangwookLee,SangwookOh,Systemandmethodforindexing,searching,identifying,肌deditingmultimediafiles,Pub.No.:2007/0038612[美國〗非專禾U文獻(xiàn)5:HuipingLi等,Textenhancementindigitalvideousingmultipleframeintegration.ACMMultimedia,pp.19-22,1999非專利文獻(xiàn)6:XiaoouTang等,Aspatial-temporalapproachforvideocaptiondetectionandrecognition,IEEETransactionsonNeuralNetworks,Vol.13,No.4,pp.961-971,2002與一專利文獻(xiàn)7:TakeshiMita等,ImprovementofVideoRecognitionbyCharacterSelection,ICDAR,pp.1089-1093,2001專利文獻(xiàn)8..三田雄志等,,口'77'情報(bào)処理裝置及"亍口'7力瞎報(bào)表示裝置,特開2001—285716[日本]傳統(tǒng)的字幕方法的流程圖如圖1所示。首先在步驟101對(duì)一段視頻進(jìn)行解碼、采樣,抽出所需要的單幀圖像信息,然后在步驟102,針對(duì)解碼出的圖像,盡可能多地檢測出字幕的位置;步驟103提取檢測出的字幕區(qū)域的局部特征,所述局部特征可以是邊緣、顏色和角點(diǎn)等特征;步驟104將當(dāng)前特征和前一幀或前幾幀的幀信息進(jìn)行比較,計(jì)算出相似度;在步驟105對(duì)相似度進(jìn)行判斷,如果相似度大于某一個(gè)設(shè)定的閾值T,則進(jìn)入步驟106對(duì)字幕進(jìn)行跟蹤,并由在步驟108確定字幕的開始幀位置。否則,如果相似度小于或等于該閾值T,則在步驟107確定該字幕的結(jié)束幀的位置,或者作為噪聲被去掉,傳統(tǒng)的方法流程有兩個(gè)問題,(1)特征比較時(shí)選擇的特征僅僅是當(dāng)前特征和以前的幾幀,沒有充分用到所有的信息,(2)以前特征的選擇不夠健壯,不能夠適應(yīng)字幕背景的復(fù)雜變化。
發(fā)明內(nèi)容本發(fā)明針對(duì)現(xiàn)有的技術(shù)缺點(diǎn)提出的解決方案,用以解決上述問題中一個(gè)或更多個(gè)。本發(fā)明的目的是提供一種確定在視頻中某個(gè)字幕的存在時(shí)間的方法和裝置。字幕的存在時(shí)間包括字幕開始出現(xiàn)時(shí)間和字幕消失時(shí)間。為了實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┝艘韵掳l(fā)明。發(fā)明1、一種字幕存在時(shí)間確定方法,該方法包括以下步驟獲得視頻中的初步判斷為含有字幕區(qū)域的多個(gè)圖像,即多個(gè)局部圖像;獲得所述多個(gè)局部圖像的穩(wěn)定全局特征;利用所述穩(wěn)定全局特征確定開始幀7和結(jié)束幀。發(fā)明2、根據(jù)發(fā)明1的字幕存在時(shí)間確定方法,其特征在于,獲得所述多個(gè)局部圖像的穩(wěn)定全局特征的步驟包括局部特征獲取步驟,獲取所述局部圖像的局部特征;初步確定全局特征;將各所述局部圖像的局部特征與所述全局特征進(jìn)行比較,根據(jù)比較結(jié)果,更新所述全局特征;將最后更新得到的全局特征設(shè)為穩(wěn)定全局特征。發(fā)明3、根據(jù)發(fā)明2所述的字幕存在時(shí)間確定方法,其特征在于,將各所述局部圖像的局部特征與所述全局特征進(jìn)行比較,根據(jù)比較結(jié)果更新所述全局特征的步驟包括對(duì)所述多個(gè)局部圖像中的第一個(gè)局部圖像U)計(jì)算所述局部圖像的字幕區(qū)域的字幕特征,將所述字幕特征稱為局部特征;(2)將該局部特征設(shè)為全局特征;針對(duì)所述多個(gè)局部圖像中的下一個(gè)局部圖像,(3)計(jì)算該局部圖像的局部特征,并進(jìn)行相似度判斷,判斷該局部特征與所述全局特征是否相似;(4)在所述相似度判斷步驟判斷出該局部特征與所述全局特征相似時(shí),利用該局部圖像的局部特征更新所述全局特征;對(duì)于所述多個(gè)局部圖像中的其它局部圖像,重復(fù)進(jìn)行上述步驟(3)和(4),直到所述步驟(3)判斷出該局部特征與所述全局特征不相似,此時(shí),(5)將最后更新過的全局特征確定為穩(wěn)定全局特征。發(fā)明4、根據(jù)發(fā)明1所述的字幕存在時(shí)間確定方法,其特征在于,采用投票更新法來利用所述各該周部圖像的局部特征更新所述全局特征。發(fā)明5、根據(jù)發(fā)明1所述的字幕存在時(shí)間確定方法,其特征在于,在進(jìn)行所述相似度判斷時(shí),同時(shí)判斷位置相似度和邊緣相似度。位置相似度可以是兩個(gè)區(qū)域的共同面積與這兩個(gè)區(qū)域中的較大區(qū)域的面積的比值。邊緣相似度可以是局部特征區(qū)域(局部特征)和全局特征區(qū)域(全局特征)中兩者重合的白色像素點(diǎn)占這兩個(gè)區(qū)域中的全部白色像素點(diǎn)的比例。也可以采用邊緣內(nèi)的筆畫的顏色是否一致的判別方法來判別邊緣相似度。發(fā)明6、根據(jù)發(fā)明1所述的字幕存在時(shí)間確定方法,其特征在于,所述方法還包括計(jì)算平均圖像的步驟,計(jì)算所述視頻中多個(gè)圖像的平均圖像;字幕區(qū)域計(jì)算步驟,針對(duì)所述平均圖像,計(jì)算字幕區(qū)域,當(dāng)存在字幕區(qū)域時(shí),將所述多個(gè)圖像設(shè)定為局部圖像。發(fā)明7、根據(jù)發(fā)明3所述的字幕存在時(shí)間確定方法,其特征在于,所述方法還包括噪聲判斷步驟,根據(jù)所述第一局部圖像與所述步驟(3)判斷出該局部特征與所述全局特征不相似時(shí)的局部圖像的距離,判斷所述字幕區(qū)域是否為噪聲。發(fā)明8、根據(jù)發(fā)明1所述的字幕存在時(shí)間確定方法,其特征在于,確定開始幀的步驟包括確定開始幀掃描范圍;以及逐一計(jì)算所述開始幀掃描范圍內(nèi)的各局部圖像的局部特征與所述穩(wěn)定全局特征的相似性,并在從所述開始幀掃描范圍從后向前掃描的情況下將第一個(gè)不相似的局部圖像所在的幀確定為開始幀,或在從所述開始幀掃描范圍從前向后掃描的情況下將第一個(gè)相似的局部圖像所在的幀確定為開始幀。發(fā)明9、根據(jù)發(fā)明1所述的字幕存在時(shí)間確定方法,其特征在于,確定結(jié)束幀的步驟包括確定結(jié)束幀掃描范圍;逐一計(jì)算所述結(jié)束幀掃描范圍內(nèi)的各局部圖像的局部特征與所述穩(wěn)定全局特征的相似性,并在從所述結(jié)束幀掃描范圍從后向前掃描的情況下將第一個(gè)相似的局部圖像所在的幀確定為結(jié)束幀,或在從所述結(jié)束幀掃描范圍從前向后掃描的情況下將第一個(gè)不相似的局部圖像所在的幀確定為結(jié)束幀。發(fā)明10、根據(jù)發(fā)明1所述的字幕存在時(shí)間確定方法,其特征在于,所述方法還包括字幕區(qū)域核實(shí)步驟,該步驟利用連通域分析來確定所述字幕區(qū)域確實(shí)包括字幕。發(fā)明11、根據(jù)發(fā)明1所述的字幕存在時(shí)間確定方法,其特征在于,所述方法還包括字幕劃分步驟,對(duì)確定過所述起始幀和結(jié)束幀的所述字幕區(qū)域進(jìn)行劃分,以準(zhǔn)確定位各字幕區(qū)域的位置。發(fā)明12、一種字幕存在時(shí)間確定裝置,該裝置包括局部圖像獲取裝置,用于獲得視頻中的初步判斷為含有字幕區(qū)域的多個(gè)圖像,即多個(gè)9局部圖像;穩(wěn)定全局特征獲得裝置,用于獲得所述多個(gè)局部圖像的穩(wěn)定全局特征;字幕開始幀結(jié)束幀確定裝置,利用所述穩(wěn)定全局特征獲得所述視頻中的字幕的開始幀和結(jié)束幀。發(fā)明13、根據(jù)發(fā)明12所述的字幕存在時(shí)間確定裝置,其特征在于,所述穩(wěn)定全局特征獲得裝置包括局部特征獲取裝置,用于獲取各所述局部特征的字幕區(qū)域的特征,即局部特征;相似度計(jì)算判斷裝置,用于將各所述局部特征與所述多個(gè)局部圖像的全局特征進(jìn)行比較,計(jì)算相似度,判斷是否相似;全局特征更新裝置,用于設(shè)定所述多個(gè)局部圖像的初始全局特征,根據(jù)所述相似度計(jì)算判斷裝置的判斷結(jié)果,對(duì)所述全局特征進(jìn)行更新,并最終確定穩(wěn)定全局特征。發(fā)明14、根據(jù)發(fā)明13所述的字幕存在時(shí)間確定裝置,其特征在于,所述全局特征更新裝置采用投票更新法來利用所述各該局部圖像的局部特征更新所述全局特征。發(fā)明15、根據(jù)發(fā)明13所述的字幕存在時(shí)間確定裝置,其特征在于,所述相似度計(jì)算判斷裝置在進(jìn)行所述相似度判斷時(shí),同時(shí)判斷位置相似度和邊緣相似度。發(fā)明16、根據(jù)發(fā)明13所述的字幕存在時(shí)間確定裝置,其特征在于,所述相似度計(jì)算判斷裝置還包括平均圖像計(jì)算裝置,計(jì)算所述視頻中多個(gè)圖像的平均圖像;字幕區(qū)域計(jì)算裝置,針對(duì)所述平均圖像,計(jì)算字幕區(qū)域,當(dāng)存在所述字幕區(qū)域時(shí),將所述多個(gè)圖像作為局部圖像。發(fā)明17、根據(jù)發(fā)明13所述的字幕存在時(shí)間確定裝置,其特征在于,所述方法還包括噪聲判斷裝置,根據(jù)獲得所述初始全局特征時(shí)的幀與獲得所述穩(wěn)定全局特征時(shí)的幀之間的時(shí)間距離,判斷所述字幕區(qū)域是否為噪聲。發(fā)明18、根據(jù)發(fā)明13所述的字幕存在時(shí)間確定裝置,其特征在于,字幕開始幀結(jié)束幀確定裝置如下地確定開始幀-確定開始幀掃描范圍;逐一計(jì)算所述開始幀掃描范圍內(nèi)的各局部圖像的局部特征與所述穩(wěn)定全局特征的相似性,并在從所述幵始幀掃描范圍從后向前掃描的情況下將第一個(gè)不相似的局部圖像所在的幀確定為開始幀,或在從所述開始幀掃描范圍從前向后掃描的情況下將第一個(gè)相似的局部圖像所在的幀確定為開始幀。發(fā)明19、根據(jù)發(fā)明13至18任一項(xiàng)所述的字幕存在時(shí)間確定裝置,其特征在于,字幕開始幀結(jié)束幀確定裝置如下地確定結(jié)束幀:確定結(jié)束幀掃描范圍;逐一計(jì)算所述結(jié)束幀掃描范圍內(nèi)的各局部圖像的局部特征與所述穩(wěn)定全局特征的相似性,并在從所述結(jié)束幀掃描范圍從后向前掃描的情況下將第一個(gè)相似的局部圖像所在的幀確定為結(jié)束幀,或在從所述結(jié)束幀掃描范圍從前向后掃描的情況下將第一個(gè)不相似的局部圖像所在的幀確定為結(jié)束幀。發(fā)明20、一種計(jì)算機(jī)程序,可以由計(jì)算機(jī)或邏輯處理部件執(zhí)行,使所述計(jì)算機(jī)或所述邏輯處理部件用作上述發(fā)明所述的字幕存在時(shí)間確定裝置或使所述計(jì)算機(jī)或所述邏輯處理部件實(shí)現(xiàn)上述發(fā)明所述的字幕存在時(shí)間確定方法。發(fā)明21、一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有發(fā)明20所述的計(jì)算機(jī)程序。所包括的附圖用于進(jìn)一步解釋本發(fā)明,與說明書一起用于解釋本發(fā)明的原理。圖1示出了傳統(tǒng)的確定字幕存在時(shí)間的方法的流程圖。圖2是字幕畫面的一例的示意圖。圖3是字幕跟蹤的系統(tǒng)框圖。圖4是字幕時(shí)間分割示意圖。圖5表示確定字幕結(jié)束幀的方法的流程。圖6表示確定字幕開始幀的方法的流程。圖7表示兩個(gè)水平字幕位置過近的情況。圖8表示水平字幕和垂直字幕位置過近的情況。圖9表示水平字幕距離過近的解決算法部分。圖IO表示計(jì)算區(qū)別點(diǎn)個(gè)數(shù)的方法的流程圖。圖11表示水平和垂直字幕距離過近的解決算法部分。圖12表示對(duì)感興趣區(qū)域的解釋。圖13表示依據(jù)本發(fā)明的一個(gè)實(shí)施例的字幕存在時(shí)間確定裝置。圖14表示依據(jù)本發(fā)明的另一個(gè)實(shí)施例的字幕存在時(shí)間確定裝置。具體實(shí)施例方式圖2示出了字幕畫面的一個(gè)示例的示意圖。在圖2所示的畫面中,包含了三個(gè)典型的字幕"富士通^G。",字幕201是小字體字幕,字幕202是正常字體垂直字幕,字幕203是正常字體水平字幕。圖3示出了依據(jù)本發(fā)明的一種實(shí)施方式的確定字幕存在時(shí)間的方法的流程圖。如圖3所示,首先在步驟301中進(jìn)行視頻解碼(例如利用解碼器),獲得單幀圖像信息。為了提高字幕檢測的速度,還可進(jìn)行釆樣,即根據(jù)需要,按照預(yù)定的采樣速率抽出單幀圖像信息。在這種情況下,例如在每個(gè)r時(shí)間內(nèi)設(shè)置JV個(gè)采樣點(diǎn),T和N都是大于l的正整數(shù)(可參見圖4)。在步驟302,它首先對(duì)這iV個(gè)釆樣點(diǎn)的圖像進(jìn)行平均(即在各采樣點(diǎn)上各得到一幀圖像,然后平均從N個(gè)采樣點(diǎn)得到的圖像),獲得平均圖像(即平均幀),然后針對(duì)該平均圖像計(jì)算字幕特征,檢測出字幕可能存在的區(qū)域,即字幕區(qū)域。這里,字幕區(qū)域個(gè)數(shù)不是確定的,因?yàn)閷?shí)際中每一幀圖像中的字幕區(qū)域數(shù)目是不確定的,可能沒有,可能有多個(gè)。在沒有字幕區(qū)域的情況下,不進(jìn)行后面的計(jì)算,當(dāng)存在字幕區(qū)域時(shí),將所述平均圖像所涉及的多個(gè)圖像作為局部圖像。在以下的說明中,針對(duì)檢測出一個(gè)字幕區(qū)域的情況。利用平均圖像獲得多個(gè)局部圖像能夠增加字幕區(qū)域檢測健壯性和檢12進(jìn)行檢測,例如2007年8月9日提交的第200710140327.9號(hào)中國專利申請(qǐng)中的介紹和說明的其它方法。如圖2所示,字幕區(qū)域一般為矩形。但也可以是其他形狀,例如圓形或三角形。為方便說明,本文以矩形的字幕區(qū)域?yàn)槔M(jìn)行說明。在東方文字(比如日文和中文)中,由于筆畫特點(diǎn),所以角點(diǎn)特征非常明顯。角點(diǎn)多發(fā)生在筆畫的起點(diǎn)、交叉點(diǎn)和終點(diǎn),而背景的角點(diǎn)特征不是很明顯。因而,在本文中,以角點(diǎn)特征作為字幕特征的示例。對(duì)于其他的文字,也可以采用角點(diǎn)特征。這里所說的角點(diǎn)例如是Harris角點(diǎn)特征,Harris角點(diǎn)是檢測圖像中興趣點(diǎn)的一個(gè)重要特征,它具有對(duì)于旋轉(zhuǎn)、尺度和光照變化的不變性。關(guān)于Harris角點(diǎn)提取的細(xì)節(jié),可以下述參考文獻(xiàn)C.HarrisandM丄Stephens,"Acombinedcornerandedgedetector",InAlveyVisionConference,pp.147-152,1988另外,雖然在本說明書中是基于Harris角點(diǎn)對(duì)本發(fā)明進(jìn)行詳細(xì)說明的,但是本發(fā)明并不限于Harris角點(diǎn),也可以使用其他的角點(diǎn)(如Susan角點(diǎn))。根據(jù)Harris角點(diǎn)對(duì)字幕區(qū)域進(jìn)行檢測的方法,例如可以參見2007年8月9日提交的第200710140327.9號(hào)中國專利申請(qǐng)"字幕區(qū)域提取裝置和方法",通過引用將其并入本文中。下面對(duì)其方法進(jìn)行簡要的說明。應(yīng)該注意,字幕區(qū)域的檢測也可以采用其他方法進(jìn)行。在該專利申請(qǐng)中所公開的字幕提取方法包括以下步驟對(duì)所述視頻信號(hào)進(jìn)行解碼,生成多幀圖像;按照時(shí)間順序把所述多幀圖像分成預(yù)定大小的圖像組,對(duì)于每個(gè)圖像組,基于邊緣特征選擇預(yù)定數(shù)量的圖像;對(duì)于各個(gè)所述圖像組,對(duì)所述選擇的圖像進(jìn)行平均處理,得到平均圖像;以及從所述平均圖像中提取角點(diǎn),基于所述角點(diǎn)從所述平均圖像中提取出字幕區(qū)域。在提取字幕區(qū)域時(shí),可以在多個(gè)尺度下、在水平和垂直方向上分別提取水平字幕區(qū)域和垂直字幕區(qū)域,并對(duì)所述多個(gè)尺度下提取的字幕區(qū)域進(jìn)行聚類處理。或者可以根據(jù)所述角點(diǎn)的密度提取特征直線,并根據(jù)13所述特征直線的密度提取字幕區(qū)域。具體地,從所述平均圖像中提取Harris角點(diǎn),對(duì)于每個(gè)Harris角點(diǎn),計(jì)算以該Harris角點(diǎn)為中心的預(yù)定尺寸的窗口內(nèi)的Harris角點(diǎn)的數(shù)目,若所述數(shù)目未達(dá)到預(yù)定的閾值,則拋棄該Harris角點(diǎn)。接著,在步驟303中,提取字幕區(qū)域的局部特征,即提取所述多個(gè)局部圖像的字幕區(qū)域的局部特征。在本文中,局部的定義是時(shí)間上的各個(gè)釆樣點(diǎn),全局的定義是時(shí)間上包含一定數(shù)目采樣點(diǎn)的一段時(shí)間。在時(shí)間上,對(duì)每一個(gè)采樣點(diǎn)上的圖像提取字幕區(qū)域,然后提取這個(gè)字幕區(qū)域的局部特征。另外,在以上的步驟中,利用平均圖像獲得了字幕區(qū)域,即字幕區(qū)域的起始點(diǎn)等,然后利用該字幕區(qū)域的起始點(diǎn)等,確定各采樣點(diǎn)圖像中的字幕區(qū)域,對(duì)于各采樣點(diǎn)的圖像中的該字幕區(qū)域,提取該字幕區(qū)域的特征,作為局部特征。在本文中,例如釆用Canny邊緣,當(dāng)然也可以釆用其他指標(biāo)作為局部特征。在采用Canny邊緣的情況下,這個(gè)邊緣圖像就定義為局部特征。計(jì)算Carmy邊緣的算法可以參考下面的文獻(xiàn),Canny,John,"AComputationalApproachtoEdgeDetection,"IEEETransactionsonPatternAnalysisandMachineIntelligence,Vol.8,No.6,1986:pp.679-698.在步驟304,將所提取的局部特征與全局特征進(jìn)行比較,計(jì)算相似度。全局特征是在一定時(shí)間間隔內(nèi),對(duì)其中的所有局部特征進(jìn)行投票統(tǒng)計(jì)而計(jì)算出的。在初始情況下,全局特征與局部特征是相同的。相似度包括兩個(gè)方面的相似度,一個(gè)是位置上的相似度,表示局部特征和全局特征在空間上的重合程度的一種度量。另一個(gè)是圖像邊緣的相似度,表示局部特征和全局特征在邊緣點(diǎn)位置的重合程度的度量。在本發(fā)明中,要判斷位置上的相似度和邊緣的相似度這兩者,在下面的例子中,對(duì)如何判斷位置上的相似度和邊緣的相似度這兩者進(jìn)行說明。圖像位置的相似度&定義為,Sp=(1iG)/max(Ji£^(iG),(/G))(1)在公式l中,^和&分別表示局部特征區(qū)域和全局特征區(qū)域,AREA(.)表示區(qū)域面積。也就是說,位置相似度可以是兩個(gè)區(qū)域的共同面積與這兩個(gè)區(qū)域中的較大區(qū)域的面積的比值。另一方面,圖像邊緣相似度&的計(jì)算是比較某一區(qū)域內(nèi)特征圖像的對(duì)應(yīng)像素差異度,如下式s—2x;^a(x,力=g(x,力)n(丄"力=255)e=IL。(G",力=255)+!^(Z(X,W=255)在公式2中,分母表示局部特征區(qū)域內(nèi)白色像素點(diǎn)的數(shù)目加上全局特征區(qū)域內(nèi)白色像素點(diǎn)的數(shù)目,分子表示局部特征區(qū)域和全局特征區(qū)域內(nèi),同一位置均為白色像素點(diǎn)的個(gè)數(shù)。即局部特征區(qū)域和全局特征區(qū)域中兩者重合的白色像素點(diǎn)占這兩個(gè)區(qū)域中的全部白色像素點(diǎn)的比例。在公式2中,A和&分別表示局部特征區(qū)域和全局特征區(qū)域。r為特征計(jì)算的區(qū)域,即包含當(dāng)前的局部特征區(qū)域和全局特征區(qū)域的最大的外接矩形,記做i-^U及g。丄(;c,力是局部特征在Oc,y)的值,G0c,力是全局特征在0c,力的值。在這里^^(.)表示在區(qū)域/內(nèi),滿足某一個(gè)條件的像素的個(gè)數(shù),例如J^(G(;c,力-255)表示"。區(qū)域中滿足G(;c,力-255的條件的像素的個(gè)數(shù)。對(duì)于邊緣相似度的計(jì)算,例如也可以采用邊緣內(nèi)的筆畫的顏色是否一致的判別方法。如果這個(gè)位置相似度&大于某一預(yù)先定義的閾值TP,同時(shí)邊緣的相似度&也大于某一閾值TE,則認(rèn)為該字幕區(qū)域已經(jīng)被跟蹤上。在步驟305,對(duì)步驟304所獲得的相似度進(jìn)行判斷,即判斷位置相似度&是否大于閾值TP,并且同時(shí)邊緣的相似度&是否大于TE。由于在初始情況下,局部特征與全局特征完全相同,所以在初始時(shí),步驟305中的判斷結(jié)果為是。在步驟305中的判斷結(jié)果為是的情況下,在步驟306中進(jìn)行局部特征投票,并隨后在步驟307中進(jìn)行全局特征更新。投票的含義是多數(shù)代表決策結(jié)果。在本文中將圖像中的各像素點(diǎn)分成兩類,一類為文本邊緣點(diǎn),一個(gè)是非文本邊緣點(diǎn)。對(duì)于字幕區(qū)域的某一點(diǎn),對(duì)從開始時(shí)間到目前時(shí)間這段時(shí)間內(nèi)的所有局部特征在該點(diǎn)的值進(jìn)行累加,如果這個(gè)累加值大于某一個(gè)預(yù)先定義的閾值,那么該點(diǎn)就被判別為文本邊緣點(diǎn),否則就是非文本邊緣點(diǎn)。具體地,在局部特征投票處理中,投票的過程是對(duì)于跟蹤上的某一個(gè)字幕,它的開始時(shí)間為i;,目前的時(shí)刻為;,如下式,在公式3中,£,"力是局部特征,SA,Oc,力指的是局部特征在Oc,力點(diǎn)處的像素值的累加,/(X,力是對(duì)于局部特征位置(X,y)上的投票后的結(jié)果。然后在步驟307,根據(jù)在步驟306的投票結(jié)果,進(jìn)行全局特征的更新。對(duì)于全局特征的更新,例如可以采用以下公式4,在公式4中,;為投票結(jié)果設(shè)定的閾值。如果投票結(jié)果大于;,表明從時(shí)間i;到時(shí)間7;,在位置(義,力上的局部特征的值變化不大,符合字幕保持位置不變的特征。以上通過局部特征投票來更新全局特征的方法稱為投票更新法。當(dāng)對(duì)于區(qū)域R(^i,U&)中所有的像素進(jìn)行了公式4的判別之后,就得到了全局特征圖像G。更新完全局特征后,處理返回步驟303,計(jì)算下一局部圖像(包括對(duì)于下一平均圖像中所涉及的局部圖像)的字幕區(qū)域的特征,作為下一字幕局部特征,然后重復(fù)進(jìn)行步驟304、305、306和307,直到對(duì)于某一個(gè)字幕局部特征,其和全局特征的位置相似度小于閾值TP或者邊緣相似度小于閾值TH。這表示字幕即將消失。此時(shí)的時(shí)間定義為S。在出現(xiàn)了這樣的字幕局部特征時(shí),即在步驟305的判斷結(jié)果為否時(shí),處理進(jìn)行到步驟308,在步驟308判斷該字幕是否是噪聲。一般來說,很多背景噪聲也可以產(chǎn)生局部特征。字幕區(qū)域顯著的特征是它可以持續(xù)一段時(shí)間。如果字幕的持續(xù)時(shí)間(即從i;到7;之間的時(shí)間)大于時(shí)間閾值TV,則該字幕為噪聲,處理結(jié)束。即,在步驟308中,判/(x,y)=16斷T2—T^Tt是否成立,如果不成立,則為噪聲,處理結(jié)束。在步驟308中判斷出該字幕區(qū)域不是噪聲時(shí)(步驟308,否),優(yōu)選地,在步驟309中再次精確地判定其是否確實(shí)為字幕,該判定例如可以采用連通域分析法。對(duì)跟蹤后的字幕區(qū)域的全局特征進(jìn)行連通域分析,得出多個(gè)可能的字符組件,去除那些寬度和高度都小于某一設(shè)定的閾值的組件,對(duì)剩余的組件的的全局特征計(jì)算它含有的白像素點(diǎn)的個(gè)數(shù)占整個(gè)全局特征區(qū)域的比率,如果這個(gè)比率大于某一個(gè)預(yù)先設(shè)定的閾值,那么該區(qū)域就是字幕區(qū)域,否則就會(huì)被去除。應(yīng)該注意到,步驟308和309的步驟都是可選的,只在要求字幕判斷精度較高時(shí)使用。在步驟310利用最后更新的全局特征(也稱為穩(wěn)定全局特征),確定字幕結(jié)束幀和開始幀??梢韵却_定開始幀,后確定結(jié)束幀,也可以先確定結(jié)束幀,后確定開始幀。下面對(duì)確定開始幀和結(jié)束幀的具體方法進(jìn)行說明。圖5示出了確定字幕結(jié)束幀的方法的流程。應(yīng)該注意,上面確定的時(shí)間T2和字幕的真實(shí)結(jié)束幀在一般情況下是不相同的,可能大也可能小。因而首先確定字幕結(jié)束時(shí)間搜索區(qū)域??紤]到該時(shí)間一般在T2土T的范圍內(nèi)(這是因?yàn)槭褂肨間隔內(nèi)的圖像平均處理,在確定字幕結(jié)束幀是某一特定幀時(shí),它可能在上一個(gè)T內(nèi),或者是下一個(gè)T內(nèi)),因而在本發(fā)明中將字幕結(jié)束時(shí)間搜索區(qū)域確定為區(qū)間^-r到K。確定字幕結(jié)束幀的方法的總體思路是對(duì)字幕結(jié)束時(shí)間搜索區(qū)域(例如從72-r到72+r)的所有采樣的視頻幀信息,依次與穩(wěn)定全局特征進(jìn)行比較,計(jì)算相似度,相似度突然低于閾值(為方便說明,將閾值描述為Thl,但實(shí)際上可能是邊緣相似度和位置相似度分別與各自的閾值相比較)的時(shí)間,這個(gè)時(shí)間定義為視頻的結(jié)束時(shí)間i;。具體地,如圖5所示,首先,在步驟501將變量i設(shè)置為字幕結(jié)束時(shí)間搜索區(qū)域中的第一幀,T2~"T。然后在步驟502判斷該幀是否是字幕結(jié)束時(shí)間搜索區(qū)域的最后一幀。這例如可以通過判斷該幀是否超過最后一幀T2+T來判斷。如果該幀已經(jīng)是最后一幀(步驟502,否),則表明17已經(jīng)對(duì)所有幀進(jìn)行了判斷,因而在步驟503結(jié)束該流程,將最后一幀作為結(jié)束幀。如果不是最后一幀(步驟502,是),則處理進(jìn)行到步驟504。在步驟504,計(jì)算該第i幀中的該字幕區(qū)域內(nèi)的局部特征和穩(wěn)定全局特征之間的相似度。然后在步驟506,判斷該相似度是否小于閾值Thl,如果小于閾值Thl,則表明其為真正的結(jié)束幀,在步驟507將結(jié)束幀設(shè)為幀i。否則,如果步驟506的判斷結(jié)果為否,則進(jìn)行下一幀的判斷,即在步驟505,將下一幀設(shè)置為當(dāng)前幀,具體地,使i二i+l。圖6示出了確定字幕開始幀的方法的流程圖。這個(gè)方法的總體思路是將字幕開始時(shí)間搜索區(qū)域(例如;+r到7;-r)中的所有采樣的視頻幀中字幕區(qū)域的局部特征分別與穩(wěn)定全局特征進(jìn)行比較,計(jì)算邊緣相似度,相似度突然低于閾值Th2的時(shí)間,這個(gè)時(shí)間定義為視頻的開始時(shí)間z;。首先,在步驟601將變量i設(shè)置為字幕開始時(shí)間搜索區(qū)域中的最后一幀,T一T。然后在步驟602判斷該幀是否是字幕開始時(shí)間搜索區(qū)域中的第一幀。這例如可以通過判斷該幀是否到達(dá)字幕開始時(shí)間搜索區(qū)域中的第一幀Ti一T來判斷。如果該幀已經(jīng)是第一幀(步驟602,否),則表明已經(jīng)對(duì)所有幀進(jìn)行了判斷,因而在步驟603結(jié)束該流程,將第一幀作為結(jié)束幀。如果不是第一幀(步驟602,是),則處理進(jìn)行到步驟604。在步驟604,計(jì)算該第i幀中的該字幕區(qū)域內(nèi)的局部特征和穩(wěn)定全局特征之間的相似度。然后在步驟606,判斷該相似度是否小于閾值Th2,如果小于閾值Th2,則表明其為真正的開始幀,在步驟607將開始幀設(shè)為幀i。否則,如果步驟606的判斷結(jié)果為否,則進(jìn)行下一幀的判斷,即在步驟605,將下一幀設(shè)置為當(dāng)前幀,具體地,使i-i一l。根據(jù)本發(fā)明的實(shí)施例,從圖4中可以看出,得到穩(wěn)定全局特征的過程是一個(gè)不斷更新的過程,全局特征是不斷更新的,因而盡可能利用了以前的所有信息,逐步得出了沒有背景噪聲的模板。另外,由于穩(wěn)定全局特征不含有噪聲,因此可以更有效地適應(yīng)不同的背景條件?;氐綀D3,在確定了開始幀和結(jié)束幀之后,還可以進(jìn)一步進(jìn)行相交的水平字幕和垂直字幕的分離。這一步驟主要解決字幕距離太近,造成錯(cuò)誤跟蹤的問題,這一步驟對(duì)應(yīng)于本發(fā)明的字幕劃分步驟。這可以分為兩種情況,一種情況是兩個(gè)水平字幕的位置過近問題,如圖7所示,另一種情況是一個(gè)是水平字幕和一個(gè)垂直字幕位置過近的問題,如圖8所示。對(duì)于圖7和圖8的情況,根據(jù)其特征,分別設(shè)計(jì)了不同的解決方案。對(duì)于圖7的情況,一般發(fā)生在視頻幀的上部,所以如果一個(gè)字幕位于視頻的上部,進(jìn)行針對(duì)于圖7的解決方案的操作,否則不進(jìn)行針對(duì)于圖7的解決方案的操作;對(duì)于圖8的情況是對(duì)于每一個(gè)跟蹤后的字幕都要進(jìn)行如下的兩種操作。對(duì)于圖7所示的情況,可以采用圖9的方法來分離水平的兩個(gè)字幕。該方法的主要思路是將特定位置的水平字幕依次按水平坐標(biāo)劃分為左右兩個(gè)部分,計(jì)算各水平坐標(biāo)所劃分出的左部分與右部分的區(qū)別點(diǎn)的個(gè)數(shù),并獲得區(qū)別點(diǎn)個(gè)數(shù)最多時(shí)的水平坐標(biāo),在該最多區(qū)別點(diǎn)個(gè)數(shù)滿足一定的條件時(shí),按該水平坐標(biāo)劃分所述水平字幕。如圖9所示,首先,在步驟901中輸入字幕跟蹤結(jié)果,字幕跟蹤結(jié)果包含字幕的開始時(shí)間和結(jié)束時(shí)間、四個(gè)頂點(diǎn)的位置、字幕的全局特征信息(穩(wěn)定全局特征)和區(qū)域內(nèi)的角點(diǎn)信息。然后在步驟902,根據(jù)該字幕跟蹤結(jié)果判斷該字幕是否是水平字幕,并且判斷其位置是否在幀的上部。之所以要判斷其是否在上部是因?yàn)樵趯?shí)踐中,這種情況一般發(fā)生在視頻幀的上部。具體地,假定該被跟蹤的字幕為矩形區(qū)域i(x,乂w,/2)。在這里X,y分別為矩形的中心的橫、縱坐標(biāo),W,/z分別為矩形的寬度和高度。如果滿足下面的條件(5)、(6)以及(7),則認(rèn)為其是水平字幕,并且位置在幀的上部。w//z>5(5)w>01(6);;《0.2i7(7)在這里,條件(5)是為了滿足其為水平字幕,條件(6)是為了滿足它比較長,條件(7)是為了滿足它位于幀圖像的上部,在這里的W為輸入視頻幀的寬度,H為輸入視頻幀的高度。以上公式中的5、0.7、0.2等三個(gè)值是判定的三個(gè)閾值,可以取其他的值。19如果判斷出該字幕是水平字幕并且位置在幀的上部(步驟902,是),則在步驟903中,對(duì)該字幕內(nèi)的所有角點(diǎn)按橫坐標(biāo)X值排序,x^A,…,s;^,n為角點(diǎn)的個(gè)數(shù)。隨后,在步驟904,進(jìn)行初始化,獲得第一個(gè)劃分點(diǎn)。劃分點(diǎn)是以該點(diǎn)為分界點(diǎn)做一條垂直線,把區(qū)域分為左右兩個(gè)區(qū)域的角點(diǎn)。具體地,在本實(shí)施例中,將變量i設(shè)為l。然后,在步驟卯5,以《(K"n)為界,把區(qū)域分為左右兩個(gè)部分,記做虹和朋,并將虹和朋中角點(diǎn)的個(gè)數(shù)記為iVi:和iW。在步驟906中對(duì)以字幕區(qū)域的每個(gè)角點(diǎn)為中心的窗口內(nèi)的顏色進(jìn)行量化,量化的目的是便于比較顏色,可以使運(yùn)算速度加快,如果不進(jìn)行這個(gè)操作也可以,可能系統(tǒng)的運(yùn)算速度會(huì)慢些。在本實(shí)施方式中,任意選取一個(gè)角點(diǎn),以它的所處的位置為中心,做一個(gè)正方形的區(qū)域,窗口的大小寬度為R,高度為A。首先把顏色從RGB空間轉(zhuǎn)化到"a化f空間,然后以下表1中提供的顏色為中心顏色(如果把所有的顏色空間用某幾種顏色來表示,而這些顏色的在感覺上各不相同,那么選擇的這幾種顏色就是中心顏色),把每個(gè)顏色轉(zhuǎn)化成離它最近的中心顏色值。表l<table>tableseeoriginaldocumentpage20</column></row><table><table>tableseeoriginaldocumentpage21</column></row><table>對(duì)于上表1的詳細(xì)說明可以參見http:〃www.two4u.com/color/small畫txt,html。通過引用將其并入本文中??梢圆捎闷渌膶?duì)顏色進(jìn)行量化的方法。應(yīng)該注意,該顏色量化的步驟也可在判斷出是水平字幕,并且該水平字幕在幀的上部之后進(jìn)行,也可在其它位置進(jìn)行,即其位置是靈活的。然后在步驟907中計(jì)算左區(qū)域和右區(qū)域中的區(qū)別點(diǎn)的個(gè)數(shù)。其計(jì)算方法在后文說明。在步驟907中,還將計(jì)算出的區(qū)別點(diǎn)數(shù)目與對(duì)應(yīng)的劃分點(diǎn)橫坐標(biāo)值Xi、左區(qū)域或右區(qū)域中的角點(diǎn)的個(gè)數(shù)相對(duì)應(yīng)地存儲(chǔ)起來。在本發(fā)明中,說明存儲(chǔ)左區(qū)域中的角點(diǎn)的個(gè)數(shù)的情況。然后,在步驟908中獲得下一劃分點(diǎn)。具體地在本實(shí)施例中,使i等于i+l。并在步驟909中判斷該下一劃分點(diǎn)是否存在,如果存在(步驟908,否),則重復(fù)步驟卯5至卯9,直至完成所有水平角點(diǎn)的判斷(步驟909,是)。然后在步驟910,獲取所存儲(chǔ)的區(qū)別點(diǎn)數(shù)目中的最大區(qū)別點(diǎn)數(shù)目,并獲得與該最大區(qū)別點(diǎn)數(shù)目對(duì)應(yīng)的Xi值,記為Xmax。然后,在步驟911中判斷該最大區(qū)別點(diǎn)數(shù)目是否滿足預(yù)定的條件。該預(yù)定的條件例如可以是該Nmax是否大于在Xmax作為劃分點(diǎn)時(shí)的左區(qū)域內(nèi)角點(diǎn)個(gè)數(shù)的一半(即,0.5NL)。該預(yù)定的條件可以通過實(shí)驗(yàn)獲得。如果滿足了該預(yù)定的條件(步驟911,是),則以該劃分點(diǎn)將該水平字幕區(qū)域分成兩個(gè)區(qū)域(步驟912),否則保持該水平字幕區(qū)域不變,即不進(jìn)行劃分(步驟913)。下面,說明計(jì)算區(qū)別點(diǎn)個(gè)數(shù)的流程。圖IO示出了計(jì)算區(qū)別點(diǎn)個(gè)數(shù)的方法的流程圖。該流程圖對(duì)應(yīng)于圖9的步驟907。如圖10所示,首先在步驟9071獲取左區(qū)域中的第一個(gè)角點(diǎn),具體地,將變量j設(shè)為l。然后在步驟9072,計(jì)算左區(qū)域中坐標(biāo)為Xj的角點(diǎn)到右區(qū)域中的每一個(gè)角點(diǎn)的距離Djk。并在步驟9073計(jì)算滿足條件p,>73的角點(diǎn)個(gè)數(shù)^;然后在步驟9074中對(duì)N是否滿足預(yù)定條件進(jìn)行判斷(例如N是否大于0.5NR,如上所述,該條件也可通過實(shí)驗(yàn)獲得),如果滿足了預(yù)定條件,則在步驟9075將這個(gè)角點(diǎn)(坐標(biāo)為Xj的角點(diǎn))定義為區(qū)別點(diǎn)。區(qū)別點(diǎn)表明這個(gè)角點(diǎn)在顏色上與右側(cè)的角點(diǎn)在顏色上不一樣,所以可能在兩個(gè)不同的字幕上。然后通過9076的設(shè)置和9077的判斷,重復(fù)進(jìn)行步驟9072至9076的操作,直到判斷完左區(qū)域中所有的角點(diǎn)。本領(lǐng)域技術(shù)人員應(yīng)該意識(shí)到,也可以使用右邊的區(qū)域進(jìn)行這種判斷。然后在步驟9078中確定區(qū)別點(diǎn)的個(gè)數(shù)。該個(gè)數(shù)即左右區(qū)域的區(qū)別點(diǎn)的個(gè)數(shù)。對(duì)于圖8所示的情況,本專利采取的方法的流程圖如圖11所示。其22基本思想是通過選擇感興趣區(qū)域,避幵可能的交叉區(qū)域,利用投影算法和字幕的直線填充度(每個(gè)字幕區(qū)域都是由很多特征直線生成的,直線填充度表示該字幕是由多少特征直線生成的,直線越多,說明該字幕檢測的越可靠,反之亦然)來修改字幕的邊界的方法。如圖11所示,在步驟1001開始之后,在步驟1002輸入字幕跟蹤結(jié)果,在步驟1003選擇感興趣的區(qū)域。如圖12虛線部分所示,感興趣的區(qū)域是距矩形(即字幕區(qū)域)左邊0,2F1,距矩形右邊0.2『1的中間區(qū)域。這里的兩個(gè)系數(shù)0.2和0.2可以相互不同,并可以改變,但是它有一個(gè)合理的范圍,既不能太小以至于不能達(dá)到分離的目的,又不要太多而影響精度。在圖12中,^和、是水平字幕的垂直分割線,它們到左右邊界的距離相等,都是0.2w,在這里w為矩形的寬度。兩條垂直分割線之間的矩形區(qū)域?yàn)楦信d趣區(qū)域。然后在步驟1004對(duì)感興趣區(qū)域的角點(diǎn)特征進(jìn)行水平投影(即投影在y軸上),投影值的第一個(gè)非零值和最后非零值確定為水平字幕的上下邊界。在步驟1005根據(jù)確定出的字幕的上下邊界,對(duì)修改后的上下邊界和原來的左右邊界組成的矩形區(qū)域內(nèi)的角點(diǎn)特征做垂直方向投影(投影在x軸上),投影值的第一個(gè)和最后非零值確定為水平字幕的左右邊界;利用在圖3的步驟302中得到的特征直線(特征直線表示每個(gè)字幕區(qū)域都是由很多特征直線生成的,它是用角點(diǎn)特征經(jīng)過一定的規(guī)則組合而成的),計(jì)算新確定區(qū)域的直線填充度C"2>"(/,)在公式8中,^^t是候選區(qū)域的面積,ien是字幕區(qū)域內(nèi)特征直線的長度,W是特征直線的數(shù)目。在步驟1007確定該字幕是否為有效字幕。具體地,判斷是否大于閾值TR。如果填充度大于閾值TR,說明字符筆畫的數(shù)目很多,比較可靠。如果在步驟1007的判斷結(jié)果為否,則水平和垂直字幕邊界不改變(步驟1009);如果在步驟1007的判斷結(jié)果為是,則在步驟1008修改水平字幕的區(qū)域,修改的方法是將字幕區(qū)域的左右位置設(shè)置為步驟1005確定的位23置。并在步驟1010去除新的水平字幕區(qū)域內(nèi)的所有角點(diǎn);在步驟1011中利用剩余角點(diǎn)確定垂直字幕的準(zhǔn)確邊界;并在步驟1012輸出最后水平字幕和垂直字幕邊界。圖13示出了依據(jù)本發(fā)明的一個(gè)實(shí)施例的字幕存在時(shí)間確定裝置,如圖13所示,該裝置包括局部圖像獲取裝置131、局部特征獲取裝置132、相似度計(jì)算判斷裝置133、全局特征更新裝置134、開始幀結(jié)束幀確定裝置135。其中局部特征獲取裝置132、相似度計(jì)算判斷裝置133、全局特征更新裝置134構(gòu)成了本發(fā)明的穩(wěn)定全局特征獲得裝置。局部圖像獲取裝置131用于獲得視頻中的多個(gè)圖像,即多個(gè)局部圖像。該局部圖像獲取裝置Bl可用于完成圖3中的步驟301。另外局部圖像獲取裝置131可以包括平均圖像計(jì)算裝置1311,計(jì)算所述視頻中多個(gè)圖像的平均圖像;字幕區(qū)域計(jì)算裝置1312,針對(duì)所述平均圖像,計(jì)算字幕區(qū)域,當(dāng)存在所述字幕區(qū)域時(shí),將所述多個(gè)圖像作為局部圖像。局部特征獲取裝置132用于獲取各所述局部圖像的字幕區(qū)域的特征,即局部特征。該局部特征獲取裝置132可用于完成圖3中的步驟303。相似度計(jì)算判斷裝置133用于將各所述局部特征與所述多個(gè)局部圖像的全局特征進(jìn)行比較,計(jì)算相似度,判斷是否相似。相似度計(jì)算判斷裝置133可用于完成圖3中的步驟304、305。這里的相似度如前所述包括位置上的相似度和邊緣上的相似度。全局特征更新裝置134用于設(shè)定所述多個(gè)局部圖像的初始全局特征,根據(jù)所述相似度計(jì)算判斷裝置的判斷結(jié)果,對(duì)所述全局特征進(jìn)行更新,并最終確定穩(wěn)定全局特征。該全局特征更新裝置134例如可以用于完成圖3中的步驟303中的對(duì)初始全局特征的設(shè)定,圖3中步驟306的局部特征投票和圖3中步驟307的全局特征更新。但對(duì)全局特征的更新可以采用投票更新法以外的方法。圖14示出了依據(jù)本發(fā)明的另一個(gè)實(shí)施例的字幕存在時(shí)間確定裝置。如圖14所示,與圖3中所示的裝置相比,其還包括噪聲判斷裝置141,用于根據(jù)所述相似度判斷裝置判斷出否定結(jié)果時(shí)的局部圖像與所述多個(gè)局部圖像中的第一局部圖像的距離,判斷所述字幕區(qū)域是否為噪聲區(qū)域,24其例如對(duì)應(yīng)于圖3中的步驟308;字幕確認(rèn)裝置142,用于確認(rèn)所述字幕區(qū)域是否確實(shí)包含字幕,其例如對(duì)應(yīng)于圖3中的步驟309;以及字幕區(qū)域劃分裝置143,用于對(duì)確定出開始幀和結(jié)束幀的字幕區(qū)域進(jìn)行劃分,以更準(zhǔn)確地確定字幕的位置。本發(fā)明的方法也可以由計(jì)算機(jī)程序來實(shí)現(xiàn)。本發(fā)明涉及這樣的計(jì)算機(jī)程序,并包括保存上述計(jì)算機(jī)程序的存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)例如可以是磁盤、光盤、DVD、CVD、磁帶、MO、閃存等等。應(yīng)該注意,上述說明只是解釋性和示例性的,不是對(duì)本發(fā)明的范圍的限制。本領(lǐng)域的技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)進(jìn)行各種變型和修改,這些變型和修改都在本發(fā)明的范圍之內(nèi)。本發(fā)明的范圍有權(quán)利要求及其等同物確定。權(quán)利要求1、一種字幕存在時(shí)間確定方法,該方法包括以下步驟局部圖像獲得步驟,獲得視頻中的初步判斷為含有字幕區(qū)域的多個(gè)圖像,即多個(gè)局部圖像;穩(wěn)定全局特征獲得步驟,獲得所述多個(gè)局部圖像的穩(wěn)定全局特征;以及開始幀和結(jié)束幀確定步驟,利用所述穩(wěn)定全局特征確定開始幀和結(jié)束幀。2、根據(jù)權(quán)利要求1所述的字幕存在時(shí)間確定方法,其特征在于,獲得所述多個(gè)局部圖像的穩(wěn)定全局特征的步驟包括-局部特征獲取步驟,獲取所述局部圖像的局部特征;初步確定全局特征;將各所述局部圖像的局部特征與所述全局特征進(jìn)行比較,根據(jù)比較結(jié)果,更新所述全局特征;以及將最后獲得的全局特征設(shè)為穩(wěn)定全局特征。3、根據(jù)權(quán)利要求2所述的字幕存在時(shí)間確定方法,其特征在于,將各所述局部圖像的局部特征與所述全局特征進(jìn)行比較,根據(jù)比較結(jié)果更新所述全局特征的步驟包括對(duì)所述多個(gè)局部圖像中的第一個(gè)局部圖像(1)計(jì)算所述局部圖像的字幕區(qū)域的字幕特征,將所述字幕特征稱為局部特征;(2)將該局部特征設(shè)為全局特征;針對(duì)所述多個(gè)局部圖像中的下一個(gè)局部圖像,(3)計(jì)算該局部圖像的局部特征,并進(jìn)行相似度判斷,判斷該局部特征與所述全局特征是否相似;(4)在所述相似度判斷步驟判斷出該局部特征與所述全局特征相似時(shí),利用該局部圖像的局部特征更新所述全局特征;對(duì)于所述多個(gè)局部圖像中的其它局部圖像,重復(fù)進(jìn)行上述步驟(3)和(4),直到所述步驟(3)判斷出該局部特征與所述全局特征不相似,此時(shí),(5)將最后獲得的全局特征確定為穩(wěn)定全局特征。4、根據(jù)權(quán)利要求2所述的字幕存在時(shí)間確定方法,其特征在于,在所述步驟(4)中采用投票更新法來利用該局部圖像的局部特征更新所述全局特征。5、根據(jù)權(quán)利要求2所述的字幕存在時(shí)間確定方法,其特征在于,在進(jìn)行所述相似度判斷時(shí),要判斷位置相似度和邊緣相似度這兩者。6、根據(jù)權(quán)利要求1所述的字幕存在時(shí)間確定方法,其特征在于,所述局部圖像獲得步驟包括計(jì)算平均圖像的步驟,計(jì)算所述視頻中多個(gè)圖像的平均圖像;字幕區(qū)域計(jì)算步驟,針對(duì)所述平均圖像,計(jì)算字幕區(qū)域,當(dāng)存在字幕區(qū)域時(shí),將所述多個(gè)圖像設(shè)定為局部圖像。7、根據(jù)權(quán)利要求3所述的字幕存在時(shí)間確定方法,其特征在于,所述方法還包括噪聲判斷步驟,根據(jù)所述第一個(gè)局部圖像與所述步驟(3)判斷出該局部特征與所述全局特征不相似時(shí)的局部圖像的距離,判斷所述字幕區(qū)域是否為噪聲。8、根據(jù)權(quán)利要求1所述的字幕存在時(shí)間確定方法,其特征在于,確定開始幀的步驟包括確定幵始幀掃描范圍;以及逐一計(jì)算所述開始幀掃描范圍內(nèi)的各局部圖像的局部特征與所述穩(wěn)定全局特征的相似度,并在從所述開始幀掃描范圍從后向前掃描的情況下將第一個(gè)不相似的局部圖像所在的幀確定為開始幀,或在從所述開始幀掃描范圍從前向后掃描的情況下將第一個(gè)相似的局部圖像所在的幀確定為開始幀。9、根據(jù)權(quán)利要求1所述的字幕存在時(shí)間確定方法,其特征在于,確定結(jié)束幀的步驟包括確定結(jié)束幀掃描范圍;逐一計(jì)算所述結(jié)束幀掃描范圍內(nèi)的各局部圖像的局部特征與所述穩(wěn)定全局特征的相似度,并在從所述結(jié)束幀掃描范圍從后向前掃描的情況下將第一個(gè)相似的局部圖像所在的幀確定為結(jié)束幀,或在從所述結(jié)束幀掃描范圍從前向后掃描的情況下將第一個(gè)不相似的局部圖像所在的幀確定為結(jié)束幀。10、一種字幕存在時(shí)間確定裝置,該裝置包括局部圖像獲取裝置,用于獲得視頻中的初步判斷為含有字幕區(qū)域的多個(gè)圖像,即多個(gè)局部圖像;穩(wěn)定全局特征獲得裝置,用于獲得所述多個(gè)局部圖像的穩(wěn)定全局特征;以及字幕開始幀結(jié)束幀確定裝置,利用所述穩(wěn)定全局特征獲得所述視頻中的字幕的開始幀和結(jié)束幀。全文摘要本發(fā)明公開了字幕存在時(shí)間確定裝置和方法。該字幕存在時(shí)間確定方法包括以下步驟獲得視頻中的初步判斷為含有字幕區(qū)域的多個(gè)圖像,即多個(gè)局部圖像;獲得所述多個(gè)局部圖像的穩(wěn)定全局特征;利用所述穩(wěn)定全局特征確定開始幀和結(jié)束幀。文檔編號(hào)G06K9/32GK101510260SQ20081007412公開日2009年8月19日申請(qǐng)日期2008年2月14日優(yōu)先權(quán)日2008年2月14日發(fā)明者俊孫,白洪亮,直井聰,勝山裕,藤本克仁申請(qǐng)人:富士通株式會(huì)社