專利名稱:一種基于分層匹配的視頻廣告識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于視頻廣告識(shí)別方法領(lǐng)域,尤其涉及一種基于分層匹配的視頻廣告 識(shí)別方法。
背景技術(shù):
隨著科學(xué)技術(shù)和信息技術(shù)的進(jìn)步,特別是計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和大容量存 儲(chǔ)技術(shù)的不斷發(fā)展,人們已經(jīng)運(yùn)用各種手段大量的采集和生產(chǎn)了各種類型的多媒 體信息數(shù)據(jù)。多媒體已成為信息高速公路上傳送數(shù)據(jù)的主要組成部分。在這些多 媒體信息中,數(shù)字化媒體結(jié)合了視覺和聽覺,有效地向人們提供了大量的信息, 具有重要的應(yīng)用和研究價(jià)值。多媒體數(shù)據(jù)流中,既包括結(jié)構(gòu)化的數(shù)據(jù)也含有非結(jié)構(gòu)化數(shù)據(jù)。在多媒體數(shù)據(jù) 中除了包含傳統(tǒng)的文本和數(shù)字外,其它主要包含的數(shù)據(jù)類型還有圖形、圖像、 動(dòng)畫、視頻、音頻以及上述各種媒體的組合。為了能夠在數(shù)據(jù)量巨大和結(jié)構(gòu)復(fù)雜 的多媒體數(shù)據(jù)中快速的定位感興趣的信息,人們提出了比較有效的檢索算法—— 基于內(nèi)容的多媒體信息檢索(Content- based multimedia information retrieval, CMIR)。所謂基于內(nèi)容的多媒體檢索是指對(duì)多媒體數(shù)據(jù)(如視頻、音 頻流等)中所蘊(yùn)藏的物理和語義內(nèi)容進(jìn)行計(jì)算機(jī)分析和理解,以方便用戶查詢, 其本質(zhì)是對(duì)無序的多媒體數(shù)據(jù)流結(jié)構(gòu)化,提取語義信息,保證多媒體內(nèi)容能被快 速檢索。多媒體檢索與文本信息檢索相比要復(fù)雜的多。廣告視頻檢索作為多媒體視頻檢索的一個(gè)方面,正引起人們?cè)絹碓蕉嗟年P(guān) 注。這是因?yàn)閺V告視頻在日常的信息傳遞中占據(jù)著越來越重要的角色,隨著商業(yè) 化進(jìn)程的加快,廣告越來越頻繁的出現(xiàn)在電視、廣播、互聯(lián)網(wǎng)等多個(gè)媒體平臺(tái), 潛移默化的影響著人們的生活方式。廣告作為媒體中商業(yè)信息的主要載體在數(shù)字 化的今天依然扮演著不可或缺的角色。伴隨著網(wǎng)絡(luò)技術(shù)及多媒體技術(shù)的日益普 及,數(shù)字電視技術(shù)在個(gè)人與專業(yè)應(yīng)用領(lǐng)域得到了廣泛的應(yīng)用,例如電視節(jié)目轉(zhuǎn)錄 軟件,電視節(jié)目監(jiān)測系統(tǒng)等。如何通過計(jì)算機(jī)自動(dòng)甄別廣告與正常的視頻節(jié)目成 為了迫切的市場需要。通過觀察,廣告的受眾可以分為一般觀眾群體、廣告公司和監(jiān)測機(jī)構(gòu),不同 的人群對(duì)廣告內(nèi)容的需求不盡相同。對(duì)于觀眾來說, 一方面廣告影響了正常的視 頻節(jié)目的播放,擾亂了人們正常地觀看模式,有時(shí)用戶在錄制電視節(jié)目的過程中, 也不得不花費(fèi)大量的存儲(chǔ)空間,錄制這些對(duì)自己沒有用處的信息。另一方面,觀 眾如何從浩如煙海的眾多廣告中,快速尋找自己感興趣的內(nèi)容,也已成為一個(gè)亟 待解決的問題。對(duì)于廣告公司而言,廣告視頻在商業(yè)信息的傳遞中占據(jù)著越來越 重要的地位,他們通過對(duì)廣告的分析,幫助客戶了解競爭對(duì)手的產(chǎn)品情況,檢測 電視臺(tái)是否完全履行廣告合同或是通過監(jiān)測其他廣告公司的廣告提高自身的廣 告創(chuàng)作技術(shù)。監(jiān)測機(jī)構(gòu)往往是隸屬于國家的專業(yè)管理部門,他們實(shí)時(shí)監(jiān)測廣告, 保留違法的證據(jù)與信息用以査處違反國家政策法規(guī)的公司與個(gè)人,維護(hù)社會(huì)的正 常秩序。每一天,各個(gè)電視臺(tái)都會(huì)產(chǎn)生海量的視頻數(shù)據(jù),如果對(duì)廣告的監(jiān)測、過 濾、分析等工作,完全通過人工來完成,處理一個(gè)電視臺(tái)一天的廣告數(shù)據(jù),往往 需要耗費(fèi)多名工作人員四五天的工作量,如果考慮到全國多個(gè)電臺(tái)的監(jiān)測,工作 量更是呈現(xiàn)指數(shù)級(jí)的增長。如何開發(fā)一種能夠自動(dòng)識(shí)別廣告的電視監(jiān)測系統(tǒng),分 析、監(jiān)測、濾除廣告,越來越受到了各方面的重視與關(guān)注。針對(duì)廣告視頻和普通節(jié)目視頻之間的特征區(qū)別,人們提出了很多的廣告檢索 算法。根據(jù)檢索算法基于的特征不同,比較實(shí)用的廣告監(jiān)測系統(tǒng)的檢索算法大體 上可以分成以下三類1、基于標(biāo)識(shí)的方法(Logo-based methods)此方法是最早被提出用于廣告視頻定位的方法。它主要是利用電視臺(tái)的臺(tái)標(biāo) 來進(jìn)行檢測的。電視臺(tái)在播放一般的節(jié)目時(shí)會(huì)將自己的臺(tái)標(biāo)顯示出來,而當(dāng)播放 廣告時(shí)一般就會(huì)隱去臺(tái)標(biāo),這使得我們可以通過檢索臺(tái)標(biāo)的存在與否來區(qū)分廣告 視頻和一般視頻。臺(tái)標(biāo)一般分為三種靜態(tài)臺(tái)標(biāo)、半透明臺(tái)標(biāo)和動(dòng)態(tài)臺(tái)標(biāo)。針對(duì) 不同形態(tài)的臺(tái)標(biāo),都有相應(yīng)的檢索算法,以實(shí)現(xiàn)對(duì)廣告視頻的定位。其中對(duì)于靜
態(tài)臺(tái)標(biāo)的研究是比較深入的,而且應(yīng)用得很廣泛。但是對(duì)于后兩種臺(tái)標(biāo),因?yàn)槠?自身的制作手法和演示特點(diǎn),檢測起來比較困難。所以還沒有比較成熟的檢測算 法。2、 基于規(guī)則的方法(Rule-based methods)基于規(guī)則的系統(tǒng)大多是利用廣告鏡頭信息來進(jìn)行檢測,通過多組特征和規(guī)則 區(qū)分廣告視頻與一般電視節(jié)目視頻。由于廣告視頻和普通的電視節(jié)目在某些特征 方面存在著比較明顯的差異,因此通過定義和利用這些區(qū)分性比較強(qiáng)的特征,就 可以實(shí)現(xiàn)對(duì)廣告視頻的檢測。比如在視頻方面可以通過提取一段視頻幀的平均邊 緣變化率A-ECR (Average of Edge Change Ratio )和邊緣變化方差V-ECR (Variance of Change Ratio )以及平均幀差A(yù)-FD (Average of Frame Difference) 和幀方差V-FD (Variance of Frame Difference)來實(shí)現(xiàn)檢測。在音頻方面,廣 告視頻部分的音頻內(nèi)容和普通的節(jié)目部分的音頻信息也存在一些明顯的特征,比 如音頻多維頻率普系數(shù)(Mel-frequency C印stral Coefficient)和音頻信息熵來實(shí)現(xiàn)對(duì)視頻廣告的分割檢測。不過音頻方面的特征一般都是用于輔助視頻特征檢 測方面,通過兩者的結(jié)合實(shí)現(xiàn)對(duì)廣告段更加精確的分割檢測。在近期的研究中, 很多基于規(guī)則的檢索方法中有引入了分類器算法,通過對(duì)樣本的訓(xùn)練,獲得分類 性比較好的分類器,然后對(duì)廣告鏡頭和普通節(jié)目鏡頭進(jìn)行分類,從而得到比較精 確的檢測結(jié)果。3、 基于識(shí)另ij的方法(Recognition-based methods)此方法利用視頻數(shù)據(jù)庫預(yù)先儲(chǔ)存大量的已知廣告的特征信息,采用相應(yīng)的匹 配算法計(jì)算待確定鏡頭和廣告樣本鏡頭之間的相似度,從而確定其是否為數(shù)據(jù)庫中的廣告。在實(shí)際的檢索系統(tǒng)中首先檢測出一些潛在的、可能是廣告的視頻或音 頻段,然后將其特征和廣告數(shù)據(jù)庫里面的廣告視頻段或音頻段的特征逐一進(jìn)行比 較,然后可以判斷出此部分是否為數(shù)據(jù)庫里面的廣告。但是由于廣告數(shù)據(jù)是一種非格式化、時(shí)空并存、數(shù)據(jù)量大的信息,對(duì)于它的 檢測就會(huì)涉及到很多的問題。此外由于不同的廣告視頻在制作方式和表現(xiàn)手法上 的多種多樣,使得上述三大類廣告檢測算法在對(duì)廣告視頻檢測上都存在著很多問 題。
(1)、對(duì)于基于標(biāo)識(shí)的檢測算法來說,它只是簡單的依靠臺(tái)標(biāo)的存在來判斷 廣告視頻的存在,因此首先必須能正確的檢測出臺(tái)標(biāo)。但是現(xiàn)在很多電臺(tái)在電視 節(jié)目里面插播廣告視頻的時(shí)候也往往會(huì)將臺(tái)標(biāo)顯示出來,這樣基于標(biāo)識(shí)的檢測算 法就會(huì)失效;另外,現(xiàn)在電視臺(tái)的臺(tái)標(biāo)越來越復(fù)雜,從早期的靜態(tài)臺(tái)標(biāo)演變成現(xiàn) 在的動(dòng)態(tài)的、半透明的、時(shí)隱時(shí)現(xiàn)的臺(tái)標(biāo),這些使得臺(tái)標(biāo)的檢測越來越困難。(2)、對(duì)于基于規(guī)則的方法來說,此方法需要定義多組用來區(qū)分廣告和普通 節(jié)目的特征和閾值。因此區(qū)分特征和閾值的選擇是十分重要的。但是由于廣告是 多格式化的,風(fēng)格不同的廣告之間的區(qū)別也十分明顯,因此很難找到通用的區(qū)分 特征。另外檢測系統(tǒng)可能對(duì)于某些閾值比較敏感,所以對(duì)于所有類型的視頻很難 找到一組統(tǒng)一的閾值。而且這類方法過分依賴于各國各地的法律法規(guī),剪切手段, 以及各種節(jié)目的制作風(fēng)格,不能夠形成一種通用的電視監(jiān)測系統(tǒng)。監(jiān)測的正確率 和查全率往往受到一些視覺信息或聽覺信息相類似的節(jié)目的干擾,正確率與査全 率往往不高。(3)、對(duì)于基于識(shí)別的方法來說,此方法雖然只能檢索事先已經(jīng)獲知的數(shù)據(jù) 庫中的廣告,但是這種系統(tǒng)的正確率與査全率可以達(dá)到較高的水平,能夠滿足實(shí) 用的需要,而且這種方法并不需要依靠各種廣告法規(guī)或制作技術(shù)等主觀的人為因 素,完全通過客觀信息進(jìn)行檢測,盡可能大的排除了人為因素的干擾,可以跨越 不同電視機(jī)構(gòu)平臺(tái)構(gòu)建通用的監(jiān)測系統(tǒng)。同時(shí)人們也有理由相信,在高檢出率與 正確率的前提下,可以通過融合第一第二類技術(shù)或者結(jié)合對(duì)重復(fù)音視頻探測技 術(shù),實(shí)現(xiàn)對(duì)未知的廣告探測,因此的其應(yīng)用前景十分的廣闊。在這類技術(shù)中,關(guān) 鍵的瓶頸問題在于匹配的速度與數(shù)據(jù)庫存儲(chǔ)的大小,如何在數(shù)據(jù)庫很大的情況 下,節(jié)省存儲(chǔ)空間,保持搜索速度,顯得尤為重要。發(fā)明內(nèi)容本發(fā)明正是基于第三類方法,提出一種基于分層匹配的視頻廣告識(shí)別方法, 通過局部敏感性哈希算法(Locality Sensitive Hash, LSH)和精細(xì)尺度連續(xù)過 濾算法(Fine Granularity Successive Elimination, FGSE),利用廣告的新穎的 視頻特征結(jié)合后處理技術(shù)開發(fā)出一套能夠快速檢測電視節(jié)目中是否存在數(shù)據(jù)庫 中廣告的方法。本發(fā)明的目的是通過如下技術(shù)方案實(shí)現(xiàn)的。一種基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征在于包含以下歩驟離線數(shù) 據(jù)庫建立與在線監(jiān)測,其中離線數(shù)據(jù)庫建立分為離線預(yù)處理與哈希表建立;在線監(jiān)測部分分為在線預(yù)處理、由粗糙到精細(xì)的二級(jí)匹配和后處理。所述離線預(yù)處理包括數(shù)據(jù)庫廣告鏡頭分割與特征提取,具體內(nèi)容包括對(duì)于 廣告數(shù)據(jù)庫中每一個(gè)廣告,將每一幀由RGB顏色空間轉(zhuǎn)化為灰度空間,將灰度圖像從中心區(qū)域劃分為8個(gè)64*64像素的小塊,通過計(jì)算每個(gè)小塊對(duì)應(yīng)的灰度直方圖之間的差異,乘以相應(yīng)的權(quán)值并求和,得到幀間灰度變化率,如果這個(gè)變化率 大于設(shè)定的閾值,則視為兩幀之間發(fā)生了鏡頭的切變,并記錄鏡頭變化的位置, 將每一個(gè)廣告分為 一系列的鏡頭序列;對(duì)于每一個(gè)鏡頭,取鏡頭中心位置前后各25%的視頻幀,對(duì)這些視頻幀進(jìn)行 累加平均,獲得代表鏡頭內(nèi)容的平均關(guān)鍵幀,保留關(guān)鍵幀中心160*160像素區(qū)域 的子圖像,用作特征提取,在子圖像中提取36維HSV顏色空間直方圖與64維邊 緣角度直方圖,以及邊緣角度分布圖特征,將每個(gè)圖像的顏色直方圖與邊緣角度 直方圖分別歸一化,組成100維特征向量用于建立局部敏感哈希表,同時(shí),系統(tǒng) 將存儲(chǔ)所有鏡頭的100維聯(lián)合特征以及邊緣角度分布圖特征,用于在線監(jiān)測時(shí)與 查詢特征作比較。所述離線建立哈希表包括將獲得的特征向量數(shù)組和與之對(duì)應(yīng)的廣告鏡頭名 稱和鏡頭編號(hào),用于構(gòu)造局部敏感性哈希表。設(shè)定子哈希表的個(gè)數(shù)(10個(gè))與 哈希鍵長(鍵長為20),對(duì)于每一個(gè)子哈希表產(chǎn)生過程為,根據(jù)初始設(shè)定的兩個(gè) 變量,利用隨機(jī)函數(shù)產(chǎn)生不同的哈希系數(shù),利用這些系數(shù)將特征向量映射到漢明 空間,轉(zhuǎn)化為O和1的組合序列,根據(jù)序列中的O和1的個(gè)數(shù),選擇不同的哈希 表位置,將所有產(chǎn)生的子哈希表組成局部敏感性哈希表,將特征向量與標(biāo)注信息 存入哈希表中。所述在線預(yù)處理,包括鏡頭分割與特征提取,具體內(nèi)容包括對(duì)于輸入的視頻文件,系統(tǒng)將按照與數(shù)據(jù)庫中相同的方式,進(jìn)行鏡頭分割與特征提取,獲得對(duì)應(yīng)的IOO維聯(lián)合特征與邊緣角度分布圖特征。
所述由粗糙到精細(xì)的匹配,包括在局部敏感性哈希表中査詢與精細(xì)尺度連續(xù) 過濾兩部分,具體內(nèi)容包括將獲得的一個(gè)鏡頭的聯(lián)合特征向量通過局部敏感性 哈希方法,將其映射到數(shù)據(jù)庫的IO個(gè)哈希表對(duì)應(yīng)的條目中,獲得與查詢向量最 為相近的50個(gè)候選向量及其對(duì)應(yīng)的鏡頭與邊緣分布圖,比較這50個(gè)鏡頭與査詢 鏡頭包含的幀數(shù)的差異,如果相差小于25幀,就利用精細(xì)尺度連續(xù)過濾算法 (FGSE)對(duì)二者分別對(duì)應(yīng)的邊緣角度分布圖進(jìn)行更為精細(xì)的匹配,在設(shè)定的閾值 下,如果匹配成功,即可判斷該鏡頭為數(shù)據(jù)庫中某個(gè)廣告的一部分,將數(shù)據(jù)庫中 對(duì)應(yīng)的廣告鏡頭的名稱和序號(hào)標(biāo)注到査詢鏡頭上,如果輸入的鏡頭是視頻文件中 的最后一個(gè)鏡頭,進(jìn)行后處理,否則轉(zhuǎn)否則讀入下一個(gè)視頻鏡頭。所述后處理內(nèi)容包括首先,按照標(biāo)注序列中的廣告名稱,將具有不同標(biāo)注廣告名稱的鏡頭劃分到若干個(gè)子段,對(duì)每一個(gè)子段,根據(jù)鏡頭在原始文件中的起 始位置,在時(shí)間軸上依次排列,利用標(biāo)注的廣告鏡頭序號(hào)與起始點(diǎn)之間的位置關(guān)系消除其中的漏檢與誤檢,獲得連續(xù)完整的標(biāo)注信息;經(jīng)過糾正的標(biāo)注段,如果 其播放長度大于數(shù)據(jù)庫中該廣告長度的一半,同時(shí)檢測到的鏡頭數(shù)量大于數(shù)據(jù)庫 中廣告鏡頭個(gè)數(shù)的三分之一,則認(rèn)為標(biāo)注成功,處理完所有子段后,對(duì)結(jié)果按照 時(shí)間先后順序排序,輸出。所述平均關(guān)鍵幀計(jì)算方法,包括如下步驟(1) 判斷鏡頭中包含的視頻幀的個(gè)數(shù),如果等于1,將該幀作為平均關(guān)鍵 幀,結(jié)束;否則,轉(zhuǎn)步驟(2);(2) 提取鏡頭中心位置前后各25%的視頻幀,如果提取的視頻幀數(shù)量包含小數(shù),則向上取整,其數(shù)量占鏡頭中視頻幀總數(shù)的50%;(3) 累加圖像像素的值,求平均,獲得平均關(guān)鍵幀。所述平均關(guān)鍵幀中提取64維邊緣角度直方圖特征,其步驟如下(1) 將RGB彩色圖像轉(zhuǎn)化為灰度圖像。在平均關(guān)鍵幀中,對(duì)同一幅圖像分別 從中心位置截取160*161和161*160像素的兩張子圖;(2) 將160*161像素的子圖像,按照從左到右的順序,用每一個(gè)像素減去右 方相鄰像素,得到160*160的x方向上的邊緣分布血。將161*160像素的子圖 像,按照從上到下的順序,用每一個(gè)像素減去下方相鄰像素,得到160*160的y
方向上的邊緣分布辦;(3) 計(jì)算當(dāng)血#0&&辦#0時(shí),每個(gè)像素的邊緣角度v4"g = arctan(t^/^), 得到160*160的邊緣角度分布圖。統(tǒng)計(jì)每個(gè)角度區(qū)間中像素的個(gè)數(shù);(4) 歸一化,將特征中每一維除以該特征中的最大值,得到全局邊緣角度的 分布。所述在平均關(guān)鍵幀中提取邊緣角度分布圖特征,其步驟如下(1) 將RGB彩色圖像轉(zhuǎn)化為灰度圖像。在平均關(guān)鍵幀中,對(duì)同一幅圖像分別 從中心位置截取160*161和161*160像素的兩張子圖;(2) 將160*161像素的子圖像,按照從左到右的順序,用每一個(gè)像素減去右 方相鄰像素,得到160*160的x方向上的邊緣分布血。將161*160像素的子圖 像,按照從上到下的順序,用每一個(gè)像素減去下方相鄰像素,得到160*160的y方向上的邊緣分布辦;(3) 計(jì)算當(dāng)血*0&&辦-0時(shí),每個(gè)像素的邊緣角度爿"g = arctan(辦/血), 得到160*160的邊緣角度圖;(4) 將邊緣角度圖平均分為4*4個(gè)子塊,統(tǒng)計(jì)每一幅子圖中,每個(gè)角度區(qū)間 中的像素點(diǎn)的個(gè)數(shù)。每一個(gè)子塊中的區(qū)間個(gè)數(shù)為16,區(qū)間間隔為360/16。(5) 將每個(gè)子塊中的16位一維直方圖按照4*4的順序重新排列,根據(jù)子圖 在邊緣角度分布圖中的位置,可以得到16*16維邊緣角度分布圖特征。所述將精細(xì)尺度連續(xù)過濾算法FGSE,應(yīng)用于圖像識(shí)別中。其步驟如下 (1)初始化分割的層數(shù)/ = 0,子圖像序號(hào)oWw為O,子圖像的大小M等于 圖像的大小/75^。在第O層中子圖像的個(gè)數(shù)S,為1,分割的總次數(shù)£ = "^ + 3,初始化每次分塊的大小m =";(2)計(jì)算兩個(gè)圖像中各個(gè)子圖像對(duì)應(yīng)的SR :/t=0其中a("和i f)分別對(duì)應(yīng)查詢圖像和候選圖像在第/層時(shí)對(duì)應(yīng)的第A個(gè)子圖像中各像素值的和;(3) 如果SF,大于等于閾值&4D^跳轉(zhuǎn)至(5),否則置/" + l。對(duì)圖像進(jìn)行分割,每次分割,僅對(duì)圖像中的第一個(gè)未分割的子圖像進(jìn)行分割a. 將大小為附*附的第/個(gè)子圖分割為四個(gè)大小為^*,的子圖,更新2 2S,-S,+3, oW"中第/塊及以前的塊序號(hào)保持不變,后面的序號(hào)依次加3;b. 判斷是否所有的長度為附*附的子圖像均完成了分割,如果完成,令/ = 0,附=附/2,否貝^ = / + 4指向下一個(gè)大小為附*/77的子圖像;(4) 重復(fù)(2), (3)直到最后一層L分割完成,如果5F,. <&4Dmin,則令 雄誦=W;(5)檢測是否還有未檢測的候選圖像,如果存在至(1),否則輸出是否匹配 的結(jié)果。所述后處理過程,還包括如下步驟(1) 統(tǒng)計(jì)標(biāo)注結(jié)果中的不同名稱的廣告?zhèn)€數(shù),并把具有相同廣告名稱的標(biāo)注 鏡頭放入同一子段;(2) 根據(jù)標(biāo)注鏡頭的在原視頻中起始位置的時(shí)間信息,將標(biāo)注鏡頭按照時(shí)間 順序排序,如果兩個(gè)連續(xù)鏡頭之間存在未標(biāo)注的視頻幀,則在其中補(bǔ)充一個(gè)空白 的鏡頭,其中記錄未標(biāo)注視頻幀的數(shù)量與起始位置。該步驟名稱為時(shí)間擴(kuò)充;(3)得到了時(shí)間擴(kuò)充的標(biāo)注段后,標(biāo)注的時(shí)間序號(hào)與空白鏡頭之間存在著一定關(guān)系,如果兩個(gè)相鄰的鏡頭之間的序號(hào)連續(xù),則記錄這些正確的鏡頭,如果不 連續(xù)且中間存在空白鏡頭,則計(jì)算空白鏡頭中包含的未標(biāo)注視頻幀的數(shù)量,并與標(biāo)注鏡頭間所缺失的視頻幀數(shù)量進(jìn)行比較,如果兩者差距在25幀以內(nèi),可以進(jìn) 行如下操作并記錄這些糾正后的鏡頭對(duì)于出現(xiàn)錯(cuò)誤的134、 1034、 1094、 1324、 1294、 1023、 1293分別糾正為1234、 1234、 1234、 1234、 1234、 123和123;其 中粗字體序號(hào)代表錯(cuò)誤標(biāo)注的鏡頭,o代表在時(shí)間擴(kuò)充過程中添加的空白鏡頭。如果兩個(gè)鏡頭之間沒有必然的聯(lián)系,則認(rèn)為其間存在錯(cuò)誤,放棄記錄;直到這個(gè) 標(biāo)注段中所有鏡頭檢測完畢為止;(4) 根據(jù)數(shù)據(jù)庫中廣告的時(shí)間長度,判斷該文件中可能存在的廣告?zhèn)€數(shù),廣 告?zhèn)€數(shù)為識(shí)別到的視頻幀數(shù)量與數(shù)據(jù)庫的對(duì)應(yīng)廣告的視頻幀數(shù)量之比,并向上取 整;根據(jù)獲得的廣告?zhèn)€數(shù),系統(tǒng)將標(biāo)注序列進(jìn)一步分割為幾個(gè)子序列,分別與閾 值進(jìn)行比較,判斷廣告是否存在;本系統(tǒng)中包含兩個(gè)閾值,分別為數(shù)據(jù)庫中廣告 所包含的視頻幀數(shù)量的二分之一與鏡頭個(gè)數(shù)的三分之一;(5) 判斷是否所有不同廣告名稱的序列都己經(jīng)被檢測,檢測未完轉(zhuǎn)(2),檢 測完成轉(zhuǎn)(6)。(6)根據(jù)時(shí)間順序?qū)@得結(jié)果排列,輸出。本發(fā)明的效果是與現(xiàn)有的廣告監(jiān)測技術(shù)相比,本發(fā)明通過一種對(duì)廣告視頻 進(jìn)行優(yōu)化的鏡頭分割算法,將視頻分割為一組鏡頭序列,利用鏡頭中的一組幀提 取特征,消除關(guān)鍵幀選取的影響,對(duì)提取的特征通過在局部敏感性哈希表中的檢 索,獲得與檢索特征相似的候選特征向量,并利用一種快速的特征匹配算法—— 精細(xì)尺度連續(xù)過濾技術(shù),在本系統(tǒng)提出的邊緣角度分布圖之間進(jìn)一歩匹配獲得精 確的標(biāo)注結(jié)果,在系統(tǒng)最后通過后處理模塊對(duì)標(biāo)注信息進(jìn)行校正。和以往廣告監(jiān) 測系統(tǒng)不同的是,本發(fā)明以一種魯棒的廣告識(shí)別技術(shù),通過一個(gè)由粗糙到精細(xì)的 匹配過程逐漸濾除差異很大的候選特征,通過有效的后處理模塊,獲得最后的結(jié) 果。本系統(tǒng)的優(yōu)點(diǎn)是只需要很低的CPU負(fù)荷,就可以計(jì)算輸入視頻的特征,通過 兩層篩選過程有效的減少匹配次數(shù),利用后處理進(jìn)一步提高檢測的正確率與查全 率,并且通過對(duì)數(shù)據(jù)庫構(gòu)造局部敏感性哈希表,大大減少所需要的存儲(chǔ)空間。具 體來說,用戶輸入系統(tǒng)一段視頻,系統(tǒng)自動(dòng)將這段視頻分割為若干個(gè)鏡頭,在鏡 頭中,利用中間50%的視頻幀,提取36維HSV顏色空間直方圖與64維邊緣角度 直方圖,組成100維特征,在局部敏感性哈希表的映射空間中,查找與之最為相 近的《個(gè)特征向量的位置。同時(shí)在鏡頭中,提取16*16的邊緣角度分布圖特征, 査詢鏡頭將與這些候選鏡頭利用邊緣角度分布圖在精細(xì)尺度連續(xù)過濾模塊中進(jìn) 行比較,快速輸出在規(guī)定閾值下與査詢鏡頭最為近似的結(jié)果。在所有鏡頭的匹配
進(jìn)行完成后,利用后處理技術(shù)判斷標(biāo)注的內(nèi)容是否可以組成一個(gè)相對(duì)完整的廣告為了驗(yàn)證本發(fā)明的有效性和優(yōu)點(diǎn),使用本發(fā)明對(duì)其識(shí)別的性能與魯棒性進(jìn)行 了測試。我們從北京、安徽、四川等多個(gè)電視臺(tái)錄制了一定量的電視數(shù)據(jù),存儲(chǔ) 為240*320, 25fps的avi文件。從中手工挑選了 170個(gè)左右,長度從5秒至120 秒不等的廣告,建立廣告數(shù)據(jù)庫,數(shù)據(jù)庫的存儲(chǔ)空間大約在635MB左右。我們利 用時(shí)間總長度近4小時(shí)的視頻,作為測試文件,對(duì)系統(tǒng)的性能進(jìn)行測試,要特別 說明的是,測試文件中包含近l個(gè)小時(shí)的廣告,這些廣告并不簡單的是數(shù)據(jù)庫中 廣告的拷貝,其中的20%是在不同時(shí)間或不同頻道中錄制下來的,與數(shù)據(jù)庫中顏 色或邊緣特征存在著差異。與其它系統(tǒng)相比,我們所設(shè)計(jì)的廣告識(shí)別方案在大大 減輕計(jì)算機(jī)與處理復(fù)雜度的情況下,取得了優(yōu)異的識(shí)別性能,正確率與査全率均 達(dá)到了 100%,通過數(shù)據(jù)庫建立的哈希表與特征向量組所占用的存儲(chǔ)空間僅為 2MB,節(jié)約了99.9%以上的數(shù)據(jù)存儲(chǔ)空間。如附圖5所示,我們進(jìn)行了 FGSE閾值 對(duì)系統(tǒng)識(shí)別性能影響的實(shí)驗(yàn),其中黑色曲線代表正確率,灰色代表查全率。通過 附圖我們可以觀察到,隨著FGSE閾值的不斷加大,系統(tǒng)性能在閾值為4800時(shí), 達(dá)到最優(yōu);伴隨著閾值增大,誤檢的廣告?zhèn)€數(shù)增多,系統(tǒng)性能緩慢下降。如附圖 6所示,我們對(duì)系統(tǒng)的特征選取進(jìn)行了測試,其中黑色曲線代表了本系統(tǒng)中所采 用的顏色加邊緣構(gòu)造局部敏感哈希表的方法,淺灰色曲線代表單純使用顏色構(gòu)建 哈希表的方法,灰色代表單純使用邊緣構(gòu)造的方法。通過實(shí)驗(yàn)我們觀察到,邊緣 特征比顏色特征具有更強(qiáng)的表達(dá)能力。在融合兩種特征以后,我們的系統(tǒng)在査全 率方面有顯著的提高,而在正確率方面,由于小閾值可以為系統(tǒng)帶來更高的執(zhí)行 效率,通過觀察實(shí)驗(yàn)結(jié)果,可以看到,融合的方法在閾值很較小時(shí)具有優(yōu)異的效 果。我們同樣對(duì)邊緣角度分布圖的性能進(jìn)行了測試,如附圖7所示,其中黑色曲 線代表本系統(tǒng)所采用的邊緣角度分布圖的正確率與查全率,灰色曲線代表使用邊 緣角度直方圖作為FGSE匹配特征時(shí)系統(tǒng)的性能,通過實(shí)驗(yàn),我們可以看到由于考慮了圖像的空間信息,邊緣角度分布圖比一維邊緣特征具有更好的效果。附圖 8是對(duì)系統(tǒng)建立顏色邊緣聯(lián)合哈希表和獨(dú)立建立顏色哈希表、邊緣哈希表方法之 間的對(duì)比。我們可以看到,采用聯(lián)合建立哈希表的方法,在閾值很小的情況下可 以得到更好的性能。同時(shí)我們對(duì)于本系統(tǒng)標(biāo)注廣告的起始點(diǎn)位置與真實(shí)的位置之
間的差距進(jìn)行了統(tǒng)計(jì),經(jīng)過本系統(tǒng)標(biāo)注,起始點(diǎn)與真實(shí)情況完全一致的廣告?zhèn)€數(shù)在86. 55%左右,與實(shí)際位置差異在0. 4s以內(nèi)的廣告?zhèn)€數(shù)占總體的在96. 7%以上,相差ls以內(nèi)的廣告?zhèn)€數(shù)的比例則達(dá)到了 99%以上。 邊界點(diǎn)D位置起點(diǎn)(個(gè)) 起點(diǎn)(百分比) 終點(diǎn)(個(gè)) 終點(diǎn)(百分比)D=0.0s 202 93.5 172 79.60.0s<D<=0.1s 7 3.2 23 10.60.1s<D<=0.2s 3 1.4 10 4.60.2s<D<=0.4s 1 0.5 4 1.90.4s<D<=1.0s 2 0.9 6 2.8D>1.0s 1 0.5 1 0.5216 100 216 100
圖1本發(fā)明的工作流程框圖;圖2局部敏感性哈希算法方案框圖;圖3精細(xì)尺度連續(xù)過濾技術(shù)濾除過程示意圖;圖4后處理方案框圖;圖5本系統(tǒng)隨閾值變化的整體性能實(shí)驗(yàn)圖; 圖6選取不同特征構(gòu)造哈希表時(shí)的系統(tǒng)性能實(shí)驗(yàn)圖; 圖7選取不同特征進(jìn)行FGSE匹配時(shí)的系統(tǒng)性能實(shí)驗(yàn)圖; 圖8利用不同方法構(gòu)造哈希表時(shí)的系統(tǒng)性能實(shí)驗(yàn)圖; 圖9本系統(tǒng)識(shí)別結(jié)果圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步的描述。根據(jù)以上介紹的技術(shù)方案,我們可以很容易將本發(fā)明應(yīng)用于廣告監(jiān)測中,為 用戶提供精確的廣告識(shí)別服務(wù)。結(jié)合附圖,我們對(duì)本發(fā)明的具體實(shí)施方式
作詳細(xì) 闡述。1、廣告鏡頭分割在本發(fā)明中,由于視頻分割的目的并不是將視頻分為語義單元,而是希望通 過將相似的視頻幀進(jìn)行聚類,減少計(jì)算復(fù)雜度。本系統(tǒng)使用經(jīng)過優(yōu)化的單閾值突
變鏡頭分割方法。其操作過程如下(1) 按幀的格式讀取輸入的視頻文件,將讀入的每一幀由RGB空間轉(zhuǎn)化為灰度空間,剪切圖像,僅保留圖像中心位置8個(gè)64*64的小塊。(2) 計(jì)算連續(xù)的兩幀之間所有對(duì)應(yīng)的64*64小塊的灰度直方圖,并計(jì)算其 差值。對(duì)于位于圖像中心處的4個(gè)小塊的差值乘以0.6的權(quán)重,其他的小塊乘以 0.4的權(quán)重,求和。得到兩幀之間的直方圖之差。(3) 將差值與設(shè)定的閾值進(jìn)行比較,如果大于閾值,證明該位置為切變發(fā) 生位置。記錄該位置。(4) 轉(zhuǎn)(2),繼續(xù)比較視頻中剩余的連續(xù)幀之間直方圖的差值,直到所有 幀之間比較完成。2、 平均關(guān)鍵幀提取方法為了避免關(guān)鍵幀選取的差異給識(shí)別系統(tǒng)帶來影響,本系統(tǒng)采取利用平均關(guān)鍵 幀的方法,表達(dá)鏡頭的內(nèi)容。本系統(tǒng)中使用鏡頭中心位置向前25%和向后25%的 視頻幀構(gòu)造平均關(guān)鍵幀(1) 判斷鏡頭中包含的視頻幀的個(gè)數(shù),如果等于1,將該幀作為平均關(guān)鍵幀, 結(jié)束。否則,轉(zhuǎn)(2)(2) 提取鏡頭中心位置前后各25%的視頻幀(如果提取的視頻幀數(shù)量包含小 數(shù),則向上取整),其數(shù)量占鏡頭中視頻幀總數(shù)的50%。(3) 累加圖像像素的值,求平均,獲得平均關(guān)鍵幀。3、 邊緣角度直方圖提取考慮到不同電視臺(tái)在播放相同廣告時(shí)會(huì)在其中加入一些滾動(dòng)字幕或數(shù)字時(shí) 鐘,我們僅提取平均關(guān)鍵幀中心位置的160*161和161*160像素的區(qū)域作為子圖 像,提取特征。64維邊緣角度直方圖提取過程如下(1) 將RGB彩色圖像轉(zhuǎn)化為灰度圖像。在平均關(guān)鍵幀中,對(duì)同一幅圖像分別 從中心位置截取160*161和161*160像素的兩張子圖。(2) 將160*161像素的子圖像,按照從左到右的順序,用每一個(gè)像素減去右
方相鄰像素,得到160*160的x方向上的邊緣分布血。將161*160像素的子圖 像,按照從上到下的順序,用每一個(gè)像素減去下方相鄰像素,得到160*160的y方向上的邊緣分布辦。(3) 計(jì)算當(dāng)血#0&&辦#0時(shí),每個(gè)像素的邊緣角度^"g = arctan(辦/血)。統(tǒng)計(jì)每個(gè)角度區(qū)間中像素的個(gè)數(shù),本系統(tǒng)采用的為64維特征,故區(qū)間的間隔為 360/64。(4) 歸一化,將特征中每一維除以該特征中的最大值,得到全局邊緣角度的 分布。 '4、特征合并本系統(tǒng)采用36維HSV顏色直方圖與64維邊緣角度直方圖作為在局部敏感哈 希算法的輸入向量,在平均關(guān)鍵幀中心位置的160*160像素的區(qū)域作為子圖像, 提取歸一化的36維HSV顏色直方圖特征。將兩個(gè)經(jīng)過歸一化的特征按順序拼接 成100維聯(lián)合特征,并將其擴(kuò)大10000倍,以便在局部敏感哈希算法中得到更好 的效果。5、邊緣角度分布圖的提取-(1) 將RGB彩色圖像轉(zhuǎn)化為灰度圖像。在平均關(guān)鍵幀中,對(duì)同一幅圖像分別 從中心位置截取160*161和161*160像素的兩張子圖。(2) 將160*161像素的子圖像,按照從左到右的順序,用每一個(gè)像素減去右 方相鄰像素,得到160*160的x方向上的邊緣分布血。將161*160像素的子圖 像,按照從上到下的順序,用每一個(gè)像素減去下方相鄰像素,得到160*160的y 方向上的邊緣分布辦。(3) 計(jì)算當(dāng)血*0&&辦#0時(shí),每個(gè)像素的邊緣角度爿"g = arctan(辦/血), 得到160*160的邊緣角度圖。(4) 將邊緣角度圖平均分為4*4個(gè)子塊,統(tǒng)計(jì)每一幅子圖中,每個(gè)角度區(qū)間 中的像素點(diǎn)的個(gè)數(shù)。每一個(gè)子塊中的區(qū)間個(gè)數(shù)為16,區(qū)間間隔為360/16。
(5)將每個(gè)子塊中的16位一維直方圖按照4*4的順序重新排列,根據(jù)子圖 在邊緣角度分布圖中的位置,可以得到16*16維邊緣角度分布圖特征。6、局部敏感性哈希算法在高維特征空間中,由于"維數(shù)災(zāi)難"的原因,對(duì)于一個(gè)查詢,尋找一個(gè)精 確的匹配往往需要耗費(fèi)大量的計(jì)算,直接影響了索引的速度。局部敏感性哈希算 法提供了一種快速的近似性返回機(jī)制,而且索引速度不會(huì)因?yàn)榫S數(shù)的增長發(fā)生過 多的惡化。局部敏感性哈希算法的主要思路是使用不同的局部敏感性哈希函數(shù), 根據(jù)特征之間的相似性,將特征映射到多個(gè)哈希表的不同條目中去。這些哈希表 組成構(gòu)成一個(gè)局部敏感性哈希表。如果兩個(gè)特征被分到一個(gè)條目中的概率越大, 就說明這兩個(gè)特征向量越接近。假設(shè)查詢向量為a,,局部敏感性哈希函數(shù)可以將該特征向量通過第z'個(gè)哈希 表的哈希函數(shù)/r,0,映射到條目化(OJ中。假設(shè)若干個(gè)哈希函數(shù)A,G構(gòu)成了局部 敏感性哈希函數(shù)族//,對(duì)于查詢向量0^與數(shù)據(jù)庫中向量i 在距離測度/下,可以得到局部敏感性哈希的基本數(shù)學(xué)思想if |2-4",if 11^-4 "2, c( P2.其中。,r2, A和^為常數(shù),且^>; 2, ^<r2。對(duì)于函數(shù)族/Z它保證了 在一定距離測度下,向量^和i 的距離小于一定的閾值時(shí),其落入同一條目的概 率大于A。在本系統(tǒng)中,使用的距離測度為歐式距離,那么兩個(gè)向量之間的相似度度量方法為tl2(0-^W。對(duì)于査詢向量2映射到第/個(gè)哈希表的條目^(oJ中,其中有相似的特征向量&,我們將所有哈希表對(duì)應(yīng)條目中的所有相 似特征向量集合在一起,選出最相近的《個(gè)候選特征向量。建立局部敏感性哈希表的操作過程如下(1) 獲得數(shù)據(jù)庫的特征向量組,將特征向量數(shù)組的各個(gè)特征值整數(shù)化,初始 化局部敏感性哈希表中包含的哈希表的個(gè)數(shù),/ = 10,哈希主鍵(Hash Key)的長 度,M = 20,以及特征向量數(shù)組中的最大值C。(2) 將每一個(gè)特征向量; , =(;^,...,1,。。)映射到漢明空間中,其中 C *100 ,映射為f/""ov.(;c,),…,t/"flOV.(x咖)'其中f/"fl7^.(x )表示對(duì)于特征向量中將每一維的特征值x映射為;c個(gè)1與C-;c個(gè)0的序列組合。(3) 對(duì)于/ = 1,...,/,將映射后的每一個(gè)特征向量通過哈希表7:的哈希函數(shù)g,O,根據(jù)M的值映射到對(duì)應(yīng)的條目中存儲(chǔ),構(gòu)建哈希表。在LSH哈希表中查詢近似向量的過程,如附圖2所示(1) 設(shè)定返回的相似向量的個(gè)數(shù)《,本系統(tǒng)設(shè)置為50。設(shè)置相似向量的緩(2) 對(duì)于輸入的查詢向量《,映射到漢明空間《'。(3) 進(jìn)入每一個(gè)哈希表7;, / = 1,...,/。利用各個(gè)哈希表的哈希函數(shù)g,(.)將《' 映射到哈希表的條目中,將條目中的向量存入S仨Su^ /"g,(《)o/7;}。(4) 在向量緩沖區(qū)S中使用最近鄰線性搜索算法,尋找50個(gè)最相近的向量 并返回這些向量。7、精細(xì)尺度連續(xù)過濾技術(shù)算法精細(xì)尺度連續(xù)過濾技術(shù)應(yīng)用于視頻壓縮中,宏塊間尋找最優(yōu)的運(yùn)動(dòng)向量,本 系統(tǒng)將該技術(shù)改進(jìn)后用于快速的模式匹配過程。假設(shè)2和i 分別表示査詢與候選 的邊緣角度分布圖,兩個(gè)圖像相互之間每 一 像素的差值和為<formula>formula see original document page 21</formula>用a和A表示兩個(gè)邊緣角度分布圖各像素之和,根據(jù)不等式I" + Z^I"I + H,可以得到|0?!猧 。l^&4"。其中:,=0 / = 0 ,=0 /=0假設(shè)&4D,,為閾值,如果出現(xiàn)lg。-&4Z)mm,就可以從這一等級(jí)判斷兩個(gè)邊緣圖是不匹配的。通過對(duì)圖像進(jìn)行不斷的分塊,并且計(jì)算所有子塊差值的和,在 不同的分段層次/和/ + 1時(shí),差值和有如下關(guān)系i=l;i |+'s!:'|aio因?yàn)椋?"0 /:=w+4m + 3所以SF,SSF,+,可以看到在不斷的細(xì)分過程中,差值和Br是不斷的增大,如果SF, 2&4D,,就可以濾除這些不匹配的邊緣角度分布圖。只有最優(yōu)匹配的圖像,可以細(xì)分到圖像的像素水平,并且保證5F〈&4D目。圖3給出了本方案的濾除原理圖以及分塊示例過程(1)初始化分割的層數(shù)/ = 0,子圖像序號(hào)oWw為O,子圖像的大小M等于 圖像的大小"*"。在第O層中子圖像的個(gè)數(shù)S,為1,分割的總次數(shù)丄="*" + 3, 初始化每次分塊的大小m = w 。(2)計(jì)算兩個(gè)圖像中各個(gè)子圖像對(duì)應(yīng)的SR :其中込")和i^)分別對(duì)應(yīng)查詢圖像和數(shù)據(jù)庫圖像在第/層時(shí)對(duì)應(yīng)的第A個(gè)子 圖像中各像素值的和。(3) 如果^^大于等于閾值&4化 跳轉(zhuǎn)至(5),否則置/ = / + 1。對(duì)圖像進(jìn)行分 割。每次分割,僅對(duì)圖像中的第一個(gè)未分割的子圖像進(jìn)行分割a.將大小為/ *附的第/個(gè)子圖分割為四個(gè)大小為^*^的子圖,更新2 2&=S,+3, oWw中第/塊及以前的塊序號(hào)保持不變,后面的序號(hào)依次加3。b.判斷是否所有的長度為附*附的子圖像均完成了分割,如果完成,令 〖=0, w = w/2,否則/ = / + 4指向下一個(gè)大小為附*附的子圖像。(4) 重復(fù)(2), (3)直到最后一層L分割完成,如果SJ^ <&4Dmin,則令 雄腿=巧。(5)檢測是否還有未檢測的候選圖像,如果存在至(1),否則輸出是否匹配 的結(jié)果。7、后處理實(shí)施方案圖4給出了本方案操作過程(1) 統(tǒng)計(jì)標(biāo)注結(jié)果中的不同名稱的廣告?zhèn)€數(shù),并把具有相同廣告名稱的標(biāo)注 鏡頭放入同一子段。(2) 根據(jù)標(biāo)注鏡頭的在原視頻中起始位置的時(shí)間信息,將標(biāo)注鏡頭按照時(shí)間 順序排序,如果兩個(gè)連續(xù)鏡頭之間存在未標(biāo)注的視頻幀,則在其中補(bǔ)充一個(gè)空白 的鏡頭,其中記錄未標(biāo)注視頻幀的數(shù)量與起始位置。該步驟名稱為時(shí)間擴(kuò)充。(3) 得到了時(shí)間擴(kuò)充的標(biāo)注段后,標(biāo)注的時(shí)間序號(hào)與空白鏡頭之間存在一定 關(guān)系,如果兩個(gè)相鄰的鏡頭之間的序號(hào)連續(xù),我們記錄這些正確的鏡頭,如果不 連續(xù)且中間存在空白鏡頭,我們計(jì)算空白鏡頭中包含的未標(biāo)注視頻幀的數(shù)量,并 與標(biāo)注鏡頭間所缺失的視頻幀數(shù)量進(jìn)行比較,如果兩者差距在25幀以內(nèi),可以 進(jìn)行如下操作并記錄這些糾正后的鏡頭錯(cuò)誤情況漏檢漏檢漏檢 交叉錯(cuò)誤誤檢糾正前的序號(hào)排列
誤檢 1 02 3 1 2 3誤檢r 1 2 9 3 1 2 3其中粗體字序號(hào)代表錯(cuò)誤標(biāo)注的鏡頭,O代表在時(shí)間擴(kuò)充過程中添加的空白 鏡頭。如果兩個(gè)鏡頭之間沒有必然的聯(lián)系,則認(rèn)為其間存在錯(cuò)誤,放棄記錄。直 到這個(gè)標(biāo)注段中所有鏡頭檢測完畢為止。(4) 根據(jù)數(shù)據(jù)庫中廣告的時(shí)間長度,判斷該文件中可能存在的廣告?zhèn)€數(shù),廣 告?zhèn)€數(shù)為識(shí)別到的視頻幀數(shù)量與數(shù)據(jù)庫的對(duì)應(yīng)廣告的視頻幀數(shù)量之比,并向上取 整。根據(jù)獲得的廣告?zhèn)€數(shù),系統(tǒng)將標(biāo)注序列進(jìn)一步分割為幾個(gè)子序列,分別與閾 值進(jìn)行比較,判斷廣告是否存在。本系統(tǒng)中包含兩個(gè)閾值,分別為數(shù)據(jù)庫中廣告 所包含的視頻幀數(shù)量的二分之一與鏡頭個(gè)數(shù)的三分之一。(5) 判斷是否所有不同廣告名稱的序列都已經(jīng)被檢測,檢測未完轉(zhuǎn)(2),檢 測完成轉(zhuǎn)(6)。(6) 根據(jù)時(shí)間順序?qū)@得結(jié)果排列,輸出。
權(quán)利要求
1、一種基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征在于包含以下步驟離線數(shù)據(jù)庫建立與在線監(jiān)測,其中離線數(shù)據(jù)庫建立分為離線預(yù)處理與哈希表建立;在線處理部分分為在線預(yù)處理、由粗糙到精細(xì)的二級(jí)匹配和后處理。
2、 根據(jù)權(quán)利要求1所述的基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征在于 所述離線預(yù)處理包括數(shù)據(jù)庫廣告鏡頭分割與特征提取,具體內(nèi)容包括對(duì)于廣告 數(shù)據(jù)庫中每一個(gè)廣告,將每一幀由RGB顏色空間轉(zhuǎn)化為灰度空間,將灰度圖像從中心區(qū)域劃分為8個(gè)64*64像素的小塊,通過計(jì)算每個(gè)小塊對(duì)應(yīng)的灰度直方圖之 間的差異,乘以相應(yīng)的權(quán)值并求和,得到幀間灰度變化率,如果這個(gè)變化率大于 設(shè)定的閾值,則視為兩幀之間發(fā)生了鏡頭的切變,并記錄鏡頭變化的位置,將每 一個(gè)廣告分為一系列的鏡頭序列;對(duì)于每一個(gè)鏡頭,取鏡頭中心位置前后各25%的視頻幀,對(duì)這些視頻幀進(jìn)行 累加平均,獲得代表鏡頭內(nèi)容的平均關(guān)鍵幀,保留關(guān)鍵幀中心160*160像素區(qū)域 的子圖像,用作特征提取,在子圖像中提取36維HSV顏色空間直方圖與64維邊 緣角度直方圖,以及邊緣角度分布圖特征,將每個(gè)圖像的顏色直方圖與邊緣角度 直方圖分別歸一化,組成100維特征向量用于建立局部敏感哈希表,同時(shí),系統(tǒng) 將存儲(chǔ)所有鏡頭的100維聯(lián)合特征以及邊緣角度分布圖特征,用于在線監(jiān)測時(shí)與 査詢特征作比較。
3、 根據(jù)權(quán)利要求1或2所述的基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征 在于所述離線建立哈希表包括將獲得的特征向量數(shù)組和與之對(duì)應(yīng)的廣告鏡頭名 稱和鏡頭編號(hào),用于構(gòu)造局部敏感性哈希表。設(shè)定子哈希表的個(gè)數(shù)與哈希鍵長, 對(duì)于每一個(gè)子哈希表產(chǎn)生過程為,根據(jù)初始設(shè)定的兩個(gè)變量,利用隨機(jī)函數(shù)產(chǎn)生 不同的哈希系數(shù),利用這些系數(shù)將特征向量映射到漢明空間,轉(zhuǎn)化為0和1的組 合序列,根據(jù)序列中的0和1的個(gè)數(shù),選擇不同的哈希表位置,將所有產(chǎn)生的子 哈希表組成局部敏感性哈希表,將特征向量與標(biāo)注信息存入哈希表中。
4、 根據(jù)權(quán)利要求1所述的基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征在于 所述在線預(yù)處理,包括鏡頭分割與特征提取,具體內(nèi)容包括對(duì)于輸入的視頻文 件,系統(tǒng)將按照與數(shù)據(jù)庫中相同的方式,進(jìn)行鏡頭分割與特征提取,獲得對(duì)應(yīng)的 100維聯(lián)合特征與邊緣角度分布圖特征。
5、 根據(jù)權(quán)利要求1所述的基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征在于 所述由粗糙到精細(xì)的匹配,包括在局部敏感性哈希表中査詢與精細(xì)尺度連續(xù)過濾 兩部分,具體內(nèi)容包括將獲得的一個(gè)鏡頭的聯(lián)合特征向量通過局部敏感性哈希方法,將其映射到數(shù)據(jù)庫的io個(gè)哈希表對(duì)應(yīng)的條目中,獲得與查詢向量最為相近的50個(gè)候選向量及其對(duì)應(yīng)的鏡頭與邊緣分布圖,比較這50個(gè)鏡頭與査詢鏡頭 包含的幀數(shù)的差異,如果相差小于25幀,就利用精細(xì)尺度連續(xù)過濾算法(FGSE) 對(duì)二者分別對(duì)應(yīng)的邊緣角度分布圖進(jìn)行更為精細(xì)的匹配,在設(shè)定的閾值下,如果 匹配成功,即可判斷該鏡頭為數(shù)據(jù)庫中某個(gè)廣告的一部分,將數(shù)據(jù)庫中對(duì)應(yīng)的廣 告鏡頭的名稱和序號(hào)標(biāo)注到査詢鏡頭上,如果輸入的鏡頭是視頻文件中的最后一 個(gè)鏡頭,進(jìn)行后處理,否則讀入下一個(gè)視頻鏡頭。
6、 根據(jù)權(quán)利要求1所述的基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征在于 所述后處理內(nèi)容包括首先,按照標(biāo)注序列中的廣告名稱,將具有不同標(biāo)注廣告名稱的鏡頭劃分到若干個(gè)子段,對(duì)每一個(gè)子段,根據(jù)鏡頭在原始文件中的起始位 置,在時(shí)間軸上依次排列,利用標(biāo)注的廣告鏡頭序號(hào)與起始點(diǎn)之間的位置關(guān)系消除其中的漏檢與誤檢,獲得連續(xù)完整的標(biāo)注信息;經(jīng)過糾正的標(biāo)注段,如果其播 放長度大于數(shù)據(jù)庫中該廣告長度的一半,同時(shí)檢測到的鏡頭數(shù)量大于數(shù)據(jù)庫中廣 告鏡頭個(gè)數(shù)的三分之一,則認(rèn)為標(biāo)注成功,處理完所有子段后,對(duì)結(jié)果按照時(shí)間 先后順序排序,輸出。
7、 根據(jù)權(quán)利要求2所述的基于分層匹配的視頻廣告識(shí)別方法,其特征在于 所述平均關(guān)鍵幀計(jì)算方法,包括如下步驟(1) 判斷鏡頭中包含的視頻幀的個(gè)數(shù),如果等于1,將該幀作為平均關(guān)鍵 幀,結(jié)束;否則,轉(zhuǎn)步驟(2);(2) 提取鏡頭中心位置前后各25%的視頻幀,如果提取的視頻幀數(shù)量包含小數(shù),則向上取整,其數(shù)量占鏡頭中視頻幀總數(shù)的50%;(3) 累加圖像像素的值,求平均,獲得平均關(guān)鍵幀。
8、 根據(jù)權(quán)利要求2所述的基于分層匹配的視頻廣告識(shí)別方法,其特征在于 所述平均關(guān)鍵幀中提取64維邊緣角度直方圖特征,其步驟如下(1) 將RGB彩色圖像轉(zhuǎn)化為灰度圖像。在平均關(guān)鍵幀中,對(duì)同一幅圖像分別從中心位置截取160*161和161*160像素的兩張子圖;(2) 將160*161像素的子圖像,按照從左到右的順序,用每一個(gè)像素減去右 方相鄰像素,得到160*160的x方向上的邊緣分布血。將161*160像素的子圖 像,按照從上到下的順序,用每一個(gè)像素減去下方相鄰像素,得到160*160的y方向上的邊緣分布辦;(3) 計(jì)算當(dāng)�&&辦#0時(shí),每個(gè)像素的邊緣角度v4"g:arctan(辦/血), 得到160*160的邊緣角度分布圖。統(tǒng)計(jì)每個(gè)角度區(qū)間中像素的個(gè)數(shù);(4) 歸一化,將特征中每一維除以該特征中的最大值,得到全局邊緣角度的 分布。
9、根據(jù)權(quán)利要求2所述的基于分層匹配的視頻廣告識(shí)別方法,其特征在于 所述在平均關(guān)鍵幀中提取邊緣角度分布圖特征,其步驟如下(1) 將RGB彩色圖像轉(zhuǎn)化為灰度圖像。在平均關(guān)鍵幀中,對(duì)同一幅圖像分別 從中心位置截取160*161和161*160像素的兩張子圖;(2) 將160*161像素的子圖像,按照從左到右的順序,用每一個(gè)像素減去右 方相鄰像素,得到160*160的x方向上的邊緣分布血。將161*160像素的子圖 像,按照從上到下的順序,用每一個(gè)像素減去下方相鄰像素,得到160*160的y方向上的邊緣分布辦;(3) 計(jì)算當(dāng)血#0&&辦#0時(shí),每個(gè)像素的邊緣角度乂"g = arctan(辦/血), 得到160*160的邊緣角度圖;(4) 將邊緣角度圖平均分為4*4個(gè)子塊,統(tǒng)計(jì)每一幅子圖中,每個(gè)角度區(qū)間 中的像素點(diǎn)的個(gè)數(shù)。每一個(gè)子塊中的區(qū)間個(gè)數(shù)為16,區(qū)間間隔為360/16;(5) 將每個(gè)子塊中的16位一維直方圖按照4*4的順序重新排列,根據(jù)子圖 在邊緣角度分布圖中的位置,可以得到16*16維邊緣角度分布圖特征。
10、 根據(jù)權(quán)利要求1所述的基于分層匹配的視頻廣告識(shí)別方法,其特征在于 所述將精細(xì)尺度連續(xù)過濾算法FGSE,應(yīng)用于圖像識(shí)別中。其步驟如下(1)初始化分割的層數(shù)/ = 0,子圖像序號(hào)o^^為0,子圖像的大小M等于 圖像的大小"*"。在第O層中子圖像的個(gè)數(shù)S,為1,分割的總次數(shù)£ = *" + 3, 初始化每次分塊的大小m = w ;(2)計(jì)算兩個(gè)圖像中各個(gè)子圖像對(duì)應(yīng)的SF,:其中2"和i "分別對(duì)應(yīng)查詢圖像和候選圖像在第/層時(shí)對(duì)應(yīng)的第/t個(gè)子圖像中各像素值的和;(3) 如果SF,大于等于閾值5L4D^跳轉(zhuǎn)至(5),否則置/d + l。對(duì)圖像進(jìn)行分割,每次分割,僅對(duì)圖像中的第一個(gè)未分割的子圖像進(jìn)行分割-a. 將大小為附*附的第/個(gè)子圖分割為四個(gè)大小為^*^的子圖,更新2 2S,=S/+3, oW^中第/塊及以前的塊序號(hào)保持不變,后面的序號(hào)依次加3;b. 判斷是否所有的長度為附* 7的子圖像均完成了分割,如果完成,令/ = 0, m = w/2,否貝^' = / + 4指向下一個(gè)大小為附*/ 的子圖像;(4) 重復(fù)(2), (3)直到最后一層L分割完成,如果5^<&4/\,,、,則令雄隨=W;(5)檢測是否還有未檢測的候選圖像,如果存在至(1),否則輸出是否匹配 的結(jié)果。
11、 根據(jù)權(quán)利要求6所述的一種基于分層匹配的視頻廣告識(shí)別系統(tǒng),其特征 在于所述后處理過程,還包括如下步驟(1) 統(tǒng)計(jì)標(biāo)注結(jié)果中的不同名稱的廣告?zhèn)€數(shù),并把具有相同廣告名稱的標(biāo)注 鏡頭放入同一子段;(2) 根據(jù)標(biāo)注鏡頭的在原視頻中起始位置的時(shí)間信息,將標(biāo)注鏡頭按照時(shí)間 順序排序,如果兩個(gè)連續(xù)鏡頭之間存在未標(biāo)注的視頻幀,則在其中補(bǔ)充一個(gè)空白的鏡頭,其中記錄未標(biāo)注視頻幀的數(shù)量與起始位置。該步驟名稱為時(shí)間擴(kuò)充;(3)得到了時(shí)間擴(kuò)充的標(biāo)注段后,標(biāo)注的時(shí)間序號(hào)與空白鏡頭之間存在著一 定關(guān)系,如果兩個(gè)相鄰的鏡頭之間的序號(hào)連續(xù),則記錄這些正確的鏡頭,如果不 連續(xù)且中間存在空白鏡頭,則計(jì)算空白鏡頭中包含的未標(biāo)注視頻幀的數(shù)量,并與 標(biāo)注鏡頭間所缺失的視頻幀數(shù)量進(jìn)行比較,如果兩者差距在25幀以內(nèi),可以進(jìn) 行如下操作并記錄這些糾正后的鏡頭對(duì)于出現(xiàn)錯(cuò)誤的134、 1034、 1094、 1324、 1294、 1023、 1293分別糾正為1234、 1234、 1234、 1234、 1234、 123和123;其 中粗字體序號(hào)代表錯(cuò)誤標(biāo)注的鏡頭,O代表在時(shí)間擴(kuò)充過程中添加的空白鏡頭。 如果兩個(gè)鏡頭之間沒有必然的聯(lián)系,則認(rèn)為其間存在錯(cuò)誤,放棄記錄;直到這個(gè) 標(biāo)注段中所有鏡頭檢測完畢為止;(4) 根據(jù)數(shù)據(jù)庫中廣告的時(shí)間長度,判斷該文件中可能存在的廣告?zhèn)€數(shù),廣 告?zhèn)€數(shù)為識(shí)別到的視頻幀數(shù)量與數(shù)據(jù)庫的對(duì)應(yīng)廣告的視頻幀數(shù)量之比,并向上取 整;根據(jù)獲得的廣告?zhèn)€數(shù),系統(tǒng)將標(biāo)注序列進(jìn)一步分割為幾個(gè)子序列,分別與閾 值進(jìn)行比較,判斷廣告是否存在;本系統(tǒng)中包含兩個(gè)閾值,分別為數(shù)據(jù)庫中廣告 所包含的視頻幀數(shù)量的二分之一與鏡頭個(gè)數(shù)的三分之一;(5) 判斷是否所有不同廣告名稱的序列都已經(jīng)被檢測,檢測未完轉(zhuǎn)(2),檢 測完成轉(zhuǎn)(6);(6)根據(jù)時(shí)間順序?qū)@得結(jié)果排列,輸出。
全文摘要
一種基于分層匹配的視頻廣告識(shí)別方法,通過局部敏感性哈希算法(Locality Sensitive Hash,LSH)和精細(xì)尺度連續(xù)過濾算法(Fine Granularity Successive Elimination,F(xiàn)GSE),利用廣告的新穎的視頻特征結(jié)合后處理技術(shù)開發(fā)出一套能夠快速檢測電視節(jié)目中是否存在數(shù)據(jù)庫中的廣告。技術(shù)方案是其特征在于包含以下步驟離線數(shù)據(jù)庫建立與在線監(jiān)測,其中離線數(shù)據(jù)庫建立分為離線預(yù)處理與哈希表建立;在線監(jiān)測部分分為在線預(yù)處理、由粗糙到精細(xì)的二級(jí)匹配和后處理。
文檔編號(hào)G06F17/30GK101162470SQ20071017752
公開日2008年4月16日 申請(qǐng)日期2007年11月16日 優(yōu)先權(quán)日2007年11月16日
發(fā)明者楠 劉, 朱振峰, 耀 趙 申請(qǐng)人:北京交通大學(xué)