通過電視伴音自動(dòng)識(shí)別電視節(jié)目的技術(shù)的制作方法
【專利摘要】本發(fā)明提出了通過電視伴音自動(dòng)識(shí)別電視節(jié)目的技術(shù),屬于電子信息【技術(shù)領(lǐng)域】。本發(fā)明的目的是提供一種技術(shù)可以讓計(jì)算機(jī)、智能手機(jī)通過電視伴音自動(dòng)識(shí)別當(dāng)前播出的是什么電視節(jié)目,包括廣告節(jié)目。本發(fā)明能夠?qū)⒛骋浑娨曨l道的模擬伴音進(jìn)行數(shù)字化,然后提取出其音頻信號(hào)的特征向量,將目標(biāo)音頻的特征向量與所有電視頻道的特征向量進(jìn)行并行比對(duì),根據(jù)相似度判斷出當(dāng)前是哪個(gè)電視頻道。然后通過該頻道的電子節(jié)目單進(jìn)行查找,判斷出當(dāng)前是什么節(jié)目。也可以在離線的節(jié)目庫(kù)中進(jìn)行查找,針對(duì)單一節(jié)目進(jìn)行特征向量比對(duì)。能夠廣泛應(yīng)用于收視率調(diào)查、廣告監(jiān)播、社交電視、關(guān)鍵字過濾,影視片斷查找,將原來需要大量人力的工作用計(jì)算機(jī)和智能終端替代。
【專利說明】通過電視伴音自動(dòng)識(shí)別電視節(jié)目的技術(shù)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子信息【技術(shù)領(lǐng)域】,尤其是涉及計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)、數(shù)字化視聽技術(shù)?!颈尘凹夹g(shù)】
[0002]數(shù)字音頻信號(hào)處理,數(shù)字音頻信號(hào)處理有別于數(shù)字語音信號(hào)處理,前者除了對(duì)語音信號(hào)處理外,還包括對(duì)語音信號(hào)之外的一切音頻信號(hào)的采集,壓縮,特征提取,傳輸,對(duì)比
坐寸ο
[0003]音頻的采集:音頻信號(hào)是模擬信號(hào),是通過麥克風(fēng)捕獲到的變成為一定電平的信號(hào)。它是時(shí)間的連續(xù)函數(shù)。信號(hào)振幅就是音量,頻率就是音調(diào)。一般來說人耳可感受的正弦波的范圍是從20Hz的低頻聲音到20000Hz的高頻聲。把這樣的模擬信號(hào)轉(zhuǎn)變成計(jì)算機(jī)以及網(wǎng)絡(luò)能夠接受的數(shù)字信號(hào)的第I步是對(duì)模擬信號(hào)進(jìn)行采樣,使其成為時(shí)間的離散函數(shù)(此為固定周期)。為了以后恢復(fù)模擬信號(hào)的原貌,采樣頻率應(yīng)該不低于模擬信號(hào)最高頻率的兩倍(Harry Nyquist定理)。第2步就是對(duì)采樣來的離散信號(hào)進(jìn)行編碼即所謂的脈沖編碼調(diào)制(pulse code modulation,PCM),也就是用二進(jìn)制碼來表示每個(gè)離散信號(hào)的幅度。硬件實(shí)現(xiàn)上主要是由采樣保持器和模數(shù)轉(zhuǎn)換器來完成的,即構(gòu)成一個(gè)音頻輸入設(shè)備。音頻的壓縮:采集來的音頻數(shù)據(jù)有著相當(dāng)巨大的數(shù)據(jù)量,如果不經(jīng)過壓縮,保存它們需要大量的存貯空間,傳輸起來也比較困難,很自然,人們想到了壓縮。可以說,這一環(huán)節(jié)在數(shù)字音頻技術(shù)中占有特別重要的地位。目前常用的壓縮方法有很多種,不同的方法具有不同的壓縮比和還原音質(zhì)。編碼的格式和算法也各不相同,其中某些壓縮算法相當(dāng)復(fù)雜,普通程序不可能去實(shí)現(xiàn)其編解碼算法。值得慶幸的是,Windows為數(shù)字音頻技術(shù)提供了這方面的支持,引入了音頻壓縮管理器(audiocompressionmanager, ACM),它是負(fù)責(zé)管理系統(tǒng)中所有數(shù)字音頻的編解碼器(coderdecoder,CODEC)。我們可以通過ACM提供的編程接口調(diào)用這些系統(tǒng)中現(xiàn)成的編解碼器來實(shí)現(xiàn)音頻數(shù)據(jù)的壓縮和解壓縮。
[0004]音頻特征向量提取:特征向量提取包括時(shí)域特征向量與頻域特征向量,時(shí)域特征向量主要包括短時(shí)能量和過零率,短時(shí)能量和過零率主要用來檢測(cè)語音信號(hào)的端點(diǎn),由于語音信號(hào)是一個(gè)非平穩(wěn)態(tài)過程,不能用處理平穩(wěn)信號(hào)的處理技術(shù)對(duì)其進(jìn)行分析處理。但由于語音信號(hào)本身的特點(diǎn),在10-30ms的短時(shí)間范圍內(nèi),其特性可以看做是一個(gè)準(zhǔn)穩(wěn)態(tài)過程,即具有短時(shí)性。因此采用短時(shí)能量和過零率來對(duì)語音進(jìn)行端點(diǎn)檢測(cè)是可行的。音頻的頻域特征,主要包括通過線性預(yù)測(cè)倒譜系數(shù)(LPC)和梅爾倒譜系數(shù)(MEL)來進(jìn)行提取,Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)的縮寫。Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對(duì)應(yīng)關(guān)系。Mel頻率倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系,計(jì)算得到的Hz頻譜特征。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的一個(gè)目的是提供一種技術(shù)可以讓計(jì)算機(jī)、智能手機(jī)通過電視伴音自動(dòng)識(shí)別當(dāng)前播出的是什么電視節(jié)目,包括廣告節(jié)目。[0006]為了實(shí)現(xiàn)該目的,本發(fā)明提供了通過電視伴音自動(dòng)識(shí)別電視節(jié)目的技術(shù),其將某一電視頻道的模擬伴音進(jìn)行數(shù)字化,然后提取出其音頻信號(hào)的特征向量,將目標(biāo)音頻的特征向量與所有電視頻道的特征向量進(jìn)行并行比對(duì),根據(jù)相似度判斷出當(dāng)前是哪個(gè)電視頻道。然后通過該頻道的電子節(jié)目單進(jìn)行查找,判斷出當(dāng)前是什么節(jié)目。也可以在離線的節(jié)目庫(kù)中進(jìn)行查找,針對(duì)單一節(jié)目進(jìn)行特征向量比對(duì)。
[0007]優(yōu)選的,所述技術(shù)包括:電視伴音采集模塊,電視伴音特征向量提取模塊,電視伴音特征向量傳輸模塊,對(duì)比匹配模塊,節(jié)目單采集分析模塊,并行處理平臺(tái);
[0008]所述電視伴音采集模塊,能夠通過電腦聲卡或智能手機(jī)麥克風(fēng),將電視機(jī)、機(jī)頂盒、網(wǎng)絡(luò)視頻計(jì)算機(jī)/播放器輸出的模擬音頻信號(hào)進(jìn)行數(shù)字化轉(zhuǎn)換,將其轉(zhuǎn)為WAV、MIDI或MP3等數(shù)字音頻文件/傳輸流;
[0009]所述電視伴音特征向量提取模塊,能夠?qū)⑺鲭娨暟橐舨杉K輸出的WAV、MIDI或MP3等數(shù)字音頻文件/傳輸流中的特征向量進(jìn)行提取,類似于音頻指紋提取,特征向量的數(shù)據(jù)量?jī)H為原數(shù)字音頻文件/傳輸流數(shù)據(jù)量的1/50至1/100,大大降低了所述電視伴音特征向量傳輸模塊和對(duì)比匹配模塊的數(shù)據(jù)量。以WAV文件為例,音頻特征向量提取的具體過程如下:第一步,分幀,將WAV文件中的PCM每25毫秒為一幀,幀間重疊10毫秒。第二步,對(duì)分幀后的PCM數(shù)據(jù)進(jìn)行快速傅里葉變換,得到頻域信息,在實(shí)現(xiàn)過程中采用查表法可以講快速傅里葉變換的運(yùn)算效率提高10倍。第三步,在300Hz-3700Hz的區(qū)間等分為32個(gè)頻帶,計(jì)算每個(gè)頻帶的能量值。第四步,二階差分處理,對(duì)于能量值矩陣進(jìn)行二階差分,得到二階差分能量矩陣。第五步,零一化,將二階差分能量矩陣進(jìn)行零一化,將大于零的值統(tǒng)一歸為一,將小于等于零的值統(tǒng)一歸為零。得到的零一矩陣為電視伴音的特征向量矩陣。
[0010]所述特征向量傳輸模塊為基于WebService文件傳輸服務(wù)/客戶端,能支持音頻特征向量文件的全雙工實(shí)時(shí)傳輸,兼容局域網(wǎng)、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、GPRS數(shù)據(jù)網(wǎng),可以運(yùn)行在計(jì)算機(jī),智能手機(jī)以及嵌入式終端上,具有很高的通用性。
[0011]所述對(duì)比匹配模塊,將兩組音頻特征向量進(jìn)行比對(duì),算出其相似度。由于音頻輸出設(shè)備以及環(huán)境噪音的差異,即使相同頻道的音頻特征向量也存在一定的差異,而且目標(biāo)頻道和源頻道存在一定的延時(shí)。目標(biāo)頻道錄取5-8秒的音頻信號(hào),然后進(jìn)行特征向量提取,通過傳輸模塊傳輸至對(duì)比匹配模塊,源頻道進(jìn)行實(shí)時(shí)特征向量提取,將特征向量的實(shí)時(shí)流傳輸至對(duì)比匹配模塊。將目標(biāo)特征向量在源特征向量流中進(jìn)行移位對(duì)比匹配計(jì)算相似度,選取最大的相似度作為該組匹配的相似度。具體的相似度算法為矩陣相似度算法,即兩矩陣之間的歐式距離。在將目標(biāo)特征向量和多個(gè)頻道的特征向量流對(duì)比后,將相似度最高的結(jié)果返回,即為識(shí)別出的頻道。經(jīng)過實(shí)際測(cè)試,在環(huán)境噪音不大的情況下,匹配對(duì)比的準(zhǔn)確率高達(dá)98%以上,匹配時(shí)間為10秒鐘以內(nèi)。
[0012]所述節(jié)目單處理模塊,從互聯(lián)網(wǎng)上自動(dòng)抓取源頻道的節(jié)目單,根據(jù)目標(biāo)頻道特征向量的時(shí)間戳和對(duì)比返回的頻道號(hào),自動(dòng)查找識(shí)別出具體的電視節(jié)目。從互聯(lián)網(wǎng)上抓取節(jié)目單是采用爬蟲程序,對(duì)CNTV以及各省衛(wèi)視頻道網(wǎng)站的特定頁面進(jìn)行定期抓取,比對(duì),整理,然后將其錄入到節(jié)目單處理模塊的專用數(shù)據(jù)庫(kù)中。
[0013]所述并行處理平臺(tái),采用Hadoop平臺(tái)的底層架構(gòu),能夠?qū)崿F(xiàn)1000路以上的電視節(jié)目同時(shí)采集,I萬個(gè)以上并發(fā)的目標(biāo)頻道的并行對(duì)比,返回結(jié)果在12秒以內(nèi),并且該平臺(tái)能夠自動(dòng)榮譽(yù)備份和平滑擴(kuò)展。隨著硬件的堆疊,運(yùn)算能力能夠線性增長(zhǎng),不需要進(jìn)行做任何軟件的適配開發(fā)。
[0014]本發(fā)明提出了通過電視伴音自動(dòng)識(shí)別電視節(jié)目的技術(shù),能夠通過電視的音頻輸出自動(dòng)定位電視節(jié)目,可以廣泛的應(yīng)用于收視率調(diào)查、廣告監(jiān)播、社交電視、關(guān)鍵字過濾,影視片斷查找,將原來需要大量人力的工作用計(jì)算機(jī),智能手機(jī),嵌入式終端進(jìn)行替代。該技術(shù)的出現(xiàn)對(duì)于移動(dòng)互聯(lián)網(wǎng)社交電視、收視數(shù)據(jù)統(tǒng)計(jì)分析、廣告監(jiān)播都具有非常大的幫助和深遠(yuǎn)的意義。
【專利附圖】
【附圖說明】
[0015]通過下面結(jié)合附圖對(duì)本發(fā)明的一個(gè)優(yōu)選實(shí)施例進(jìn)行的描述,本發(fā)明的技術(shù)方案及其技術(shù)效果將變得更加清楚,且更加易于理解。其中:
[0016]圖1示出了根據(jù)本發(fā)明的對(duì)某個(gè)頻道的電視伴音進(jìn)行自動(dòng)識(shí)別其電視節(jié)目的過程不意圖;
【具體實(shí)施方式】
[0017]以下將結(jié)合所附的附圖對(duì)本發(fā)明的一個(gè)優(yōu)選實(shí)施例進(jìn)行描述。
[0018]實(shí)施例1
[0019]本發(fā)明第一實(shí)施的對(duì)某個(gè)頻道的電視伴音進(jìn)行自動(dòng)識(shí)別其電視節(jié)目,其過程如圖1所示的,包括:所述電視伴音采集模塊1,所述電視伴音特征向量提取模塊2,電視伴音特征傳輸模塊3,所述對(duì)比匹配模塊4 ;所述節(jié)目單處理模塊5。
[0020]當(dāng)對(duì)某一頻道的電視伴音進(jìn)行自動(dòng)識(shí)別時(shí),第一步,由所述電視伴音采集模塊I對(duì)其模擬音頻進(jìn)行數(shù)字化轉(zhuǎn)換,將其轉(zhuǎn)為WAV文件,取5-8秒作為目標(biāo)文件。第二步由所述電視伴音特征向量提取模塊2對(duì)目標(biāo)文件進(jìn)行特征向量提取,生成目標(biāo)特征向量矩陣。第三步,將目標(biāo)特征向量矩陣由所述電視伴音特征傳輸模塊3進(jìn)行傳輸至所述對(duì)比匹配模塊
4。第四步,由所述對(duì)比匹配模塊4將目標(biāo)特征向量矩陣與實(shí)時(shí)采集的源頻道特征向量矩陣流進(jìn)行移位比對(duì),算出最大值作為目標(biāo)頻道與該頻道的相似度。第五步,匯總所有相似度,取最大的頻道號(hào)作為返回值。第六步,將頻道號(hào)返回值利用所述節(jié)目單處理模塊5查找相應(yīng)時(shí)間段的電視節(jié)目,將電視節(jié)目信息返回。
[0021]對(duì)于所屬【技術(shù)領(lǐng)域】的技術(shù)人員而言,隨著技術(shù)的發(fā)展,本發(fā)明構(gòu)思可以不同方式實(shí)現(xiàn)。本發(fā)明的實(shí)施方式并不僅限于以上描述的實(shí)施例,而且可在權(quán)利要求的范圍內(nèi)進(jìn)行變化。
【權(quán)利要求】
1.通過電視伴音自動(dòng)識(shí)別電視節(jié)目的技術(shù),其特征在于,包括:所述電視伴音采集模塊,所述電視伴音特征向量提取模塊,所述電視伴音特征向量傳輸模塊,所述對(duì)比匹配模塊,所述節(jié)目單采集分析模塊,所述并行處理平臺(tái)。
2.根據(jù)權(quán)利要求1所述的電視伴音采集模塊,其特征在于,能夠通過電腦聲卡或智能手機(jī)麥克風(fēng),將電視機(jī)、機(jī)頂盒、網(wǎng)絡(luò)視頻計(jì)算機(jī)/播放器輸出的模擬音頻信號(hào)進(jìn)行數(shù)字化轉(zhuǎn)換,將其轉(zhuǎn)為WAV、MIDI或MP3等數(shù)字音頻文件/傳輸流。
3.根據(jù)權(quán)利要求1所述的所述電視伴音特征向量提取模塊,其特征在于,能夠?qū)⑺鲭娨暟橐舨杉K輸出的WAV、MIDI或MP3等數(shù)字音頻文件/傳輸流中的特征向量進(jìn)行提取,類似于音頻指紋提取,特征向量的數(shù)據(jù)量?jī)H為原數(shù)字音頻文件/傳輸流數(shù)據(jù)量的1/50至1/100,大大降低了所述電視伴音特征向量傳輸模塊和對(duì)比匹配模塊的數(shù)據(jù)量。以WAV文件為例,音頻特征向量提取的具體過程如下:第一步,分幀,將WAV文件中的PCM每25毫秒為一幀,幀間重疊10毫秒。第二步,對(duì)分幀后的PCM數(shù)據(jù)進(jìn)行快速傅里葉變換,得到頻域信息,在實(shí)現(xiàn)過程中采用查表法可以講快速傅里葉變換的運(yùn)算效率提高10倍。第三步,在300Hz-3700Hz的區(qū)間等分為32個(gè)頻帶,計(jì)算每個(gè)頻帶的能量值。第四步,二階差分處理,對(duì)于能量值矩陣進(jìn)行二階差分,得到二階差分能量矩陣。第五步,零一化,將二階差分能量矩陣進(jìn)行零一化,將大于零的值統(tǒng)一歸為一,將小于等于零的值統(tǒng)一歸為零。得到的零一矩陣為電視伴音的特征向量矩陣。
4.根據(jù)權(quán)利要求1所述的特征向量傳輸模塊,其特征在于,為基于WebService文件傳輸服務(wù)/客戶端,能支持音頻特征向量文件的全雙工實(shí)時(shí)傳輸,兼容局域網(wǎng)、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、GPRS數(shù)據(jù)網(wǎng),可以運(yùn)行在計(jì)算機(jī),智能手機(jī)以及嵌入式終端上,具有很高的通用性。
5.根據(jù)權(quán)利要求1所述對(duì)比匹配模塊,其特征在于,將兩組音頻特征向量進(jìn)行比對(duì),算出其相似度。由于音頻輸出設(shè)備以及環(huán)境噪音的差異,即使相同頻道的音頻特征向量也存在一定的差異,而且目標(biāo)頻道和源頻道存在一定的延時(shí)。目標(biāo)頻道錄取5-8秒的音頻信號(hào),然后進(jìn)行特征向量提取,通過傳輸模塊傳輸至對(duì)比匹配模塊,源頻道進(jìn)行實(shí)時(shí)特征向量提取,將特征向量的實(shí)時(shí)流傳輸至對(duì)比匹配模塊。將目標(biāo)特征向量在源特征向量流中進(jìn)行移位對(duì)比匹配計(jì)算相似度,選取最大的相似度作為該組匹配的相似度。具體的相似度算法為矩陣相似度算法,即兩矩陣之間的歐式距離。在將目標(biāo)特征向量和多個(gè)頻道的特征向量流對(duì)比后,將相似度最高的結(jié)果返回,即為識(shí)別出的頻道。經(jīng)過實(shí)際測(cè)試,在環(huán)境噪音不大的情況下,匹配對(duì)比的準(zhǔn)確率高達(dá)98%以上,匹配時(shí)間為10秒鐘以內(nèi)。
6.根據(jù)權(quán)利要求1所述節(jié)目單處理模塊,其特征在于,從互聯(lián)網(wǎng)上自動(dòng)抓取源頻道的節(jié)目單,根據(jù)目標(biāo)頻道特征向量的時(shí)間戳和對(duì)比返回的頻道號(hào),自動(dòng)查找識(shí)別出具體的電視節(jié)目。從互聯(lián)網(wǎng)上抓取節(jié)目單是采用爬蟲程序,對(duì)CNTV以及各省衛(wèi)視頻道網(wǎng)站的特定頁面進(jìn)行定期抓取,比對(duì),整理,然后將其錄入到節(jié)目單處理模塊的專用數(shù)據(jù)庫(kù)中。
7.根據(jù)權(quán)利要求1所述并行處理平臺(tái),其特征在于,采用Hadoop平臺(tái)的底層架構(gòu),能夠?qū)崿F(xiàn)1000路以上的電視節(jié)目同時(shí)采集,I萬個(gè)以上并發(fā)的目標(biāo)頻道的并行對(duì)比,返回結(jié)果在12秒以內(nèi),并且該平臺(tái)能夠自動(dòng)榮譽(yù)備份和平滑擴(kuò)展。隨著硬件的堆疊,運(yùn)算能力能夠線性增長(zhǎng),不需要進(jìn)行做任何軟件的適配開發(fā)。
【文檔編號(hào)】H04L29/08GK103594083SQ201210287491
【公開日】2014年2月19日 申請(qǐng)日期:2012年8月14日 優(yōu)先權(quán)日:2012年8月14日
【發(fā)明者】韓凱, 黨海飛, 易鵬 申請(qǐng)人:韓凱, 黨海飛, 易鵬