欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種針對講座視頻的時(shí)間軸自動產(chǎn)生方法

文檔序號:7812366閱讀:203來源:國知局
一種針對講座視頻的時(shí)間軸自動產(chǎn)生方法
【專利摘要】本發(fā)明是一種針對講座視頻的時(shí)間軸自動產(chǎn)生方法,包括以下步驟:第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率;第二步,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率;第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時(shí)間軸單元;第四步,對于每一個(gè)時(shí)間軸單元,計(jì)算其基音頻率相似性A及頻譜相似性B,對于A,B取兩個(gè)閾值,當(dāng)A和B均大于這兩個(gè)閾值時(shí),認(rèn)為是演講人在說話,排除非演講人說話的時(shí)間軸,得到的時(shí)間軸為演講人說話的時(shí)間軸。本發(fā)明是一種針對視頻講座可以自動產(chǎn)生出高精度的講座視頻時(shí)間軸的方法。
【專利說明】一種針對講座視頻的時(shí)間軸自動產(chǎn)生方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)軟件【技術(shù)領(lǐng)域】,尤指一種針對講座視頻的時(shí)間軸自動產(chǎn)生方 法。

【背景技術(shù)】
[0002] 講座、演講、講話類視頻的特點(diǎn)是:(1)主講人單一;(2)環(huán)境噪音干擾小;(3)主 要的干擾是掌聲、笑聲、拖音和呼吸聲。通常,講座視頻長度為10分鐘-2小時(shí)。以1小時(shí) 的視頻為例,切分出時(shí)間軸,需要1-2小時(shí)的人工,浪費(fèi)人力物力。


【發(fā)明內(nèi)容】

[0003] 為解決上述問題,本發(fā)明提供一種可以自動產(chǎn)生出高精度的講座視頻時(shí)間軸的針 對講座視頻的時(shí)間軸自動產(chǎn)生方法。
[0004] 本發(fā)明是一種針對講座視頻的時(shí)間軸自動產(chǎn)生方法,使用頻率相似性和頻譜相似 性結(jié)合來得到時(shí)間軸語音段;并且采用二次掃描,根據(jù)過零率,得到更精確的時(shí)間軸語音 段,包括以下步驟: 第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率; 第二步,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率; 第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時(shí)間軸單元; 第四步,對于每一個(gè)時(shí)間軸單元,計(jì)算其基音頻率相似性Α及頻譜相似性Β,所述頻率 相似性A,既是該時(shí)間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值μ和 標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性Β的計(jì)算方式如下:每個(gè) 時(shí)間軸由Ν幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D ;取一個(gè)閾值Κ,當(dāng)D〈K 時(shí),B = 1,當(dāng)D>K時(shí),B按線性衰減;對于A,B取兩個(gè)閾值,當(dāng)A和B均大于這兩個(gè)閾值時(shí), 認(rèn)為是演講人在說話,排除非演講人說話的時(shí)間軸,得到的時(shí)間軸為演講人說話的時(shí)間軸。
[0005] 本發(fā)明的有益技術(shù)效果在于:本方法通過語音分析的方式,自動得到講座視頻的 時(shí)間軸,主要用于給講座、演講、講話類視頻加配字幕時(shí)的預(yù)處理,省去了人工調(diào)制的過程。 本方法可以自動產(chǎn)生出高精度的講座視頻時(shí)間軸,節(jié)省大量的人工。

【專利附圖】

【附圖說明】
[0006] 圖1為劃分的時(shí)間軸單元示意圖。

【具體實(shí)施方式】
[0007] 下面結(jié)合實(shí)施例,對本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。
[0008] 本方法通過語音分析的方式,自動得到講座視頻的時(shí)間軸,主要用于給講座、演 講、講話類視頻加配字幕時(shí)的預(yù)處理,省去了人工調(diào)制的過程。
[0009] 講座、演講、講話類視頻的特點(diǎn)是: (1) 主講人單一; (2) 環(huán)境噪音干擾?。?(3) 主要的干擾是掌聲、笑聲、拖音和呼吸聲。
[0010] 本方法針對講座視頻的上述特點(diǎn),采用兩次掃描、三門閾法產(chǎn)生出時(shí)間軸,自動提 取出語音片段,產(chǎn)生字幕時(shí)間軸。
[0011] 本發(fā)明是一種針對講座視頻的時(shí)間軸自動產(chǎn)生方法,通過基音頻率對主講人的聲 音及其他聲音進(jìn)行分開,具體包括以下步驟: 第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率。
[0012] 第二步,鑒于講話人固定,基音頻率也固定,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差 〇,作為講話人的基因頻率。
[0013] 第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時(shí)間軸單元,如圖1所示。
[0014] 第四步,對于每一個(gè)時(shí)間軸單元,計(jì)算其基音頻率相似性Α及頻譜相似性Β,所述 頻率相似性A,既是該時(shí)間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值 μ和標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性B的計(jì)算方式如下:每 個(gè)時(shí)間軸由Ν幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D ;取一個(gè)閾值Κ,當(dāng)D〈K 時(shí),B = 1,當(dāng)D>K時(shí),B按線性衰減;對于A,B取兩個(gè)閾值,當(dāng)A和B均大于這兩個(gè)閾值時(shí), 認(rèn)為是演講人在說話,排除非演講人說話的時(shí)間軸,得到的時(shí)間軸為演講人說話的時(shí)間軸。
[0015] 由于人說話時(shí),語音的頭部和尾部并不具有基音特征,因此,真實(shí)的說話的時(shí)間區(qū) 間比根據(jù)基音得到的時(shí)間區(qū)間要大一些,因此,對于根據(jù)基音得到的時(shí)間軸,需要在此時(shí)間 軸基礎(chǔ)上,向前或向后各分析0. 5秒的時(shí)間。計(jì)算這段時(shí)間的語音信號的過零率,如果過零 率的值較大,則認(rèn)為是語音,從而得到修正后的時(shí)間軸數(shù)據(jù)。
【權(quán)利要求】
1. 一種針對講座視頻的時(shí)間軸自動產(chǎn)生方法,其特征在于,包括以下步驟: 第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率; 第二步,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率; 第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時(shí)間軸單元; 第四步,對于每一個(gè)時(shí)間軸單元,計(jì)算其基音頻率相似性Α及頻譜相似性Β,所述頻率 相似性A,既是該時(shí)間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值μ和 標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性Β的計(jì)算方式如下:每個(gè) 時(shí)間軸由Ν幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D ;取一個(gè)閾值Κ,當(dāng)D〈K 時(shí),B = 1,當(dāng)D>K時(shí),B按線性衰減;對于A,B取兩個(gè)閾值,當(dāng)A和B均大于這兩個(gè)閾值時(shí), 認(rèn)為是演講人在說話,排除非演講人說話的時(shí)間軸,得到的時(shí)間軸為演講人說話的時(shí)間軸。
【文檔編號】H04N21/435GK104159145SQ201410423661
【公開日】2014年11月19日 申請日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】程國艮, 袁翔宇, 王宇晨 申請人:中譯語通科技(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
连平县| 衡阳市| 溧阳市| 和田市| 凯里市| 赣州市| 灯塔市| 科技| 泸溪县| 赤水市| 五大连池市| 景东| 波密县| 历史| 秦安县| 茶陵县| 许昌县| 吉水县| 商水县| 讷河市| 年辖:市辖区| 石泉县| 通河县| 阿拉尔市| 连州市| 修武县| 黑山县| 英超| 新丰县| 云阳县| 兴海县| 西乌珠穆沁旗| 平山县| 吉木萨尔县| 射洪县| 靖宇县| 平武县| 田阳县| 衡山县| 灵石县| 韶关市|