欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法

文檔序號:10580253閱讀:541來源:國知局
一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法
【專利摘要】本發(fā)明公開了一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法。分解為音頻和視頻,對音頻信號分幀并提取特征參數(shù),對視頻信號每幀處理,提取特征參數(shù),幀率與音頻信號相同,將視頻幀和音頻幀進行對應(yīng)組合并篩選,分為子特征參數(shù)序列,將每一子特征參數(shù)序列進行同步性分析,獲得同步性幀移曲線,同步性分類判定,獲得真唱或者假唱的結(jié)果。本發(fā)明實現(xiàn)了對演唱音視頻的假唱檢測和處理,檢測效果精確,在每個片段上單獨分析音視頻的同步性,有效處理了輸入唱歌視頻的每個細節(jié),可靠性高。
【專利說明】
一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種假唱檢測方法,尤其是涉及了一種基于機器視覺和語音信號處理 相結(jié)合的假唱檢測方法。
【背景技術(shù)】
[0002] 近年來,很多歌手藝人通過假唱對口型的方式進行不公平的競爭,以謀取不正當(dāng) 的利益,遭到人民群眾及相關(guān)專業(yè)人士的堅決抵制。而當(dāng)前對假唱現(xiàn)象的檢測幾乎完全是 人工完成的。一是在表演現(xiàn)場由評委觀眾進行監(jiān)督,二是對現(xiàn)場錄制的視頻進行分析人工 分析,從而進行對口型現(xiàn)象的鑒定。這些方法無疑具有很大的主觀成分,不確定性及誤判性 都很大,并且效率十分低下。因此,如果能夠有一套自動化的系統(tǒng)來完成對口型假唱現(xiàn)象的 檢測將會極大地節(jié)約人力物力,維護演藝娛樂界的良好發(fā)展環(huán)境。音視頻信號之間的同步 性在假唱中有時明顯的特點。真唱的語音信號的嘴唇的運動信息往往具有很強的同步性。 但在假唱情況下,為了匹配由機器放出的語音信號而人為地對對口型,往往不能夠做到完 美的嘴唇運動匹配,此時音視頻信號就具有同步性。因此,可以使用這個特點來進行假唱對 口型的檢測。

【發(fā)明內(nèi)容】

[0003] 為了解決技術(shù)背景中所提到的問題,本發(fā)明一種基于機器視覺和語音信號處理相 結(jié)合的假唱檢測方法,將機器視覺技術(shù)同語音信號分析處理相結(jié)合進行假唱檢測。
[0004] 本發(fā)明所提出的技術(shù)方案如下:
[0005] 1)音視頻信號分離:將現(xiàn)場錄制的多媒體音視頻信號分解為音頻信號和視頻信號 兩個部分分別進行處理;
[0006] 現(xiàn)場錄制的多媒體音視頻信號是使用攝像機在現(xiàn)場演唱者的正臉方向進行采集 獲得音視頻信號,作為本方法的輸入數(shù)據(jù)。
[0007] 2)對于音頻信號進行分幀處理并提取每一幀的特征參數(shù);
[0008] 所述步驟2)具體包括:
[0009] 2 ? 1)背景音樂濾除:采用自適應(yīng)的REPT (Repeating Pattern Extract ion Technique)算法濾除音頻信號中的背景音樂,通過多次不同的音頻分析窗口和分析步長迭 代濾除不同節(jié)奏的背景音樂,獲得人聲的語音信號;
[0010] 2.2)語音特征參數(shù)提取:采用短時分析方法對人聲的語音信號進行分幀處理,以 每個分析窗口為一個音頻幀,從每一個音頻幀中提取獲得12階MFCC系數(shù)和短時能量,作為 音頻特征參數(shù)。對于每一個音頻幀共計獲得13個音頻特征參數(shù)。
[0011] 具體實施中語音特征參數(shù)提取步驟的分析窗口長度為20ms,提取的步長為10ms, 提取頻率為100Hz。
[0012] 3)對于視頻信號的每幀進行處理,提取圖像特征點,再從中提取特征參數(shù),使得視 頻信號的提取頻率與音頻信號的提取頻率相同;
[0013]所述步驟3)具體包括:
[0014] 3.1)臉部特征點提取:對于每一個視頻幀,采用ASM(Active Shape Model)算法提 取臉部關(guān)鍵特征點;
[0015] 3.2)嘴唇區(qū)域DCT系數(shù)提取:從臉部關(guān)鍵特征點中提取嘴唇特征點構(gòu)成嘴唇區(qū)域, 從中提取DCT系數(shù)作為視頻特征參數(shù);
[0016] 所述步驟3.2)具體包括:求出包圍嘴唇區(qū)域的所有嘴唇特征點的最小矩形,將最 小矩形所在的圖像區(qū)域轉(zhuǎn)化為灰度圖像區(qū)域,并且縮放為48x48的像素大小,再分割為九個 16x16的子區(qū)域,對于每一個子區(qū)域用二維DCT(Discrete Cosine Transform)進行變換,變 換后使用zig-zag掃描方法提取每一個子區(qū)域的前四個DCT系數(shù)作為視頻特征參數(shù)。對于每 一個視頻幀共計獲得36個視頻特征參數(shù)。
[0017] 3.3)嘴唇形狀參數(shù)提取:根據(jù)嘴唇特征點位置,通過計算像素距離得到嘴唇的高 度、寬度和面積的三個形狀參數(shù);
[0018] 3.4)視頻特征參數(shù)線性插值:在兩個相鄰的視頻幀之間對步驟3.2)獲得的視頻特 征參數(shù)和步驟3.3)獲得的嘴唇高度、寬度和面積數(shù)據(jù)進行線性插值,線性插值后使得視頻 幀的幀頻率與所述步驟2)音頻信號分幀處理后的幀頻率相同;
[0019] 具體實施中視頻特征參數(shù)線性插值是使得每隔10ms有對應(yīng)的嘴唇視頻特征參數(shù), 從而與語音特征參數(shù)的提取頻率相匹配,均為100Hz。
[0020] 所述步驟3.3)中獲得嘴唇高度、寬度和面積的形狀參數(shù)均進行像素距離對齊,以 每幀圖像中雙眼中心間距、雙眼內(nèi)角間距、鼻孔間距和眉心間距作為參考量,將圖像中的像 素距離轉(zhuǎn)化為與實際距離成正比的真實距離。
[0021] 4)將視頻信號的視頻幀和音頻信號的音頻幀進行對應(yīng)組合,每一視頻幀和對應(yīng)的 一音頻幀組合形成一組音視頻特征參數(shù),整首歌的所有組音視頻特征參數(shù)構(gòu)成整體特征參 數(shù)序列;然后進行篩選,篩選后將保留下來的所有組的音視頻特征參數(shù)按順序排序,以每5 秒片段為單位進行分割獲得各個子特征參數(shù)序列;
[0022]所述步驟4)中的篩選是:
[0023] 4.1)關(guān)鍵唇動提?。河捎谧齑降母叨?、寬度和面積的變化直接反映了嘴唇的運動 信息,嘴唇的高度、寬度和面積在不同幀中不斷變化,反映了嘴唇的運動狀態(tài),根據(jù)連續(xù)的 各幀圖像的嘴唇高度、寬度和面積形成嘴唇運動數(shù)據(jù),采用閾值分割法,通過唇動幅度閾值 濾除運動幅度小的嘴唇運動數(shù)據(jù)及其音視頻特征參數(shù),保留運動幅度大的嘴唇運動數(shù)據(jù)及 其音視頻特征參數(shù)。即是由各幀圖像的嘴唇高度、寬度和面積獲得其時間曲線,去除掉曲線 上靠近最高點和最低點處的數(shù)據(jù)。
[0024] 所述步驟4.1)中嘴唇的高度、寬度或者面積中的任兩種以上小于各自的唇動幅度 閾值,則該幀圖像的嘴唇的運動幅度小;否則該幀圖像的嘴唇的運動幅度大。
[0025] 5)將每一子特征參數(shù)序列進行同步性分析,獲得同步性幀移曲線:
[0026] 5.1)采用C0IA(Coinertia Analysis)分析法計算每個子特征參數(shù)序列的投影矩 陣,獲得所有子特征參數(shù)序列的平均投影矩陣,用平均投影矩陣對子特征參數(shù)序列的音視 頻特征參數(shù)進行投影,通過投影計算音頻特征參數(shù)和視頻特征參數(shù)之間的相關(guān)性系數(shù);
[0027] 5.2)對于樣本數(shù)據(jù)中的每一子特征參數(shù)序列,將音頻信號在時間軸上相對于視頻 信號進行進行幀移,每次幀移后重復(fù)步驟5.1)計算獲得音頻特征參數(shù)和視頻特征參數(shù)之間 的相關(guān)性系數(shù),所有幀移后形成該子特征參數(shù)序列所在片段的同步性幀移曲線。
[0028] 6)同步性分類判定:
[0029]對于已作真唱或者假唱標(biāo)記的樣本數(shù)據(jù),均采用上述步驟1)~5)處理后獲得樣本 數(shù)據(jù)所有的同步性幀移曲線,并輸入到二元分類器中進行訓(xùn)練學(xué)習(xí),再將待測數(shù)據(jù)采用上 述步驟1)~5)處理后獲得待測數(shù)據(jù)所有的同步性幀移曲線,用訓(xùn)練后的二元分類器對待測 數(shù)據(jù)的同步性幀移曲線進行分類判斷獲得真唱或者假唱的結(jié)果。
[0030] 所述步驟6)中真唱或者假唱的結(jié)果采用以下方式判斷:對于待測數(shù)據(jù)的音視頻信 號,如果判斷為真唱的片段所占數(shù)目比判斷為假唱的片段所占數(shù)目多,則將整個音視頻信 號判斷為真唱,否則判斷為假唱。
[0031] 本發(fā)明的有益效果是:
[0032] 本發(fā)明使用機器視覺技術(shù)和語音信號分析技術(shù),對唱歌視頻中語音和唇動的同步 性進行分析,并且使用背景音樂濾除、像素距離對齊和關(guān)鍵唇動提取等方法來減小噪聲的 影響,使得對假唱的檢測效果更為精確。
[0033] 此外,本發(fā)明對長時間段的音視頻信號進行分段分段處理,在每個片段上單獨分 析音視頻的同步性,有效處理了輸入唱歌視頻的每個細節(jié)。
[0034] 本發(fā)明提出的假唱檢測方法簡便易行,只需要輸入在唱歌者正臉方向上錄制的演 唱視頻,就可以對假唱現(xiàn)行進行有效的檢測,可靠性高。
【附圖說明】
[0035]圖1為本發(fā)明對于輸入演唱視頻的處理流程圖。
[0036] 圖2為像素距離對齊的結(jié)果示意圖。上方圖像為視頻中原始嘴唇高度變化曲線,下 方圖像為進行像素距離對齊后的嘴唇高度變化曲線。橫坐標(biāo)軸為視頻幀,縱坐標(biāo)為幅度。
[0037] 圖3為關(guān)鍵唇動提取示意圖。p為一個嘴唇動作的開始位置,q為一個嘴唇動作的結(jié) 束位置,MPS-個嘴唇動作的張開幅度,M q為一個嘴唇動作的閉合幅度。橫坐標(biāo)軸為視頻幀, 縱坐標(biāo)為幅度。
[0038] 圖4為輸入演唱視頻每個片段上的同步性幀移曲線示意圖。實線為真唱的同步性 幀移曲線,虛線為假唱的同步性幀移曲線。橫坐標(biāo)軸為幀移位置,縱坐標(biāo)為相關(guān)性系數(shù)。
【具體實施方式】
[0039]下面結(jié)合附圖及具體實施例對本發(fā)明作進一步詳細說明。
[0040]如圖1所示,首先將演唱視頻分為音頻信號和視頻信號兩部分。在音頻部分,對于 音頻信號采用自適應(yīng)REPT算法,進行多次迭代,濾除音頻信號中的背景音樂。再進行語音特 征參數(shù)提取,將音頻信號分割為不同的音頻幀,分析窗口長度為20ms,提取的步長為10ms, 提取頻率為100Hz。
[0041 ]對于每個音頻幀,提取12階MFCC系數(shù)以及該音頻幀上的短時能量。短時能量采用 常規(guī)的平方計算法:
[0042] E(i) = ^]-V:(/?) (1) n=\
[0043]其中,E(i)為第i個音頻幀的短時能量,L為每個音頻真采樣點的個數(shù),Xl(n)為第i 個音頻幀中第n個采樣點的幅值。
[0044] 如圖1所示,在視頻部分,對于每一個視頻幀的圖像使用ASM算法提取人臉上的7 7 個特征點分布位置。根據(jù)嘴唇周圍的特征點,計算包圍這些特征點的最小矩形,提取該矩形 內(nèi)的灰度圖像,并且縮放至48x48大小。對該灰度圖像進行分塊處理,將其分割為9個16x16 大小的子圖像。對于每個子圖像應(yīng)用DCT變換,采用zig-zag方法提取前4個DCT系數(shù)。這樣, 從每個視頻幀的圖像中提取出36個DCT特征參數(shù)。
[0045] 如圖1所示,對于每個視頻幀的圖像,根據(jù)ASM算法產(chǎn)生的嘴唇特征點位置信息,直 接計算出嘴唇的高度、寬度和面積。然而,像素距離對于視頻的拍攝環(huán)境較為敏感,并不能 夠反應(yīng)嘴唇的真實變化情況。為了維護像素距離與實際距離之間的一一對應(yīng)關(guān)系從而使得 像素距離能夠真實反映嘴唇的運動信息,進行像素距離對齊操作。利用ASM算法提取人臉上 雙眼中心間距、雙眼內(nèi)角間距,眉心間距和鼻孔間距分別作為參考量ref i、ref 2、ref 3和 ref4,其平均值為最終的參考量r,像素距離對齊公式如下:

[0047]其中,ri為第1幀中參考量的像素距離,ri為第i幀中參考量的像素距離,ai為第i幀 中的像素距離,為第i幀中經(jīng)過對齊后的像素距離。對于面積的對齊公式如下:
(3)
[0049] 其中h為第i幀中的像素面積,h'為第i幀中經(jīng)過對齊后像素面積。
[0050] 如圖2所示,測試視頻中人臉距離攝像機鏡頭忽遠忽近,前11s嘴唇形狀并沒有發(fā) 生任何變化,1 Is之后嘴唇張大,視頻幀率為29.97Hz。可以看到,原始的像素距離并不能夠 真實反映出嘴唇高度的變化情況。而采用距離對齊操作后,嘴唇形狀參數(shù)的變化情況被如 實的反映了出來,不同幀之間的特征數(shù)據(jù)具有可比性。
[0051] 如圖1所示,需要對視頻信號中提取的DCT特征參數(shù)以及嘴唇高度、寬度和面積數(shù) 值在相鄰的視頻幀之間進行線性插值處理。視頻信號特征參數(shù)的提取頻率受到攝像機等硬 件環(huán)境的制約。攝像機的幀率一般為30、29.97或25幀/秒,導(dǎo)致相同的時間段內(nèi)只能夠采集 到很少的視頻特征信息,與100Hz的音頻信號特征提取頻率不匹配。為了使音頻幀與視頻幀 一一對應(yīng),對提取出的視頻特征參數(shù)進行現(xiàn)行插值處理,使其達到與音頻信號相匹配的 100Hz。這樣,音頻信號分析窗口長度為20ms,對應(yīng)兩個視頻幀的長度,音頻分析窗口中心與 當(dāng)前視頻幀的時間位置對齊。也即是一個視頻幀對應(yīng)一個長度為20ms的音頻分析窗口。 [0052]如圖1所示,對于視頻信號需要進行關(guān)鍵唇動提取處理。僅僅在有唇動的時間段內(nèi) 對音視頻信號進行分析處理。嘴唇的形狀參數(shù)如高度、寬度和面積在相鄰視頻幀之間都會 存在一個微小的擾動,這些微小的擾動會疊加在唇動上,形成小毛刺。嘴唇張開閉合的過程 為一個動作,可以由嘴唇的高度、寬度或者面積的數(shù)值進行表示。關(guān)鍵唇動提取的基本原理 是將視頻序列中所有的動作提取出來,然后采用閾值分割的方法,濾除幅度較小不可靠的 動作。
[0053]如圖3所示,在關(guān)鍵唇動提取中,對于一個動作,其開始視頻幀為p,結(jié)束視頻幀為 q,上升幅度為MP,下降幅度為Mq,持續(xù)視頻幀長度為L = q-p+1,動作保留函數(shù)如下: 「 i m、f1 艦丨丨義(,)>廠^麵)&&場.)>4? m 0054] f(Actl) = { p P ⑷
[()Other
[0055]其中,T為動作幅度閾值,數(shù)值在0到1之間,Lmin為一個動作應(yīng)該持續(xù)的最小幀數(shù), Act表示第i個動作,MP(i)為第i個動作的上升幅度,Mq(i)為第i個動作的下降幅度,L(i)為 第i個動作持續(xù)的幀數(shù),M pmax為所有動作中最大的上升幅度,Mqmax為所有動作中最大的下降 幅度。數(shù)值1表示保留該動作,〇表示去該動作。每一個保留下來的動作對應(yīng)一個視頻幀區(qū)間 和相應(yīng)的音頻幀區(qū)間,將這些區(qū)間按照時間上的先后順序進行合并,即可組成一個新的視 頻序列和其所對應(yīng)的音頻序列,在此基礎(chǔ)上將音頻信號的12階MFCC系數(shù)及短時能量同視頻 信號的36個DCT特征參數(shù)進行分析比較。
[0056]如圖1所示,將整個輸入的音視頻信號以5秒為跨度,按照時間上的先后順序分割 為不同的片段,對每一個片段進行同步分析。
[0057]如圖1所示,對于之前分割的每一個片段進行同步性分析。預(yù)先使用C0IA分析法在 訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)視頻信號的投影矩陣心={〇1,<12,8(^}和音頻信號的投影矩陣? 4={01, fe,B仇}。待檢測音視頻每一個片段的同步性計算公式如下:
[0058] S(Fv,Fa) = corr(Fv ? a:,Fa ? 0i) =pi (5)
[0059] 其中,F(xiàn)v為kXn視頻特征矩陣,n為視頻特征數(shù)目,k為幀數(shù)。Fa為kXm音頻特征矩 陣,m為視頻特征數(shù)目。Pv為n Xh視頻矩陣,由h個n維視頻投影向量a組成,每個視頻投影向 量a可以對Fv進行投影。Pa為mXh音頻投影矩陣,由h個m維音頻投影向量0組成,每個音頻投 影向量0可以對Fa進行投影,corr計算皮爾遜相關(guān)性系數(shù) Pl。
[0060] 如圖4所示,在同步性分析的處理過程中,人為地將音頻特征參數(shù)在時間軸上進行 幀移,計算每個幀移位置上音視頻特征數(shù)據(jù)之間相關(guān)性系數(shù),構(gòu)成待檢測音視頻信號每一 個片段的同步性幀移曲線。實線表示一般情況下真唱的同步性幀移曲線,虛線表示一般情 況下假唱的同步性幀移曲線,兩者有明顯的區(qū)別。使用機器學(xué)習(xí)技術(shù),在訓(xùn)練數(shù)據(jù)上對真唱 的同步性幀移曲線和假唱的同步性幀移曲線進行學(xué)習(xí),可以得到用于區(qū)分真唱和假唱二元 分類器??梢允褂肧VM機器學(xué)習(xí)算法來訓(xùn)練分類器。
[0061] 對于待檢測音視頻信號每一個片段上的同步性幀移曲線,應(yīng)用預(yù)先訓(xùn)練好的分類 器進行分類,判斷每一個片段是否為假唱。
[0062] 待檢測音視頻信號所分割成的每個片段均被判斷為假唱或者真唱。對于整個音視 頻信號,如果真唱的片段所占數(shù)目比假唱片段所占數(shù)目多,則將整個待檢測音視頻信號判 斷為真唱,否則判斷為假唱。本發(fā)明實施對各種真假唱情況進行了檢測,對于一般情況的假 唱,本方法可達到70%以上的準(zhǔn)確率,可靠性高,技術(shù)效果顯著突出。
【主權(quán)項】
1. 一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法,其特征在于: 1) 音視頻信號分離:將現(xiàn)場錄制的多媒體音視頻信號分解為音頻信號和視頻信號兩個 部分; 2) 對于音頻信號進行分幀處理并提取每一幀的特征參數(shù); 3) 對于視頻信號的每幀進行處理,提取圖像特征點,再從中提取特征參數(shù),使得視頻信 號的提取頻率與音頻信號的提取頻率相同; 4) 將視頻信號的視頻幀和音頻信號的音頻幀進行對應(yīng)組合,每一視頻幀和對應(yīng)的一音 頻幀組合形成一組音視頻特征參數(shù);然后進行篩選,篩選后將保留下來的所有組的音視頻 特征參數(shù)按順序排序,以每5秒片段為單位進行分割獲得各個子特征參數(shù)序列; 5) 將每一子特征參數(shù)序列進行同步性分析,獲得同步性幀移曲線: 6) 同步性分類判定:對于已作真唱或者假唱標(biāo)記的樣本數(shù)據(jù),均采用上述步驟1)~5) 處理后獲得樣本數(shù)據(jù)所有的同步性幀移曲線,并輸入到二元分類器中進行訓(xùn)練學(xué)習(xí),再將 待測數(shù)據(jù)采用上述步驟1)~5)處理后獲得待測數(shù)據(jù)所有的同步性幀移曲線,用訓(xùn)練后的二 元分類器對待測數(shù)據(jù)的同步性幀移曲線進行分類判斷獲得真唱或者假唱的結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于:所述步驟2)具體包括: 2.1) 背景音樂濾除:米用自適應(yīng)的REPT(Repeating Pattern Extraction Technique) 算法濾除音頻信號中的背景音樂,獲得人聲的語音信號; 2.2) 語音特征參數(shù)提取:采用短時分析方法對人聲的語音信號進行分幀處理,以每個 分析窗口為一個音頻幀,從每一個音頻幀中提取獲得12階MFCC系數(shù)和短時能量,作為音頻 特征參數(shù)。3. 根據(jù)權(quán)利要求2所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于:所述自適應(yīng)的REPT算法處理中通過多次不同的音頻分析窗口和分析步長迭代 濾除不同節(jié)奏的背景音樂。4. 根據(jù)權(quán)利要求1所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于:所述步驟3)具體包括: 3.1) 臉部特征點提取:對于每一個視頻幀,采用ASM(Active Shape Model)算法提取臉 部關(guān)鍵特征點; 3.2) 嘴唇區(qū)域DCT系數(shù)提取:從臉部關(guān)鍵特征點中提取嘴唇特征點構(gòu)成嘴唇區(qū)域,從 中提取DCT系數(shù)作為視頻特征參數(shù); 3.3) 嘴唇形狀參數(shù)提取:根據(jù)嘴唇特征點位置,通過計算像素距離得到嘴唇的高度、寬 度和面積的三個形狀參數(shù); 3.4) 視頻特征參數(shù)線性插值:在兩個相鄰的視頻幀之間對步驟3.2)獲得的視頻特征參 數(shù)和步驟3.3)獲得的嘴唇高度、寬度和面積數(shù)據(jù)進行線性插值,線性插值后使得視頻幀的 幀頻率與所述步驟2)音頻信號分幀處理后的幀頻率相同。5. 根據(jù)權(quán)利要求4所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于: 所述步驟3.2)具體包括:求出包圍嘴唇區(qū)域的所有嘴唇特征點的最小矩形,將最小矩 形所在的圖像區(qū)域轉(zhuǎn)化為灰度圖像區(qū)域,并且縮放為48x48的像素大小,再分割為九個 16x16的子區(qū)域,對于每一個子區(qū)域用二維DCT(Discrete Cosine Transform)進行變換,變 換后使用zig-zag掃描方法提取每一個子區(qū)域的前四個DCT系數(shù)作為視頻特征參數(shù)。6. 根據(jù)權(quán)利要求4所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于: 所述步驟3.3)中獲得嘴唇高度、寬度和面積的形狀參數(shù)均進行像素距離對齊,以每幀 圖像中雙眼中心間距、雙眼內(nèi)角間距、鼻孔間距和眉心間距作為參考量,將圖像中的像素距 離轉(zhuǎn)化為與實際距離成正比的真實距離。7. 根據(jù)權(quán)利要求1所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于:所述步驟4)中的篩選具體是: 4.1) 關(guān)鍵唇動提取:嘴唇的高度、寬度和面積在不同幀中不斷變化,反映了嘴唇的運動 狀態(tài),由連續(xù)的各幀圖像的嘴唇高度、寬度和面積形成嘴唇運動數(shù)據(jù),采用閾值分割法,通 過唇動幅度閾值濾除運動幅度小的嘴唇運動數(shù)據(jù)及其音視頻特征參數(shù),保留運動幅度大的 嘴唇運動數(shù)據(jù)及其音視頻特征參數(shù)。8. 根據(jù)權(quán)利要求7所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于:所述步驟4.1)中嘴唇的高度、寬度或者面積中的任兩種以上小于唇動幅度閾 值,則該幀圖像的嘴唇的運動幅度小;否則該幀圖像的嘴唇的運動幅度大。9. 根據(jù)權(quán)利要求1所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于:所述步驟5)具體為: 5.1) 采用COIA分析法計算每個子特征參數(shù)序列的投影矩陣,獲得所有子特征參數(shù)序列 的平均投影矩陣,用平均投影矩陣對子特征參數(shù)序列的音視頻特征參數(shù)進行投影,通過投 影計算音頻特征參數(shù)和視頻特征參數(shù)之間的相關(guān)性系數(shù); 5.2) 對于樣本數(shù)據(jù)中的每一子特征參數(shù)序列,將音頻信號在時間軸上相對于視頻信號 進行進行幀移,每次幀移后重復(fù)步驟5.1)計算獲得音頻特征參數(shù)和視頻特征參數(shù)之間的相 關(guān)性系數(shù),所有幀移后形成該子特征參數(shù)序列所在片段的同步性幀移曲線。10. 根據(jù)權(quán)利要求1所述的一種基于機器視覺和語音信號處理相結(jié)合的假唱檢測方法, 其特征在于:所述步驟6)中真唱或者假唱的結(jié)果采用以下方式判斷:對于待測數(shù)據(jù)的音視 頻信號,如果判斷為真唱的片段所占數(shù)目比判斷為假唱的片段所占數(shù)目多,則將整個音視 頻信號判斷為真唱,否則判斷為假唱。
【文檔編號】H04N21/44GK105959723SQ201610326306
【公開日】2016年9月21日
【申請日】2016年5月16日
【發(fā)明人】張家玄, 任重
【申請人】浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
吴堡县| 阳城县| 嵊州市| 化德县| 隆子县| 绥芬河市| 雷山县| 大城县| 大方县| 苗栗市| 通海县| 饶平县| 庆元县| 潍坊市| 蒲江县| 乌苏市| 福建省| 东辽县| 定安县| 桃园市| 尉氏县| 绥滨县| 临沧市| 靖宇县| 蒙城县| 泸溪县| 溧水县| 临泉县| 沛县| 南江县| 沙河市| 合作市| 新平| 清原| 香河县| 无极县| 长垣县| 肥西县| 古浪县| 简阳市| 呼玛县|