一種融合人像和語音的屏幕視頻生成方法

文檔序號：7808955閱讀：494來源：國知局

一種融合人像和語音的屏幕視頻生成方法
【專利摘要】本發(fā)明公開一種融合人像和語音的屏幕視頻生成方法，屬于計算機多媒體【技術(shù)領域】，包括開啟圖像抓取線程步驟，啟動一個錄音線程步驟、音視頻同步步驟、啟動人臉抓取線程步驟、將人臉圖像加入到屏幕圖像的具體位置，通過替換法或者疊加法將人臉圖像數(shù)據(jù)加入到當前幀屏幕圖像中，生成融合了人像和語音的屏幕視頻步驟，上述融合人像和語音的屏幕視頻生成方法，音視頻同步方法通過使用圖像幀數(shù)目轉(zhuǎn)化到時間，使得總的音頻時間、視頻時間保持一致，進而有效保證音視頻數(shù)據(jù)的嚴格同步，在音視頻同步的基礎上，再通過攝像頭抓取用戶的人像，進而將用戶的人臉(即表情)與語音相結(jié)合，給視頻觀看者更直觀的體驗，提高對屏幕視頻內(nèi)容的理解。
【專利說明】一種融合人像和語音的屏幕視頻生成方法

【技術(shù)領域】
[0001] 本發(fā)明涉及一種融合人像和語音的屏幕視頻生成方法，屬于計算機多媒體技術(shù)領域。

【背景技術(shù)】
[0002] 當前國內(nèi)外屏幕截取軟件應用比較普遍，主要使用在教育教學、或用于電腦的屏幕監(jiān)控上。有名的軟件或系統(tǒng)有EZvid、BlueBerry、Screenr和CamStudio,以及屏幕錄像專家、網(wǎng)絡監(jiān)控軟件"第三只眼"等等。這些軟件都能將計算機屏幕動態(tài)圖像錄制為視頻文件，同時包含同步錄制的環(huán)境聲音。無論是錄制教學錄像、還是作為監(jiān)控使用，現(xiàn)有的軟件或系統(tǒng)都存在一種不足：就是缺少電腦用戶的人像錄制、以及將錄制的人像編輯進入屏幕視頻文件中。而這個實際上是一個很重要的功能，這是因為無論是教學還是監(jiān)控，當電腦用戶說話的聲音錄入后，通常由于環(huán)境噪聲不一定較小，所以辨聽用戶的語音有時會有困難。這時候如果有人臉說話表情的錄入就會起到幫助理解的作用。而現(xiàn)在由于筆記本電腦、上網(wǎng)本、平板電腦、以及智能手機的使用的普遍性，為實現(xiàn)這樣的融入人像的屏幕視頻提供了可能。眾所周知這類設備的顯示屏上方均配有攝像頭，它可以供在錄制屏幕的同時抓取用戶的人臉。
[0003] 有鑒于此，本發(fā)明人對此進行研究，專門開發(fā)出一種融合人像和語音的屏幕視頻生成方法，本案由此產(chǎn)生。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提供一種融合人像和語音的屏幕視頻生成方法，在音視頻同步的基礎上，再通過攝像頭抓取用戶的人像，進而將用戶的人臉（即表情）與語音相結(jié)合，給視頻觀看者更直觀的體驗，提高對屏幕視頻內(nèi)容的理解。
[0005] 為了實現(xiàn)上述目的，本發(fā)明的解決方案是：
[0006] -種融合人像和語音的屏幕視頻生成方法，包括如下步驟：
[0007] 1)開啟圖像抓取線程：按照預定幀率時間間隔捕獲屏幕圖像，然后通過視頻編解碼庫進行編碼，最后把視頻碼流存入視頻文件；
[0008] 2)在開啟圖像抓取線程的同時啟動一個錄音線程：抓取音頻數(shù)據(jù)，然后通過音頻編解碼庫進行編碼，最后把音頻碼流寫入視頻文件；
[0009] 3)音視頻同步以音頻為基準，錄音線程每向視頻文件寫入一塊音頻數(shù)據(jù)的碼流時，根據(jù)音頻采樣頻率以及音頻數(shù)據(jù)塊錄音塊長度計算得到該視頻文件的絕對時間T，所述絕對時間T即為視頻文件播放時從文件開始到當前音頻數(shù)據(jù)段的累計播放時間；
[0010] 4)基于視頻文件的絕對時間T，根據(jù)預設的視頻幀率參數(shù)，計算得到截止到當前時刻的圖像幀的數(shù)目a，a即為保持同步的幀數(shù)的理想值；然后從圖像抓取線程里查詢得到該線程到目前為止往視頻文件寫入的圖像幀數(shù)目b，倘若a〈b，則表示目前寫入文件的圖像幀過多，應在圖像抓取線程中暫停往視頻文件里寫一次圖像；倘若a > b，則圖像抓取線程正常執(zhí)行往視頻文中件寫入一幀圖像碼流，實現(xiàn)音頻和視頻的同步，步驟3)和4)所述的處理過程伴隨圖像抓取線程和錄音線程這兩個線程的生命期全程。
[0011] 5)啟動人臉抓取線程：開啟攝像頭并捕獲屏幕正前方的環(huán)境圖像，對該圖像調(diào)用人臉檢測函數(shù)得到用戶人臉的包圍盒，提取出包圍盒內(nèi)的人臉圖像數(shù)據(jù)；
[0012] 6)確定步驟5)提取的人臉圖像加入到屏幕圖像的具體位置，通過替換法或者疊加法將人臉圖像數(shù)據(jù)加入到當前幀屏幕圖像中，生成融合了人像和語音的屏幕視頻。
[0013] 上述步驟3)所述的絕對時間T (秒）是通過音頻采集來計算的：
[0014] T = BlkNum*BlkLen/SR
[0015] 其中，BlkLen是每一次抓取的錄音數(shù)據(jù)塊的長度（即樣本數(shù)），是系統(tǒng)設計時預先定義的，BlkNum是迄今為止抓取錄音數(shù)據(jù)塊的次數(shù)（即音頻線程被調(diào)用的次數(shù)），SR是音頻采樣率（即樣本數(shù)/秒），也是系統(tǒng)設計時預定義的。
[0016] 上述步驟4)所述的圖像幀的數(shù)目a = T/fps，
[0017] 其中，fps是巾貞率（frames per second)，是系統(tǒng)預設參數(shù)。
[0018] 作為優(yōu)選，為了避免人臉對屏幕的長時間遮擋，也為了免除不說話狀態(tài)下的人臉表情對理解屏幕的無助性，步驟5)人臉抓取的時機應該選擇在有語音活動的時段，這個機制稱為語音驅(qū)動的人臉檢測，在步驟2)開啟錄音線程后，需同時啟動語音活動檢測（Voice Activity Detection,語音活動檢測，簡稱VAD)，具體過程為：通過語音活動檢測對錄音線程中的錄音進行檢查，當檢測到有語音時，則先向人臉抓取線程發(fā)出人臉抓取通知，再進行音頻編碼，如果沒有檢測到有語音，則直接進行音頻編碼。
[0019] 作為優(yōu)選，上述步驟6)通過固定位置法確定人臉圖像加入到屏幕圖像的具體位置，選用屏幕的左上、右上、左下、右下四個位置中的其中一個地方加入人臉圖像。
[0020] 作為優(yōu)選，上述步驟6)通過距離鼠標位置最遠法確定人臉圖像加入到屏幕圖像的具體位置，距離鼠標位置最遠法即：在屏幕上取到當前幀鼠標位置最遠的點加入人臉圖像。采用該方法的理由是鼠標位置往往是用戶在屏幕上的注意力的聚焦處，采用該方法必須事先知道當前鼠標的位置，對于平板電腦、觸摸屏智能手機則需要知道歷史上距離當前最近時刻的指觸點位置，為此，在圖像抓取線程、錄音線程和人臉抓取線程啟動的同時，鼠標位置查詢線程也隨之開啟，捕獲鼠標或指觸點的位置，并把位置實時通知給視頻編輯模塊。
[0021] 作為優(yōu)選，上述步驟6)所述的替換法是用人臉數(shù)據(jù)取代在屏幕圖像對應位置的像素值；疊加法采用加權(quán)系數(shù)對給定的位置上一對人臉和屏幕數(shù)據(jù)進行加權(quán)求和，用和值替換該位置上的屏幕圖像的數(shù)據(jù)，加權(quán)系數(shù)通常被稱為阿爾法透明系數(shù)。
[0022] 上述融合人像和語音的屏幕視頻生成方法，步驟1)-步驟4)音視頻同步方法通過使用圖像幀數(shù)目轉(zhuǎn)化到時間，使得總的音頻時間、視頻時間保持一致，進而有效保證音視頻數(shù)據(jù)的嚴格同步，在音視頻同步的基礎上，再通過攝像頭抓取用戶的人像，進而將用戶的人臉（即表情）與語音相結(jié)合，給視頻觀看者更直觀的體驗，提高對屏幕視頻內(nèi)容的理解。
[0023] 以下結(jié)合附圖及具體實施例對本發(fā)明做進一步詳細描述。

【專利附圖】

【附圖說明】
[0024] 圖1為實施例1的融合人像和語音的屏幕視頻生成方法流程圖；
[0025] 圖2為實施例2的融合人像和語音的屏幕視頻生成方法流程圖。

【具體實施方式】
[0026] 本實施例中提到的視頻幀率定義為：每一秒圖像幀數(shù)目；
[0027] 音頻采樣率定義為：音頻模數(shù)轉(zhuǎn)換時每一秒采樣的樣本數(shù)目；
[0028] 音頻數(shù)據(jù)塊錄音長度定義為：錄音線程每一次從聲卡錄音緩沖里讀取的數(shù)據(jù)長度或樣本數(shù)目，該長度用采樣率可以換算成代表時間長度。
[0029] 實施例1
[0030] 一種融合人像和語音的屏幕視頻生成方法，如圖1所示，包括如下步驟：
[0031] 步驟101、首先開啟圖像抓取線程：按照預設的視頻幀率時間間隔捕獲屏幕圖像，然后調(diào)用設備上預裝的視頻編解碼庫進行編碼，最后把視頻碼流存入視頻文件；
[0032] 步驟201、在開啟圖像抓取線程的同時啟動一個錄音線程：抓取音頻數(shù)據(jù)，然后調(diào) 用設備上預裝的音頻編解碼庫進行編碼，最后把音頻碼流寫入視頻文件；
[0033] 步驟301、音視頻同步以音頻為基準，錄音線程每向視頻文件寫入一塊音頻數(shù)據(jù)的碼流時，根據(jù)音頻采樣頻率以及音頻數(shù)據(jù)錄音塊長度的累積值計算得到該視頻文件的絕對時間T，所述絕對時間T即為視頻文件播放時從文件開始到當前音頻數(shù)據(jù)段的累積播放時間；
[0034] 上述絕對時間T (秒）是通過音頻采集來計算的：
[0035] T = BlkNum*BlkLen/SR，
[0036] BlkLen是每一次抓取的錄音數(shù)據(jù)塊的長度（即樣本數(shù)），BlkNum是迄今為止抓取錄音數(shù)據(jù)塊的次數(shù)（即音頻線程被調(diào)用的次數(shù)），SR是音頻采樣率（即樣本數(shù)/秒）。
[0037] 步驟401、基于視頻文件的絕對時間，根據(jù)預設的視頻幀率參數(shù)，計算得到截止到當前時刻的圖像幀的數(shù)目a，a即為保持同步的幀數(shù)的理想值；然后從圖像抓取線程里查詢得到該線程到目前為止往視頻文件寫入的圖像幀數(shù)目b，倘若a〈b，則表示目前寫入文件的圖像幀過多，應在圖像抓取線程中暫停往視頻文件里寫一次圖像；倘若a > b，則圖像抓取線程正常執(zhí)行往視頻文中件寫入一幀圖像碼流，實現(xiàn)音視頻同步，步驟3)和4)所述的處理過程伴隨圖像抓取線程和錄音線程這兩個線程的生命期全程。
[0038] 上述步驟4)所述的圖像幀的數(shù)目a = T/fps，
[0039] fps是巾貞率（frames per second)，是系統(tǒng)預設參數(shù)。
[0040] 步驟501、啟動人臉抓取線程：開啟攝像頭并捕獲屏幕正前方的環(huán)境圖像，對該圖像調(diào)用人臉檢測函數(shù)得到用戶人臉的包圍盒，提取出包圍盒內(nèi)的人臉圖像數(shù)據(jù)；為了避免人臉對屏幕的長時間遮擋，也為了免除不說話狀態(tài)下的人臉表情對理解屏幕的無助性，步驟501人臉抓取的時機應該選擇在有語音活動的時段，這個機制稱為語音驅(qū)動的人臉檢測，在步驟201開啟錄音線程后，需同時啟動語音活動檢測（Voice Activity Detection, 語音活動檢測，簡稱VAD)，具體過程為：通過語音活動檢測對錄音線程中的錄音進行檢查，當檢測到有語音時，則先向人臉抓取線程發(fā)出人臉抓取通知，再進行音頻編碼，如果沒有檢測到有語音，則直接進行音頻編碼。
[0041] 步驟601、確定步驟501提取的人臉圖像通過固定位置法確定人臉圖像加入到屏幕圖像的具體位置，再通過替換法將人臉圖像數(shù)據(jù)加入到當前幀屏幕圖像中，生成融合了人像和語音的屏幕視頻。所述固定位置法為：選用屏幕的左上、右上、左下、右下四個位置中的其中一個地方加入人臉圖像。所述替換法是用人臉數(shù)據(jù)取代在屏幕圖像對應位置的像素值。
[0042] 現(xiàn)有音視頻錄制方式主要基于各類硬件設備（比如DV)進行工作，音視頻的同步由圖像和音頻采集電路芯片的內(nèi)置驅(qū)動軟件完成，主要通過硬件時鐘控制音頻視頻電路進行數(shù)據(jù)采集，由于硬件相比于軟件的良好的實時性使得兩路信號同步很容易得到保證。而屏幕錄制由于操作系統(tǒng)的多線程、多任務機制必須要令兩個工作線程同步才能使得獲取的數(shù)據(jù)同步，本實施例所述的步驟101-步驟401音視頻同步方法通過使用圖像幀數(shù)目轉(zhuǎn)化到時間，使得總的音頻時間、視頻時間保持一致，進而有效保證音視頻數(shù)據(jù)的嚴格同步。上述融合人像和語音的屏幕視頻生成方法，在音視頻同步的基礎上，通過攝像頭抓取用戶的人像，進而將用戶的人臉（即表情）與語音相結(jié)合，給視頻觀看者更直觀的體驗，提高對屏幕視頻內(nèi)容的理解。
[0043] 實施例2
[0044] 實施例2所述的一種融合人像和語音的屏幕視頻生成方法，其步驟101-步驟501 同實施例1，其與實施例1的主要區(qū)別在于，所述步驟601通過距離鼠標位置最遠法確定人臉圖像加入到屏幕圖像的具體位置，再通過疊加法將人臉圖像數(shù)據(jù)加入到當前幀屏幕圖像中，生成融合了人像和語音的屏幕視頻，其中，所述距離鼠標位置最遠法即：在屏幕上取到當前幀鼠標位置最遠的點加入人臉圖像。采用該方法的理由是鼠標位置往往是用戶在屏幕上的注意力的聚焦處，采用該方法必須事先知道當前鼠標的位置，對于平板電腦、觸摸屏智能手機則需要知道歷史上距離當前最近時刻的指觸點位置，為此，在圖像抓取線程、錄音線程和人臉抓取線程啟動的同時，步驟701鼠標位置查詢線程也隨之開啟，捕獲鼠標或指觸點的位置，并把位置實時通知給視頻編輯模塊。所述疊加法采用加權(quán)系數(shù)對給定的位置上一對人臉和屏幕數(shù)據(jù)進行加權(quán)求和，用和值替換該位置上的屏幕圖像的數(shù)據(jù)，加權(quán)系數(shù)通常被稱為阿爾法透明系數(shù)。
[0045] 上述實施例和圖式并非限定本發(fā)明的產(chǎn)品形態(tài)和式樣，任何所屬【技術(shù)領域】的普通技術(shù)人員對其所做的適當變化或修飾，皆應視為不脫離本發(fā)明的專利范疇。
【權(quán)利要求】
1. 一種融合人像和語音的屏幕視頻生成方法，其特征在于包括如下步驟： 1) 開啟圖像抓取線程：按照預定幀率時間間隔捕獲屏幕圖像，然后通過視頻編解碼庫進行編碼，最后把視頻碼流存入視頻文件； 2) 在開啟圖像抓取線程的同時啟動一個錄音線程：抓取音頻數(shù)據(jù)，然后通過音頻編解碼庫進行編碼，最后把音頻碼流寫入視頻文件； 3) 音視頻同步以音頻為基準，錄音線程每向視頻文件寫入一塊音頻數(shù)據(jù)的碼流時，根據(jù)音頻采樣頻率以及音頻數(shù)據(jù)塊錄音塊長度計算得到該視頻文件的絕對時間T，所述絕對時間T即為視頻文件播放時從文件開始到當前音頻數(shù)據(jù)段的累計播放時間； 4) 基于視頻文件的絕對時間T，根據(jù)預設的視頻幀率參數(shù)，計算得到截止到當前時刻的圖像幀的數(shù)目a，a即為保持同步的幀數(shù)的理想值；然后從圖像抓取線程里查詢得到該線程到目前為止往視頻文件寫入的圖像幀數(shù)目b，倘若a〈b，則表示目前寫入文件的圖像幀過多，應在圖像抓取線程中暫停往視頻文件里寫一次圖像；倘若a > b，則圖像抓取線程正常執(zhí)行往視頻文中件寫入一幀圖像碼流，實現(xiàn)音頻和視頻的同步，步驟3)和4)所述的處理過程伴隨圖像抓取線程和錄音線程這兩個線程的生命期全程。 5) 啟動人臉抓取線程：開啟攝像頭并捕獲屏幕正前方的環(huán)境圖像，對該圖像調(diào)用人臉檢測函數(shù)得到用戶人臉的包圍盒，提取出包圍盒內(nèi)的人臉圖像數(shù)據(jù)； 6) 確定步驟5)提取的人臉圖像加入到屏幕圖像的具體位置，通過替換法或者疊加法將人臉圖像數(shù)據(jù)加入到當前幀屏幕圖像中，生成融合了人像和語音的屏幕視頻。
2. 如權(quán)利要求1所述的一種融合人像和語音的屏幕視頻生成方法，其特征在于：上述步驟3) 所述的絕對時間T(秒）是通過音頻采集來計算的： T = BlkNum*BlkLen/SR, 其中，BlkLen是每一次抓取的錄音數(shù)據(jù)塊的長度，BlkNum是迄今為止抓取錄音數(shù)據(jù)塊的次數(shù)，SR是音頻采樣率。
3. 如權(quán)利要求2所述的一種融合人像和語音的屏幕視頻生成方法，其特征在于：上述步驟4) 所述的圖像巾貞的數(shù)目a = T/fps，其中，fps是巾貞率。
4. 如權(quán)利要求1所述的一種融合人像和語音的屏幕視頻生成方法，其特征在于：步驟 5)人臉抓取的時機應該選擇在有語音活動的時段，這個機制稱為語音驅(qū)動的人臉檢測，在步驟2)開啟錄音線程后，同時啟動語音活動檢測，具體過程為：通過語音活動檢測對錄音線程中的錄音進行檢查，當檢測到有語音時，則先向人臉抓取線程發(fā)出人臉抓取通知，再進行音頻編碼，如果沒有檢測到有語音，則直接進行音頻編碼。
5. 如權(quán)利要求1所述的一種融合人像和語音的屏幕視頻生成方法，其特征在于：上述步驟6)通過固定位置法確定人臉圖像加入到屏幕圖像的具體位置：選用屏幕的左上、右上、左下、右下四個位置中的其中一個地方加入人臉圖像。
6. 如權(quán)利要求1所述的一種融合人像和語音的屏幕視頻生成方法，其特征在于：上述步驟6)通過距離鼠標位置最遠法確定人臉圖像加入到屏幕圖像的具體位置，距離鼠標位置最遠法即：在屏幕上取到當前幀鼠標位置最遠的點加入人臉圖像，在圖像抓取線程、錄音線程和人臉抓取線程啟動的同時，鼠標位置查詢線程也隨之開啟，捕獲鼠標或指觸點的位置，并把位置實時通知給視頻編輯模塊。
7.如權(quán)利要求1所述的一種融合人像和語音的屏幕視頻生成方法，其特征在于：上述步驟6)所述的替換法是用人臉數(shù)據(jù)取代在屏幕圖像對應位置的像素值；疊加法采用加權(quán) 系數(shù)對給定的位置上一對人臉和屏幕數(shù)據(jù)進行加權(quán)求和，用和值替換該位置上的屏幕圖像的數(shù)據(jù)，加權(quán)系數(shù)通常被稱為阿爾法透明系數(shù)。
【文檔編號】H04N5/265GK104092957SQ201410337865
【公開日】2014年10月8日申請日期:2014年7月16日優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】陸成剛, 洪榛, 田茂利, 杜煥強, 俞珊珊, 黃蒙申請人:浙江航天長峰科技發(fā)展有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陸成剛;洪榛;田茂利;杜煥強;俞珊珊;黃蒙
技術(shù)所有人：浙江航天長峰科技發(fā)展有限公司
我是此專利的發(fā)明人

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

融合通信綜合語音相關(guān)技術(shù)

語音融合相關(guān)技術(shù)

融合通信綜合語音10元相關(guān)技術(shù)

融合通訊綜合語音相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種融合人像和語音的屏幕視頻生成方法