本發(fā)明實施例涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種視頻圖像的處理方法、裝置和終端設(shè)備。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,文字、圖片和視頻等皆可以視頻的形式實現(xiàn)在視頻直播平臺中直播。視頻直播平臺中的視頻通常以人物為主角(單一人物或少量人物),在人物的后方是視頻的背景區(qū)域。
然而,現(xiàn)有的視頻直播平臺中視頻的背景區(qū)域是固定不變的,而且固定不變的背景區(qū)域無法吸引觀眾的注意,甚至?xí)σ曨l直播的內(nèi)容產(chǎn)生影響。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了視頻圖像的處理技術(shù)方案。
根據(jù)本發(fā)明實施例的一個方面,提供了一種視頻圖像的處理方法,包括:檢測視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對象;采用計算機繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對象,以使所述業(yè)務(wù)對象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述檢測視頻圖像中的背景區(qū)域包括:通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測所述視頻圖像的背景區(qū)域。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述對所述卷積神經(jīng)網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練包括:獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;對所述特征向量進行卷積處理,獲取特征向量卷積結(jié)果;對所述特征向量卷積結(jié)果進行放大處理;判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;若滿足,則完成對所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若不滿足,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述對所述特征向量卷積結(jié)果進行放大處理包括:通過對所述特征向量卷積結(jié)果進行雙線性插值,放大所述特征向量卷積結(jié)果。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述對所述特征向量卷積結(jié)果進行放大處理包括:將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對應(yīng)的圖像的大小與原始圖像大小一致。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件包括:使用設(shè)定的損失函數(shù)計算放大后的所述特征向量卷積結(jié)果和設(shè)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述方法還包括:獲取測試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對所述測試樣本圖像進行前背景區(qū)域的預(yù)測;檢驗預(yù)測的前背景區(qū)域是否正確;若不正確,則使用所述測試樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述使用所述測試樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練包括:從所述測試樣本圖像中獲取前背景區(qū)域預(yù)測不正確的樣本圖像;使用預(yù)測不正確的樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練,其中,對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練的所述預(yù)測不正確的樣本圖像包含有前景信息和背景信息。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述獲取待訓(xùn)練的樣本圖像的特征向量之前,所述方法還包括:將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,所述方法還包括:確定所述視頻流的多個關(guān)鍵幀的圖像為樣本圖像,對所述樣本圖像進行前景區(qū)域和背景區(qū)域的標(biāo)注。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述方法還包括:獲取待顯示的所述業(yè)務(wù)對象。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述獲取待顯示的所述業(yè)務(wù)對象包括:從預(yù)定存儲位置獲取所述業(yè)務(wù)對象,或者從視頻源接收所述業(yè)務(wù)對象。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述視頻圖像為直播類視頻圖像。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
根據(jù)本發(fā)明實施例的另一個方面,提供了一種視頻圖像的處理裝置,包括:檢測模塊,用于檢測視頻圖像中的背景區(qū)域;確定模塊,用于確定待顯示的業(yè)務(wù)對象;繪制模塊,用于采用計算機繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對象,以使所述業(yè)務(wù)對象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述檢測模塊,用于通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測所述視頻圖像的背景區(qū)域。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述裝置還包括:訓(xùn)練模塊,用于對所述卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)先訓(xùn)練;所述訓(xùn)練模塊包括:向量獲取模塊,用于獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;卷積獲取模塊,用于對所述特征向量進行卷積處理,獲取特征向量卷積結(jié)果;放大模塊,用于對所述特征向量卷積結(jié)果進行放大處理;判斷模塊,用于判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;執(zhí)行模塊,用于若所述判斷模塊的判斷結(jié)果為滿足收斂條件,則完成對所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若所述判斷模塊的判斷結(jié)果為不滿足收斂條件,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述放大模塊,用于通過對所述特征向量卷積結(jié)果進行雙線性插值,放大所述特征向量卷積結(jié)果。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述放大模塊,用于將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對應(yīng)的圖像的大小與原始圖像大小一致。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述判斷模塊,用于使用設(shè)定的損失函數(shù)計算放大后的所述特征向量卷積結(jié)果和設(shè)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練模塊還包括:預(yù)測模塊,用于獲取測試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對所述測試樣本圖像進行前背景區(qū)域的預(yù)測;檢驗?zāi)K,用于檢驗預(yù)測的前背景區(qū)域是否正確;再訓(xùn)練模塊,用于若所述檢驗?zāi)K的檢驗結(jié)果為不正確,則使用所述測試樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述再訓(xùn)練模塊,用于若所述檢驗?zāi)K的檢驗結(jié)果為不正確,則從所述測試樣本圖像中獲取前背景區(qū)域預(yù)測不正確的樣本圖像;使用預(yù)測不正確的樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練,其中,對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練的所述預(yù)測不正確的樣本圖像包含有前景信息和背景信息。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述待訓(xùn)練的樣本圖像包括至少一個視頻序列的樣本圖像,其中,每個視頻序列的樣本圖像包括時間上連續(xù)的多張圖像。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練模塊還包括:視頻流模塊,用于在所述向量獲取模塊獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練模塊還包括:標(biāo)注模塊,用于在所述視頻流模塊將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定所述視頻流的多個關(guān)鍵幀的圖像為樣本圖像,對所述樣本圖像進行前景區(qū)域和背景區(qū)域的標(biāo)注。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述裝置還包括:獲取模塊,用于獲取待顯示的所述業(yè)務(wù)對象。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述獲取模塊,用于從預(yù)定存儲位置獲取所述業(yè)務(wù)對象,或者從視頻源接收所述業(yè)務(wù)對象。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述視頻圖像為直播類視頻圖像。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
根據(jù)本發(fā)明實施例的再一方面,還提供了一種終端設(shè)備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行前述任一所述的視頻圖像的處理方法對應(yīng)的操作。
根據(jù)本發(fā)明實施例的又一方面,還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有:用于檢測視頻圖像中的背景區(qū)域的可執(zhí)行指令;用于確定待顯示的業(yè)務(wù)對象的可執(zhí)行指令;用于采用計算機繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對象,以使所述業(yè)務(wù)對象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容的可執(zhí)行指令。
根據(jù)本發(fā)明實施例提供的技術(shù)方案,檢測視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對象;采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實現(xiàn)預(yù)想的業(yè)務(wù)對象投放效果。
附圖說明
圖1是根據(jù)本發(fā)明實施例一的視頻圖像的處理方法的步驟流程圖;
圖2是根據(jù)本發(fā)明實施例二的視頻圖像的處理方法的步驟流程圖;
圖3是根據(jù)本發(fā)明實施例三的視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖4是根據(jù)本發(fā)明實施例四的視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖5是根據(jù)本發(fā)明實施例五的終端設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖(若干附圖中相同的標(biāo)號表示相同的元素)和實施例,對本發(fā)明實施例的具體實施方式作進一步詳細(xì)說明。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
本領(lǐng)域技術(shù)人員可以理解,本發(fā)明實施例中的“第一”、“第二”等術(shù)語僅用于區(qū)別不同步驟、設(shè)備或模塊等,既不代表任何特定技術(shù)含義,也不表示它們之間的必然邏輯順序。
實施例一
參照圖1,示出了根據(jù)本發(fā)明實施例一的視頻圖像的處理方法的步驟流程圖??梢栽诶鐖D3所示的視頻圖像的處理裝置或包括該處理裝置的終端設(shè)備中執(zhí)行實施例一的視頻圖像的處理方法。
本實施例的視頻圖像的處理方法包括以下步驟。
步驟s100、檢測視頻圖像中的背景區(qū)域。
本實施例中,視頻圖像可以是直播場景中當(dāng)前正在顯示的視頻圖像;視頻圖像還可以視頻錄制場景中當(dāng)前正在錄制的視頻圖像;視頻圖像又可以是錄制完成的視頻中當(dāng)前播放的視頻圖像等。本實施例對視頻圖像的具體場景以及具體形式不做限制。
本實施例中,可以從視頻圖像中檢測視頻圖像的前景區(qū)域和背景區(qū)域;或者,可以從視頻圖像中直接檢測視頻圖像的背景區(qū)域;或者可以從視頻圖像中檢測視頻圖像的前景區(qū)域,然后將視頻圖像的前景區(qū)域以外的區(qū)域確定為視頻圖像的背景區(qū)域。本實施例對檢測視頻圖像的背景區(qū)域的技術(shù)手段不做限制。
步驟s102、確定待顯示的業(yè)務(wù)對象。
待顯示的業(yè)務(wù)對象用于在后續(xù)繪制的步驟中繪制在視頻圖像的背景區(qū)域,目的是使業(yè)務(wù)對象覆蓋視頻圖像的背景區(qū)域中的原始內(nèi)容。因此,待顯示的業(yè)務(wù)對象可以包括多種形式,本實施例對業(yè)務(wù)對象的具體形式不做限制。例如,待顯示的業(yè)務(wù)對象為包含沙灘場景的圖片a,視頻圖像的背景區(qū)域中的原始內(nèi)容為包含室內(nèi)場景的圖片b。
步驟s104、采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
在確定了背景區(qū)域以后,采用計算機繪圖方式將業(yè)務(wù)對象繪制在視頻圖像的背景區(qū)域。需要說明的是,采用計算機繪圖方式將業(yè)務(wù)對象繪制在視頻圖像的背景區(qū)域即采用計算機繪圖方式將業(yè)務(wù)對象繪制在視頻圖像的整個背景區(qū)域。實現(xiàn)繪制業(yè)務(wù)對象后的背景區(qū)域替換背景區(qū)域的原始內(nèi)容。例如,視頻圖像的背景區(qū)域為一幅室內(nèi)場景圖片,業(yè)務(wù)對象為一幅瀑布圖片,繪制業(yè)務(wù)對象后的背景區(qū)域中顯示的是一幅瀑布圖片,而不是原始的室內(nèi)場景圖片,同時,視頻圖像的前景區(qū)域可以保持不變。
其中,采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象可以通過適當(dāng)?shù)挠嬎銠C圖形圖像繪制或渲染等方式實現(xiàn),包括但不限于:基于opengl圖形繪制引擎進行繪制等。opengl定義了一個跨編程語言、跨平臺的編程接口規(guī)格的專業(yè)的圖形程序接口,其與硬件無關(guān),可以方便地進行2d或3d圖形圖像的繪制。通過opengl,不僅可以實現(xiàn)2d效果如2d貼紙的繪制,還可以實現(xiàn)3d特效的繪制及粒子特效的繪制等等。但不限于opengl,其它方式,如unity或opencl等也同樣適用。
需要說明的是,上述步驟s100和步驟s102之間的執(zhí)行順序可以為先執(zhí)行步驟s100,后執(zhí)行步驟s102;還可以為先執(zhí)行步驟s102,后執(zhí)行步驟s100;或者可以為同時執(zhí)行步驟s100和步驟s102,本實施例對步驟s100和步驟s102的執(zhí)行順序不做限制,本實施例僅以先執(zhí)行步驟s100,后執(zhí)行步驟s102為例進行說明。
通過本實施例提供的視頻圖像的處理方法,檢測視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對象;采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實現(xiàn)預(yù)想的業(yè)務(wù)對象投放效果。
實施例二
參照圖2,示出了根據(jù)本發(fā)明實施例二的視頻圖像的處理方法的步驟流程圖??梢栽诶鐖D4所示的視頻圖像的處理裝置或包括該處理裝置的終端設(shè)備中執(zhí)行實施例二的視頻圖像的處理方法。
本實施例的視頻圖像處理方法可以由任意具有數(shù)據(jù)采集、處理和傳輸功能的設(shè)備執(zhí)行,包括但不限于移動終端和pc等。本實施例以移動終端為例,對本發(fā)明實施例提供的視頻圖像的處理方法進行說明,其它設(shè)備可參照本實施例執(zhí)行。
本實施例重點強調(diào)與上述實施例的不同之處,相同之處可以參照上述實施例的介紹和說明,在此不再贅述。
本實施例的視頻圖像的處理方法包括以下步驟。
步驟s200、獲取待顯示的業(yè)務(wù)對象。
待顯示的業(yè)務(wù)對象用于在后續(xù)繪制的步驟中繪制在視頻圖像的背景區(qū)域,目的是使業(yè)務(wù)對象覆蓋視頻圖像的背景區(qū)域中的原始內(nèi)容。因此,待顯示的業(yè)務(wù)對象可以包括多種形式,具體地,業(yè)務(wù)對象可以為目標(biāo)視頻、目標(biāo)圖像或者目標(biāo)特效中的任意一種。例如,目標(biāo)視頻可以為景象視頻,既可以為錄制完畢的景象視頻,又可以為正在直播的景象視頻;目標(biāo)視頻還可以為體育視頻,既可以為錄制完畢的體育視頻,又可以為正在直播的體育視頻。本實施例對目標(biāo)視頻的具體形式和內(nèi)容不做限制。目標(biāo)特效可以為包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效等等。
本步驟中,獲取待顯示的業(yè)務(wù)對象包括:從預(yù)定存儲位置獲取業(yè)務(wù)對象,或者從視頻源接收業(yè)務(wù)對象。例如,業(yè)務(wù)對象存儲在移動終端本地,可以從移動終端本地直接讀取業(yè)務(wù)對象,本地存儲的業(yè)務(wù)對象可以為上述介紹的目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效中的任意一種或者幾種;當(dāng)業(yè)務(wù)對象為目標(biāo)視頻時,可以從視頻源接收目標(biāo)視頻,若目標(biāo)視頻為直播視頻,則可以從直播攝影機接收直播視頻。
步驟s202、通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測視頻圖像的背景區(qū)域。
本實施例中,使用已訓(xùn)練好的、用于分割視頻圖像中的前景區(qū)域和背景區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)模型,對視頻圖像進行檢測,確定其背景區(qū)域。用于分割視頻圖像中的前景區(qū)域和背景區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)模型通過標(biāo)注有前景區(qū)域和背景區(qū)域的樣本圖像進行訓(xùn)練后,能夠準(zhǔn)確且高效地確定視頻圖像中的前景區(qū)域和背景區(qū)域。
當(dāng)需要預(yù)先訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型時,一種可行的訓(xùn)練方式包括以下過程:
(1)獲取待訓(xùn)練的樣本圖像的特征向量。
其中,待訓(xùn)練的樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像,也即,待訓(xùn)練的樣本圖像為已標(biāo)記了前景區(qū)域和背景區(qū)域的樣本圖像。本實施例中,前景區(qū)域可以為圖像主體所在區(qū)域,例如人物所在區(qū)域;背景區(qū)域可以為除了主體所在區(qū)域外的其它區(qū)域,可以是其它區(qū)域中的全部或者部分。
在一種優(yōu)選的實施方式中,待訓(xùn)練的樣本圖像可以包括至少一個視頻流的多幀樣本圖像。因此,在此方式中,在獲取待訓(xùn)練的樣本圖像的特征向量之前,還需要將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型。在實現(xiàn)時,一種可行方式包括:先確定視頻流的多個關(guān)鍵幀的圖像為樣本圖像,對這些樣本圖像進行前景區(qū)域和背景區(qū)域的標(biāo)注;在此基礎(chǔ)上,將進行了標(biāo)注的樣本圖像進行組合,再將組合后的包括多幀進行了標(biāo)注的樣本圖像的視頻流輸入卷積網(wǎng)絡(luò)模型。其中,對視頻流抽取關(guān)鍵幀,并對抽取的關(guān)鍵幀進行標(biāo)注均可以由本領(lǐng)域技術(shù)人員采用任意適當(dāng)?shù)姆绞綄崿F(xiàn),如通過均勻采樣的方式抽取關(guān)鍵幀等。在抽取了關(guān)鍵幀后,可以結(jié)合視頻上下文對抽取的關(guān)鍵幀標(biāo)注區(qū)分前景和背景,得到精確的標(biāo)注邊界。將進行了標(biāo)注后的樣本圖像作為待訓(xùn)練的樣本圖像,提取其特征向量。
此外,本步驟中,對特征向量的提取可以采用相關(guān)技術(shù)中的適當(dāng)方式實現(xiàn),本實施例在此不再贅述。
(2)對特征向量進行卷積處理,獲取特征向量卷積結(jié)果。
獲取的特征向量卷積結(jié)果中包含有用于分辨視頻圖像的前景區(qū)域和背景區(qū)域的信息。
對特征向量的卷積處理次數(shù)可以根據(jù)實際需要進行設(shè)定,也即,卷積網(wǎng)絡(luò)模型中,卷積層的層數(shù)根據(jù)實際需要進行設(shè)置,最終的特征向量卷積結(jié)果滿足獲得的特征能夠足夠表征區(qū)分前景和背景的標(biāo)準(zhǔn)(如交并比大于90%)即可。
卷積結(jié)果是對特征向量進行了特征提取后的結(jié)果,該結(jié)果能夠有效表征視頻圖像中前景區(qū)域和背景區(qū)域的特征和分類。
(3)對特征向量卷積結(jié)果進行放大處理。
一種可行方式中,對特征向量卷積結(jié)果的放大可以采用線性插值的方式,包括但不限于線性插值、雙線性插值、三線性插值等。其中,具體的線性插值公式可以由本領(lǐng)域技術(shù)人員根據(jù)實際需要采用適當(dāng)?shù)墓?,本實施例對此不做限制。?yōu)選地,可以通過對特征向量卷積結(jié)果進行雙線性插值來放大特征向量卷積結(jié)果。通過對特征向量卷積結(jié)果進行放大處理,可以得到與用于訓(xùn)練的原始圖像同樣大小的輸出圖像,獲得每一個像素點的特征信息,以更為精確地確定圖像的前景區(qū)域和背景區(qū)域。同時,通過對卷積處理后的特征向量的放大處理,卷積神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)到一個較為準(zhǔn)確的放大系數(shù),基于該放大系數(shù)和放大后的特征向量,可以減少卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)調(diào)整和計算量,降低卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練成本,提高訓(xùn)練效率,縮短訓(xùn)練時間。
本實施例中,在獲得特征向量卷積結(jié)果后,通過線性插值層對特征向量卷積結(jié)果進行雙線性插值,以放大卷積處理后的圖像特征,并得到的原始圖像同樣大小(圖像長寬相同)的輸出。需要說明的是,本實施例中對雙線性插值的具體實現(xiàn)手段不做限制。
(4)判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。
其中,收斂條件可以由本領(lǐng)域技術(shù)人員根據(jù)實際需求適當(dāng)設(shè)定。當(dāng)滿足收斂條件時,可以認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)設(shè)置適當(dāng);當(dāng)不能滿足收斂條件時,可以認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)設(shè)置不適當(dāng),需要對其進行調(diào)整,該調(diào)整是一個迭代的過程,直至使用調(diào)整后的參數(shù)(如,卷積核的值、層間輸出線性變化的權(quán)重,等等)對特征向量進行卷積處理的結(jié)果滿足收斂條件。
本實施例中,在通過線性插值層對特征向量卷積結(jié)果進行放大后,在損失層使用損失函數(shù)對其進行計算,進而根據(jù)計算結(jié)果確定是否滿足收斂條件。也即,使用設(shè)定的損失函數(shù)計算放大后的特征向量卷積結(jié)果的損失值;根據(jù)損失值判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。其中,損失層和損失函數(shù)可以根據(jù)實際情況由本領(lǐng)域技術(shù)人員適當(dāng)設(shè)定,如通過softmax函數(shù)或者logistic函數(shù)等。通過損失函數(shù)對特征向量卷積結(jié)果進行計算,獲得損失值。在獲得損失值后,一種可行方式中,可以根據(jù)該損失值確定本次訓(xùn)練結(jié)果是否滿足收斂條件,如該損失值是否小于或等于設(shè)定閾值;另一種可行方式中,可判斷對該損失值的計算是否已達(dá)到設(shè)定次數(shù),也即,在本次訓(xùn)練中對卷積神經(jīng)網(wǎng)絡(luò)模型的迭代訓(xùn)練次數(shù)是否已達(dá)到設(shè)定次數(shù),如達(dá)到則滿足收斂條件。其中,設(shè)定閾值可由本領(lǐng)域技術(shù)人員根據(jù)實際需要適當(dāng)設(shè)置,本發(fā)明實施例對此不做限制。
需要說明的是,當(dāng)輸入的是視頻流中的多幀圖像時,損失層的損失函數(shù)也可以同時對該視頻流中的多幀圖像進行損失值計算,同時輸出多幀的結(jié)果,使卷積神經(jīng)網(wǎng)絡(luò)模型在得到視頻上更加穩(wěn)定的結(jié)果的同時,通過多幀圖像的并行計算,提升計算效率。
(5)若滿足收斂條件,則完成對卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若不滿足收斂條件,則根據(jù)放大后的特征向量卷積結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足收斂條件。
通過對卷積神經(jīng)網(wǎng)絡(luò)模型進行上述訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)模型可以對視頻圖像的圖像特征進行特征提取和分類,從而具有確定視頻圖像中的前景區(qū)域和背景區(qū)域的功能。在后續(xù)應(yīng)用中,可以使用該卷積神經(jīng)網(wǎng)絡(luò)模型識別出視頻圖像中的背景區(qū)域,進而在該背景區(qū)域顯示業(yè)務(wù)對象。
為了使訓(xùn)練的結(jié)果更為精準(zhǔn),在一種優(yōu)選的實施方式中,可以通過測試樣本測試該訓(xùn)練出的卷積神經(jīng)網(wǎng)絡(luò)模型是否準(zhǔn)確,進而根據(jù)測試結(jié)果決定使用該卷積神經(jīng)網(wǎng)絡(luò)模型還是對該卷積神經(jīng)網(wǎng)絡(luò)模型進行再訓(xùn)練。在此方式中,在完成了對卷積神經(jīng)網(wǎng)絡(luò)模型的初步訓(xùn)練后,還可以獲取測試樣本圖像,使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對測試樣本圖像進行前背景區(qū)域的預(yù)測,其中,測試樣本圖像為未進行任何標(biāo)注的樣本圖像;進而,檢驗預(yù)測的前背景區(qū)域是否正確;若不正確,則對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練;若正確,則可以確定使用該卷積神經(jīng)網(wǎng)絡(luò)模型進行視頻圖像的前背景確定,或者,為了使卷積神經(jīng)網(wǎng)絡(luò)模型更為精準(zhǔn),再獲取其它測試樣本圖像進行測試;或者,使用與原訓(xùn)練樣本圖像不同的樣本圖像進行再次訓(xùn)練。
當(dāng)通過測試樣本檢驗到使用卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測的前背景區(qū)域不正確時,需要對該卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。在一種再次訓(xùn)練方式中,可以僅使用從測試樣本圖像中獲取的前背景區(qū)域預(yù)測不正確的樣本圖像作為再次訓(xùn)練使用的樣本圖像;然后,使用這些預(yù)測不正確的樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。這些進行再次訓(xùn)練的樣本在用于首次訓(xùn)練前,進行了前背景信息的標(biāo)注。如,在這些樣本中標(biāo)注出前景區(qū)域和背景區(qū)域。通過將預(yù)測不正確的樣本作為一個新的樣本圖像集對卷積神經(jīng)網(wǎng)絡(luò)進行再訓(xùn)練,不僅使得訓(xùn)練更有針對性,也大大節(jié)約了訓(xùn)練成本。當(dāng)然,不限于此,在實際使用中,也可以使用其它進行了前背景標(biāo)注的樣本圖像進行訓(xùn)練。
此外,在一種優(yōu)選方式中,訓(xùn)練的卷積網(wǎng)絡(luò)模型為全卷積網(wǎng)絡(luò)模型,與具有全連接層的卷積網(wǎng)絡(luò)模型相比,采用全卷積網(wǎng)絡(luò)模型所需的卷積層參數(shù)少,訓(xùn)練速度更快。
本實施例中,一種具體的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)的簡要說明如下:
(1)輸入層
例如,可以輸入待訓(xùn)練的樣本圖像的特征向量,該特征向量中包含有樣本圖像的背景區(qū)域的信息,或者,該特征向量中包含有樣本圖像的前景區(qū)域的信息和背景區(qū)域的信息。
(2)卷積層
//第一階段,對待訓(xùn)練的樣本圖像的特征向量進行卷積處理,獲得卷積結(jié)果。
2.<=1卷積層1_1(3x3x64)
3.<=2非線性響應(yīng)relu層
4.<=3卷積層1_2(3x3x64)
5.<=4非線性響應(yīng)relu層
6.<=5池化層(3x3/2)
7.<=6卷積層2_1(3x3x128)
8.<=7非線性響應(yīng)relu層
9.<=8卷積層2_2(3x3x128)
10.<=9非線性響應(yīng)relu層
11.<=10池化層(3x3/2)
12.<=11卷積層3_1(3x3x256)
13.<=12非線性響應(yīng)relu層
14.<=13卷積層3_2(3x3x256)
15.<=14非線性響應(yīng)relu層
16.<=15卷積層3_3(3x3x256)
17.<=16非線性響應(yīng)relu層
18.<=17池化層(3x3/2)
19.<=18卷積層4_1(3x3x512)
20.<=19非線性響應(yīng)relu層
21.<=20卷積層4_2(3x3x512)
22.<=21非線性響應(yīng)relu層
23.<=22卷積層4_3(3x3x512)
24.<=23非線性響應(yīng)relu層
25.<=24池化層(3x3/2)
26.<=25卷積層5_1(3x3x512)
27.<=26非線性響應(yīng)relu層
28.<=27卷積層5_2(3x3x512)
29.<=28非線性響應(yīng)relu層
30.<=29卷積層5_3(3x3x512)
31.<=30非線性響應(yīng)relu層
//第二階段,對第一階段獲得的卷積結(jié)果進行插值放大,并進行損失函數(shù)的計算。
32.<=31線性差值層
33.<=32損失層,進行損失函數(shù)的計算
(3)輸出層
第一,在通過前31層的處理獲得特征向量后,線性插值層通過雙線性插值法對前31層處理后的特征向量進行插值,以放大中間層特征,得到和訓(xùn)練的樣本圖像同樣大小(圖像長寬一樣)的輸出圖像。
第二,本實施例中,33層的損失層采用softmax函數(shù)進行處理。一種可行的softmax函數(shù)如下:
其中,x表示輸入的特征,j表示第j類別,y表示輸出的類別,k表示總共類別數(shù),k表示第k類別,wj表示第j類別的分類參數(shù),xt表示x向量的轉(zhuǎn)置,p(y=j(luò)|x)表示給定輸入x,預(yù)測為第j類的概率。
但不限于此,在實際使用中,本領(lǐng)域技術(shù)人員也可以采用其它softmax函數(shù),本發(fā)明實施例對此不做限制。
第三,上述卷積層對特征向量進行的處理是迭代多次進行的,每完成一次,就根據(jù)損失層計算出的結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)(如卷積核的值、層間輸出線性變化的權(quán)重,等等),基于參數(shù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型再進行處理,迭代多次,直至滿足收斂條件。
第四,本實施例中,收斂條件可以是對卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練的次數(shù)達(dá)到最大迭代次數(shù),如10000~20000次。
第五,上述卷積神經(jīng)網(wǎng)絡(luò)模型對于視頻圖像的學(xué)習(xí),可以單幀視頻圖像輸入,也可以通過多幀視頻圖像同時輸入,同時輸出多幀視頻圖像的結(jié)果。即第一層輸入層可以輸入一幀視頻圖像,也可以是一個視頻流,這個視頻流包含多幀視頻圖像。
同樣,最后一層損失層,可以針對一幀視頻圖像計算損失函數(shù),也可以對視頻流的多幀視頻圖像計算損失函數(shù)。
通過視頻流方式的訓(xùn)練和學(xué)習(xí),可以使卷積神經(jīng)網(wǎng)絡(luò)模型得到視頻上更加穩(wěn)定的結(jié)果,同時通過多幀視頻圖像的并行計算,提升計算效率。
其中,可以通過修改輸入層和輸出層的featuremap的大小實現(xiàn)多幀視頻圖像的同時輸入和輸出。
第六,上述卷積網(wǎng)絡(luò)結(jié)構(gòu)的說明中,2.<=1表明當(dāng)前層為第二層,輸入為第一層;卷積層后面括號為卷積層參數(shù)(3x3x64)表明卷積核大小為3x3,通道數(shù)為64;池化層后面括號(3x3/2)表明池化核大小為3x3,間隔為2。其它依此類推,不再贅述。
在上述卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)中,每個卷積層之后都有一個非線性響應(yīng)單元,該非線性響應(yīng)單元采用糾正線性單元relu(rectifiedlinearunits),通過在卷積層后增加上述糾正線性單元,將卷積層的映射結(jié)果盡量稀疏,更接近人的視覺反應(yīng),從而使圖像處理效果更好。
將卷積層的卷積核設(shè)為3x3,能更好的綜合局部信息。
設(shè)定池化層(maxpooling)的步長stride,使上層特征在不增加計算量的前提下獲得更大的視野,同時池化層的步長stride還有增強空間不變性的特征,即允許同樣的輸入出現(xiàn)在不同的圖像位置上,而輸出結(jié)果響應(yīng)相同。
線性差值層可以將之前的特征放大到原圖大小,得到每個像素的預(yù)測值。
綜上所述,該全卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層可以用于信息歸納和融合,最大池化層(maxpooling)主要進行高層信息的歸納,該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以進行微調(diào)來適應(yīng)不同的性能和效率的權(quán)衡。
但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明了的是,上述卷積核的大小、通道數(shù)、池化核的大小、間隔以及卷積層的層數(shù)數(shù)量均為示例性說明,在實際應(yīng)用中,本領(lǐng)域技術(shù)人員可以根據(jù)實際需要進行適應(yīng)性調(diào)整,本發(fā)明實施例對此不做限制。此外,本實施例中的卷積神經(jīng)網(wǎng)絡(luò)模型中的所有層的組合及參數(shù)都是可選的,可以任意組合。
通過本實施例中的卷積神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)了對視頻圖像中前背景區(qū)域的有效分割。
步驟s204、采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
在確定了背景區(qū)域以后,采用計算機繪圖方式將業(yè)務(wù)對象繪制在視頻圖像的背景區(qū)域。需要說明的是,采用計算機繪圖方式將業(yè)務(wù)對象繪制在視頻圖像的背景區(qū)域即采用計算機繪圖方式將業(yè)務(wù)對象繪制在視頻圖像的整個背景區(qū)域。實現(xiàn)繪制業(yè)務(wù)對象后的背景區(qū)域替換背景區(qū)域的原始內(nèi)容。例如,視頻圖像的背景區(qū)域為一幅室內(nèi)場景圖片,業(yè)務(wù)對象為一幅瀑布圖片,繪制業(yè)務(wù)對象后的背景區(qū)域中顯示的是一幅瀑布圖片,而不是原始的室內(nèi)場景圖片,同時,視頻圖像的前景區(qū)域可以保持不變。
步驟s206、發(fā)送在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像。
例如,上述步驟s200-s204在移動終端a上執(zhí)行,可以在移動終端a上顯示在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像,以及/或者發(fā)送在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像至移動終端b、移動終端c、服務(wù)器d等等。
除了上述當(dāng)前設(shè)備直接將在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像發(fā)送至其他設(shè)備以外,還可以直接在其他設(shè)備上繪制業(yè)務(wù)對象。具體可以先獲取到待顯示的業(yè)務(wù)對象,可以獲取業(yè)務(wù)對象本身,還可以獲取業(yè)務(wù)對象的屬性信息,根據(jù)業(yè)務(wù)對象的屬性信息,從業(yè)務(wù)對象的存儲庫中獲取到業(yè)務(wù)對象本身;再繪制業(yè)務(wù)對象在視頻圖像的背景區(qū)域中。其中,業(yè)務(wù)對象的屬性信息可以來源于包括視頻圖像和業(yè)務(wù)對象的屬性信息的傳輸流。
需要說明的是,業(yè)務(wù)對象的存儲庫可以包括當(dāng)前設(shè)備的業(yè)務(wù)對象的存儲庫和其他設(shè)備的業(yè)務(wù)對象的存儲庫。并且,當(dāng)前設(shè)備的業(yè)務(wù)對象的存儲庫和其他設(shè)備的業(yè)務(wù)對象的存儲庫中的業(yè)務(wù)對象本身及業(yè)務(wù)對象的屬性信息保持同步。業(yè)務(wù)對象的屬性信息可以用于標(biāo)識業(yè)務(wù)對象本身,一個業(yè)務(wù)對象的屬性信息可以對應(yīng)著唯一一個業(yè)務(wù)對象本身或者唯一一類業(yè)務(wù)對象本身。例如,業(yè)務(wù)對象的屬性信息可以為具有唯一標(biāo)識的編號等等。
上述各步驟可以應(yīng)用在一種具體的應(yīng)用場景中,例如,主播終端獲取主播直播時的視頻圖像,其中,視頻圖像為直播類視頻圖像。從視頻圖像檢測背景區(qū)域,在主播終端本地獲取業(yè)務(wù)對象或者從第三方攝像機實時接收業(yè)務(wù)對象,采用計算機繪圖方式在視頻圖像的背景區(qū)域繪制業(yè)務(wù)對象,在主播終端上顯示繪制業(yè)務(wù)對象后的視頻圖像,并將繪制業(yè)務(wù)對象后的視頻圖像發(fā)送至服務(wù)器或者粉絲終端,在服務(wù)器進行中轉(zhuǎn)或者存儲,在粉絲終端進行顯示。其中,直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
需要說明的是,上述步驟s200和步驟s202之間的執(zhí)行順序可以為先執(zhí)行步驟s200,后執(zhí)行步驟s202;還可以為先執(zhí)行步驟s202,后執(zhí)行步驟s200;或者可以為同時執(zhí)行步驟s200和步驟s202,本實施例對步驟s200和步驟s202的執(zhí)行順序不做限制,本實施例僅以先執(zhí)行步驟s200,后執(zhí)行步驟s202為例進行說明。
通過本實施例提供的視頻圖像的處理方法,檢測視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對象;采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實現(xiàn)預(yù)想的業(yè)務(wù)對象投放效果。
業(yè)務(wù)對象可以為目標(biāo)視頻、目標(biāo)圖像或者目標(biāo)特效等等,在背景區(qū)域繪制業(yè)務(wù)對象后的視頻圖像,相對于傳統(tǒng)的只包含純粹為圖片形式的背景區(qū)域的視頻圖像,豐富了背景區(qū)域的類型。而且,若在視頻圖像的背景區(qū)域繪制接收到的目標(biāo)視頻,實現(xiàn)了在視頻圖像的背景區(qū)域觀看視頻的效果。若業(yè)務(wù)對象的內(nèi)容與視頻圖像的內(nèi)容具有相關(guān)性,例如,業(yè)務(wù)對象為目標(biāo)視頻,目標(biāo)視頻為自由女神的介紹視頻,主播在視頻圖像中正在介紹自由女神,則繪制業(yè)務(wù)對象后的背景區(qū)域可以作為視頻圖像的輔助顯示,提升了視頻圖像的顯示效果。
除了將在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像在本地顯示之外,還可以將在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像發(fā)送至其他設(shè)備,例如,移動終端、pc、服務(wù)器或者平板電腦等等,可以實現(xiàn)在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像的共享。
實施例三
參照圖3,示出了根據(jù)本發(fā)明實施例三的視頻圖像的處理裝置的結(jié)構(gòu)框圖。
本實施例的視頻圖像的處理裝置包括:檢測模塊300,用于檢測視頻圖像中的背景區(qū)域;確定模塊302,用于確定待顯示的業(yè)務(wù)對象;繪制模塊304,用于采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
通過本實施例提供的視頻圖像的處理裝置,檢測視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對象;采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實現(xiàn)預(yù)想的業(yè)務(wù)對象投放效果。
實施例四
參照圖4,示出了根據(jù)本發(fā)明實施例四的視頻圖像的處理裝置的結(jié)構(gòu)框圖。
本實施例的視頻圖像的處理裝置包括:檢測模塊400,用于檢測視頻圖像中的背景區(qū)域;確定模塊402,用于確定待顯示的業(yè)務(wù)對象;繪制模塊404,用于采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
可選地,檢測模塊400,用于通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測視頻圖像的背景區(qū)域。
可選地,本實施例的視頻圖像的處理裝置還包括:訓(xùn)練模塊406,用于對卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)先訓(xùn)練。訓(xùn)練模塊406包括:向量獲取模塊4060,用于獲取待訓(xùn)練的樣本圖像的特征向量其中,樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;卷積獲取模塊4061,用于對特征向量進行卷積處理,獲取特征向量卷積結(jié)果;放大模塊4062,用于對特征向量卷積結(jié)果進行放大處理;判斷模塊4063,用于判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件;執(zhí)行模塊4064,用于若判斷模塊4063的判斷結(jié)果為滿足收斂條件,則完成對卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若判斷模塊4063的判斷結(jié)果為不滿足收斂條件,則根據(jù)放大后的特征向量卷積結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足收斂條件。
可選地,放大模塊4062,用于通過對特征向量卷積結(jié)果進行雙線性插值,放大特征向量卷積結(jié)果。
可選地,放大模塊4062,用于將特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對應(yīng)的圖像的大小與原始圖像大小一致。
可選地,判斷模塊4063,用于使用設(shè)定的損失函數(shù)計算放大后的特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)損失值判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。
可選地,訓(xùn)練模塊406還包括:預(yù)測模塊4065,用于獲取測試樣本圖像,使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對測試樣本圖像進行前背景區(qū)域的預(yù)測;檢驗?zāi)K4066,用于檢驗預(yù)測的前背景區(qū)域是否正確;再訓(xùn)練模塊4067,用于若檢驗?zāi)K4066的檢驗結(jié)果為不正確,則使用測試樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。
可選地,再訓(xùn)練模塊4067,用于若檢驗?zāi)K4066的檢驗結(jié)果為不正確,則從測試樣本圖像中獲取前背景區(qū)域預(yù)測不正確的樣本圖像;使用預(yù)測不正確的樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練,其中,對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練的預(yù)測不正確的樣本圖像包含有前景信息和背景信息。
可選地,訓(xùn)練模塊406還包括:視頻流模塊4068,用于在向量獲取模塊4060獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,訓(xùn)練模塊406還包括:標(biāo)注模塊4069,用于在視頻流模塊4068將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定視頻流的多個關(guān)鍵幀的圖像為樣本圖像,對樣本圖像進行前景區(qū)域和背景區(qū)域的標(biāo)注。
可選地,卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,業(yè)務(wù)對象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
可選地,本實施例的視頻圖像的處理裝置還包括:獲取模塊408,用于獲取待顯示的業(yè)務(wù)對象。
可選地,獲取模塊408,用于從預(yù)定存儲位置獲取業(yè)務(wù)對象,或者從視頻源接收業(yè)務(wù)對象。
可選地,視頻圖像為直播類視頻圖像。
可選地,直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
本實施例的視頻圖像的處理裝置用于實現(xiàn)前述多個方法實施例中相應(yīng)的視頻圖像的處理方法,并具有相應(yīng)的方法實施例的有益效果,在此不再贅述。
此外,本實施例的視頻圖像的處理裝置可以設(shè)置于適當(dāng)?shù)慕K端設(shè)備中,包括但不限于移動終端、pc等。
實施例五
參照圖5,示出了根據(jù)本發(fā)明實施例五的終端設(shè)備的結(jié)構(gòu)示意圖,本發(fā)明具體實施例并不對終端設(shè)備的具體實現(xiàn)做限定。
如圖5所示,該終端設(shè)備可以包括:處理器(processor)502、通信接口(communicationsinterface)504、存儲器(memory)506、以及通信總線508。
處理器502、通信接口504、以及存儲器506通過通信總線508完成相互間的通信。
通信接口504,用于與其它設(shè)備比如其它客戶端或服務(wù)器等的網(wǎng)元通信。
處理器502,用于執(zhí)行程序510,具體可以執(zhí)行上述方法實施例中的相關(guān)步驟。
具體地,程序510可以包括程序代碼,該程序代碼包括計算機操作指令。
處理器510可能是中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路,或者是圖形處理器gpu(graphicsprocessingunit)。終端設(shè)備包括的一個或多個處理器,可以是同一類型的處理器,如一個或多個cpu,或者,一個或多個gpu;也可以是不同類型的處理器,如一個或多個cpu以及一個或多個gpu。
存儲器506,用于存放程序510。存儲器506可能包含高速ram存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器。
程序510具體可以用于使得處理器502執(zhí)行以下操作:檢測視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對象;采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
在一種可選的實施方式中,程序510還用于使得處理器502通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測視頻圖像的背景區(qū)域。
在一種可選的實施方式中,程序510還用于使得處理器502獲取待訓(xùn)練的樣本圖像的特征向量,其中,樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;對特征向量進行卷積處理,獲取特征向量卷積結(jié)果;對特征向量卷積結(jié)果進行放大處理;判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件;若滿足,則完成對卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若不滿足,則根據(jù)放大后的特征向量卷積結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足收斂條件。
在一種可選的實施方式中,程序510還用于使得處理器502通過對特征向量卷積結(jié)果進行雙線性插值,放大特征向量卷積結(jié)果。
在一種可選的實施方式中,程序510還用于使得處理器502將特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對應(yīng)的圖像的大小與原始圖像大小一致。
在一種可選的實施方式中,程序510還用于使得處理器502使用設(shè)定的損失函數(shù)計算放大后的特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)損失值判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。
在一種可選的實施方式中,程序510還用于使得處理器502獲取測試樣本圖像,使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對測試樣本圖像進行前背景區(qū)域的預(yù)測;檢驗預(yù)測的前背景區(qū)域是否正確;若不正確,則使用測試樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。
在一種可選的實施方式中,程序510還用于使得處理器502從測試樣本圖像中獲取前背景區(qū)域預(yù)測不正確的樣本圖像;使用預(yù)測不正確的樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練,其中,對卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練的預(yù)測不正確的樣本圖像包含有前景信息和背景信息。
在一種可選的實施方式中,程序510還用于使得處理器502在獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型。
在一種可選的實施方式中,程序510還用于使得處理器502在將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定視頻流的多個關(guān)鍵幀的圖像為樣本圖像,對樣本圖像進行前景區(qū)域和背景區(qū)域的標(biāo)注。
在一種可選的實施方式中,卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
在一種可選的實施方式中,業(yè)務(wù)對象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
在一種可選的實施方式中,程序510還用于使得處理器502獲取待顯示的業(yè)務(wù)對象。
在一種可選的實施方式中,程序510還用于使得處理器502從預(yù)定存儲位置獲取業(yè)務(wù)對象,或者從視頻源接收業(yè)務(wù)對象。
在一種可選的實施方式中,視頻圖像為直播類視頻圖像。
在一種可選的實施方式中,直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
程序510中各步驟的具體實現(xiàn)可以參見上述實施例中的相應(yīng)步驟和單元中對應(yīng)的描述,在此不贅述。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的設(shè)備和模塊的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程描述,在此不再贅述。
通過本實施例提供的終端設(shè)備,檢測視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對象;采用計算機繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對象,以使業(yè)務(wù)對象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實現(xiàn)預(yù)想的業(yè)務(wù)對象投放效果。
業(yè)務(wù)對象可以為目標(biāo)視頻、目標(biāo)圖像或者目標(biāo)特效等等,在背景區(qū)域繪制業(yè)務(wù)對象后的視頻圖像,相對于傳統(tǒng)的只包含純粹為圖片形式的背景區(qū)域的視頻圖像,豐富了背景區(qū)域的類型。而且,若在視頻圖像的背景區(qū)域繪制接收到的目標(biāo)視頻,實現(xiàn)了在視頻圖像的背景區(qū)域觀看視頻的效果。若業(yè)務(wù)對象的內(nèi)容與視頻圖像的內(nèi)容具有相關(guān)性,例如,業(yè)務(wù)對象為目標(biāo)視頻,目標(biāo)視頻為自由女神的介紹視頻,主播在視頻圖像中正在介紹自由女神,則繪制業(yè)務(wù)對象后的背景區(qū)域可以作為視頻圖像的輔助顯示,提升了視頻圖像的顯示效果。
除了將在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像在本地顯示之外,還可以將在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像發(fā)送至其他設(shè)備,例如,移動終端、pc、服務(wù)器或者平板電腦等等,可以實現(xiàn)在背景區(qū)域繪制了業(yè)務(wù)對象的視頻圖像的共享。
需要指出,根據(jù)實施的需要,可將本發(fā)明實施例中描述的各個部件/步驟拆分為更多部件/步驟,也可將兩個或多個部件/步驟或者部件/步驟的部分操作組合成新的部件/步驟,以實現(xiàn)本發(fā)明實施例的目的。
上述根據(jù)本發(fā)明實施例的方法可在硬件、固件中實現(xiàn),或者被實現(xiàn)為可存儲在記錄介質(zhì)(諸如cdrom、ram、軟盤、硬盤或磁光盤)中的軟件或計算機代碼,或者被實現(xiàn)通過網(wǎng)絡(luò)下載的原始存儲在遠(yuǎn)程記錄介質(zhì)或非暫時機器可讀介質(zhì)中并將被存儲在本地記錄介質(zhì)中的計算機代碼,從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或?qū)S糜布?諸如asic或fpga)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫?,計算機、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如,ram、rom、閃存等),當(dāng)所述軟件或計算機代碼被計算機、處理器或硬件訪問且執(zhí)行時,實現(xiàn)在此描述的處理方法。此外,當(dāng)通用計算機訪問用于實現(xiàn)在此示出的處理的代碼時,代碼的執(zhí)行將通用計算機轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計算機。
本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及方法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明實施例的范圍。
以上實施方式僅用于說明本發(fā)明實施例,而并非對本發(fā)明實施例的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明實施例的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明實施例的范疇,本發(fā)明實施例的專利保護范圍應(yīng)由權(quán)利要求限定。
本發(fā)明實施例提供了a1、一種視頻圖像的處理方法,包括:
檢測視頻圖像中的背景區(qū)域;
確定待顯示的業(yè)務(wù)對象;
采用計算機繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對象,以使所述業(yè)務(wù)對象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
a2、根據(jù)a1所述的方法,其中,所述檢測視頻圖像中的背景區(qū)域包括:
通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測所述視頻圖像的背景區(qū)域。
a3、根據(jù)a2所述的方法,其中,所述對所述卷積神經(jīng)網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練包括:
獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;
對所述特征向量進行卷積處理,獲取特征向量卷積結(jié)果;
對所述特征向量卷積結(jié)果進行放大處理;
判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;
若滿足,則完成對所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;
若不滿足,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
a4、根據(jù)a3所述的方法,其中,所述對所述特征向量卷積結(jié)果進行放大處理包括:
通過對所述特征向量卷積結(jié)果進行雙線性插值,放大所述特征向量卷積結(jié)果。
a5、根據(jù)a3或a4所述的方法,其中,所述對所述特征向量卷積結(jié)果進行放大處理包括:
將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對應(yīng)的圖像的大小與原始圖像大小一致。
a6、根據(jù)a3-a5任一所述的方法,其中,所述判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件包括:
使用設(shè)定的損失函數(shù)計算放大后的所述特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;
根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
a7、根據(jù)a3-a6任一所述的方法,其中,所述方法還包括:
獲取測試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對所述測試樣本圖像進行前背景區(qū)域的預(yù)測;
檢驗預(yù)測的前背景區(qū)域是否正確;
若不正確,則使用所述測試樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。
a8、根據(jù)a7所述的方法,其中,所述使用所述測試樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練包括:
從所述測試樣本圖像中獲取前背景區(qū)域預(yù)測不正確的樣本圖像;
使用預(yù)測不正確的樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練,其中,對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練的所述預(yù)測不正確的樣本圖像包含有前景信息和背景信息。
a9、根據(jù)a3-a8任一所述的方法,其中,所述獲取待訓(xùn)練的樣本圖像的特征向量之前,所述方法還包括:
將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
a10、根據(jù)a9所述的方法,其中,所述將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,所述方法還包括:
確定所述視頻流的多個關(guān)鍵幀的圖像為樣本圖像,對所述樣本圖像進行前景區(qū)域和背景區(qū)域的標(biāo)注。
a11、根據(jù)a2-a10任一所述的方法,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
a12、根據(jù)a1-a11任一所述的方法,其中,所述業(yè)務(wù)對象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
a13、根據(jù)a1-a12任一所述的方法,其中,所述方法還包括:獲取待顯示的所述業(yè)務(wù)對象。
a14、根據(jù)a13所述的方法,其中,所述獲取待顯示的所述業(yè)務(wù)對象包括:
從預(yù)定存儲位置獲取所述業(yè)務(wù)對象,或者從視頻源接收所述業(yè)務(wù)對象。
a15、根據(jù)a1-a14任一所述的方法,其中,所述視頻圖像為直播類視頻圖像。
a16、根據(jù)a15所述的方法,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
本發(fā)明實施例還提供了b17、一種視頻圖像的處理裝置,包括:
檢測模塊,用于檢測視頻圖像中的背景區(qū)域;
確定模塊,用于確定待顯示的業(yè)務(wù)對象;
繪制模塊,用于采用計算機繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對象,以使所述業(yè)務(wù)對象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
b18、根據(jù)b17所述的裝置,其中,所述檢測模塊,用于通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測所述視頻圖像的背景區(qū)域。
b19、根據(jù)b18所述的裝置,其中,所述裝置還包括:訓(xùn)練模塊,用于對所述卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)先訓(xùn)練;
所述訓(xùn)練模塊包括:
向量獲取模塊,用于獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;
卷積獲取模塊,用于對所述特征向量進行卷積處理,獲取特征向量卷積結(jié)果;
放大模塊,用于對所述特征向量卷積結(jié)果進行放大處理;
判斷模塊,用于判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;
執(zhí)行模塊,用于若所述判斷模塊的判斷結(jié)果為滿足收斂條件,則完成對所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若所述判斷模塊的判斷結(jié)果為不滿足收斂條件,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
b20、根據(jù)b19所述的裝置,其中,所述放大模塊,用于通過對所述特征向量卷積結(jié)果進行雙線性插值,放大所述特征向量卷積結(jié)果。
b21、根據(jù)b19或b20所述的裝置,其中,所述放大模塊,用于將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對應(yīng)的圖像的大小與原始圖像大小一致。
b22、根據(jù)b19-b21任一所述的裝置,其中,所述判斷模塊,用于使用設(shè)定的損失函數(shù)計算放大后的所述特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
b23、根據(jù)b19-b22任一所述的裝置,其中,所述訓(xùn)練模塊還包括:
預(yù)測模塊,用于獲取測試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對所述測試樣本圖像進行前背景區(qū)域的預(yù)測;
檢驗?zāi)K,用于檢驗預(yù)測的前背景區(qū)域是否正確;
再訓(xùn)練模塊,用于若所述檢驗?zāi)K的檢驗結(jié)果為不正確,則使用所述測試樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練。
b24、根據(jù)b23所述的裝置,其中,所述再訓(xùn)練模塊,用于若所述檢驗?zāi)K的檢驗結(jié)果為不正確,則從所述測試樣本圖像中獲取前背景區(qū)域預(yù)測不正確的樣本圖像;使用預(yù)測不正確的樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練,其中,對所述卷積神經(jīng)網(wǎng)絡(luò)模型進行再次訓(xùn)練的所述預(yù)測不正確的樣本圖像包含有前景信息和背景信息。
b25、根據(jù)b19-b24任一所述的裝置,其中,所述訓(xùn)練模塊還包括:
視頻流模塊,用于在所述向量獲取模塊獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
b26、根據(jù)b25所述的裝置,其中,所述訓(xùn)練模塊還包括:
標(biāo)注模塊,用于在所述視頻流模塊將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定所述視頻流的多個關(guān)鍵幀的圖像為樣本圖像,對所述樣本圖像進行前景區(qū)域和背景區(qū)域的標(biāo)注。
b27、根據(jù)b18-b26任一所述的裝置,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
b28、根據(jù)b17-b27任一所述的裝置,其中,所述業(yè)務(wù)對象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
b29、根據(jù)b17-b28任一所述的裝置,其中,所述裝置還包括:
獲取模塊,用于獲取待顯示的所述業(yè)務(wù)對象。
b30、根據(jù)b29所述的裝置,其中,所述獲取模塊,用于從預(yù)定存儲位置獲取所述業(yè)務(wù)對象,或者從視頻源接收所述業(yè)務(wù)對象。
b31、根據(jù)b17-b30任一所述的裝置,其中,所述視頻圖像為直播類視頻圖像。
b32、根據(jù)b31所述的裝置,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
本發(fā)明實施例還提供了c33、一種終端設(shè)備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如a1-a16任一所述的視頻圖像的處理方法對應(yīng)的操作。