視頻圖像處理方法、裝置和終端設備與流程

文檔序號：12908508閱讀：274來源：國知局

本發(fā)明涉及信息處理技術(shù)，尤其涉及一種視頻圖像處理方法、裝置和終端設備。

背景技術(shù)：

隨著圖像處理和信息處理技術(shù)的不斷發(fā)展，視頻直播由于融合了圖像、文字和聲音等元素，聲形并茂，已逐漸成為互聯(lián)網(wǎng)的主流表達方式。由此，互聯(lián)網(wǎng)視頻已成為重要的業(yè)務流量入口，同時被認為是廣告植入的優(yōu)質(zhì)資源。

現(xiàn)有視頻廣告主要通過植入的方式，在視頻播放之前或者視頻播放過程中某個時間插入固定時長的廣告，或在視頻播放的區(qū)域及其周邊區(qū)域固定位置放置廣告。然而，一方面，這種視頻廣告方式往往打擾觀眾的正常視頻觀看體驗，引起觀眾反感，不能達到預想的廣告效果；另一方面，這種視頻廣告方式不但占用網(wǎng)絡資源，也占用客戶端的系統(tǒng)資源。

技術(shù)實現(xiàn)要素：

本發(fā)明提供一種視頻圖像處理的方案。

根據(jù)本發(fā)明實施例的一方面，提供一種視頻圖像處理方法。所述方法包括：從視頻圖像中檢測至少一個目標對象，并確定所述至少一個目標對象的特征點；根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置；在所述相應的展示位置采用計算機繪圖方式分別繪制所述多個關聯(lián)業(yè)務對象。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置，包括：

根據(jù)所述至少一個目標對象的特征點，使用預先訓練的、用于確定業(yè)務對象在視頻圖像中的展示位置的卷積網(wǎng)絡模型，確定所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，對所述卷積網(wǎng)絡模型的預先訓練包括：獲取待訓練的業(yè)務對象樣本圖像的特征向量，其中，所述特征向量中包含有所述業(yè)務對象樣本圖像中的業(yè)務對象的位置信息和/或置信度信息；對所述特征向量進行卷積處理，獲取特征向量卷積結(jié)果；判斷所述特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件；若滿足，則完成對所述卷積網(wǎng)絡模型的訓練；若不滿足，則根據(jù)所述特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息，調(diào)整所述卷積網(wǎng)絡模型的參數(shù)并根據(jù)調(diào)整后的所述卷積網(wǎng)絡模型的參數(shù)對所述卷積網(wǎng)絡模型進行迭代訓練，直至迭代訓練后的業(yè)務對象的位置信息和/或置信度信息滿足所述收斂條件。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置，包括：根據(jù)所述至少一個目標對象的特征點，確定所述至少一個目標對象的類型；根據(jù)所述至少一個目標對象的類型，確定所述多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域；根據(jù)所述多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，確定所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述根據(jù)所述至少一個目標對象的類型，確定所述多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，包括：當所述目標對象的類型為人臉類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域；和/或，當所述目標對象的類型為背景類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中的背景區(qū)域；和/或，當所述目標對象的類型為手部類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中以手部所在的區(qū)域為中心的、設定范圍內(nèi)的區(qū)域；和/或，當所述目標對象的類型為動作類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中預先設定的區(qū)域。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置，包括：根據(jù)所述至少一個目標對象的特征點和所述多個待展示的關聯(lián)業(yè)務對象的類型，確定所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述根據(jù)所述至少一個目標對象的特征點和所述多個待展示的關聯(lián)業(yè)務對象的類型，確定所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中的展示位置，包括：根據(jù)所述至少一個目標對象的特征點和所述多個待展示的關聯(lián)業(yè)務對象的類型，獲得每個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中的多個展示位置；分別從所述多個展示位置中選擇至少一個展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述關聯(lián)業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型、背景類型、虛擬寵物類型和虛擬容器類型。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置，包括：從預先存儲的目標對象的特征點與展示位置的對應關系中，獲取與所述至少一個目標對象的特征點相對應的目標展示位置；將獲取的多個所述目標展示位置確定為所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理方法，其中，所述多個關聯(lián)業(yè)務對象包括以下至少之一：用于展示同一業(yè)務對象主題的包含有語義信息的多個特效、包含有語義信息的同一特效的多個展示部分、屬于同一業(yè)務對象提供者提供的包含有語義信息的多個特效。

可選地，所述特效為包含廣告信息的二維貼紙?zhí)匦?、三維特效、粒子特效中任意一種。

可選地，所述相應的展示位置包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設定范圍內(nèi)的區(qū)域、視頻圖像中預先設定的區(qū)域。

根據(jù)本發(fā)明實施例的另一方面，提供一種視頻圖像處理裝置。所述裝置包括：第一確定模塊，用于從視頻圖像中檢測至少一個目標對象，并確定所述至少一個目標對象的特征點；第二確定模塊，用于根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置；繪制模塊，用于在所述相應的展示位置采用計算機繪圖方式分別繪制所述多個關聯(lián)業(yè)務對象。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述第二確定模塊，用于根據(jù)所述至少一個目標對象的特征點，使用預先訓練的、用于確定業(yè)務對象在視頻圖像中的展示位置的卷積網(wǎng)絡模型，確定所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述裝置還包括：訓練模塊，用于對所述卷積網(wǎng)絡模型進行預先訓練；所述訓練模塊包括：第一獲取單元，用于獲取待訓練的業(yè)務對象樣本圖像的特征向量，其中，所述特征向量中包含有所述業(yè)務對象樣本圖像中的業(yè)務對象的位置信息和/或置信度信息；第二獲取單元，用于對所述特征向量進行卷積處理，獲取特征向量卷積結(jié)果；判斷單元，用于判斷所述特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件；執(zhí)行單元，用于若滿足，則完成對所述卷積網(wǎng)絡模型的訓練；若不滿足，則根據(jù)所述特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息，調(diào)整所述卷積網(wǎng)絡模型的參數(shù)并根據(jù)調(diào)整后的所述卷積網(wǎng)絡模型的參數(shù)對所述卷積網(wǎng)絡模型進行迭代訓練，直至迭代訓練后的業(yè)務對象的位置信息和/或置信度信息滿足所述收斂條件。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述第二確定模塊包括：類型確定單元，用于根據(jù)所述至少一個目標對象的特征點，確定所述至少一個目標對象的類型；區(qū)域確定單元，用于根據(jù)所述至少一個目標對象的類型，確定所述多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域；位置確定單元，用于根據(jù)所述多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，確定所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述區(qū)域確定單元包括：第一區(qū)域確定子單元，用于當所述目標對象的類型為人臉類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域；第二區(qū)域確定子單元，用于當所述目標對象的類型為背景類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中的背景區(qū)域；第三區(qū)域確定子單元，用于當所述目標對象的類型為手部類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中以手部所在的區(qū)域為中心的、設定范圍內(nèi)的區(qū)域；第四區(qū)域確定子單元，用于當所述目標對象的類型為動作類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中預先設定的區(qū)域。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述第二確定模塊，用于根據(jù)所述至少一個目標對象的特征點和所述多個待展示的關聯(lián)業(yè)務對象的類型，確定所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述第二確定模塊，用于根據(jù)所述至少一個目標對象的特征點和所述多個待展示的關聯(lián)業(yè)務對象的類型，獲得每個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中的多個展示位置；分別從所述多個展示位置中選擇至少一個展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述關聯(lián)業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型、背景類型、虛擬寵物類型和虛擬容器類型。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述第二確定模塊，用于從預先存儲的目標對象的特征點與展示位置的對應關系中，獲取與所述至少一個目標對象的特征點相對應的目標展示位置；將獲取的多個所述目標展示位置確定為所述多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。

可選地，結(jié)合本發(fā)明實施例提供的任一種視頻圖像處理裝置，其中，所述多個關聯(lián)業(yè)務對象包括以下至少之一：用于展示同一業(yè)務對象主題的包含有語義信息的多個特效、包含有語義信息的同一特效的多個展示部分、屬于同一業(yè)務對象提供者提供的包含有語義信息的多個特效。

可選地，所述特效為包含廣告信息的二維貼紙?zhí)匦А⑷S特效、粒子特效中任意一種。

根據(jù)本發(fā)明實施例的又一方面，提供一種終端設備。所述終端設備包括：處理器、存儲器、通信接口和通信總線，所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信；所述存儲器用于存放至少一可執(zhí)行指令，所述可執(zhí)行指令使所述處理器執(zhí)行如上述提供的視頻圖像處理方法對應的操作。

根據(jù)本發(fā)明實施例的又一方面，還提供了一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)存儲有：用于從視頻圖像中檢測至少一個目標對象，并確定所述至少一個目標對象的特征點的可執(zhí)行指令；用于根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置的可執(zhí)行指令；用于在所述相應的展示位置采用計算機繪圖方式分別繪制所述多個關聯(lián)業(yè)務對象的可執(zhí)行指令。

根據(jù)本發(fā)明實施例提供的視頻圖像處理方法、裝置和終端設備，首先從視頻圖像中檢測至少一個目標對象并確定至少一個目標對象的特征點，不同的目標對象具有不同的特征點；其次，可以將確定的至少一個目標對象的特征點作為確定待展示的關聯(lián)業(yè)務對象的展示位置的依據(jù)，從而有效確定多個待展示的關聯(lián)業(yè)務對象相應的展示位置；進而，在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象，以進行業(yè)務對象的展示。例如，在人臉配合簡單背景的視頻圖像中，可對該視頻圖像進行檢測獲得人臉這一目標對象并確定其特征點，包括但不限于對應于眉毛、眼睛、嘴巴、鼻子、臉部輪廓中的部分或全部的特征點，進而，以這些特征點為參考，確定多個待展示的關聯(lián)業(yè)務對象的展示位置，如在眉毛以上的額頭部位、嘴巴等位置，用來展示如同一業(yè)務對象提供者提供的關聯(lián)業(yè)務對象。當關聯(lián)業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，關聯(lián)業(yè)務對象與視頻圖像中的目標對象相互襯托、緊密結(jié)合，在不影響觀眾的正常視頻觀看的同時，多角度展示關聯(lián)業(yè)務對象，可以有效實現(xiàn)預想的效果；另一方面，該關聯(lián)業(yè)務對象與視頻播放相結(jié)合，無須通過網(wǎng)絡傳輸與視頻無關的額外廣告視頻數(shù)據(jù)，節(jié)約了網(wǎng)絡資源和客戶端的系統(tǒng)資源。

附圖說明

圖1示出是根據(jù)本發(fā)明實施例一的視頻圖像處理方法的流程圖；

圖2示出是根據(jù)本發(fā)明實施例二的視頻圖像處理方法的流程圖；

圖3示出是根據(jù)本發(fā)明實施例三的視頻圖像處理方法的流程圖；

圖4示出是根據(jù)本發(fā)明實施例四的視頻圖像處理方法的流程圖；

圖5示出是根據(jù)本發(fā)明實施例五的視頻圖像處理裝置的邏輯框圖；

圖6示出是根據(jù)本發(fā)明實施例六的視頻圖像處理裝置的邏輯框圖；

圖7示出是根據(jù)本發(fā)明實施例七的終端設備的結(jié)構(gòu)示意圖。

具體實施方式

下面結(jié)合附圖詳細描述本發(fā)明的示例性實施例。

實施例一

圖1是示出根據(jù)本發(fā)明實施例一的視頻圖像處理方法的流程圖。通過包括視頻圖像處理裝置的設備執(zhí)行所述方法。

參照圖1，在步驟s110，從視頻圖像中檢測至少一個目標對象，并確定至少一個目標對象的特征點。

本步驟中，視頻圖像可以是正在直播的視頻中的圖像，或者預先完成錄制后期播放的視頻中的圖像等。目標對象是存在于視頻圖像中的、易被觀眾查看的對象，包括但不限于：人體(包括人臉和身體部位等)、動作(包括姿勢和手勢等)、背景等。目標對象一般具有一定數(shù)量的特征點，例如人臉中主要包括眼睛、鼻子、嘴巴、臉部輪廓的傳統(tǒng)68個特征點，再例如手部主要包括的指尖、指谷和手部輪廓的特征點，再例如背景邊界的特征點等等，本發(fā)明實施例不對目標對象及目標對象的特征點作具體限制。

以直播視頻為例，直播視頻大多以主播和主播身后的背景(如主播的家)組成。檢測直播視頻圖像可得到一個目標對象如人臉，或者多個目標對象如人臉、背景、動作等。

在獲得視頻圖像后，通過檢測視頻圖像中的目標對象并確定目標對象的特征點，可以為后續(xù)確定待展示的業(yè)務對象的展示位置提供依據(jù)。例如，若確定了背景的邊界特征點后，可以在背景的適當位置展示業(yè)務對象，或者，若確定了人臉的特征點，則可以在人臉的適當位置展示業(yè)務對象，如額頭、臉頰等。其中，在從視頻圖像中檢測目標對象并確定目標對象的特征點的處理可以采用相應的特征提取算法，或者使用神經(jīng)網(wǎng)絡模型如卷積網(wǎng)絡模型等實現(xiàn)。

在步驟s120，根據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

這里，多個關聯(lián)業(yè)務對象包括但不限于以下至少之一：用于展示同一業(yè)務對象主題的包含有語義信息的多個特效、包含有語義信息的同一特效的多個展示部分、屬于同一業(yè)務對象提供者提供的包含有語義信息的多個特效。所述特效為包含廣告信息的二維貼紙?zhí)匦?、三維特效、粒子特效中任意一種。例如，三維形式的廣告特效(使用3d特效形式展示的廣告)，二維形式的貼紙如二維形式的廣告貼紙(使用貼紙行駛展示的廣告)。此外，其它形式的業(yè)務對象也同樣適用本發(fā)明實施例提供的視頻圖像處理方案，如app或其它應用的文字說明或介紹，或者一定形式的與視頻觀眾交互的對象(如電子寵物)等。例如，可口可樂公司提供的臉頰貼紙?zhí)匦?、額頭貼紙?zhí)匦?、背景貼紙?zhí)匦У取Ｔ俦热?，游戲主題的虛擬頭飾貼紙?zhí)匦А⑻摂M服裝貼紙?zhí)匦?、有關游戲場景的背景貼紙?zhí)匦У取?/p>

其中，根據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中的展示位置的方式將在后文詳細描述，包括但不限于：根據(jù)目標對象的特征點，按照設定規(guī)則確定展示位置；根據(jù)目標對象的特征點，使用訓練過的神經(jīng)網(wǎng)絡模型如卷積網(wǎng)絡模型確定等。

此外，還可從預先存儲的目標對象的特征點與展示位置的對應關系中，獲取與至少一個目標對象的特征點相對應的目標展示位置；將獲取的多個目標展示位置確定為多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。這里，目標對象的特征點與展示位置的對應關系可以映射表等形式存儲起來，本發(fā)明實施例對對應關系的存儲形式不作限制。

在步驟s130，在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象。

在確定了多個展示位置后，即可在相應的展示位置采用計算機繪圖方式進行多個關聯(lián)業(yè)務對象的繪制，以進行關聯(lián)業(yè)務對象展示。具體地，采用計算機繪圖方式繪制關聯(lián)業(yè)務對象可以通過適當?shù)挠嬎銠C圖形圖像繪制或渲染等方式實現(xiàn)，包括但不限于：基于opengl圖形繪制引擎進行繪制等。opengl定義了一個跨編程語言、跨平臺的編程接口規(guī)格的專業(yè)的圖形程序接口，其與硬件無關，可以方便地進行2d或3d圖形圖像的繪制。通過opengl，不僅可以實現(xiàn)2d效果如2d貼紙的繪制，還可以實現(xiàn)3d特效的繪制及粒子特效的繪制等等。但不限于opengl，其它方式，如unity或opencl等也同樣適用。

當關聯(lián)業(yè)務對象為貼紙，如廣告貼紙時，在采用計算機繪圖方式進行業(yè)務對象的繪制時，可以先獲取關聯(lián)業(yè)務對象的相關信息，如關聯(lián)業(yè)務對象的標識、大小等。在確定了展示位置之后，可以根據(jù)展示位置所在區(qū)域(如展示位置的矩形區(qū)域)的坐標，對關聯(lián)業(yè)務對象進行縮放、旋轉(zhuǎn)等調(diào)整，進而通過相應的繪圖方式如opengl方式進行繪制。在某些情況下，廣告還可以以三維特效形式展示，如通過粒子特效方式展示廣告的文字或logo等等。

這里，相應的展示位置可包括但不限于以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設定范圍內(nèi)的區(qū)域、視頻圖像中預先設定的區(qū)域。由此，多個待展示的關聯(lián)業(yè)務對象可在同一展示位置上展示，也可以在不同展示位置上展示。

舉例來說，假設檢測出的目標對象是人臉和背景，確定的三個展示位置是人臉中嘴巴、手部、背景，就可以在嘴巴的展示位置繪制帶有某一業(yè)務對象提供者(如可口可樂公司)的包含廣告信息的多個特效，如在手部的展示位置繪制虛擬容器(如可口可樂的飲料瓶)的貼紙?zhí)匦?，在背景的展示位置繪制如可口可樂公司海報為背景的貼紙?zhí)匦А?/p>

需要說明的是，隨著互聯(lián)網(wǎng)直播的興起，越來越多的視頻以直播的方式出現(xiàn)。這類視頻具有場景簡單、實時、因觀眾主要在手機等移動終端上觀看而視頻圖像尺寸較小等特點。在此情況下，對于某些業(yè)務對象的投放如廣告投放來說，一方面，由于移動終端的屏幕展示區(qū)域有限，如果以傳統(tǒng)的固定位置放置廣告，則會占用主要的用戶體驗區(qū)域，不僅容易引起用戶反感，還可能導致直播的主播者丟失觀眾；另一方面，對于主播類直播應用，由于直播的即時性，傳統(tǒng)的插入固定時長的廣告會明顯打擾用戶與主播交流的連貫性，影響用戶觀看體驗；再一方面，由于直播的內(nèi)容時長本來就較短，也給采用傳統(tǒng)方式插入固定時長的廣告帶來了困難。而通過關聯(lián)業(yè)務對象投放廣告，將廣告投放與視頻直播內(nèi)容有效融合，方式靈活，效果生動，不僅不影響用戶的直播觀看體驗，且提升了廣告的投放效果。對于使用較小的顯示屏幕進行業(yè)務對象展示，廣告投放等場景尤其適用。

通過本實施例提供的視頻圖像處理方法，首先從視頻圖像中檢測至少一個目標對象并確定至少一個目標對象的特征點，不同的目標對象具有不同的特征點；然后，可以將確定的至少一個目標對象的特征點作為確定待展示的業(yè)務對象的展示位置的依據(jù)，從而有效確定多個待展示的關聯(lián)業(yè)務對象的展示位置；進而，在確定的多個展示位置采用計算機繪圖方式分別繪制關聯(lián)業(yè)務對象，以進行業(yè)務對象的展示。當關聯(lián)業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，關聯(lián)業(yè)務對象與視頻圖像中的目標對象相互襯托、緊密結(jié)合，在不影響觀眾的正常視頻觀看的同時，多角度展示業(yè)務對象，從而吸引了觀眾的注意力，進而提高了業(yè)務對象的影響力；另一方面，該業(yè)務對象與視頻播放相結(jié)合，無須通過網(wǎng)絡傳輸與視頻無關的額外廣告視頻數(shù)據(jù)，節(jié)約了網(wǎng)絡資源和客戶端的系統(tǒng)資源。

實施例二

圖2示出是根據(jù)本發(fā)明實施例二的視頻圖像處理方法的流程圖。本實施例的視頻圖像處理方法可以由任意具有數(shù)據(jù)采集、處理和傳輸功能的設備執(zhí)行，包括但不限于移動終端和pc等。本實施例以移動終端為例，對本發(fā)明實施例提供的視頻圖像處理方法進行說明，其它設備可參照本實施例執(zhí)行。

參照圖1，在步驟s210，從視頻圖像中檢測至少一個目標對象，并確定至少一個目標對象的特征點。

視頻圖像可以是視頻中的視頻數(shù)據(jù)幀對應的圖像，每個圖像中都具有一定的目標對象，如人物、手勢、背景等。對視頻圖像中的目標對象進行檢測并確定特征點，可以采用任意適當?shù)南嚓P技術(shù)中的方式實現(xiàn)，本發(fā)明實施例對此不作限制。例如，線性特征提取方式如pca主成分分析、lda線性判別分析、ica獨立成分分析等；再例如非線性特征提取方式如kernelpca核主成分分析、流形學習等；也可以使用訓練完成的神經(jīng)網(wǎng)絡模型如本發(fā)明實施例中的卷積網(wǎng)絡模型進行目標對象特征點的提取。

另外，在本步驟之前，從直播應用中獲取當前正在播放的視頻圖像，或者，從正在錄制的視頻中獲取視頻圖像，本發(fā)明實施例對視頻圖像的獲取方式不作限制。本實施例中，以對一張視頻圖像的處理為例，但本領域技術(shù)認員應當明了，對于多張視頻圖像或視頻流中的視頻圖像序列均可參照本發(fā)明實施例進行視頻圖像處理。

在步驟s220，根據(jù)至少一個目標對象的特征點，使用預先訓練的、用于確定業(yè)務對象在視頻圖像中的展示位置的卷積網(wǎng)絡模型，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

在至少一個目標對象的特征點確定后，可以以此為依據(jù)，確定每個待展示的關聯(lián)業(yè)務對象在視頻圖像中的一個或多個展示位置(其中，多個包括兩個和兩個以上的數(shù)量)。

本實施例需要預先訓練一個卷積網(wǎng)絡模型，訓練完成的該卷積網(wǎng)絡模型具有確定各個關聯(lián)業(yè)務對象在視頻圖像中的展示位置的功能；或者，也可以直接使用第三方已訓練完成的、具有確定各個關聯(lián)業(yè)務對象在視頻圖像中的展示位置的功能的卷積網(wǎng)絡模型。

這里，關聯(lián)業(yè)務對象首先是業(yè)務對象，其次，由于多個業(yè)務對象之間具有屬于同一主題、業(yè)務對象提供商提供等關聯(lián)關系，因此稱之為關聯(lián)業(yè)務對象。因此，本實施例中，需要著重對業(yè)務對象的訓練進行說明，但本領域技術(shù)人員應當明了，該卷積網(wǎng)絡模型在對業(yè)務對象進行訓練的同時，也可以對目標對象進行訓練，實現(xiàn)目標對象和業(yè)務對象的聯(lián)合訓練。

當需要預先訓練卷積網(wǎng)絡模型時，一種可行的訓練方式包括以下過程：

(1)獲取待訓練的業(yè)務對象樣本圖像的特征向量。

其中，所述特征向量中包含有業(yè)務對象樣本圖像中的業(yè)務對象的位置信息和/或置信度信息。業(yè)務對象的位置信息指示了業(yè)務對象的位置，可以是業(yè)務對象中心點的位置信息，也可以是業(yè)務對象所在區(qū)域的位置信息；業(yè)務對象的置信度信息指示了業(yè)務對象展示在當前位置時，能夠達到的效果(如被關注或被點擊或被觀看)的概率，該概率可以根據(jù)對歷史數(shù)據(jù)的統(tǒng)計分析結(jié)果設定，也可以根據(jù)仿真實驗的結(jié)果設定，還可以根據(jù)人工經(jīng)驗進行設定。在實際應用中，可以根據(jù)實際需要，僅對業(yè)務對象的位置信息進行訓練，也可以僅對業(yè)務對象的置信度信息進行訓練，還可以對二者均進行訓練。對二者均進行訓練，能夠使得訓練后的卷積網(wǎng)絡模型更為有效和精準地確定業(yè)務對象的位置信息和置信度信息，以便為業(yè)務對象的展示提供依據(jù)。

卷積網(wǎng)絡模型通過大量的樣本圖像進行訓練，本發(fā)明實施例中，需要使用包含有業(yè)務對象的業(yè)務對象樣本圖像對卷積網(wǎng)絡模型進行訓練，本領域技術(shù)人員應當明了的是，用來訓練的業(yè)務對象樣本圖像中，除了包含業(yè)務對象外，也應當包含前述的目標對象。此外，本發(fā)明實施例中的業(yè)務對象樣本圖像中的業(yè)務對象可以被預先標注位置信息，或者置信度信息，或者二種信息都有。當然，在實際應用中，這些信息也可以通過其它途徑獲取。而通過預先在對業(yè)務對象進行相應信息的標注，可以有效節(jié)約數(shù)據(jù)處理的數(shù)據(jù)和交互次數(shù)，提高數(shù)據(jù)處理效率。

將具有業(yè)務對象的位置信息和/或置信度信息的業(yè)務對象樣本圖像作為訓練樣本，對其進行特征向量提取，獲得包含有業(yè)務對象的位置信息和/或置信度信息的特征向量。

可選地，可以使用相同的卷積網(wǎng)絡模型對目標對象和業(yè)務對象同時進行訓練，在此情況下，業(yè)務對象樣本圖像的特征向量中，也應當包含目標對象的特征。

對特征向量的提取可以采用相關技術(shù)中的適當方式實現(xiàn)，本發(fā)明實施例在此不再贅述。

(2)對所述特征向量進行卷積處理，獲取特征向量卷積結(jié)果。

獲取的特征向量卷積結(jié)果中包含有業(yè)務對象的位置信息和/或置信度信息。在對目標對象和業(yè)務對象進行聯(lián)合訓練的情況下，特征向量卷積結(jié)果中還包含目標對象的信息。

對特征向量的卷積處理次數(shù)可以根據(jù)實際需要進行設定，也即，卷積網(wǎng)絡模型中，卷積層的層數(shù)根據(jù)實際需要進行設置，在此不再贅述。

卷積結(jié)果是對特征向量進行了特征提取后的結(jié)果，該結(jié)果能夠有效表征視頻圖像中各相關對象的特征和分類。

本發(fā)明實施例中，當特征向量中既包含業(yè)務對象的位置信息，又包含業(yè)務對象的置信度信息時，也即，對業(yè)務對象的位置信息和置信度信息均進行了訓練的情況下，該特征向量卷積結(jié)果在后續(xù)分別進行收斂條件判斷時共享，無須進行重復處理和計算，減少了由數(shù)據(jù)處理引起的資源損耗，提高了數(shù)據(jù)處理速度和效率。

(3)判斷特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件。

其中，收斂條件由本領域技術(shù)人員根據(jù)實際需求適當設定。當信息滿足收斂條件時，可以認為第二卷積網(wǎng)絡模型中的網(wǎng)絡參數(shù)設置適當；當信息不能滿足收斂條件時，可以認為第二卷積網(wǎng)絡模型中的網(wǎng)絡參數(shù)設置不適當，需要對其進行調(diào)整，該調(diào)整是一個迭代的過程，直至使用調(diào)整后的網(wǎng)絡參數(shù)對特征向量進行卷積處理的結(jié)果滿足收斂條件。

一種可行方式中，收斂條件可以根據(jù)預設的標準位置和/或預設的標準置信度進行設定，如，將特征向量卷積結(jié)果中業(yè)務對象的位置信息指示的位置與預設的標準位置之間的距離是否滿足一定閾值作為業(yè)務對象的位置信息的收斂條件；將特征向量卷積結(jié)果中業(yè)務對象的置信度信息指示的置信度與預設的標準置信度之間的差別是否滿足一定閾值作為業(yè)務對象的置信度信息的收斂條件等。

其中，優(yōu)選地，預設的標準位置可以是對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的位置進行平均處理后獲得的平均位置；預設的標準置信度可以是對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的置信度進行平均處理后獲取的平均置信度。因樣本圖像為待訓練樣本且數(shù)據(jù)量龐大，可依據(jù)待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的位置和/或置信度設定標準位置和/或標準置信度，這樣設定的標準位置和標準置信度也更為客觀和精確。

在具體進行特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件的判斷時，一種可行的方式包括：

獲取特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息，通過計算對應的業(yè)務對象的位置信息指示的位置與預設的標準位置之間的歐式距離，得到對應的業(yè)務對象的位置信息指示的位置與預設的標準位置之間的第一距離，根據(jù)第一距離判斷對應的業(yè)務對象的位置信息是否滿足收斂條件；

和/或，

獲取特征向量卷積結(jié)果中對應的業(yè)務對象的置信度信息，計算對應的業(yè)務對象的置信度信息指示的置信度與預設的標準置信度之間的歐式距離，得到對應的業(yè)務對象的置信度信息指示的置信度與預設的標準置信度之間的第二距離，根據(jù)第二距離判斷對應的業(yè)務對象的置信度信息是否滿足收斂條件。其中，采用歐式距離的方式，實現(xiàn)簡單且能夠有效指示收斂條件是否被滿足。但不限于此，其它方式，如馬式距離，巴式距離等也同樣適用。

優(yōu)選地，如前所述，預設的標準位置為對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的位置進行平均處理后獲得的平均位置；和/或，預設的標準置信度為對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的置信度進行平均處理后獲取的平均置信度。

(4)若滿足收斂條件，則完成對卷積網(wǎng)絡模型的訓練；若不滿足收斂條件，則根據(jù)特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息，調(diào)整卷積網(wǎng)絡模型的參數(shù)并根據(jù)調(diào)整后的卷積網(wǎng)絡模型的參數(shù)對卷積網(wǎng)絡模型進行迭代訓練，直至迭代訓練后的業(yè)務對象的位置信息和/或置信度信息滿足收斂條件。

通過對卷積網(wǎng)絡模型進行上述訓練，卷積網(wǎng)絡模型可以對基于目標對象進行展示的業(yè)務對象的展示位置進行特征提取和分類，從而具有確定業(yè)務對象在視頻圖像中的展示位置的功能。其中，當展示位置包括多個時，通過上述業(yè)務對象置信度的訓練，卷積網(wǎng)絡模型還可以確定出多個展示位置中的展示效果的優(yōu)劣順序，從而確定最優(yōu)的展示位置。在后續(xù)應用中，當需要展示業(yè)務對象時，根據(jù)視頻中的當前圖像即可確定出有效的展示位置。

此外，為了過濾掉不符合條件的樣本圖像，以保證訓練結(jié)果的準確性。在對卷積網(wǎng)絡模型進行上述訓練之前，還可以預先對業(yè)務對象樣本圖像進行預處理，包括：獲取多個業(yè)務對象樣本圖像，其中，每個業(yè)務對象樣本圖像中包含有業(yè)務對象的標注信息；根據(jù)標注信息確定業(yè)務對象的位置，判斷確定的業(yè)務對象的位置與預設位置的距離是否小于或等于設定閾值；將小于或等于設定閾值的業(yè)務對象對應的業(yè)務對象樣本圖像，確定為待訓練的業(yè)務對象樣本圖像。其中，預設位置和設定閾值均可以由本領域技術(shù)人員采用任意適當方式進行適當設置，如根據(jù)數(shù)據(jù)統(tǒng)計分析結(jié)果或者相關距離計算公式或者人工經(jīng)驗等，本發(fā)明實施例對此不作限定。

通過上述過程實現(xiàn)了卷積網(wǎng)絡模型的訓練，訓練完成的該卷積網(wǎng)絡模型可以用來確定業(yè)務對象在視頻圖像中的展示位置。例如，在視頻直播過程中，若主播點擊業(yè)務對象指示進行業(yè)務對象展示時，在卷積網(wǎng)絡模型獲得了直播的視頻圖像中主播的面部特征點和手部特征點，以及背景特征點后，可以指示出展示業(yè)務對象的最優(yōu)位置包括如主播的額頭位置、主播的嘴巴位置、直播視頻中背景位置等，進而移動終端控制直播應用在上述多個位置展示關聯(lián)業(yè)務對象(如同一對象主題的的包含有語義信息的多張貼紙)；或者，在視頻直播過程中，若主播點擊業(yè)務對象指示進行業(yè)務對象展示時，卷積網(wǎng)絡模型可以直接根據(jù)直播的視頻圖像確定業(yè)務對象的展示位置。

在步驟s230，在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象。

在確定了多個展示位置后，在相應的展示位置采用計算機繪圖方式分別繪制關聯(lián)業(yè)務對象進行展示。需要說明的是，多個關聯(lián)業(yè)務對象包括但不限于以下至少之一：用于展示同一業(yè)務對象主題的包含有語義信息的多個特效、包含有語義信息的同一特效的多個展示部分、屬于同一業(yè)務對象提供者提供的包含有語義信息的多個特效。所述特效為包含廣告信息的二維貼紙?zhí)匦?、三維特效、粒子特效中任意一種。例如，三維形式的廣告特效(使用3d特效形式展示的廣告)，二維形式的貼紙如二維形式的廣告貼紙(使用貼紙行駛展示的廣告)。

以二維貼紙?zhí)匦槔敹鄠€關聯(lián)業(yè)務對象為用于展示同一業(yè)務對象主題的包含廣告信息的多個二維貼紙?zhí)匦?，或者包含廣告信息的同一二維貼紙?zhí)匦У亩鄠€展示部分，再或者屬于同一業(yè)務對象提供者提供的包含廣告信息的多個二維貼紙?zhí)匦r，可以使用該多個二維貼紙?zhí)匦Щ蛲欢S貼紙?zhí)匦У亩鄠€展示部分進行廣告投放和展示。例如，在直播視頻中，通過虛擬瓶蓋類型貼紙?zhí)匦г谥鞑サ淖彀臀恢谜故灸骋划a(chǎn)品的名稱，同時通過虛擬容器類型貼紙?zhí)匦г谥鞑ナ植课恢谜故驹摦a(chǎn)品，以及通過背景類型貼紙?zhí)匦г谥辈ヒ曨l的背景展示該產(chǎn)品及其名稱，極大地吸引觀眾的注意力和關注度，提升廣告投放和展示趣味性，提高廣告投放和展示效率。

在本實施例中，對關聯(lián)業(yè)務對象的采用計算機繪圖方式繪制可以通過適當?shù)挠嬎銠C圖形圖像繪制或渲染等方式實現(xiàn)，包括但不限于：基于opengl圖形繪制引擎進行繪制等。opengl定義了一個跨編程語言、跨平臺的編程接口規(guī)格的專業(yè)的圖形程序接口，其與硬件無關，可以方便地進行2d或3d圖形圖像的繪制。通過opengl，不僅可以實現(xiàn)2d效果如2d貼紙的繪制，還可以實現(xiàn)3d特效的繪制及粒子特效的繪制等等。但不限于opengl，其它方式，如unity或opencl等也同樣適用。

通過本實施例提供的視頻圖像處理方法，基于預先訓練好的卷積網(wǎng)絡模型可以有效實現(xiàn)關聯(lián)業(yè)務對象在視頻圖像中的展示位置的確定，從而在確定的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象，進而實現(xiàn)了關聯(lián)業(yè)務對象的投放和展示。多個關聯(lián)業(yè)務對象之間組合展示，以及與視頻播放有效結(jié)合展示，提高了業(yè)務對象的投放和展示效率和效果，也無須額外的數(shù)據(jù)傳輸，節(jié)約了網(wǎng)絡資源和客戶端的系統(tǒng)資源。

實施例三

圖3示出是根據(jù)本發(fā)明實施例三的視頻圖像處理方法的流程圖。

參照圖3，在步驟s310，從視頻圖像中檢測至少一個目標對象，并確定至少一個目標對象的特征點。

其中，上述步驟s310的步驟內(nèi)容與上述實施例一中步驟s110的步驟內(nèi)容相同，在此不再贅述。

在步驟s320，根據(jù)至少一個目標對象的特征點，確定至少一個目標對象的類型。

這里，在獲取了目標對象的特征點之后，可以采用已有的相關檢測、分類或?qū)W習方法確定目標對象的類型。其中，目標對象的類型包括但不限于：人臉類型、背景類型、手部類型和動作類型。其中，人臉類型用于指示人臉在視頻圖像中占據(jù)主要部分，背景類型用于指示背景在視頻圖像中占據(jù)較大部分，手部類型用于指示手部在視頻圖像中占據(jù)主要部分，而動作類型則用于指示人物進行了某種動作。

在步驟s330，根據(jù)至少一個目標對象的類型，確定多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域。

具體來說，在確定了目標對象的類型之后，可以按照設定的規(guī)則確定多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，包括：

當目標對象的類型為人臉類型時，確定待展示的業(yè)務對象的展示區(qū)域包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域；和/或，

當目標對象的類型為背景類型時，確定待展示的業(yè)務對象的展示區(qū)域包括：視頻圖像中的背景區(qū)域；和/或，

當目標對象的類型為手部類型時，確定待展示的業(yè)務對象的展示區(qū)域包括：視頻圖像中以手部所在的區(qū)域為中心的、設定范圍內(nèi)的區(qū)域；和/或，

當目標對象的類型為動作類型時，確定待展示的業(yè)務對象的展示區(qū)域包括：視頻圖像中預先設定的區(qū)域。其中，預先設定的區(qū)域由本領域技術(shù)人員根據(jù)實際情況適當設置，如，以動作生成部位為中心的設定范圍內(nèi)的區(qū)域，或者，動作生成部位以外的設定范圍內(nèi)的區(qū)域，或者背景區(qū)域等等，本發(fā)明實施例對此不作限制。

也就是說，上述頭發(fā)區(qū)域、額頭區(qū)域、背景區(qū)域、手部區(qū)域等確定的待展示的業(yè)務對象的展示區(qū)域可以通過組合的方式來展示多個關聯(lián)業(yè)務對象，即在不同的展示位置上展示多個關聯(lián)業(yè)務對象。也可以在同一展示位置(如頭發(fā)區(qū)域)上展示多個待展示的關聯(lián)業(yè)務對象。以主播型直播視頻場景為例，該場景通常包括直播和短視頻分享的常見場景，該場景的主體常常為一個主要人物(如主播)和簡單背景(如主播的家)，人物常常在畫面中占比較多。例如，當視頻主體為人物時，觀眾主要關注的區(qū)域為主體的臉部區(qū)域和肢體動作，為了能夠既讓觀眾注意到廣告的內(nèi)容，同時不會影響到視頻的主體，可以通過增強現(xiàn)實感效果，給畫面中的人物和背景等一些相關區(qū)域相應地加上多個有語義的虛擬物品如包含廣告信息的二維貼紙?zhí)匦?即業(yè)務對象)。并通過多個虛擬物品上組合的展示效果和信息達到商業(yè)價值。通過這種方式，既保留了視頻主體的主要形象和動作，同時通過增強現(xiàn)實的特效為視頻增加了趣味性，減少了觀眾對廣告投放引起的可能的反感，并能夠吸引到觀眾的注意力，形成商業(yè)的價值。

在一種可選的實施方式中，所述動作類型對應的動作包括以下至少之一：眨眼、張嘴、點頭、搖頭、親吻、微笑、揮手、剪刀手、握拳、托手、豎大拇指、擺手槍姿勢、擺v字手、擺ok手。

在步驟s340，根據(jù)多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

例如，以展示區(qū)域的中心點為業(yè)務對象的展示位置中心點進行業(yè)務對象的展示；再例如，將展示區(qū)域中的某一坐標位置確定為展示位置的中心點等，本發(fā)明實施例對此不作限制。

在步驟s350，在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象。

其中，上述步驟s350的步驟內(nèi)容與上述實施例一中步驟s130的步驟內(nèi)容相同，在此不再贅述。

通過本實施例提供的視頻圖像處理方法，按照設定的規(guī)則可以有效實現(xiàn)關聯(lián)業(yè)務對象在視頻圖像中的展示位置的確定，從而在確定的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象，進而實現(xiàn)了關聯(lián)業(yè)務對象的投放和展示。多個關聯(lián)業(yè)務對象之間組合展示，以及與視頻播放有效結(jié)合展示，提高了業(yè)務對象的投放和展示效率和效果，也無須額外的數(shù)據(jù)傳輸，節(jié)約了網(wǎng)絡資源和客戶端的系統(tǒng)資源。

實施例四

圖4是示出根據(jù)本發(fā)明實施例四的視頻圖像處理方法的流程圖。

本實施例仍以多個關聯(lián)業(yè)務對象為同一業(yè)務對象主題或?qū)儆谕粯I(yè)務對象提供者提供包含有語義信息的多個特效，再或者包含有語義信息的同一特效的多個展示部分。其中，特效具體為包含廣告信息的二維貼紙?zhí)匦槔?，對本發(fā)明實施例的視頻圖像處理方案進行說明。

參照圖4，在步驟s410，從視頻圖像中檢測至少一個目標對象，并確定至少一個目標對象的特征點。

其中，上述步驟s410的步驟內(nèi)容與上述實施例一中步驟s110的步驟內(nèi)容相同，在此不再贅述。

在步驟s420，根據(jù)至少一個目標對象的特征點和多個待展示的關聯(lián)業(yè)務對象的類型，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中的展示位置。

與前述實施例不同的是，在多個待展示的關聯(lián)業(yè)務對象在視頻圖像中的展示位置時，不僅根據(jù)至少一個目標對象的特征點，還根據(jù)待展示的關聯(lián)業(yè)務對象的類型，確定待展示的關聯(lián)業(yè)務對象在視頻圖像中的展示位置。其中，關聯(lián)業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型、背景類型、虛擬寵物類型和虛擬容器類型。但不限于此，關聯(lián)業(yè)務對象的類型還可以為其它適當類型，如虛擬瓶蓋類型，虛擬杯子類型、文字類型等等。

由此，根據(jù)關聯(lián)業(yè)務對象的類型，可以以目標對象的特征點為參考，為關聯(lián)業(yè)務對象選擇適當?shù)恼故疚恢谩?/p>

此外，在根據(jù)至少一個目標對象的特征點和待展示的關聯(lián)業(yè)務對象的類型，獲得多個待展示的關聯(lián)業(yè)務對象在視頻圖像中的相應的展示位置的情況下，可以從多個展示位置中選擇至少一個展示位置。例如，對于文字類型的關聯(lián)業(yè)務對象，可以展示在背景區(qū)域，也可以展示在人物的額頭或身體區(qū)域等。

在步驟s430，在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象。

其中，上述步驟s430的步驟內(nèi)容與上述實施例一中步驟s130的步驟內(nèi)容相同，在此不再贅述。

需要說明的是，上述示例中的關聯(lián)業(yè)務對象均可以為文字形式或圖片形式或二者結(jié)合形式的貼紙。

通過本實施例提供的視頻圖像處理方法，綜合考慮目標對象的特征點和關聯(lián)業(yè)務對象的類型，從而有效實現(xiàn)關聯(lián)業(yè)務對象在視頻圖像中的展示位置的確定，從而在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象，進而實現(xiàn)了關聯(lián)業(yè)務對象的投放和展示。多個關聯(lián)業(yè)務對象之間組合展示，以及與視頻播放有效結(jié)合展示，提高了業(yè)務對象的投放和展示效率和效果，也無須額外的數(shù)據(jù)傳輸，節(jié)約了網(wǎng)絡資源和客戶端的系統(tǒng)資源。

實施例五

基于相同的技術(shù)構(gòu)思，圖5示出是根據(jù)本發(fā)明實施例五的視頻圖像處理裝置的邏輯框圖。參照圖5，該視頻圖像處理裝置包括第一確定模塊510、第二確定模塊520和繪制模塊530。

第一確定模塊510用于從視頻圖像中檢測至少一個目標對象，并確定所述至少一個目標對象的特征點。

第二確定模塊520用于根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。

繪制模塊530用于在所述相應的展示位置采用計算機繪圖方式分別繪制所述多個關聯(lián)業(yè)務對象。

通過本實施例提供的視頻圖像處理裝置，首先從視頻圖像中檢測至少一個目標對象并確定至少一個目標對象的特征點，不同的目標對象具有不同的特征點；然后，可以將確定的至少一個目標對象的特征點作為確定待展示的業(yè)務對象的展示位置的依據(jù)，從而有效確定多個待展示的關聯(lián)業(yè)務對象的展示位置；進而，在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象，以進行業(yè)務對象的展示。當關聯(lián)業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，關聯(lián)業(yè)務對象與視頻圖像中的目標對象相互襯托、緊密結(jié)合，在不影響觀眾的正常視頻觀看的同時，多角度展示業(yè)務對象，從而吸引了觀眾的注意力，進而提高了業(yè)務對象的影響力；另一方面，該業(yè)務對象與視頻播放相結(jié)合，無須通過網(wǎng)絡傳輸與視頻無關的額外廣告視頻數(shù)據(jù)，節(jié)約了網(wǎng)絡資源和客戶端的系統(tǒng)資源。

實施例六

基于相同的技術(shù)構(gòu)思，圖6是示出根據(jù)本發(fā)明實施例六的視頻圖像處理裝置的邏輯框圖。

參照圖6，本實施例的視頻圖像處理裝置包括：第一確定模塊510用于從視頻圖像中檢測至少一個目標對象，并確定所述至少一個目標對象的特征點。第二確定模塊520用于根據(jù)所述至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在所述視頻圖像中相應的展示位置。繪制模塊530用于在所述相應的展示位置采用計算機繪圖方式分別繪制所述多個關聯(lián)業(yè)務對象。

可選地，第二確定模塊520用于根據(jù)至少一個目標對象的特征點，使用預先訓練的、用于確定業(yè)務對象在視頻圖像中的展示位置的卷積網(wǎng)絡模型，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

可選地，本實施例中的視頻圖像處理裝置還包括：訓練模塊540用于對卷積網(wǎng)絡模型進行預先訓練。

其中，訓練模塊540包括：第一獲取單元5401，用于獲取待訓練的業(yè)務對象樣本圖像的特征向量，其中，特征向量中包含有業(yè)務對象樣本圖像中的業(yè)務對象的位置信息和/或置信度信息；第二獲取單元5402，用于對特征向量進行卷積處理，獲取特征向量卷積結(jié)果；判斷單元5403，用于判斷特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件；執(zhí)行單元5404，用于若滿足，則完成對卷積網(wǎng)絡模型的訓練；若不滿足，則根據(jù)特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息，調(diào)整卷積網(wǎng)絡模型的參數(shù)并根據(jù)調(diào)整后的卷積網(wǎng)絡模型的參數(shù)對卷積網(wǎng)絡模型進行迭代訓練，直至迭代訓練后的業(yè)務對象的位置信息和/或置信度信息滿足收斂條件。

可選地，第二確定模塊520包括：類型確定單元5201，用于根據(jù)至少一個目標對象的特征點，確定至少一個目標對象的類型；區(qū)域確定單元5202，用于根據(jù)至少一個目標對象的類型，確定多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域；位置確定單元5203，用于根據(jù)多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

可選地，區(qū)域確定單元5202包括：第一區(qū)域確定子單元52021，用于當目標對象的類型為人臉類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域；第二區(qū)域確定子單元52022，用于當目標對象的類型為背景類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中的背景區(qū)域；第三區(qū)域確定子單元52023，用于當目標對象的類型為手部類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中以手部所在的區(qū)域為中心的、設定范圍內(nèi)的區(qū)域；第四區(qū)域確定子單元52024，用于當目標對象的類型為動作類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中預先設定的區(qū)域。

可選地，第二確定模塊520，用于根據(jù)至少一個目標對象的特征點和多個待展示的關聯(lián)業(yè)務對象的類型，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中的展示位置。

可選地，第二確定模塊520，用于根據(jù)至少一個目標對象的特征點和多個待展示的關聯(lián)業(yè)務對象的類型，獲得每個待展示的關聯(lián)業(yè)務對象在視頻圖像中的多個展示位置；分別從多個展示位置中選擇至少一個展示位置。

可選地，關聯(lián)業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型、背景類型、虛擬寵物類型和虛擬容器類型。

可選地，第二確定模塊520，用于從預先存儲的目標對象的特征點與展示位置的對應關系中，獲取與至少一個目標對象的特征點相對應的目標展示位置；將獲取的多個目標展示位置確定為多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

可選地，多個關聯(lián)業(yè)務對象包括以下至少之一：用于展示同一業(yè)務對象主題的包含有語義信息的多個特效、包含有語義信息的同一特效的多個展示部分、屬于同一業(yè)務對象提供者提供的包含有語義信息的多個特效。

可選地，所述特效為包含廣告信息的二維貼紙?zhí)匦?、三維特效、粒子特效中任意一種。

本實施例視頻圖像處理裝置用于實現(xiàn)前述多個方法實施例中相應的視頻圖像處理方法，并具有相應的方法實施例的有益效果，在此不再贅述。

此外，本實施例的視頻圖像處理裝置可以設置于適當?shù)慕K端設備中，包括但不限于移動終端、pc等。

實施例七

參照圖7，示出了根據(jù)本發(fā)明實施例七的終端設備的結(jié)構(gòu)示意圖，本發(fā)明具體實施例并不對終端設備的具體實現(xiàn)做限定。

如圖7所示，該終端設備可以包括：處理器(processor)710、通信接口(communicationsinterface)720、存儲器(memory)730、以及通信總線740。

其中：

處理器710、通信接口720、以及存儲器730通過通信總線740完成相互間的通信。

通信接口720，用于與其它設備比如其它客戶端或服務器等的網(wǎng)元通信。

處理器710，用于執(zhí)行程序750，具體可以執(zhí)行上述方法實施例中的相關步驟。

具體地，程序750可以包括程序代碼，該程序代碼包括計算機操作指令。

處理器710可能是中央處理器cpu，或者是特定集成電路asic(applicationspecificintegratedcircuit)，或者是被配置成實施本發(fā)明實施例的一個或多個集成電路，或者是圖形處理器gpu(graphicsprocessingunit)。終端設備包括的一個或多個處理器，可以是同一類型的處理器，如一個或多個cpu，或者，一個或多個gpu；也可以是不同類型的處理器，如一個或多個cpu以及一個或多個gpu。

存儲器730，用于存放程序750。存儲器730可能包含高速ram存儲器，也可能還包括非易失性存儲器(non-volatilememory)，例如至少一個磁盤存儲器。

程序750具體可以用于使得處理器710執(zhí)行以下操作：從視頻圖像中檢測至少一個目標對象，并確定至少一個目標對象的特征點；根據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置；在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象。

在一種可選的實施方式中，程序750還用于使得處理器710在根據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置，包括：根據(jù)至少一個目標對象的特征點，使用預先訓練的、用于確定業(yè)務對象在視頻圖像中的展示位置的卷積網(wǎng)絡模型，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

在一種可選的實施方式中，程序750還用于使得處理器710在對卷積網(wǎng)絡模型的預先訓練包括：獲取待訓練的業(yè)務對象樣本圖像的特征向量，其中，特征向量中包含有業(yè)務對象樣本圖像中的業(yè)務對象的位置信息和/或置信度信息；對特征向量進行卷積處理，獲取特征向量卷積結(jié)果；判斷特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件；若滿足，則完成對卷積網(wǎng)絡模型的訓練；若不滿足，則根據(jù)特征向量卷積結(jié)果中對應的業(yè)務對象的位置信息和/或置信度信息，調(diào)整卷積網(wǎng)絡模型的參數(shù)并根據(jù)調(diào)整后的卷積網(wǎng)絡模型的參數(shù)對所述卷積網(wǎng)絡模型進行迭代訓練，直至迭代訓練后的業(yè)務對象的位置信息和/或置信度信息滿足收斂條件。

在一種可選的實施方式中，程序750還用于使得處理器710在根據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置，包括：根據(jù)至少一個目標對象的特征點，確定至少一個目標對象的類型；根據(jù)至少一個目標對象的類型，確定多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域；根據(jù)多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

在一種可選的實施方式中，程序750還用于使得處理器710在根據(jù)至少一個目標對象的類型，確定多個待展示的關聯(lián)業(yè)務對象相應的展示區(qū)域，包括：當目標對象的類型為人臉類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域；和/或，當目標對象的類型為背景類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中的背景區(qū)域；和/或，當目標對象的類型為手部類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中以手部所在的區(qū)域為中心的、設定范圍內(nèi)的區(qū)域；和/或，當目標對象的類型為動作類型時，確定待展示的關聯(lián)業(yè)務對象的展示區(qū)域包括：視頻圖像中預先設定的區(qū)域。

在一種可選的實施方式中，程序750還用于使得處理器710在根據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置，包括：根據(jù)至少一個目標對象的特征點和多個待展示的關聯(lián)業(yè)務對象的類型，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中的展示位置。

在一種可選的實施方式中，程序750還用于使得處理器710在根據(jù)至少一個目標對象的特征點和多個待展示的關聯(lián)業(yè)務對象的類型，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中的展示位置，包括：根據(jù)至少一個目標對象的特征點和多個待展示的關聯(lián)業(yè)務對象的類型，獲得每個待展示的關聯(lián)業(yè)務對象在視頻圖像中的多個展示位置；分別從多個展示位置中選擇至少一個展示位置。

在一種可選的實施方式中，關聯(lián)業(yè)務對象的類型包括：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型、背景類型、虛擬寵物類型和虛擬容器類型中的一種。

在一種可選的實施方式中，程序750還用于使得處理器710在根據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置，包括：從預先存儲的目標對象的特征點與展示位置的對應關系中，獲取與至少一個目標對象的特征點相對應的目標展示位置；將獲取的多個目標展示位置確定為多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置。

在一種可選的實施方式中，多個關聯(lián)業(yè)務對象包括以下之一：用于展示同一業(yè)務對象主題的包含有語義信息的多張貼紙、包含有語義信息的同一貼紙的多個展示部分、屬于同一業(yè)務對象提供者提供的包含有語義信息的多張貼紙。

通過本實施例提供的終端設備，通過對視頻圖像進行目標對象檢測，獲得至少一個目標對象，并確定至少一個目標對象的特征點，進一步依據(jù)至少一個目標對象的特征點，確定多個待展示的關聯(lián)業(yè)務對象在視頻圖像中相應的展示位置，進而在相應的展示位置采用計算機繪圖方式分別繪制多個關聯(lián)業(yè)務對象。當多個關聯(lián)業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，在保留視頻圖像中視頻主體(如主播)的主要形象和動作的同時，多角度展示業(yè)務對象，從而吸引了觀眾的注意力，進而提高了業(yè)務對象的影響力。并且，節(jié)約了網(wǎng)絡資源和客戶端的系統(tǒng)資源。

需要指出，根據(jù)實施的需要，可將本申請中描述的各個步驟/部件拆分為更多步驟/部件，也可將兩個或多個步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件，以實現(xiàn)本發(fā)明的目的。

上述根據(jù)本發(fā)明的方法可在硬件、固件中實現(xiàn)，或者被實現(xiàn)為可存儲在記錄介質(zhì)(諸如cdrom、ram、軟盤、硬盤或磁光盤)中的軟件或計算機代碼，或者被實現(xiàn)通過網(wǎng)絡下載的原始存儲在遠程記錄介質(zhì)或非暫時機器可讀介質(zhì)中并將被存儲在本地記錄介質(zhì)中的計算機代碼，從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或?qū)Ｓ糜布?諸如asic或fpga)的記錄介質(zhì)上的這樣的軟件處理?？梢岳斫猓嬎銠C、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如，ram、rom、閃存等)，當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執(zhí)行時，實現(xiàn)在此描述的處理方法。此外，當通用計算機訪問用于實現(xiàn)在此示出的處理的代碼時，代碼的執(zhí)行將通用計算機轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計算機。

以上所述，僅為本發(fā)明的具體實施方式，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術(shù)領域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此，本發(fā)明的保護范圍應以所述權(quán)利要求的保護范圍為準。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王雷;欒青;許親親
技術(shù)所有人：北京市商湯科技開發(fā)有限公司
我是此專利的發(fā)明人

上一篇：一種數(shù)字電視的解擾方法、數(shù)字電視及CAM卡與流程
上一篇：單向CA EMM包數(shù)據(jù)發(fā)送方法與流程

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>