基于目標檢測的感興趣區(qū)域視頻編碼方法及其裝置制造方法
【專利摘要】本發(fā)明涉及視頻編碼【技術(shù)領(lǐng)域】,公開了一種基于目標檢測的感興趣區(qū)域視頻編碼方法及其裝置。本發(fā)明中,該視頻編碼方法包括以下步驟:對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和置信度;將目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域;根據(jù)編碼質(zhì)量等級和置信度計算編碼量化參數(shù);根據(jù)對應(yīng)的編碼量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼。通過目標檢測獲取感興趣區(qū)域和非感興趣區(qū)域以及對應(yīng)置信度,選擇相應(yīng)量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼,可以有效保證感興趣區(qū)域的編碼質(zhì)量及穩(wěn)定性,同時在不降低感興趣區(qū)域編碼質(zhì)量的前提下,可降低整幅圖像的壓縮碼流,提高視頻傳輸和存儲效率。
【專利說明】基于目標檢測的感興趣區(qū)域視頻編碼方法及其裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻編碼【技術(shù)領(lǐng)域】,特別涉及基于目標檢測的感興趣區(qū)域視頻編碼方法及其裝置。
【背景技術(shù)】
[0002]視頻監(jiān)控是安全防范行業(yè)的一個重要組成部分。隨著視頻監(jiān)控系統(tǒng)的不斷擴大,監(jiān)控點的增多,傳輸和存儲數(shù)據(jù)都需要付出極大的成本。因此必須對視頻信息進行高效的壓縮,才能充分利用網(wǎng)絡(luò)資源,降低存儲空間,從而達到節(jié)約成本的目的。
[0003]在視頻監(jiān)控的實際應(yīng)用中,人們一般只對監(jiān)控場景的某一部分感興趣,從而潛在的要求感興趣的區(qū)域具備較高的編碼質(zhì)量,而對非感興趣區(qū)域的編碼質(zhì)量沒有很高的要求。在以往的監(jiān)控系統(tǒng)中,都是對整幅圖像進行統(tǒng)一的編碼質(zhì)量調(diào)整,若想提升編碼質(zhì)量就需要增加編碼碼率。所以,在其余的條件都不發(fā)生變化的前提下,僅對于編碼系統(tǒng)存在一對無法解決的矛盾:更好的編碼圖像質(zhì)量和更低的編碼碼率。
[0004]針對上述問題,目前普遍的解決方法就是對感興趣區(qū)域與非感興趣區(qū)域采用不同的編碼質(zhì)量進行編碼。這里涉及到兩個重要的步驟:感興趣區(qū)域的選擇;感興趣區(qū)域和非感興趣區(qū)域的編碼。
[0005]對于感興趣區(qū)域的選擇,目前較多的解決方式是用戶直接預(yù)先選定一塊固定的區(qū)域,并設(shè)定該區(qū)域的編碼質(zhì)量等級,該類方法的缺點是只能選擇固定的區(qū)域作為感興趣區(qū)域;
[0006]另外的解決方案是在編碼框架中加入運動檢測模塊,基于運動檢測的結(jié)果確定感興趣區(qū)域,此方法的缺點在于只能針對運動的物體選定感興趣區(qū)域,而本發(fā)明的發(fā)明人發(fā)現(xiàn),其實很多實際的應(yīng)用中感興趣的不僅僅是運動的部分,或者擾動來自并不關(guān)注的部分,或者感興趣的區(qū)域正好處于靜止狀態(tài)。
[0007]選定感興趣區(qū)域之后,視頻編碼時就是需要對感興趣區(qū)域進行高質(zhì)量編碼,盡可能保留該區(qū)域的數(shù)據(jù),對非感興趣區(qū)域進行低質(zhì)量編碼,盡可能減少該區(qū)域所需的編碼比特數(shù)?,F(xiàn)有技術(shù)中有解決方案采用H.264的靈活宏塊排序來處理感興趣區(qū)域編碼,對感興趣區(qū)域盡量保留數(shù)據(jù)信息,對非感興趣區(qū)域盡量減少編碼比特,但是這種方法僅適用于H.264編碼,且需要增加額外的比特開銷,一般的解碼器不能支持靈活宏塊排序,對解碼端的接入要求較高。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的在于提供一種基于目標檢測的感興趣區(qū)域視頻編碼方法及其裝置,可以有效保證感興趣區(qū)域的編碼質(zhì)量及其穩(wěn)定性,同時在不降低感興趣區(qū)域編碼質(zhì)量的前提下,可以降低整幅圖像的壓縮碼流,提高視頻傳輸和存儲效率。
[0009]為解決上述技術(shù)問題,本發(fā)明的實施方式公開了一種基于目標檢測的感興趣區(qū)域視頻編碼方法,包括以下步驟:
[0010]對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度;
[0011]將目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域;
[0012]根據(jù)編碼質(zhì)量等級和置信度計算感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù);
[0013]根據(jù)對應(yīng)的編碼量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼。
[0014]本發(fā)明的實施方式還公開了一種基于目標檢測的感興趣區(qū)域視頻編碼裝置,包括:
[0015]目標檢測模塊,用于對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度;
[0016]感興趣區(qū)域生成模塊,用于將目標檢測模塊生成的目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域;
[0017]量化參數(shù)確定模塊,用于根據(jù)編碼質(zhì)量等級和置信度計算感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù);
[0018]編碼模塊,用于根據(jù)對應(yīng)的編碼量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼。
[0019]本發(fā)明實施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于:
[0020]通過目標檢測獲取感興趣區(qū)域和非感興趣區(qū)域,選擇相對應(yīng)的量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼,可以有效保證感興趣區(qū)域的編碼質(zhì)量及其穩(wěn)定性,同時在不降低感興趣區(qū)域編碼質(zhì)量的前提下,可以降低整幅圖像的壓縮碼流,提高視頻傳輸和存儲效率。
[0021 ] 進一步地,并行處理目標檢測和編碼前預(yù)處理的步驟,可以大大節(jié)省視頻編碼所用的時間,編碼效率更高。
[0022]進一步地,在對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度的步驟和所述對原始圖像進行編碼前的預(yù)處理的步驟并行處理的情況下,兩個步驟的處理延時可能不同,通過引入同步步驟,將對應(yīng)同一圖像的預(yù)處理結(jié)果和目標信息匹配起來,可以避免在目標檢測出現(xiàn)異常時造成編碼的中斷。
【專利附圖】
【附圖說明】
[0023]圖1是本發(fā)明第一實施方式中一種基于目標檢測的感興趣區(qū)域視頻編碼方法的流程示意圖;
[0024]圖2是本發(fā)明第二實施方式中一種基于目標檢測的感興趣區(qū)域視頻編碼方法的流程示意圖;
[0025]圖3是本發(fā)明第二實施方式中一種基于目標檢測的感興趣區(qū)域視頻編碼方法的優(yōu)選例的同步機制示意圖;
[0026]圖4是本發(fā)明第三實施方式中一種基于目標檢測的感興趣區(qū)域視頻編碼裝置的結(jié)構(gòu)示意圖;
[0027]圖5是本發(fā)明第四實施方式中一種基于目標檢測的感興趣區(qū)域視頻編碼裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0028]在以下的敘述中,為了使讀者更好地理解本申請而提出了許多技術(shù)細節(jié)。但是,本領(lǐng)域的普通技術(shù)人員可以理解,即使沒有這些技術(shù)細節(jié)和基于以下各實施方式的種種變化和修改,也可以實現(xiàn)本申請各權(quán)利要求所要求保護的技術(shù)方案。
[0029]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的實施方式作進一步地詳細描述。
[0030]本發(fā)明第一實施方式涉及一種基于目標檢測的感興趣區(qū)域視頻編碼方法。圖1是該基于目標檢測的感興趣區(qū)域視頻編碼方法的流程示意圖。
[0031]具體地說,如圖1所示,該基于目標檢測的感興趣區(qū)域視頻編碼方法包括以下步驟:
[0032]在步驟101中,對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度。
[0033]目標檢測,也叫目標提取,是一種基于目標幾何特征或統(tǒng)計特征的目標分割方法。這里的目標可以是人臉、車牌等,但不限于人臉和車牌等。
[0034]置信度,也稱為可靠度,或置信水平,即對某個判斷確信的程度。
[0035]一般而言,該步驟中包含目標檢測和目標穩(wěn)定兩個子步驟,目標檢測的作用是通過某些算法分析發(fā)現(xiàn)目標,并給出將其判斷為目標的確信程度,目標穩(wěn)定的作用是通過時域濾波等處理提取出穩(wěn)定的目標及其位置。
[0036]此后進入步驟103,將目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域。該步驟主要是把步驟101中生成的目標區(qū)域轉(zhuǎn)換成合適編碼的感興趣區(qū)域。感興趣區(qū)域(Reg1n OfInterest,簡稱“R0I”),是指圖像中比較關(guān)注的部分。
[0037]具體地說,將目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域的步驟,包括以下兩個子步驟:
[0038]目標信息映射,即將目標的位置和大小映射為以編碼分辨率為基準的位置和大小。由于用于目標檢測的圖像分辨率和編碼分辨率可能不同,需要將目標的位置和大小重新映射為以編碼分辨率為基準的位置和大小。目標檢測的結(jié)果是像素級別的,而編碼的最小單元是宏塊,所以只要宏塊中存在檢測到的目標像素即認為該宏塊為感興趣區(qū)域。宏塊是圖像編碼的一個基本單元,由亮度數(shù)據(jù)和色度數(shù)據(jù)組成。如對于4:2:0格式來說,由一個16x16的亮度塊和兩個8x8的色度塊組成。
[0039]目標大小調(diào)整,即根據(jù)目標的類型對目標大小進行以目標調(diào)整。算法檢測出的目標大小與實際期望的感興趣區(qū)域大小可能存在差距,比如目標類型為人臉時,實際期望的感興趣區(qū)域要包含完整的頭部,即比算法檢測出的目標更大一點。這一步驟即是根據(jù)目標的類型對目標大小進行以目標中心點為固定點的重新調(diào)整。以目標區(qū)域矩形框為例,可選的操作是寬擴大TX (TX ^ I)倍,高擴大TY (TY ^ I)倍,但不以此為限,也可以采用其他方法。
[0040]此后進入步驟104,根據(jù)編碼質(zhì)量等級和置信度計算感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù)。
[0041]量化參數(shù)(Quantisat1n Parameter,簡稱“QP”),量化是在圖像質(zhì)量和壓縮比率之間折中的參數(shù),量化參數(shù)越大質(zhì)量越差,壓縮碼率越低。
[0042]通過外部輸入的感興趣區(qū)域及其編碼質(zhì)量等級和置信度,以及編碼參數(shù)來確定當前幀的量化參數(shù)。感興趣區(qū)域的編碼等級決定了感興趣區(qū)域的編碼量化參數(shù)與非感興趣區(qū)域的編碼量化參數(shù)的差異值可取范圍,而感興趣區(qū)域的置信度具體決定了在此范圍內(nèi)感興趣區(qū)域的編碼量化參數(shù)與非感興趣區(qū)域的編碼量化參數(shù)的差異值。一般認為感興趣區(qū)域的編碼質(zhì)量等級越高,則感興趣區(qū)域的編碼量化參數(shù)與非感興趣區(qū)域的編碼量化參數(shù)的差異值可取范圍越大;感興趣區(qū)域的置信度越高,則其編碼量化參數(shù)與非感興趣區(qū)域的差異值越大。
[0043]在步驟104中,編碼量化參數(shù)的確定方式可以有多種,優(yōu)選地,可以通過碼率控制來確定。
[0044]碼率控制:是指一種編碼的優(yōu)化算法,用于實現(xiàn)對視頻碼流的大小控制。
[0045]具體地說,當通過碼率控制計算感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù)時,步驟104還包括以下四個子步驟:
[0046]依據(jù)外部輸入每個宏塊的的編碼質(zhì)量等級及其置信度,將其轉(zhuǎn)化為相對量化參數(shù),即感興趣區(qū)域與非感興趣區(qū)域的編碼量化參數(shù)的相對值QP_0FT(i,j),感興趣區(qū)域的編碼量化參數(shù)的相對值QP_0FT(i,j)為非零,非感興趣區(qū)域的編碼量化參數(shù)的相對值QP_OFT (i,j)為零;
[0047]統(tǒng)計轉(zhuǎn)換后所有宏塊的編碼量化參數(shù)的相對值QP_0FT (i, j)總和;
[0048]依據(jù)上一幀的編碼量化參數(shù)、上一幀統(tǒng)計完成的所有宏塊的編碼量化參數(shù)的相對值QP_0FT (i,j)總和以及當前幀統(tǒng)計得到的所有宏塊的編碼量化參數(shù)的相對值QP_OFT(i,j)總和來預(yù)測當前幀的編碼量化參數(shù)QP ;
[0049]計算感興趣區(qū)域每一個宏塊的編碼量化參數(shù),計算公式如下:
[0050]R0I_QP (i, j) =QP-QP_0FT (i, j),
[0051]式中,QP為當前幀的編碼量化參數(shù),QP_0FT(i, j)為當前幀每個宏塊的編碼量化參數(shù)的相對值,R0I_QP(i, j)為感興趣區(qū)域每一個宏塊的編碼量化參數(shù)。
[0052]此外,可以理解,碼率控制只是一種優(yōu)選的確定編碼量化參數(shù)的實施方式,在本發(fā)明的其它某些實施方式中,編碼量化參數(shù)也可以通過其它的方式確定,比如預(yù)先設(shè)定好固定的編碼量化參數(shù),等等。
[0053]此后進入步驟105,根據(jù)對應(yīng)的編碼量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼,輸出碼流。
[0054]此后結(jié)束此流程。
[0055]通過目標檢測獲取感興趣區(qū)域和非感興趣區(qū)域,選擇相對應(yīng)的量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼,可以有效保證感興趣區(qū)域的編碼質(zhì)量及其穩(wěn)定性,同時在不降低感興趣區(qū)域編碼質(zhì)量的前提下,可以降低整幅圖像的壓縮碼流,提高視頻傳輸和存儲效率。
[0056]本發(fā)明第二實施方式涉及一種基于目標檢測的感興趣區(qū)域視頻編碼方法。圖2是該基于目標檢測的感興趣區(qū)域視頻編碼方法的流程示意圖。
[0057]第二實施方式在第一實施方式的基礎(chǔ)上進行了改進,如圖2所示,主要改進之處在于:
[0058]該基于目標檢測的感興趣區(qū)域視頻視頻編碼方法還包括:
[0059]步驟102,對原始圖像進行編碼前的預(yù)處理。
[0060]比如縮放到編碼所需要的大小,屏幕菜單式調(diào)節(jié)方式(On Screen Display,簡稱“OSD”)、LOGO、菜單等。
[0061]需要進一步說明的是,該步驟也是一個可選步驟,在沒有該步驟的情況下,本技術(shù)方案仍然可以實施。
[0062]進一步地,優(yōu)選地,在本實施方式中對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測置信度的步驟101和對原始圖像進行編碼前的預(yù)處理的步驟102是并行處理的。
[0063]并行處理,可以大大節(jié)省視頻編碼所用的時間,編碼效率更高。
[0064]此外,可以理解,對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度的步驟101和對原始圖像進行編碼前的預(yù)處理的步驟102可以是并行處理的,也可以是串行處理的。
[0065]其次,在本實施方式中,對原始圖像進行編碼前的預(yù)處理的步驟102之后,還包括步驟106,將對應(yīng)同一圖像的預(yù)處理結(jié)果和目標信息匹配起來。
[0066]該步驟僅在對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度的步驟101和對原始圖像進行編碼前的預(yù)處理的步驟102并行處理的情況下才需要。
[0067]在上述這種并行處理的情況下,上述兩個步驟的處理延時可能不同,因此需要在該步驟中通過引入同步步驟,將對應(yīng)同一圖像的預(yù)處理結(jié)果和目標信息匹配起來,可以避免在目標檢測出現(xiàn)異常時造成編碼的中斷。
[0068]在本發(fā)明的一個優(yōu)選的實施例中,基于目標檢測的感興趣區(qū)域視頻編碼方法的流程示主要包括以下步驟:
[0069]步驟I目標生成:對輸入的原始圖像進行目標檢測,生成目標信息。這里的目標可以是人臉,車牌等。一般而言,該步驟中包含目標檢測和目標穩(wěn)定兩個子步驟,目標檢測的作用是通過某些算法分析發(fā)現(xiàn)目標,并給出將其判斷為目標的確信程度,目標穩(wěn)定的作用是通過時域濾波等處理提取出穩(wěn)定的目標及其位置。
[0070]步驟2編碼前預(yù)處理:進行編碼前的預(yù)處理,比如縮放到編碼所需要的大小,疊加0SD、L0G0、菜單等。
[0071]需要說明的是,該步驟作為一個編碼系統(tǒng)的常見部分,是一個可選的步驟,在沒有該步驟的情況下,本技術(shù)方案仍然可以實施。
[0072]步驟3同步機制:該步驟是可選步驟,僅在步驟I和步驟2為并行處理的情況下才需要,在這種情況下,上述兩個步驟的處理延時可能不同,因此需要在該步驟中將對應(yīng)同一圖像的預(yù)處理結(jié)果和目標信息匹配起來。該步驟的基本方法是根據(jù)時間戳判斷,并引入一定的超時機制,以免在目標偵測模塊出現(xiàn)異常時造成編碼的中斷。為支持該機制,需要在步驟I中為得到的目標信息建立緩沖池,在步驟2中為得到的編碼圖像建立緩沖池,緩沖池中的每個結(jié)果都包含一個對應(yīng)原始圖像的時間戳。步驟4R0I(Reg1n Of Interest,簡稱“感興趣區(qū)域”)生成:該步驟主要是把目標檢測子步驟生成的目標區(qū)域轉(zhuǎn)換成合適編碼的感興趣區(qū)域。該步驟可劃分為以下子步驟:
[0073]子步驟4-1:目標信息映射。由于用于目標檢測的圖像分辨率和編碼分辨率可能不同,需要將目標的位置和大小重新映射為以編碼分辨率為基準的位置和大小。目標檢測的結(jié)果是像素級別的,而編碼的最小單元是宏塊,所以只要宏塊中存在檢測到的目標像素即認為該宏塊為感興趣區(qū)域。
[0074]子步驟4-2:目標大小調(diào)整。算法檢測出的目標大小與實際期望的感興趣區(qū)域大小可能存在差距,比如目標類型為人臉時,實際期望的感興趣區(qū)域要包含完整的頭部,即比算法檢測出的目標更大一點。這一步驟即是根據(jù)目標的類型對目標大小進行以目標中心點為固定點的重新調(diào)整。以目標區(qū)域矩形框為例,可選的操作是寬擴大TX (TX彡I)倍,高擴大TY (TY彡I)倍,也可以采用其他方法。
[0075]步驟5碼率控制,確定編碼量化參數(shù):通過外部輸入的感興趣區(qū)域及其編碼質(zhì)量等級和置信度,以及編碼參數(shù)來確定當前幀的量化參數(shù)。感興趣區(qū)域的編碼等級決定了感興趣區(qū)域的編碼量化參數(shù)與非感興趣區(qū)域的編碼量化參數(shù)的差異值可取范圍,而感興趣區(qū)域的置信度具體決定了在此范圍內(nèi)感興趣區(qū)域的編碼量化參數(shù)與非感興趣區(qū)域的編碼量化參數(shù)的差異值。一般認為感興趣區(qū)域的編碼質(zhì)量等級越高,則感興趣區(qū)域的編碼量化參數(shù)與非感興趣區(qū)域的編碼量化參數(shù)的差異值可取范圍越大;感興趣區(qū)域的置信度越高,則其編碼量化參數(shù)與非感興趣區(qū)域的差異值越大。
[0076]碼率控制,確定編碼量化參數(shù)的具體步驟還包括以下子步驟:
[0077]子步驟5-1:依據(jù)外部輸入每個宏塊的的編碼質(zhì)量等級及其置信度,將其轉(zhuǎn)化為相對量化參數(shù),即感興趣區(qū)域與非感興趣區(qū)域的編碼量化參數(shù)的相對值QP_0FT(i,j),感興趣區(qū)域的QP_0FT(i,j)為非零,非感興趣區(qū)域的QP_0FT(i,j)為零;
[0078]子步驟5-2:統(tǒng)計轉(zhuǎn)換后的所有宏塊的QP_0FT (i, j)總和;
[0079]子步驟5-3:依據(jù)上一幀的編碼量化參數(shù)、上一幀統(tǒng)計完成的所有宏塊的QP_OFT(i, j)總和以及當前幀統(tǒng)計得到的所有宏塊的QP_0FT(i,j)總和來預(yù)測當前幀的編碼量化參數(shù)QP ;
[0080]子步驟5-4:計算感興趣區(qū)域每一個宏塊的編碼量化參數(shù)
[0081]R0I_QP (i, j) =QP-QP_0FT (i, j);
[0082]式中,QP為當前幀的編碼量化參數(shù),QP_0FT(i, j)為當前幀每個宏塊的編碼量化參數(shù)的相對值,R0I_QP(i, j)為感興趣區(qū)域每一個宏塊的編碼量化參數(shù)。
[0083]需要進一步說明的是,步驟5也是一個優(yōu)選的步驟,在本發(fā)明的其它某些實施方式中,也可以采用其它的確定編碼量化參數(shù)的方式,而不以此為限。
[0084]步驟6編碼:依據(jù)計算得到的量化參數(shù)進行編碼輸出碼流。
[0085]具體地說,將對應(yīng)同一圖像的預(yù)處理結(jié)果和目標信息匹配起來的基本方法是根據(jù)時間戳判斷,并引入一定的超時機制,以免在目標偵測出現(xiàn)異常時造成編碼的中斷。為支持該機制,需要在步驟101中為得到的目標信息建立緩沖池,在步驟102中為得到的編碼圖像建立緩沖池,如圖3所示。緩沖池中的每個結(jié)果都包含一個對應(yīng)原始圖像的時間戳。該機制的具體實現(xiàn)方法包括以下步驟:
[0086]1、從編碼圖像緩沖池中獲取一幀編碼圖像I,如果獲取失敗,休眠一段時間后重新獲取,直到獲取成功;
[0087]2、比較I的時間戳Si和當前記錄的目標信息T的時間戳St (當前記錄的目標信息在初始化時清空,其St=O )。若Si_St>Ta,則認為T是過時目標信息,丟掉該目標信息,進入步驟3 ;若St-Si>Tb,則認為T是將來的目標信息,將待匹配的目標信息Tm清空,進入步驟6 ;其它情況,認為目標信息T和圖像I匹配,執(zhí)行Tm=T,進入步驟6 ;
[0088]3、從目標信息緩沖池中獲取一巾貞目標信息,作為當前記錄的目標信息T ;如果獲取失敗(即目標信息緩沖池為空),則進入步驟4,否則返回步驟2 ;
[0089]4、比較當前時間戳Sc和圖像時間戳Si,若Sc-Si>Tc,則認為獲取目標信息超時,將Tm清空,進入步驟6 ;否則進入步驟5 ;
[0090]5、休眠一段時間,然后返回步驟3 ;
[0091]6、圖像I與目標信息Tm匹配完成,進入ROI生成環(huán)節(jié)。
[0092]以上步驟中,Ta、Tb、Tc為預(yù)先設(shè)定閾值,均不小于0,可以根據(jù)實際情況(如編碼幀率、系統(tǒng)負荷等)進行調(diào)整。如果Ta=Tb=O,則為嚴格匹配。
[0093]本發(fā)明的各方法實施方式均可以以軟件、硬件、固件等方式實現(xiàn)。不管本發(fā)明是以軟件、硬件、還是固件方式實現(xiàn),指令代碼都可以存儲在任何類型的計算機可訪問的存儲器中(例如永久的或者可修改的,易失性的或者非易失性的,固態(tài)的或者非固態(tài)的,固定的或者可更換的介質(zhì)等等)。同樣,存儲器可以例如是可編程陣列邏輯(Programmable ArrayLogic,簡稱“PAL”)、隨機存取存儲器(Random Access Memory,簡稱“RAM”)、可編程只讀存儲器(Programmable Read Only Memory,簡稱“PR0M”)、只讀存儲器(Read-Only Memory,簡稱“ROM”)、電可擦除可編程只讀存儲器(Electrically Erasable Programmable ROM,簡稱“EEPR0M”)、磁盤、光盤、數(shù)字通用光盤(Digital Versatile Disc,簡稱“DVD”)等等。
[0094]本發(fā)明第三實施方式涉及一種基于目標檢測的感興趣區(qū)域視頻編碼裝置。圖4是該基于目標檢測的感興趣區(qū)域視頻編碼裝置的結(jié)構(gòu)示意圖。
[0095]具體地說,如圖4所示,該基于目標檢測的感興趣區(qū)域視頻編碼裝置包括:
[0096]目標檢測模塊,用于對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度。目標檢測模塊的輸入為原始圖像(與用于編碼的圖像相比可能經(jīng)過縮小或放大),以及與目標檢測算法相關(guān)的一些參數(shù),輸出為目標的位置和判斷的置信度。目標位置可以用一個矩形框的左上右下坐標表示,也可以采用其他表示方法,置信度在一般研究中心采用[0,I]區(qū)間的若干小數(shù)等級,O為確信非目標,I為確信目標,也可以用其他類似方法表達,例如分為10個等級。最簡化的表達是2個等級,即O和1,0為非目標及對應(yīng)非感興趣區(qū)域,I為感興趣區(qū)域。此模塊主要是完成目標檢測,目標可以是人臉或者車牌,但不僅限于這兩者。
[0097]感興趣區(qū)域生成模塊,用于將目標檢測模塊生成的目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域。感興趣區(qū)域生成模塊的輸入為目標的位置和大小,以及預(yù)處理后待編碼的圖像,輸出為適合編碼的感興趣區(qū)域,此模塊完成目標檢測單元輸出的目標位置和大小到編碼的感興趣區(qū)域的映射,以及大小的調(diào)整。
[0098]具體地說,感興趣區(qū)域生成模塊,包括以下兩個子模塊:
[0099]目標信息映射子模塊,用于將目標的位置和大小映射為以編碼分辨率為基準的位置和大小。
[0100]目標大小調(diào)整子模塊,用于根據(jù)目標的類型對目標大小進行以目標中心點為固定點的調(diào)整。
[0101]量化參數(shù)確定模塊,用于根據(jù)編碼質(zhì)量等級和置信度計算感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù)。量化參數(shù)確定模塊的輸入為編碼的感興趣區(qū)域及其編碼質(zhì)量等級和置信度,以及對編碼感興趣區(qū)域的量化參數(shù)的統(tǒng)計值,輸出為當前幀的非感興趣區(qū)域的編碼量化參數(shù),此模塊完成感興趣區(qū)域的編碼質(zhì)量等級到編碼量化參數(shù)的轉(zhuǎn)換,以及非感興趣區(qū)域的編碼量化參數(shù)預(yù)測。
[0102]具體地說,優(yōu)選地,量化參數(shù)確定模塊包括以下四個子模塊:
[0103]量化參數(shù)轉(zhuǎn)換子模塊,用于將編碼質(zhì)量等級和置信度轉(zhuǎn)化為感興趣區(qū)域與非感興趣區(qū)域的編碼量化參數(shù)的相對值。
[0104]量化參數(shù)統(tǒng)計子模塊,用于統(tǒng)計轉(zhuǎn)換后所有宏塊的編碼量化參數(shù)的相對值總和。
[0105]量化參數(shù)預(yù)測子模塊,用于依據(jù)上一幀的編碼量化參數(shù)、上一幀統(tǒng)計完成的所有宏塊的編碼量化參數(shù)的相對值總和以及當前幀統(tǒng)計得到的所有宏塊的編碼量化參數(shù)的相對值總和來預(yù)測當前幀的編碼量化參數(shù)。
[0106]量化參數(shù)計算子模塊,用于計算感興趣區(qū)域每一個宏塊的編碼量化參數(shù)。
[0107]編碼模塊,用于根據(jù)對應(yīng)的編碼量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼。編碼模塊的輸入為量化參數(shù)確定模塊輸出的編碼量化參數(shù)以及編碼圖像,輸出為編碼碼流。
[0108]在本發(fā)明的優(yōu)選例中,還包括感興趣區(qū)域穩(wěn)定模塊,其輸入為連續(xù)多幀的編碼感興趣區(qū)域,輸出為時間域濾波處理后的編碼感興趣區(qū)域,此模塊的作用是消除偶爾出現(xiàn)的目標,以及填補偶爾消失的目標。
[0109]第一實施方式是與本實施方式相對應(yīng)的方法實施方式,本實施方式可與第一實施方式互相配合實施。第一實施方式中提到的相關(guān)技術(shù)細節(jié)在本實施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實施方式中提到的相關(guān)技術(shù)細節(jié)也可應(yīng)用在第一實施方式中。
[0110]本發(fā)明第四實施方式涉及一種基于目標檢測的感興趣區(qū)域視頻編碼裝置。圖5是該基于目標檢測的感興趣區(qū)域視頻編碼裝置的結(jié)構(gòu)示意圖。
[0111]第四實施方式在第三實施方式的基礎(chǔ)上進行了改進,主要改進之處在于:
[0112]該基于目標檢測的感興趣區(qū)域視頻編碼裝置還包括:
[0113]預(yù)處理模塊,用于對原始圖像進行編碼前的預(yù)處理。
[0114]比如縮放到編碼所需要的大小,屏幕菜單式調(diào)節(jié)方式(On Screen Display,簡稱“OSD”)、LOGO、菜單等。
[0115]在本發(fā)明的其它某些實施方式中,預(yù)處理模塊也可以省略。在本實施方式中,優(yōu)選地,目標檢測模塊對原始圖像進行目標檢測和預(yù)處理模塊對原始圖像進行編碼前的預(yù)處理是并行處理的。
[0116]并行處理,可以大大節(jié)省視頻編碼所用的時間,編碼效率更高。
[0117]此外,可以理解,目標檢測模塊對原始圖像進行目標檢測和預(yù)處理模塊對原始圖像進行編碼前的預(yù)處理可以是并行處理的,也可以是串行處理的。
[0118]其次,該基于目標檢測的感興趣區(qū)域視頻編碼裝置還包括:
[0119]圖像同步模塊,用于將對應(yīng)同一圖像的由目標檢測模塊和預(yù)處理模塊處理得到的目標信息和預(yù)處理結(jié)果匹配起來。
[0120]圖像同步模塊的輸入為目標檢測圖像和預(yù)處理圖像時間戳信息,輸出結(jié)果為兩者是否匹配。
[0121]該模塊僅在目標檢測模塊對原始圖像進行目標檢測和預(yù)處理模塊對原始圖像進行編碼前的預(yù)處理是并行處理的的情況下才需要。
[0122]在上述這種并行處理的情況下,上述兩個模塊的處理延時可能不同,因此需要通過引入圖像同步模塊,將對應(yīng)同一圖像的預(yù)處理結(jié)果和目標信息匹配起來,可以避免在目標檢測出現(xiàn)異常時造成編碼的中斷。
[0123]第二實施方式是與本實施方式相對應(yīng)的方法實施方式,本實施方式可與第二實施方式互相配合實施。第二實施方式中提到的相關(guān)技術(shù)細節(jié)在本實施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實施方式中提到的相關(guān)技術(shù)細節(jié)也可應(yīng)用在第二實施方式中。
[0124]綜上所述,本發(fā)明的優(yōu)選例中,一種基于目標檢測的感興趣區(qū)域視頻編碼裝置,包含目標檢測模塊,圖像同步模塊,感興趣區(qū)域生成模塊,感興趣區(qū)域穩(wěn)定模塊,量化參數(shù)確定模塊,編碼模塊。
[0125]在基于目標檢測的感興趣區(qū)域視頻編碼方法中,主要包括:
[0126]1、通過“目標檢測”獲取感興趣區(qū)域和非感興趣區(qū)域,以及對應(yīng)置信度;
[0127]2、選擇相對應(yīng)的量化參數(shù)對感興趣區(qū)域和非感興趣區(qū)域進行量化編碼,其中檢測所得區(qū)域的坐標和置信度會在編碼感興趣區(qū)域的坐標和編碼量化系數(shù)之間形成映射;(具體為某一感興趣區(qū)域量化系數(shù)相對非感興趣區(qū)域量化系數(shù)差別的幅度,與對應(yīng)目標檢測的置信度呈遞增關(guān)系)
[0128]本發(fā)明帶來的有益效果主要體現(xiàn)在:
[0129]針對智能化視頻監(jiān)控的應(yīng)用,提出一種加入目標檢測單元的混合視頻編碼方法,該方法區(qū)別對待目標檢測單元獲取的感興趣區(qū)域和非感興趣區(qū)域,通過對目標檢測單元獲取的感興趣區(qū)域的映射與調(diào)整,并在時間域上進行濾波處理,獲得準確穩(wěn)定的適合編碼的感興趣區(qū)域;通過保持感興趣區(qū)域的編碼量化參數(shù)與非感興趣區(qū)域的編碼量化參數(shù)的相對值,可以有效保證感興趣區(qū)域的編碼質(zhì)量及其穩(wěn)定性;同時在不降低感興趣區(qū)域編碼質(zhì)量的前提下,可降低整幅圖像的壓縮碼流,提高視頻傳輸、存儲效率。
[0130]本發(fā)明適合應(yīng)用在視頻監(jiān)控系統(tǒng),特別適合應(yīng)用在具有人臉檢測,車牌檢測功能的視頻監(jiān)控系統(tǒng),但并不局限于此。
[0131]需要說明的是,本發(fā)明各裝置實施方式中提到的各模塊都是邏輯模塊,在物理上,一個邏輯模塊可以是一個物理模塊,也可以是一個物理模塊的一部分,還可以以多個物理模塊的組合實現(xiàn),這些邏輯模塊本身的物理實現(xiàn)方式并不是最重要的,這些邏輯模塊所實現(xiàn)的功能的組合才是解決本發(fā)明所提出的技術(shù)問題的關(guān)鍵。此外,為了突出本發(fā)明的創(chuàng)新部分,本發(fā)明上述各裝置實施方式并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切的模塊弓I入,這并不表明上述裝置實施方式并不存在其它的模塊。
[0132]需要說明的是,在本專利的權(quán)利要求和說明書中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0133]雖然通過參照本發(fā)明的某些優(yōu)選實施方式,已經(jīng)對本發(fā)明進行了圖示和描述,但本領(lǐng)域的普通技術(shù)人員應(yīng)該明白,可以在形式上和細節(jié)上對其作各種改變,而不偏離本發(fā)明的精神和范圍。
【權(quán)利要求】
1.一種基于目標檢測的感興趣區(qū)域視頻編碼方法,其特征在于,包括以下步驟: 對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度; 將所述目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域; 根據(jù)編碼質(zhì)量等級和所述置信度計算所述感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù); 根據(jù)所述對應(yīng)的編碼量化參數(shù)對所述感興趣區(qū)域和所述非感興趣區(qū)域進行量化編碼。
2.根據(jù)權(quán)利要求1所述的基于目標檢測的感興趣區(qū)域視頻編碼方法,其特征在于,還包括以下步驟: 對原始圖像進行編碼前的預(yù)處理; 所述對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度的步驟和所述對原始圖像進行編碼前的預(yù)處理的步驟是并行處理的。
3.根據(jù)權(quán)利要求2所述的基于目標檢測的感興趣區(qū)域視頻編碼方法,其特征在于,所述對原始圖像進行編碼前的預(yù)處理的步驟之后,還包括: 將對應(yīng)同一圖像的預(yù)處理結(jié)果和目標信息匹配起來。
4.根據(jù)權(quán)利要求1至3中任一項所述的基于目標檢測的感興趣區(qū)域視頻編碼方法,其特征在于,所述將所述目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域的步驟,包括以下子步驟: 將目標的位置和大小映射為以編碼分辨率為基準的位置和大小; 根據(jù)目標的類型對目標大小進行以目標中心點為固定點的調(diào)整。
5.根據(jù)權(quán)利要求1所述的基于目標檢測的感興趣區(qū)域視頻編碼方法,其特征在于,所述根據(jù)編碼質(zhì)量等級和所述置信度計算所述感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù)的步驟,包括以下子步驟: 將編碼質(zhì)量等級和所述置信度轉(zhuǎn)化為感興趣區(qū)域與非感興趣區(qū)域的編碼量化參數(shù)的相對值; 統(tǒng)計轉(zhuǎn)換后所有宏塊的編碼量化參數(shù)的相對值總和; 依據(jù)上一幀的編碼量化參數(shù)、上一幀統(tǒng)計完成的所有宏塊的編碼量化參數(shù)的相對值總和以及當前幀統(tǒng)計得到的所有宏塊的編碼量化參數(shù)的相對值總和來預(yù)測當前幀的編碼量化參數(shù); 計算感興趣區(qū)域每一個宏塊的編碼量化參數(shù)。
6.一種基于目標檢測的感興趣區(qū)域視頻編碼裝置,其特征在于,包括: 目標檢測模塊,用于對原始圖像進行目標檢測,生成目標信息,獲取目標區(qū)域和對應(yīng)目標檢測的置信度; 感興趣區(qū)域生成模塊,用于將所述目標檢測模塊生成的目標區(qū)域轉(zhuǎn)換成適合編碼的感興趣區(qū)域; 量化參數(shù)確定模塊,用于根據(jù)編碼質(zhì)量等級和所述置信度計算所述感興趣區(qū)域和非感興趣區(qū)域的編碼量化參數(shù); 編碼模塊,用于根據(jù)所述對應(yīng)的編碼量化參數(shù)對所述感興趣區(qū)域和所述非感興趣區(qū)域進行量化編碼。
7.根據(jù)權(quán)利要求6所述的基于目標檢測的感興趣區(qū)域視頻編碼裝置,其特征在于,還包括: 預(yù)處理模塊,用于對原始圖像進行編碼前的預(yù)處理; 所述目標檢測模塊對原始圖像進行目標檢測和所述預(yù)處理模塊對原始圖像進行編碼前的預(yù)處理是并行處理的。
8.根據(jù)權(quán)利要求7所述的基于目標檢測的感興趣區(qū)域視頻編碼裝置,其特征在于,還包括: 圖像同步模塊,用于將對應(yīng)同一圖像的由所述目標檢測模塊和所述預(yù)處理模塊處理得到的目標信息和預(yù)處理結(jié)果匹配起來。
9.根據(jù)權(quán)利要求6至8中任一項所述的基于目標檢測的感興趣區(qū)域視頻編碼裝置,其特征在于,所述感興趣區(qū)域生成模塊,包括以下子模塊: 目標信息映射子模塊,用于將所述目標的位置和大小映射為以編碼分辨率為基準的位置和大??; 目標大小調(diào)整子模塊,用于根據(jù)所述目標的類型對目標大小進行調(diào)整。
10.根據(jù)權(quán)利要求6所述的基于目標檢測的感興趣區(qū)域視頻編碼裝置,其特征在于,所述量化參數(shù)確定模塊包括以下子模塊: 量化參數(shù)轉(zhuǎn)換子模塊,用于將編碼質(zhì)量等級和所述置信度轉(zhuǎn)化為感興趣區(qū)域與非感興趣區(qū)域的編碼量化參數(shù)的相對值; 量化參數(shù)統(tǒng)計子模塊,用于統(tǒng)計轉(zhuǎn)換后所有宏塊的編碼量化參數(shù)的相對值總和; 量化參數(shù)預(yù)測子模塊,用于依據(jù)上一幀的編碼量化參數(shù)、上一幀統(tǒng)計完成的所有宏塊的編碼量化參數(shù)的相對值總和以及當前幀統(tǒng)計得到的所有宏塊的編碼量化參數(shù)的相對值總和來預(yù)測當前幀的編碼量化參數(shù); 量化參數(shù)計算子模塊,用于計算感興趣區(qū)域每一個宏塊的編碼量化參數(shù)。
【文檔編號】H04N19/176GK104427337SQ201310367169
【公開日】2015年3月18日 申請日期:2013年8月21日 優(yōu)先權(quán)日:2013年8月21日
【發(fā)明者】沈林杰, 師恩義, 俞海, 黃田, 陳軍 申請人:杭州??低晹?shù)字技術(shù)股份有限公司