本技術(shù)實施例涉及圖像處理,尤其涉及一種圖像的感興趣區(qū)域確定方法及相關(guān)裝置。
背景技術(shù):
1、隨著網(wǎng)絡(luò)的普及,視頻傳輸在社會的各個領(lǐng)域中越來越常見。在一些特定的場景中(例如安防場景以及多媒體場景),視頻傳輸已經(jīng)成為了不可或缺的角色。
2、一般地,在視頻傳輸過程中,為了降低需要傳輸?shù)囊曨l數(shù)據(jù)量,通常會對視頻進(jìn)行編碼處理,從而實現(xiàn)對視頻數(shù)據(jù)的壓縮。在相關(guān)技術(shù)中,為了進(jìn)一步降低壓縮后的視頻數(shù)據(jù)的數(shù)據(jù)量,采用了感興趣區(qū)域(region?of?interest,roi)編碼技術(shù)來對視頻進(jìn)行編碼。roi編碼技術(shù)具體是識別視頻中每個圖像的roi,從而為圖像中的roi和非roi賦予不同的壓縮參數(shù),保證圖像中的roi質(zhì)量的前提下,進(jìn)一步降低圖像中的非roi的質(zhì)量,從而實現(xiàn)進(jìn)一步降低壓縮后的視頻數(shù)據(jù)的數(shù)據(jù)量。
3、然而,相關(guān)技術(shù)中的roi編碼技術(shù)是通過人工智能(artificial?intelligence,ai)模型來識別圖像中的roi,需要耗費較多的處理資源且識別時間較長,容易影響正常的視頻編碼過程。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供了一種圖像的感興趣區(qū)域確定方法,能夠有效地降低確定圖像roi所需的處理資源且提高了確定圖像roi的效率,保證視頻編碼的正常執(zhí)行。
2、本技術(shù)第一方面提供一種圖像的感興趣區(qū)域確定方法,該方法應(yīng)用于視頻編碼過程。具體地,該方法包括:首先,獲取第一圖像對應(yīng)的運動向量集合,運動向量集合是通過對第一圖像和第二圖像執(zhí)行幀間預(yù)測得到的,且運動向量集合包括第一圖像中的多個圖像塊對應(yīng)的運動向量。具體地,運動向量集合包括多個運動向量,且多個運動向量與第一圖像中的多個圖像塊一一對應(yīng)。每個運動向量分別用于表示第一圖像中的圖像塊相對于第二圖像中的匹配圖像塊的位移量。
3、其中,第一圖像和第二圖像屬于同一個視頻中的圖像,且第二圖像在視頻中的顯示順序位于第一圖像之前,例如第二圖像為第一圖像的前一幀圖像。此外,第二圖像的編碼順序也是在第一圖像之前,即第二圖像是先于第一圖像進(jìn)行編碼的。在對第一圖像進(jìn)行編碼時,第二圖像已經(jīng)編碼完畢。
4、然后,獲取第二圖像的roi。由于第二圖像是位于第一圖像之前的已編碼的圖像,因此第二圖像的roi也是在第二圖像編碼過程已經(jīng)確定好的。
5、最后,基于運動向量集合和第二圖像的roi,確定第一圖像的roi。由于運動向量集合中記錄了第一圖像中的圖像塊相較于第二圖像中的匹配圖像塊之間的位移情況,因此針對于第二圖像中的roi,可以基于運動向量集合查找得到第二圖像中的roi所包括的匹配圖像塊在第一圖像中所對應(yīng)的圖像塊,進(jìn)而將第二圖像中的roi在第一圖像中所對應(yīng)的圖像塊集合視為第一圖像的roi。
6、本方案中,通過對視頻中的第一圖像和第二圖像執(zhí)行幀間預(yù)測來獲得第一圖像對應(yīng)的運動向量,從而獲得第一圖像中的圖像塊相較于第二圖像的位移情況。并且,在獲得第二圖像的roi的情況下,基于第一圖像對應(yīng)的運動向量,即可獲知第一圖像的roi相較于第二圖像的roi的位移情況,進(jìn)而確定第一圖像的roi。
7、總的來說,本方案通過復(fù)用視頻編碼過程中所求得的運動向量以及第二圖像的roi來確定第一圖像的roi,實現(xiàn)了視頻編碼信息的有效利用,保證僅需少量計算操作即可獲得圖像的roi,避免了通過ai模型來識別圖像中的roi,有效地降低了確定圖像roi所需的處理資源且提高了確定圖像roi的效率,保證視頻編碼的正常執(zhí)行。
8、在一種可能的實現(xiàn)方式中,第一圖像的roi是基于運動向量集合對第二圖像的roi進(jìn)行移動后確定的。由于第一圖像和第二圖像的大小是相同的,第二圖像的roi在第二圖像中的位置也是確定的,因此基于運動向量集合對第二圖像的roi進(jìn)行移動后,則可以得到第二圖像的roi在第一圖像中所對應(yīng)的圖像塊集合的位置,進(jìn)而獲得第一圖像中的roi所在的位置。
9、本方案中,復(fù)用視頻編碼過程中所求得的運動向量以及第二圖像的roi,能夠通過基于運動向量來移動第二圖像的roi,進(jìn)而確定第一圖像的roi,實現(xiàn)了視頻編碼信息的有效利用,保證僅需少量計算操作即可獲得圖像的roi,有效地降低了確定圖像roi所需的處理資源。
10、在一種可能的實現(xiàn)方式中,基于運動向量集合和第二圖像的roi確定第一圖像的roi,具體包括:基于運動向量集合確定第二圖像的roi的位移情況,即基于運動向量集合能夠確定第二圖像的roi需要進(jìn)行怎樣的位移才能夠到達(dá)第一圖像中對應(yīng)的圖像塊所在的位置;然后,基于所確定的位移情況對第二圖像的roi進(jìn)行移動,得到第二圖像的roi移動后的目標(biāo)位置,該目標(biāo)位置用于指示第一圖像的roi。也就是說,在確定目標(biāo)位置后,即可確定第一圖像的roi。
11、本方案中,通過將第二圖像的roi視為第一圖像的roi的匹配圖像塊,并通過運動向量集合查找到第一圖像的roi相對于第二圖像的roi的位移情況,即可通過移動第二圖像的roi來確定第一圖像的roi的位置,從而實現(xiàn)以簡單快捷的方式確定第一圖像的roi。
12、在一種可能的實現(xiàn)方式中,第一圖像的roi用于在視頻編碼中確定第一圖像中的不同區(qū)域的量化參數(shù)。例如,在對第一圖像進(jìn)行編碼時,采用較大的量化參數(shù)來對第一圖像的非roi進(jìn)行壓縮編碼,并采用較小的量化參數(shù)來對第一圖像的roi進(jìn)行壓縮編碼。
13、本方案中,通過采用不同的量化參數(shù)來分別對第一圖像中的roi和非roi進(jìn)行壓縮編碼,能夠使得第一圖像中的roi保留較多的細(xì)節(jié),第一圖像中的非roi則保留較少的細(xì)節(jié),從而在保證第一圖像中roi質(zhì)量的同時,減小第一圖像編碼后的數(shù)據(jù)量。
14、在一種可能的實現(xiàn)方式中,運動向量集合是基于視頻編碼過程中的幀間預(yù)測步驟得到的,且運動向量集合還用于執(zhí)行視頻編碼過程中的變換步驟。具體來說,視頻編碼過程包括圖像分塊、幀間預(yù)測、變換、量化以及熵編碼等步驟,本實施例中是在執(zhí)行正常的視頻編碼步驟的過程中,還額外輸出幀間預(yù)測所得到的運動向量來執(zhí)行后續(xù)的roi確定步驟。
15、本方案中,通過復(fù)用在視頻編碼過程執(zhí)行幀間預(yù)測所得到的運動向量來實現(xiàn)確定第一圖像的roi,而無需執(zhí)行額外的計算步驟來獲得運動向量,有效地減少了確定roi所帶來的計算開銷。
16、在一種可能的實現(xiàn)方式中,本技術(shù)提供的圖像的感興趣區(qū)域確定方法應(yīng)用于視頻編碼器,該視頻編碼器還用于執(zhí)行常規(guī)的編碼步驟,例如幀間預(yù)測、變換、量化以及熵編碼等編碼步驟。
17、本方案中,通過視頻編碼器來同時實現(xiàn)常規(guī)的視頻編碼流程以及確定圖像roi的過程,能夠避免視頻編碼器與其他的硬件交互,提高了視頻編碼的效率,且視頻編碼過程不會受到確定圖像roi過程的影響,有效地降低了視頻編碼的時延。
18、在一種可能的實現(xiàn)方式中,在確定第一圖像的roi之后,可以將第一圖像的roi存儲于寄存器中,該寄存器用于在編碼第一圖像之后的圖像時提供第一圖像的roi。也就是說,在對第一圖像之后的圖像進(jìn)行編碼時,還可以基于第一圖像的roi來確定第一圖像之后的圖像的roi,從而實現(xiàn)確定視頻中連續(xù)的圖像的roi。
19、其中,第一圖像的roi存儲于寄存器中的形式可以有多種。在一種可能的方式中,第一圖像的roi是通過roi掩碼圖來表示,即寄存器中所存儲的為roi掩碼圖。roi掩碼圖是一個與第一圖像相同大小的圖像,且roi掩碼圖中的像素點的取值能夠指示該像素點是否屬于第一圖像的roi。比如,在roi掩碼圖中,像素點的取值為0,代表該像素點所在的位置屬于非roi;像素點的取值不為0,代表該像素點所在的位置屬于roi。也就是說,roi掩碼圖是通過像素點的取值來指示第一圖像中的每個位置是否為roi。在另一種可能的方式中,第一圖像的roi可以是坐標(biāo)的形式存儲于寄存器中,即寄存器中存儲的為屬于第一圖像的roi的所有像素點的坐標(biāo)。
20、本方案中,通過寄存器來保存視頻中每個圖像的roi,能夠?qū)崿F(xiàn)在確定圖像的roi時,快速地從寄存器獲取前一個圖像的roi,實現(xiàn)圖像的roi的復(fù)用,保證確定圖像的roi的效率。
21、在一種可能的實現(xiàn)方式中,第二圖像的roi是基于視頻中位于第二圖像之前的第三圖像的roi得到的。
22、在一種可能的實現(xiàn)方式中,第二圖像為視頻中的關(guān)鍵幀,第二圖像的roi是通過ai模型對第二圖像進(jìn)行識別得到的。
23、比如,在第二圖像為關(guān)鍵幀的情況下,在對第二圖像進(jìn)行編碼時需要完整地對第二圖像中的所有內(nèi)容進(jìn)行編碼,此時則可以通過ai模型對第二圖像進(jìn)行識別而得到第二圖像的roi。在第二圖像為非關(guān)鍵幀的情況下,在對第二圖像進(jìn)行編碼時實際上只需要對第二圖像與已編碼的圖像之間的差異內(nèi)容進(jìn)行編碼,此時則可以基于位于第二圖像之前的第三圖像的roi來確定第二圖像的roi。
24、總的來說,在本方案中,對于視頻中的非關(guān)鍵幀,均可以是通過復(fù)用運動向量和已編碼的圖像的roi來確定非關(guān)鍵幀的roi;對于視頻中的關(guān)鍵幀,則可以是通過ai模型來確定關(guān)鍵幀的roi,從而保證方案在各種編碼場景下的適用性,保證方案的可實現(xiàn)性。
25、在一種可能的實現(xiàn)方式中,第一圖像的獲取場景為以下的任意一個場景:安防場景、多媒體場景、自動駕駛場景以及工業(yè)控制場景。
26、本技術(shù)第二方面提供一種圖像的感興趣區(qū)域確定裝置,該裝置應(yīng)用于視頻編碼過程,且該裝置包括:獲取模塊,用于獲取第一圖像對應(yīng)的運動向量集合,運動向量集合是通過對第一圖像和第二圖像執(zhí)行幀間預(yù)測得到的,運動向量集合包括第一圖像中的多個圖像塊對應(yīng)的運動向量,第一圖像和第二圖像屬于同一個視頻中的圖像,且第二圖像在視頻中的顯示順序位于第一圖像之前;獲取模塊,還用于獲取第二圖像的感興趣區(qū)域roi;處理模塊,用于基于運動向量集合和第二圖像的roi,確定第一圖像的roi。
27、在一種可能的實現(xiàn)方式中,第一圖像的roi是基于運動向量集合對第二圖像的roi進(jìn)行移動后確定的。
28、在一種可能的實現(xiàn)方式中,處理模塊,具體用于:基于運動向量集合確定第二圖像的roi的位移情況;基于位移情況對第二圖像的roi進(jìn)行移動,得到第二圖像的roi移動后的目標(biāo)位置,目標(biāo)位置用于指示第一圖像的roi。
29、在一種可能的實現(xiàn)方式中,第一圖像的roi用于在視頻編碼中確定第一圖像中的不同區(qū)域的量化參數(shù)。
30、在一種可能的實現(xiàn)方式中,運動向量集合是基于視頻編碼過程中的幀間預(yù)測步驟得到的,且運動向量集合還用于執(zhí)行視頻編碼過程中的變換步驟。
31、在一種可能的實現(xiàn)方式中,裝置為視頻編碼器。
32、在一種可能的實現(xiàn)方式中,處理模塊,還用于:將第一圖像的roi存儲于寄存器中,寄存器用于在編碼第一圖像之后的圖像時提供第一圖像的roi。
33、在一種可能的實現(xiàn)方式中,第二圖像的roi是基于視頻中位于第二圖像之前的第三圖像的roi得到的。
34、在一種可能的實現(xiàn)方式中,第二圖像為視頻中的關(guān)鍵幀,第二圖像的roi是通過人工智能ai模型對第二圖像進(jìn)行識別得到的。
35、在一種可能的實現(xiàn)方式中,第一圖像的獲取場景為以下的任意一個場景:安防場景、多媒體場景、自動駕駛場景以及工業(yè)控制場景。
36、本技術(shù)第三方面提供一種圖像的感興趣區(qū)域確定裝置,包括:處理器和存儲器;該存儲器用于存儲計算機(jī)指令,當(dāng)該處理器執(zhí)行該指令時,以使該圖像的感興趣區(qū)域確定裝置執(zhí)行上述第二方面任一實現(xiàn)方式的方法。
37、本技術(shù)第四方面提供一種計算機(jī)可讀存儲介質(zhì),該計算機(jī)可讀存儲介質(zhì)中存儲有指令,當(dāng)指令在電子設(shè)備上運行時,使得電子設(shè)備可以執(zhí)行上述任一方面的方法。
38、本技術(shù)第五方面提供一種包含指令的計算機(jī)程序產(chǎn)品,當(dāng)指令在電子設(shè)備上運行時,使得電子設(shè)備可以執(zhí)行上述任一方面的方法。
39、本技術(shù)第六方面提供一種芯片,該芯片包括處理器和通信接口,該通信接口用于與所示芯片之外的模塊通信,該處理器用于運行計算機(jī)程序或指令,使得安裝該芯片的裝置可以執(zhí)行上述任一方面的方法。
40、其中,第二方面至第六方面中任一種設(shè)計方式所帶來的技術(shù)效果可參見上述第一方面中不同實現(xiàn)方式所帶來的技術(shù)效果,此處不再贅述。