本發(fā)明涉及視頻質(zhì)量評價(jià)領(lǐng)域,具體涉及一種基于注意力引導(dǎo)的屏幕內(nèi)容視頻質(zhì)量評價(jià)方法及裝置。
背景技術(shù):
1、隨著人工智能和數(shù)字多媒體技術(shù)的迅猛發(fā)展,以及各種便攜式設(shè)備的普及,屏幕內(nèi)容視頻在數(shù)字多媒體應(yīng)用領(lǐng)域(如在線教育、視頻會議、網(wǎng)絡(luò)廣播、游戲視頻等)中的應(yīng)用越來越廣泛,為用戶提供了更加靈活和免費(fèi)的多媒體體驗(yàn)。與自然視頻不同,屏幕內(nèi)容視頻是圖像和計(jì)算機(jī)生成的文本/圖像區(qū)域的混合體。
2、在屏幕內(nèi)容視頻的不同處理階段(如獲取、傳輸、顯示等),不可避免地會受到各種噪聲的干擾,導(dǎo)致感知質(zhì)量的不同程度下降,嚴(yán)重影響用戶的體驗(yàn)。因此,迫切需要開發(fā)一種有效的視頻質(zhì)量評估方法,以評估屏幕內(nèi)容視頻的視覺質(zhì)量,并提高相關(guān)任務(wù)的算法性能。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的在于針對上述提到的技術(shù)問題提出一種基于注意力引導(dǎo)的屏幕內(nèi)容視頻質(zhì)量評價(jià)方法及裝置。
2、第一方面,本發(fā)明提供了一種基于注意力引導(dǎo)的屏幕內(nèi)容視頻質(zhì)量評價(jià)方法,包括以下步驟:
3、構(gòu)建時(shí)空融合的屏幕內(nèi)容視頻質(zhì)量評價(jià)模型并訓(xùn)練,得到經(jīng)訓(xùn)練的屏幕內(nèi)容視頻質(zhì)量評價(jià)模型,屏幕內(nèi)容視頻質(zhì)量評價(jià)模型包括空域質(zhì)量評價(jià)分支和時(shí)域質(zhì)量評價(jià)分支,空域質(zhì)量評價(jià)分支包括紋理特征提取單元、語義特征提取單元、第一融合模塊和空間質(zhì)量聚合模塊,紋理特征提取單元包括顯著性計(jì)算模塊、初始多尺度紋理表示計(jì)算模塊和第一預(yù)訓(xùn)練網(wǎng)絡(luò);語義特征提取單元包括第二預(yù)訓(xùn)練網(wǎng)絡(luò)和第二融合模塊;
4、獲取屏幕內(nèi)容視頻并提取得到若干個(gè)碎片化視頻和若干個(gè)關(guān)鍵幀;將每個(gè)碎片化視頻和關(guān)鍵幀輸入經(jīng)訓(xùn)練的屏幕內(nèi)容視頻質(zhì)量評價(jià)模型,每個(gè)關(guān)鍵幀經(jīng)過紋理特征提取單元的初始多尺度紋理表示計(jì)算模塊,先進(jìn)行通道分割并提取得到每個(gè)關(guān)鍵幀的初始多尺度紋理表示,每個(gè)關(guān)鍵幀經(jīng)過顯著性計(jì)算模塊計(jì)算得到每個(gè)關(guān)鍵幀的顯著性圖,根據(jù)每個(gè)關(guān)鍵幀的初始多尺度紋理表示和顯著性圖得到每個(gè)關(guān)鍵幀的多尺度紋理表示,每個(gè)關(guān)鍵幀的多尺度紋理表示輸入到第一預(yù)訓(xùn)練網(wǎng)絡(luò),提取得到每個(gè)關(guān)鍵幀的紋理特征;每個(gè)關(guān)鍵幀輸入語義特征提取單元,先進(jìn)行劃分裁剪,得到若干個(gè)圖像塊,并重構(gòu)得到重構(gòu)關(guān)鍵幀,分別將每個(gè)圖像塊和重構(gòu)關(guān)鍵幀輸入到第二預(yù)訓(xùn)練網(wǎng)絡(luò),得到每個(gè)圖像塊的語義特征和重構(gòu)關(guān)鍵幀的語義特征,將所有圖像塊的語義特征和重構(gòu)關(guān)鍵幀的語義特征輸入到第二融合模塊,得到每個(gè)關(guān)鍵幀的語義特征;將每個(gè)關(guān)鍵幀的紋理特征和語義特征輸入第一融合模塊,得到空間特征,空間特征經(jīng)過空間質(zhì)量聚合模塊,得到空域質(zhì)量分?jǐn)?shù);每個(gè)碎片化視頻輸入時(shí)域質(zhì)量評價(jià)分支,得到時(shí)域質(zhì)量分?jǐn)?shù);根據(jù)空域質(zhì)量分?jǐn)?shù)和時(shí)域質(zhì)量分?jǐn)?shù)計(jì)算得到屏幕內(nèi)容視頻的質(zhì)量分?jǐn)?shù)。
5、作為優(yōu)選,每個(gè)關(guān)鍵幀輸入初始多尺度紋理表示計(jì)算模塊,先進(jìn)行通道分割并提取得到每個(gè)關(guān)鍵幀的初始多尺度紋理表示,每個(gè)關(guān)鍵幀經(jīng)過顯著性計(jì)算模塊計(jì)算得到每個(gè)關(guān)鍵幀的顯著性圖,具體包括:
6、將關(guān)鍵幀中的位置處像素點(diǎn)按照rgb三通道進(jìn)行通道分割,分別得到關(guān)鍵幀中的位置處像素點(diǎn)的三個(gè)通道表示、、,并利用多尺度高斯拉普拉斯濾波器分別對每個(gè)通道表示進(jìn)行處理,得到關(guān)鍵幀中的位置處像素點(diǎn)在每個(gè)通道的多尺度紋理表示、、,如下式所示:
7、;
8、;
9、;
10、;
11、其中,表示關(guān)鍵幀中的像素點(diǎn)的坐標(biāo),表示多尺度高斯拉普拉斯濾波器,表示高斯核尺度,表示多尺度高斯拉普拉斯濾波器的標(biāo)準(zhǔn)差,表示卷積操作;
12、將關(guān)鍵幀中的位置處像素點(diǎn)的所有通道的多尺度紋理表示相加,得到關(guān)鍵幀中的位置處的初始多尺度紋理表示;
13、;
14、其中,表示關(guān)鍵幀中的位置處像素點(diǎn)的初始多尺度紋理表示,每個(gè)關(guān)鍵幀的所有像素點(diǎn)的初始多尺度紋理表示構(gòu)成每個(gè)關(guān)鍵幀的初始多尺度紋理表示;
15、通過運(yùn)動模糊卷積核對每個(gè)關(guān)鍵幀進(jìn)行卷積操作,得到對應(yīng)的模糊關(guān)鍵幀,如下式所示:
16、;
17、;
18、其中,表示關(guān)鍵幀,表示模糊關(guān)鍵幀,為運(yùn)動模糊卷積核,為運(yùn)動量,為運(yùn)動方向及其與水平軸的夾角,表示轉(zhuǎn)置運(yùn)算,和表示運(yùn)動模糊卷積核的坐標(biāo)對應(yīng)的值,表示卷積操作;
19、使用sobel濾波器計(jì)算關(guān)鍵幀中的位置處像素點(diǎn)對應(yīng)的梯度映射和模糊關(guān)鍵幀中的位置處像素點(diǎn)對應(yīng)的梯度映射,并計(jì)算關(guān)鍵幀中的位置處像素點(diǎn)對應(yīng)的梯度映射和模糊關(guān)鍵幀中的位置處像素點(diǎn)對應(yīng)的梯度映射之間的相似度,如下式所示:
20、;
21、;
22、;
23、其中,和表示水平sobel濾波和垂直sobel濾波器,表示正常數(shù);
24、通過高斯卷積核對每個(gè)關(guān)鍵幀進(jìn)行卷積操作,得到對應(yīng)的聚焦關(guān)鍵幀,如下式所示:
25、;
26、;
27、其中,表示聚焦關(guān)鍵幀,表示高斯卷積核,表示卷積運(yùn)算,和表示高斯卷積核的坐標(biāo)對應(yīng)的值,表示高斯核函數(shù)標(biāo)準(zhǔn)差;
28、使用sobel濾波器計(jì)算聚焦關(guān)鍵幀對應(yīng)的梯度映射,并計(jì)算關(guān)鍵幀中的位置處像素點(diǎn)對應(yīng)的梯度映射和聚焦關(guān)鍵幀中的位置處像素點(diǎn)對應(yīng)的梯度映射之間的相似度,如下式所示:
29、;
30、其中,為正常數(shù);
31、根據(jù)和計(jì)算關(guān)鍵幀中的位置處像素點(diǎn)的顯著性值,如下式所示:
32、;
33、其中,表示顯著性融合比例的超參數(shù),表示關(guān)鍵幀中的位置處像素點(diǎn)的顯著性值,每個(gè)關(guān)鍵幀中所有像素點(diǎn)的顯著性值構(gòu)成每個(gè)關(guān)鍵幀的顯著性圖。
34、作為優(yōu)選,第一預(yù)訓(xùn)練網(wǎng)絡(luò)和第二預(yù)訓(xùn)練網(wǎng)絡(luò)均包括多個(gè)并行設(shè)置的不同卷積核大小的卷積層以及分別與每個(gè)卷積層連接的全局平均池化層和全局標(biāo)準(zhǔn)差池化層,在屏幕內(nèi)容視頻質(zhì)量評價(jià)模型的訓(xùn)練過程中,第一預(yù)訓(xùn)練網(wǎng)絡(luò)和第二預(yù)訓(xùn)練網(wǎng)絡(luò)的參數(shù)凍結(jié)。
35、作為優(yōu)選,根據(jù)每個(gè)關(guān)鍵幀的初始多尺度紋理表示和顯著性圖得到每個(gè)關(guān)鍵幀的多尺度紋理表示,每個(gè)關(guān)鍵幀的多尺度紋理表示輸入到第一預(yù)訓(xùn)練網(wǎng)絡(luò),提取得到每個(gè)關(guān)鍵幀的紋理特征,具體包括:
36、將每個(gè)關(guān)鍵幀中的每個(gè)像素點(diǎn)的初始多尺度紋理表示和對應(yīng)的顯著性值相乘,得到每個(gè)關(guān)鍵幀中的每個(gè)像素點(diǎn)的多尺度紋理表示,如下式所示:
37、;
38、其中,表示關(guān)鍵幀中的位置處像素點(diǎn)的初始多尺度紋理表示,表示關(guān)鍵幀中的位置處像素點(diǎn)的顯著性值,表示關(guān)鍵幀中的位置處像素點(diǎn)的多尺度紋理表示;
39、將關(guān)鍵幀中的位置處像素點(diǎn)的多尺度紋理表示輸入第一預(yù)訓(xùn)練網(wǎng)絡(luò),得到關(guān)鍵幀中的位置處像素點(diǎn)的紋理特征;
40、;
41、;
42、其中,表示第一預(yù)訓(xùn)練網(wǎng)絡(luò)中的個(gè)階段中的第k個(gè)階段的所有卷積層所對應(yīng)的函數(shù),,表示第k個(gè)階段的紋理特征,表示全局平均池化層對應(yīng)的函數(shù),表示全局標(biāo)準(zhǔn)差池化層對應(yīng)的函數(shù),表示拼接操作,表示關(guān)鍵幀的紋理特征。
43、作為優(yōu)選,每個(gè)關(guān)鍵幀輸入語義特征提取單元,先進(jìn)行劃分裁剪,得到若干個(gè)圖像塊,并重構(gòu)得到重構(gòu)關(guān)鍵幀,分別將每個(gè)圖像塊和重構(gòu)關(guān)鍵幀輸入到第二預(yù)訓(xùn)練網(wǎng)絡(luò),得到每個(gè)圖像塊的語義特征和重構(gòu)關(guān)鍵幀的語義特征,將所有圖像塊的語義特征和重構(gòu)關(guān)鍵幀的語義特征輸入到第二融合模塊,得到每個(gè)關(guān)鍵幀的語義特征,具體包括:
44、將關(guān)鍵幀進(jìn)行若干等分,得到若干個(gè)網(wǎng)格,在每一個(gè)網(wǎng)格中隨機(jī)劃分裁剪出固定大小的圖像塊,得到若干個(gè)圖像塊,并將其按照網(wǎng)格位置重構(gòu)得到重構(gòu)關(guān)鍵幀;
45、分別將第n個(gè)圖像塊和重構(gòu)關(guān)鍵幀輸入到第二預(yù)訓(xùn)練網(wǎng)絡(luò),得到第n個(gè)圖像塊的語義特征和重構(gòu)關(guān)鍵幀的語義特征,如下式所示:
46、;
47、;
48、;
49、;
50、其中,表示第n個(gè)圖像塊,,n表示圖像塊的總數(shù),表示重構(gòu)關(guān)鍵幀,表示第二預(yù)訓(xùn)練網(wǎng)絡(luò)中的個(gè)階段中的第k個(gè)階段的所有卷積層所對應(yīng)的函數(shù),,表示全局平均池化層對應(yīng)的函數(shù),表示全局標(biāo)準(zhǔn)差池化層對應(yīng)的函數(shù),表示第n個(gè)圖像塊對應(yīng)的第k個(gè)階段的語義特征,表示重構(gòu)關(guān)鍵幀對應(yīng)的第k個(gè)階段的語義特征,表示拼接操作,表示第n個(gè)圖像塊對應(yīng)的語義特征,表示重構(gòu)關(guān)鍵幀對應(yīng)的語義特征;
51、第二融合模塊包括第一交叉注意力模塊,第n個(gè)圖像塊對應(yīng)的語義特征和重構(gòu)關(guān)鍵幀對應(yīng)的語義特征經(jīng)過第一交叉注意力模塊,將重構(gòu)關(guān)鍵幀對應(yīng)的語義特征作為查詢向量,第n個(gè)圖像塊對應(yīng)的語義特征作為鍵向量和值向量,得到第n個(gè)圖像塊的語義特征,所有圖像塊的語義特征進(jìn)行拼接,得到關(guān)鍵幀的語義特征,如下式所示:
52、;
53、;
54、其中,表示函數(shù),表示轉(zhuǎn)置矩陣,表示常數(shù),表示拼接操作,表示關(guān)鍵幀的語義特征。
55、作為優(yōu)選,將每個(gè)關(guān)鍵幀的紋理特征和語義特征輸入第一融合模塊,得到空間特征,空間特征經(jīng)過空間質(zhì)量聚合模塊,得到空域質(zhì)量分?jǐn)?shù);每個(gè)碎片化視頻輸入時(shí)域質(zhì)量評價(jià)分支,得到時(shí)域質(zhì)量分?jǐn)?shù);根據(jù)空域質(zhì)量分?jǐn)?shù)和時(shí)域質(zhì)量分?jǐn)?shù)計(jì)算得到屏幕內(nèi)容視頻的質(zhì)量分?jǐn)?shù),具體包括:
56、第一融合模塊包括第二交叉注意力模塊和第三交叉注意力模塊;關(guān)鍵幀的紋理特征和對應(yīng)關(guān)鍵幀的語義特征分別經(jīng)過第二交叉注意力模塊和第三交叉注意力模塊,第二交叉注意力模塊的輸出特征和第三交叉注意力模塊的輸出特征相加,得到關(guān)鍵幀的空間特征,如下式所示:
57、;
58、其中,表示函數(shù),表示轉(zhuǎn)置矩陣,表示關(guān)鍵幀的空間特征,表示關(guān)鍵幀的紋理特征,表示關(guān)鍵幀的語義特征,表示常數(shù);
59、空間質(zhì)量聚合模塊包括依次連接的兩個(gè)全連接層,得到關(guān)鍵幀的空域質(zhì)量分?jǐn)?shù),如下式所示:
60、;
61、其中,表示空間質(zhì)量聚合模塊對應(yīng)的函數(shù),表示空域質(zhì)量分?jǐn)?shù);
62、時(shí)域質(zhì)量評價(jià)分支采用視頻swim?transformer網(wǎng)絡(luò),碎片化視頻輸入視頻swimtransformer網(wǎng)絡(luò),得到時(shí)域質(zhì)量分?jǐn)?shù);
63、采用下式計(jì)算屏幕內(nèi)容視頻的質(zhì)量分?jǐn)?shù):
64、;
65、其中,表示權(quán)重值。
66、第二方面,本發(fā)明提供了一種基于注意力引導(dǎo)的屏幕內(nèi)容視頻質(zhì)量評價(jià)裝置,包括:
67、模型構(gòu)建模塊,被配置為構(gòu)建時(shí)空融合的屏幕內(nèi)容視頻質(zhì)量評價(jià)模型并訓(xùn)練,得到經(jīng)訓(xùn)練的屏幕內(nèi)容視頻質(zhì)量評價(jià)模型,屏幕內(nèi)容視頻質(zhì)量評價(jià)模型包括空域質(zhì)量評價(jià)分支和時(shí)域質(zhì)量評價(jià)分支,空域質(zhì)量評價(jià)分支包括紋理特征提取單元、語義特征提取單元、第一融合模塊和空間質(zhì)量聚合模塊,紋理特征提取單元包括顯著性計(jì)算模塊、初始多尺度紋理表示計(jì)算模塊和第一預(yù)訓(xùn)練網(wǎng)絡(luò);語義特征提取單元包括第二預(yù)訓(xùn)練網(wǎng)絡(luò)和第二融合模塊;
68、質(zhì)量分?jǐn)?shù)計(jì)算模塊,被配置為獲取屏幕內(nèi)容視頻并提取得到若干個(gè)碎片化視頻和若干個(gè)關(guān)鍵幀;將每個(gè)碎片化視頻和關(guān)鍵幀輸入經(jīng)訓(xùn)練的屏幕內(nèi)容視頻質(zhì)量評價(jià)模型,每個(gè)關(guān)鍵幀經(jīng)過紋理特征提取單元的初始多尺度紋理表示計(jì)算模塊,先進(jìn)行通道分割并提取得到每個(gè)關(guān)鍵幀的初始多尺度紋理表示,每個(gè)關(guān)鍵幀經(jīng)過顯著性計(jì)算模塊計(jì)算得到每個(gè)關(guān)鍵幀的顯著性圖,根據(jù)每個(gè)關(guān)鍵幀的初始多尺度紋理表示和顯著性圖得到每個(gè)關(guān)鍵幀的多尺度紋理表示,每個(gè)關(guān)鍵幀的多尺度紋理表示輸入到第一預(yù)訓(xùn)練網(wǎng)絡(luò),提取得到每個(gè)關(guān)鍵幀的紋理特征;每個(gè)關(guān)鍵幀輸入語義特征提取單元,先進(jìn)行劃分裁剪,得到若干個(gè)圖像塊,并重構(gòu)得到重構(gòu)關(guān)鍵幀,分別將每個(gè)圖像塊和重構(gòu)關(guān)鍵幀輸入到第二預(yù)訓(xùn)練網(wǎng)絡(luò),得到每個(gè)圖像塊的語義特征和重構(gòu)關(guān)鍵幀的語義特征,將所有圖像塊的語義特征和重構(gòu)關(guān)鍵幀的語義特征輸入到第二融合模塊,得到每個(gè)關(guān)鍵幀的語義特征;將每個(gè)關(guān)鍵幀的紋理特征和語義特征輸入第一融合模塊,得到空間特征,空間特征經(jīng)過空間質(zhì)量聚合模塊,得到空域質(zhì)量分?jǐn)?shù);每個(gè)碎片化視頻輸入時(shí)域質(zhì)量評價(jià)分支,得到時(shí)域質(zhì)量分?jǐn)?shù);根據(jù)空域質(zhì)量分?jǐn)?shù)和時(shí)域質(zhì)量分?jǐn)?shù)計(jì)算得到屏幕內(nèi)容視頻的質(zhì)量分?jǐn)?shù)。
69、第三方面,本發(fā)明提供了一種電子設(shè)備,包括一個(gè)或多個(gè)處理器;存儲裝置,用于存儲一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
70、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
71、第五方面,本發(fā)明提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
72、相比于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
73、(1)本發(fā)明提出的基于注意力引導(dǎo)的屏幕內(nèi)容視頻質(zhì)量評價(jià)方法充分利用了視頻中與質(zhì)量密切相關(guān)的豐富紋理信息和語義信息,并通過一種可靠的交叉注意力融合機(jī)制,實(shí)現(xiàn)對失真屏幕內(nèi)容視頻的質(zhì)量評估。
74、(2)本發(fā)明提出的基于注意力引導(dǎo)的屏幕內(nèi)容視頻質(zhì)量評價(jià)方法在第一預(yù)訓(xùn)練網(wǎng)絡(luò)中采用關(guān)鍵幀的多尺度紋理表示方式,在第二預(yù)訓(xùn)練網(wǎng)絡(luò)中采用關(guān)鍵幀的多尺度語義表示方式,模擬了人眼對邊緣信息的敏感性。
75、(3)本發(fā)明提出的基于注意力引導(dǎo)的屏幕內(nèi)容視頻質(zhì)量評價(jià)方法設(shè)計(jì)了多階段交叉注意力機(jī)制,不僅有效融合多區(qū)域圖像塊的語義特征,還結(jié)合了紋理特征與語義特征,有效提高屏幕內(nèi)容視頻質(zhì)量評價(jià)的準(zhǔn)確性。