本發(fā)明涉視頻圖像修復(fù)處理處理,具體涉及一種采用深度學(xué)習(xí)的視頻圖像增強修復(fù)方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,視頻內(nèi)容已成為人們獲取信息和娛樂的重要來源。然而,在視頻采集、處理、傳輸和顯示的各個環(huán)節(jié)中,由于多種因素如光照條件不良、設(shè)備限制、壓縮算法等,經(jīng)常會導(dǎo)致視頻質(zhì)量下降,表現(xiàn)為圖像模糊、噪聲、顏色失真等問題。這些問題嚴(yán)重影響了視頻圖像的可用性和觀看體驗。傳統(tǒng)的視頻圖像增強方法主要包括銳化、對比度調(diào)整、去噪等技術(shù),這些方法往往基于簡單的線性處理模型,例如卷積濾波器和頻域技術(shù)。雖然這些方法在一定程度上能夠改善圖像質(zhì)量,但它們通常無法很好地處理圖像細(xì)節(jié)的恢復(fù),尤其是在圖像受損嚴(yán)重的情況下。此外,這些傳統(tǒng)方法處理高分辨率視頻時計算量大,難以實時處理,限制了它們的應(yīng)用范圍。
2、隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)(cnn)在圖像識別和處理領(lǐng)域的成功應(yīng)用,提供了新的思路和方法來解決視頻圖像增強的問題。深度學(xué)習(xí)模型能夠通過大量數(shù)據(jù)學(xué)習(xí)到圖像的復(fù)雜特征和模式,從而有效地進行圖像增強和修復(fù)。這種方法可以動態(tài)調(diào)整處理策略,根據(jù)不同的圖像內(nèi)容和損傷情況智能優(yōu)化處理效果,大幅提升了處理質(zhì)量和效率。
3、然而,盡管深度學(xué)習(xí)在圖像處理領(lǐng)域表現(xiàn)出了優(yōu)越的性能,現(xiàn)有的深度學(xué)習(xí)方法在視頻圖像增強應(yīng)用中仍面臨諸多挑戰(zhàn)。例如,大多數(shù)模型需要大量的訓(xùn)練數(shù)據(jù)和高昂的計算資源,且對實時處理的支持不足。此外,這些模型往往缺乏針對特定圖像處理任務(wù)的自適應(yīng)能力,如不能根據(jù)視頻內(nèi)容的具體特征動態(tài)調(diào)整激活函數(shù)或其他網(wǎng)絡(luò)參數(shù)。且現(xiàn)有自動處理較少考慮用戶輸入,自動處理后沒有根據(jù)用戶的實際需求進行調(diào)整,在智能化處理時,人工智能處理方法不能夠根據(jù)圖像的亮度或其他特征進行針對性自適應(yīng)針對性調(diào)節(jié)。針對現(xiàn)有視頻處理局限性,精細(xì)化自動化實時針對性的視頻圖像處理方法迫切需要一種新的解決方案,以提高處理的效率和準(zhǔn)確度,對于提升用戶滿意度。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中提到的上述問題,本發(fā)明提供一種采用深度學(xué)習(xí)的視頻圖像增強修復(fù)方法及系統(tǒng),該方法首先實時檢測用戶輸入,判斷用戶是否有圖像處理關(guān)鍵詞輸入;其次,當(dāng)檢測到用戶輸入圖像處理關(guān)鍵詞時,則對該關(guān)鍵詞進行編碼轉(zhuǎn)換為關(guān)鍵詞特征向量,并將關(guān)鍵詞特征向量與視頻圖像序列特征向量首尾相接后輸入至訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;再次,當(dāng)沒有檢測到用戶輸入關(guān)鍵詞時,將視頻圖像序列特征向量輸入至訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;最后,第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理或第二卷積神經(jīng)網(wǎng)絡(luò)模型將處理后的視頻圖像輸出至顯示模塊。本技術(shù)通采用第一卷積神經(jīng)網(wǎng)絡(luò)模型和第二卷積神經(jīng)網(wǎng)絡(luò)模型,根據(jù)用戶輸入關(guān)鍵詞條件針對性處理,大大提高了視頻處理的精確度及效率,極大增加用戶體驗。
2、本技術(shù)提供一種采用深度學(xué)習(xí)的視頻圖像增強修復(fù)方法,包括步驟:
3、s1:實時檢測用戶輸入,判斷用戶是否有圖像處理關(guān)鍵詞輸入;
4、s2:當(dāng)檢測到用戶輸入圖像處理關(guān)鍵詞時,則對該關(guān)鍵詞進行編碼轉(zhuǎn)換為關(guān)鍵詞特征向量,并將關(guān)鍵詞特征向量與視頻圖像序列特征向量首尾相接后輸入至訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;
5、s3:當(dāng)沒有檢測到用戶輸入關(guān)鍵詞時,將視頻圖像序列特征向量輸入至訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;
6、s4:第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理或第二卷積神經(jīng)網(wǎng)絡(luò)模型將處理后的視頻圖像輸出至顯示模塊。
7、本技術(shù)一種采用深度學(xué)習(xí)的視頻圖像增強修復(fù)方法,所述訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型采用改進的mish激活函數(shù)f(x):
8、f(x)=x*tanh(ln(1+eβx))
9、其中,β是根據(jù)用戶輸入的關(guān)鍵詞動態(tài)調(diào)整的參數(shù);tanh為雙曲正切函數(shù);ln表示自然對數(shù);x為卷積層輸出。
10、優(yōu)選地,所述圖像處理關(guān)鍵詞包括:降噪、銳化、色彩校正、對比度增強、細(xì)節(jié)增強中的一種。
11、優(yōu)選地,所述訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型通過使用帶有關(guān)鍵詞并帶有標(biāo)記配對的有損和無損圖像的數(shù)據(jù)集進行訓(xùn)練;所述訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型通過使用帶有標(biāo)記配對的有損和無損圖像的數(shù)據(jù)集進行訓(xùn)練。
12、優(yōu)選地,所述訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型采用改進的sigmoid激活函數(shù):
13、
14、其中,z為第二卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層卷積操作輸出,r1為輸入視頻幀圖像平均亮度;γ為亮度調(diào)節(jié)參數(shù)。
15、本技術(shù)還提供一種采用深度學(xué)習(xí)的視頻圖像增強修復(fù)系統(tǒng),包括:
16、檢測模塊,實時檢測用戶輸入,判斷用戶是否有圖像處理關(guān)鍵詞輸入;
17、第一神經(jīng)網(wǎng)絡(luò)模型處理模塊,當(dāng)檢測到用戶輸入圖像處理關(guān)鍵詞時,則對該關(guān)鍵詞進行編碼轉(zhuǎn)換為關(guān)鍵詞特征向量,并將關(guān)鍵詞特征向量與視頻圖像序列特征向量首尾相接后輸入至訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;
18、第二卷積神經(jīng)網(wǎng)絡(luò)模型處理模塊,當(dāng)沒有檢測到用戶輸入關(guān)鍵詞時,將視頻圖像序列特征向量輸入至訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;
19、輸出模塊,第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理或第二卷積神經(jīng)網(wǎng)絡(luò)模型將處理后的視頻圖像輸出至顯示模塊。
20、優(yōu)選地,所述訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型采用改進的mish激活函數(shù)f(x):
21、f(x)=x*tanh(ln(1+eβx))
22、其中,β是根據(jù)用戶輸入的關(guān)鍵詞動態(tài)調(diào)整的參數(shù);tanh為雙曲正切函數(shù);ln表示自然對數(shù);x為卷積層輸出。
23、優(yōu)選地,所述圖像處理關(guān)鍵詞包括:降噪、銳化、色彩校正、對比度增強、細(xì)節(jié)增強中的一種。
24、優(yōu)選地,所述訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型通過使用帶有關(guān)鍵詞并帶有標(biāo)記配對的有損和無損圖像的數(shù)據(jù)集進行訓(xùn)練;所述訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型通過使用帶有標(biāo)記配對的有損和無損圖像的數(shù)據(jù)集進行訓(xùn)練。
25、優(yōu)選地,所述訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型采用改進的sigmoid激活函數(shù):
26、
27、其中,z為第二卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層卷積操作輸出,r1為輸入視頻幀圖像平均亮度;γ為亮度調(diào)節(jié)參數(shù)。
28、本發(fā)明提供了一種采用深度學(xué)習(xí)的視頻圖像增強修復(fù)方法及系統(tǒng),所能實現(xiàn)的有益技術(shù)效果如下:
29、1、本發(fā)明提供一種采用深度學(xué)習(xí)的視頻圖像增強修復(fù)方法及系統(tǒng),該方法首先實時檢測用戶輸入,判斷用戶是否有圖像處理關(guān)鍵詞輸入;其次,當(dāng)檢測到用戶輸入圖像處理關(guān)鍵詞時,則對該關(guān)鍵詞進行編碼轉(zhuǎn)換為關(guān)鍵詞特征向量,并將關(guān)鍵詞特征向量與視頻圖像序列特征向量首尾相接后輸入至訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;再次,當(dāng)沒有檢測到用戶輸入關(guān)鍵詞時,將視頻圖像序列特征向量輸入至訓(xùn)練好的第二卷積神經(jīng)網(wǎng)絡(luò)模型進行處理;最后,第一卷積神經(jīng)網(wǎng)絡(luò)模型進行處理或第二卷積神經(jīng)網(wǎng)絡(luò)模型將處理后的視頻圖像輸出至顯示模塊。本技術(shù)通采用第一卷積神經(jīng)網(wǎng)絡(luò)模型和第二卷積神經(jīng)網(wǎng)絡(luò)模型,根據(jù)用戶輸入關(guān)鍵詞條件針對性處理,大大提高了視頻處理的精確度及效率,極大增加用戶體驗。
30、2、本發(fā)明訓(xùn)練好的第一卷積神經(jīng)網(wǎng)絡(luò)模型采用改進的mish激活函數(shù),將β的值作為考慮因素加入到激活函數(shù)的計算過程中,大大增強了視頻處理的針對性滿足客戶需求,通過設(shè)置圖像處理關(guān)鍵詞包括:降噪、銳化、色彩校正、對比度增強、細(xì)節(jié)增強中的一種,并根據(jù)用戶輸入的關(guān)鍵詞動態(tài)調(diào)整的參數(shù)的值,其中值根據(jù)關(guān)鍵詞確定,每個關(guān)鍵詞和值之間的對應(yīng)關(guān)系通過多次的訓(xùn)練經(jīng)驗設(shè)置,大幅提高了視頻處理的準(zhǔn)確性與全面性。本發(fā)明的視頻圖像增強修復(fù)方法利用改進的深度學(xué)習(xí)模型,特別是通過引入動態(tài)調(diào)整的激活函數(shù),使得處理過程能夠根據(jù)視頻內(nèi)容的具體特征自動調(diào)整。這種自適應(yīng)能力使得該方法在處理不同類型的圖像損傷(如模糊、噪聲、顏色失真等)時更加精準(zhǔn)和有效,從而顯著提高了圖像質(zhì)量和用戶的視覺體驗。
31、3、本方案第二卷積神經(jīng)網(wǎng)絡(luò)模型采用改進的sigmoid激活函數(shù),激活函數(shù)中將輸入視頻幀圖像平均亮度作為調(diào)節(jié)參考條件,在無用戶關(guān)鍵詞提示時,進一步平衡視頻圖像整體視覺效果質(zhì)量,本發(fā)明采用的卷積神經(jīng)網(wǎng)絡(luò)模型經(jīng)過優(yōu)化設(shè)計,能夠快速響應(yīng)并處理高分辨率視頻流。這種高效率的處理能力特別適合實時視頻應(yīng)用,如視頻直播、實時監(jiān)控等場景,滿足了現(xiàn)代視頻應(yīng)用對速度和效率的嚴(yán)格要求,大大提升了用戶滿意度。