本發(fā)明涉及視頻識別,具體涉及一種局部語義增強(qiáng)編碼器、窗口語義增強(qiáng)transformer塊、航拍視頻分類模型及方法。
背景技術(shù):
1、隨著航空自動化技術(shù)和遙感成像技術(shù)的不斷發(fā)展,無人機(jī)得益于其機(jī)動性高、成本低、操作簡易的特點(diǎn),能夠在不同視角下捕獲海量的遙感影像。同時(shí),可以通過裝載著智能影像分析系統(tǒng)的無人機(jī)捕獲并分析視頻和圖像,在眾多應(yīng)用領(lǐng)域有著極高的實(shí)用價(jià)值,如目標(biāo)偵察、災(zāi)害探測、物流配送、病蟲害分析等。
2、以人工判讀方式處理無人機(jī)視頻成本高、速度慢,難以適配無人機(jī)所獲取的海量數(shù)據(jù),因此需要通過一種更有效且高效的方式自動解譯無人機(jī)視頻的內(nèi)容。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個重要研究分支,其通過深度神經(jīng)網(wǎng)絡(luò)的針對性設(shè)計(jì)來學(xué)習(xí)復(fù)雜的特征與表示,并憑借其優(yōu)秀的魯棒性與泛化性廣泛應(yīng)用于計(jì)算機(jī)視覺與自然語言處理等領(lǐng)域。
3、與人工判讀方式相比,基于深度學(xué)習(xí)的方式可以更有效且高效的方式自動解譯無人機(jī)視頻的內(nèi)容,其中卷積神經(jīng)網(wǎng)絡(luò)與視覺transformer是計(jì)算機(jī)視覺領(lǐng)域的主流深度學(xué)習(xí)方法。
4、transformer是一種基于自注意力的深度神經(jīng)網(wǎng)絡(luò),與卷積神經(jīng)網(wǎng)絡(luò)相比,transformer天然具備出色的對全局特征建模與并行計(jì)算的能力,其可以有效地利用無人機(jī)視頻豐富的信息并高效地處理無人機(jī)視頻的海量數(shù)據(jù)。當(dāng)前transformer在視頻識別領(lǐng)域的研究主要聚焦于常規(guī)視頻中的人類行為,這類視頻事件具有目標(biāo)明確、目標(biāo)行為明顯的特點(diǎn)。
5、但是,復(fù)雜場景下采集到的無人機(jī)視頻存在大量對于人類行為信息不敏感的背景信息,這不僅導(dǎo)致無人機(jī)視頻的自注意力計(jì)算量過大,降低了無人機(jī)視頻的識別效率,而且會影響到無人機(jī)視頻的識別結(jié)果,降低無人機(jī)視頻的識別準(zhǔn)確率。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明提出一種局部語義增強(qiáng)編碼器、窗口語義增強(qiáng)transformer塊、航拍視頻分類模型及方法,能夠提高航拍視頻識別的效率和準(zhǔn)確率。具體技術(shù)方案如下:
2、第一方面,提供了一種局部語義增強(qiáng)編碼器,在第一方面的第一種可實(shí)現(xiàn)方式中,包括:
3、窗口定位模塊,配置為采用與窗口大小相同的無填充卷積核定位視頻特征的關(guān)鍵窗口區(qū)域,并剝離關(guān)鍵窗口區(qū)域內(nèi)的局部視頻特征;
4、窗口時(shí)間多頭自注意力模塊,配置為計(jì)算所述局部視頻特征的窗口時(shí)間多頭自注意力,并將窗口時(shí)間多頭自注意力與所述視頻特征進(jìn)行殘差連接。
5、結(jié)合第一方面的第一種可實(shí)現(xiàn)方式,在第一方面的第二種可實(shí)現(xiàn)方式中,所述窗口定位模塊包括:
6、視頻池化單元,配置為對輸入的視頻特征分別進(jìn)行全局平均池化和全局最大池化,得到相應(yīng)的池化特征;
7、通道拼接單元,配置為對所述視頻池化單元得出的兩個池化特征進(jìn)行拼接。
8、得到相應(yīng)的拼接特征;
9、特征響應(yīng)單元,配置為采用窗口區(qū)域大小一致的無填充卷積核計(jì)算拼接特征的特征響應(yīng),并對得到的各特征響應(yīng)進(jìn)行歸一化,確定各特征響應(yīng)的權(quán)重;
10、窗口位置單元,配置為基于時(shí)間維度對所有特征響應(yīng)的權(quán)重進(jìn)行全局平均池化,并根據(jù)平均權(quán)重最大的特征響應(yīng)定位視頻特征的關(guān)鍵窗口位置;
11、窗口區(qū)域單元,配置為根據(jù)所述關(guān)鍵窗口位置和無填充卷積核的大小確定所述關(guān)鍵窗口區(qū)域。
12、結(jié)合第一方面的第一種可實(shí)現(xiàn)方式,在第一方面的第三種可實(shí)現(xiàn)方式中,還包括:
13、第一層歸一化模塊,配置為對所述視頻特征進(jìn)行標(biāo)準(zhǔn)化處理,并將處理后的視頻特征輸入所述窗口定位模塊中;
14、第二層歸一化模塊,配置為對加入所述窗口時(shí)間多頭自注意力的視頻特征進(jìn)行標(biāo)準(zhǔn)化處理;
15、第一多層感知機(jī),配置為對所述第二層歸一化模塊輸出的視頻特征進(jìn)行特征提取,且提取到的特征與輸入第二層歸一化模塊的視頻特征殘差連接。
16、第二方面,提供了一種窗口語義增強(qiáng)transformer塊,包括:
17、如第一方面的第一至三種可實(shí)現(xiàn)方中任一所述的局部語義增強(qiáng)編碼器;
18、標(biāo)準(zhǔn)編碼器,對所述局部語義增強(qiáng)編碼器輸出的視頻特征進(jìn)行特征提取,獲取所述視頻特征的全局場景信息和局部場景信息。
19、結(jié)合第二方面的第一種可實(shí)現(xiàn)方式,在第二方面的第二種可實(shí)現(xiàn)方式中,所述標(biāo)準(zhǔn)編碼器包括依次連接的第三層歸一化模塊、多頭注意力模塊、第四層歸一化模塊和第二多層感知機(jī)。
20、結(jié)合第二方面的第一種可實(shí)現(xiàn)方式,在第二方面的第三種可實(shí)現(xiàn)方式中,多頭注意力模塊的輸出與輸入標(biāo)準(zhǔn)編碼器的輸入通過殘差塊連接;
21、第二多層感知機(jī)的輸出與輸入第四層歸一化模塊的輸入通過殘差塊連接。
22、第三方面,提供了一種航拍視頻分類模型,在第三方面的第一種可實(shí)現(xiàn)方式中,包括:
23、多層如第二方面的第三中可實(shí)現(xiàn)方式中所述的窗口語義增強(qiáng)transformer塊,配置為對所述航拍視頻進(jìn)行特征提取,獲取航拍視頻的全局場景信息和局部場景信息;
24、全局局部自融和transformer塊,配置為采用自融合注意力機(jī)制對所述航拍視頻的全局場景信息和局部場景信息進(jìn)行融合,得到融合后的視頻特征表示;
25、分類器,配置為根據(jù)融合后的視頻特征表示確定所述航拍視頻的分類結(jié)果。
26、結(jié)合第三方面的第一種可實(shí)現(xiàn)方式,在第三方面的第二種可實(shí)現(xiàn)方式中,所述全局局部自融和transformer塊,包括:
27、transformer編碼器,配置為對所述航拍視頻的全局場景信息和局部場景信息進(jìn)行預(yù)處理;
28、自融合注意力模塊,配置為對預(yù)處理后的全局場景信息和局部場景信息進(jìn)行融合,得到所述視頻特征表示。
29、結(jié)合第三方面的第二種可實(shí)現(xiàn)方式,在第三方面的第三種可實(shí)現(xiàn)方式中,所述自融合注意力模塊包括:
30、查詢向量計(jì)算單元,配置為根據(jù)所述全局場景信息和局部場景信息,分別通過單一線性映射確定全局鍵值向量和局部鍵值向量,并根據(jù)全局鍵值向量和局部鍵值向量通過通道拼接和線性映射得到全局局部混合的查詢向量;
31、概率分布計(jì)算單元,配置為根據(jù)所述查詢向量、全局鍵值向量和局部鍵值向量計(jì)算概率分布矩陣;
32、視頻特征計(jì)算單元,配置為根據(jù)所述概率分布矩陣、全局鍵值向量和局部鍵值向量計(jì)算融合后的視頻特征表示。
33、第四方面,提供了一種航拍視頻分類方法,包括:
34、獲取航拍數(shù)據(jù),并對所述航拍數(shù)據(jù)進(jìn)行預(yù)處理得到航拍視頻;
35、采用訓(xùn)練好的如第三方面的第一至三種可實(shí)現(xiàn)方式中任一所述的航拍視頻分類模型,對預(yù)處理后的航拍視頻進(jìn)行分類。
36、有益效果:采用本發(fā)明的局部語義增強(qiáng)編碼器、窗口語義增強(qiáng)transformer塊、航拍視頻分類模型及方法,通過窗口定位模塊可以定位航拍視頻中具有最大特征響應(yīng)的關(guān)鍵窗口區(qū)域,進(jìn)而剝離出關(guān)鍵窗口區(qū)域內(nèi)的局部視頻特征,通過窗口時(shí)間多頭自注意力模塊計(jì)算得到局部視頻特征的窗口時(shí)間多頭自注意力,從而排除了對運(yùn)動信息不敏感的背景信息,避免對過長的視頻序列計(jì)算自注意力所導(dǎo)致的計(jì)算量過高,提高了航拍視頻識別的效率。且通過殘差連接將窗口時(shí)間多頭自注意力加入到航拍視頻中,增強(qiáng)了航拍視頻的局部運(yùn)動信息,提高了航拍視頻的識別準(zhǔn)確率。