本發(fā)明涉及視頻異常檢測,具體涉及一種基于re-timesformer模型的視頻異常事件識別方法。
背景技術:
1、隨著智慧城市公共安全信息化建設的推進,視頻監(jiān)控作為一種重要的安防手段,被廣泛地部署和應用于各大公共場合,以盡早發(fā)現(xiàn)異常情況并采取相應措施,保障公眾的生命財產安全,促進城市的治安管理。依賴傳統(tǒng)的人工篩選分析監(jiān)控視頻,通常在事件報警后再通過監(jiān)控視頻進行復查,存在效率低、成本高等一系列問題。因此,如何處理海量的視頻數(shù)據(jù),實時檢測出威脅公共安全的事件并進行處理和報警,成為現(xiàn)代智能監(jiān)控系統(tǒng)中亟待解決的問題。
2、視頻異常檢測通過計算機視覺算法識別監(jiān)控視頻中是否存在威脅公共安全的事件,比如打架,搶劫,破壞公物等。融合了異常事件檢測模型的智能監(jiān)控系統(tǒng)能自動檢測并報告異常事件,使安防人員迅速采取應對措施,避免異常情況的進一步惡化,為公眾提供一個更加安全、和諧的環(huán)境。此外,還可以減少監(jiān)控人員的工作量,提高工作的效率。因此,構建高效的異常事件檢測模型,實現(xiàn)對監(jiān)控視頻的智能化分析,對保障公共安全,促進城市安全發(fā)展具有重要的作用和意義。
3、隨著計算機視覺技術的快速發(fā)展,實現(xiàn)視頻內容的異常事件檢測,已成為當前智能視頻分析領域的一項重要研究課題。近年來,已有許多國內外專家學者針對視頻的異常事件檢測進行了深入研究。其中,研究人員嘗試將transformer應用于圖像與視頻中。dosovitskiy等人提出的vision?transformer(vit),成功將自然語言處理的transformer用于計算機視覺,執(zhí)行圖像分類任務。timesformer通過將自注意力機制從圖像空間擴展到時空3d體積,設計時空分離的注意力機制(divided?space-time?attention)將vit應用于視頻識別。
4、但是在vit架構中,注意力機制旨在捕獲不同特征補丁之間的全局關系,從不同圖像塊中提取的特征會隨著網絡深度的增加而失去其獨特性,并變得越來越相似,產生特征坍塌,損失特征多樣性,導致視覺識別的性能降低。
5、因此,如何避免特征坍塌,提高識別性能是基于transformer視頻異常事件檢測面臨的挑戰(zhàn)之一。
技術實現(xiàn)思路
1、為了克服以上技術問題,本發(fā)明的目的在于提供一種基于re-timesformer(theresidual?attention?time-space?transformer)模型的視頻異常事件識別方法,能在保留transformers模型提取全局上下文的能力的同時,提高識別低層特征的能力,增加視覺特征多樣性與模型穩(wěn)定性,從而增強視覺識別任務的性能。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術方案是:
3、一種基于re-timesformer模型的視頻異常事件識別方法,包括以下步驟;
4、步驟1:對原始視頻采樣大小為h×w的f個視頻幀xf(f=1,2,…,f)進行預處理;
5、步驟2:數(shù)據(jù)處理:將預處理后的視頻幀轉換為圖像塊嵌入向量后送入異常事件識別模型;
6、步驟3:構建基于re-timesformer的異常事件識別模型,基于re-timesformer的異常事件識別模型用于檢測視頻中是否存在設定為異常的事件;
7、步驟4:利用focal?loss損失函數(shù)計算預測值與真實標簽之間的差異,以此進行參數(shù)優(yōu)化,得到訓練好的異常事件識別模型;
8、步驟5:在異常事件識別模塊的測試階段,將測試視頻輸入到訓練好的異常事件識別模型中,得到識別結果。
9、所述的步驟1中預處理包括調整視頻幀的像素以及圖像增強,獲得的預處理后的視頻幀序列,用于后續(xù)的信息編碼和異常識別。
10、所述的步驟2中數(shù)據(jù)處理,具體為:
11、將f個視頻幀的每幀圖像分割為n個p×p大小的不重疊的patch,即圖像塊,其中n=hw/p2,(h;w)為每幀圖像的分辨率;
12、再將這些patch展平為一維向量通過一個可學習的權重矩陣e將每個向量線性映射到一個嵌入向量計算公式如下,并在序列的第一個位置添加可學習的類別向量
13、
14、其中,p=1,…,n;表示patch的序號;t=1,…,f;表示不同視頻幀的索引,表示編碼每個圖像塊的時空位置而添加的可學習位置嵌入。
15、所述步驟3中基于re-timesformer的異常事件識別模型包括時空分離自注意力模塊、殘差注意力模塊和分類模塊;
16、步驟3.1:將所述圖像塊嵌入向量送入時空分離自注意力模塊;
17、步驟3.2:構建時空分離自注意力模塊,即將時間注意力模塊和空間注意力模塊級聯(lián),并添加歸一化和殘差連接,組成時空注意力層,再將多個時空注意力層堆疊;
18、步驟3.3:在時空分離注意力模塊的基礎上引入殘差注意力模塊;
19、步驟3.4:選用全連接層作為分類模塊。
20、所述步驟3.2中的時空分離注意力模塊,具體包括時間自注意力模塊和空間自注意力模塊,具體為:
21、時間自注意力模塊通過與其他幀的相同空間位置的所有圖像塊比較來進行計算,得到該位置的時間注意力,然后將得到的結果反饋給空間注意力計算;空間自注意力模塊同時對同時刻的每幀信息進行計算,得到該時刻的空間注意力;
22、時空注意力層由ψ個編碼塊組成,在每個塊內,根據(jù)前一塊編碼的表示向量為每個patch計算查詢/鍵/值向量:
23、
24、
25、
26、其中l(wèi)n表示layernorm,dh=d/a表示每個注意力頭部的潛在維度,α表示注意頭的總數(shù);a=1,…,α是多個注意力頭上的索引,p表示patch的序號,t表示不同視頻幀的索引;
27、對于時空分離注意力,在每個塊內,首先通過將每個塊(p,t)與其他幀中相同空間位置處的所有圖像塊進行比較來計算時間注意力,自注意力權重通過點積計算:
28、
29、其中sm表示softmax;dh=d/a表示每個注意力頭部的潛在維度,a=1,…,α是多個注意力頭上的索引;為查詢向量,為鍵向量,p表示patch的序號,t表示不同視頻幀的索引;
30、通過使用每個注意力頭部的自注意力系數(shù)來計算值向量的加權和
31、
32、其中,a=1,…,α是多個注意力頭上的索引;p表示patch的序號,t表示不同視頻幀的索引;
33、然后,將來自所有頭部的向量的級聯(lián)進行投影并通過mlp,在每個操作之后使用殘余連接,編碼通過下式得到,然后反饋給空間注意力計算:
34、
35、空間自注意力模塊同時對同時刻的每幀信息進行計算,得到該時刻的空間注意力,使用下式計算:
36、
37、其中sm表示softmax;dh=d/a表示每個注意力頭部的潛在維度,a=1,…,α是多個注意力頭上的索引;為查詢向量,為鍵向量,p表示patch的序號,t表示不同視頻幀的索引;
38、再通過使用每個注意力頭部的自注意力系數(shù)來計算值向量的加權和
39、
40、其中,a=1,…,α是多個注意力頭上的索引;p表示patch的序號,t表示不同視頻幀的索引;
41、然后,將來自所有頭部的向量的級聯(lián)進行投影并通過mlp,在每個操作之后使用殘余連接,以計算塊處的patch的最終編碼具體計算公式如下:
42、
43、
44、其中,a=1,…,α是多個注意力頭上的索引;p表示patch的序號,t表示不同視頻幀的索引。
45、所述步驟3.3中的殘差注意力模塊具體為:
46、在連續(xù)的多頭自注意力層(多頭自注意力層是transformer模型中的一個核心組件,通過并行地使用多個自注意力頭來捕捉輸入序列中的不同上下文信息)之間使用跳躍連接,使得注意力能夠從淺層傳播和積累到更深層,所提出的殘差注意力機制是通過改變定義的mhsa(multi-head?self-attention)矩陣的計算來實現(xiàn)的:
47、
48、
49、其中,可學習的變量α∈[0,1],用于允許網絡自主地確定在層之間傳播多少注意力。
50、所述步驟3.4中的分類模塊,具體為:
51、從最終編碼中取出類別向量作為圖像表示y,在此表示的頂部,添加一個具有一個隱藏層的多層感知機(mlp),用于得到預測的視頻類別,即判斷視頻是否存在異常:
52、
53、所述步驟4的focal?loss損失函數(shù)計算預測值與真實標簽之間的差異,以此進行參數(shù)優(yōu)化,實現(xiàn)如下:
54、利用f個視頻幀各自的類別向量其中t=1,…,f表示不同視頻幀的索引,得到類別得分向量s=[s1,s2,…,sk],計算公式如下所示:
55、
56、其中,k表示類別數(shù)量,k=2,即視頻中存在異常和不存在異常事件兩類;
57、再根據(jù)第k=(1,2,…k)個類別的得分si(i=1,2,…,k),計算對應類別的概率pi(i=1,2,…,k),公式如下所示:
58、
59、測試階段選擇最高概率的類別作為模型對視頻是否存在異常的標簽;
60、接著,將類別概率pi輸入到focal?loss計算模型中衡量預測值與真實標簽之間的差異,并通過損失的反饋來優(yōu)化模型參數(shù),公式如下:
61、lfocal=-α(1-pi)γlog(pi)
62、其中,α根據(jù)類別的頻次調整不同類別之間的權重;γ用于控制難易樣本的權重分配程度。
63、本發(fā)明的有益效果:
64、本發(fā)明基于vision?transformer提出改進的re-timesformer,在時空分離注意力的基礎上引入殘差注意力機制,此外,采用focal?loss損失函數(shù)來衡量模型預測值與真實標簽之間的差異,以此進行參數(shù)優(yōu)化。
65、與現(xiàn)有技術相比,本發(fā)明提出的技術方案實現(xiàn)了視頻異常識別的高效性和準確性。在timesformer中引入注意力殘差學習技術,通過整合從淺層到深層網絡層的低層信息,在不同層的特征之間建立連接,避免特征坍塌,提高識別性能。