本發(fā)明涉及交通事故智能識(shí)別,具體為基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法。
背景技術(shù):
1、伴隨社會(huì)經(jīng)濟(jì)的迅猛發(fā)展與城市化的加速推進(jìn),城市居民數(shù)量與機(jī)動(dòng)車(chē)保有量呈現(xiàn)爆炸式增長(zhǎng),致使道路交通流量急劇攀升,這一現(xiàn)象直接增加了交通事故的發(fā)生頻率,使之成為影響公共安全的重大隱患,為了能夠及時(shí)發(fā)現(xiàn)交通事故,及時(shí)采取措施,目前人們嘗試構(gòu)建大規(guī)模且全面覆蓋的事故數(shù)據(jù)集來(lái)構(gòu)建模型,需要模型在訓(xùn)練階段獲取較多的樣本數(shù)據(jù);
2、但是目前交通事故的低頻發(fā)生率以及交通事故的多樣性,導(dǎo)致數(shù)據(jù)樣本有限,難以從有限的實(shí)例中泛化出交通事故的普遍規(guī)律,模型的表現(xiàn)會(huì)顯著下降,因此需要基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,可以有效解決上述背景技術(shù)中提出目前交通事故的低頻發(fā)生率以及交通事故的多樣性,導(dǎo)致數(shù)據(jù)樣本有限,難以從有限的實(shí)例中泛化出交通事故的普遍規(guī)律,模型的表現(xiàn)會(huì)顯著下降的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,包括如下步驟:
3、s1、搜集整理交通監(jiān)控場(chǎng)景中的視頻數(shù)據(jù),選取覆蓋不同環(huán)境、地點(diǎn)和光照條件下的無(wú)交通事故發(fā)生的視頻片段為數(shù)據(jù)樣本,提取視頻關(guān)鍵幀,進(jìn)行掩碼自編碼器的無(wú)監(jiān)督預(yù)訓(xùn)練,學(xué)習(xí)視頻特征表示,捕捉視頻中的動(dòng)態(tài)變化和靜態(tài)場(chǎng)景細(xì)節(jié),模型將學(xué)習(xí)到無(wú)異常情況下交通數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和動(dòng)態(tài)變化規(guī)律,重建被隨機(jī)遮擋的視頻片段;
4、s2、計(jì)算原始視頻與重建視頻之間的重建誤差評(píng)估重建質(zhì)量,正常交通狀況下的視頻具有較高的可預(yù)測(cè)性,而異常情況則會(huì)導(dǎo)致較大的重建誤差,根據(jù)重建誤差較大的視頻片段中存在的復(fù)雜的交通場(chǎng)景、快速移動(dòng)的對(duì)象、異常的交通事件,將重建誤差較大的視頻片段標(biāo)記為潛在的交通事故;
5、s3、收集正常交通和發(fā)生異常事故的交通視頻,進(jìn)行關(guān)鍵幀單幀標(biāo)注,利用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型和大語(yǔ)言模型,合成視頻片段的分析結(jié)果并構(gòu)建多輪交通事故感知指導(dǎo)對(duì)話數(shù)據(jù),從而構(gòu)建多模態(tài)數(shù)據(jù);
6、s4、以構(gòu)建的多模態(tài)數(shù)據(jù)作為輸入訓(xùn)練預(yù)設(shè)的多模態(tài)大模型,得到針對(duì)交通事故識(shí)別領(lǐng)域的多模態(tài)大模型,增強(qiáng)模型對(duì)復(fù)雜交通場(chǎng)景的理解能力;
7、s5、在掩碼自編碼器結(jié)果中重建誤差高于預(yù)設(shè)閾值的視頻片段和指令提示輸入訓(xùn)練后的多模態(tài)交通事故識(shí)別大模型,得到相對(duì)應(yīng)的精細(xì)響應(yīng)結(jié)果,包括具體事故的識(shí)別判斷、嚴(yán)重程度、影響范圍。
8、根據(jù)上述技術(shù)方案,所述s1中,進(jìn)行掩碼自編碼器的無(wú)監(jiān)督預(yù)訓(xùn)練,訓(xùn)練目標(biāo)是最小化原始視頻與重建視頻片段之間的重構(gòu)損失,包括模仿?lián)p失和掩碼重建損失,其表達(dá)式如下:
9、
10、其中,lrec表示重構(gòu)損失;
11、|m|表示掩碼塊的數(shù)量;
12、表示第i個(gè)輸入掩碼塊;
13、表示第i個(gè)重建掩碼塊;
14、|v|表示可見(jiàn)塊的數(shù)量;
15、表示第i個(gè)可見(jiàn)塊的表示;
16、表示第i個(gè)高級(jí)特征的表示;
17、所述s2中,計(jì)算重建誤差,篩選出重建質(zhì)量較差的關(guān)鍵幀視頻片段,表達(dá)式如下:
18、
19、其中l(wèi)p表示重建誤差;
20、|f|表示掩碼位置的數(shù)量;
21、xi表示第i個(gè)像素的原始值;
22、表示第i個(gè)像素的重建值。
23、根據(jù)上述技術(shù)方案,所述s1中,掩碼自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)為:
24、嵌入層,將輸入圖像分割成多個(gè)小塊,并對(duì)這些小塊進(jìn)行隨機(jī)掩碼處理,將未被掩碼的部分嵌入到向量空間中作為編碼器的輸入;
25、編碼層,由堆疊的編碼塊和自注意力機(jī)制,通過(guò)多層變換來(lái)提取和聚合圖像的深層特征;
26、解碼層,通過(guò)堆疊的解碼塊和自注意力機(jī)制,從掩碼重建和可見(jiàn)模仿重建逐步還原圖像的細(xì)節(jié)特征,保證重建任務(wù)的高質(zhì)量和細(xì)節(jié)保真度。
27、根據(jù)上述技術(shù)方案,所述s3中,通過(guò)半自動(dòng)標(biāo)注的方式,對(duì)采集的視頻進(jìn)行標(biāo)注并構(gòu)建多輪交通事故感知指導(dǎo)對(duì)話數(shù)據(jù),具體包括:
28、從開(kāi)源數(shù)據(jù)集或者監(jiān)控?cái)z像頭數(shù)據(jù)中收集交通視頻資料,數(shù)據(jù)包含多種場(chǎng)景下的各種交通情況;
29、使用人工標(biāo)注和預(yù)訓(xùn)練的多模態(tài)大模型對(duì)異常視頻幀進(jìn)行高質(zhì)量的單幀標(biāo)注;
30、圍繞注釋幀擴(kuò)展生成可靠的交通視頻標(biāo)注片段;
31、利用預(yù)訓(xùn)練的端到端的序列到序列范式的視覺(jué)語(yǔ)言模型vid2seq生成視頻分析結(jié)果;
32、通過(guò)預(yù)訓(xùn)練的大語(yǔ)言模型對(duì)視頻分析結(jié)果總結(jié)和分析并以對(duì)話格式將視頻進(jìn)行結(jié)構(gòu)化,最后手動(dòng)篩選以上構(gòu)建的數(shù)據(jù)。
33、根據(jù)上述技術(shù)方案,所述s4中,預(yù)設(shè)的多模態(tài)大模型,包括三個(gè)組成部分:
34、視覺(jué)編碼器,采用預(yù)訓(xùn)練的多模態(tài)對(duì)齊框架中基于vision?transformer的編碼器,將圖像和視頻幀對(duì)齊到文本特征空間;
35、視頻采樣器,對(duì)輸入的視頻序列按照固定長(zhǎng)度進(jìn)行隨機(jī)一幀采樣,采樣特征輸入預(yù)訓(xùn)練的視頻異常檢測(cè)網(wǎng)絡(luò),根據(jù)模型輸出得分篩選出潛在異常幀,使用指令調(diào)優(yōu)的方法優(yōu)化模型;
36、視覺(jué)投影層和大語(yǔ)言模型(llm),將上述篩選出的潛在異常幀特征輸入到投影器中,投影器由三層多層感知機(jī)(mlp)組成,用于調(diào)整視頻異常幀特征的維度使其與大語(yǔ)言模型的輸入維度對(duì)齊,將調(diào)整后的特征輸入到多模態(tài)llm中,生成對(duì)視頻幀中異常事件的描述和解釋。
37、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
38、1、本發(fā)明采用的基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,利用大規(guī)模未標(biāo)注視頻數(shù)據(jù),通過(guò)掩碼自編碼器的無(wú)監(jiān)督預(yù)訓(xùn)練,即使在標(biāo)注數(shù)據(jù)有限的情況下,也能快速過(guò)濾較多的無(wú)交通事故視頻片段。
39、2、本發(fā)明采用的基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,通過(guò)掩碼自編碼器最小化原始視頻與重建視頻之間的重構(gòu)損失,快速篩選出可能存在交通異常事件的視頻片段,節(jié)省了計(jì)算資源,提升了處理速度和交通事故識(shí)別效率。
40、3、本發(fā)明采用的基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,通過(guò)構(gòu)建多模態(tài)交通數(shù)據(jù)對(duì)多模態(tài)大模型的微調(diào)訓(xùn)練,能夠自動(dòng)識(shí)別和理解復(fù)雜的交通場(chǎng)景,為交通管理部門(mén)提供實(shí)時(shí)警報(bào)和詳細(xì)分析,有助于及時(shí)采取應(yīng)對(duì)措施并保障道路安全。
41、綜上所述,通過(guò)對(duì)視頻數(shù)據(jù)的無(wú)監(jiān)督訓(xùn)練能夠快速的過(guò)濾無(wú)交通事故片段,即使在標(biāo)注數(shù)據(jù)有限的情況下,也能快速過(guò)濾較多的無(wú)交通事故視頻片段,通過(guò)掩碼自編碼器最小化原始視頻與重建視頻之間的重構(gòu)損失,快速篩選出可能存在交通異常事件的視頻片段,多模態(tài)大模型整合了多模態(tài)的信息,能夠自動(dòng)識(shí)別和理解復(fù)雜的交通場(chǎng)景,提升交通事故在復(fù)雜場(chǎng)景下的識(shí)別準(zhǔn)確率和效率,提供實(shí)時(shí)警報(bào)和詳細(xì)分析便于及時(shí)采取應(yīng)對(duì)措施并保障道路安全。
1.基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,其特征在于:包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,其特征在于:所述s1中,進(jìn)行掩碼自編碼器的無(wú)監(jiān)督預(yù)訓(xùn)練,訓(xùn)練目標(biāo)是最小化原始視頻與重建視頻片段之間的重構(gòu)損失,包括模仿?lián)p失和掩碼重建損失,其表達(dá)式如下:
3.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,其特征在于:所述s1中,掩碼自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)為:
4.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,其特征在于:所述s3中,通過(guò)半自動(dòng)標(biāo)注的方式,對(duì)采集的視頻進(jìn)行標(biāo)注并構(gòu)建多輪交通事故感知指導(dǎo)對(duì)話數(shù)據(jù),具體包括:
5.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督預(yù)訓(xùn)練和多模態(tài)大模型的交通事故識(shí)別方法,其特征在于:所述s4中,預(yù)設(shè)的多模態(tài)大模型,包括三個(gè)組成部分: