本發(fā)明屬于多模態(tài)感知,具體涉及一種基于語義-空間特征融合的視聽說話人跟蹤方法。
背景技術(shù):
1、近年來,隨著人工智能和多模態(tài)學(xué)習(xí)技術(shù)的發(fā)展,視聽說話人跟蹤作為多模態(tài)感知和智能系統(tǒng)中的基礎(chǔ)任務(wù),成為一個備受關(guān)注的研究課題。視聽說話人跟蹤旨在通過結(jié)合視覺和聽覺信息,實現(xiàn)對說話人位置的精確跟蹤,在視頻會議、智能監(jiān)控、人機交互等領(lǐng)域有著廣泛的應(yīng)用前景。
2、當(dāng)前,研究者已經(jīng)提出了多種說話人跟蹤方法,這些方法大致可以分為基于視覺特征的方法、基于聽覺特征的方法和視聽融合的方法?;谝曈X特征的方法主要利用攝像頭捕捉的圖像數(shù)據(jù),通過檢測和跟蹤說話人的面部特征或其他顯著特征來實現(xiàn)目標(biāo)跟蹤。這些方法在光照充足且視野清晰的環(huán)境下表現(xiàn)良好,但在存在遮擋、光照變化或復(fù)雜背景時性能會顯著下降?;诼犛X特征的方法主要利用麥克風(fēng)陣列捕捉的音頻數(shù)據(jù),通過分析聲音信號中的時頻特征和空間線索來定位和跟蹤說話人。這些方法在噪聲較低、環(huán)境回聲較少的情況下效果較好,但在嘈雜環(huán)境或存在多個聲源時,聲學(xué)特征的穩(wěn)定性和準(zhǔn)確性會受到較大影響。視聽融合的方法嘗試將視覺和聽覺信息結(jié)合起來,以彌補單一模態(tài)特征的不足。通過多模態(tài)數(shù)據(jù)的融合,可以提高說話人跟蹤的魯棒性和準(zhǔn)確性。
3、然而,現(xiàn)有的視聽說話人跟蹤方法主要集中于利用視覺和聽覺數(shù)據(jù)中的空間位置信息,例如建立目標(biāo)的外觀模型,在跟蹤空間的各個區(qū)域進(jìn)行相似性搜索,或利用頻譜分析和時頻分析提取多通道信號中的聲源空間線索。這些方法對視覺特征和聲學(xué)線索的質(zhì)量和穩(wěn)定性要求很高。在圖像中存在遮擋、形變、復(fù)雜背景,環(huán)境中存在噪聲、混響、多聲源的情況下,空間位置信息可能失效或不足以區(qū)分目標(biāo)和干擾物。此外,現(xiàn)有跟蹤器通常依賴于單一層次的特征,忽視了不同層次特征之間的互補性。高層特征具有較強的語義信息和魯棒性,但缺乏細(xì)節(jié)信息和空間精度;低層特征具有較高的空間分辨率和細(xì)節(jié)信息,但缺乏語義信息和抗干擾能力??紤]到多模態(tài)信號中含有豐富的語義特征,因此可以充分利用不同層次特征的優(yōu)勢,為跟蹤目標(biāo)提供更多的上下文信息。
技術(shù)實現(xiàn)思路
1、針對上述的技術(shù)問題,本發(fā)明提供了一種基于語義-空間特征融合的視聽說話人跟蹤方法,提高了視聽特征的表達(dá)能力,實現(xiàn)更加準(zhǔn)確的聲源跟蹤。
2、為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
3、一種基于語義-空間特征融合的視聽說話人跟蹤方法,包括下列步驟:
4、s1、獲取原始音視頻信號,采用視聽融合的關(guān)鍵詞識別網(wǎng)絡(luò),提取視聽信號中的語義特征編碼;
5、s2、采用包括視覺分支和聽覺分支的雙流網(wǎng)絡(luò)結(jié)構(gòu)來分別處理圖像幀和聲學(xué)信號;
6、s3、采用交叉注意力模塊實現(xiàn)語義-空間特征兩個不同序列之間的信息交互和融合。
7、所述s1中提取視聽信號中的語義特征編碼的方法為:
8、s11、將原始音視頻信號轉(zhuǎn)換為高維特征表示fa與fv;
9、s12、使用基于transformer的編碼器來獲得與關(guān)鍵詞相關(guān)的語義特征。
10、所述s12中語義特征編碼器的處理過程表示為:
11、encoder(x)=xatt+ffn(xatt)
12、xatt=x+mha(q,k,v)
13、ffn(xatt)=max(0,xatt?w1+b1)w2+b2
14、其中,x是編碼器的輸入,即[clsa;fa]或[clsv;fv]加上位置編碼;ffn(·)是用于增強模型擬合能力的全連接前饋網(wǎng)絡(luò),包括兩個線性變換層,其間有一個relu激活函數(shù);w和b分別表示權(quán)重矩陣和基向量,下標(biāo)表示不同的層;clsa和clsv是用于分類的cls標(biāo)記。
15、所述s2中采用包括視覺分支和聽覺分支的雙流網(wǎng)絡(luò)結(jié)構(gòu)來分別處理圖像幀和聲學(xué)信號的方法為:
16、s21、將一對圖像輸入到視覺空間特征提取網(wǎng)絡(luò)中,包括參考模板itpl和搜索區(qū)域圖像is;兩者分別輸入到一個共享權(quán)重的全卷積網(wǎng)絡(luò)中進(jìn)行提取特征;
17、s22、執(zhí)行基于卷積算子的互相關(guān)操作以獲取響應(yīng)圖;視覺網(wǎng)絡(luò)的運算過程定義如下:
18、fv=convv(itpl)*convv(is)
19、其中,convv是兩個結(jié)構(gòu)相同且權(quán)重共享的全卷積網(wǎng)絡(luò),*表示互相關(guān)操作;
20、s23、使用相機模型將聲學(xué)線索投影到圖像平面上;
21、s24、之后使用與視覺網(wǎng)絡(luò)類似的全卷積網(wǎng)絡(luò)結(jié)構(gòu)將聲音信號嵌入到包含位置上下文的一致性定位空間中;聽覺網(wǎng)絡(luò)的運算過程定義為:
22、fa=conva(rω)
23、其中,rω是手工提取的stgcf聲學(xué)線索。
24、所述s3中采用交叉注意力模塊實現(xiàn)語義-空間特征兩個不同序列之間的信息交互和融合的方法為:
25、s31、將一種模態(tài)的特征作為q,另一種模態(tài)的特征作為k和v進(jìn)行注意力計算;
26、s32、并使用殘差形式的多頭注意力來整合來自不同序列的信息。
27、所述s32中使用殘差形式的多頭注意力來整合來自不同序列的信息的方法為:
28、ca機制的定義如下:
29、
30、其中,qa是a+ea的線性變換,qb是b+eb的線性變換,ea和eb是用來補充空間位置信息的位置編碼,k和v的定義類似,ln(·)表示層歸一化;
31、之后使用兩步融合來增強多人場景中不同跟蹤目標(biāo)的特征區(qū)分性,包括模態(tài)內(nèi)和模態(tài)間兩個階段,首先在各模態(tài)內(nèi)進(jìn)行語義-空間特征融合,然后在不同模態(tài)間進(jìn)行視聽融合,第一階段的融合可以形式化地表示為:
32、fsv=fv+mha(qsv,kv,vv)
33、fsa′=fa+mha(qsa,ka,va)
34、其中,qsv和qsa分別是由avks網(wǎng)絡(luò)的編碼器輸出的聽覺與視覺語義特征編碼的線性變換,kv和vv是視覺空間特征fv的線性變換,ka和va是聽覺空間特征fa的線性變換;第二階段的跨模態(tài)融合過程表示為:
35、fsa=fsa′+mha(qsv′,ksa′,vsa′)
36、fav=ca(fsa,fsv)
37、其中,ksa′和vsa′是fsa′的線性變換,qsv′是視覺語義特征編碼的另一次線性變換。
38、本發(fā)明與現(xiàn)有技術(shù)相比,具有的有益效果是:
39、本發(fā)明視覺語義特征編碼反映了目標(biāo)的發(fā)言狀態(tài),聽覺語義特征編碼器中的注意力圖反映出關(guān)鍵詞在輸入序列中出現(xiàn)的位置。本發(fā)明采用交叉注意力機制來挖掘不同層次特征和不同模態(tài)特征之間的相關(guān)性和互補性,促進(jìn)不同信息源之間的信息交互。語義-空間特征融合機制能自適應(yīng)地關(guān)注有價值的信息,學(xué)習(xí)到多層次和跨模態(tài)的時空一致性特征表示,進(jìn)一步提高視聽特征的表達(dá)能力,從而實現(xiàn)更加準(zhǔn)確的跟蹤。
1.一種基于語義-空間特征融合的視聽說話人跟蹤方法,其特征在于,包括下列步驟:
2.根據(jù)權(quán)利要求1所述的一種基于語義-空間特征融合的視聽說話人跟蹤方法,其特征在于,所述s1中提取視聽信號中的語義特征編碼的方法為:
3.根據(jù)權(quán)利要求1所述的一種基于語義-空間特征融合的視聽說話人跟蹤方法,其特征在于,所述s12中語義特征編碼器的處理過程表示為:
4.根據(jù)權(quán)利要求1所述的一種基于語義-空間特征融合的視聽說話人跟蹤方法,其特征在于,所述s2中采用包括視覺分支和聽覺分支的雙流網(wǎng)絡(luò)結(jié)構(gòu)來分別處理圖像幀和聲學(xué)信號的方法為:
5.根據(jù)權(quán)利要求1所述的一種基于語義-空間特征融合的視聽說話人跟蹤方法,其特征在于,所述s3中采用交叉注意力模塊實現(xiàn)語義-空間特征兩個不同序列之間的信息交互和融合的方法為:
6.根據(jù)權(quán)利要求5所述的一種基于語義-空間特征融合的視聽說話人跟蹤方法,其特征在于,所述s32中使用殘差形式的多頭注意力來整合來自不同序列的信息的方法為: