本發(fā)明屬于計(jì)算機(jī)視覺領(lǐng)域,特別地涉及一種應(yīng)用于視頻監(jiān)控場景的路徑預(yù)測方法。
背景技術(shù):
推理和預(yù)測是智能視覺系統(tǒng)的主要能力之一,是近年來計(jì)算機(jī)視覺領(lǐng)域的研究者重點(diǎn)關(guān)注的課題。視覺路徑預(yù)測是其中的一個(gè)子任務(wù),其目標(biāo)是預(yù)測一幅場景圖片中某個(gè)給定目標(biāo)在未來可能行進(jìn)的路徑。該問題在視頻監(jiān)控和智能機(jī)器人等領(lǐng)域具有很高的應(yīng)用價(jià)值,直接影響到機(jī)器人導(dǎo)航等應(yīng)用的性能。但同樣,該問題具有較大的挑戰(zhàn)性,一是它需要對場景圖片和目標(biāo)運(yùn)動(dòng)模式進(jìn)行高層語義理解和表達(dá)。二是它經(jīng)常面臨復(fù)雜的情況,對相應(yīng)算法的性能和魯棒性提出了較高的要求。
目前的視覺路徑預(yù)測方法直接在已有的數(shù)據(jù)庫里搜索與目標(biāo)場景相似的數(shù)據(jù),再把已標(biāo)注的軌跡用GIST或SIFT等方法映射到目標(biāo)場景上。該種方法主要存在以下幾個(gè)問題:1)它基于傳統(tǒng)的視覺特征,這些視覺特征只能表達(dá)較低層的視覺信息,但視覺路徑預(yù)測任務(wù)需要模型具備高層的語義理解能力;2)嚴(yán)重依賴于已有的數(shù)據(jù)庫,如果數(shù)據(jù)庫里沒有相似的場景,那么方法很難給出準(zhǔn)確的預(yù)測結(jié)果;3)在方法的測試階段需要匹配全部數(shù)據(jù)庫,導(dǎo)致較高的計(jì)算代價(jià)和時(shí)間復(fù)雜度。
技術(shù)實(shí)現(xiàn)要素:
為解決上述問題,本發(fā)明的目的在于提供一種應(yīng)用于視頻監(jiān)控場景的路徑預(yù)測方法。該方法基于深度神經(jīng)網(wǎng)絡(luò),利用深度視覺特征建模兩種影響目標(biāo)路徑選擇的關(guān)鍵因素,采用聯(lián)合路徑規(guī)劃預(yù)測合理的未來路徑,能夠更好地適應(yīng)真實(shí)視頻監(jiān)控場景中的復(fù)雜情況。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
一種應(yīng)用于視頻監(jiān)控場景的路徑預(yù)測方法,包括以下步驟:
S1、獲取用于訓(xùn)練路徑預(yù)測模型的監(jiān)控視頻數(shù)據(jù)集,并定義算法目標(biāo);
S2、對目標(biāo)與場景之間的結(jié)構(gòu)關(guān)系和目標(biāo)本身的朝向進(jìn)行建模;
S3、分析目標(biāo)與場景之間的關(guān)系,預(yù)測目標(biāo)本身的朝向;
S4、建立路徑預(yù)測模型,規(guī)劃最優(yōu)路徑。
進(jìn)一步的,步驟S1中,所述的用于訓(xùn)練路徑預(yù)測模型的監(jiān)控視頻數(shù)據(jù)集為含有場景序列圖像Itrain,人工標(biāo)注的目標(biāo)邊界框Btrain和身份IDtrain的監(jiān)控視頻數(shù)據(jù)集;
定義算法目標(biāo)為:預(yù)測目標(biāo)物體在未來一段時(shí)間內(nèi)最有可能行進(jìn)的路徑P=(s1,s2,s3,...,sn),其中si=(xi,yi)代表場景位置的坐標(biāo),P由一系列連續(xù)的位置組成。
進(jìn)一步的,步驟S2中,對目標(biāo)物體與場景之間的結(jié)構(gòu)關(guān)系進(jìn)行建模具體包括:
S21、根據(jù)所述目標(biāo)邊界框Btrain和身份IDtrain,從場景序列圖像Itrain中獲取所有目標(biāo)圖像塊q=(q1,q2,...,qn),以及每個(gè)目標(biāo)圖像塊qi各自分別出現(xiàn)過的場景區(qū)域和未出現(xiàn)過的場景區(qū)域其中,目標(biāo)圖像塊qi由相應(yīng)的目標(biāo)邊界框Btrain在場景圖像Itrain里截取得到,場景圖像塊pi在和中隨機(jī)截取,i=1,2,...,n;
S22、建立深度卷積神經(jīng)網(wǎng)絡(luò)的輸入為目標(biāo)圖像塊qi和場景圖像塊pi,輸出為標(biāo)簽0或1,即
其中,ψS為神經(jīng)網(wǎng)絡(luò)的參數(shù),用于預(yù)測目標(biāo)是否能到達(dá)給定的場景區(qū)域;
S23、將(q,Hpos)和(q,Hneg)分別作為正樣本對和負(fù)樣本對,使用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)
進(jìn)一步的,步驟S2中,對目標(biāo)本身的朝向進(jìn)行建模具體包括:
S24、根據(jù)所述目標(biāo)邊界框Btrain和身份IDtrain,在場景序列圖像Itrain中獲取所有目標(biāo)圖像q=(q1,q2,...,qn)及同一目標(biāo)圖像塊qi在相鄰幀間的相對位置θ=(θ1,θ2,...,θn),其中,θi被近似為目標(biāo)圖像塊qi的當(dāng)前朝向,i=1,2,...,n;
S25、建立深度卷積神經(jīng)網(wǎng)絡(luò)的輸入為一幅目標(biāo)圖像塊qi,輸出為目標(biāo)圖像塊qi的當(dāng)前朝向θi,即
其中,ψO為神經(jīng)網(wǎng)絡(luò)的參數(shù),用于輸出目標(biāo)圖像塊qi的當(dāng)前朝向θi;
S26、使用反向傳播算法對所有q和θ訓(xùn)練神經(jīng)網(wǎng)絡(luò)
進(jìn)一步的,步驟S3中,分析目標(biāo)與場景之間的關(guān)系具體包括:
S31、獲取用于測試的靜態(tài)場景圖片I,以及該圖片上需預(yù)測的目標(biāo)物體的邊界框B=(b1,b2,ω,h);
S32、使用滑動(dòng)窗在所述靜態(tài)場景圖片I上分塊截取所有場景圖像塊p=(pi,p2,...,pn),同時(shí)根據(jù)目標(biāo)物體的邊界框B=(b1,b2,ω,h)在靜態(tài)場景圖片I上截取目標(biāo)圖像塊q;
S32、依照公式(1),將目標(biāo)圖像塊q和所有場景圖像塊p依次輸入深度卷積神經(jīng)網(wǎng)絡(luò)
S33、把輸出的所有結(jié)果按場景圖像塊p的原位置依次組成整個(gè)場景I的熱圖R,R即是對目標(biāo)圖像塊qi來說是障礙物的區(qū)域。
進(jìn)一步的,步驟S3中,預(yù)測目標(biāo)本身的朝向具體包括:
S34、依照公式(2),將目標(biāo)圖像塊q輸入深度卷積神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果即為目標(biāo)圖像q的當(dāng)前朝向θ。
進(jìn)一步的,步驟S4中,建立路徑預(yù)測模型具體包括:
S41、建立優(yōu)化問題:
其中,是兩個(gè)角度的差,θP是路徑P的初始方向,ε是加權(quán)系數(shù),~表示空間位置相鄰,sini和sedge分別是目標(biāo)物體的位置坐標(biāo)和場景I的所有邊緣位置。
進(jìn)一步的,步驟S4中,規(guī)劃最優(yōu)路徑具體包括:
S42、建立有向圖G,G的結(jié)點(diǎn)vi依次對應(yīng)于場景位置的坐標(biāo)si,G的邊的權(quán)重為
其中
(I):||sj-sini||1=d or d+1,si~sj,
(II):||sj-sini||1≠d and d+1,si~sj,
d取目標(biāo)邊界框Btrain的對角線的長度。
S43、使用圖的最短路徑迪杰斯特拉(Dijkstra)算法在圖G的結(jié)點(diǎn)vini和所有vedge間搜索最短路徑P,其中,vini和vedge分別對應(yīng)于公式(3)中的目標(biāo)物體的位置坐標(biāo)sini和邊緣位置sedge;P即是規(guī)劃的最優(yōu)路徑。
本發(fā)明的應(yīng)用于視頻監(jiān)控場景的路徑預(yù)測方法,相比于現(xiàn)有的視覺路徑預(yù)測方法,具有以下有益效果:
首先,本發(fā)明的路徑預(yù)測方法定義了兩種影響目標(biāo)路徑選擇的關(guān)鍵因素,即“目標(biāo)與場景之間的結(jié)構(gòu)關(guān)系”和“目標(biāo)本身的朝向”,該種假設(shè)更加符合真實(shí)情況下的目標(biāo)路徑規(guī)劃問題。
其次,本發(fā)明的路徑預(yù)測方法基于深度卷積神經(jīng)網(wǎng)絡(luò)建立上下文模型以建模上述兩種關(guān)鍵因素。深度卷積神經(jīng)網(wǎng)絡(luò)能夠更好地表達(dá)視覺特征,另外,視覺特征的提取和上下文模型的學(xué)習(xí)被統(tǒng)一在同一個(gè)框架里,提高了方法的最終效果。
最后,本發(fā)明的路徑預(yù)測方法中提出的聯(lián)合路徑規(guī)劃方法利用上下文模型返回的分析結(jié)果推理合理的路徑。在該路徑規(guī)劃方法中,原始的路徑預(yù)測問題被等價(jià)轉(zhuǎn)化為一個(gè)可以被高效解決的優(yōu)化問題,保證了整個(gè)方法的效率。
本發(fā)明的應(yīng)用于視頻監(jiān)控場景的路徑預(yù)測方法,在視頻監(jiān)控分析和智能機(jī)器人導(dǎo)航中,能夠有效提高路徑預(yù)測效率和準(zhǔn)確度,具有良好的應(yīng)用價(jià)值。例如,在機(jī)器人導(dǎo)航中,本發(fā)明的路徑預(yù)測方法可使機(jī)器人利用攝像頭等視覺捕捉設(shè)備返回的信息,快速和準(zhǔn)確地規(guī)劃出從當(dāng)前位置到達(dá)特定目的地的可行路徑,提高機(jī)器人的智能化程度。
附圖說明
圖1為本發(fā)明的應(yīng)用于視頻監(jiān)控場景的路徑預(yù)測方法實(shí)施例的流程示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
相反,本發(fā)明涵蓋任何由權(quán)利要求定義的在本發(fā)明的精髓和范圍上做的替代、修改、等效方法以及方案。進(jìn)一步,為了使公眾對本發(fā)明有更好的了解,在下文對本發(fā)明的細(xì)節(jié)描述中,詳盡描述了一些特定的細(xì)節(jié)部分。對本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。
參考圖1,在本發(fā)明的較佳實(shí)施例中,一種應(yīng)用于視頻監(jiān)控場景的路徑預(yù)測方法,包括以下步驟:
首先,獲取用于訓(xùn)練路徑預(yù)測模型的監(jiān)控視頻數(shù)據(jù)集,并定義算法目標(biāo)。
其中,用于訓(xùn)練路徑預(yù)測模型的監(jiān)控視頻數(shù)據(jù)集為含有場景序列圖像Itrain,人工標(biāo)注的目標(biāo)邊界框Btrain和身份IDtrain的監(jiān)控視頻數(shù)據(jù)集。
定義算法目標(biāo)為:預(yù)測目標(biāo)物體在未來一段時(shí)間內(nèi)最有可能行進(jìn)的路徑P=(s1,s2,s3,...,sn),其中si=(xi,yi)代表場景位置的坐標(biāo),P由一系列連續(xù)的位置組成。
其次,對目標(biāo)與場景之間的結(jié)構(gòu)關(guān)系和目標(biāo)本身的朝向進(jìn)行建模。具體的,其包括如下步驟:
第一步,根據(jù)所述目標(biāo)邊界框Btrain和身份IDtrain,從場景序列圖像Itrain中獲取所有目標(biāo)圖像塊q=(q1,q2,...,qn),以及每個(gè)目標(biāo)圖像塊qi各自分別出現(xiàn)過的場景區(qū)域和未出現(xiàn)過的場景區(qū)域其中,目標(biāo)圖像塊qi由相應(yīng)的目標(biāo)邊界框Btrain在場景圖像Itrain里截取得到,場景圖像塊pi在和中隨機(jī)截取,i=1,2,...,n;
第二步,建立深度卷積神經(jīng)網(wǎng)絡(luò)的輸入為目標(biāo)圖像塊qi和場景圖像塊pi,輸出為標(biāo)簽0或1,即
其中,ψS為神經(jīng)網(wǎng)絡(luò)的參數(shù),用于預(yù)測目標(biāo)是否能到達(dá)給定的場景區(qū)域;
第三步,將(q,Hpos)和(q,Hneg)分別作為正樣本對和負(fù)樣本對,使用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)
第四步,根據(jù)所述目標(biāo)邊界框Btrain和身份IDtrain,在場景序列圖像Itrain中獲取所有目標(biāo)圖像q=(q1,q2,...,qn)及同一目標(biāo)圖像塊qi在相鄰幀間的相對位置θ=(θ1,θ2,...,θn),其中,θi被近似為目標(biāo)圖像塊qi的當(dāng)前朝向,i=1,2,...,n。
第五步,建立深度卷積神經(jīng)網(wǎng)絡(luò)的輸入為一幅目標(biāo)圖像塊qi,輸出為目標(biāo)圖像塊qi的當(dāng)前朝向θi,即
其中,ψO為神經(jīng)網(wǎng)絡(luò)的參數(shù),用于輸出目標(biāo)圖像塊qi的當(dāng)前朝向θi。
第六步,使用反向傳播算法對所有q和θ訓(xùn)練神經(jīng)網(wǎng)絡(luò)
接下來,分析目標(biāo)與場景之間的關(guān)系,預(yù)測目標(biāo)本身的朝向。具體的,其包括如下步驟:
第一步,獲取用于測試的靜態(tài)場景圖片I,以及該圖片上需預(yù)測的目標(biāo)物體的邊界框B=(b1,b2,ω,h);
第二步,使用滑動(dòng)窗在所述靜態(tài)場景圖片I上分塊截取所有場景圖像塊p=(pi,p2,...,pn),同時(shí)根據(jù)目標(biāo)物體的邊界框B=(b1,b2,ω,h)在靜態(tài)場景圖片I上截取目標(biāo)圖像塊q;
第三步,依照公式(1),將目標(biāo)圖像塊q和所有場景圖像塊p依次輸入深度卷積神經(jīng)網(wǎng)絡(luò)
第四步,把輸出的所有結(jié)果按場景圖像塊p的原位置依次組成整個(gè)場景I的熱圖R,R即是對目標(biāo)圖像塊qi來說是障礙物的區(qū)域。
進(jìn)一步的,步驟S3中,預(yù)測目標(biāo)本身的朝向具體包括:
第五步,依照公式(2),將目標(biāo)圖像塊q輸入深度卷積神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果即為目標(biāo)圖像q的當(dāng)前朝向θ。
最后,建立路徑預(yù)測模型,規(guī)劃最優(yōu)路徑。具體包括:
第一步,建立優(yōu)化問題:
其中,是兩個(gè)角度的差,θP是路徑P的初始方向,ε是加權(quán)系數(shù),~表示空間位置相鄰,sini和sedge分別是目標(biāo)物體的位置坐標(biāo)和場景I的所有邊緣位置。
進(jìn)一步的,步驟S4中,規(guī)劃最優(yōu)路徑具體包括:
第二步,建立有向圖G,G的結(jié)點(diǎn)υvi依次對應(yīng)于場景位置的坐標(biāo)si,G的邊的權(quán)重為
其中
(I):||sj-sini||1=d or d +1、si~sj,
(II):||sj-sini||1≠d and d+1,si~sj,
d取目標(biāo)邊界框Btrain的對角線的長度。
第三步,使用圖的最短路徑迪杰斯特拉(Dijkstra)算法在圖G的結(jié)點(diǎn)vini和所有vedge間搜索最短路徑P,其中,vini和vedge分別對應(yīng)于公式(3)中的目標(biāo)物體的位置坐標(biāo)sini和邊緣位置sedge;迪杰斯特拉(Dijkstra)算法是1959年提出的單源最短路徑算法。它以起始點(diǎn)為中心向外層層擴(kuò)展,直到擴(kuò)展到終點(diǎn)為止,計(jì)算有向圖中從一個(gè)頂點(diǎn)到其余各頂點(diǎn)的最短路徑。P即是規(guī)劃的最優(yōu)路徑。
上述實(shí)施例中,本發(fā)明的路徑預(yù)測方法首先分別對兩種影響路徑選擇的關(guān)鍵因素進(jìn)行建模,即“目標(biāo)本身的朝向”和“目標(biāo)與場景之間的結(jié)構(gòu)關(guān)系”。在此基礎(chǔ)上,結(jié)合上述兩種模型返回的結(jié)果得到所有潛在路徑的代價(jià)函數(shù),將原問題轉(zhuǎn)化為求解具有最小代價(jià)的路徑的優(yōu)化問題。最后,采用計(jì)算簡便的最短路徑方法解得最可能的數(shù)條目標(biāo)未來路徑。
本發(fā)明的路徑預(yù)測方法,基于深度學(xué)習(xí)技術(shù),可以同時(shí)有效利用兩種影響路徑選擇的關(guān)鍵因素,去完成路徑的合理預(yù)測,從而得到規(guī)劃的最優(yōu)路徑。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。