本發(fā)明涉及圖像處理領(lǐng)域,更具體地涉及一種對(duì)象追蹤方法和裝置。
背景技術(shù):
對(duì)行人、車輛等物體的檢測(cè)追蹤是諸多安防應(yīng)用中不可或缺的一環(huán)。在現(xiàn)有方法中,往往把物體檢測(cè)和物體追蹤分成兩個(gè)獨(dú)立的環(huán)節(jié)來解決這一問題。首先,在采集到的視頻的每一幀圖像中,檢測(cè)感興趣的物體,然后根據(jù)空間位置、外觀相似程度等因素將在各幀圖像中檢測(cè)到的物體關(guān)聯(lián)在一起,從而進(jìn)行追蹤。在以上兩個(gè)環(huán)節(jié)中,都有可能引入額外的誤差。例如,在檢測(cè)過程中,可能存在一些物體被漏檢(False Negative),而一些被檢測(cè)出的物體又并非是感興趣的物體(False Positive)。上述檢測(cè)誤差會(huì)在之后的追蹤過程中進(jìn)一步帶來新的誤差。另外,在追蹤過程中,需要比較在不同圖像中檢測(cè)出的物體的外觀相似程度,這將帶來額外的計(jì)算開銷,從而影響物體追蹤的效率。
技術(shù)實(shí)現(xiàn)要素:
考慮到上述問題而提出了本發(fā)明。本發(fā)明提供了一種對(duì)象追蹤方法和裝置。
根據(jù)本發(fā)明一方面,提供了一種對(duì)象追蹤方法。對(duì)象追蹤方法包括:
獲取視頻;
針對(duì)所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息;以及
根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象。
示例性地,所述針對(duì)所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息包括:
將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征;
將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān),并且其中所述第二特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;以及
基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。
示例性地,所述基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息包括:
針對(duì)所述至少部分幀的圖像中的任一圖像,
對(duì)于每個(gè)由該圖像的第二特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn),提取與該圖像點(diǎn)相關(guān)的一個(gè)或多個(gè)初始區(qū)域;
利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性;
從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域,其中,所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該選定區(qū)域相對(duì)應(yīng)的元素而定;以及
對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入回歸器,以獲得該選定區(qū)域中包含的對(duì)象在該圖像中的檢測(cè)位置信息、在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測(cè)位置信息、以及在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測(cè)位置信息。
示例性地,在所述針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域之后,所述對(duì)象追蹤方法進(jìn)一步包括:
針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入第二分類器,以確定該選定區(qū)域中包含的對(duì)象是否是目標(biāo)對(duì)象。
示例性地,所述針對(duì)所述至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性包括:
針對(duì)所述至少部分幀的圖像中的任一圖像,將所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征中的頻道向量輸入所述第一分類器,以確定該初始區(qū)域中包含對(duì)象的可能性,
其中,所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該初始區(qū)域相對(duì)應(yīng)的元素而定。
示例性地,所述對(duì)于所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域包括:
針對(duì)所述至少部分幀的圖像中的任一圖像,
當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為一個(gè)時(shí),將該選擇的初始區(qū)域確定為選定區(qū)域;
當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為多個(gè)時(shí),針對(duì)該圖像合并所述可能性最高的多個(gè)初始區(qū)域中的重疊部分超過預(yù)定標(biāo)準(zhǔn)的兩個(gè)或多于兩個(gè)初始區(qū)域,以獲得所述一個(gè)或多個(gè)選定區(qū)域。
示例性地,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
示例性地,所述對(duì)象追蹤方法進(jìn)一步包括:
利用多個(gè)樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)、所述第一分類器和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對(duì)象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
示例性地,所述根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象包括:
如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對(duì)象和所述一個(gè)或多個(gè)參照對(duì)象關(guān)聯(lián)在一起,
其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
示例性地,所述根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象包括:
如果所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述視頻中的特定圖像中的預(yù)測(cè)位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息所確定的預(yù)測(cè)位置處未檢測(cè)到與所述一個(gè)或多個(gè)參照對(duì)象相對(duì)應(yīng)的期望對(duì)象,則基于所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息確定與所述特定圖像相關(guān)的預(yù)測(cè)對(duì)象,并且將所述一個(gè)或多個(gè)參照對(duì)象與所述預(yù)測(cè)對(duì)象關(guān)聯(lián)在一起,
其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
根據(jù)本發(fā)明另一方面,提供了一種對(duì)象追蹤裝置。對(duì)象追蹤裝置包括:
視頻獲取模塊,用于獲取視頻;
檢測(cè)預(yù)測(cè)模塊,用于針對(duì)所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息;以及
追蹤模塊,用于根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象。
示例性地,所述檢測(cè)預(yù)測(cè)模塊包括:
第一特征獲得子模塊,用于將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征;
第二特征獲得子模塊,用于將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān),并且其中所述第二特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;以及
檢測(cè)預(yù)測(cè)子模塊,用于基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。
示例性地,所述檢測(cè)預(yù)測(cè)子模塊包括:
初始區(qū)域提取單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于每個(gè)由該圖像的第二特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn),提取與該圖像點(diǎn)相關(guān)的一個(gè)或多個(gè)初始區(qū)域;
可能性確定單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性;
選定區(qū)域獲得單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域,其中,所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該選定區(qū)域相對(duì)應(yīng)的元素而定;以及
位置信息獲得單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入回歸器,以獲得該選定區(qū)域中包含的對(duì)象在該圖像中的檢測(cè)位置信息、在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測(cè)位置信息、以及在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測(cè)位置信息。
示例性地,所述對(duì)象追蹤裝置進(jìn)一步包括目標(biāo)對(duì)象確定模塊,用于針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入第二分類器,以確定該選定區(qū)域中包含的對(duì)象是否是目標(biāo)對(duì)象。
示例性地,所述可能性確定單元包括輸入子單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,將所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征中的頻道向量輸入所述第一分類器,以確定該初始區(qū)域中包含對(duì)象的可能性,
其中,所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該初始區(qū)域相對(duì)應(yīng)的元素而定。
示例性地,所述選定區(qū)域獲得單元包括區(qū)域獲得子單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為一個(gè)時(shí),將該選擇的初始區(qū)域確定為選定區(qū)域;當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為多個(gè)時(shí),針對(duì)該圖像合并所述可能性最高的多個(gè)初始區(qū)域中的重疊部分超過預(yù)定標(biāo)準(zhǔn)的兩個(gè)或多于兩個(gè)初始區(qū)域,以獲得所述一個(gè)或多個(gè)選定區(qū)域。
示例性地,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
示例性地,所述對(duì)象追蹤裝置進(jìn)一步包括訓(xùn)練模塊,用于利用多個(gè)樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)、所述第一分類器和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對(duì)象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
示例性地,所述追蹤模塊包括第一關(guān)聯(lián)子模塊,用于如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對(duì)象和所述一個(gè)或多個(gè)參照對(duì)象關(guān)聯(lián)在一起,
其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
示例性地,所述追蹤模塊包括第二關(guān)聯(lián)子模塊,用于如果所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述視頻中的特定圖像中的預(yù)測(cè)位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息所確定的預(yù)測(cè)位置處未檢測(cè)到與所述一個(gè)或多個(gè)參照對(duì)象相對(duì)應(yīng)的期望對(duì)象,則基于所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息確定與所述特定圖像相關(guān)的預(yù)測(cè)對(duì)象,并且將所述一個(gè)或多個(gè)參照對(duì)象與所述預(yù)測(cè)對(duì)象關(guān)聯(lián)在一起,
其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
示例性地,所述追蹤模塊包括不可信確定子模塊,用于如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的所有參照?qǐng)D像中包含的所有參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對(duì)象是不可信對(duì)象,
其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法和裝置,通過基于當(dāng)前圖像預(yù)測(cè)對(duì)象在其他圖像中的位置信息及位置信息的比較來實(shí)現(xiàn)對(duì)象追蹤,這種對(duì)象追蹤方式非常簡(jiǎn)單,計(jì)算量小,并且可以降低對(duì)象追蹤誤差。
附圖說明
通過結(jié)合附圖對(duì)本發(fā)明實(shí)施例進(jìn)行更詳細(xì)的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。附圖用來提供對(duì)本發(fā)明實(shí)施例的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中,相同的參考標(biāo)號(hào)通常代表相同部件或步驟。
圖1示出用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法和裝置的示例電子設(shè)備的示意性框圖;
圖2示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)象追蹤方法的示意性流程圖;
圖3示出根據(jù)本發(fā)明一個(gè)實(shí)施例的針對(duì)視頻中的每幀圖像至少利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息并預(yù)測(cè)該圖像中包含的對(duì)象在視頻的其他圖像中的預(yù)測(cè)位置信息的步驟的示意性流程圖;
圖4示出根據(jù)本發(fā)明一個(gè)實(shí)施例的基于至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息的步驟的示意性流程圖;
圖5示出根據(jù)本發(fā)明一個(gè)實(shí)施例的利用視頻中的圖像進(jìn)行對(duì)象追蹤的示意性流程圖;
圖6示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)象追蹤裝置的示意性框圖;以及
圖7示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)象追蹤系統(tǒng)的示意性框圖。
具體實(shí)施方式
為了使得本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更為明顯,下面將參照附圖詳細(xì)描述根據(jù)本發(fā)明的示例實(shí)施例。顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是本發(fā)明的全部實(shí)施例,應(yīng)理解,本發(fā)明不受這里描述的示例實(shí)施例的限制?;诒景l(fā)明中描述的本發(fā)明實(shí)施例,本領(lǐng)域技術(shù)人員在沒有付出創(chuàng)造性勞動(dòng)的情況下所得到的所有其它實(shí)施例都應(yīng)落入本發(fā)明的保護(hù)范圍之內(nèi)。
首先,參照?qǐng)D1來描述用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法和裝置的示例電子設(shè)備100。
如圖1所示,電子設(shè)備100包括一個(gè)或多個(gè)處理器102、一個(gè)或多個(gè)存儲(chǔ)裝置104、輸入裝置106、輸出裝置108和視頻采集裝置110,這些組件通過總線系統(tǒng)112和/或其它形式的連接機(jī)構(gòu)(未示出)互連。應(yīng)當(dāng)注意,圖1所示的電子設(shè)備100的組件和結(jié)構(gòu)只是示例性的,而非限制性的,根據(jù)需要,所述電子設(shè)備也可以具有其他組件和結(jié)構(gòu)。
所述處理器102可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制所述電子設(shè)備100中的其它組件以執(zhí)行期望的功能。
所述存儲(chǔ)裝置104可以包括一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品可以包括各種形式的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如易失性存儲(chǔ)器和/或非易失性存儲(chǔ)器。所述易失性存儲(chǔ)器例如可以包括隨機(jī)存取存儲(chǔ)器(RAM)和/或高速緩沖存儲(chǔ)器(cache)等。所述非易失性存儲(chǔ)器例如可以包括只讀存儲(chǔ)器(ROM)、硬盤、閃存等。在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上可以存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序指令,處理器102可以運(yùn)行所述程序指令,以實(shí)現(xiàn)下文所述的本發(fā)明實(shí)施例中(由處理器實(shí)現(xiàn))的客戶端功能以及/或者其它期望的功能。在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中還可以存儲(chǔ)各種應(yīng)用程序和各種數(shù)據(jù),例如所述應(yīng)用程序使用和/或產(chǎn)生的各種數(shù)據(jù)等。
所述輸入裝置106可以是用戶用來輸入指令的裝置,并且可以包括鍵盤、鼠標(biāo)、麥克風(fēng)和觸摸屏等中的一個(gè)或多個(gè)。
所述輸出裝置108可以向外部(例如用戶)輸出各種信息(例如圖像和/或聲音),并且可以包括顯示器、揚(yáng)聲器等中的一個(gè)或多個(gè)。
所述視頻采集裝置110可以采集期望的視頻(例如用于對(duì)象追蹤的視頻),并且將所采集的視頻存儲(chǔ)在所述存儲(chǔ)裝置104中以供其它組件使用。視頻采集裝置110可以采用任何合適的設(shè)備實(shí)現(xiàn),例如獨(dú)立的照相機(jī)或移動(dòng)終端的攝像頭等。視頻采集裝置110僅是示例,電子設(shè)備100可以不包括視頻采集裝置110。
示例性地,用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法和裝置的示例電子設(shè)備可以在諸如個(gè)人計(jì)算機(jī)或遠(yuǎn)程服務(wù)器等的設(shè)備上實(shí)現(xiàn)。
下面,將參考圖2描述根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法。圖2示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)象追蹤方法200的示意性流程圖。如圖2所示,對(duì)象追蹤方法200包括以下步驟。
在步驟S210,獲取視頻。
視頻可以包括若干幀圖像,圖像中可以包含對(duì)象。本文所述的對(duì)象可以是任何期望追蹤或能夠追蹤的物體,例如行人、車輛等。視頻可以來自外部設(shè)備,由外部設(shè)備傳送到電子設(shè)備100進(jìn)行對(duì)象追蹤。此外,視頻也可以由電子設(shè)備100的視頻采集裝置110采集獲得。視頻采集裝置110可以將采集到的視頻傳送到處理器102,由處理器102進(jìn)行對(duì)象追蹤。視頻可以是原始視頻,也可以是對(duì)原始視頻進(jìn)行預(yù)處理后得到的視頻。
在步驟S220,針對(duì)視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。
在本發(fā)明各個(gè)實(shí)施例中,視頻的至少部分幀的圖像可以為視頻中的部分視頻幀,也可以為視頻中的全部視頻幀。
示例性地,本文所述的位置信息可以包括對(duì)象在圖像中的具體坐標(biāo)。示例性地,位置信息可以進(jìn)一步包括對(duì)象的大小。
由于對(duì)象的運(yùn)動(dòng)過程通常是連續(xù)的,在針對(duì)對(duì)象采集的多幀圖像中,對(duì)象所處的位置通常存在一定的相關(guān)性。因此,基于該相關(guān)性,對(duì)于視頻中的某一圖像來說,不僅可以直接檢測(cè)對(duì)象在當(dāng)前圖像中的位置,還可以預(yù)測(cè)同一對(duì)象在采集時(shí)間早于當(dāng)前圖像的一幀或多幀先前圖像中的位置,同理,也可以預(yù)測(cè)該對(duì)象在采集時(shí)間晚于當(dāng)前圖像的一幀或多幀隨后圖像中的位置。這樣的檢測(cè)和預(yù)測(cè)過程可以至少利用反饋式神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。反饋式神經(jīng)網(wǎng)絡(luò)可以是事先訓(xùn)練好的。反饋式神經(jīng)網(wǎng)絡(luò)能夠綜合視頻中的不同圖像的信息,使得基于當(dāng)前圖像的信息預(yù)測(cè)其他圖像(先前圖像和/或隨后圖像)的信息成為可能,如下文所述。
反饋式神經(jīng)網(wǎng)絡(luò)的神經(jīng)元間連接構(gòu)成有向圖,通過將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,反饋式神經(jīng)網(wǎng)絡(luò)可以接收廣泛的時(shí)間序列輸入。也就是說,對(duì)于存在時(shí)序關(guān)系的多幀圖像來說,將圖像按照時(shí)間順序輸入到反饋式神經(jīng)網(wǎng)絡(luò)中,反饋式神經(jīng)網(wǎng)絡(luò)可以將與每幀圖像相對(duì)應(yīng)的輸出結(jié)果重新返回到輸入處,這樣,可以建立當(dāng)前圖像與采集時(shí)間不同的先前圖像和/或隨后圖像之間的關(guān)聯(lián)。由此可以使得通過當(dāng)前圖像預(yù)測(cè)先前圖像和/或隨后圖像的某些信息(例如當(dāng)前圖像中包含的對(duì)象在先前圖像和/或隨后圖像中的位置信息)成為可能。
對(duì)于某一幀圖像來說,利用其圖像信息檢測(cè)出的對(duì)象在該圖像中的位置信息可以稱為檢測(cè)位置信息,利用其圖像信息預(yù)測(cè)出的對(duì)象在其他圖像中的位置信息可以稱為預(yù)測(cè)位置信息。對(duì)于視頻中的每幀圖像,均進(jìn)行這樣的檢測(cè)和預(yù)測(cè)。
在步驟S230,根據(jù)視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象。
根據(jù)視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象可以包括根據(jù)視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息將視頻中的不同圖像中的相同對(duì)象關(guān)聯(lián)在一起。
下面舉例描述。假設(shè)基于視頻中的第t幀圖像檢測(cè)到第t幀圖像中包含對(duì)象A,其位于第t幀圖像的坐標(biāo)(x1,y1)處,并且預(yù)測(cè)到對(duì)象A在第t+1幀圖像中可能位于坐標(biāo)(x2,y2)處。然后,基于第t+1幀圖像檢測(cè)到第t+1幀圖像中包含對(duì)象B,其位于第t+1幀圖像的坐標(biāo)(x3,y3)處。如果經(jīng)比較,發(fā)現(xiàn)坐標(biāo)(x2,y2)與坐標(biāo)(x3,y3)之間的距離非常近,例如小于某個(gè)閾值,則可以認(rèn)為第t幀圖像中的對(duì)象A與第t+1幀圖像中的對(duì)象B是相同對(duì)象。在確認(rèn)第t幀圖像中的對(duì)象A與第t+1幀圖像中的對(duì)象B是相同對(duì)象的情況下,將這兩個(gè)對(duì)象關(guān)聯(lián)在一起,合并成一個(gè)對(duì)象,例如合并為對(duì)象1。示例性地,將相同對(duì)象關(guān)聯(lián)在一起的過程可以包括將該對(duì)象在不同圖像中的位置信息關(guān)聯(lián)在一起,以獲得對(duì)象的運(yùn)動(dòng)軌跡。例如,對(duì)于對(duì)象1來說,其在第t幀圖像中位于坐標(biāo)(x2,y2)處,在第t+1幀圖像中位于坐標(biāo)(x3,y3)處,也就是說,可以認(rèn)為對(duì)象1在一段時(shí)間內(nèi)從坐標(biāo)(x2,y2)處運(yùn)動(dòng)到坐標(biāo)(x3,y3)處。根據(jù)上述原理,可以針對(duì)每幀圖像中的對(duì)象進(jìn)行檢測(cè)位置信息和預(yù)測(cè)位置信息的比較,將檢測(cè)位置信息和預(yù)測(cè)位置信息滿足要求的對(duì)象視為相同對(duì)象并進(jìn)行關(guān)聯(lián),最終可以將包含在不同圖像中的相同對(duì)象關(guān)聯(lián)在一起,即可以實(shí)現(xiàn)對(duì)象的追蹤。
與現(xiàn)有的對(duì)象追蹤方法相比,上述對(duì)象追蹤方法具有以下優(yōu)點(diǎn):
(1).追蹤過程極為簡(jiǎn)單,計(jì)算量較小。本方法只需要將所預(yù)測(cè)的對(duì)象位置與檢測(cè)出的對(duì)象位置進(jìn)行比較即可,無需額外比較外觀相似程度。
(2).能夠有效處理被遮擋問題。在現(xiàn)有方法中,如果在視頻的一幀或多幀圖像中,某對(duì)象被遮擋,則該對(duì)象是無法檢測(cè)出的,而在本方法中,由于對(duì)象可能在之前和/或之后的多幀圖像中出現(xiàn),則根據(jù)其在未被遮擋的圖像中的信息估計(jì)其在被遮擋的圖像中的位置是可能的。
(3).能夠在一定程度上降低對(duì)象追蹤誤差。例如,如果某對(duì)象在某幀圖像中被漏檢,那么根據(jù)前后多幀圖像的信息,能夠預(yù)測(cè)出其在該幀圖像中的位置。另外,如果在某幀圖像中,一個(gè)對(duì)象是被誤檢的,那么根據(jù)前后多幀圖像的信息,可以判斷出該被檢測(cè)出的對(duì)象不可信。
根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法,通過基于當(dāng)前圖像預(yù)測(cè)對(duì)象在其他圖像中的位置信息及位置信息的比較來實(shí)現(xiàn)對(duì)象追蹤,這種對(duì)象追蹤方式非常簡(jiǎn)單,計(jì)算量小,并且可以降低對(duì)象追蹤誤差。
示例性地,根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法可以在具有存儲(chǔ)器和處理器的設(shè)備、裝置或者系統(tǒng)中實(shí)現(xiàn)。
根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法可以部署在視頻采集端,例如,可以部署在個(gè)人終端處,諸如智能電話、平板電腦、個(gè)人計(jì)算機(jī)等。替代地,根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法還可以部署在服務(wù)器端(或云端)處。例如,可以在客戶端采集包含對(duì)象的視頻,客戶端將采集到的視頻傳送給服務(wù)器端(或云端),由服務(wù)器端(或云端)進(jìn)行對(duì)象追蹤。
圖3示出根據(jù)本發(fā)明一個(gè)實(shí)施例的針對(duì)視頻的至少部分幀的圖像中的每幀圖像利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息并預(yù)測(cè)該圖像中包含的對(duì)象在至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息的步驟(步驟S220)的示意性流程圖。根據(jù)本實(shí)施例,上述步驟S220可以包括以下步驟。
在步驟S310,將至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得至少部分幀的圖像中的每幀圖像的第一特征。
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),其由若干卷積單元組成,每個(gè)卷積單元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元。每個(gè)卷積單元的參數(shù)可以通過反向傳播算法優(yōu)化得到。卷積運(yùn)算的目的是提取圖像的不同特征。例如,第一層卷積層可以提取一些低級(jí)的特征,如邊緣、線條和角等層級(jí),更多層的網(wǎng)絡(luò)可以從低級(jí)特征中迭代提取更復(fù)雜的特征,最終獲得本文所述的第一特征。卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目以及每個(gè)卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)可以根據(jù)需要而定,本發(fā)明不對(duì)此進(jìn)行限制。卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)可以進(jìn)行隨機(jī)初始化,也可以利用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化,例如利用視覺幾何組(VGG),GoogleLeNet等網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。對(duì)于這類已有的網(wǎng)絡(luò),可以選取其中的某些部分作為本文所述的卷積神經(jīng)網(wǎng)絡(luò)的一部分參與訓(xùn)練,也可以固定一部分參數(shù)不參與該卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
第一特征可以理解為類似熱力圖的特征圖。對(duì)于一個(gè)圖像(視頻中的一幀)來說,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的第一特征可以是一個(gè)三維張量X,該三維張量X的三個(gè)維度可以分別代表特征圖的橫向坐標(biāo)、縱向坐標(biāo)和頻道。也就是說,第一特征可以包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。應(yīng)該理解的是,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的處理之后,獲得的特征圖的大小并不一定與輸入的圖像一致,其可能縮小,每個(gè)由第一特征中的橫向坐標(biāo)和縱向坐標(biāo)代表的圖像點(diǎn)可能對(duì)應(yīng)于視頻中的原始圖像中的一個(gè)區(qū)域。對(duì)于視頻中的原始圖像來說,其可以包括三個(gè)顏色分量,即紅色(R)、綠色(G)和藍(lán)色(B),則其頻道數(shù)是3。在利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)原始圖像進(jìn)行處理之后,所獲得的特征圖的頻道數(shù)可能會(huì)大大增加,也就是說第二特征的頻道向量可能不再簡(jiǎn)單是3維的向量,而變成例如512維、1024維等更多維度的向量。
在步驟S320,將至少部分幀的圖像中的每幀圖像的第一特征輸入反饋式神經(jīng)網(wǎng)絡(luò),以獲得至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在當(dāng)前圖像之前的先前圖像和在當(dāng)前圖像之后的隨后圖像相關(guān),并且其中所述第二特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。
在計(jì)算當(dāng)前圖像的第二特征時(shí),可以將當(dāng)前圖像的第一特征和先前圖像的某些特征信息和/或隨后圖像的某些特征信息作為反饋式神經(jīng)網(wǎng)絡(luò)的輸入,輸出的將是當(dāng)前圖像的第二特征。
與第一特征類似地,第二特征也是一個(gè)三維張量,其可以用H表示。該三維張量H的三個(gè)維度可以分別代表特征圖的橫向坐標(biāo)、縱向坐標(biāo)和頻道。也就是說,第二特征可以包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。同樣地,每個(gè)由第二特征中的橫向坐標(biāo)和縱向坐標(biāo)代表的圖像點(diǎn)可能對(duì)應(yīng)于視頻中的原始圖像中的一個(gè)區(qū)域。當(dāng)前圖像的第二特征綜合了在當(dāng)前圖像之前和之后的圖像的信息。
在步驟S330,基于至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。
如上文所述,當(dāng)前圖像的第二特征綜合了在當(dāng)前圖像之前和之后的圖像的信息,因此,根據(jù)當(dāng)前圖像的第二特征不僅可以獲知當(dāng)前圖像中包含的對(duì)象在當(dāng)前圖像中的位置,而且可以預(yù)測(cè)當(dāng)前圖像中包含的對(duì)象在當(dāng)前圖像之前和/或之后的圖像中的位置。例如,在步驟S330中,可以采用事先訓(xùn)練好的分類器、回歸器等計(jì)算當(dāng)前圖像中包含的對(duì)象在當(dāng)前圖像中的位置及在當(dāng)前圖像之前和/或之后的圖像中的位置。
圖4示出根據(jù)本發(fā)明一個(gè)實(shí)施例的基于至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息的步驟(步驟S330)的示意性流程圖。根據(jù)本實(shí)施例,上述步驟S330可以包括以下步驟。
在步驟S410,針對(duì)至少部分幀的圖像中的任一圖像,對(duì)于每個(gè)由該圖像的第二特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn),提取與該圖像點(diǎn)相關(guān)的一個(gè)或多個(gè)初始區(qū)域。
如上所述,第二特征是三維張量H,其三個(gè)維度可以分別代表特征圖的橫向坐標(biāo)、縱向坐標(biāo)和頻道。對(duì)于至少部分幀的圖像中的每幀圖像來說,其第二特征中的橫向坐標(biāo)和縱向坐標(biāo)可以代表若干個(gè)圖像點(diǎn)??梢葬槍?duì)每幀圖像的每個(gè)圖像點(diǎn)均提取一個(gè)或多個(gè)初始區(qū)域。初始區(qū)域可以以對(duì)應(yīng)的圖像點(diǎn)為中心,并具有一定的大小和形狀。與同一圖像點(diǎn)相關(guān)的不同初始區(qū)域的大小和/或形狀可以不同。
例如,假設(shè)至少部分幀的圖像中的每幀圖像的第二特征可以視為具有48(6×8)個(gè)圖像點(diǎn)的圖像,針對(duì)每個(gè)圖像點(diǎn)可以提取10個(gè)初始區(qū)域。這10個(gè)初始區(qū)域可以具有不同的大小和/或形狀,例如有的是正方形,有的是圓形等。這樣,對(duì)于一幀圖像來說,一共可以提取480個(gè)初始區(qū)域。對(duì)于視頻中的每幀圖像,均可以采用這種方式提取初始區(qū)域。
為了描述方便,可以將視頻中的第t幀圖像的第二特征表示為H_t(x,y,c),其中x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量。對(duì)于某個(gè)圖像點(diǎn)(x,y)來說,所提取的相關(guān)的初始區(qū)域可以表示為(x,y,h,w),h和w分別表示初始區(qū)域的高度和寬度。初始區(qū)域也具有特征,其特征可以由該初始區(qū)域所屬的圖像的第二特征中的與該初始區(qū)域相對(duì)應(yīng)的元素而定,表示為三維張量H_t[x:x+w,y:y+h,:]。示例性地,可以采用加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster RCNN)或類似算法提取初始區(qū)域。
在步驟S420,針對(duì)至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性。
如上所述,針對(duì)至少部分幀的圖像中的每幀圖像,對(duì)于每個(gè)由該圖像的第二特征中的橫向坐標(biāo)和縱向坐標(biāo)代表的圖像點(diǎn),都獲得固定數(shù)量的初始區(qū)域。初始區(qū)域可以代表一個(gè)可能出現(xiàn)對(duì)象的區(qū)域。可以利用第一分類器確定每個(gè)初始區(qū)域包含對(duì)象的可能性。第一分類器可以是事先訓(xùn)練好的。示例性而非限制性地,第一分類器可以是全連接神經(jīng)網(wǎng)絡(luò)。
初始區(qū)域包括第二特征所對(duì)應(yīng)的特征圖上的若干圖像點(diǎn),并且如上文所述,每個(gè)圖像點(diǎn)可能對(duì)應(yīng)于視頻中的原始圖像中的一個(gè)區(qū)域,因此,可以理解的是,每個(gè)初始區(qū)域可能對(duì)應(yīng)于視頻中的原始圖像中的一個(gè)更大的區(qū)域。因此,通過分析初始區(qū)域中包含對(duì)象的可能性可以獲知視頻中的原始圖像中的一個(gè)大區(qū)域中包含對(duì)象的可能性。
在一個(gè)示例中,步驟S420可以包括:針對(duì)至少部分幀的圖像中的任一圖像,將針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征中的頻道向量輸入第一分類器,以確定該初始區(qū)域中包含對(duì)象的可能性,其中,所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該初始區(qū)域相對(duì)應(yīng)的元素而定。
如上文所述,初始區(qū)域也具有特征,其特征可以由其所屬的圖像的第二特征的一部分構(gòu)成。也就是說,初始區(qū)域的特征中也包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。頻道向量代表圖像(或特征圖)的顏色信息,而經(jīng)由顏色信息可以判斷對(duì)象在圖像(或特征圖)中的位置。因此,通過初始區(qū)域的特征中的頻道向量可以簡(jiǎn)單地分析出初始區(qū)域中是否包含對(duì)象。
在步驟S430,針對(duì)至少部分幀的圖像中的任一圖像,從針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域,其中,所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該選定區(qū)域相對(duì)應(yīng)的元素而定。
對(duì)于至少部分幀的圖像中的每幀圖像來說,可以根據(jù)包含對(duì)象的可能性對(duì)初始區(qū)域進(jìn)行排序,然后選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域。當(dāng)然,可以理解的是,還可以設(shè)置可能性閾值,僅選擇包含對(duì)象的可能性超過可能性閾值的初始區(qū)域。可以將所選擇的初始區(qū)域直接作為選定區(qū)域,也可以對(duì)所選擇的初始區(qū)域進(jìn)行某些處理之后生成選定區(qū)域。例如,可以對(duì)初始區(qū)域進(jìn)行一定程度的合并以獲得選定區(qū)域。與初始區(qū)域類似地,選定區(qū)域也具有特征,其由該選定區(qū)域所屬的圖像的第二特征中的與該選定區(qū)域相對(duì)應(yīng)的元素而定。根據(jù)上文對(duì)初始區(qū)域的特征的描述,本領(lǐng)域技術(shù)人員可以理解選定區(qū)域的特征的結(jié)構(gòu)和表達(dá)形式,在此不再贅述。
在一個(gè)示例中,步驟S430可以包括:針對(duì)所述至少部分幀的圖像中的任一圖像,當(dāng)從針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為一個(gè)時(shí),將該選擇的初始區(qū)域確定為選定區(qū)域;當(dāng)從針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為多個(gè)時(shí),針對(duì)該圖像合并可能性最高的多個(gè)初始區(qū)域中的重疊部分超過預(yù)定標(biāo)準(zhǔn)的兩個(gè)或多于兩個(gè)初始區(qū)域,以獲得一個(gè)或多個(gè)選定區(qū)域。
如上文所述,在選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域之后,可以對(duì)所選擇的初始區(qū)域進(jìn)行某些處理(例如合并)之后生成選定區(qū)域。在針對(duì)每幀圖像所選擇的初始區(qū)域的數(shù)目為一個(gè)時(shí),可以直接將所選擇的初始區(qū)域視作選定區(qū)域。在針對(duì)每幀圖像所選擇的初始區(qū)域的數(shù)目不止一個(gè)時(shí),在兩個(gè)初始區(qū)域之間可能存在重疊??梢栽O(shè)置預(yù)定標(biāo)準(zhǔn),對(duì)于重疊部分超過預(yù)定標(biāo)準(zhǔn)的初始區(qū)域,進(jìn)行合并,以減少不必要的數(shù)據(jù)運(yùn)算。例如,在兩個(gè)或多于兩個(gè)初始區(qū)域的重疊面積或重疊比例大于預(yù)設(shè)的重疊閾值時(shí),可以認(rèn)為這些初始區(qū)域之間的重疊部分超過預(yù)定標(biāo)準(zhǔn),因此可以合并。
在步驟S440,針對(duì)至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入回歸器,以獲得該選定區(qū)域中包含的對(duì)象在該圖像中的檢測(cè)位置信息、在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測(cè)位置信息、以及在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測(cè)位置信息。
假設(shè)選定區(qū)域的特征同樣用H_t[x:x+w,y:y+h,:]表示,可以將其輸入(1+2N)個(gè)回歸器,每個(gè)回歸器可以輸出對(duì)象在當(dāng)前圖像(選定區(qū)域所屬的圖像)、或在當(dāng)前圖像之前的第n幀先前圖像(n≤N)或在當(dāng)前圖像之后的第n幀隨后圖像中的位置信息?;貧w器可以是事先訓(xùn)練好的。示例性而非限制性地,回歸器可以是全連接神經(jīng)網(wǎng)絡(luò)。
針對(duì)視頻的至少部分幀的圖像中的每幀圖像,可以獲得一個(gè)或多個(gè)選定區(qū)域。當(dāng)然,可以理解的是,在圖像中不存在任何對(duì)象的情況下,也可能無法獲得選定區(qū)域。對(duì)于每幀圖像來說,可以將針對(duì)該圖像所獲得的所有選定區(qū)域輸入上述回歸器以獲得對(duì)象在該圖像以及其他圖像中的位置信息。
基于訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)、第一分類器、回歸器等模型可以快速準(zhǔn)確地實(shí)現(xiàn)對(duì)對(duì)象的位置信息的檢測(cè)和預(yù)測(cè),有助于獲得高精度的對(duì)象追蹤結(jié)果。
根據(jù)本發(fā)明實(shí)施例,在上述步驟S430之后,對(duì)象追蹤方法200可以進(jìn)一步包括:針對(duì)至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入第二分類器,以確定該選定區(qū)域中包含的對(duì)象是否是目標(biāo)對(duì)象。
可以將選定區(qū)域的特征H_t[x:x+w,y:y+h,:]輸入第二分類器。第二分類器可以確定選定區(qū)域中包含的對(duì)象是否是目標(biāo)對(duì)象(即感興趣的對(duì)象),例如行人、車輛等。例如,在利用第二分類器判斷選定區(qū)域包含的對(duì)象是否是行人的情況下,第二分類器可以輸出兩種結(jié)果,其中0表示選定區(qū)域包含的對(duì)象不是行人,1表示選定區(qū)域包含的對(duì)象是行人。當(dāng)然,第二分類器還可以輸出更多種結(jié)果,用于表示更多的對(duì)象類型,例如其可以輸出十種結(jié)果,其中0表示選定區(qū)域包含的對(duì)象不屬于任何期望對(duì)象,1表示選定區(qū)域包含的對(duì)象是行人,2表示選定區(qū)域包含的對(duì)象是車輛,等等。
第二分類器可以是事先訓(xùn)練好的。示例性而非限制性地,第二分類器可以是全連接神經(jīng)網(wǎng)絡(luò)。
通過第二分類器可以判斷圖像中的對(duì)象的類別,判斷對(duì)象是否是感興趣的對(duì)象,從而可以提供更多關(guān)于對(duì)象的信息,幫助實(shí)現(xiàn)對(duì)象追蹤。
根據(jù)本發(fā)明實(shí)施例,上述反饋式神經(jīng)網(wǎng)絡(luò)可以是雙向卷積反饋式神經(jīng)網(wǎng)絡(luò),其可以包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò)。下面詳細(xì)描述。
如上文所述,反饋式神經(jīng)網(wǎng)絡(luò)的神經(jīng)元間連接構(gòu)成有向圖,通過將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,反饋式神經(jīng)網(wǎng)絡(luò)可以接收更廣泛的時(shí)間序列輸入。在本發(fā)明中,該時(shí)間序列為一段視頻中的每幀圖像通過卷積神經(jīng)網(wǎng)絡(luò)提取的第一特征。對(duì)于一般的反饋式神經(jīng)網(wǎng)絡(luò),具有以下的表達(dá)公式:
Y_t=W*X_t+V*Y_{t-1}+b (1)
其中,w、v和b為反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為視頻中的第t幀圖像的第一特征,Y_t為第t幀圖像對(duì)應(yīng)的輸出結(jié)果,Y_{t-1}為視頻中的第t-1幀圖像對(duì)應(yīng)的輸出結(jié)果。
根據(jù)本發(fā)明實(shí)施例,可以采用卷積代替一般的反饋式神經(jīng)網(wǎng)絡(luò)中的乘法以獲得正向反饋式神經(jīng)網(wǎng)絡(luò)的表達(dá)公式,如下所述:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為視頻中的第t幀圖像的第一特征,Y_t為第t幀圖像的正向特征,Y_{t-1}為視頻中的第t-1幀圖像的正向特征。
由于采用這種以卷積代替乘法的方式,在綜合各幀圖像中的信息的時(shí)候,可以僅響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,從而可以使反饋式神經(jīng)網(wǎng)絡(luò)中的參數(shù)大大減小。在正向反饋式神經(jīng)網(wǎng)絡(luò)中,第t幀圖像對(duì)應(yīng)的輸出結(jié)果Y_t是一個(gè)三維張量。示例性地,可以使用雙向反饋式神經(jīng)網(wǎng)絡(luò),以使視頻中的每幀圖像不僅能夠綜合在其之前的圖像的信息,還能夠綜合在其之后的圖像的信息。
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為第t幀圖像的第一特征,Z_t為第t幀圖像的反向特征,Z_{t+1}為視頻中的第t+1幀圖像的反向特征。
然后,可以將正向反饋式神經(jīng)網(wǎng)絡(luò)的結(jié)果和反向反饋式神經(jīng)網(wǎng)絡(luò)的結(jié)果合并在一起,獲得圖像的第二特征。合并方式如下。
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
通過以上公式(2)和(3)可知正向特征和反向特征的總頻道是相同的,其是一個(gè)常數(shù)。例如,如果正向特征或反向特征中的頻道向量是一個(gè)512維的向量,則總頻道數(shù)是512。
通過公式(4)可以看出,第t幀圖像的第二特征H_t綜合了第t幀圖像的正向特征和反向特征,第二特征H_t分別包括正向特征的一部分和反向特征的一部分。由于第t幀圖像的正向特征與第t-1幀圖像相關(guān),第t幀圖像的反向特征與第t+1幀圖像相關(guān),因此利用公式(4),第t幀圖像的第二特征H_t可以與第t-1幀圖像和第t幀圖像相關(guān),也就是說,其綜合了第t-1幀圖像和第t幀圖像的圖像信息。
應(yīng)當(dāng)注意,本文所述的反饋式神經(jīng)網(wǎng)絡(luò)并不局限于以上實(shí)現(xiàn)方式,其還可以包括其他形式的反饋式神經(jīng)網(wǎng)絡(luò),包括但不限于長短期記憶網(wǎng)絡(luò)(LSTM)、門限循環(huán)單元(GRU)和注意力模型(Attention-based Model)等。例如,如果將雙向反饋式神經(jīng)網(wǎng)絡(luò)輸出的H_t序列作為輸入,再次輸入到與該雙向反饋式神經(jīng)網(wǎng)絡(luò)類似的反饋式神經(jīng)網(wǎng)絡(luò)中,就可以得到多層雙向反饋式神經(jīng)網(wǎng)絡(luò)。也就是說,步驟S320中采用的反饋式神經(jīng)網(wǎng)絡(luò)既可以包括單層的雙向反饋式神經(jīng)網(wǎng)絡(luò),也可以包括多層的雙向反饋式神經(jīng)網(wǎng)絡(luò)。
下面參考圖5進(jìn)一步描述利用反饋式神經(jīng)網(wǎng)絡(luò)等對(duì)視頻中的圖像進(jìn)行處理的過程。圖5示出根據(jù)本發(fā)明一個(gè)實(shí)施例的利用視頻中的圖像進(jìn)行對(duì)象追蹤的示意性流程圖。在圖5所示的實(shí)施例中,每幀圖像分別經(jīng)過了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的處理,第二個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的是本文所述的第一特征。應(yīng)當(dāng)理解,用于處理不同圖像的卷積神經(jīng)網(wǎng)絡(luò)是一樣的。同樣地,用于處理不同圖像的反饋式神經(jīng)網(wǎng)絡(luò)(RNN)、分類器、回歸器等都是一樣的。
在經(jīng)過兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)的處理之后,輸出的第一特征經(jīng)過了兩個(gè)反饋式神經(jīng)網(wǎng)絡(luò)的處理,獲得本文所述的第二特征。上面一層的反饋式神經(jīng)網(wǎng)絡(luò)是上文所述的正向反饋式神經(jīng)網(wǎng)絡(luò),其中,針對(duì)每幀圖像的RNN輸出結(jié)果用作針對(duì)后一幀圖像的RNN輸入。下面一層的反饋式神經(jīng)網(wǎng)絡(luò)是上文所述的反向反饋式神經(jīng)網(wǎng)絡(luò),其中,針對(duì)每幀圖像的RNN輸出結(jié)果用作針對(duì)前一幀圖像的RNN輸入。
反饋式神經(jīng)網(wǎng)絡(luò)下方的分類器指的是上文所述的第二分類器。實(shí)際上,在反饋式神經(jīng)網(wǎng)絡(luò)與下方的分類器或回歸器之間還存在初始區(qū)域的提取以及選定區(qū)域的獲得過程,圖5中并未示出。也就是說,反饋式神經(jīng)網(wǎng)絡(luò)輸出的第二特征并未直接輸入到下方的分類器或回歸器中,而是經(jīng)過一些中間過程之后獲得選定區(qū)域,并將選定區(qū)域的特征輸入下方的分類器或回歸器中。
根據(jù)本發(fā)明實(shí)施例,對(duì)象追蹤方法200可以進(jìn)一步包括:利用多個(gè)樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)、第一分類器和回歸器進(jìn)行訓(xùn)練,其中,多個(gè)樣本圖像中包含的對(duì)象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
可以通過大量的樣本數(shù)據(jù),對(duì)上述卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)、第一分類器和回歸器進(jìn)行訓(xùn)練。當(dāng)然,在采用第二分類器判斷對(duì)象是否是目標(biāo)對(duì)象的實(shí)施例中,可以進(jìn)一步利用樣本數(shù)據(jù)對(duì)第二分類器進(jìn)行訓(xùn)練。
利用卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)、第一分類器和回歸器處理樣本圖像的過程與參考圖3和4所描述的視頻中的圖像的處理步驟類似,本領(lǐng)域技術(shù)人員根據(jù)以上描述可以理解卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)、第一分類器和回歸器的訓(xùn)練過程,不再贅述。
在經(jīng)過訓(xùn)練之后,可以得到卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)、第一分類器和回歸器的各種參數(shù)。當(dāng)在實(shí)際應(yīng)用中進(jìn)行對(duì)象追蹤時(shí),這些參數(shù)是已知的,可以直接將訓(xùn)練好的網(wǎng)絡(luò)模型用于圖像的處理。
根據(jù)本發(fā)明實(shí)施例,上述步驟S230可以包括:如果視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將特定對(duì)象和一個(gè)或多個(gè)參照對(duì)象關(guān)聯(lián)在一起,其中,參照?qǐng)D像與特定圖像相對(duì)應(yīng)。
特定圖像是視頻中的某一幀圖像,其與一個(gè)或多個(gè)參照?qǐng)D像相對(duì)應(yīng)。例如,假設(shè)針對(duì)視頻中的每幀圖像,可以預(yù)測(cè)出對(duì)象在該圖像之前的兩幀先前圖像和在該圖像之后的兩幀隨后圖像中的位置信息,則對(duì)于第t幀圖像來說,其對(duì)應(yīng)的參照?qǐng)D像是第t-2幀、第t-1幀、第t+1幀和第t+2幀這四個(gè)圖像,而對(duì)于第t+1幀圖像來說,其對(duì)應(yīng)的參照?qǐng)D像是第t-1幀、第t幀、第t+2幀和第t+3幀這四個(gè)圖像,以此類推。
第一預(yù)設(shè)條件可以根據(jù)需要而設(shè)定,本發(fā)明不對(duì)此進(jìn)行限制。例如,如果第t幀圖像中包含的對(duì)象A在第t幀圖像中的實(shí)際檢測(cè)坐標(biāo)、第t-2幀圖像中包含的對(duì)象B在第t幀圖像中的預(yù)測(cè)坐標(biāo)、第t-1幀圖像中包含的對(duì)象C在第t幀圖像中的預(yù)測(cè)坐標(biāo)、第t+1幀圖像中包含的對(duì)象D在第t幀圖像中的預(yù)測(cè)坐標(biāo)以及第t-2幀圖像中包含的對(duì)象E在第t幀圖像中的預(yù)測(cè)坐標(biāo)都比較相近,這些坐標(biāo)都落入一個(gè)比較小的圖像區(qū)域內(nèi),則可以認(rèn)為對(duì)象A、B、C、D和E是相同對(duì)象,并且可以將它們關(guān)聯(lián)在一起。
當(dāng)然,以上根據(jù)坐標(biāo)之間的距離判斷對(duì)象是否是相同對(duì)象的方式僅是示例而非限制,還可以采用其他方式基于對(duì)象的位置信息判斷對(duì)象是否是相同對(duì)象。例如,可以測(cè)定一些特征函數(shù),將對(duì)象的檢測(cè)坐標(biāo)和預(yù)測(cè)坐標(biāo)代入特征函數(shù)來確定對(duì)象是否是相同對(duì)象。此外,在獲知對(duì)象在連續(xù)多幀圖像中的位置的情況下,可以計(jì)算對(duì)象的運(yùn)動(dòng)速度,并且在判斷坐標(biāo)之間的距離是否滿足預(yù)設(shè)條件時(shí)考慮對(duì)象的運(yùn)動(dòng)速度。
根據(jù)本發(fā)明實(shí)施例,上述步驟S230可以包括:如果視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在視頻中的特定圖像中的預(yù)測(cè)位置信息滿足第二預(yù)設(shè)條件,并且在特定圖像中,在根據(jù)一個(gè)或多個(gè)參照對(duì)象在特定圖像中的預(yù)測(cè)位置信息所確定的預(yù)測(cè)位置處未檢測(cè)到與一個(gè)或多個(gè)參照對(duì)象相對(duì)應(yīng)的期望對(duì)象,則基于一個(gè)或多個(gè)參照對(duì)象在特定圖像中的預(yù)測(cè)位置信息確定與特定圖像相關(guān)的預(yù)測(cè)對(duì)象,并且將一個(gè)或多個(gè)參照對(duì)象與預(yù)測(cè)對(duì)象關(guān)聯(lián)在一起,其中,參照?qǐng)D像與特定圖像相對(duì)應(yīng)。
第二預(yù)設(shè)條件可以根據(jù)需要而設(shè)定,本發(fā)明不對(duì)此進(jìn)行限制。
在某些圖像中,對(duì)象可能會(huì)被其他對(duì)象或某些不屬于追蹤對(duì)象的物體遮擋,導(dǎo)致從這些圖像中無法檢測(cè)到該對(duì)象。在這種情況下,可以利用在被遮擋的圖像之前或之后的圖像的信息來預(yù)測(cè)對(duì)象原本應(yīng)當(dāng)在被遮擋的圖像中出現(xiàn)的位置。例如,假設(shè)行人甲在第t幀圖像中被建筑物遮擋,但是在第t-1幀、第t+1幀和第t+2幀圖像中出現(xiàn),行人甲在這三幀圖像中分別被識(shí)別為對(duì)象O、對(duì)象P、對(duì)象Q。通過計(jì)算,發(fā)現(xiàn)對(duì)象O在第t幀圖像中的預(yù)測(cè)坐標(biāo)、對(duì)象P在第t幀圖像中的預(yù)測(cè)坐標(biāo)和對(duì)象Q在第t幀圖像中的預(yù)測(cè)坐標(biāo)都比較相近,這些坐標(biāo)都落入一個(gè)比較小的圖像區(qū)域內(nèi),因此可以假定對(duì)象O、P和Q是相同對(duì)象。通過對(duì)象O、P和Q在第t幀圖像中的預(yù)測(cè)坐標(biāo)可以確定一個(gè)大致的范圍,即本文所述的預(yù)測(cè)位置,視為行人甲原本應(yīng)當(dāng)出現(xiàn)的位置。然而,由于行人甲在第t幀圖像中被建筑物遮擋,導(dǎo)致預(yù)測(cè)位置處未檢測(cè)到任何對(duì)象。在這種情況下,可以假設(shè)在預(yù)測(cè)位置處存在一個(gè)預(yù)測(cè)對(duì)象,例如對(duì)象M。然后,可以將對(duì)象O、P、Q和M關(guān)聯(lián)在一起。這樣,可以根據(jù)第t-1幀、第t+1幀和第t+2幀圖像的信息推測(cè)出行人甲在第t幀圖像中的位置。
上面描述的示例中行人甲是被建筑物遮擋,因此在第t幀圖像的預(yù)測(cè)位置處未檢測(cè)到任何對(duì)象。在另外的示例中,行人甲可能被其他對(duì)象(例如行人乙)遮擋。這樣,在預(yù)測(cè)位置處可以檢測(cè)到對(duì)象,然而檢測(cè)到的對(duì)象并非與對(duì)象O、P和Q相對(duì)應(yīng)的期望對(duì)象行人甲。在這種情況下,仍然可以利用對(duì)象O、P和Q在第t幀圖像中的預(yù)測(cè)位置信息來預(yù)測(cè)行人甲在第t幀圖像中的位置。當(dāng)然,確定第t幀圖像的預(yù)測(cè)位置處的對(duì)象是否為期望對(duì)象的方式可以根據(jù)需要設(shè)定,例如可以基于對(duì)象的輪廓等來判斷。
對(duì)于對(duì)象被漏檢的情況,同樣可以采用本實(shí)施例的方式處理。也就是說,基于在當(dāng)前圖像之前和/或之后的圖像的信息可以預(yù)測(cè)被漏檢的對(duì)象在當(dāng)前圖像中的位置。因此,通過以上方式可以有效處理對(duì)象被遮擋或被漏檢的問題,從而可以提高對(duì)象追蹤精度。
根據(jù)本發(fā)明實(shí)施例,上述步驟S230可以包括:如果視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與視頻中的所有參照?qǐng)D像中包含的所有參照對(duì)象在特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定特定對(duì)象是不可信對(duì)象,其中,參照?qǐng)D像與特定圖像相對(duì)應(yīng)。
第三預(yù)設(shè)條件可以根據(jù)需要而設(shè)定,本發(fā)明不對(duì)此進(jìn)行限制。
例如,如果從第t幀圖像中檢測(cè)出對(duì)象K,然而根據(jù)在第t幀圖像之前和/或之后的若干幀參照?qǐng)D像的信息,發(fā)現(xiàn)這些參照?qǐng)D像中包含的參照對(duì)象在第t幀圖像中的預(yù)測(cè)坐標(biāo)均與對(duì)象K的坐標(biāo)不相符,相距較遠(yuǎn),也就是說,對(duì)象K所在的位置處原本不應(yīng)當(dāng)出現(xiàn)對(duì)象。在這種情況下,可以認(rèn)為對(duì)象K是不可信對(duì)象。通過這種方式,可以減少由于誤檢而導(dǎo)致的對(duì)象追蹤誤差。
總的來說,在本發(fā)明實(shí)施例中,使用基于反饋式神經(jīng)網(wǎng)絡(luò)的對(duì)象追蹤方法,結(jié)合多幀圖像的信息,可以在檢測(cè)對(duì)象的同時(shí)給出追蹤信息,從而能夠同時(shí)減少檢測(cè)和追蹤所帶來的誤差。
根據(jù)本發(fā)明另一方面,提供一種對(duì)象追蹤裝置。圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)象追蹤裝置600的示意性框圖。
如圖6所示,根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤裝置600包括視頻獲取模塊610、檢測(cè)預(yù)測(cè)模塊620和追蹤模塊630。
視頻獲取模塊610用于獲取視頻。視頻獲取模塊610可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn)。
檢測(cè)預(yù)測(cè)模塊620用于針對(duì)視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。檢測(cè)預(yù)測(cè)模塊620可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn)。
追蹤模塊630用于根據(jù)視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象。追蹤模塊630可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn)。
根據(jù)本發(fā)明實(shí)施例,檢測(cè)預(yù)測(cè)模塊620可以包括第一特征獲得子模塊、第二特征獲得子模塊和檢測(cè)預(yù)測(cè)子模塊。
第一特征獲得子模塊用于將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征。第二特征獲得子模塊用于將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān),并且其中所述第二特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。檢測(cè)預(yù)測(cè)子模塊用于基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。
根據(jù)本發(fā)明實(shí)施例,檢測(cè)預(yù)測(cè)子模塊可以包括初始區(qū)域提取單元、可能性確定單元、選定區(qū)域獲得單元和位置信息獲得單元。初始區(qū)域提取單元用于針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于每個(gè)由該圖像的第二特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn),提取與該圖像點(diǎn)相關(guān)的一個(gè)或多個(gè)初始區(qū)域??赡苄源_定單元用于針對(duì)所述至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性。選定區(qū)域獲得單元用于針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域,其中,所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該選定區(qū)域相對(duì)應(yīng)的元素而定。位置信息獲得單元用于針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入回歸器,以獲得該選定區(qū)域中包含的對(duì)象在該圖像中的檢測(cè)位置信息、在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測(cè)位置信息、以及在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測(cè)位置信息。
根據(jù)本發(fā)明實(shí)施例,所述對(duì)象追蹤裝置600可以進(jìn)一步包括目標(biāo)對(duì)象確定模塊(未示出),用于針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入第二分類器,以確定該選定區(qū)域中包含的對(duì)象是否是目標(biāo)對(duì)象。
根據(jù)本發(fā)明實(shí)施例,所述可能性確定單元可以包括輸入子單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,將所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征中的頻道向量輸入所述第一分類器,以確定該初始區(qū)域中包含對(duì)象的可能性,其中,所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該初始區(qū)域相對(duì)應(yīng)的元素而定。
根據(jù)本發(fā)明實(shí)施例,所述選定區(qū)域獲得單元可以包括區(qū)域獲得子單元,用于針對(duì)所述至少部分幀的圖像中的任一圖像,當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為一個(gè)時(shí),將該選擇的初始區(qū)域確定為選定區(qū)域;當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為多個(gè)時(shí),針對(duì)該圖像合并所述可能性最高的多個(gè)初始區(qū)域中的重疊部分超過預(yù)定標(biāo)準(zhǔn)的兩個(gè)或多于兩個(gè)初始區(qū)域,以獲得所述一個(gè)或多個(gè)選定區(qū)域。
根據(jù)本發(fā)明實(shí)施例,所述反饋式神經(jīng)網(wǎng)絡(luò)可以包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
根據(jù)本發(fā)明實(shí)施例,所述對(duì)象追蹤裝置600可以進(jìn)一步包括訓(xùn)練模塊(未示出),用于利用多個(gè)樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)、所述第一分類器和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對(duì)象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
根據(jù)本發(fā)明實(shí)施例,所述追蹤模塊630可以包括第一關(guān)聯(lián)子模塊,用于如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對(duì)象和所述一個(gè)或多個(gè)參照對(duì)象關(guān)聯(lián)在一起,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
根據(jù)本發(fā)明實(shí)施例,所述追蹤模塊630可以包括第二關(guān)聯(lián)子模塊,用于如果所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述視頻中的特定圖像中的預(yù)測(cè)位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息所確定的預(yù)測(cè)位置處未檢測(cè)到與所述一個(gè)或多個(gè)參照對(duì)象相對(duì)應(yīng)的期望對(duì)象,則基于所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息確定與所述特定圖像相關(guān)的預(yù)測(cè)對(duì)象,并且將所述一個(gè)或多個(gè)參照對(duì)象與所述預(yù)測(cè)對(duì)象關(guān)聯(lián)在一起,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
根據(jù)本發(fā)明實(shí)施例,所述追蹤模塊630可以包括不可信確定子模塊,用于如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的所有參照?qǐng)D像中包含的所有參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對(duì)象是不可信對(duì)象,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)象追蹤系統(tǒng)700的示意性框圖。對(duì)象追蹤系統(tǒng)700包括視頻采集裝置710、存儲(chǔ)裝置720、以及處理器730。
視頻采集裝置710用于采集包含對(duì)象的視頻。視頻采集裝置710是可選的,對(duì)象追蹤系統(tǒng)700可以不包括視頻采集裝置710。
所述存儲(chǔ)裝置720存儲(chǔ)用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法中的相應(yīng)步驟的程序代碼。
所述處理器730用于運(yùn)行所述存儲(chǔ)裝置720中存儲(chǔ)的程序代碼,以執(zhí)行根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法的相應(yīng)步驟,并且用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤裝置中的視頻獲取模塊610、檢測(cè)預(yù)測(cè)模塊620和追蹤模塊630。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700執(zhí)行以下步驟:獲取視頻;針對(duì)所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息;以及根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的針對(duì)所述視頻的至少部分幀的圖像中的每幀圖像利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息的步驟包括:將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征;將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān),并且其中所述第二特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;以及基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息的步驟包括:針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于每個(gè)由該圖像的第二特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn),提取與該圖像點(diǎn)相關(guān)的一個(gè)或多個(gè)初始區(qū)域;針對(duì)所述至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性;針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域,其中,所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該選定區(qū)域相對(duì)應(yīng)的元素而定;以及針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入回歸器,以獲得該選定區(qū)域中包含的對(duì)象在該圖像中的檢測(cè)位置信息、在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測(cè)位置信息、以及在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測(cè)位置信息。
在一個(gè)實(shí)施例中,在所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域的步驟之后,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700進(jìn)一步執(zhí)行:針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入第二分類器,以確定該選定區(qū)域中包含的對(duì)象是否是目標(biāo)對(duì)象。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的針對(duì)所述至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性的步驟包括:針對(duì)所述至少部分幀的圖像中的任一圖像,將所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征中的頻道向量輸入所述第一分類器,以確定該初始區(qū)域中包含對(duì)象的可能性,其中,所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該初始區(qū)域相對(duì)應(yīng)的元素而定。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域的步驟包括:針對(duì)所述至少部分幀的圖像中的任一圖像,當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為一個(gè)時(shí),將該選擇的初始區(qū)域確定為選定區(qū)域;當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為多個(gè)時(shí),針對(duì)該圖像合并所述可能性最高的多個(gè)初始區(qū)域中的重疊部分超過預(yù)定標(biāo)準(zhǔn)的兩個(gè)或多于兩個(gè)初始區(qū)域,以獲得所述一個(gè)或多個(gè)選定區(qū)域。
在一個(gè)實(shí)施例中,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700進(jìn)一步執(zhí)行:利用多個(gè)樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)、所述第一分類器和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對(duì)象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象的步驟包括:如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對(duì)象和所述一個(gè)或多個(gè)參照對(duì)象關(guān)聯(lián)在一起,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象的步驟包括:如果所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述視頻中的特定圖像中的預(yù)測(cè)位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息所確定的預(yù)測(cè)位置處未檢測(cè)到與所述一個(gè)或多個(gè)參照對(duì)象相對(duì)應(yīng)的期望對(duì)象,則基于所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息確定與所述特定圖像相關(guān)的預(yù)測(cè)對(duì)象,并且將所述一個(gè)或多個(gè)參照對(duì)象與所述預(yù)測(cè)對(duì)象關(guān)聯(lián)在一起,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對(duì)象追蹤系統(tǒng)700所執(zhí)行的根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象的步驟包括:如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的所有參照?qǐng)D像中包含的所有參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對(duì)象是不可信對(duì)象,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
此外,根據(jù)本發(fā)明實(shí)施例,還提供了一種存儲(chǔ)介質(zhì),在所述存儲(chǔ)介質(zhì)上存儲(chǔ)了程序指令,在所述程序指令被計(jì)算機(jī)或處理器運(yùn)行時(shí)用于執(zhí)行本發(fā)明實(shí)施例的對(duì)象追蹤方法的相應(yīng)步驟,并且用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤裝置中的相應(yīng)模塊。所述存儲(chǔ)介質(zhì)例如可以包括智能電話的存儲(chǔ)卡、平板電腦的存儲(chǔ)部件、個(gè)人計(jì)算機(jī)的硬盤、只讀存儲(chǔ)器(ROM)、可擦除可編程只讀存儲(chǔ)器(EPROM)、便攜式緊致盤只讀存儲(chǔ)器(CD-ROM)、USB存儲(chǔ)器、或者上述存儲(chǔ)介質(zhì)的任意組合。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)或處理器運(yùn)行時(shí)可以使得計(jì)算機(jī)或處理器實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤裝置的各個(gè)功能模塊,并且/或者可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)執(zhí)行以下步驟:獲取視頻;針對(duì)所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息;以及根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的針對(duì)所述視頻的至少部分幀的圖像中的每幀圖像利用反饋式神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息、并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息的步驟包括:將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征;將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān),并且其中所述第二特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;以及基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的基于所述至少部分幀的圖像中的、任一圖像的第二特征的橫向坐標(biāo)向量和縱向坐標(biāo)向量確定在該圖像中包含的對(duì)象在該圖像中的檢測(cè)位置信息,并預(yù)測(cè)該圖像中包含的對(duì)象在所述至少部分幀的圖像中的其他圖像中的預(yù)測(cè)位置信息的步驟包括:針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于每個(gè)由該圖像的第二特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn),提取與該圖像點(diǎn)相關(guān)的一個(gè)或多個(gè)初始區(qū)域;針對(duì)所述至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性;針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域,其中,所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該選定區(qū)域相對(duì)應(yīng)的元素而定;以及針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入回歸器,以獲得該選定區(qū)域中包含的對(duì)象在該圖像中的檢測(cè)位置信息、在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測(cè)位置信息、以及在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測(cè)位置信息。
在一個(gè)實(shí)施例中,在所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域的步驟之后,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)進(jìn)一步執(zhí)行:針對(duì)所述至少部分幀的圖像中的任一圖像,對(duì)于所述一個(gè)或多個(gè)選定區(qū)域中的每一個(gè),將該選定區(qū)域的特征輸入第二分類器,以確定該選定區(qū)域中包含的對(duì)象是否是目標(biāo)對(duì)象。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的針對(duì)所述至少部分幀的圖像中的任一圖像,利用第一分類器確定針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)包含對(duì)象的可能性的步驟包括:針對(duì)所述至少部分幀的圖像中的任一圖像,將所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征中的頻道向量輸入所述第一分類器,以確定該初始區(qū)域中包含對(duì)象的可能性,其中,所述針對(duì)該圖像提取的所有初始區(qū)域中的每一個(gè)的特征由該圖像的第二特征中的與該初始區(qū)域相對(duì)應(yīng)的元素而定。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的針對(duì)所述至少部分幀的圖像中的任一圖像,從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇可能性最高的一個(gè)或多個(gè)初始區(qū)域以獲得一個(gè)或多個(gè)選定區(qū)域的步驟包括:針對(duì)所述至少部分幀的圖像中的任一圖像,當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為一個(gè)時(shí),將該選擇的初始區(qū)域確定為選定區(qū)域;當(dāng)從所述針對(duì)該圖像提取的所有初始區(qū)域中選擇的可能性最高的初始區(qū)域的個(gè)數(shù)為多個(gè)時(shí),針對(duì)該圖像合并所述可能性最高的多個(gè)初始區(qū)域中的重疊部分超過預(yù)定標(biāo)準(zhǔn)的兩個(gè)或多于兩個(gè)初始區(qū)域,以獲得所述一個(gè)或多個(gè)選定區(qū)域。
在一個(gè)實(shí)施例中,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)進(jìn)一步執(zhí)行:利用多個(gè)樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)、所述第一分類器和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對(duì)象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象的步驟包括:如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對(duì)象和所述一個(gè)或多個(gè)參照對(duì)象關(guān)聯(lián)在一起,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象的步驟包括:如果所述視頻中的一個(gè)或多個(gè)參照?qǐng)D像中包含的一個(gè)或多個(gè)參照對(duì)象在所述視頻中的特定圖像中的預(yù)測(cè)位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息所確定的預(yù)測(cè)位置處未檢測(cè)到與所述一個(gè)或多個(gè)參照對(duì)象相對(duì)應(yīng)的期望對(duì)象,則基于所述一個(gè)或多個(gè)參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息確定與所述特定圖像相關(guān)的預(yù)測(cè)對(duì)象,并且將所述一個(gè)或多個(gè)參照對(duì)象與所述預(yù)測(cè)對(duì)象關(guān)聯(lián)在一起,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的根據(jù)所述視頻中包含的對(duì)象的檢測(cè)位置信息和預(yù)測(cè)位置信息追蹤對(duì)象的步驟包括:如果所述視頻中的特定圖像中包含的特定對(duì)象的檢測(cè)位置信息與所述視頻中的所有參照?qǐng)D像中包含的所有參照對(duì)象在所述特定圖像中的預(yù)測(cè)位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對(duì)象是不可信對(duì)象,其中,所述參照?qǐng)D像與所述特定圖像相對(duì)應(yīng)。
根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤系統(tǒng)中的各模塊可以通過根據(jù)本發(fā)明實(shí)施例的實(shí)施對(duì)象追蹤的電子設(shè)備的處理器運(yùn)行在存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序指令來實(shí)現(xiàn),或者可以在根據(jù)本發(fā)明實(shí)施例的計(jì)算機(jī)程序產(chǎn)品的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)的計(jì)算機(jī)指令被計(jì)算機(jī)運(yùn)行時(shí)實(shí)現(xiàn)。
根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤方法及裝置,通過基于當(dāng)前圖像預(yù)測(cè)對(duì)象在其他圖像中的位置信息及位置信息的比較來實(shí)現(xiàn)對(duì)象追蹤,這種對(duì)象追蹤方式非常簡(jiǎn)單,計(jì)算量小,并且可以降低對(duì)象追蹤誤差。
盡管這里已經(jīng)參考附圖描述了示例實(shí)施例,應(yīng)理解上述示例實(shí)施例僅僅是示例性的,并且不意圖將本發(fā)明的范圍限制于此。本領(lǐng)域普通技術(shù)人員可以在其中進(jìn)行各種改變和修改,而不偏離本發(fā)明的范圍和精神。所有這些改變和修改意在被包括在所附權(quán)利要求所要求的本發(fā)明的范圍之內(nèi)。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的設(shè)備實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)設(shè)備,或一些特征可以忽略,或不執(zhí)行。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本發(fā)明并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該本發(fā)明的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如相應(yīng)的權(quán)利要求書所反映的那樣,其發(fā)明點(diǎn)在于可以用少于某個(gè)公開的單個(gè)實(shí)施例的所有特征的特征來解決相應(yīng)的技術(shù)問題。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域的技術(shù)人員可以理解,除了特征之間相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對(duì)象追蹤裝置中的一些模塊的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
以上所述,僅為本發(fā)明的具體實(shí)施方式或?qū)唧w實(shí)施方式的說明,本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。