本發(fā)明涉及動作檢測領(lǐng)域,尤其是涉及了一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法。
背景技術(shù):
隨著影視、網(wǎng)絡(luò)等媒體的迅速普及和發(fā)展,視頻已成為信息的主要載體,且視頻數(shù)據(jù)的數(shù)量呈爆炸式增長,因此相關(guān)的視頻處理技術(shù)也正在發(fā)展中。針對視頻的動作檢測技術(shù)是當(dāng)前研究的重點(diǎn)之一,具有很高的研究價(jià)值和廣泛的應(yīng)用前景,比如,它可以用于自動售貨機(jī)、atm機(jī)、商場、車站等公共場合的智能監(jiān)控、人群中危險(xiǎn)姿勢的監(jiān)控、虛擬現(xiàn)實(shí)、人機(jī)交互、體育及娛樂運(yùn)動分析等,在工業(yè)、醫(yī)療、軍事和生活等也需要用到人體動作檢測裝置來進(jìn)行模擬訓(xùn)練。然而,現(xiàn)今的動作檢測方法計(jì)算成本高,定位動作時(shí)精確度不高,急需改進(jìn)以滿足使用需求。
本發(fā)明提出了一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,過濾背景或不完整的提案。本發(fā)明克服了長期建模的計(jì)算問題,實(shí)現(xiàn)了長視頻高效的端到端訓(xùn)練;能夠精確地定位時(shí)間邊界和定位動作,降低計(jì)算成本,從而允許對長期時(shí)間結(jié)構(gòu)進(jìn)行建模,進(jìn)一步提高檢測性能。
技術(shù)實(shí)現(xiàn)要素:
針對計(jì)算成本高等問題,本發(fā)明的目的在于提供一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,過濾背景或不完整的提案。
為解決上述問題,本發(fā)明提供一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法,其主要內(nèi)容包括:
(一)三級結(jié)構(gòu);
(二)結(jié)構(gòu)時(shí)間金字塔池;
(三)活動和完整性分類器;
(四)位置回歸和多任務(wù)損失函數(shù);
(五)降低計(jì)算成本。
其中,所述的結(jié)構(gòu)化分段網(wǎng)絡(luò),提出的結(jié)構(gòu)化分段網(wǎng)絡(luò)框架將輸入視頻和一組時(shí)間動作提案;它輸出一組與類別標(biāo)簽相關(guān)聯(lián)的預(yù)測活動實(shí)例和時(shí)間范圍(由起始點(diǎn)和終點(diǎn)界定);從輸入到輸出,需要三個(gè)關(guān)鍵步驟;首先,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后,分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,背景或不完整的其他提案將被過濾掉。
其中,所述的三級結(jié)構(gòu),在輸入級別,視頻可以表示為t片段序列,表示為
其中,所述的結(jié)構(gòu)時(shí)間金字塔池,結(jié)構(gòu)化分段網(wǎng)絡(luò)框架通過時(shí)間金字塔池來為每個(gè)提案提供全局表示;具體來說,給定一個(gè)增加的提案p′i分為三個(gè)階段
基于這些特征,構(gòu)建一個(gè)k級時(shí)間金字塔,每個(gè)級別將區(qū)間均勻分為bk部分;對于第k級的第i部分,其間隔是[ski,eki],可以得到一個(gè)匯集的特征:
這個(gè)階段的整體表現(xiàn)可以通過連接所有層面所有部分的匯集特征來獲得
其中,所述的活動和完整性分類器,活動分類器a將輸入提案分類為k+1類,即k活動類(標(biāo)簽為1,…,k)和附加“背景”類(標(biāo)簽為0);完整性分類器
兩種類型的分類器都為線性分類器;給定提案pi,活動分類器將通過softmax層產(chǎn)生歸一化響應(yīng)的向量;從概率來看,它可以被認(rèn)為是條件分布p{ci|pi},其中ci是類標(biāo)簽;對于每個(gè)活動類k,相應(yīng)的完整性分類器ck將產(chǎn)生概率值,其可以被理解為條件概率p{bi|ci,pi},其中bi指示pi是否完整;當(dāng)ci≥1,p(ci,bi|pi)=p(ci|pi)·p{bi|ci,pi},兩個(gè)輸出一起形成聯(lián)合分配。
進(jìn)一步地,所述的定義統(tǒng)一的分類損失函數(shù),在兩種類型的分類器上聯(lián)合定義統(tǒng)一的分類損失函數(shù);通過提案pi及其標(biāo)簽ci:
這里,完整性項(xiàng)p{bi|ci,pi}僅在ci≥1時(shí)使用;這些分類器和結(jié)構(gòu)化時(shí)間金字塔集成到一個(gè)以端到端方式訓(xùn)練的單一網(wǎng)絡(luò)中。
其中,所述的位置回歸和多任務(wù)損失函數(shù),通過在全局特征中編碼的結(jié)構(gòu)化信息,不僅可以進(jìn)行分類預(yù)測,而且還可以通過位置回歸來優(yōu)化提案的時(shí)間間隔本身;設(shè)計(jì)一組位置回歸器
這里,
其中,所述的降低計(jì)算成本,包括訓(xùn)練稀疏抽樣和推論與重新計(jì)算。
進(jìn)一步地,所述的訓(xùn)練稀疏抽樣,給定一個(gè)增強(qiáng)的提案p′i,將它們均勻地分成l=9段,每個(gè)段隨機(jī)抽樣一個(gè)片段,對應(yīng)段上的每個(gè)池區(qū)執(zhí)行結(jié)構(gòu)化時(shí)間金字塔池,有效降低了計(jì)算成本,特別是長期結(jié)構(gòu)建模,可以通過大量長的提案實(shí)現(xiàn)對整個(gè)框架的端到端訓(xùn)練。
進(jìn)一步地,所述的推論與重新計(jì)算,在測試中,以6幀的固定間隔采樣視頻片段,并在其上構(gòu)建時(shí)間金字塔;時(shí)間金字塔的原始公式首先計(jì)算集合的特征,然后將分類器和回歸器應(yīng)用于頂部;對于每個(gè)視頻,將會產(chǎn)生數(shù)百個(gè)提案,并且這些提議可能會相互重疊;因此,在其中提取的特征在提案之間共享;
為了在計(jì)算中利用這種冗余,采用位置敏感池提高測試效率;分類器和回歸器都是線性的;因此,分類或回歸的關(guān)鍵步驟是將權(quán)重矩陣w與全局特征向量f相乘;f本身是多個(gè)函數(shù)的連接,每個(gè)函數(shù)都在一定的間隔內(nèi)合并;因此,計(jì)算可以寫成:
wf=∑jwjfj(4)
其中,j指向沿金字塔的不同區(qū)域,fj是通過平均匯總區(qū)域rj內(nèi)的所有片段特征獲得的;因此有:
附圖說明
圖1是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的系統(tǒng)框架圖。
圖2是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的結(jié)構(gòu)化分段網(wǎng)絡(luò)。
具體實(shí)施方式
需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步詳細(xì)說明。
圖1是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的系統(tǒng)框架圖。主要包括三級結(jié)構(gòu),結(jié)構(gòu)時(shí)間金字塔池,活動和完整性分類器,位置回歸和多任務(wù)損失函數(shù),降低計(jì)算成本。
三級結(jié)構(gòu),在輸入級別,視頻可以表示為t片段序列,表示為
結(jié)構(gòu)時(shí)間金字塔池,結(jié)構(gòu)化分段網(wǎng)絡(luò)框架通過時(shí)間金字塔池來為每個(gè)提案提供全局表示;具體來說,給定一個(gè)增加的提案p′i分為三個(gè)階段
基于這些特征,構(gòu)建一個(gè)k級時(shí)間金字塔,每個(gè)級別將區(qū)間均勻分為bk部分;對于第k級的第i部分,其間隔是[ski,eki],可以得到一個(gè)匯集的特征:
這個(gè)階段的整體表現(xiàn)可以通過連接所有層面所有部分的匯集特征來獲得
活動和完整性分類器,活動分類器a將輸入提案分類為k+1類,即k活動類(標(biāo)簽為1,…,k)和附加“背景”類(標(biāo)簽為0);完整性分類器
兩種類型的分類器都為線性分類器;給定提案pi,活動分類器將通過softmax層產(chǎn)生歸一化響應(yīng)的向量;從概率來看,它可以被認(rèn)為是條件分布p{ci|pi},其中ci是類標(biāo)簽;對于每個(gè)活動類k,相應(yīng)的完整性分類器ck將產(chǎn)生概率值,其可以被理解為條件概率p{bi|ci,pi},其中bi指示pi是否完整;當(dāng)ci≥1,p(ci,bi|pi)=p(ci|pi)·p{bi|ci,pi},兩個(gè)輸出一起形成聯(lián)合分配。
定義統(tǒng)一的分類損失函數(shù),在兩種類型的分類器上聯(lián)合定義統(tǒng)一的分類損失函數(shù);通過提案pi及其標(biāo)簽ci:
這里,完整性項(xiàng)p{bi|ci,pi}僅在ci≥1時(shí)使用;這些分類器和結(jié)構(gòu)化時(shí)間金字塔集成到一個(gè)以端到端方式訓(xùn)練的單一網(wǎng)絡(luò)中。
位置回歸和多任務(wù)損失函數(shù),通過在全局特征中編碼的結(jié)構(gòu)化信息,不僅可以進(jìn)行分類預(yù)測,而且還可以通過位置回歸來優(yōu)化提案的時(shí)間間隔本身;設(shè)計(jì)一組位置回歸器
這里,
降低計(jì)算成本,包括訓(xùn)練稀疏抽樣和推論與重新計(jì)算。
訓(xùn)練稀疏抽樣,給定一個(gè)增強(qiáng)的提案p′i,將它們均勻地分成l=9段,每個(gè)段隨機(jī)抽樣一個(gè)片段,對應(yīng)段上的每個(gè)池區(qū)執(zhí)行結(jié)構(gòu)化時(shí)間金字塔池,有效降低了計(jì)算成本,特別是長期結(jié)構(gòu)建模,可以通過大量長的提案實(shí)現(xiàn)對整個(gè)框架的端到端訓(xùn)練。
推論與重新計(jì)算,在測試中,以6幀的固定間隔采樣視頻片段,并在其上構(gòu)建時(shí)間金字塔;時(shí)間金字塔的原始公式首先計(jì)算集合的特征,然后將分類器和回歸器應(yīng)用于頂部;對于每個(gè)視頻,將會產(chǎn)生數(shù)百個(gè)提案,并且這些提議可能會相互重疊;因此,在其中提取的特征在提案之間共享;
為了在計(jì)算中利用這種冗余,采用位置敏感池提高測試效率;分類器和回歸器都是線性的;因此,分類或回歸的關(guān)鍵步驟是將權(quán)重矩陣w與全局特征向量f相乘;f本身是多個(gè)函數(shù)的連接,每個(gè)函數(shù)都在一定的間隔內(nèi)合并;因此,計(jì)算可以寫成:
wf=∑jwjfj(4)
其中,j指向沿金字塔的不同區(qū)域,fj是通過平均匯總區(qū)域rj內(nèi)的所有片段特征獲得的;因此有:
圖2是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的結(jié)構(gòu)化分段網(wǎng)絡(luò)。提出的結(jié)構(gòu)化分段網(wǎng)絡(luò)框架將輸入視頻和一組時(shí)間動作提案;它輸出一組與類別標(biāo)簽相關(guān)聯(lián)的預(yù)測活動實(shí)例和時(shí)間范圍(由起始點(diǎn)和終點(diǎn)界定);從輸入到輸出,需要三個(gè)關(guān)鍵步驟;首先,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后,分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,背景或不完整的其他提案將被過濾掉。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。