欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法與流程

文檔序號:12035138閱讀:238來源:國知局
一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法與流程

本發(fā)明涉及動作檢測領(lǐng)域,尤其是涉及了一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法。



背景技術(shù):

隨著影視、網(wǎng)絡(luò)等媒體的迅速普及和發(fā)展,視頻已成為信息的主要載體,且視頻數(shù)據(jù)的數(shù)量呈爆炸式增長,因此相關(guān)的視頻處理技術(shù)也正在發(fā)展中。針對視頻的動作檢測技術(shù)是當(dāng)前研究的重點(diǎn)之一,具有很高的研究價(jià)值和廣泛的應(yīng)用前景,比如,它可以用于自動售貨機(jī)、atm機(jī)、商場、車站等公共場合的智能監(jiān)控、人群中危險(xiǎn)姿勢的監(jiān)控、虛擬現(xiàn)實(shí)、人機(jī)交互、體育及娛樂運(yùn)動分析等,在工業(yè)、醫(yī)療、軍事和生活等也需要用到人體動作檢測裝置來進(jìn)行模擬訓(xùn)練。然而,現(xiàn)今的動作檢測方法計(jì)算成本高,定位動作時(shí)精確度不高,急需改進(jìn)以滿足使用需求。

本發(fā)明提出了一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,過濾背景或不完整的提案。本發(fā)明克服了長期建模的計(jì)算問題,實(shí)現(xiàn)了長視頻高效的端到端訓(xùn)練;能夠精確地定位時(shí)間邊界和定位動作,降低計(jì)算成本,從而允許對長期時(shí)間結(jié)構(gòu)進(jìn)行建模,進(jìn)一步提高檢測性能。



技術(shù)實(shí)現(xiàn)要素:

針對計(jì)算成本高等問題,本發(fā)明的目的在于提供一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,過濾背景或不完整的提案。

為解決上述問題,本發(fā)明提供一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法,其主要內(nèi)容包括:

(一)三級結(jié)構(gòu);

(二)結(jié)構(gòu)時(shí)間金字塔池;

(三)活動和完整性分類器;

(四)位置回歸和多任務(wù)損失函數(shù);

(五)降低計(jì)算成本。

其中,所述的結(jié)構(gòu)化分段網(wǎng)絡(luò),提出的結(jié)構(gòu)化分段網(wǎng)絡(luò)框架將輸入視頻和一組時(shí)間動作提案;它輸出一組與類別標(biāo)簽相關(guān)聯(lián)的預(yù)測活動實(shí)例和時(shí)間范圍(由起始點(diǎn)和終點(diǎn)界定);從輸入到輸出,需要三個(gè)關(guān)鍵步驟;首先,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后,分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,背景或不完整的其他提案將被過濾掉。

其中,所述的三級結(jié)構(gòu),在輸入級別,視頻可以表示為t片段序列,表示為這里,一個(gè)片段包含幾個(gè)連續(xù)的幀,其總體上由rgb圖像和光流棧組合表征;考慮一組給定的n個(gè)提議每個(gè)提案pi由起始時(shí)間si和結(jié)束時(shí)間ei組成;因此,pi的持續(xù)時(shí)間為di=ei-si;在s′i=si-di/2和e′i=ei+di/2的情況下,將每個(gè)提案pi增加到p′i=[s′i,e′i];增加的提案p′i將pi的跨度加倍,超過起始點(diǎn)和結(jié)束點(diǎn),分別為di/2;如果提案與完成的實(shí)例精確對齊,則增強(qiáng)的提案不僅將捕獲活動的固有過程,而且還將捕獲如何開始以及如何結(jié)束;按照三個(gè)階段的概念,將增強(qiáng)提案p′i劃分為三個(gè)連續(xù)的間隔:分別對應(yīng)于開始、進(jìn)程和結(jié)束階段。

其中,所述的結(jié)構(gòu)時(shí)間金字塔池,結(jié)構(gòu)化分段網(wǎng)絡(luò)框架通過時(shí)間金字塔池來為每個(gè)提案提供全局表示;具體來說,給定一個(gè)增加的提案p′i分為三個(gè)階段首先分別通過時(shí)間金字塔池合并計(jì)算逐級特征向量然后將它們連接成全局表示;具體來說,間隔[s,e]將覆蓋一系列片段,表示為{st|s≤t≤e};對于每個(gè)片段,可以獲得一個(gè)特征向量vt;

基于這些特征,構(gòu)建一個(gè)k級時(shí)間金字塔,每個(gè)級別將區(qū)間均勻分為bk部分;對于第k級的第i部分,其間隔是[ski,eki],可以得到一個(gè)匯集的特征:

這個(gè)階段的整體表現(xiàn)可以通過連接所有層面所有部分的匯集特征來獲得

其中,所述的活動和完整性分類器,活動分類器a將輸入提案分類為k+1類,即k活動類(標(biāo)簽為1,…,k)和附加“背景”類(標(biāo)簽為0);完整性分類器是一組二進(jìn)制分類器,每個(gè)分類器用于一個(gè)活動類;特別地,ck根據(jù)涵蓋所有三個(gè)階段的全局表示預(yù)測提案是否捕獲k類的完整活動實(shí)例;這樣,完整性不僅取決于提案本身,而且也取決于其周圍環(huán)境;

兩種類型的分類器都為線性分類器;給定提案pi,活動分類器將通過softmax層產(chǎn)生歸一化響應(yīng)的向量;從概率來看,它可以被認(rèn)為是條件分布p{ci|pi},其中ci是類標(biāo)簽;對于每個(gè)活動類k,相應(yīng)的完整性分類器ck將產(chǎn)生概率值,其可以被理解為條件概率p{bi|ci,pi},其中bi指示pi是否完整;當(dāng)ci≥1,p(ci,bi|pi)=p(ci|pi)·p{bi|ci,pi},兩個(gè)輸出一起形成聯(lián)合分配。

進(jìn)一步地,所述的定義統(tǒng)一的分類損失函數(shù),在兩種類型的分類器上聯(lián)合定義統(tǒng)一的分類損失函數(shù);通過提案pi及其標(biāo)簽ci:

這里,完整性項(xiàng)p{bi|ci,pi}僅在ci≥1時(shí)使用;這些分類器和結(jié)構(gòu)化時(shí)間金字塔集成到一個(gè)以端到端方式訓(xùn)練的單一網(wǎng)絡(luò)中。

其中,所述的位置回歸和多任務(wù)損失函數(shù),通過在全局特征中編碼的結(jié)構(gòu)化信息,不僅可以進(jìn)行分類預(yù)測,而且還可以通過位置回歸來優(yōu)化提案的時(shí)間間隔本身;設(shè)計(jì)一組位置回歸器每個(gè)都是一個(gè)活動類;對于積極的提案pi,它們使用最接近的實(shí)體實(shí)例作為目標(biāo)來回歸間隔中心μi和跨度φi(以對數(shù)標(biāo)度);對于分類器和位置回歸器,在訓(xùn)練樣本pi上定義了多任務(wù)損失函數(shù),如:

這里,使用平滑的l1損耗函數(shù)。

其中,所述的降低計(jì)算成本,包括訓(xùn)練稀疏抽樣和推論與重新計(jì)算。

進(jìn)一步地,所述的訓(xùn)練稀疏抽樣,給定一個(gè)增強(qiáng)的提案p′i,將它們均勻地分成l=9段,每個(gè)段隨機(jī)抽樣一個(gè)片段,對應(yīng)段上的每個(gè)池區(qū)執(zhí)行結(jié)構(gòu)化時(shí)間金字塔池,有效降低了計(jì)算成本,特別是長期結(jié)構(gòu)建模,可以通過大量長的提案實(shí)現(xiàn)對整個(gè)框架的端到端訓(xùn)練。

進(jìn)一步地,所述的推論與重新計(jì)算,在測試中,以6幀的固定間隔采樣視頻片段,并在其上構(gòu)建時(shí)間金字塔;時(shí)間金字塔的原始公式首先計(jì)算集合的特征,然后將分類器和回歸器應(yīng)用于頂部;對于每個(gè)視頻,將會產(chǎn)生數(shù)百個(gè)提案,并且這些提議可能會相互重疊;因此,在其中提取的特征在提案之間共享;

為了在計(jì)算中利用這種冗余,采用位置敏感池提高測試效率;分類器和回歸器都是線性的;因此,分類或回歸的關(guān)鍵步驟是將權(quán)重矩陣w與全局特征向量f相乘;f本身是多個(gè)函數(shù)的連接,每個(gè)函數(shù)都在一定的間隔內(nèi)合并;因此,計(jì)算可以寫成:

wf=∑jwjfj(4)

其中,j指向沿金字塔的不同區(qū)域,fj是通過平均匯總區(qū)域rj內(nèi)的所有片段特征獲得的;因此有:

表示在rj上的平均合并,這是一個(gè)線性運(yùn)算,因此可以與矩陣乘法交換;公式(5)表明線性響應(yīng),在分組之前可以計(jì)算分類器或回歸器;以這種方式,對于所有片段的每個(gè)視頻,重矩陣乘法可以執(zhí)行一次,對于每個(gè)提案,只需要對響應(yīng)值進(jìn)行合并;在提取網(wǎng)絡(luò)輸出后,通過重新排序矩陣乘法和匯總,平均每個(gè)視頻的推理時(shí)間從大約10秒縮短到小于0.5秒。

附圖說明

圖1是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的系統(tǒng)框架圖。

圖2是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的結(jié)構(gòu)化分段網(wǎng)絡(luò)。

具體實(shí)施方式

需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步詳細(xì)說明。

圖1是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的系統(tǒng)框架圖。主要包括三級結(jié)構(gòu),結(jié)構(gòu)時(shí)間金字塔池,活動和完整性分類器,位置回歸和多任務(wù)損失函數(shù),降低計(jì)算成本。

三級結(jié)構(gòu),在輸入級別,視頻可以表示為t片段序列,表示為這里,一個(gè)片段包含幾個(gè)連續(xù)的幀,其總體上由rgb圖像和光流棧組合表征;考慮一組給定的n個(gè)提議每個(gè)提案pi由起始時(shí)間si和結(jié)束時(shí)間ei組成;因此,pi的持續(xù)時(shí)間為di=ei-si;在s′i=si-di/2和e′i=ei+di/2的情況下,將每個(gè)提案pi增加到p′i=[s′i,e′i];增加的提案p′i將pi的跨度加倍,超過起始點(diǎn)和結(jié)束點(diǎn),分別為di/2;如果提案與完成的實(shí)例精確對齊,則增強(qiáng)的提案不僅將捕獲活動的固有過程,而且還將捕獲如何開始以及如何結(jié)束;按照三個(gè)階段的概念,將增強(qiáng)提案p′i劃分為三個(gè)連續(xù)的間隔:分別對應(yīng)于開始、進(jìn)程和結(jié)束階段。

結(jié)構(gòu)時(shí)間金字塔池,結(jié)構(gòu)化分段網(wǎng)絡(luò)框架通過時(shí)間金字塔池來為每個(gè)提案提供全局表示;具體來說,給定一個(gè)增加的提案p′i分為三個(gè)階段首先分別通過時(shí)間金字塔池合并計(jì)算逐級特征向量然后將它們連接成全局表示;具體來說,間隔[s,e]將覆蓋一系列片段,表示為{st|s≤t≤e};對于每個(gè)片段,可以獲得一個(gè)特征向量υt;

基于這些特征,構(gòu)建一個(gè)k級時(shí)間金字塔,每個(gè)級別將區(qū)間均勻分為bk部分;對于第k級的第i部分,其間隔是[ski,eki],可以得到一個(gè)匯集的特征:

這個(gè)階段的整體表現(xiàn)可以通過連接所有層面所有部分的匯集特征來獲得

活動和完整性分類器,活動分類器a將輸入提案分類為k+1類,即k活動類(標(biāo)簽為1,…,k)和附加“背景”類(標(biāo)簽為0);完整性分類器是一組二進(jìn)制分類器,每個(gè)分類器用于一個(gè)活動類;特別地,ck根據(jù)涵蓋所有三個(gè)階段的全局表示預(yù)測提案是否捕獲k類的完整活動實(shí)例;這樣,完整性不僅取決于提案本身,而且也取決于其周圍環(huán)境;

兩種類型的分類器都為線性分類器;給定提案pi,活動分類器將通過softmax層產(chǎn)生歸一化響應(yīng)的向量;從概率來看,它可以被認(rèn)為是條件分布p{ci|pi},其中ci是類標(biāo)簽;對于每個(gè)活動類k,相應(yīng)的完整性分類器ck將產(chǎn)生概率值,其可以被理解為條件概率p{bi|ci,pi},其中bi指示pi是否完整;當(dāng)ci≥1,p(ci,bi|pi)=p(ci|pi)·p{bi|ci,pi},兩個(gè)輸出一起形成聯(lián)合分配。

定義統(tǒng)一的分類損失函數(shù),在兩種類型的分類器上聯(lián)合定義統(tǒng)一的分類損失函數(shù);通過提案pi及其標(biāo)簽ci:

這里,完整性項(xiàng)p{bi|ci,pi}僅在ci≥1時(shí)使用;這些分類器和結(jié)構(gòu)化時(shí)間金字塔集成到一個(gè)以端到端方式訓(xùn)練的單一網(wǎng)絡(luò)中。

位置回歸和多任務(wù)損失函數(shù),通過在全局特征中編碼的結(jié)構(gòu)化信息,不僅可以進(jìn)行分類預(yù)測,而且還可以通過位置回歸來優(yōu)化提案的時(shí)間間隔本身;設(shè)計(jì)一組位置回歸器每個(gè)都是一個(gè)活動類;對于積極的提案pi,它們使用最接近的實(shí)體實(shí)例作為目標(biāo)來回歸間隔中心μi和跨度φi(以對數(shù)標(biāo)度);對于分類器和位置回歸器,在訓(xùn)練樣本pi上定義了多任務(wù)損失函數(shù),如:

這里,使用平滑的l1損耗函數(shù)。

降低計(jì)算成本,包括訓(xùn)練稀疏抽樣和推論與重新計(jì)算。

訓(xùn)練稀疏抽樣,給定一個(gè)增強(qiáng)的提案p′i,將它們均勻地分成l=9段,每個(gè)段隨機(jī)抽樣一個(gè)片段,對應(yīng)段上的每個(gè)池區(qū)執(zhí)行結(jié)構(gòu)化時(shí)間金字塔池,有效降低了計(jì)算成本,特別是長期結(jié)構(gòu)建模,可以通過大量長的提案實(shí)現(xiàn)對整個(gè)框架的端到端訓(xùn)練。

推論與重新計(jì)算,在測試中,以6幀的固定間隔采樣視頻片段,并在其上構(gòu)建時(shí)間金字塔;時(shí)間金字塔的原始公式首先計(jì)算集合的特征,然后將分類器和回歸器應(yīng)用于頂部;對于每個(gè)視頻,將會產(chǎn)生數(shù)百個(gè)提案,并且這些提議可能會相互重疊;因此,在其中提取的特征在提案之間共享;

為了在計(jì)算中利用這種冗余,采用位置敏感池提高測試效率;分類器和回歸器都是線性的;因此,分類或回歸的關(guān)鍵步驟是將權(quán)重矩陣w與全局特征向量f相乘;f本身是多個(gè)函數(shù)的連接,每個(gè)函數(shù)都在一定的間隔內(nèi)合并;因此,計(jì)算可以寫成:

wf=∑jwjfj(4)

其中,j指向沿金字塔的不同區(qū)域,fj是通過平均匯總區(qū)域rj內(nèi)的所有片段特征獲得的;因此有:

表示在rj上的平均合并,這是一個(gè)線性運(yùn)算,因此可以與矩陣乘法交換;公式(5)表明線性響應(yīng),在分組之前可以計(jì)算分類器或回歸器;以這種方式,對于所有片段的每個(gè)視頻,重矩陣乘法可以執(zhí)行一次,對于每個(gè)提案,只需要對響應(yīng)值進(jìn)行合并;在提取網(wǎng)絡(luò)輸出后,通過重新排序矩陣乘法和匯總,平均每個(gè)視頻的推理時(shí)間從大約10秒縮短到小于0.5秒。

圖2是本發(fā)明一種基于結(jié)構(gòu)化分段網(wǎng)絡(luò)的時(shí)間動作檢測方法的結(jié)構(gòu)化分段網(wǎng)絡(luò)。提出的結(jié)構(gòu)化分段網(wǎng)絡(luò)框架將輸入視頻和一組時(shí)間動作提案;它輸出一組與類別標(biāo)簽相關(guān)聯(lián)的預(yù)測活動實(shí)例和時(shí)間范圍(由起始點(diǎn)和終點(diǎn)界定);從輸入到輸出,需要三個(gè)關(guān)鍵步驟;首先,框架產(chǎn)生一組不同持續(xù)時(shí)間的時(shí)間提案,每個(gè)提案都有一個(gè)開始和結(jié)束的時(shí)間;在每個(gè)提案之后,將構(gòu)建一個(gè)時(shí)間金字塔,從而產(chǎn)生提案的全局表示;最后,分別用于識別活動類別和評估完整性的兩個(gè)分類器,并將它們的預(yù)測組合起來,從而產(chǎn)生有類別標(biāo)簽的實(shí)例的一個(gè)子集,背景或不完整的其他提案將被過濾掉。

對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
白银市| 蕉岭县| 双牌县| 肃宁县| 瑞昌市| 土默特右旗| 松潘县| 米脂县| 米脂县| 通许县| 鹤庆县| 佛教| 萍乡市| 常山县| 新建县| 大余县| 扬州市| 会泽县| 花莲县| 桃园市| 舞阳县| 同德县| 日喀则市| 郸城县| 科尔| 塔河县| 乌拉特前旗| 兰西县| 于都县| 武宣县| 苏尼特右旗| 赤城县| 永清县| 张北县| 巴彦淖尔市| 金湖县| 顺义区| 常德市| 张家口市| 来凤县| 泰安市|