本發(fā)明涉及視頻分析領(lǐng)域,尤其是涉及了一種基于局部特征描述符的視頻分析方法。
背景技術(shù):
隨著各種新興技術(shù)的發(fā)展,基于圖片和視頻的媒體信息快速增加,關(guān)于圖片和視頻處理的相關(guān)技術(shù)也在加速發(fā)展。其中,視頻分析技術(shù)越來越受到人們的關(guān)注,它可用于移動ar技術(shù)、汽車、監(jiān)控和媒體娛樂,在汽車的應(yīng)用上,視頻分析技術(shù)有強大物體檢測功能,能夠有效預(yù)警碰撞情況和提示當前道路流量。在監(jiān)控的應(yīng)用上,一旦目標在視頻場景中出現(xiàn)了違反預(yù)定義規(guī)則的行為,系統(tǒng)會自動發(fā)出報警,監(jiān)控工作站自動彈出報警信息并發(fā)出警示音,用戶可以通過點擊報警信息,減少了人力、物力和時間。在其他應(yīng)用上,可以使用圖像作為查詢來搜索視頻,或者使用視頻作為查詢來搜索對應(yīng)的圖像。然而,當前的視頻分析方法的計算復(fù)雜度和壓縮率太高,所占的存儲空間很大,忽視了兩個關(guān)鍵幀之間的中間信息。
本發(fā)明提出了一種基于局部特征描述符的視頻分析方法,先在視頻中提取關(guān)鍵幀的特征描述符,用顏色直方圖進行幀級距離比較,結(jié)合用于視頻分析的緊湊描述符的手動設(shè)計特征和基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí),再通過在粗略到精細策略中比較實現(xiàn)成對匹配,最后提取數(shù)據(jù)庫中的候選關(guān)鍵幀,通過局部描述符匹配進一步檢查,通過視頻級相似度進行排序。本發(fā)明消除了視頻的冗余時間,實現(xiàn)了高效率和低延遲的移動視覺搜索,大大節(jié)省了內(nèi)存大小、帶寬資源和運行時的成本,減小了壓縮率,降低了性能損失。
技術(shù)實現(xiàn)要素:
針對計算復(fù)雜度和壓縮率太高等問題,本發(fā)明的目的在于提供一種基于局部特征描述符的視頻分析方法,先在視頻中提取關(guān)鍵幀的特征描述符,用顏色直方圖進行幀級距離比較,結(jié)合用于視頻分析的緊湊描述符的手動設(shè)計特征和基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí),再通過在粗略到精細策略中比較實現(xiàn)成對匹配,最后提取數(shù)據(jù)庫中的候選關(guān)鍵幀,通過局部描述符匹配進一步檢查,通過視頻級相似度進行排序。
為解決上述問題,本發(fā)明提供一種基于局部特征描述符的視頻分析方法,其主要內(nèi)容包括:
(一)查詢視頻;
(二)基于深度學(xué)習(xí)的特征提??;
(三)緊湊局部特征描述符編碼;
(四)視頻匹配;
(五)視頻檢索。
其中,所述的查詢視頻,視頻由一系列高度相關(guān)的幀組成,進行關(guān)鍵幀檢測時僅提取關(guān)鍵幀的特征描述符;用顏色直方圖代替用于視頻分析的緊湊描述符進行幀級距離比較,兩個關(guān)鍵幀之間的中間幀表示為預(yù)測幀(p幀);在p幀中,通過多個參考預(yù)測幀來預(yù)測局部描述符;對于p幀中的全局描述符,從當前幀和先前幀中選擇分量,將二進制子向量從前一幀中的相應(yīng)子矢量中復(fù)制,并保存編碼位。
其中,所述的基于深度學(xué)習(xí)的特征提取,為了進一步將旋轉(zhuǎn)和尺度不變性編碼為卷積神經(jīng)網(wǎng)絡(luò),根據(jù)不變性理論,提出了嵌套不變性池用全局特征向量表示每個幀。
進一步地,所述的幀,給定一個輸入幀,它可以r次旋轉(zhuǎn),每次提取特征圖(w×h×c);其中,w和h表示地圖的寬度和高度,c是特征頻道的數(shù)量;基于特征圖,執(zhí)行多尺度均勻感興趣區(qū)域(roi)采樣,得到尺寸為(r×s×w′×h′×c)的五維特征更新;其中,s是多尺度區(qū)域采樣中采樣roi的數(shù)量;隨后,嵌套不變性池對轉(zhuǎn)換w′×h′、標度(s)和最后旋轉(zhuǎn)(r)進行嵌套匯總;因此,可以生成c維全局卷積神經(jīng)網(wǎng)絡(luò)特征描述符;采用余弦相似度函數(shù)評估兩個嵌套不變性池特征描述符之間的相似性。
其中,所述的緊湊局部特征描述符編碼,用于視頻分析的緊湊描述符標準采用高斯興趣點拉普拉斯算子;采用低階多項式方法計算拉普拉斯高斯濾波后的局部響應(yīng);隨后,定義相關(guān)性度量來選擇特征描述符的子集,基于包括尺度、峰值響應(yīng)、圖像中心的距離等局部特征進行統(tǒng)計學(xué)習(xí);在用于視頻分析的緊湊描述符中采用手動設(shè)計尺度不變特征轉(zhuǎn)換(sift)描述符開發(fā)局部特征描述符以及通過三元標量量化進行變換實現(xiàn)的緊湊sift壓縮方案,減小特征尺寸;在用于視頻分析的緊湊描述符中,位置坐標由二進制直方圖和直方圖計數(shù)數(shù)組組成的直方圖表示;直方圖和計數(shù)數(shù)組由簡單的算術(shù)編碼器和基于上下文的算術(shù)編碼器分開編碼。
進一步地,所述的局部特征描述符聚合,將每個描述符分配給多個高斯函數(shù),所選擇的sift描述符聚合到費舍爾向量;為了壓縮高維費舍爾向量,高斯混合模型中的高斯分量子集基于其每個子向量的標準偏差的排名來選擇;所選擇的高斯函數(shù)的數(shù)量取決于可用的編碼比特,實現(xiàn)描述符可擴展性;最后,應(yīng)用一位標量量化器與漢明距離快速比較。
進一步地,所述的深度學(xué)習(xí)與手動設(shè)計特征的結(jié)合,手動設(shè)計的特征有利于提取豐富的紋理斑點,而基于深度學(xué)習(xí)的特征更有效地聚集了顯著區(qū)域更深入和更豐富的特征;因此,在用于視頻分析的緊湊描述符框架組合了基于深度學(xué)習(xí)的特征和用于視頻分析的緊湊描述符手動設(shè)計特征;組合策略優(yōu)于基于深度學(xué)習(xí)或用于視頻分析的緊湊描述符手動設(shè)計特征。
其中,所述的視頻匹配,給定視頻對中的關(guān)鍵幀的用于視頻分析的緊湊描述符,可以通過在粗略到精細策略中比較成對匹配,實現(xiàn)成對匹配;具體來說,首先將一個視頻中的每個關(guān)鍵幀與另一視頻中的所有關(guān)鍵幀進行比較;如果相似度大于閾值,意味著兩幀之間存在可能的匹配,則可以使用幾何一致性檢查,進一步執(zhí)行局部描述符比較;隨后通過全局和局部描述符的匹配分數(shù)的乘法來計算關(guān)鍵幀級相似度;最后,通過選擇所有關(guān)鍵幀級別相似度中最大的匹配分數(shù)來獲得視頻級相似度。
進一步地,所述的時間定位,基于記錄的時間戳定位包含相似的感興趣項目的視頻段;與顏色直方圖比較方面相比,拍攝的第一關(guān)鍵幀的距離小于某個閾值的連續(xù)關(guān)鍵幀的組;如果關(guān)鍵幀級相似度大于閾值,則將包含關(guān)鍵幀的鏡頭視為匹配間隔;多個匹配間隔也可以并置在一起,獲得定位的最后間隔。
其中,所述的視頻檢索,與視頻匹配相反,以一對一的方式執(zhí)行視頻檢索,意味著訪問數(shù)據(jù)庫中的視頻,并且選擇具有較高匹配分數(shù)的頂級視頻;特別地,執(zhí)行與全局描述符的關(guān)鍵幀級匹配,提取數(shù)據(jù)庫中的頂部kg候選關(guān)鍵幀;隨后,通過局部描述符匹配進一步檢查這些關(guān)鍵幀,并且根據(jù)全局和局部相似性的組合排名,關(guān)鍵幀候選數(shù)據(jù)集進一步縮小到kl;這些關(guān)鍵幀重新組織成視頻,最終根據(jù)視頻匹配流水線的原理,通過視頻級相似度進行排序。
附圖說明
圖1是本發(fā)明一種基于局部特征描述符的視頻分析方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于局部特征描述符的視頻分析方法的用于視頻分析的緊湊描述符的應(yīng)用。
圖3是本發(fā)明一種基于局部特征描述符的視頻分析方法的深度學(xué)習(xí)與手動設(shè)計特征的結(jié)合。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于局部特征描述符的視頻分析方法的系統(tǒng)流程圖。主要包括查詢視頻,基于深度學(xué)習(xí)的特征提取,緊湊局部特征描述符編碼,視頻匹配和視頻檢索。
查詢視頻,視頻由一系列高度相關(guān)的幀組成,進行關(guān)鍵幀檢測時僅提取關(guān)鍵幀的特征描述符;用顏色直方圖代替用于視頻分析的緊湊描述符進行幀級距離比較,兩個關(guān)鍵幀之間的中間幀表示為預(yù)測幀(p幀);在p幀中,通過多個參考預(yù)測幀來預(yù)測局部描述符;對于p幀中的全局描述符,從當前幀和先前幀中選擇分量,將二進制子向量從前一幀中的相應(yīng)子矢量中復(fù)制,并保存編碼位。
基于深度學(xué)習(xí)的特征提取,為了進一步將旋轉(zhuǎn)和尺度不變性編碼為卷積神經(jīng)網(wǎng)絡(luò),根據(jù)不變性理論,提出了嵌套不變性池用全局特征向量表示每個幀。
給定一個輸入幀,它可以r次旋轉(zhuǎn),每次提取特征圖(w×h×c);其中,w和h表示地圖的寬度和高度,c是特征頻道的數(shù)量;基于特征圖,執(zhí)行多尺度均勻感興趣區(qū)域(roi)采樣,得到尺寸為(r×s×w′×h′×c)的五維特征更新;其中,s是多尺度區(qū)域采樣中采樣roi的數(shù)量;隨后,嵌套不變性池對轉(zhuǎn)換w′×h′、標度(s)和最后旋轉(zhuǎn)(r)進行嵌套匯總;因此,可以生成c維全局卷積神經(jīng)網(wǎng)絡(luò)特征描述符;采用余弦相似度函數(shù)評估兩個嵌套不變性池特征描述符之間的相似性。
緊湊局部特征描述符編碼,用于視頻分析的緊湊描述符標準采用高斯興趣點拉普拉斯算子;采用低階多項式方法計算拉普拉斯高斯濾波后的局部響應(yīng);隨后,定義相關(guān)性度量來選擇特征描述符的子集,基于包括尺度、峰值響應(yīng)、圖像中心的距離等局部特征進行統(tǒng)計學(xué)習(xí);在用于視頻分析的緊湊描述符中采用手動設(shè)計尺度不變特征轉(zhuǎn)換(sift)描述符開發(fā)局部特征描述符以及通過三元標量量化進行變換實現(xiàn)的緊湊sift壓縮方案,減小特征尺寸;在用于視頻分析的緊湊描述符中,位置坐標由二進制直方圖和直方圖計數(shù)數(shù)組組成的直方圖表示;直方圖和計數(shù)數(shù)組由簡單的算術(shù)編碼器和基于上下文的算術(shù)編碼器分開編碼。
局部特征描述符聚合,將每個描述符分配給多個高斯函數(shù),所選擇的sift描述符聚合到費舍爾向量;為了壓縮高維費舍爾向量,高斯混合模型中的高斯分量子集基于其每個子向量的標準偏差的排名來選擇;所選擇的高斯函數(shù)的數(shù)量取決于可用的編碼比特,實現(xiàn)描述符可擴展性;最后,應(yīng)用一位標量量化器與漢明距離快速比較。
視頻匹配,給定視頻對中的關(guān)鍵幀的用于視頻分析的緊湊描述符,可以通過在粗略到精細策略中比較成對匹配,實現(xiàn)成對匹配;具體來說,首先將一個視頻中的每個關(guān)鍵幀與另一視頻中的所有關(guān)鍵幀進行比較;如果相似度大于閾值,意味著兩幀之間存在可能的匹配,則可以使用幾何一致性檢查,進一步執(zhí)行局部描述符比較;隨后通過全局和局部描述符的匹配分數(shù)的乘法來計算關(guān)鍵幀級相似度;最后,通過選擇所有關(guān)鍵幀級別相似度中最大的匹配分數(shù)來獲得視頻級相似度。
時間定位,基于記錄的時間戳定位包含相似的感興趣項目的視頻段;與顏色直方圖比較方面相比,拍攝的第一關(guān)鍵幀的距離小于某個閾值的連續(xù)關(guān)鍵幀的組;如果關(guān)鍵幀級相似度大于閾值,則將包含關(guān)鍵幀的鏡頭視為匹配間隔;多個匹配間隔也可以并置在一起,獲得定位的最后間隔。
視頻檢索,與視頻匹配相反,以一對一的方式執(zhí)行視頻檢索,意味著訪問數(shù)據(jù)庫中的視頻,并且選擇具有較高匹配分數(shù)的頂級視頻;特別地,執(zhí)行與全局描述符的關(guān)鍵幀級匹配,提取數(shù)據(jù)庫中的頂部kg候選關(guān)鍵幀;隨后,通過局部描述符匹配進一步檢查這些關(guān)鍵幀,并且根據(jù)全局和局部相似性的組合排名,關(guān)鍵幀候選數(shù)據(jù)集進一步縮小到kl;這些關(guān)鍵幀重新組織成視頻,最終根據(jù)視頻匹配流水線的原理,通過視頻級相似度進行排序。
圖2是本發(fā)明一種基于局部特征描述符的視頻分析方法的用于視頻分析的緊湊描述符的應(yīng)用。可用于移動ar技術(shù)、汽車、監(jiān)控和媒體娛樂,在汽車的應(yīng)用上,視頻分析技術(shù)有強大物體檢測功能,能夠有效預(yù)警碰撞情況和提示當前道路流量。在監(jiān)控的應(yīng)用上,一旦目標在視頻場景中出現(xiàn)了違反預(yù)定義規(guī)則的行為,系統(tǒng)會自動發(fā)出報警,監(jiān)控工作站自動彈出報警信息并發(fā)出警示音,用戶可以通過點擊報警信息,減少了人力、物力和時間。在其他應(yīng)用上,可以使用圖像作為查詢來搜索視頻,或者使用視頻作為查詢來搜索對應(yīng)的圖像。
圖3是本發(fā)明一種基于局部特征描述符的視頻分析方法的深度學(xué)習(xí)與手動設(shè)計特征的結(jié)合。手動設(shè)計的特征有利于提取豐富的紋理斑點,而基于深度學(xué)習(xí)的特征更有效地聚集了顯著區(qū)域更深入和更豐富的特征;因此,在用于視頻分析的緊湊描述符框架組合了基于深度學(xué)習(xí)的特征和用于視頻分析的緊湊描述符手動設(shè)計特征;組合策略優(yōu)于基于深度學(xué)習(xí)或用于視頻分析的緊湊描述符手動設(shè)計特征。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。