本發(fā)明涉及計(jì)算機(jī)視覺(jué)領(lǐng)域,尤其是涉及了一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法。
背景技術(shù):
隨著科技技術(shù)迅速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為各種計(jì)算機(jī)視覺(jué)任務(wù)中的最先進(jìn)的技術(shù)。日常生活環(huán)境中存在的傳感器產(chǎn)生大量的數(shù)據(jù),它們提供用于活動(dòng)識(shí)別和上下文感知模型的信息。使用深度學(xué)習(xí)的方法從原始傳感器數(shù)據(jù)提取有用信息,能有效執(zhí)行分類、識(shí)別和分割相關(guān)的任務(wù),但這些技術(shù)需要大量的標(biāo)記數(shù)據(jù)以便于訓(xùn)練這些非常深的網(wǎng)絡(luò),且對(duì)于各種其他任務(wù)仍沒(méi)有很多標(biāo)記的數(shù)據(jù)集。而且存在視覺(jué)上不易解釋的數(shù)據(jù)類型,如傳感器數(shù)據(jù)。而如果采用基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法,則可以利用遷移學(xué)習(xí)和模態(tài)轉(zhuǎn)移的思想,將傳感器數(shù)據(jù)遷移到圖像域后,有效分類腳步圖像,還可以應(yīng)用于諸如智能環(huán)境和健康場(chǎng)景中的自動(dòng)監(jiān)視,如跑步、睡覺(jué)、步行等身體活動(dòng)監(jiān)測(cè),分析步態(tài)模式,生物活動(dòng)監(jiān)測(cè)如呼吸檢測(cè)、進(jìn)食檢測(cè)等。
本發(fā)明提出了一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法,它采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,首先對(duì)步態(tài)數(shù)據(jù)集進(jìn)行預(yù)處理,分離噪聲后,重新調(diào)整大小為229×229;接下來(lái),擬合邊界框切割預(yù)處理后的圖像;然后,利用最大幀法、平均法和序列分析法進(jìn)行圖像提??;最后由預(yù)訓(xùn)練的Inception-v3模型遷移學(xué)習(xí)提取的圖像,獲得分類后的結(jié)果。本發(fā)明由于采用預(yù)訓(xùn)練的網(wǎng)絡(luò)模型,節(jié)省大量的計(jì)算資源和時(shí)間;利用遷移學(xué)習(xí)的概念,從而避開(kāi)在執(zhí)行各種沒(méi)有標(biāo)記數(shù)據(jù)集的其他任務(wù)無(wú)法學(xué)習(xí)的限制;獲得的分類精度達(dá)到90%左右,優(yōu)于常規(guī)機(jī)器學(xué)習(xí)方法超過(guò)12%。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)網(wǎng)絡(luò)模型訓(xùn)練困難和數(shù)據(jù)不易可視化解釋的問(wèn)題,本發(fā)明的目的在于提供一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法。
為解決上述問(wèn)題,本發(fā)明提供一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法,其主要內(nèi)容包括:
(一)數(shù)據(jù)輸入;
(二)模態(tài)遷移;
(三)遷移學(xué)習(xí);
(四)圖像分類。
其中,一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法,使用壓力傳感器數(shù)據(jù),在視覺(jué)上不易解釋的數(shù)據(jù)類型,并且不清楚是否可以可視化解釋;將傳感器模態(tài)遷移到圖像形式的視覺(jué)域,并利用預(yù)先訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別二維傳感器數(shù)據(jù);把二維傳感器的輸出遷移到壓力分布成像,實(shí)現(xiàn)模態(tài)遷移,得到遷移的圖像數(shù)據(jù);利用預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對(duì)遷移的圖像數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),從而執(zhí)行腳步檢測(cè)、識(shí)別任務(wù)。
其中,所述的數(shù)據(jù)輸入,選取由人在壓力敏矩陣上行走獲取的腳步數(shù)據(jù)作為步態(tài)數(shù)據(jù)集,該數(shù)據(jù)集由13個(gè)人的腳步樣本組成;每個(gè)人的每個(gè)步行序列中記錄2-3個(gè)腳步,每人最少記錄12個(gè)樣本;每個(gè)步行序列是用一個(gè)特定的人的ID標(biāo)記的單獨(dú)數(shù)據(jù)序列,ID定義了卷積神經(jīng)網(wǎng)絡(luò)的類標(biāo)簽,總共包括529個(gè)腳步。
其中,所述的模態(tài)遷移,包括預(yù)處理、位置歸一化和圖像提取;將傳感器的原始數(shù)據(jù),即120×54個(gè)二維壓力映射的時(shí)間序列線性地遷移為灰度色彩圖,其中每個(gè)像素表示感知點(diǎn),更亮的顏色對(duì)應(yīng)于更高的壓力;完整的腳步由壓力映射幀的序列構(gòu)成,每個(gè)幀對(duì)應(yīng)腳步的某一時(shí)刻;沿著時(shí)間維度分割每個(gè)腳步并且找到每個(gè)腳步的單獨(dú)時(shí)刻;其他傳感器數(shù)據(jù)同樣可以應(yīng)用上述模態(tài)遷移的思路。
進(jìn)一步地,所述的預(yù)處理,通過(guò)將每個(gè)幀遷移為二進(jìn)制幀并應(yīng)用自適應(yīng)閾值來(lái)將腳步與背景噪聲分離;對(duì)于閾值,將幀的像素值分類成組數(shù)為10的直方圖,并且閾值被確定為最高值組的下一個(gè)組的中心值。
進(jìn)一步地,所述的位置歸一化,首先找到所有幀的最大邊界框,它包圍每個(gè)單獨(dú)腳步,確保屬于同一腳步的所有時(shí)刻都由該邊界框包圍;對(duì)于同一腳步,使用相同大小的邊界框來(lái)捕獲和提取所有的時(shí)刻,從而利用邊界框切割不相關(guān)的部分。
進(jìn)一步地,所述的圖像提取,在擬合邊界框后采用最大幀法、平均法和序列分析法進(jìn)行圖像提??;
最大幀法,從每個(gè)樣本的幀序列中捕獲最大幀,將其遷移為相應(yīng)的圖像并用類ID標(biāo)記它;從步態(tài)數(shù)據(jù)集中提取總共529個(gè)模態(tài)遷移后的圖像;
平均法,對(duì)單個(gè)樣本的序列中的所有幀進(jìn)行平均操作,并找到平均像素值的對(duì)應(yīng)圖像;平均幀攜帶腳步的所有時(shí)刻的時(shí)間信息,有助于建立更有效的特征集合;
序列分析法,使用樣本的幀序列的所有分量并將它們遷移成圖像;每個(gè)幀攜帶原始值,并且提供比前面兩種方法更多的顆粒度;
測(cè)試得到的分類結(jié)果顯示,采用序列分析方法達(dá)到的精度最高,達(dá)到90%左右。
其中,所述的遷移學(xué)習(xí),使用Inception-v3模型作為預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,移除模型中的分類層或?qū)⒎诸悓佑米魈卣髅枋龇?,并添加新的分類層;然后調(diào)整輸入圖像大小以適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)輸入的大小(229×229),通過(guò)經(jīng)由網(wǎng)絡(luò)向前傳播輸入來(lái)計(jì)算整個(gè)網(wǎng)絡(luò)的激活。
進(jìn)一步地,所述的Inception-v3模型,體系結(jié)構(gòu)包括3個(gè)卷積層,其后是一個(gè)池層,3個(gè)卷積層,10個(gè)Inception塊和一個(gè)最終的完全連接層,共17層;通過(guò)訓(xùn)練網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),從完全連接層提取激活,每個(gè)輸入可以得到一個(gè)2048維的輸出,解釋為序列中每個(gè)幀的描述符。
其中,所述的圖像分類,采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)模態(tài)遷移后得到的腳步圖像進(jìn)行遷移學(xué)習(xí),經(jīng)由最大幀、平均幀或序列分析處理得到的數(shù)據(jù)序列,重新調(diào)整大小后作為網(wǎng)絡(luò)的輸入,最后輸出該腳步圖像屬于某個(gè)人的ID分類結(jié)果,達(dá)到90%左右的識(shí)別精度;本專利模型不限于壓力傳感器數(shù)據(jù),其他傳感器數(shù)據(jù)同樣可以使用。
附圖說(shuō)明
圖1是本發(fā)明一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法的遷移后的腳步圖像示意圖。
圖3是本發(fā)明一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法的最大或平均幀的傳遞示意圖。
具體實(shí)施方式
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
圖1是本發(fā)明一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法的系統(tǒng)流程圖。主要包括數(shù)據(jù)輸入;模態(tài)遷移;遷移學(xué)習(xí);圖像分類。
其中,所述的數(shù)據(jù)輸入,選取由人在壓力敏矩陣上行走獲取的腳步數(shù)據(jù)作為步態(tài)數(shù)據(jù)集,該數(shù)據(jù)集由13個(gè)人的腳步樣本組成;每個(gè)人的每個(gè)步行序列中記錄2-3個(gè)腳步,每人最少記錄12個(gè)樣本;每個(gè)步行序列是用一個(gè)特定的人的ID標(biāo)記的單獨(dú)數(shù)據(jù)序列,ID定義了卷積神經(jīng)網(wǎng)絡(luò)的類標(biāo)簽,總共包括529個(gè)腳步。
其中,所述的模態(tài)遷移,包括預(yù)處理、位置歸一化和圖像提??;將傳感器的原始數(shù)據(jù),即120×54個(gè)二維壓力映射的時(shí)間序列線性地遷移為灰度色彩圖,其中每個(gè)像素表示感知點(diǎn),更亮的顏色對(duì)應(yīng)于更高的壓力;完整的腳步由壓力映射幀的序列構(gòu)成,每個(gè)幀對(duì)應(yīng)腳步的某一時(shí)刻;沿著時(shí)間維度分割每個(gè)腳步并且找到每個(gè)腳步的單獨(dú)時(shí)刻;其他傳感器數(shù)據(jù)同樣可以應(yīng)用上述模態(tài)遷移的思路。
進(jìn)一步地,所述的預(yù)處理,通過(guò)將每個(gè)幀遷移為二進(jìn)制幀并應(yīng)用自適應(yīng)閾值來(lái)將腳步與背景噪聲分離;對(duì)于閾值,將幀的像素值分類成組數(shù)為10的直方圖,并且閾值被確定為最高值組的下一個(gè)組的中心值。
進(jìn)一步地,所述的位置歸一化,首先找到所有幀的最大邊界框,它包圍每個(gè)單獨(dú)腳步,確保屬于同一腳步的所有時(shí)刻都由該邊界框包圍;對(duì)于同一腳步,使用相同大小的邊界框來(lái)捕獲和提取所有的時(shí)刻,從而利用邊界框切割不相關(guān)的部分。
進(jìn)一步地,所述的圖像提取,在擬合邊界框后采用最大幀法、平均法和序列分析法進(jìn)行圖像提??;
最大幀法,從每個(gè)樣本的幀序列中捕獲最大幀,將其遷移為相應(yīng)的圖像并用類ID標(biāo)記它;從步態(tài)數(shù)據(jù)集中提取總共529個(gè)模態(tài)遷移后的圖像;
平均法,對(duì)單個(gè)樣本的序列中的所有幀進(jìn)行平均操作,并找到平均像素值的對(duì)應(yīng)圖像;平均幀攜帶腳步的所有時(shí)刻的時(shí)間信息,有助于建立更有效的特征集合;
序列分析法,使用樣本的幀序列的所有分量并將它們遷移成圖像;每個(gè)幀攜帶原始值,并且提供比前面兩種方法更多的顆粒度;
測(cè)試得到的分類結(jié)果顯示,采用序列分析方法達(dá)到的精度最高,達(dá)到90%左右。
其中,所述的遷移學(xué)習(xí),使用Inception-v3模型作為預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,移除模型中的分類層或?qū)⒎诸悓佑米魈卣髅枋龇?,并添加新的分類層;然后調(diào)整輸入圖像大小以適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)輸入的大小(229×229),通過(guò)經(jīng)由網(wǎng)絡(luò)向前傳播輸入來(lái)計(jì)算整個(gè)網(wǎng)絡(luò)的激活。
進(jìn)一步地,所述的Inception-v3模型,體系結(jié)構(gòu)包括3個(gè)卷積層,其后是一個(gè)池層,3個(gè)卷積層,10個(gè)Inception塊和一個(gè)最終的完全連接層,共17層;通過(guò)訓(xùn)練網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),從完全連接層提取激活,每個(gè)輸入可以得到一個(gè)2048維的輸出,解釋為序列中每個(gè)幀的描述符。
其中,所述的圖像分類,采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)模態(tài)遷移后得到的腳步圖像進(jìn)行遷移學(xué)習(xí),經(jīng)由最大幀、平均幀或序列分析處理得到的數(shù)據(jù)序列,重新調(diào)整大小后作為網(wǎng)絡(luò)的輸入,最后輸出該腳步圖像屬于某個(gè)人的ID分類結(jié)果,達(dá)到90%左右的識(shí)別精度;本專利模型不限于壓力傳感器數(shù)據(jù),其他傳感器數(shù)據(jù)同樣可以使用。
圖2是本發(fā)明一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法的遷移后的腳步圖像示意圖。完整的腳步是這些壓力映射幀的序列,每個(gè)幀對(duì)應(yīng)于如圖2(a)所示的某一時(shí)刻的腳步圖像。從每個(gè)樣本的幀序列中捕獲最大幀,將其遷移為相應(yīng)的圖像并用類ID標(biāo)記它,在我們的數(shù)據(jù)集中,為每一腳步提取一個(gè)圖像,總共有529個(gè)這樣的圖像。對(duì)單個(gè)樣本的序列中的所有幀進(jìn)行平均,并找到平均像素值的對(duì)應(yīng)圖像,如圖2(b)所示。平均幀攜帶腳步的所有時(shí)刻的時(shí)間信息,并且有助于建立更有效的特征集合。
圖3是本發(fā)明一種基于傳感器數(shù)據(jù)的深度學(xué)習(xí)腳步檢測(cè)方法的最大或平均幀的傳遞示意圖。使用在非常大的數(shù)據(jù)集上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),然后在大小相對(duì)較小的目標(biāo)數(shù)據(jù)集上進(jìn)一步微調(diào)。預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)用于通過(guò)去除最后完全連接層并使用最后隱藏層的激活作為輸入數(shù)據(jù)集的特征描述符來(lái)進(jìn)行傳學(xué)習(xí)遷移。然后,所得到的特征描述符用于訓(xùn)練分類模型。最后將最大幀或平均幀作為模型的輸入,經(jīng)由分類模型處理分析得到分類的人的ID結(jié)果。
對(duì)于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。