本發(fā)明涉及網(wǎng)絡(luò)技術(shù),特別涉及用戶出行方式的識別方法和裝置。
背景技術(shù):
在實際應(yīng)用中,很多場景下需要對用戶的出行方式進(jìn)行識別,所述出行方式可包括:公交、步行、駕車、地鐵、跑步、騎行等。
比如,圖1為現(xiàn)有用戶的出行路線示意圖,如圖1所示,在該出行路線中,既包括步行路段,也包括公交路段,在步行路段,可為用戶進(jìn)行步行導(dǎo)航誘導(dǎo),在公交路段,可為用戶進(jìn)行公交實時到站提醒誘導(dǎo),為此,則需要準(zhǔn)確地識別出用戶當(dāng)前的出行方式,以便切換到相應(yīng)的誘導(dǎo)模式。
再比如,在智能化地圖場景中,用戶使用地圖的過程中,如果能夠獲取到用戶的出行方式,那么可通過較長時間用戶出行方式的數(shù)據(jù)獲取,并結(jié)合大數(shù)據(jù)分析技術(shù)等,可分析出用戶出行的長期偏好、短期偏好、即時出行偏好等,從而豐富地圖用戶畫像標(biāo)簽,進(jìn)而為地圖智能化服務(wù)提供重要的數(shù)據(jù)源。
現(xiàn)有技術(shù)中,多基于全球定位系統(tǒng)(GPS,Global Positioning System)數(shù)據(jù)來識別用戶的出行方式,如步行時的GPS速度值小于乘坐公交時的GPS速度值。
但是,上述識別方式的準(zhǔn)確性較低,比如,在公交堵車階段或剛起步階段,公交速度和步行速度相似,從而難以區(qū)分,很可能造成識別錯誤。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供了用戶出行方式的識別方法和裝置,能夠提高識別結(jié)果的準(zhǔn)確性。
具體技術(shù)方案如下:
一種用戶出行方式的識別方法,包括:
獲取訓(xùn)練樣本,每個訓(xùn)練樣本中包括:以預(yù)定時長作為一個時間窗口,從所述時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值,以及,用戶在所述時間窗口內(nèi)的出行方式;
將提取出的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型;
針對待識別的用戶,每經(jīng)過一個所述時間窗口,則根據(jù)從所述時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值以及所述識別模型,確定出所述用戶的出行方式。
一種用戶出行方式的識別裝置,包括:獲取單元和識別單元;
所述獲取單元,用于從服務(wù)端獲取識別模型,并發(fā)送給所述識別單元;所述識別模型通過訓(xùn)練樣本訓(xùn)練得到,每個訓(xùn)練樣本中包括:以預(yù)定時長作為一個時間窗口,從所述時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值,以及,用戶在所述時間窗口內(nèi)的出行方式,將提取出的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到所述識別模型;
所述識別單元,用于針對待識別的用戶,每經(jīng)過一個所述時間窗口,則根據(jù)從所述時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值以及所述識別模型,確定出所述用戶的出行方式。
可以看出,采用本發(fā)明所述方案,可將從用戶行為數(shù)據(jù)中提取出的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型,進(jìn)而根據(jù)識別模型來對用戶的出行方式進(jìn)行識別,從而相比于現(xiàn)有技術(shù)提高了識別結(jié)果的準(zhǔn)確性。
【附圖說明】
圖1為現(xiàn)有用戶的出行路線示意圖。
圖2為本發(fā)明所述用戶出行方式的識別方法實施例的流程圖。
圖3為本發(fā)明所述用戶出行方式的識別過程的第一示意圖。
圖4為本發(fā)明所述用戶出行方式的識別過程的第二示意圖。
圖5為本發(fā)明所述用戶出行方式的識別裝置實施例的組成結(jié)構(gòu)示意圖。
【具體實施方式】
為了使本發(fā)明的技術(shù)方案更加清楚、明白,以下參照附圖并舉實施例,對本發(fā)明所述方案作進(jìn)一步地詳細(xì)說明。
實施例一
圖2為本發(fā)明所述用戶出行方式的識別方法實施例的流程圖,如圖2所示,包括以下具體實現(xiàn)方式。
在21中,獲取訓(xùn)練樣本,每個訓(xùn)練樣本中包括:以預(yù)定時長作為一個時間窗口,從時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值,以及,用戶在時間窗口內(nèi)的出行方式。
在22中,將提取出的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型。
在23中,針對待識別的用戶,每經(jīng)過一個時間窗口,則根據(jù)從時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值以及識別模型,確定出用戶的出行方式,即識別出用戶姿態(tài)。
可以看出,上述21~22為訓(xùn)練得到識別模型的過程,23為利用識別模型進(jìn)行用戶的出行方式識別的過程。
其中,用戶行為數(shù)據(jù)可包括:GPS數(shù)據(jù)、加速度傳感器數(shù)據(jù)和方向傳感器數(shù)據(jù)。
時間窗口的具體時長可為5~10s中的任意值。實驗顯示,時間窗口的時長小于5s,將不能完整刻畫用戶姿態(tài),超過10s的時間窗口和5~10s的時間窗口得到的結(jié)果幾乎一致,但時長越長,計算耗時越長,因此,時間窗口的時長可為5~10s中的任意值。
假設(shè)時間窗口的時長為10s,那么在一個時間窗口內(nèi),可采集10次GPS數(shù)據(jù),當(dāng)選取的采樣率為40ms時,可采集250次加速度傳感器數(shù)據(jù)和250次方向傳感器數(shù)據(jù)。
在實際應(yīng)用中,每一秒進(jìn)行一次GPS數(shù)據(jù)回調(diào),即進(jìn)行一次GPS數(shù)據(jù)采集,因此,可通過GPS數(shù)據(jù)回調(diào)來進(jìn)行計時,即當(dāng)?shù)?0個GPS數(shù)據(jù)回調(diào)后,則認(rèn)為一個時間窗口結(jié)束。
實驗顯示,對于加速度傳感器數(shù)據(jù)和方向傳感器數(shù)據(jù),僅對前200次采集到的數(shù)據(jù)進(jìn)行處理和對250次采集到的數(shù)據(jù)進(jìn)行處理,得到的結(jié)果幾乎一致,因此為減少計算量等,可僅對前200次采集到的數(shù)據(jù)進(jìn)行處理。
由于每個時間窗口內(nèi)采集到的數(shù)據(jù)都比較多,如果均作為識別模型的輸入的話,將會導(dǎo)致數(shù)據(jù)維度過多,計算復(fù)雜度過大,因此,需要針對采集到的用戶行為數(shù)據(jù)進(jìn)行特征值提取,以降低數(shù)據(jù)的維度,突出數(shù)據(jù)的特征。
不同類型的用戶行為數(shù)據(jù),提取特征值的方式也會不同,以下分別進(jìn)行介紹。
1)從加速度傳感器數(shù)據(jù)中提取特征值
當(dāng)用戶按照不同的出行方式出行時,加速度傳感器數(shù)據(jù)會有明顯的不同,比如,步行時的加速度較大,而駕車時的加速度較小。
針對時間窗口內(nèi)前N次每次采集到的加速度傳感器數(shù)據(jù),可分別進(jìn)行以下處理:分別計算該加速度傳感器數(shù)據(jù)中的x方向值、y方向值和z方向值的平方值,并將三個平方值相加,得到一個加速度能量值;根據(jù)預(yù)先設(shè)定的離散區(qū)間,對N個加速度能量值進(jìn)行離散化處理,得到M個離散值,將M個離散值作為提取出的特征值,M為大于一的正整數(shù),M<N。
每次采集到的加速度傳感器數(shù)據(jù)由x方向值、y方向值和z方向值組成,可計算三個方向值的平方和,作為該加速度傳感器數(shù)據(jù)對應(yīng)的加速度能量值,即一個加速度傳感器數(shù)據(jù)對應(yīng)一個加速度能量值。
對于得到的N個加速度能量值,可采用以下方式來對其進(jìn)行離散化處理:預(yù)先設(shè)置M個連續(xù)的取值區(qū)間,針對每個取值區(qū)間,分別統(tǒng)計出N個加速度能量值中位于該取值區(qū)間內(nèi)的加速度能量值的個數(shù),將統(tǒng)計結(jié)果作為對N個加速度能量值進(jìn)行離散化處理的結(jié)果。
M的具體取值可根據(jù)實際需要而定,各取值區(qū)間的具體取值也可根據(jù)實際需要而定,比如,M的取值可為7,各取值區(qū)間可分別為(0,1]、(1,2]、(2,4]、(4,8]、(8,16]、(16,32]以及大于32。
分別統(tǒng)計出N個加速度能量值中位于(0,1]、(1,2]、(2,4]、(4,8]、(8,16]、(16,32]以及大于32這7個取值區(qū)間中的加速度能量值的個數(shù),得到7個統(tǒng)計結(jié)果,這7個統(tǒng)計結(jié)果即為一個時間窗口內(nèi)從加速度傳感器數(shù)據(jù)中提取出的特征值。
如前所述,當(dāng)時間窗口的時長為10s時,N的取值可為200,將200個加速度能量值離散化為7個特征值,從而降低了數(shù)據(jù)的維度。
2)從方向傳感器數(shù)據(jù)中提取特征值
對于方向傳感器,z軸正方向為前進(jìn)方向,pitch表征俯仰角,將物體繞x軸旋轉(zhuǎn),yaw表征航向角,將物體繞y軸旋轉(zhuǎn),roll表征橫滾角,將物體繞z軸旋轉(zhuǎn)。由于橫滾角在機(jī)動車和非機(jī)動車中不能表征運動特征,因此,可丟棄每次采集到的方向傳感器數(shù)據(jù)中的橫滾角數(shù)據(jù)。另外,由于俯仰角和航向角均為方向角,值都比較大,因此可進(jìn)行梯度計算,將當(dāng)前值減去上次值得到的梯度作為本次梯度,然后將所有梯度進(jìn)行求和,從而將數(shù)據(jù)的維度從3*200維降低到2維。
具體地,可針對時間窗口內(nèi)除第一次采集到的方向傳感器數(shù)據(jù)之外前N次每次采集到的方向傳感器數(shù)據(jù),分別進(jìn)行以下處理:
分別計算該方向傳感器數(shù)據(jù)中的俯仰角與時間窗口內(nèi)相鄰前一次采集到的方向傳感器數(shù)據(jù)中的俯仰角的第一差值,并計算該方向傳感器數(shù)據(jù)中的航向角與時間窗口內(nèi)相鄰前一次采集到的方向傳感器數(shù)據(jù)中的航向角的第二差值;
分別計算各第一差值相加之和以及各第二差值相加之和,將計算結(jié)果作為提取出的特征值。
N為大于1的正整數(shù),如前所述,假設(shè)時間窗口的時長為10s,那么N的取值可為200,即分別計算第2次采集到的方向傳感器數(shù)據(jù)中的俯仰角與第1次采集到的方向傳感器數(shù)據(jù)中的俯仰角的差值、第3次采集到的方向傳感器數(shù)據(jù)中的俯仰角與第2次采集到的方向傳感器數(shù)據(jù)中的俯仰角的差值、…、第200次采集到的方向傳感器數(shù)據(jù)中的俯仰角與第199次采集到的方向傳感器數(shù)據(jù)中的俯仰角的差值,將各差值相加,得到一個特征值,并且,分別計算第2次采集到的方向傳感器數(shù)據(jù)中的航向角與第1次采集到的方向傳感器數(shù)據(jù)中的航向角的差值、第3次采集到的方向傳感器數(shù)據(jù)中的航向角與第2次采集到的方向傳感器數(shù)據(jù)中的航向角的差值、…、第200次采集到的方向傳感器數(shù)據(jù)中的航向角與第199次采集到的方向傳感器數(shù)據(jù)中的航向角的差值,將各差值相加,得到另外一個特征值。
3)從GPS數(shù)據(jù)中提取特征值
可分別計算時間窗口內(nèi)采集到的各GPS數(shù)據(jù)中的速度值的均值以及時間窗口內(nèi)采集到的各GPS數(shù)據(jù)中的方向角的均值,將計算結(jié)果作為提取出的特征值。
如前所述,假設(shè)時間窗口的時長為10s,在時間窗口內(nèi)共進(jìn)行了10次GPS數(shù)據(jù)采集,那么可將10次采集到的GPS數(shù)據(jù)中的速度值求平均,并將10次采集到的GPS數(shù)據(jù)中的方向角求平均,從而得到2個特征值。
按照1)~3)中所述方式進(jìn)行特征值提取,并已知用戶的出行方式,即可得到各訓(xùn)練樣本。
在實際應(yīng)用中,可以讓專門的測試人員按照不同的出行方式出行,并實時采集用戶行為數(shù)據(jù),從而得到各訓(xùn)練樣本。
在得到足夠數(shù)量的訓(xùn)練樣本之后,可將訓(xùn)練樣本中的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型,如何訓(xùn)練得到識別模型為現(xiàn)有技術(shù)。
具體采用何種模型作為識別模型可根據(jù)實際需要而定,比如,可采用隨機(jī)森林識別模型,隨機(jī)森林識別模型的文件格式如表一所示。
表一隨機(jī)森林識別模型的文件格式
在得到識別模型之后,即可利用識別模型,來對用戶的出行方式進(jìn)行識別。
如在用戶的手機(jī)中預(yù)置識別模型,從而可以對用戶的出行方式進(jìn)行實時識別。
手機(jī)中的相關(guān)單元可實時地采集用戶行為數(shù)據(jù),并且,每經(jīng)過一個時間窗口,可根據(jù)該時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值以及識別模型,確定出用戶的出行方式。
需要說明的是,對于手機(jī)來說,當(dāng)采用IOS平臺時,采集到的用戶行為數(shù)據(jù)的取值將在-1到1之間,即為歸一化之后的數(shù)據(jù),而當(dāng)采用Android平臺時,采集到的用戶行為數(shù)據(jù)為真實值,因此需要針對不同平臺進(jìn)行差異化處理,處理方式可為:針對IOS平臺和Android平臺,分別按照本發(fā)明所述方式生成一個識別模型,這樣,可在采用IOS平臺的手機(jī)中預(yù)置IOS平臺對應(yīng)的識別模型,在采用Android平臺的手機(jī)中預(yù)置Android平臺對應(yīng)的識別模型。
基于上述介紹,圖3為本發(fā)明所述用戶出行方式的識別過程的第一示意圖,如圖3所示,識別出的出行方式可包括公交、步行、駕車、地鐵、跑步、騎行等。
另外,對于公交和駕車這兩種出行方式,由于特征相對相似,按照上述識別模型可能比較難以區(qū)分,為此,本發(fā)明所述方案中還提出,可進(jìn)一步引入用戶與公交站點的接近度這一特征,實驗顯示,引入該特征后可明顯提高對公交和駕車的識別準(zhǔn)確率和召回率。
相應(yīng)地,每個訓(xùn)練樣本中需要進(jìn)一步包括:時間窗口內(nèi)用戶與公交站點的接近度,將提取出的特征值以及時間窗口內(nèi)用戶與公交站點的接近度作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型。
這樣,針對待識別的用戶,每經(jīng)過一個時間窗口,則根據(jù)時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值、獲取到的時間窗口內(nèi)用戶與公交站點的接近度以及識別模型,確定出用戶的出行方式。
具體地,在時間窗口內(nèi),當(dāng)每采集到一次GPS數(shù)據(jù)時,則可根據(jù)采集到的GPS數(shù)據(jù)以及預(yù)先獲取的各公交站點的地理信息系統(tǒng)(GIS,Geographic Information System)信息,統(tǒng)計出當(dāng)前與用戶之間的距離小于預(yù)定閾值的公交站點的個數(shù),并將各次統(tǒng)計結(jié)果相加,用相加之和除以時間窗口的時長,得到時間窗口內(nèi)用戶與公交站點的接近度。
假設(shè)時間窗口的時長為10s,時間窗口內(nèi)共采集了10次GPS數(shù)據(jù),那么,每采集一次GPS數(shù)據(jù),則可得到一個統(tǒng)計結(jié)果,即當(dāng)前與用戶之間的距離小于預(yù)定閾值的公交站點的個數(shù),將10個統(tǒng)計結(jié)果相加之和除以10s,得到的即為時間窗口內(nèi)用戶與公交站點的接近度。
所述預(yù)定閾值的具體取值可根據(jù)實際需要而定,比如可為15米。
可將全國各公交站點的GIS信息打包預(yù)置到用戶手機(jī)中,當(dāng)需要獲取統(tǒng)計結(jié)果時,可根據(jù)用戶所處的位置,選取適當(dāng)?shù)墓徽军c去和用戶進(jìn)行距離比較,比如,根據(jù)GPS數(shù)據(jù)確定出用戶位于北京市海淀區(qū),那么可首先獲取到位于北京市海淀區(qū)內(nèi)的各公交站點的GIS信息,然后根據(jù)各公交站點的GIS信息確定出其與用戶之間的距離是否小于15米。
基于上述介紹,圖4為本發(fā)明所述用戶出行方式的識別過程的第二示意圖,相比于圖3所示方式,圖4所示方式中進(jìn)一步引入了時間窗口內(nèi)用戶與公交站點的接近度這一特征。
無論采用哪種識別模型,在利用識別模型對用戶的出行方式進(jìn)行識別之后,可根據(jù)識別結(jié)果及對應(yīng)的特征值等生成新的訓(xùn)練樣本,進(jìn)而根據(jù)新的訓(xùn)練樣本對原識別模型進(jìn)行優(yōu)化和完善,具體實現(xiàn)為現(xiàn)有技術(shù)。
以上是關(guān)于方法實施例的介紹,以下通過裝置實施例,對本發(fā)明所述方案進(jìn)行進(jìn)一步說明。
實施例二
圖5為本發(fā)明所述用戶出行方式的識別裝置實施例的組成結(jié)構(gòu)示意圖,如圖5所示,包括:獲取單元51和識別單元52。
獲取單元51,用于從服務(wù)端獲取識別模型,并發(fā)送給識別單元52;識別模型通過訓(xùn)練樣本訓(xùn)練得到,每個訓(xùn)練樣本中包括:以預(yù)定時長作為一個時間窗口,從時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值,以及,用戶在時間窗口內(nèi)的出行方式,將提取出的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型。
識別單元52,用于針對待識別的用戶,每經(jīng)過一個時間窗口,則根據(jù)從時間窗口內(nèi)采集到的用戶行為數(shù)據(jù)中提取出的特征值以及識別模型,確定出用戶的出行方式。
其中,用戶行為數(shù)據(jù)可包括:GPS數(shù)據(jù)、加速度傳感器數(shù)據(jù)和方向傳感器數(shù)據(jù)。
相應(yīng)地,識別單元52中可具體包括:信息采集子單元521、第一提取子單元522、第二提取子單元523、第三提取子單元524以及識別子單元525。
信息采集子單元521,用于將時間窗口內(nèi)采集到的加速度傳感器數(shù)據(jù)發(fā)送給第一提取子單元522,將時間窗口內(nèi)采集到的方向傳感器數(shù)據(jù)發(fā)送給第二提取子單元523,將時間窗口內(nèi)采集到的GPS數(shù)據(jù)發(fā)送給第三提取子單元524。
第一提取子單元522,用于從時間窗口內(nèi)采集到的加速度傳感器數(shù)據(jù)中提取出特征值,并發(fā)送給識別子單元525。
第二提取子單元523,用于從時間窗口內(nèi)采集到的方向傳感器數(shù)據(jù)中提取出特征值,并發(fā)送給識別子單元525。
第三提取子單元524,用于從時間窗口內(nèi)采集到的GPS數(shù)據(jù)中提取出特征值,并發(fā)送給識別子單元525。
識別子單元525,用于根據(jù)接收到的時間窗口內(nèi)的特征值以及識別模型,確定出用戶的出行方式。
時間窗口的具體時長可為5~10s中的任意值。實驗顯示,時間窗口的時長小于5s,將不能完整刻畫用戶姿態(tài),超過10s的時間窗口和5~10s的時間窗口得到的結(jié)果幾乎一致,但時長越長,計算耗時越長,因此,時間窗口的時長可為5~10s中的任意值。
假設(shè)時間窗口的時長為10s,那么在一個時間窗口內(nèi),可采集10次GPS數(shù)據(jù),當(dāng)選取的采樣率為40ms時,可采集250次加速度傳感器數(shù)據(jù)和250次方向傳感器數(shù)據(jù)。
在實際應(yīng)用中,每一秒進(jìn)行一次GPS數(shù)據(jù)回調(diào),即進(jìn)行一次GPS數(shù)據(jù)采集,因此,可通過GPS數(shù)據(jù)回調(diào)來進(jìn)行計時,即當(dāng)?shù)?0個GPS數(shù)據(jù)回調(diào)后,則認(rèn)為一個時間窗口結(jié)束。
實驗顯示,對于加速度傳感器數(shù)據(jù)和方向傳感器數(shù)據(jù),僅對前200次采集到的數(shù)據(jù)進(jìn)行處理和對250次采集到的數(shù)據(jù)進(jìn)行處理,得到的結(jié)果幾乎一致,因此為減少計算量等,可僅對前200次采集到的數(shù)據(jù)進(jìn)行處理。
另外,由于每個時間窗口內(nèi)采集到的數(shù)據(jù)都比較多,如果均作為識別模型的輸入的話,將會導(dǎo)致數(shù)據(jù)維度過多,計算復(fù)雜度過大,因此,需要針對采集到的用戶行為數(shù)據(jù)進(jìn)行特征值提取,以降低數(shù)據(jù)的維度,突出數(shù)據(jù)的特征。
其中,第一提取子單元522可針對時間窗口內(nèi)前N次(如前200次)每次采集到的加速度傳感器數(shù)據(jù),分別進(jìn)行以下處理:分別計算該加速度傳感器數(shù)據(jù)中的x方向值、y方向值和z方向值的平方值,并將三個平方值相加,得到一個加速度能量值;根據(jù)預(yù)先設(shè)定的離散區(qū)間,對N個加速度能量值進(jìn)行離散化處理,得到M個離散值,將M個離散值作為提取出的特征值,M為大于一的正整數(shù),M<N。
第一提取子單元522可針對預(yù)先設(shè)置的M個連續(xù)的取值區(qū)間中的每個取值區(qū)間,分別統(tǒng)計出N個加速度能量值中位于該取值區(qū)間內(nèi)的加速度能量值的個數(shù),將統(tǒng)計結(jié)果作為對N個加速度能量值進(jìn)行離散化處理的結(jié)果。
M的具體取值可根據(jù)實際需要而定,各取值區(qū)間的具體取值也可根據(jù)實際需要而定。
第二提取子單元523可針對時間窗口內(nèi)除第一次采集到的方向傳感器數(shù)據(jù)之外前N次每次采集到的方向傳感器數(shù)據(jù),N為大于1的正整數(shù),如200,分別進(jìn)行以下處理:分別計算該方向傳感器數(shù)據(jù)中的俯仰角與時間窗口內(nèi)相鄰前一次采集到的方向傳感器數(shù)據(jù)中的俯仰角的第一差值,并計算該方向傳感器數(shù)據(jù)中的航向角與時間窗口內(nèi)相鄰前一次采集到的方向傳感器數(shù)據(jù)中的航向角的第二差值;分別計算各第一差值相加之和以及各第二差值相加之和,將計算結(jié)果作為提取出的特征值。
第三提取子單元524可分別計算時間窗口內(nèi)采集到的各GPS數(shù)據(jù)中的速度值的均值以及時間窗口內(nèi)采集到的各GPS數(shù)據(jù)中的方向角的均值,將計算結(jié)果作為提取出的特征值。
在生成識別模型時,可按照與識別單元52中同樣的方式進(jìn)行用戶行為數(shù)據(jù)的采集和特征值的提取,并已知用戶的出行方式,即可得到各訓(xùn)練樣本。
在得到足夠數(shù)量的訓(xùn)練樣本之后,可將訓(xùn)練樣本中的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型,如何訓(xùn)練得到識別模型為現(xiàn)有技術(shù)。
具體采用何種模型作為識別模型可根據(jù)實際需要而定,比如,可采用隨機(jī)森林識別模型。
基于上述識別模型,即可對用戶的出行方式進(jìn)行實時識別,但是,對于公交和駕車這兩種出行方式,由于特征相對相似,按照上述識別模型可能比較難以區(qū)分,為此,本發(fā)明所述方案中還提出,可進(jìn)一步引入用戶與公交站點的接近度這一特征,實驗顯示,引入該特征后可明顯提高對公交和駕車的識別準(zhǔn)確率和召回率。
相應(yīng)地,每個訓(xùn)練樣本的輸入中可進(jìn)一步包括:時間窗口內(nèi)用戶與公交站點的接近度。
如圖5所示,識別單元52中可進(jìn)一步包括:接近度獲取子單元526。
接近度獲取子單元526,用于獲取時間窗口內(nèi)用戶與公交站點的接近度,并發(fā)送給識別子單元525。
識別子單元525進(jìn)一步用于,根據(jù)接收到的時間窗口內(nèi)的特征值、時間窗口內(nèi)用戶與公交站點的接近度以及識別模型,確定出用戶的出行方式。
具體地,第三提取子單元524可將每次采集到的GPS數(shù)據(jù)發(fā)送給接近度獲取子單元526,在時間窗口內(nèi),接近度獲取子單元526每獲取到一次GPS數(shù)據(jù),則可根據(jù)該GPS數(shù)據(jù)以及預(yù)先獲取的各公交站點的GIS信息,統(tǒng)計出當(dāng)前與用戶之間的距離小于預(yù)定閾值的公交站點的個數(shù),將各次統(tǒng)計結(jié)果相加,并用相加之和除以時間窗口的時長,得到時間窗口內(nèi)用戶與公交站點的接近度。
所述預(yù)定閾值的具體取值可根據(jù)實際需要而定,比如可為15米。
總之,采用本發(fā)明所述方案,可將從用戶行為數(shù)據(jù)中提取出的特征值作為輸入,將用戶的出行方式作為輸出,訓(xùn)練得到識別模型,進(jìn)而根據(jù)識別模型來對用戶的出行方式進(jìn)行識別,從而相比于現(xiàn)有技術(shù)提高了識別結(jié)果的準(zhǔn)確性;而且,可借助于公交站點的GIS信息,進(jìn)一步區(qū)分公交和駕車兩種出行方式,從而進(jìn)一步提高了識別結(jié)果的準(zhǔn)確性。
在本發(fā)明所提供的幾個實施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。