本發(fā)明屬于車聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,具體涉及一種基于車聯(lián)網(wǎng)數(shù)據(jù)的時空維度用戶畫像分析方法。
背景技術(shù):
隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的車輛通過前裝或后裝的方式加入了車聯(lián)網(wǎng)的陣營,并產(chǎn)生了大量的基于車輛位置的數(shù)據(jù),然而這些數(shù)據(jù)的價值還有待進行更多維度、更深層次的挖掘。相關(guān)領(lǐng)域,國內(nèi)外對于車聯(lián)網(wǎng)數(shù)據(jù)的使用主要集中在使用車聯(lián)網(wǎng)數(shù)據(jù)對不良駕駛行為的識別和預(yù)警,以及駕駛行為的經(jīng)濟性研究,而在基于車聯(lián)網(wǎng)時空數(shù)據(jù)對用戶行為進行深度挖掘的工作才剛剛起步。相關(guān)方面如中國發(fā)明專利申請201410531377.x公開的“基于物聯(lián)網(wǎng)大數(shù)據(jù)平臺的用戶智能畫像方法”,是通過物聯(lián)網(wǎng)信息中心采集用戶數(shù)據(jù)對用戶進行定性和定量的分析,從而識別核心和規(guī)模較大的用戶。又如201210074506.8公開的“基于手機定位數(shù)據(jù)的居民出行特征參數(shù)的獲取方法”,是通過手機定位數(shù)據(jù)匹配到交通小區(qū),這種方法對地圖信息的依賴性強,且需要完備的交通小區(qū)信息。并且在該專利中也給出了判斷居住地和工作地的簡單方法,從而去判斷用戶的出行特征。
技術(shù)實現(xiàn)要素:
為了解決上述問題,本發(fā)明提供一種基于車聯(lián)網(wǎng)數(shù)據(jù)的時空維度用戶畫像分析方法,所述方法通過車聯(lián)網(wǎng)時空數(shù)據(jù)的描述方法,得到車主在出行習(xí)慣方面的畫像,進行對車主的出行規(guī)律度描述、運營性質(zhì)車輛識別、自駕游喜好程度描述、社交喜好判斷等方面的應(yīng)用,通過對車主的用戶畫像豐富保險行業(yè)中從人因素的風(fēng)險因子庫,通過對特定車主身份的識別為行業(yè)用戶提供實現(xiàn)精準(zhǔn)營銷、改善用戶體驗的數(shù)據(jù)基礎(chǔ);
進一步地,所述方法包括:
s1:obd數(shù)據(jù)采集;
s2:對s1采集的obd數(shù)據(jù)進行清洗;
s3:對s2清洗完的數(shù)據(jù)進行描述性統(tǒng)計;
s4:對s3中的行程起點和終點坐標(biāo)進行聚類;
s5:對s4對車聯(lián)網(wǎng)數(shù)據(jù)的時間維度描述;
s6:對s5車聯(lián)網(wǎng)數(shù)據(jù)的空間維度描述;
進一步地,所述s1中obd數(shù)據(jù)采集具體為:通過obd盒子,對車輛can總線進行訪問實時采集數(shù)據(jù),所述數(shù)據(jù)具體為時間數(shù)據(jù)、gps數(shù)據(jù)和車況數(shù)據(jù);
進一步地,所述s2中數(shù)據(jù)清洗具體為基于obd采集數(shù)據(jù)時的工作狀態(tài)所生成的位掩碼,位掩碼表示記錄中所有字段的有效性,“1”標(biāo)志為有效,“0”標(biāo)志為無效,查找并分析其余的異常數(shù)據(jù),對該數(shù)據(jù)出現(xiàn)的規(guī)律性進行分析,提出合理的清除數(shù)據(jù)或者修改異常數(shù)據(jù)的措施;
進一步地,所述s3中描述性統(tǒng)計具體為對行程的統(tǒng)計表和對車主的統(tǒng)計表,所述統(tǒng)計表統(tǒng)計指標(biāo)包括:行程起點、終點坐標(biāo)、行程開始時間、結(jié)束時間、行程持續(xù)時間、行程結(jié)束停車時間和行程里程長度;
進一步地,所述s4中終點聚類具體為以車主的家或公司形成點密度較大的核心分布區(qū)域,將屬于所述核心分布區(qū)域進行定位點編號;
進一步地,所述s5中對時間維度描述具體為將時間以較小的間隔離散化,記錄車主在觀測期內(nèi)的所有行程,得到以下稀疏矩陣,
矩陣中的第一列為日期(yymmdd),第二列為星期(1\2\3\4\5\6\7),其余十二列為一天的12個時段。對應(yīng)的12個時段內(nèi)的標(biāo)號,表示該車主行程起點和終點的編號;
進一步地,所述s6中對車聯(lián)網(wǎng)數(shù)據(jù)的空間維度描述具體為將車主每天的行程看作是一條連續(xù)聚類點組成的序列,將車主所有的行程并列在一起,其中,層級表示為車主在觀測日期內(nèi)的最長行程長度,模塊的寬度表示該層級中到達該聚類點次數(shù)的占比,所有聚類點帶有一個詳細行程表,記錄:到達次數(shù)、到達次數(shù)占比、到達行程開始時間、到達行程結(jié)束時間、出發(fā)行程開始時間、出發(fā)行程結(jié)束時間;
本發(fā)明的有益效果如下:
1)如同為自駕游愛好者推薦興趣相投的伙伴,使用車聯(lián)網(wǎng)的用戶畫像技術(shù)可以為更多的車主提供豐富多樣的社交屬性;
2)可以直觀地描述車主在空間維度的出行習(xí)慣,同時描述車主在時間維度的變化規(guī)律。同時結(jié)合對聚類點屬性的反饋,可以判斷車主的出行習(xí)慣;
說明書附圖
圖1為本發(fā)明s6中所述車聯(lián)網(wǎng)數(shù)據(jù)的空間維度描述圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細描述。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用于解釋本發(fā)明,并不用于限定本發(fā)明。相反,本發(fā)明涵蓋任何由權(quán)利要求定義的在本發(fā)明的精髓和范圍上做的替代、修改、等效方法以及方案。進一步,為了使公眾對本發(fā)明有更好的了解,在下文對本發(fā)明的細節(jié)描述中,詳盡描述了一些特定的細節(jié)部分。對本領(lǐng)域技術(shù)人員來說沒有這些細節(jié)部分的描述也可以完全理解本發(fā)明。
下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明,但不作為對本發(fā)明的限定。下面為本發(fā)明的舉出最佳實施例:
一種基于車聯(lián)網(wǎng)數(shù)據(jù)的時空維度用戶畫像分析方法,所述方法通過車聯(lián)網(wǎng)時空數(shù)據(jù)的描述方法,得到車主在出行習(xí)慣方面的畫像,進行對車主的出行規(guī)律度描述、運營性質(zhì)車輛識別、自駕游喜好程度描述、社交喜好判斷等方面的應(yīng)用,通過對車主的用戶畫像豐富保險行業(yè)中從人因素的風(fēng)險因子庫,通過對特定車主身份的識別為行業(yè)用戶提供實現(xiàn)精準(zhǔn)營銷、改善用戶體驗的數(shù)據(jù)基礎(chǔ),所述方法包括:
s1:obd數(shù)據(jù)采集;
s2:對s1采集的obd數(shù)據(jù)進行清洗;
s3:對s2清洗完的數(shù)據(jù)進行描述性統(tǒng)計;
s4:對s3中的行程起點和終點坐標(biāo)進行聚類;
s5:對s4對車聯(lián)網(wǎng)數(shù)據(jù)的時間維度描述;
s6:對s5車聯(lián)網(wǎng)數(shù)據(jù)的空間維度描述,所述s1中obd數(shù)據(jù)采集具體為:通過obd盒子,對車輛can總線進行訪問實時采集數(shù)據(jù),所述數(shù)據(jù)具體為時間數(shù)據(jù)、gps數(shù)據(jù)和車況數(shù)據(jù)。
所述s2中數(shù)據(jù)清洗具體為基于obd采集數(shù)據(jù)時的工作狀態(tài)所生成的位掩碼,位掩碼表示記錄中所有字段的有效性,“1”標(biāo)志為有效,“0”標(biāo)志為無效,查找并分析其余的異常數(shù)據(jù),對該數(shù)據(jù)出現(xiàn)的規(guī)律性進行分析,提出合理的清除數(shù)據(jù)或者修改異常數(shù)據(jù)的措施。
所述s3中描述性統(tǒng)計具體為對行程的統(tǒng)計表和對車主的統(tǒng)計表,所述統(tǒng)計表統(tǒng)計指標(biāo)包括:行程起點、終點坐標(biāo)、行程開始時間、結(jié)束時間、行程持續(xù)時間、行程結(jié)束停車時間和行程里程長度,所述s4中終點聚類具體為以車主的家或公司形成點密度較大的核心分布區(qū)域,將屬于所述核心分布區(qū)域進行定位點編號,所述s5中對時間維度描述具體為將時間以較小的間隔離散化,記錄車主在觀測期內(nèi)的所有行程,得到以下稀疏矩陣,
矩陣中的第一列為日期(yymmdd),第二列為星期(1\2\3\4\5\6\7),其余十二列為一天的12個時段。對應(yīng)的12個時段內(nèi)的標(biāo)號,表示該車主行程起點和終點的編號,所述s6中對車聯(lián)網(wǎng)數(shù)據(jù)的空間維度描述具體為將車主每天的行程看作是一條連續(xù)聚類點組成的序列,將車主所有的行程并列在一起,如圖1所示,
其中,層級表示為車主在觀測日期內(nèi)的最長行程長度,模塊的寬度表示該層級中到達該聚類點次數(shù)的占比,所有聚類點帶有一個詳細行程表,記錄:到達次數(shù)、到達次數(shù)占比、到達行程開始時間、到達行程結(jié)束時間、出發(fā)行程開始時間、出發(fā)行程結(jié)束時間。
本發(fā)明所述的方法應(yīng)用于以下模塊:
1)obd數(shù)據(jù)采集模塊
基于obd盒子,對車輛can總線進行訪問實時采集數(shù)據(jù)。本專利中主要指采集到的時間數(shù)據(jù)、gps數(shù)據(jù)、車況數(shù)據(jù)等。
2)數(shù)據(jù)描述性統(tǒng)計模塊
將obd采集到的數(shù)據(jù)發(fā)往服務(wù)器,并對這些數(shù)據(jù)進行清洗以及描述性的統(tǒng)計。
需要特別強調(diào)的是,在進行車主駐留點的聚類方法及屬性分析前應(yīng)當(dāng)對車主身份及其他敏感信息(如vin碼、設(shè)備id等)進行哈希加密,防止對車主產(chǎn)生不良影響。
另外,在整個數(shù)據(jù)處理過程中,要盡量保證數(shù)據(jù)安全。
數(shù)據(jù)清洗的主要工作有:
基于obd采集數(shù)據(jù)時的工作狀態(tài)所生成的位掩碼(fieldmask),根據(jù)位掩碼判斷數(shù)據(jù)的初始有效性;
其次,查找并分析其余的異常數(shù)據(jù),例如終端失靈導(dǎo)致的異常數(shù)據(jù),對該數(shù)據(jù)出現(xiàn)的規(guī)律性進行分析,提出合理的清除數(shù)據(jù)或者修改異常數(shù)據(jù)的措施,例如卡曼濾波、滑動均值濾波的方法;
最后,接下來對數(shù)據(jù)進行描述性統(tǒng)計工作,主要包括對行程的統(tǒng)計表和對車主的統(tǒng)計表。針對于本專利的統(tǒng)計表統(tǒng)計指標(biāo)主要包括:行程起點、終點坐標(biāo)、行程開始時間、結(jié)束時間、行程持續(xù)時間、行程結(jié)束停車時間、行程里程長度等。
3)車主行程起點、終點聚類
由于gps的定位點本身具有一定的定位誤差,同時很多車主在到達家或公司之后車輛的停放位置也并不固定,所以一般來說會在車主的家或公司形成點密度較大的核心分布區(qū)域。這些區(qū)域我們稱為車主的核心點,這些核心點是我們挖掘車主行為習(xí)慣的重要依據(jù)。因此,首先將屬于這些核心點的定位點編號。
在對用戶的行程的起點和終點聚類并編號后,除去因為硬件故障造成的行程中斷跳躍之外,車主的整體行程是連續(xù)的。并且我們可以通過對聚類點時間及空間維度進行分析,確定聚類點的時間及空間屬性。
4)對車聯(lián)網(wǎng)數(shù)據(jù)的時間維度描述
將時間以較小的間隔離散化,并記錄車主在觀測期內(nèi)的所有行程,可得到一個稀疏矩陣,例如,以兩小時為單位,某車主在一周的觀測期內(nèi)的行為可以表示為如下稀疏矩陣:
其次,查找并分析其余的異常數(shù)據(jù),例如終端失靈導(dǎo)致的異常數(shù)據(jù),對該數(shù)據(jù)出現(xiàn)的規(guī)律性進行分析,提出合理的清除數(shù)據(jù)或者修改異常數(shù)據(jù)的措施,例如卡曼濾波、滑動均值濾波的方法;
最后,接下來對數(shù)據(jù)進行描述性統(tǒng)計工作,主要包括對行程的統(tǒng)計表和對車主的統(tǒng)計表。針對于本專利的統(tǒng)計表統(tǒng)計指標(biāo)主要包括:行程起點、終點坐標(biāo)、行程開始時間、結(jié)束時間、行程持續(xù)時間、行程結(jié)束停車時間、行程里程長度等。
實施例1:車主出行規(guī)律度描述
車主出行的規(guī)律性是研究車主行為畫像的重要組成部分,并且也是行業(yè)用戶的重點關(guān)注,理論上,車主的行為習(xí)慣越規(guī)律,發(fā)生事故的概率越低。
為了描述車主的出行規(guī)律度,我們采用時間、空間兩個維度去分析車主的行為。通過本發(fā)明所述的分析方法,對車主出行數(shù)據(jù)的時間、空間描述,大部分車主在節(jié)假日和工作日中的出行規(guī)律有明顯區(qū)別,故將其分開考慮。
在描述時間規(guī)律度(工作日/節(jié)假日)時,考慮以下2個指標(biāo):
a)車主每天第一個行程的開始時間;
b)車主每天最后一個行程的結(jié)束時間。
可以理解為,這兩個時間分別代表了車主的離家和回家時間點。用這兩個指標(biāo)描述車主在時間維度上的規(guī)律度。使用這兩個指標(biāo)的方差來表示其規(guī)律度。
方差越小,說明車主離家或回家的時間越穩(wěn)定,行為越規(guī)律。
在描述空間規(guī)律度(工作日/節(jié)假日)時,考慮以下6個指標(biāo):
a)每天第一個行程終點的種類數(shù)量,數(shù)值越小說明規(guī)律度越高;
b)每天第一個行程終點最高頻點的占比,數(shù)值越大說明規(guī)律度越高;
c)每天最后一個行程的起點的種類數(shù)量,數(shù)值越小說明規(guī)律度越高;
d)每天最后一個行程的起點最高頻點的占比,數(shù)值越大說明規(guī)律度越高;
e)每天第一個行程起點、最后一個行程終點最高頻點的占比,一般來講,第一個行程起點或最后一個行程終點對應(yīng)著車主的“家”,因此,在規(guī)律度中需要考慮被認(rèn)為是車主“家”地點的最高頻點占比。數(shù)值越大說明規(guī)律度越高;
f)每天的平均行程數(shù),數(shù)值越小說明規(guī)律度越高;
在獲得以上8個特征后,構(gòu)建層次分析法模型,選取適當(dāng)?shù)臋?quán)重,得到最終的車主規(guī)律度,其中節(jié)假日和非節(jié)假日的規(guī)律度時分開的??梢詫⑵浠跁r間長度做加權(quán)平均。公式如下:
車主規(guī)律度=[(工作日時間規(guī)律度+工作日空間規(guī)律度)/2*工作日天數(shù)+(節(jié)假日時間規(guī)律度+節(jié)假日空間規(guī)律度)/2*節(jié)假日天數(shù))]/(工作日天數(shù)+節(jié)假日天數(shù))
實施例2:運營性質(zhì)車輛識別
隨著共享出行模式的不斷普及,越來越多的非運營車輛轉(zhuǎn)化為運營車輛,具有運營車輛屬性,但按照非運營車輛購買車輛保險,對保險公司對于承保車輛風(fēng)險判斷出現(xiàn)錯誤,提高了賠付風(fēng)險。通過車聯(lián)網(wǎng)數(shù)據(jù)對車主進行用戶畫像分析,判斷并識別運營性質(zhì)車輛,從而降低保險公司的承保風(fēng)險。
應(yīng)用本發(fā)明所述分析方法,首先進行指標(biāo)提取,選取14項指標(biāo),包括:車主出行規(guī)律度描述中所包含的8個指標(biāo)、車主的主要路徑重復(fù)度、車輛白天\夜晚的停放\行駛時長、在交通樞紐(包括機場、火車站、地鐵站、長途汽車站等)附近的停車頻率等。
選取已進行過問卷調(diào)查,并標(biāo)記好身份的車主作為訓(xùn)練對象,建立bp神經(jīng)網(wǎng)絡(luò)。
bp神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),可以實現(xiàn)從輸入到輸出的任意非線性映射,具有良好的自組織、自適應(yīng)和較強的魯棒性的特點。bp神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。使用的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小,結(jié)束學(xué)習(xí)。具體步驟如下:
a)構(gòu)建輸入向量和輸出值。輸入向量為十四項指標(biāo),輸出值為其對應(yīng)的身份標(biāo)記(1為運營車輛,0為正常車輛);
b)將數(shù)據(jù)輸入已經(jīng)構(gòu)建好的神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)結(jié)構(gòu)14×10×1的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),神經(jīng)元函數(shù)為sigmoid特征函數(shù);
c)使用采集處理后的數(shù)據(jù)分為兩部分,訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù),將訓(xùn)練數(shù)據(jù)作為輸入訓(xùn)練神經(jīng)網(wǎng)絡(luò),取學(xué)習(xí)率η=0.3,誤差標(biāo)準(zhǔn)ε=0.005,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò);
d)選擇檢驗數(shù)據(jù)作為輸入,判斷神經(jīng)網(wǎng)絡(luò)預(yù)測模型得到的結(jié)果的準(zhǔn)確性。
若要將模型用于實際的生產(chǎn)中時,要考慮模型的不斷學(xué)習(xí)優(yōu)化過程,以達到更加準(zhǔn)確的識別效果。
實施例3:用于自駕游喜好程度描述
隨著生活節(jié)奏的不斷加快,越來越多的人喜歡在節(jié)假日到郊區(qū)或更遠的地方自駕游。這樣的行為無形之中提高了車輛的事故風(fēng)險,如果將這部分人識別出來,一方面,為其提供更加完備的保險服務(wù)以及周到的道路救援服務(wù),可以極大的提高品牌效應(yīng)和車主忠誠度。另一方面,可以為其提供針對性的維修保養(yǎng)等汽車后服務(wù),并可以為其推薦興趣相投的自駕游愛好者或者組建自駕游俱樂部。
首先進行指標(biāo)選取,選取3項指標(biāo),包括:節(jié)假日外出行程比例、節(jié)假日外出行程平均長度,外出行程終點附近的poi屬性為景點的比例。
采用的計算方法為topsis(techniquefororderpreferencebysimilaritytoanidealsolution)法,其基本原理,是通過檢測評價對象與最優(yōu)解、最劣解的距離來進行排序,若評價對象最靠近最優(yōu)解同時又最遠離最劣解,則為最好;否則不為最優(yōu)。其中最優(yōu)解的各指標(biāo)值都達到各評價指標(biāo)的最優(yōu)值。最劣解的各指標(biāo)值都達到各評價指標(biāo)的最差值。
實施例4:社交喜好判斷
如同為自駕游愛好者推薦興趣相投的伙伴,使用車聯(lián)網(wǎng)的用戶畫像技術(shù)可以為更多的車主提供豐富多樣的社交屬性,例如,可以通過計算識別出來的車主家庭住址和工作地址,為車主推薦附近的順風(fēng)車,從而為限行日的車主提供了更多的出行選擇。
以上所述的實施例,只是本發(fā)明較優(yōu)選的具體實施方式的一種,本領(lǐng)域的技術(shù)人員在本發(fā)明技術(shù)方案范圍內(nèi)進行的通常變化和替換都應(yīng)包含在本發(fā)明的保護范圍內(nèi)。