本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種基于用戶打車數(shù)據(jù)的休息日分類方法及裝置。
背景技術(shù):
隨著城市的發(fā)展、人口規(guī)模的擴大,人類社會活動也變得更加多元化,極大程度上增加了社會各個階層人士對打車的普遍需求。在此情況下,如果能夠利用打車系統(tǒng)中用戶的打車數(shù)據(jù)進行數(shù)據(jù)挖掘,得出用戶的出行規(guī)律,必將為打車軟件的研發(fā)帶來新鮮的血液,并為該打車軟件所屬企業(yè)搶占打車市場的戰(zhàn)略優(yōu)勢。
可以理解的是,用戶的打車活動與休息日是有著密切關(guān)系的。而法定的節(jié)假日卻可能并不是休息日。如果在日歷上記載的節(jié)假日這一天,大多數(shù)的人民群眾需要上班,那么這一天對于打車軟件來說應(yīng)當(dāng)被劃分為工作日,而不是休息日,例如元宵節(jié)、教師節(jié)以及兒童節(jié)等。
因此,如果不考慮休息日對用戶打車出行活動的影響,將會降低對用戶的出行規(guī)律獲取的科學(xué)性和準(zhǔn)確性。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是:如何提供一種基于用戶打車數(shù)據(jù)的休息日分類方法,解決現(xiàn)有的獲取用戶的出行規(guī)律的方法的科學(xué)性和準(zhǔn)確性低的問題。
為此目的,本發(fā)明一方面提出了一種基于用戶打車數(shù)據(jù)的休息日分類方法,所述方法包括:
根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型;
其中,所述休息日分類模型包括休息日樣本向量和工作日樣本向量;
接收待分類的目標(biāo)日的用戶打車數(shù)據(jù);
根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)建立目標(biāo)日向量;
根據(jù)所述目標(biāo)日向量與所述休息日樣本向量的第一相似度和所述目標(biāo)日向量與所述工作日樣本向量的第二相似度的比較結(jié)果判斷所述目標(biāo)日是否是休息日。
可選地,所述根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型,包括:
根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別構(gòu)建所述每一天對應(yīng)的一個第一n維向量;
其中,所述n為根據(jù)打車數(shù)據(jù)的統(tǒng)計周期確定的整數(shù);
根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別繪制所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖;
獲取所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖的休息日標(biāo)定結(jié)果;
分別根據(jù)所述標(biāo)定結(jié)果對應(yīng)的所有休息日向量和所有工作日向量通過歸一化處理方法確定一個n維的所述休息日樣本向量和一個n維的所述工作日樣本向量。
可選地,所述打車歷史數(shù)據(jù)的最小統(tǒng)計周期為1秒。
可選地,所述根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)建立目標(biāo)日向量,包括:
根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)生成一個n維的所述目標(biāo)日向量。
可選地,所述第一相似度和第二相似度的計算方法相同,所述計算方法包括:
內(nèi)積方法、dice系數(shù)方法、jaccard系數(shù)方法以及虛線系數(shù)方法。
可選地,所述根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型之前,所述方法包括:
從打車平臺的數(shù)據(jù)中獲取所述預(yù)設(shè)時間段內(nèi)的用戶打車歷史數(shù)據(jù)樣本。
可選地,所述根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型之后,所述方法還包括:
將所述休息日分類模型封裝成應(yīng)用程序接口;
其中,所述應(yīng)用程序接口的輸入端用于接收所述目標(biāo)日的用戶打車數(shù)據(jù),所述應(yīng)用程序接口的輸出端用于輸出所述目標(biāo)日的休息日分類結(jié)果。
另一方面,本發(fā)明還提供了一種基于用戶打車數(shù)據(jù)的休息日分類裝置,包括:
模型建立單元,用于根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型;
其中,所述休息日分類模型包括休息日樣本向量和工作日樣本向量;
接收單元,用于接收待分類的目標(biāo)日的用戶打車數(shù)據(jù);
目標(biāo)日向量建立單元,用于根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)建立目標(biāo)日向量
判斷單元,用于根據(jù)所述目標(biāo)日向量與所述休息日樣本向量的第一相似度和所述目標(biāo)日向量與所述工作日樣本向量的第二相似度的比較結(jié)果判斷所述目標(biāo)日是否是休息日。
可選地,所述模型建立單元,進一步用于:
根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別構(gòu)建所述每一天對應(yīng)的一個第一n維向量;
其中,所述n為根據(jù)打車數(shù)據(jù)的統(tǒng)計周期確定的整數(shù);
根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別繪制所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖;
獲取所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖的休息日標(biāo)定 結(jié)果;
分別根據(jù)所述標(biāo)定結(jié)果對應(yīng)的所有休息日向量和所有工作日向量通過歸一化處理方法確定一個n維的所述休息日樣本向量和一個n維的所述工作日樣本向量。
可選地,所述目標(biāo)日向量建立單元,進一步用于:
根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)生成一個n維的所述目標(biāo)日向量。
可選地,所述裝置還包括:
獲取單元,用于從打車平臺的數(shù)據(jù)中獲取所述預(yù)設(shè)時間段內(nèi)的用戶打車歷史數(shù)據(jù)樣本。
可選地,所述裝置還包括:
封裝單元,用于將所述休息日分類模型封裝成應(yīng)用程序接口;
其中,所述應(yīng)用程序接口的輸入端用于接收所述目標(biāo)日的用戶打車數(shù)據(jù),所述應(yīng)用程序接口的輸出端用于輸出所述目標(biāo)日的休息日分類結(jié)果。
本發(fā)明所提供的基于用戶打車數(shù)據(jù)的休息日分類方法及裝置,根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型,可以實現(xiàn)根據(jù)目標(biāo)日的用戶打車數(shù)據(jù)判斷該目標(biāo)日是否是休息日,進而可以為后續(xù)用戶打車數(shù)據(jù)挖掘提供基礎(chǔ),提高對用戶的出行規(guī)律獲取的科學(xué)性和準(zhǔn)確性。
附圖說明
為了更清楚地說明本公開實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本公開的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些圖獲得其他的附圖。
圖1是本公開一實施例提供的基于用戶打車數(shù)據(jù)的休息日分類 方法的流程示意圖;
圖2是本公開另一實施例提供的建立休息日分類模型的步驟的流程示意圖;
圖3是本公開一實施例提供的基于用戶打車數(shù)據(jù)的休息日分類裝置的結(jié)構(gòu)框圖;
圖4是本公開另一實施例提供的基于用戶打車數(shù)據(jù)的休息日分類裝置的結(jié)構(gòu)框圖。
具體實施方式
下面將結(jié)合本公開實施例中的附圖,對本公開實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本公開中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本公開保護的范圍。
圖1是本公開一實施例提供的基于用戶打車數(shù)據(jù)的休息日分類方法的流程示意圖;如圖1所示,所述方法包括:
s1:根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型;
其中,所述休息日分類模型包括休息日樣本向量和工作日樣本向量;
s2:接收待分類的目標(biāo)日的用戶打車數(shù)據(jù);
s3:根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)建立目標(biāo)日向量;
s4:根據(jù)所述目標(biāo)日向量與所述休息日樣本向量的第一相似度和所述目標(biāo)日向量與所述工作日樣本向量的第二相似度的比較結(jié)果判斷所述目標(biāo)日是否是休息日。
可以理解的是,用戶打車數(shù)據(jù)包括打車平臺中所記錄的用戶打車訂單量以及訂單產(chǎn)生的時間等數(shù)據(jù)。
本實施例所提供的基于用戶打車數(shù)據(jù)的休息日分類方法,根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型,可以實現(xiàn)根據(jù)目 標(biāo)日的用戶打車數(shù)據(jù)判斷該目標(biāo)日是否是休息日,進而可以為后續(xù)用戶打車數(shù)據(jù)挖掘提供基礎(chǔ),提高對用戶的出行規(guī)律獲取的科學(xué)性和準(zhǔn)確性。
圖2是本公開另一實施例提供的建立休息日分類模型的步驟的流程示意圖;如圖2所示,在上述實施例的基礎(chǔ)上,步驟s1:根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型,可進一步包括:
s11:根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別構(gòu)建所述每一天對應(yīng)的一個第一n維向量;
其中,所述n為根據(jù)打車數(shù)據(jù)的統(tǒng)計周期確定的整數(shù);
s12:根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別繪制所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖;
s13:獲取所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖的休息日標(biāo)定結(jié)果;
s14:分別根據(jù)所述標(biāo)定結(jié)果對應(yīng)的所有休息日向量和所有工作日向量通過歸一化處理方法確定一個n維的所述休息日樣本向量和一個n維的所述工作日樣本向量。
具體來說,該歸一化處理方法即通過計算多個相同維度向量的對應(yīng)元素的平均值,并以各個平均值構(gòu)成一個新的向量。
作為本實施例的優(yōu)選,打車歷史數(shù)據(jù)的最小統(tǒng)計周期的為1秒。可以理解的是,本實施例的打車歷史數(shù)據(jù)的最小統(tǒng)計周期即為每次打車歷史數(shù)據(jù)統(tǒng)計的最小時間間隔。例如,若選取1秒作為打車歷史數(shù)據(jù)的最小統(tǒng)計周期,一天24小時共有86400秒,即n為86400。
在此基礎(chǔ)上,上述步驟s3可優(yōu)選地包括:
s31:根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)生成一個n維的所述目標(biāo)日向量;
上述實施例中的第一相似度和第二相似度可以運用相同的方法 進行計算,例如內(nèi)積方法、dice系數(shù)方法、jaccard系數(shù)方法以及虛線系數(shù)方法等等,本實施例對此不進行限定。
以內(nèi)積方法為例,具體計算過程如下:
工作日樣本向量為:w1={z1,z2,z3,……,zn};
休息日樣本向量為:w2={y1,y2,y3,……,yn};根據(jù)目標(biāo)日的用戶打車數(shù)據(jù)生成的第二n維向量為:x={x1,x2,x3,……,x86400};
則,第一相似度的計算公式為:
第二相似度的計算公式為:
作為上述所有實施例的優(yōu)選,步驟s1之前,所述的方法還可以包括:
s0:從打車平臺的數(shù)據(jù)中獲取所述預(yù)設(shè)時間段內(nèi)的用戶打車歷史數(shù)據(jù)樣本。例如,可以基于結(jié)構(gòu)化查詢語言sql環(huán)境從打車平臺的數(shù)據(jù)中獲取所述預(yù)設(shè)時間段內(nèi)的用戶打車歷史數(shù)據(jù)樣本,本實施例對此不做限定。
進一步地,步驟s1之后,所述的方法還可以包括:
s1’:將所述休息日分類模型封裝成應(yīng)用程序接口;
其中,所述應(yīng)用程序接口的輸入端用于接收所述目標(biāo)日的用戶打車數(shù)據(jù),所述應(yīng)用程序接口的輸出端用于輸出所述目標(biāo)日的休息日分類結(jié)果。
具體地,可以基于beego框架實現(xiàn)將所述休息日分類模型封裝成應(yīng)用程序接口,本方案對此不進行限定。
本實施例所提供的基于用戶打車數(shù)據(jù)的休息日分類方法,提供了休息日分類模型的更具體的建立方案,建立過程步驟簡單,可以高質(zhì) 量的實現(xiàn)根據(jù)目標(biāo)日的用戶打車數(shù)據(jù)判斷該目標(biāo)日是否是休息日,為后續(xù)用戶打車數(shù)據(jù)挖掘提供基礎(chǔ),進一步提高對用戶的出行規(guī)律獲取的科學(xué)性和準(zhǔn)確性。
圖3是本公開一實施例提供的基于用戶打車數(shù)據(jù)的休息日分類裝置的結(jié)構(gòu)框圖;如圖3所示,所述裝置包括:
模型建立單元10,用于根據(jù)預(yù)設(shè)時間內(nèi)的用戶打車歷史數(shù)據(jù)建立休息日分類模型;
其中,所述休息日分類模型包括休息日樣本向量和工作日樣本向量;
接收單元20,用于接收待分類的目標(biāo)日的用戶打車數(shù)據(jù);
目標(biāo)日向量建立單元30,用于根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)建立目標(biāo)日向量;
判斷單元40,用于根據(jù)所述目標(biāo)日向量與所述休息日樣本向量的第一相似度和所述目標(biāo)日向量與所述工作日樣本向量的第二相似度的比較結(jié)果判斷所述目標(biāo)日是否是休息日。
本實施例所述的裝置可以用于執(zhí)行上述方法實施例,其原理和技術(shù)效果類似,此處不再贅述。
模型建立單元10可進一步用于:
根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別構(gòu)建所述每一天對應(yīng)的一個第一n維向量;
其中,所述n為根據(jù)打車數(shù)據(jù)的統(tǒng)計周期確定的整數(shù);
根據(jù)所述預(yù)設(shè)時間段內(nèi)每一天的用戶打車歷史數(shù)據(jù)分別繪制所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖;
獲取所述每一天對應(yīng)的一幅打車歷史數(shù)據(jù)曲線圖的休息日標(biāo)定結(jié)果;
分別根據(jù)所述標(biāo)定結(jié)果對應(yīng)的所有休息日向量和所有工作日向量通過歸一化處理方法確定一個n維的所述休息日樣本向量和一個 n維的所述工作日樣本向量。
作為本實施例的優(yōu)選,目標(biāo)日向量建立單元30可進一步用于:
根據(jù)所述目標(biāo)日的用戶打車數(shù)據(jù)生成一個n維的所述目標(biāo)日向量。
圖4是本公開另一實施例提供的基于用戶打車數(shù)據(jù)的休息日分類裝置的結(jié)構(gòu)框圖;如圖4所示,所述的裝置還可以包括:
獲取單元50,用于基于結(jié)構(gòu)化查詢語言sql環(huán)境從打車平臺的數(shù)據(jù)中獲取所述預(yù)設(shè)時間段內(nèi)的用戶打車歷史數(shù)據(jù)樣本。
在此基礎(chǔ)上,上述裝置還可以包括:
封裝單元60,用于將所述休息日分類模型封裝成應(yīng)用程序接口;
其中,所述應(yīng)用程序接口的輸入端用于接收所述目標(biāo)日的用戶打車數(shù)據(jù),所述應(yīng)用程序接口的輸出端用于輸出所述目標(biāo)日的休息日分類結(jié)果。
本實施例所述的裝置可以用于執(zhí)行上述方法實施例,其原理和技術(shù)效果類似,此處不再贅述。
應(yīng)當(dāng)注意的是,在本公開的系統(tǒng)的各個部件中,根據(jù)其要實現(xiàn)的功能而對其中的部件進行了邏輯劃分,但是,本公開不受限于此,可以根據(jù)需要對各個部件進行重新劃分或者組合,例如,可以將一些部件組合為單個部件,或者可以將一些部件進一步分解為更多的子部件。
本公開的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(dsp)來實現(xiàn)根據(jù)本公開實施例的系統(tǒng)中的一些或者全部部件的一些或者全部功能。本公開還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本公開的程序可以存儲在計算機可讀介質(zhì)上, 或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實施例對本公開進行說明而不是對本公開進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本公開可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
以上實施方式僅適于說明本公開,而并非對本公開的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本公開的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本公開的范疇,本公開的專利保護范圍應(yīng)由權(quán)利要求限定。