本申請涉及大數(shù)據(jù)移動數(shù)據(jù)分析領(lǐng)域,特別涉及一種集群數(shù)據(jù)分析方法及裝置。
背景技術(shù):
隨著大數(shù)據(jù)技術(shù)的廣泛普及,大數(shù)據(jù)的應(yīng)用在日常生活中十分常見,尤其在數(shù)據(jù)廠商根據(jù)大數(shù)據(jù)的分析將廣告、消息推送等針對性較強(qiáng)的內(nèi)容有目的地推送給最適合的對象,這也是大數(shù)據(jù)的重要應(yīng)用之一。同時,移動數(shù)據(jù)的增多,也就是包含對象的運(yùn)動知識和位置信息的數(shù)據(jù)增多,可以更加有目的對對象銷售產(chǎn)品。利用移動數(shù)據(jù),還可以研究交通擁堵預(yù)測和動物遷徙。但是,在利用移動數(shù)據(jù)對移動對像的模式挖掘中,由于對象數(shù)據(jù)包含的類型多樣性,且對數(shù)據(jù)分析的實(shí)時性要求較高,因此為挖掘移動數(shù)據(jù)的模式帶來了挑戰(zhàn)。
通常挖掘移動數(shù)據(jù)的模式應(yīng)用在例如,交通管理,物流配送和人群檢測。這些需要分析集群的變化情況。而對于集群變化的本質(zhì):一個集群是否對應(yīng)于一組汽車簡單地消失或者集群中的成員遷移到其他集群中,新出現(xiàn)的集群是否反映新的車輛或者是出現(xiàn)新的目標(biāo)群體,或者是現(xiàn)有客戶的喜好轉(zhuǎn)變而產(chǎn)生的。
因此,研究集群變化情況是分析一段時間內(nèi)的集群數(shù)據(jù)變化情況,首先將原始的數(shù)據(jù)劃分為類,才可以以集群為單位研究,再通過不同時間點(diǎn)的集群的區(qū)別判斷其變化。上述也是目前一般的集群數(shù)據(jù)的分析方法。
但是,目前的分析方法在較小數(shù)量的數(shù)據(jù)中應(yīng)用時,得出的結(jié)果與現(xiàn)實(shí)情況的誤差是較小的,當(dāng)數(shù)據(jù)量增多時上述方法的模式分析的結(jié)果與現(xiàn)實(shí)偏差較大,不符合預(yù)期結(jié)果。
因此,如何解決集群數(shù)據(jù)分析方法誤差較大的問題,是本領(lǐng)域技術(shù)人員所關(guān)注的熱點(diǎn)問題。
技術(shù)實(shí)現(xiàn)要素:
本申請的目的是提供一種集群數(shù)據(jù)分析方法及裝置,通過在傳統(tǒng)的分析方法中建立存放異常數(shù)據(jù)的表,再在分類時也將表中的數(shù)據(jù)進(jìn)行分類,以避免丟失具有分析價值的數(shù)據(jù),防止分析過程誤差較大,出現(xiàn)不符合預(yù)期結(jié)果的情況。
為解決上述技術(shù)問題,本申請?zhí)峁┮环N集群數(shù)據(jù)分析方法,包括:
選取預(yù)定時間段內(nèi)的相隔預(yù)定時間間隔的時間點(diǎn)對應(yīng)的移動集群對象數(shù)據(jù);
建立異常數(shù)據(jù)動態(tài)表;
將每個所述時間點(diǎn)的所述移動集群對象數(shù)據(jù)和所述異常數(shù)據(jù)動態(tài)表內(nèi)的異常數(shù)據(jù)點(diǎn)進(jìn)行分類,得到初始分類結(jié)果,將未分類的所述移動集群對象數(shù)據(jù)作為所述異常數(shù)據(jù)點(diǎn)并存儲至異常數(shù)據(jù)動態(tài)表中;
從第一個所述時間點(diǎn)開始,分析每個所述時間點(diǎn)的所述初始分類結(jié)果和所述時間點(diǎn)的前一個所述時間點(diǎn)的所述初始分類結(jié)果的變化,并根據(jù)所述變化的情況對每個所述時間的初始分類結(jié)果進(jìn)行變化情況標(biāo)識,得到分類結(jié)果。
可選的,還包括:
根據(jù)所述分類結(jié)果確定每個所述時間點(diǎn)的類與類之間的關(guān)系,構(gòu)建移動集群模式樹;
根據(jù)所述移動集群模式樹,確定相關(guān)移動集群頻繁信息。
可選的,所述變化情況的標(biāo)識,具體包括:
保留、合并、分離、擴(kuò)張、收縮、消失、出現(xiàn)。
可選的,所述建立異常數(shù)據(jù)動態(tài)表,包括:
建立所述異常數(shù)據(jù)動態(tài)表;
設(shè)置相關(guān)處理參數(shù);其中,所述處理參數(shù)包括動態(tài)變化時間和更新時間。
可選的,所述將分類中沒有歸類的所述移動集群對象數(shù)據(jù)作為所述異常數(shù)據(jù)點(diǎn)并存儲至異常數(shù)據(jù)動態(tài)表中,還包括:
根據(jù)所述處理參數(shù),判斷所述異常數(shù)據(jù)點(diǎn)的存在時間是否超出所述更新時間;
若是,則更新所述異常數(shù)據(jù)點(diǎn)。
本申請還提供一種集群數(shù)據(jù)分析裝置,所述裝置包括:
選取數(shù)據(jù)模塊,用于選取預(yù)定時間段內(nèi)的相隔預(yù)定時間間隔的時間點(diǎn)對應(yīng)的移動集群對象數(shù)據(jù);
建表模塊,用于建立異常數(shù)據(jù)動態(tài)表;
初始分類模塊,用于將每個所述時間點(diǎn)的所述移動集群對象數(shù)據(jù)和所述異常數(shù)據(jù)動態(tài)表內(nèi)的異常數(shù)據(jù)點(diǎn)進(jìn)行分類,得到初始分類結(jié)果,將未分類的所述移動集群對象數(shù)據(jù)作為所述異常數(shù)據(jù)點(diǎn)并存儲至異常數(shù)據(jù)動態(tài)表中;
變化標(biāo)識模塊,用于從第一個所述時間點(diǎn)開始,分析每個所述時間點(diǎn)的所述初始分類結(jié)果和所述時間點(diǎn)的前一個所述時間點(diǎn)的所述初始分類結(jié)果的變化,并根據(jù)所述變化的情況對每個所述時間的初始分類結(jié)果進(jìn)行變化情況標(biāo)識,得到分類結(jié)果。
可選的,還包括:
建樹模塊,用于根據(jù)所述分類結(jié)果確定每個所述時間點(diǎn)的類與類之間的關(guān)系,構(gòu)建移動集群模式樹;
挖掘模塊,用于根據(jù)所述移動集群模式樹,確定相關(guān)移動集群頻繁信息。
可選的,所述建表模塊,包括:
建表單元,用于建立所述異常數(shù)據(jù)動態(tài)表
設(shè)置參數(shù)單元,用于設(shè)置相關(guān)處理參數(shù);其中,所述處理參數(shù)包括動態(tài)變化時間和更新時間。
可選的,所述初始分類模塊,還包括:更新單元,其中,所述更新單元包括:
時間判斷子單元,用于根據(jù)所述處理參數(shù),判斷所述異常數(shù)據(jù)點(diǎn)的存在時間是否超出所述更新時間;
更新子單元,用于當(dāng)所述異常數(shù)據(jù)點(diǎn)的存在時間超出所述更新時間,更新所述異常數(shù)據(jù)點(diǎn)。
由于現(xiàn)有的集群數(shù)據(jù)分析方法,在分類過程中會將所有的未分類的數(shù)據(jù)丟系,但是對于一個時間段的數(shù)據(jù),目前時刻未分類的異常數(shù)據(jù)對于下一時刻的分類結(jié)果是有有益影響。因此,會造成分析結(jié)果誤差較大,描述的現(xiàn)實(shí)情況不符合預(yù)期要求。
因此,本申請所提供的一種集群數(shù)據(jù)分析方法,包括,選取預(yù)定時間段內(nèi)的相隔預(yù)定時間間隔的時間點(diǎn)對應(yīng)的移動集群對象數(shù)據(jù);建立異常數(shù)據(jù)動態(tài)表;將每個所述時間點(diǎn)的所述移動集群對象數(shù)據(jù)和所述異常數(shù)據(jù)動態(tài)表內(nèi)的異常數(shù)據(jù)點(diǎn)進(jìn)行分類,得到初始分類結(jié)果,將未分類的所述移動集群對象數(shù)據(jù)作為所述異常數(shù)據(jù)點(diǎn)并存儲至異常數(shù)據(jù)動態(tài)表中;從第一個所述時間點(diǎn)開始,分析每個所述時間點(diǎn)的所述初始分類結(jié)果和所述時間點(diǎn)的前一個所述時間點(diǎn)的所述初始分類結(jié)果的變化,并根據(jù)所述變化的情況對每個所述時間的初始分類結(jié)果進(jìn)行變化情況標(biāo)識,得到分類結(jié)果。
通過建立可以保存未分類數(shù)據(jù)的異常數(shù)據(jù)動態(tài)表,存儲異常數(shù)據(jù),避免了有用數(shù)據(jù)的丟失,同時在分類中也包含該異常數(shù)據(jù),可以使數(shù)據(jù)分析的過程準(zhǔn)確度更高。本申請還提供了一種集群數(shù)據(jù)分析裝置,具有以上有益效果,在此不做贅述。
附圖說明
為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本申請實(shí)施例提供的集群數(shù)據(jù)分析方法的流程圖;
圖2為本申請實(shí)施例提供的數(shù)據(jù)分析的具體流程圖;
圖3為本申請實(shí)施例提供的分類過程的部分流程圖;
圖4為本申請實(shí)施例提供的分析模式的流程圖;
圖5為本申請實(shí)施例提供的構(gòu)建模式樹圖;
圖6為本申請實(shí)施例提供的建立動態(tài)表的流程圖;
圖7為本申請實(shí)施例提供的更新動態(tài)表的流程圖;
圖8為本申請實(shí)施例提供的集群數(shù)據(jù)分析裝置的框圖;
圖9為本申請實(shí)施例提供的構(gòu)建模式樹的框圖;
圖10為本申請實(shí)施例提供的建表模塊的框圖。
具體實(shí)施方式
本申請的核心是提供一種集群數(shù)據(jù)分析方法,通過建立異常數(shù)據(jù)動態(tài)表,存儲異常數(shù)據(jù)以及更新所存儲的數(shù)據(jù),避免了因丟失有用數(shù)據(jù)而造成的分析結(jié)果誤差較大,提高了分析方法的準(zhǔn)確度。
為使本申請實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。
請參考圖1,圖1為本申請實(shí)施例提供的集群數(shù)據(jù)分析方法的流程圖。
本實(shí)施例可以包括:
s100,選取預(yù)定時間段內(nèi)的相隔預(yù)定時間間隔的時間點(diǎn)對應(yīng)的移動集群對象數(shù)據(jù);
s200,建立異常數(shù)據(jù)動態(tài)表;
需要說明的是,該步驟s100與步驟s200之間沒有聯(lián)系,因此也無執(zhí)行的先后關(guān)系,可以先執(zhí)行步驟s200再執(zhí)行步驟s100,也可以同時執(zhí)行這兩個步驟,在此不做限定。
其中,步驟s100所指的預(yù)定時間段指的是本研究所要分析的時間段,可以由所分析的實(shí)際情況而定。例如,研究的某一段公路晚上5點(diǎn)至7點(diǎn)的車輛的集群數(shù)據(jù),那么應(yīng)選擇包含這一時間段的時間段。也就是說非必須的選擇這一時間段,因?yàn)檠芯康氖亲兓臄?shù)據(jù),對于時間段開始和結(jié)尾的數(shù)據(jù)也要觀察變化情況,所以因在開始和結(jié)尾增加合適的時間預(yù)留長度,以供全面的分析所述時間段內(nèi)的數(shù)據(jù)。
同時,該預(yù)定時間間隔指的是在該時間段中連續(xù)的時間的抽樣點(diǎn)的間隔,可以由所分析的時機(jī)情況決定,但對于時間段的抽樣還有一個重要的參數(shù)是在該時間段內(nèi)的抽樣點(diǎn)的個數(shù),由于需要分析大量的數(shù)據(jù),增加一個點(diǎn)對于所要分析的數(shù)據(jù)量有一定程度的增加,因此需要以合適的抽樣點(diǎn)個數(shù)得出準(zhǔn)確的結(jié)果。例如,需要研究某一段公路晚上5點(diǎn)至7點(diǎn)的車輛的集群數(shù)據(jù),常識可知此時的車流量較大,車速緩慢,可以將抽樣的點(diǎn)數(shù)適當(dāng)減少。而如果研究的是,某一段公路早晨5點(diǎn)至7點(diǎn)的車輛的集群數(shù)據(jù),此時車流量較少,車速較快,帶來的是公路中的車輛變化較快,因此可以將抽樣的點(diǎn)數(shù)適當(dāng)增加。
確定時間點(diǎn)后,選取時間對應(yīng)的移動集群對象數(shù)據(jù)。該移動集群對象數(shù)據(jù)的表示為一個移動對象的在某個時間點(diǎn)移動數(shù)據(jù)信息o:
o=(oid,p(x,y),t)
其中,oid為數(shù)據(jù)類型標(biāo)識符,p(x,y)為該移動對象在時間點(diǎn)t的經(jīng)緯度,x為經(jīng)度,y為緯度,t為該時刻的時間。
定義ω(t),o∈ω,ω(t)為一組移動數(shù)據(jù)對象數(shù)據(jù)的集合,被稱為移動對象位置協(xié)調(diào)集。
對于,步驟s200中所建立的異常數(shù)據(jù)動態(tài)表,在數(shù)據(jù)分析中應(yīng)建立一個數(shù)據(jù)表,可以對數(shù)據(jù)進(jìn)行存儲,修改和刪除等功能。在本實(shí)施例中所建立動態(tài)表名稱為f-list。
s300,將每個所述時間點(diǎn)的所述移動集群對象數(shù)據(jù)和所述異常數(shù)據(jù)動態(tài)表內(nèi)的異常數(shù)據(jù)點(diǎn)進(jìn)行分類,得到初始分類結(jié)果,將未分類的所述移動集群對象數(shù)據(jù)作為所述異常數(shù)據(jù)點(diǎn)并存儲至異常數(shù)據(jù)動態(tài)表中;
需要說明的是對于該移動集群對象數(shù)據(jù)的分類可以使用分類方法進(jìn)行分類,例如,dbscan、knn、k-means,可以根據(jù)數(shù)據(jù)分析的性能要求和結(jié)果準(zhǔn)確度的要求選擇分類方法,在本實(shí)施例中不做限定。
其中,在分類過程中會出現(xiàn)未分類的數(shù)據(jù),需要將其作為異常數(shù)據(jù)保存至異常數(shù)據(jù)動態(tài)表中。同樣的,在對數(shù)據(jù)的分類中的分類對象是所有數(shù)據(jù),也就是說包含待分類的該時間點(diǎn)的數(shù)據(jù)和異常數(shù)據(jù)動態(tài)表中的數(shù)據(jù)。
因此,本申請通過建立可以保存未分類數(shù)據(jù)的異常數(shù)據(jù)動態(tài)表,存儲異常數(shù)據(jù),避免了有用數(shù)據(jù)的丟失,同時在分類中也包含該異常數(shù)據(jù),可以使數(shù)據(jù)分析的過程準(zhǔn)確度更高。
s400,從第一個所述時間點(diǎn)開始,分析每個所述時間點(diǎn)的所述初始分類結(jié)果和所述時間點(diǎn)的前一個所述時間點(diǎn)的所述初始分類結(jié)果的變化,并根據(jù)所述變化的情況對每個所述時間的初始分類結(jié)果進(jìn)行變化情況標(biāo)識,得到分類結(jié)果。
其中,根據(jù)上述過程得到的初始分類結(jié)果是每個時間點(diǎn)的分類結(jié)果,由于是要分析研究集群數(shù)據(jù)對象的演化模式,需要將每個時間點(diǎn)的數(shù)據(jù)的分類結(jié)果聯(lián)系到一起分析得到相關(guān)關(guān)系。因此,需要分析每個時間點(diǎn)的初始分類結(jié)果和該時間點(diǎn)的前一個時間點(diǎn)的初始分類結(jié)果,根據(jù)兩個時間點(diǎn)的初始分類結(jié)果進(jìn)行關(guān)聯(lián)得出分類類別并標(biāo)識變化情況。
在本實(shí)施例中,利用jaccard相似度進(jìn)行判斷兩個相鄰時間點(diǎn)的變化情況,并將此劃分為相應(yīng)的變化情況類別并標(biāo)識。jaccard相似度涉及到置信度的問題,也就是相鄰時間點(diǎn)的集群初始分類結(jié)果中,后一時間點(diǎn)數(shù)據(jù)量與前一時間點(diǎn)數(shù)據(jù)量的相似比例判斷其變化情況。其中,相似度的比例需要以經(jīng)驗(yàn)確定,在此不做限定。
其中,變化情況的類別一般因其分析的數(shù)據(jù)具體情況而定。達(dá)到的數(shù)據(jù)一般都會對應(yīng)現(xiàn)實(shí)的具體問題,而對應(yīng)其問題可以大致確定其數(shù)據(jù)的變化情況,及其變化情況類別。如分析簡單問題,數(shù)據(jù)一般有合并、分離、消失和出現(xiàn)的情況,其變化情況的類別也可以分為這幾類。在此不做限定。
在本實(shí)施例中,選擇的實(shí)際問題是分析道路交通狀況,因此,選用的變化情況的類別有以下七種:survives(保留),merged(合并),splits(分離),expands(擴(kuò)張),shrinks(收縮),disappears(消失)和appears(出現(xiàn))。
請參考圖2,圖2為本申請實(shí)施例提供的數(shù)據(jù)分析的具體流程圖。
其中預(yù)定時間段用t表示,預(yù)定時間間隔用δt表示預(yù)定時間間隔,時間點(diǎn)的初始時間點(diǎn)用t表示。
請參考圖3,圖3為本申請實(shí)施例提供的分類過程的部分流程圖。
其中,對于部分的分類過程的流程如下。由于篇幅限制無法展示完全的分類過程流程圖,而且,在此展示部分處理的流程圖作為示例,完全的流程圖可以根據(jù)此部分流程圖簡單拓展可得。因此,在此不做完全描述。
將時間段內(nèi)的時間點(diǎn)設(shè)置為6個,時間間隔為△t,從t開始也就是t,t+△t,t+2△t,t+3△t,t+4△t,t+5△t這6個時間點(diǎn),對這6個時間點(diǎn)進(jìn)行分類分析。
在t中,將分類后的類用c1,c2,c3,c4區(qū)分,對于這4個類的標(biāo)識為appears(出現(xiàn)),此時有部分無法歸類的點(diǎn)存于異常數(shù)據(jù)動態(tài)表f-list。
在t+△t中,進(jìn)行歸類,此時可發(fā)現(xiàn)在前一時間點(diǎn)的c1,c2合并為一個類c1',所以用merged(合并)進(jìn)行標(biāo)識;c3'的集群數(shù)量比c3規(guī)模擴(kuò)大,用expands(擴(kuò)張)標(biāo)識;c4保持不變所以用survives(保留)標(biāo)識,繼續(xù)將此時無法歸類點(diǎn)存于異常數(shù)據(jù)動態(tài)表f-list。
在t+2△t中,可看到c3',c4合并成一個大類c3”,所以c3”標(biāo)識為merged(合并);與此同時c1'與異常數(shù)據(jù)動態(tài)表中的某個數(shù)據(jù)合并為c1”,此時并不標(biāo)識為merged(合并),而標(biāo)志為expands(擴(kuò)張),繼續(xù)將此時無法歸類點(diǎn)存于異常數(shù)據(jù)動態(tài)表f-list。
在t+3△t中,由于前時間點(diǎn)t+2△t已存滿,所以進(jìn)行更新并繼續(xù)將此時無法歸類點(diǎn)存于異常數(shù)據(jù)動態(tài)表f-list,對應(yīng)此時c1”'與c5是前一時間點(diǎn)c1”分散而成,所以c1”'與c5都標(biāo)識為splits(分離),此時c3”'是前一時間點(diǎn)c3”縮小而成,所以標(biāo)識為shrinks(縮小)。
在t+4△t,c1”'保持不變,標(biāo)識為survives;c3””是前一個時間點(diǎn)c3”'的縮小,標(biāo)識為shrinks(縮小);對于c5,則完全消失了,因此標(biāo)識為disappears(消失),繼續(xù)將此時無法歸類點(diǎn)存于異常數(shù)據(jù)動態(tài)表f-list。
對于t+5△t,c1”'與c3””相對前一時刻并未有出現(xiàn)任何變化,都標(biāo)識為survives(保留)。
請參考圖4和圖5,圖4為本申請實(shí)施例提供的分析模式的流程圖,圖5為本申請實(shí)施例提供的構(gòu)建模式樹圖。
基于上述實(shí)施例,本實(shí)施例還可以包括:
s500,根據(jù)所述分類結(jié)果確定每個所述時間點(diǎn)的類與類之間的關(guān)系,構(gòu)建移動集群模式樹;
s600,根據(jù)所述移動集群模式樹,確定相關(guān)移動集群頻繁信息。
其中,所建立的移動集群模式樹,是根據(jù)每個時間點(diǎn)所標(biāo)識的變化情況的類別進(jìn)行構(gòu)建,從根(root)的第一個空節(jié)點(diǎn)開始,依次插入c1在各個時間點(diǎn)的分類,構(gòu)建第一條枝杈,并標(biāo)明其變化情況。再插入第二個空節(jié)點(diǎn),從第二個空節(jié)點(diǎn)開始構(gòu)建第二條枝杈,依據(jù)分類結(jié)果和變化情況,可知在第二個時間點(diǎn)c2合并到c1中,因此在樹中標(biāo)明變化情況并將過程指明。按此依次構(gòu)建剩余枝杈,形成完整的模式樹。
再聯(lián)系實(shí)際情況,選擇合適的挖掘信息的方式,確定相關(guān)移動集群的頻繁信息,可以得到頻繁出現(xiàn)的關(guān)聯(lián)移動模式。
例如,在實(shí)際交通路段中,選擇立交橋的晚上5點(diǎn)到7點(diǎn)的時間段,根據(jù)分析模式樹,會發(fā)現(xiàn)合并(merged)與擴(kuò)張(expands)頻繁出現(xiàn),依次定義該時間段的車輛情況,對交通調(diào)制有重要指導(dǎo)意義。
請參考圖6,圖6為本申請實(shí)施例提供的建立動態(tài)表的流程圖。
基于上述實(shí)施例,本實(shí)施例的建立異常數(shù)據(jù)動態(tài)表,可以包括:
s210,建立所述異常數(shù)據(jù)動態(tài)表;
s220,設(shè)置相關(guān)處理參數(shù);其中,所述處理參數(shù)包括動態(tài)變化時間和更新時間。
需要說明的是,對該異常數(shù)據(jù)動態(tài)表設(shè)置相關(guān)處理參數(shù)后,異常數(shù)據(jù)動態(tài)表的表示如下:
f-list(τ,θ)
其中τ=t/n,n=1,2,3……表示所選取的應(yīng)該保存的異常數(shù)據(jù)點(diǎn)的某段時間;θ=τ/n,n=1,2,3……表示所選取的應(yīng)該更新的異常數(shù)據(jù)點(diǎn)的存在子時間。
上述參數(shù)可以根據(jù)數(shù)據(jù)和現(xiàn)實(shí)的具體情況做設(shè)置,參數(shù)的數(shù)值影響到后續(xù)分類的掃描的數(shù)據(jù)量和結(jié)果的準(zhǔn)確度,如果數(shù)值過大會使同時存在的數(shù)據(jù)量過多,導(dǎo)致分類掃描的負(fù)載加大,影響數(shù)據(jù)處理的速度,如果數(shù)值過小會使有用的數(shù)據(jù)過早清除,導(dǎo)致后續(xù)分析的結(jié)果誤差較大。因此,以具體情況而定,在此不做具體限定。
在本實(shí)施例中,設(shè)置τ為3,也就是其動態(tài)表存滿3個時間點(diǎn)的數(shù)據(jù),就更新一次數(shù)據(jù),同時設(shè)置θ為2,也就是更新數(shù)據(jù)時將前兩個時間點(diǎn)存儲的數(shù)據(jù)刪除。
請參考圖7,圖7為本申請實(shí)施例提供的更新動態(tài)表的流程圖。
基于上述實(shí)施例,本實(shí)施例,還可以包括:
s321,根據(jù)所述處理參數(shù),判斷所述異常數(shù)據(jù)點(diǎn)的存在時間是否超出所述更新時間;
s322,若是,則更新所述異常數(shù)據(jù)點(diǎn)。
對應(yīng)上述實(shí)施例,在處理過程中需要做相應(yīng)的判斷過程,當(dāng)判斷所述異常數(shù)據(jù)點(diǎn)超出更新時間也就是τ值,則更新前兩個時間點(diǎn)存儲的數(shù)據(jù)。
其中,更新數(shù)據(jù)的方式,是為了避免異常數(shù)據(jù)動態(tài)表中存儲了過多的冗余數(shù)據(jù),而導(dǎo)致分類中的掃描的數(shù)據(jù)量過,使機(jī)器負(fù)載增大,因此,規(guī)定其需要更新的時間,到超時,進(jìn)行更新操作。該更新操作可以是全部刪除,也可以是對比后部分刪除,還可以將超時數(shù)據(jù)存于其他表,供后續(xù)使用,而不是刪除操作。
在本實(shí)施例中,選擇的是對超時的數(shù)據(jù)進(jìn)行刪除操作,為了減少每次需要掃描數(shù)據(jù)的數(shù)據(jù)量,同時減輕機(jī)器負(fù)載。
本申請實(shí)施例提供了一種集群數(shù)據(jù)分析方法,通過建立異常數(shù)據(jù)動態(tài)表,存儲在分類過程中出現(xiàn)的異常數(shù)據(jù),避免了丟失有用數(shù)據(jù)的情況,提高了分析方法的準(zhǔn)確度。
下面對本申請實(shí)施例提供的集群數(shù)據(jù)分析裝置進(jìn)行介紹,下文描述的集群數(shù)據(jù)分析裝置與上文描述的集群數(shù)據(jù)分析方法可相互對應(yīng)參照。
請參考圖8,圖8為本申請實(shí)施例提供的集群數(shù)據(jù)分析裝置的框圖。
本實(shí)施例提供一種集群數(shù)據(jù)分析裝置,可以包括:
選取數(shù)據(jù)模塊100,用于選取預(yù)定時間段內(nèi)的相隔預(yù)定時間間隔的時間點(diǎn)對應(yīng)的移動集群對象數(shù)據(jù);
建表模塊200,用于建立異常數(shù)據(jù)動態(tài)表;
初始分類模塊300,用于將每個所述時間點(diǎn)的所述移動集群對象數(shù)據(jù)和所述異常數(shù)據(jù)動態(tài)表內(nèi)的異常數(shù)據(jù)點(diǎn)進(jìn)行分類,得到初始分類結(jié)果,將未分類的所述移動集群對象數(shù)據(jù)作為所述異常數(shù)據(jù)點(diǎn)并存儲至異常數(shù)據(jù)動態(tài)表中;
變化標(biāo)識模塊400,用于從第一個所述時間點(diǎn)開始,分析每個所述時間點(diǎn)的所述初始分類結(jié)果和所述時間點(diǎn)的前一個所述時間點(diǎn)的所述初始分類結(jié)果的變化,并根據(jù)所述變化的情況對每個所述時間的初始分類結(jié)果進(jìn)行變化情況標(biāo)識,得到分類結(jié)果。
請參考圖9,圖9為本申請實(shí)施例提供的構(gòu)建模式樹的框圖。
基于上述實(shí)施例,本實(shí)施例還可以包括:
建樹模塊500,用于根據(jù)所述分類結(jié)果確定每個所述時間點(diǎn)的類與類之間的關(guān)系,構(gòu)建移動集群模式樹;
挖掘模塊600,用于根據(jù)所述移動集群模式樹,確定相關(guān)移動集群頻繁信息。
請參考圖10,圖10為本申請實(shí)施例提供的建表模塊的框圖。
基于上述實(shí)施例,該建表模塊200可以包括:
建表單元210,用于建立所述異常數(shù)據(jù)動態(tài)表
設(shè)置參數(shù)單元220,用于設(shè)置相關(guān)處理參數(shù);其中,所述處理參數(shù)包括動態(tài)變化時間和更新時間。
基于上述實(shí)施例,本實(shí)施例還可以包括:更新單元,其中,該更新單元可以包括:
時間判斷子單元,用于根據(jù)所述處理參數(shù),判斷所述異常數(shù)據(jù)點(diǎn)的存在時間是否超出所述更新時間;
更新子單元,用于當(dāng)所述異常數(shù)據(jù)點(diǎn)的存在時間超出所述更新時間,更新所述異常數(shù)據(jù)點(diǎn)。
說明書中各個實(shí)施例采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似部分互相參見即可。對于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進(jìn)一步意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本申請的范圍。
結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
以上對本申請所提供的一種集群數(shù)據(jù)分析方法及裝置進(jìn)行了詳細(xì)介紹。本文中應(yīng)用了具體個例對本申請的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請的方法及其核心思想。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請?jiān)淼那疤嵯?,還可以對本申請進(jìn)行若干改進(jìn)和修飾,這些改進(jìn)和修飾也落入本申請權(quán)利要求的保護(hù)范圍內(nèi)。