用于挖掘個(gè)體活動(dòng)模式的設(shè)備和方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及數(shù)據(jù)分析領(lǐng)域,具體涉及一種用于挖掘個(gè)體活動(dòng)模式的設(shè)備和方法。
【背景技術(shù)】
[0002] 個(gè)體活動(dòng)模式是指?jìng)€(gè)體用戶日?;顒?dòng)的特點(diǎn)的和規(guī)律性?;趥€(gè)體的活動(dòng)模式, 可以將與用戶相關(guān)的信息(例如交通信息)自動(dòng)地提供給該用戶。也可以基于個(gè)體的活動(dòng) 模式計(jì)算個(gè)體的相似性,將具有類似活動(dòng)模式的個(gè)體分成一類,從而對(duì)該類個(gè)體推薦信息。
[0003] 現(xiàn)有的個(gè)體活動(dòng)模式挖掘方法是從個(gè)體每天的歷史位置數(shù)據(jù)中找出停留時(shí)間大 于指定閾值的位置作為停留點(diǎn),然后分析該個(gè)體在各個(gè)停留點(diǎn)之間的轉(zhuǎn)移規(guī)律,將頻繁出 現(xiàn)的停留點(diǎn)之間的轉(zhuǎn)移規(guī)律抽取出來作為個(gè)體的活動(dòng)模式。
[0004] 然而,現(xiàn)有方法只考慮停留點(diǎn)之間的位置轉(zhuǎn)移關(guān)系,沒有考慮停留點(diǎn)的停留時(shí)間。 實(shí)際上,停留時(shí)間對(duì)于停留點(diǎn)有非常重要的意義。比如說,一個(gè)在餐館工作的廚師和一個(gè)經(jīng) 常去該餐館吃飯的人可能有相似的歷史軌跡,但是他們?cè)谠摬宛^的停留時(shí)間差別很大。所 以,停留時(shí)間對(duì)于更準(zhǔn)確得分析個(gè)體的活動(dòng)模式具有重要意義。
[0005] 此外,現(xiàn)有挖掘方法沒有考慮如何更合理的劃分歷史軌跡。具體地,現(xiàn)有挖掘方法 通常以固定的時(shí)間長(zhǎng)度作為分析單元(例如一天內(nèi)的軌跡),這樣會(huì)割裂跨固定時(shí)間長(zhǎng)度 (例如跨天)的有意義的個(gè)體活動(dòng)模式。
[0006] 進(jìn)一步地,現(xiàn)有挖掘方法主要是基于歷史的位置轉(zhuǎn)移,挖掘頻繁的位置轉(zhuǎn)移規(guī)律 作為個(gè)體的活動(dòng)模式。然而,個(gè)體的實(shí)際活動(dòng)具有多樣性,即使從事同樣的活動(dòng),其停留點(diǎn) 序列也并不會(huì)每次都完全一樣。例如,一個(gè)學(xué)生大部分時(shí)間的活動(dòng)轉(zhuǎn)移是宿舍_>教室_> 運(yùn)動(dòng)場(chǎng)_>食堂,但他偶爾會(huì)出現(xiàn)宿舍_>教室_>運(yùn)動(dòng)場(chǎng)_>咖啡店,雖然頻率不高?,F(xiàn)有技 術(shù)往往會(huì)將后者忽略。而實(shí)際上兩種活動(dòng)轉(zhuǎn)移是類似的,區(qū)別只是在其中一個(gè)停留點(diǎn)(就 餐位置)上有差異,但不影響該類活動(dòng)的主題。
【發(fā)明內(nèi)容】
[0007] 為了解決上述技術(shù)問題,本發(fā)明考慮個(gè)體在每個(gè)停留點(diǎn)的停留時(shí)間,采用自適應(yīng) 的軌跡切分方法(即根據(jù)目標(biāo)最優(yōu)化的原則)將個(gè)體的個(gè)人歷史軌跡切分成長(zhǎng)度不固定的 具有特定主題的時(shí)空軌跡片段,并采用聚類的方法對(duì)個(gè)體的活動(dòng)序列進(jìn)行分析,從而將相 似但不完全相同的活動(dòng)序列劃分成同一類別。
[0008] 具體地,根據(jù)本發(fā)明的第一方面,提供了一種用于挖掘個(gè)體活動(dòng)模式的設(shè)備,包 括:計(jì)算單元,被配置為根據(jù)個(gè)體的歷史位置數(shù)據(jù)來計(jì)算個(gè)體的停留點(diǎn),形成包含停留時(shí)間 的停留點(diǎn)序列;劃分單元,被配置為根據(jù)個(gè)體活動(dòng)的主題將停留點(diǎn)序列劃分為相應(yīng)的停留 點(diǎn)序列片段;以及聚類單元,被配置為對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行聚類,以獲得個(gè)體活 動(dòng)模式。
[0009] 在一個(gè)實(shí)施例中,所述計(jì)算單元被配置為:對(duì)個(gè)體的歷史位置數(shù)據(jù)進(jìn)行聚類;計(jì) 算個(gè)體在與特定類別相對(duì)應(yīng)的區(qū)域中的停留時(shí)間;以及如果所述停留時(shí)間大于指定閾值, 判斷與所述特定類別相對(duì)應(yīng)的區(qū)域是停留點(diǎn)。
[0010] 在一個(gè)實(shí)施例中,所述劃分單元被配置為:對(duì)每個(gè)停留點(diǎn)的主題分布和邊界劃分 值進(jìn)行初始化;以及迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的 主題分布和所有的邊界劃分值變得穩(wěn)定。
[0011] 在一個(gè)實(shí)施例中,所述聚類單元被配置為:將每一個(gè)停留點(diǎn)序列片段用向量來表 示,并且對(duì)所有的向量進(jìn)行聚類,以獲得個(gè)體活動(dòng)模式。
[0012] 在一個(gè)實(shí)施例中,所述計(jì)算單元被配置為:使用基于密度的聚類算法,對(duì)個(gè)體的歷 史位置數(shù)據(jù)進(jìn)行聚類。
[0013] 在一個(gè)實(shí)施例中,所述劃分單元被配置為:以隨機(jī)方式對(duì)每個(gè)停留點(diǎn)的主題分布 和邊界劃分值進(jìn)行初始化;以及基于特定原則,迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界 劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊界劃分值變得穩(wěn)定。
[0014] 在一個(gè)實(shí)施例中,所述特定原則包括:兩個(gè)停留點(diǎn)的位置越接近,被劃分到同一個(gè) 停留點(diǎn)序列片段中的概率越大;兩個(gè)停留點(diǎn)之間的位置轉(zhuǎn)移規(guī)律越強(qiáng),被劃分到同一個(gè)停 留點(diǎn)序列片段中的概率越大;以及某個(gè)停留點(diǎn)的停留時(shí)間越長(zhǎng),該停留點(diǎn)成為劃分邊界的 概率越大。
[0015] 在一個(gè)實(shí)施例中,所述向量的維數(shù)表示停留點(diǎn)序列片段中的停留點(diǎn)的數(shù)目,所述 向量中每一個(gè)元素表示與該元素相對(duì)應(yīng)的停留點(diǎn)的停留時(shí)間。
[0016] 在一個(gè)實(shí)施例中,所述聚類單元被配置為:使用K一means算法對(duì)所有的向量進(jìn)行 聚類。
[0017] 在一個(gè)實(shí)施例中,所述劃分單元被配置為:使用吉布斯采樣算法,迭代地調(diào)整每個(gè) 停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊界劃分值變得穩(wěn) 定。
[0018] 根據(jù)本發(fā)明的第二方面,提供了一種用于挖掘個(gè)體活動(dòng)模式的方法,包括:根據(jù)個(gè) 體的歷史位置數(shù)據(jù)來計(jì)算個(gè)體的停留點(diǎn),形成包含停留時(shí)間的停留點(diǎn)序列;根據(jù)個(gè)體活動(dòng) 的主題將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片段;以及對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行 聚類,以獲得個(gè)體活動(dòng)模式。
[0019] 在一個(gè)實(shí)施例中,計(jì)算個(gè)體的停留點(diǎn)包括:對(duì)個(gè)體的歷史位置數(shù)據(jù)進(jìn)行聚類;計(jì) 算個(gè)體在與特定類別相對(duì)應(yīng)的區(qū)域中的停留時(shí)間;以及如果所述停留時(shí)間大于指定閾值, 判斷與所述特定類別相對(duì)應(yīng)的區(qū)域是停留點(diǎn)。
[0020] 在一個(gè)實(shí)施例中,將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片段包括:對(duì)每個(gè)停留 點(diǎn)的主題分布和邊界劃分值進(jìn)行初始化;以及迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃 分值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊界劃分值變得穩(wěn)定。
[0021] 在一個(gè)實(shí)施例中,所述聚類包括:將每一個(gè)停留點(diǎn)序列片段用向量來表示,并且對(duì) 所有的向量進(jìn)行聚類,以獲得個(gè)體活動(dòng)模式。
[0022] 在一個(gè)實(shí)施例中,計(jì)算個(gè)體的停留點(diǎn)包括:使用基于密度的聚類算法,對(duì)個(gè)體的歷 史位置數(shù)據(jù)進(jìn)行聚類。
[0023] 在一個(gè)實(shí)施例中,將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片段包括:以隨機(jī)方式 對(duì)每個(gè)停留點(diǎn)的主題分布和邊界劃分值進(jìn)行初始化;以及基于特定原則,迭代地調(diào)整每個(gè) 停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊界劃分值變得穩(wěn) 定。
[0024] 在一個(gè)實(shí)施例中,所述特定原則包括:兩個(gè)停留點(diǎn)的位置越接近,被劃分到同一個(gè) 停留點(diǎn)序列片段中的概率越大;兩個(gè)停留點(diǎn)之間的位置轉(zhuǎn)移規(guī)律越強(qiáng),被劃分到同一個(gè)停 留點(diǎn)序列片段中的概率越大;以及某個(gè)停留點(diǎn)的停留時(shí)間越長(zhǎng),該停留點(diǎn)成為劃分邊界的 概率越大。
[0025] 在一個(gè)實(shí)施例中,所述向量的維數(shù)表示停留點(diǎn)序列片段中的停留點(diǎn)的數(shù)目,所述 向量中每一個(gè)元素表示與該元素相對(duì)應(yīng)的停留點(diǎn)的停留時(shí)間。
[0026] 在一個(gè)實(shí)施例中,對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行聚類包括:使用K一means算法 對(duì)所有的向量進(jìn)行聚類。
[0027] 在一個(gè)實(shí)施例中,使用吉布斯采樣算法,迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊 界劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊界劃分值變得穩(wěn)定。
[0028] 本發(fā)明可以挖掘出非固定長(zhǎng)度內(nèi)的個(gè)體活動(dòng)模式(比如跨天的個(gè)體活動(dòng)模式), 而且能挖掘出更全面的具有代表性的個(gè)體活動(dòng)模式。此外,本發(fā)明還能夠區(qū)分具有不同停 留時(shí)間的活動(dòng)模式。
【附圖說明】
[0029] 通過下文結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其它特征將會(huì)變得更加明顯,其 中:
[0030] 圖1是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于挖掘個(gè)體活動(dòng)模式的設(shè)備的框圖。
[0031] 圖2是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例來計(jì)算停留點(diǎn)的示意圖。
[0032] 圖3-4是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例來劃分停留點(diǎn)序列的示意圖。
[0033] 圖5是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例對(duì)劃分的停留點(diǎn)序列進(jìn)行聚類的示意圖。
[0034] 圖6是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于挖掘個(gè)體活動(dòng)模式的方法的流程圖。
【具體實(shí)施方式】
[0035] 下面,通過結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例的描述,本發(fā)明的原理和實(shí)現(xiàn)將會(huì)變 得明顯。應(yīng)當(dāng)注意的是,本發(fā)明不應(yīng)局限于下文所述的具體實(shí)施例。另外,為了簡(jiǎn)便起見, 省略了與本發(fā)明無關(guān)的公知技術(shù)的詳細(xì)描述。
[0036] 圖1是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于挖掘個(gè)體活動(dòng)模式的設(shè)備的框圖。如 圖1所示,設(shè)備10包括計(jì)算單元110、劃分單元120和聚類單元130。下面,詳細(xì)描述本實(shí) 施例中的設(shè)備10的各個(gè)組件的操作。
[0037] 計(jì)算單元110被配置為根據(jù)個(gè)體的歷史位置數(shù)據(jù)來計(jì)算個(gè)體的停留點(diǎn),以形成包 含停留時(shí)間的停留點(diǎn)序列。例如,個(gè)體的歷史位置數(shù)據(jù)可以包括個(gè)體的位置點(diǎn)的經(jīng)緯度和 相應(yīng)的時(shí)間。
[0038] 在本實(shí)施例中,計(jì)算單元110首先對(duì)個(gè)體的歷史位置數(shù)據(jù)進(jìn)行聚類。然后,計(jì)算單 元110計(jì)算個(gè)體在與特定類別相對(duì)應(yīng)的區(qū)域中的停留時(shí)間。如果停留時(shí)間大于指定閾值, 則計(jì)算單元Iio判斷與特定類別相對(duì)應(yīng)的區(qū)域是停留點(diǎn)。最后,計(jì)算單元Iio可以按照時(shí) 間先后順序?qū)⑼A酎c(diǎn)排成軌跡序列,該軌跡序列包含一系列的停留點(diǎn)以及在該點(diǎn)的停留時(shí) 間。
[0039] 在本申請(qǐng)中,停留點(diǎn)滿足以下條件:個(gè)體在該位置點(diǎn)停留的時(shí)間超過了一定的時(shí) 間閾值,并且該位置和相鄰?fù)A酎c(diǎn)的距離超出了一定的距離閾值。即,停留點(diǎn)區(qū)別于個(gè)體移 動(dòng)過程中的位置點(diǎn),其表示個(gè)體在該位置停留了一定時(shí)間以從事某種活動(dòng)(比如工作、購(gòu) 物、吃飯等)。
[0040] 劃分單元120被配置為根據(jù)個(gè)體活動(dòng)的主題將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn) 序列片段。可以以個(gè)體活動(dòng)的主題進(jìn)行自適應(yīng)的劃分。這樣,劃分后的片段的長(zhǎng)度可能是 不固定的長(zhǎng)度(例如幾個(gè)小時(shí)或者幾天,等等)。
[0041] 劃分單元120執(zhí)行的自適應(yīng)劃分旨在將個(gè)體用戶的軌跡序列劃分成有意義的軌 跡片段。一個(gè)軌跡代表了一些主題構(gòu)成的一個(gè)概率分布,即一個(gè)軌跡由多個(gè)潛在的活動(dòng)主 題(比如工作、上學(xué)、健身等)。而每個(gè)主題又代表了許多停留點(diǎn)所構(gòu)成的一個(gè)概率分布。 對(duì)于不同的主題,所對(duì)應(yīng)的停留點(diǎn)也會(huì)不同。所以,可以根據(jù)停留點(diǎn)的不同來推斷潛在的主 題,并進(jìn)一步推斷主題改變的邊界,即軌跡劃分的切割點(diǎn)。
當(dāng)前第1頁(yè)
1 
2