本發(fā)明屬于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析領(lǐng)域,特別涉及一種估算用戶到物理事件距離的方法。
背景技術(shù):
隨著社交網(wǎng)絡(luò)的發(fā)展,越來越多的用戶將身邊發(fā)生的事情發(fā)布到社交媒體中去(例如:新浪微博、Facebook和Twitter等)。然而,由于涉及個(gè)人隱私,絕大部分用戶不愿意共享自己的位置信息,為了解決用戶信息未知的問題,大量工作面向用戶行為軌跡學(xué)習(xí)與位置預(yù)測展開。
文獻(xiàn)1“專利申請(qǐng)?zhí)柺?01410104399.8的中國發(fā)明專利”公開了一種基于用戶移動(dòng)規(guī)則的位置預(yù)測方法,其通過研究用戶的時(shí)空數(shù)據(jù),挖掘用戶移動(dòng)模式,從歷史移動(dòng)軌跡中發(fā)掘用戶移動(dòng)規(guī)則,解決移動(dòng)用戶位置預(yù)測的快速響應(yīng)與高精度問題。
文獻(xiàn)2“專利申請(qǐng)?zhí)柺?01510073153.3的中國發(fā)明專利”公開了一種位置預(yù)測系統(tǒng),該系統(tǒng)分為三大模塊,輸入、位置預(yù)測以及輸出模塊:輸入模塊用于接受用戶的簽到數(shù)據(jù)或位置預(yù)測請(qǐng)求;位置預(yù)測模塊通過結(jié)合預(yù)測模型與用戶數(shù)據(jù),對(duì)用戶位置進(jìn)行預(yù)測;輸出模塊則用于顯示所述位置預(yù)測結(jié)果。該方法使用概率模型對(duì)用戶的位置進(jìn)行預(yù)測。
除此之外,專利申請(qǐng)?zhí)柺?01310518476.X、201110308289.X和200810218368.X的中國發(fā)明專利都公開了基于用戶歷史軌跡信息的位置預(yù)測方法與系統(tǒng)模型,然而,在現(xiàn)有的方法中,未有提出將用戶的位置與事件的地點(diǎn)進(jìn)行關(guān)聯(lián)的方法,僅通過歷史軌跡對(duì)用戶位置進(jìn)行預(yù)測,所得到的結(jié)果大多為數(shù)據(jù)值型(GPS坐標(biāo)),不能夠面向應(yīng)用提供用戶與現(xiàn)實(shí)事件的關(guān)聯(lián)關(guān)系;由于人的行為特征往往是與社會(huì)事件相互關(guān)聯(lián)的,如何解釋用戶與事件的關(guān)系,通過事件發(fā)生時(shí)的物理、社會(huì)與信息空間上的特征,發(fā)掘用戶與事件的關(guān)聯(lián)關(guān)系在公眾安全、社會(huì)治安管理等應(yīng)用場景有著極其重要的意義。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有預(yù)測用戶到物理事件距離的方法實(shí)用性差的不足,本發(fā)明提供一種估算用戶到物理事件距離的方法。該方法將用戶與事件相關(guān)聯(lián),基于事件發(fā)生的位置,通過比較事件與用戶在物理、信息和社會(huì)三個(gè)特征空間的相似性,并結(jié)合已知位置信息的用戶數(shù)據(jù),構(gòu)建高斯過程回歸模型,對(duì)位置信息未知的用戶到事件的距離進(jìn)行估算。能夠在物理、信息和社會(huì)三個(gè)維度,解釋用戶的移動(dòng)特性,并通過將用戶與事件進(jìn)行關(guān)聯(lián),發(fā)掘用戶更深層的行為規(guī)律與模式,在公眾安全與社會(huì)治安管理等應(yīng)用場景中具有很強(qiáng)的現(xiàn)實(shí)意義。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案:一種估算用戶到物理事件距離的方法,其特點(diǎn)是包括以下步驟:
步驟一、根據(jù)事件的主題關(guān)鍵詞在社交網(wǎng)絡(luò)中篩選用戶,并提取與事件相關(guān)的用戶數(shù)據(jù);
假設(shè)事件的關(guān)鍵詞為EW,發(fā)生的時(shí)間段為ETP,則所有在時(shí)間ETP內(nèi)提及關(guān)鍵詞EW的用戶將會(huì)被篩選為與事件相關(guān)的用戶;針對(duì)這些用戶,使用網(wǎng)絡(luò)爬蟲工具獲取其歷史數(shù)據(jù),構(gòu)建用戶個(gè)體的數(shù)據(jù)模型,表示為公式(1)
RU=〈L,C,F〉 (1)
其中,L表示該用戶的歷史簽到數(shù)據(jù),C表示用戶歷史上發(fā)布的狀態(tài)信息,F(xiàn)表示用戶在社交網(wǎng)絡(luò)中的好友信息。
步驟二、根據(jù)事件發(fā)生時(shí)的位置信息、參與者信息以及事件的主題內(nèi)容,構(gòu)建事件的特征表示模型;
針對(duì)事件在物理、信息和社會(huì)空間三個(gè)方面的特征,結(jié)合事件發(fā)生時(shí)的地理位置信息,參與者信息以及事件主題,構(gòu)建事件的特征表達(dá)模型,其表示為公式(2)
EF=<CM,ET,EA> (2)
其中,CM表示事件在物理空間的特征,其通過提取所有事件參與者的歷史移動(dòng)軌跡,組建群體移動(dòng)特征用于表示事件的物理空間屬性,是所有參與事件的用戶歷史上到事件位置距離的概率分布函數(shù);假設(shè)每個(gè)參與者的歷史簽到序列為PLS,當(dāng)前事件的位置為EL,pdi表示任意一個(gè)PLSi到EL的距離,則計(jì)算出的所有pdi表示某一個(gè)參與者到事件位置的距離分布,那么,所有參與者的pdi構(gòu)成的集合就是參與者群體到事件位置的距離分布,即為群組移動(dòng)特征CM,是一種關(guān)于距離的概率分布函數(shù)。
ET表示事件在信息空間的特征,其通過提取事件的話題與主題詞得到;每名參與者在事件發(fā)生時(shí)期都會(huì)發(fā)布有關(guān)事件話題的狀態(tài),通過提取所有參與者發(fā)布的文本內(nèi)容,并提取關(guān)鍵詞,構(gòu)成關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞,最終構(gòu)成事件在信息空間的特征ET。
EA表示事件在社會(huì)空間的特征,其通過提取參與事件的用戶信息以及他們的社交關(guān)系得到。
步驟三、基于步驟一中與事件相關(guān)的用戶數(shù)據(jù),提取用戶個(gè)體在物理、信息和社會(huì)空間的特征表示模型;
用戶個(gè)體在物理、信息和社會(huì)三個(gè)空間的特征表達(dá)模型通過步驟一中建立的用戶數(shù)據(jù)模型導(dǎo)出,其表示為公式(3)
UF=<IM,HC,RF> (3)
其中,IM通過用戶數(shù)據(jù)中的歷史簽到地點(diǎn)與當(dāng)前事件地點(diǎn)距離度量,表示的是用戶到事件距離的概率分布函數(shù);假設(shè)用戶的歷史簽到地點(diǎn)序列為LS,當(dāng)前事件的位置為EL,di表示地點(diǎn)序列中任意LSi到EL的距離,那么,計(jì)算得到的所有di的概率分布情況則為IM,即一種關(guān)于距離的概率分布函數(shù)。
HC通過提取用戶在社交媒體上的歷史文本得到,表示的是用戶歷史上經(jīng)常提及的文本信息;通過對(duì)歷史文本信息關(guān)鍵詞的提取,構(gòu)建關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞信息,即可對(duì)比事件的話題關(guān)鍵詞特征,計(jì)算二者的相似性。
RF通過提取用戶每條文本信息中與好友的交互信息得到,表示的是用戶近期經(jīng)常溝通的社交好友信息。
步驟四、針對(duì)步驟二、步驟三中構(gòu)建的事件與用戶個(gè)體特征表示模型,定義用戶與事件在物理、信息和社會(huì)三個(gè)特征空間的相似性,基于此構(gòu)建用戶與事件的關(guān)聯(lián)度;
針對(duì)步驟二、步驟三分別構(gòu)建的事件與用戶個(gè)體特征模型,定義這兩個(gè)特征表達(dá)模型在物理、信息和社交空間的相似性,進(jìn)而衡量用戶與事件之間的關(guān)聯(lián)度;針對(duì)用戶u以及事件e,其物理空間相似性表示為公式(4)
其中,IM(d)表示用戶個(gè)體歷史軌跡中相對(duì)事件位置距離的概率分布函數(shù),CM(d)表示事件參與者群體相對(duì)于事件位置距離的概率分布函數(shù),分別對(duì)應(yīng)公式(3)、公式(2)中的IM與CM。該測量值越小,表明指定用戶在物理空間特征上與對(duì)應(yīng)事件相關(guān)性越高。
其次,二者信息空間相似性表示為公式(5)
其中,C(u)與C(e)分別指代用戶u和事件e在信息空間的特征,即公式(3)和公式(2)中的用戶歷史文本信息HC以及事件發(fā)生時(shí)的主題ET,該公式計(jì)算兩者的余弦相似度,值越大,表明指定用戶在信息空間特征上與對(duì)應(yīng)事件相關(guān)性越高;其中,由于用戶發(fā)布的歷史文本具有時(shí)間先后順序,越靠近當(dāng)前事件發(fā)生的時(shí)間段,其內(nèi)容更能表現(xiàn)用戶當(dāng)前的文本興趣偏好,故在構(gòu)建用戶關(guān)鍵詞特征向量C(u)的時(shí)候考慮到了時(shí)間因素,其表達(dá)如公式(6)和公式(7)
C(u)=〈w1,w2,......,wn> (6)
其中,wi表示某一維的關(guān)鍵詞權(quán)重,其通過公式(7)計(jì)算得到;其中,wi,j表示第i維關(guān)鍵詞在tj時(shí)刻出現(xiàn)的次數(shù),Te表示事件發(fā)生時(shí)的時(shí)刻,通過計(jì)算,最終得到每一維關(guān)鍵詞的權(quán)重大小,越靠近事件發(fā)生時(shí)發(fā)布的文本關(guān)鍵詞,其權(quán)重越高。
再次,在社會(huì)空間中,用戶u與事件e的相似性表示為公式(8)
其中,S(u)與S(e)分別指代用戶u和事件e在社會(huì)空間的特征,即公式(3)和公式(2)中的用戶近期經(jīng)常交互的好友信息RF以及事件發(fā)生時(shí)的參與者信息EA,該測量值越大,說明指定用戶的好友參與對(duì)應(yīng)事件所占人數(shù)比例越大,即該用戶在社會(huì)空間特征上與對(duì)應(yīng)事件相關(guān)性越高。
最終,用戶與社會(huì)事件的關(guān)聯(lián)度表示為公式(9)
Correlation(u,e)=M(u,e)-1+C(u,e)+S(u,e) (9)
其中,M(u,e),C(u,e)和S(u,e)分別為上述的用戶與事件在物理、信息和社會(huì)特征空間的相似性;由于M(u,e)的值越小,表明用戶與事件相關(guān)性越高,故對(duì)M(u,e)取倒數(shù),使得在構(gòu)建用戶與事件關(guān)聯(lián)度的過程中,最終結(jié)果Correlation(u,e)值越大,表明用戶與事件的關(guān)聯(lián)度越高。
步驟五、基于用戶與事件的關(guān)聯(lián)度,結(jié)合已知位置信息的用戶數(shù)據(jù),訓(xùn)練高斯過程回歸模型,估算位置信息未知的用戶到事件的距離;
通過融合用戶與社會(huì)事件在物理、信息和社會(huì)空間的相似性,即合并公式(4)、公式(5)和公式(6)的計(jì)算結(jié)果,并結(jié)合已知位置信息的用戶數(shù)據(jù)建立高斯過程回歸模型GPR,以用戶與事件的關(guān)聯(lián)度Correlation(u,e)為輸入,以用戶到事件地點(diǎn)的距離為輸出,訓(xùn)練高斯過程回歸模型。并通過模型,基于用戶與事件的關(guān)聯(lián)度,估算位置信息未知的用戶與事件的距離。模型計(jì)算公式如(10)
Distance(uestimate,e)=GPRTrained(Correlation(uestimate,e)) (10)
其中,GPRTrained表示使用已知位置信息的用戶以及對(duì)應(yīng)的用戶事件關(guān)聯(lián)度訓(xùn)練出的高斯過程回歸模型,Correlation(uestimate,e)表示需要估算的用戶,其與事件的關(guān)聯(lián)度,Distance(uestimate,e)表示要估算的用戶到事件距離值的大小。
本發(fā)明的有益效果是:該方法將用戶與事件相關(guān)聯(lián),基于事件發(fā)生的位置,通過比較事件與用戶在物理、信息和社會(huì)三個(gè)特征空間的相似性,并結(jié)合已知位置信息的用戶數(shù)據(jù),構(gòu)建高斯過程回歸模型,對(duì)位置信息未知的用戶到事件的距離進(jìn)行估算。能夠在物理、信息和社會(huì)三個(gè)維度,解釋用戶的移動(dòng)特性,并通過將用戶與事件進(jìn)行關(guān)聯(lián),發(fā)掘用戶更深層的行為規(guī)律與模式,在公眾安全與社會(huì)治安管理等應(yīng)用場景中具有很強(qiáng)的現(xiàn)實(shí)意義。
下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作詳細(xì)說明。
附圖說明
圖1是本發(fā)明估算用戶到物理事件距離的方法的流程圖。
具體實(shí)施方式
參照?qǐng)D1。本發(fā)明估算用戶到物理事件距離的方法具體步驟如下:
步驟一、根據(jù)事件的主題關(guān)鍵詞在社交網(wǎng)絡(luò)中篩選用戶,并提取與事件相關(guān)的用戶數(shù)據(jù);
使用事件發(fā)生時(shí)的主題與話題詞作為關(guān)鍵詞,對(duì)比社交網(wǎng)絡(luò)用戶發(fā)布的個(gè)人狀態(tài)信息的內(nèi)容,按照其內(nèi)容是否包含有事件關(guān)鍵詞,將用戶分為兩個(gè)部分:與事件相關(guān)的以及與事件無關(guān)的。本方法只針對(duì)與事件相關(guān)的用戶展開研究,與事件無關(guān)的用戶不作為本方法的研究對(duì)象。假設(shè)事件的關(guān)鍵詞為EW(Event Words),發(fā)生的時(shí)間段為ETP(Event Time Period),則所有在時(shí)間ETP內(nèi)提及關(guān)鍵詞EW的用戶將會(huì)被篩選為與事件相關(guān)的用戶;針對(duì)這些用戶,使用網(wǎng)絡(luò)爬蟲工具獲取其歷史數(shù)據(jù),構(gòu)建用戶個(gè)體的數(shù)據(jù)模型,表示為公式(1)
RU=<L,C,F> (1)
其中,L表示該用戶的歷史簽到數(shù)據(jù)(Location),C表示用戶歷史上發(fā)布的狀態(tài)信息(Contents)以及F表示用戶在社交網(wǎng)絡(luò)中的好友信息(Friends)。
步驟二、根據(jù)事件發(fā)生時(shí)的位置信息、參與者信息以及事件的主題內(nèi)容,構(gòu)建事件的特征表示模型;
針對(duì)事件在物理、信息和社會(huì)空間三個(gè)方面的特征,結(jié)合事件發(fā)生時(shí)的地理位置信息,參與者信息以及事件主題,構(gòu)建事件的特征表達(dá)模型,其表示為公式(2)
EF=<CM,ET,EA> (2)
其中,CM表示事件在物理空間的特征,其通過提取所有事件參與者的歷史移動(dòng)軌跡,組建群體移動(dòng)特征(Collective Mobility)用于表示事件的物理空間屬性,是所有參與事件的用戶歷史上到事件位置距離的概率分布函數(shù);假設(shè)每個(gè)參與者的歷史簽到序列為PLS(Participant Location Sequence),當(dāng)前事件的位置為EL(Event Location),pdi表示任意一個(gè)PLSi到EL的距離,則計(jì)算出的所有pdi表示某一個(gè)參與者到事件位置的距離分布,那么,所有參與者的pdi構(gòu)成的集合就是參與者群體到事件位置的距離分布,即為群組移動(dòng)特征CM,是一種關(guān)于距離的概率分布函數(shù)。
ET表示事件在信息空間的特征,其通過提取事件的話題(Event Topic)與主題詞得到;每名參與者在事件發(fā)生時(shí)期都會(huì)發(fā)布有關(guān)事件話題的狀態(tài),通過提取所有參與者發(fā)布的文本內(nèi)容,并提取關(guān)鍵詞,構(gòu)成關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞,最終構(gòu)成事件在信息空間的特征ET。
EA表示事件在社會(huì)空間的特征,其通過提取參與事件的用戶信息(Event Attendees)以及他們的社交關(guān)系得到。
步驟三、基于步驟一中與事件相關(guān)的用戶數(shù)據(jù),提取用戶個(gè)體在物理、信息和社會(huì)空間的特征表示模型;
用戶個(gè)體在物理、信息和社會(huì)三個(gè)空間的特征表達(dá)模型通過步驟一中建立的用戶數(shù)據(jù)模型導(dǎo)出,其表示為公式(3)
UF=<IM,HC,RF> (3)
其中,IM(Individual Mobility)通過用戶數(shù)據(jù)中的歷史簽到地點(diǎn)(Locations)與當(dāng)前事件地點(diǎn)距離度量,表示的是用戶到事件距離的概率分布函數(shù);假設(shè)用戶的歷史簽到地點(diǎn)序列為LS(Location Sequence),當(dāng)前事件的位置為EL(Event Location),di表示地點(diǎn)序列中任意LSi到EL的距離,那么,計(jì)算得到的所有di的概率分布情況則為IM,即一種關(guān)于距離的概率分布函數(shù)。
HC通過提取用戶在社交媒體上的歷史文本得到,表示的是用戶歷史上經(jīng)常提及的文本信息(Historical Contents);通過對(duì)歷史文本信息關(guān)鍵詞的提取,構(gòu)建關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞信息,即可對(duì)比事件的話題關(guān)鍵詞特征,計(jì)算二者的相似性。
RF通過提取用戶每條文本信息中與好友的交互信息得到,表示的是用戶近期經(jīng)常溝通的社交好友信息(Recent Friends)。
步驟四、針對(duì)步驟二、步驟三中構(gòu)建的事件與用戶個(gè)體特征表示模型,定義用戶與事件在物理、信息和社會(huì)三個(gè)特征空間的相似性,基于此構(gòu)建用戶與事件的關(guān)聯(lián)度;
針對(duì)步驟二、步驟三分別構(gòu)建的事件與用戶個(gè)體特征模型,定義這兩個(gè)特征表達(dá)模型在物理、信息和社交空間的相似性,進(jìn)而衡量用戶與事件之間的關(guān)聯(lián)度;針對(duì)用戶u以及事件e,其物理空間相似性表示為公式(4)
其中,IM(d)表示用戶個(gè)體歷史軌跡中相對(duì)事件位置距離的概率分布函數(shù),CM(d)表示事件參與者群體相對(duì)于事件位置距離的概率分布函數(shù),分別對(duì)應(yīng)公式(3)、(2)中的IM與CM。該測量值越小,表明指定用戶在物理空間特征上與對(duì)應(yīng)事件相關(guān)性越高。
其次,二者信息空間相似性表示為公式(5)
其中,C(u)與C(e)分別指代用戶u和事件e在信息空間(Content)的特征,即公式(3)和(2)中的用戶歷史文本信息HC以及事件發(fā)生時(shí)的主題ET,該公式計(jì)算兩者的余弦相似度,值越大,表明指定用戶在信息空間特征上與對(duì)應(yīng)事件相關(guān)性越高;其中,由于用戶發(fā)布的歷史文本具有時(shí)間先后順序,越靠近當(dāng)前事件發(fā)生的時(shí)間段,其內(nèi)容更能表現(xiàn)用戶當(dāng)前的文本興趣偏好,故在構(gòu)建用戶關(guān)鍵詞特征向量C(u)的時(shí)候考慮到了時(shí)間因素,其表達(dá)如公式(6)和(7)
C(u)=<w1,w2,......,wn〉 (6)
其中wi表示某一維的關(guān)鍵詞權(quán)重,其通過公式(7)計(jì)算可得;其中wi,j表示第i維關(guān)鍵詞在tj時(shí)刻出現(xiàn)的次數(shù),Te表示事件發(fā)生時(shí)的時(shí)刻,通過計(jì)算,最終可得每一維關(guān)鍵詞的權(quán)重大小,越靠近事件發(fā)生時(shí)發(fā)布的文本關(guān)鍵詞,其權(quán)重越高。
再次,在社會(huì)空間中,用戶u與事件e的相似性表示為公式(8)
其中,S(u)與S(e)分別指代用戶u和事件e在社會(huì)空間(Social)的特征,即公式(3)和(2)中的用戶近期經(jīng)常交互的好友信息RF以及事件發(fā)生時(shí)的參與者信息EA,該測量值越大,說明指定用戶的好友參與對(duì)應(yīng)事件所占人數(shù)比例越大,即該用戶在社會(huì)空間特征上與對(duì)應(yīng)事件相關(guān)性越高。
最終,用戶與社會(huì)事件的關(guān)聯(lián)度可以表示為公式(9)
Correlation(u,e)=M(u,e)-1+C(u,e)+S(u,e) (9)
其中,M(u,e),C(u,e)和S(u,e)分別為上述的用戶與事件在物理、信息和社會(huì)特征空間的相似性;由于M(u,e)的值越小,表明用戶與事件相關(guān)性越高,故對(duì)M(u,e)取倒數(shù),使得在構(gòu)建用戶與事件關(guān)聯(lián)度的過程中,最終結(jié)果Correlation(u,e)值越大,表明用戶與事件的關(guān)聯(lián)度越高。
步驟五、基于用戶與事件的關(guān)聯(lián)度,結(jié)合已知位置信息的用戶數(shù)據(jù),訓(xùn)練高斯過程回歸模型,估算位置信息未知的用戶到事件的距離;
通過融合用戶與社會(huì)事件在物理、信息和社會(huì)空間的相似性,即合并公式(4)、(5)和(6)的計(jì)算結(jié)果,并結(jié)合已知位置信息的用戶數(shù)據(jù)建立高斯過程回歸模型(GPR,Gaussian Process Regression),以用戶與事件的關(guān)聯(lián)度Correlation(u,e)為輸入,以用戶到事件地點(diǎn)的距離為輸出,訓(xùn)練高斯過程回歸模型。并通過模型,基于用戶與事件的關(guān)聯(lián)度,估算位置信息未知的用戶與事件的距離。模型計(jì)算公式如(10)
Distance(uestimate,e)=GPRTrained(Correlation(uestimate,e)) (10)
其中,GPRTrained表示使用已知位置信息的用戶以及對(duì)應(yīng)的用戶事件關(guān)聯(lián)度訓(xùn)練出的高斯過程回歸模型,Correlation(uestimate,e)表示需要估算的用戶,其與事件的關(guān)聯(lián)度,Distance(uestimate,e)表示要估算的用戶到事件距離值的大小。