欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

估算用戶到物理事件距離的方法與流程

文檔序號(hào):11950789閱讀:208來源:國知局

本發(fā)明屬于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析領(lǐng)域,特別涉及一種估算用戶到物理事件距離的方法。



背景技術(shù):

隨著社交網(wǎng)絡(luò)的發(fā)展,越來越多的用戶將身邊發(fā)生的事情發(fā)布到社交媒體中去(例如:新浪微博、Facebook和Twitter等)。然而,由于涉及個(gè)人隱私,絕大部分用戶不愿意共享自己的位置信息,為了解決用戶信息未知的問題,大量工作面向用戶行為軌跡學(xué)習(xí)與位置預(yù)測展開。

文獻(xiàn)1“專利申請(qǐng)?zhí)柺?01410104399.8的中國發(fā)明專利”公開了一種基于用戶移動(dòng)規(guī)則的位置預(yù)測方法,其通過研究用戶的時(shí)空數(shù)據(jù),挖掘用戶移動(dòng)模式,從歷史移動(dòng)軌跡中發(fā)掘用戶移動(dòng)規(guī)則,解決移動(dòng)用戶位置預(yù)測的快速響應(yīng)與高精度問題。

文獻(xiàn)2“專利申請(qǐng)?zhí)柺?01510073153.3的中國發(fā)明專利”公開了一種位置預(yù)測系統(tǒng),該系統(tǒng)分為三大模塊,輸入、位置預(yù)測以及輸出模塊:輸入模塊用于接受用戶的簽到數(shù)據(jù)或位置預(yù)測請(qǐng)求;位置預(yù)測模塊通過結(jié)合預(yù)測模型與用戶數(shù)據(jù),對(duì)用戶位置進(jìn)行預(yù)測;輸出模塊則用于顯示所述位置預(yù)測結(jié)果。該方法使用概率模型對(duì)用戶的位置進(jìn)行預(yù)測。

除此之外,專利申請(qǐng)?zhí)柺?01310518476.X、201110308289.X和200810218368.X的中國發(fā)明專利都公開了基于用戶歷史軌跡信息的位置預(yù)測方法與系統(tǒng)模型,然而,在現(xiàn)有的方法中,未有提出將用戶的位置與事件的地點(diǎn)進(jìn)行關(guān)聯(lián)的方法,僅通過歷史軌跡對(duì)用戶位置進(jìn)行預(yù)測,所得到的結(jié)果大多為數(shù)據(jù)值型(GPS坐標(biāo)),不能夠面向應(yīng)用提供用戶與現(xiàn)實(shí)事件的關(guān)聯(lián)關(guān)系;由于人的行為特征往往是與社會(huì)事件相互關(guān)聯(lián)的,如何解釋用戶與事件的關(guān)系,通過事件發(fā)生時(shí)的物理、社會(huì)與信息空間上的特征,發(fā)掘用戶與事件的關(guān)聯(lián)關(guān)系在公眾安全、社會(huì)治安管理等應(yīng)用場景有著極其重要的意義。



技術(shù)實(shí)現(xiàn)要素:

為了克服現(xiàn)有預(yù)測用戶到物理事件距離的方法實(shí)用性差的不足,本發(fā)明提供一種估算用戶到物理事件距離的方法。該方法將用戶與事件相關(guān)聯(lián),基于事件發(fā)生的位置,通過比較事件與用戶在物理、信息和社會(huì)三個(gè)特征空間的相似性,并結(jié)合已知位置信息的用戶數(shù)據(jù),構(gòu)建高斯過程回歸模型,對(duì)位置信息未知的用戶到事件的距離進(jìn)行估算。能夠在物理、信息和社會(huì)三個(gè)維度,解釋用戶的移動(dòng)特性,并通過將用戶與事件進(jìn)行關(guān)聯(lián),發(fā)掘用戶更深層的行為規(guī)律與模式,在公眾安全與社會(huì)治安管理等應(yīng)用場景中具有很強(qiáng)的現(xiàn)實(shí)意義。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案:一種估算用戶到物理事件距離的方法,其特點(diǎn)是包括以下步驟:

步驟一、根據(jù)事件的主題關(guān)鍵詞在社交網(wǎng)絡(luò)中篩選用戶,并提取與事件相關(guān)的用戶數(shù)據(jù);

假設(shè)事件的關(guān)鍵詞為EW,發(fā)生的時(shí)間段為ETP,則所有在時(shí)間ETP內(nèi)提及關(guān)鍵詞EW的用戶將會(huì)被篩選為與事件相關(guān)的用戶;針對(duì)這些用戶,使用網(wǎng)絡(luò)爬蟲工具獲取其歷史數(shù)據(jù),構(gòu)建用戶個(gè)體的數(shù)據(jù)模型,表示為公式(1)

RU=〈L,C,F〉 (1)

其中,L表示該用戶的歷史簽到數(shù)據(jù),C表示用戶歷史上發(fā)布的狀態(tài)信息,F(xiàn)表示用戶在社交網(wǎng)絡(luò)中的好友信息。

步驟二、根據(jù)事件發(fā)生時(shí)的位置信息、參與者信息以及事件的主題內(nèi)容,構(gòu)建事件的特征表示模型;

針對(duì)事件在物理、信息和社會(huì)空間三個(gè)方面的特征,結(jié)合事件發(fā)生時(shí)的地理位置信息,參與者信息以及事件主題,構(gòu)建事件的特征表達(dá)模型,其表示為公式(2)

EF=<CM,ET,EA> (2)

其中,CM表示事件在物理空間的特征,其通過提取所有事件參與者的歷史移動(dòng)軌跡,組建群體移動(dòng)特征用于表示事件的物理空間屬性,是所有參與事件的用戶歷史上到事件位置距離的概率分布函數(shù);假設(shè)每個(gè)參與者的歷史簽到序列為PLS,當(dāng)前事件的位置為EL,pdi表示任意一個(gè)PLSi到EL的距離,則計(jì)算出的所有pdi表示某一個(gè)參與者到事件位置的距離分布,那么,所有參與者的pdi構(gòu)成的集合就是參與者群體到事件位置的距離分布,即為群組移動(dòng)特征CM,是一種關(guān)于距離的概率分布函數(shù)。

ET表示事件在信息空間的特征,其通過提取事件的話題與主題詞得到;每名參與者在事件發(fā)生時(shí)期都會(huì)發(fā)布有關(guān)事件話題的狀態(tài),通過提取所有參與者發(fā)布的文本內(nèi)容,并提取關(guān)鍵詞,構(gòu)成關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞,最終構(gòu)成事件在信息空間的特征ET。

EA表示事件在社會(huì)空間的特征,其通過提取參與事件的用戶信息以及他們的社交關(guān)系得到。

步驟三、基于步驟一中與事件相關(guān)的用戶數(shù)據(jù),提取用戶個(gè)體在物理、信息和社會(huì)空間的特征表示模型;

用戶個(gè)體在物理、信息和社會(huì)三個(gè)空間的特征表達(dá)模型通過步驟一中建立的用戶數(shù)據(jù)模型導(dǎo)出,其表示為公式(3)

UF=<IM,HC,RF> (3)

其中,IM通過用戶數(shù)據(jù)中的歷史簽到地點(diǎn)與當(dāng)前事件地點(diǎn)距離度量,表示的是用戶到事件距離的概率分布函數(shù);假設(shè)用戶的歷史簽到地點(diǎn)序列為LS,當(dāng)前事件的位置為EL,di表示地點(diǎn)序列中任意LSi到EL的距離,那么,計(jì)算得到的所有di的概率分布情況則為IM,即一種關(guān)于距離的概率分布函數(shù)。

HC通過提取用戶在社交媒體上的歷史文本得到,表示的是用戶歷史上經(jīng)常提及的文本信息;通過對(duì)歷史文本信息關(guān)鍵詞的提取,構(gòu)建關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞信息,即可對(duì)比事件的話題關(guān)鍵詞特征,計(jì)算二者的相似性。

RF通過提取用戶每條文本信息中與好友的交互信息得到,表示的是用戶近期經(jīng)常溝通的社交好友信息。

步驟四、針對(duì)步驟二、步驟三中構(gòu)建的事件與用戶個(gè)體特征表示模型,定義用戶與事件在物理、信息和社會(huì)三個(gè)特征空間的相似性,基于此構(gòu)建用戶與事件的關(guān)聯(lián)度;

針對(duì)步驟二、步驟三分別構(gòu)建的事件與用戶個(gè)體特征模型,定義這兩個(gè)特征表達(dá)模型在物理、信息和社交空間的相似性,進(jìn)而衡量用戶與事件之間的關(guān)聯(lián)度;針對(duì)用戶u以及事件e,其物理空間相似性表示為公式(4)

<mrow> <mi>M</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>&Element;</mo> <mi>D</mi> </mrow> </munder> <mi>I</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mi>I</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中,IM(d)表示用戶個(gè)體歷史軌跡中相對(duì)事件位置距離的概率分布函數(shù),CM(d)表示事件參與者群體相對(duì)于事件位置距離的概率分布函數(shù),分別對(duì)應(yīng)公式(3)、公式(2)中的IM與CM。該測量值越小,表明指定用戶在物理空間特征上與對(duì)應(yīng)事件相關(guān)性越高。

其次,二者信息空間相似性表示為公式(5)

<mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,C(u)與C(e)分別指代用戶u和事件e在信息空間的特征,即公式(3)和公式(2)中的用戶歷史文本信息HC以及事件發(fā)生時(shí)的主題ET,該公式計(jì)算兩者的余弦相似度,值越大,表明指定用戶在信息空間特征上與對(duì)應(yīng)事件相關(guān)性越高;其中,由于用戶發(fā)布的歷史文本具有時(shí)間先后順序,越靠近當(dāng)前事件發(fā)生的時(shí)間段,其內(nèi)容更能表現(xiàn)用戶當(dāng)前的文本興趣偏好,故在構(gòu)建用戶關(guān)鍵詞特征向量C(u)的時(shí)候考慮到了時(shí)間因素,其表達(dá)如公式(6)和公式(7)

C(u)=〈w1,w2,......,wn> (6)

<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>*</mo> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>e</mi> </msub> <mo>-</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中,wi表示某一維的關(guān)鍵詞權(quán)重,其通過公式(7)計(jì)算得到;其中,wi,j表示第i維關(guān)鍵詞在tj時(shí)刻出現(xiàn)的次數(shù),Te表示事件發(fā)生時(shí)的時(shí)刻,通過計(jì)算,最終得到每一維關(guān)鍵詞的權(quán)重大小,越靠近事件發(fā)生時(shí)發(fā)布的文本關(guān)鍵詞,其權(quán)重越高。

再次,在社會(huì)空間中,用戶u與事件e的相似性表示為公式(8)

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中,S(u)與S(e)分別指代用戶u和事件e在社會(huì)空間的特征,即公式(3)和公式(2)中的用戶近期經(jīng)常交互的好友信息RF以及事件發(fā)生時(shí)的參與者信息EA,該測量值越大,說明指定用戶的好友參與對(duì)應(yīng)事件所占人數(shù)比例越大,即該用戶在社會(huì)空間特征上與對(duì)應(yīng)事件相關(guān)性越高。

最終,用戶與社會(huì)事件的關(guān)聯(lián)度表示為公式(9)

Correlation(u,e)=M(u,e)-1+C(u,e)+S(u,e) (9)

其中,M(u,e),C(u,e)和S(u,e)分別為上述的用戶與事件在物理、信息和社會(huì)特征空間的相似性;由于M(u,e)的值越小,表明用戶與事件相關(guān)性越高,故對(duì)M(u,e)取倒數(shù),使得在構(gòu)建用戶與事件關(guān)聯(lián)度的過程中,最終結(jié)果Correlation(u,e)值越大,表明用戶與事件的關(guān)聯(lián)度越高。

步驟五、基于用戶與事件的關(guān)聯(lián)度,結(jié)合已知位置信息的用戶數(shù)據(jù),訓(xùn)練高斯過程回歸模型,估算位置信息未知的用戶到事件的距離;

通過融合用戶與社會(huì)事件在物理、信息和社會(huì)空間的相似性,即合并公式(4)、公式(5)和公式(6)的計(jì)算結(jié)果,并結(jié)合已知位置信息的用戶數(shù)據(jù)建立高斯過程回歸模型GPR,以用戶與事件的關(guān)聯(lián)度Correlation(u,e)為輸入,以用戶到事件地點(diǎn)的距離為輸出,訓(xùn)練高斯過程回歸模型。并通過模型,基于用戶與事件的關(guān)聯(lián)度,估算位置信息未知的用戶與事件的距離。模型計(jì)算公式如(10)

Distance(uestimate,e)=GPRTrained(Correlation(uestimate,e)) (10)

其中,GPRTrained表示使用已知位置信息的用戶以及對(duì)應(yīng)的用戶事件關(guān)聯(lián)度訓(xùn)練出的高斯過程回歸模型,Correlation(uestimate,e)表示需要估算的用戶,其與事件的關(guān)聯(lián)度,Distance(uestimate,e)表示要估算的用戶到事件距離值的大小。

本發(fā)明的有益效果是:該方法將用戶與事件相關(guān)聯(lián),基于事件發(fā)生的位置,通過比較事件與用戶在物理、信息和社會(huì)三個(gè)特征空間的相似性,并結(jié)合已知位置信息的用戶數(shù)據(jù),構(gòu)建高斯過程回歸模型,對(duì)位置信息未知的用戶到事件的距離進(jìn)行估算。能夠在物理、信息和社會(huì)三個(gè)維度,解釋用戶的移動(dòng)特性,并通過將用戶與事件進(jìn)行關(guān)聯(lián),發(fā)掘用戶更深層的行為規(guī)律與模式,在公眾安全與社會(huì)治安管理等應(yīng)用場景中具有很強(qiáng)的現(xiàn)實(shí)意義。

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作詳細(xì)說明。

附圖說明

圖1是本發(fā)明估算用戶到物理事件距離的方法的流程圖。

具體實(shí)施方式

參照?qǐng)D1。本發(fā)明估算用戶到物理事件距離的方法具體步驟如下:

步驟一、根據(jù)事件的主題關(guān)鍵詞在社交網(wǎng)絡(luò)中篩選用戶,并提取與事件相關(guān)的用戶數(shù)據(jù);

使用事件發(fā)生時(shí)的主題與話題詞作為關(guān)鍵詞,對(duì)比社交網(wǎng)絡(luò)用戶發(fā)布的個(gè)人狀態(tài)信息的內(nèi)容,按照其內(nèi)容是否包含有事件關(guān)鍵詞,將用戶分為兩個(gè)部分:與事件相關(guān)的以及與事件無關(guān)的。本方法只針對(duì)與事件相關(guān)的用戶展開研究,與事件無關(guān)的用戶不作為本方法的研究對(duì)象。假設(shè)事件的關(guān)鍵詞為EW(Event Words),發(fā)生的時(shí)間段為ETP(Event Time Period),則所有在時(shí)間ETP內(nèi)提及關(guān)鍵詞EW的用戶將會(huì)被篩選為與事件相關(guān)的用戶;針對(duì)這些用戶,使用網(wǎng)絡(luò)爬蟲工具獲取其歷史數(shù)據(jù),構(gòu)建用戶個(gè)體的數(shù)據(jù)模型,表示為公式(1)

RU=<L,C,F> (1)

其中,L表示該用戶的歷史簽到數(shù)據(jù)(Location),C表示用戶歷史上發(fā)布的狀態(tài)信息(Contents)以及F表示用戶在社交網(wǎng)絡(luò)中的好友信息(Friends)。

步驟二、根據(jù)事件發(fā)生時(shí)的位置信息、參與者信息以及事件的主題內(nèi)容,構(gòu)建事件的特征表示模型;

針對(duì)事件在物理、信息和社會(huì)空間三個(gè)方面的特征,結(jié)合事件發(fā)生時(shí)的地理位置信息,參與者信息以及事件主題,構(gòu)建事件的特征表達(dá)模型,其表示為公式(2)

EF=<CM,ET,EA> (2)

其中,CM表示事件在物理空間的特征,其通過提取所有事件參與者的歷史移動(dòng)軌跡,組建群體移動(dòng)特征(Collective Mobility)用于表示事件的物理空間屬性,是所有參與事件的用戶歷史上到事件位置距離的概率分布函數(shù);假設(shè)每個(gè)參與者的歷史簽到序列為PLS(Participant Location Sequence),當(dāng)前事件的位置為EL(Event Location),pdi表示任意一個(gè)PLSi到EL的距離,則計(jì)算出的所有pdi表示某一個(gè)參與者到事件位置的距離分布,那么,所有參與者的pdi構(gòu)成的集合就是參與者群體到事件位置的距離分布,即為群組移動(dòng)特征CM,是一種關(guān)于距離的概率分布函數(shù)。

ET表示事件在信息空間的特征,其通過提取事件的話題(Event Topic)與主題詞得到;每名參與者在事件發(fā)生時(shí)期都會(huì)發(fā)布有關(guān)事件話題的狀態(tài),通過提取所有參與者發(fā)布的文本內(nèi)容,并提取關(guān)鍵詞,構(gòu)成關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞,最終構(gòu)成事件在信息空間的特征ET。

EA表示事件在社會(huì)空間的特征,其通過提取參與事件的用戶信息(Event Attendees)以及他們的社交關(guān)系得到。

步驟三、基于步驟一中與事件相關(guān)的用戶數(shù)據(jù),提取用戶個(gè)體在物理、信息和社會(huì)空間的特征表示模型;

用戶個(gè)體在物理、信息和社會(huì)三個(gè)空間的特征表達(dá)模型通過步驟一中建立的用戶數(shù)據(jù)模型導(dǎo)出,其表示為公式(3)

UF=<IM,HC,RF> (3)

其中,IM(Individual Mobility)通過用戶數(shù)據(jù)中的歷史簽到地點(diǎn)(Locations)與當(dāng)前事件地點(diǎn)距離度量,表示的是用戶到事件距離的概率分布函數(shù);假設(shè)用戶的歷史簽到地點(diǎn)序列為LS(Location Sequence),當(dāng)前事件的位置為EL(Event Location),di表示地點(diǎn)序列中任意LSi到EL的距離,那么,計(jì)算得到的所有di的概率分布情況則為IM,即一種關(guān)于距離的概率分布函數(shù)。

HC通過提取用戶在社交媒體上的歷史文本得到,表示的是用戶歷史上經(jīng)常提及的文本信息(Historical Contents);通過對(duì)歷史文本信息關(guān)鍵詞的提取,構(gòu)建關(guān)鍵詞特征向量,每個(gè)維度表示一類關(guān)鍵詞信息,即可對(duì)比事件的話題關(guān)鍵詞特征,計(jì)算二者的相似性。

RF通過提取用戶每條文本信息中與好友的交互信息得到,表示的是用戶近期經(jīng)常溝通的社交好友信息(Recent Friends)。

步驟四、針對(duì)步驟二、步驟三中構(gòu)建的事件與用戶個(gè)體特征表示模型,定義用戶與事件在物理、信息和社會(huì)三個(gè)特征空間的相似性,基于此構(gòu)建用戶與事件的關(guān)聯(lián)度;

針對(duì)步驟二、步驟三分別構(gòu)建的事件與用戶個(gè)體特征模型,定義這兩個(gè)特征表達(dá)模型在物理、信息和社交空間的相似性,進(jìn)而衡量用戶與事件之間的關(guān)聯(lián)度;針對(duì)用戶u以及事件e,其物理空間相似性表示為公式(4)

<mrow> <mi>M</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>&Element;</mo> <mi>D</mi> </mrow> </munder> <mi>I</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mi>I</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中,IM(d)表示用戶個(gè)體歷史軌跡中相對(duì)事件位置距離的概率分布函數(shù),CM(d)表示事件參與者群體相對(duì)于事件位置距離的概率分布函數(shù),分別對(duì)應(yīng)公式(3)、(2)中的IM與CM。該測量值越小,表明指定用戶在物理空間特征上與對(duì)應(yīng)事件相關(guān)性越高。

其次,二者信息空間相似性表示為公式(5)

<mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,C(u)與C(e)分別指代用戶u和事件e在信息空間(Content)的特征,即公式(3)和(2)中的用戶歷史文本信息HC以及事件發(fā)生時(shí)的主題ET,該公式計(jì)算兩者的余弦相似度,值越大,表明指定用戶在信息空間特征上與對(duì)應(yīng)事件相關(guān)性越高;其中,由于用戶發(fā)布的歷史文本具有時(shí)間先后順序,越靠近當(dāng)前事件發(fā)生的時(shí)間段,其內(nèi)容更能表現(xiàn)用戶當(dāng)前的文本興趣偏好,故在構(gòu)建用戶關(guān)鍵詞特征向量C(u)的時(shí)候考慮到了時(shí)間因素,其表達(dá)如公式(6)和(7)

C(u)=<w1,w2,......,wn〉 (6)

<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>*</mo> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>e</mi> </msub> <mo>-</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中wi表示某一維的關(guān)鍵詞權(quán)重,其通過公式(7)計(jì)算可得;其中wi,j表示第i維關(guān)鍵詞在tj時(shí)刻出現(xiàn)的次數(shù),Te表示事件發(fā)生時(shí)的時(shí)刻,通過計(jì)算,最終可得每一維關(guān)鍵詞的權(quán)重大小,越靠近事件發(fā)生時(shí)發(fā)布的文本關(guān)鍵詞,其權(quán)重越高。

再次,在社會(huì)空間中,用戶u與事件e的相似性表示為公式(8)

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中,S(u)與S(e)分別指代用戶u和事件e在社會(huì)空間(Social)的特征,即公式(3)和(2)中的用戶近期經(jīng)常交互的好友信息RF以及事件發(fā)生時(shí)的參與者信息EA,該測量值越大,說明指定用戶的好友參與對(duì)應(yīng)事件所占人數(shù)比例越大,即該用戶在社會(huì)空間特征上與對(duì)應(yīng)事件相關(guān)性越高。

最終,用戶與社會(huì)事件的關(guān)聯(lián)度可以表示為公式(9)

Correlation(u,e)=M(u,e)-1+C(u,e)+S(u,e) (9)

其中,M(u,e),C(u,e)和S(u,e)分別為上述的用戶與事件在物理、信息和社會(huì)特征空間的相似性;由于M(u,e)的值越小,表明用戶與事件相關(guān)性越高,故對(duì)M(u,e)取倒數(shù),使得在構(gòu)建用戶與事件關(guān)聯(lián)度的過程中,最終結(jié)果Correlation(u,e)值越大,表明用戶與事件的關(guān)聯(lián)度越高。

步驟五、基于用戶與事件的關(guān)聯(lián)度,結(jié)合已知位置信息的用戶數(shù)據(jù),訓(xùn)練高斯過程回歸模型,估算位置信息未知的用戶到事件的距離;

通過融合用戶與社會(huì)事件在物理、信息和社會(huì)空間的相似性,即合并公式(4)、(5)和(6)的計(jì)算結(jié)果,并結(jié)合已知位置信息的用戶數(shù)據(jù)建立高斯過程回歸模型(GPR,Gaussian Process Regression),以用戶與事件的關(guān)聯(lián)度Correlation(u,e)為輸入,以用戶到事件地點(diǎn)的距離為輸出,訓(xùn)練高斯過程回歸模型。并通過模型,基于用戶與事件的關(guān)聯(lián)度,估算位置信息未知的用戶與事件的距離。模型計(jì)算公式如(10)

Distance(uestimate,e)=GPRTrained(Correlation(uestimate,e)) (10)

其中,GPRTrained表示使用已知位置信息的用戶以及對(duì)應(yīng)的用戶事件關(guān)聯(lián)度訓(xùn)練出的高斯過程回歸模型,Correlation(uestimate,e)表示需要估算的用戶,其與事件的關(guān)聯(lián)度,Distance(uestimate,e)表示要估算的用戶到事件距離值的大小。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
柞水县| 资阳市| 平安县| 佛山市| 革吉县| 同仁县| 襄汾县| 开阳县| 鄱阳县| 铜梁县| 柳江县| 同仁县| 东乌珠穆沁旗| 都安| 秦皇岛市| 迁西县| 胶州市| 长治县| 永定县| 宜章县| 巴青县| 汕尾市| 朝阳县| 秦安县| 家居| 绥中县| 旅游| 洛浦县| 吴忠市| 竹山县| 大英县| 翁源县| 建始县| 成都市| 西城区| 海口市| 团风县| 福安市| 朝阳区| 剑川县| 德昌县|