本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種種子用戶確定方法。
背景技術(shù):
隨著web2.0技術(shù)和在線社交網(wǎng)絡(luò)的出現(xiàn)和迅猛發(fā)展,人們使用互聯(lián)網(wǎng)的方式發(fā)生了深刻變革——由單純的網(wǎng)頁瀏覽和信息搜索轉(zhuǎn)向各類社交網(wǎng)絡(luò)上社會關(guān)系的構(gòu)建與維護(hù)、基于社會關(guān)系的信息發(fā)布、交流和共享。社會影響力是社交網(wǎng)絡(luò)中常見的一種現(xiàn)象,具體是指由于用戶、組織或者社區(qū)與其他用戶、組織或者社區(qū)等具有社交關(guān)系,導(dǎo)致自身行為隨其他用戶、組織或者社區(qū)變化而變化的一種現(xiàn)象。通過對社交網(wǎng)絡(luò)中節(jié)點(diǎn)、用戶等個(gè)體的影響力進(jìn)行分析,可以發(fā)現(xiàn)社交網(wǎng)絡(luò)中的具有重要影響力的種子用戶,可用于企業(yè)商業(yè)營銷、廣告定向投放、言論渠道推薦、輿情監(jiān)控等諸多領(lǐng)域。
目前的一些研究中將種子用戶確定的問題轉(zhuǎn)化為對其他用戶偏好影響力最大化問題,提出了一種貪心算法對該問題進(jìn)行求解,即每一步都選擇當(dāng)前對其他用戶偏好最具影響力的用戶作為當(dāng)前最高影響力用戶,直到將所有數(shù)據(jù)枚舉完時(shí)的當(dāng)前最高影響力用戶作為種子用戶。
現(xiàn)有技術(shù)確定種子用戶的效率不高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種種子用戶確定方法,包括:
根據(jù)預(yù)設(shè)的區(qū)域從屬關(guān)系確定a個(gè)最小簽到區(qū)域,其中,所述a為大于等于1的整數(shù);
針對每個(gè)所述最小簽到區(qū)域,獲取所述最小簽到區(qū)域?qū)?yīng)的簽到用戶和所述簽到用戶的偏好話題;
獲取所述最小簽到區(qū)域的第一影響力列表,所述第一影響力列表包含針對所述偏好話題對應(yīng)的簽到用戶的影響用戶,以及所述影響用戶對所述簽到用戶的影響力值;
根據(jù)查詢區(qū)域、多個(gè)查詢話題和所述區(qū)域從屬關(guān)系,獲取b個(gè)子覆蓋區(qū)域;每個(gè)所述子覆蓋區(qū)域包含一個(gè)最小簽到區(qū)域,和/或,每個(gè)所述子覆蓋區(qū)域包含d個(gè)最小簽到區(qū)域的部分簽到位置;其中,所述最小簽到區(qū)域?qū)?yīng)簽到用戶的偏好話題,所述偏好話題包含x個(gè)所述查詢話題;所述最小簽到區(qū)域的部分簽到位置對應(yīng)簽到用戶的偏好話題,所述偏好話題包含y個(gè)所述查詢話題,所述b為大于等于2的整數(shù),所述d、x、y分別為大于等于1的整數(shù);
針對每個(gè)子覆蓋區(qū)域,獲取所述每個(gè)子覆蓋區(qū)域針對所述查詢話題的第二影響力列表,并獲取第二影響力列表中針對查詢話題的影響力值最大的第二影響力值;
根據(jù)獲取的b個(gè)第二影響力值確定所述查詢區(qū)域的第一影響力閾值;
獲取最大的第二影響力值對應(yīng)的影響用戶在所述查詢區(qū)域的第三影響力值;
從歷史獲取的第三影響力值中確定最大第三影響力值,并確定所述最大第三影響力值是否大于或等于所述第一影響力閾值:
若所述最大第三影響力值大于或等于所述第一影響力閾值,則獲取所述當(dāng)前最大第三影響力值對應(yīng)的影響用戶為第一種子用戶。
進(jìn)一步地,還包括:若所述最大第三影響力值小于所述第一影響力閾值,則對所述第二影響力列表進(jìn)行第一類更新;
根據(jù)進(jìn)行第一類更新后的第二影響力列表,執(zhí)行所述獲取在第二影響力列表中針對查詢話題的影響力值最大的第二影響力值,直到獲取到所述第一種子用戶。
進(jìn)一步地,還包括:在獲取所述第一種子用戶之后,從所述第二影響力列表中刪除已獲取的種子用戶獲得新的第二影響力列表,所述已獲取的種子用戶包含所述第一種子用戶;
根據(jù)新的第二影響力列表獲取第二影響力列表中針對查詢話題的影響力值最大的第四影響力值,
以獲取的b個(gè)第四影響力值之和為所述查詢區(qū)域的第二影響力閾值;
獲取所述最大的第四影響力值對應(yīng)的影響用戶在所述查詢區(qū)域的第五影響力值,并將所述第五影響力值確定為初始狀態(tài);從歷史獲取的第五影響力值中確定最大第五影響力值,并確定所述最大第五影響力值是否大于等于所述第二影響力閾值,
若所述最大第五影響力值小于所述第二影響力閾值,則執(zhí)行所述獲取最大的第四影響力值對應(yīng)的影響用戶在所述查詢區(qū)域的第五影響力值,
若所述最大第五影響力值大于等于所述第二影響力閾值,則檢測所述最大第五影響力值的狀態(tài),
若所述最大第五影響力值為初始狀態(tài),則更新所述最大第五影響力值為估計(jì)狀態(tài),執(zhí)行所述從歷史獲取的第五影響力值中確定最大第五影響力值,
若所述最大第五影響力值為估計(jì)狀態(tài),則更新所述最大第五影響力值為準(zhǔn)確狀態(tài),執(zhí)行所述從歷史獲取的第五影響力值中確定最大第五影響力值,
若所述最大第五影響力值為準(zhǔn)確狀態(tài),則獲取所述最大第五影響力值對應(yīng)的影響用戶為后續(xù)種子用戶,刪除所述歷史獲取的第五影響力值中所述已獲取的種子用戶對應(yīng)的第五影響力值,執(zhí)行所述從所述第二影響力列表中刪除已獲取的種子用戶獲得新的第二影響力列表,直到獲取所述后續(xù)種子用戶的數(shù)量滿足qk-1,所述qk為查詢個(gè)數(shù)。
進(jìn)一步地,所述獲取所述最小簽到區(qū)域的第一影響力列表具體包括:
根據(jù)獲取的針對所述偏好話題的簽到用戶獲取所述影響用戶;
根據(jù)所述影響用戶u對所述簽到用戶v的影響因子p(u,v)、所述簽到用戶v對所述最小簽到區(qū)域的偏好值γ(v,rj)以及所述簽到用戶v對所述話題t的偏好值
進(jìn)一步地,所述針對每個(gè)子覆蓋區(qū)域,獲取所述每個(gè)子覆蓋區(qū)域的第二影響力列表具體包括:
若所述子覆蓋區(qū)域包含一個(gè)針對查詢話題的最小簽到區(qū)域,則確定所述第二影響力列表包括:針對所述查詢話題的簽到用戶的影響用戶,以及所述影響用戶對所述簽到用戶針對所述查詢話題的影響力值;
若所述子覆蓋區(qū)域包含d個(gè)針對查詢話題的最小簽到區(qū)域的部分簽到位置,則確定所述第二影響力列表包括:在所述部分簽到位置針對所述查詢話題的簽到用戶的影響用戶,以及所述影響用戶對所述簽到用戶針對所述查詢話題的影響力值。
進(jìn)一步地,所述根據(jù)獲取的b個(gè)第二影響力值確定所述查詢區(qū)域的第一影響力閾值具體包括:對獲取的b個(gè)第二影響力值求和獲得所述第一影響力閾值。
進(jìn)一步地,所述對所述第二影響力列表進(jìn)行第一類更新具體包括:從所述第二影響力列表中刪除當(dāng)前的所述第二影響力值。
進(jìn)一步地,所述更新所述最大第五影響力值為估計(jì)狀態(tài)的同時(shí)還包括:
將所述最大第五影響力值更新為
進(jìn)一步地,所述更新所述最大第五影響力值為準(zhǔn)確狀態(tài)的同時(shí)還包括:
將所述最大第五影響力值更新為σst({u∪s},q)-σst(s,q),其中所述σst({u∪s},q)為已確定的種子用戶集合s和估計(jì)狀態(tài)的所述最大第五影響力對應(yīng)的影響用戶u在查詢區(qū)域針對查詢話題的影響力值,所述σst(s,q)為種子用戶集合s對查詢區(qū)域和查詢話題的影響力值,q為包含查詢區(qū)域qr和查詢話題qt的查詢條件。
進(jìn)一步地,所述根據(jù)預(yù)設(shè)的區(qū)域從屬關(guān)系確定a個(gè)最小簽到區(qū)域包括:
以所述區(qū)域從屬關(guān)系作為樹形節(jié)點(diǎn)的層級關(guān)系確定一樹形索引,所述樹形節(jié)點(diǎn)存儲所述最小簽到區(qū)域、所述最小簽到區(qū)域?qū)?yīng)簽到用戶的偏好話題和至少一指向文檔的指針,所述指針指向的文檔包含所述最小簽到區(qū)域?qū)?yīng)的簽到用戶、所述簽到用戶的總簽到次數(shù)、所述簽到用戶在所述最小簽到區(qū)域中的簽到次數(shù)、所述簽到用戶的偏好話題及所述用戶對所述偏好話題的偏好值。
本發(fā)明獲取每個(gè)子覆蓋區(qū)域針對查詢話題的影響力值最大的第二影響力值;根據(jù)獲取的b個(gè)第二影響力值確定第一影響力閾值;獲取最大的第二影響力值對應(yīng)的影響用戶在查詢區(qū)域的第三影響力值;從歷史第三影響力值中確定最大第三影響力值,若最大第三影響力值大于或等于第一影響力閾值,
則獲取最大第三影響力值對應(yīng)的影響用戶為第一種子用戶。本發(fā)明通過上述方法提高了確定種子用戶的效率。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明的一種種子用戶確定方法流程圖;
圖2為本發(fā)明的一種區(qū)域從屬關(guān)系的實(shí)施例;
圖3為本發(fā)明的后續(xù)種子用戶確定方法流程圖;
圖4為以預(yù)設(shè)的區(qū)域從屬關(guān)系作為樹形節(jié)點(diǎn)的層級關(guān)系確定的樹形索引結(jié)構(gòu)。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明的一種種子用戶確定方法流程圖。如圖1所示,本發(fā)明提供了一種種子用戶確定方法,包括:
s110,根據(jù)預(yù)設(shè)的區(qū)域從屬關(guān)系確定a個(gè)最小簽到區(qū)域,其中,所述a為大于等于1的整數(shù)。
圖2為本發(fā)明的一種區(qū)域從屬關(guān)系的實(shí)施例。圖2中以矩形框范圍劃分所示的區(qū)域從屬關(guān)系,每個(gè)矩形框?yàn)橐话浞秶鷥?nèi)所有簽到位置的最小簽到區(qū)域。具體地,如圖2所示,r3是指包含簽到位置l0、l1、l2的最小簽到區(qū)域,而r3又進(jìn)一步包含r7和r8。r8是由簽到位置l0、l2組成的最小簽到區(qū)域。r7是由簽到位置l1組成的最小簽到區(qū)域。
本實(shí)施例中s110依據(jù)預(yù)設(shè)的所述區(qū)域從屬關(guān)系來對包含簽到位置的最小簽到區(qū)域進(jìn)行確定。該區(qū)域從屬關(guān)系中簽到位置和最小簽到區(qū)域的劃分可以不與實(shí)際地理位置完全對應(yīng),例如最小簽到區(qū)域r8包含的簽到位置l0為北京,l2為巴基斯坦;r7包含的簽到位置l1為南昌。
s120,針對每個(gè)所述最小簽到區(qū)域,獲取所述最小簽到區(qū)域?qū)?yīng)的簽到用戶和所述簽到用戶的偏好話題。
步驟s120中根據(jù)最小簽到區(qū)域可以獲得最小簽到區(qū)域中的簽到用戶,而根據(jù)簽到用戶則可以對應(yīng)獲得該用戶對應(yīng)的偏好話題和其他信息,參見表1.表1為本發(fā)明的一種簽到用戶信息表。
表1
s130,獲取所述最小簽到區(qū)域的第一影響力列表,所述第一影響力列表包含針對所述偏好話題對應(yīng)的簽到用戶的影響用戶,以及所述影響用戶對所述簽到用戶的影響力值。
s130中所述獲取所述最小簽到區(qū)域的第一影響力列表具體包括:
根據(jù)獲取的針對所述偏好話題的簽到用戶獲取所述影響用戶;
根據(jù)所述影響用戶u對所述簽到用戶v的影響因子p(u,v)、所述簽到用戶v對所述最小簽到區(qū)域的偏好值γ(v,rj)以及所述簽到用戶v對所述話題t的偏好值
對于每個(gè)最小簽到區(qū)域ri,其中的偏好話題t∈ri.ts都中第一影響力列表
可選地,其中
可選地,為每個(gè)用戶u存儲一個(gè)索引列表
s140,根據(jù)查詢區(qū)域、多個(gè)查詢話題和所述區(qū)域從屬關(guān)系,獲取b個(gè)子覆蓋區(qū)域;每個(gè)所述子覆蓋區(qū)域包含一個(gè)最小簽到區(qū)域,和/或,每個(gè)所述子覆蓋區(qū)域包含d個(gè)最小簽到區(qū)域的部分簽到位置;其中,所述最小簽到區(qū)域?qū)?yīng)簽到用戶的偏好話題,所述偏好話題包含x個(gè)所述查詢話題;所述最小簽到區(qū)域的部分簽到位置對應(yīng)簽到用戶的偏好話題,所述偏好話題包含y個(gè)所述查詢話題,所述b為大于等于2的整數(shù),所述d、x、y分別為大于等于1的整數(shù)。
具體地,給定查詢條件q={qr,qt,qk},qr為查詢區(qū)域,qt為查詢話題,qk為查詢個(gè)數(shù)。首先從圖2所示的區(qū)域從屬關(guān)系的r0開始遍歷該區(qū)域從屬關(guān)系,并找到由被查詢條件完全覆蓋的一個(gè)最小簽到區(qū)域構(gòu)成的子覆蓋區(qū)域rq={r1,...,ri,...rn},其中,子覆蓋區(qū)域
s151,針對每個(gè)子覆蓋區(qū)域,獲取所述每個(gè)子覆蓋區(qū)域針對所述查詢話題的第二影響力列表。
若所述子覆蓋區(qū)域包含一個(gè)針對查詢話題的最小簽到區(qū)域,則確定所述第二影響力列表包括:針對所述查詢話題的簽到用戶的影響用戶,以及所述影響用戶對所述簽到用戶針對所述查詢話題的影響力值。對子覆蓋區(qū)域ri∈rq,每個(gè)子覆蓋區(qū)域ri對應(yīng)獲得一與第一影響力列表相同的第二影響力列表
其中,
在如圖2所示的區(qū)域從屬關(guān)系中,查詢條件q的查詢區(qū)域?qū)12、r6完全覆蓋,若查詢話題分別與r12、r6的交集不為空集,則r12、r6為兩個(gè)所述子覆蓋區(qū)域。
若所述子覆蓋區(qū)域包含d個(gè)針對查詢話題的最小簽到區(qū)域的部分簽到位置,則確定所述第二影響力列表包括:在所述部分簽到位置針對所述查詢話題的簽到用戶的影響用戶,以及所述影響用戶對所述簽到用戶針對所述查詢話題的影響力值。對于子覆蓋區(qū)域r0,獲得由多個(gè)二元組
p(u,v)是影響用戶u對偏好子覆蓋區(qū)域r0的簽到用戶v的影響因子,
在如圖2所示的區(qū)域從屬關(guān)系中,查詢條件q的查詢區(qū)域?qū)9的部分簽到位置(簽到位置l5)覆蓋,獲取簽到位置l5上簽到用戶的偏好話題,若查詢話題與l5上簽到用戶的偏好話題的交集不為空集,則l5包含于所述子覆蓋區(qū)域r0中??蛇x地,第二影響力列表
在一種可選的實(shí)施例中包含b=3個(gè)子覆蓋區(qū)域。表2為一種3個(gè)子覆蓋區(qū)域?qū)?yīng)獲取的3個(gè)第二影響力列表的示例。第二影響力列表中按照
表2
s152,獲取第二影響力列表中針對查詢話題的影響力值最大的第二影響力值。
對于b個(gè)第二影響力列表
s160,根據(jù)獲取的b個(gè)第二影響力值確定所述查詢區(qū)域的第一影響力閾值
作為一種可選的第一影響力閾值計(jì)算方法,包括以獲取的所述b個(gè)第二影響力值求和獲得所述第一影響力閾值
表2中首次獲取的第二影響力值10、30、50對應(yīng)的首次獲取的第一影響力閾值為90。
s170,獲取最大的第二影響力值對應(yīng)的影響用戶在所述查詢區(qū)域的第三影響力值。
具體地,獲取
由于第二影響力列表
s180,從歷史獲取的第三影響力值中確定最大第三影響力值,并確定所述最大第三影響力值是否大于或等于所述第一影響力閾值。
可選地,動態(tài)優(yōu)先隊(duì)列
s181,若所述最大第三影響力值大于或等于所述第一影響力閾值,則獲取所述當(dāng)前最大第三影響力值對應(yīng)的影響用戶為第一種子用戶。結(jié)束第一種子用戶的獲取流程。
圖3為本發(fā)明的后續(xù)種子用戶確定方法流程圖。
如圖3所示,還包括s182,若所述最大第三影響力值小于所述第一影響力閾值,則對所述第二影響力列表進(jìn)行第一類更新;根據(jù)進(jìn)行第一類更新后的第二影響力列表,執(zhí)行s152所述獲取在第二影響力列表中針對查詢話題的影響力值最大的第二影響力值,直到獲取到所述第一種子用戶。
可選地,所述對所述第二影響力列表進(jìn)行第一類更新具體包括:從所述第二影響力列表中刪除當(dāng)前的所述第二影響力值。
由于后續(xù)種子用戶可能與當(dāng)前已獲得的種子用戶集合有共同的影響力,因此,需要對如何選擇第一個(gè)種子用戶和如何選擇后續(xù)種子用戶分別求解。
在查詢個(gè)數(shù)大于1的情況下,在獲取所述第一種子用戶之后還包括:
s210,從所述第二影響力列表中刪除已獲取的種子用戶獲得新的第二影響力列表,所述已獲取的種子用戶包含所述第一種子用戶。
s220,根據(jù)新的第二影響力列表獲取第二影響力列表中針對查詢話題的影響力值最大的第四影響力值。
對于第二影響力列表
s230,以獲取的b個(gè)第四影響力值之和為所述查詢區(qū)域的第二影響力閾值。
s240,獲取所述最大的第四影響力值對應(yīng)的影響用戶在所述查詢區(qū)域的第五影響力值,并將所述第五影響力值確定為初始狀態(tài)。本步驟的計(jì)算方法參見前述步驟s170。將最大第四影響力值對應(yīng)的影響用戶和其在查詢區(qū)域上的第五影響力值σst(u,qr)加入一動態(tài)優(yōu)先隊(duì)列
s250,從歷史獲取的第五影響力值中確定最大第五影響力值,并確定所述最大第五影響力值是否大于等于所述第二影響力閾值。
可選地,動態(tài)優(yōu)先隊(duì)列
若所述最大第五影響力值小于所述第二影響力閾值,則執(zhí)行s240,
若所述最大第五影響力值大于等于所述第二影響力閾值,則進(jìn)入s260。
如圖3所示,s260進(jìn)一步包括:
s261,檢測所述最大第五影響力值的狀態(tài).
s262,若所述最大第五影響力值為初始狀態(tài),則更新所述最大第五影響力值為估計(jì)狀態(tài),執(zhí)行s250。
具體地,所述更新所述最大第五影響力值為估計(jì)狀態(tài)的同時(shí)還包括:
將所述最大第五影響力值更新為
s263,若所述最大第五影響力值為估計(jì)狀態(tài),則更新所述最大第五影響力值為準(zhǔn)確狀態(tài),執(zhí)行s250。
具體地,所述更新所述最大第五影響力值為準(zhǔn)確狀態(tài)的同時(shí)還包括:
將所述最大第五影響力值更新為σst({u∪s},q)-σst(s,q),其中所述σst({u∪s},q)為已確定的種子用戶集合s和估計(jì)狀態(tài)的所述最大第五影響力對應(yīng)的影響用戶u在查詢區(qū)域針對查詢話題的影響力值,所述σst(s,q)為種子用戶集合s對查詢區(qū)域和查詢話題的影響力值,q為包含查詢區(qū)域qr和查詢話題qt的查詢條件。
s264,若所述最大第五影響力值為準(zhǔn)確狀態(tài),則獲取所述最大第五影響力值對應(yīng)的影響用戶為后續(xù)種子用戶。
s265,判斷后續(xù)種子用戶的數(shù)量是否滿足qk-1,所述qk為查詢個(gè)數(shù)。
s266,若后續(xù)種子用戶的數(shù)量滿足qk-1,則確定所述第一種子用戶和所述后續(xù)種子用戶為種子用戶結(jié)合s;
s267,若后續(xù)種子用戶的數(shù)量不滿足qk-1,則刪除所述歷史獲取的第五影響力值中所述已獲取的種子用戶對應(yīng)的第五影響力值,執(zhí)行s210。直到獲取所述后續(xù)種子用戶的數(shù)量滿足qk-1。
對第五影響力值設(shè)置狀態(tài),根據(jù)狀態(tài)進(jìn)行響應(yīng)的更新計(jì)算,能夠有效地對加速計(jì)算過程。準(zhǔn)確狀態(tài)下第五影響力值的計(jì)算的過程較為繁雜,需要相對較多的計(jì)算量。而在本方法的s240-s260中,初始狀態(tài)和估計(jì)狀態(tài)相對較小的影響用戶可以避開準(zhǔn)確狀態(tài)下第五影響力值的計(jì)算,將計(jì)算量集中在當(dāng)前
步驟s250-s260的一種可選實(shí)施例為:
動態(tài)優(yōu)先隊(duì)列
選擇
如果u的狀態(tài)是“初始”且第五影響力值
如果u的狀態(tài)是“估計(jì)”且第五影響力值
如果u的狀態(tài)是“準(zhǔn)確”且第五影響力值
否則,再返回當(dāng)前第二影響力列表
本發(fā)明將確定種子用戶集合s的問題轉(zhuǎn)換為找一個(gè)集合s',使得集合s'中用戶滿足針對查詢區(qū)域和查詢話題的影響力值最大,且集合s'中的成員總量為查詢個(gè)數(shù),即
作為一種實(shí)現(xiàn)方式,所述根據(jù)預(yù)設(shè)的區(qū)域從屬關(guān)系確定a個(gè)最小簽到區(qū)域包括:
以所述區(qū)域從屬關(guān)系作為樹形節(jié)點(diǎn)的層級關(guān)系確定一樹形索引,如圖4所示。
所述樹形節(jié)點(diǎn)存儲所述最小簽到區(qū)域、所述最小簽到區(qū)域?qū)?yīng)簽到用戶的偏好話題和至少一指向文檔的指針,所述指針指向的文檔包含所述最小簽到區(qū)域?qū)?yīng)的簽到用戶、所述簽到用戶的總簽到次數(shù)、所述簽到用戶在所述最小簽到區(qū)域中的簽到次數(shù)、所述簽到用戶的偏好話題及所述用戶對所述偏好話題的偏好值。
圖4為以預(yù)設(shè)的區(qū)域從屬關(guān)系作為樹形節(jié)點(diǎn)的層級關(guān)系確定的樹形索引結(jié)構(gòu)。如圖4,rj為根據(jù)預(yù)設(shè)的區(qū)域從屬關(guān)系確定的最小簽到區(qū)域,j=all,1,2,3,4,5,6。d_*為所述指針指向的文檔,*=0,1,…,14。圖4中的t1,t2,t3,t4,t5,t6為表1中所示的簽到用戶的偏好話題。圖4中樹形的節(jié)點(diǎn)分布依據(jù)圖2所示的區(qū)域從屬關(guān)系來確定。
給定一個(gè)查詢條件,目標(biāo)用戶是對查詢位置以及查詢話題有偏好的用戶,設(shè)計(jì)一個(gè)如圖4所示的樹形索引結(jié)構(gòu),并利用該樹形索引結(jié)構(gòu),快速得到目標(biāo)用戶以及計(jì)算他們對查詢的偏好值。
如圖4所示,樹形索引的結(jié)構(gòu)具體包括:
1、葉子節(jié)點(diǎn)o:是由多個(gè)實(shí)體e組成的,每個(gè)實(shí)體包含一個(gè)三元組<pd,m,ts>,其中pd代表該實(shí)體指向文檔d的指針,m代表該實(shí)體上所有位置組成的最小簽到區(qū)域rj,ts代表該實(shí)體的話題集合。表3為本發(fā)明的最小簽到區(qū)域r3對應(yīng)節(jié)點(diǎn)指向的文檔示例。如表3所示,實(shí)體e指向的文檔d包含以下四部分:
u:對實(shí)體e的m和ts有偏好的用戶集合;
tv:簽到用戶的話題偏好向量;
tn:簽到用戶所有簽到的位置以及總次數(shù);
ln:簽到用戶在m內(nèi)簽到的次數(shù)。
除此之外,葉子節(jié)點(diǎn)o還有一個(gè)指向文檔o.d的指針,該文檔o.d是通過合并所有屬于葉子節(jié)點(diǎn)o的實(shí)體的文檔構(gòu)造的。o.d也由上述四部分組成。
表3
2、非葉子節(jié)點(diǎn)n:是由多個(gè)實(shí)體組成的,每個(gè)實(shí)體包含一個(gè)三元祖<pc,m,ts>,其中,pc代表指向孩子節(jié)點(diǎn)的指針,m代表該實(shí)體其所有孩子節(jié)點(diǎn)的最小簽到區(qū)域,ts代表該實(shí)體其所有孩子節(jié)點(diǎn)的話題集合的交集。一個(gè)非葉子節(jié)點(diǎn)也包含一個(gè)指針指向文檔n.d,該文檔是通過合并所有孩子節(jié)點(diǎn)的文檔構(gòu)造的。其構(gòu)造過程和葉子節(jié)點(diǎn)的文檔的構(gòu)造過程類似。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。