多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域,具體設(shè)及一種多尺度空間下不確定行為語 義的社交群體發(fā)現(xiàn)系統(tǒng)及方法。
【背景技術(shù)】
[0002] 隨著社交網(wǎng)應(yīng)用的快速普及,越來越多的用戶融入到社交網(wǎng)中,比較典型的應(yīng)用 有國內(nèi)的新浪微博、國外的推特(Twitter)等,運些社交應(yīng)用允許用戶將其最新動態(tài)和想法 W短信形式發(fā)布到手機或是網(wǎng)站,如果用戶愿意,還可發(fā)布微博-推文所處物理位置信息。 微博-推文內(nèi)容雖然簡短,但卻蘊涵一定語義,在某種程度上可W用于推演用戶行為;而允 許公開物理位置信息則可W方便追蹤用戶最新動態(tài),如果能將上述兩個方面加 W有效利 用,就能更好地為諸如商業(yè)銷售、旅游路線推薦、廣告精準投放W及城市功能規(guī)劃等領(lǐng)域進 行服務(wù)。
[0003] 令人遺憾的是,迄今為止,在行為語義研究方面,幾乎所有研究成果都認為行為語 義是確定性的,但事實上,行為語義本身往往具有一定的不確定性,運主要源于當用推文對 應(yīng)的"詞條集合(a set ofterms)"表達行為所蘊涵的"活動(activity)"語義時,"詞條"與 "活動"之間存在著不確定的語義映射關(guān)系,比如一個"詞條"可隸屬于多個"活動",而一個 "活動"又可包含多個詞條,正是運種語義映射的不確定性在一定程度上影響了相似行為用 戶群體發(fā)現(xiàn)的精度,但目前該問題卻一直未能引起相關(guān)人員的高度重視。而另一方面,在利 用微博和推特等社交數(shù)據(jù)服務(wù)于各種應(yīng)用時沒有充分考慮不同地理空間尺度對社交群體 聚類的影響。實際上,根據(jù)地理學第一定律,有理由認為位置相近用戶所產(chǎn)生的行為要比距 離較遠用戶產(chǎn)生的行為更相似;其次,在細粒度地理空間上共享相似位置的用戶具有更大 的行為相似可能性,比如,兩個用戶在同一大學發(fā)推文可能比在同一城市發(fā)推文更具行為 相似性,因此W分裂方式對位置軌跡進行不同空間度量尺度下的遞歸聚類,可W更有效地 區(qū)分相似行為用戶。
【發(fā)明內(nèi)容】
[0004] 針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種多尺度空間下不確定行為語義的社交群體 發(fā)現(xiàn)系統(tǒng)及方法,基于用戶社交網(wǎng)Twitter行為軌跡,根據(jù)其發(fā)布推文地理位置的相似性W 及推文詞條所表達的不確定活動語義的相似性,來發(fā)現(xiàn)用戶是否具有相似行為關(guān)系。
[0005] -種多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng),包括社交網(wǎng)推文采集模 塊、多尺度空間下推文物理位置聚類模塊、推文物理位置相似度矩陣計算模塊、不確定行為 語義詞條庫構(gòu)建模塊、推文詞條提取模塊、推文詞條表達活動概率值及相似性概率獲取模 塊和行為相似社交群體發(fā)現(xiàn)模塊,其中:
[0006] 社交網(wǎng)推文采集模塊:用于采集社交網(wǎng)站的推文數(shù)據(jù)集,包括發(fā)布內(nèi)容、發(fā)布位 置、用戶ID、用戶名和文本發(fā)布時間,并經(jīng)過數(shù)據(jù)清洗操作后進行存儲;
[0007] 多尺度空間下推文物理位置聚類模塊:用于將每個用戶推文形成的時空軌跡,按 照基于密度的聚類方式在不同地理空間尺度下進行濃密區(qū)聚類,W生成用戶多層次推文物 理位置聚類簇序列;
[0008] 推文物理位置相似度矩陣計算模塊:用于對聚類所得的任意一對用戶間的各層推 文軌跡簇序列進行物理位置的綜合性相似度獲取,即獲得推文軌跡物理位置相似度;
[0009] 不確定行為語義詞條庫構(gòu)建模塊:用于構(gòu)建社交網(wǎng)用戶行為活動詞條庫,并抽取 出每類活動包含的詞條,通過重要性權(quán)重分布曲線,確定活動相關(guān)詞條的判斷闊值和活動 半相關(guān)詞條的判斷闊值;將詞條權(quán)重概率值大小與闊值進行比較,將詞條分為活動相關(guān)詞 條、活動半相關(guān)詞條和活動不相關(guān)詞條=類,并賦予詞條表達活動的概率值,獲得不確定詞 條活動庫;
[0010] 推文詞條提取模塊:用于對所有用戶發(fā)布的推文文本進行詞條提?。?br>[0011] 推文詞條表達活動概率值及相似性概率獲取模塊:用于針對同層每一個最大位置 軌跡匹配,合并同一用戶不同物理位置簇的推文,生成推文語義詞條集合,獲得一對用戶間 推文語義活動的所有組合情況及各組合的概率值,進而獲得一對用戶間推文語義活動的同 層概率值,即獲得一對用戶間同層推文語義行為相似度的概率值,再根據(jù)不同粒度劃分層 對語義相似度的權(quán)重,獲得一對用戶間推文語義活動的多層概率值,即獲得一對用戶間多 層推文語義行為相似度的概率值;
[0012] 行為相似社交群體發(fā)現(xiàn)模塊:用于根據(jù)推文軌跡物理位置相似度和活動相似性概 率獲得軌跡行為相似度,通過構(gòu)建連通圖的方式獲得推文相似行為群體。
[0013] 采用所述的多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng)進行的發(fā)現(xiàn)方法, 包括W下步驟:
[0014] 步驟1、在樣本采集范圍內(nèi)采用社交網(wǎng)推文采集模塊獲取社交網(wǎng)站的推文數(shù)據(jù)集;
[0015] 所述的推文數(shù)據(jù)集包括按照推文時間排序的推文物理位置和推文文本詞條;
[0016] 步驟2、采用計算機中的多尺度空間下推文物理位置聚類模塊,將每個用戶推文形 成的時空軌跡,按照基于密度的聚類方式在不同地理空間尺度下進行濃密區(qū)聚類,W生成 用戶多層次推文物理位置聚類簇序列;
[0017] 步驟3、采用多層次推文物理位置相似度矩陣計算模塊,對聚類所得的任意一對用 戶間的各層推文軌跡簇序列進行物理位置的綜合性相似度獲??;
[0018] 步驟4、采用計算機中的不確定行為語義詞條庫構(gòu)建模塊,構(gòu)建不確定詞條行為活 動庫,具體步驟如下:
[0019] 步驟4-1、劃分活動類別,并提取各類活動包含詞條;
[0020] 步驟4-2、賦予各種不確定詞條表達活動的概率值,具體步驟如下:
[0021] 步驟4-2-1、統(tǒng)計詞條的詞頻和詞條的逆向文本頻率,根據(jù)詞條的詞頻和詞條的逆 向文本頻率獲得詞條的重要性權(quán)重;
[0022] 步驟4-2-2、通過重要性權(quán)重分布曲線,確定活動相關(guān)詞條的判斷闊值和活動半相 關(guān)詞條的判斷闊值;
[0023] 步驟4-2-3、將詞條權(quán)重概率值大小與闊值進行比較,將詞條分為活動相關(guān)詞條、 活動半相關(guān)詞條和活動不相關(guān)詞條=類,并賦予詞條表達活動的概率值,獲得不確定詞條 行為活動庫;
[0024] 步驟5、采用推文詞條提取模塊對所有用戶發(fā)布的推文文本進行詞條提?。?br>[0025] 步驟6、采用推文詞條表達活動概率值及相似性概率獲取模塊,獲得一對用戶間推 文語義行為相似度的概率值,具體步驟如下:
[0026] 步驟6-1、針對同層每一個最大位置軌跡匹配,合并同一用戶不同物理位置簇的推 文,生成推文語義詞條集合;
[0027] 步驟6-2、獲得一對用戶間推文語義活動的所有組合情況及各組合的概率值,進而 獲得一對用戶間推文語義活動的同層概率值,即獲得一對用戶間同層推文語義行為相似度 的概率值;
[0028] 步驟6-3、根據(jù)不同粒度劃分層對語義相似度的權(quán)重,獲得一對用戶間推文語義活 動的多層概率值,即獲得一對用戶間多層推文語義行為相似度的概率值;
[0029] 步驟7、采用行為相似社交群體發(fā)現(xiàn)模塊,根據(jù)推文軌跡物理位置相似度和活動相 似性概率獲得軌跡行為相似度,通過構(gòu)建連通圖的方式獲得推文相似行為群體。
[0030] 步驟1所述的在樣本采集范圍內(nèi)采用社交網(wǎng)推文采集模塊獲取社交網(wǎng)站的推文數(shù) 據(jù)集,需要對所采集的數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗操作后進行存儲。
[0031] 步驟2所述的生成用戶多層次推文物理位置聚類簇序列,具體包括如下步驟:
[0032] 步驟2-1、確定多種聚類空間度量粒度,即確定多尺度空間的距離尺度;
[0033] 步驟2-2、采用聚類算法對處于每種粒度下的推文物理位置進行聚類;
[0034] 步驟2-3、按推文發(fā)送時間先后順序生成對應(yīng)每個用戶的推文位置聚類簇序列。
[0035] 步驟3所述的對聚類所得的任意一對用戶間的各層推文軌跡簇序列進行物理位置 的綜合性相似度獲取,具體步驟如下:
[0036] 步驟3-1、獲得同層節(jié)點下一對用戶相似推文物理位置的相似度;
[0037] 同層節(jié)點下一對用戶相似推文物理位置的相似度佑,5';,)計算公式如下:
[00:3 引
[0039] 其中,寫表示用戶Ui在第1層的物理位置軌跡簇序列;&表示用戶Uj在第1層的物 理位置軌跡簇序列;r表示物理位置軌跡;1表示第1層物理位置軌跡簇聚類;k I表示最大匹 配的個數(shù);nc(化CSq)表示第1層第q個最大推文軌跡簇公共子序列所包含的聚類簇個數(shù),1< q< k| ;M表示同一聚類尺度下用戶軌跡聚類簇總數(shù);Nu表示推文數(shù)據(jù)集中的總用戶數(shù),U表 示用戶;nu(Cf)表示訪問第1層第q個最大推文軌跡簇公共子序列第f個公共位置簇Cf的用戶 數(shù),1含f含nc(TLCSq); I爲I表示化在1層上的推文軌跡簇序列所包含的位置聚類簇個數(shù);|S;; 表示W(wǎng)在1層上的推文軌跡簇序列所包含的位置聚類簇個數(shù);
[0040] 步驟3-2、綜合獲得各層節(jié)點下一對用戶推文物理位置的相似度;
[0041 ] 計算公式如下:
[0042]
(2)
[0043] 其中,&'《巧%巧)表示用戶。1和11也置軌跡相似度;1'1嗦示用戶111的位置軌跡;17 表示用戶W的位置軌跡;r表示物理位置軌跡;Wi表示不同粒度劃分層對物理位置相似度的 影響權(quán)重,Wi = 2i-i,I y引11,111表示不同粒度劃分層的個數(shù);
[0044] 步驟3-3、重復步驟3-1至步驟3-2,獲得所有用戶對的多層次相似推文物理位置的 相似度,并生成用戶對多層次推文物理位置相似度下=角矩陣。
[0045] 步驟6-2所述的進而獲得一對用戶間推文語義活動的同層概率值,即獲得一對用 戶間同層推文語義行為相似度的概率值,具體公式如下:
[0046]
(3)
[0047] 其中,況W(巧,荀0:表示用戶Ui和U迫第1層物理位置軌跡聚類簇序列上的推文行 為語義相似度,於(巧,&/)表示Ui和Uj間滿足第q個最大匹配的相似活動的概率值,I q|表 示最大匹配的個數(shù)。
[0048] 步驟6-3所述的根據(jù)不同粒度劃分層對語義相似度的權(quán)重,獲得一對用戶間推文 語義活動的多層概率值,即獲得一對用戶間多層推文語義行為相似度的概率值,具體公式 如下:
[0049]
(4)
[0化日]其中,表示用戶Ui和U非勺推文行為語義相似度;Tid表示用戶Ui的位置 軌跡所對應(yīng)的推文軌跡;:T/表示用戶Uj的位置軌跡所對應(yīng)的推文軌跡; < 表示第1層語義 相似度權(quán)重;d表示推文軌跡;111表示不同粒度劃分層的個數(shù)。
[0化1]本發(fā)明優(yōu)點:
[0052] 本發(fā)明提出一種多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng)及方法,本發(fā) 明基于用戶社交網(wǎng)Twitter行為軌跡,根據(jù)其發(fā)布推文地理位置的相似性W及推文詞條所 表達的不確定活動語義的相似性,來發(fā)現(xiàn)用戶是否具相似有行為關(guān)系,從而找到對應(yīng)的相 似行為用戶群體;
[0053] 首先,本發(fā)明優(yōu)點之一在于成功