欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法與裝置的制作方法

文檔序號:1531265閱讀:266來源:國知局
專利名稱:一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法與裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)信息挖掘領(lǐng)域,特別涉及一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法與裝置。
背景技術(shù)
現(xiàn)有的用戶興趣獲取和應(yīng)用的方法主要分為如下幾個不同的體系I、關(guān)聯(lián)體系這個體系的方法利用用戶和實體之間產(chǎn)生的直接關(guān)聯(lián),采用協(xié)同過濾等從眾方法,將用戶可能感興趣、但尚未發(fā)生關(guān)聯(lián)的實體和該用戶關(guān)聯(lián)起來。優(yōu)點簡單明了,對從眾性的用戶和實體往往能夠取得不錯的判斷結(jié)果;
缺點不能對小眾用戶的興趣進行判斷;不能直接定義用戶的興趣,只能針對具體實體判斷用戶的喜好程度。2、實體標(biāo)簽體系這個體系采用的技術(shù)手段是在實體出現(xiàn)的位置提供輸入,引導(dǎo)用戶對實體進行簡短描述,將這些簡短描述語收集并作為該實體的標(biāo)簽。優(yōu)點代價小,僅僅需要提供功能,標(biāo)簽由用戶生成;缺點標(biāo)簽無法規(guī)范,利用難度大;用戶大都不愿填寫;對于單個實體,收集的標(biāo)簽數(shù)量少,描述也不完整;無法直接對用戶興趣進行描述。3、分類體系這個體系設(shè)定一些用戶興趣的類目,在用戶注冊或首次使用產(chǎn)品的時候,要求用戶從中選擇幾個感興趣的類目,以此作為用戶興趣的判定;優(yōu)點用戶抵觸小,能夠直接定義用戶興趣;缺點必須事先對實體同樣做分類映射,如果實體數(shù)量較多,會面臨映射代價大和精度低的問題;靈活性不夠,不能正確反映用戶興趣的變化;類目數(shù)量受到限制,不能對用戶興趣進行稍細(xì)致的描述。

發(fā)明內(nèi)容
本發(fā)明的目的是針對上述問題,提出一種以標(biāo)簽為基礎(chǔ)的用戶興趣挖掘方法及裝置,在解決現(xiàn)有技術(shù)缺陷的基礎(chǔ)上能夠最大限度的挖掘社交網(wǎng)絡(luò)中用戶的興趣。為實現(xiàn)上述目的,本發(fā)明提供了一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,包括收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù);根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列;所述標(biāo)簽興趣列為所述數(shù)據(jù)中所有標(biāo)簽及標(biāo)簽對應(yīng)地權(quán)重的集合;根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦,實現(xiàn)了社交網(wǎng)絡(luò)用戶興趣挖掘??蛇x的,本發(fā)明一實施例中,所述根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦包括所述標(biāo)簽興趣列向量化得到標(biāo)簽興趣向量;對標(biāo)簽興趣向量進行抽象,獲取抽象結(jié)果;根據(jù)抽象結(jié)果進行用戶興趣信息推薦??蛇x的,本發(fā)明一實施例中,所述對標(biāo)簽興趣向量進行抽象包括
按照標(biāo)簽的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標(biāo)簽的屬性映射關(guān)系將標(biāo)簽興趣向量分為低級別抽象類目和高級別抽象類目,將標(biāo)簽興趣向量中的標(biāo)簽賦給相應(yīng)的類目中,合并相應(yīng)抽象類目中的標(biāo)簽和相應(yīng)權(quán)重,得到低級類目興趣向量和高級類目興趣向量;根據(jù)應(yīng)用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。可選的,本發(fā)明一實施例中,所述數(shù)據(jù)包括社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)??蛇x的,本發(fā)明一實施例中,所述根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列包括獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)包含的所有標(biāo)簽和每個標(biāo)簽所對應(yīng)地權(quán)重;將所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)轉(zhuǎn)換為用戶-關(guān)系鏈形式;合并用戶在所有內(nèi)容上的標(biāo)簽得到用戶的標(biāo)簽興趣列??蛇x的,本發(fā)明一實施例中,該方法還包括對收集到的用戶在社交網(wǎng)絡(luò)上的所有 數(shù)據(jù)進行清洗??蛇x的,本發(fā)明一實施例中,所述清洗包括過濾廣告內(nèi)容、對長篇文字僅取前500個字作為分析對象以及采用標(biāo)簽主動匹配內(nèi)容的方法過濾不良信息??蛇x的,本發(fā)明一實施例中,所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)分為標(biāo)題和內(nèi)容;采取字符串匹配算法獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)中包含的所有標(biāo)簽,根據(jù)每個標(biāo)簽的出現(xiàn)次數(shù)作為該內(nèi)容在該標(biāo)簽上的權(quán)重??蛇x的,本發(fā)明一實施例中,所述標(biāo)題和內(nèi)容均包含同一標(biāo)簽中,該標(biāo)簽的權(quán)重為其在標(biāo)題所得權(quán)重與在內(nèi)容所得權(quán)重之和??蛇x的,本發(fā)明一實施例中,所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)表示為KTi, TFi), <Tj, TFj),…,<Tk,TFk>};其中,Ti代表某個標(biāo)簽,TFi代表標(biāo)簽Ti在內(nèi)容中的權(quán)重??蛇x的,本發(fā)明一實施例中,所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)的用戶-關(guān)系鏈表示為u_> (C1, C2, C3,…;其中,U代表某個用戶,Ci代表與用戶U有關(guān)聯(lián)關(guān)系的內(nèi)容??蛇x的,本發(fā)明一實施例中,所述標(biāo)簽興趣列表示為U-Xai, E TFi), <Tj, E TFj>,…,<Tk,E TFk>}??蛇x的,本發(fā)明一實施例中,所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)中還包括時間權(quán)重WTi ;1!\表示用戶U在內(nèi)容Ci上關(guān)聯(lián)關(guān)系確立的時間得分,則所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)的用戶-關(guān)系鏈表示為山->{〈(;,11\>,<Cj, WTj),…,<Ck, WTk >};所述標(biāo)簽興趣列表示為U-> KTi, Wi), <Tj, ffj>,…,<Tk, ffk>};其中,W表示為詞頻和時間因素的權(quán)重。可選的,本發(fā)明一實施例中,所述標(biāo)簽興趣向量表示為V-MS1, S2, -,Si, . . .,SJ,向量V表示用戶的興趣,Si代表該向量在標(biāo)簽Ti維度上的坐標(biāo),如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標(biāo)簽數(shù)??蛇x的,本發(fā)明一實施例中,所述標(biāo)簽Ti在用戶U中出現(xiàn)次數(shù)為DFi,如果用戶U擁有標(biāo)簽Ti,則Si的取值為WiZDFi ;否則,Si的取值為O。為實現(xiàn)上述目的,本發(fā)明還提供了一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,包括數(shù)據(jù)收集單元,用于收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù);標(biāo)簽興趣列生成單元,用于根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列;所述標(biāo)簽興趣列為所述數(shù)據(jù)中所有標(biāo)簽及標(biāo)簽對應(yīng)地權(quán)重的集合;興趣挖掘單元,用于根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦,實現(xiàn)了社交網(wǎng)絡(luò)用戶興趣挖掘。可選的,本發(fā)明一實施例中,所述標(biāo)簽興趣列生成單元包括標(biāo)簽興趣向量生成模塊,用于所述標(biāo)簽興趣列向量化得到標(biāo)簽興趣向量; 標(biāo)簽興趣向量抽象模塊,用于對標(biāo)簽興趣向量進行抽象,獲取抽象結(jié)果;興趣推薦模塊,用于根據(jù)抽象結(jié)果進行用戶興趣信息推薦??蛇x的,本發(fā)明一實施例中,所述標(biāo)簽興趣向量抽象模塊按照標(biāo)簽的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標(biāo)簽的屬性映射關(guān)系將標(biāo)簽興趣向量分為低級別抽象類目和高級別抽象類目,將標(biāo)簽興趣向量中的標(biāo)簽賦給相應(yīng)的類目中,合并相應(yīng)抽象類目中的標(biāo)簽和相應(yīng)權(quán)重,得到低級類目興趣向量和高級類目興趣向量;所述興趣推薦模塊根據(jù)應(yīng)用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘??蛇x的,本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的數(shù)據(jù)包括社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)??蛇x的,本發(fā)明一實施例中,所述標(biāo)簽興趣列生成單元獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)包含的所有標(biāo)簽和每個標(biāo)簽所對應(yīng)地權(quán)重;將所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)轉(zhuǎn)換為用戶-關(guān)系鏈形式;合并用戶在所有內(nèi)容上的標(biāo)簽得到用戶的標(biāo)簽興趣列??蛇x的,本發(fā)明一實施例中,該系統(tǒng)還包括用于對收集到的用戶在社交網(wǎng)絡(luò)上的所有數(shù)據(jù)進行清洗的數(shù)據(jù)清洗單元??蛇x的,本發(fā)明一實施例中,所述數(shù)據(jù)清洗單元進行清洗的內(nèi)容包括過濾廣告內(nèi)容、對長篇文字僅取前500個字作為分析對象以及采用標(biāo)簽主動匹配內(nèi)容的方法過濾不良信息??蛇x的,本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)分為標(biāo)題和內(nèi)容;采取字符串匹配算法獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)中包含的所有標(biāo)簽,根據(jù)每個標(biāo)簽的出現(xiàn)次數(shù)作為該內(nèi)容在該標(biāo)簽上的權(quán)重??蛇x的,本發(fā)明一實施例中,所述標(biāo)題和內(nèi)容均包含同一標(biāo)簽中,該標(biāo)簽的權(quán)重為其在標(biāo)題所得權(quán)重與在內(nèi)容所得權(quán)重之和??蛇x的,本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)表示為KTi, TFi), <Tj, TFj),…,<Tk,TFk>};其中,Ti代表某個標(biāo)簽,TFi代表標(biāo)簽Ti在內(nèi)容中的權(quán)重??蛇x的,本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)表示為u_> (C1, C2, C3,…;其中,U代表某個用戶,Ci代表與用戶U有關(guān)聯(lián)關(guān)系的內(nèi)容??蛇x的,本發(fā)明一實施例中,所述標(biāo)簽興趣列生成單元獲取的標(biāo)簽興趣列表示為U-Xai, E TFi), <Tj, E TFj>,…,<Tk,E TFk>}??蛇x的,本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)中還包括時間權(quán)重WTi ;WTi表不用戶U在內(nèi)容Ci上關(guān)聯(lián)關(guān)系確立的時間得分,則所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)的用戶-關(guān)系鏈表示為U-> Kci, WTi), <Cj, ffTj>,…,<Ck,WTk>};所述標(biāo)簽興趣列表示為 U-> {〈Ti,Wi), <Tj, Wj),…,<Tk, ffk>};其中,W表示為詞頻和時間因素的權(quán)重??蛇x的,本發(fā)明一實施例中,所述標(biāo)簽興趣向量生成模塊獲取的標(biāo)簽興趣向量表示為V-> (S1, S2,…,Si,. . .,SJ,向量V表示用戶的興趣,Si代表該向量在標(biāo)簽Ti維度上的坐標(biāo),如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標(biāo)簽數(shù)。可選的,本發(fā)明一實施例中,所述標(biāo)簽Ti在用戶U中出現(xiàn)次數(shù)為DFi,如果用戶U擁有標(biāo)簽Ti,則Si的取值為WiZDFi ;否則,Si的取值為O。
上述技術(shù)方案具有如下有益效果本技術(shù)方案建立了以“標(biāo)簽興趣列”為基礎(chǔ)的文本內(nèi)容分析和用戶興趣挖掘,能夠最大限度的挖掘社交網(wǎng)絡(luò)中用戶的興趣。


為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法流程圖之一;圖2是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法流程圖之二 ;圖3是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法流程圖之三;圖4是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置框圖之一;圖5是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置框圖之二 ;圖6是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置中標(biāo)簽興趣列生成單元框圖;圖7是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置應(yīng)用案例框圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。為解決現(xiàn)有興趣挖掘的缺點,提出了一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,如圖I所示,為本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法流程圖之一。包括收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù)、根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列及根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦的基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法。具體的工作如圖I所示,為圖I是。包括步驟101 :收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù);步驟102 :根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列;所述標(biāo)簽興趣列為所述數(shù)據(jù)中所有標(biāo)簽及標(biāo)簽對應(yīng)地權(quán)重的集合;步驟103 :根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦,實現(xiàn)了社交網(wǎng)絡(luò)用戶興趣挖掘。在圖I的基礎(chǔ)上,細(xì)化了如何根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦。如圖2所示,圖2是本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法流程圖之二,包括步驟201 :收集用戶在社交網(wǎng)絡(luò)上的所有數(shù)據(jù);其中,所述數(shù)據(jù)包括社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)。 在步驟201中,收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù),依賴這些數(shù)據(jù)完成用戶興趣的挖掘。這些數(shù)據(jù)又分為兩種社交網(wǎng)絡(luò)上用戶生成的文字性內(nèi)容和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系。前者是社交網(wǎng)絡(luò)的內(nèi)容主體,后者是社交網(wǎng)絡(luò)信息流轉(zhuǎn)的路徑。舉例來說,用戶A在社交網(wǎng)絡(luò)上發(fā)布了一篇訪問權(quán)限公開的文章C,用戶B瀏覽并轉(zhuǎn)發(fā)了這篇文章,那么,會收集內(nèi)容P和關(guān)系A(chǔ)->C和B->C。在步驟201中收集數(shù)據(jù)時無需用戶直接參與,不會產(chǎn)生收集數(shù)據(jù)的困難。采用統(tǒng)一的方法完成了用戶興趣的挖掘和表述,達到方便后續(xù)各項產(chǎn)品對用戶興趣的應(yīng)用,步驟202 :獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)包含的所有標(biāo)簽和每個標(biāo)簽所對應(yīng)地權(quán)重分;將所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)轉(zhuǎn)換為用戶-關(guān)系鏈形式;合并用戶在所有內(nèi)容上的標(biāo)簽得到用戶的標(biāo)簽興趣列。對于所有的文字性內(nèi)容,將其分為兩種標(biāo)題(或其他簡短描述)和內(nèi)容,而且二者的重要性完全不同。制定一個簡單規(guī)則來區(qū)分這種重要性,每個在標(biāo)題中出現(xiàn)的標(biāo)簽會比在內(nèi)容中出現(xiàn)的標(biāo)簽多得5倍的權(quán)重分?jǐn)?shù)。針對每段文字內(nèi)容,用一個快速的字符串匹配算法獲取其中包含的所有標(biāo)簽,然后根據(jù)每個標(biāo)簽的出現(xiàn)次數(shù)作為該內(nèi)容在該標(biāo)簽上的權(quán)重分。如果一個標(biāo)簽同時在標(biāo)題和內(nèi)容中都包含,那么該標(biāo)簽的權(quán)重就是其在標(biāo)題所得權(quán)重和在內(nèi)容所得權(quán)重之和。這樣,一段內(nèi)容就能夠由一系列的標(biāo)簽和標(biāo)簽權(quán)重來代表。例如,以Ti代表某個標(biāo)簽,以TFi代表該標(biāo)簽在內(nèi)容中的權(quán)重,那么,內(nèi)容就可以用KTi, TFi), <Tj, TFj),…,<Tk,TFk>}來表示。對于所有關(guān)系型數(shù)據(jù),將其轉(zhuǎn)換為用戶-關(guān)系鏈的形式。例如,用U代表某個用戶,Ci代表某個內(nèi)容,且關(guān)系數(shù)據(jù)中包含U-〉。” u->c2、u->c3等內(nèi)容,則用戶U的關(guān)系鏈表示為U-> (C1, C2, C3,}。進一步合并用戶U在所有內(nèi)容上的標(biāo)簽,就能得到用戶U的興趣標(biāo)簽列,U-Xai, E TFi), <Tj, E TFj>,…,<Tk,E TFk>}。用戶在社交網(wǎng)絡(luò)上可能有各種各樣的內(nèi)容關(guān)聯(lián),例如,照片、日記、討論等等,參照上述兩步,就都可以用統(tǒng)一的方法處理并且合并入用戶的興趣列。而且,可以針對專門類別的內(nèi)容,單獨建立用戶興趣數(shù)據(jù),以適應(yīng)專門類別的應(yīng)用需要。另外,考慮到用戶興趣并不是一成不變的,我們同樣引入了時間的概念。例如,以WTi代表用戶U在內(nèi)容Ci上的時間權(quán)重(即關(guān)聯(lián)關(guān)系確立的時間得分),時間越久該值越小。上面的用戶U的關(guān)系鏈就要表示為U-> KCi, WTi),〈C」,ffTj>,…,<Ck,WTk>}。進一步合并用戶U在所有內(nèi)容上的標(biāo)簽,就能得到用戶U的興趣標(biāo)簽列,U-〉{〈Ti,Wi), <Tj, ffj>,…,<Tk,ffk>}。其中,Wi是混合了詞頻和時間因素的權(quán)重。這樣能夠最大限度的挖掘社交網(wǎng)絡(luò)中的用戶的興趣,而且這種興趣是直接的、細(xì)化的、可變的。步驟202收集標(biāo)簽的工作完成之后,后期僅僅需要少量維護。還有,由于未使用分詞等文本切分方法,可以有效避免由于切分誤差引入的錯誤,以及由此引發(fā)的額外工作量。步驟203 :將所述標(biāo)簽興趣列向量化。為了便于后續(xù)處理和表述,我們將用戶的興趣表示為一個標(biāo)簽空間中的向量V,例如,以V代表用戶U的興趣向量,Si代表該向量在標(biāo)簽Ti維度上的坐標(biāo),則可以將上述用戶興趣標(biāo)簽列轉(zhuǎn)化為興趣向量,V-> (S1, S2,…,Si,…,SJ,其中,n代表總標(biāo)簽數(shù),如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi,否則,Si的取值為O。由此,所有用戶的興趣可以用統(tǒng)一的興趣向量進行描述和計算。另外,考慮到標(biāo)簽本身的重要程度并不相同,我們用DFi代表標(biāo)簽Ti在所有用戶中出現(xiàn)次數(shù)(每個用戶只記一次)。DF值越大,說明標(biāo)簽的重要性越小,區(qū)分力越弱。由此,可以得到,上述興趣向量中,標(biāo)簽Ti對應(yīng)的坐標(biāo)Si的取值,在用戶U擁有標(biāo)簽Ti時,變?yōu)閃i/ DFi。步驟204 :將標(biāo)簽興趣向量抽象化;即標(biāo)簽的屬性為抽象類目,抽象類目是各種類目的集合,按照類目和標(biāo)簽的屬性映射關(guān)系,將標(biāo)簽興趣向量分為低級別抽象類目和高級別抽象類目,將標(biāo)簽興趣向量中的標(biāo)簽賦給相應(yīng)的類目中,合并相應(yīng)抽象類目中的標(biāo)簽和相應(yīng)權(quán)重,得到低級類目興趣向量和高級類目興趣向量;根據(jù)應(yīng)用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。用向量形式表現(xiàn)的用戶興趣擁有細(xì)致、精確、可變等優(yōu)點,但是過于細(xì)致的表述形式在某些應(yīng)用場合不能適應(yīng),尤其是無法讓人直觀的了解一個用戶的大體興趣偏好。因此,我們在I中描述標(biāo)簽的定義時,提到了標(biāo)簽屬性這個概念。標(biāo)簽屬性代表了標(biāo)簽所屬的抽象類目,是比標(biāo)簽更加抽象的一個概念,我們提供了兩個級別的抽象,低級別的抽象共135個類目,更高一級的抽象為16個大類目。以CLk代表某個低級別抽象類目,以( 代表某個高級別的抽象類目。對于所有擁有屬性的標(biāo)簽Ti,則有Ti-XXk, Ti-X^的關(guān)系存在。按照類目和標(biāo)簽的屬性映射關(guān)系,將興趣向量V中所有標(biāo)簽的坐標(biāo)進行對應(yīng)轉(zhuǎn)化,轉(zhuǎn)化的方法為,如果某個標(biāo)簽Ti擁有類目CLk或CHp則將該標(biāo)簽的坐標(biāo)Si賦給相應(yīng)的類目,如果該標(biāo)簽擁有不只一個類目屬性,那么將其坐標(biāo)依次賦給所有類目。以低級別類目為例,可以得到一個新的關(guān)系列,VcLOKCLi, Si),〈CL」,Si),〈CL」,Sj),…,<CLk,Sk>},注意,每個標(biāo)簽可以同時屬于幾個不同的類目,每個類目下面也擁有大量不同的標(biāo)簽。合并同一類目下的權(quán)重,則可以將標(biāo)簽空間下的興趣向量轉(zhuǎn)化為低級類目空間下的興趣向量。同理,也可以生成高級類目下的興趣向量。至此,我們得到高級類目、低級類目、標(biāo)簽等三個精細(xì)度級別的用戶興趣向量,可以根據(jù)應(yīng)用場景的具體需要進行選擇使用。步驟204通過類目和標(biāo)簽的關(guān)聯(lián),很好的完成了用戶興趣的抽象,便于廣泛的應(yīng)用。并且挖掘興趣的過程和結(jié)果對用戶透明,能夠發(fā)現(xiàn)用戶自身尚無意識到的興趣點,不依賴從眾數(shù)據(jù),能夠發(fā)現(xiàn)小眾用戶的興趣。另外,該技術(shù)方案通過控制數(shù)據(jù)源,靈活的挖掘出各種垂直領(lǐng)域的用戶興趣,便于專門的應(yīng)用。
方法中所用的標(biāo)簽是采用人工和技術(shù)相結(jié)合的方法,從中文和英文(同樣的方法也可用于其他語種)中收集各種的實體名詞。收集的過程主要考慮如下因素獨特性、代表性、時新性。技術(shù)收集的方法保證了大量收集的需要,人工審核的方法確保了標(biāo)簽的正確性。對于新的實體名詞,可以定期或隨時加入標(biāo)簽庫,保證對于新型事件的識別。標(biāo)簽在標(biāo)簽庫中會被賦予兩個等級的屬性,例如,“圍棋”這個標(biāo)簽就會有“非球類運動”和“體育運動”這樣一組兩級屬性,分別代表一個較低層次的興趣類目和一個較高層次的興趣類目。而且,一個標(biāo)簽可以擁有數(shù)個屬性,分別對應(yīng)不同的興趣類目。標(biāo)簽的屬性由人工給出,保證了精度,而且并不是所有標(biāo)簽都能有比較明確的所屬類目,所以,不是所有標(biāo)簽都需要有屬性,這樣降低了人工工作量。在圖2基礎(chǔ)上,為了保證數(shù)據(jù)的準(zhǔn)確性,進一步增加了數(shù)據(jù)清洗。如圖3所示,為本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法流程圖之三。
步驟201’ 對采集到的數(shù)據(jù)進行清洗。對采集到的數(shù)據(jù)進行清洗,過濾了廣告內(nèi)容。另外,對于長篇文字內(nèi)容,也僅僅取其前500個字作為分析對象。由于我們采用標(biāo)簽主動匹配內(nèi)容的方式,所以等于自動完成了不良信息的過濾。本申請還提出了一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置。如圖4所示,為本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置框圖之一。包括數(shù)據(jù)收集單元41,用于收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù);標(biāo)簽興趣列生成單元42,用于根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列;所述標(biāo)簽興趣列為所述數(shù)據(jù)中所有標(biāo)簽及標(biāo)簽對應(yīng)地權(quán)重的集合;興趣挖掘單元43,用于根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦,實現(xiàn)了社交網(wǎng)絡(luò)用戶興趣挖掘。本發(fā)明一實施例中,該系統(tǒng)還包括用于對收集到的用戶在社交網(wǎng)絡(luò)上的所有數(shù)據(jù)進行清洗的數(shù)據(jù)清洗單元41’。如圖5所示,為本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置框圖之二。數(shù)據(jù)清洗單元41’進行清洗的方法包括過濾廣告內(nèi)容、對長篇文字僅取前500個字作為分析對象以及采用標(biāo)簽主動匹配內(nèi)容的方法過濾不良信息。如圖6所示,為本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置中興趣挖掘單元43框圖,可知興趣挖掘單元43包括標(biāo)簽興趣向量生成模塊431,用于標(biāo)簽興趣列向量化得到標(biāo)簽興趣向量;標(biāo)簽興趣向量抽象模塊432,用于對標(biāo)簽興趣向量進行抽象,獲取抽象結(jié)果;興趣推薦模塊433,用于根據(jù)抽象結(jié)果進行用戶興趣信息推薦。標(biāo)簽興趣向量抽象模塊432按照標(biāo)簽的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標(biāo)簽的屬性映射關(guān)系將標(biāo)簽興趣向量分為低級別抽象類目和高級別抽象類目,將標(biāo)簽興趣向量中的標(biāo)簽賦給相應(yīng)的類目中,合并相應(yīng)抽象類目中的標(biāo)簽和相應(yīng)權(quán)重,得到低級類目興趣向量和高級類目興趣向量;興趣推薦模塊433根據(jù)應(yīng)用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。本發(fā)明一實施例中,數(shù)據(jù)收集單元收集的數(shù)據(jù)包括社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)。標(biāo)簽興趣列生成單元獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)包含的所有標(biāo)簽和每個標(biāo)簽所對應(yīng)地權(quán)重;將社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)轉(zhuǎn)換為用戶-關(guān)系鏈形式;合并用戶在所有內(nèi)容上的標(biāo)簽得到用戶的標(biāo)簽興趣列。本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)分為標(biāo)題和內(nèi)容;采取字符串匹配算法獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)中包含的所有標(biāo)簽,根據(jù)每個標(biāo)簽的出現(xiàn)次數(shù)作為該內(nèi)容在該標(biāo)簽上的權(quán)重。本發(fā)明一實施例中,所述標(biāo)題和內(nèi)容均包含同一標(biāo)簽中,該標(biāo)簽的權(quán)重為其在標(biāo)題所得權(quán)重與在內(nèi)容所得權(quán)重之和。本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)表示為KTi, TFi), <Tj, TFj),…,<Tk,TFk>};其中,Ti代表某個標(biāo)簽,TFi代表標(biāo)簽Ti在內(nèi)容中的權(quán)重。數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)表示為U-XC11C21C3,};其中,U代表某個用戶,Ci代表與用戶U有關(guān)聯(lián)關(guān)系的內(nèi)容。標(biāo)簽興趣列 生成單元獲取的標(biāo)簽興趣列表示為U-〉{〈Ti,E TFi), <Tj, ETFj>r",〈Tk,E TFk>}。本發(fā)明一實施例中,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)中還包括時間權(quán)重WTi ;WTi表不用戶U在內(nèi)容Ci上關(guān)聯(lián)關(guān)系確立的時間得分,則所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)的用戶-關(guān)系鏈表示為U-> Kci, WTi), <Cj, ffTj>,…,<Ck,WTk>};所述標(biāo)簽興趣列表示為 U-> {〈Ti,Wi), <Tj, Wj),…,〈Tk,Wk> };其中,W表示為詞頻和時間因素的權(quán)重。本發(fā)明一實施例中,所述標(biāo)簽興趣向量生成模塊獲取的標(biāo)簽興趣向量表示為V-> (S1, S2,…,Si,. . .,SJ,向量V表示用戶的興趣,Si代表該向量在標(biāo)簽Ti維度上的坐標(biāo),如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標(biāo)簽數(shù)。本發(fā)明一實施例中,所述標(biāo)簽Ti在用戶U中出現(xiàn)次數(shù)為DFi,如果用戶U擁有標(biāo)簽Ti,則Si的取值為VDFi ;否則,Si的取值為O。如圖7所示,為本發(fā)明提出的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置應(yīng)用案例框圖。該系統(tǒng)可以應(yīng)用于開心網(wǎng)社區(qū)平臺。該系統(tǒng)能夠自動地從用戶參與過的信息流、添加過的組件、名人機構(gòu)等各種包含文字的內(nèi)容中挖掘用戶的興趣,并生成低級類目興趣向量和高級類目興趣向量,系統(tǒng)按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。當(dāng)前的互聯(lián)網(wǎng)應(yīng)用中,最重要的資源就是用戶。對于用戶數(shù)據(jù)的分析,也一直是研究的熱點,而用戶興趣,則是重中之重。準(zhǔn)確獲取用戶興趣數(shù)據(jù),對許多互聯(lián)網(wǎng)服務(wù)有直接的幫助,例如用戶興趣可以直接服務(wù)于精準(zhǔn)廣告投放,提升廣告轉(zhuǎn)化率;用戶興趣可以應(yīng)用于一切推薦系統(tǒng)和產(chǎn)品,提高點擊率;用戶興趣可以應(yīng)用于個性化搜索和其他服務(wù),提高用戶滿意度;能夠涵蓋全部的用戶興趣挖掘方法和應(yīng)用場景。以上所述的具體實施方式
,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式
而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,包括 收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù); 根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列;所述標(biāo)簽興趣列為所述數(shù)據(jù)中所有標(biāo)簽及標(biāo)簽對應(yīng)地權(quán)重的集合; 根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦,以實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。
2.根據(jù)權(quán)利要求I所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦包括 所述標(biāo)簽興趣列向量化得到標(biāo)簽興趣向量;對標(biāo)簽興趣向量進行抽象,獲取抽象結(jié)果;根據(jù)抽象結(jié)果進行用戶興趣信息推薦。
3.根據(jù)權(quán)利要求2所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述對標(biāo)簽興趣向量進行抽象包括 按照標(biāo)簽的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標(biāo)簽的屬性映射關(guān)系將標(biāo)簽興趣向量分為低級別抽象類目和高級別抽象類目,將標(biāo)簽興趣向量中的標(biāo)簽賦給相應(yīng)的類目中,合并相應(yīng)抽象類目中的標(biāo)簽和相應(yīng)權(quán)重,得到低級類目興趣向量和高級類目興趣向量;根據(jù)應(yīng)用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。
4.根據(jù)權(quán)利要求I所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述數(shù)據(jù)包括社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列包括 獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)包含的所有標(biāo)簽和每個標(biāo)簽所對應(yīng)地權(quán)重;將所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)轉(zhuǎn)換為用戶-關(guān)系鏈形式;合并用戶在所有內(nèi)容上的標(biāo)簽得到用戶的標(biāo)簽興趣列。
6.根據(jù)權(quán)利要求I 5任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,該方法還包括對收集到的用戶在社交網(wǎng)絡(luò)上的所有數(shù)據(jù)進行清洗。
7.根據(jù)權(quán)利要求6所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述清洗包括過濾廣告內(nèi)容、對長篇文字僅取前500個字作為分析對象以及采用標(biāo)簽主動匹配內(nèi)容的方法過濾不良信息。
8.根據(jù)權(quán)利要求4飛任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)分為標(biāo)題和內(nèi)容;采取字符串匹配算法獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)中包含的所有標(biāo)簽,根據(jù)每個標(biāo)簽的出現(xiàn)次數(shù)作為該內(nèi)容在該標(biāo)簽上的權(quán)重。
9.根據(jù)權(quán)利要求8所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述標(biāo)題和內(nèi)容均包含同一標(biāo)簽中,該標(biāo)簽的權(quán)重為其在標(biāo)題所得權(quán)重與在內(nèi)容所得權(quán)重之和。
10.根據(jù)權(quán)利要求4飛任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)表示為KTiJFACI^TFpr-,<Tk, TFk>};其中,Ti代表某個標(biāo)簽,TFi代表標(biāo)簽Ti在內(nèi)容中的權(quán)重。
11.根據(jù)權(quán)利要求4飛任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)的用戶-關(guān)系鏈表示為:U-> (C1, C2, C3,…};其中,U代表某個用戶,Ci代表與用戶U有關(guān)聯(lián)關(guān)系的內(nèi)容。
12.根據(jù)權(quán)利要求f5任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述標(biāo)簽興趣列表示為U-> KTi, E TFi), <Tj, ETFj>,...,〈Tk,E TFk>}。
13.根據(jù)權(quán)利要求4飛任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)中還包括時間權(quán)重WTi ;1!\表示用戶U在內(nèi)容Ci上關(guān)聯(lián)關(guān)系確立的時間得分,則所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)的用戶-關(guān)系鏈表示為山->{〈(;,11\>,<Cj, WTj),…,<Ck,WTk>};所述標(biāo)簽興趣列表示為U-MCTi, Wp,<Tj, ffj>,…,<Tk,Wk > };其中,W表示為詞頻和時間因素的權(quán)重。
14.根據(jù)權(quán)利要求2所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述標(biāo)簽興趣向量表示為V-Ms1, S2,..., Si,..., Sj,向量V表示用戶的興趣,Si代表該向量在標(biāo)簽Ti維度上的坐標(biāo),如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標(biāo)簽數(shù)。
15.根據(jù)權(quán)利要求14所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述標(biāo)簽Ti在用戶U中出現(xiàn)次數(shù)為DFi,如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi/DFi ;否則,Si的取值為O。
16.一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,包括 數(shù)據(jù)收集單元,用于收集用戶在社交網(wǎng)絡(luò)上的數(shù)據(jù); 標(biāo)簽興趣列生成單元,用于根據(jù)數(shù)據(jù)生成標(biāo)簽興趣列;所述標(biāo)簽興趣列為所述數(shù)據(jù)中所有標(biāo)簽及標(biāo)簽對應(yīng)地權(quán)重的集合; 興趣挖掘單元,用于根據(jù)標(biāo)簽興趣列進行用戶興趣信息推薦,以實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。
17.根據(jù)權(quán)利要求16所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述興趣挖掘單元包括 標(biāo)簽興趣向量生成模塊,用于所述標(biāo)簽興趣列向量化得到標(biāo)簽興趣向量; 標(biāo)簽興趣向量抽象模塊,用于對標(biāo)簽興趣向量進行抽象,獲取抽象結(jié)果; 興趣推薦模塊,用于根據(jù)抽象結(jié)果進行用戶興趣信息推薦。
18.根據(jù)權(quán)利要求17所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述標(biāo)簽興趣向量抽象模塊按照標(biāo)簽的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標(biāo)簽的屬性映射關(guān)系將標(biāo)簽興趣向量分為低級別抽象類目和高級別抽象類目,將標(biāo)簽興趣向量中的標(biāo)簽賦給相應(yīng)的類目中,合并相應(yīng)抽象類目中的標(biāo)簽和相應(yīng)權(quán)重,得到低級類目興趣向量和高級類目興趣向量;所述興趣推薦模塊根據(jù)應(yīng)用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。
19.根據(jù)權(quán)利要求16所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述數(shù)據(jù)收集單元收集的數(shù)據(jù)包括社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)。
20.根據(jù)權(quán)利要求19所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述標(biāo)簽興趣列生成單元獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)包含的所有標(biāo)簽和每個標(biāo)簽所對應(yīng)地權(quán)重;將所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)轉(zhuǎn)換為用戶-關(guān)系鏈形式;合并用戶在所有內(nèi)容上的標(biāo)簽得到用戶的標(biāo)簽興趣列。
21.根據(jù)權(quán)利要求16 20任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,該系統(tǒng)還包括用于對收集到的用戶在社交網(wǎng)絡(luò)上的所有數(shù)據(jù)進行清洗的數(shù)據(jù)清洗單元。
22.根據(jù)權(quán)利要求21所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述數(shù)據(jù)清洗單元進行清洗的內(nèi)容包括過濾廣告內(nèi)容、對長篇文字僅取前500個字作為分析對象以及采用標(biāo)簽主動匹配內(nèi)容的方法過濾不良信息。
23.根據(jù)權(quán)利要求1^20任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)分為標(biāo)題和內(nèi)容;采取字符串匹配算法獲取所述社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)中包含的所有標(biāo)簽,根據(jù)每個標(biāo)簽的出現(xiàn)次數(shù)作為該內(nèi)容在該標(biāo)簽上的權(quán)重。
24.根據(jù)權(quán)利要求23所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述標(biāo)題和內(nèi)容均包含同一標(biāo)簽中,該標(biāo)簽的權(quán)重為其在標(biāo)題所得權(quán)重與在內(nèi)容所得權(quán)重之和。
25.根據(jù)權(quán)利要求1^20任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)表示為KTi, TFi), <Tj, TFj),…,<Tk,TFk>};其中,Ti代表某個標(biāo)簽,TFi代表標(biāo)簽Ti在內(nèi)容中的權(quán)重。
26.根據(jù)權(quán)利要求1^20任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)表示為W-MCdC^C3,…};其中,U代表某個用戶,Ci代表與用戶U有關(guān)聯(lián)關(guān)系的內(nèi)容。
27.根據(jù)權(quán)利要求16 20任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述標(biāo)簽興趣列生成單元獲取的標(biāo)簽興趣列表示為U-Xai, E TFi), <Tj, E TFj>,…,<Tk,E TFk>}。
28.根據(jù)權(quán)利要求19 20任一權(quán)利要求所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述數(shù)據(jù)收集單元收集的社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)中還包括時間權(quán)重WTi ;WTi表不用戶U在內(nèi)容Ci上關(guān)聯(lián)關(guān)系確立的時間得分,則所述社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)的用戶-關(guān)系鏈表示為U-> KCi, WTi), <Cj, ffTj>,…,<Ck,WTk>};所述標(biāo)簽興趣列表示為 U-> {〈Ti,Wi), <Tj, Wj),…,<Tk, ffk>};其中,W表示為詞頻和時間因素的權(quán)重。
29.根據(jù)權(quán)利要求17所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述標(biāo)簽興趣向量生成模塊獲取的標(biāo)簽興趣向量表示為V-Ms1, S2,…,Si,...,Sj,向量V表示用戶的興趣,Si代表該向量在標(biāo)簽Ti維度上的坐標(biāo),如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標(biāo)簽數(shù)。
30.根據(jù)權(quán)利要求29所述的一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘裝置,其特征在于,所述標(biāo)簽Ti在用戶U中出現(xiàn)次數(shù)為DFi,如果用戶U擁有標(biāo)簽Ti,則Si的取值為Wi/DFi ;否則, Si的取值為O。
全文摘要
本發(fā)明涉及一種基于標(biāo)簽的社交網(wǎng)絡(luò)用戶興趣挖掘方法與裝置,包括收集用戶在社交網(wǎng)絡(luò)上的所有數(shù)據(jù);其中,所述數(shù)據(jù)包括社交網(wǎng)絡(luò)上用戶生成的文字性數(shù)據(jù)和社交網(wǎng)絡(luò)上用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù);獲取所述用戶生成的文字性數(shù)據(jù)包含的所有標(biāo)簽和每個標(biāo)簽所對應(yīng)地權(quán)重分;將所述用戶與文字性內(nèi)容的關(guān)聯(lián)關(guān)系數(shù)據(jù)轉(zhuǎn)換為用戶-關(guān)系鏈形式;合并用戶在所有內(nèi)容上的標(biāo)簽得到用戶的標(biāo)簽興趣列;將所述標(biāo)簽興趣列向量化;將標(biāo)簽興趣向量抽象化得到低級類目興趣向量和高級類目興趣向量;根據(jù)應(yīng)用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標(biāo)簽為社交網(wǎng)絡(luò)用戶提供相應(yīng)的興趣信息,實現(xiàn)社交網(wǎng)絡(luò)用戶興趣挖掘。
文檔編號G06F17/30GK102867016SQ20121024958
公開日2013年1月9日 申請日期2012年7月18日 優(yōu)先權(quán)日2012年7月18日
發(fā)明者薛曄偉, 馬振江, 伍星 申請人:北京開心人信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丽水市| 绥阳县| 茌平县| 永清县| 济南市| 都昌县| 高雄县| 桦甸市| 乌兰察布市| 海安县| 陈巴尔虎旗| 米易县| 香格里拉县| 鄱阳县| 阜平县| 长顺县| 东阿县| 五莲县| 永嘉县| 周至县| 密山市| 新宁县| 潞城市| 长宁区| 库车县| 营口市| 安康市| 广州市| 鹤庆县| 平乐县| 武义县| 安岳县| 商丘市| 读书| 台前县| 卢湾区| 文成县| 新建县| 霍山县| 同心县| 武鸣县|