一種興趣識別方法、設(shè)備以及數(shù)據(jù)分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機領(lǐng)域,并具體涉及一種興趣識別方法、設(shè)備以及數(shù)據(jù)分析方法。
【背景技術(shù)】
[0002] 隨著電子商務(wù)規(guī)模的不斷擴大,商品的種類和數(shù)量快速增長,客戶或潛在客戶的 群體規(guī)模龐大??蛻粜枰ㄙM大量的時間才能選購到心意商品,而企業(yè)傳統(tǒng)識別潛在客戶 的方法能力有限。因此,對用戶進行興趣分析是管理復(fù)雜的客戶關(guān)系、改善用戶購物體驗的 一項重要工作。
[0003] 用戶興趣是進行網(wǎng)絡(luò)營銷、電子商務(wù)推薦和個性化信息檢索等個性化信息服務(wù)的 關(guān)鍵,它反映了用戶的個人特征和興趣偏好,是進行個性化信息服務(wù)的重要依據(jù)。
[0004] 由于用戶的即時興趣受到生活習(xí)慣、時間、地點、天氣、工作計劃及其他周圍環(huán)境 因素的影響,其預(yù)測工作也變得非常復(fù)雜。并且,導(dǎo)致預(yù)測工作更為困難的是,針對某一用 戶的即時興趣是完全個性化的,無法以其他個體的交易數(shù)據(jù)作為經(jīng)驗歷史數(shù)據(jù)來借鑒。
【發(fā)明內(nèi)容】
[0005] 社交網(wǎng)絡(luò)近年來蓬勃發(fā)展,已成為人們信息發(fā)表和關(guān)注的一個重要線上媒體。而 用戶發(fā)表和關(guān)注信息直接或間接顯示其興趣和關(guān)注點等特征。因此,作為一種新興的外部 數(shù)據(jù)參考,基于社交網(wǎng)絡(luò)的數(shù)據(jù)分析是獲取用戶興趣愛好的一個重要突破點。
[0006] 根據(jù)本申請的一個方面,提供了一種基于社交網(wǎng)絡(luò)的興趣識別方法,包括:接收關(guān) 于一用戶的興趣的查詢請求;從社交網(wǎng)絡(luò)收集與該用戶相關(guān)的數(shù)據(jù),所述數(shù)據(jù)包括該用戶 發(fā)表的消息以及該用戶在所述社交網(wǎng)絡(luò)中所關(guān)注的對象發(fā)表的消息;根據(jù)預(yù)先確定且定期 更新的興趣分類模型,計算所收集的數(shù)據(jù)中的每一消息屬于某一主題分類的概率;根據(jù)所 述消息的發(fā)送時間來計算所述消息的第一權(quán)重;通過將所述屬于某一主題分類的概率與包 括所述第一權(quán)重的權(quán)重值進行相乘,并進行累加,從而得出所述用戶對于某一主題分類的 興趣指數(shù)值;以及根據(jù)所述興趣指數(shù)值,分析該用戶的興趣分布;其中,所述對于某一主題 分類的興趣指數(shù)值與用戶對該主題分類的興趣度成正比。
[0007] 在上述興趣識別方法中,所述第一權(quán)重設(shè)置為當(dāng)前日期與所述發(fā)送時間的天數(shù)差 的自然對數(shù)的指數(shù)與時間調(diào)劑因子兩者的乘積,所述時間調(diào)劑因子可被調(diào)節(jié),其取值范圍 為大于0小于1。
[0008] 在上述興趣識別方法中,所述權(quán)重值還包括與消息的發(fā)送方相關(guān)的第二權(quán)重。
[0009] 在上述興趣識別方法中,所述興趣分類模型根據(jù)如下的步驟來預(yù)先確定:(a)獲 取訓(xùn)練數(shù)據(jù)并對所述訓(xùn)練數(shù)據(jù)進行標(biāo)注;(b)將所述訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為特征向量集合;以及 (c)識別所述特征向量集合中的特征并量化該特征對主題分類的貢獻(xiàn)度,從而生成基于文 本的興趣分類模型。
[0010] 在上述興趣識別方法中,步驟(a)包括:使用網(wǎng)絡(luò)爬蟲從數(shù)據(jù)源處收集頁面數(shù)據(jù); 對所收集的頁面數(shù)據(jù)進行文本數(shù)據(jù)的抽取;設(shè)置若干個興趣類別;以及為所抽取的每一份 文本數(shù)據(jù)標(biāo)注一標(biāo)簽,所述標(biāo)簽的內(nèi)容為所述若干個興趣類別中的至少一個類別。
[0011] 在上述興趣識別方法中,步驟(b)包括:將所述文本數(shù)據(jù)按照一定規(guī)范切分成詞 序列;對所述詞序列標(biāo)注詞性,并去除與興趣識別無關(guān)的一些詞;為所述詞序列進行編碼, 并轉(zhuǎn)換空間向量模型;以及根據(jù)所述空間向量模型,進行特征的選擇,從而得到特征向量的 集合。
[0012] 在上述興趣識別方法中,所述社交網(wǎng)絡(luò)為微博。
[0013] 在上述興趣識別方法中,所述數(shù)據(jù)源為門戶網(wǎng)站、論壇以及微博,并且其中,對于 門戶網(wǎng)站和論壇,所抽取的文本為標(biāo)題、正文、發(fā)表時間和文檔標(biāo)簽,而對于微博,所抽取的 文本為正文和發(fā)表時間。
[0014] 在上述興趣識別方法中,去除與興趣識別無關(guān)的一些詞包括:去除介詞、代詞、副 詞以及連詞;以及去除停用詞,所述停用詞為實際含義較少、對判斷文章內(nèi)容作用不大的詞 語。
[0015] 根據(jù)本申請的另一個方面,提供了一種基于社交網(wǎng)絡(luò)的興趣識別設(shè)備,包括:接收 裝置,用于接收關(guān)于一用戶的興趣的查詢請求;收集裝置,用于從社交網(wǎng)絡(luò)收集與該用戶相 關(guān)的數(shù)據(jù),所述數(shù)據(jù)包括該用戶發(fā)表的消息以及該用戶在所述社交網(wǎng)絡(luò)中所關(guān)注的對象發(fā) 表的消息;第一計算裝置,用于根據(jù)預(yù)先確定且定期更新的興趣分類模型,計算所收集的數(shù) 據(jù)中的每一消息屬于某一主題分類的概率;第二計算裝置,用于根據(jù)所述消息的發(fā)送時間 來計算所述消息的第一權(quán)重;第三計算裝置,用于通過將所述屬于某一主題分類的概率與 包括所述第一權(quán)重的權(quán)重值進行相乘,并進行累加,從而得出所述用戶對于某一主題分類 的興趣指數(shù)值;以及分析裝置,用于根據(jù)所述興趣指數(shù)值,分析該用戶的興趣分布;其中, 所述對于某一主題分類的興趣指數(shù)值與用戶對該主題分類的興趣度成正比。
[0016] 在上述興趣識別設(shè)備中,所述第二計算裝置配置成計算當(dāng)前日期與所述發(fā)送時間 的天數(shù)之間差的自然對數(shù)的指數(shù),并將其與時間調(diào)劑因子相乘,其中,所述時間調(diào)劑因子可 被調(diào)節(jié),取值范圍為大于〇小于1。
[0017] 在上述興趣識別設(shè)備中,所述權(quán)重值還包括與消息的發(fā)送方相關(guān)的第二權(quán)重。
[0018] 上述興趣識別設(shè)備還可包括:獲取裝置,用于獲取訓(xùn)練數(shù)據(jù)并對所述訓(xùn)練數(shù)據(jù)進 行標(biāo)注;轉(zhuǎn)換裝置,用于將所述訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為特征向量集合;以及識別裝置,用于識別所 述特征向量集合中的特征并量化該特征對主題分類的貢獻(xiàn)度,從而生成基于文本的興趣分 類模型。
[0019] 在上述興趣識別設(shè)備中,所述獲取裝置包括:第一單元,用于使用網(wǎng)絡(luò)爬蟲從數(shù)據(jù) 源處收集頁面數(shù)據(jù);第二單元,用于對所收集的頁面數(shù)據(jù)進行文本數(shù)據(jù)的抽??;第三單元, 用于設(shè)置若干個興趣類別;以及第四單元,用于為所抽取的每一份文本數(shù)據(jù)標(biāo)注一標(biāo)簽,所 述標(biāo)簽的內(nèi)容為所述若干個興趣類別中的至少一個類別。
[0020] 在上述興趣識別設(shè)備中,所述轉(zhuǎn)換裝置包括:第五單元,用于將所述文本數(shù)據(jù)按照 一定規(guī)范切分成詞序列;第六單元,用于對所述詞序列標(biāo)注詞性,并去除與興趣識別無關(guān)的 一些詞;第七單元,用于為所述詞序列進行編碼,并轉(zhuǎn)換空間向量模型;以及第八單元,用 于根據(jù)所述空間向量模型,進行特征的選擇,從而得到特征向量的集合。
[0021] 在上述興趣識別設(shè)備中,所述社交網(wǎng)絡(luò)為微博。
[0022] 在上述興趣識別設(shè)備中,所述第二單元配置為當(dāng)數(shù)據(jù)源為門戶網(wǎng)站和論壇時,抽 取其標(biāo)題、正文、發(fā)表時間和文檔標(biāo)簽,而當(dāng)數(shù)據(jù)源為微博時,抽取其正文和發(fā)表時間。
[0023] 在上述興趣識別設(shè)備中,第六單元配置為去除介詞、代詞、副詞以及連詞;以及去 除停用詞,所述停用詞代表實際含義較少、對判斷文章內(nèi)容作用不大的詞語。
[0024] 根據(jù)本申請的又一方面,提供了一種數(shù)據(jù)分析方法,包括:在接收關(guān)于一用戶的興 趣的查詢請求后,從社交網(wǎng)絡(luò)收集與該用戶相關(guān)的數(shù)據(jù),所述數(shù)據(jù)包括該用戶發(fā)表的消息 以及該用戶在所述社交網(wǎng)絡(luò)中所關(guān)注的對象發(fā)表的消息;根據(jù)預(yù)先確定且定期更新的興趣 分類模型,計算所收集的數(shù)據(jù)中的每一消息屬于某一主題分類的概率;根據(jù)所述消息的發(fā) 送時間來計算所述消息的第一權(quán)重;根據(jù)所述消息的發(fā)送者來計算所述消息的第二權(quán)重; 通過將所述屬于某一主題分類的概率與包括所述第一權(quán)重和所述第二權(quán)重的權(quán)重值進行 相乘,并進行累加,從而得出所述用戶對于某一主題分類的興趣指數(shù)值;以及根據(jù)所述興趣 指數(shù)值,分析該用戶的興趣分布;其中,所述對于某一主題分類的興趣指數(shù)值與用戶對該主 題分類的興趣度成正比。
[0025] 在上述數(shù)據(jù)分析方法中,所述第一權(quán)重設(shè)置為當(dāng)前日期與所述發(fā)送時間的天數(shù)差 的自然對數(shù)的指數(shù)與時間調(diào)劑因子兩者的乘積,所述時間調(diào)劑因子可被調(diào)節(jié),其取值范圍 為大于0小于1。
[0026] 在上述數(shù)據(jù)分析方法中,所述興趣分類模型根據(jù)如下的步驟來預(yù)先確定:(a)獲 取訓(xùn)練數(shù)據(jù)并對所述訓(xùn)練數(shù)據(jù)進行標(biāo)注;(b)將所述訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為特征向量集合;以及 (c)識別所述特征向量集合中的特征并量化該特征對主題分類的貢獻(xiàn)度,從而生成基于文 本的興趣分類模型。
[0027] 在上述數(shù)據(jù)分析方法中,步驟(a)包括:使用網(wǎng)絡(luò)爬蟲從數(shù)據(jù)源處收集頁面數(shù)據(jù); 對所收集的頁面數(shù)據(jù)進行文本數(shù)據(jù)的抽?。辉O(shè)置若干個興趣類別;以及為所抽取的每一份 文本數(shù)據(jù)標(biāo)注一標(biāo)簽,所述標(biāo)簽的內(nèi)容為所述若干個興趣類別中的至少一個類別。
[0028] 在上述數(shù)據(jù)分析方法中,步驟(b)包括:將所述文本數(shù)據(jù)按照一定規(guī)范切分成詞 序列;對所述詞序列標(biāo)注詞性,并去除與興趣識別無關(guān)的一些詞;為所述詞序列進行編碼, 并轉(zhuǎn)換空間向量模型;以及根據(jù)所述空間向量模型,進行特征的選擇,從而得到特征向量的 集合。
[0029] 在上述數(shù)據(jù)分析方法中,所述社交網(wǎng)絡(luò)為微博。
[0030] 在上述數(shù)據(jù)分析方法中,所述數(shù)據(jù)源