用戶個(gè)人品性預(yù)測(cè)方法
【專利摘要】本發(fā)明公開(kāi)了一種用戶個(gè)人品性預(yù)測(cè)方法,旨在克服現(xiàn)有技術(shù)存在的整體精準(zhǔn)度不高、適用性不強(qiáng)、特征權(quán)重及用戶個(gè)人品性標(biāo)記閾值分配過(guò)于主觀化等問(wèn)題,該方法的步驟為:1.由特征解析與表示模塊實(shí)現(xiàn)用戶個(gè)人品性相關(guān)特征集合的解析和表示;2.由特征分析和預(yù)處理模塊實(shí)現(xiàn)多元數(shù)據(jù)類型的歸一化;3.由參數(shù)學(xué)習(xí)模塊實(shí)現(xiàn)特征權(quán)重的分配以及用戶個(gè)人品性標(biāo)記最低閾值的確定;4.由用戶個(gè)人品性預(yù)測(cè)模塊實(shí)現(xiàn)用戶個(gè)人品性的預(yù)測(cè)。
【專利說(shuō)明】用戶個(gè)人品性預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種社會(huì)網(wǎng)絡(luò)個(gè)體認(rèn)知領(lǐng)域的用戶個(gè)人品性預(yù)測(cè)方法,更確切地說(shuō),本發(fā)明涉及一種用戶個(gè)人品性預(yù)測(cè)方法。
【背景技術(shù)】
[0002]社會(huì)網(wǎng)絡(luò)的迅速發(fā)展為用戶行為學(xué)習(xí)和建模提供了豐富的信息。用戶個(gè)人品性主要體現(xiàn)在對(duì)事物的態(tài)度和所采取的言行上,對(duì)用戶交互行為發(fā)揮著隱性的作用。
[0003]目前,實(shí)現(xiàn)用戶個(gè)人品性的預(yù)測(cè)主要有兩種方法:一種是僅基于用戶基本網(wǎng)絡(luò)結(jié)構(gòu)特征,利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析方法對(duì)其進(jìn)行建模;另一種是在用戶基本網(wǎng)絡(luò)特征基礎(chǔ)上,引入詞典資源,分析用戶的語(yǔ)言學(xué)特征,從中抽取用戶文本的情感傾向,利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的方法完成對(duì)用戶個(gè)人品性的預(yù)測(cè)分析。
[0004]雖然針對(duì)社會(huì)網(wǎng)絡(luò)進(jìn)行用戶個(gè)人品性的預(yù)測(cè)問(wèn)題已有一定的研究工作,但仍然存在一些不足,主要體現(xiàn)在:
[0005]1.整體精準(zhǔn)度不高
[0006]目前,盡管針對(duì)某一種用戶個(gè)人品性的預(yù)測(cè)精準(zhǔn)度較高,但就整體而言,用戶個(gè)人品性的平均預(yù)測(cè)精準(zhǔn)度卻不高。
[0007]2.適用性不強(qiáng)
[0008]由于不同的文化背景和社會(huì)習(xí)慣,國(guó)內(nèi)外的社會(huì)網(wǎng)絡(luò)可能存在一定的差異,而且目前的用戶個(gè)人品性預(yù)測(cè)模型缺少針對(duì)國(guó)內(nèi)社會(huì)網(wǎng)絡(luò)的適用性研究。
[0009]3.特征權(quán)重及用戶個(gè)人品性標(biāo)記最低閥值的分配過(guò)于主觀化
[0010]對(duì)于用戶個(gè)人品性相關(guān)特征的權(quán)重及用戶個(gè)人品性標(biāo)記最低閥值的分配缺少系統(tǒng)方法和理論的支持,過(guò)于主觀化。
【發(fā)明內(nèi)容】
[0011]本發(fā)明所要解決的技術(shù)問(wèn)題是克服了現(xiàn)有技術(shù)存在的整體精準(zhǔn)度不高、適用性不強(qiáng)、特征權(quán)重及用戶個(gè)人品性標(biāo)記閥值分配過(guò)于主觀化的問(wèn)題,提出一種用戶個(gè)人品性預(yù)測(cè)方法。
[0012]為解決上述技術(shù)問(wèn)題,本發(fā)明是采用如下技術(shù)方案實(shí)現(xiàn)的:所述的用戶個(gè)人品性預(yù)測(cè)方法,包括如下步驟:
[0013]1.由特征解析與表示模塊實(shí)現(xiàn)用戶個(gè)人品性相關(guān)特征的解析和表示:
[0014](I)通過(guò)新浪微博API獲取新浪微博用戶初始的用戶個(gè)人特征集合、關(guān)系特征集合、興趣特征集合和發(fā)表狀態(tài)集合;
[0015](2)對(duì)用戶個(gè)人特征集合、關(guān)系特征集合進(jìn)行預(yù)處理;
[0016](3)計(jì)算用戶的情感極性特征;
[0017](4)基于步驟(I) (2) (3)得到的結(jié)果,將用戶個(gè)人品性特征分別表示為{tender,actDays, verified, labg, favouritesAct, statusesAct}, {followersAct, friendsAct,bifollowerAct}, {(i0, ω0), Q1, ω ),…,(im, ωω)}和 Ε。
[0018]其中:{gender,actDays, verified, lang, favouritesAct, statusesAct}為用戶個(gè)人特征集合,gender為用戶性別,actDays為用戶的活躍天數(shù),verified為用戶是否是新浪微博認(rèn)證用戶,Iang為用戶當(dāng)前的語(yǔ)言版本,favouritesAct為用戶的收藏活躍頻率,statusesAct為用戶發(fā)表的微博的活躍頻率;{followersAct, friendsAct,bifollowerAct}為用戶關(guān)系特征集合,followersAct為用戶的粉絲活躍頻率,friendsAct為用戶的關(guān)注活躍頻率,bifollowerAct為用戶的互粉活躍頻率;Kitl, ω0), (i17 Q1),…,(im,ωπ)}為用戶興趣特征集合,1為用戶第m個(gè)興趣名稱,ωπ*用戶第m個(gè)興趣的權(quán)重;E為用戶的情感極性特征。
[0019]2.由特征分析和預(yù)處理模塊實(shí)現(xiàn)多元數(shù)據(jù)類型的歸一化。
[0020]3.由參數(shù)學(xué)習(xí)模塊實(shí)現(xiàn)特征權(quán)重的分配以及用戶個(gè)人品性標(biāo)記最低閥值的確定:
[0021](I)分配各個(gè)特征權(quán)重;
[0022](2)確定用戶個(gè)人品性標(biāo)記的最低閥值。
[0023]4.由用戶個(gè)人品性預(yù)測(cè)模塊實(shí)現(xiàn)基于最低閥值的用戶個(gè)人品性多標(biāo)記的預(yù)測(cè)。
[0024]技術(shù)方案中所述的用戶個(gè)人特征集合、關(guān)系特征集合預(yù)處理,步驟如下:
[0025](I)將用戶注冊(cè)微博賬號(hào)的日期基于某一時(shí)間點(diǎn)轉(zhuǎn)換為用戶注冊(cè)微博賬號(hào)的天數(shù),即用戶活躍天數(shù),記為:actDays,并將其加入到用戶個(gè)人特征集合中,同時(shí)將用戶的注冊(cè)時(shí)間從集合中移除,即得到用戶個(gè)人特征集合{gender, actDays, verified, lang,favouritesCount, statusesCount};
[0026](2)基于用戶活躍天數(shù),計(jì)算用戶個(gè)人特征集合和關(guān)系特征集合中數(shù)值型元素的活躍頻率,計(jì)算公式如下:
[0027]featureActj = | J^eaturei |/actDays
[0028]其中KeatureActi為第i個(gè)特征的活躍頻率,!feature」為第i個(gè)特征的絕對(duì)值,即得到新定義的用戶個(gè)人特征集合{gender, actDays, verified, lang, favouritesAct,statusesAct}和關(guān)系特征集合{followersAct, friendsAct, bifollowerAct}。
[0029]技術(shù)方案中所述的用戶情感極性特征的計(jì)算,步驟如下:
[0030](I)應(yīng)用NLPIR漢語(yǔ)分詞系統(tǒng),從發(fā)表狀態(tài)集合中抽取出形容詞和副詞列表,記為:
[0031]Emotion_words = (e0.e”...,e」)
[0032]其中:ej為第j個(gè)形容詞或者副詞;
[0033](2)基于知網(wǎng)的中文情感分析用詞語(yǔ)集,計(jì)算用戶的情感極性特征,其計(jì)算公式如下:
【權(quán)利要求】
1.用戶個(gè)人品性預(yù)測(cè)方法,其特征在于,所述的用戶個(gè)人品性預(yù)測(cè)方法包括如下步驟: (1)由特征解析與表示模塊實(shí)現(xiàn)用戶個(gè)人品性相關(guān)特征的解析和表示: 1)通過(guò)新浪微博API獲取新浪微博用戶初始的用戶個(gè)人特征集合、關(guān)系特征集合、興趣特征集合和發(fā)表狀態(tài)集合; 2)對(duì)用戶個(gè)人特征集合、關(guān)系特征集合進(jìn)行預(yù)處理; 3)計(jì)算用戶的情感極性特征; 4)基于步驟1)2)3)的結(jié)果,將用戶個(gè)人品性特征表示為:
{gender, ac tDays, verified, lang, favouritesAct, statusesAct}, (followersAct, friendsAct, bifollowerAct), C(i0, ω0), (i17 Co1),...,(im, com)}和 E。 其中:{gender, actDays, verified, lang, favouritesAct, statusesAct}為用戶個(gè)人特征集合,gender為用戶性別,actDays為用戶的活躍天數(shù),verified為用戶是否是新浪微博認(rèn)證用戶,Iang為用戶當(dāng)前的語(yǔ)言版本,favouritesAct為用戶的收藏活躍頻率,statusesAct為用戶發(fā)表的微博的活躍頻率;{followersAct, friendsAct,bifollowerAct}為用戶關(guān)系特征集合,followersAct為用戶的粉絲活躍頻率,friendsAct為用戶的關(guān)注活躍頻率,bifollowerAct為用戶的互粉活躍頻率;Kitl, ω0), (i17 Q1),…,(im,ωω))為用戶興趣特征集合,乜為用戶第m個(gè)興趣名稱,ωπ為用戶第1]1個(gè)興趣的權(quán)重;E為用戶的情感極性特征。 (2)由特征分析和預(yù)處理模塊實(shí)現(xiàn)多元數(shù)據(jù)類型的歸一化; (3)由參數(shù)學(xué)習(xí)模塊實(shí)現(xiàn)特征權(quán)重的分配以及用戶個(gè)人品性標(biāo)記最低閥值的確定: 1)分配各個(gè)特征權(quán)重; 2)確定用戶個(gè)人品性標(biāo)記的最低閥值; (4)由用戶個(gè)人品性預(yù)測(cè)模塊實(shí)現(xiàn)基于最低閥值的用戶個(gè)人品性的預(yù)測(cè)。
2.按照權(quán)利要求1所述的用戶個(gè)人品性預(yù)測(cè)方法,其特征在于,所述的實(shí)現(xiàn)用戶個(gè)人特征集合、關(guān)系特征集合預(yù)處理包括如下步驟: (1)將用戶注冊(cè)微博賬號(hào)的日期基于某一時(shí)間點(diǎn)轉(zhuǎn)換為用戶注冊(cè)微博賬號(hào)的天數(shù),即用戶活躍天數(shù),記為:actDays,并將其加入到用戶個(gè)人特征集合中,同時(shí)將用戶的注冊(cè)時(shí)間從集合中移除,即得到用戶個(gè)人特征集合{gender, actDays, verified, lang, favouritesCount, statusesCount); (2)基于用戶活躍天數(shù),計(jì)算用戶個(gè)人特征集合和關(guān)系特征集合中數(shù)值型元素的活躍頻率,計(jì)算公式如下:
featureActj = |Featurei |/actDays 其中:featureActi為第i個(gè)特征的活躍頻率,!feature」為第i個(gè)特征的絕對(duì)值,即得到新定義的用戶個(gè)人特征集合{gender, actDays, verified, lang, favouritesAct,statusesAct}和關(guān)系特征集合{followgrsAct, friendsAct, bifollowerAct}。
3.按照權(quán)利要求1所述的用戶個(gè)人品性預(yù)測(cè)方法,其特征在于,所述的實(shí)現(xiàn)用戶情感極性特征的計(jì)算包括如下步驟: (I)應(yīng)用NLPIR漢語(yǔ)分詞系統(tǒng),從發(fā)表狀態(tài)集合中抽取出形容詞和副詞列表,記為:
Emotion_words = (e0.θ17..., ej)其中A為第j個(gè)形容詞或者副詞;(2)基于知網(wǎng)的中文情感分析用詞語(yǔ)集,計(jì)算用戶的情感極性特征,其計(jì)算公式如下:
4.按照權(quán)利要求1所述的用戶個(gè)人品性預(yù)測(cè)方法,其特征在于,所述的實(shí)現(xiàn)歸一化多元類型數(shù)據(jù)包括如下步驟: (1)初始化數(shù)值型用戶個(gè)人品性特征值的離散中心點(diǎn)集合,其計(jì)算公式如下:
5.按照權(quán)利要求1所述的用戶個(gè)人品性預(yù)測(cè)方法,其特征在于,所述的實(shí)現(xiàn)特征權(quán)重的分配包括如下步驟: (I)計(jì)算特征的信息熵,其計(jì)算公式如下:
6.按照權(quán)利要求1所述的用戶個(gè)人品性預(yù)測(cè)方法,其特征在于,所述的實(shí)現(xiàn)用戶個(gè)人品性標(biāo)記最低閥值的確定包括如下步驟: (1)初始化用戶個(gè)人品性標(biāo)記最低閥值,其計(jì)算公式如下:
mi [O] = min {an, ai2, ai3,...} + (max{an, ai2, ai3,...} -min, ai2>, ai3,...}) 其中:{an,ai2,ni3,...}為第i個(gè)用戶個(gè)人品性標(biāo)記分?jǐn)?shù)的取值集合,Hii [0]為第i個(gè)用戶個(gè)人品性標(biāo)記分?jǐn)?shù)的初始中心點(diǎn),即初始最低閥值;(2)應(yīng)用Kohonen’s featur e-maps聚類算法獲得收斂的用戶個(gè)人品性標(biāo)記最低閥值。
7.按照權(quán)利要求1所述的用戶個(gè)人品性預(yù)測(cè)方法,其特征在于,所述的實(shí)現(xiàn)用戶個(gè)人品性預(yù)測(cè)包括如下步驟: (1)基于特征權(quán)重計(jì)算某一用戶與其他所有用戶之間的距離,其計(jì)算公式如下:
【文檔編號(hào)】G06F17/30GK103995820SQ201410081840
【公開(kāi)日】2014年8月20日 申請(qǐng)日期:2014年3月6日 優(yōu)先權(quán)日:2014年3月6日
【發(fā)明者】王英, 左萬(wàn)利, 王萌萌, 王鑫, 彭濤, 田中生, 趙秋月 申請(qǐng)人:吉林大學(xué)