本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種在線好友關(guān)系強度評估方法及系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)的發(fā)展帶動著移動社交網(wǎng)絡(luò)的迅猛發(fā)展,社交網(wǎng)絡(luò)是一種使得人們一定程度上脫離現(xiàn)實生活的社會網(wǎng)絡(luò),取而代之的是在線的交流、互動,因此傳統(tǒng)的好友關(guān)系強度受到在線社會關(guān)系網(wǎng)絡(luò)的極大挑戰(zhàn),這就在很大程度上模糊了虛擬和現(xiàn)實的界限。因此,當(dāng)前急需一種在線社會關(guān)系好友強度的分析方法來衡量和預(yù)測好友間的關(guān)系。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種在線好友關(guān)系強度評估方法,包括以下步驟:
獲取在線用戶的原始數(shù)據(jù);
對所述原始數(shù)據(jù)依次進行清洗、屬性提取以及屬性等級劃分,得到多用戶的多源屬性數(shù)據(jù);
按照預(yù)設(shè)的屬性標(biāo)簽規(guī)則對所述多源屬性數(shù)據(jù)進行融合,構(gòu)建屬性融合模型;
根據(jù)所述屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型;
根據(jù)所述信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值,對所述在線好友關(guān)系進行評估。
作為一種可實施方式,本發(fā)明的在線好友關(guān)系強度評估方法,還包括以下步驟:
利用mysql數(shù)據(jù)庫,對獲取的在線用戶的原始數(shù)據(jù)進行存儲。
作為一種可實施方式,所述對原始數(shù)據(jù)依次進行清洗、屬性提取以及屬性等級劃分,得到多用戶的多源屬性數(shù)據(jù),包括以下步驟:
利用數(shù)據(jù)庫工具,對得到的在線用戶的原始數(shù)據(jù)進行清洗,去除冗余和無效信息;
對清洗后的數(shù)據(jù),按照各用戶的不同特性進行屬性提??;
采用隨機森林的方法,選取眾數(shù)指標(biāo),設(shè)定權(quán)重,劃分個體屬性等級,得到多用戶的多源屬性數(shù)據(jù)。
作為一種可實施方式,在所述按照預(yù)設(shè)的屬性標(biāo)簽性規(guī)則對所述多源屬性數(shù)據(jù)進行融合,構(gòu)建屬性融合模型之后,還包括以下步驟:
對所述多源屬性數(shù)據(jù)進行離散化處理,形成新的屬性指標(biāo);新的屬性指標(biāo)包括用戶的關(guān)注度離散值、被關(guān)注度離散值、信譽度離散值、活躍度離散值以及相似度離散值。
作為一種可實施方式,所述根據(jù)屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型,包括以下步驟:
根據(jù)得到的關(guān)注度離散值、信譽度離散值、相似度離散值、以及活躍度離散值四個維度的隸屬度,進行基本信任分配,構(gòu)建相似矩陣;
根據(jù)所述相似矩陣計算屬性證據(jù)的可信度,將四個維度的離散值轉(zhuǎn)化為四個維度的可信度;
通過對四個維度的可信度進行加權(quán)平均分配,融合多源屬性證據(jù),形成所述信任關(guān)系融合模型。
作為一種可實施方式,所述根據(jù)屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型,包括以下步驟:
計算相似系數(shù)dij:
式中ei、ej表示某識別框架下的兩個證據(jù);dm和dn分別表示兩個證據(jù)下的離散值(i≥1),j≤4且i≠j,n≥1,m≤3),ai和bj為焦元,m1和m2為基本信任分配函數(shù);其中,相似系數(shù)dij表征證據(jù)i與j之間的相似度,由于相似度是標(biāo)量,沒有方向性,故dij=dji;
根據(jù)相似系數(shù)dij,計算系數(shù)相似矩陣s:
根據(jù)相似矩陣s,計算屬性可信度crd(mi):
其中,sup(mi)表示各屬性證據(jù)對ei的支持度,其計算方式是相似矩陣s的每行相加;
根據(jù)屬性可信度crd(mi),計算屬性證據(jù)的加權(quán)合成分配值mc(s):
其中,mc(s)表示4個屬性證據(jù)對待評估信任關(guān)系為強的平均加權(quán)證據(jù)的基本分配值;
根據(jù)所述加權(quán)合成分配值mc(s),對所述多源屬性分配和新屬性的再分配進行融合,形成所述信任關(guān)系融合模型。
作為一種可實施方式,所述根據(jù)信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值,對所述在線好友關(guān)系進行評估,包括以下步驟:
根據(jù)所述信任關(guān)系融合模型,按如下公式獲取在線好友關(guān)系強度的值:
其中,n1(s)為平均證據(jù)經(jīng)過一次合成得到的待評估信任關(guān)系強度為強的信任值;a和b分別為兩個屬性集合,且屬性的參數(shù)值介于區(qū)間(0,1)之間,屬性的參數(shù)總和為1;
根據(jù)獲得的在線好友關(guān)系強度的值,對所述在線好友關(guān)系的強度進行評估。
相應(yīng)的,本發(fā)明還提供一種在線好友關(guān)系強度評估系統(tǒng),包括數(shù)據(jù)獲取模塊、預(yù)處理模塊、屬性融合模塊、信任關(guān)系融合模塊以及評估模塊;
所述數(shù)據(jù)獲取模塊,用于獲取在線用戶的原始數(shù)據(jù);
所述預(yù)處理模塊,用于對所述原始數(shù)據(jù)依次進行清洗、屬性提取以及屬性等級劃分,得到多用戶的多源屬性數(shù)據(jù);
所述屬性融合模塊,用于按照預(yù)設(shè)的屬性標(biāo)簽規(guī)則對所述多源屬性數(shù)據(jù)進行融合,構(gòu)建屬性融合模型;
所述信任關(guān)系融合模塊,用于根據(jù)所述屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型;
所述評估模塊,用于根據(jù)所述信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值,對所述在線好友關(guān)系進行評估。
作為一種可實施方式,本發(fā)明的在線好友關(guān)系強度評估系統(tǒng),還包括數(shù)據(jù)存儲模塊;
所述數(shù)據(jù)存儲模塊,用于利用mysql數(shù)據(jù)庫,對獲取的在線用戶的原始數(shù)據(jù)進行存儲。
作為一種可實施方式,所述預(yù)處理模塊包括清洗單元、提取單元以及劃分單元;
所述清洗單元,用于利用數(shù)據(jù)庫工具,對得到的在線用戶的原始數(shù)據(jù)進行清洗,去除冗余和無效信息;
所述提取單元,用于對清洗后的數(shù)據(jù),按照各用戶的不同特性進行屬性提?。?/p>
所述劃分單元,用于采用隨機森林的方法,選取眾數(shù)指標(biāo),設(shè)定權(quán)重,劃分個體屬性等級,得到多用戶的多源屬性數(shù)據(jù)。
本發(fā)明的有益效果在于:
本發(fā)明提供的在線好友關(guān)系強度評估方法及系統(tǒng),根據(jù)在線用戶的特點,通過獲取在線用戶的原始數(shù)據(jù),進而對原始數(shù)據(jù)依次進行清洗、屬性提取以及屬性等級劃分,得到多用戶的多源屬性數(shù)據(jù);進而按照預(yù)設(shè)的屬性標(biāo)簽規(guī)則對多源屬性數(shù)據(jù)進行融合,構(gòu)建屬性融合模型,并根據(jù)屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型;最后根據(jù)信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值,對在線好友關(guān)系進行評估。其基于屬性標(biāo)簽特點的分類和好友關(guān)系強度的評估,能夠方便快捷的衡量和預(yù)測好友間的關(guān)系。
附圖說明
圖1為本發(fā)明實施例一提供的在線好友關(guān)系強度評估方法的流程示意圖;
圖2為本發(fā)明實施例二提供的在線好友關(guān)系強度評估系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖,對本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明的部分實施例,而不是全部實施例。
本發(fā)明根據(jù)在線用戶的性格特點,進行了基于屬性標(biāo)簽特點的分類和好友關(guān)系強度的評估,隨著互聯(lián)網(wǎng)社交網(wǎng)絡(luò)的發(fā)展,人們的線下社交將會轉(zhuǎn)移到線上,屆時網(wǎng)絡(luò)社交將成為主體,因而獲取好友在線的社會關(guān)系強度意義重大。
當(dāng)前的在線交流系統(tǒng)有qq、微信以及微博等,接下來以具有龐大用戶數(shù)量的微博為例,具體介紹一下本發(fā)明提供的用于考察微博好友間關(guān)系強度的評估方法。
請參閱圖1,本發(fā)明實施例一提供的在線好友關(guān)系強度評估方法,包括以下步驟:
s100、獲取在線用戶的原始數(shù)據(jù)。
通過編寫采集規(guī)則和爬蟲算法,或者借助數(shù)據(jù)挖掘軟件即可獲取微博的內(nèi)容和數(shù)據(jù)。在數(shù)據(jù)的獲取過程,可以借助于網(wǎng)絡(luò)礦工軟件對微博數(shù)據(jù)集進行采集。
進一步地,在獲取在線用戶的原始數(shù)據(jù)之后,還可利用mysql數(shù)據(jù)庫,對獲取的在線用戶的原始數(shù)據(jù)進行存儲。
s200、對原始數(shù)據(jù)依次進行清洗、屬性提取以及屬性等級劃分,得到多用戶的多源屬性數(shù)據(jù)。
本發(fā)明使用基于數(shù)據(jù)挖掘和網(wǎng)絡(luò)爬蟲的技術(shù)獲取大量的數(shù)據(jù)集,再對數(shù)據(jù)集清洗分類,分為訓(xùn)練集和測試集,以此獲取合適的算法和評測方法。具體可通過以下步驟實現(xiàn):
挖掘微博用戶的主頁特性:根據(jù)微博用戶的個人屬性和微博標(biāo)簽的功能屬性,設(shè)定新的融合的數(shù)據(jù)庫標(biāo)簽屬性;
個體屬性等級劃分:依據(jù)數(shù)據(jù)庫的標(biāo)簽屬性,采用隨機森林的方法,選取眾數(shù)指標(biāo),設(shè)定權(quán)重,劃分個體屬性等級。
s300、按照預(yù)設(shè)的屬性標(biāo)簽規(guī)則對多源屬性數(shù)據(jù)進行融合,構(gòu)建屬性融合模型。
把多用戶的多源屬性數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,即可形成該用戶好友多源屬性的混合數(shù)據(jù)庫系統(tǒng)。在混合數(shù)據(jù)庫中,將屬性值按照同一標(biāo)準(zhǔn),統(tǒng)一分配離散開各屬性指標(biāo)。對離散后的屬性賦值,根據(jù)k-means聚類劃分簇。劃分后的新屬性指標(biāo),根據(jù)統(tǒng)一的標(biāo)簽進行權(quán)重值的再分配。依賴分配的權(quán)重值,構(gòu)建信任分配系統(tǒng)。此處的原始的多源屬性經(jīng)過離散再分配,其指標(biāo)的權(quán)重值發(fā)生變化,為后面的融合做準(zhǔn)備。
s400、根據(jù)屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型。
s500、根據(jù)信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值,對在線好友關(guān)系進行評估。
在步驟s300之后,還可對多源屬性數(shù)據(jù)進行離散化處理,形成新的屬性指標(biāo);新的屬性指標(biāo)包括用戶的關(guān)注度離散值、被關(guān)注度離散值、信譽度離散值、活躍度離散值以及相似度離散值。
通過獲取用戶的微博關(guān)注度離散值、信譽度離散值、相似度離散值、活躍度離散值四個維度的數(shù)據(jù),根據(jù)四個維度的隸屬度,進行基本信任分配,構(gòu)建相似矩陣,計算屬性證據(jù)的可信度,即可將四個維度的離散值轉(zhuǎn)化為四個維度的可信度。對四個維度的可信度執(zhí)行加權(quán)平均分配合成規(guī)則,形成多源屬性證據(jù)的融合。根據(jù)融合模型,獲取在線好友關(guān)系強度的值,對所述在線好友關(guān)系進行評估,劃分出強關(guān)系、弱關(guān)系或者不確定關(guān)系。
實施例一根據(jù)在線用戶的特點,通過獲取在線用戶的原始數(shù)據(jù),進而對原始數(shù)據(jù)依次進行清洗、屬性提取以及屬性等級劃分,得到多用戶的多源屬性數(shù)據(jù);進而按照預(yù)設(shè)的屬性標(biāo)簽規(guī)則對多源屬性數(shù)據(jù)進行融合,構(gòu)建屬性融合模型,并根據(jù)屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型;最后根據(jù)信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值,對在線好友關(guān)系進行評估。其基于屬性標(biāo)簽特點的分類和好友關(guān)系強度的評估,能夠方便快捷的衡量和預(yù)測好友間的關(guān)系。
具體地,步驟s200包括以下步驟:
s210、利用數(shù)據(jù)庫工具,對得到的在線用戶的原始數(shù)據(jù)進行清洗,去除冗余和無效信息,為后續(xù)的屬性做統(tǒng)一化處理做準(zhǔn)備。
s220、對清洗后的數(shù)據(jù),按照各用戶的不同特性進行屬性提取。
s230、采用隨機森林的方法,選取眾數(shù)指標(biāo),設(shè)定權(quán)重,劃分個體屬性等級,得到多用戶的多源屬性數(shù)據(jù)。
具體地,步驟s400包括以下步驟:
s410、根據(jù)得到的關(guān)注度離散值、信譽度離散值、相似度離散值、以及活躍度離散值四個維度的隸屬度,進行基本信任分配,構(gòu)建相似矩陣。
作為一種可實施方式,步驟s410中相似矩陣的具體計算過程如下:
首先,計算相似系數(shù)dij:
式中ei、ej表示某識別框架下的兩個證據(jù);dm和dn分別表示兩個證據(jù)下的離散值(i≥1),j≤4且i≠j,n≥1,m≤3),ai和bj為焦元,m1和m2為基本信任分配函數(shù);
接下來,根據(jù)相似系數(shù)dij,計算系數(shù)相似矩陣s:
其中,相似系數(shù)dij表征證據(jù)i與j之間的相似度,由于相似度是標(biāo)量,沒有方向性,故dij=dji。
s420、根據(jù)相似矩陣計算屬性證據(jù)的可信度,將四個維度的離散值轉(zhuǎn)化為四個維度的可信度。
作為一種可實施方式,步驟s420中的可信度的具體計算過程如下:
根據(jù)相似矩陣s,計算屬性可信度crd(mi):
其中,sup(mi)表示各屬性證據(jù)對ei的支持度,其計算方式是相似矩陣s的每行相加。
s430、通過對四個維度的可信度進行加權(quán)平均分配,融合多源屬性證據(jù),形成信任關(guān)系融合模型。
作為一種可實施方式,步驟s430中的屬性證據(jù)的加權(quán)合成分配函數(shù)為mc(s),其具體計算函數(shù)為:
其中,mc(s)表示4個屬性證據(jù)對待評估信任關(guān)系為強的平均加權(quán)證據(jù)的基本分配值;
根據(jù)所述加權(quán)合成分配值mc(s),對所述多源屬性分配和新屬性的再分配進行融合,形成所述信任關(guān)系融合模型。
具體地,步驟s500包括以下步驟:
s510、根據(jù)信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值。
聯(lián)合屬性的評估加權(quán)模型融合函數(shù)為:
其中,n1(s)為平均證據(jù)經(jīng)過一次合成得到的待評估信任關(guān)系強度為強的信任值;a和b分別為兩個屬性集合,且屬性的參數(shù)值介于區(qū)間(0,1)之間,屬性的參數(shù)總和為1;
s520、根據(jù)獲得的在線好友關(guān)系強度的值,對在線好友關(guān)系的強度進行評估。
基于同一發(fā)明構(gòu)思,本發(fā)明實施例還提供了一種在線好友關(guān)系強度評估系統(tǒng),該系統(tǒng)的原理與上述在線好友關(guān)系強度評估方法的原理相同,其具體實現(xiàn)可參照上述方法實施,重復(fù)之處,不再冗述。
參見圖2,本發(fā)明實施例二提供的在線好友關(guān)系強度評估系統(tǒng),包括數(shù)據(jù)獲取模塊100、預(yù)處理模塊200、屬性融合模塊300、信任關(guān)系融合模塊400以及評估模塊500。
數(shù)據(jù)獲取模塊100用于獲取在線用戶的原始數(shù)據(jù);預(yù)處理模塊200用于對原始數(shù)據(jù)依次進行清洗、屬性提取以及屬性等級劃分,得到多用戶的多源屬性數(shù)據(jù);屬性融合模塊300用于按照預(yù)設(shè)的屬性標(biāo)簽規(guī)則對多源屬性數(shù)據(jù)進行融合,構(gòu)建屬性融合模型;信任關(guān)系融合模塊400用于根據(jù)屬性融合模型以及預(yù)設(shè)的信任分配系統(tǒng),構(gòu)建信任關(guān)系融合模型;評估模塊500用于根據(jù)信任關(guān)系融合模型,獲取在線好友關(guān)系強度的值,對在線好友關(guān)系進行評估。
進一步地,本發(fā)明提供的在線好友關(guān)系強度評估系統(tǒng),還包括數(shù)據(jù)存儲模塊;
數(shù)據(jù)存儲模塊,用于利用mysql數(shù)據(jù)庫,對獲取的在線用戶的原始數(shù)據(jù)進行存儲。
具體地,預(yù)處理模塊200包括清洗單元、提取單元以及劃分單元。清洗單元用于利用數(shù)據(jù)庫工具,對得到的在線用戶的原始數(shù)據(jù)進行清洗,去除冗余和無效信息;提取單元用于對清洗后的數(shù)據(jù),按照各用戶的不同特性進行屬性提取;劃分單元用于采用隨機森林的方法,選取眾數(shù)指標(biāo),設(shè)定權(quán)重,劃分個體屬性等級,得到多用戶的多源屬性數(shù)據(jù)。
進一步地,本發(fā)明提供的在線好友關(guān)系強度評估系統(tǒng),還包括離散化模塊;離散化模塊用于對多源屬性數(shù)據(jù)進行離散化處理,形成新的屬性指標(biāo);新的屬性指標(biāo)包括用戶的關(guān)注度離散值、被關(guān)注度離散值、信譽度離散值、活躍度離散值以及相似度離散值。
具體地,信任關(guān)系融合模塊400包括相似矩陣構(gòu)建單元、可信度計算單元以及融合單元。相似矩陣構(gòu)建單元用于根據(jù)得到的關(guān)注度離散值、信譽度離散值、相似度離散值、以及活躍度離散值四個維度的隸屬度,進行基本信任分配,構(gòu)建相似矩陣;可信度計算單元用于根據(jù)相似矩陣計算屬性證據(jù)的可信度,將四個維度的離散值轉(zhuǎn)化為四個維度的可信度;融合單元用于通過對四個維度的可信度進行加權(quán)平均分配,融合多源屬性證據(jù),形成信任關(guān)系融合模型。
具體地,計算過程如下:
計算相似系數(shù)dij:
式中ei、ej表示某識別框架下的兩個證據(jù);dm和dn分別表示兩個證據(jù)下的離散值(i≥1),j≤4且i≠j,n≥1,m≤3),ai和bj為焦元,m1和m2為基本信任分配函數(shù);其中,相似系數(shù)dij表征證據(jù)i與j之間的相似度,由于相似度是標(biāo)量,沒有方向性,故dij=dji;
根據(jù)相似系數(shù)dij,計算系數(shù)相似矩陣s:
根據(jù)相似矩陣s,計算屬性可信度crd(mi):
其中,sup(mi)表示各屬性證據(jù)對ei的支持度,其計算方式是相似矩陣s的每行相加;
根據(jù)屬性可信度crd(mi),計算屬性證據(jù)的加權(quán)合成分配值mc(s):
其中,mc(s)表示4個屬性證據(jù)對待評估信任關(guān)系為強的平均加權(quán)證據(jù)的基本分配值。
根據(jù)加權(quán)合成分配值mc(s),對多源屬性分配和新屬性的再分配進行融合,形成信任關(guān)系融合模型。
進一步地,評估模塊500包括計算單元和評估單元。計算單元用于根據(jù)信任關(guān)系融合模型,按如下公式計算在線好友關(guān)系強度的值:
其中,n1(s)為平均證據(jù)經(jīng)過一次合成得到的待評估信任關(guān)系強度為強的信任值;a和b分別為兩個屬性集合,且屬性的參數(shù)值介于區(qū)間(0,1)之間,屬性的參數(shù)總和為1。
評估單元用于根據(jù)獲得的在線好友關(guān)系強度的值,對在線好友關(guān)系的強度進行評估。
以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本公開方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步的詳細說明,應(yīng)當(dāng)理解,以上所述僅為本發(fā)明的具體實施例而已,并不用于限定本發(fā)明的保護范圍。特別指出,對于本領(lǐng)域技術(shù)人員來說,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。