社交網(wǎng)絡的用戶社團劃分方法和裝置的制造方法
【專利摘要】本發(fā)明實施例提供了一種社交網(wǎng)絡的用戶社團劃分方法和裝置,該方法包括:獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡信息;根據(jù)信息交互關系針對社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜;利用深度優(yōu)先算法對社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群;將強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;將強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團。本發(fā)明無需對所有用戶進行社團劃分,減少了信息計算量;并且,本發(fā)明得到的多個用戶社團是以需要分析的主題為基礎進行劃分的,允許了同一用戶出現(xiàn)在多個社團的情況,并提高了社團劃分的精準度和分析用途。
【專利說明】
社交網(wǎng)絡的用戶社團劃分方法和裝置
技術領域
[0001]本發(fā)明涉及數(shù)據(jù)挖掘技術領域,特別是涉及一種社交網(wǎng)絡的用戶社團劃分方法和
目.0
【背景技術】
[0002]隨著互聯(lián)網(wǎng)和大數(shù)據(jù)的不斷發(fā)展,在復雜的網(wǎng)絡平臺中逐漸形成了一種具有重要信息發(fā)布和信息交換功能的社交網(wǎng)絡。其中,在社交網(wǎng)絡中,具有相同愛好和興趣的用戶可以相互討論和傳播與興趣相關的資訊信息,而這種有信息交流的用戶聚集就形成了一種用戶社團。
[0003]而為了結(jié)合社交網(wǎng)絡中的信息進行輿情分析或者進行視頻、資訊等信息的推薦,往往需要將社交網(wǎng)絡中的眾多用戶劃分為多個用戶社團。其中,在傳統(tǒng)的用戶社團劃分方法中,主要是基于用戶交互關系(即交流情況)來將社交網(wǎng)絡中的用戶劃分為多個不存在信息交流或者信息交流少的多個用戶社團,以形成不相交的多個小網(wǎng)絡。
[0004]但是,隨著社交網(wǎng)絡中數(shù)據(jù)量的不斷增長,在進行社團劃分時的計算量也在不斷增加,因此,傳統(tǒng)的用戶社團劃分方法很難精準對所有用戶進行社團劃分;另外,傳統(tǒng)的用戶社團劃分方法是以用戶為單位進行社團劃分的,也就是說,一個用戶只能屬于一個社團,并不存在一個用戶參加多個社團的情況,那么以此方法劃分得到的用戶社團在進行輿情分析或是信息推薦時效果不佳。
[0005]由此可見,現(xiàn)有技術中的用戶社團劃分方法普遍存在著用戶社團間的用戶不重合、社團劃分計算量大、劃分結(jié)果不精準以及劃分結(jié)果的分析用途差的問題。
【發(fā)明內(nèi)容】
[0006]本發(fā)明實施例所要解決的技術問題是提供一種社交網(wǎng)絡的用戶社團劃分方法和裝置,以解決現(xiàn)有的用戶社團劃分方法所存在的用戶社團間的用戶不重合、社團劃分計算量大、劃分結(jié)果不精準以及劃分結(jié)果的分析用途差的問題。
[0007]為了解決上述問題,根據(jù)本發(fā)明的一個方面,本發(fā)明公開了一種社交網(wǎng)絡的用戶社團劃分方法,包括:
[0008]獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡信息;
[0009]根據(jù)所述信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜;
[0010]利用深度優(yōu)先算法針對所述社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群;
[0011]將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;
[0012]將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團,得到對應不同主題的多個第一用戶社團。
[0013]根據(jù)本發(fā)明的另一方面,本發(fā)明還公開了一種社交網(wǎng)絡的用戶社團劃分裝置,包括:
[0014]第一獲取模塊,用于獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡信息;
[0015]創(chuàng)建模塊,用于根據(jù)所述信息交互關系針對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜;
[0016]第一搜索模塊,用于利用深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群;
[0017]第一匹配模塊,用于將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;
[0018]第一劃分模塊,用于將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團,得到對應不同主題的多個第一用戶社團。
[0019]與現(xiàn)有技術相比,本發(fā)明實施例包括以下優(yōu)點:
[0020]本發(fā)明實施例可以利用用戶間的信息交互關系和深度優(yōu)先算法搜索社交網(wǎng)絡中強連通的用戶群,從而實現(xiàn)了信息交流活躍的用戶群的快速搜索;并且,以強連通的用戶群為基礎,根據(jù)該用戶群內(nèi)用戶間的交互信息和需要分析的主題對活躍用戶群進行進一步的社團劃分,從而形成了與所需要分析的不同主題密切相關的多個社團,該多個社團由活躍用戶構(gòu)成。在此實施例中,無需對所有用戶進行社團劃分,減少了信息計算量;并且,得到的多個用戶社團是以需要分析的主題為基礎進行劃分的,允許了同一用戶出現(xiàn)在多個社團的情況,并提高了社團劃分的精準度和分析用途。
[0021]此外,本發(fā)明實施例可以對網(wǎng)絡用戶有效的劃分出活躍用戶和不活躍用戶,再分別針對兩類用戶基于所要分析的主題進行進一步細化的社團劃分,使得劃分得到的用戶社團內(nèi)的成員從屬于相同的主題,利于后續(xù)的輿情分析和信息推薦。
【附圖說明】
[0022]圖1是本發(fā)明的一種社交網(wǎng)絡的用戶社團劃分方法實施例的步驟流程圖;
[0023]圖2是本發(fā)明的另一種社交網(wǎng)絡的用戶社團劃分方法實施例的步驟流程圖;
[0024]圖3是本發(fā)明的又一種社交網(wǎng)絡的用戶社團劃分方法實施例的步驟流程圖;
[0025]圖4是本發(fā)明的一種社交網(wǎng)絡的用戶社團劃分裝置實施例的結(jié)構(gòu)框圖;
[0026]圖5是本發(fā)明的另一種社交網(wǎng)絡的用戶社團劃分裝置實施例的結(jié)構(gòu)框圖。
【具體實施方式】
[0027]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步詳細的說明。
[0028]本發(fā)明實施例的核心構(gòu)思之一在于,利用用戶間的信息交互關系和深度優(yōu)先算法搜索社交網(wǎng)絡中強連通的用戶群,從而實現(xiàn)了信息交流活躍的用戶群的快速搜索;并且,以強連通的用戶群為基礎,根據(jù)該用戶群內(nèi)用戶間的交互信息和需要分析的主題對活躍用戶群進行進一步的社團劃分,從而形成了與所需要分析的不同主題密切分別對應的由活躍用戶構(gòu)成的多個社團。
[0029]參照圖1,示出了本發(fā)明的一種社交網(wǎng)絡的用戶社團劃分方法實施例的步驟流程圖,具體可以包括如下步驟:
[0030]步驟101,獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡?目息;
[0031 ]其中,可以借助于網(wǎng)絡數(shù)據(jù)采集工具來抓取社交網(wǎng)絡信息,其中,該社交網(wǎng)絡信息可以包括社交網(wǎng)絡中各個用戶間的信息交互轉(zhuǎn)發(fā)關系(例如,用戶A向用戶B發(fā)送消息,用戶B將該消息轉(zhuǎn)發(fā)給C)以及存在信息交互的兩個用戶間交流的信息,即上述消息。
[0032]步驟103,根據(jù)所述信息交互關系針對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜;
[0033]其中,由于信息交互關系中包括信息發(fā)送者和接收者或者轉(zhuǎn)發(fā)者,并且具有信息流向的方向性,因此,可以根據(jù)網(wǎng)絡抓取的信息交互關系建立有向的社交網(wǎng)絡圖譜。
[0034]步驟105,利用深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群;
[0035]其中,可以利用深度優(yōu)先搜索(depth-firstsearch)算法搜索社交網(wǎng)絡圖譜中活躍重要的用戶群;其中,強連通的用戶群是指考慮社交網(wǎng)絡圖譜中信息流向的方向時,用戶群中任意一用戶的信息都有潛在路徑傳播到此用戶群中另外任意其他用戶。
[0036]步驟107,將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;
[0037]其中,在搜索到信息交流頻繁的活躍重要用戶群體后,就可以將該強連通的用戶群中用戶交流內(nèi)容與需要分析的主題列表進行匹配。其中,可以預先建立需要分析的輿情主題列表,并且,各個輿情主題可以用一個或一系列的關鍵詞代表。
[0038]步驟109,將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團,得到對應不同主題的多個第一用戶社團。
[0039]其中,在強連通的用戶群中,各個用戶間交流的內(nèi)容如果與同一個主題(例如輿情主題)相符,那么就可以將這些用戶從強連通的用戶群中再劃分出來,形成第一用戶社團。例如,用戶I?用戶3交流的內(nèi)容與“音樂”主題匹配,那么可以將用戶I?用戶3劃分為第一用戶社團;而用戶4?用戶6交流的內(nèi)容與“電影”主題匹配,那么可以將用戶4?用戶6劃分為第一用戶社團。也就是說,本發(fā)明實施例所限定的第一用戶社團只是一種社團種類,并非用戶社團數(shù)量,而劃分得到的每種用戶社團都可以包括多個用戶社團。
[0040]借助于本發(fā)明上述實施例的技術方案,本發(fā)明實施例可以利用用戶間的信息交互關系和深度優(yōu)先算法搜索社交網(wǎng)絡中強連通的用戶群,從而實現(xiàn)了信息交流活躍的用戶群的快速搜索;并且,以強連通的用戶群為基礎,根據(jù)該用戶群內(nèi)用戶間的交互信息和需要分析的主題對活躍用戶群進行進一步的社團劃分,從而形成了與所需要分析的不同主題密切分別對應的由活躍用戶構(gòu)成的多個社團。在此實施例中,無需對所有用戶進行社團劃分,減少了信息計算量;并且,得到的多個用戶社團是以需要分析的主題為基礎進行劃分的,允許了同一用戶出現(xiàn)在多個社團的情況,并提高了社團劃分的精準度和分析用途。
[0041]參照圖2,示出了本發(fā)明的另一種社交網(wǎng)絡的用戶社團劃分方法實施例的步驟流程圖,具體可以包括如下步驟:
[0042]步驟201,獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡?目息;
[0043]步驟203,根據(jù)需要分析的主題對所述社交網(wǎng)絡信息進行篩選;
[0044]其中,為了避免劃分得到的用戶社團交流的信息與所要分析的輿情主題無關,增加無效社團的情況。可以預先建立需要分析的輿情主題列表,并且,各個輿情主題可以用一個或一系列的關鍵詞代表;并根據(jù)該輿情主題列表對獲取的社交網(wǎng)絡信息進行篩選。
[0045]步驟205,刪除所述社交網(wǎng)絡信息中不符合所述主題的社交網(wǎng)絡信息,得到篩選后的社交網(wǎng)絡信息;
[0046]其中,一個輿情主題可以由多個關鍵詞構(gòu)成,那么在進行社交網(wǎng)絡信息的篩選時,就可以將社交網(wǎng)絡信息中用戶間交流的內(nèi)容與任意一個關鍵詞都不相同,或者不包含在任意一個關鍵詞中的社交網(wǎng)信息刪除(這里刪除的社交網(wǎng)絡信息包括用戶間的信息交互關系和對應的交流內(nèi)容,其中,如果社交網(wǎng)絡信息還包括用戶的屬性,則將對應的用戶屬性也刪除)。
[0047]步驟207,根據(jù)所述篩選后的社交網(wǎng)絡信息中的信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜;
[0048]其中,所述社交網(wǎng)絡圖譜可以包括:用于表示信息發(fā)送方、信息接收方或信息轉(zhuǎn)發(fā)方的若干個節(jié)點,以及用于表示信息發(fā)送方、信息接收方或信息轉(zhuǎn)發(fā)方之間的信息交互關系的若干條邊。具體而言,其中,信息發(fā)布者可以作為社交網(wǎng)絡圖譜中某個有向連接的起點,信息接收者或者轉(zhuǎn)發(fā)者可以作為社交網(wǎng)絡圖譜中該有向連接的終點。其中,由于具有同樣興趣愛好的用戶會相互交流,這樣就形成了相互連接的群體。
[0049]步驟209a,利用深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群;
[0050]步驟211a,將所述強連通的用戶群中的用戶數(shù)量與第一預定閾值比較;
[0051]其中,為了便于后續(xù)的進一步劃分,可以將每個活躍用戶群體的用戶總數(shù)量與預先設定的活躍用戶數(shù)量閾值作比較;
[0052]步驟213a,將用戶數(shù)量小于所述第一預定閾值的強連通的用戶群直接劃分為第二用戶社團;
[0053]其中,對于用戶數(shù)量小于預先設定的活躍用戶數(shù)量閾值的強連通群,如果再進行進一步劃分則會造成所包含的用戶數(shù)量過少的情況,這樣不利于后續(xù)的數(shù)據(jù)分析,因此,對用戶數(shù)量過少的強連通的用戶群可以不再進行后續(xù)劃分。
[0054]步驟215a,在所述用戶數(shù)量大于等于所述第一預定閾值時,將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;
[0055]步驟217a,將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團;
[0056]可選的,在另一個實施例中,為了對劃分的第一用戶社團進行細化,根據(jù)本發(fā)明圖2所示實施例的劃分方法還可以包括:計算所述第一用戶社團中每對用戶間的信息交互次數(shù);將所述第一用戶社團中對應于所述信息交互次數(shù)大于等于第二預定閾值的用戶劃分為第三用戶社團。
[0057]通過本發(fā)明實施例的技術方案,可以將活躍社團中用戶間交流次數(shù)較多的用戶細化為另一用戶社團,提高劃分結(jié)果的分析用途。
[0058]步驟209b,利用所述深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到弱連通的用戶群;
[0059]其中,在利用深度優(yōu)先算法對社交網(wǎng)絡圖譜進行搜索時,可以忽略社交網(wǎng)絡圖譜中的方向性,這樣所有被連接在一起的用戶群體都可以形成弱連通的用戶群。
[0060]步驟211b,將所述弱連通的用戶群中的用戶數(shù)量與第三預定閾值比較;
[0061]其中,為了便于后續(xù)的進一步劃分,可以將每個不活躍用戶群體的用戶總數(shù)量與預先設定的不活躍用戶數(shù)量閾值作比較;
[0062]步驟213b,將用戶數(shù)量小于所述第三預定閾值的弱連通的用戶群直接劃分為第五用戶社團;
[0063]其中,對于用戶數(shù)量小于預先設定的不活躍用戶數(shù)量閾值的弱連通群,如果再進行進一步劃分則會造成所包含的用戶數(shù)量過少的情況,這樣不利于后續(xù)的數(shù)據(jù)分析,因此,對用戶數(shù)量過少的弱連通的用戶群可以不再進行后續(xù)劃分,以此得到的第五用戶社團基本是由不存在信息交互的用戶構(gòu)成。
[0064]步驟215b,在所述用戶數(shù)量大于等于所述第三預定閾值時,將所述弱連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;
[0065]其中,對于用戶數(shù)量高于預先設定的不活躍用戶數(shù)量閾值的弱連通的用戶群,可以基于用戶間交流的內(nèi)容細分為屬于某個輿情主題下的某個用戶社團,因此,可以將用戶間交流的內(nèi)容與需要分析的主題列表分別進行匹配。
[0066]步驟217b,將所述弱連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第四用戶社團。
[0067]其中,可以將弱連通的用戶群中與同一個主題匹配成功的交流內(nèi)容所對應的用戶細化為第四用戶社團。
[0068]可選的,在一個實施例中,為了利用上述流程劃分得到的用戶社團進行分析和資訊推薦,根據(jù)本發(fā)明實施例的劃分方法還包括:獲取劃分得到的每個用戶社團內(nèi)的用戶的屬性(例如、興趣愛好、個人簡介、交流的信息、用戶頭像、用戶標簽等);然后,根據(jù)所述用戶的屬性確定每個用戶社團的共同特征;最后,根據(jù)每個用戶社團的所述共同特征對每個用戶社團進行信息推薦和/或輿情分析。
[0069]舉例來說,對于劃分得到的某一個用戶社團,如果該社團內(nèi)的成員大多為女生,出生日期在1990年?1998年,交流的信息主要為熱播的韓劇,那么就可以根據(jù)這些共同特征對該社團內(nèi)的每個成員進行熱播韓劇的推薦,和/或做出輿情分析。
[0070]通過以上描述可以看成,借助本發(fā)明實施例的上述技術方案,本發(fā)明實施例可以對網(wǎng)絡用戶有效的劃分出活躍用戶和不活躍用戶,再分別針對兩類用戶基于所要分析的主題進行進一步細化的社團劃分,使得劃分得到的用戶社團內(nèi)的成員從屬于相同的主題,利于后續(xù)的輿情分析和信息推薦。
[0071]為了更好的理解本發(fā)明的上述技術方案,下面結(jié)合一具體實施例來對本發(fā)明的上述技術方案進行詳細闡述。
[0072]參照如圖3,示出了本發(fā)明的另一種社交網(wǎng)絡的用戶社團劃分方法實施例的步驟流程圖,具體可以包括如下步驟:
[0073]步驟301,獲取社交網(wǎng)絡中用戶和交流信息數(shù)據(jù);
[0074]其中,可以借助網(wǎng)絡數(shù)據(jù)采集工具,抓取社交網(wǎng)絡信息,包括用戶間信息交互轉(zhuǎn)發(fā)關系,用戶交流內(nèi)容,用戶屬性等;同時,建立所要分析的輿情主題列表,各個輿情主題可以用一個或一系列的關鍵詞代表。
[0075]步驟303,匹配交流信息到輿情主題(關鍵詞)列表;
[0076]其中,可以匹配所獲得社交網(wǎng)絡中用戶交流內(nèi)容是否與所要分析的主題相符;
[0077]步驟305,如果為否,則信息不納入分析;
[0078]其中,與輿情主題(關鍵詞)列表不符合的社交網(wǎng)絡信息全部不納入分析,其余的社交網(wǎng)絡信息作為后繼分析的數(shù)據(jù)源。
[0079]步驟307,建立社交網(wǎng)絡圖譜,利用強(弱)連通劃分用戶群體;
[0080]其中,可以利用抓取的用戶間交互轉(zhuǎn)發(fā)關系和方向性建立有向社交關系圖譜,其中信息發(fā)布者作為關系圖中某個有向連接的起點,信息接收者(或者轉(zhuǎn)發(fā)者)作為關系圖中此有向連接的終點。有同樣興趣的用戶會相互交流,或者通過類似的渠道獲得信息,從而形成相連的群體;
[0081]然后,利用深度優(yōu)先搜索算法可以初步劃分用戶到強、弱連通群體。這里弱連通的用戶群是指忽略社交關系圖譜中方向性時,所有被連接在一起的用戶群體。強連通的用戶群是指考慮社交關系圖譜中方向性時,用戶群中的任一用戶的信息都有潛在路徑傳播到此群中的另外任一其他用戶,其中,強連通的用戶群體屬于活躍重要的用戶群體。
[0082]其中,深度優(yōu)先搜索是一種經(jīng)典的在圖中搜索用戶間鏈接路徑的方法。具體過程如下:在社交網(wǎng)絡關系圖中,從任一用戶開始,跟隨圖中有向或無向鏈接關系,向外探索。如果此用戶有相鄰的用戶而且從未被訪問過,則訪問鄰居用戶,然后從此鄰居用戶再尋找其他的未被訪問的鄰居。如果找不到,則返回到上一個用戶。重復這個過程直到圖中所有相連接的用戶都被訪問過為止。這樣從圖中任一用戶開始,到任一其他用戶的所有路徑都可以被找到。進而獲得圖中所有用戶間的消息傳播路徑,用于確定強或弱連通的用戶群。
[0083]步驟309,利用信息內(nèi)容劃分用戶到輿情主題相關社團;
[0084]其中,利用用戶間交互關系獲得初步劃分的用戶群后,用戶的交流內(nèi)容等可以被用于進一步的用戶劃分。這樣就可以將同一連通用戶群中交流相同內(nèi)容的用戶細分為屬于某個輿情主題下的某個用戶社團。
[0085]下面對弱連通的用戶群和強連通的用戶群的后續(xù)劃分分別進行闡述:
[0086]對于弱連通的用于群,在利用用戶信息交換轉(zhuǎn)發(fā)關系劃分所有用戶到多個弱連通用戶群后,會將某個用戶群的用戶數(shù)量與第一閾值作比較;如果某個用戶群中用戶的數(shù)量過小(比如小于第一閾值),則認為他們?yōu)橐粋€社團,不再進行繼續(xù)劃分。
[0087]如果群中用戶數(shù)量大于第一閾值,則利用確定的輿情主題繼續(xù)劃分用戶團體。根據(jù)用戶的交流內(nèi)容與所要分析輿情主題(關鍵詞)的相符度,劃分弱關聯(lián)用戶群中涉及到某個輿情主題的信息發(fā)布者和接收轉(zhuǎn)發(fā)者到一個輿情相關的用戶社團中。比如輿情主題為影視節(jié)目A和影視節(jié)目B,則弱連通用戶群會被繼續(xù)細分為社團A和社團B。這里輿情相關的用戶社團允許重合的情況,即某些用戶可以屬于多個輿情相關社團。
[0088]對于強連通的用戶群,群體中包含著社交網(wǎng)絡圖譜中的活躍、重要、有影響的用戶,那么和他們有緊密聯(lián)系的用戶所組成的社團很大可能是輿情分析或者營銷的中心。因此,尋找和劃分某個特定輿情主題下的活躍用戶社團能夠為相關分析提供重要的數(shù)據(jù)支持。
[0089]當完全集中在強連通的用戶群的挖掘時,可以利用強連通關系,對強連通的用戶群的用戶數(shù)量與預先設定的第二閾值作比較,如果某個用戶群中用戶的數(shù)量過小(比如小于第二閾值),則認為他們?yōu)橐粋€社團,不再進行繼續(xù)劃分。
[0090]如果強連通的用戶群中用戶數(shù)量大于第二閾值,則確定用戶數(shù)量大于第二閾值的強連通用戶群為活躍的用戶群。然后,就可根據(jù)用戶的交流內(nèi)容與所要分析輿情主題(關鍵詞)的相符度,繼續(xù)劃分涉及到某個輿情主題的信息發(fā)布者和接收轉(zhuǎn)發(fā)者到一個輿情相關的用戶社團。比如輿情主題為影視節(jié)目A和影視節(jié)目B,則某個強連通活躍重要用戶群會被繼續(xù)分為社團A和社團B。同樣用戶社團的劃分允許重合。
[0091]更進一步地,可以考慮將同一對用戶間的交流次數(shù)記為社交關系圖譜中的有向連接權重,多次有向連接代表高權重。然后,根據(jù)有向連接的權重,就可以繼續(xù)劃出用戶交流轉(zhuǎn)發(fā)關系權重都大于某個閾值的活躍團體。其中,社團中用戶間交流次數(shù)越多,社團越活躍,用戶的信息被轉(zhuǎn)發(fā)越多,用戶越重要。
[0092]步驟311,各種社團內(nèi)和社團間的分析。
[0093]其中,上述流程劃分的用戶社團為后繼更多分析提供了基礎。比如可以利用社團中用戶的興趣愛好、個人簡介、交流信息和用戶畫像,提取某個輿情下的潛在內(nèi)容特征。另夕卜,由于這里社團可重合,當輿情主題比較相近且社團中用戶高度重合時,可為未來的分析和營銷等提供借鑒。
[0094]其中,本實施例所用的系統(tǒng)開發(fā)工具為R語言開發(fā)工具和Java,但是本發(fā)明對于開發(fā)工具并不做具體限定,可以根據(jù)不同的應用場景做出靈活調(diào)整。
[0095]從以上描述可以看成,本發(fā)明實施例的劃分方法,相對于傳統(tǒng)方法中追求對社交網(wǎng)絡中每一個用戶都精準劃分團體的劃分方式,本發(fā)明實施例的劃分發(fā)法能夠區(qū)分出社交網(wǎng)絡中的活躍用戶,并劃分他們到需要分析的輿情主題下。而且,不同于許多社團劃分方法只劃分用戶到唯一社團的情況,這里允許用戶涉及到多個輿情主題社團中。此外,和眾多的社團劃分方法一樣,本發(fā)明實施例的方法并不應用于包含社交網(wǎng)絡水軍的場景。
[0096]需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明實施例所必須的。
[0097]參照圖4,示出了本發(fā)明一種社交網(wǎng)絡的用戶社團劃分裝置實施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
[0098]第一獲取模塊41,用于獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡信息;
[0099]創(chuàng)建模塊42,用于根據(jù)所述信息交互關系針對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜;
[0100]第一搜索模塊43,用于利用深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群;
[0101]第一匹配模塊44,用于將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;
[0102]第一劃分模塊45,用于將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團,得到對應不同主題的多個第一用戶社團。
[0103]借助于本發(fā)明上述實施例的技術方案,本發(fā)明實施例可以利用用戶間的信息交互關系和深度優(yōu)先算法搜索社交網(wǎng)絡中強連通的用戶群,從而實現(xiàn)了信息交流活躍的用戶群的快速搜索;并且,以強連通的用戶群為基礎,根據(jù)該用戶群內(nèi)用戶間的交互信息和需要分析的主題對活躍用戶群進行進一步的社團劃分,從而形成了與所需要分析的不同主題密切分別對應的由活躍用戶構(gòu)成的多個社團。在此實施例中,無需對所有用戶進行社團劃分,減少了信息計算量;并且,得到的多個用戶社團是以需要分析的主題為基礎進行劃分的,允許了同一用戶出現(xiàn)在多個社團的情況,并提高了社團劃分的精準度和分析用途。
[0104]需要注意的是,上述方法實施例中涉及的第一、第二、第三、第四和第五用戶社團表示的是用戶社團的類別,即借助于本發(fā)明上述實施例的技術方案至少可以將用戶劃分為五種社團,而每種社團所包含的社團個數(shù)并不作具體限定,即,并不限制為一個,每種社團所包含的社團個數(shù)根據(jù)實際應用場景靈活劃分得到;另外,在各種用戶社團之間以及從屬于同一種用戶社團的多個用戶社團之間還可以存在重疊用戶的情況。
[0105]另外,在一個實施例中,參照圖5,示出了包含本發(fā)明圖4所示的另一種社交網(wǎng)絡的用戶社團劃分裝置實施例的結(jié)構(gòu)框圖,具體還可以包括如下模塊:
[0106]第一篩選模塊46,用于根據(jù)需要分析的主題對所述社交網(wǎng)絡信息進行篩選;
[0107]第一刪除模塊47,用于刪除所述社交網(wǎng)絡信息中不符合所述主題的社交網(wǎng)絡信息,得到篩選后的社交網(wǎng)絡信息;
[0108]所述創(chuàng)建模塊42,用于根據(jù)所述第一篩選模塊篩選后的社交網(wǎng)絡信息中的信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜;
[0109]其中,所述社交網(wǎng)絡圖譜包括:用于表示信息發(fā)送方、信息接收方或信息轉(zhuǎn)發(fā)方的若干個節(jié)點,以及用于表示信息發(fā)送方與信息接收方或信息轉(zhuǎn)發(fā)方之間的信息交互關系的若干條邊。
[0110]第一比較模塊48,用于將所述強連通的用戶群中的用戶數(shù)量與第一預定閾值比較;
[0111]第二劃分模塊49,用于將用戶數(shù)量小于所述第一預定閾值的強連通的用戶群直接劃分為第二用戶社團;
[0112]所述第一匹配模塊44,用于在所述用戶數(shù)量大于等于所述第一預定閾值時,將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配。
[0113]計算模塊50,用于計算所述第一用戶社團中每對用戶間的信息交互次數(shù);
[0114]第三劃分模塊51,用于將所述第一用戶社團中對應于所述信息交互次數(shù)大于等于第二預定閾值的用戶劃分為第三用戶社團;
[0115]第二搜索模塊52,用于利用所述深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到弱連通的用戶群;
[0116]第二比較模塊53,用于將所述弱連通的用戶群中的用戶數(shù)量與第三預定閾值比較;
[0117]第五劃分模塊54,用于將用戶數(shù)量小于所述第三預定閾值的弱連通的用戶群直接劃分為第五用戶社團;
[0118]第二匹配模塊55,用于在所述用戶數(shù)量大于等于所述第三預定閾值時,將所述弱連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配。
[0119]第四劃分模塊56,用于將所述弱連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第四用戶社團;
[0120]第二獲取模塊57,用于獲取劃分得到的每個用戶社團內(nèi)的用戶的屬性;
[0121]確定模塊58,用于根據(jù)所述用戶的屬性確定每個用戶社團的共同特征;
[0122]推薦模塊59,用于根據(jù)每個用戶社團的所述共同特征對每個用戶社團進行信息推薦;和/或
[0123]輿情分析模塊60,用于根據(jù)每個用戶社團的所述共同特征對每個用戶社團進行輿情分析。
[0124]本發(fā)明實施例的裝置可以快速尋找到社交網(wǎng)絡中相關的用戶群,用以確立輿情主題相關的受眾目標;并且,可以確立用戶群中活躍重要用戶,用以分析輿情傳播中的高影響力用戶;為后續(xù)的社團內(nèi)和社團間的分析提供基礎。
[0125]此外,本發(fā)明實施例的裝置在社交網(wǎng)絡的輿情分析方面有廣泛的應用前景,尤其能夠為不同輿情(比如相同和不同題材的視頻節(jié)目,IP,公眾人物和重要事件的輿情)的關聯(lián)發(fā)現(xiàn)和營銷策略的制定提供重要數(shù)據(jù)支持。
[0126]對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
[0127]本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
[0128]本領域內(nèi)的技術人員應明白,本發(fā)明實施例的實施例可提供為方法、裝置、或計算機程序產(chǎn)品。因此,本發(fā)明實施例可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0129]本發(fā)明實施例是參照根據(jù)本發(fā)明實施例的方法、終端設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理終端設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理終端設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0130]這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0131]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理終端設備上,使得在計算機或其他可編程終端設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程終端設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0132]盡管已描述了本發(fā)明實施例的優(yōu)選實施例,但本領域內(nèi)的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明實施例范圍的所有變更和修改。
[0133]最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
[0134]以上對本發(fā)明所提供的一種社交網(wǎng)絡的用戶社團劃分方法和一種社交網(wǎng)絡的用戶社團劃分裝置,進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。
【主權項】
1.一種社交網(wǎng)絡的用戶社團劃分方法,其特征在于,包括: 獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡信息; 根據(jù)所述信息交互關系針對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜; 利用深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群; 將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團,得到對應不同主題的多個第一用戶社團。2.根據(jù)權利要求1所述的方法,其特征在于,所述社交網(wǎng)絡圖譜包括:用于表示信息發(fā)送方、信息接收方或信息轉(zhuǎn)發(fā)方的若干個節(jié)點,以及用于表示信息發(fā)送方、信息接收方或信息轉(zhuǎn)發(fā)方之間的信息交互關系的若干條邊。3.根據(jù)權利要求1所述的方法,其特征在于,在所述根據(jù)所述信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜的步驟之前,所述方法還包括: 根據(jù)需要分析的主題對所述社交網(wǎng)絡信息進行篩選; 刪除所述社交網(wǎng)絡信息中不符合所述主題的社交網(wǎng)絡信息,得到篩選后的社交網(wǎng)絡信息; 所述根據(jù)所述信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜包括: 根據(jù)所述篩選后的社交網(wǎng)絡信息中的信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜。4.根據(jù)權利要求1所述的方法,其特征在于,在所述將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配的步驟之前,所述方法還包括: 將所述強連通的用戶群中的用戶數(shù)量與第一預定閾值比較; 將用戶數(shù)量小于所述第一預定閾值的強連通的用戶群直接劃分為第二用戶社團。5.根據(jù)權利要求1所述的方法,其特征在于,在所述將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團,得到對應不同主題的多個第一用戶社團的步驟之后,所述方法還包括: 計算所述第一用戶社團中每對用戶間的信息交互次數(shù); 將所述第一用戶社團中對應于所述信息交互次數(shù)大于等于第二預定閾值的用戶劃分為第三用戶社團。6.根據(jù)權利要求1所述的方法,其特征在于,在所述將根據(jù)所述信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜的步驟之后,所述方法還包括: 利用所述深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到弱連通的用戶群; 將所述弱連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配;將所述弱連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第四用戶社團。7.根據(jù)權利要求6所述的方法,其特征在于,在所述將所述弱連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配的步驟之前,所述方法還包括: 將所述弱連通的用戶群中的用戶數(shù)量與第三預定閾值比較; 將用戶數(shù)量小于所述第三預定閾值的弱連通的用戶群直接劃分為第五用戶社團。8.根據(jù)權利要求1至7中任意一項所述的方法,其特征在于,所述方法還包括: 獲取劃分得到的每個用戶社團內(nèi)的用戶的屬性; 根據(jù)所述用戶的屬性確定每個用戶社團的共同特征; 根據(jù)每個用戶社團的所述共同特征對每個用戶社團進行信息推薦和/或輿情分析。9.一種社交網(wǎng)絡的用戶社團劃分裝置,其特征在于,包括: 第一獲取模塊,用于獲取社交網(wǎng)絡中各個用戶間的信息交互關系和交互信息以形成社交網(wǎng)絡信息; 創(chuàng)建模塊,用于根據(jù)所述信息交互關系針對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜; 第一搜索模塊,用于利用深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到強連通的用戶群; 第一匹配模塊,用于將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配; 第一劃分模塊,用于將所述強連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第一用戶社團,得到對應不同主題的多個第一用戶社團。10.根據(jù)權利要求9所述的裝置,其特征在于,所述社交網(wǎng)絡圖譜包括:用于表示信息發(fā)送方、信息接收方或信息轉(zhuǎn)發(fā)方的若干個節(jié)點,以及用于表示信息發(fā)送方與信息接收方或信息轉(zhuǎn)發(fā)方之間的信息交互關系的若干條邊。11.根據(jù)權利要求9所述的裝置,其特征在于,所述裝置還包括: 第一篩選模塊,用于根據(jù)需要分析的主題對所述社交網(wǎng)絡信息進行篩選; 第一刪除模塊,用于刪除所述社交網(wǎng)絡信息中不符合所述主題的社交網(wǎng)絡信息,得到篩選后的社交網(wǎng)絡信息; 所述創(chuàng)建模塊,用于根據(jù)所述第一篩選模塊篩選后的社交網(wǎng)絡信息中的信息交互關系對所述社交網(wǎng)絡中的用戶創(chuàng)建社交網(wǎng)絡圖譜。12.根據(jù)權利要求9所述的裝置,其特征在于,所述裝置還包括: 第一比較模塊,用于將所述強連通的用戶群中的用戶數(shù)量與第一預定閾值比較; 第二劃分模塊,用于將用戶數(shù)量小于所述第一預定閾值的強連通的用戶群直接劃分為第二用戶社團; 所述第一匹配模塊,用于在所述用戶數(shù)量大于等于所述第一預定閾值時,將所述強連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配。13.根據(jù)權利要求9所述的裝置,其特征在于,所述裝置還包括: 計算模塊,用于計算所述第一用戶社團中每對用戶間的信息交互次數(shù); 第三劃分模塊,用于將所述第一用戶社團中對應于所述信息交互次數(shù)大于等于第二預定閾值的用戶劃分為第三用戶社團。14.根據(jù)權利要求9所述的裝置,其特征在于,所述裝置還包括: 第二搜索模塊,用于利用所述深度優(yōu)先算法對所述社交網(wǎng)絡圖譜進行搜索,得到弱連通的用戶群; 第二匹配模塊,用于將所述弱連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配; 第四劃分模塊,用于將所述弱連通的用戶群中與同一主題匹配成功的交互信息所對應的用戶劃分為第四用戶社團。15.根據(jù)權利要求14所述的裝置,其特征在于,所述裝置還包括: 第二比較模塊,用于將所述弱連通的用戶群中的用戶數(shù)量與第三預定閾值比較; 第五劃分模塊,用于將用戶數(shù)量小于所述第三預定閾值的弱連通的用戶群直接劃分為第五用戶社團; 所述第二匹配模塊,用于在所述用戶數(shù)量大于等于所述第三預定閾值時,將所述弱連通的用戶群中各個用戶間的交互信息與需要分析的主題列表進行匹配。16.根據(jù)權利要求9至15中任意一項所述的裝置,其特征在于,所述裝置還包括: 第二獲取模塊,用于獲取劃分得到的每個用戶社團內(nèi)的用戶的屬性; 確定模塊,用于根據(jù)所述用戶的屬性確定每個用戶社團的共同特征; 推薦模塊,用于根據(jù)每個用戶社團的所述共同特征對每個用戶社團進行信息推薦;和/或 輿情分析模塊,用于根據(jù)每個用戶社團的所述共同特征對每個用戶社團進行輿情分析。
【文檔編號】G06Q50/00GK106022938SQ201610389793
【公開日】2016年10月12日
【申請日】2016年6月2日
【發(fā)明人】胡曉亮, 蔡龍軍, 王雷
【申請人】北京奇藝世紀科技有限公司