欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用戶聚類方法和裝置與流程

文檔序號:11408305閱讀:253來源:國知局
一種用戶聚類方法和裝置與流程

本申請涉及技術(shù)領域,特別涉及一種用戶聚類方法和裝置。



背景技術(shù):

隨著動漫技術(shù)的不斷發(fā)展,動漫行業(yè)中動漫的數(shù)量以及種類也逐漸增多。為了滿足動漫業(yè)務平臺的運營需求或者有針對性向動漫用戶提供動漫服務等,經(jīng)常需要對動漫業(yè)務平臺的動漫用戶進行聚類。

然而,目前對動漫用戶進行聚類時,由于無法準確把控動漫用戶的興趣愛好,使得聚類結(jié)果存在偏差,無法實現(xiàn)較為精準的聚類。



技術(shù)實現(xiàn)要素:

本申請?zhí)峁┝艘环N用戶聚類方法和裝置,以提高對動漫用戶進行聚類的精準度。

為了解決上述問題,一方面,本申請?zhí)峁┝艘环N用戶聚類方法,包括:

確定待聚類的多個用戶;

分別獲取每個所述用戶在動漫業(yè)務平臺中的至少一個第一類興趣標簽,所述第一類興趣標簽表征所述用戶在所述動漫業(yè)務平臺中訪問過的動漫類型;

分別獲取每個所述用戶在指定的泛娛樂業(yè)務平臺中的至少一個第二類興趣標簽,所述第二類興趣標簽表征所述用戶在所述泛娛樂業(yè)務平臺中訪問過的泛娛樂類型,所述泛娛樂業(yè)務平臺不同于所述動漫業(yè)務平臺;

根據(jù)所述用戶具有的所述至少一個第一類興趣標簽以及所述至少一個第二類興趣標簽,對所述多個用戶進行聚類,得到聚類出的多個分類,每個所述分類中包括至少一個所述用戶。

另一方面,本申請還提供了一種用戶聚類裝置,包括:

用戶確定單元,用于確定待聚類的多個用戶;

第一興趣獲取單元,用于分別獲取每個所述用戶在動漫業(yè)務平臺中的至少一個第一類興趣標簽,所述第一類興趣標簽表征所述用戶在所述動漫業(yè)務平臺中訪問過的動漫類型;

第二興趣獲取單元,用于分別獲取每個所述用戶在指定的泛娛樂業(yè)務平臺中的至少一個第二類興趣標簽,所述第二類興趣標簽表征所述用戶在所述泛娛樂業(yè)務平臺中訪問過的泛娛樂類型,所述泛娛樂業(yè)務平臺不同于所述動漫業(yè)務平臺;

聚類處理單元,用于根據(jù)所述用戶具有的所述至少一個第一類興趣標簽以及所述至少一個第二類興趣標簽,對所述多個用戶進行聚類,得到聚類出的多個分類,每個所述分類中包括至少一個所述用戶。

由以上可知,本申請實施例中,不僅獲取反映用戶在動漫業(yè)務平臺中行為特征的第一類興趣標簽,還會獲取反映用戶在泛娛樂業(yè)務平臺中行為特征的第二類興趣標簽,通過綜合用戶在兩個不同平臺中的興趣標簽,有利于更為精準的挖掘出用戶的興趣喜好,并將具有相似興趣的用戶聚類到一起,進而可以提高聚類的精準度。

附圖說明

為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1示出了一種動漫業(yè)務平臺提供動漫業(yè)務的一種場景示意圖;

圖2示出了本申請的用戶聚類方法所適用的一種應用場景示意圖;

圖3示出了本申請一種用戶聚類方法一個實施例的流程交互示意圖;

圖4示出了本申請實施例中采用一種聚類算法進行用戶聚類的流程示意圖;

圖5示出了本申請一種用戶聚類方法在一種應用場景下的流程示意圖;

圖6示出了本申請實施例一種用戶聚類裝置一個實施例的組成結(jié)構(gòu)示意圖;

圖7示出了本申請實施例一種服務器的組成結(jié)構(gòu)示意圖。

具體實施方式

本申請實施例提供了一種用戶聚類方法,該方法適用于對動漫業(yè)務平臺中的用戶進行聚類,以實現(xiàn)更為精準的用戶聚類。

為了便于理解本申請的方案,先對本申請的用戶聚類方法所涉及到的動漫業(yè)務平臺以及動漫業(yè)務平臺提供動漫業(yè)務的場景進行介紹。

如圖1所示,該動漫業(yè)務平臺10可以包括至少一個提供動漫業(yè)務的動漫業(yè)務服務器11。當然,為了保證動漫業(yè)務平臺向外提供動漫業(yè)務的可靠性和及時性,該動漫業(yè)務平臺中一般會部署多臺動漫業(yè)務服務器11,該多臺動漫業(yè)務服務器11之間可以通過網(wǎng)絡相連。

動漫用戶可以通過終端20訪問動漫業(yè)務平臺10中的動漫業(yè)務服務器11,并向動漫業(yè)務服務器11發(fā)送動漫業(yè)務請求,如,下載動漫數(shù)據(jù),觀看動漫視頻或者查詢動漫資源等等。

相應的,動漫業(yè)務服務器11,用于響應終端20的動漫業(yè)務請求,并為終端返回該動漫業(yè)務請求所請求的動漫業(yè)務數(shù)據(jù)。

可以理解的是,作為一種可選方式,該動漫業(yè)務平臺還可以包括數(shù)據(jù)庫12,該數(shù)據(jù)庫12分別與每臺動漫業(yè)務服務器11相連。該數(shù)據(jù)庫可以存儲動漫業(yè)務服務器11所需的動漫業(yè)務數(shù)據(jù),以減少動漫業(yè)務服務器中的數(shù)據(jù)存儲量。

進一步的,為了能夠?qū)勇I(yè)務平臺中的動漫用戶進行聚類,該動漫業(yè)務平臺還可以包括至少一臺分析服務器13,該分析服務器13與動漫業(yè)務服務器11以及數(shù)據(jù)庫12中的一種或多種相連。

相應的,動漫業(yè)務服務器11,還用于記錄動漫用戶在動漫業(yè)務平臺中的行為數(shù)據(jù),并存儲動漫用戶的行為數(shù)據(jù),或者將該動漫用戶的行為數(shù)據(jù)存儲到數(shù)據(jù)庫中。

該動漫用戶的行為數(shù)據(jù)也可以認為是一種用戶日志,通過該行為數(shù)據(jù)可以反映出動漫用戶對于不同類型的動漫的關(guān)注情況。如,該動漫用戶的行為數(shù)據(jù)可以包括:動漫用戶訪問過的動漫的類型,以及對不同類型的動漫的訪問次數(shù)等。其中,對于動漫的訪問可以包括:下載、閱讀或者觀看動漫等。

該分析服務器13,用于從動漫業(yè)務服務器或者數(shù)據(jù)庫中獲取動漫業(yè)務平臺中各個動漫用戶的行為數(shù)據(jù),根據(jù)行為數(shù)據(jù)確定不同動漫用戶所具有的動漫興趣標簽;并基于不同動漫用戶所具有的動漫興趣標簽,對動漫用戶進行聚類。

需要說明的是,圖1的場景中是以分析服務器部署于動漫業(yè)務平臺中為例進行說明,但是可以理解的是,在實際應用中,動漫業(yè)務平臺中也可以不單獨部署分析服務器,而是將動漫業(yè)務平臺中的任意一臺動漫業(yè)務服務器作為分析服務器。當然,該分析服務器也可以部署于動漫業(yè)務平臺之外,如,部署包含多臺分析服務器的服務器集群,該服務器集群可以與動漫業(yè)務平臺通過網(wǎng)絡連接,以使得分析服務器可以獲取動漫業(yè)務平臺中動漫用戶的行為數(shù)據(jù)。

本申請的發(fā)明人經(jīng)過對目前動漫用戶聚類的過程進行研究發(fā)現(xiàn):目前在對動漫用戶進行聚類時,一般都是根據(jù)動漫用戶在動漫業(yè)務平臺中的行為數(shù)據(jù),確定動漫用戶感興趣的動漫類型,并基于動漫用戶感興趣的動漫類型,對動漫用戶進行聚類。然而,動漫業(yè)務平臺中動漫用戶的興趣喜好差別較大;而且,由于動漫業(yè)正處于一個發(fā)展期,動漫業(yè)務平臺中動漫用戶的喜好變化較大,且動漫用戶的流動性也較大,導致所能獲取到的動漫用戶的行為數(shù)據(jù)并不能夠較為真實、全面的反映用戶的興趣喜好,從而導致對動漫用戶的興趣愛好定位錯誤,進而導致后續(xù)對動漫用戶的聚類存在偏差,無法將具有相同興趣愛好的用戶聚類到一起,使得聚類的精準度低。

為了提高聚類的精準度,本申請實施例的用戶聚類方法中,在確定出待聚類的多個用戶之后,不僅會獲取反映用戶在動漫業(yè)務平臺中行為特征的第一類興趣標簽,還會獲取反映用戶在該動漫業(yè)務平臺之外的其他業(yè)務平臺中行為特征的第二類興趣標簽,并綜合每個用戶所具有的第一類興趣標簽以及第二類興趣標簽,來對該多個用戶進行聚類。

而由于綜合了用戶在兩個不同平臺中的興趣標簽,從而能夠更為精準的挖掘出用戶真實的興趣喜好,并將具有相似興趣的用戶聚類到一起,進而可以提高聚類的精準度。

考慮到動漫屬于一種泛娛樂,而泛娛樂除了包括動漫之外,還可以包括游戲、影視、戲劇、文學等等,同時,用戶在動漫領域的興趣愛好,與用戶在動漫領域之外的其他泛娛樂領域的興趣愛好較為相似,因此,在本申請實施例中,可以綜合用戶在動漫領域之外的其他泛娛樂領域的興趣愛好,來對動漫業(yè)務平臺中的多個用戶進行聚類。

為了便于描述,本申請實施例中將動漫業(yè)務平臺中待聚類的用戶稱為動漫用戶。

如,參見圖2,其示出了本申請的用戶聚類方法所適用的一種應用場景示意圖。對比圖1和圖2可知,在圖2的場景中除了動漫業(yè)務平臺10之外,還包括了另一個提供動漫之外的泛娛樂業(yè)務的泛娛樂業(yè)務平臺30,如,該泛娛樂業(yè)務平臺可以為提供游戲業(yè)務服務的游戲業(yè)務平臺、提供多媒體資源的多媒體業(yè)務平臺等等。

該泛娛樂業(yè)務平臺30可以包括:至少一臺泛娛樂業(yè)務服務器31,用于向用戶提供動漫之外的泛娛樂數(shù)據(jù)。

動漫用戶可以通過終端20訪問該泛娛樂業(yè)務平臺中的泛娛樂業(yè)務服務器31,以對泛娛樂業(yè)務服務器所提供的泛娛樂數(shù)據(jù)進行觀看或者下載等等操作。

相應的,該泛娛樂業(yè)務服務器31會收集該動漫用戶在該泛娛樂業(yè)務平臺中的行為數(shù)據(jù)。

作為一種可選方式,該泛娛樂業(yè)務平臺還可以包括數(shù)據(jù)庫32,該數(shù)據(jù)庫32用于存儲該泛娛樂業(yè)務平臺相關(guān)的泛娛樂數(shù)據(jù),還可以存儲各個泛娛樂業(yè)務服務器所收集到的行為數(shù)據(jù)。

相應的,分析服務器13,還可以從泛娛樂業(yè)務服務器或者泛娛樂業(yè)務平臺的數(shù)據(jù)庫32中,獲取動漫用戶在該泛娛樂業(yè)務平臺的行為數(shù)據(jù),并依據(jù)動漫用戶在泛娛樂業(yè)務平臺中的行為數(shù)據(jù),確定動漫用戶在泛娛樂領域的興趣愛好;并綜合動漫用戶在動漫領域的興趣愛好以及在泛娛樂領域的興趣愛好,對動漫用戶進行聚類。

當然,在泛娛樂業(yè)務平臺以及動漫業(yè)務平臺中,也可以由業(yè)務服務器(如,動漫業(yè)務服務器或者泛娛樂業(yè)務服務器)或者另外部署的數(shù)據(jù)服務器根據(jù)動漫用戶的行為數(shù)據(jù),來確定用戶的興趣愛好。相應的,分析服務器可以直接從動漫業(yè)務服務器中獲取到動漫用戶在動漫領域的興趣愛好,并從泛娛樂業(yè)務服務器中獲取動漫用戶在泛娛樂領域的興趣愛好。

與圖1相似,圖2所示的場景中是以分析服務器部署于動漫業(yè)務平臺為例進行介紹,但是在實際應用中,該分析服務器部署于動漫業(yè)務平臺以及泛娛樂業(yè)務平臺之外,并通過網(wǎng)絡與該動漫業(yè)務平臺以及泛娛樂業(yè)務平臺相連。

當然,圖2僅僅是本申請的方案是所適用的一種場景,在實際應用中,只要是分析服務器能夠獲取到動漫用戶在動漫業(yè)務平臺以及泛娛樂業(yè)務平臺中的行為數(shù)據(jù),或者是,直接得到動漫用戶分別在動漫業(yè)務平臺以及泛娛樂業(yè)務領域的興趣特征即可。

下面結(jié)合圖2,對本申請實施例的一種用戶聚類方法進行介紹。如,參見圖3,其示出了本申請一種用戶聚類方法一個實施例的流程示意圖,本實施例的方法可以包括:

s301,分析服務器從動漫業(yè)務服務器獲取不同動漫用戶在動漫業(yè)務平臺中的第一行為數(shù)據(jù)。

為了便于區(qū)分,本申請實施例中,將動漫用戶在動漫業(yè)務平臺中的行為數(shù)據(jù)稱為第一行為數(shù)據(jù)。

當然,分析服務器也可以從動漫業(yè)務平臺的數(shù)據(jù)庫中獲取該第一行為數(shù)據(jù)。

s302,針對每個動漫用戶,分析服務器依據(jù)該動漫用戶的第一行為數(shù)據(jù),確定該動漫用戶的動漫興趣屬性。

該動漫興趣屬性包括:至少一個動漫興趣標簽。

其中,動漫興趣標簽表示動漫用戶感興趣的動漫類型。一種動漫興趣標簽表征一種動漫類型,如果用戶訪問過某種動漫類型的動漫,則可以標注該用戶具有該種動漫類型對應的動漫興趣標簽。

舉例說明,假設動漫興趣標簽包括:武俠、玄幻、推理、搞笑、校園等,如果動漫用戶訪問過武俠類以及玄幻類的動漫,那么該動漫用戶的動漫興趣標簽就可以包括:武俠以及玄幻。

在一種可能的情況中,可以設定一個閾值,只有動漫用戶對該種動漫類型的訪問次數(shù)超過該閾值,則確定該動漫用戶具有該動漫類型對應的動漫興趣標簽。如,閾值可以為3,當動漫用戶訪問玄幻類的動漫的次數(shù)大于或等于3次,才標注用戶具有“玄幻”這一種動漫興趣標簽。

在又一種可能的情況中,為了能夠更加準確的體現(xiàn)出動漫用戶對于不同動漫類型的感興趣程度,該動漫興趣屬性還可以包括:動漫興趣標簽的出現(xiàn)次數(shù)。其中,動漫興趣標簽的出現(xiàn)次數(shù)表征動漫用戶對該動漫興趣標簽對應的動漫類型的訪問次數(shù)。

如,動漫用戶的動漫興趣屬性可以表示如下:

(武俠,5);(玄幻,3);(校園,10)。

由該動漫用戶的動漫興趣屬性可知,該動漫用戶具有的興趣標簽分別為武俠、玄幻以及校園,且這三個興趣標簽的出現(xiàn)次數(shù)依次為5次、3次以及10次。

在又一種可能的情況中,為了避免動漫興趣屬性中動漫興趣標簽的數(shù)量過多,而導致后續(xù)聚類過程中的數(shù)據(jù)量過大,還可以設定動漫興趣屬性中包含的動漫興趣標簽的預設數(shù)量。進一步的,對于一個動漫用戶而言,可以按照動漫興趣標簽的出現(xiàn)次數(shù),選取出現(xiàn)次數(shù)最多的該預設數(shù)量個動漫興趣標簽。如,預設數(shù)量為3個,則可以從動漫用戶的多個動漫興趣標簽中,選取出三個出現(xiàn)次數(shù)最多的動漫興趣標簽,并將選取出的三個動漫興趣標簽作為該動漫用戶所具有的動漫興趣屬性。

需要說明的是,確定動漫用戶具有的動漫興趣標簽也可以是由動漫業(yè)務服務器來完成,而分析服務器可以直接從動漫業(yè)務服務器獲取每個動漫用戶具有的至少一個動漫興趣標簽。

s303,分析服務器從泛娛樂業(yè)務服務器獲取不同動漫用戶在泛娛樂業(yè)務平臺中的第二行為數(shù)據(jù)。

為了與動漫用戶在動漫業(yè)務平臺中的行為數(shù)據(jù)進行區(qū)分,將動漫用戶在泛娛樂業(yè)務平臺中的行為數(shù)據(jù)稱為第二行為數(shù)據(jù)。

可以理解的是,對于不同的業(yè)務平臺,可以通過用戶在不同業(yè)務平臺上的賬號之間的關(guān)聯(lián)關(guān)系、用戶的唯一標識(如,手機號碼)等等,來區(qū)分不同業(yè)務平臺中的哪些用戶屬于同一個用戶。本申請對于識別出不同業(yè)務平臺中相同用戶的具體方式不加以限制。

當然,分析服務器也可以從泛娛樂業(yè)務平臺的數(shù)據(jù)庫中獲取該第二行為數(shù)據(jù)。

s304,針對每個動漫用戶,分析服務器依據(jù)該動漫用戶的第二行為數(shù)據(jù),確定該動漫用戶的泛娛樂興趣屬性。

該泛娛樂興趣屬性包括:至少一個泛娛樂興趣標簽。

其中,泛娛樂興趣標簽表示動漫用戶感興趣的泛娛樂類型。一種泛娛樂興趣標簽表征一種泛娛樂類型,如果用戶訪問過某種類型的泛娛樂,則可以標注該用戶具有該種泛娛樂類型對應的泛娛樂興趣標簽。

舉例說明,以泛娛樂業(yè)務平臺為視頻業(yè)務平臺,該泛娛樂興趣標簽可以包括:喜劇、民俗、武俠以及玄幻等,如果動漫用戶觀看過喜劇以及玄幻類的視頻,那么該動漫用戶的泛娛樂興趣標簽就可以包括:喜劇以及玄幻。

與步驟302相似,在一種可能的情況中,可以設定一個閾值,只有動漫用戶訪問某類型的泛娛樂的訪問次數(shù)超過該閾值,才確定該動漫用戶具有該類型的泛娛樂所對應的泛娛樂興趣標簽。

在又一種可能的情況中,為了能夠更加準確的體現(xiàn)出動漫用戶對于不同泛娛樂類型的感興趣程度,該泛娛樂興趣屬性同樣還可以包括:泛娛樂興趣標簽的出現(xiàn)次數(shù)。其中,泛娛樂興趣標簽的出現(xiàn)次數(shù)表征泛娛樂用戶對該泛娛樂興趣標簽對應的泛娛樂類型的訪問次數(shù)。

在又一種可能的情況中,為了減少數(shù)據(jù)處理量,還可以設定泛娛樂興趣屬性中包含的泛娛樂興趣標簽的預設數(shù)量。進一步的,對于一個動漫用戶而言,可以選取出現(xiàn)次數(shù)最多的該預設數(shù)量個泛娛樂興趣標簽構(gòu)成泛娛樂漫興趣屬性。其中,泛娛樂興趣標簽的預設數(shù)量可以與動漫興趣標簽的預設數(shù)量相同,也可以不同,具體可以根據(jù)需要設定。

可以理解的是,確定動漫用戶具有的動漫興趣標簽也可以是由動漫業(yè)務服務器來完成,而分析服務器可以直接從動漫業(yè)務服務器每個動漫用戶具有的至少一個動漫興趣標簽。

需要說明的是,為了便于區(qū)分,在本申請實施例中,將動漫用戶在動漫業(yè)務平臺中的興趣標簽稱為動漫興趣標簽,而將動漫用戶在泛娛樂業(yè)務平臺中的興趣標簽稱為泛娛樂興趣標簽。但是可以理解的是,動漫興趣標簽以及泛娛樂興趣標簽僅僅是兩類不同的興趣標簽,為了區(qū)分這兩類興趣標簽,也可以將動漫興趣標簽稱為第一類興趣標簽,并將泛娛樂興趣標簽稱為第二類興趣標簽。

s305,對于每一個動漫用戶,分析服務器依據(jù)動漫用戶的動漫興趣屬性以及泛娛樂興趣屬性,構(gòu)建動漫用戶的綜合興趣屬性。

其中,該綜合興趣屬性中可以包括:動漫用戶的至少一個動漫興趣標簽以及至少一個泛娛樂興趣標簽。

可以理解的是,動漫用戶的綜合興趣屬性中可以包括該動漫用戶具有的所有動漫興趣標簽以及泛娛樂興趣標簽。

可選的,為了在能夠準確反映用戶興趣的前提下,減少數(shù)據(jù)處理量,可以分別設置該綜合興趣屬性中動漫以及泛娛樂這兩類興趣標簽的最大個數(shù)。其中,這兩類興趣標簽的最大個數(shù)可以相同。

當然,如果動漫興趣屬性以及泛娛樂興趣屬性中已經(jīng)分別設置了興趣標簽的預設數(shù)量,則無需重復設置每類興趣標簽的最大個數(shù)。

需要說明的是,該步驟305為一個可選的步驟,其目的僅僅是為了直觀看出每個動漫用戶所具有的動漫興趣標簽以及泛娛樂興趣標簽。但是可以理解的是,在實際應用中,也可以跳過該步驟s305,而直接執(zhí)行步驟s306的構(gòu)建興趣向量的操作,也同樣適用于本實施例。

s306,分析服務器依據(jù)動漫用戶的綜合興趣屬性,構(gòu)建該動漫用戶的興趣向量。

該興趣向量為指定維度的向量,且該興趣向量中每個維度表征一種興趣標簽。按照待構(gòu)建的興趣向量中每個維度所表征的興趣標簽,并結(jié)合該用戶具有的至少一個第一類興趣標簽以及至少一個第二類興趣標簽,便可以構(gòu)建出該用戶的興趣向量。

其中,對于興趣向量中任意一個維度,如果根據(jù)動漫用戶具有的動漫興趣標簽以及泛娛樂興趣標簽,確定出該動漫用戶具有該維度對應的興趣標簽,則該動漫用戶的興趣向量中該維度的取值為1;否則,該維度的取值為0。

其中,該興趣向量所具有的指定維度的具體取值可以根據(jù)需要設定。如,在一種可能的情況中,該指定維度的具體取值可以為:動漫業(yè)務平臺所具有的所有動漫興趣標簽以及泛娛樂業(yè)務平臺所具有的所有泛娛樂興趣標簽的總和。例如,動漫興趣標簽一共有20種,而泛娛樂興趣標簽一共有25種,那么該指定維度可以為45個維度。

又如,在又一種可能的情況中,該興趣向量的指定維度的取值小于所有動漫興趣標簽以及所有泛娛樂興趣標簽的總和。例如,假設動漫興趣標簽以及泛娛樂興趣標簽的總數(shù)為100個,那么興趣向量可以為50個維度,即,興趣向量的指定維度的取值為50。

如果指定維度對應的取值小于所有興趣標簽的總數(shù),在確定該指定維度所表征的興趣標簽時,可以從所有興趣標簽中,選取出該指定維度對應的取值個興趣標簽;然后,通過該指定維度分別表征選取出的興趣標簽。

可選的,可以依據(jù)所有動漫用戶的綜合興趣屬性,分別統(tǒng)計具有每種興趣標簽(包括動漫興趣標簽以及泛娛樂興趣標簽)的用戶數(shù)量,并按照具有的用戶數(shù)量從多到少的排序,從該多個動漫用戶具有的多個第一類興趣標簽以及多個第二類興趣標簽中,選取出具有的用戶數(shù)量的排序靠前的指定數(shù)量個興趣標簽;然后,可以將該指定數(shù)量個興趣標簽分別作為待構(gòu)建的興趣向量中不同維度所表征的興趣標簽。其中,該待構(gòu)建的興趣向量所具有的維度的個數(shù)與該指定數(shù)量相同。

舉例說明,假設根據(jù)所有動漫用戶各自具有的動漫興趣標簽以及泛娛樂興趣標簽,分析出動漫興趣標簽一共有5種,分別為a1,a2,a3、a4和a5,而泛娛樂興趣標簽也是5種,分別為b1、b2、b3、b4和b5,而待構(gòu)建的興趣向量具有6個維度,則可以從這10種興趣標簽中選取出具有人數(shù)最多的6種標簽,假設按照具有人數(shù)從多到少依次為:a2、a3、b3、b5、a1、b1、a5、a4、b2、b4,那么選取出的6個興趣標簽分別為a2、a3、b3、b5、a1、b1,則動漫用戶的興趣向量的6個維度分別表示該動漫用戶具有a2、a3、b3、b5、a1以及b1這6個興趣標簽的情況。

同時,假設動漫用戶a的綜合興趣屬性表明該動漫用戶具有這6種興趣標簽中的a2、b3、a1以及b1,則該動漫用戶a的興趣向量可以表示為【101011】,而動漫用戶b具有興趣標簽a2、b5、a1,則動漫b的興趣向量可以表示為【100110】。

s307,分析服務器基于動漫用戶的興趣向量,將該多個動漫用戶的興趣向量聚類為多個分類,并將動漫用戶的興趣向量所歸屬的分類確定為該動漫用戶所歸屬的分類。

其中,分類也可以稱為聚類,每個分類中包括一個或多個動漫用戶。

由于動漫用戶的興趣向量不僅可以反映動漫用戶在動漫業(yè)務平臺中的興趣喜好,也可以反映出該動漫用戶在其他泛娛樂業(yè)務平臺中的興趣愛好,因此,通過動漫用戶的興趣向量能夠更為真實準確的反映出動漫用戶的興趣喜好,從而使得基于動漫用戶的興趣向量進行聚類,有利于將具有相同或相似興趣喜好的動漫用戶聚類到一起,提高了聚類的精準度。

需要說明的是,本實施例在確定出動漫用戶的動漫興趣屬性以及泛娛樂興趣屬性之后,是以構(gòu)建動漫用戶的興趣向量,并基于興趣向量進行聚類為例進行說明。但是可以理解的是,在動漫用戶具有的動漫興趣標簽以及泛娛樂興趣標簽確定的情況下,依據(jù)動漫用戶的動漫興趣標簽以及泛娛樂興趣標簽,對多個動漫用戶進行聚類的方式可以有多種,在此不加以限制。

s308,對于聚類出的每一個分類,分析服務器從該分類中所有動漫用戶具有的動漫興趣標簽以及泛娛樂興趣標簽中,分別確定出目標動漫興趣標簽以及目標泛娛樂興趣標簽,并利用該目標動漫興趣標簽以該目標泛娛樂興趣標簽標識該分類。

其中,對于每一個分類而言,該分類中的目標動漫興趣標簽是指,在確定出該分類中所有用戶具有的多個第一類興趣標簽之后,按照該分類中具有多個第一類興趣標簽中每個第一類興趣標簽的用戶數(shù)量,從該多個第一類興趣標簽中,確定出的用戶數(shù)量最多的第一類興趣標簽。

相應的,該分類中的目標泛娛樂興趣標簽是指,在確定出該分類中所有用戶具有的多個第二類興趣標簽之后,按照該分類中具有該多個第二類興趣標簽中每個第二類興趣標簽的用戶數(shù)量,從該多個第二類興趣標簽中,確定出的用戶數(shù)量最多的第二類興趣標簽。

如,聚類出的某個分類中包括動漫用戶a、動漫用戶b以及動漫用戶c,假設動漫用戶a具有動漫興趣標簽a1和a2,且具有泛娛樂興趣標簽b2和b4;而動漫用戶b具有動漫興趣標簽a1和a3,且具有泛娛樂興趣標簽b1和b2;動漫用戶c具有動漫興趣標簽a1和a2,且具有泛娛樂興趣標簽b2和b4,則該分類中動漫興趣標簽出現(xiàn)次數(shù)最多的為a1,而泛娛樂興趣標簽出現(xiàn)次數(shù)最多的為b2,則該分類可以標識為興趣標簽a1和b2。

可以理解的是,采用分類中用戶數(shù)量最多的興趣標簽來標識該分類,可以直觀反映出該分類中包含的大部分動漫用戶的興趣標簽,以便后續(xù)可以有針對性的為屬于不同分類的動漫用戶提供差別性服務等。但是可以理解的是,在實際應用中,也可以分別為不同的分類分配一個唯一標識,以區(qū)分不同的分類;還可以有其他標識不同分類的方式,在此不加以限制。

當然,對于分類進行標識僅僅是為了區(qū)分各個分類,其并不是聚類所必需的操作,因此,該步驟s308為一個可選步驟。

可以理解的是,在本申請實施例中,分析服務器對動漫用戶進行聚類所采用的聚類算法可以有多種。具體采用哪種聚類算法可以根據(jù)需要設定,在此不加以限制。

可選的,為了根據(jù)需要設定所需聚類出的分類的個數(shù),本申請可以預設所需聚類出的分類的目標個數(shù)k,即聚類個數(shù)k,其中,k為大于1的整數(shù),并采用k-均值聚類k-means聚類算法進行聚類。

其中,通過k-means算法可以在輸入聚類個數(shù)k,以及n個數(shù)據(jù)對象的情況下,輸出滿足方差最小標準的k個聚類。為了便于理解,對利用k-means聚類算法,將多個動漫用戶的興趣向量聚類為k個聚類的過程進行介紹,如圖4,其示出了將多個動漫用戶的興趣向量聚類為k個聚類的流程示意圖。該聚類過程可以應用于分析服務器,該過程可以包括:

s401,確定待聚類的n個動漫用戶的興趣向量xi,以及聚類個數(shù)k。

其中,n為待聚類的動漫用戶的總數(shù)目,n為大于1的整數(shù)。動漫用戶i的興趣向量表示為xi,其中,i為從1到n的整數(shù)。

k為預設所需聚類出的聚類個數(shù),k小于n。

s402,從該n個興趣向量xi中選取出k個興趣向量分別作為k個初始的聚類中心yj。

如,可以隨機選取出k個興趣向量,而將選取出的每個興趣向量作為一個聚類初始的聚類中心,該聚類中心也稱為質(zhì)心。

其中,yj表示一個初始的聚類中心,j為從1到k的整數(shù)。

s403,對于不屬于聚類中心的每一個興趣向量xi,分別計算該興趣向量與該k個聚類中心的距離,并將該興趣向量xi歸類到與該興趣向量xi距離最小的初始聚類中心所表征的聚類中,得到k個聚類。

可以理解的是,如果興趣向量xi與某個初始聚類中心的距離最小,則說明該興趣向量xi與該初始聚類中心所表征的興趣向量的興趣特征最相似,從而可以將該興趣向量與該初始聚類中心所保證興趣向量歸為一個聚類。

如,假設興趣向量xi與k個初始聚類中心中y2的距離最近,則將興趣向量xi歸類到該初始聚類中心y2所對應的聚類中。

其中,計算興趣向量與初始聚類中心的距離的方式可以有多種。如,可以計算動漫向量與初始聚類中心的歐幾里得距離(也稱歐式距離)。

s404,對于該k個聚類中的每個聚類,分別計算該聚類的聚類中心y'j,得到該聚類的最新聚類中心。

其中,計算聚類的聚類中心可以是取聚類中所有動漫向量各自維度的算術(shù)平均值。

s405,對于每一個聚類而言,分別檢測該聚類的最新聚類中心y'j與聚類中最近一次所采用的聚類中心yj是否相同,如果所有聚類的中心均不再變化,則聚類完成,得到多個聚類;如果否,則返回步驟s403,直到每個聚類的聚類中心不再發(fā)生變化。

其中,聚類的聚類中心y'j與該聚類最近一次所采用的聚類中心yj相同僅僅是結(jié)束循環(huán)的一個預設條件,該預設條件也可以是這兩個聚類中心之間的差值小于預設值。

通過不斷重復s403至s405這一過程,直到每個聚類在聚類過程中所采用的聚類中心與聚類后計算出的聚類中心不再發(fā)生變化,從而可以得到多個聚類。

為了便于理解,下面結(jié)合一種應用場景,對本申請實施例的用戶聚類方法進行介紹。以圖2中的泛娛樂業(yè)務平臺為提供視頻資源的視頻業(yè)務平臺為例進行說明。同時,假設每個動漫用戶的動漫興趣屬性中包括出現(xiàn)次數(shù)最多的3個動漫興趣標簽,且每個動漫用戶的視頻興趣屬性中包括出現(xiàn)次數(shù)最多的3個視頻興趣標簽,且假設構(gòu)建出的動漫用戶的興趣向量的維度為10個維度,則,參見圖5,其示出了本申請一種用戶聚類方法在一種應用場景下的流程示意圖,本實施例的方法從分析服務器側(cè)進行介紹,本實施例的方法可以包括:

s501,分析服務器確定待聚類的多個動漫用戶;

s502,針對每個動漫用戶,根據(jù)動漫用戶在動漫業(yè)務平臺中的第一行為數(shù)據(jù),確定該動漫用戶訪問次數(shù)最多的3個動漫類型各自對應的動漫興趣標簽;

s503,針對每個動漫用戶,根據(jù)動漫用戶在視頻業(yè)務平臺中的第二行為數(shù)據(jù),確定該動漫用戶訪問次數(shù)最多的3個視頻類型各自對應的視頻興趣標簽;

s504,針對每個動漫用戶,將該動漫用戶具有的3個動漫興趣標簽以及3個視頻興趣標簽,構(gòu)成該動漫用戶的綜合興趣屬性。

如,用戶m具有動漫興趣標簽taga1、taga2、taga3,且具有視頻興趣標簽tagb1、tagb2、tagb3,則該用戶m的綜合興趣屬性可以表示為:

taga1、taga2、taga3、tagb1、tagb2、tagb3。

s505,從待聚類的多個動漫用戶的綜合興趣屬性中,選取出出現(xiàn)次數(shù)最多的10個目標興趣標簽。

該10個目標興趣標簽屬于該多個動漫用戶的綜合興趣屬性中所包括的動漫興趣標簽以及視頻興趣標簽,且,具有這10個目標興趣標簽的動漫用戶的總?cè)藬?shù)最多。

s506,針對每個動漫用戶,按照待構(gòu)建的興趣向量中10個維度各自所表征的興趣標簽,并結(jié)合該動漫用戶的綜合興趣屬性,構(gòu)建動漫用戶的興趣向量。

其中,興趣向量具有10個維度,且該10個維度分別表示該10個興趣標簽。且,對于該動漫用戶的興趣向量中每個維度,如果該動漫用戶的綜合興趣屬性中包括該維度所表征的興趣標簽,則該維度的取值為1;如果該動漫用戶的綜合興趣屬性中不包括該維度所表征的目標興趣標簽,則該維度的取值為0。

s507,基于該多個動漫用戶的興趣向量,將該多個動漫用戶聚類到至少一個分類中。

另一方面,對應本申請實施例的一種用戶聚類方法,本申請實施例還提供了還提供了一種用戶聚類裝置。

如,參見圖6,其示出了本申請一種用戶聚類裝置一個實施例的組成結(jié)構(gòu)示意圖,本實施例的裝置可以包括:

用戶確定單元601,用于確定待聚類的多個用戶;

第一興趣獲取單元602,用于分別獲取每個所述用戶在動漫業(yè)務平臺中的至少一個第一類興趣標簽,所述第一類興趣標簽表征所述用戶在所述動漫業(yè)務平臺中訪問過的動漫類型;

第二興趣獲取單元603,用于分別獲取每個所述用戶在指定的泛娛樂業(yè)務平臺中的至少一個第二類興趣標簽,所述第二類興趣標簽表征所述用戶在所述泛娛樂業(yè)務平臺中訪問過的泛娛樂類型,所述泛娛樂業(yè)務平臺不同于所述動漫業(yè)務平臺;

聚類處理單元604,用于根據(jù)所述用戶具有的所述至少一個第一類興趣標簽以及所述至少一個第二類興趣標簽,對所述多個用戶進行聚類,得到聚類出的多個分類,每個所述分類中包括至少一個所述用戶。

在一種可能的情況中,所述聚類處理單元,包括:

向量生成單元,用于按照待構(gòu)建的興趣向量中每個維度所表征的興趣標簽,并結(jié)合所述用戶具有的所述至少一個第一類興趣標簽以及至少一個第二類興趣標簽,構(gòu)建所述用戶的興趣向量;

向量聚類單元,用于依據(jù)所述多個用戶各自的興趣向量,對所述多個用戶進行聚類。

可選的,所述裝置還包括:

數(shù)量確定單元,用于在所述向量生成單元構(gòu)建所述用戶的興趣向量之前,根據(jù)所述用戶具有的所述至少一個第一類興趣標簽以及所述至少一個第二類興趣標簽,分別確定具有每個所述第一類興趣標簽的用戶數(shù)量以及具有每個所述第二類興趣標簽的用戶數(shù)量;

標簽選取單元,用于按照具有的用戶數(shù)量從多到少的排序,從所述多個第一類興趣標簽以及多個第二類興趣標簽中,選取出具有的用戶數(shù)量的排序靠前的指定數(shù)量個興趣標簽;

向量維度確定單元,用于將所述指定數(shù)量個興趣標簽分別作為待構(gòu)建的興趣向量中不同維度所表征的興趣標簽,其中,所述待構(gòu)建的興趣向量具有的維度個數(shù)為所述指定數(shù)量個。

可選的,所述向量生成單元,包括:

向量生成子單元,用于對于待構(gòu)建的興趣向量中的每個維度,當用戶的所述至少一個第一類興趣標簽以及所述至少一個第二類興趣標簽中包括所述維度所表征的興趣標簽,則確定所述用戶的興趣向量中所述維度的取值為1;否則,確定用戶的所述興趣向量中所述維度的取值為0,得到所述用戶的興趣向量。

在又一種可能的情況中,所述聚類處理單元,包括:

聚類數(shù)確定子單元,用于確定所需聚類出的分類個數(shù)k;

聚類處理子單元,用于根據(jù)所述分類個數(shù)k以及預置的k-均值聚類算法,將所述多個用戶的興趣向量聚類到多個分類,并將所述用戶的興趣向量所屬的分類確定為所述用戶所屬的分類。

在又一種可能的情況中,所述裝置還包括:

分類標簽分析單元,用于在所述聚類處理單元得到聚類出的多個分類之后,對于每一個分類,確定該分類中的所有用戶具有的多個第一類興趣標簽以及多個第二類興趣標簽;

第一標識提取單元,用于按照所述分類中具有所述多個第一類興趣標簽中每個第一類興趣標簽的用戶數(shù)量,從所述多個第一類興趣標簽中,確定出具有的用戶數(shù)量最多的目標第一類興趣標簽;

第二標識提取單元,用于按照所述分類中具有所述多個第二類興趣標簽中每個第二類興趣標簽的用戶數(shù)量,從所述多個第二類興趣標簽中,確定出具有的用戶數(shù)量最多的目標第二類興趣標簽;

分類標識單元,用于利用所述目標第一類興趣標簽以及所述目標第二類興趣標簽標識所述分類。

另一方面,本發(fā)明實施例還提供了一種服務器,該服務器可以包括上述所述的一種用戶聚類裝置。

圖7示出了服務器的硬件結(jié)構(gòu)框圖,參照圖7,服務器700可以包括:處理器701,通信接口702,存儲器703和通信總線704;

其中處理器701、通信接口702、存儲器703通過通信總線704完成相互間的通信;

可選的,通信接口702可以為通信模塊的接口,如gsm模塊的接口;

處理器701,用于執(zhí)行程序;

存儲器703,用于存放程序;

程序可以包括程序代碼,所述程序代碼包括計算機操作指令。

處理器701可能是一個中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路。

存儲器703可能包含高速ram存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器。

其中,程序可具體用于:

確定待聚類的多個用戶;

分別獲取每個所述用戶在動漫業(yè)務平臺中的至少一個第一類興趣標簽,所述第一類興趣標簽表征所述用戶在所述動漫業(yè)務平臺中訪問過的動漫類型;

分別獲取每個所述用戶在指定的泛娛樂業(yè)務平臺中的至少一個第二類興趣標簽,所述第二類興趣標簽表征所述用戶在所述泛娛樂業(yè)務平臺中訪問過的泛娛樂類型,所述泛娛樂業(yè)務平臺不同于所述動漫業(yè)務平臺;

根據(jù)所述用戶具有的所述至少一個第一類興趣標簽以及所述至少一個第二類興趣標簽,對所述多個用戶進行聚類,得到聚類出的多個分類,每個所述分類中包括至少一個所述用戶。

本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應,所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。

專業(yè)人員還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應用和設計約束條件。專業(yè)技術(shù)人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。

結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。

對所公開的實施例的上述說明,使本領域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
汉源县| 瑞丽市| 天柱县| 延安市| 文昌市| 绩溪县| 平潭县| 成武县| 新泰市| 荣昌县| 新巴尔虎右旗| 光泽县| 阆中市| 旬邑县| 三河市| 敦煌市| 寻乌县| 鹿泉市| 平定县| 大余县| 且末县| 北票市| 凤山县| 汉中市| 咸丰县| 宁晋县| 庄河市| 禄劝| 都匀市| 梅河口市| 津市市| 都江堰市| 二连浩特市| 宜昌市| 阳江市| 海丰县| 拜城县| 邛崃市| 秀山| 盐城市| 札达县|