本申請涉及計算機技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及用于確定相似用戶的方法、裝置和服務(wù)器。
背景技術(shù):
隨著電子商務(wù)技術(shù)的發(fā)展,越來越多的用戶選擇在線上購物平臺進行采購。線上購物平臺可以獲取海量的用戶數(shù)據(jù),包括用戶的基本屬性信息、訂單數(shù)據(jù)、評價信息、物流信息等?;谶@些用戶數(shù)據(jù),可以構(gòu)建出每個用戶的畫像,包括用戶的年齡、喜好、消費能力、購物習(xí)慣等。線上購物平臺可以利用用戶畫像篩選出與每個商戶的忠實用戶相似的用戶作為商戶的潛在用戶進行推薦。
在現(xiàn)有的相似用戶篩選方法中,用戶畫像構(gòu)建過程中未考慮用戶的各類別屬性對相似度計算的影響,然而在相似用戶篩選過程中,各類別屬性對用戶間相似度計算的影響力不同,例如用戶的性別比用戶的購物習(xí)慣對相似度計算的影響力小,因此現(xiàn)有的相似用戶定位結(jié)果的準確性有待提升。
技術(shù)實現(xiàn)要素:
為了解決上述背景技術(shù)部分的一個或多個技術(shù)問題,本申請實施例提供了用于確定相似用戶的方法、裝置和服務(wù)器。
本申請實施例公開a1、一種用于確定相似用戶的方法,所述方法包括:獲取待處理用戶集中各用戶的用戶信息,所述用戶信息包括地理位置信息以及與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;統(tǒng)計與各所述預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各所述預(yù)設(shè)標簽的權(quán)重;基于所述待處理用戶集中各用戶的歷史訂單信息以及各所述預(yù)設(shè)標簽的權(quán)重,生成各所述用戶的標簽屬性特征;根據(jù)所述標簽屬性特征和地理位置信息將所述待處理用戶集中的用戶聚類為多個用戶簇;基于所述標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度并確定出所述目標用戶的相似用戶。
a2、如a1所述的方法中,所述統(tǒng)計與各所述預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各所述預(yù)設(shè)標簽的權(quán)重,包括:對每個所述預(yù)設(shè)標簽,篩選出與所述預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;
統(tǒng)計篩選出的歷史訂單信息對應(yīng)的用戶數(shù)量;對統(tǒng)計出的用戶數(shù)量求對數(shù)后取倒數(shù)作為所述預(yù)設(shè)標簽的權(quán)重。
a3、如a1所述的方法中,所述基于所述待處理用戶集中各用戶的歷史訂單信息以及各所述預(yù)設(shè)標簽的權(quán)重,生成各所述用戶的標簽屬性特征,包括:根據(jù)所述歷史訂單信息,確定每個所述用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次;基于每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次和對應(yīng)預(yù)設(shè)標簽的權(quán)重,計算得出每個用戶對應(yīng)的各所述預(yù)設(shè)標簽的有效下單頻次;基于各所述預(yù)設(shè)標簽的有效下單頻次生成各所述用戶的標簽特征向量,作為各所述用戶的標簽屬性特征。
a4、如a3所述的方法中,所述基于每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次和對應(yīng)預(yù)設(shè)標簽的權(quán)重,計算得出每個用戶對應(yīng)的各所述預(yù)設(shè)標簽的有效下單頻次,包括:將每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次與對應(yīng)各預(yù)設(shè)標簽的權(quán)重相乘,作為每個用戶對應(yīng)的各預(yù)設(shè)標簽的有效下單頻次;所述基于各所述預(yù)設(shè)標簽的有效下單頻次生成各所述用戶的標簽特征向量,包括:將各所述預(yù)設(shè)標簽的有效下單頻次作為所述標簽特征向量中對應(yīng)于各所述預(yù)設(shè)標簽的特征值。
a5、如a3所述的方法中,所述根據(jù)標簽屬性特征和地理位置信息將待處理用戶集中的用戶聚類為多個用戶簇,包括:對各用戶的標簽特征向量中的元素按特征值進行降序排序,選擇排序前預(yù)設(shè)位的元素對應(yīng)的預(yù)設(shè)標簽為待匹配標簽;以所述地理位置信息和所述待匹配標簽為各所述用戶的特征信息,基于所述特征信息將所述待處理用戶集中的用戶聚類為多個用戶簇。
a6、如a5所述的方法中,所述以所述地理位置信息和所述待匹配標簽為各所述用戶的特征信息,基于所述特征信息將所述待處理用戶集中的用戶聚類為多個用戶簇,包括:將所述地理位置信息相同且至少一個待匹配標簽相同的用戶聚為同一用戶簇。
a7、如a3所述的方法中,所述基于所述標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度并確定出所述目標用戶的相似用戶,包括:計算所述目標用戶的標簽特征向量與同一用戶簇中其他各用戶的標簽特征向量的相似度;基于所述目標用戶的標簽特征向量與同一用戶簇中其他各用戶的標簽特征向量的相似度篩選出所述目標用戶的相似用戶。
本申請實施例公開b1、一種用于確定相似用戶的裝置,所述裝置包括:獲取單元,配置用于獲取待處理用戶集中各用戶的用戶信息,所述用戶信息包括地理位置信息以及與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;統(tǒng)計單元,配置用于統(tǒng)計與各所述預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各所述預(yù)設(shè)標簽的權(quán)重;生成單元,配置用于基于所述待處理用戶集中各用戶的歷史訂單信息以及各所述預(yù)設(shè)標簽的權(quán)重,生成各所述用戶的標簽屬性特征;聚類單元,配置用于根據(jù)所述標簽屬性特征和地理位置信息將所述待處理用戶集中的用戶聚類為多個用戶簇;確定單元,配置用于基于所述標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度并確定出所述目標用戶的相似用戶。
b2、如b1所述的裝置中,所述統(tǒng)計單元進一步配置用于按照如下方式確定各所述預(yù)設(shè)標簽的權(quán)重:對每個所述預(yù)設(shè)標簽,篩選出與所述預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;統(tǒng)計篩選出的歷史訂單信息對應(yīng)的用戶數(shù)量;對統(tǒng)計出的用戶數(shù)量求對數(shù)后取倒數(shù)作為所述預(yù)設(shè)標簽的權(quán)重。
b3、如b1所述的裝置中,所述生成單元進一步配置用于按照如下方式生成各所述用戶的標簽屬性特征:根據(jù)所述歷史訂單信息,確定每個所述用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次;基于每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次和對應(yīng)預(yù)設(shè)標簽的權(quán)重,計算得出每個用戶對應(yīng)的各所述預(yù)設(shè)標簽的有效下單頻次;基于各所述預(yù)設(shè)標簽的有效下單頻次生成各所述用戶的標簽特征向量,作為各所述用戶的標簽屬性特征。
b4、如b3所述的裝置中,所述生成單元進一步配置用于按照如下方式計算得出每個用戶對應(yīng)的各所述預(yù)設(shè)標簽的有效下單頻次:將每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次與對應(yīng)各預(yù)設(shè)標簽的權(quán)重相乘,作為每個用戶對應(yīng)的各預(yù)設(shè)標簽的有效下單頻次;所述生成單元進一步配置用于按照如下方式生成各所述用戶的標簽特征向量:將各所述預(yù)設(shè)標簽的有效下單頻次作為所述標簽特征向量中對應(yīng)于各所述預(yù)設(shè)標簽的特征值。
b5、如b3所述的裝置中,所述聚類單元進一步配置用于按照如下方式將待處理用戶集中的用戶聚類為多個用戶簇:對各用戶的標簽特征向量中的元素按特征值進行降序排序,選擇排序前預(yù)設(shè)位的元素對應(yīng)的預(yù)設(shè)標簽為待匹配標簽;以所述地理位置信息和所述待匹配標簽為各所述用戶的特征信息,基于所述特征信息將所述待處理用戶集中的用戶聚類為多個用戶簇。
b6、如b5所述的裝置中,所述聚類單元進一步配置用于按照如下方式將待處理用戶集中的用戶聚類為多個用戶簇:將所述地理位置信息相同且至少一個待匹配標簽相同的用戶聚為同一用戶簇。
b7、如b3所述的裝置中,所述確定單元進一步配置用于按照如下方式計算目標用戶與同一用戶簇中其他用戶的相似度并確定出所述目標用戶的相似用戶:計算所述目標用戶的標簽特征向量與同一用戶簇中其他各用戶的標簽特征向量的相似度;基于所述目標用戶的標簽特征向量與同一用戶簇中其他各用戶的標簽特征向量的相似度篩選出所述目標用戶的相似用戶。
本申請實施例公開c1、一種服務(wù)器,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如a1至a7中任一所述的方法。
本申請實施例公開d1、一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如a1至a7中任一所述的方法。
本申請實施例提供的用于確定相似用戶的方法、裝置和服務(wù)器,通過獲取待處理用戶集中各用戶的用戶信息,然后統(tǒng)計與各預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各預(yù)設(shè)標簽的權(quán)重,而后基于待處理用戶集中各用戶的歷史訂單信息以及各預(yù)設(shè)標簽的權(quán)重,生成各用戶的標簽屬性特征,之后根據(jù)標簽屬性特征和地理位置信息對用戶集中的用戶進行聚簇,最后基于標簽屬性特征計算目標用戶與同一簇中其它用戶的相似度并確定出目標用戶的相似用戶,能夠合理、有效地確定不同預(yù)設(shè)標簽的權(quán)重,并依此來準確描述用戶的屬性特征,從而提升了用戶間相似度計算的準確性。此外通過對用戶進行聚類,然后在同一用戶簇內(nèi)查找相似用戶,能夠有效降低用戶間相似度的計算復(fù)雜度,提升相似用戶定位的效率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應(yīng)用于其中的一種示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本申請的用于確定相似用戶的方法的一個實施例的流程圖;
圖3是根據(jù)本申請的用于確定相似用戶的方法的另一個實施例的流程圖;
圖4是根據(jù)本申請的用于確定相似用戶的方法的一個應(yīng)用場景的效果示意圖;
圖5是本申請的用于確定相似用戶的裝置的一個實施例的結(jié)構(gòu)示意圖;
圖6是適于用來實現(xiàn)本申請實施例的服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
圖1示出了可以應(yīng)用本申請的用于確定相似用戶的方法或用于確定相似用戶的裝置的實施例的一種示例性系統(tǒng)架構(gòu)100。
如圖1所示,系統(tǒng)架構(gòu)100可以包括商戶110使用的終端設(shè)備101、102、用戶120、130、…的終端設(shè)備103、104、…、網(wǎng)絡(luò)105和服務(wù)器106。網(wǎng)絡(luò)105用以在終端設(shè)備101、102、103、104、…和服務(wù)器106之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)105可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
商戶110可以使用終端設(shè)備101、102通過網(wǎng)絡(luò)105與服務(wù)器106交互,以接收或發(fā)送消息。終端設(shè)備101、102可以安裝有與服務(wù)器106提供的服務(wù)關(guān)聯(lián)的應(yīng)用,例如購物類應(yīng)用。
用戶120、130、…也可以使用終端設(shè)備103、104、…通過網(wǎng)絡(luò)105與服務(wù)器106交互,以接收或發(fā)送消息。終端設(shè)備103、104、…可以安裝有各種通訊客戶端應(yīng)用,例如網(wǎng)頁瀏覽器應(yīng)用、購物類應(yīng)用、社交軟件等。
終端設(shè)備101、102、103、104、...可以是具有顯示屏并且支持網(wǎng)絡(luò)數(shù)據(jù)通訊的各種電子設(shè)備,包括但不限于智能手機、平板電腦、電子書閱讀器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,動態(tài)影像專家壓縮標準音頻層面3)、mp4(movingpictureexpertsgroupaudiolayeriv,動態(tài)影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。
服務(wù)器106可以是為商戶110的終端設(shè)備101、102和用戶120、130、…的終端設(shè)備103、104、…提供同一種數(shù)據(jù)服務(wù)的服務(wù)器,例如為購物類應(yīng)用的后臺服務(wù)器。購物類應(yīng)用的后臺服務(wù)器可以接收用戶120、130、…的終端設(shè)備103、104、…的數(shù)據(jù)請求,并對數(shù)據(jù)請求進行分析、存儲等處理后發(fā)送至商戶110的終端設(shè)備101、102,并將商戶110的終端設(shè)備101、102返回的反饋信息進行分析處理后發(fā)送至用戶120、130、…的終端設(shè)備103、104、…。
需要說明的是,本申請實施例所提供的用于確定相似用戶的方法一般由服務(wù)器106執(zhí)行,相應(yīng)地,用于確定相似用戶的裝置一般設(shè)置于服務(wù)器106中。
應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
繼續(xù)參考圖2,示出了根據(jù)本申請的用于確定相似用戶的方法的一個實施例的流程200。該用于確定相似用戶的方法,包括以下步驟:
步驟201,獲取待處理用戶集中各用戶的用戶信息。
在本實施例中,待處理用戶集可以是在上述用于確定相似用戶的方法運行與其上的電子設(shè)備(例如圖1所示的服務(wù)器106)提供支持的應(yīng)用平臺(例如在線購物平臺)的全部用戶的集合。上述電子設(shè)備可以在從本地或從其他設(shè)備獲取該應(yīng)用平臺的用戶集中各用戶的用戶信息,例如可以從本地的存儲器中調(diào)取平臺上各用戶的用戶信息,也可以通過網(wǎng)絡(luò)從遠程設(shè)備中接收各用戶的用戶信息。
上述用戶信息包括地理位置信息以及與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息。其中,地理位置信息可以由門牌號碼、經(jīng)緯度坐標、標志性建筑等表示,也可以由上述應(yīng)用平臺預(yù)先定義的區(qū)域標識(例如商圈名稱)來表示。預(yù)設(shè)標簽可以為商戶中的商品標簽(例如餐館的菜品標簽)、用戶的年齡標簽、商品價格標簽等。
以訂餐平臺上的用戶作為示例,該訂餐平臺中預(yù)設(shè)標簽包括多個菜品標簽,例如“紅燒”、“肉夾饃”、“酸辣”、“水餃”、“米飯”等,每個商戶的各個菜品的菜品標簽可以通過利用菜品名稱匹配該標簽集合得到。
上述歷史訂單信息包括多條歷史訂單記錄,每條歷史訂單記錄中的下單對象都具有至少一個預(yù)設(shè)標簽,每條歷史訂單記錄對應(yīng)用戶的一次下單操作,則可以將用戶在一段時間內(nèi)的下單操作與上述預(yù)設(shè)的標簽相關(guān)聯(lián)地存儲,得到與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單記錄,進而得到上述與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息。
在一些可選的實現(xiàn)方式中,上述用戶信息還可以包括用戶的基本屬性信息,包括用戶的年齡、性別、職業(yè)、愛好、習(xí)慣等信息。這些基本屬性信息可以由用戶主動錄入,例如年齡、性別;也可以結(jié)合用戶在平臺的操作行為數(shù)據(jù)獲得,例如可以由用戶的下單時間、下單方式等分析得出用戶的習(xí)慣、愛好等信息。在獲取用戶的歷史訂單信息時,可以根據(jù)用戶的身份標識,同時獲取用戶的上述基本屬性信息。
步驟202,統(tǒng)計與各預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各預(yù)設(shè)標簽的權(quán)重。
在本實施例中,不同預(yù)設(shè)標簽對用戶與其他用戶的區(qū)別的描述準確性不同。也就是說,不同預(yù)設(shè)標簽對用戶特征描述的能力不相同。通常與一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量越多,則該預(yù)設(shè)標簽用于區(qū)分不同用戶的能力越差,反之與一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量越少,則該預(yù)設(shè)標簽用于區(qū)分不同用戶的能力越強。舉例來說,在訂餐類平臺中,預(yù)設(shè)標簽“大米”與平臺中的大部分用戶的訂單記錄相關(guān)聯(lián),而與預(yù)設(shè)標簽“螺螄粉”關(guān)聯(lián)的平臺中的用戶所占比例較小,則預(yù)設(shè)標簽“螺螄粉”相較于“大米”可以更有效地描述用戶的喜好或特征。
在本實施例中,可以按照不同預(yù)設(shè)標簽區(qū)分不同用戶的能力對預(yù)設(shè)標簽進行加權(quán),權(quán)重可以與預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量相關(guān)。具體地,預(yù)設(shè)標簽的權(quán)重可以與預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量負相關(guān)。可選地,可以利用與預(yù)設(shè)標簽的關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量的倒數(shù)作為預(yù)設(shè)標簽的權(quán)重。
在這里,與預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量可以按照如下方式進行統(tǒng)計:將待處理用戶集中所有用戶的歷史訂單信息按照預(yù)設(shè)標簽進行統(tǒng)計,即可以將所有的歷史訂單信息劃分每個預(yù)設(shè)標簽對應(yīng)的歷史訂單記錄集合,然后針對每個預(yù)設(shè)標簽的歷史訂單記錄集合,統(tǒng)計該歷史訂單記錄集合對應(yīng)的用戶總數(shù),作為與各預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量的統(tǒng)計結(jié)果。
在本實施例的一些可選的實現(xiàn)方式中,可以按照如下方式確定各預(yù)設(shè)標簽的權(quán)重:對每個預(yù)設(shè)標簽,篩選出與預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;統(tǒng)計篩選出的歷史訂單信息對應(yīng)的用戶數(shù)量;對統(tǒng)計出的用戶數(shù)量求對數(shù)后取倒數(shù)作為預(yù)設(shè)標簽的權(quán)重。具體來說,對每個預(yù)設(shè)標簽tagk,若篩選出的與該預(yù)設(shè)標簽tagk關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量為user_count(tagk),則該預(yù)設(shè)標簽的權(quán)重weight(tagk)為:
其中,k=1,2,3,…n,n為預(yù)設(shè)標簽的數(shù)量。
通過對與預(yù)設(shè)標簽tagk關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量為user_count(tagk)取對數(shù)后求倒數(shù),可以在上述應(yīng)用軟件平臺上的用戶總數(shù)較大時避免user_count(tagk)較小時預(yù)設(shè)標簽tagk的權(quán)重成為特別小的數(shù),保證用戶的歷史訂單信息關(guān)聯(lián)的各個預(yù)設(shè)標簽在用戶特征描述中都具有一定的影響力。
步驟203,基于待處理用戶集中各用戶的歷史訂單信息以及各預(yù)設(shè)標簽的權(quán)重,生成各用戶的標簽屬性特征。
在這里,標簽屬性特征可以為基于標簽的用戶屬性特征,換言之,也就是用標簽特性來表示的用戶的屬性。在本實施例中,可以結(jié)合每個預(yù)設(shè)標簽的權(quán)重,按照預(yù)設(shè)標簽對每個用戶的歷史訂單信息中的訂單進行統(tǒng)計,將統(tǒng)計結(jié)果作為對應(yīng)用戶的標簽屬性特征。
具體地,可以采用多種方式來表示用戶的標簽屬性特征。舉例來說,用戶a的歷史訂單信息中包括與預(yù)設(shè)標簽a的關(guān)聯(lián)的訂單3條以及與預(yù)設(shè)標簽b關(guān)聯(lián)的訂單1條,假設(shè)步驟202中得出預(yù)設(shè)標簽a,b的權(quán)重分別為weight(a)和weight(b),則用戶a的標簽屬性特征可以表示為weight(a)×a3+weight(b)×b1,或者weight(a)×a3&weight(b)×b1??蛇x地,標簽屬性特征的形式可以預(yù)先設(shè)定,在得出每個用戶的訂單數(shù)量基于各預(yù)設(shè)標簽的統(tǒng)計結(jié)果后,結(jié)合每個預(yù)設(shè)標簽的權(quán)重,按照預(yù)先設(shè)定的形式來表示用戶的標簽屬性特征
在本實施例的一些可選的實現(xiàn)方式中,上述預(yù)設(shè)標簽的數(shù)量較多,可以首先將預(yù)設(shè)標簽分類,將所有的預(yù)設(shè)標簽劃分為多個標簽類別,然后針對每個標簽類別,基于標簽類別中所有預(yù)設(shè)標簽的權(quán)重確定出該標簽類別的權(quán)重,例如可以講標簽類別中各預(yù)設(shè)標簽的權(quán)重的均值作為該標簽類別的權(quán)重,之后基于標簽類別對用戶的歷史訂單信息進行統(tǒng)計,即統(tǒng)計與每一個標簽類別關(guān)聯(lián)的歷史訂單記錄的數(shù)量,作為各用戶的標簽屬性特征。這樣可以減少后續(xù)的運算量,縮短運算時間,提高相似用戶定位的效率。
步驟204,根據(jù)標簽屬性特征和地理位置信息將待處理用戶集中的用戶聚類為多個用戶簇。
在本實施例中,上述電子設(shè)備可以根據(jù)用戶的標簽屬性特征和地理位置信息對用戶進行聚簇,也即按照標簽屬性特征和地理位置信息對待處理用戶集中的用戶進行分類。在這里。每個用戶的特征可以由步驟203生成的標簽屬性特征和步驟201獲取的地理位置信息來表示,在聚類時,可以將標簽屬性特征和地理位置信息作為每個用戶簇的特征。
具體來說,可以將地理位置信息相同且用戶的標簽屬性特征一致的用戶聚為同一用戶簇,將地理位置信息不同的用戶劃分入不同的用戶簇,將標簽屬性特征不一致的用戶劃分入不同的用戶簇。在實際場景中,地理位置信息相同可以為“商圈”相同,這里的“商圈”可以為多級“商圈”,高級別的“商圈”可以覆蓋低級別“商圈”的地理位置范圍。在具體的實現(xiàn)中可以根據(jù)相似用戶定位精確度的需求來選定“商圈”的級別。標簽屬性特征的一致性可以采用多種現(xiàn)有的方法判斷,例如可以直接將兩個用戶的標簽屬性特征進行全局比對或局部比對來得出。
在本實施例中,對待處理用戶集中的用戶進行聚簇的方法可以包括但不限于基于k均值(k-means)算法、層次聚類算法、模糊c均值(fcm)聚類算法等。
通過基于標簽屬性特征和地理位置信息對用戶進行聚類,可以將用戶聚類為不同的用戶簇,同一用戶簇內(nèi)用戶相似度高,不同用戶簇間的用戶相似度低,這樣,在后續(xù)篩選相似用戶時,僅需在同一用戶簇內(nèi)計算用戶間的相似度,無需對每個目標用戶計算平臺中其他所有用戶與該目標用戶的相似度,從而能夠顯著地降低用戶間相似度計算的復(fù)雜度,提升相似用戶定位效率。
步驟205,基于標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度并確定出目標用戶的相似用戶。
在將待處理用戶集中的用戶聚類為多個用戶簇之后,可以在同一用戶簇內(nèi)計算用戶之間的相似度。上述目標用戶為待處理用戶集中的一個用戶,可以為待匹配相似用戶的對象。在實際場景中,目標用戶可以是具有特定特征的用戶,例如在平臺上某一店鋪下單頻次較高或者對店鋪的評價良好的用戶。
在本實施例中,可以在目標用戶所在的用戶簇中查找目標用戶的相似用戶。具體來說,可以基于標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度,并基于相似度確定出目標用戶的相似用戶。
具體地,在計算相似度時,可以對目標用戶的標簽屬性特征和目標用戶所在用戶簇中其他用戶的標簽屬性特征進行比對,可以采用多種方法,例如可以將各用戶的標簽屬性特征用數(shù)據(jù)形式(例如字符串、向量、矩陣等方式)表示,然后提取標簽屬性特征的特征值或特征數(shù)據(jù)點,利用特征值或特征數(shù)據(jù)點對兩個標簽屬性特征進行匹配,將兩個標簽屬性特征的特征值或特征數(shù)據(jù)點的匹配度作為對應(yīng)的兩個用戶的相似度。另外,還可以采用諸如余弦相似度、皮爾森相關(guān)系數(shù)等方法計算兩個用戶的標簽屬性特征之間的相似度,作為兩個用戶的相似度。
在計算得出目標用戶與同一用戶簇中其他各個用戶的相似度之后,可以將相似度高于設(shè)定的閾值的用戶作為目標用戶的相似用戶,或者可以按照相似度進行降序排序,選定排序前n(n為預(yù)先設(shè)定的正整數(shù))位的為目標用戶的相似用戶。
之后,上述電子設(shè)備可以將相似用戶的相關(guān)信息推送至目標用戶興趣度較高的商戶。這里目標用戶的興趣度較高可以包括但不限于目標用戶在商戶下單頻次較高、或者對商戶的評價較好、下單總金額超過設(shè)定的金額等。
本申請上述實施例提供的用于確定相似用戶的方法,首先獲取待處理用戶集中各用戶的用戶信息,然后統(tǒng)計與各預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各預(yù)設(shè)標簽的權(quán)重,而后基于待處理用戶集中各用戶的歷史訂單信息以及各預(yù)設(shè)標簽的權(quán)重,生成各用戶的標簽屬性特征,之后根據(jù)標簽屬性特征和地理位置信息對用戶集中的用戶進行聚簇,最后基于標簽屬性特征計算目標用戶與同一簇中其它用戶的相似度并確定出目標用戶的相似用戶,能夠合理、有效地確定不同預(yù)設(shè)標簽的權(quán)重,并依此來準確描述用戶的屬性特征,從而提升了用戶間相似度計算的準確性。
此外,本申請上述實施例通過對用戶進行聚簇,在用戶簇內(nèi)查找相似用戶來有效降低用戶間相似度的計算復(fù)雜度,可以提升相似用戶定位的效率。
繼續(xù)參考圖3,其示出了用于確定相似用戶的方法的又一個實施例的流程300。該用于確定相似用戶的方法的流程300,包括以下步驟:
步驟301,獲取待處理用戶集中各用戶的用戶信息。
在本實施例中,用于確定相似用戶的方法運行于其上的電子設(shè)備可以在從本地或從其他設(shè)備獲取待處理用戶集中各用戶的用戶信息。其中,待處理用戶集可以為應(yīng)用軟件平臺上的所有用戶的集合。用戶信息包括地理位置信息以及與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息。預(yù)設(shè)標簽可以為商戶的商品類型標簽(例如餐館的菜品標簽)、商品價格標簽、配送信息標簽等。歷史訂單信息包括多條歷史訂單記錄,每條歷史訂單記錄對應(yīng)用戶的一次下單操作,則可以將用戶在一段時間內(nèi)的下單操作與上述預(yù)設(shè)的標簽相關(guān)聯(lián)地存儲,得到與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單記錄,進而得到上述與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息。
步驟302,統(tǒng)計與各預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各預(yù)設(shè)標簽的權(quán)重。
在本實施例中,可以按照不同預(yù)設(shè)標簽區(qū)分不同用戶的能力對預(yù)設(shè)標簽進行加權(quán),權(quán)重可以與預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量相關(guān)。具體地,預(yù)設(shè)標簽的權(quán)重可以與該預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量負相關(guān),也就是說,當一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量較多時,該預(yù)設(shè)標簽區(qū)分不同用戶的能力較差,則其權(quán)重較低;反之,當一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量較少時,該預(yù)設(shè)標簽區(qū)分不同用戶的能力較強,則其權(quán)重較高。由此,可以利用與預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量得到預(yù)設(shè)標簽的權(quán)重。
步驟303,根據(jù)歷史訂單信息,確定每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次。
在本實施例中,可以根據(jù)待處理用戶集中的每個用戶的歷史訂單信息,對每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次進行統(tǒng)計。在這里,歷史訂單信息中的每條歷史訂單記錄都與一個或多個預(yù)設(shè)標簽關(guān)聯(lián)。對于每個用戶,具體可以統(tǒng)計每個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單記錄的數(shù)量,或統(tǒng)計該用戶與每個標簽關(guān)聯(lián)的歷史下單頻率,作為該用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次。可選地,可以僅統(tǒng)計一段時間內(nèi)(例如3個月內(nèi))的歷史訂單記錄,以減小后續(xù)的運算量。
舉例來說,如果用戶在3個月內(nèi)下單3次,包括與預(yù)設(shè)標簽a、b關(guān)聯(lián)的一條歷史訂單記錄,與預(yù)設(shè)標簽a、c、d關(guān)聯(lián)的一條歷史訂單記錄,以及與預(yù)設(shè)標簽a、b、c、e關(guān)聯(lián)的一條歷史訂單記錄,則該用戶對應(yīng)于預(yù)設(shè)標簽a、b、c、d、e的下單頻次統(tǒng)計結(jié)果分別為:3、2、2、1、1。
在本實施例的一些可選的實現(xiàn)方式中,在統(tǒng)計各用戶的下單頻次時,還可以考慮用戶的興趣度隨時間的變化,例如歷史訂單記錄中的一條訂單記錄的下單時間距離當前時間較遠時,該條訂單記錄對用戶標簽屬性特征評估的重要性低于另一條下單時間距離當前時間較近的訂單記錄的重要性。
具體地,在一些可選的實現(xiàn)方式中,可以根據(jù)用戶對應(yīng)于該標簽的歷史訂單記錄的訂單生成時間與當前時間的距離,確定時間衰減因子對下單頻次統(tǒng)計的影響力,例如預(yù)設(shè)的時間衰減因子為α(0<α<1,例如α=0.95),歷史訂單記錄的訂單生成時間距離當前時間t天,則時間衰減因子對下單頻次統(tǒng)計的影響力為αt,該條歷史訂單記錄的等效下單次數(shù)為αt。這樣,對與同一個預(yù)設(shè)標簽關(guān)聯(lián)的每條歷史訂單記錄的等效下單次數(shù)相加,即得到用戶對應(yīng)于該標簽的下單頻次的統(tǒng)計結(jié)果。
步驟304,基于每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次和對應(yīng)預(yù)設(shè)標簽的權(quán)重,計算得出每個用戶對應(yīng)的各預(yù)設(shè)標簽的有效下單頻次。
可以根據(jù)各預(yù)設(shè)標簽的權(quán)重和下單頻次統(tǒng)計結(jié)果計算對應(yīng)的有效下單頻次。有效下單頻次可以是更精確地表示加權(quán)后每個用戶的對應(yīng)于各預(yù)設(shè)標簽的下單頻次統(tǒng)計結(jié)果。在這里,可以將每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次與對應(yīng)各預(yù)設(shè)標簽的權(quán)重相乘,作為每個用戶對應(yīng)的各預(yù)設(shè)標簽的有效下單頻次。
步驟305,基于各預(yù)設(shè)標簽的有效下單頻次生成各用戶的標簽特征向量,作為各用戶的標簽屬性特征。
在本實施例中,可以利用標簽特征向量的形式來表示標簽屬性特征。標簽特征向量中的各個元素對應(yīng)于各個預(yù)設(shè)特征標簽??梢詫⒏黝A(yù)設(shè)標簽的有效下單頻次作為標簽特征向量中對應(yīng)于各預(yù)設(shè)標簽的特征值。
在一些可選的實現(xiàn)方式中,還可以對用戶對應(yīng)于預(yù)設(shè)標簽集合中的各標簽的下單頻次的統(tǒng)計結(jié)果進行歸一化處理,將歸一化處理后的下單頻次統(tǒng)計結(jié)果作為標簽特征向量中各對應(yīng)元素的特征值。具體來說,用戶i的標簽特征向量vi可以表示為:
vi=[vi1,vi2,…,vin](2)
其中,
count(tagj)為第j個預(yù)設(shè)標簽的下單頻次的統(tǒng)計結(jié)果,n為預(yù)設(shè)標簽的總數(shù)量,weight(tagj)為第j個預(yù)設(shè)標簽的權(quán)重,k=1,2,3,…,n。
這樣,每個用戶的標簽屬性特征都可以用一個一維的標簽特征向量表示,作為用戶畫像的量化值進行后續(xù)的聚類和相似度計算。
步驟306,對各用戶的標簽特征向量中的元素按特征值進行降序排序,選擇排序前預(yù)設(shè)位的元素對應(yīng)的預(yù)設(shè)標簽為待匹配標簽。
在生成用戶的標簽特征向量之后,可以對各用戶的標簽特征向量中的元素按照有效下單頻次的統(tǒng)計值進行降序排序,假設(shè)用戶i的標簽特征向量vi中排序前m位的分別為第t1、t2、…、tm個特征值vit1、vit2、…、vitm,則可以將標簽特征向量vi中第t1、t2、…、tm個元素對應(yīng)的預(yù)設(shè)標簽作為待匹配標簽。在實際場景中,m可設(shè)置為一個較小的整數(shù),例如為3,這樣,可以保證聚類結(jié)果中不同用戶簇之間具有較大的差異,同時由于待匹配的預(yù)設(shè)標簽數(shù)量較少,可以進一步降低計算復(fù)雜度。
步驟307,以地理位置信息和待匹配標簽為各用戶的特征信息,基于特征信息將待處理用戶集中的用戶聚類為多個用戶簇。
在本實施例中,上述電子設(shè)備可以利用地理位置信息和步驟306確定出的待匹配標簽作為用戶的特征信息進行聚類,可以采用預(yù)先設(shè)定的與地理位置信息和待匹配標簽系相關(guān)的聚類規(guī)則將用戶劃分為多個用戶簇,每個用戶簇中用戶的特征信息的相似度較高。
在一些可選的實現(xiàn)方式中,可以將地理位置信息相同且至少一個待匹配標簽相同的用戶聚為同一用戶簇。
在進一步的實現(xiàn)方式中,為了更準確地對用戶進行分類,當兩個用戶的地理位置信息相同,且各個待匹配標簽也匹配成功時,可以將兩個用戶劃分入同一用戶簇??蛇x地,若兩個用戶的地理位置信息相同,且待匹配標簽相匹配,還可以進一步判斷兩個用戶的標簽特征向量中的待匹配標簽對應(yīng)的特征值是否相同,若是,則將兩個用戶劃分入同一用戶簇,否則劃分入不同的用戶簇。
這樣,采用預(yù)先設(shè)定的規(guī)則對用戶進行聚類,可以在保證聚類準確度的同時簡化聚類算法,可以減小聚類的計算復(fù)雜度,從而進一步提升相似用戶的定位效率。
步驟308,基于標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度并確定出目標用戶的相似用戶。
在將待處理用戶集中的用戶聚類為多個用戶簇之后,可以在同一用戶簇內(nèi)計算用戶之間的相似度。上述目標用戶為待處理用戶集中的一個用戶,可以為預(yù)先確定的用戶。在實際場景中,目標用戶可以是具有特定特征的用戶,例如在平臺上某一店鋪下單頻次較高或者對店鋪的評價較高的用戶。
在本實施例中,可以計算目標用戶的標簽特征向量與同一簇中其他各用戶的標簽特征向量的相似度,并基于目標用戶的標簽特征向量與同一用戶簇中其他各用戶的標簽特征向量的相似度篩選出目標用戶的相似用戶。可選的相似度計算方法可以包括但不限于余弦相似度、皮爾森相關(guān)系數(shù)、歐氏距離等。
在篩選目標用戶的相似用戶時,可以判斷相似度是否高于設(shè)定的閾值、將相似度高于設(shè)定的閾值的用戶作為目標用戶的相似用戶;或者可以按照相似度進行降序排序,選定排序前n(n為預(yù)先設(shè)定的正整數(shù))位的為目標用戶的相似用戶。
上述方法流程中的步驟301、步驟302分別與前述實施例中的步驟201、步驟202相同,此處不再贅述。
從圖3中可以看出,與圖2對應(yīng)的實施例相比,本實施例中的用于確定目相似用戶的方法的流程300通過將用戶的標簽屬性特征量化為標簽特征向量,并進一步從標簽特征向量中提取出較大的特征值對應(yīng)的預(yù)設(shè)標簽作為待匹配標簽,基于待匹配標簽和地理位置信息進行聚類,能夠快速、有效地將用戶聚類為不同的用戶簇,從而可以進一步減小相似用戶計算的復(fù)雜度,提升相似用戶定位的效率。
圖4示出了圖2和圖3所示的用于確定相似用戶的方法的一個應(yīng)用場景的效果示意圖。如圖4所示,商戶“**小館”所在平臺的后端服務(wù)器可以提供在本商戶下單次數(shù)最多的客戶列表,包括用戶“aaaa”和“bbbb”,若商戶選擇“拉新”服務(wù),上述后端服務(wù)器可以將用戶“aaaa”和“bbbb”作為目標用戶,查找目標用戶“aaaa”和“bbbb”的相似用戶。具體地可以獲取線上所有用戶的歷史訂單信息,統(tǒng)計平臺中各個菜品標簽對應(yīng)的用戶數(shù)量,從而確定出每個菜品的權(quán)重,并結(jié)合歷史訂單信息中每次下單用戶所點菜品的標簽確定每個用戶的標簽屬性特征。之后將篩選出與目標用戶“aaaa”或“bbbb”位于同一商圈的用戶,對該商圈內(nèi)的用戶進行聚類,最后計算目標用戶“aaaa”和“bbbb”與同一類中的其他用戶的相似度,并選擇相似度較高的作為相似用戶。如圖4中用戶“bbbb0”的相似用戶的定位結(jié)果為用戶“xx”和用戶“yyy”??梢詫⑾嗨朴脩舻亩ㄎ唤Y(jié)果推送至商戶“**小館”的客戶端中并呈現(xiàn)。還可以提供相似用戶的下單記錄等信息,以便商戶對相似用戶進行針對性的商品推薦或活動信息推送。
進一步參考圖5,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N用于確定相似用戶的裝置的一個實施例,該裝置實施例與圖5所示的方法實施例相對應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。
如圖5所示,本實施例的用于確定目相似用戶的裝置500包括:獲取單元501、統(tǒng)計單元502、生成單元503、聚類單元504以及確定單元505。其中,獲取單元501配置用于獲取待處理用戶集中各用戶的用戶信息,其中,用戶信息包括地理位置信息以及與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;統(tǒng)計單元502配置用于統(tǒng)計與各預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各預(yù)設(shè)標簽的權(quán)重;生成單元503配置用于基于待處理用戶集中各用戶的歷史訂單信息以及各預(yù)設(shè)標簽的權(quán)重,生成各用戶的標簽屬性特征;聚類單元504配置用于根據(jù)標簽屬性特征和地理位置信息將待處理用戶集中的用戶聚類為多個用戶簇;確定單元505配置用于基于標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度并確定出目標用戶的相似用戶。
在本實施例中,獲取單元501可以從本地存儲器調(diào)取出平臺上各用戶的用戶信息,或者可以通過有線連接方式或者無線連接方式從其他服務(wù)器中接收平臺上各用戶的用戶信息。這里的用戶信息還可以包括用戶的年齡、喜好、職業(yè)等基本屬性信息。
統(tǒng)計單元502可以基于獲取單元501獲取的每個用戶的用戶信息,統(tǒng)計每個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單記錄對應(yīng)的用戶數(shù)量,并依據(jù)統(tǒng)計的用戶數(shù)量設(shè)定每個預(yù)設(shè)標簽的權(quán)重。
生成單元503可以根據(jù)統(tǒng)計單元502統(tǒng)計得到的各預(yù)設(shè)標簽的權(quán)重,結(jié)合各用戶的對應(yīng)于各預(yù)設(shè)標簽的歷史訂單記錄的數(shù)量,生成用戶的標簽屬性特征??蛇x地,可以將用戶對應(yīng)于每個預(yù)設(shè)標簽的歷史訂單記錄的數(shù)量與對應(yīng)的預(yù)設(shè)標簽的權(quán)重相乘,得到用戶的對應(yīng)于該預(yù)設(shè)標簽的特征值,然后將用戶的對應(yīng)于各預(yù)設(shè)標簽的特征值合成為用戶的標簽屬性特征。
聚類單元504可以對根據(jù)獲取單元501獲取的用戶的地理位置信息以及生成單元503生成的用戶的標簽特征屬性對待處理用戶集中的用戶進行聚類。也就是說,可以將地理位置信息和標簽特征屬性作為聚類所依據(jù)的特征,將用戶劃分為不同的用戶簇。同一用戶簇內(nèi)的用戶的特征的相似度較高,不同用戶簇間用戶的特征的相似度較低。這樣,能夠通過聚類初步將與目標用戶相似度低的用戶排除,從而加快后續(xù)相似用戶定位的速度。
確定單元505可以計算目標用戶與同一用戶簇中其他用戶的相似度并確定出目標用戶的相似用戶。具體地,可以將目標用戶與其他用戶的標簽屬性特征間的相似度作為二者的相似度。之后可以選擇相似度高于設(shè)定的閾值或排序前n位的用戶作為相似用戶。
在一些實施例中,上述統(tǒng)計單元502可以配置用于按照如下方式確定各預(yù)設(shè)標簽的權(quán)重:對每個預(yù)設(shè)標簽,篩選出與預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;統(tǒng)計篩選出的歷史訂單信息對應(yīng)的用戶數(shù)量;對統(tǒng)計出的用戶數(shù)量求對數(shù)后取倒數(shù)作為預(yù)設(shè)標簽的權(quán)重。
在一些實施例中,生成單元503可以配置用于按照如下方式生成各用戶的標簽屬性特征:根據(jù)歷史訂單信息,確定每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次;基于每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次和對應(yīng)預(yù)設(shè)標簽的權(quán)重,計算得出每個用戶對應(yīng)的預(yù)設(shè)標簽的有效下單頻次;基于各預(yù)設(shè)標簽的有效下單頻次生成各用戶的標簽特征向量,作為各用戶的標簽屬性特征。
在進一步的實施例中,上述生成單元503可以進一步配置用于將每個用戶對應(yīng)于各預(yù)設(shè)標簽的下單頻次與對應(yīng)各預(yù)設(shè)標簽的權(quán)重相乘,作為每個用戶對應(yīng)的各預(yù)設(shè)標簽的有效下單頻次;并進一步配置用于將各預(yù)設(shè)標簽的有效下單頻次作為標簽特征向量中對應(yīng)于各預(yù)設(shè)標簽的特征值。
在進一步的實施例中,上述聚類單元504可以進一步配置用于按照如下方式將待處理用戶集中的用戶聚類為多個用戶簇:對各用戶的標簽特征向量中的元素按特征值進行降序排序,選擇排序前預(yù)設(shè)位的元素對應(yīng)的預(yù)設(shè)標簽為待匹配標簽;以地理位置信息和待匹配標簽為各用戶的特征信息,基于特征信息將待處理用戶集中的用戶聚類為多個用戶簇。
進一步地,上述聚類單元504可以配置用于將地理位置信息相同且至少一個待匹配標簽相同的用戶聚為同一用戶簇。
在一些實施例中,上述確定單元505進一步配置用于:計算目標用戶的標簽特征向量與同一用戶簇中其他各用戶的標簽特征向量的相似度;基于目標用戶的標簽特征向量與同一用戶簇中其他各用戶的標簽特征向量的相似度篩選出目標用戶的相似用戶。
應(yīng)當理解,裝置500中記載的諸單元與參考圖2和圖3描述的方法中的各個步驟相對應(yīng)。由此,上文針對方法描述的操作和特征同樣適用于裝置500及其中包含的單元,在此不再贅述。
本申請實施例提供的用于確定相似用戶的裝置500,利用統(tǒng)計單元統(tǒng)計各預(yù)設(shè)標簽管關(guān)聯(lián)的訂單信息對應(yīng)的用戶數(shù)量,能夠合理、有效地確定不同預(yù)設(shè)標簽的權(quán)重,生成單元依此來準確描述用戶的屬性特征,從而提升了用戶間相似度計算的準確性;并且通過對聚類單元用戶進行聚類,然后確定單元在同一用戶簇內(nèi)查找相似用戶,能夠有效降低計算復(fù)雜度,提升相似用戶定位的效率。
下面參考圖6,其示出了適于用來實現(xiàn)本申請實施例的服務(wù)器的計算機系統(tǒng)600的結(jié)構(gòu)示意圖。圖6示出的服務(wù)器僅僅是一個示例,不應(yīng)對本申請實施例的功能和使用范圍帶來任何限制。
如圖6所示,計算機系統(tǒng)600包括中央處理單元(cpu)601,其可以根據(jù)存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在ram603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。
以下部件連接至i/o接口605:包括鍵盤、鼠標等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至i/o接口605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分608。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行上述流程圖2或圖3所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。在該計算機程序被中央處理單元(cpu)601執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。需要說明的是,本申請所述的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括獲取單元、統(tǒng)計單元、篩選單元、計算單元和確定單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,獲取單元還可以被描述為“獲取待處理用戶集中各用戶的用戶信息的單元”。
作為另一方面,本申請還提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)可以是上述實施例中描述的裝置中所包含的;也可以是單獨存在,而未裝配入該裝置中。上述計算機可讀介質(zhì)承載有一個或者多個程序,當上述一個或者多個程序被該裝置執(zhí)行時,使得該裝置獲取待處理用戶集中各用戶的用戶信息,所述用戶信息包括地理位置信息以及與至少一個預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息;統(tǒng)計與各所述預(yù)設(shè)標簽關(guān)聯(lián)的歷史訂單信息對應(yīng)的用戶數(shù)量,以確定各所述預(yù)設(shè)標簽的權(quán)重;基于所述待處理用戶集中各用戶的歷史訂單信息以及各所述預(yù)設(shè)標簽的權(quán)重,生成各所述用戶的標簽屬性特征;根據(jù)所述標簽屬性特征和地理位置信息將所述待處理用戶集中的用戶聚類為多個用戶簇;基于所述標簽屬性特征計算目標用戶與同一用戶簇中其他用戶的相似度并確定出所述目標用戶的相似用戶。
以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。