本申請涉及計算機技術(shù)領(lǐng)域,具體涉及一種在線系統(tǒng)個性化推薦的方法;相應(yīng)于上述方法,本申請同時涉及一種在線個性化推薦的裝置以及電子設(shè)備,以及一種在線系統(tǒng)個性化推薦的系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展使人類進入了信息爆炸的時代。海量信息的同時呈現(xiàn),一方面使信息獲得者很難從中發(fā)現(xiàn)自己感興趣的部分,另一方面也使得大量少人問津的信息無法被一般用戶獲取,以上情況嚴(yán)重阻礙了信息效用的充分發(fā)揮。
為解決上述問題,目前出現(xiàn)了個性化推薦系統(tǒng)。個性化推薦系統(tǒng)通過建立用戶與信息之間的二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每個用戶潛在感興趣的個性化信息,進而進行個性化推薦,使信息與信息使用者之間具有更高的匹配度。
現(xiàn)有技術(shù)下的個性化推薦系統(tǒng),采用如下方式實現(xiàn)。
首先預(yù)先大量搜集用戶的行為,提煉出樣本數(shù)據(jù),根據(jù)這些樣本數(shù)據(jù),通過機器學(xué)習(xí)的方法,訓(xùn)練得到用戶模型,在線根據(jù)每個用戶的用戶特征數(shù)據(jù)以及上述用戶模型,為用戶推薦個性化信息,在在線交易系統(tǒng)中,所述個性化信息對應(yīng)于個性化推薦的實體,一般包括商品、店鋪或者品牌等;例如,亞馬遜網(wǎng)站根據(jù)用戶特征數(shù)據(jù)推薦書籍,就是個性化推薦實體的例子。
在上述現(xiàn)有技術(shù)下,需要通過不同系統(tǒng)搜集大量數(shù)據(jù),并將采集到的原始數(shù)據(jù),匯總到離線平臺。例如,將用戶曝光日志、點擊日志、成交數(shù)據(jù)、購物車行為、收藏夾數(shù)據(jù)等多個不同應(yīng)用的數(shù)據(jù),匯總到離線平臺。然后,根據(jù)這些原始數(shù)據(jù)計算所有用戶的特征以及特征數(shù)據(jù),再根據(jù)這些數(shù)據(jù)中記錄的用戶反饋行為,如:點擊、訪問、點贊、收藏、預(yù)定、購買等,對樣本進行打標(biāo),最后在離線大數(shù)據(jù)平臺中進行模型訓(xùn)練。訓(xùn)練完畢,將獲得的用戶模型上線使用。
上述現(xiàn)有技術(shù)存在明顯缺陷,主要問題在于,需要從多個平臺回流數(shù)據(jù),然后匯總、計算,這個過程需要耗費較多的計算資源和存儲資源;此外,由于各個平臺回流數(shù)據(jù)的效率和時點不一,造成模型訓(xùn)練需要等待較長時間,使訓(xùn)練模型的實時性差。而且,由于一次需要積累的數(shù)據(jù)量比較大,一般只能使用所搜集的一部分?jǐn)?shù)據(jù)記錄,很多數(shù)據(jù)反映的情況無法反映到用戶模型中,無法真正落實大數(shù)據(jù)應(yīng)用。
技術(shù)實現(xiàn)要素:
本申請?zhí)峁┮环N在線系統(tǒng)個性化推薦的方法,以解決現(xiàn)有技術(shù)下資源消耗過多,實時性差的問題,并真正落實大數(shù)據(jù)應(yīng)用。本申請還提供一種在線個性化推薦系統(tǒng),以及在線系統(tǒng)個性化推薦裝置;以及一種實現(xiàn)在線系統(tǒng)個性化推薦的電子設(shè)備。
本申請?zhí)峁┮环N在線系統(tǒng)個性化推薦的方法,包括:
接收訪問用戶的訪問請求,并提取所述訪問用戶的用戶特征數(shù)據(jù);
根據(jù)所述訪問用戶的用戶特征數(shù)據(jù),以及當(dāng)前用戶模型,提供個性化推薦信息;
實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供的所述個性化推薦信息、所述訪問用戶作出反饋操作的所述個性化推薦信息以及所做的反饋操作,并形成新增用戶模型訓(xùn)練條目;
將所述新增用戶模型訓(xùn)練條目加入訓(xùn)練樣本集;
以當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練;
所述用戶模型訓(xùn)練完成后,將所獲得的更新的用戶模型作為當(dāng)前用戶模型。
可選的,所述用戶特征數(shù)據(jù)至少包括:用戶身份標(biāo)識,并包括下列任何用戶特征數(shù)據(jù)中的至少一個:性別,年齡,交易記錄。
可選的,所述個性化推薦信息包括下列個性化推薦實體的至少一種:商品、店鋪、品牌。
可選的,所述訪問用戶作出反饋操作包括如下操作之一:點擊,訪問,點贊,收藏,預(yù)定,購買。
可選的,所述訓(xùn)練數(shù)據(jù)條目中還包括以下數(shù)據(jù)的一種或者兩種:獲取該記 錄的時間點、資源位信息。
可選的,將積累的所述新增用戶模型訓(xùn)練條目加入訓(xùn)練樣本集之后,所述以當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練的步驟之前,執(zhí)行下述步驟:
判斷所述新增用戶模型訓(xùn)練樣本是否達(dá)到預(yù)定的閾值;若是,則進入下一步驟。
可選的,所述用戶模型訓(xùn)練采用機器學(xué)習(xí)方法。
可選的,所述機器學(xué)習(xí)方法采用邏輯回歸方法或者梯度提升決策樹方法。
可選的,所述新增用戶模型訓(xùn)練條目采用日志方式記錄。
相應(yīng)的,本申請還提供一種在線系統(tǒng)個性化推薦的裝置,包括:
用戶特征數(shù)據(jù)提取單元,用于接收訪問用戶的訪問請求,并提取所述訪問用戶的用戶特征數(shù)據(jù);
個性化推薦信息提供單元,用于根據(jù)所述訪問用戶的用戶特征數(shù)據(jù),以及當(dāng)前用戶模型,提供個性化推薦信息;
用戶模型訓(xùn)練條目形成單元,用于實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供的所述個性化推薦信息、所述訪問用戶作出反饋操作的所述個性化推薦信息以及所做的反饋操作,并形成新增用戶模型訓(xùn)練條目;
訓(xùn)練樣本集搜集單元,用于將所述新增用戶模型訓(xùn)練條目加入訓(xùn)練樣本集;
用戶模型訓(xùn)練單元,用于以當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練;
用戶模型更新單元,用于在所述用戶模型訓(xùn)練完成后,將所獲得的更新的用戶模型作為當(dāng)前用戶模型。
相應(yīng)的,本申請還提供一種電子設(shè)備,包括:
顯示器;
處理器;
存儲器,用于存儲實現(xiàn)在線系統(tǒng)個性化推薦的方法的程序,該設(shè)備通電并運行該在線系統(tǒng)個性化推薦的方法的程序后,執(zhí)行下述步驟:
接收訪問用戶的訪問請求,并提取所述訪問用戶的用戶特征數(shù)據(jù);
根據(jù)所述訪問用戶的用戶特征數(shù)據(jù),以及當(dāng)前用戶模型,提供個性化推薦信息;
實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供的所述個性 化推薦信息、所述訪問用戶作出反饋操作的所述個性化推薦信息以及所做的反饋操作,并將為訪問用戶的一次訪問-推薦過程形成的上述內(nèi)容組合為一條新增的用戶模型訓(xùn)練條目;
將所述新增的用戶模型訓(xùn)練條目加入訓(xùn)練樣本集;
以當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練;
所述用戶模型訓(xùn)練完成后,將所獲得的更新的用戶模型作為當(dāng)前用戶模型。
相應(yīng)的,本申請還提供一種在線個性化推薦的系統(tǒng),包括:在線子系統(tǒng)、離線子系統(tǒng);
所述在線子系統(tǒng),用于接收用戶的訪問請求,并提取用戶特征數(shù)據(jù),并根據(jù)所提取的用戶特征數(shù)據(jù)以及當(dāng)前用戶模型,向提出訪問請求的用戶提供個性化推薦實體;以及,實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供的所述個性化推薦信息、所述訪問用戶對所述個性化推薦信息的反饋信息,形成新增用戶模型訓(xùn)練條目并發(fā)送;以及,接收所述離線子系統(tǒng)提供的更新的用戶模型;
所述離線子系統(tǒng),接收所述在線子系統(tǒng)發(fā)送的新增用戶模型訓(xùn)練條目,并將所述新增用戶模型訓(xùn)練條目加入當(dāng)前訓(xùn)練樣本集;采用所述當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練,將訓(xùn)練完成獲得的更新的用戶模型向外發(fā)送。
與現(xiàn)有技術(shù)相比,本申請?zhí)峁┑脑诰€系統(tǒng)個性化推薦的方法,對用戶特征數(shù)據(jù)、個性化推薦信息和對所述用戶作出反饋操作的所述個性化推薦信息進行實時搜集,并形成新增用戶模型訓(xùn)練條目,通過積累所述用戶模型訓(xùn)練條目形成的訓(xùn)練樣本集,訓(xùn)練所述用戶模型,并在新的用戶模型形成后,立即作為當(dāng)前用戶模型,用于向用戶提供個性化推薦信息。
使用本申請?zhí)峁┑姆椒ǎ谙蛴脩籼峁﹤€性化推薦信息的同時,進行信息搜集并形成用戶模型訓(xùn)練條目;這種處理方式,可以有效減少信息匯總產(chǎn)生的計算量,并且減少了存儲中間信息的存儲空間;因此,本申請?zhí)峁┑姆椒梢杂行p少資源消耗。
在本申請?zhí)峁┑姆椒ㄖ校脩裟P陀?xùn)練條目隨時可以用于進行用戶模型訓(xùn)練,并且新形成的用戶模型可以馬上在向用戶提供個性化推薦信息時使用。這樣,可以隨時根據(jù)新搜集的數(shù)據(jù)對用戶模型進行調(diào)整,并迅速用于向用戶提供個性化推薦信息;因此,本申請?zhí)峁┑姆椒軌蚣皶r根據(jù)所搜集的數(shù)據(jù)對用戶 模型進行調(diào)整,比現(xiàn)有技術(shù)具有更高實時性。此外,本申請?zhí)峁┑姆椒?,還能夠充分利用所搜集到的全部數(shù)據(jù),有效實現(xiàn)大數(shù)據(jù)應(yīng)用。
附圖說明
圖1是本申請第一實施例提供的一種在線系統(tǒng)個性化推薦的方法流程圖;
圖2是本申請第二實施例提供的一種在線系統(tǒng)個性化推薦的裝置的單元框圖;
圖3是本申請第四實施例提供的一種在線系統(tǒng)個性化推薦的系統(tǒng)示意圖。
具體實施方式
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本申請。但是,本申請能夠以很多不同于在此描述的其它方式來實施,本領(lǐng)域技術(shù)人員可以在不違背本申請內(nèi)涵的情況下做類似推廣,因此,本申請不受下面公開的具體實施的限制。
本申請?zhí)峁┝艘环N在線系統(tǒng)個性化推薦的方法和裝置,以及一種在線個性化推薦的系統(tǒng);以及在線系統(tǒng)個性化推薦的電子設(shè)備,在下面的實施例中逐一進行詳細(xì)說明。
為了便于理解本申請的技術(shù)方案,首先對提出本申請的背景及本申請的技術(shù)方案作簡要說明。
參照圖1,其示出了本申請第一實施例提供的一種在線系統(tǒng)個性化推薦的方法處理流程圖。
在該實施例中,系統(tǒng)根據(jù)用戶特征數(shù)據(jù),以及當(dāng)前用戶模型,提供個性化推薦實體;并且,會記錄本次推薦相關(guān)的用戶特征數(shù)據(jù)、為用戶提供的所述個性化推薦信息,以及用戶作出反饋操作的情況,并將其作為訓(xùn)練新的用戶模型的數(shù)據(jù)。
例如:當(dāng)用戶在購買一部手機時,系統(tǒng)將根據(jù)用戶特征數(shù)據(jù),推薦適合用戶需要的耳機,手機套等商品;用戶對某款耳機作出購買操作;上述過程可能形成多條用戶模型訓(xùn)練條目,其中一條新增用戶模型訓(xùn)練條目,包括如下數(shù)據(jù):該用戶的用戶特征數(shù)據(jù)、向用戶推薦的耳機、以及該用戶將對耳機作出購買操 作的打標(biāo)記錄,這條用戶模型訓(xùn)練條目作為正樣本;另外一條新增用戶模型訓(xùn)練條目包括如下數(shù)據(jù):該用戶的用戶特征數(shù)據(jù),向用戶推薦的手機套,以及該用戶未對手機套作出操作的打標(biāo)記錄,該條用戶模型訓(xùn)練條目可以作為負(fù)樣本使用。
以下結(jié)合圖1對本實施例提供的一種個性化推薦系統(tǒng)方法進行說明,并且對該方法的各個步驟進行說明。
步驟s101,接收訪問用戶的訪問請求,并提取所述訪問用戶的用戶特征數(shù)據(jù)。
所謂訪問用戶,主要指通過因特網(wǎng)或者移動網(wǎng)在線訪問特定站點、網(wǎng)頁、服務(wù)器的用戶。
所述訪問用戶的用戶特征數(shù)據(jù),是指反映訪問用戶本身的各方面特征信息的數(shù)據(jù)。這些數(shù)據(jù)可以通過不同渠道獲得。
首先,訪問用戶一般通過瀏覽器或者app應(yīng)用作為中介,實現(xiàn)對特定站點、網(wǎng)頁、服務(wù)器的訪問。登陸這些特定站點、網(wǎng)頁或者服務(wù)器一般需要通過賬戶登陸,對應(yīng)這些賬戶會記錄有用戶相關(guān)的特征數(shù)據(jù)。
其次,用戶特征數(shù)據(jù)也可以通過用戶訪問方式、用戶訪問區(qū)域等不需要用戶登錄賬戶的方式獲得。例如,所述訪問用戶的訪問方式特征包括:互聯(lián)網(wǎng)訪問還是移動互聯(lián)網(wǎng)訪問;移動互聯(lián)網(wǎng)訪問中,還可以進一步判斷使用的訪問終端的品牌;所述用戶訪問區(qū)域,即lbs信息,即用戶進行訪問時所在的地域,這些地域可以根據(jù)具體地點劃分為不同類型,如高校、商務(wù)辦公地點;如城市、鄉(xiāng)鎮(zhèn),每一種類型均反映用戶可能具有不同的影響其反饋操作行為的特征。
所述用戶特征數(shù)據(jù),從獲得方式劃分,包括用戶自己提供的數(shù)據(jù),以及根據(jù)用戶登陸訪問行為獲得的相關(guān)數(shù)據(jù)。
所述用戶自己提供的數(shù)據(jù),包括用戶登陸時提供的用戶身份標(biāo)識,以及注冊時提供的性別,年齡等信息;也可以包括用戶在使用網(wǎng)站、服務(wù)器中關(guān)聯(lián)的郵箱、銀行賬號等信息。
所述根據(jù)用戶登陸訪問行為獲得的相關(guān)數(shù)據(jù),包括直接獲得的數(shù)據(jù)和間接獲得的數(shù)據(jù)。
所述直接獲得的數(shù)據(jù)包括:用戶對購物網(wǎng)站的訪問、下單情況獲得的用戶訪問記錄、用戶購買記錄以及其他各種用戶行為信息,這些信息是對用戶歷史 行為的直接記錄。
所述間接獲得的數(shù)據(jù),主要是從上述直接獲得的數(shù)據(jù)中總結(jié)出的反映用戶特征的數(shù)據(jù),例如,根據(jù)用戶購買的書籍,對用戶的文化水平、閱讀領(lǐng)域作出的歸類等。根據(jù)用戶購買的商品品牌,對用戶的購買力水平做出的判斷等。
在不同的應(yīng)用場景下,所述用戶特征數(shù)據(jù)的具體會包含不同具體項目,但不論何種情況,至少包括用戶身份標(biāo)識(id),用戶身份標(biāo)識可以直接通過用戶登陸時提供的信息獲得,并可以作為進一步查詢獲得用戶的其它信息記錄的依據(jù);例如,用戶的性別,年齡,以及交易記錄(在網(wǎng)絡(luò)購物的場景下)等,這些信息如前所述,一般以用戶身份標(biāo)識作為主關(guān)鍵字存儲在數(shù)據(jù)庫的記錄表中。記錄用戶特征數(shù)據(jù)的數(shù)據(jù)表或者數(shù)據(jù)庫既可以在遠(yuǎn)程的服務(wù)器上,也可能在客戶端。
以上說明獲得用戶特征數(shù)據(jù)的各種渠道和獲得方式,在具體實施例中,根據(jù)不同的需求,需要根據(jù)具體情況搜集所需要的用戶特征數(shù)據(jù),這些用戶特征數(shù)據(jù)應(yīng)當(dāng)是對用戶模型訓(xùn)練有用的數(shù)據(jù)。
一般而言,所述用戶特征數(shù)據(jù)至少包括用戶身份標(biāo)識,并包括下列任何用戶特征數(shù)據(jù)中的至少一個:性別,年齡,交易記錄;當(dāng)然,用戶特征數(shù)據(jù)完全可以包含其他可能相關(guān)的數(shù)據(jù)。隨著大數(shù)據(jù)技術(shù)的發(fā)展以及數(shù)據(jù)挖掘技術(shù)的進步,越來越多的數(shù)據(jù)相關(guān)性被發(fā)現(xiàn),并且有越來越好的數(shù)據(jù)模型可以反映各種數(shù)據(jù)對最終希望提供的個性化推薦信息的作用,因此,可以用于用戶模型訓(xùn)練的用戶特征數(shù)據(jù)的類型也會越來越多。
本步驟所稱的訪問請求,可以包括對特定網(wǎng)站、網(wǎng)頁的訪問瀏覽,也可以指用戶在網(wǎng)站中對商品等的搜索。
步驟s102,根據(jù)所述訪問用戶的用戶特征數(shù)據(jù),以及當(dāng)前用戶模型,提供個性化推薦信息。
通過前述步驟s101,獲得了訪問用戶的用戶特征數(shù)據(jù);這些用戶特征數(shù)據(jù)能夠作為為用戶提供個性化推薦信息的依據(jù);具體獲得個性化推薦信息需要通過使用當(dāng)前用戶模型,以所述用戶特征數(shù)據(jù)為依據(jù),帶入當(dāng)前用戶模型,推導(dǎo)出所述個性化推薦信息。
所述當(dāng)前用戶模型,是根據(jù)所述訪問用戶訪問前搜集的各個用戶的用戶特征數(shù)據(jù),以預(yù)定的方式進行訓(xùn)練獲得的當(dāng)前正在使用的用戶模型。當(dāng)前用戶模 型的作用是,向其提供所需要的特定的用戶特征數(shù)據(jù)后,當(dāng)前用戶模型能夠根據(jù)用戶特征數(shù)據(jù)反映的用戶特性,向該用戶提供相應(yīng)的個性化推薦信息。
在本實施例中,通過不斷搜集數(shù)據(jù),能夠不斷積累新的訓(xùn)練數(shù)據(jù),這些訓(xùn)練數(shù)據(jù)可以用于對所述用戶模型的訓(xùn)練,從而獲得更新的用戶模型。本步驟使用當(dāng)前用戶模型一詞,其中“當(dāng)前”即說明用戶模型在本實施例中是不斷修正、演變的,本步驟使用的用戶模型為當(dāng)前有效的用戶模型,但過一段時間,該用戶模型可能就已經(jīng)由于新的訓(xùn)練過程而有所變化。
所述個性化推薦信息,是指所述當(dāng)前用戶模型根據(jù)特定訪問用戶的用戶特征數(shù)據(jù)推算出的向該特定訪問用戶推薦的信息。所述推薦,主要指在該訪問用戶的訪問界面展示,包括視覺、聽覺或者其它可能方式的展示;所述個性化,其含義是指與該用戶的用戶特征相匹配。
所述個性化推薦信息根據(jù)具體情況可以對應(yīng)不同類型的個性化推薦實體,在本實施例中,假定場景為電商的銷售場景,則所述個性化推薦信息可以是如下類型的個性化推薦實體:商品、店鋪或者品牌。
例如,某位訪問用戶正在訪問網(wǎng)上書店,根據(jù)其用戶特征數(shù)據(jù)反映的該用戶的興趣范圍,可以為其推薦相關(guān)的書籍商品;某訪問用戶訪問淘寶網(wǎng)站,搜索筆記本,根據(jù)其用戶特征數(shù)據(jù)反映的該用戶的價格承受能力或者品牌喜好,可以為其推薦符合其用戶特征并出售筆記本的網(wǎng)上店鋪;某訪問用戶正在查詢購買服裝,根據(jù)其用戶特征反映的該用戶的性別、年齡、以及購買能力,可以為其推薦提供符合其性別、年齡以及消費層次的服裝品牌。
所述當(dāng)前用戶模型可以包括一個或者多個子模型,分別負(fù)責(zé)從不同角度為訪問用戶進行不同方面信息的個性化推薦;并且可以最終在同一個訪問界面展現(xiàn),當(dāng)然,也可以根據(jù)用戶訪問的具體情況展現(xiàn)使用特定的當(dāng)前用戶模型的子模型,例如,一個已經(jīng)注冊過的用戶通過賬戶登錄后,立刻根據(jù)其用戶特征數(shù)據(jù),向其展現(xiàn)其上次登錄后新出現(xiàn)的該用戶可能關(guān)心的商品、店鋪或者品牌;或者,用戶搜索書籍時,立刻使用負(fù)責(zé)推薦書籍的當(dāng)前用戶模型的子模型根據(jù)用戶特征數(shù)據(jù)為用戶推薦適當(dāng)?shù)臅_@些子模型使用的具體的用戶特征數(shù)據(jù),可能分別是該訪問用戶的所有用戶特征數(shù)據(jù)的一個特定部分。這些不同的子模型也可以視為同一個當(dāng)前用戶模型的不同功能單元。
步驟s103,實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供 的所述個性化推薦信息、所述訪問用戶作出反饋操作的所述個性化推薦信息以及所做的反饋操作,并形成新增用戶模型訓(xùn)練條目。
本步驟用于搜集用戶訪問、向用戶提供個性化推薦信息以及用戶對個性化推薦信息進行反饋這一完整的訪問-推薦過程形成的所有相關(guān)內(nèi)容,包括:個性化推薦的原始依據(jù),即用戶特征數(shù)據(jù);為所述訪問用戶提供的個性化推薦信息;對個性化推薦的反饋,即所述訪問用戶對何種個性化推薦信息作出了反饋以及具體作出何種反饋。最終將這些內(nèi)容組合形成數(shù)據(jù)記錄。一次訪問-推薦過程形成的所述數(shù)據(jù)記錄可以采用不同的具體形式記錄。例如,可以記錄為一個完整的數(shù)據(jù)包,發(fā)送到后臺,由后臺服務(wù)器根據(jù)模型訓(xùn)練的需求從中抽取出相關(guān)數(shù)據(jù)形成多條新增用戶模型訓(xùn)練條目。當(dāng)然,也可以直接形成新增用戶模型訓(xùn)練條目并發(fā)送??傊?,需要根據(jù)用戶模型訓(xùn)練的需要以適當(dāng)?shù)姆绞剿鸭徒馕鲆淮卧L問-推薦過程形成的數(shù)據(jù)記錄。
所述新增用戶模型訓(xùn)練條目,作為后續(xù)的用戶模型訓(xùn)練的訓(xùn)練素材。根據(jù)需要,所搜集的信息還可以進一步包括獲取該記錄的時間點、以及資源位信息,所述獲取該記錄的時間點,即記錄形成該新增的用戶模型訓(xùn)練條目的信息形成時間;所述資源位信息,即記錄相關(guān)信息所在的位置,例如,某個具體的個性化推薦信息在瀏覽器的頂部或者下部,或者側(cè)欄,等等,這些信息對于用戶的反饋行為也有重要影響。
實現(xiàn)本步驟,需要在供訪問用戶使用的瀏覽器或者app中植入程序,該程序隨時搜集所有向用戶提供的個性化推薦信息以及用戶對個性化推薦信息的反饋操作,將這些信息和先前作為個性化推薦信息已經(jīng)獲得的用戶特征數(shù)據(jù)對應(yīng),并通過網(wǎng)絡(luò)傳送到訓(xùn)練用戶模型的服務(wù)器一端。具體使用的植入程序可以根據(jù)不同環(huán)境采用不同的類型,例如,采用javascript腳本程序在瀏覽器中對通過瀏覽器提供的各種信息以及通過瀏覽器界面發(fā)生的各種操作進行記錄。
所述訪問用戶的反饋操作,包括訪問用戶對所述個性化推薦信息作出的各種方式的反饋,例如:點擊,訪問,點贊,收藏,預(yù)定,購買等操作。這些操作反應(yīng)了訪問用戶對不同的個性化推薦信息的關(guān)心程度的差異,這些差異對于調(diào)整向用戶推薦的個性化信息有重要意義。
記錄所述訪問用戶作出反饋操作的所述個性化推薦信息的方法,可以是在這些信息上加上特定標(biāo)識,即,在這些個性化推薦信息的記錄上加上表示對其 發(fā)生了反饋操作的標(biāo)識,一般稱為打標(biāo);例如,在記錄表格中對應(yīng)每個性化推薦信息設(shè)置有標(biāo)識是否在其上發(fā)生了反饋操作的字段,這個字段也可以直接記錄發(fā)生的反饋操作是什么,通過這種記錄方式,就在記錄個性化推薦信息的同時對訪問用戶的反饋進行了記錄。
所述將為訪問用戶的一次訪問-推薦過程形成的上述內(nèi)容形成新增用戶模型訓(xùn)練條目,具體可以采用多種方式,一種比較簡單的優(yōu)選方式是,將這些內(nèi)容以固定的格式形成日志記錄,并隨時以日志方式發(fā)送,該日志的接收方根據(jù)日志格式的規(guī)定,將其還原為表格形式或其他數(shù)據(jù)存儲形式,并根據(jù)用戶模型訓(xùn)練的需要進行解析,抽取出一個或者若干個用戶模型訓(xùn)練條目,該用戶模型訓(xùn)練條目中記錄的用戶特征數(shù)據(jù),可以作為模型訓(xùn)練的輸入數(shù)據(jù),該用戶模型訓(xùn)練條目記錄的個性化推薦信息中,該訪問用戶沒有做出反饋的,可以作為用戶訓(xùn)練的負(fù)樣本,該訪問用戶做出反饋的,可以作為用戶訓(xùn)練的正樣本。
步驟s104,將所述新增用戶模型訓(xùn)練條目加入訓(xùn)練樣本集。
本步驟中,將前一步驟形成的新增用戶模型訓(xùn)練條目加入訓(xùn)練樣本集。所謂訓(xùn)練樣本集,即用于用戶模型訓(xùn)練的樣本數(shù)據(jù)的集合;對用戶模型進行訓(xùn)練需要搜集大量的用戶模型訓(xùn)練條目,從大量的樣本數(shù)據(jù)中才能實現(xiàn)對用戶模型的有意義的調(diào)整,這些訓(xùn)練樣本不斷積累,并不斷用于用戶模型訓(xùn)練,則最終訓(xùn)練獲得的用戶模型就會更為精確。
在實際實現(xiàn)中,新增用戶模型訓(xùn)練條目是通過每一次訪問用戶的訪問過程中形成的所有訪問相關(guān)數(shù)據(jù),一次次累計起來,通過不斷積累用戶模型訓(xùn)練條目,事實上獲得了大數(shù)據(jù)的效果。
所述訓(xùn)練樣本集,存儲在服務(wù)器一端的訓(xùn)練樣本集數(shù)據(jù)庫中;該訓(xùn)練樣本集根據(jù)模型訓(xùn)練的要求,一般會采用特定的記錄格式;所述將新增的用戶模型訓(xùn)練條目加入訓(xùn)練樣本集的過程,具體包括對原始條目的解析過程,最終將其中的有效數(shù)據(jù)以符合要求的格式存入訓(xùn)練樣本集所在的數(shù)據(jù)庫。
例如,上一步驟形成的新增用戶模型訓(xùn)練條目采用日志形式記錄,則將所述日志發(fā)送到服務(wù)器一端,服務(wù)器一端以預(yù)定的日志格式為依據(jù),對該條日志中記錄的內(nèi)容進行解析,將該用戶模型訓(xùn)練條目中的內(nèi)容按照訓(xùn)練數(shù)據(jù)需要的形成用戶模型訓(xùn)練條目,并記載到訓(xùn)練樣本集數(shù)據(jù)庫的相應(yīng)位置。
步驟s105,以當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練。
所述當(dāng)前訓(xùn)練樣本集,是指在啟動用戶模型訓(xùn)練時搜集到的所有有效的訓(xùn)練樣本組成的數(shù)據(jù)集合。
在本申請?zhí)峁┑募夹g(shù)方案中,訓(xùn)練數(shù)據(jù)通過每次用戶訪問過程不斷積累,其訓(xùn)練樣本集的內(nèi)容是一個動態(tài)累計的過程。因此,每次啟動用戶模型訓(xùn)練時,其訓(xùn)練樣本集都會發(fā)生變化,即樣本數(shù)據(jù)會增加;使用更多的樣本數(shù)據(jù)進行模型訓(xùn)練,則模型的精確度也會提升。當(dāng)然,訓(xùn)練樣本集也可以設(shè)定數(shù)據(jù)淘汰的機制,例如,可以將積累實踐超過一定時間的樣本數(shù)據(jù)淘汰;如某些用戶購物的相關(guān)樣本數(shù)據(jù)以及是一年前的,已經(jīng)無法準(zhǔn)確反映用戶的情況,則這些數(shù)據(jù)可以淘汰掉。
所述用戶模型訓(xùn)練樣本用于用戶模型訓(xùn)練,可以使用將新增的用戶模型訓(xùn)練對原有的用戶模型進行調(diào)整,即進行增量訓(xùn)練,也可以是將新增的用戶模型訓(xùn)練樣本加入原有的用戶模型訓(xùn)練樣本中,形成一個全量的用戶模型訓(xùn)練樣本,并對用戶模型從頭進行訓(xùn)練,即全量訓(xùn)練。
由于啟動用戶模型訓(xùn)練后,訓(xùn)練過程需要較長時間,并且占用計算資源,因此,在通常情況下,一般不會每次出現(xiàn)新增用戶模型訓(xùn)練樣本都啟動一次模型訓(xùn)練,而是在符合一定條件的情況下才啟動所述模型訓(xùn)練。即在本步驟前,增加一個判斷所述新增的用戶模型訓(xùn)練樣本是否達(dá)到預(yù)定的閾值的判斷過程,若是,則進入本步驟,否則,暫時不進入本步驟。
所述一定條件,可以包括積累數(shù)量條件以及積累時間條件,可以考慮上述兩個條件任意一者,也可以同時考慮兩個閾值條件。
例如,在一個不斷產(chǎn)生交易的電商平臺中,可以確定適當(dāng)?shù)臅r間閾值,例如24小時,當(dāng)該時間閾值到達(dá)后,則啟動新一輪用戶模型訓(xùn)練,將該段時間內(nèi)新增的用戶模型訓(xùn)練樣本用于這一輪訓(xùn)練中。
再如,在一個交易比較少的拍賣平臺中,可以確定適當(dāng)?shù)臄?shù)量閾值,當(dāng)新增的用戶模型訓(xùn)練樣本的條目積累數(shù)量超過該閾值時,則啟動新一輪的用戶模型訓(xùn)練,并將新增的用戶模型訓(xùn)練樣本用于這一輪訓(xùn)練中。
類似的,對于某個平臺,可以同時設(shè)置積累時間閾值和積累數(shù)量閾值,兩者都達(dá)到條件,則啟動用戶模型訓(xùn)練;或者,兩者任意一個達(dá)到條件,則啟動用戶模型訓(xùn)練。
所述用戶模型訓(xùn)練,在現(xiàn)有技術(shù)下可以采用多種方式實現(xiàn),主要是通過機 器學(xué)習(xí)方法實現(xiàn)用戶模型訓(xùn)練,具體采用的機器學(xué)習(xí)方法例如可以是邏輯回歸方法或者梯度提升決策樹方法。以下以邏輯回歸方法對用戶模型訓(xùn)練過程做簡要說明。
所述邏輯回歸方法包括:訓(xùn)練數(shù)據(jù)收集,特征提取,特征篩選,模型訓(xùn)練。
所述訓(xùn)練數(shù)據(jù)收集即前述步驟形成的用戶模型訓(xùn)練樣本集。
所述特征提取,即根據(jù)上述訓(xùn)練樣本集中的數(shù)據(jù),收集與擬合目標(biāo)相關(guān)的各種數(shù)據(jù)。
所述特征篩選,用相關(guān)性衡量方法衡量特征(本實施例中來自用戶特征數(shù)據(jù))與擬合目標(biāo)之間的相關(guān)性程度,并過濾相關(guān)性小于給定閾值的特征;例如,本實施例用于服裝電商,可以根據(jù)訓(xùn)練樣本中的已知數(shù)據(jù),衡量用戶的特定年齡、性別特征與推薦服裝品牌之間的相關(guān)性,若相關(guān)性達(dá)到預(yù)設(shè)的閾值要求,則將年齡,性別特征作為與服裝品牌相關(guān)的特征。
所述模型訓(xùn)練階段,基于前述用戶模型訓(xùn)練數(shù)據(jù),對具有相關(guān)性的用戶數(shù)據(jù)擬合回歸模型,使得根據(jù)回歸模型得到的預(yù)測值與訓(xùn)練數(shù)據(jù)中的目標(biāo)值的差距最小。即:通過不斷調(diào)整相關(guān)參數(shù),使擬合獲得的預(yù)測值(即本實施例中的個性化推薦信息)與用戶模型訓(xùn)練數(shù)據(jù)中的目標(biāo)值(即用戶做出反饋的個性化推薦信息)盡可能一致。
除了上述邏輯回歸方法外,還可以采用梯度提升決策樹方法。
上述用戶模型訓(xùn)練方法均采用現(xiàn)有技術(shù)下成熟的算法,不屬于本發(fā)明的獨創(chuàng)性部分,在此不予以詳細(xì)描述。
步驟s106,所述用戶模型訓(xùn)練完成后,將所獲得的更新的用戶模型作為當(dāng)前用戶模型。
在前一步驟完成用戶模型訓(xùn)練后,所獲得的用戶模型相比原先使用的用戶模型,就是更新的用戶模型;該更新的用戶模型可以馬上替代原先的用戶模型作為當(dāng)前用戶模型使用。當(dāng)執(zhí)行所述步驟s102時,所述當(dāng)前用戶模型就是經(jīng)過本次更新的用戶模型。
采用本方法,可以一邊積累數(shù)據(jù)一邊進行模型更新,并在模型更新后立刻投入使用,繼而在新的用戶模型下積累新的用戶模型訓(xùn)練數(shù)據(jù),并周而復(fù)始,實現(xiàn)數(shù)據(jù)積累和用戶模型的相互之間的正向改善循環(huán),迅速提高用戶模型質(zhì)量,提升個性化推薦信息的精確度。
上述第一實施例中,涉及到作為訪問用戶的訪問界面的客戶端,與進行用戶模型訓(xùn)練的服務(wù)器;兩者之間通過網(wǎng)絡(luò)聯(lián)系。所述客戶端提供訪問用戶的身份數(shù)據(jù)等給所述服務(wù)器,所述服務(wù)器根據(jù)這些數(shù)據(jù)查詢存儲的用戶特征數(shù)據(jù)并依據(jù)用戶特征數(shù)據(jù)形成個性化推薦信息,并將個性化推薦信息發(fā)送到客戶端供展示;所述客戶端搜集訪問用戶訪問-推薦過程中獲得的用戶特征數(shù)據(jù)、個性化推薦信息和反饋操作等信息,形成一個新增用戶模型訓(xùn)練條目,并發(fā)送給服務(wù)器,服務(wù)器根據(jù)不斷積累的用戶模型訓(xùn)練條目,在適當(dāng)時機進行用戶模型訓(xùn)練,生成更新的當(dāng)前用戶模型,并開始使用當(dāng)前用戶模型。
所述步驟s103的用戶模型訓(xùn)練條目的形成過程,可以由客戶端完成,也可以是在后臺由服務(wù)器實時搜集每次訪問用戶的訪問過程產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)中,個性化推薦信息在發(fā)送的同時進行搜集,用戶特征數(shù)據(jù)可以在客戶端發(fā)送訪問用戶的身份標(biāo)識時,查詢用戶數(shù)據(jù)庫獲得,訪問用戶對個性化推薦信息的反饋,來自客戶端提供的相關(guān)情況;最終,在服務(wù)器一側(cè)將某一次訪問-推薦過程形成的上述所有數(shù)據(jù)集合為一個數(shù)據(jù)條目,并發(fā)送給存儲訓(xùn)練樣本集的數(shù)據(jù)庫存儲。
本申請第二實施例提供一種實現(xiàn)在線個性化推薦的裝置;請參看圖2。
本實施例提供的在線系統(tǒng)個性化推薦的裝置,包括:用戶特征數(shù)據(jù)提取單元201、個性化推薦信息提供單元202、用戶模型訓(xùn)練條目形成單元203、訓(xùn)練樣本集搜集單元204、用戶模型訓(xùn)練單元205、用戶模型更新單元206。
所述用戶特征數(shù)據(jù)提取單元201,用于接收訪問用戶的訪問請求,并提取所述訪問用戶的用戶特征數(shù)據(jù)。所述用戶特征數(shù)據(jù)至少包括:用戶身份標(biāo)識,并包括下列任何用戶特征數(shù)據(jù)中的至少一個:性別,年齡,交易記錄。
所述個性化推薦信息提供單元202,用于根據(jù)所述訪問用戶的用戶特征數(shù)據(jù),以及當(dāng)前用戶模型,提供個性化推薦信息。所述個性化推薦信息包括下列個性化推薦實體的至少一種:商品、店鋪、品牌。
所述用戶模型訓(xùn)練條目形成單元203,用于實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供的所述個性化推薦信息、所述訪問用戶作出反饋操作的所述個性化推薦信息以及所做的反饋操作,并形成新增用戶模型訓(xùn)練條目。所述訪問用戶作出反饋操作包括如下操作之一:點擊,訪問,點贊,收藏,預(yù)定,購買。所述訓(xùn)練數(shù)據(jù)條目中還可包括以下數(shù)據(jù)的一種或者兩種:獲取該 記錄的時間點、資源位信息。所述用戶模型訓(xùn)練條目優(yōu)選采用日志方式記錄。
所述訓(xùn)練樣本集搜集單元204,用于將所述新增用戶模型訓(xùn)練條目加入訓(xùn)練樣本集。
所述用戶模型訓(xùn)練單元205,用于以當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練。所述用戶模型訓(xùn)練采用機器學(xué)習(xí)方法;具體的機器學(xué)習(xí)方法例如可以采用邏輯回歸方法或者梯度提升決策樹方法。
所述用戶模型更新單元206,用于在所述用戶模型訓(xùn)練完成后,將所獲得的更新的用戶模型作為當(dāng)前用戶模型。
在優(yōu)選實施方案中,該在線系統(tǒng)個性化推薦的裝置還包括閾值判斷單用,用于判斷所述新增的用戶模型訓(xùn)練樣本是否達(dá)到預(yù)定的閾值;若是,則啟動所述用戶模型訓(xùn)練單元205進行用戶模型訓(xùn)練。
本申請第三實施例提供一種電子設(shè)備,所述電子設(shè)備包括:
顯示器;
處理器;
存儲器,用于存儲實現(xiàn)在線系統(tǒng)個性化推薦的方法的程序,該設(shè)備通電并運行該在線系統(tǒng)個性化推薦的方法的程序后,執(zhí)行下述步驟:
接收訪問用戶的訪問請求,并提取所述訪問用戶的用戶特征數(shù)據(jù);
根據(jù)所述訪問用戶的用戶特征數(shù)據(jù),以及當(dāng)前用戶模型,提供個性化推薦信息;
實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供的所述個性化推薦信息、所述訪問用戶作出反饋操作的所述個性化推薦信息以及所做的反饋操作,并將為訪問用戶的一次訪問-推薦過程形成的上述內(nèi)容組合為一條新增的用戶模型訓(xùn)練條目;
將所述新增的用戶模型訓(xùn)練條目加入訓(xùn)練樣本集;
以當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練;
所述用戶模型訓(xùn)練完成后,將所獲得的更新的用戶模型作為當(dāng)前用戶模型。
本申請第四實施例提供一種實現(xiàn)上述第一實施例方法的在線個性化推薦的系統(tǒng);請參看圖3。
所述在線個性化的系統(tǒng),包括在線子系統(tǒng)401、離線子系統(tǒng)402。
所述在線子系統(tǒng)401,用于接收用戶的訪問請求,并提取用戶特征數(shù)據(jù),并根據(jù)所提取的用戶特征數(shù)據(jù)以及當(dāng)前用戶模型,向提出訪問請求的用戶提供個性化推薦實體;以及,實時搜集所述訪問用戶的用戶特征數(shù)據(jù)、為所述訪問用戶提供的所述個性化推薦信息、所述訪問用戶對所述個性化推薦信息的反饋信息,形成新增的用戶模型訓(xùn)練條目并發(fā)送;以及,接收所述離線子系統(tǒng)提供的更新的用戶模型。
所述在線子系統(tǒng)實現(xiàn)實時在線的功能,包括界面展示以及客戶端的實時數(shù)據(jù)搜集等,本系統(tǒng)強調(diào)對所有訓(xùn)練數(shù)據(jù)的實時搜集,一次性完整搜集相關(guān)數(shù)據(jù)形成用戶模型訓(xùn)練條目,這樣就可以避免離線搜集數(shù)據(jù)需要訪問多個數(shù)據(jù)庫以及不能及時搜集到完整數(shù)據(jù)的弊端。在線子系統(tǒng)除了客戶端外,可以包括通過網(wǎng)絡(luò)與其連接的服務(wù)器。
在優(yōu)選的方案中,所述在線子系統(tǒng)401形成的用戶模型訓(xùn)練條目以日志形式記錄并發(fā)送。
所述離線子系統(tǒng)402,接收所述在線子系統(tǒng)401發(fā)送的新增的用戶模型訓(xùn)練條目,并將所述新增的用戶模型訓(xùn)練條目加入當(dāng)前訓(xùn)練樣本集;采用所述當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練,將訓(xùn)練完成獲得的更新的用戶模型作為當(dāng)前用戶模型向外發(fā)送。
所述離線子系統(tǒng)將所述新增的用戶模型訓(xùn)練條目加入當(dāng)前訓(xùn)練樣本集之后,隨時判斷所述新增的用戶模型訓(xùn)練樣本是否達(dá)到預(yù)定的閾值;若是,則開始所述采用所述當(dāng)前訓(xùn)練樣本集進行用戶模型訓(xùn)練的過程。
該離線子系統(tǒng)402不處理在線工作,隨時可以根據(jù)需要啟動用戶模型訓(xùn)練,不影響在線系統(tǒng)的工作。
本申請雖然以較佳實施例公開如上,但其并不是用來限定本申請,任何本領(lǐng)域技術(shù)人員在不脫離本申請的精神和范圍內(nèi),都可以做出可能的變動和修改,因此本申請的保護范圍應(yīng)當(dāng)以本申請權(quán)利要求所界定的范圍為準(zhǔn)。
在一個典型的配置中,計算設(shè)備包括一個或多個處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲器(rom)或閃存(flashram)。內(nèi)存是計算機可讀介質(zhì)的示例。
1、計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機存取存儲器(sram)、動態(tài)隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括非暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。
2、本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。