專利名稱:一種基于用戶行為的電子商務信息推薦方法與裝置的制作方法
技術領域:
本申請涉及電子商務信息推薦技術領域,尤其涉及一種基于用戶行為的電子商務信息推薦方法與裝置。
背景技術:
隨著互聯網技術的發(fā)展,電子商務蓬勃興起。電子商務是利用計算機技術、網絡技術和遠程通信技術,使商務交易中的買賣雙方在不需謀面的情況下實現各種商貿活動。要實現商貿交易,買方必須預先獲知商品的內容信息以便決策是否購買該商品。商品內容信息包括商品所屬行業(yè)類目、商品的提供商、商品價格以及與該商品相關的資訊信息等。在電子商務信息交易平臺上,獲知所述內容信息的方式主要有兩種一種是用戶(買方)主動搜索方式,即用戶在明確自己的購買需求后,將需求以關鍵詞的形式體現出來,然后利用該關鍵詞在海量的多樣性數據中檢索,從而獲得需要的內容信息;另一種是用戶被動接受型,即賣方通過電子商務交易平臺向用戶推薦商品的內容信息,用戶被動接受賣方推薦的商品內容信息后,在該內容信息的導引下購買相關產品。對于第二種方式,商貿交易的賣方為了提高交易成功率,往往不會將自己的所有信息直接推薦給用戶,而是首先分析用戶過去的行為建立用戶偏好數據,然后根據用戶偏好針對性地推薦用戶可能感興趣的特定信息。這種推薦方式在電子商務信息交易中能顯著提高用戶體驗,增加賣家曝光的精準度,能有效引導用戶迅速成為買家,從而降低交易成本。但是,電子商務信息的信息推薦者進行用戶偏好分析時獲取的用戶歷史行為數據可能存在偏差、錯誤,甚至包括以用戶名義惡意引導消費傾向的作弊數據,建立在這些數據基礎上的分析結果必然不能真實地反映用戶偏好特點,從而導致推薦內容信息偏離用戶需求,推薦效果受到影響。另外,由于電子商務網站的信息訪問量特別巨大,電子商務網站服務器中存在海量的用戶行為數據,針對海量用戶行為數據分析得到用戶偏好數據對推薦系統(tǒng)自身處理能力是一種嚴峻考驗,海量的用戶行為數據減緩了推薦系統(tǒng)的分析處理速度。
發(fā)明內容
有鑒于此,本申請的發(fā)明目的在于提供一種基于用戶行為的電子商務信息推薦方法與裝置,通過對用戶行為數據的優(yōu)化,一方面濾除可能存在的“偽數據”以校正用戶偏好數據,從而確保根據用戶偏好數據推薦的內容信息符合用戶的真實偏好;另一方面減少用于用戶偏好分析的數據量以提高偏好數據的分析速度,從而確保用戶快速的獲取到推薦的內容信息。本申請?zhí)峁┑幕谟脩粜袨榈碾娮由虅招畔⑼扑]方法包括統(tǒng)計預設時期內用戶行為類型和各行為類型對應的用戶行為的頻率;判斷用戶行為類型數是否超過預設類型閥值,如果是,則保留小于等于預設類型閥值數的用戶行為類型;和/或,判斷各用戶行為的頻率是否超過預設頻率閥值,如果是,則將預設頻率閥值作為該用戶行為的頻率;
根據上述處理后的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到用戶偏好數據,所述用戶偏好數據為各內容信息的頻率分布;利用用戶偏好數據向用戶推薦內容信息。本申請還提供了一種基于用戶行為的電子商務信息推薦裝置,該裝置包括統(tǒng)計模塊、判斷模塊、偏好分析模塊和信息推薦模塊,其中所述統(tǒng)計模塊,用于統(tǒng)計預設時期內的用戶行為類型和各行為類型對應的用戶行為的頻率;所述判斷模塊,用于判斷用戶行為類型數是否超過預設類型閥值,如果是,則保留小于等于預設類型閥值數的用戶行為類型;和/或,判斷各用戶行為的頻率是否超過預設頻率閥值,如果是,則將預設頻率閥值作為該用戶行為的頻率;所述偏好分析模塊,用于根據上述處理后的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到用戶偏好數據,所述用戶偏好數據為各內容信息的頻率分布;所述信息推薦模塊,用于利用用戶偏好數據向用戶推薦內容信息。本申請的技術方案通過判斷用戶行為類型數與用戶行為的頻率是否符合預設閥值的方式對用戶的歷史行為數據進行優(yōu)化,在該優(yōu)化處理后的用戶行為數據基礎上分析得到用戶偏好,然后根據該偏好向用戶推薦相應的內容信息。與現有技術相比,本申請的優(yōu)化處理過程排除了用戶行為數據中的惡意行為、作弊行為等“偽數據”,使得根據該優(yōu)化數據進行的偏好分析結果更真實地反映了用戶的偏好特點,進而使得根據該用戶偏好進行的信息推薦的推薦效果更好,提高了電子商務信息的交易成功率。另外,由于根據偏好分析結果推薦的信息能夠符合用戶的實際需求愿望,這樣用戶只需根據電子商務交易平臺推薦的信息完成交易即可,而不必再反復查找其所需的內容信息,降低了反復查找內容信息給電子商務平臺帶來的訪問壓力。并且,由于本申請的優(yōu)化處理過程去除了用戶行為數據中的大量“偽數據”,減少了用于信息推薦分析的數據量,提高了信息推薦分析的速度,能夠更加快速的獲取到推薦信息。
圖I為本申請的方法的實施例一的流程圖;圖2為本申請的方法的實施例二的流程圖;圖3為本申請的方法的實施例三的流程圖;圖4為本申請的方法的實施例四的流程圖;圖5為本申請的方法的實施例五的流程圖;圖6為本申請的方法的實施例六的內容信息推薦的流程圖;圖7為本申請的方法的實施例七的內容信息推薦的流程圖;圖8為本申請的裝置的實施例八的組成框圖。
具體實施例方式本申請通過統(tǒng)計用戶行為類型和用戶行為類型對應的用戶行為的頻率,將該統(tǒng)計結果與預設閥值進行比較,以濾除用戶行為數據中的惡意行為、作弊行為等“偽數據”,然后在上述經過優(yōu)化處理后的用戶行為數據基礎上進行用戶偏好分析,根據分析得到的用戶偏好特點實現相應內容信息的推薦。為使本領域技術人員進一步了解本申請的特征及技術內容,下面結合附圖和實施例,對本申請的技術方案進行詳細描述。實施例一電子商務信息交易平臺是虛擬的市場,買賣主體不需要面對面磋商即可完成交易。交易的成功與否取決于交易中買方的求購愿望與賣方的供給內容間的匹配程度。賣方主動提供商品信息固然可以增加賣家的曝光率,提高交易成功概率,但是,如果賣方主動供給內容與買方需求偏差太大,賣方即便使出“渾身解數”,可能仍將甚微收獲。因此,為提高交易成功率,賣家的主動推送行為往往需要建立在對用戶的分析基礎上,這種分析需要預先收集大量的用戶信息,包括用戶的歷史行為數據、用戶屬性數據等內容,利用這些用戶訓練得到某個內容信息的傾向預測數據,進而將某個特定用戶的用戶偏好與該傾向預測數據進行匹配以決定如何向用戶推薦相應的內容信息。分析用戶偏好通常建立在用戶的歷史行為數據基礎上,用戶歷史行為反映了用戶的求購愿望。比如,某個用戶行為在一段時間內集中高頻出現,該行為指向的內容信息也集中出現在某些商品,則說明該用戶在該時期內的偏好就是這些商品,該用戶有極大可能會購買該商品,如果信息提供商能夠提供與該偏好匹配的產品信息,必然增大了交易成功率。然而,正如背景技術所言,有些用戶的歷史行為數據可能不真實,是“偽數據”,比如現實中可能存在這樣的情形在某個時期內大部分用戶均關注某一產品,則說明該產品是該時段內的新潮產品,由于用戶的個人偏好大多受大眾消費趨勢的影響,那么單個用戶的偏好將轉向該商品信息,從而導致從事該商品交易的賣家利潤可觀?;诶麧櫟臓帄Z,有些賣家便抓住用戶的這種心理,以用戶名義在某時期內大量重復某些行為,以圖誘導消費趨勢。這樣用戶的歷史行為數據中將出現“作弊數據”,建立在這些數據基礎上的用戶偏好分析將“失真”,進而導致推薦的內容信息與用戶的真實需求偏離,降低交易成功率。另外,由于分析用戶偏好需要建立在海量的用戶的歷史行為數據基礎上,再加上某些賣家惡意以用戶名義在某時期內大量重復某些行為,更進一步的增加了進行用戶偏好分析所依據的歷史行為數據量,導致用戶偏好的分析速度緩慢。本申請的實施例提供了一種基于用戶行為的電子商務信息推薦方法,該方法對用戶歷史行為數據進行優(yōu)化處理以濾除“偽數據”。參見附圖1,本實施例提供的一種基于用戶行為的電子商務信息推薦方法包括步驟SlOl :統(tǒng)計預設時期內用戶行為類型和各行為類型對應的用戶行為的頻率;獲取用戶的偏好數據需要根據用戶的歷史行為進行分析,分析的前提是要選擇一個參考時間段,即設定一個預設時期,該預設時期的長短將影響到用戶偏好的分析結果預設時期長度不同,選擇的用戶行為類型的數量和用戶行為的頻率便不同,由此得出的用戶偏好也可能大不相同,一般而言,該預設時期不宜選擇過長,過長則無法準確反應用戶偏好的遷移特性和細微變化,也不宜選擇過短,過短則可能導致用戶的偏好不具有代表性;預設時期確定后,將統(tǒng)計分析該預設時期內的用戶行為類型以及該行為類型對應的用戶行為的頻率,這里的用戶行為類型包括但不限于檢索、瀏覽、點擊、保存行為,用戶行為的頻率是某種用戶行為類型在該預設時期內發(fā)生的次數,用戶行為類型與用戶行為頻率對應;為后面更見形象的說明起見,此處假設在預設時期T內統(tǒng)計得到五種行為類型,分別為actl、act2、act3、act4、act5,每種行為類型對應的用戶行為的頻率分別為fl、f2、f3、f4、f5,由于“偽數據”的存在,上述五種用戶行為類型可能是虛假的,不代表用戶真實行為。步驟S102 :判斷用戶行為類型數是否超過預設類型閥值,如果是,則保留預設類型閥值數的用戶行為類型;上面曾提到用戶行為可能包含有作弊行為,這些作弊行為在建立用戶行為偏好數據時需要予以剔除,否則將影響到根據偏好數據進行推薦的推薦效果;進行作弊數據剔除的依據是預設類型閥值,該預設閥值可以是通過分析一定時期內大量的用戶行為得出的統(tǒng)計數據,也可以是根據實際操作情況得出的一個經驗估計值,在此基礎上根據推薦效果進行修正調整;上述舉例中,假設預設類型閥值Θ actth = 4,那么上述五種行為類型就超過了該預設閥值指定的數量,說明該用戶行為類型中包含有“偽行為”,這時則將上述的五種用戶行為類型按照預設類型閥值數進行保留,即只留下四種用戶行為類型,該四種用戶行為類型分別為act2、act3、act4、act5,由于用戶行為類型與用戶行為的頻率相聯系,因而用戶行為的頻率也保留下f2、f3、f4、f5四個對應的頻率值,需要說明的是這里過濾掉的是actl行為類型,實際上,也可以過濾掉其他行為類型,只要剩余的用戶行為類型數量不超過預設類型閥值即可;然而,盡管這種濾除操作并沒限定濾除對象,但在一些情況下結合其他因素進行濾除則更為合理,比如,在用戶行為類型數超過預設類型閥值時,優(yōu)先考慮濾除時間最早的行為類型,因為該類型對用戶偏好的影響可能已經“過時”,也可以優(yōu)先考慮將頻率最高的用戶行為對應的用戶行為類型濾除,因為該頻率最高的用戶行為可能恰巧代表的是作弊行為。該優(yōu)選實施例的推廣應用即為在用戶行為類型數超過預設類型閥值時,保留低于預設頻率閥值的用戶行為對應的用戶行為類型,從而使得用戶行為類型數不超過預設類型閥值,通過這兩種方式可以有效慮除作弊行為。步驟S103 :根據上述處理后的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到用戶偏好數據,所述用戶偏好數據為各內容信息的頻率分布;用戶的每個行為均對應一個或者多個行為對象,該行為對象即是用戶行為指向的內容信息,該內容信息可以是單個信息,也可以是復合信息,比如用戶在網絡中搜索了一件商品,用戶行為類型則為“搜索行為”,該“搜索行為”指向的內容信息即是該商品,該商品的屬性可以包括商品價格、商品形狀、商品所屬行業(yè)類目等中的一種,也可以是上述商品屬性中的幾種,甚至還可進一步延伸包括商品提供商、提供商的資質情況等;在上述的舉例中,假設上述每種用戶行為類型指向的內容信息分別是act2指向三種內容信息Cl、C2、C3,該三種內容信息出現的頻率分別為f21、f22、f23,此三種頻率的總和為f2,表示為 act2 (Cl [f21]、C2 [f22]、C3 [f23]) ;act3 (Cl [f31]、C2 [f32]、C3 [f33]、C4 [f34]、C5 [f35])、act4 (C2 [f42]、C3 [f43]、C5 [f45])、act5 (C2 [f52]、C3 [f53]、C4 [f54]、C5 [f55]);得到上述數據后,以用戶行為指向的內容信息為依據繪制用戶偏好數據曲線,將該曲線頂點(頻率值最大)對應的內容信息作為用戶偏好上述數據共出現Cl、C2、C3、C4、C5五種內容信息,他們的頻率值分別為 f21+f31、f22+f32+f42+f52、f23+f33+f43+f53、f34+f54、f35+f45+f55,選取其中頻率值最高的對應的內容信息作為該用戶的用戶偏好數據,也可以先設定一個預設值,將超過該預設值的對應的多個內容信息作為該用戶的用戶偏好數據。步驟S104 :利用用戶偏好數據向用戶推薦內容信息。上述步驟中已經分析出了用戶的偏好數據,則根據該偏好數據即可進行內容推薦。本申請的實施例通過將用戶的歷史行為類型和該類型對應的頻率與預設閥值進行比較,排除用戶歷史行為中的作弊數據、惡意數據,在該處理后的數據基礎之上進行用戶偏好分析,根據分析得到的用戶偏好數據實現內容信息的推薦。與現有技術相比,本實例建立用戶偏好數據時對用戶行為數據進行了優(yōu)化處理,消除了可能的“偽數據”,使得根據較為準確的用戶行為數據得到的用戶偏好能真實地反映用戶的實際需求愿望,進而獲得較好的推薦效果,提高電子商務信息交易的成功率。實際應用中,由于推薦的商品信息能夠符合用戶的實際需求愿望,這樣用戶只需根據電子商務交易平臺推薦的信息完成交易即可,而不必再反復查找其所需的商品信息,降低了反復查找商品信息給電子商務平臺帶來的訪問壓力。另外,由于本申請的優(yōu)化處理過程去除了用戶行為數據中的大量“偽數據”,減少了用于信息推薦分析的數據量,提高了信息推薦分析的速度,能夠更加快速的獲取到推薦信息。上述實施例中,僅僅從用戶行為類型的角度對用戶行為數據進行了優(yōu)化,實際上,還可以對用戶行為的頻率進行優(yōu)化處理,因為在預設時間段內某個用戶行為的頻率也可能出現異常,比如“畸高”或“畸低”,這些情形可能反映出該數據是作弊數據,也應當予以剔除。因此,上實施例的步驟S102之后還可以增加下述步驟判斷各用戶行為的頻率是否超過該用戶行為的預設頻率閥值,如果是,則將預設頻率閥值作為該用戶行為的頻率;經過上述步驟后的用戶行為類型和行為頻率更加得到優(yōu)化,建立在此基礎上的用戶偏好更加準確進而取得更好的推薦效果。值得注意的一點是,上述步驟除可以和實施例一中步驟S102以并列方式進行外,還可以替代步驟S102,同樣能達到改善推薦效果的目的。實施例二上述實施例雖然通過與預設類型(頻率)閥值的匹配濾除了用戶行為中的“偽數據”,經過濾除處理后的用戶行為數據已能較好地反映用戶的真實偏好。但是,在預設時期T內用戶行為的發(fā)生時間往往不同,發(fā)生時間的差異對分析用戶偏好的影響也不同,一般而言,越是靠近該預設時期T的結束時刻發(fā)生的用戶行為越接近用戶的真實偏好,越是靠近該預設時期T的起始時刻發(fā)生的用戶行為越偏離用戶的真實偏好。因此,有必要在上述實施例的基礎上對用戶行為數據進行時間影響消除處理,實現這種處理的具體方式很多,只要能反映出發(fā)生時間靠后的用戶行為對用戶偏好建立的影響大,發(fā)生時間靠前的用戶行為對用戶偏好建立的影響小,即可實現本申請的發(fā)明目的。在實施例一的基礎上增加上述處理步驟后的方法構成本申請的又一個實施例,參見附圖2,該實施例與實施例一除在步驟S102、S103之間添加下述內容外,其他步驟相同。本實施例給出的時間影響消除處理的步驟包括對用戶行為進行時間影響消除處理,該處理步驟包括對用戶行為賦予時間權重值,所述時間權重值為越靠近預設時期結束時刻權重值越高,越靠近預設時期的起始時刻權重值越低。本實施例對用戶行為數據進行了時間影響消除處理,使得以用戶行為為基礎構建用戶偏好的準確度進一步提高,進而推薦效果得到更好改善。盡管時間影響消除的具體實現方式較多,但本申請的實施例優(yōu)選按照如下的方式計算時間權重值時間權重值=1/log(Doff)式中Dtjff為用戶行為發(fā)生時刻到預設時期結束時刻的時間差。用戶行為被賦予權重值后,用戶行為的頻率值乘以相應的時間權重值以修正用戶行為頻率,按照這種方式優(yōu)化后的用戶行為數據將更能準確地反映用戶在預設時期內的偏好特征。實施例三用戶行為指向的內容信息是分析用戶偏好的基礎,但是,用戶在進行某些用戶行為時指向的內容信息受到用戶知識能力的限制,可能并不準確,由此可能導致在此基礎上的分析出現偏差。比如,用戶實施了一個搜索行為,該搜索行為指向“關鍵詞1”,這個“關鍵詞I”是用戶根據自己掌握的知識所確定的關鍵詞,但該關鍵詞可能并不準確,甚至有歧義、錯誤,此刻則需進行“偏差校正”,校正后的數據才能用于進行用戶偏好分析。在實施例一的基礎上增加上述處理步驟后的方法可構成本申請的再一個實施例,參見附圖3,該實施例與實施例一除在步驟S102、S103之間添加下述內容外,其他步驟相同。本實施例給出的內容/[目息偏差校正方法包括對內容信息進行標準化處理,該處理步驟包括根據標準產品單元和行業(yè)知識庫校正內容信息。標準產品單元SPU(Standard Product Unit)是一組可復用、易檢索的標準化信息的集合,該集合描述了 “產品”的特性,存儲了產品的基本信息;行業(yè)知識庫是某行業(yè)的“知識”的集合,這些“知識”包括行業(yè)標準、行業(yè)業(yè)務模型、行業(yè)業(yè)務數據與信息模型、行業(yè)信息化全景圖、行業(yè)領域構件、行業(yè)采購鏈、行業(yè)上下游產品等內容,該知識庫涵蓋的內容相當豐富。用戶行為指向的內容信息提取出來后,將其與標準產品單元和行業(yè)知識庫進行匹配比較,如果兩者不一致,則用標準產品單元和行業(yè)知識庫中的標準語言描述該內容信息,經過這樣標準化處理后的內容信息更加便于后續(xù)步驟的識別和處理,對于快速、準確地完成用戶偏好分析具有良好效果。實施例四前述實施例選取了一個參考時間周期即預設時間T,通過對該時期內的用戶行為類型和用戶行為的頻率進行分析得到用戶偏好數據。但是,用戶在該時間周期內可能發(fā)生偏好遷移(變化),也就是說,用戶可能在一個時段內對內容信息I感興趣,在另一個時段內可能對與內容信息I相關聯的內容信息2感興趣(內容信息I與內容信息2形成遷移對),這種情形即是用戶偏好的遷移特性,在分析具有偏好遷移特性的用戶行為時,需要注意的是只有遷移對的遷移終點對應的內容信息(內容信息2)才真實地代表用戶當下的興趣,對于遷移對的遷移起點對應的內容信息(內容信息I)表示用戶已經“放棄”該內容信息,對此不再感興趣,因此,應當將遷移終點對應的內容信息作為用戶偏好,并據此進行內容信息的推薦。除用戶偏好發(fā)生遷移的情形外,在預設時期內的某個時段內可能存在用戶對某個內容信息極度感興趣,用戶行為頻率極大,這種情形構成用戶偏好的突發(fā)特性,該特性說明該用戶的偏好并不穩(wěn)定,僅代表該用戶的激情偏好,而不能代表整個預設時期的偏好,因此也應當在分析用戶偏好時予以剔除。與用戶偏好的突發(fā)特性相對應的是用戶偏好的持續(xù)特性,即在一個時段內用戶的偏好集中在某幾個內容信息上,在另一個時段內用戶偏好仍然集中在該幾個內容信息上,這種情形說明該用戶的偏好較為穩(wěn)定,這些用戶行為數據則能較好地反映用戶偏好,根據此類用戶偏好進行的內容信息推薦有極大的可能符合該用戶的需求,進而提高交易成功率。由此,本申請給出了又一個實施例,該實施例中增加將上述突 發(fā)性、遷移性用戶偏好過濾掉、保留下持續(xù)性用戶偏好。本實施例除將實施例一的步驟S103變化為下述內容外,其他步驟相同。參見附圖4,本實施例給出的分析得到用戶偏好數據的步驟包括步驟A :根據用戶行為發(fā)生的時間將處理后的用戶行為類型和用戶行為頻率在預設時期內分成至少兩個等長時段單元;預設時期選取的時段長度越短,用戶偏好的細微程度越大,通過比較不同時段的用戶偏好曲線,即可得到突發(fā)性用戶偏好和遷移性偏好;將預設時期T劃分成至少兩個等長時段單元,根據實際的需要可選擇兩個或多個時段單元,時段單元越多,得到的用戶偏好變化情,也越細微,這里為方便起見,以兩個時段單元為例T1、T2,Τ1+Τ2 = T0步驟B:根據各時段單元內的用戶行為類型和用戶行為頻率分析用戶行為指向的內容信息,得到該時段單元的用戶偏好數據;劃分時段單元后,分別分析Tl、Τ2時段單元的用戶行為類型和用戶行為頻率分析用戶行為指向的內容信息,分析過程可以采取繪制曲線的方式進行以用戶內容信息為橫軸、用戶內容信息出現的頻率為縱軸。步驟C :將各時段單元的用戶偏好數據進行比對以濾除遷移性用戶偏好數據對中的遷遷移起點數據和/或突發(fā)性用戶偏好數據,得到整個預設時期的用戶偏好數據;得到Tl、Τ2這兩個時段的用戶偏好曲線圖后,將兩個曲線圖進行比對分析,將兩個時段中均具有的內容信息作為持續(xù)性偏好數據予以保留,將僅在前一個時段單元中出現的內容信息作為遷移性用戶偏好的遷移起點予以濾除,將僅在后一個時段單元中出現的內容信息作為遷移性用戶偏好的遷移終點予以保留,將在任何一個時段單元中出現的突發(fā)性用戶偏好數據予以濾除,進而得到整個預設時段T的用戶偏好數據。本實施例通過將預設時期進行細分,然后比對細分后的每個時段單元的用戶偏好數據的變化,濾除了遷移性、突發(fā)性用戶偏好數據。這樣得到的用戶偏好更為準確地反映用戶在整個預設時期內的用戶偏好,進而在此用戶偏好數據基礎上進行的信息內容推薦的推薦效果更好。實施例五上述實施例為得到較為準確的用戶行為數據,進行了一系列的優(yōu)化操作,濾除了用戶行為中的“偽數據”,為分析得到準確的用戶偏好奠定了較好的基礎。但是,對于用戶行為指向的內容信息是否準確還待研究,因為分析用戶偏好的落腳點是內容信息,而這些內容信息由電子商務信息賣家提供,賣家為爭奪市場利益、搶占用戶,也會惡意地在內容信息上制造“偽數據”,比如,當內容信息包含產品價格信息時,賣家可能惡意標定低價以打擊對手,或者在壟斷情況下隨意標定高價以攫取更多利潤,這些行為擾亂了電子商務信息交易市場,基于這些“偽”的內容信息進行用戶偏好分析得到的結果可能大為“失真”。為此,有必要對內容信息進行“打假”。在實施例一的基礎上增加上述處理步驟后的方法可構成本申請的又一個實施例,參見附圖5本實施例與實施例一除在步驟S102、S103之間添加下述內容外,其他步驟相同。本實施例給出的排除上述“偽數據”的方法包括
判斷產品標定價格是否在預設價格范圍內,如果否,則將產品價格設置在預設價格范圍內;和/或,判斷產品的所屬行業(yè)與提供該產品的供應商的注冊行業(yè)是否一致,如果否,則將該產品信息濾除。經過本實施例對內容信息的優(yōu)化后,進行用戶偏好分析的數據源更加準確,有利于得到更加有效的用戶偏好數據。實施例六上述幾個實施例所述的方法在得到用戶的偏好數據后,信息推薦步驟的具體實現方法可以采用現有技術?,F有技術通常是將內容信息獨立和分別地進行推薦,這種推薦效果并不好。為此,本申請的實施例提供了一種協同推薦的方法,該方法通過對大量的用戶內容信息分析得到內容信息的群體偏好數據,然后根據用戶偏好數據和群體偏好數據進行內容信息推薦。本實施例除將實施例一的步驟S104變換為下述內容外,其他步驟相同。參見附圖6,本實施例給出的內容信息推薦的步驟包括步驟A’ 選取預設數量的其他用戶組成參考用戶集,計算所述用戶與參考用戶集內各用戶的相似度,將相似度超過預設相似度閥值的用戶組成相似用戶集;根據用戶的歷史行為分析得到用戶偏好,進而依據該用戶偏好向用戶推薦內容信息,固然迎合了用戶的求購愿望,實現了提高交易成功率的目的,但是,實際上每個用戶的用戶偏好都不會局限在以往的用戶偏好上,他的偏好是不斷擴展變化的,而這種擴展變化往往受限于他自身的能力和獲得信息的渠道,導致不能得到較好的擴展,此種情況下,與該用戶具有相似或相同用戶偏好的其他用戶的用戶偏好數據則值得借鑒,因為可以推知他們除具有上述相同的用戶偏好外,還可能在其他方面也具有相同的偏好;基于這種分析,則需要選擇一定數量的用戶組成參考用戶集,計算參考用戶集中的用戶與該用戶的相似度,對相似度超過預設閥值的用戶則構成該用戶的相似用戶集,相似用戶集內的用戶的偏好數據對該用戶具有較高參考價值;需要說明的是計算用戶之間的相似度可以采用多種方法,比如聚類算法,該方法在現有技術中已有大量應用,此處不再贅述。步驟B’ 分析相似用戶集內各用戶的用戶行為得到該相似用戶集的群體偏好數據,所述群體偏好數據為用戶行為指向的內容信息的頻率分布;通過步驟A’獲得相似用戶集后,分析相似用戶集的各用戶的用戶行為得到群體偏好數據,具體的分析方法和前述實施例的方式相同,群體偏好數據是與單個用戶的用戶偏好數據“同質”的概念,只是數據量的不同在數據結果上存在差異,均表示用戶行為指向的內容信息的頻率分布情況。步驟C’ 根據用戶偏好數據和所述群體偏好數據向用戶推薦內容信息。本實施例通過計算相似度,找出與該用戶具有相似特征的其他用戶,并將其他用戶的用戶行為數據作為對該用戶進行內容信息推薦的參考,較好地擴展了向用戶推薦的內容信息,增強了用戶體驗,進一步拓寬了電子商務信息交易的領域和范圍。本實施例在計算得到用戶的相似用戶集時,對“其他用戶”的選取并沒有作特別限定,實際上,由于地理環(huán)境的差異、各地風土人情的不同,同一個地域范圍內用戶的用戶偏好數據可能更具有參考價值,因此,本實施例優(yōu)選按照下面的方式選擇參考用戶集。判斷所述用戶IP地址對應的地域與該用戶注冊的地域是否一致,如果是,則選取所述用戶注冊地域地的其他用戶組成參考用戶集;如果否,則選取所述用戶IP地址對應的地域地的其他用戶組成參考用戶集。通過以用戶登錄地的用戶數據作為分析群體偏好的基礎,不僅由于同一地域的用戶行為數據相比其他地方的用戶行為數據的可參考性更大,使得分析得到的用戶偏好結果更準確,據此進行推薦的推薦效果更好,極大提高了電子商務信息的交易成功率,而且由于采用就近原則,極大方便了用戶在電子商務信息交易完成后盡快獲得相應的產品或服務。實施例七在實施例六中已經提到得到用戶的偏好數據后,信息推薦步驟的具體實現方法可以采用現有技術,也可以采用實施例六所述的協同推薦方法,協同推薦方法將待推薦用戶的自身偏好數據與一定范圍內的群體偏好數據結合起來,擴展了向待推薦用戶推薦的內容信息,這是一種“橫向”擴展,實際上,除橫向擴展方式,本申請還提供一種縱向擴展方式的實施例,即將用戶偏好數據中的多個用戶偏好與預設規(guī)則集進行匹配,將匹配成功的某個或某些偏好作為向用戶推薦內容信息的依據,這種方法稱為聯合推薦方法。本實施例除將實施例一的步驟S104變換為下述內容外,其他步驟相同。參見附圖7,本實施例給出的內容信息推薦的步驟包括步驟A":選取預設數量的用戶組成規(guī)則創(chuàng)建用戶集,分析所述規(guī)則創(chuàng)建用戶集內各用戶的用戶行為得到各用戶的用戶偏好數據,根據各用戶的用戶偏好數據訓練得到規(guī)則集,所述規(guī)則集為所述規(guī)則集為用以預測內容信息推薦的各類用戶偏好的組合規(guī)則集;通過分析用戶的歷史行為得到的用戶偏好數據,大多數情況下這種用戶偏好是復合偏好,也就是說該用戶偏好數據中包含了該用戶在各個層面、各個領域、各的時段的多個偏好,比如產品偏好、供應商偏好、產品詞偏好等,向用戶進行內容信息推薦時盡管可以按照這些所有的偏好向用戶推薦,但是,這種“廣撒網”的方式在某些情況下并不能達到提高交易成功率的目的,反而容易導致用戶在眾多的內容信息中無所選擇,因此,采用少而精、高命中率的方式向用戶推薦內容信息將是一種可取的方式;為了從用戶的眾多偏好中找出“有效”的用戶偏好,需要首先選取一定數量的用戶組成規(guī)則創(chuàng)建用戶集并根據這些用戶的用戶偏好建立規(guī)則集,進而利用該規(guī)則集作為選取用戶偏好的依據;規(guī)則創(chuàng)建用戶集內的各用戶偏好數據的獲取可以采用現有技術的方式得到,也可以按照本申請所提到方法對用戶行為數據優(yōu)化后分析得到;得到各用戶的用戶偏好數據后,將用戶的各個偏好與該偏好對應的頻率組成該用戶的矢量特征組,然后對所有的矢量特征組進行訓練得到規(guī)則集,具體的訓練方式現有技術已公開,這里不再贅述。步驟B":將待推薦用戶的用戶偏好數據與所述規(guī)則集進行匹配,根據匹配成功的偏好數據向待推薦用戶推薦內容信息。獲得到規(guī)則集后,將待推薦用戶的用戶偏好與規(guī)則集中的規(guī)則進行匹配,如果匹配成功則將根據相應的用戶偏好向該用戶推薦內容信息。為了更加清楚的說明上述過程,這里舉例闡釋假設選取的規(guī)則創(chuàng)建用戶集為100個,每個用戶的偏好包括產品、供應商、產品詞、求購、資訊等五個偏好,通過分析100個用戶的歷史行為數據得到了各個用戶的偏好數據,偏好數據包括內容信息和該內容信息的頻率,為了便于比較將頻率進行歸一化處理,該歸一化的基準可以是10次;通過按照現有技術的方法訓練100個用戶的用戶偏好數據得到三條規(guī)則,現在需要向Al、B2、C3三個用戶進行推薦,推薦時將Al的用戶偏好數據與規(guī)則集內的規(guī)則進行匹配,然后按照匹配成功的用戶偏好推薦內容信息。上述過程請參見如下表格
權利要求
1.一種基于用戶行為的電子商務信息推薦方法,其特征在于,該方法包括統(tǒng)計預設時期內的用戶行為類型和各行為類型對應的用戶行為的頻率;判斷用戶行為類型數是否超過預設類型閥值,如果是,則保留小于等于預設類型閥值數的用戶行為類型;和/或,判斷各用戶行為的頻率是否超過預設頻率閥值,如果是,則將預設頻率閥值作為該用戶行為的頻率;根據上述處理后的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到用戶偏好數據,所述用戶偏好數據為各內容信息的頻率分布;利用所述用戶偏好數據向用戶推薦內容信息。
2.根據權利要求I所述的方法,其特征在于,在分析用戶行為指向的內容信息前,所述方法還包括對用戶行為進行時間影響消除處理,該處理步驟包括對用戶行為賦予時間權重值,所述時間權重值為越靠近預設時期結束時刻權重值越高,越靠近預設時期的起始時刻權重值越低。
3.根據權利要求2所述的方法,其特征在于,所述時間權重值按照下述公式得到時間權重值=1/log (Doff)式中Dtjff為用戶行為發(fā)生時刻到預設時期結束時刻的時間差。
4.根據權利要求I所述的方法,其特征在于,在分析用戶行為指向的內容信息前,所述方法還包括對內容信息進行標準化處理,該處理步驟包括根據標準產品單元和行業(yè)知識庫校正內容信息。
5.根據權利要求I所述的方法,其特征在于,所述分析用戶行為指向的內容信息得到用戶偏好數據的步驟包括根據用戶行為的發(fā)生時間將處理后的用戶行為類型和用戶行為的頻率在預設時期內分成至少兩個時段單元;根據各時段單元內的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到該時段單元的用戶偏好數據;根據各時段單元的用戶偏好數據過濾掉遷移性、突發(fā)性偏好數據以得到整個預設時期的用戶偏好數據。
6.根據權利要求I所述的方法,其特征在于,所述內容信息包括產品信息時,則所述分析用戶行為指向的內容信息得到用戶偏好數據的步驟包括判斷產品標定價格是否在預設價格范圍內,如果否,則將產品價格設置在預設價格范圍內;和/或,判斷產品的所屬行業(yè)與提供該產品的供應商的注冊行業(yè)是否一致,如果否,則將該產品信息濾除。
7.根據權利要求I所述的方法,其特征在于,利用用戶偏好數據向用戶推薦內容信息包括選取預設數量的其他用戶組成參考用戶集,計算待推薦用戶與參考用戶集內各用戶的相似度,將相似度超過預設相似度閥值的用戶組成相似用戶集;分析相似用戶集內各用戶的用戶行為得到該相似用戶集的群體偏好數據,所述群體偏好數據為用戶行為指向的內容信息的頻率分布;根據待推薦用戶的用戶偏好數據和所述群體偏好數據向待推薦用戶推薦內容信息。
8.根據權利要求7所述的方法,其特征在于,所述選取預設數量的其他用戶組成參考用戶集包括判斷待推薦用戶的IP地址對應的地域與該用戶注冊的地域是否一致,如果是,則選取待推薦用戶注冊地域地的其他用戶組成參考用戶集;如果否,則選取待推薦用戶的IP地址對應的地域地的其他用戶組成參考用戶集。
9.根據權利要求I所述的方法,其特征在于,利用用戶偏好數據向用戶推薦內容信息包括選取預設數量的用戶組成規(guī)則創(chuàng)建用戶集,分析所述規(guī)則創(chuàng)建用戶集內各用戶的用戶行為得到各用戶的用戶偏好數據,根據各用戶的用戶偏好數據訓練得到規(guī)則集,所述規(guī)則集為用以預測內容信息推薦的各類用戶偏好的組合規(guī)則集;將待推薦用戶的用戶偏好數據與所述規(guī)則集進行匹配,根據匹配成功的偏好數據向待推薦用戶推薦內容信息。
10.根據權利要求I所述的方法,其特征在于,當用戶行為類型數超過預設類型閥值時,保留的用戶行為類型包括頻率小于等于預設頻率閥值的用戶行為對應的用戶行為類型。
11.一種基于用戶行為的電子商務信息推薦裝置,其特征在于,該裝置包括統(tǒng)計模塊、判斷模塊、偏好分析模塊和信息推薦模塊,其中所述統(tǒng)計模塊,用于統(tǒng)計預設時期內的用戶行為類型和各行為類型對應的用戶行為的頻率;所述判斷模塊,用于判斷用戶行為類型數是否超過預設類型閥值,如果是,則保留小于等于預設類型閥值數的用戶行為類型;和/或,判斷各用戶行為的頻率是否超過預設頻率閥值,如果是,則將預設頻率閥值作為該用戶行為的頻率;所述偏好分析模塊,用于根據上述處理后的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到用戶偏好數據,所述用戶偏好數據為各內容信息的頻率分布;所述信息推薦模塊,用于利用用戶偏好數據向用戶推薦內容信息。
12.根據權利要求11所述的裝置,其特征在于,所述裝置還包括時間影響消除模塊,用于在分析用戶行為指向的內容信息前,對用戶行為賦予時間權重值,所述時間權重值為越靠近預設時期結束時刻權重值越高,越靠近預設時期起始時刻權重值越低。
13.根據權利要求11所述的裝置,其特征在于,所述偏好分析模塊包括時段單兀劃分子模塊、偏好分析子模塊和過濾子模塊,其中所述時段單元劃分子模塊,用于根據用戶行為的發(fā)生時間將處理后的用戶行為類型和用戶行為的頻率在預設時期內劃分成至少兩個時段單元;所述偏好分析子模塊,用于根據各時段單元內的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到該時段單元的用戶偏好數據;所述過濾子模塊,用于根據各時段單元的用戶偏好數據過濾掉遷移性、突發(fā)性偏好數據以得到整個預設時期的用戶偏好數據。
14.根據權利要求11所述的裝置,其特征在于,所述裝置還包括相似度計算模塊,用于在選取預設數量的其他用戶組成參考用戶集后,計算待推薦用戶與參考用戶集內各用戶的相似度,將相似度超過預設相似度閥值的用戶組成相似用戶集;則所述偏好分析模塊還用于分析相似用戶集內各用戶的用戶行為得到該相似用戶集的群體偏好數據,所述群體偏好數據為用戶行為指向的內容信息的頻率分布;所述信息推薦模塊,還用于根據待推薦用戶的用戶偏好數據和所述群體偏好數據向待推薦用戶推薦內容信息。
15.根據權利要求11所述的裝置,其特征在于,所述裝置還包括規(guī)則集創(chuàng)建模塊,用于在選取預設數量的用戶組成規(guī)則創(chuàng)建用戶集,調用偏好分析模塊分析所述規(guī)則創(chuàng)建用戶集內各用戶的用戶行為得到各用戶的用戶偏好數據,根據各用戶的用戶偏好數據訓練得到規(guī)則集,所述規(guī)則集為用以預測內容信息推薦的各類用戶偏好的組合規(guī)則集,則所述偏好分析模塊還用于分析規(guī)則創(chuàng)建用戶集內各用戶的用戶行為得到各用戶的用戶偏好數據;所述信息推薦模塊,還用于將待推薦用戶的用戶偏好數據與所述規(guī)則集進行匹配,根
全文摘要
本發(fā)明提供了一種基于用戶行為的電子商務信息推薦方法。該方法包括統(tǒng)計預設時期內用戶行為類型和各行為類型對應的用戶行為的頻率;判斷用戶行為類型數和用戶行為的頻率是否超過預設閥值,如果是,則將超過的數據過濾掉;根據上述處理后的用戶行為類型和用戶行為的頻率分析用戶行為指向的內容信息,得到用戶偏好數據,所述用戶偏好數據為各內容信息的頻率分布;根據所述用戶偏好數據進行內容信息推薦。本發(fā)明還提供了一種基于用戶行為的電子商務信息推薦裝置。本發(fā)明對用戶行為數據進行優(yōu)化,剔除了可能存在的“偽數據”,使得在該數據基礎上分析得到的用戶偏好更加準確真實,處理速度得以提高,推薦效果更好。
文檔編號G06Q30/02GK102956009SQ20111023526
公開日2013年3月6日 申請日期2011年8月16日 優(yōu)先權日2011年8月16日
發(fā)明者顧湘余, 傅其樂, 祖仲林, 寧偉 申請人:阿里巴巴集團控股有限公司