欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于計算機(jī)系統(tǒng)的推薦方法及其裝置的制造方法

文檔序號:9929552閱讀:398來源:國知局
基于計算機(jī)系統(tǒng)的推薦方法及其裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及W計算機(jī)系統(tǒng)實現(xiàn)的推薦技術(shù),特別涉及基于計算機(jī)系統(tǒng)的推薦方法 及其裝置。
【背景技術(shù)】
[0002] 推薦算法通常分為基于內(nèi)容的推薦,基于關(guān)聯(lián)規(guī)則的推薦,基于協(xié)同過濾推薦,W 及一些基本方法的組合。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),當(dāng)前CF(Coll油orative Filtering, 協(xié)同過濾)算法存在一些問題,特別是在分布式環(huán)境下,有些問題更加明顯,從CF運行邏輯 來理解,算法瓶頸主要在W下H個地方:
[0003] 第一點存在于數(shù)據(jù)規(guī)模中,無論哪次推薦,分布式框架的每個計算節(jié)點都要保留 全局?jǐn)?shù)據(jù),因為每個re化cer不能提前得知當(dāng)前節(jié)點被分配的是哪些用戶,所W只存儲局 部數(shù)據(jù)會影響數(shù)據(jù)精度。送時每個re化cer就被實例化為一個小型的推薦場景。假設(shè)共有 t單位的計算資源,則全局?jǐn)?shù)據(jù)被兀余存儲了 t-1份,同時每個re化cer在真正的推薦過程 中只會遇到小部分?jǐn)?shù)據(jù)計算,其它數(shù)據(jù)也會造成極大的資源浪費。因此當(dāng)數(shù)據(jù)規(guī)模較大時, 無論從時間上還是存儲上,對每個計算節(jié)點都是巨大的負(fù)擔(dān)。在我們的實驗過程中,由于編 程語言W及編譯器的本地設(shè)計,當(dāng)用戶或者項目任一數(shù)據(jù)量超過千萬級時,必然會出現(xiàn)數(shù) 組過大越界問題,當(dāng)用戶或者項目任一數(shù)據(jù)量在千萬級別時,則由于集群中各個計算節(jié)點 的配置參差不齊,有些低配節(jié)點就會出現(xiàn)內(nèi)存不足問題。
[0004] 第二點為數(shù)據(jù)傾斜問題。從CF算法過程來看,無論是基于項目還是基于用戶, 我們都需要計算項目之間的相似度。送里存在一個隱蔽的問題:實際應(yīng)用場景中,有些 項目屬于"活躍份子",有些屬于"不活躍份子",例如在使用MapRe化Ce化amework時,在 <key, value〉數(shù)據(jù)schema(模式)下,有些key對應(yīng)的value會很多,有些會很少,送種數(shù)量 不一致,參差不齊的情況,稱為數(shù)據(jù)傾斜(data skew)。當(dāng)value數(shù)量在不同key之間相差 3個W上數(shù)量級時,在計算項目之間相似度過程中就會造成嚴(yán)重的數(shù)據(jù)傾斜,"活躍份子"導(dǎo) 致計算時間長尾。同理,在推薦過程中,有些用戶之前積累的行為多,有些用戶之前積累的 行為少,送時"活躍用戶"就會拖累整體計算過程。
[0005] 第H點為數(shù)據(jù)稀疏問題。在對象集合中,產(chǎn)生關(guān)系的對象對很少;可W理解為把所 有對象劃分為一個矩陣,其中(i,j)表示第i個用戶和第j個項目之間的關(guān)系,如果大多數(shù) 點均為0 (表示沒有關(guān)系),則定義為數(shù)據(jù)稀疏。數(shù)據(jù)稠密與之相反。特別是初始數(shù)據(jù)往往 是不完全的,送時在計算項目之間相似度時就很容易出現(xiàn)數(shù)據(jù)稀疏問題,即用戶項目矩陣 的大部分位置都是0。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于提供一種基于計算機(jī)系統(tǒng)的推薦方法及其裝置,可W在大數(shù)據(jù) 下實現(xiàn)高效的推薦方法,保證了系統(tǒng)的穩(wěn)定性和推薦的多樣性。
[0007] 為解決上述技術(shù)問題,本發(fā)明的實施方式公開了一種基于計算機(jī)系統(tǒng)的推薦方 法,該方法包括W下步驟:
[000引獲取各用戶對各項目的項目評分記錄;
[0009] 根據(jù)每個用戶的項目評分記錄進(jìn)行聚類,將用戶特征數(shù)據(jù)劃分到R個類別中,R是 大于1的整數(shù);
[0010] 在每個類別的用戶特征數(shù)據(jù)中,基于項目為目標(biāo)用戶推薦項目。
[0011] 本發(fā)明的實施方式還公開了一種基于計算機(jī)系統(tǒng)的推薦裝置,裝置包括:
[0012] 用戶項目初始關(guān)系計算模塊,用于獲取各用戶對各項目的項目評分記錄;
[0013] 聚類模塊,用于根據(jù)用戶項目初始關(guān)系計算模塊獲取的每個用戶的項目評分記錄 進(jìn)行聚類,將用戶特征數(shù)據(jù)劃分到R個類別中,R是大于1的整數(shù);W及
[0014] 推薦模塊,用于在聚類模塊所劃分的每個類別的用戶特征數(shù)據(jù)中,基于項目為目 標(biāo)用戶推薦項目。
[0015] 本發(fā)明實施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于:
[0016] 在本發(fā)明的推薦方法中,先根據(jù)每個用戶的項目評分記錄進(jìn)行聚類,將用戶特征 數(shù)據(jù)劃分到多個類別中,再在每個類別的用戶特征數(shù)據(jù)中基于項目為目標(biāo)用戶推薦項目, 可W在大數(shù)據(jù)下實現(xiàn)高效的推薦方法,保證了系統(tǒng)的穩(wěn)定性和推薦的多樣性。
[0017] 進(jìn)一步地,每個計算節(jié)點不需要保存所有類別的用戶特征數(shù)據(jù),避免了內(nèi)存不足 的問題。
[0018] 進(jìn)一步地,對于每個類別中的每個項目或每個用戶,只選取與其關(guān)系最強(qiáng)的幾個 項目,而不是保留與其有關(guān)系的所有項目,可W避免關(guān)系較弱的項目產(chǎn)生的數(shù)據(jù)傾斜問題。
[0019] 進(jìn)一步地,采用數(shù)據(jù)稀疏度對數(shù)據(jù)稀疏問題進(jìn)行檢測,并在發(fā)現(xiàn)數(shù)據(jù)稀疏問題后, 通過項目間的二度關(guān)系進(jìn)行相似度補(bǔ)全,W避免數(shù)據(jù)稀疏對推薦準(zhǔn)確度的影響。
[0020] 進(jìn)一步地,根據(jù)用戶數(shù)量來選擇是否要對用戶進(jìn)行聚類,W更好地適應(yīng)于小數(shù)據(jù) 下和大數(shù)據(jù)下的項目推薦。
【附圖說明】
[0021] 圖1是本發(fā)明第一實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法的流程示意圖;
[0022] 圖2本發(fā)明第一實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法中聚類判斷的流程 示意圖;
[0023] 圖3是本發(fā)明第二實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法中推薦步驟的流 程TK意圖;
[0024] 圖4是本發(fā)明第二實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法中推薦步驟的流 程TK意圖;
[0025] 圖5是本發(fā)明第二實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法中推薦步驟的流 程TK意圖;
[0026] 圖6是本發(fā)明第二實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法中數(shù)據(jù)補(bǔ)全的流 程TK意圖;
[0027] 圖7是現(xiàn)有的計算用戶相似度的示意圖;
[0028] 圖8和圖9是現(xiàn)有的基于用戶的協(xié)同過濾的示意圖;
[0029] 圖10和圖11是現(xiàn)有的基于項目的協(xié)同過濾的示意圖;
[0030] 圖12是現(xiàn)有的實現(xiàn)分布式CF算法的MapRe化Ce框架圖;
[0031] 圖13是本發(fā)明第二實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法的流程示意圖;
[0032] 圖14是本發(fā)明第二實施方式中一種基于計算機(jī)系統(tǒng)的推薦方法的流程示意圖;
[0033] 圖15是本發(fā)明第H實施方式中一種基于計算機(jī)系統(tǒng)的推薦裝置的結(jié)構(gòu)示意圖;
[0034] 圖16是本發(fā)明第四實施方式中一種基于計算機(jī)系統(tǒng)的推薦裝置中推薦模塊的結(jié) 構(gòu)示意圖。
【具體實施方式】
[0035] 在W下的敘述中,為了使讀者更好地理解本申請而提出了許多技術(shù)細(xì)節(jié)。但是,本 領(lǐng)域的普通技術(shù)人員可W理解,即使沒有送些技術(shù)細(xì)節(jié)和基于W下各實施方式的種種變化 和修改,也可W實現(xiàn)本申請各權(quán)利要求所要求保護(hù)的技術(shù)方案。
[0036] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的實施 方式作進(jìn)一步地詳細(xì)描述。
[0037] 本發(fā)明第一實施方式涉及一種基于計算機(jī)系統(tǒng)的推薦方法。圖1是該基于計算機(jī) 系統(tǒng)的推薦方法的流程示意圖。如圖1所示,該方法包括W下步驟:
[0038] 在步驟101中,獲取各用戶對各項目的項目評分記錄。可W理解,在本發(fā)明的各個 實施方式中,項目可W為商品、服務(wù)或其它推薦對象。
[0039] 此后進(jìn)入步驟102,根據(jù)每個用戶的項目評分記錄進(jìn)行聚類,將用戶特征數(shù)據(jù)劃 分到R個類別中,R是大于1的整數(shù)??蒞理解,在本發(fā)明的各個實施方式中,可W采用 K-means算法直接對用戶特征數(shù)據(jù)進(jìn)行聚類,也可W先采用Canopy算法進(jìn)行粗聚類,再采 用K-means算法進(jìn)行細(xì)聚類。
[0040] 先采用Canopy算法進(jìn)行粗聚類,再采用K-means算法進(jìn)行細(xì)聚類,在保證準(zhǔn)確性 的同時,提高了聚類速度。
[00川此外,可W理解,用戶特征數(shù)據(jù)是由用戶信息、項目信息和用戶對項目的評分記錄 組成的數(shù)據(jù)。
[0042] 此后進(jìn)入步驟103,在每個類別的用戶特征數(shù)據(jù)中,基于項目為目標(biāo)用戶推薦項 目??蒞理解,在本發(fā)明的各個實施方式中,可W采用基于協(xié)同過濾、基于關(guān)聯(lián)規(guī)則或基于 效用的推薦算法來為目標(biāo)用戶推薦項目。
[0043] 此后結(jié)束本流程。
[0044] 當(dāng)然,在本發(fā)明的其他實施方式中,也可W W項目為對象進(jìn)行聚類,再在每個類別 的用戶特征數(shù)據(jù)中基于用戶來為目標(biāo)用戶推薦項目,或是聚類和推薦都基于用戶或都基于 項目。
[0045] 在本實施方式的推薦方法中,先根據(jù)每個用戶的項目評分記錄進(jìn)行聚類,將用戶 特征數(shù)據(jù)劃分到多個類別中,再在每個類別的用戶特征數(shù)據(jù)中基于項目為目標(biāo)用戶推薦項 目,可W在大數(shù)據(jù)下實現(xiàn)高效的推薦方法,保證了系統(tǒng)的穩(wěn)定性和推薦的多樣性。
[0046] 優(yōu)選地,上述計算機(jī)系統(tǒng)為分布式系統(tǒng)。該計算機(jī)系統(tǒng)包括至少兩個計算節(jié)點。
[0047] 在步驟103中,將各類別的用戶特征數(shù)據(jù)分配給多個計算節(jié)點,每個計算節(jié)點最 多保存R - 1個類別的用戶特征數(shù)據(jù),每個計算節(jié)點在所保存的每個類別的用戶特征數(shù)據(jù) 中基于項目為目標(biāo)用戶推薦項目。每個計算節(jié)點不需要保存所有類別的用戶特征數(shù)據(jù),避 免了內(nèi)存不足的問題。
[0048] 優(yōu)選地,每個計算節(jié)點保存一個類別的用戶特征數(shù)據(jù)并進(jìn)行處理。此外,可W理 解,在本發(fā)明的各實施方式中,可W根據(jù)各計算節(jié)點的配置將兩個或兩個W上類別的用戶 特征數(shù)據(jù)分配給高配置的計算節(jié)點進(jìn)行處理。當(dāng)然,在用戶特征數(shù)據(jù)量不是很大的時候,也 可W由一個計算節(jié)點進(jìn)行處理。
[0049] 作為可選實施方式,如圖2所示,在步驟102前還包括W下步驟:
[0050] 在步驟201中,判斷用戶數(shù)量是否大于用戶規(guī)模闊值。若用戶數(shù)量小于用戶規(guī)模 闊值,則進(jìn)入步驟202 ;若用戶數(shù)量大于用戶規(guī)模闊值,則進(jìn)入步驟102。
[0051] 在步驟202中,直接在
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
开鲁县| 特克斯县| 宁晋县| 迁西县| 呼伦贝尔市| 洪湖市| 孟津县| 留坝县| 大化| 当雄县| 秀山| 沙洋县| 西平县| 桦南县| 四平市| 泸西县| 仙游县| 浦城县| 元朗区| 保山市| 潜山县| 搜索| 石景山区| 阿瓦提县| 哈尔滨市| 克什克腾旗| 南充市| 织金县| 剑河县| 秦皇岛市| 武邑县| 泉州市| 克什克腾旗| 井研县| 达日县| 乌拉特中旗| 阳原县| 林西县| 宣汉县| 田林县| 梓潼县|