一種基于hadoop的網(wǎng)絡(luò)推薦方法

文檔序號(hào)：6631464閱讀：485來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于hadoop的網(wǎng)絡(luò)推薦方法【專利摘要】本發(fā)明公開了一種基于hadoop的網(wǎng)絡(luò)推薦方法，基于hadoop平臺(tái)的網(wǎng)絡(luò)，根據(jù)實(shí)際的計(jì)算需求增加集群的規(guī)模，利用HDFS分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間來存儲(chǔ)不斷增長(zhǎng)的海量數(shù)據(jù)集，并通過MapReduce框架將大任務(wù)分解為小任務(wù)，通過并行計(jì)算的方式提高算法的計(jì)算速度，利用物質(zhì)擴(kuò)散算法和熱傳導(dǎo)算法實(shí)現(xiàn)網(wǎng)絡(luò)推薦。本發(fā)明解決了傳統(tǒng)算法在單機(jī)模式運(yùn)行，容易受到處理器速度、存儲(chǔ)容量等諸多計(jì)算機(jī)硬件性能的阻礙，不能很好地達(dá)到大型電子商務(wù)網(wǎng)站的問題,解決了海量的用戶日志可靠，高效地推薦系統(tǒng)進(jìn)行計(jì)算、分析和挖掘問題，解決了其他推薦算法耗時(shí)長(zhǎng)，可擴(kuò)展性較差，隨著用戶和商品數(shù)量的增加，算法的復(fù)雜度呈多項(xiàng)式增長(zhǎng)，算法性能越來越差等問題?！緦＠f明】一種基于hadoop的網(wǎng)絡(luò)推薦方法【
技術(shù)領(lǐng)域：
】[0001]本發(fā)明涉及推薦方法領(lǐng)域，具體涉及一種基于hadoop的網(wǎng)絡(luò)推薦方法?！?br>背景技術(shù)：
】[0002]隨著互聯(lián)網(wǎng)技術(shù)日新月異的革新，全世界的網(wǎng)頁(yè)服務(wù)器總數(shù)不斷增加，網(wǎng)頁(yè)的數(shù)量也因此呈現(xiàn)爆炸性的增長(zhǎng)趨勢(shì)。人們可以在線閱讀文章、聆聽音樂、社交交流、分享照片、購(gòu)買商品，但同樣帶來了一系列困擾:一方面，用戶很難從爆炸性累積的海量信息中搜尋到對(duì)自己有價(jià)值的部分；另一方面，信息的自身質(zhì)量良莠不齊，部分可能有價(jià)值的信息由于缺乏輔助工具而被埋沒，該現(xiàn)象被稱為“信息超載”。為了有效地應(yīng)對(duì)上述問題，人們研發(fā)了搜索引擎，如Google、百度、Bing等，使用網(wǎng)絡(luò)爬蟲收集網(wǎng)頁(yè)信息，并對(duì)其進(jìn)行篩選、分析、提取、組織和處理，為用戶提供搜索服務(wù)。但這還遠(yuǎn)遠(yuǎn)不夠，因?yàn)樗阉饕嫘枰脩裟軌蛎鞔_自己需求，輸入關(guān)鍵字，所以反饋的信息都限制了用戶已知的信息范圍中，而不能幫助用戶找到其不知道但有價(jià)值或感興趣的內(nèi)容。而推薦系統(tǒng)能夠從一定程度上可以彌補(bǔ)搜索引擎的缺陷，比較傳統(tǒng)的搜索引擎，推薦系統(tǒng)分析用戶的歷史操作，建立了用戶偏好模型，依靠算法計(jì)算預(yù)測(cè)用戶對(duì)未知商品的偏好權(quán)重，并根據(jù)權(quán)重對(duì)商品排序，向用戶推送一個(gè)可能令其感興趣的商品推薦列表。隨著推薦系統(tǒng)在電子商務(wù)網(wǎng)站取得廣泛公認(rèn)的成功，巨大的顧客和商品數(shù)量對(duì)現(xiàn)有的推薦系統(tǒng)提出巨大的關(guān)鍵性挑戰(zhàn)，如何提供高質(zhì)量的推薦結(jié)果，如何能在每一秒能為數(shù)以萬(wàn)計(jì)的用戶做出推薦，如何能在極度稀疏的數(shù)據(jù)的情況下滿足用戶高命中率和個(gè)性化需求，這是都是亟待解決的問題。在現(xiàn)代電子商務(wù)網(wǎng)站中，響應(yīng)速度是Web應(yīng)用用戶體驗(yàn)的重要指標(biāo)之一，而推薦系統(tǒng)擴(kuò)展性差和耗費(fèi)大量計(jì)算時(shí)間是令人無法容忍的，推薦系統(tǒng)如何能夠在很短時(shí)間內(nèi)將商品推薦給數(shù)以萬(wàn)計(jì)的在線用戶，這是一項(xiàng)嚴(yán)峻的挑戰(zhàn)。新一代的推薦系統(tǒng)需要解決即使在海量數(shù)據(jù)的情況下，如何快速做出高質(zhì)量的推薦?！?br/>發(fā)明內(nèi)容】[0003]本發(fā)明要解決的技術(shù)問題是:為了更好地解決推薦系統(tǒng)的可擴(kuò)展性問題，本發(fā)明采用Hadoop作為算法的實(shí)現(xiàn)平臺(tái)，一方面HDFS可以通過分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間，更重要的方面是MapReduce框架可以將大任務(wù)分解為小任務(wù)，通過并行計(jì)算的方式提高算法的計(jì)算速度。Hadoop能夠有效解決物質(zhì)擴(kuò)散算法的可擴(kuò)展性問題。[0004]本發(fā)明所采用的技術(shù)方案為:一種基于hadoop的網(wǎng)絡(luò)推薦方法，基于hadoop平臺(tái)的網(wǎng)絡(luò)，根據(jù)實(shí)際的計(jì)算需求增加集群的規(guī)模，利用HDFS分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間來存儲(chǔ)不斷增長(zhǎng)的海量數(shù)據(jù)集，并通過MapReduce框架將大任務(wù)分解為小任務(wù)，通過并行計(jì)算的方式提高算法的計(jì)算速度，利用物質(zhì)擴(kuò)散算法和熱傳導(dǎo)算法實(shí)現(xiàn)網(wǎng)絡(luò)推薦。[0005]所述推薦方法的設(shè)計(jì)結(jié)構(gòu)包括:(I)推薦應(yīng)用接口模塊(Tomcat，JSP,JDBC等模塊)，(2)推薦系統(tǒng)模塊(hadoop平臺(tái)及相應(yīng)算法實(shí)現(xiàn))，(3)數(shù)據(jù)存儲(chǔ)模塊(MySql等數(shù)據(jù)庫(kù))，其中推薦應(yīng)用接口模塊，負(fù)責(zé)用戶數(shù)據(jù)的收集和推薦結(jié)果的返回，用戶對(duì)商品的打分信息會(huì)通過JSP調(diào)用JDBC寫入數(shù)據(jù)存儲(chǔ)模塊的數(shù)據(jù)庫(kù)，并接收用戶的請(qǐng)求從數(shù)據(jù)存儲(chǔ)模塊中接收推薦的結(jié)果；推薦系統(tǒng)模塊，以Hadoop平臺(tái)為基礎(chǔ)，定時(shí)從數(shù)據(jù)存儲(chǔ)模塊導(dǎo)入用戶歷史數(shù)據(jù)到HDFS中以保證保持?jǐn)?shù)據(jù)的實(shí)時(shí)性，利用已經(jīng)MapReduce并行化的推薦算法后臺(tái)程序生成推薦模型，進(jìn)一步計(jì)算推薦的結(jié)果，并存儲(chǔ)到數(shù)據(jù)存儲(chǔ)模塊；數(shù)據(jù)存儲(chǔ)模塊，將用戶歷史數(shù)據(jù)和推薦計(jì)算的結(jié)果存儲(chǔ)使用關(guān)系型數(shù)據(jù)庫(kù)。[0006]所述推薦方法融合了基于物質(zhì)擴(kuò)散法的剪切策略，對(duì)極度活躍的用戶歷史商品選擇記錄進(jìn)行長(zhǎng)度限制，隨機(jī)保留該位用戶與已選擇過的商品的P條連邊，多余的連邊則進(jìn)行刪除?！凹羟小敝粦?yīng)用于推薦系統(tǒng)中的小部分極度活躍用戶，而不會(huì)影響絕大部分的非極度活躍用戶，所以剪切操作的時(shí)間開銷幾乎可以忽略不計(jì)。[0007]本發(fā)明有益效果:本發(fā)明解決了傳統(tǒng)算法在單機(jī)模式運(yùn)行，容易受到處理器速度、存儲(chǔ)容量等諸多計(jì)算機(jī)硬件性能的阻礙，不能很好地達(dá)到大型電子商務(wù)網(wǎng)站的問題。解決了海量的用戶日志可靠，高效地推薦系統(tǒng)進(jìn)行計(jì)算、分析和挖掘問題，解決了其他推薦算法耗時(shí)長(zhǎng)，可擴(kuò)展性較差，隨著用戶和商品數(shù)量的增加，算法的復(fù)雜度呈多項(xiàng)式增長(zhǎng)，算法性能越來越差等冋題。[0008]本發(fā)明是基于Hadoop的網(wǎng)絡(luò)推薦方法，hadoop支持在大規(guī)模商用硬件集群上運(yùn)行應(yīng)用，使用簡(jiǎn)易的編程模型來分布式處理分布在集群機(jī)器上的大規(guī)模數(shù)據(jù)集，通過部署廉價(jià)的機(jī)器集群可以與任何高性能的計(jì)算機(jī)并駕齊驅(qū)，以橫向擴(kuò)展的斜線戰(zhàn)勝縱向擴(kuò)展的曲線，可擴(kuò)展的對(duì)海量數(shù)據(jù)的存儲(chǔ)為海量數(shù)據(jù)的處理任務(wù)帶來了便宜等優(yōu)點(diǎn)，是大數(shù)據(jù)處理的首選，網(wǎng)絡(luò)推薦算法在MapReduce并行化處理之后，隨著集群機(jī)器的數(shù)量增加，其計(jì)算效率正比例增加，因此對(duì)提高推薦系統(tǒng)的可擴(kuò)展性很有幫助?！緦＠綀D】【附圖說明】[0009]圖1為Hadoop配置參數(shù)設(shè)置示意圖；圖2為本發(fā)明的方法工作原理圖；圖3為熱傳導(dǎo)計(jì)算商品度算法偽代碼；圖4為熱傳導(dǎo)計(jì)算用戶已選擇的商品列表算法偽代碼；圖5為熱傳導(dǎo)計(jì)算資源分配矩陣算法偽代碼；圖6為熱傳導(dǎo)計(jì)算推薦列表算法偽代碼；圖7為Pair算法偽代碼；圖8為Stripe算法的偽代碼?！揪唧w實(shí)施方式】[0010]下面根據(jù)說明書附圖，結(jié)合具體實(shí)施例，對(duì)本發(fā)明進(jìn)一步說明:一種基于hadoop的網(wǎng)絡(luò)推薦方法，所述推薦方法的設(shè)計(jì)結(jié)構(gòu)包括:(I)推薦應(yīng)用接口模塊，(2)推薦系統(tǒng)模塊，(3)數(shù)據(jù)存儲(chǔ)模塊。[0011]其中，Hadoop的運(yùn)行模式采用完全分布式的運(yùn)行模式，由4臺(tái)PC組成，I臺(tái)作為master控制節(jié)點(diǎn)，其余3臺(tái)作為slaver計(jì)算節(jié)點(diǎn)。每臺(tái)PC硬件都是IntelDual-core2.6GHzCPU，2G內(nèi)存和10G硬盤，操作系統(tǒng)采用Ubuntu-10.10-server_i386，JDK版本為1.6.0_27，MySQL版本為5.6.10，Hadoop版本采用0.20.2，hadoop具體配置如圖1所示。[0012]如圖2所示，推薦系統(tǒng)安裝Apache，tomcat,Sqoop，Mahout,Ganglia，MySQL等組件程序，為了實(shí)現(xiàn)apache和tomcat的整合，apache直接處理靜態(tài)頁(yè)面的展示，而將動(dòng)態(tài)頁(yè)面請(qǐng)求轉(zhuǎn)發(fā)給tomcat。在方法實(shí)現(xiàn)中，在Hadoop運(yùn)行的前提下，輸入如下命令行可以將MySQL中ratings表中的用戶歷史打分記錄并行導(dǎo)入到HDFS數(shù)據(jù)的指定文件夾input中(Sqoop默認(rèn)會(huì)同時(shí)開啟4個(gè)進(jìn)程同時(shí)進(jìn)行數(shù)據(jù)的導(dǎo)入，m參數(shù)可以設(shè)置，實(shí)質(zhì)上是并行的map任務(wù)數(shù)):$sqoopimport—connectjdbc:mysql://localhost—datasetmovielens__username{用戶名}_■password{密碼}__tableratings__target~dirinput—column^userid,movield,rating"where{導(dǎo)入數(shù)據(jù)的條件}~m{并行導(dǎo)入數(shù)}在計(jì)算推薦結(jié)果結(jié)束后，需要將HDFS中output文件夾中的預(yù)測(cè)結(jié)果導(dǎo)回MySQL的recommenders表中以備返回推薦，則輸入如下命令行:$sqoopexport—connectjdbc:mysql://localhost/—datasetmovielens__username{用戶名}password{密碼}__export—diroutput__tablerecommenders-■m{并行導(dǎo)入數(shù)}在所述推薦方法的部署上，應(yīng)用程序開發(fā)平臺(tái)Eclipse-3.4.2SDK，安裝hadoop-0.20.2_eclipse_3.4-plugin插件并配置。原始數(shù)據(jù)可能會(huì)有多個(gè)與算法無關(guān)的屬性列，則需要在應(yīng)用程序中，對(duì)數(shù)據(jù)進(jìn)行清洗和提取。[0013]根據(jù)圖3，4，5，6，7，8中的算法偽代碼，使用java語(yǔ)言編程實(shí)現(xiàn)具體算法，開發(fā)調(diào)試完成后將應(yīng)用程序打成JAR包，上傳到NameNode節(jié)點(diǎn)機(jī)器上的Hadoop的指定目錄下，以物質(zhì)擴(kuò)散算法為例，Dinput為輸入，Doutput為輸出，JAR名為recommender.jar,NBI為算法名，則輸入shell命令運(yùn)行推薦算法:Hadoopjarrecommender.jarNBIDinputDoutput0【權(quán)利要求】1.一種基于hadoop的網(wǎng)絡(luò)推薦方法，其特征在于:基于hadoop平臺(tái)的網(wǎng)絡(luò)，根據(jù)實(shí)際的計(jì)算需求增加集群的規(guī)模，利用HDFS分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間來存儲(chǔ)不斷增長(zhǎng)的海量數(shù)據(jù)集，并通過MapReduce框架將大任務(wù)分解為小任務(wù)，通過并行計(jì)算的方式提高算法的計(jì)算速度，利用物質(zhì)擴(kuò)散算法和熱傳導(dǎo)算法實(shí)現(xiàn)網(wǎng)絡(luò)推薦。2.根據(jù)權(quán)利要求1所述一種基于hadoop的網(wǎng)絡(luò)推薦方法，其特征在于:所述推薦方法的設(shè)計(jì)結(jié)構(gòu)包括:1)推薦應(yīng)用接口模塊，2)推薦系統(tǒng)模塊，3)數(shù)據(jù)存儲(chǔ)模塊，其中推薦應(yīng)用接口模塊，負(fù)責(zé)用戶數(shù)據(jù)的收集和推薦結(jié)果的返回，用戶對(duì)商品的打分信息會(huì)通過JSP調(diào)用JDBC寫入數(shù)據(jù)存儲(chǔ)模塊的數(shù)據(jù)庫(kù)，并接收用戶的請(qǐng)求從數(shù)據(jù)存儲(chǔ)模塊中接收推薦的結(jié)果；推薦系統(tǒng)模塊，以Hadoop平臺(tái)為基礎(chǔ)，定時(shí)從數(shù)據(jù)存儲(chǔ)模塊導(dǎo)入用戶歷史數(shù)據(jù)到HDFS中以保證保持?jǐn)?shù)據(jù)的實(shí)時(shí)性，利用已經(jīng)MapReduce并行化的推薦算法后臺(tái)程序生成推薦模型，進(jìn)一步計(jì)算推薦的結(jié)果，并存儲(chǔ)到數(shù)據(jù)存儲(chǔ)模塊；數(shù)據(jù)存儲(chǔ)模塊，將用戶歷史數(shù)據(jù)和推薦計(jì)算的結(jié)果存儲(chǔ)使用關(guān)系型數(shù)據(jù)庫(kù)。3.根據(jù)權(quán)利要求1或2所述一種基于hadoop的網(wǎng)絡(luò)推薦方法，其特征在于:所述推薦方法融合了基于物質(zhì)擴(kuò)散法的剪切策略，對(duì)極度活躍的用戶歷史商品選擇記錄進(jìn)行長(zhǎng)度限制，隨機(jī)保留該位用戶與已選擇過的商品的P條連邊，多余的連邊則進(jìn)行刪除?！疚臋n編號(hào)】G06F17/30GK104503967SQ201410574528【公開日】2015年4月8日申請(qǐng)日期:2014年10月24日優(yōu)先權(quán)日:2014年10月24日【發(fā)明者】黃敏,楊晉博,劉晶申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃敏;楊晉博;劉晶;
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于hadoop的網(wǎng)絡(luò)推薦方法