一種基于hadoop的網(wǎng)絡(luò)推薦方法【專利摘要】本發(fā)明公開了一種基于hadoop的網(wǎng)絡(luò)推薦方法,基于hadoop平臺(tái)的網(wǎng)絡(luò),根據(jù)實(shí)際的計(jì)算需求增加集群的規(guī)模,利用HDFS分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間來存儲(chǔ)不斷增長(zhǎng)的海量數(shù)據(jù)集,并通過MapReduce框架將大任務(wù)分解為小任務(wù),通過并行計(jì)算的方式提高算法的計(jì)算速度,利用物質(zhì)擴(kuò)散算法和熱傳導(dǎo)算法實(shí)現(xiàn)網(wǎng)絡(luò)推薦。本發(fā)明解決了傳統(tǒng)算法在單機(jī)模式運(yùn)行,容易受到處理器速度、存儲(chǔ)容量等諸多計(jì)算機(jī)硬件性能的阻礙,不能很好地達(dá)到大型電子商務(wù)網(wǎng)站的問題,解決了海量的用戶日志可靠,高效地推薦系統(tǒng)進(jìn)行計(jì)算、分析和挖掘問題,解決了其他推薦算法耗時(shí)長(zhǎng),可擴(kuò)展性較差,隨著用戶和商品數(shù)量的增加,算法的復(fù)雜度呈多項(xiàng)式增長(zhǎng),算法性能越來越差等問題?!緦@f明】一種基于hadoop的網(wǎng)絡(luò)推薦方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及推薦方法領(lǐng)域,具體涉及一種基于hadoop的網(wǎng)絡(luò)推薦方法?!?br>背景技術(shù):
】[0002]隨著互聯(lián)網(wǎng)技術(shù)日新月異的革新,全世界的網(wǎng)頁(yè)服務(wù)器總數(shù)不斷增加,網(wǎng)頁(yè)的數(shù)量也因此呈現(xiàn)爆炸性的增長(zhǎng)趨勢(shì)。人們可以在線閱讀文章、聆聽音樂、社交交流、分享照片、購(gòu)買商品,但同樣帶來了一系列困擾:一方面,用戶很難從爆炸性累積的海量信息中搜尋到對(duì)自己有價(jià)值的部分;另一方面,信息的自身質(zhì)量良莠不齊,部分可能有價(jià)值的信息由于缺乏輔助工具而被埋沒,該現(xiàn)象被稱為“信息超載”。為了有效地應(yīng)對(duì)上述問題,人們研發(fā)了搜索引擎,如Google、百度、Bing等,使用網(wǎng)絡(luò)爬蟲收集網(wǎng)頁(yè)信息,并對(duì)其進(jìn)行篩選、分析、提取、組織和處理,為用戶提供搜索服務(wù)。但這還遠(yuǎn)遠(yuǎn)不夠,因?yàn)樗阉饕嫘枰脩裟軌蛎鞔_自己需求,輸入關(guān)鍵字,所以反饋的信息都限制了用戶已知的信息范圍中,而不能幫助用戶找到其不知道但有價(jià)值或感興趣的內(nèi)容。而推薦系統(tǒng)能夠從一定程度上可以彌補(bǔ)搜索引擎的缺陷,比較傳統(tǒng)的搜索引擎,推薦系統(tǒng)分析用戶的歷史操作,建立了用戶偏好模型,依靠算法計(jì)算預(yù)測(cè)用戶對(duì)未知商品的偏好權(quán)重,并根據(jù)權(quán)重對(duì)商品排序,向用戶推送一個(gè)可能令其感興趣的商品推薦列表。隨著推薦系統(tǒng)在電子商務(wù)網(wǎng)站取得廣泛公認(rèn)的成功,巨大的顧客和商品數(shù)量對(duì)現(xiàn)有的推薦系統(tǒng)提出巨大的關(guān)鍵性挑戰(zhàn),如何提供高質(zhì)量的推薦結(jié)果,如何能在每一秒能為數(shù)以萬(wàn)計(jì)的用戶做出推薦,如何能在極度稀疏的數(shù)據(jù)的情況下滿足用戶高命中率和個(gè)性化需求,這是都是亟待解決的問題。在現(xiàn)代電子商務(wù)網(wǎng)站中,響應(yīng)速度是Web應(yīng)用用戶體驗(yàn)的重要指標(biāo)之一,而推薦系統(tǒng)擴(kuò)展性差和耗費(fèi)大量計(jì)算時(shí)間是令人無法容忍的,推薦系統(tǒng)如何能夠在很短時(shí)間內(nèi)將商品推薦給數(shù)以萬(wàn)計(jì)的在線用戶,這是一項(xiàng)嚴(yán)峻的挑戰(zhàn)。新一代的推薦系統(tǒng)需要解決即使在海量數(shù)據(jù)的情況下,如何快速做出高質(zhì)量的推薦?!?br/>發(fā)明內(nèi)容】[0003]本發(fā)明要解決的技術(shù)問題是:為了更好地解決推薦系統(tǒng)的可擴(kuò)展性問題,本發(fā)明采用Hadoop作為算法的實(shí)現(xiàn)平臺(tái),一方面HDFS可以通過分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間,更重要的方面是MapReduce框架可以將大任務(wù)分解為小任務(wù),通過并行計(jì)算的方式提高算法的計(jì)算速度。Hadoop能夠有效解決物質(zhì)擴(kuò)散算法的可擴(kuò)展性問題。[0004]本發(fā)明所采用的技術(shù)方案為:一種基于hadoop的網(wǎng)絡(luò)推薦方法,基于hadoop平臺(tái)的網(wǎng)絡(luò),根據(jù)實(shí)際的計(jì)算需求增加集群的規(guī)模,利用HDFS分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間來存儲(chǔ)不斷增長(zhǎng)的海量數(shù)據(jù)集,并通過MapReduce框架將大任務(wù)分解為小任務(wù),通過并行計(jì)算的方式提高算法的計(jì)算速度,利用物質(zhì)擴(kuò)散算法和熱傳導(dǎo)算法實(shí)現(xiàn)網(wǎng)絡(luò)推薦。[0005]所述推薦方法的設(shè)計(jì)結(jié)構(gòu)包括:(I)推薦應(yīng)用接口模塊(Tomcat,JSP,JDBC等模塊),(2)推薦系統(tǒng)模塊(hadoop平臺(tái)及相應(yīng)算法實(shí)現(xiàn)),(3)數(shù)據(jù)存儲(chǔ)模塊(MySql等數(shù)據(jù)庫(kù)),其中推薦應(yīng)用接口模塊,負(fù)責(zé)用戶數(shù)據(jù)的收集和推薦結(jié)果的返回,用戶對(duì)商品的打分信息會(huì)通過JSP調(diào)用JDBC寫入數(shù)據(jù)存儲(chǔ)模塊的數(shù)據(jù)庫(kù),并接收用戶的請(qǐng)求從數(shù)據(jù)存儲(chǔ)模塊中接收推薦的結(jié)果;推薦系統(tǒng)模塊,以Hadoop平臺(tái)為基礎(chǔ),定時(shí)從數(shù)據(jù)存儲(chǔ)模塊導(dǎo)入用戶歷史數(shù)據(jù)到HDFS中以保證保持?jǐn)?shù)據(jù)的實(shí)時(shí)性,利用已經(jīng)MapReduce并行化的推薦算法后臺(tái)程序生成推薦模型,進(jìn)一步計(jì)算推薦的結(jié)果,并存儲(chǔ)到數(shù)據(jù)存儲(chǔ)模塊;數(shù)據(jù)存儲(chǔ)模塊,將用戶歷史數(shù)據(jù)和推薦計(jì)算的結(jié)果存儲(chǔ)使用關(guān)系型數(shù)據(jù)庫(kù)。[0006]所述推薦方法融合了基于物質(zhì)擴(kuò)散法的剪切策略,對(duì)極度活躍的用戶歷史商品選擇記錄進(jìn)行長(zhǎng)度限制,隨機(jī)保留該位用戶與已選擇過的商品的P條連邊,多余的連邊則進(jìn)行刪除?!凹羟小敝粦?yīng)用于推薦系統(tǒng)中的小部分極度活躍用戶,而不會(huì)影響絕大部分的非極度活躍用戶,所以剪切操作的時(shí)間開銷幾乎可以忽略不計(jì)。[0007]本發(fā)明有益效果:本發(fā)明解決了傳統(tǒng)算法在單機(jī)模式運(yùn)行,容易受到處理器速度、存儲(chǔ)容量等諸多計(jì)算機(jī)硬件性能的阻礙,不能很好地達(dá)到大型電子商務(wù)網(wǎng)站的問題。解決了海量的用戶日志可靠,高效地推薦系統(tǒng)進(jìn)行計(jì)算、分析和挖掘問題,解決了其他推薦算法耗時(shí)長(zhǎng),可擴(kuò)展性較差,隨著用戶和商品數(shù)量的增加,算法的復(fù)雜度呈多項(xiàng)式增長(zhǎng),算法性能越來越差等冋題。[0008]本發(fā)明是基于Hadoop的網(wǎng)絡(luò)推薦方法,hadoop支持在大規(guī)模商用硬件集群上運(yùn)行應(yīng)用,使用簡(jiǎn)易的編程模型來分布式處理分布在集群機(jī)器上的大規(guī)模數(shù)據(jù)集,通過部署廉價(jià)的機(jī)器集群可以與任何高性能的計(jì)算機(jī)并駕齊驅(qū),以橫向擴(kuò)展的斜線戰(zhàn)勝縱向擴(kuò)展的曲線,可擴(kuò)展的對(duì)海量數(shù)據(jù)的存儲(chǔ)為海量數(shù)據(jù)的處理任務(wù)帶來了便宜等優(yōu)點(diǎn),是大數(shù)據(jù)處理的首選,網(wǎng)絡(luò)推薦算法在MapReduce并行化處理之后,隨著集群機(jī)器的數(shù)量增加,其計(jì)算效率正比例增加,因此對(duì)提高推薦系統(tǒng)的可擴(kuò)展性很有幫助?!緦@綀D】【附圖說明】[0009]圖1為Hadoop配置參數(shù)設(shè)置示意圖;圖2為本發(fā)明的方法工作原理圖;圖3為熱傳導(dǎo)計(jì)算商品度算法偽代碼;圖4為熱傳導(dǎo)計(jì)算用戶已選擇的商品列表算法偽代碼;圖5為熱傳導(dǎo)計(jì)算資源分配矩陣算法偽代碼;圖6為熱傳導(dǎo)計(jì)算推薦列表算法偽代碼;圖7為Pair算法偽代碼;圖8為Stripe算法的偽代碼?!揪唧w實(shí)施方式】[0010]下面根據(jù)說明書附圖,結(jié)合具體實(shí)施例,對(duì)本發(fā)明進(jìn)一步說明:一種基于hadoop的網(wǎng)絡(luò)推薦方法,所述推薦方法的設(shè)計(jì)結(jié)構(gòu)包括:(I)推薦應(yīng)用接口模塊,(2)推薦系統(tǒng)模塊,(3)數(shù)據(jù)存儲(chǔ)模塊。[0011]其中,Hadoop的運(yùn)行模式采用完全分布式的運(yùn)行模式,由4臺(tái)PC組成,I臺(tái)作為master控制節(jié)點(diǎn),其余3臺(tái)作為slaver計(jì)算節(jié)點(diǎn)。每臺(tái)PC硬件都是IntelDual-core2.6GHzCPU,2G內(nèi)存和10G硬盤,操作系統(tǒng)采用Ubuntu-10.10-server_i386,JDK版本為1.6.0_27,MySQL版本為5.6.10,Hadoop版本采用0.20.2,hadoop具體配置如圖1所示。[0012]如圖2所示,推薦系統(tǒng)安裝Apache,tomcat,Sqoop,Mahout,Ganglia,MySQL等組件程序,為了實(shí)現(xiàn)apache和tomcat的整合,apache直接處理靜態(tài)頁(yè)面的展示,而將動(dòng)態(tài)頁(yè)面請(qǐng)求轉(zhuǎn)發(fā)給tomcat。在方法實(shí)現(xiàn)中,在Hadoop運(yùn)行的前提下,輸入如下命令行可以將MySQL中ratings表中的用戶歷史打分記錄并行導(dǎo)入到HDFS數(shù)據(jù)的指定文件夾input中(Sqoop默認(rèn)會(huì)同時(shí)開啟4個(gè)進(jìn)程同時(shí)進(jìn)行數(shù)據(jù)的導(dǎo)入,m參數(shù)可以設(shè)置,實(shí)質(zhì)上是并行的map任務(wù)數(shù)):$sqoopimport—connectjdbc:mysql://localhost—datasetmovielens__username{用戶名}_■password{密碼}__tableratings__target~dirinput—column^userid,movield,rating"where{導(dǎo)入數(shù)據(jù)的條件}~m{并行導(dǎo)入數(shù)}在計(jì)算推薦結(jié)果結(jié)束后,需要將HDFS中output文件夾中的預(yù)測(cè)結(jié)果導(dǎo)回MySQL的recommenders表中以備返回推薦,則輸入如下命令行:$sqoopexport—connectjdbc:mysql://localhost/—datasetmovielens__username{用戶名}password{密碼}__export—diroutput__tablerecommenders-■m{并行導(dǎo)入數(shù)}在所述推薦方法的部署上,應(yīng)用程序開發(fā)平臺(tái)Eclipse-3.4.2SDK,安裝hadoop-0.20.2_eclipse_3.4-plugin插件并配置。原始數(shù)據(jù)可能會(huì)有多個(gè)與算法無關(guān)的屬性列,則需要在應(yīng)用程序中,對(duì)數(shù)據(jù)進(jìn)行清洗和提取。[0013]根據(jù)圖3,4,5,6,7,8中的算法偽代碼,使用java語(yǔ)言編程實(shí)現(xiàn)具體算法,開發(fā)調(diào)試完成后將應(yīng)用程序打成JAR包,上傳到NameNode節(jié)點(diǎn)機(jī)器上的Hadoop的指定目錄下,以物質(zhì)擴(kuò)散算法為例,Dinput為輸入,Doutput為輸出,JAR名為recommender.jar,NBI為算法名,則輸入shell命令運(yùn)行推薦算法:Hadoopjarrecommender.jarNBIDinputDoutput0【權(quán)利要求】1.一種基于hadoop的網(wǎng)絡(luò)推薦方法,其特征在于:基于hadoop平臺(tái)的網(wǎng)絡(luò),根據(jù)實(shí)際的計(jì)算需求增加集群的規(guī)模,利用HDFS分布式文件系統(tǒng)為海量數(shù)據(jù)集提供動(dòng)態(tài)的存儲(chǔ)空間來存儲(chǔ)不斷增長(zhǎng)的海量數(shù)據(jù)集,并通過MapReduce框架將大任務(wù)分解為小任務(wù),通過并行計(jì)算的方式提高算法的計(jì)算速度,利用物質(zhì)擴(kuò)散算法和熱傳導(dǎo)算法實(shí)現(xiàn)網(wǎng)絡(luò)推薦。2.根據(jù)權(quán)利要求1所述一種基于hadoop的網(wǎng)絡(luò)推薦方法,其特征在于:所述推薦方法的設(shè)計(jì)結(jié)構(gòu)包括:1)推薦應(yīng)用接口模塊,2)推薦系統(tǒng)模塊,3)數(shù)據(jù)存儲(chǔ)模塊,其中推薦應(yīng)用接口模塊,負(fù)責(zé)用戶數(shù)據(jù)的收集和推薦結(jié)果的返回,用戶對(duì)商品的打分信息會(huì)通過JSP調(diào)用JDBC寫入數(shù)據(jù)存儲(chǔ)模塊的數(shù)據(jù)庫(kù),并接收用戶的請(qǐng)求從數(shù)據(jù)存儲(chǔ)模塊中接收推薦的結(jié)果;推薦系統(tǒng)模塊,以Hadoop平臺(tái)為基礎(chǔ),定時(shí)從數(shù)據(jù)存儲(chǔ)模塊導(dǎo)入用戶歷史數(shù)據(jù)到HDFS中以保證保持?jǐn)?shù)據(jù)的實(shí)時(shí)性,利用已經(jīng)MapReduce并行化的推薦算法后臺(tái)程序生成推薦模型,進(jìn)一步計(jì)算推薦的結(jié)果,并存儲(chǔ)到數(shù)據(jù)存儲(chǔ)模塊;數(shù)據(jù)存儲(chǔ)模塊,將用戶歷史數(shù)據(jù)和推薦計(jì)算的結(jié)果存儲(chǔ)使用關(guān)系型數(shù)據(jù)庫(kù)。3.根據(jù)權(quán)利要求1或2所述一種基于hadoop的網(wǎng)絡(luò)推薦方法,其特征在于:所述推薦方法融合了基于物質(zhì)擴(kuò)散法的剪切策略,對(duì)極度活躍的用戶歷史商品選擇記錄進(jìn)行長(zhǎng)度限制,隨機(jī)保留該位用戶與已選擇過的商品的P條連邊,多余的連邊則進(jìn)行刪除?!疚臋n編號(hào)】G06F17/30GK104503967SQ201410574528【公開日】2015年4月8日申請(qǐng)日期:2014年10月24日優(yōu)先權(quán)日:2014年10月24日【發(fā)明者】黃敏,楊晉博,劉晶申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司