使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法
【專利摘要】本發(fā)明公開了一種使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法。它將圖書作為文檔,圖書標(biāo)簽作為文檔中的單詞,采用LDA-Gibbs算法對圖書標(biāo)簽進(jìn)行主題建模,得到標(biāo)簽-主題模型,然后根據(jù)用戶的圖書閱讀記錄得到用戶和標(biāo)簽的對應(yīng)關(guān)系,使用LDA-inference算法得到用戶-主題模型,最后根據(jù)用戶在主題分布上的相似度找到興趣相似的用戶,對圖書進(jìn)行協(xié)同過濾推薦。本發(fā)明充分挖掘了圖書標(biāo)簽中的語義信息,通過使用主題降低了表達(dá)用戶所需的維度,減小了計(jì)算量,有助于提高推薦結(jié)果的質(zhì)量,有一定的實(shí)用價值。
【專利說明】使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)人工智能,尤其涉及一種使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)進(jìn)入WEB2.0時代,人人都能成為內(nèi)容的提供者,這使得互聯(lián)網(wǎng)所承載的信息量越來越巨大。這些海量的信息已經(jīng)遠(yuǎn)遠(yuǎn)超出了用戶所能處理的量,用戶要從中找到對自己有用的信息是非常困難的,往往要耗費(fèi)大量的時間和精力。所以,如何使用戶準(zhǔn)確而又迅速的找到自己所需的資源,成為互聯(lián)網(wǎng)信息提供者迫切需要解決的問題。在這種背景下,個性化推薦技術(shù)應(yīng)運(yùn)而生。通過使用個性化推薦技術(shù),網(wǎng)站可以有效提高服質(zhì)量和效率。這不僅有助于解決網(wǎng)絡(luò)信息泛濫的問題,還能避免網(wǎng)站服務(wù)的單一化,因此可以既可以防止用戶的流失,還可以吸引更多的用戶。
[0003]當(dāng)前研究領(lǐng)域中,個性化推薦算法主要可以分為兩種:基于內(nèi)容的推薦方法(content-based)和協(xié)同過濾(collaborative filtering)?;趦?nèi)容的推薦算法首先需要計(jì)算用戶已經(jīng)選擇或使用過的項(xiàng)目與待推薦項(xiàng)目之間的相似度,然后把待推薦項(xiàng)目按照相似度大小進(jìn)行排序,相似度越高的項(xiàng)目,優(yōu)先推薦給用戶。目前基于內(nèi)容的推薦系統(tǒng)可以通過分析用戶和用戶已經(jīng)選擇或使用過的內(nèi)容,對用戶和項(xiàng)目分別建立針對其內(nèi)容特點(diǎn)的描述文件。系統(tǒng)可以通過比較用戶與項(xiàng)目的描述文件的相似度,直接向用戶推薦與其描述文件相似度較高的項(xiàng)目。協(xié)同過濾推薦算法是典型的利用集體智慧的算法。使用協(xié)同過濾進(jìn)行推薦時,系統(tǒng)首先根據(jù)所有用戶對各個項(xiàng)目的選擇或使用記錄找到與某個特定用戶在這些行為上比較相似的用戶群,也就是找到與目標(biāo)用戶興趣類似的用戶群,然后根據(jù)這個用戶群所選擇或使用過的項(xiàng)目進(jìn)行推薦。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是針對數(shù)字圖書館這一應(yīng)用領(lǐng)域,彌補(bǔ)了傳統(tǒng)協(xié)同過濾算法缺乏對圖書標(biāo)簽這一重要資源的利用的不足,提供一種使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法。
[0005]使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法包括以下步驟:
[0006]I)從數(shù)據(jù)庫獲得圖書標(biāo)簽數(shù)據(jù)集,即每一本圖書所具有的標(biāo)簽;從服務(wù)器日志獲得用戶的圖書閱讀記錄,即每一個用戶所閱讀過的圖書;
[0007]2)根據(jù)圖書標(biāo)簽數(shù)據(jù)集使用LDA-Gibbs算法建立標(biāo)簽_主題模型;
[0008]3)根據(jù)用戶的圖書閱讀記錄和圖書與標(biāo)簽的對應(yīng)關(guān)系,得到用戶-標(biāo)簽數(shù)據(jù)集;
[0009]4)根據(jù)用戶-標(biāo)簽數(shù)據(jù)集和標(biāo)簽-主題模型,使用LDA-1nference方法建立用戶-主題模型;
[0010]5)在針對某個特定用戶產(chǎn)生推薦時,根據(jù)已經(jīng)建立的用戶-主題模型尋找與該用戶的主題分布相似的用戶,即最近鄰用戶;
[0011]6)從最近鄰用戶的已讀圖書列表中獲得用于推薦的候選圖書,找出最近鄰用戶讀過的書中與指定用戶的主題分布最相似的推薦給用戶的η本圖書。
[0012]所述的步驟2)包括:首先將圖書看做文檔,標(biāo)簽看做單詞,假設(shè)有M篇文檔,語料庫有V個單詞,所有的單詞和對應(yīng)的主題采用如下方式表示:
【權(quán)利要求】
1.一種使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法,其特征在于包括以下步驟: 1)從數(shù)據(jù)庫獲得圖書標(biāo)簽數(shù)據(jù)集,即每一本圖書所具有的標(biāo)簽;從服務(wù)器日志獲得用戶的圖書閱讀記錄,即每一個用戶所閱讀過的圖書; 2)根據(jù)圖書標(biāo)簽數(shù)據(jù)集使用LDA-Gibbs算法建立標(biāo)簽-主題模型; 3)根據(jù)用戶的圖書閱讀記錄和圖書與標(biāo)簽的對應(yīng)關(guān)系,得到用戶-標(biāo)簽數(shù)據(jù)集; 4)根據(jù)用戶-標(biāo)簽數(shù)據(jù)集和標(biāo)簽-主題模型,使用LDA-1nference方法建立用戶-主題模型; 5)在針對某個特定用戶產(chǎn)生推薦時,根據(jù)已經(jīng)建立的用戶-主題模型尋找與該用戶的主題分布相似的用戶,即最近鄰用戶; 6)從最近鄰用戶的已讀圖書列表中獲得用于推薦的候選圖書,找出最近鄰用戶讀過的書中與指定用戶的主題分布最相似的推薦給用戶的η本圖書。
2.根據(jù)權(quán)利要求1所述的一種使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法,其特征在于:所述的步驟2)包括:首先將圖書看做文檔,標(biāo)簽看做單詞,假設(shè)有M篇文檔,語料庫有V個單詞,所有的單詞和對應(yīng)的主題采用如下方式表示:
3.根據(jù)權(quán)利要求1所述的一種使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法,其特征在于:所述的步驟4)包括:將用戶標(biāo)簽集合Tui作為文檔W,集合中的標(biāo)簽則作為文檔中的單詞t,對文檔進(jìn)行主題建模,也就是要求出文檔在主題上的分布σ,然后需要使用LDA-1nference算法估計(jì)未知參數(shù)σ,LDA-1nference算法的釆樣更新規(guī)則如下
4.根據(jù)權(quán)利要求1所述的一種使用標(biāo)簽隱含主題進(jìn)行圖書推薦的方法,其特征在于:所述的步驟5)包括:矩陣σ給出了用戶在K個主題上的低維表示,σ中的每一個值代表著某個用戶在某主題上的概率,矩陣如下所示
【文檔編號】G06F17/30GK103886067SQ201410105985
【公開日】2014年6月25日 申請日期:2014年3月20日 優(yōu)先權(quán)日:2014年3月20日
【發(fā)明者】張寅 , 高成, 伊燈, 吳江琴, 魏寶剛 申請人:浙江大學(xué)