本發(fā)明涉及網(wǎng)站社區(qū)內(nèi)容推薦技術(shù),尤其涉及一種基于lda(隱含狄利克雷分布)主題模型的內(nèi)容推薦方法。
背景技術(shù):
現(xiàn)有的推薦系統(tǒng)多基于協(xié)同推薦算法,例如基于標(biāo)簽的用戶協(xié)同過濾的內(nèi)容推薦方法(基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法及裝置,申請?zhí)?016104907106),但是在現(xiàn)有階段的推薦算法并沒有解決標(biāo)簽的問題,仍然需要人為地輸入標(biāo)簽。同時基于內(nèi)容的推薦算法在效率上仍然收到一些限制,在時效性上有所缺陷。針對這些難點以及網(wǎng)絡(luò)論壇內(nèi)容推送的需要,自動提取主題關(guān)鍵字并進(jìn)行相關(guān)內(nèi)容推送具有更多的優(yōu)勢。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題在于針對現(xiàn)有技術(shù)中的缺陷,提供一種基于lda主題模型的內(nèi)容推薦方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于lda主題模型的內(nèi)容推薦方法,包括以下步驟:
1)根據(jù)需求選擇網(wǎng)站社區(qū)話題數(shù)據(jù)建立中文語料庫;所述網(wǎng)站社區(qū)話題數(shù)據(jù)由該話題下的子話題數(shù)據(jù)組成;
2)使用lda主題模型訓(xùn)練文檔集,建立多個一級主題lda模型;
2.1)通過子話題原始數(shù)據(jù)的人工標(biāo)簽信息,以最小集合的大小確定主題數(shù)目;
2.2)針對每一個子話題,使用步驟1)中文語料庫中的文檔集訓(xùn)練gensim的主題模型;
2.3)根據(jù)主題模型的訓(xùn)練結(jié)果,以每個主題的構(gòu)成的前設(shè)定個數(shù)的高比重詞語作為該主題的主題關(guān)鍵詞;
3)接收用戶輸入信息,針對用戶輸入信息,通過一級主題lda模型生成主題詞組,應(yīng)用于該輸入和用戶,應(yīng)用步驟如下:
3.1)當(dāng)用戶在論壇中發(fā)布帖子時,默認(rèn)讓用戶選擇論壇中事先設(shè)置的一級話題標(biāo)簽,獲取帖子和一級話題標(biāo)簽之后運用對應(yīng)的主題模型進(jìn)行主題詞組提取;
3.2)如果用戶針對該發(fā)布的帖子,還輸入了若干標(biāo)簽,那么將用戶輸入標(biāo)簽和模型生成的主題詞作為最終的主題詞組;
3.3)根據(jù)最終的主題詞組更新用戶的標(biāo)簽;
4)根據(jù)用戶的標(biāo)簽進(jìn)行匹配推薦:
根據(jù)用戶的標(biāo)簽,按照詞語權(quán)重依次減少的順序篩選相關(guān)內(nèi)容進(jìn)行推薦。
按上述方案,所述步驟1)中建立中文語料庫,包含以下步驟:
1)使用爬蟲,獲取所選擇網(wǎng)站社區(qū)話題子話題的數(shù)據(jù),各一百個帖子;
2)針對每一子話題,使用結(jié)巴分詞,過濾停用詞以及回答字?jǐn)?shù)較短的回答,每一問題作為文檔原始數(shù)據(jù);
3)針對每一子話題,通過gensim的dictionary工具建立詞向量以及文檔模型建立文檔集合。
按上述方案,所述步驟2.3)中設(shè)定個數(shù)為3個至5個。
按上述方案,所述步驟3.2)中最終的主題詞組順序為用戶輸入標(biāo)簽在先,模型生成的主題詞組在后。
本發(fā)明產(chǎn)生的有益效果是:
1.本發(fā)明建立了多個一級主題的lda主題模型,借用了決策樹中的小領(lǐng)域?qū)<腋拍睿軌驕p少由于單一主題模型過大導(dǎo)致的加載和應(yīng)用較慢的情況。
2.本發(fā)明通過后臺lda主題模型生成標(biāo)簽,并通過計算排序選擇設(shè)定數(shù)量的標(biāo)簽,同時根據(jù)標(biāo)簽來推薦帖子,這樣減少了計算的代價,而且也提升了推薦的精準(zhǔn)度。
附圖說明
下面將結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步說明,附圖中:
圖1是本發(fā)明實施例的使用知乎健康話題數(shù)據(jù)建立中文語料庫圖的方法流程圖;
圖2是本發(fā)明實施例的建立多個一級主題lda模型的方法流程圖;
圖3是本發(fā)明實施例的根據(jù)用戶輸入應(yīng)用模型生成主題詞組的方法流程圖;
圖4是本發(fā)明實施例的對用戶的主題詞組進(jìn)行匹配推薦的方法流程圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,一種基于lda主題模型的內(nèi)容推薦方法,本實施例基于知乎健康話題數(shù)據(jù),具體如下:
一、使用知乎健康話題數(shù)據(jù)建立中文語料庫,包含以下步驟:
1)建立知乎賬號,用于信息獲??;
2)使用爬蟲,獲取所有健康子話題的數(shù)據(jù),各一百個問題;本實施例中使用beautifulsoup,request實現(xiàn)知乎爬蟲;通過https://www.zhihu.com/topic/19550937/organize/entire#anchor-children-topic獲取所有一級子話題的連接,通過每一個連接獲取100個問題的數(shù)據(jù)。數(shù)據(jù)包括問題的標(biāo)題,描述,標(biāo)簽(人為標(biāo)注的),前五十個回答;然后將所有信息保存至數(shù)據(jù)庫(添加對應(yīng)的子話題標(biāo)簽),使用sqlalchemy封裝每一個問題為一個數(shù)據(jù)庫行對象;
3)針對每一子話題,使用結(jié)巴分詞,過濾停用詞以及回答較短的回答,每一問題作為文檔原始數(shù)據(jù);
a)從數(shù)據(jù)庫中按照子話題提取該話題下的所有原始數(shù)據(jù);
b)針對每一個問題,如果當(dāng)前問題的回答字?jǐn)?shù)小于三十字,則忽略當(dāng)前回答;
c)針對每一個問題,合并所有已分詞的回答作為文檔原始數(shù)據(jù);
4)針對每一子話題,通過gensim的dictionary或word2vec工具建立詞向量以及文檔模型建立文檔集合;
a)針對上一步產(chǎn)生的文檔原始數(shù)據(jù),使用dictionary.doc2bow函數(shù)建立corpus;
b)保存corpus以及dictionary到本地,便于以后使用;
二、使用lda主題模型訓(xùn)練文檔集,建立多個一級主題lda模型。如圖2所示,使用lda主題模型訓(xùn)練文檔集,建立多個一級主題lda模型,包含以下步驟:
1)通過子話題原始數(shù)據(jù)的人工標(biāo)簽信息,以最小集合的大小確定主題數(shù)目;從數(shù)據(jù)庫中獲取當(dāng)前一級話題的所有標(biāo)簽信息,進(jìn)行去重計數(shù),確定主題模型的主題數(shù)目k;
2)針對每一個子話題,使用步驟一中生成的文檔集訓(xùn)練gensim的主題模型;調(diào)用gensim的模型庫中的ldamodel函數(shù)建立模型;
3)針對主題模型結(jié)果,以每個主題的構(gòu)成的前五個高比重詞語作為該主題的主題關(guān)鍵詞;
使用lda主題模型訓(xùn)練文檔集,建立多個一級主題lda模型,包含以下步驟:
三、針對用戶輸入,應(yīng)用模型生成主題詞組,應(yīng)用于該輸入和用戶。
如圖3,針對用戶輸入,應(yīng)用模型生成主題詞組,應(yīng)用于該輸入和用戶,包含以下步驟:
1)用戶在論壇中輸入一段文字以及選擇一級話題標(biāo)簽,后臺獲取之后運用對應(yīng)的主題模型進(jìn)行主題詞組提?。?/p>
2)如果用戶針對該段文字,也輸入了一些標(biāo)簽,那么結(jié)合用戶輸入標(biāo)簽和模型生成的主題詞作為最終的主題詞組;
3)同時更新用戶的標(biāo)簽;
從主題詞組中取出前n個(n可以設(shè)定,例如n=5)主題詞,這n個主題詞將用于更新用戶標(biāo)簽,如果這n個主題詞有與用戶當(dāng)前標(biāo)簽重合的,那么增加該標(biāo)簽的權(quán)重,計算方式為:
其中,s(m)表示當(dāng)期第m個用戶標(biāo)簽的得分,ti(m)表示當(dāng)前m標(biāo)簽第i次出現(xiàn)的得分,值為1;
分母表示所有標(biāo)簽的總分,k表示當(dāng)前標(biāo)簽的序號,范圍從0~4,共五個標(biāo)簽。
四、對用戶的主題詞組進(jìn)行匹配推薦。
如圖4,對用戶的主題詞組進(jìn)行匹配推薦,包含以下步驟:
1)根據(jù)用戶的主題詞組,按照五個詞語權(quán)重依次減少的順序篩選相關(guān)內(nèi)容進(jìn)行推薦;依次篩選搜索數(shù)據(jù)庫中包含用戶主題詞的相關(guān)內(nèi)容,作為推送的最終數(shù)據(jù)。
應(yīng)當(dāng)理解的是,對本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進(jìn)或變換,而所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。