基于LDA主題模型的內(nèi)容推薦方法與流程

文檔序號：11323276閱讀：6755來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及網(wǎng)站社區(qū)內(nèi)容推薦技術(shù)，尤其涉及一種基于lda(隱含狄利克雷分布)主題模型的內(nèi)容推薦方法。

背景技術(shù)：

現(xiàn)有的推薦系統(tǒng)多基于協(xié)同推薦算法，例如基于標(biāo)簽的用戶協(xié)同過濾的內(nèi)容推薦方法(基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法及裝置，申請?zhí)?016104907106)，但是在現(xiàn)有階段的推薦算法并沒有解決標(biāo)簽的問題，仍然需要人為地輸入標(biāo)簽。同時基于內(nèi)容的推薦算法在效率上仍然收到一些限制，在時效性上有所缺陷。針對這些難點以及網(wǎng)絡(luò)論壇內(nèi)容推送的需要，自動提取主題關(guān)鍵字并進(jìn)行相關(guān)內(nèi)容推送具有更多的優(yōu)勢。

技術(shù)實現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題在于針對現(xiàn)有技術(shù)中的缺陷，提供一種基于lda主題模型的內(nèi)容推薦方法。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是：一種基于lda主題模型的內(nèi)容推薦方法，包括以下步驟：

1)根據(jù)需求選擇網(wǎng)站社區(qū)話題數(shù)據(jù)建立中文語料庫；所述網(wǎng)站社區(qū)話題數(shù)據(jù)由該話題下的子話題數(shù)據(jù)組成；

2)使用lda主題模型訓(xùn)練文檔集，建立多個一級主題lda模型；

2.1)通過子話題原始數(shù)據(jù)的人工標(biāo)簽信息，以最小集合的大小確定主題數(shù)目；

2.2)針對每一個子話題，使用步驟1)中文語料庫中的文檔集訓(xùn)練gensim的主題模型；

2.3)根據(jù)主題模型的訓(xùn)練結(jié)果，以每個主題的構(gòu)成的前設(shè)定個數(shù)的高比重詞語作為該主題的主題關(guān)鍵詞；

3)接收用戶輸入信息，針對用戶輸入信息，通過一級主題lda模型生成主題詞組，應(yīng)用于該輸入和用戶，應(yīng)用步驟如下：

3.1)當(dāng)用戶在論壇中發(fā)布帖子時，默認(rèn)讓用戶選擇論壇中事先設(shè)置的一級話題標(biāo)簽，獲取帖子和一級話題標(biāo)簽之后運用對應(yīng)的主題模型進(jìn)行主題詞組提取；

3.2)如果用戶針對該發(fā)布的帖子，還輸入了若干標(biāo)簽，那么將用戶輸入標(biāo)簽和模型生成的主題詞作為最終的主題詞組；

3.3)根據(jù)最終的主題詞組更新用戶的標(biāo)簽；

4)根據(jù)用戶的標(biāo)簽進(jìn)行匹配推薦：

根據(jù)用戶的標(biāo)簽，按照詞語權(quán)重依次減少的順序篩選相關(guān)內(nèi)容進(jìn)行推薦。

按上述方案，所述步驟1)中建立中文語料庫，包含以下步驟：

1)使用爬蟲，獲取所選擇網(wǎng)站社區(qū)話題子話題的數(shù)據(jù)，各一百個帖子；

2)針對每一子話題，使用結(jié)巴分詞，過濾停用詞以及回答字?jǐn)?shù)較短的回答，每一問題作為文檔原始數(shù)據(jù)；

3)針對每一子話題，通過gensim的dictionary工具建立詞向量以及文檔模型建立文檔集合。

按上述方案，所述步驟2.3)中設(shè)定個數(shù)為3個至5個。

按上述方案，所述步驟3.2)中最終的主題詞組順序為用戶輸入標(biāo)簽在先，模型生成的主題詞組在后。

本發(fā)明產(chǎn)生的有益效果是：

1.本發(fā)明建立了多個一級主題的lda主題模型，借用了決策樹中的小領(lǐng)域?qū)＜腋拍睿軌驕p少由于單一主題模型過大導(dǎo)致的加載和應(yīng)用較慢的情況。

2.本發(fā)明通過后臺lda主題模型生成標(biāo)簽，并通過計算排序選擇設(shè)定數(shù)量的標(biāo)簽，同時根據(jù)標(biāo)簽來推薦帖子，這樣減少了計算的代價，而且也提升了推薦的精準(zhǔn)度。

附圖說明

下面將結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步說明，附圖中：

圖1是本發(fā)明實施例的使用知乎健康話題數(shù)據(jù)建立中文語料庫圖的方法流程圖；

圖2是本發(fā)明實施例的建立多個一級主題lda模型的方法流程圖；

圖3是本發(fā)明實施例的根據(jù)用戶輸入應(yīng)用模型生成主題詞組的方法流程圖；

圖4是本發(fā)明實施例的對用戶的主題詞組進(jìn)行匹配推薦的方法流程圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合實施例，對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

如圖1所示，一種基于lda主題模型的內(nèi)容推薦方法，本實施例基于知乎健康話題數(shù)據(jù)，具體如下：

一、使用知乎健康話題數(shù)據(jù)建立中文語料庫，包含以下步驟：

1)建立知乎賬號，用于信息獲??；

2)使用爬蟲，獲取所有健康子話題的數(shù)據(jù)，各一百個問題；本實施例中使用beautifulsoup，request實現(xiàn)知乎爬蟲；通過https://www.zhihu.com/topic/19550937/organize/entire#anchor-children-topic獲取所有一級子話題的連接，通過每一個連接獲取100個問題的數(shù)據(jù)。數(shù)據(jù)包括問題的標(biāo)題，描述，標(biāo)簽(人為標(biāo)注的)，前五十個回答；然后將所有信息保存至數(shù)據(jù)庫(添加對應(yīng)的子話題標(biāo)簽)，使用sqlalchemy封裝每一個問題為一個數(shù)據(jù)庫行對象；

3)針對每一子話題，使用結(jié)巴分詞，過濾停用詞以及回答較短的回答，每一問題作為文檔原始數(shù)據(jù)；

a)從數(shù)據(jù)庫中按照子話題提取該話題下的所有原始數(shù)據(jù)；

b)針對每一個問題，如果當(dāng)前問題的回答字?jǐn)?shù)小于三十字，則忽略當(dāng)前回答；

c)針對每一個問題，合并所有已分詞的回答作為文檔原始數(shù)據(jù)；

4)針對每一子話題，通過gensim的dictionary或word2vec工具建立詞向量以及文檔模型建立文檔集合；

a)針對上一步產(chǎn)生的文檔原始數(shù)據(jù)，使用dictionary.doc2bow函數(shù)建立corpus；

b)保存corpus以及dictionary到本地，便于以后使用；

二、使用lda主題模型訓(xùn)練文檔集，建立多個一級主題lda模型。如圖2所示，使用lda主題模型訓(xùn)練文檔集，建立多個一級主題lda模型，包含以下步驟：

1)通過子話題原始數(shù)據(jù)的人工標(biāo)簽信息，以最小集合的大小確定主題數(shù)目；從數(shù)據(jù)庫中獲取當(dāng)前一級話題的所有標(biāo)簽信息，進(jìn)行去重計數(shù)，確定主題模型的主題數(shù)目k；

2)針對每一個子話題，使用步驟一中生成的文檔集訓(xùn)練gensim的主題模型；調(diào)用gensim的模型庫中的ldamodel函數(shù)建立模型；

3)針對主題模型結(jié)果，以每個主題的構(gòu)成的前五個高比重詞語作為該主題的主題關(guān)鍵詞；

使用lda主題模型訓(xùn)練文檔集，建立多個一級主題lda模型，包含以下步驟：

三、針對用戶輸入，應(yīng)用模型生成主題詞組，應(yīng)用于該輸入和用戶。

如圖3，針對用戶輸入，應(yīng)用模型生成主題詞組，應(yīng)用于該輸入和用戶，包含以下步驟：

1)用戶在論壇中輸入一段文字以及選擇一級話題標(biāo)簽，后臺獲取之后運用對應(yīng)的主題模型進(jìn)行主題詞組提?。?/p>

2)如果用戶針對該段文字，也輸入了一些標(biāo)簽，那么結(jié)合用戶輸入標(biāo)簽和模型生成的主題詞作為最終的主題詞組；

3)同時更新用戶的標(biāo)簽；

從主題詞組中取出前n個(n可以設(shè)定，例如n＝5)主題詞，這n個主題詞將用于更新用戶標(biāo)簽，如果這n個主題詞有與用戶當(dāng)前標(biāo)簽重合的，那么增加該標(biāo)簽的權(quán)重，計算方式為：

其中，s(m)表示當(dāng)期第m個用戶標(biāo)簽的得分，ti^(m)表示當(dāng)前m標(biāo)簽第i次出現(xiàn)的得分，值為1；

分母表示所有標(biāo)簽的總分，k表示當(dāng)前標(biāo)簽的序號，范圍從0～4，共五個標(biāo)簽。

四、對用戶的主題詞組進(jìn)行匹配推薦。

如圖4，對用戶的主題詞組進(jìn)行匹配推薦，包含以下步驟：

1)根據(jù)用戶的主題詞組，按照五個詞語權(quán)重依次減少的順序篩選相關(guān)內(nèi)容進(jìn)行推薦；依次篩選搜索數(shù)據(jù)庫中包含用戶主題詞的相關(guān)內(nèi)容，作為推送的最終數(shù)據(jù)。

應(yīng)當(dāng)理解的是，對本領(lǐng)域普通技術(shù)人員來說，可以根據(jù)上述說明加以改進(jìn)或變換，而所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：崔曉暉;肖蓉;周錦章;牟成豪
技術(shù)所有人：武漢大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于角點描述子的圖像檢索方法與流程
上一篇：一種基于北斗的通信系統(tǒng)的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于LDA主題模型的內(nèi)容推薦方法與流程