一種新聞推薦方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子技術(shù)領(lǐng)域,尤其涉及一種新聞推薦方法及裝置。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)已成為一種為人們提供快捷便利信息資源的主要手段,但互聯(lián)網(wǎng)的飛速發(fā)展 產(chǎn)生了信息過載問題,解決信息超載問題一個非常有潛力的辦法是推薦系統(tǒng),它可以根據(jù) 用戶的信息需求、興趣等,將用戶感興趣的信息、產(chǎn)品等推薦給用戶,滿足用戶的個性化需 求。智能推薦系統(tǒng)充分運用了機器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理等相關(guān)領(lǐng)域的技術(shù)。推薦 系統(tǒng)現(xiàn)已廣泛應(yīng)用于很多領(lǐng)域,其中典型應(yīng)用有新聞推薦。新聞推薦可以幫助用戶快速找 到符合自己興趣的新聞,因此有必要在海量的新聞數(shù)據(jù)和用戶之間找到其中的關(guān)聯(lián)以精準(zhǔn) 地推薦。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提供一種新聞推薦方法及裝置??梢蕴岣咝侣勍扑]的精確性。
[0004] 本發(fā)明提供了一種新聞推薦方法,包括:
[0005] 獲取多個新聞中的目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù),所述多 個新聞的新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞數(shù)量;
[0006] 根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù),所述多個新聞的 新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞數(shù)量,分別計算所述 多個新聞的特征向量;
[0007] 根據(jù)所述多個新聞中待推薦新聞的特征向量以及所述多個新聞中用戶已閱讀新 聞的特征向量,確定所述待推薦新聞與所述用戶已閱讀新聞的相似度;
[0008] 若所述待推薦新聞與所述用戶已閱讀新聞的相似度大于預(yù)設(shè)閾值,則對所述待推 薦新聞進(jìn)行推薦。
[0009] 其中,所述根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù),所述 多個新聞的新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞數(shù)量,分 別計算所述多個新聞的特征向量包括:
[0010] 根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù),所述多個新聞的 新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞數(shù)量,計算所述指定 詞語在所述目標(biāo)新聞中的詞頻以及所述指定詞語在所述多個新聞中的詞頻;
[0011] 將所述指定詞語在所述目標(biāo)新聞中的詞頻乘以所述指定詞語在所述多個新聞中 的詞頻,計算得到所述指定詞語在所述目標(biāo)新聞中的關(guān)鍵值;
[0012] 根據(jù)所述指定詞語在所述目標(biāo)新聞中的關(guān)鍵值,確定所述目標(biāo)新聞的特征向量。
[0013] 其中,所述根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù),所述 多個新聞的新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞數(shù)量,計 算所述指定詞語在所述目標(biāo)新聞中的詞頻以及所述指定詞語在所述多個新聞中的詞頻包 括:
[0014] 根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù),計算所述目標(biāo)新 聞中的各個詞語在目標(biāo)新聞中的出現(xiàn)次數(shù)之和;
[0015] 計算所述目標(biāo)新聞中的指定詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù)與所述目標(biāo)新聞 中的各個詞語在目標(biāo)新聞中的出現(xiàn)次數(shù)之和的比值得到所述指定詞語在所述目標(biāo)新聞中 的詞頻。
[0016] 其中,所述指定詞語在所述多個新聞中的詞頻# = l〇gj^,其中,D為所述多 個新聞的新聞總數(shù),T為所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞數(shù)量。
[0017] 其中,所述根據(jù)所述指定詞語在所述目標(biāo)新聞中的關(guān)鍵值,確定所述目標(biāo)新聞的 特征向量包括:
[0018] 根據(jù)所述目標(biāo)新聞中各個詞語在所述目標(biāo)新聞中的關(guān)鍵值,從所述目標(biāo)新聞中的 各個詞語中選擇預(yù)設(shè)個數(shù)的詞語;
[0019] 根據(jù)所述選擇的預(yù)設(shè)個數(shù)的詞語分別對應(yīng)的關(guān)鍵值,生成得到所述目標(biāo)新聞的特 征向量。
[0020] 其中,所述根據(jù)所述多個新聞中待推薦新聞的特征向量以及所述多個新聞中用戶 已閱讀新聞的特征向量,確定所述待推薦新聞與所述用戶已閱讀新聞的相似度包括:
[0021] 計算所述待推薦新聞的特征向量與所述多個新聞中用戶已閱讀新聞的特征向量 之間的余弦值;
[0022] 將所述待推薦新聞的特征向量與所述多個新聞中用戶已閱讀新聞的特征向量之 間的余弦值作為所述待推薦新聞與所述用戶已閱讀新聞的相似度。
[0023] 相應(yīng)地,本發(fā)明提供了另一種新聞推薦方法,包括:
[0024] 根據(jù)多個新聞之間的相互轉(zhuǎn)移次數(shù),建立所述多個新聞之間的頻率轉(zhuǎn)移矩陣;
[0025] 將所述多個新聞之間的頻率轉(zhuǎn)移矩陣生成得到所述多個新聞的關(guān)聯(lián)度排布表,所 述關(guān)聯(lián)度排布表包括所述多個新聞中的目標(biāo)新聞分別轉(zhuǎn)移到所述多個新聞中的其他新聞 的次數(shù);
[0026] 根據(jù)所述關(guān)聯(lián)度排布表,確定所述多個新聞之間的轉(zhuǎn)移比值;
[0027] 根據(jù)所述多個新聞之間的轉(zhuǎn)移比值,從所述多個新聞中確定推送的新聞。
[0028] 其中,所述根據(jù)所述關(guān)聯(lián)度排布表,確定所述多個新聞之間的轉(zhuǎn)移比值包括:
[0029] 計算所述目標(biāo)新聞轉(zhuǎn)移到所述其他新聞中的第一新聞的次數(shù)與所述目標(biāo)新聞轉(zhuǎn) 移到所述其他新聞中的第二新聞的次數(shù)的比值得到所述多個新聞之間的轉(zhuǎn)移比值,所述目 標(biāo)新聞轉(zhuǎn)移到所述第一新聞的次數(shù)與所述目標(biāo)新聞轉(zhuǎn)移到所述第二新聞的次數(shù)在所述關(guān) 聯(lián)度排布表中相鄰排列。
[0030] 其中,所述根據(jù)所述多個新聞之間的轉(zhuǎn)移比值,從所述多個新聞中確定推送的新 聞包括:
[0031] 若所述目標(biāo)新聞轉(zhuǎn)移到所述第一新聞的次數(shù)與所述目標(biāo)新聞轉(zhuǎn)移到所述第二新 聞的次數(shù)的比值大于預(yù)設(shè)比值,則推送所述第一網(wǎng)頁。
[0032] 相應(yīng)地,本發(fā)明提供了一種新聞推薦裝置,包括:
[0033] 數(shù)量獲取模塊,用于獲取多個新聞中的目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中 的出現(xiàn)次數(shù),所述多個新聞的新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞 語的新聞數(shù)量;
[0034] 向量計算模塊,用于根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次 數(shù),所述多個新聞的新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞 數(shù)量,分別計算所述多個新聞的特征向量;
[0035] 相似度確定模塊,用于根據(jù)所述多個新聞中待推薦新聞的特征向量以及所述多個 新聞中用戶已閱讀新聞的特征向量,確定所述待推薦新聞與所述用戶已閱讀新聞的相似 度;
[0036] 新聞推薦模塊,用于若所述待推薦新聞與所述用戶已閱讀新聞的相似度大于預(yù)設(shè) 閾值,則對所述待推薦新聞進(jìn)行推薦。
[0037] 其中,所述向量計算模塊包括:
[0038] 詞頻計算單元,用于根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次 數(shù),所述多個新聞的新聞總數(shù)以及所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞 數(shù)量,計算所述指定詞語在所述目標(biāo)新聞中的詞頻以及所述指定詞語在所述多個新聞中的 詞頻;
[0039] 關(guān)鍵值計算單元,用于將所述指定詞語在所述目標(biāo)新聞中的詞頻乘以所述指定詞 語在所述多個新聞中的詞頻,計算得到所述指定詞語在所述目標(biāo)新聞中的關(guān)鍵值;
[0040] 向量確定單元,用于根據(jù)所述指定詞語在所述目標(biāo)新聞中的關(guān)鍵值,確定所述目 標(biāo)新聞的特征向量。
[0041] 其中,所述根詞頻計算單元具體用于:
[0042] 根據(jù)所述目標(biāo)新聞中的各個詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù),計算所述目標(biāo)新 聞中的各個詞語在目標(biāo)新聞中的出現(xiàn)次數(shù)之和;以及
[0043] 計算所述目標(biāo)新聞中的指定詞語在所述目標(biāo)新聞中的出現(xiàn)次數(shù)與所述目標(biāo)新聞 中的各個詞語在目標(biāo)新聞中的出現(xiàn)次數(shù)之和的比值得到所述指定詞語在所述目標(biāo)新聞中 的詞頻。
[0044] 其中,所述指定詞語在所述多個新聞中的詞頻辦' = l〇gy^,其中,D為所述多 個新聞的新聞總數(shù),T為所述多個新聞中包含所述目標(biāo)新聞中的指定詞語的新聞數(shù)量。
[0045] 其中,所述向量確定單元具體用于:
[0046] 根據(jù)所述目標(biāo)新聞中各個詞語在所述目標(biāo)新聞中的關(guān)鍵值,從所述目標(biāo)新聞中的 各個詞語中選擇預(yù)設(shè)個數(shù)的詞語;以及
[0047] 根據(jù)所述選擇的預(yù)設(shè)個數(shù)的詞語分別對應(yīng)的關(guān)鍵值,生成得到所述目標(biāo)新聞的特 征向量。
[0048] 其中,所述相似度確定模塊包括:
[004