一種基于用戶搜索行為的個性化推薦方法和系統(tǒng)的制作方法
【專利摘要】本申請實施例提供了一種文本訓練方法,包括:獲取語料庫,以及,用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間;采用每個分類的訓練文本生成所述分類的訓練特征項,以及,采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項;針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。本申請實施例計算簡單,計算時間少,計算準確度高,相對應的進行推薦的匹配率高,推薦成功率高。
【專利說明】一種基于用戶搜索行為的個性化推薦方法和系統(tǒng)
【技術領域】
[0001]本申請實施例涉及數(shù)據(jù)處理【技術領域】,特別是涉及一種文本訓練方法、一種文本訓練系統(tǒng)、一種基于用戶搜索行為的喜好特征分類方法、一種基于用戶搜索行為的喜好特征分類系統(tǒng)、一種基于用戶搜索行為的個性化推薦方法和一種基于用戶搜索行為的個性化推薦系統(tǒng)。
【背景技術】
[0002]因特網(wǎng)Internet的迅猛發(fā)展將人們帶入了信息社會和網(wǎng)絡經(jīng)濟時代,對企業(yè)的發(fā)展和個人生活都產(chǎn)生了深刻的影響。同時,過量的信息使得人們無法高效地從中獲取自己需要的部分,信息的使用效率反而降低。
[0003]當人們需要獲取喜好的信息時,往往要人工進行搜索,然后過濾不相關的信息,菜獲取喜好信息。顯然,人們不愿意花費太多時間在漫無邊際的網(wǎng)上尋找喜好信息,而是希望根據(jù)自身的興趣愛好自動獲取系統(tǒng)推薦的且會喜好的信息。因此,計算用戶興趣偏好分類的作用顯得十分突出。
[0004]目前可以根據(jù)用戶所訪問的網(wǎng)站頻道或者網(wǎng)頁進行興趣偏好的分類,步驟為:
[0005](I)、對頻道或者網(wǎng)頁進行人工標注,標注其受眾所屬偏好類型;
[0006](2)、統(tǒng)計用戶訪問的頻道或者網(wǎng)頁及其次數(shù),按照次數(shù)降序排列并獲取前N個頻道或者網(wǎng)頁;其中,N為正整數(shù);
[0007](3)、若用戶訪問了某頻道的某個網(wǎng)頁,則取上述獲取的頻道中其他網(wǎng)頁進行推薦,或者上述獲取的網(wǎng)頁中其他同頻道的網(wǎng)頁進行推薦。
[0008]對于該方法來說,其分類的準確性取決于在網(wǎng)站頻道劃分的粒度,粒度過大的情況下,對分類的精準性會產(chǎn)生負面影響。
[0009]因此,目前需要本領域技術人員迫切解決的一個技術問題就是:提出一種計算用戶興趣特征分類的機制,分類準確率高,可以基于計算結果進行針對性的服務,提高服務的效率。
[0010]申請內(nèi)容
[0011]本申請實施例所要解決的技術問題是提供一種基于用戶行為的特征提取的方法及一種基于用戶行為的個性化推薦的方法,能夠基于用戶的行為信息將用戶劃分為興趣愛好相近的用戶群,并提取出不同用戶群的特征,使該特征可以區(qū)分不同的用戶群,在個性化推薦時跟據(jù)此特征快速高效地進行推薦。
[0012]相應的,本申請實施例還提供了一種基于用戶行為的特征提取的系統(tǒng)及一種基于用戶行為的個性化推薦的系統(tǒng),用以保證上述方法的實現(xiàn)及應用。
[0013]本申請實施例公開了一種文本訓練方法,包括:
[0014]獲取語料庫,以及,用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間;[0015]采用每個分類的訓練文本生成所述分類的訓練特征項,以及,采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項;
[0016]針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。
[0017]優(yōu)選地,所述采用每個分類的訓練文本生成所述分類的訓練特征項的步驟包括:
[0018]在每個分類中,針對每個訓練文檔進行分詞;
[0019]統(tǒng)計每個分詞在所述分類中的出現(xiàn)頻次;
[0020]按照出現(xiàn)頻次將所述分詞從高到低進行排序;
[0021]提取預設數(shù)量的前M個分詞及其出現(xiàn)頻次,生成所述分類的訓練特征項;其中,M為正整數(shù);
[0022]所述采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項的步驟包括:
[0023]針對每個搜索短語進行分詞;
[0024]統(tǒng)計每個分詞的出現(xiàn)頻次;
[0025]按照出現(xiàn)頻次將所述分詞從高到低進行排序;
[0026]提取預設數(shù)量的前N個分詞,生成所述用戶搜索行為測試文檔的搜索特征項;其中,N為正整數(shù)。
[0027]優(yōu)選地,所述針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶分類模型的步驟包括:
[0028]計算各個分類的訓練文本占所有訓練文本的比例的先驗概率;
[0029]將各個分類的訓練特征項的出現(xiàn)頻次作為與所述訓練特征項相同的搜索特征項在所述分類中的出現(xiàn)頻次;
[0030]采用所述出現(xiàn)頻次計算所述各個分類出現(xiàn)所述搜索特征項的第一條件概率;
[0031]按照搜索時間為對應的搜索特征項配置權重;
[0032]采用所述權重和所述第一條件概率計算在各個分類出現(xiàn)所述用戶搜索行為測試文檔的第二條件概率;
[0033]采用所述先驗概率和所述第二條件概率計算用戶搜索行為測試文檔歸屬各個分類的后驗概率;
[0034]提取最大的后驗概率對應的分類作為用戶搜索行為測試文檔歸屬的分類;
[0035]依據(jù)所述用戶搜索行為測試文檔原歸屬的分類及當前計算歸屬的分類,判斷是否滿足預設條件;若是,則獲得最終的用戶喜好特征分類模型;若否,則返回所述按照搜索時間為對應的搜索特征項配置權重的子步驟。
[0036]優(yōu)選地,所述第一條件概率通過以下公式獲得:
【權利要求】
1.一種文本訓練方法,其特征在于,包括: 獲取語料庫,以及,用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 采用每個分類的訓練文本生成所述分類的訓練特征項,以及,采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項; 針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。
2.根據(jù)權利要求1所述的方法,其特征在于,所述采用每個分類的訓練文本生成所述分類的訓練特征項的步驟包括: 在每個分類中,針對每個訓練文檔進行分詞; 統(tǒng)計每個分詞在所述分類中的出現(xiàn)頻次; 按照出現(xiàn)頻次將所述分詞從高到低進行排序; 提取預設數(shù)量的前M個分詞及其出現(xiàn)頻次,生成所述分類的訓練特征項;其中,M為正整數(shù); 所述采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項的步驟包括: 針對每個搜索短語進行分詞; 統(tǒng)計每個分詞的出現(xiàn)頻次; 按照出現(xiàn)頻次將所述分 詞從高到低進行排序; 提取預設數(shù)量的前N個分詞,生成所述用戶搜索行為測試文檔的搜索特征項;其中,N為正整數(shù)。
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶分類模型的步驟包括: 計算各個分類的訓練文本占所有訓練文本的比例的先驗概率; 將各個分類的訓練特征項的出現(xiàn)頻次作為與所述訓練特征項相同的搜索特征項在所述分類中的出現(xiàn)頻次; 采用所述出現(xiàn)頻次計算所述各個分類出現(xiàn)所述搜索特征項的第一條件概率; 按照搜索時間為對應的搜索特征項配置權重; 采用所述權重和所述第一條件概率計算在各個分類出現(xiàn)所述用戶搜索行為測試文檔的第二條件概率; 采用所述先驗概率和所述第二條件概率計算用戶搜索行為測試文檔歸屬各個分類的后驗概率; 提取最大的后驗概率對應的分類作為用戶搜索行為測試文檔歸屬的分類; 依據(jù)所述用戶搜索行為測試文檔原歸屬的分類及當前計算歸屬的分類,判斷是否滿足預設條件;若是,則獲得最終的用戶喜好特征分類模型;若否,則返回所述按照搜索時間為對應的搜索特征項配置權重的子步驟。
4.根據(jù)權利要求3所述的方法,其特征在于,所述第一條件概率通過以下公式獲得:…,.l + TF(tj9ct) k*)-.---
(ri+Y TF(IpCt)
β? 其中,TF(tj; xk)為搜索特征項tj在分類ck中的出現(xiàn)頻次,|V|為在分類Ck中訓練特征項的總數(shù)量。
5.根據(jù)權利要求3所述的方法,其特征在于,所述按照搜索時間為對應的搜索特征項配置權重的步驟包括: 統(tǒng)計出現(xiàn)所述搜索特征項的訓練文本數(shù)量; 配置用戶興趣的半衰期; 采用以下公式獲得所述權重:
JYCrF(Ii)XlDF(I1))2 g U
V |?1 其中,TFai)為搜索特征項\在分類ck中的出現(xiàn)頻次; hi為所述用戶興趣的半衰期; (Tday為當前時間,dlast為搜索特征項\離當前時間最近的搜索時間;
;其中,ni為出現(xiàn)搜索特征項\的訓練文本的數(shù)量,N為訓練文本的總
B1數(shù)量,L為影響因子。
6.根據(jù)權利要求3所述的方法,其特征在于,所述第二條件概率通過以下公式獲得:
Ict) _ F(i; 其中,η為搜索特征項的總數(shù)量;P (t」ck)為所述第一條件概率,為搜索特征項tj的權重。
7.根據(jù)權利要求3所述的方法,其特征在于,所述最大的后驗概率對應的分類通過以下公式獲得: class(d,) - arg maxi F (Ci |(》}飄 arg m ax { F (ct )F (d, |ct)|I? i β]eIIsl d|cI 其中,|c|為分類的總數(shù)量,P(CkIdi)為所述后驗概率,P(Ck)為所述先驗概率,P (Cli I Ck)為所述第二條件概率。
8.一種基于用戶搜索行為的喜好特征分類方法,其特征在于,包括: 收集用戶的原始搜索行為信息,依據(jù)所述用戶的原始搜索行為信息生成用戶搜索行為文檔;所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 采用所述用戶搜索行為文檔和用戶喜好特征分類模型計算用戶的喜好特征分類; 其中,所述用戶喜好特征分類模型通過如下方式生成: 獲取語料庫,以及,用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 采用每個分類的訓練文本生成所述分類的訓練特征項,以及,采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項; 針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。
9.一種基于用戶搜索行為的個性化推薦方法,其特征在于,包括: 獲取用戶的行為信息,所述用戶的行為信息包括用戶標識; 根據(jù)所述用戶標識確定用戶的喜好特征分類; 采用所述喜好分類生成對應的個性化推薦信息; 采用所述個性化推薦信息向當前用戶進行推薦; 其中,所述用戶的喜好特征分類通過如下方式生成: 收集用戶的原始搜索行為信息,依據(jù)所述用戶的原始搜索行為信息生成用戶搜索行為文檔;所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 采用所述用戶搜索行為文檔和用戶喜好特征分類模型計算用戶的喜好分類; 其中,所述用戶喜好特征分類模型通過如下方式生成: 獲取語料庫,以及,用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 采用每個分類的訓練文本生成所述分類的訓練特征項,以及,采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項; 針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。
10.一種文本訓練系統(tǒng),其特征在于,包括: 語料庫獲取模塊,用于獲取語料庫,以及, 測試文檔獲取模塊,用于獲取用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 訓練特征項生成模塊,用于采用每個分類的訓練文本生成所述分類的訓練特征項,以及, 搜索特征項生成模塊,用于采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項; 用戶喜好特征分類模型構建模塊,用于針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。
11.一種基于用戶搜索行為的喜好特征分類系統(tǒng),其特征在于,包括: 用戶搜索行為文檔生成模塊,用于收集用戶的原始搜索行為信息,依據(jù)所述用戶的原始搜索行為信息生成用戶搜索行為文檔;所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 喜好特征分類模塊,用于采用所述用戶搜索行為文檔和用戶喜特征好分類模型計算用戶的喜好特征分類;其中,所述喜好特征分類模塊包括如下子模塊: 語料庫獲取子模塊,用于獲取語料庫,以及, 測試文檔獲取子模塊,用于用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 訓練特征項生成子模塊,用于采用每個分類的訓練文本生成所述分類的訓練特征項,以及, 搜索特征項生成子模塊,用于采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項; 用戶喜好特征分類模型構建模塊,用于針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。
12.一種基于用戶搜索行為的個性化推薦系統(tǒng),其特征在于,包括: 用戶行為信息獲取模塊,用于獲取用戶的行為信息,所述用戶的行為信息包括用戶標識; 喜好特征分類確定模塊,用于根據(jù)所述用戶標識確定用戶的喜好特征分類; 個性化推薦信息生產(chǎn)模塊,用于采用所述喜好分類生成對應的個性化推薦信息; 推薦模塊,用于采用所述個性化推薦信息`向當前用戶進行推薦; 其中,所述喜好特征分類確定模塊包括如下子模塊: 用戶搜索行為文檔生成子模塊,用于收集用戶的原始搜索行為信息,依據(jù)所述用戶的原始搜索行為信息生成用戶搜索行為文檔;所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 喜好特征分類子模塊,用于采用所述用戶搜索行為文檔和用戶喜特征好分類模型計算用戶的喜好特征分類; 其中,所述喜好特征分類模塊包括如下子模塊: 語料庫獲取模塊,用于獲取語料庫,以及, 測試文檔獲取模塊,用于用戶搜索行為測試文檔;其中,所述語料庫包含多個分類,每個分類包含多個訓練文本,所述用戶搜索行為測試文檔歸屬所述分類,所述用戶搜索行為測試文檔包含用戶標識,搜索短語及對應的搜索時間; 訓練特征項生產(chǎn)模塊,用于采用每個分類的訓練文本生成所述分類的訓練特征項,以及, 搜索特征項生產(chǎn)模塊,用于采用所述搜索短語生成所述用戶搜索行為測試文檔的搜索特征項; 用戶喜好特征分類模型構建模塊,用于針對搜索特征項按照對應的搜索時間配置權重,并依據(jù)所述搜索特征項以及所述訓練特征項,構建用戶喜好特征分類模型。
【文檔編號】G06F17/27GK103440242SQ201310260038
【公開日】2013年12月11日 申請日期:2013年6月26日 優(yōu)先權日:2013年6月26日
【發(fā)明者】羅峰, 黃蘇支, 李娜 申請人:北京億贊普網(wǎng)絡技術有限公司