專利名稱:一種基于極速神經(jīng)網(wǎng)絡的網(wǎng)絡資源個性化推薦方法
技術(shù)領域:
本發(fā)明屬于網(wǎng)絡資源管理領域,涉及網(wǎng)絡資源的協(xié)作過濾技術(shù),特別涉及一種基
于極速神經(jīng)網(wǎng)絡模型的網(wǎng)絡資源個性化推薦方法。
背景技術(shù):
目前,協(xié)作過濾技術(shù)是最流行的個性化推薦技術(shù)。用戶建模以及以此為基礎的用 戶興趣預測的研究集中在Web日志挖掘(Web Usage Mining)領域,其數(shù)據(jù)來源主要是服 務器端記錄的Web日志——用戶的興趣信息。常用的協(xié)作過濾技術(shù)主要包括以下三種① 基于用戶(User-based)的協(xié)作過濾技術(shù),為用戶推薦與其相似用戶感興趣的資源;②基于 項目(Item-based)的協(xié)作過濾技術(shù),為用戶推薦與其感興趣資源相似的資源;③基于模型 (Model-based)的協(xié)作過濾技術(shù),構(gòu)造一個用戶的評分模型,系統(tǒng)采用概率統(tǒng)計或者機器學 習的方法來預測目標用戶對未評分項目的評分,從而產(chǎn)生推薦。 關于利用協(xié)作過濾技術(shù)進行網(wǎng)絡資源個性化推薦方法,發(fā)明人經(jīng)過查新,檢 索得到一篇相關專利文獻一種引入節(jié)目熱門度權(quán)重的協(xié)作過濾推薦方法(公開號 CN101287082),首先收集用戶的行為特征信息,作出"用戶-項目"評分矩陣A(m, n);計算 熱門度權(quán)重值;計算相似度大小并排序;對目標用戶進行預測評分并排序;作出推薦列表 給目標用戶。 隨著網(wǎng)絡中的用戶和資源數(shù)目不斷增加,上述專利文獻采用協(xié)作過濾技術(shù),存在 著以下一些問題①數(shù)據(jù)的高維稀疏性現(xiàn)象出現(xiàn),即系統(tǒng)中的用戶并不可能對所有資源進
行評價,他們對系統(tǒng)中資源已有的評價相對系統(tǒng)中資源總數(shù)來說少得多,這就導致數(shù)據(jù)高 維稀疏問題的出現(xiàn),數(shù)據(jù)的高維稀疏性使得協(xié)作過濾技術(shù)的信息推薦質(zhì)量大大下降;②系 統(tǒng)計算耗時,協(xié)作過濾要比較目標用戶(資源)與系統(tǒng)中所有用戶(資源)的相似度,隨著 系統(tǒng)規(guī)模的不斷增大,計算量急劇增加,無法滿足在線用戶對系統(tǒng)實時性能的要求。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提出一種基于極速神經(jīng)網(wǎng)絡的協(xié)作 過濾方法,能夠解決數(shù)據(jù)高維稀疏所導致的協(xié)作過濾技術(shù)的信息推薦質(zhì)量大大下降問題, 以及系統(tǒng)計算耗時大而無法滿足在線用戶對系統(tǒng)實時性能要求的問題。
為了解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案予以實現(xiàn)。 —種基于極速神經(jīng)網(wǎng)絡的網(wǎng)絡資源個性化推薦方法,其特征在于,具體包括以下 步驟 (1)數(shù)據(jù)預處理 從系統(tǒng)用戶日志文件中讀取信息并生成全局用戶興趣矩陣,根據(jù)當前用戶將全局 用戶興趣矩陣進行變換,得到當前用戶的單用戶興趣矩陣; 當前用戶的單用戶興趣矩陣中每一列定義為一個樣本實例,每個樣本實例由特征 屬性和目標屬性組成,其中特征屬性對應為單用戶興趣矩陣中其他用戶對該列所對應資源
4的評分,目標屬性為當前用戶對該列所對應資源的評分值,其中目標屬性對應的行向量記 為T^w,特征屬性對應的行向量集所組成的矩陣記為I(M—1)XN ;其中N表示系統(tǒng)中被評價的資 源的個數(shù),M表示系統(tǒng)中參與評分的用戶的個數(shù),每一個元素存放用戶對資源的評分;
此時矩陣T(M—dX1中存在著大量空缺值,對于空缺值采用同一樣本實例的其他屬性 平均值進行預填充,并記填充后的矩陣為X(M—1)XN,將矩陣X(M—1)XN經(jīng)過主成分分析法降維為 特征矩陣Pnx,,其中,n表示降維后的維數(shù); 然后,將目標用戶對系統(tǒng)資源的評分的行向量l^,放置在特征矩陣Pn^的尾行之 后,形成降維后的用戶興趣矩陣A,看成是由降維后的N個樣本實例形成的集合,再根據(jù)目 標用戶對目標屬性是否評分將樣本實例的集合劃分為訓練集A1和預測集A2 ;
(2)模型訓練 首先,為目標用戶建立用戶興趣預測模型,其模型結(jié)構(gòu)為單隱藏層神經(jīng)網(wǎng)絡 SLFNs ;然后,對預測模型采用極速學習機技術(shù)在訓練集A1上進行訓練,得到單隱藏層神經(jīng) 網(wǎng)絡模型的各個連接權(quán)值以及隱藏層閾值,完成對用戶興趣預測模型中各權(quán)值的求解;
(3)預測推薦 利用訓練所得到的預測模型計算出該目標用戶對預測集A2中每一項資源的評分 值,并將預測評分最高的前幾項資源推薦給目標用戶。
本發(fā)明的進一步特點和改進在于 (1)系統(tǒng)用戶日志信息記錄了 3項內(nèi)容用戶ID、資源ID以及該用戶對資源的評 分值,表示為三元組的形式
(UserID, ItemID, Rate)
其中 UserID :用于唯一標識某個用戶的ID ;
ItemID :用于唯一標識某項資源的ID ; Rate :用戶對資源的評分,評分的類型為從1到5的正整數(shù),該值越高,表示用戶對 資源越感興趣,若該值為空時,表示用戶對資源沒有評分。 (2)所述根據(jù)目標用戶對目標屬性是否評分將樣本實例的集合劃分為訓練集Al 和預測集A2,其形式化表示為 Al = {(Xi, t》/X = [Xil, xi2......xin]T G Rn, ti G R, i = 1. Nx}; A2 = {(Xi, ti)/Xi = [Xil, xi2......xin]T G Rn, ti = Null, i = 1. N_NX}; 其中 Xi代表第i個樣本實例的n維特征屬性;
ti為目標屬性;
R為實數(shù)域; Nx為訓練集包含的樣本實例的個數(shù)。 (3)所述為目標用戶建立用戶興趣預測模型,其模型結(jié)構(gòu)為單隱藏層神經(jīng)網(wǎng)絡 SLFNs,其數(shù)學表示采用如下式子
i 》 2 <formula>formula see original document page 5</formula> 其中
Wi = [wn, wi2, . . . , win]T :為連接第i個隱藏層節(jié)點和模型輸入的權(quán)值向量,通過 樣本實例訓練得到; |3 i = [13 n, 13 i2, . . . , 13 J1 :為連接第i個隱藏層節(jié)點和模型輸出的權(quán)值向量, 通過樣本實例訓練得到; bi :為第i個隱藏層節(jié)點的閾值,通過樣本實例訓練得到;
Xj G Rn :為模型輸入向量,對應某個實例的特征向量;
0j G Rm :為模型輸出向量,對應某個實例的目標向量;
^ :為用戶模型中隱藏層包含的節(jié)點個數(shù);
g(x):為激活函數(shù),要求該函數(shù)為連續(xù)函數(shù);
Wi Xj :表示W(wǎng)i與Xj的點積。 在資源項目很多的情況下,用戶的評分數(shù)據(jù)相對來說是很少的,比如在大型的電 子商務系統(tǒng)中,用戶的評分項目 一般不會超過資源項目總數(shù)的1 % ,數(shù)據(jù)的高維稀疏性導致 不同用戶之間交叉評分的資源項目會很少,導致信息推薦質(zhì)量的下降,另一方面也會導致 系統(tǒng)計算量巨大。針對上面的問題,本發(fā)明在數(shù)據(jù)預處理階段擬采用主成分分析降維技術(shù) 對原始高維數(shù)據(jù)集合降維,將稀疏的用戶興趣預測矩陣轉(zhuǎn)化為由主成分構(gòu)成的稠密矩陣以 解決數(shù)據(jù)高維稀疏問題。 另外,本發(fā)明選擇單隱藏層神經(jīng)網(wǎng)絡模型作為用戶的興趣預測模型,并采用極速 學習機技術(shù)對模型進行訓練,這是因為傳統(tǒng)的神經(jīng)網(wǎng)絡模型訓練方法如BP算法速度較慢, 而且會陷入局部最小值,而單隱藏層神經(jīng)網(wǎng)絡具有如下的特性當隱藏層節(jié)點個數(shù)N 等于 訓練集合中實例個數(shù)N時,網(wǎng)絡可以無誤差地逼近任何非線性函數(shù)。這就意味著對輸入層 權(quán)值Wi和隱藏層閾值h進行隨機賦值,而無需迭代調(diào)整;輸出層權(quán)值13 i則可以根據(jù)最小 二乘法直接計算得出。基于以上思想的極速學習算法(Extreme Learning Machine),首先 為單隱藏層神經(jīng)網(wǎng)絡的輸入權(quán)值和隱藏層閾值隨機賦值,根據(jù)樣本集合和前面的隨機參數(shù) 計算隱藏層輸出矩陣,最后利用最小二乘解的思想計算輸出權(quán)值。這個算法與傳統(tǒng)算法比 較,模型參數(shù)無需進行迭代調(diào)整,訓練速度大大提高,因為所求的解是唯一的最小范數(shù)解, 因此不存在局部最小值問題,具有較好的泛化性能。
圖1為用戶對資源評分情況的日志文件具體信息格式示意圖; 圖2為全局用戶興趣矩陣的格式示意圖; 圖3為單用戶興趣矩陣的相關概念的標識示意圖; 圖4為一具體單用戶興趣矩陣的訓練集和預測集劃分示意圖; 圖5為數(shù)據(jù)集合未降維與經(jīng)過降維模型訓練性能比較圖,其中隱藏節(jié)點個數(shù)為30
圖6為BP與ELM算法訓練精度的比較圖; 圖7為BP與ELM算法測試精度的比較圖; 圖8為BP與ELM算法訓練時間的比較圖。
6CN 101694652 A
具體實施例方式
為了更清楚的理解本發(fā)明,下面結(jié)合附圖和具體實施方式
對本發(fā)明的內(nèi)容作進一 步詳細說明。 1、相關數(shù)據(jù)表示 l)建立系統(tǒng)用戶日志文件 參照圖l,系統(tǒng)用戶日志文件中每行記錄了 3項內(nèi)容用戶ID、資源ID以及該用戶 對資源的評分值,可表示為三元組的形式 (UserID, ItemID, Rate) (式1) 其中 UserID :用于唯一標識某個用戶的ID ;
ItemID :用于唯一標識某項資源的ID ; Rate :用戶對資源的評分,評分的類型可以為從1到5的正整數(shù),該值越高,表示用 戶對資源越感興趣,若該值為空時,表示用戶對資源沒有評分,也就是方法要進行預測計算 的部分。如圖l所示,其中用戶ID和資源ID為字符串類型,用戶對資源的評分為正整數(shù), 范圍從1到5,分數(shù)越高表示用戶對該資源越感興趣;每項之間用逗號相隔。
2)生成用戶興趣矩陣 從系統(tǒng)用戶日志中讀取的信息最終生成用戶-項目(User-Item)評價矩陣,稱用 戶興趣矩陣。例如當系統(tǒng)中有M個用戶對N項資源進行評價,則用戶興趣矩陣用一個RM^ 矩陣來表示,如圖2所示,其中矩陣中的每個元素Rij表示了用戶i對資源j的評分??赵?素值表示用戶沒有對相應的資源做出評價。 由于系統(tǒng)只包含一個圖1所示的系統(tǒng)用戶日志,因此上述用戶興趣矩陣對于整個 推薦系統(tǒng)只有一個(即為全局用戶興趣矩陣)。當要為某個用戶建立模型時(系統(tǒng)輸入該 用戶ID),需要獲取該用戶的單用戶興趣矩陣。為了得到當前用戶的單用戶興趣矩陣,則只 需將全局用戶興趣矩陣中該用戶對應的行向量移至最后一行,再根據(jù)當前用戶對系統(tǒng)資源 的是否評分的情況進行列變換,將其劃分為訓練集和預測集。 參照圖3,當前用戶的單用戶興趣矩陣中每一列定義為一個樣本實例,每個用戶 對某資源的評分定義為該樣本實例的一個維上的屬性值,每個元素值表示樣本實例的屬性 值。將當前用戶所對應的屬性稱為目標屬性,其他的用戶所對應的屬性稱為特征屬性。
參照圖4,為了對用戶U4進行預測,先生成用戶U4的單用戶興趣矩陣,由用戶U4 的目標屬性組成的行向量對應用戶模型的輸出;用戶Ul、 U2、 U3對應的特征屬性的組成的 行向量集合(矩陣),為用戶模型輸入;然后將單用戶興趣矩陣劃分為訓練集和預測集。該 單用戶興趣矩陣中包含5個樣本實例,其中樣本實例II、 12和13對應用戶U4評價過的資 源,那么前三個實例組成用戶模型的訓練集,剩下的樣本實例被劃分為用戶的預測集。
2、數(shù)據(jù)預處理 1)當系統(tǒng)用戶日志中記錄了M個用戶對N個資源的評價情況,數(shù)據(jù)預處理階段首 先形成大小為MXN的目標用戶的單用戶興趣矩陣PM^,然后將樣本實例的屬性劃分為目標 屬性和特征屬性,形成目標向量集和特征向量集,并分別定義為目標用戶對系統(tǒng)資源的評 分向量集T^,和系統(tǒng)其他用戶對系統(tǒng)資源的評分向量集I(M—D,這里的目標用戶為將要為 其進行預測推薦資源的用戶。
此時的單用戶興趣矩陣存在著大量的空缺值,對于空缺值采用樣本實例的屬性平 均值進行預填充,即將I中每一列已有的特征值的平均值填入該列的空缺位置,填充后的 特征屬性的列向量集記為矩陣X(M—1)XN。 2)矩陣X》D^降維處理此時的矩陣X(m—D^可看作由N個(M-l)維樣本實例組 成的矩陣,采用主成分分析(PCA)技術(shù)對其進行降維處理,具體步驟如下
St印l :計算矩陣X(M—1)XN的相關矩陣R G R(m-i)x(m-"
R = XXT, X G R(M-1)XN St印2 :求出R的特征值A " A 2...工(A工> A 2...工> 0)以及相應的特征 向量l" 12,... , 1M—丄; St印3 :取前n-1個特征值,并將這n個特征值對應的特征向量1" 12, . . . , ln整合 為變換矩陣1^=(1' 1;1' 2;...;1' n) G R(M-Dxn;其中n是由該累計貢獻率公式得出
l;為/^為l:,k表示這n個主成分的方差和在全部方差中所占比重(本實施例中k =
0.85);St印4:變換矩陣Ln乘以原始輸入的矩陣X(m—D,得到降維后的特征矩陣P^ 3)劃分訓練集和預測集將目標用戶對系統(tǒng)資源的評分向量集T^,放置在特征矩 陣Pnxw的尾行之后,形成降維后的用戶興趣矩陣A,劃分出用戶興趣矩陣A的訓練集和預測 集,其形式化的定義描述如下。 定義1 :當前用戶的降維后的用戶興趣矩陣A的樣本實例集合A'的表示形式 A, = {(Xi, 、)/^ = [xn, xi2......xin]T G Rn, ti G R V ti = Null, i = 1. N}; 定義2 :訓練集,目標屬性值存在的樣本實例組成的集合,即當前用戶評價的樣 本實例集,作為模型訓練所用到的樣本集合,形式化描述為Al = {(Xi, ti)/Xi= [xn, Xi2......xin]TGRn, tiGR,i = l...Nx}; 定義3 :預測集,目標屬性值不存在的樣本實例組成的集合,即當前用戶還未評價 的樣本實例集,其目標屬性值需要經(jīng)過模型計算得出,形式化描述為A2 = {(Xi, t》/X =T G Rn, ti = Null, i = 1. N-Nx}。 其中N為A'集合中樣本個數(shù),Nx為訓練集合樣本個數(shù)。 那么,當為系統(tǒng)中某個用戶訓練模型時,首先根據(jù)用戶對系統(tǒng)資源的評分情況將
當前用戶樣本實例集合劃分為訓練集A1和預測集A2,A1用來為用戶訓練模型,再利用訓練
好的模型來計算用戶預測集A2,預測結(jié)果最終賦給A2中的ti。 3、模型訓練 1)用戶模型的基本結(jié)構(gòu) 模型訓練時,首先為當前用戶建立一個結(jié)構(gòu)為單隱藏層神經(jīng)網(wǎng)絡(Singlehidden Layer Feedforward networks/SLFNs)的用戶興趣預測模型,其數(shù)學表示形式如下式所示 <formula>formula see original document page 8</formula>
(式2) 其中 Wi = [wn, wi2, . . . , win]T :為連接第i個隱藏層節(jié)點和模型輸入的權(quán)值向量,通過樣本實例訓練得到;
p i = i" p
通過樣本實例訓練得到;
P im]T :為連接第i個隱藏層節(jié)點和模型輸出的權(quán)值向:
b
為第i個隱藏層節(jié)點的閾值,通過樣本實例訓練得到; Xj G Rn :為模型輸入向量,對應某個實例的特征向量; 0j G Rm:為模型輸出向量,對應某個實例的目標向量; F;為用戶模型中隱藏層包含的節(jié)點個數(shù); g(X):為激活函數(shù),要求該函數(shù)為連續(xù)函數(shù); Wi Xj :表示W(wǎng)i與Xj的點積。
當給定N個樣本點{(Xi,ti)/Xi = [Xil,Xi2......Xin]T G Rn,ti G Rm,
N},
通過采用極速學習算法使得SLFNs能夠精確地學習這N個樣本點,也就是使得
<formula>formula see original document page 9</formula>
足夠小的過程。模型的訓練過程也就是求解Wi、bi和13 2)利用極速學習機訓練用戶模型 該技術(shù)首先為單隱藏層神經(jīng)網(wǎng)絡的輸入權(quán)值和隱藏層閾值隨機賦值,將上述隨機 參數(shù)和訓練集代入用戶模型形成線性方程組,最后利用最小二乘法的思想計算輸出權(quán)值。
首先,將N個樣本實例代入模型方程中得到由N個線性方程組成的方程組 |>,威碼",10 = ^」=i, 上面N個式子可以簡寫為
<formula>formula see original document page 9</formula>
(式3)<formula>formula see original document page 9</formula>
(式4)
<formula>formula see original document page 9</formula>
(式5)
<formula>formula see original document page 9</formula> <formula>formula see original document page 9</formula>(式6) 式5中H稱為隱藏層輸出矩陣。 模型訓練過程就是通過樣本輸出和H計算|3的過程。具體過程如下所示 訓練過程給定訓練集Al = {(Xi, t》|Xi G Rn, ti G R, i = 1 , , Nx},激活函數(shù)
為g(x),隱藏層節(jié)點個數(shù)為JV; St印l :為輸入權(quán)值Wi和閾值|3 i隨機賦值,其中/ = 1,.,.,#; St印2 :計算隱藏層輸出矩陣H ; St印3 :計算輸出權(quán)值13 , 13 = H+T其中T = [t" . . . , tN]T。 注這里隱藏層節(jié)點數(shù);(20-30)和激活函數(shù)g(x)都是事先給定的。激活函數(shù)可以為S型函數(shù),比如徑向基函數(shù)(radial basis)、正弦(sine)、余弦(cosine)、指數(shù)函數(shù)以
及其它非正規(guī)的連續(xù)函數(shù)。
4、預測推薦 —旦單隱藏層神經(jīng)網(wǎng)絡SLFNs參數(shù)Wi、bi和13 i確定后,就得到了該用戶的興趣預 測模型,便可以應用該模型計算用戶對預測集中各項資源的可能評分。具體步驟如下 預測過程:給定預測集A2 = {(Xi, t執(zhí)=[Xil, xi2......xin]T G Rn, ti = Null,
i = 1.闊;St印1 :計算A2集合中未被評價的資源通過SLFN所形成的矩陣#; <formula>formula see original document page 10</formula>
St印2 :利用下面公式計算未評級資源的輸出值Y ;
I》 St印3 :按照計算得到的Y值大小將資源進行排序,從而產(chǎn)生推薦。
實施例 為了說明本發(fā)明在時間以及精度上改善的效果,采用資源推薦領域一個權(quán)威的數(shù) 據(jù)集合MovieLens推薦系統(tǒng)的數(shù)據(jù)集合進行實驗。該數(shù)據(jù)集合記錄了系統(tǒng)中用戶對電影資 源的評分情況,其評分值為1到5的整數(shù)值,分數(shù)越高則評價越高。 另外,為了觀察方法在不同規(guī)模數(shù)據(jù)集上產(chǎn)生的效果,將原MovieLens數(shù)據(jù)集按 用戶的個數(shù)取200, 500, 1000, 2000和3500五個規(guī)模的子集。其對應的被評分資源個數(shù)分 別為2833, 3172, 3381, 3580和3633。另外設單隱藏層神經(jīng)網(wǎng)絡模型的激活函數(shù)為S型函 數(shù),隱藏層節(jié)點個數(shù)固定為30個。 實驗一.數(shù)據(jù)集合未降維與經(jīng)過降維對比實驗 從圖5可以看出,未經(jīng)過降維的方法,訓練精度和F-measure要低于經(jīng)過降維后方 法的性能;另外經(jīng)過降維的用戶模型性能隨著數(shù)據(jù)規(guī)模增大而增大,這是因為降維前,系統(tǒng) 中存在大量的噪聲和冗余數(shù)據(jù),這些數(shù)據(jù)導致未降維的方法推薦質(zhì)量下降,經(jīng)過降維操作 將這些數(shù)據(jù)過濾后,降維的方法的預測能力相應也會得到提高;另外,隨著數(shù)據(jù)規(guī)模增大, 系統(tǒng)中可用的信息也越來越多,降維的方法的預測效果也將越來越好,這種結(jié)果也正符合 運用協(xié)作過濾方法進行預測的實際情況,即隨著數(shù)據(jù)的不斷積累增多,系統(tǒng)預測的效果將 越來越好。 實驗二采用不同模型訓練算法的對比實驗 這里將給出ELM算法與傳統(tǒng)的神經(jīng)網(wǎng)絡訓練算法的對比試驗,這里的對比算法主 要使用基于誤差反向傳播(Back Propagation/BP)算法,并對ELM與BP算法的模型訓練時 間和正確率進行比較。 圖6和圖7分別對兩種算法的訓練精度和測試精度進行比較,其中BP算法的訓練 精度較高,然而測試精度遠不及ELM算法。即ELM算法隨著訓練能力的提高,模型的預測能力也相應有所提高,該算法的泛化性能要優(yōu)于BP算法。 從圖8可以看出,ELM算法的模型訓練速度遠遠快于BP算法的模型訓練速度。這 是因為ELM算法在模型初始化階段首先為輸入權(quán)值和隱藏層閾值隨機賦值,并在整個學習 過程中不變,學習只是通過最小二乘解的方法求取輸出權(quán)值,一旦輸出權(quán)值求出,模型訓練 結(jié)束。整個過程無需反復迭代,也不用擔心模型的關鍵參數(shù)設置不當,導致訓練失敗。在相 同數(shù)據(jù)集合上,ELM算法的速度遠遠快于BP算法。
權(quán)利要求
一種基于極速神經(jīng)網(wǎng)絡的網(wǎng)絡資源個性化推薦方法,其特征在于,具體包括以下步驟(1)數(shù)據(jù)預處理從系統(tǒng)用戶日志文件中讀取信息并生成全局用戶興趣矩陣,根據(jù)當前用戶將全局用戶興趣矩陣進行變換,得到當前用戶的單用戶興趣矩陣;當前用戶的單用戶興趣矩陣中每一列定義為一個樣本實例,每個樣本實例由特征屬性和目標屬性組成,其中特征屬性對應為單用戶興趣矩陣中其他用戶對該列所對應資源的評分,目標屬性為當前用戶對該列所對應資源的評分值,其中目標屬性對應的行向量記為T1×N,特征屬性對應的行向量集所組成的矩陣記為I(M-1)×N;其中N表示系統(tǒng)中被評價的資源的個數(shù),M表示系統(tǒng)中參與評分的用戶的個數(shù),每一個元素存放用戶對資源的評分;此時矩陣I(M-1)×N中存在著大量空缺值,對于空缺值采用同一樣本實例的其他屬性平均值進行預填充,并記填充后的矩陣為X(M-1)×N,將矩陣X(M-1)×N經(jīng)過主成分分析法降維為特征矩陣Pn×N,其中,n表示降維后的維數(shù);然后,將目標用戶對系統(tǒng)資源的評分的行向量T1×N放置在特征矩陣Pn×N的尾行之后,形成降維后的用戶興趣矩陣A,看成是由降維后的N個樣本實例形成的集合,再根據(jù)目標用戶對目標屬性是否評分將樣本實例的集合劃分為訓練集A1和預測集A2;(2)模型訓練首先,為目標用戶建立用戶興趣預測模型,其模型結(jié)構(gòu)為單隱藏層神經(jīng)網(wǎng)絡SLFNs;然后,對預測模型采用極速學習機技術(shù)在訓練集A1上進行訓練,得到單隱藏層神經(jīng)網(wǎng)絡模型的各個連接權(quán)值以及隱藏層閾值,完成對用戶興趣預測模型中各參數(shù)的求解;(3)預測推薦利用訓練所得到的預測模型計算出該目標用戶對預測集A2中每一項資源的評分值,并將預測評分最高的前幾項資源推薦給目標用戶。
2. 根據(jù)權(quán)利要求1所述的一種基于極速神經(jīng)網(wǎng)絡的網(wǎng)絡資源個性化推薦方法,其特征 在于,系統(tǒng)用戶日志信息記錄了 3項內(nèi)容用戶ID、資源ID以及該用戶對資源的評分值,表 示為三元組的形式(UserID, ItemID, Rate)其中UserID :用于唯一標識某個用戶的ID ; ItemID :用于唯一標識某項資源的ID ;Rate :用戶對資源的評分,評分的類型為從1到5的正整數(shù),該值越高,表示用戶對資源 越感興趣,若該值為空時,表示用戶對資源沒有評分。
3. 根據(jù)權(quán)利要求1所述的一種基于極速神經(jīng)網(wǎng)絡的網(wǎng)絡資源個性化推薦方法,其特 征在于所述根據(jù)目標用戶對目標屬性是否評分將降維后的樣本實例的集合劃分為訓練集 Al和預測集A2,其形式化表示為Al = {(Xi, t執(zhí)=[xn, xi2......xin]T g Rn, ti g R, i = l...Nx};A2 = {(Xi, t》/X = [xn, xi2......xin]T g Rn, ti = Null, i = 1…N-Nj ;其中Xi代表第i個樣本實例的n維特征屬性;ti為目標屬性; R為實數(shù)域;Nx為訓練集包含的樣本實例的個數(shù)。
4.根據(jù)權(quán)利要求1所述的一種基于極速神經(jīng)網(wǎng)絡的網(wǎng)絡資源個性化推薦方法,其特征 在于,所述為目標用戶建立用戶興趣預測模型,其模型結(jié)構(gòu)為單隱藏層神經(jīng)網(wǎng)絡SLFNs,其 數(shù)學表示采用如下式子<formula>formula see original document page 3</formula>其中Wi= [Wil,Wi2,…,WijT為連接第i個隱藏層節(jié)點和模型輸入的權(quán)值向量,通過樣本實例訓練得到;Pi= [Pu,!3i2,…,ejw:為連接第i個隱藏層節(jié)點和模型輸出的權(quán)值向量,通過樣 本實例訓練得到;bi :為第i個隱藏層節(jié)點的閾值,通過樣本實例訓練得到; Xj G Rn :為模型輸入向量,對應某個實例的特征向量; 0j G Rm:為模型輸出向量,對應某個實例的目標向量; AT :為用戶模型中隱藏層包含的節(jié)點個數(shù); g(X):為激活函數(shù),要求該函數(shù)為連續(xù)函數(shù); Wi X,.:表示W(wǎng)i與X,.的點積。
全文摘要
本發(fā)明屬于網(wǎng)絡資源管理領域,涉及網(wǎng)絡資源的協(xié)作過濾技術(shù),公開了一種基于極速神經(jīng)網(wǎng)絡模型的網(wǎng)絡資源個性化推薦方法。它包括(1)數(shù)據(jù)預處理從系統(tǒng)用戶日志文件中讀取信息并生成全局用戶興趣矩陣,并變換為當前用戶的單用戶興趣矩陣,然后進行變換、降維,劃分出訓練集A1和預測集A2;(2)模型訓練為目標用戶建立結(jié)構(gòu)為單隱藏層神經(jīng)網(wǎng)絡SLFNs的興趣預測模型,采用極速學習機技術(shù)在訓練集A1上進行訓練,得到單隱藏層神經(jīng)網(wǎng)絡模型的各個連接權(quán)值以及隱藏層閾值;(3)預測推薦利用訓練所得到的預測模型計算出該目標用戶對預測集A2中每一項資源的評分值,并將預測評分最高的前幾項資源推薦給目標用戶。
文檔編號G06F17/30GK101694652SQ20091002416
公開日2010年4月14日 申請日期2009年9月30日 優(yōu)先權(quán)日2009年9月30日
發(fā)明者劉均, 吳茜媛, 王昕 , 田鋒, 鄧萬宇, 鄭慶華 申請人:西安交通大學;