一種基于讀者層次的內(nèi)容推送方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及在線教育、文獻(xiàn)檢索信息服務(wù)領(lǐng)域。
【背景技術(shù)】
[0002] 目前,網(wǎng)絡(luò)信息服務(wù)中應(yīng)用個(gè)性化推送技術(shù)為讀者提供感興趣的個(gè)性化內(nèi)容,大 大提高了用戶粘性和服務(wù)體驗(yàn)。但是,隨著數(shù)字內(nèi)容越來(lái)越多,基于這些技術(shù)推送給讀者的 內(nèi)容卻越來(lái)越不準(zhǔn)。主要原因是這些個(gè)性化技術(shù)都是基于對(duì)內(nèi)容進(jìn)行相似性聚類,或者將 內(nèi)容與用戶的檢索詞匹配,相似的內(nèi)容被直接推送給用戶,而不管是否適合用戶。在搜索引 擎或電子商務(wù)領(lǐng)域推送效果不錯(cuò),因?yàn)檫@些領(lǐng)域中網(wǎng)頁(yè)、商品及用戶之間都是同一層次的, 但是在在線教育或文獻(xiàn)檢索領(lǐng)域,集成出版的海量?jī)?nèi)容不是同一層次的,例如在文獻(xiàn)庫(kù)中, 有些內(nèi)容是基礎(chǔ)研究,有些是對(duì)成果的新聞報(bào)導(dǎo),同時(shí)讀者水平也是多層次的,有些是科研 人員,有些是學(xué)生或者記者,他們因水平和關(guān)注點(diǎn)不同,需要不同層次的內(nèi)容,推送的內(nèi)容 也應(yīng)該是少量的、準(zhǔn)確的。也就是說(shuō),在這些領(lǐng)域給讀者提供推送服務(wù),不僅需要推送的內(nèi) 容主題相似,還需要考慮讀者水平、內(nèi)容層次在指定范圍內(nèi)的匹配,才能給讀者提供基于興 趣的、更準(zhǔn)確的內(nèi)容推送服務(wù)。例如:向科研人員應(yīng)該推送中、高級(jí)科研內(nèi)容,他們對(duì)新聞報(bào) 告或教學(xué)類文獻(xiàn)沒(méi)有興趣。因此,這些常用的個(gè)性化推送技術(shù)在在線學(xué)習(xí)、文獻(xiàn)檢索領(lǐng)域使 用效果不好。
【發(fā)明內(nèi)容】
[0003] 針對(duì)上述問(wèn)題,本發(fā)明提出一種基于讀者層次的內(nèi)容推送方法。該方法分為兩個(gè) 階段,第一是讀者層次模型訓(xùn)練階段,第二是內(nèi)容推送階段。
[0004] 在訓(xùn)練階段,根據(jù)應(yīng)用領(lǐng)域的實(shí)際情況,將讀者按水平或類型分層次,得到讀者層 次向量,讀者設(shè)計(jì)多少層次,由應(yīng)用復(fù)雜性和資源加工復(fù)雜性決定;制訂讀者層次推送策 略,既根據(jù)什么原則向某層次讀者推送相關(guān)內(nèi)容;建立讀者層次模型,對(duì)應(yīng)每一層次讀者, 涉及包括:資源層次、資源類型、出版時(shí)間、語(yǔ)種、其他信息5類參數(shù)向量,這些向量維度上 的值都來(lái)自基于資源庫(kù)知識(shí)的訓(xùn)練,用于描述該層次讀者在這些方面的特征;建設(shè)足夠數(shù) 量的訓(xùn)練集,對(duì)讀者層次模型進(jìn)行訓(xùn)練,得到模型各維度參數(shù)向量的特征值。
[0005] 在推送階段,實(shí)際使用時(shí),記錄讀者一定時(shí)期的實(shí)際操作信息,主要是讀者使用過(guò) 的資源列表;根據(jù)讀者所使用資源的元數(shù)據(jù)信息,計(jì)算出該讀者的5類層次參數(shù)向量;基 于讀者的層次參數(shù),通過(guò)讀者層次模型進(jìn)行機(jī)器學(xué)習(xí),得到預(yù)測(cè)的讀者層次;讀者后續(xù)使用 時(shí),基于傳統(tǒng)的內(nèi)容相似性比較以及讀者層次和推送策略,向讀者推送少量的精準(zhǔn)內(nèi)容;根 據(jù)讀者對(duì)推送內(nèi)容的反映,不斷優(yōu)化推送策略。
【附圖說(shuō)明】
[0006] 圖1是讀者層次模型訓(xùn)練功能流程圖
[0007] 圖2是讀者層次模型數(shù)據(jù)結(jié)構(gòu)示意圖
[0008] 圖3是基于讀者層次的內(nèi)容推送功能流程圖
【具體實(shí)施方式】
[0009] 下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述。
[0010] 圖1是讀者層次模型訓(xùn)練功能流程圖。如圖1所示,在訓(xùn)練階段,根據(jù)應(yīng)用領(lǐng)域的 實(shí)際情況,讀者層次分類11將讀者按水平或類型分層次,得到讀者層次向量〈層次1 ;層次 2...層次n>,例如將讀者分為5個(gè)層次,得到層次向量〈高級(jí);中高級(jí);中級(jí);中低級(jí);初級(jí) >〇
[0011] 建立讀者層次推送策略12,針對(duì)每層讀者,指定推送哪些主要內(nèi)容,推送數(shù)量或比 例,這由具體應(yīng)用領(lǐng)域和應(yīng)用經(jīng)驗(yàn)確定。例如,在書法數(shù)字化學(xué)習(xí)領(lǐng)域,對(duì)于高級(jí)學(xué)習(xí)者,重 點(diǎn)推薦書法類期刊文獻(xiàn)、相關(guān)作品鑒賞、書法大賽信息;對(duì)于初級(jí)書法學(xué)習(xí)者,可以重點(diǎn)推 薦相關(guān)書法學(xué)習(xí)視頻、書法家介紹、書法故事,每項(xiàng)推送1-3條。
[0012] 建立讀者層次模型15,如圖2所示。對(duì)應(yīng)每一層次讀者,建立包括:資源層次21、 資源類型22、出版時(shí)間23、語(yǔ)種24、其他信息25共5類層次參數(shù)向量,這些維度上的值都來(lái) 自基于資源庫(kù)知識(shí)的訓(xùn)練結(jié)果。
[0013] 建設(shè)足夠數(shù)量的訓(xùn)練集14,對(duì)讀者層次模型進(jìn)行訓(xùn)練13,得到圖2所示5類層次 參數(shù)向量各維度的特征值。
[0014] 圖3是基于讀者層次的內(nèi)容推送功能流程圖。如圖3所示,實(shí)際使用時(shí),記錄讀者 一定時(shí)期的實(shí)際操作信息31,主要是學(xué)習(xí)使用了哪些資源,形成資源列表;根據(jù)讀者所使 用資源的元數(shù)據(jù)信息,計(jì)算出該讀者的層次參數(shù)32,包括資源層次、資源類型、出版時(shí)間、語(yǔ) 種、其他信息5類參數(shù),向量數(shù)據(jù)結(jié)構(gòu)如圖2所示,每部分對(duì)應(yīng)該讀者使用資源形成的權(quán)重 向量,權(quán)重進(jìn)行歸一化處理。
[0015] 基于讀者的層次參數(shù),采用讀者層次模型進(jìn)行機(jī)器學(xué)習(xí)33,得到預(yù)測(cè)的讀者層次, 例如為高級(jí)讀者。
[0016] 在讀者繼續(xù)發(fā)出檢索請(qǐng)求或者閱讀某篇內(nèi)容時(shí),基于傳統(tǒng)的內(nèi)容相似性比較,得 到大量符合內(nèi)容相似性要求的候選推薦結(jié)果,結(jié)合讀者層次以及該層次的推送策略34,選 擇同時(shí)符合推送策略的、少量的精準(zhǔn)內(nèi)容35,推送給讀者,而不是完全按照內(nèi)容相似性結(jié)果 進(jìn)行推送;讀者對(duì)推送結(jié)果如果有興趣,會(huì)點(diǎn)擊使用,如果沒(méi)有興趣,會(huì)忽略,通過(guò)讀者對(duì)推 送內(nèi)容的反映,定期優(yōu)化推送策略36。
[0017] 由于推送時(shí)充分考慮了讀者個(gè)人在學(xué)習(xí)體系中所處的層次和水平,以及基于全體 同層次學(xué)習(xí)者共同遵循的推送策略,向讀者推送的少量?jī)?nèi)容,準(zhǔn)確性更高,讀者體驗(yàn)更好。
[0018] 本方法中機(jī)器學(xué)習(xí)33實(shí)現(xiàn)對(duì)讀者層次的預(yù)測(cè),它是基于讀者層次模型的知識(shí),采 用多維度向量?jī)?nèi)積,加權(quán)求和,取最大值對(duì)應(yīng)的讀者層次作為預(yù)測(cè)的讀者層次,計(jì)算公式如 下所示:
[0020] 其中:巧為當(dāng)前讀者第j部分的層次參數(shù)向量,j從1到5代表共有5部分參數(shù), 包括資源層次、資源類型、出版時(shí)間、語(yǔ)種、其他信息;
[0021] ^是指讀者層次模型中第i類讀者第j部分的參數(shù)向量,這些向量在訓(xùn)練時(shí)確 定;
[0023] n為讀者層次數(shù),C為n類讀者中層次向量權(quán)重最大類型對(duì)應(yīng)的讀者層次號(hào)。
[0024] 在上述內(nèi)容中,所有向量都需要進(jìn)行歸一化權(quán)重處理,確保進(jìn)行基于相同度量上 的向量運(yùn)算具有可比性。
[0025] 雖然本發(fā)明所揭露的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采 用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本 發(fā)明所揭露的精神和范圍的前提下,可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化, 但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于讀者層次的內(nèi)容推送方法,其特征在于,本方法分為讀者層次模型訓(xùn)練階 段和推送階段,在訓(xùn)練階段,對(duì)讀者按水平或類型分層,得到讀者層次向量,建設(shè)讀者層次 模型,并進(jìn)行大規(guī)模數(shù)據(jù)訓(xùn)練,得到模型各參數(shù)向量,在推送階段,根據(jù)讀者的實(shí)際操作信 息,進(jìn)行機(jī)器學(xué)習(xí),得到預(yù)測(cè)的讀者層次,讀者后續(xù)使用時(shí),基于傳統(tǒng)的內(nèi)容相似性比較以 及讀者層次和推送策略,向讀者推送精準(zhǔn)內(nèi)容,提高讀者體驗(yàn)。2. 如權(quán)利要求1所述的方法,其特征在于,所述讀者層次向量是根據(jù)應(yīng)用復(fù)雜性和資 源加工復(fù)雜性,對(duì)讀者群按水平或類型進(jìn)行分層,分層數(shù)量由具體應(yīng)用決定,得到讀者層次 向量,向量值為層次名稱或代碼。3. 如權(quán)利要求1所述的方法,其特征在于,所述讀者層次模型是記錄每一層次讀者對(duì) 應(yīng)參數(shù)向量的數(shù)據(jù)結(jié)構(gòu),除讀者層次數(shù)據(jù)外,還包括:資源層次、資源類型、出版時(shí)間、語(yǔ)種、 其他信息共5類層次參數(shù)向量,這些維度上的值都來(lái)自對(duì)訓(xùn)練集按常用訓(xùn)練方法得到的訓(xùn) 練結(jié)果,代表該層次讀者在這些方面的參數(shù)值。4. 如權(quán)利要求1、3所述的方法,其特征在于,所述常用訓(xùn)練方法是指任何能夠從足夠 訓(xùn)練數(shù)據(jù)集中得到一定結(jié)果的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法。5. 如權(quán)利要求1所述的方法,其特征在于,所述讀者實(shí)際操作信息是指讀者在一定時(shí) 間內(nèi)學(xué)習(xí)使用過(guò)的內(nèi)容資源列表,并根據(jù)這些資源對(duì)應(yīng)的元數(shù)據(jù)信息,可以計(jì)算出讀者層 次參數(shù)向量,包括資源層次、資源類型、出版時(shí)間、語(yǔ)種、其他信息5類參數(shù)權(quán)重向量,權(quán)重 可以是頻次、比例或其他權(quán)重計(jì)算方法,需要進(jìn)行統(tǒng)一的歸一化處理,保證向量計(jì)算和比較 是在同一度量上進(jìn)行。6. 如權(quán)利要求1所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)是基于讀者層次模型的知識(shí), 采用多維度向量?jī)?nèi)積,加權(quán)求和,取最大值對(duì)應(yīng)的讀者層次作為預(yù)測(cè)的讀者層次,計(jì)算公式 如下所示:其中:巧為當(dāng)前讀者第j部分的層次參數(shù)向量,j從1到5代表共有5部分參數(shù),包括 資源層次、資源類型、出版時(shí)間、語(yǔ)種、其他信息; &:是指讀者層次模型中第i類讀者第j部分的參數(shù)向量,這些向量由訓(xùn)練時(shí)確定; kj是向量權(quán)重因子η為讀者層次數(shù),C為η類讀者中層次向量權(quán)重最大類型對(duì)應(yīng)的讀者層次號(hào)。7. 如權(quán)利要求1所述的方法,其特征在于,所述推送策略是指根據(jù)全體讀者的實(shí)際需 求,對(duì)每一層次讀者,設(shè)定的重點(diǎn)推送內(nèi)容相似資源類型和數(shù)量,所推送資源都是經(jīng)過(guò)內(nèi)容 相似性計(jì)算后內(nèi)容相似的部分資源,以保證推送的準(zhǔn)確性和好的用戶體驗(yàn)。
【專利摘要】本發(fā)明旨在提出一種基于讀者層次的內(nèi)容推送方法。該方法分為兩個(gè)階段:讀者層次模型訓(xùn)練階段和內(nèi)容推送階段。在訓(xùn)練階段,根據(jù)應(yīng)用領(lǐng)域,將讀者按水平或類型分層,得到讀者層次向量,制訂讀者層次推送策略,建立讀者層次模型,對(duì)讀者層次模型進(jìn)行訓(xùn)練,得到模型各維度參數(shù)向量的特征值。在推送階段,記錄讀者一定時(shí)期的實(shí)際操作信息,根據(jù)讀者所使用資源的元數(shù)據(jù)信息,計(jì)算出該讀者的層次參數(shù)向量,通過(guò)讀者層次模型進(jìn)行機(jī)器學(xué)習(xí),得到預(yù)測(cè)的讀者層次。讀者后續(xù)使用時(shí),基于傳統(tǒng)的內(nèi)容相似性比較以及讀者層次和推送策略,向讀者推送精準(zhǔn)內(nèi)容,不斷優(yōu)化推送策略,提高讀者體驗(yàn)。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105069127
【申請(qǐng)?zhí)枴緾N201510497841
【發(fā)明人】薛德軍, 梁晟
【申請(qǐng)人】薛德軍, 梁晟
【公開(kāi)日】2015年11月18日
【申請(qǐng)日】2015年8月14日