欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種推薦系列文檔的方法和裝置的制作方法

文檔序號:6334955閱讀:204來源:國知局
專利名稱:一種推薦系列文檔的方法和裝置的制作方法
一種推薦系列文檔的方法和裝置
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,特別涉及一種推薦系列文檔的方法和裝。背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的日益推廣和普及,網(wǎng)絡(luò)信息迅速增加,文檔分享平臺為用戶上傳 分享文檔以及閱讀分享文檔提供了便利,其在海量的分享文檔中提供搜索引擎和分類索引 以方便用戶找到所需的文檔。在用戶閱讀文檔時,文檔分享平臺可以通過已建立的文檔分類推薦當(dāng)前閱讀文檔 的相關(guān)文檔?,F(xiàn)有技術(shù)中,在推薦相關(guān)文檔時,通常按照與當(dāng)前閱讀文檔的內(nèi)容相關(guān)度推薦 相關(guān)度最高的前幾個文檔,或者推薦與當(dāng)前閱讀文檔屬于同一上傳用戶的文檔。用戶在上傳文檔時,對于內(nèi)容很長的文檔通常分為多個文件保存,即分成屬于同 一個系列的多個文檔,并將它們統(tǒng)一上傳,例如,將《三國演義》分成《三國演義》第一集、《三 國演義》第二集和《三國演義》第三集等?;蛘?,用戶在上傳文檔時,對于已經(jīng)屬于同一系 列的多個文檔進(jìn)行統(tǒng)一上傳,例如《大學(xué)英語第一冊》、《大學(xué)英語第二冊》、《大學(xué)英語第三 冊》和《大學(xué)英語第四冊》。當(dāng)用戶閱讀系列文檔中的其中一個文檔時,往往希望接下來閱讀 的是屬于同一系列的其他文檔并希望能夠從推薦的相關(guān)文檔中直接獲取,例如,當(dāng)用戶當(dāng) 前閱讀的是《三國演義》第一集時,希望文檔分享平臺能夠顯著地推薦《三國演義》第二集。對于上述推薦需求,如果采用現(xiàn)有技術(shù)中相關(guān)文檔的產(chǎn)生方式,無論是以相關(guān)度 方式產(chǎn)生推薦的相關(guān)文檔,還是以屬于同一上傳用戶的方式產(chǎn)生推薦的相關(guān)文檔,推薦的 相關(guān)文檔可能并不是與當(dāng)前閱讀的文檔屬于同一系列的文檔。用戶需要通過搜索引擎或分 類列表花時間自行查找,這顯然為用戶帶來不便,降低了閱讀體驗。

發(fā)明內(nèi)容本發(fā)明提供了一種推薦系列文檔的方法和裝置,以便于為用戶推薦與當(dāng)前閱讀的 文檔屬于同一系列的文檔,提高用戶的閱讀體驗。具體技術(shù)方案如下一種推薦系列文檔的方法,應(yīng)用于文檔分享平臺,該方法包括A、獲取上傳文檔的文檔標(biāo)題,將獲取的文檔標(biāo)題進(jìn)行字符歸一化處理;B、將進(jìn)行字符歸一化處理后的文檔標(biāo)題進(jìn)行模式匹配處理,使得具有相同公共字 符串和相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔被歸入同一文檔系列;C、將與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔推薦給用戶。其中,步驟A中所述獲取上傳文檔的文檔標(biāo)題具體包括以下策略從存儲上傳文檔的文檔元數(shù)據(jù)庫中,抓取同一用戶上傳文檔的文檔標(biāo)題,或者,抓 取與已經(jīng)存在的文檔系列中文檔的文檔標(biāo)題具有相同公共字符串的文檔標(biāo)題,或者,抓取 在一個時間區(qū)間內(nèi)所上傳文檔的文檔標(biāo)題,或者以上幾種策略的任意組合。步驟A中所述將獲取的文檔標(biāo)題進(jìn)行字符歸一化處理具體包括
A1、將所述獲取的文檔標(biāo)題去除與模式匹配處理無關(guān)的字符;A2、將步驟A1處理后的各文檔標(biāo)題中序號部分采用預(yù)設(shè)的統(tǒng)一標(biāo)識替代。所述步驟B具體包括B1、對進(jìn)行字符歸一化處理后的各文檔標(biāo)題進(jìn)行公共字符串識別,以判斷各文檔 標(biāo)題是否具有預(yù)設(shè)長度的公共字符串,并且確定進(jìn)行字符歸一化處理后的各文檔標(biāo)題中序 號標(biāo)識的模式;B2、根據(jù)步驟B1的判斷結(jié)果信息以及確定的模式信息,將具有預(yù)設(shè)長度的公共字 符串且具有相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔歸入同一文檔系列。所述步驟B2具體包括B21、根據(jù)步驟B1的判斷結(jié)果信息以及確定的模式信息,如果連續(xù)M以上個文檔標(biāo) 題具有預(yù)設(shè)長度的公共字符串且具有相同模式的序號標(biāo)識,則將所述M以上個文檔標(biāo)題對 應(yīng)的文檔歸入同一個文檔系列,以所述公共字符串為文檔系列的系列名稱;B22、對于后續(xù)滿足歸入當(dāng)前文檔系列的條件的文檔標(biāo)題,如果該文檔標(biāo)題與上一 個歸入當(dāng)前文檔系列的文檔標(biāo)題間隔的文檔標(biāo)題在N個以內(nèi),則將該文檔標(biāo)題對應(yīng)的文檔 歸入當(dāng)前文檔系列;如果該文檔標(biāo)題與上一個歸入當(dāng)前文檔系列的文檔標(biāo)題間隔的文檔標(biāo) 題超過N個,則結(jié)束當(dāng)前文檔系列的歸納,轉(zhuǎn)至執(zhí)行步驟B21 ;所述滿足歸入當(dāng)前文檔系列 的條件為具有當(dāng)前文檔系列的系列名稱的字符串且與當(dāng)前文檔系列中各文檔的文檔標(biāo)題 具有相同模式序號標(biāo)識;其中,M為2以上的整數(shù),N為正整數(shù)。更進(jìn)一步地,所述步驟C還包括將用戶當(dāng)前閱讀的文檔的相關(guān)文檔推薦給用戶。較優(yōu)地,在將相關(guān)文檔推薦給用戶之前還包括對所述相關(guān)文檔進(jìn)行去重處理;其中,所述去重處理具體為將所述相關(guān)文檔與用戶當(dāng)前閱讀的文檔屬于同一文 檔系列的文檔取交集,再從所述相關(guān)文檔中去除所述交集。所述將與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔推薦給用戶具體包括執(zhí)行所述步驟A和步驟B的后臺將步驟B之后獲得的文檔系列的信息加載至存儲 單元;前臺接收到包含用戶當(dāng)前閱讀的文檔信息的檢索請求后,從所述存儲單元獲取與 用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔并推薦給用戶。一種推薦系列文檔的裝置,應(yīng)用于文檔分享平臺,該裝置包括歸一化處理單元、 模式匹配單元和系列文檔推薦單元;所述歸一化處理單元,用于獲取上傳文檔的文檔標(biāo)題,將獲取的文檔標(biāo)題進(jìn)行字 符歸一化處理后發(fā)送給所述模式匹配單元;所述模式匹配單元,用于將接收到文檔標(biāo)題進(jìn)行模式匹配處理,使得具有相同公 共字符串和相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔被歸入同一文檔系列;所述系列文檔推薦單元,用于根據(jù)所述模式匹配單元的處理結(jié)果,將與用戶當(dāng)前 閱讀的文檔屬于同一文檔系列的文檔推薦給用戶。更進(jìn)一步地,該裝置還包括標(biāo)題抓取單元,用于從存儲上傳文檔的文檔元數(shù)據(jù)庫 中抓取文檔標(biāo)題,并將抓取的文檔標(biāo)題發(fā)送給所述歸一化處理單元;其中,抓取文檔標(biāo)題包括以下策略抓取同一用戶上傳文檔的文檔標(biāo)題,或者,抓取與已經(jīng)存在的文檔系列中文檔的文檔標(biāo)題具有相同公共字符串的文檔標(biāo)題,或者,抓取 在一個時間區(qū)間內(nèi)所上傳文檔的文檔標(biāo)題,或者以上幾種策略的任意組合。所述歸一化處理單元具體包括字符清理模塊和歸一化處理模塊;所述字符清理模塊,用于將獲取的文檔標(biāo)題去除與模式匹配處理無關(guān)的字符后發(fā) 送給所述歸一化處理模塊;所述歸一化處理模塊,用于將接收到的各文檔標(biāo)題中序號部分采用預(yù)設(shè)的同一標(biāo) 識替代。所述模式匹配單元具體包括字符串識別模塊、模式識別模塊和系列歸納模塊;所述字符串識別模塊,用于對所述歸一化處理單元發(fā)送來的文檔標(biāo)題進(jìn)行公共字 符串識別,以判斷各文檔標(biāo)題是否具有預(yù)設(shè)長度的公共字符串;所述模式識別模塊,用于確定所述歸一化處理單元發(fā)送來的文檔標(biāo)題中序號標(biāo)識 的模式;所述系列歸納模塊,用于根據(jù)所述字符串識別模塊的判斷結(jié)果信息和所述模式識 別模塊確定的模式信息,將具有預(yù)設(shè)長度的公共字符串且具有相同模式序號標(biāo)識的文檔標(biāo) 題所對應(yīng)的文檔歸入同一文檔系列。更進(jìn)一步地,該裝置還包括相關(guān)文檔推薦單元,用于將用戶當(dāng)前閱讀的文檔的相 關(guān)文檔推薦給用戶。具體地,所述相關(guān)文檔推薦單元可以包括相關(guān)文檔獲取模塊和去重處理模塊;所述相關(guān)文檔獲取模塊,用于獲取用戶當(dāng)前閱讀的文檔的相關(guān)文檔;所述去重處理模塊,用于將所述相關(guān)文檔與用戶當(dāng)前閱讀的文檔屬于同一文檔系 列的文檔取交集,再從所述相關(guān)文檔中去除所述交集。所述歸一化處理單元和模式匹配單元設(shè)置在后臺,所述系列文檔推薦單元設(shè)置在 前臺;所述模式匹配單元將獲得的文檔系列的信息加載至存儲單元;所述系列文檔推薦單元接收到包含用戶當(dāng)前閱讀的文檔信息的檢索請求后,從所 述存儲單元獲取與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔并推薦給用戶。由以上技術(shù)方案可以看出,通過本發(fā)明能夠?qū)⑴c用戶當(dāng)前閱讀的文檔屬于同一系 列的文檔推薦給用戶,使得用戶無需通過搜索引擎或分類列表花時間自行查找,滿足了用戶 想看同一系列其它文檔的閱讀需求,提高了用戶的閱讀體驗,也滿足了用戶的潛在閱讀需求。

圖1為本發(fā)明提供的主要方法流程圖;圖2為本發(fā)明提供的對文檔標(biāo)題進(jìn)行字符歸一化處理的流程圖;圖3為本發(fā)明提供的模式匹配處理的過程流程圖;圖4為本發(fā)明提供的文檔分享平臺中前臺和后臺處理的示意圖;以及,圖5為本發(fā)明提供的裝置結(jié)構(gòu)示意圖。
具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進(jìn)行詳細(xì)描述。本發(fā)明提供的方法可以如圖1所示,主要包括以下步驟步驟101 獲取上傳文檔的文檔標(biāo)題,將文檔標(biāo)題進(jìn)行字符歸一化處理。本步驟 中,可以使用自動機(jī)處理文檔標(biāo)題字符,實現(xiàn)文檔標(biāo)題的字符歸一化處理。步驟102 將進(jìn)行字符歸一化處理后的文檔標(biāo)題進(jìn)行模式匹配處理,使得具有相 同公共字符串和相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔被匹配至同一文檔系列。步驟103 將與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔推薦給用戶。當(dāng)用戶正在閱讀某一文檔時,文檔分享平臺除了將該當(dāng)前閱讀文檔的相關(guān)文檔推 薦給用戶之外,還可以將與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔推薦給用戶,這 樣在用戶界面上除了顯示推薦的相關(guān)文檔之外,還會顯示推薦的系列文檔(在此,將屬于 同一文檔系列的文檔稱為系列文檔),用戶在有需求的時候就可以方便地選擇與當(dāng)前閱讀 的文檔屬于同一文檔系列的文檔。其中,相關(guān)文檔仍可以按照現(xiàn)有技術(shù)中相關(guān)度或?qū)儆谕?一上傳用戶的方式產(chǎn)生,在此不再具體贅述。下面通過具體的實施例對上述方法進(jìn)行詳細(xì)描述實施例一、上述步驟101中,獲取上傳文檔的文檔標(biāo)題可以從存儲上傳文檔的文檔(Meta)元 數(shù)據(jù)庫中抓取一個以上的文檔標(biāo)題。在從文檔元數(shù)據(jù)庫中進(jìn)行文檔標(biāo)題的抓取時,為了提高存在系列文檔的幾率,可 以采用但不限于以下抓取策略1)抓取同一用戶所上傳文檔的文檔標(biāo)題??梢赃M(jìn)一步具體包括抓取同一用戶在一個時間區(qū)間內(nèi)所上傳文檔的文檔標(biāo)題; 或者,抓取同一用戶在兩個以上具有間隔規(guī)律的時間區(qū)間內(nèi)所上傳文檔。對于同一系列的文檔,用戶通常在一個時間區(qū)間內(nèi)上傳,因此,抓取同一用戶在一 個時間區(qū)間內(nèi)上傳的文檔,對于文檔系列的整合具有較高的幾率。另外,對于連載文檔這種 屬于同一系列的文檔,用戶可能并不在一個時間區(qū)間內(nèi)上傳,而是在兩個以上具有間隔規(guī) 律的時間區(qū)間內(nèi)上傳,例如,對于以一個星期為間隔進(jìn)行連載的文檔,用戶通常也會以一個 星期為間隔進(jìn)行上傳,但上傳的文檔屬于同一個系列,這種情況下采用抓取同一用戶在兩 個以上具有間隔規(guī)律的時間區(qū)間內(nèi)上傳的文檔,對于文檔系列的整合具有較高的幾率。2)抓取與已經(jīng)存在的文檔系列中文檔的文檔標(biāo)題具有相同公共字符串的文檔標(biāo) 題。在網(wǎng)絡(luò)文檔共享中,還可能存在這樣的情況不同用戶或相同用戶將同一系列的 文檔都上傳至同一專輯,例如,對于同一歌手的所有歌曲文檔都上傳至同一專輯,對于同一 作者的所有作品文檔都上傳至同一專輯,等等。對于這種情況,采用抓取與已經(jīng)存在的文檔 系列中文檔的文檔標(biāo)題具有相同公共字符串的文檔標(biāo)題是一種適合的方式。但采用這種方 式時,通常需要預(yù)先對上傳的所有文檔標(biāo)題進(jìn)行字符的歸一化處理,以便對公共字符串的 識別。3)抓取在一個時間區(qū)間內(nèi)所上傳文檔的文檔標(biāo)題。4)以上幾種策略的任意組合。例如,與已經(jīng)存在的文檔系列中的文檔標(biāo)題具有相 同公共字符串且屬于同一用戶上傳的文檔標(biāo)題;或者,與已經(jīng)存在的文檔系列中的文檔標(biāo)題具有相同公共字符串且在一個以上間隔規(guī)律的時間區(qū)間內(nèi)上傳的文檔標(biāo)題等。至于采用何種抓取策略,可以根據(jù)實際的網(wǎng)絡(luò)需求或用戶需求進(jìn)行具體配置。在抓取文檔標(biāo)題后,在步驟101中需要將抓取到的文檔標(biāo)題進(jìn)行字符歸一化處 理,下面通過實施例二對字符歸一化處理的過程進(jìn)行詳細(xì)描述。實施例二、對文檔標(biāo)題進(jìn)行字符歸一化處理的過程可以如圖2所示,具體包括以下步驟步驟201 去除文檔標(biāo)題中與模式匹配處理無關(guān)的字符。與模式匹配處理無關(guān)的字符可以預(yù)先進(jìn)行設(shè)置,例如,可以將除了中文、英文和數(shù) 字等文字符號以及書名號、括號等區(qū)域性標(biāo)識符號之外的其它符號均設(shè)置為與模式匹配處 理無關(guān)的符號。這樣,就可以將文檔標(biāo)題中諸如多余的空格符號、點(diǎn)號、無意義的符號等可能對模 式匹配產(chǎn)生干擾的符號清除。其中,對于對文檔標(biāo)題的內(nèi)容有意義的符號可以予以保留,例 如表示序列號時可能會采用“3-4”這種方式,其中短劃線的存在是對序列號有意義的,在此 可以予以保留。較優(yōu)地,可以將進(jìn)行步驟201處理后的各文檔標(biāo)題分別采用預(yù)設(shè)的標(biāo)識符進(jìn)行隔 離后,形成各符號段落。例如,可以采用方括號將各文檔標(biāo)題分別圍起來。步驟202 將步驟201處理后的文檔標(biāo)題中序號部分采用預(yù)設(shè)的統(tǒng)一標(biāo)識替代,并 記錄文檔標(biāo)題替代前后的內(nèi)容。假設(shè)抓取的文檔標(biāo)題在步驟201的處理之后分別為《三國演義》第一集、《三國演 義》第二集、《三國演義》第三集。則可以分別將其中序號部分采用統(tǒng)一標(biāo)識“CNUM”替代, 從而均形成《三國演義》第CNUM集,分別記錄每個標(biāo)題替代前后的內(nèi)容。其中,對于不同模式的序號部分,可以分別采用不同的統(tǒng)一標(biāo)識進(jìn)行序號替代, 例如,對于阿拉伯?dāng)?shù)字采用統(tǒng)一標(biāo)識“SNUM”替代,對于中文數(shù)字采用統(tǒng)一標(biāo)識“CNUM”替 代,對于英文數(shù)字采用統(tǒng)一標(biāo)識“ENUM”替代,對于由數(shù)字和符號組成的序號采用統(tǒng)一表示 “SSTY”替代,例如,將“3-4”替代為“SSTY”。在本步驟中記錄文檔標(biāo)題替代前后的內(nèi)容,替代前文檔標(biāo)題的序號可以在后續(xù)確 定出的文檔系列中作為各文檔的排序依據(jù)。至此,圖2所示對文檔標(biāo)題進(jìn)行字符歸一化處理的過程結(jié)束,該字符歸一化的處 理可以采用自動機(jī)來實現(xiàn)。下面通過實施例三對模式匹配處理的流程進(jìn)行詳細(xì)描述,即步驟102的具體實現(xiàn) 方式。實施例三、圖3為本發(fā)明提供的模式匹配處理的過程流程圖,在本發(fā)明中可以采用正則表達(dá) 式(regular expression)匹配的方式進(jìn)行模式匹配,如圖3所示,主要包括以下步驟步驟301 確定進(jìn)行字符歸一化處理后各文檔標(biāo)題的序號標(biāo)識的模式??梢灶A(yù)先設(shè)置多種文檔標(biāo)題的模式,然后將進(jìn)行字符歸一化處理后的各文檔標(biāo)題 與預(yù)先設(shè)置的文檔標(biāo)題的模式進(jìn)行匹配,確定匹配的模式,并記錄確定的模式ID。例如,可以預(yù)先配置多種文檔標(biāo)題的模式,這些模式是根據(jù)歸一化處理后序號標(biāo) 識設(shè)置的,可以如表1所示。需要說明的是,表1僅為一個實例,本發(fā)明并不限定模式的具體設(shè)置方式,可以如表1所示,將序號標(biāo)識中數(shù)字符號也區(qū)分為不同模式,也可以不對數(shù)字符 號進(jìn)行模式上的區(qū)分,統(tǒng)一將“第XX集”作為一種模式,無論“XX”是CNUM、SNUM還是ENUM。
權(quán)利要求
一種推薦系列文檔的方法,應(yīng)用于文檔分享平臺,其特征在于,該方法包括A、獲取上傳文檔的文檔標(biāo)題,將獲取的文檔標(biāo)題進(jìn)行字符歸一化處理;B、將進(jìn)行字符歸一化處理后的文檔標(biāo)題進(jìn)行模式匹配處理,使得具有相同公共字符串和相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔被歸入同一文檔系列;C、將與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔推薦給用戶。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A中所述獲取上傳文檔的文檔標(biāo)題具 體包括以下策略從存儲上傳文檔的文檔元數(shù)據(jù)庫中,抓取同一用戶上傳文檔的文檔標(biāo)題,或者,抓取與 已經(jīng)存在的文檔系列中文檔的文檔標(biāo)題具有相同公共字符串的文檔標(biāo)題,或者,抓取在一 個時間區(qū)間內(nèi)所上傳文檔的文檔標(biāo)題,或者以上幾種策略的任意組合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A中所述將獲取的文檔標(biāo)題進(jìn)行字符 歸一化處理具體包括A1、將所述獲取的文檔標(biāo)題去除與模式匹配處理無關(guān)的字符;A2、將步驟A1處理后的各文檔標(biāo)題中序號部分采用預(yù)設(shè)的統(tǒng)一標(biāo)識替代。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B具體包括B1、對進(jìn)行字符歸一化處理后的各文檔標(biāo)題進(jìn)行公共字符串識別,以判斷各文檔標(biāo)題 是否具有預(yù)設(shè)長度的公共字符串,并且確定進(jìn)行字符歸一化處理后的各文檔標(biāo)題中序號標(biāo) 識的模式;B2、根據(jù)步驟B1的判斷結(jié)果信息以及確定的模式信息,將具有預(yù)設(shè)長度的公共字符串 且具有相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔歸入同一文檔系列。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟B2具體包括B21、根據(jù)步驟B1的判斷結(jié)果信息以及確定的模式信息,如果連續(xù)M以上個文檔標(biāo)題具 有預(yù)設(shè)長度的公共字符串且具有相同模式的序號標(biāo)識,則將所述M以上個文檔標(biāo)題對應(yīng)的 文檔歸入同一個文檔系列,以所述公共字符串為文檔系列的系列名稱;B22、對于后續(xù)滿足歸入當(dāng)前文檔系列的條件的文檔標(biāo)題,如果該文檔標(biāo)題與上一個歸 入當(dāng)前文檔系列的文檔標(biāo)題間隔的文檔標(biāo)題在N個以內(nèi),則將該文檔標(biāo)題對應(yīng)的文檔歸入 當(dāng)前文檔系列;如果該文檔標(biāo)題與上一個歸入當(dāng)前文檔系列的文檔標(biāo)題間隔的文檔標(biāo)題超 過N個,則結(jié)束當(dāng)前文檔系列的歸納,轉(zhuǎn)至執(zhí)行步驟B21 ;所述滿足歸入當(dāng)前文檔系列的條 件為具有當(dāng)前文檔系列的系列名稱的字符串且與當(dāng)前文檔系列中各文檔的文檔標(biāo)題具有 相同模式序號標(biāo)識;其中,M為2以上的整數(shù),N為正整數(shù)。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟C還包括將用戶當(dāng)前閱讀的文 檔的相關(guān)文檔推薦給用戶。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在將相關(guān)文檔推薦給用戶之前還包括對 所述相關(guān)文檔進(jìn)行去重處理;其中,所述去重處理具體為將所述相關(guān)文檔與用戶當(dāng)前閱讀的文檔屬于同一文檔系 列的文檔取交集,再從所述相關(guān)文檔中去除所述交集。
8.根據(jù)權(quán)利要求1至7任一權(quán)項所述的方法,其特征在于,所述將與用戶當(dāng)前閱讀的文 檔屬于同一文檔系列的文檔推薦給用戶具體包括執(zhí)行所述步驟A和步驟B的后臺將步驟B之后獲得的文檔系列的信息加載至存儲單元;前臺接收到包含用戶當(dāng)前閱讀的文檔信息的檢索請求后,從所述存儲單元獲取與用戶 當(dāng)前閱讀的文檔屬于同一文檔系列的文檔并推薦給用戶。
9.一種推薦系列文檔的裝置,應(yīng)用于文檔分享平臺,其特征在于,該裝置包括歸一化 處理單元、模式匹配單元和系列文檔推薦單元;所述歸一化處理單元,用于獲取上傳文檔的文檔標(biāo)題,將獲取的文檔標(biāo)題進(jìn)行字符歸 一化處理后發(fā)送給所述模式匹配單元;所述模式匹配單元,用于將接收到文檔標(biāo)題進(jìn)行模式匹配處理,使得具有相同公共字 符串和相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔被歸入同一文檔系列;所述系列文檔推薦單元,用于根據(jù)所述模式匹配單元的處理結(jié)果,將與用戶當(dāng)前閱讀 的文檔屬于同一文檔系列的文檔推薦給用戶。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,該裝置還包括標(biāo)題抓取單元,用于從存 儲上傳文檔的文檔元數(shù)據(jù)庫中抓取文檔標(biāo)題,并將抓取的文檔標(biāo)題發(fā)送給所述歸一化處理 單元;其中,抓取文檔標(biāo)題包括以下策略抓取同一用戶上傳文檔的文檔標(biāo)題,或者,抓取與 已經(jīng)存在的文檔系列中文檔的文檔標(biāo)題具有相同公共字符串的文檔標(biāo)題,或者,抓取在一 個時間區(qū)間內(nèi)所上傳文檔的文檔標(biāo)題,或者以上幾種策略的任意組合。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述歸一化處理單元具體包括字符清 理模塊和歸一化處理模塊;所述字符清理模塊,用于將獲取的文檔標(biāo)題去除與模式匹配處理無關(guān)的字符后發(fā)送給 所述歸一化處理模塊;所述歸一化處理模塊,用于將接收到的各文檔標(biāo)題中序號部分采用預(yù)設(shè)的同一標(biāo)識替代。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述模式匹配單元具體包括字符串識 別模塊、模式識別模塊和系列歸納模塊;所述字符串識別模塊,用于對所述歸一化處理單元發(fā)送來的文檔標(biāo)題進(jìn)行公共字符串 識別,以判斷各文檔標(biāo)題是否具有預(yù)設(shè)長度的公共字符串;所述模式識別模塊,用于確定所述歸一化處理單元發(fā)送來的文檔標(biāo)題中序號標(biāo)識的模式;所述系列歸納模塊,用于根據(jù)所述字符串識別模塊的判斷結(jié)果信息和所述模式識別模 塊確定的模式信息,將具有預(yù)設(shè)長度的公共字符串且具有相同模式序號標(biāo)識的文檔標(biāo)題所 對應(yīng)的文檔歸入同一文檔系列。
13.根據(jù)權(quán)利要求9所述的裝置,其特征在于,該裝置還包括相關(guān)文檔推薦單元,用于 將用戶當(dāng)前閱讀的文檔的相關(guān)文檔推薦給用戶。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述相關(guān)文檔推薦單元具體包括相關(guān) 文檔獲取模塊和去重處理模塊;所述相關(guān)文檔獲取模塊,用于獲取用戶當(dāng)前閱讀的文檔的相關(guān)文檔; 所述去重處理模塊,用于將所述相關(guān)文檔與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔取交集,再從所述相關(guān)文檔中去除所述交集。
15.根據(jù)權(quán)利要求9至14任一權(quán)項所述的裝置,其特征在于,所述歸一化處理單元和模 式匹配單元設(shè)置在后臺,所述系列文檔推薦單元設(shè)置在前臺;所述模式匹配單元將獲得的文檔系列的信息加載至存儲單元; 所述系列文檔推薦單元接收到包含用戶當(dāng)前閱讀的文檔信息的檢索請求后,從所述存 儲單元獲取與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔并推薦給用戶。
全文摘要
本發(fā)明提供了一種推薦系列文檔的方法和裝置,應(yīng)用于文檔分享平臺。其中方法包括獲取上傳文檔的文檔標(biāo)題,將獲取的文檔標(biāo)題進(jìn)行字符歸一化處理;將進(jìn)行字符歸一化處理后的文檔標(biāo)題進(jìn)行模式匹配處理,使得具有相同公共字符串和相同模式序號標(biāo)識的文檔標(biāo)題所對應(yīng)的文檔被歸入同一文檔系列;將與用戶當(dāng)前閱讀的文檔屬于同一文檔系列的文檔推薦給用戶。本發(fā)明滿足了用戶想看同一系列其它文檔的閱讀需求,使得用戶無需通過搜索引擎或分類列表花時間自行查找,提高了用戶的閱讀體驗,也滿足了用戶的潛在閱讀需求。
文檔編號G06F17/30GK101976259SQ20101052985
公開日2011年2月16日 申請日期2010年11月3日 優(yōu)先權(quán)日2010年11月3日
發(fā)明者楊帆, 高超 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
万全县| 老河口市| 北流市| 晴隆县| 灵山县| 如皋市| 通化县| 赞皇县| 曲阳县| 天祝| 平塘县| 克东县| 香格里拉县| 禹城市| 奉化市| 读书| 金沙县| 金门县| 临海市| 六枝特区| 迁西县| 固阳县| 合川市| 昌图县| 申扎县| 拜泉县| 横山县| 宜兰县| 克什克腾旗| 弥渡县| 南投县| 新宁县| 彭泽县| 阿拉尔市| 兴安盟| 北流市| 平乡县| 平阴县| 武功县| 佛学| 壶关县|