欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于用戶點擊行為的數(shù)字圖書搜索方法

文檔序號:6460519閱讀:179來源:國知局
專利名稱:基于用戶點擊行為的數(shù)字圖書搜索方法
技術領域
本發(fā)明涉及數(shù)字圖書館、信息檢索和Web使用挖掘領域,尤其涉及一種基 于用戶點擊行為的數(shù)字圖書搜索方法。
背景技術
21世紀是數(shù)字化的時代,隨著計算機技術、海量存儲技術和網(wǎng)絡技術的飛 速發(fā)展,信息載體的數(shù)字化和信息傳播的網(wǎng)絡化得到了空前的深化,圖書館的 數(shù)字化成為一個必然趨勢。數(shù)字圖書館在世界很多國家受到了高度關注,并取 得了迅猛發(fā)展,已經(jīng)成為人們獲取信息與知識的重要途徑。
數(shù)字圖書館中通常擁有海量的數(shù)字圖書資源,如何有效的利用這些豐富而 寶貴的資源,讓數(shù)字圖書館讀者能夠更充分的利用他們就顯得非常重要。數(shù)字 圖書搜索是數(shù)字圖書館必須提供的支撐性服務本,它是數(shù)字圖書館中最為重要 的一個功能模塊,它使得讀者能夠很好地找到需要的圖書資源,是數(shù)字圖書館 服務平臺的"第一線"。
傳統(tǒng)的圖書資源搜索系統(tǒng)是基于關系數(shù)據(jù)庫的簡單匹配査找,只能過濾出 與讀者所輸入的關鍵字相匹配的相關圖書條目,并沒有使用有效的圖書排序機 制以提高讀者檢索的滿意度,而且性能和用戶體驗不佳。

發(fā)明內(nèi)容
本發(fā)明為克服數(shù)字圖書館中傳統(tǒng)圖書搜索系統(tǒng)質(zhì)量差的缺點,提供了一種 高質(zhì)量的圖書搜索結果排序方法。
基于用戶點擊行為的數(shù)字圖書搜索方法包括以下步驟
(1) 提取日志中的圖書閱讀記錄構建圖書之間的關聯(lián)圖,使用關聯(lián)圖計算 圖書的相關性排序得分;
(2) 提取日志中的檢索閱讀記錄,利用讀者對檢索結果的隱式反饋對查詢 詞進行聚類;
(3) 抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分;
(4) 在查詢詞聚類的基礎之上,針對每類查詢詞,利用讀者對檢索結果的 隱式反饋,綜合從關聯(lián)圖得出的圖書相關性排序、互聯(lián)網(wǎng)上的圖書評分以及文 本相似度這三種排序信息源,形成最終的圖書搜索結果排序。
所述的提取日志中的圖書閱讀記錄構建圖書之間的關聯(lián)圖,使用關聯(lián)圖計 算圖書的相關性排序得分步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用日志數(shù)據(jù)中的讀者圖書閱讀記錄,構建共同閱讀過圖書i和圖書j的讀 者的數(shù)量矩陣^,用[/ = {",:0^'<; }表示讀者的集合,5 = {~:0"'<"}表示圖書 的集合,然后對6"進行歸一化處理
W乂
得到圖書關聯(lián)矩陣C",使用向量朋=[ &,..., |—/表示圖書的相關性排序 得分,向量"[《,《,《,…,+卜/表示圖書的已知質(zhì)量信息,最后使用下面的迭代 方法來計算最終的圖書相關性排序得分-
朋(o卜jifVi 。
朋("+1) = aC朋(")+ (1 - +
所述的提取日志中的檢索閱讀記錄,利用讀者對檢索結果的隱式反饋對查 詢詞進行聚類步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用日志 數(shù)據(jù)中的圖書檢索閱讀記錄,得到與每個查詢詞相關的數(shù)字圖書,使用 0 = {&:0^<^表示査詢詞的集合,集合5,GB表示與査詢詞&相關的圖書,集合 G,v定義為
G ,nB, ifi-j 構建表示與査詢詞A和力都相關的圖書的數(shù)量的矩陣,定義為
s..=
、■/
歸一化后即得到査詢詞相似性矩陣:
S,,^其中w;=
然后使用類似上述的圖書相關性排序的迭代計算方式來對査詢詞進行聚類。
所述的抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分步驟 設計爬蟲程序抓取互聯(lián)網(wǎng)上著名圖書網(wǎng)站上的圖書評分頁面,分析提取圖書的 元數(shù)據(jù)和圖書評分,如果提取出來的圖書在數(shù)字圖書館中存在,則整合不同網(wǎng) 站上的相同圖書的評分數(shù)據(jù),設整合的站點為S,其中0&、W,圖書&在站點S,上 的歸一化后的評分數(shù)據(jù)為 ,評分人數(shù)為&,若該圖書該站點上不存在或存在 但是沒有評分記錄,那么 或/^為零,使用如下公式來整合圖書評分+ 。
所述的在查詢詞聚類的基礎之上,針對每類査詢詞,利用讀者對檢索結果 的隱式反饋,綜合從關聯(lián)圖得出的圖書相關性排序、互聯(lián)網(wǎng)上的圖書評分以及
文本相似度這三種排序信息源,形成最終的圖書搜索結果排序步驟將基于數(shù) 字圖書訪問關聯(lián)圖的圖書排序值表示為/ = [^^,^..,^_/,將從互聯(lián)網(wǎng)上整合得 到的圖書排序值表示為5 = [^^1^2,..., |_/ ,將基于元數(shù)據(jù)文本相似度的檢索得
分表示為r^^^,…,d:r,其中B為圖書的集合,三個排序值都是介于o到i 之間的浮點值,得分最高的圖書的分值為i,對于一次圖書搜索,使用基于文本
相似度的元數(shù)據(jù)檢索獲得匹配的圖書列表^ = [6。,61,62,...,6 —J, 、0《""為圖書 的編號,圖書列表文本相似度得分為r-[f。,",...,1/, n為匹配當前搜索關鍵
詞的圖書數(shù)目,然后使用如下公式來計算最終的圖書得分-
其中",A^按照如下方式確定從讀者的圖書檢索閱讀的序列數(shù)據(jù)中提取出一系 列的有序對〈一,^W〉,進而將有序對轉化為仏w,ww〉, score表示讀者對圖書的 評分,得到的一系列有序對〈/t^,^^〉,按照查詢詞的聚類結果來將前面得到的 有序對分為m個組,第i組中的所有有序對滿足fej^e,,對于第i組中的每一個 有序對j,計算出以它的key值作為査詢詞的檢索結果中它對應的圖書的三個排 序分值,以有序對j的score分子作為最終的圖書得分f,這樣第i組中的所有有 序對構成一個多元線性回歸分析模型
使用每一組中的所有有序對來進行最小二乘估計可以得到針對每一個查詢詞類 的",,/U。
本發(fā)明所述的基于用戶點擊行為的數(shù)字圖書搜索方法具有如下特點
(1) 充分挖掘和使用了數(shù)字圖書館Web使用日志中的用戶點擊行為數(shù)據(jù), 可以獲得客觀的圖書相關性排序和很好的査詢詞聚類效果;
(2) 將互聯(lián)網(wǎng)上豐富的圖書評分數(shù)據(jù)融入到相對封閉和靜態(tài)的數(shù)字圖書館 中,有效提高圖書搜索質(zhì)量;
(3) 綜合考慮了三種排序信息源,并使用讀者的隱式反饋來進行集成,可 以得到高質(zhì)量的排序結果。


圖1是整合圖書評分數(shù)據(jù)基本框架圖;
具體實施例方式
基于用戶點擊行為的數(shù)字圖書搜索方法包括如下步驟
1.提取日志中的圖書閱讀記錄構建圖書之間的關聯(lián)圖,使用關聯(lián)圖計算圖 書的相關性排序得分
設讀者的集合為[/ = { ,:0^<附},其中m為讀者的數(shù)量;圖書的集合為 5 = ^:0sy<4,其中n為圖書的數(shù)量。讀者與圖書的閱讀關系表示為 r"^.:",et/A、e5,0^〈w,0S其中L為一個bool值,如果讀者",.閱讀 了圖書^的20%以上的頁數(shù),則視為一次有效的閱讀行為,^等于True,否則 視為沒有發(fā)生過該閱讀行為,、,等于False:
圖書與圖書之間存在著關聯(lián)關系,本發(fā)明通過同時閱讀過兩本圖書的讀者 把這兩本書關聯(lián)起來。定義t/,,,sC7,為U的一個子集,表示同時閱讀過圖書&,.和 圖書6」的讀者的集合
這樣就可以構建一個|5|*間的矩陣£",表示每一對圖書之間共同閱讀過它 們的讀者的數(shù)量
這里H表示一個集合的勢。很明顯V!',= 0而且£是一個對稱矩陣。
對矩陣G做規(guī)格化處理:
稱C為圖書關聯(lián)矩陣,矩陣中的每一項代表了圖書對的關聯(lián)系數(shù),圖書關 聯(lián)矩陣也可以被看作是一個圖書關聯(lián)圖Ge的加權關聯(lián)矩陣。Ge中的節(jié)點表示集 合B中圖書,圖書6i和圖書6j之間有邊鏈接當且僅當C。X), C".為邊的權重。
有一點需要注意,雖然e;是一個對稱矩陣,但是C并不是一個對稱矩陣,所以
邊^(qū)A)和邊(^A)的權重并不是一致的,Ge是一個有向加權圖。
圖書相關性排序算法最基本的思想就是通過從用戶使用日志中提取出來的
8圖書關聯(lián)圖來傳播圖書的質(zhì)量信息,進而估算出圖書的相關性排序。使用向量 朋-[^,^,^,…, 卜/表示圖書的相關性排序得分,向量d-W^,4,…, J表示 圖書的已知質(zhì)量信息,最后使用下面的迭代方法來計算最終的圖書相關性排序 得分

朋("+1) = orC順")+ (1 - or) d
收斂后得到的BR即為圖書rank值,在最終排序檢索結果中它是一個 的組成部分。最后對得到的結果進行處理使得其中rank值最高的項值為1:
^ = ~~max(朋)為BR中值最高的項。
2.提取日志中的檢索閱讀記錄,利用讀者對檢索結果的隱式反饋對查詢詞進 行聚類
分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取其中的圖書檢索閱讀記錄,得 到與每個査詢詞相關的數(shù)字圖書,使用2 = ^,:0^<附}表示查詢詞的集合,集合 5^B表示與査詢詞《相關的圖書,集合fi^S表示與查詢詞《,相關的圖書,集合
(^定義為
「5,.nB, ifi-j
《,;
wl0 ifi=j
構建表示與查詢詞&和g,都相關的圖書的數(shù)量的矩陣,定義為
歸一化后即得到査詢詞相似性矩陣:
然后使用類似上述的圖書相關性排序的迭代計算方式來對查詢詞進行聚類。 3.抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分 設計爬蟲程序抓取互聯(lián)網(wǎng)上著名圖書網(wǎng)站上的圖書評分頁面,分析提取圖 書的元數(shù)據(jù)和圖書評分,如果提取出來的圖書在數(shù)字圖書館中存在,則整合不 同網(wǎng)站上的相同圖書的評分數(shù)據(jù),設整合的站點為S,其中0&、AS圖書&在站 點S,上的歸一化后的評分數(shù)據(jù)為^,評分人數(shù)為&,若該圖書該站點上不存在或存在但是沒有評分記錄,那么^或A為零,使用如下公式來整合圖書評分
<formula>formula see original document page 10</formula>
4.在査詢詞聚類的基礎之上,針對每類查詢詞,利用讀者對檢索結果的隱式 反饋,綜合從關聯(lián)圖得出的圖書相關性排序、互聯(lián)網(wǎng)上的圖書評分以及文本相 似度這三種排序信息源,形成最終的圖書搜索結果排序
將基于數(shù)字圖書訪問關聯(lián)圖的圖書排序值表示為i^[r。,A1, ...,^]、將從互
聯(lián)網(wǎng)上整合得到的圖書排序值表示為r[^^A,…,^J,將基于元數(shù)據(jù)文本相
似度的檢索得分表示為7^[f。,w,…U、其中B為圖書的集合,三個排序值都 是介于0到1之間的浮點值,得分最高的圖書的分值為l,對于一次圖書搜索,
使用基于文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書列表^^6。AA,…A-,;r, ~,0"<"為圖書的編號,圖書列表文本相似度得分為r^。,w,…,^f , n為匹
配當前搜索關鍵詞的圖書數(shù)目,然后使用如下公式來計算最終的圖書得分 其中",Ay按照如下方式確定從讀者的圖書檢索閱讀的序列數(shù)據(jù)中提取出一系
列的有序對〈一>"〉,進而將有序對轉化為〈^v,"ow〉, score表示讀者對圖書的 評分,得到的一系列有序對〈一,^w^,按照查詢詞的聚類結果來將前面得到的 有序對分為m個組,第i組中的所有有序對滿足fe;^2,,對于第i組中的每一個 有序對j,計算出以它的key值作為査詢詞的檢索結果中它對應的圖書的三個排 序分值,以有序對j的score分子作為最終的圖書得分f,這樣第i組中的所有有 序對構成一個多元線性回歸分析模型
使用每一組中的所有有序對來進行最小二乘估計可以得到針對每一個査詢 詞類的"',"^。
權利要求
1、一種基于用戶點擊行為的數(shù)字圖書搜索方法,其特征在于包括以下步驟(1)提取日志中的圖書閱讀記錄構建圖書之間的關聯(lián)圖,使用關聯(lián)圖計算圖書的相關性排序得分;(2)提取日志中的檢索閱讀記錄,利用讀者對檢索結果的隱式反饋對查詢詞進行聚類;(3)抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分;(4)在查詢詞聚類的基礎之上,針對每類查詢詞,利用讀者對檢索結果的隱式反饋,綜合從關聯(lián)圖得出的圖書相關性排序、互聯(lián)網(wǎng)上的圖書評分以及文本相似度這三種排序信息源,形成最終的圖書搜索結果排序。
2、 根據(jù)權利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其 特征在于所述的提取日志中的圖書閱讀記錄構建圖書之間的關聯(lián)圖,使用關聯(lián) 圖計算圖書的相關性排序得分步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提 取Web使用日志數(shù)據(jù)中的讀者圖書閱讀記錄,構建共同閱讀過圖書i和圖書j 的讀者的數(shù)量矩陣e^.,用"=^:0^'<朋}表示讀者的集合,萬=化0^<"}表示 圖書的集合,然后對《」進行歸一化處理c'々其中,i:^.得到圖書關聯(lián)矩陣C^.,使用向量朋-[K》r一2,…, ^表示圖書的相關性排序 得分,向量^ = [^"1,《,..., _/表示圖書的已知質(zhì)量信息,最后使用下面的迭代 方法來計算最終的圖書相關性排序得分,(0)=由1間 。朋(w +1) = "C朋(")+ (1 - +
3、 根據(jù)權利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其 特征在于所述的提取日志中的檢索閱讀記錄,利用讀者對檢索結果的隱式反饋 對查詢詞進行聚類步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用 日志數(shù)據(jù)中的圖書檢索閱讀記錄,得到與每個査詢詞相關的數(shù)字圖書,使用 2 = ^:0《/<附}表示查詢詞的集合,集合B,;S表示與查詢詞9,相關的圖書,集合 G"定義為<formula>formula see original document page 3</formula>構建表示與查詢詞&和力都相關的圖書的數(shù)量的矩陣,定義為:<formula>formula see original document page 3</formula>歸一化后即得到查詢詞相似性矩陣:<formula>formula see original document page 3</formula>其中<formula>formula see original document page 3</formula>然后使用類似上述的圖書相關性排序的迭代計算方式來對查詢詞進行聚類。
4、根據(jù)權利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其特征在于所述的抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分步驟設計爬蟲程序抓取互聯(lián)網(wǎng)上著名圖書網(wǎng)站上的圖書評分頁面,分析提取圖 書的元數(shù)據(jù)和圖書評分,如果提取出來的圖書在數(shù)字圖書館中存在,則整合不 同網(wǎng)站上的相同圖書的評分數(shù)據(jù),設整合的站點為S其中(^"7V,圖書^在站 點S上的歸一化后的評分數(shù)據(jù)為 ,評分人數(shù)為&,若該圖書該站點上不存在 或存在但是沒有評分記錄,那么 或^為零,使用如下公式來整合圖書評分<formula>formula see original document page 3</formula>.
5、根據(jù)權利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其 特征在于所述的在查詢詞聚類的基礎之上,針對每類查詢詞,利用讀者對檢索 結果的隱式反饋,綜合從關聯(lián)圖得出的圖書相關性排序、互聯(lián)網(wǎng)上的圖書評分 以及文本相似度這三種排序信息源,形成最終的圖書搜索結果排序步驟將基 于數(shù)字圖書訪問關聯(lián)圖的圖書排序值表示為及=[^。 2,..將從互聯(lián)網(wǎng)上整 合得到的圖書排序值表示為5 = ^^^2,...,^一/ ,將基于元數(shù)據(jù)文本相似度的檢 索得分表示為r^f。,^,…U、其中B為圖書的集合,三個排序值都是介于0 到l之間的浮點值,得分最高的圖書的分值為1,對于一次圖書搜索,使用基于 文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書列表S^6。AA,…,U, &0^<"為 圖書的編號,圖書列表文本相似度得分為『=[/。,^2,...,^]、 n為匹配當前搜索 關鍵詞的圖書數(shù)目,然后使用如下公式來計算最終的圖書得分其中cr,A/按照如下方式確定從讀者的圖書檢索閱讀的序列數(shù)據(jù)中提取出一系列的有序對〈一,6。W〉,進而將有序對轉化為〈fe;^cw^, score表示讀者對圖書的 評分,得到的一系列有序對〈)fe^,"ow〉,按照查詢詞的聚類結果來將前面得到的 有序對分為m個組,第i組中的所有有序對滿足/t^e2,,對于第i組中的每一個 有序對j,計算出以它的key值作為查詢詞的檢索結果中它對應的圖書的三個排 序分值,以有序對j的score分子作為最終的圖書得分f,這樣第i組中的所有有 序對構成一個多元線性回歸分析模型使用每一組中的所有有序對來進行最小二乘估計可以得到針對每一個查詢詞類 的",,A,r,。
全文摘要
本發(fā)明公開了一種基于用戶點擊行為的數(shù)字圖書搜索的方法。首先,提取Web日志中的圖書閱讀記錄構建圖書之間的關聯(lián)圖,使用該關聯(lián)圖來計算圖書的相關性排序;其次,提取日志中的檢索閱讀記錄,利用其中讀者對檢索結果的隱式反饋對查詢詞進行聚類;最后,在查詢詞聚類的基礎之上,針對每類查詢詞,利用讀者對檢索結果的隱式反饋,綜合從關聯(lián)圖得出的圖書相關性排序、互聯(lián)網(wǎng)上的圖書評分以及文本相似度這三種信息源,形成最終的圖書搜索結果排序。本發(fā)明可以獲得客觀的圖書相關性排序和很好的查詢詞聚類效果;將互聯(lián)網(wǎng)上豐富的圖書評分數(shù)據(jù)融入到相對封閉和靜態(tài)的數(shù)字圖書館中,有效提高圖書搜索質(zhì)量。
文檔編號G06F17/30GK101320375SQ200810063010
公開日2008年12月10日 申請日期2008年7月4日 優(yōu)先權日2008年7月4日
發(fā)明者吳江琴, 莊越挺, 寅 張, 川 袁 申請人:浙江大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
嘉荫县| 嘉鱼县| 弥勒县| 开原市| 鄂托克前旗| 宝兴县| 涞源县| 固始县| 武山县| 安庆市| 黄冈市| 商洛市| 汾阳市| 册亨县| 如东县| 雷波县| 桃江县| 讷河市| 开江县| 周至县| 科技| 郴州市| 沿河| 江北区| 屏东县| 张家港市| 西贡区| 凤凰县| 新干县| 宁波市| 绥阳县| 柘荣县| 古蔺县| 普陀区| 曲沃县| 庆元县| 九龙县| 金堂县| 台南市| 枣强县| 通榆县|