一種基于反饋的文獻(xiàn)檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文獻(xiàn)檢索和網(wǎng)頁信息服務(wù)領(lǐng)域。
【背景技術(shù)】
[0002]近年來,為方便讀者從海量數(shù)據(jù)庫中發(fā)現(xiàn)內(nèi)容,數(shù)據(jù)庫廠商不斷提高數(shù)據(jù)庫的檢索功能和性能,主要方法是通過對文獻(xiàn)元數(shù)據(jù)進(jìn)行深度加工,提供更多的檢索項(xiàng)選擇和組配方法,或者通過知識挖掘,將海量的無序文獻(xiàn)通過各種內(nèi)在的知識關(guān)系有序化,使得讀者從任意一篇文獻(xiàn)出發(fā),能夠靜態(tài)擴(kuò)展鏈接到其他內(nèi)容。這些方法都集中在如何將內(nèi)容加工處理好,改善檢索功能,而沒有考慮讀者檢索時(shí)產(chǎn)生的動態(tài)檢索環(huán)境,以及檢索過程中產(chǎn)生的大量有用信息。
[0003]讀者在進(jìn)行文獻(xiàn)調(diào)研時(shí),通常會圍繞一個(gè)科研主題,進(jìn)行多次檢索,在一次檢索中,會選擇、下載多篇文獻(xiàn)。因此,讀者的文獻(xiàn)調(diào)研過程,是一個(gè)需要不斷構(gòu)建檢索式,對檢索結(jié)果排序、篩選、下載,并再次優(yōu)化的過程。隨著檢索過程的深入,讀者會留下大量圍繞其調(diào)研主題、有價(jià)值的信息。這些信息對于改善后續(xù)的檢索性能是非常有價(jià)值的,而當(dāng)前的數(shù)據(jù)庫檢索中都沒有充分利用這些有價(jià)值的信息。
【發(fā)明內(nèi)容】
[0004]針對上述問題,本發(fā)明提出一種基于反饋的文獻(xiàn)檢索方法,包括以下步驟:
[0005]建設(shè)讀者檢索知識模型。在讀者進(jìn)行檢索時(shí),按預(yù)定的信息結(jié)構(gòu)記錄檢索信息,包括檢索詞、瀏覽文獻(xiàn)列表、下載文獻(xiàn)列表、操作時(shí)間、其他信息。基于文獻(xiàn)庫深度加工的各類元數(shù)據(jù)知識,對這些記錄的初始檢索信息進(jìn)行動態(tài)知識挖掘,將信息轉(zhuǎn)化為檢索知識,按預(yù)定的知識結(jié)構(gòu)存貯到讀者檢索知識模型中,包括檢索主題知識、分類知識、跟蹤時(shí)間知識和其他知識。
[0006]檢索反饋優(yōu)化。在后續(xù)的檢索過程中,將充分利用檢索知識模型,反饋優(yōu)化讀者的檢索式和檢索環(huán)境,包括:將檢索主題知識補(bǔ)充到檢索式中,或者反映到檢索推薦詞中;將分類知識加入到檢索范圍中,優(yōu)化檢索目標(biāo)范圍;將跟蹤時(shí)間知識加入到檢索范圍或者檢索結(jié)果展示中,預(yù)測讀者是要跟蹤最近的科研成果,還是對該主題進(jìn)行全面調(diào)研,從而對檢索結(jié)果的組織、展示和排序進(jìn)行優(yōu)化,方便讀者選擇。
[0007]更新檢索知識模型。本次檢索、選擇、下載產(chǎn)生的信息,通過知識處理,又更新到檢索知識模型中,不斷迭代,使得檢索知識模型動態(tài)反映讀者當(dāng)前的檢索需求,幫助提高后續(xù)的檢索性能和用戶體驗(yàn)。
【附圖說明】
[0008]圖1是基于反饋的文獻(xiàn)檢索功能流程圖
[0009]圖2是檢索信息庫數(shù)據(jù)結(jié)構(gòu)示意圖
[0010]圖3是檢索知識模型數(shù)據(jù)結(jié)構(gòu)示意圖[0011 ]圖4是知識挖掘功能模塊圖
[0012]圖5是主題知識挖掘功能結(jié)構(gòu)圖
[0013]圖6是分類知識挖掘功能結(jié)構(gòu)圖
[0014]圖7是跟蹤時(shí)間知識挖掘功能結(jié)構(gòu)圖
[0015]圖8是檢索優(yōu)化功能結(jié)構(gòu)圖
【具體實(shí)施方式】
[0016]下面結(jié)合附圖對本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述。
[0017]圖1是基于反饋的文獻(xiàn)檢索功能流程圖。如圖1所示,讀者為進(jìn)行文獻(xiàn)調(diào)研,檢索式構(gòu)建及處理11構(gòu)建檢索表達(dá)式,并對檢索式進(jìn)行分詞、組配處理后,開始進(jìn)行檢索操作12,返回大量符合檢索式要求的記錄。讀者利用數(shù)據(jù)庫系統(tǒng)提供的各類排序、分組、篩選工具,發(fā)現(xiàn)有用的文獻(xiàn),點(diǎn)擊瀏覽這些有用文獻(xiàn)的題錄摘要,確實(shí)有價(jià)值的文獻(xiàn),將下載全文,用于進(jìn)一步閱讀和研究。檢索信息記錄13對這一過程涉及到的檢索式、瀏覽文獻(xiàn)、下載文獻(xiàn)、各類操作的時(shí)間量及占比按預(yù)定結(jié)構(gòu)記錄到檢索信息庫14中?;谠撔畔欤瑱z索知識挖掘15利用數(shù)據(jù)庫原有的大量元數(shù)據(jù)知識,按檢索知識模型16的要求進(jìn)行知識挖掘,將檢索信息轉(zhuǎn)化為知識,按預(yù)定結(jié)構(gòu)存貯或更新到檢索知識模型16中。在讀者需要進(jìn)一步檢索時(shí),檢索優(yōu)化17利用檢索知識模型16中的知識,幫助讀者構(gòu)建更好的檢索式,并對檢索結(jié)果進(jìn)行更滿足需求的組織和展示,最終幫助讀者更快、更好地發(fā)現(xiàn)需要的內(nèi)容,提高讀者檢索體驗(yàn)。
[0018]檢索信息庫數(shù)據(jù)結(jié)構(gòu)如圖2所示。檢索信息庫記錄讀者當(dāng)前的檢索過程中產(chǎn)生的相關(guān)信息,包括5大類:檢索詞21記錄檢索式經(jīng)過分詞處理后形成的檢索詞向量,根據(jù)需要可帶權(quán)重;瀏覽文獻(xiàn)列表22記錄讀者選擇過程中,點(diǎn)擊瀏覽過的文獻(xiàn)標(biāo)識,形成瀏覽文獻(xiàn)向量;下載文獻(xiàn)列表23記錄讀者選擇過程中,下載過的文獻(xiàn)標(biāo)識,形成下載文獻(xiàn)向量;操作時(shí)間24記錄不同操作類型占用的時(shí)間量或比率,操作類型預(yù)先設(shè)定,例如:檢索、瀏覽、下載、其他,用于提供檢索知識挖掘15對讀者操作重要的挖掘依據(jù);其他信息25是根據(jù)應(yīng)用記錄的其他有用信息。
[0019]檢索信息庫經(jīng)過檢索知識挖掘后形成的知識被存貯或更新到檢索知識模型中。檢索知識模型數(shù)據(jù)結(jié)構(gòu)如圖3所示。檢索知識模型包括4部分:檢索主題31存貯讀者當(dāng)前檢索過程中關(guān)注的主題對應(yīng)的主題向量,對應(yīng)為帶權(quán)重的主題詞或檢索詞向量;分類知識32對應(yīng)讀者當(dāng)前檢索過程中關(guān)注的主題涉及到的分類,對應(yīng)為帶權(quán)重的分類號向量;跟蹤時(shí)間33對應(yīng)讀者當(dāng)前檢索過程中關(guān)注的主題瀏覽下載文獻(xiàn)的新舊,對應(yīng)為帶權(quán)重的文獻(xiàn)發(fā)表時(shí)間段;其他知識是根據(jù)應(yīng)用挖掘的其他知識。
[0020]圖4是知識挖掘功能模塊圖。如圖4所示,知識挖掘包括4個(gè)挖掘模塊:主題知識挖掘模塊41完成對讀者當(dāng)前檢索主題內(nèi)容的挖掘;分類知識挖掘42完成對讀者當(dāng)前檢索主題涉及分類范圍的挖掘;跟蹤時(shí)間知識挖掘43完成對讀者當(dāng)前檢索所關(guān)注文獻(xiàn)發(fā)表時(shí)間段的知識挖掘;其他知識挖掘44完成對應(yīng)用所需要其他知識的挖掘。
[0021]主題知識挖掘功能結(jié)構(gòu)如圖5所示。文獻(xiàn)向量綜合模塊51根據(jù)檢索信息庫中的瀏覽文獻(xiàn)列表和下載文獻(xiàn)列表,計(jì)算出瀏覽文獻(xiàn)中心點(diǎn)向量52和下載文獻(xiàn)中心點(diǎn)向量53,例如加權(quán)平均算法、K近鄰算法或其他常用方法。內(nèi)容向量總合成模塊54結(jié)合檢索信息庫中的檢索向量、操作時(shí)間向量,以及瀏覽文獻(xiàn)中心點(diǎn)向量52和下載文獻(xiàn)中心點(diǎn)向量53,合并成檢索主題向量54,合并方法可以采用加權(quán)平均或其他能夠反映當(dāng)前檢索主題內(nèi)容的常用方法。
[0022]分類知識挖掘功能結(jié)構(gòu)如圖6所示。文獻(xiàn)類型綜合模塊61根據(jù)檢索信息庫中的瀏覽文獻(xiàn)列表和下載文獻(xiàn)列表,計(jì)算出瀏覽文獻(xiàn)涉及的類型向量62、下載文獻(xiàn)涉及的類型向量63及各類型的權(quán)重。類型向量總合成模塊64結(jié)合瀏覽文獻(xiàn)類型向量62和下載文獻(xiàn)類型向量63,以及檢索信息庫中的操作時(shí)間向量,合并成類型向量65,合并方法可以采用加權(quán)平均或其他常用方法。
[0023]跟蹤