本發(fā)明涉及數(shù)據(jù)挖掘,特別涉及一種基于關(guān)鍵詞共現(xiàn)關(guān)系的相關(guān)文獻推薦系統(tǒng)及方法。
背景技術(shù):
1、隨著學術(shù)研究的不斷深入和文獻數(shù)量的快速增長,科研人員面臨著如何從海量文獻中快速、準確地獲取所需信息的挑戰(zhàn)。科研人員在學術(shù)研究的過程中需要創(chuàng)新,而創(chuàng)新點可以從交叉學科中挖掘,這就要求科研人員在查找文獻時不僅需要查找與研究點直接相關(guān)的文獻,還需要查找與研究點相關(guān)的交叉學科相關(guān)文獻,通過閱讀研究交叉學科相關(guān)文獻來找到創(chuàng)新點。
2、傳統(tǒng)的文獻檢索和推薦方法多基于有一篇文獻的參考文獻、引證文獻和同被引文獻等方式進行推薦,無法從海量文獻找到與研究點相關(guān)的其他文獻。
3、有鑒于此,亟需一種基于關(guān)鍵詞共現(xiàn)關(guān)系的相關(guān)文獻推薦系統(tǒng)及方法,以至少解決上述不足。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的之一在于提供了一種基于關(guān)鍵詞共現(xiàn)關(guān)系的相關(guān)文獻推薦系統(tǒng)及方法,對獲取的文獻元數(shù)據(jù)進行數(shù)據(jù)清洗獲取目標處理數(shù)據(jù),根據(jù)目標處理數(shù)據(jù)計算關(guān)鍵詞詞頻、關(guān)鍵詞權(quán)重和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),再進一步計算相關(guān)文獻推薦排序,根據(jù)相關(guān)文獻推薦排序進行文獻推薦,可快速根據(jù)一篇文獻從海量文獻中推薦出與檢索文件相關(guān)的拓展文獻,提高了文獻檢索效率。
2、本發(fā)明實施例提供的一種基于關(guān)鍵詞共現(xiàn)關(guān)系的相關(guān)文獻推薦系統(tǒng),包括:
3、數(shù)據(jù)準備子系統(tǒng),用于獲取文獻元數(shù)據(jù),并對文獻元數(shù)據(jù)進行數(shù)據(jù)清洗,獲得目標處理數(shù)據(jù);
4、參數(shù)計算子系統(tǒng),用于根據(jù)目標處理數(shù)據(jù),計算目標參數(shù),目標參數(shù)包括:關(guān)鍵詞詞頻、關(guān)鍵詞權(quán)重和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò);
5、相關(guān)度計算子系統(tǒng),用于根據(jù)目標參數(shù),確定相關(guān)文獻推薦排序;
6、文獻推薦子系統(tǒng),用于根據(jù)相關(guān)文獻推薦排序進行文獻推薦。
7、優(yōu)選的,數(shù)據(jù)準備子系統(tǒng),包括:
8、文獻元數(shù)據(jù)準備模塊,用于基于預設(shè)的文獻錄入庫,獲取文獻元數(shù)據(jù);
9、目標關(guān)鍵詞獲取模塊,用于獲取目標關(guān)鍵詞;
10、關(guān)鍵詞數(shù)據(jù)清洗模塊,用于剔除沒有目標關(guān)鍵詞的文獻元數(shù)據(jù),獲得第一處理數(shù)據(jù),基于預設(shè)的歸一化處理規(guī)則對第一處理數(shù)據(jù)進行歸一化處理獲取第二處理數(shù)據(jù),根據(jù)第二處理數(shù)據(jù)去除低頻數(shù)據(jù)獲取目標處理數(shù)據(jù)。
11、優(yōu)選的,參數(shù)計算子系統(tǒng),包括:
12、詞頻統(tǒng)計模塊,用于根據(jù)目標處理數(shù)據(jù),進行關(guān)鍵詞詞頻統(tǒng)計,獲取關(guān)鍵詞詞頻矩陣和文獻關(guān)鍵詞關(guān)系矩陣;
13、關(guān)鍵詞權(quán)重計算模塊,用于根據(jù)關(guān)鍵詞詞頻統(tǒng)計的統(tǒng)計結(jié)果,計算關(guān)鍵詞權(quán)重;
14、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)計算模塊,用于對目標關(guān)鍵詞進行共現(xiàn)關(guān)系分析,構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)并計算共現(xiàn)強度。
15、優(yōu)選的,相關(guān)度計算子系統(tǒng),包括:
16、檢索關(guān)鍵詞獲取模塊,用于獲取檢索關(guān)鍵詞;
17、文獻相關(guān)度計算模塊,用于根據(jù)目標參數(shù)和檢索關(guān)鍵詞,計算文獻相關(guān)度;
18、相關(guān)度排序模塊,用于根據(jù)文獻相關(guān)度從大到小的順序進行相關(guān)文獻推薦排序。
19、優(yōu)選的,檢索關(guān)鍵詞獲取模塊,包括:
20、檢索關(guān)鍵詞第一獲取子模塊,用于獲取目標人員輸入的檢索關(guān)鍵詞;
21、和/或,
22、檢索關(guān)鍵詞第二獲取子模塊,用于根據(jù)目標人員輸入的查詢文獻確定檢索關(guān)鍵詞。
23、優(yōu)選的,檢索關(guān)鍵詞第二獲取子模塊,包括:
24、歷史查詢記錄集展開單元,用于獲取查詢文獻的歷史查詢記錄集,將歷史查詢記錄集在目標時間軸上展開;
25、平均檢索時長獲取單元,用于獲取平均檢索時長;
26、檢索時間窗口確定單元,用于根據(jù)平均檢索時長,確定檢索時間窗口;
27、檢索時間窗口遍歷單元,用于將檢索時間窗口在目標時間軸上移動;
28、定位條件滿足性判定單元,用于判斷檢索時間窗口是否滿足定位條件;
29、歷史查詢記錄確定單元,用于若檢索時間窗口滿足定位條件,確定每一定位時間窗口內(nèi)距離當前時間最近的歷史查詢記錄;
30、歷史查詢記錄解析單元,用于解析歷史查詢記錄,確定目標查詢?nèi)藛T和目標查詢關(guān)鍵詞;
31、檢索經(jīng)驗信息獲取單元,用于獲取目標查詢?nèi)藛T的檢索經(jīng)驗信息;
32、檢索關(guān)鍵詞確定單元,用于根據(jù)檢索經(jīng)驗信息,確定目標查詢記錄中的目標查詢關(guān)鍵詞作為查詢文獻的檢索關(guān)鍵詞。
33、優(yōu)選的,定位條件滿足性判定單元,包括:
34、比較記錄第一確定子單元,用于將位于檢索時間窗口內(nèi)的歷史查詢記錄作為第一比較記錄,將位于檢索時間窗口外的歷史查詢記錄作為第二比較記錄,檢索時間窗口分為左右兩側(cè);
35、比較記錄第二確定子單元,用于確定距離檢索時間窗口側(cè)最近的第一比較記錄,并作為第三比較記錄;
36、比較記錄第三確定子單元,用于確定距離檢索時間窗口側(cè)最近的第二比較記錄,并作為第四比較記錄;
37、時間間隔第一計算子單元,用于獲取距離同一檢索時間窗口側(cè)最近的第三比較記錄和第四比較記錄的第一時間間隔;
38、時間間隔第二計算子單元,用于獲取距離同一檢索時間窗口側(cè)最近的第三比較記錄距離相應檢索時間窗口側(cè)的第二時間間隔和第四比較記錄距離相應檢索時間窗口側(cè)的第三時間間隔;
39、判定子單元,用于若第一時間間隔大于等于預設(shè)的時間間隔閾值,且,第二時間間隔小于第三時間間隔,則檢索時間窗口滿足定位條件。
40、優(yōu)選的,文獻推薦子系統(tǒng),還包括:
41、歷史文獻瀏覽信息獲取模塊,用于根據(jù)相關(guān)文獻推薦排序進行文獻推薦之前,獲取目標人員的歷史文獻瀏覽信息;
42、瀏覽有效值確定模塊,用于根據(jù)歷史文獻瀏覽信息,確定第一歷史瀏覽文獻的瀏覽有效值;
43、目標歷史瀏覽文獻第一確定模塊,用于若瀏覽有效值大于等于預設(shè)的瀏覽有效值閾值,將對應第一歷史瀏覽文獻作為目標歷史瀏覽文獻;
44、第二歷史瀏覽文獻確定模塊,用于若瀏覽有效值小于預設(shè)的瀏覽有效值閾值,將對應第一歷史瀏覽文獻作為第二歷史瀏覽文獻;
45、文獻特征提取模塊,用于提取第二歷史瀏覽文獻的文獻特征;
46、目標歷史瀏覽文獻第二確定模塊,用于根據(jù)文獻特征和預設(shè)的判定文獻特征庫,確定第二歷史瀏覽文獻中的目標歷史瀏覽文獻;
47、文獻推薦模塊,用于剔除相關(guān)文獻推薦排序中的目標歷史瀏覽文獻后進行文獻推薦;
48、其中,瀏覽有效值確定模塊,包括:
49、目標段落確定子模塊,用于根據(jù)歷史文獻瀏覽信息,確定第一歷史瀏覽文獻各個目標段落;
50、段落類型獲取子模塊,用于獲取目標段落的段落類型;
51、理想查看時長確定子模塊,用于根據(jù)段落類型對應的字符數(shù)-理想查看時長對照庫,確定目標段落的理想查看時長;
52、實際瀏覽時長獲取子模塊,用于獲取目標段落的實際瀏覽時長;
53、瀏覽價值度確定子模塊,用于根據(jù)實際瀏覽時長和理想查看時長,確定瀏覽價值度;
54、瀏覽有效值確定子模塊,用于根據(jù)瀏覽價值度和段落類型對應預設(shè)的目標權(quán)值,確定第一歷史瀏覽文獻的瀏覽有效值。
55、本發(fā)明實施例提供的一種基于關(guān)鍵詞共現(xiàn)關(guān)系的相關(guān)文獻推薦方法,包括:
56、步驟1:獲取文獻元數(shù)據(jù),并對文獻元數(shù)據(jù)進行數(shù)據(jù)清洗,獲得目標處理數(shù)據(jù);
57、步驟2:根據(jù)目標處理數(shù)據(jù),計算目標參數(shù),目標參數(shù)包括:關(guān)鍵詞詞頻、關(guān)鍵詞權(quán)重和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò);
58、步驟3:根據(jù)目標參數(shù),確定相關(guān)文獻推薦排序;
59、步驟4:根據(jù)相關(guān)文獻推薦排序進行文獻推薦。
60、優(yōu)選的,步驟1:獲取文獻元數(shù)據(jù),并對文獻元數(shù)據(jù)進行數(shù)據(jù)清洗,獲得目標處理數(shù)據(jù),包括:
61、獲取目標關(guān)鍵詞;
62、基于預設(shè)的文獻錄入庫,獲取文獻元數(shù)據(jù);
63、剔除沒有目標關(guān)鍵詞的文獻元數(shù)據(jù),獲得第一處理數(shù)據(jù),基于預設(shè)的歸一化處理規(guī)則對第一處理數(shù)據(jù)進行歸一化處理獲取第二處理數(shù)據(jù),根據(jù)第二處理數(shù)據(jù)去除低頻數(shù)據(jù)獲取目標處理數(shù)據(jù)。
64、優(yōu)選的,步驟2:根據(jù)目標處理數(shù)據(jù),計算目標參數(shù),目標參數(shù)包括:關(guān)鍵詞詞頻、關(guān)鍵詞權(quán)重和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),包括:
65、根據(jù)目標處理數(shù)據(jù),進行關(guān)鍵詞詞頻統(tǒng)計,獲取關(guān)鍵詞詞頻矩陣和文獻關(guān)鍵詞關(guān)系矩陣;
66、根據(jù)關(guān)鍵詞詞頻統(tǒng)計的統(tǒng)計結(jié)果,計算關(guān)鍵詞權(quán)重;
67、對目標關(guān)鍵詞進行共現(xiàn)關(guān)系分析,構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)并計算共現(xiàn)強度。
68、本發(fā)明的有益效果為:
69、本發(fā)明對獲取的文獻元數(shù)據(jù)進行數(shù)據(jù)清洗獲取目標處理數(shù)據(jù),根據(jù)目標處理數(shù)據(jù)計算關(guān)鍵詞詞頻、關(guān)鍵詞權(quán)重和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),再進一步計算相關(guān)文獻推薦排序,根據(jù)相關(guān)文獻推薦排序進行文獻推薦,可快速根據(jù)一篇文獻從海量文獻中推薦出與檢索文件相關(guān)的拓展文獻,提高了文獻檢索效率。
70、本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過本技術(shù)文件中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
71、下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。