本發(fā)明涉及文獻研究關(guān)聯(lián)度計算,特別涉及一種基于多維特征融合的文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法。
背景技術(shù):
1、文獻研究領(lǐng)域關(guān)聯(lián)度量化方法主要分為基于單一關(guān)系建模和多維特征增強的方法。傳統(tǒng)的基于單一關(guān)系建模的方法主要側(cè)重于合著關(guān)系或引用關(guān)系等單一類型關(guān)聯(lián),這類方法難以全面捕捉文獻間的多維交叉關(guān)聯(lián),特別是在高度交叉融合的研究背景下,無法滿足多層次分析需求,限制了其在文獻檢索、跨學(xué)科研究領(lǐng)域的應(yīng)用。
2、現(xiàn)有的基于多維特征增強的方法,多依賴于基于知識圖譜的基本節(jié)點屬性及其連接關(guān)系,但特征表征深度不足,難以揭示節(jié)點間的特征差異,從而導(dǎo)致關(guān)聯(lián)度計算精度低,且缺乏實證數(shù)據(jù)研究支持,結(jié)果可解釋性也不足。近年來,圖神經(jīng)網(wǎng)絡(luò)(gnn)逐漸被應(yīng)用于圖數(shù)據(jù)分析中,具有增強特征表達能力的優(yōu)勢。
3、然而,現(xiàn)有g(shù)nn方法大多采用單一圖結(jié)構(gòu),更多關(guān)注文獻的直接領(lǐng)域特征提取應(yīng)用于文獻領(lǐng)域分類任務(wù),未能深入挖掘文獻間的復(fù)雜關(guān)聯(lián)特征作用于更細化的文獻研究領(lǐng)域關(guān)聯(lián)度計算任務(wù)上。此外,現(xiàn)有技術(shù)在跨學(xué)科科研能力評估上尚未實現(xiàn)學(xué)者特征的有效區(qū)分,導(dǎo)致在文獻檢索和多學(xué)科領(lǐng)域研究中,難以準(zhǔn)確反映不同學(xué)者在交叉研究中的貢獻和影響力。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的問題是:提供一種基于多維特征融合的文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法,用于從大量文獻中快速鎖定最相關(guān)資料,減少操作時間,加速科研進程,使得文獻研究更好地滿足實際科研需求,同時進行學(xué)者特征的有效區(qū)分。
2、本發(fā)明采用如下技術(shù)方案:一種基于多維特征融合的文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法,包括如下步驟:
3、步驟1、從文獻數(shù)據(jù)庫獲取目標(biāo)文獻數(shù)據(jù),抽取文獻元數(shù)據(jù)并進行預(yù)處理,生成初始化文獻向量和文獻研究領(lǐng)域關(guān)聯(lián)程度標(biāo)簽,并進行目標(biāo)文獻數(shù)據(jù)集平衡;
4、步驟2、基于文獻元數(shù)據(jù)構(gòu)建多個無向圖和鄰接矩陣,表示文獻之間的多維關(guān)聯(lián)關(guān)系;
5、步驟3、構(gòu)建圖卷積神經(jīng)網(wǎng)絡(luò)模型,對文獻節(jié)點進行多維特征融合,選擇最優(yōu)聚合策略增強文獻節(jié)點的關(guān)聯(lián)表示能力,得到增強后的文獻節(jié)點特征;
6、步驟4、基于增強后的文獻節(jié)點特征,計算文獻間的領(lǐng)域相關(guān)性,并通過迭代訓(xùn)練模型,動態(tài)更新文獻節(jié)點特征向量,評估文獻研究領(lǐng)域關(guān)聯(lián)程度量化的有效性;
7、步驟5、結(jié)合最小維球模型,對學(xué)者的跨領(lǐng)域科研能力進行量化比較,進行學(xué)者特征的有效區(qū)分。
8、優(yōu)選地,步驟1方法如下:
9、步驟1.1、從文獻數(shù)據(jù)庫獲取目標(biāo)文獻數(shù)據(jù),抽取關(guān)鍵元數(shù)據(jù),包括:文獻的標(biāo)題、摘要、關(guān)鍵詞、作者、出版信息;
10、步驟1.2、進行文獻元數(shù)據(jù)預(yù)處理,得到初始化文獻向量:
11、剔除缺失關(guān)鍵元數(shù)據(jù)的文獻;應(yīng)用停用詞表,通過正則表達式去除文獻標(biāo)題和摘要中預(yù)設(shè)的常見停用詞;使用jieba分詞工具對文獻標(biāo)題和摘要進行中文分詞,利用doc2vec模型對分詞后的文本進行訓(xùn)練,模型參數(shù)size為文獻向量維度,生成每篇文獻的語義特征向量;
12、步驟1.3、進行文獻元數(shù)據(jù)的預(yù)處理,從文獻元數(shù)據(jù)中提取領(lǐng)域分類號字段,統(tǒng)一處理為固定長度字符串,用于表示領(lǐng)域大類和子研究領(lǐng)域,對處理后的領(lǐng)域分類號進行前綴匹配,生成文獻研究領(lǐng)域關(guān)聯(lián)程度標(biāo)簽;
13、步驟1.4、在平衡采樣過程中進行分層抽樣,對于每個前綴類別,若樣本數(shù)量小于或等于設(shè)定的樣本數(shù),則全部保留;若樣本數(shù)量大于設(shè)定樣本數(shù),則設(shè)定隨機數(shù)種子從中隨機抽取指定數(shù)量的樣本,以形成平衡后的數(shù)據(jù)集;對于所述平衡后的數(shù)據(jù)集,按前綴類別進行分組,劃分測試集和訓(xùn)練集,使每個前綴類別在訓(xùn)練集和測試集中比例一致。
14、優(yōu)選地,步驟2方法如下:
15、步驟2.1、構(gòu)建若干種不同的無向圖,每種無向圖結(jié)構(gòu)表示為,用于捕捉文獻間的多維關(guān)聯(lián)關(guān)系,節(jié)點代表攜帶文獻元數(shù)據(jù)的文獻,邊代表文獻間的關(guān)聯(lián),邊的權(quán)重反映文獻類型關(guān)聯(lián)的強度;
16、步驟2.2、對每種無向圖結(jié)構(gòu)生成相應(yīng)的鄰接矩陣,初始化的零矩陣,其中,表示文獻i和文獻j在圖結(jié)構(gòu)維度下的關(guān)聯(lián)強度,表示文獻的篇數(shù),遍歷每對文獻,填充鄰接矩陣中對應(yīng)的元素。
17、優(yōu)選地,步驟3方法如下:
18、步驟3.1、將步驟1中生成的語義特征向量和步驟2中不同無向圖的鄰接矩陣信息,共同構(gòu)成每個文獻節(jié)點的初始特征向量,作為圖卷積神經(jīng)網(wǎng)絡(luò)模型的輸入;
19、步驟3.2、在圖卷積神經(jīng)網(wǎng)絡(luò)的層中對鄰居節(jié)點進行聚合操作更新節(jié)點;
20、步驟3.3、選擇最優(yōu)聚合策略增強文獻節(jié)點的關(guān)聯(lián)表示能力,所述聚合策略包括求和策略、平均策略、最值池化策略,得到增強后的文獻節(jié)點特征。
21、優(yōu)選地,步驟4方法如下:
22、步驟4.1、計算文獻間的領(lǐng)域相關(guān)性,從增強后的文獻節(jié)點集合中計算歐式距離作為文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法的預(yù)測值,計算每對文獻向量之間的歐式距離,用于表示文獻間的實際關(guān)聯(lián)程度;
23、步驟4.2、將預(yù)測值與預(yù)設(shè)的標(biāo)簽進行對比,引入帶誤差容限的準(zhǔn)確率作為評估指標(biāo),通過設(shè)定誤差閾值,進行不同精度下的文獻研究領(lǐng)域關(guān)聯(lián)程度評估;
24、步驟4.3,重復(fù)步驟4.1和步驟4.2,直至模型收斂,通過不斷迭代訓(xùn)練和更新文獻節(jié)點特征向量,提高文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法的準(zhǔn)確性和有效性。
25、優(yōu)選地,步驟5結(jié)合最小維球模型,對學(xué)者的跨領(lǐng)域科研能力進行量化比較,方法如下:
26、步驟5.1、將所有文獻的特征向量整合成一個集合,每個特征向量表示一篇文獻的特征,為文獻的特征向量數(shù)量,為文獻向量的維度,使用特征向量均值作為最小維球的球心;
27、步驟5.2、計算所有特征向量到特征向量均值的最大歐式距離作為半徑,代表其覆蓋整個特征向量集合的最小維球;
28、步驟5.3、對于每位學(xué)者抽取所有發(fā)表的文獻,重復(fù)步驟5.1,生成每位學(xué)者的最小維球模型,比較不同學(xué)者的最小維球體積,最小維球體積越大,對應(yīng)學(xué)者的科研領(lǐng)域越廣泛,跨領(lǐng)域科研能力越強。
29、本發(fā)明技術(shù)方案還提供了:一種電子設(shè)備,包括:
30、一個或多個處理器;
31、存儲裝置,其上存儲有一個或多個程序;
32、當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)上述任一所述的基于多維特征融合的文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法。
33、本發(fā)明技術(shù)方案還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時,實現(xiàn)上述任一項基于多維特征融合的文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法中的步驟。
34、本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
35、1、本發(fā)明文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法,通過構(gòu)建多個關(guān)聯(lián)維度的無向圖,結(jié)合圖神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,并且通過實驗比較分析得到最優(yōu)的多維特征聚合方案,從多個維度出發(fā)以及根據(jù)特征范圍的影響發(fā)掘出如何對關(guān)聯(lián)特征提取進行有益訓(xùn)練,提升了文獻研究領(lǐng)域關(guān)聯(lián)度量化的精度。
36、2、本發(fā)明文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法,通過多維特征融合,結(jié)合多個文本關(guān)聯(lián)圖訓(xùn)練,提升了文本間不同研究領(lǐng)域關(guān)聯(lián)模式的適應(yīng)力,平衡其多個關(guān)聯(lián)維度共同作用的影響,具有一定的穩(wěn)定性,在精細化的關(guān)聯(lián)度計算上的顯著優(yōu)勢。
37、3、本發(fā)明文獻研究領(lǐng)域關(guān)聯(lián)程度量化方法,通過結(jié)合最小n維球模型更科學(xué)地量化學(xué)者在多學(xué)科交叉研究中的貢獻與影響力,通過構(gòu)建多維特征空間捕捉學(xué)者在不同學(xué)科領(lǐng)域的綜合表現(xiàn),從而對于如何對跨領(lǐng)域?qū)W者之間比較其跨領(lǐng)域科研能力問題提供一種解決方案,更加具有全面性和可解釋性。