本發(fā)明涉及信息檢索和智能匹配技術(shù),特別是涉及一種基于動(dòng)態(tài)學(xué)術(shù)合作網(wǎng)絡(luò)圖表征學(xué)習(xí)的科研項(xiàng)目專家匹配方法。
背景技術(shù):
1、在科研項(xiàng)目管理中,常常需要為科技項(xiàng)目篩選合適的項(xiàng)目負(fù)責(zé)人或合作者。良好的科研合作有助于提高研究質(zhì)量,從而推動(dòng)項(xiàng)目高質(zhì)量、高效率的完成??蒲泻献骺偸强梢詭韰f(xié)同效應(yīng),即一群學(xué)者專家的綜合專業(yè)知識(shí)往往可以產(chǎn)生遠(yuǎn)超個(gè)人能力的卓越成果。因此,如何為科研項(xiàng)目選擇合適的學(xué)者專家將會(huì)直接影響到相關(guān)工作的質(zhì)量。然而,為不同的項(xiàng)目匹配合適的專家往往非常復(fù)雜,因?yàn)椴煌瑢W(xué)者的專業(yè)知識(shí)、研究興趣和項(xiàng)目經(jīng)歷具有多樣性,且通常會(huì)隨著時(shí)間的推移不斷變化,這使得評(píng)估專家與項(xiàng)目的適配性相當(dāng)具有挑戰(zhàn)性。
2、基于信息檢索技術(shù)計(jì)算項(xiàng)目與專家匹配度的方法是通過將學(xué)者信息與科研項(xiàng)目信息通過數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)化為多維向量,進(jìn)而借助向量相似度來衡量二者之間的匹配度。該方法衍生出了多種不同的算法,如信息檢索、協(xié)同過濾算法等。此外,伴隨著檢索技術(shù)的不斷進(jìn)步,越來越多的相關(guān)技術(shù)被提出,如數(shù)據(jù)挖掘、向量空間模型和潛在語義檢索等智能技術(shù)。這些算法主要是為了提升專家與項(xiàng)目之間的匹配精度,進(jìn)而實(shí)現(xiàn)減少繁瑣人工操作的目的。而隨著匹配問題的深入研究,基于最優(yōu)解思想計(jì)算項(xiàng)目集與專家集之間相似度的方法被應(yīng)用于匹配問題中。例如,許多學(xué)者受到數(shù)學(xué)模型的啟發(fā),將貪婪算法與進(jìn)化算法、關(guān)系圖譜、二部圖譜等引入專家匹配過程。
3、然而,現(xiàn)有的科研項(xiàng)目專家智能匹配技術(shù)存在諸多局限性。一方面,現(xiàn)有研究主要聚焦于算法的優(yōu)化上,雖然在精度上有一定的提升,但是面臨著運(yùn)算量和運(yùn)營成本高等問題,難以應(yīng)用與實(shí)際工作中。另一方面,專家學(xué)者的過往研究經(jīng)歷和興趣領(lǐng)域信息未被充分挖掘,大部分算法主要借助合作網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)來進(jìn)行鏈路預(yù)測,進(jìn)而達(dá)到項(xiàng)目專家推薦或匹配的功能。由于學(xué)者側(cè)的特征信息沒有得到有效利用,導(dǎo)致匹配的結(jié)果并不理想。
4、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于對(duì)本技術(shù)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于克服上述背景技術(shù)中存在的缺陷,提供一種基于動(dòng)態(tài)學(xué)術(shù)合作網(wǎng)絡(luò)圖表征學(xué)習(xí)的科研項(xiàng)目專家匹配方法。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、一種基于動(dòng)態(tài)學(xué)術(shù)合作網(wǎng)絡(luò)圖表征學(xué)習(xí)的科研項(xiàng)目專家匹配方法,包括以下步驟:
4、s1.構(gòu)建表示科研合作網(wǎng)絡(luò)的動(dòng)態(tài)復(fù)雜網(wǎng)絡(luò)圖,包括學(xué)者節(jié)點(diǎn)和表示合作關(guān)系的有向邊,以及與邊相關(guān)聯(lián)的時(shí)間戳;其中,以論文為連邊,其第一作者為中心節(jié)點(diǎn),其他作者為鄰居節(jié)點(diǎn),連邊的方向從論文的第一作者指向其他作者,時(shí)間戳表示論文發(fā)表的時(shí)間;
5、s2.為網(wǎng)絡(luò)中的每個(gè)學(xué)者節(jié)點(diǎn)學(xué)習(xí)一個(gè)特征向量,該向量用于捕捉節(jié)點(diǎn)的屬性;
6、s3.利用預(yù)訓(xùn)練語言模型對(duì)節(jié)點(diǎn)特征向量進(jìn)行初始化;
7、s4.根據(jù)構(gòu)建的動(dòng)態(tài)復(fù)雜網(wǎng)絡(luò)圖和節(jié)點(diǎn)關(guān)系,將每篇論文的第一作者節(jié)點(diǎn)及其相關(guān)鄰居節(jié)點(diǎn)的信息進(jìn)行整合,構(gòu)建用于transformer模型訓(xùn)練的查詢序列和鍵值對(duì)數(shù)據(jù);
8、s5.通過transformer模型的多頭注意力機(jī)制,對(duì)查詢序列和鍵值對(duì)數(shù)據(jù)進(jìn)行處理,以學(xué)習(xí)科研項(xiàng)目與專家學(xué)者之間的匹配性;
9、s6.在模型訓(xùn)練完成后,固定模型參數(shù),通過推理過程得到學(xué)者節(jié)點(diǎn)的表征向量,為科研項(xiàng)目匹配最合適的專家學(xué)者。
10、進(jìn)一步地,步驟s3具體包括:
11、在模型訓(xùn)練前,采用預(yù)熱方法,從預(yù)訓(xùn)練語言模型中提煉信息,以用于節(jié)點(diǎn)特征向量的初始化;
12、將節(jié)點(diǎn)的初始向量與預(yù)訓(xùn)練語言模型的詞嵌入向量空間進(jìn)行對(duì)齊,以提高模型訓(xùn)練的效率;
13、將初始向量設(shè)置為低維度,以防止過擬合,同時(shí)為模型訓(xùn)練提供合適的起點(diǎn);
14、將預(yù)熱后的低維度向量投影到高維向量空間,以對(duì)齊文本嵌入向量,確保節(jié)點(diǎn)表征與模型輸出向量維度一致。
15、進(jìn)一步地,所述預(yù)熱方法的操作包括:在損失函數(shù)中引入負(fù)樣本集,增強(qiáng)模型對(duì)正負(fù)樣本的區(qū)分能力,提升節(jié)點(diǎn)初始向量的質(zhì)量,采用對(duì)數(shù)幾率的形式來計(jì)算節(jié)點(diǎn)特征向量與文本向量之間的相似度,并通過優(yōu)化這一相似度來學(xué)習(xí)初始向量;由此,為每個(gè)節(jié)點(diǎn)學(xué)習(xí)到一個(gè)有價(jià)值的初始向量。
16、進(jìn)一步地,所述預(yù)熱方法的實(shí)現(xiàn)公式為:
17、
18、其中,表示富文本連邊構(gòu)成的負(fù)樣本集,表示與之對(duì)應(yīng)的文本向量;為作者節(jié)點(diǎn)學(xué)習(xí)到有價(jià)值的初始向量。
19、進(jìn)一步地,步驟s4中,利用bert模型處理論文文本,提取文本特征向量;確定每篇論文的第一作者作為中心節(jié)點(diǎn),其他作者作為鄰居節(jié)點(diǎn),通過拼接中心節(jié)點(diǎn)的文本特征向量與鄰居節(jié)點(diǎn)的表征,構(gòu)建查詢序列;并利用中心作者節(jié)點(diǎn)的表征向量作為鍵(key),與其歷史項(xiàng)目經(jīng)歷的向量表示作為值(value),構(gòu)建鍵值對(duì)數(shù)據(jù),所述鍵值對(duì)數(shù)據(jù)用于transformer模型的訓(xùn)練,以學(xué)習(xí)中心作者節(jié)點(diǎn)與其歷史項(xiàng)目經(jīng)歷之間的關(guān)聯(lián)性,從而增強(qiáng)模型對(duì)科研項(xiàng)目與專家學(xué)者匹配性的學(xué)習(xí)。
20、進(jìn)一步地,步驟s4中,查詢序列的構(gòu)建具體包括:
21、通過bert模型處理中心節(jié)點(diǎn)關(guān)聯(lián)的文本,生成中心文本連邊的特征向量,并將該特征向量與鄰居節(jié)點(diǎn)的表征向量進(jìn)行拼接,構(gòu)建用于transformer模型訓(xùn)練的查詢序列,用于匹配科研項(xiàng)目與專家學(xué)者;其中,在構(gòu)建查詢序列時(shí),將中心節(jié)點(diǎn)的文本特征向量與鄰居節(jié)點(diǎn)的表征向量依次拼接,以整合鄰居節(jié)點(diǎn)的信息,形成完整的查詢序列;對(duì)于中心作者節(jié)點(diǎn),將其表征向量與歷史項(xiàng)目經(jīng)歷的向量表示進(jìn)行拼接,形成另一個(gè)查詢序列,用于學(xué)習(xí)中心作者節(jié)點(diǎn)的詳細(xì)信息。
22、進(jìn)一步地,步驟s5中,通過transformer模型的多頭注意力機(jī)制處理查詢序列和鍵值對(duì)數(shù)據(jù)時(shí),采用非對(duì)稱的注意力頭輸入數(shù)據(jù),以適應(yīng)科研項(xiàng)目專家匹配任務(wù)。
23、進(jìn)一步地,步驟s6中,通過推理過程得到學(xué)者節(jié)點(diǎn)的表征向量包含中心作者節(jié)點(diǎn)的過往科研合作歷史和與查詢序列相近的向量結(jié)構(gòu)。
24、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于動(dòng)態(tài)學(xué)術(shù)合作網(wǎng)絡(luò)圖表征學(xué)習(xí)的科研項(xiàng)目專家匹配方法。
25、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于動(dòng)態(tài)學(xué)術(shù)合作網(wǎng)絡(luò)圖表征學(xué)習(xí)的科研項(xiàng)目專家匹配方法。
26、本發(fā)明具有如下有益效果:
27、本發(fā)明提出了一種基于動(dòng)態(tài)學(xué)術(shù)合作網(wǎng)絡(luò)圖表征學(xué)習(xí)的科研項(xiàng)目專家匹配方法,創(chuàng)新地結(jié)合了動(dòng)態(tài)學(xué)術(shù)合作網(wǎng)絡(luò)圖表征學(xué)習(xí)和transformer模型,實(shí)現(xiàn)科研項(xiàng)目與專家學(xué)者之間的高效匹配。通過構(gòu)建一個(gè)綜合考慮學(xué)者過往研究歷史和合作經(jīng)歷的文本復(fù)雜網(wǎng)絡(luò),本發(fā)明不僅提升了匹配精度,而且在兩個(gè)基于dblp數(shù)據(jù)庫構(gòu)建的數(shù)據(jù)集中達(dá)到了80%以上的匹配精度,而標(biāo)準(zhǔn)化折扣累積收益更是在89%以上。本發(fā)明的方法通過將復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)重構(gòu)為序列數(shù)據(jù),利用transformer的多頭注意力機(jī)制,有效地捕捉了學(xué)者節(jié)點(diǎn)的多維特征,包括時(shí)間特性和合作信息,從而簡化了匹配過程并提高了效率。此外,本發(fā)明解決了現(xiàn)有技術(shù)中忽視學(xué)者側(cè)特征信息的問題,通過深入挖掘?qū)<覍W(xué)者的過往研究經(jīng)歷和興趣領(lǐng)域信息,提供了一個(gè)更為全面和精準(zhǔn)的匹配框架。與現(xiàn)有技術(shù)相比,本發(fā)明在技術(shù)、成本和效率上都顯示出明顯優(yōu)勢,尤其是在處理具有時(shí)域和文本異質(zhì)的動(dòng)態(tài)網(wǎng)絡(luò)時(shí),能夠更好地建模并提高匹配精度。這種方法的實(shí)用性和創(chuàng)新性為科研項(xiàng)目管理領(lǐng)域帶來了新的解決方案,為學(xué)術(shù)社交網(wǎng)絡(luò)應(yīng)用中推薦合適合作者的過程提供了強(qiáng)有力的技術(shù)支持。
28、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。