一種中文文獻作者重名消歧的方法
【技術領域】
[0001] 本發(fā)明屬于文獻處理領域,尤其涉及一種中文文獻作者重名消歧的方法。
【背景技術】
[0002] 目前隨著在線文獻數(shù)據(jù)庫的不斷豐富和發(fā)展,越來越多的學者以及相關機構企業(yè) 單位開始注重通過文獻分析的方法了解領域最新科研動態(tài),掌握同行或競爭對手的科技活 動動向。在此基礎上進一步研究發(fā)現(xiàn)領域重點及熱點問題,把握領域發(fā)展概貌,輔助科技決 策與學術評價。然而通過設置特定關鍵詞、作者、期刊方向等進而獲取到相關領域文獻后, 在進行文獻分析時都普遍存在文獻作者重名的問題,而僅僅通過相關機構屬性,因為在線 文獻數(shù)據(jù)庫的標注、作者在文獻中機構標注不統(tǒng)一存在作者無法準確定位的問題,同時對 已對應機構的作者重名,以及由于作者自己工作單位更換等原因造成的重名但機構不統(tǒng)一 等問題影響著文獻分析結果的質量。
[0003] 針對以上的相關問題,現(xiàn)有技術主要通過以下方法來解決:(1)、有監(jiān)督的作者消 歧方法:需要先標注好訓練樣例數(shù)據(jù),然后在此基礎上創(chuàng)建分類模型,進而判斷新出現(xiàn)的作 者與樣例中的作者是否屬于同一作者。通常此方法消歧效果較好,但在實際使用中人工給 大規(guī)模的文獻數(shù)據(jù)進行標注要耗費大量時間,不切實際,實際應用的意義不大。(2)、無監(jiān)督 的作者消歧方法:通常采用聚類的方法實現(xiàn)。首先利用文獻相關的屬性特征,計算出所有數(shù) 據(jù)點的相似度,通過特定的聚類算法得到的聚類團簇就是最后的消歧結果。除了傳統(tǒng)的聚 類方法,如層次聚類、譜聚類等外,還有學者應用網絡圖的方法。無監(jiān)督的消歧方法因為不 需要訓練數(shù)據(jù),不需要人工標注,具有較好的實用性。(3)、半監(jiān)督的作者消歧方法,即以少 量的標注數(shù)據(jù)指導大量的未標注數(shù)據(jù)。但無監(jiān)督方法中一般采用的聚類算法中預先設定的 聚類團數(shù)通常是不可預知的,同時現(xiàn)有的方法體系中沒有綜合考慮多種特征來解決作者消 歧問題。
【發(fā)明內容】
[0004] 本發(fā)明克服現(xiàn)有中文文獻作者消歧方法的不足,提供了一種中文文獻作者重名消 歧的方法。該方法和系統(tǒng)可綜合利用文獻的多種特征,采用特征加權的方法實現(xiàn)重名作者 的消歧。本發(fā)明可直接應用中文文獻的作者消歧,為通過學術文獻分析進而應用在科技評 價、學術研究等方面提供了一種提高學術分析精準化程度的方法。本發(fā)明的具體技術方案 為:
[0005] -種中文文獻作者重名消歧的方法,包括以下步驟:
[0006] 步驟一:數(shù)據(jù)規(guī)范化處理:將采集到的中文文獻數(shù)據(jù)集PS,其中的每篇文獻記作P, 采集P的相關屬性并對其做規(guī)范化處理,采用向量形式化表達其基礎屬性集,記作P inf。,Pinf。 -(Ptitle 7Pauthor 7Pauthor en 7Pinstitution 7Pkeyword 7Pabstract 7Ppubtime 7Pjournal);
[0007] 其中:Ptitle為該篇文獻的標題;
[0008] PauthOT為該篇文獻的作者;
[0009] Pmjthcxrjn為該篇文獻的作者英文說明信息;
[00?0] Pinstitution為該篇文獻的機構;
[0011] Pke3yTOrd為該篇文獻的關鍵詞;
[0012] Pabstract為該篇文獻的摘要;
[0013] Ppubtime為該篇文獻的發(fā)表時間;
[0014] pjciurnai為該篇文獻的來源期刊。
[0015] 步驟二:作者初次抽取及形式化表達:根據(jù)每篇p作者pauthc^ppauthcir e3n的基礎屬 性,抽取作者信息,初步建立作者與機構的匹配,采用向量形式化表示每位作者相關信息, T-Sfi^Ainf 〇 j Ainf 〇 - ( Ainstituion,Akeywords,Acollaborators,Apset);問時將有把有重名的作者對象放 入一個列表中,記作Alist,將所有待處理的重名作者集合放入列表AprocessSet中;對每一個 Alisti中的兩兩之間進行以下步驟三至七:
[0016] 其中:AinstituionS該文獻標注的作者的機構;
[0017] Akeywords為該作者的文章關鍵詞表;
[0018] 4。。1131)。加。^為該作者的合作者列表:
[0019] Apset為該作者在PS中的文獻對象集合。
[0020] △1^={心4243,~厶15},1^2 2。是本作者姓名重名的個數(shù)汰。
[0021 ] AprocessSet= {Alisti,Alist2,Alist3,…,Alistn} ;n是PS 中所有有重名的作者列表的個 數(shù)。作者消歧的目標就是使得Apr_ssSe3沖每一個Allstl中的k值盡量等于或逼近真實的作者 個數(shù)tk。
[0022] 步驟三:計算重名作者的相關基礎屬性特征相似度:根據(jù)選取作者機構特征、期刊 特征與標題(摘要)特征,用概率論計算重名作者的機構相似度得分Sims C〇reinstl,根據(jù)期刊 種類預定義期刊之間的相似度計算期刊相關度得分Simscore胃nal,根據(jù)向量空間模型VSN 與余弦計算標題(摘要)相似度得分Simscoretitie&abstm根據(jù)預定義的特征權重動態(tài)調正 后計算重名作者間的基礎屬性相似度并對結果歸一化到0-100的區(qū)間范圍;
[0023] 步驟四:計算重名作者的關鍵詞特征相似度得分:對重名作者,根據(jù)其文獻在PS中 的文獻對象集中文獻關鍵詞,抽取作者文獻關鍵詞對應表并統(tǒng)計每個關鍵詞的詞 頻,計算重名作者間的文章關鍵詞相似度并對計算結果歸一化;
[0024] 步驟五:計算重名作者的合作者關系特征相似度得分:對重名作者,根據(jù) 中文獻的合作作者,構建其合作關系表,每個合作作者統(tǒng)計合作次數(shù)、合作時間,設定A_ collaborators。計算合作者關系特征相似度得分并對計算結果歸一化;
[0025] 步驟六:計算綜合相似指數(shù)并重名消歧:綜合重名作者的基礎屬性特征相似度得 分,文章關鍵詞特征相似度得分,合作者關系特征相似度得分,對三項得分進行加權計算綜 合相似指數(shù);然后根據(jù)計算結果與預定義的閾值進行比較,對于超過閾值的兩個作者判定 為同一作者;
[0026] 步驟七:作者信息更新:對經過步驟106判斷為同一作者的兩個作者對象進行融 合,刪除其中一個作者對象,然后更新保留作者的各項屬性,包括作者機構、文獻集合、合作 者集合、關鍵詞集合等。對每一個重名作者列表中的作者重復步驟103到107:直到每一個重 名列表中的作者兩兩之間的相似度得分均低于融合閾值,程序結束。
[0027] 優(yōu)化地,所述步驟一中相關屬性規(guī)范處理前要先對其進行過濾,過濾方法主要采 用過濾掉重要基礎屬性丟失的文獻,包括沒有機構信息、沒有關鍵詞信息等。
[0028] 優(yōu)化地,所述步驟一中機構信息的規(guī)范化處理是根據(jù)與定義的三級機構信息分級 抽取并標注保存,預定義的三級機構劃分如下:一級機構:大學、科研院所、集團等;二級機 構:大學學院、科研院所下級直屬單位、集團分公司等;三級機構:大學院系、實驗室、具體分 公司部門等。
[0029] 優(yōu)化地,所述步驟一中的文章發(fā)表時間,規(guī)范化處理時只保留其發(fā)表年份。
[0030] 優(yōu)化地,所述步驟二中對每個作者對象設定其相關基礎屬性,對于文章作者所屬 機構有標注的文章,設定并標注其機構信息;對于隸屬于多家機構的作者,根據(jù)標注前后順 序進行保存,同時保存對應機構的級別;對所屬機構無標注的文章,臨時設定文章的機構作 為其每個作者的機構。
[0031] 優(yōu)化地,所述步驟三中標題與摘要相似度的計算也可以采用文本相似度算法。
[0032] 優(yōu)化地,所述步驟三中使用空間向量與余弦計算相似度時要先根據(jù)詞性去掉標題 與摘要中的副詞、虛詞與數(shù)詞;具體的算法為:設作者Μ,、的標題與摘要經過預處理(分詞、 去停用詞等)后的詞序列分別為Wi(Wil,Wi2,Wi3, . . .Wim)與Wj(Wjl,Wj2,Wj3, . . .Wjn),則Wi與Wj的 相似度計算公式為:
[0033]
[0034] 其中,Wik、Wjk分別表示Wi和Wj第k個特征項的權值。
[0035] -般情況下,根據(jù)概率論來計算機構相似度得分SimsC〇reinstl。機構信息越詳細 (三級機構)如果兩個作者的信息相同,則為同一個人的概率更大。首先比較一級機構,如果 一級機構一樣;再分別匹配二級機構與三級機構。定義為如果一級機構相同,則機構相似度 為90,如果到二級機構相同,則相似度得分為95,如果三級機構相同,則為100。都不同相同 則為0。
[0036] -般情況下,期刊相似度SimSC〇re_rnal的得分也通過概率論來計算。,作者發(fā)文 相對會集中在領域相關的幾個特定的期刊上,因此可以將期刊作為作者消歧的一個基礎屬 性特征。期刊之間的相似度計算需要預先定義期刊之間的相似度表,由于期刊種類繁多,人 工定義相似度存在較大的工作量和隨機誤差,因此這里采用從CNKI期刊庫里根據(jù)期刊所屬 學科領域采集相關期刊列表,期刊大類分為"自然科學與工程技術"與"人文社會科學",共 包含8260種期刊,基本覆蓋國內中文絕大部分期刊。同時,每個大類下又分為若干二級類 另IJ,如"自然科學與工程技術"類目下包含:基礎科學、工程科技I、工程科技II、農業(yè)科技、醫(yī) 藥衛(wèi)生科技、信息科技6個類目。二級類目下又分為三級類目,如"信息科技"分為:電子信息 科學綜合、無線電電子學、電信技術、計算機硬件技術等11個三級類別。定義期刊間的相似 度如下:兩本期刊如果只同屬一樣的一級大類則相關度為40;如果所屬的二級類目也相同, 則相關度增為60;如果所屬的三級類目也相同,則相關度增為80。
[0037]優(yōu)化地,所述步驟三中基礎屬性得分為
[0038] SimSC0!T6basic(Ai ? Aj ) - SilllSCOreinsti^a+SimsCore j〇urnal*f^+SiniSCoretitle&abstract* γ,其中,α,β,γ分別為機構特征、期刊特征、標題與摘要特征的影響權重因子,可以根據(jù)使 用者需求自行設定,隨后對計算結果歸一化到0-100點區(qū)間范圍。歸一化的計算為 Simscorebasic = Simscorebasic/100。
[0039] 優(yōu)化地,所述步驟四中文章關鍵詞的算法采用完全匹配法。
[0040] 定義兩個重名作者的文章關鍵詞相同數(shù)目為key^umUnAj):
[0041] key-num(Ai,Aj)= | Ai