一種中文文獻作者重名消歧的方法

文檔序號：9887691閱讀：642來源：國知局

一種中文文獻作者重名消歧的方法
【技術領域】
[0001] 本發(fā)明屬于文獻處理領域，尤其涉及一種中文文獻作者重名消歧的方法。
【背景技術】
[0002] 目前隨著在線文獻數(shù)據(jù)庫的不斷豐富和發(fā)展，越來越多的學者以及相關機構企業(yè) 單位開始注重通過文獻分析的方法了解領域最新科研動態(tài)，掌握同行或競爭對手的科技活動動向。在此基礎上進一步研究發(fā)現(xiàn)領域重點及熱點問題，把握領域發(fā)展概貌，輔助科技決策與學術評價。然而通過設置特定關鍵詞、作者、期刊方向等進而獲取到相關領域文獻后，在進行文獻分析時都普遍存在文獻作者重名的問題，而僅僅通過相關機構屬性，因為在線文獻數(shù)據(jù)庫的標注、作者在文獻中機構標注不統(tǒng)一存在作者無法準確定位的問題，同時對已對應機構的作者重名，以及由于作者自己工作單位更換等原因造成的重名但機構不統(tǒng)一等問題影響著文獻分析結果的質量。
[0003] 針對以上的相關問題，現(xiàn)有技術主要通過以下方法來解決：（1)、有監(jiān)督的作者消歧方法:需要先標注好訓練樣例數(shù)據(jù)，然后在此基礎上創(chuàng)建分類模型，進而判斷新出現(xiàn)的作者與樣例中的作者是否屬于同一作者。通常此方法消歧效果較好，但在實際使用中人工給大規(guī)模的文獻數(shù)據(jù)進行標注要耗費大量時間，不切實際，實際應用的意義不大。（2)、無監(jiān)督的作者消歧方法:通常采用聚類的方法實現(xiàn)。首先利用文獻相關的屬性特征，計算出所有數(shù) 據(jù)點的相似度，通過特定的聚類算法得到的聚類團簇就是最后的消歧結果。除了傳統(tǒng)的聚類方法，如層次聚類、譜聚類等外，還有學者應用網絡圖的方法。無監(jiān)督的消歧方法因為不需要訓練數(shù)據(jù)，不需要人工標注，具有較好的實用性。（3)、半監(jiān)督的作者消歧方法，即以少量的標注數(shù)據(jù)指導大量的未標注數(shù)據(jù)。但無監(jiān)督方法中一般采用的聚類算法中預先設定的聚類團數(shù)通常是不可預知的，同時現(xiàn)有的方法體系中沒有綜合考慮多種特征來解決作者消歧問題。

【發(fā)明內容】

[0004] 本發(fā)明克服現(xiàn)有中文文獻作者消歧方法的不足，提供了一種中文文獻作者重名消歧的方法。該方法和系統(tǒng)可綜合利用文獻的多種特征，采用特征加權的方法實現(xiàn)重名作者的消歧。本發(fā)明可直接應用中文文獻的作者消歧，為通過學術文獻分析進而應用在科技評價、學術研究等方面提供了一種提高學術分析精準化程度的方法。本發(fā)明的具體技術方案為：
[0005] -種中文文獻作者重名消歧的方法，包括以下步驟：
[0006] 步驟一:數(shù)據(jù)規(guī)范化處理:將采集到的中文文獻數(shù)據(jù)集PS，其中的每篇文獻記作P，采集P的相關屬性并對其做規(guī)范化處理，采用向量形式化表達其基礎屬性集，記作P inf。，Pinf。 -(Ptitle 7Pauthor 7Pauthor en 7Pinstitution 7Pkeyword 7Pabstract 7Ppubtime 7Pjournal)；
[0007] 其中:Ptitle為該篇文獻的標題；
[0008] PauthOT為該篇文獻的作者；
[0009] Pmjthcxrjn為該篇文獻的作者英文說明信息；
[00?0] Pinstitution為該篇文獻的機構；
[0011] Pke3yTOrd為該篇文獻的關鍵詞；
[0012] Pabstract為該篇文獻的摘要；
[0013] Ppubtime為該篇文獻的發(fā)表時間；
[0014] pjciurnai為該篇文獻的來源期刊。
[0015] 步驟二：作者初次抽取及形式化表達:根據(jù)每篇p作者pauthc^ppauthcir e3n的基礎屬性，抽取作者信息，初步建立作者與機構的匹配，采用向量形式化表示每位作者相關信息， T-Sfi^Ainf 〇 j Ainf 〇 - ( Ainstituion，Akeywords，Acollaborators，Apset);問時將有把有重名的作者對象放入一個列表中，記作Alist，將所有待處理的重名作者集合放入列表AprocessSet中；對每一個 Alisti中的兩兩之間進行以下步驟三至七：
[0016] 其中:AinstituionS該文獻標注的作者的機構；
[0017] Akeywords為該作者的文章關鍵詞表；
[0018] 4。。1131)。加。^為該作者的合作者列表：
[0019] Apset為該作者在PS中的文獻對象集合。
[0020] △1^={心4243，~厶15}，1^2 2。是本作者姓名重名的個數(shù)汰。
[0021 ] AprocessSet= {Alisti，Alist2，Alist3，…，Alistn} ;n是PS 中所有有重名的作者列表的個數(shù)。作者消歧的目標就是使得Apr_ssSe3沖每一個Allstl中的k值盡量等于或逼近真實的作者個數(shù)tk。
[0022] 步驟三:計算重名作者的相關基礎屬性特征相似度:根據(jù)選取作者機構特征、期刊特征與標題(摘要)特征，用概率論計算重名作者的機構相似度得分Sims C〇reinstl，根據(jù)期刊種類預定義期刊之間的相似度計算期刊相關度得分Simscore胃nal，根據(jù)向量空間模型VSN 與余弦計算標題(摘要)相似度得分Simscoretitie&abstm根據(jù)預定義的特征權重動態(tài)調正后計算重名作者間的基礎屬性相似度并對結果歸一化到0-100的區(qū)間范圍；
[0023] 步驟四：計算重名作者的關鍵詞特征相似度得分:對重名作者，根據(jù)其文獻在PS中的文獻對象集中文獻關鍵詞，抽取作者文獻關鍵詞對應表并統(tǒng)計每個關鍵詞的詞頻，計算重名作者間的文章關鍵詞相似度并對計算結果歸一化；
[0024] 步驟五:計算重名作者的合作者關系特征相似度得分:對重名作者，根據(jù) 中文獻的合作作者，構建其合作關系表，每個合作作者統(tǒng)計合作次數(shù)、合作時間，設定A_ collaborators。計算合作者關系特征相似度得分并對計算結果歸一化；
[0025] 步驟六:計算綜合相似指數(shù)并重名消歧:綜合重名作者的基礎屬性特征相似度得分，文章關鍵詞特征相似度得分，合作者關系特征相似度得分，對三項得分進行加權計算綜合相似指數(shù);然后根據(jù)計算結果與預定義的閾值進行比較，對于超過閾值的兩個作者判定為同一作者；
[0026] 步驟七：作者信息更新：對經過步驟106判斷為同一作者的兩個作者對象進行融合，刪除其中一個作者對象，然后更新保留作者的各項屬性，包括作者機構、文獻集合、合作者集合、關鍵詞集合等。對每一個重名作者列表中的作者重復步驟103到107:直到每一個重名列表中的作者兩兩之間的相似度得分均低于融合閾值，程序結束。
[0027] 優(yōu)化地，所述步驟一中相關屬性規(guī)范處理前要先對其進行過濾，過濾方法主要采用過濾掉重要基礎屬性丟失的文獻，包括沒有機構信息、沒有關鍵詞信息等。
[0028] 優(yōu)化地，所述步驟一中機構信息的規(guī)范化處理是根據(jù)與定義的三級機構信息分級抽取并標注保存，預定義的三級機構劃分如下：一級機構：大學、科研院所、集團等;二級機構:大學學院、科研院所下級直屬單位、集團分公司等;三級機構:大學院系、實驗室、具體分公司部門等。
[0029] 優(yōu)化地，所述步驟一中的文章發(fā)表時間，規(guī)范化處理時只保留其發(fā)表年份。
[0030] 優(yōu)化地，所述步驟二中對每個作者對象設定其相關基礎屬性，對于文章作者所屬機構有標注的文章，設定并標注其機構信息;對于隸屬于多家機構的作者，根據(jù)標注前后順序進行保存，同時保存對應機構的級別;對所屬機構無標注的文章，臨時設定文章的機構作為其每個作者的機構。
[0031] 優(yōu)化地，所述步驟三中標題與摘要相似度的計算也可以采用文本相似度算法。
[0032] 優(yōu)化地，所述步驟三中使用空間向量與余弦計算相似度時要先根據(jù)詞性去掉標題與摘要中的副詞、虛詞與數(shù)詞;具體的算法為:設作者Μ，、的標題與摘要經過預處理(分詞、去停用詞等)后的詞序列分別為Wi(Wil，Wi2，Wi3, . . .Wim)與Wj(Wjl，Wj2，Wj3, . . .Wjn)，則Wi與Wj的相似度計算公式為：
[0033]
[0034] 其中，Wik、Wjk分別表示Wi和Wj第k個特征項的權值。
[0035] -般情況下，根據(jù)概率論來計算機構相似度得分SimsC〇reinstl。機構信息越詳細 (三級機構)如果兩個作者的信息相同，則為同一個人的概率更大。首先比較一級機構，如果一級機構一樣;再分別匹配二級機構與三級機構。定義為如果一級機構相同，則機構相似度為90，如果到二級機構相同，則相似度得分為95，如果三級機構相同，則為100。都不同相同則為0。
[0036] -般情況下，期刊相似度SimSC〇re_rnal的得分也通過概率論來計算。，作者發(fā)文相對會集中在領域相關的幾個特定的期刊上，因此可以將期刊作為作者消歧的一個基礎屬性特征。期刊之間的相似度計算需要預先定義期刊之間的相似度表，由于期刊種類繁多，人工定義相似度存在較大的工作量和隨機誤差，因此這里采用從CNKI期刊庫里根據(jù)期刊所屬學科領域采集相關期刊列表，期刊大類分為"自然科學與工程技術"與"人文社會科學"，共包含8260種期刊，基本覆蓋國內中文絕大部分期刊。同時，每個大類下又分為若干二級類另IJ，如"自然科學與工程技術"類目下包含:基礎科學、工程科技I、工程科技II、農業(yè)科技、醫(yī) 藥衛(wèi)生科技、信息科技6個類目。二級類目下又分為三級類目，如"信息科技"分為：電子信息科學綜合、無線電電子學、電信技術、計算機硬件技術等11個三級類別。定義期刊間的相似度如下:兩本期刊如果只同屬一樣的一級大類則相關度為40;如果所屬的二級類目也相同，則相關度增為60;如果所屬的三級類目也相同，則相關度增為80。
[0037]優(yōu)化地，所述步驟三中基礎屬性得分為
[0038] SimSC0!T6basic(Ai ? Aj ) - SilllSCOreinsti^a+SimsCore j〇urnal*f^+SiniSCoretitle&abstract* γ，其中，α，β，γ分別為機構特征、期刊特征、標題與摘要特征的影響權重因子，可以根據(jù)使用者需求自行設定，隨后對計算結果歸一化到0-100點區(qū)間范圍。歸一化的計算為 Simscorebasic = Simscorebasic/100。
[0039] 優(yōu)化地，所述步驟四中文章關鍵詞的算法采用完全匹配法。
[0040] 定義兩個重名作者的文章關鍵詞相同數(shù)目為key^umUnAj):
[0041] key-num(Ai，Aj)= | Ai

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：孫星愷;陸浩;袁勇;王飛躍;關曉炟;呂宏強;
技術所有人：青島智能產業(yè)技術研究院;
我是此專利的發(fā)明人

上一篇：一種工業(yè)實時數(shù)據(jù)分級存儲及遷移方法
上一篇：信息處理方法及裝置的制造方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種中文文獻作者重名消歧的方法