欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文獻作者重名檢測方法

文檔序號:10655264閱讀:629來源:國知局
一種文獻作者重名檢測方法
【專利摘要】本發(fā)明公開了一種文獻作者重名檢測方法,屬于數據挖掘技術領域。本發(fā)明方法充分利用了科技文獻中單特征相似度以及單特征融合在對重名作者進行消歧的特點,首先對要使用到的文獻對象進行建模,其次利用一種單特征相似度檢測方法計算兩兩單特征的相似度,然后利用基于單特征相似度的消歧方法計算每一個單特征的鑒別力,在此基礎上設計多特征融合的消歧規(guī)則,并提出一種文獻作者重名檢測方法。由于本檢測方法融合了單特征各自在進行作者實體消歧時的優(yōu)點,使得方法在識別過程中具有較好的精確度和召回率。
【專利說明】
-種文獻作者重名檢測方法
技術領域
[0001] 本發(fā)明設及一種文獻作者重名檢測方法,屬于數據檢索技術領域。
【背景技術】
[0002] 隨著每年科技文獻數量的劇增,大量的作者重名現象降低了知識檢索與調研工作 的準確性,影響后續(xù)的科研工作,延長了整個科研工作的周期。然而,當前的網絡文獻知識 庫系統(tǒng)還不具備對重名作者進行辨識的能力,W國內的中國知識資源總庫(China National Knowledge Infrastructure,CNKI)為例,當檢索條件限定在"作者"時,輸入一個 作者名后往往出現許多不相干的同名作者,后續(xù)的分類工作只能由用戶自己去人工識別, 運樣既花費精力又浪費時間。因此,在許多知識管理領域,例如網絡文獻知識庫檢索系統(tǒng)、 數字圖書館和動態(tài)Web檢索領域,作者重名鑒別變成一個非常嚴峻的問題,如何準確地檢索 到想要的文獻資料是目前知識管理領域亟待解決的問題。
[0003] 目前,針對重名作者的鑒別問題已有很多國內外學者進行了研究與探討,并提出 了一系列的鑒別方法,比如人工鑒別方法、基于用戶反饋的半自動化鑒別方法和基于機器 學習的鑒別方法。人工鑒別方法依靠用戶自己對檢索到的文獻進行主題識別,加重了用戶 的工作量,使得用戶體驗非常不理想;基于用戶反饋的半自動化鑒別方法,要求作者自己提 供詳細的個人信息,包括E-mail,家庭住址,對用戶的隱私造成了破壞,而且一旦論文作者 出現搬家等問題,還要及時更改系統(tǒng)中的個人信息,使得用戶體驗也不是很理想;目前研究 最多的領域是基于機器學習的鑒別的方法,該方法又可W分為監(jiān)督式的機器學習、無監(jiān)督 式的機器學習和半監(jiān)督式的機器學習。但是運些方法都或多或少的存在一些問題,比如每 一種方法都有自己適合的領域,并不能直接應用到文獻重名作者的識別問題中,而且大部 分消岐方法主要針對英文作者的重名問題,又比如在設置消歧的判斷因子時考慮地不夠充 分,僅利用文獻的單特征鑒別,影響了鑒別的準確性,有些作者使用二元分類法進行重名作 者的鑒別,但是沒有考慮到作者文獻的全局分類特征,導致分類的精度不夠高。
[0004] 名稱為"一種學者重名的消歧方法及其系統(tǒng)"(公開號CN104111973A)的專利公開 了一種學者重名的消歧方法,其基于異質學術網絡數據通過標注獲取標注數據集,并基于 標注數據集,構建文檔對二元分類的訓練數據集,并基于訓練數據集采用分類算法進行二 元分類模型訓練,采用迭代分類算法對需要消歧的數據集合進行迭代判別,得到最終對應 真實學者的聚團,實現學者重名的消歧處理。但該消歧方法采用了人工標注的方式和二元 分類模型,代價較大,且消歧效率比較低。
[0005] 名稱為"Author Disambiguation"(App.NO.US9305083)的美國專利的核屯、思想同 樣是期望利用機器學習和人工判斷相結合的方式來實現高重名識別率,仍然帶來較大的開 銷。
[0006] 綜上所述,客觀上需要一種簡單、有效的方法對科技文獻中出現的重名現象進行 檢測。

【發(fā)明內容】

[0007] 本發(fā)明所要解決的技術問題在于克服當前的網絡文獻知識庫系統(tǒng)在重名辨識能 力方面存在的鑒別精度低、成本高的不足。
[0008] 為此本發(fā)明提出一種文獻作者重名檢測方法,具有更強的鑒別精度和更穩(wěn)定的召 回率。技術方案如下:
[0009] -種文獻作者重名檢測方法,包括如下步驟:
[0010] 步驟1:判斷初始訓練集是否為空,如果為空,進入步驟7,否則,貝贓入步驟2;
[0011] 步驟2:從初始訓練集中提取一個文獻聚類,判斷終止訓練集是否為空,若不為空, 則進入步驟4,若為空,進入步驟3;
[0012] 步驟3:將從初始訓練集中提取的文獻聚類添加到終止訓練集,進入步驟2;
[0013] 步驟4:從終止訓練集中提取文獻聚類,進入步驟5;
[0014] 步驟5:判斷從初始訓練集中提取的文獻聚類與從終止訓練集中提取的文獻聚類 是否滿足消歧規(guī)則,若滿足條件,則合并兩個文獻聚類,進入步驟6,若不滿足,進入步驟3;
[0015] 步驟6:將已經提取的文獻聚類從初始訓練集中移除,進入步驟1;
[0016] 步驟7:進行二次聚類,將終止訓練集賦值給二次聚類的初始聚類,進入步驟8;
[0017] 步驟8:判斷二次聚類的初始訓練集是否為空,若為空,算法結束,否則進入步驟9;
[0018] 步驟9:從二次聚類的初始訓練集中提取一個文獻聚類,判斷二次聚類的終止訓練 集是否為空,若不為空,則進入步驟11,若為空,進入步驟10;
[0019] 步驟10:將提取的文獻聚類添加到二次聚類的終止訓練集中,進入步驟9;
[0020] 步驟11:逐次從終止訓練集中提取文獻聚類,進入步驟12;
[0021] 步驟12:對二次聚類初始訓練集提取的文獻聚類與終止訓練集的文獻聚類進行合 作者相似度判斷,若結果滿足相似度闊值,則合并兩個文獻聚類,進入步驟13,若不滿足,進 入步驟10;
[0022] 步驟13:將已提取的文獻聚類從二次聚類初始訓練集中移除,進入步驟8。
[0023] 特別地,步驟12中所述的相似度判斷采用單特征相似度檢測方法計算每個單特征 相似度的闊值,包括如下步驟:
[0024] 步驟1:從初始訓練集中提取出兩個單特征;
[0025] 步驟2:計算已提取的兩個單特征之間的相似程度;
[0026] 步驟3:判斷初始訓練集是否為空,如果否,轉步驟1,否則順序執(zhí)行;
[0027] 步驟4:結束。
[0028] 進一步,上述單特征相似度檢測方法可W計算出每個單特征相似度的闊值。
[0029] 進一步,步驟12中所述消歧規(guī)則的判斷采用單特征消歧方法,該方法包括如下步 驟:
[0030] 步驟1:判斷初始訓練集是否為空,如果初始訓練集為空,則算法結束;若初始訓練 集不為空,則進入步驟2;
[0031 ]步驟2:從初始訓練集中提取一個文獻實體,判斷終止訓練集是否為空,如果為空, 進入步驟3,如果不為空,進入步驟4;
[0032]步驟3:將從初始訓練集中提取的文獻實體作為一個文獻聚類加入終止訓練集,進 入步驟2;
[0033] 步驟4:將初始訓練集的文獻實體逐次與終止訓練集中的文獻聚類的文獻實體進 行相似度對比,若滿足條件,則將從初始訓練集中提取的文獻實體合并到終止訓練集的文 獻聚類,進入步驟5,若不滿足,進入步驟3;
[0034] 步驟5:將提取的文獻實體從初始訓練集中移除,進入步驟1。
[0035] 進一步,前述單特征消歧方法可W判斷出每個單特征屬性單獨消歧時鑒別力的強 弱和科學聚類次數,避免過度識別的問題。
[0036] 進一步,步驟12中所述的消歧規(guī)則為多特征融合,包含W下步驟:
[0037] 步驟1:用0代表單特征屬性,用We表示每個單特征在單獨消歧方面的能力,即單特 征的消歧權重,使用F值作為單特征消歧能力強弱的指標,則單特征的權重計算公式如下:
[00;3 引
[0039] 步驟2:用Ve表示每個單特征相似度的闊值,為每一個單特征定義一個布爾變量B, 則有化,聲令?
[0040]
。
[0041] 步驟3:用Sim(ai,a2)表示兩個作者實體的相似度,則定義作者重名消歧規(guī)則公式:
[0042]
[0043] 前述消歧規(guī)則融合了每一個單特征的消歧能力,當消歧力強的單特征不滿足要求 時,規(guī)則會順次考慮其他的單特征。
[0044] 本發(fā)明方法具有W下有益效果:
[0045] (1)在進行單特征的相似度匹配時,通過字符串的模糊匹配公式對文獻單特征屬 性進行適當的模糊匹配,避免了過度精確匹配反而達不到理想效果的情況。
[0046] (2)通過單特征消歧方法判斷出每個單特征屬性單獨消歧時鑒別力的強弱和科學 聚類次數,避免過度識別的問題,對于后續(xù)制定消歧規(guī)則很有意義。
[0047] (3)由于每個單特征在進行重名作者的消歧鑒別時發(fā)揮的影響力是不一樣的,有 的單特征消歧力強,有的單特征消歧力弱,制定的消歧規(guī)則融合了每一個單特征屬性的消 歧能力,避免了單一單特征在消歧過程中帶來的誤差,在初次聚類的基礎上再對合作者特 征進行二次聚類,避免聚類不全問題。
【附圖說明】
[004引圖1是單特征相似度檢測方法的流程圖。
[0049] 圖2是單特征消歧方法的流程圖。
[0050] 圖3是文獻作者重名檢測方法的流程圖。
【具體實施方式】
[0051 ]現結合附圖對本發(fā)明的具體實施做進一步詳細的說明。
[0052] 為便于公眾理解本發(fā)明的技術方案,下面先對本發(fā)明所設及的概念及模型進行簡 要介紹。
[0053] 一、單特征相似度
[0054] 用L表示一篇文獻,Al表示文獻的作者集,化表示作者的單位,Kl表示關鍵詞,Pl表 示除去同名作者W外的合作者集,化表示期刊,化表示標題。下面先分析一下五個單特征在 消歧方面的作用:
[0055] 作者單位化nit):作者單位具有很強的消歧能力。任意一篇文獻都可W找到作者 的單位信息,如果兩篇文章有相同的作者名,并且又具有相同的作者單位,那么就可W粗略 的假設運兩個同名作者應該為同一個作者實體,本發(fā)明設定,兩篇具有同名作者的文獻^ 和L2的作者單位的相似度表示為:心V而)。
[0056] 關鍵詞化eyword):本發(fā)明用關鍵詞來表示作者的研究方向,同一個作者實體的研 究方向總是保持著某種連貫性,任意一篇文獻都可W找到關鍵詞,如果兩篇文章有相同的 作者名,并且又具有相似的關鍵詞,那么就可W粗略的假設運兩個同名作者應該為同一個 作者實體,當然不排除兩個同名作者研究方向也相同的情況,但如果考慮的過于仔細,反倒 使鑒別能力下降,因此本發(fā)明設定,兩篇具有同名作者的文獻^和12研究方向的相似度表示 為:況"!俗,乂
[0057] 合作者(Partner):如果兩篇文章有相同的作者名,并且又具有相同的一到兩個合 作者,那么就可W假設運兩個同名作者應該為同一個作者實體,當然不排除兩個同名作者 的合作者也出現同名的情況,但如果考慮的過于仔細,反倒使鑒別能力下降,因此本發(fā)明設 定,兩篇具有同名作者的文獻。和12合作者的相似度表示為:Sm巧.,,巧。)。
[005引期刊(Journal):-般情況下,每個作者都有偏好的一到多個期刊,因此期刊也有 一定的連貫性,如果兩篇文章有相同的作者名,并且又發(fā)表在同一個期刊上,那么就可W假 設運兩個同名作者應該為同一個作者實體,當然不排除同一個期刊上刊載兩個同名作者的 情況,但在考慮單特征的消歧能力時,不用考慮的過于仔細,因此本發(fā)明設定,兩篇具有同 名作者的文獻^和12期刊的相似度表示為:)。
[0059] 標題(Title):-般情況下,如果兩篇文章有相同的作者名,并且文獻標題也相似, 那么就可W粗略的假設運兩個同名作者應該為同一個作者實體,因此本發(fā)明發(fā)明設定,兩 篇具有同名作者的文獻。和1^2標題的相似度表示為:巧,。
[0060] 二、單特征的選擇與分析
[0061] 面向科技文獻的作者重名識別問題的關鍵在于合理單獨利用和組合利用每個單 特征,因此,提前判斷出每個單特征屬性鑒別力的強弱對于后續(xù)的消歧工作很有意義。有些 單特征屬性,比如作者單位、合作者具有很強的鑒別力,在制定消歧規(guī)則時可W將其作為消 歧強因子重點考慮,另外一些單特征屬性的消歧能力不強,在制定消歧規(guī)則時可W作為弱 因子。因此,有必要檢驗一下各單特征在消歧過程中起的作用,即對不同的特征信息在構建 的測試集上進行測試。
[0062] 技術方案具體步驟為:
[0063] 步驟1:作者對象建模。在面向科技文獻的重名消歧過程中,每一個作者對象都可 W用科技文獻的其他單特征來表示,因此在本發(fā)明中,我們對作者對象進行建模,每個對象 實例包含六個屬性,用一個六元組來表示,則有:
[0064] A=(N,U,K,P,J,T) (4)
[0065] 式(1)中,N代表序號,U代表作者單位,K代表關鍵詞,P代表合作者,J代表期刊,T代 表標題。所有的作者對象將W六元組的形式寫入文件,每一行表示一篇文獻即一個作者實 體
[0066] 步驟2:單特征的模糊匹配。面向科技文獻的作者重名消歧工作重點是充分、合理 利用文獻中的單特征屬性進行辨識,因此需要對每一個單特征進行匹配。但是,如果每個單 特征屬性都進行過度的精確匹配,反而會收不到理想的鑒別效果,因為科技文獻自身,其單 特征屬性就帶有一定的模糊性,比如作者單位中的"大學"與"學院"、關鍵詞中的"多移動 Agent"與"多Agent",因此,通過適當的模糊匹配反而會達到較好的匹配效果。本發(fā)明采用 模糊匹配公式作為單特征相似度檢測方法的數學基礎,并通過實驗驗證每個單特征的模糊 匹配闊值,W期當達到該闊值時,單特征會有比較好的匹配效果。
[0067] 假設Si是一個單特征字符串,SU是其中的字符,則:
[006引 Si={sii,Si2,...Sij,...Sin},iG[l,m]jG[l,n] (5)
[0069] 兩個字符串的相似度可W記作Sim(Sa,Sb),則:
[0070]
[0071] 步驟3:單特征相似度檢測方法。用0代表單特征屬性,即0可表示六元組中的任意 一個單特征,單特征相似度檢測方法的處理過程如下:首先,從初始訓練集中提取每篇文章 的e;其次,將全部e屬性進行兩兩比較,計算其相似度;最后,將相似度輸出在本地文件。
[0072] 步驟4:單特征消歧方法,方法W層次聚類作為聚類思想,用文獻聚類表示具有同 名作者的文獻集合,初始訓練集的每一個文獻實體都是一個文獻聚類。算法首先遍歷并提 取初始訓練集中的每一個文獻實體,將提取出來的文獻實體與終止訓練集中的文獻聚類中 的文獻實體進行單特征相似度對比,計算相似度均值,若均值滿足已有的闊值時,就可W判 定兩篇文獻的作者為同一個作者,即合并兩個文獻實體為同一個文獻聚類,若相似度條件 不滿足,則逐次與終止訓練集的其他文獻聚類進行比較,若都不滿足條件,將該文獻實體認 為是一個新的文獻聚類加入終止訓練集中,同時從初始訓練集中移除該文獻實體,重復上 述操作,直到初始訓練集為空,算法結束。
[0073] 步驟5:制定消歧規(guī)則。
[0074] ①單特征的權重。每個單特征在進行重名作者的消歧鑒別時發(fā)揮的影響力是不一 樣的,有的單特征消歧力強,有的單特征消歧力弱,設計合理的消歧規(guī)則,有必要掌握每個 單特征在消歧方面的影響因子,運個影響因子就是單特征的消歧權重,本發(fā)明用We表示。在 介紹單特征相似度檢測方法時,提到使用F值作為單特征消歧能力強弱的指標,因此,本發(fā) 明提出五個單特征的權重計算公式如下:
[0075]
[0076] ②基于多特征融合的作者重名消歧規(guī)則。由單特征相似度檢測方法可W計算出每 個單特征相似度的闊值,則有Ve。為每一個單特征定義一個布爾變量B,則有化,定義:
[0077]
[0078] 用Sim(ai,a2)表示兩個作者實體的相似度,則定義的基于多特征融合的作者重名 消歧規(guī)則公式:
[0079]
[0080] 由W上方法制定的消歧規(guī)則融合了每一個單特征的消歧權重,當權重優(yōu)先的單特 征不滿足時,規(guī)則會順次考慮其他的單特征,運樣就結合了精確匹配和模糊匹配的優(yōu)點。
[0081] 步驟6:文獻作者重名檢測方法基于多特征融合進行作者重名消歧工作,本方法在 單特征相似度檢測方法、單特征消歧方法的基礎上,結合消歧規(guī)則,避免了單一單特征在消 歧過程中帶來的誤差,在初次聚類的基礎上再對合作者特征進行二次聚類,避免聚類不全 問題。本方法W層次聚類作為聚類思想,時間復雜度為(Kk*t*m*n),k為初始訓練集的大小, t為終止訓練集的大小,m為初始訓練集中每個文獻聚類的大小,n為終止訓練集中每個文獻 聚類的大小。開始時,初始訓練集中每一個文獻實體都是一個文獻聚類,方法首先遍歷并提 取初始訓練集中的每一個文獻聚類即每一個文獻實體,提取出來的文獻聚類與終止訓練集 中的文獻聚類中的文獻實體進行對比,當滿足消歧規(guī)則時,就可W判定兩篇文獻的作者為 同一個作者,即合并兩個文獻聚類為一個文獻聚類,若消歧規(guī)則不滿足,則逐次與終止訓練 集中的其他文獻聚類進行比較,若都不滿足消歧規(guī)則,則將該文獻聚類認為是一個新的文 獻聚類加入終止訓練集中,同時從初始訓練集中移除該文獻聚類,重復上述操作,直到初始 訓練集為空,此時,初次聚類結束;將初次聚類的終止訓練集作為二次聚類的初始訓練集, 重復上述操作,將消歧規(guī)則指定為判斷兩個訓練集的合作者特征的相似度,避免初次聚類 中對于合作者之間的關系考慮不全的情況,當二次聚類的初始訓練集為空時,方法結束。
[0082] 本發(fā)明方法的思路是首先提出單特征相似度檢測方法,對文獻間的單特征相似度 進行檢測并計算其闊值,具體流程如圖1所示;其次提出單特征消岐方法,基于文獻的單特 征進行作者重名的消歧工作,引入權重評估每個單特征的消歧力,具體流程如圖2所示;最 后,基于W上工作,制定多特征融合的作者重名消歧規(guī)則,提出一種文獻作者重名檢測方 法,進行重名消歧工作,具體流程如圖3所示。
[0083] 具體而言,本發(fā)明采用W下技術方案解決上述技術問題。
[0084] 步驟1:對作者對象建模。在面向科技文獻的重名消歧過程中,每一個作者對象都 可W用科技文獻的其他單特征來表示,因此,對作者對象進行建模,為后續(xù)重名檢測方法奠 定基礎。
[0085] 步驟2:定義單特征的模糊匹配公式。面向科技文獻的作者重名消歧工作重點是充 分、合理利用文獻中的單特征屬性進行辨識,因此需要對每一個單特征進行匹配。假設Si是 一個單特征字符串,SU是其中的字符,則:
[0086] Si= {sii,Si2, ...Sij, ...Sin}, i G [1 ,m], j G [1 ,n] (10)
[0087] 兩個字符串的相似度可W記作Sim(Sa,Sb),則:
[008引 (11)
[0089] 步驟3:通過單特征相似度檢測方法對兩兩單特征的相似度進行計算。
[0090] 步驟4:每個單特征在進行重名作者的消歧鑒別時發(fā)揮的影響力是不一樣的,有的 單特征消歧力強,有的單特征消歧力弱,通過單特征消岐方法分別對每個單特征的消歧能 力進行評估。
[0091] 步驟5:制定消歧規(guī)則。基于步驟3和步驟4制定多特征融合的消歧規(guī)則,吸取了單 特征在單獨進行消歧時的優(yōu)點,做為文獻作者重名檢測方法的數學基礎。
[0092] 步驟6:文獻作者重名檢測方法在單特征相似度檢測方法、單特征消歧方法的基礎 上,結合消歧規(guī)則,避免了單一單特征在消歧過程中帶來的誤差,在初次聚類的基礎上再對 合作者特征P進行二次聚類,避免聚類不全問題。
[0093] 本發(fā)明W科技文獻中作者重名問題為切入點,選取與作者緊密聯(lián)系的五個單特 征,首先分析單特征相似度闊值選取問題,然后分析單特征消歧問題,制定消歧規(guī)則,最后 提出一種文獻作者重名檢測方法,完成作者重名的消歧工作。
[0094] 本發(fā)明所要解決的技術問題在于克服當前的網絡文獻知識庫系統(tǒng)在重名辨識能 力的不足,提供一種文獻作者重名檢測方法,具有更強的鑒別精度和更穩(wěn)定的召回率。同名 作者的辨識是一個非常重要和復雜的研究課題。在科技文獻的檢索與調研工作中,大量的 作者重名現象降低了工作的準確性,降低捜索質量,導致科研周期的不必要延長。通過合理 的方法對重名作者進行鑒別,可W有效改善檢索質量,節(jié)約科研工作的時間成本。本發(fā)明提 出一種文獻作者重名檢測方法,通過制定多特征融合的消歧規(guī)則對科技文獻中的重名現象 進行聚類分析。本發(fā)明不僅充分利用字符串的模糊匹配公式對文獻單特征屬性進行適當的 模糊匹配,避免了過度精確匹配反而達不到理想效果的情況,而且判斷出每個單特征屬性 單獨消歧時鑒別力的強弱和科學聚類次數,避免過度識別的問題,同時融合了每一個單特 征屬性的消歧能力,避免了單一單特征在消歧過程中帶來的誤差,提高了檢測精度。
[00%]本發(fā)明方法基于多特征融合進行作者重名消歧工作,W層次聚類作為聚類思想, 所述方法在單特征相似度檢測方法、單特征消歧方法的基礎上,結合消歧規(guī)則,避免了單一 單特征在消歧過程中帶來的誤差,在初次聚類的基礎上再對合作者特征進行二次聚類,有 效地避免了聚類不全的問題。
【主權項】
1. 一種文獻作者重名檢測方法,其特征在于包括如下步驟: 步驟1:判斷初始訓練集是否為空,如果為空,進入步驟7,否則,則進入步驟2; 步驟2:從初始訓練集中提取一個文獻聚類,判斷終止訓練集是否為空,若不為空,則進 入步驟4,若為空,進入步驟3; 步驟3:將從初始訓練集中提取的文獻聚類添加到終止訓練集,進入步驟2; 步驟4:從終止訓練集中提取文獻聚類,進入步驟5; 步驟5:判斷從初始訓練集中提取的文獻聚類與從終止訓練集中提取的文獻聚類是否 滿足消歧規(guī)則,若滿足條件,則合并兩個文獻聚類,進入步驟6,若不滿足,進入步驟3; 步驟6:將已經提取的文獻聚類從初始訓練集中移除,進入步驟1; 步驟7:進行二次聚類,將終止訓練集賦值給二次聚類的初始聚類,進入步驟8; 步驟8:判斷二次聚類的初始訓練集是否為空,若為空,算法結束,否則進入步驟9; 步驟9:從二次聚類的初始訓練集中提取一個文獻聚類,判斷二次聚類的終止訓練集是 否為空,若不為空,則進入步驟11,若為空,進入步驟10; 步驟10:將提取的文獻聚類添加到二次聚類的終止訓練集中,進入步驟9; 步驟11:逐次從終止訓練集中提取文獻聚類,進入步驟12; 步驟12:對二次聚類初始訓練集提取的文獻聚類與終止訓練集的文獻聚類進行合作者 相似度判斷,若結果滿足相似度閾值,則合并兩個文獻聚類,進入步驟13,若不滿足,進入步 驟10; 步驟13:將已提取的文獻聚類從二次聚類初始訓練集中移除,進入步驟8。2. 根據權利要求1所述的文獻作者重名檢測方法,其特征在于步驟12中所述的相似度 判斷采用單特征相似度檢測方法計算每個單特征相似度的閾值,包括如下步驟: 步驟1:從初始訓練集中提取出兩個單特征; 步驟2:計算已提取的兩個單特征之間的相似程度; 步驟3:判斷初始訓練集是否為空,如果否,轉步驟1,否則順序執(zhí)行; 步驟4:結束。3. 根據權利要求2所述的文獻作者重名檢測方法,其特征在于所述單特征相似度檢測 方法可以計算出每個單特征相似度的閾值。4. 根據權利要求1所述的文獻作者重名檢測方法,其特征在于步驟12中所述消歧規(guī)則 的判斷采用單特征消歧方法,該方法包括如下步驟: 步驟1:判斷初始訓練集是否為空,如果初始訓練集為空,則算法結束;若初始訓練集不 為空,則進入步驟2; 步驟2:從初始訓練集中提取一個文獻實體,判斷終止訓練集是否為空,如果為空,進入 步驟3,如果不為空,進入步驟4; 步驟3:將從初始訓練集中提取的文獻實體作為一個文獻聚類加入終止訓練集,進入步 驟2; 步驟4:將初始訓練集的文獻實體逐次與終止訓練集中的文獻聚類的文獻實體進行相 似度對比,若滿足條件,則將從初始訓練集中提取的文獻實體合并到終止訓練集的文獻聚 類,進入步驟5,若不滿足,進入步驟3; 步驟5:將提取的文獻實體從初始訓練集中移除,進入步驟1。5. 根據權利要求4所述的文獻作者重名檢測方法,其特征在于所述單特征消歧方法可 以判斷出每個單特征屬性單獨消歧時鑒別力的強弱和科學聚類次數,避免過度識別的問 題。6. 根據權利要求1所述的文獻作者重名檢測方法,其特征在于步驟12中所述的消歧規(guī) 則為多特征融合,包含以下步驟: 步驟1:用β代表單特征屬性,用We表示每個單特征在單獨消歧方面的能力,即單特征的 消歧權重,使用F值作為單特征消歧能力強弱的指標,則單特征的權重計算公式如下:步驟2:用Ve表示每個單特征相似度的閾值,為每一個單特征定義一個布爾變量Β,則有 Be,定義:步驟3:用Sim(ai,a2)表示兩個作者實體的相似度,則定義作者重名消歧規(guī)則公式:7. 根據權利要求6所述的文獻作者重名檢測方法,其特征在于:所述消歧規(guī)則融合了每 一個單特征的消歧能力,當消歧力強的單特征不滿足要求時,規(guī)則會順次考慮其他的單特 征。
【文檔編號】G06F17/30GK106021424SQ201610320129
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】徐小龍, 李永萍, 孫雁飛, 楊維榮, 王勇
【申請人】南京郵電大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
东安县| 鄂温| 鲁山县| 杭锦后旗| 荆州市| 汕尾市| 绍兴市| 延庆县| 辽宁省| 镶黄旗| 盐亭县| 安仁县| 繁昌县| 石渠县| 宁国市| 错那县| 临泽县| 鹤庆县| 贵阳市| 广元市| 五河县| 沿河| 南郑县| 剑川县| 灌阳县| 格尔木市| 青河县| 阜阳市| 班戈县| 塔城市| 保德县| 武夷山市| 金塔县| 青龙| 木里| 全州县| 故城县| 攀枝花市| 新野县| 抚宁县| 方城县|