1.面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng),其特征在于,包括以下7個(gè)模塊:
(a)查詢及反饋接口,用于用戶的輸入處理和查詢處理,將數(shù)據(jù)可視化結(jié)果反饋給用戶;
(b)在線爬蟲及管理模塊,用于后臺(tái)自動(dòng)化地爬取管理員指定或默認(rèn)的專業(yè)文獻(xiàn)頁面及進(jìn)行頁面數(shù)據(jù)的預(yù)處理;
(c)知識(shí)實(shí)體識(shí)別模塊,用于對(duì)預(yù)處理后的文獻(xiàn)標(biāo)題及摘要數(shù)據(jù)進(jìn)行知識(shí)實(shí)體識(shí)別;
(d)類型標(biāo)簽抽取模塊,用于實(shí)現(xiàn)對(duì)模塊(c)中得到的知識(shí)實(shí)體進(jìn)行類型標(biāo)簽抽取及部分實(shí)體類型標(biāo)注,得到類型標(biāo)簽集合和部分已標(biāo)注實(shí)體;
(e)類型標(biāo)簽傳播及索引庫建立模塊,以模塊(c)中的未標(biāo)知識(shí)實(shí)體集合、模塊(d)的類型標(biāo)簽集合和部分已標(biāo)注實(shí)體為輸入,進(jìn)行基于多標(biāo)簽加權(quán)的標(biāo)簽傳播及建立知識(shí)實(shí)體及其類型關(guān)系索引庫;
(f)知識(shí)實(shí)體類型關(guān)系圖模型構(gòu)建模塊,根據(jù)用戶輸入的關(guān)鍵詞對(duì)索引庫進(jìn)行檢索,并構(gòu)建出不同的知識(shí)實(shí)體類型關(guān)系圖模型;
(g)數(shù)據(jù)可視化模塊,對(duì)模塊(f)中的模型進(jìn)行Web可視化實(shí)現(xiàn)。
2.面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,采用權(quán)利要求1所述的抽取系統(tǒng),進(jìn)行以下步驟,
S1.數(shù)據(jù)爬取及預(yù)處理:管理員設(shè)置文獻(xiàn)爬取地址和范圍,在線爬蟲及管理模塊在后臺(tái)根據(jù)指定的范圍對(duì)文獻(xiàn)頁面進(jìn)行爬取,同時(shí)對(duì)爬取的頁面數(shù)據(jù)進(jìn)行預(yù)處理;
S2.知識(shí)實(shí)體識(shí)別提?。褐R(shí)實(shí)體識(shí)別模塊對(duì)預(yù)處理后的文獻(xiàn)信息進(jìn)行實(shí)體識(shí)別并提取出來;
S3.類型抽取和標(biāo)注:知識(shí)實(shí)體類型抽取模塊對(duì)提取的知識(shí)實(shí)體進(jìn)行類型抽取和標(biāo)注,得到類型標(biāo)簽集合和部分已標(biāo)注實(shí)體;
S4.建立索引庫:將得到的知識(shí)實(shí)體及其類型標(biāo)簽集合和部分已標(biāo)注實(shí)體進(jìn)行數(shù)據(jù)庫存儲(chǔ),進(jìn)行基于多標(biāo)簽加權(quán)的標(biāo)簽傳播,得到類型標(biāo)簽矩陣并建立知識(shí)實(shí)體及其類型的索引庫;
S5.獲取關(guān)鍵字:通過用戶查詢及反饋接口獲取用戶查詢的知識(shí)實(shí)體關(guān)鍵字;
S6.建立類型列表:根據(jù)關(guān)鍵字在步驟S4中創(chuàng)建的索引庫進(jìn)行知識(shí)實(shí)體索引項(xiàng)進(jìn)行匹配,從而得到與關(guān)鍵字相關(guān)的知識(shí)實(shí)體列表,按照相似性排序后得到最終的知識(shí)實(shí)體及其類型列表;
S7.根據(jù)需求建模:根據(jù)用戶需求利用知識(shí)實(shí)體類型關(guān)系圖模型構(gòu)建模塊對(duì)獲得的知識(shí)實(shí)體及其類型列表進(jìn)行建模;
S8.數(shù)據(jù)可視化:數(shù)據(jù)可視化模塊將步驟S7得到的模型進(jìn)行Web可視化數(shù)據(jù)處理,返回JSON數(shù)據(jù)到前端并實(shí)現(xiàn)Web前端可視化演示。
3.根據(jù)權(quán)利要求2所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,步驟S3中知識(shí)實(shí)體類型標(biāo)簽抽取的步驟如下:
(S3-1)結(jié)合文獻(xiàn)摘要信息中知識(shí)實(shí)體的相關(guān)上下文以輔助類型標(biāo)簽抽取,以抽取到的知識(shí)實(shí)體為基礎(chǔ),對(duì)文獻(xiàn)的摘要進(jìn)行知識(shí)實(shí)體匹配,把在摘要中匹配到的知識(shí)實(shí)體及其后相鄰的名詞抽取出來,添加到知識(shí)實(shí)體集合中;
(S3-2)利用基于啟發(fā)式規(guī)則的方法對(duì)步驟(S3-1)中得到知識(shí)實(shí)體集合進(jìn)行類型標(biāo)簽抽取,得到候選類型標(biāo)簽集合,類型抽取的同時(shí)獲得部分已標(biāo)注實(shí)體;
(S3-3)篩選掉不可靠的類型標(biāo)簽,通過統(tǒng)計(jì)類型標(biāo)簽與其所屬知識(shí)實(shí)體共現(xiàn)的頻次,然后根據(jù)頻次特征篩選掉共現(xiàn)頻次低且對(duì)應(yīng)知識(shí)實(shí)體出現(xiàn)頻次少的類型標(biāo)簽,輸出篩選后的類型標(biāo)簽集合。
4.根據(jù)權(quán)利要求2所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,步驟S4中基于多標(biāo)簽加權(quán)的標(biāo)簽傳播包括以下步驟:
(S4-1)構(gòu)建并初始化轉(zhuǎn)換概率矩陣T,用于表示知識(shí)實(shí)體之間的轉(zhuǎn)換概率;
(S4-2)構(gòu)建并初始化類型標(biāo)簽矩陣Y,用于表示每個(gè)知識(shí)實(shí)體包含的類型標(biāo)簽及其類型標(biāo)簽權(quán)重,其中,設(shè)YL為已標(biāo)類型矩陣,YU為未標(biāo)類型矩陣,YN為每次傳播迭代后的新增標(biāo)注矩陣;
(S4-3)對(duì)于每一個(gè)已標(biāo)實(shí)體,循環(huán)對(duì)所有未標(biāo)實(shí)體進(jìn)行轉(zhuǎn)換概率計(jì)算,如果知識(shí)實(shí)體之間的轉(zhuǎn)換概率大于閾值,則進(jìn)行標(biāo)簽傳播,一輪傳播結(jié)束后,將新標(biāo)知識(shí)實(shí)體集合替換原來的已標(biāo)知識(shí)實(shí)體集合,得到第t代的新增標(biāo)注矩陣
(S4-4)循環(huán)迭代進(jìn)行步驟(S4-3)的標(biāo)簽傳播過程,直到新標(biāo)知識(shí)實(shí)體集合為空或未標(biāo)類型矩陣不再改變,迭代結(jié)束,設(shè)第t+1代標(biāo)簽傳播迭代完成,則輸出最新的已標(biāo)類型矩陣
5.根據(jù)權(quán)利要求4所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,步驟(S4-1)中,轉(zhuǎn)換概率矩陣T:
其中,Tij表示從節(jié)點(diǎn)Xj轉(zhuǎn)移到節(jié)點(diǎn)Xi的 概率,也就是知識(shí)實(shí)體ej轉(zhuǎn)移到知識(shí)實(shí)體ei的概率,轉(zhuǎn)移概率Wij由下面公式計(jì)算得到:
其中,sij是知識(shí)實(shí)體ei和ej的相似度,參數(shù)用于調(diào)整sij的比例,參數(shù)為sij的平均值。
6.根據(jù)權(quán)利要求5所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,知識(shí)實(shí)體間的相似度S使用編輯距離進(jìn)行度量:編輯距離越大,相似度越小,假設(shè)源字符串與目標(biāo)字符串長度的最大值為Lmax,編輯距離為LD,相似度S利用以下公式計(jì)算:
S=1-LD/Lmax。
7.根據(jù)權(quán)利要求5或6所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法,其特征在于,步驟(S4-2)中,設(shè)第一層抽取中成功抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為l,未能抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為u,則定義類型標(biāo)簽矩陣Y是一個(gè)(l+u)×R的矩陣,R為已抽取類型詞去重詞典個(gè)數(shù),類型標(biāo)簽權(quán)重及類型標(biāo)簽矩陣Y的計(jì)算公式如下:
其中,設(shè)知識(shí)實(shí)體ei在第一層類型標(biāo)注后有K個(gè)類型標(biāo)簽,Cik是第i個(gè)實(shí)體的k標(biāo)簽的出現(xiàn)頻次,Wik是知識(shí)實(shí)體ei擁有類型標(biāo)簽k的權(quán)重,Wik以標(biāo)簽k在ei中出現(xiàn)的頻率來度量,當(dāng)知識(shí)實(shí)體ei擁有類型標(biāo)簽k時(shí),則Yij=Wik,否則Yij=0。
8.根據(jù)權(quán)利要求7所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法,其特征在于,步驟(S4-3)中,轉(zhuǎn)換概率閾值ζ的計(jì)算方法:
其中,N為的行數(shù),為第t次迭代后的新增標(biāo)注矩陣。
9.根據(jù)權(quán)利要求2或8所述的面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)的抽取方法,其特征在于:步驟S7中,建模生成三種樹圖模型,分別為基于同一類型的實(shí)體層次關(guān)系樹模型、基于類型分組的知識(shí)關(guān)系圖模型和基于時(shí)序的知識(shí)熱點(diǎn)跟蹤圖模型。
10.根據(jù)權(quán)利要求9所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng),其特征在于,步驟S7中建模的具體方法為:
(S7-1)根據(jù)用戶輸入的關(guān)鍵詞從知識(shí)實(shí)體索引庫中提取出與該關(guān)鍵詞相關(guān)的知識(shí)實(shí)體集合,相關(guān)關(guān)系包括標(biāo)題中和摘要中的共現(xiàn)關(guān)系、包含關(guān)系以及擴(kuò)展關(guān)系;
(S7-2)構(gòu)建基于同一類型的實(shí)體層次關(guān)系樹模型,驗(yàn)證知識(shí)實(shí)體集合中兩兩個(gè)實(shí)體之間的擴(kuò)展或包含關(guān)系,如果實(shí)體ei包含實(shí)體ej,則建立樹圖模型中父子關(guān)系R(ei,ej),表示ei是ej的父節(jié)點(diǎn),依次類推,建立層次關(guān)系模型;
(S7-3)構(gòu)建基于類型分組的知識(shí)關(guān)系圖模型,對(duì)知識(shí)實(shí)體集合中的知識(shí)實(shí)體按類型進(jìn)行分組,統(tǒng)計(jì)每個(gè)類型分組的權(quán)值,分組內(nèi)的知識(shí)實(shí)體也按照實(shí)體權(quán)重降序排序;篩選出權(quán)值最高的N個(gè)分組,每個(gè)分組篩選出排在前M個(gè)的知識(shí)實(shí)體,按照關(guān)鍵詞、類型分組、實(shí)體的次序構(gòu)造三層的圖模型;
(S7-4)構(gòu)建基于時(shí)序的知識(shí)熱點(diǎn)跟蹤圖模型,根據(jù)知識(shí)實(shí)體的時(shí)間進(jìn)行排序,構(gòu)建按照半年為周期的時(shí)間段分組,分別統(tǒng)計(jì)每個(gè)時(shí)間段出現(xiàn)的相關(guān)的知識(shí)實(shí)體數(shù)量,各個(gè)時(shí)間段分組內(nèi)的知識(shí)實(shí)體按照實(shí)體權(quán)重進(jìn)行排序,最后以時(shí)間分組和對(duì)應(yīng)實(shí)體列表構(gòu)建熱點(diǎn)跟蹤圖模型;
(S7-5)把步驟(S7-2)、(S7-3)、(S7-4)所述的模型轉(zhuǎn)換成JSON形式的數(shù)據(jù)并輸出到數(shù)據(jù)可視化模塊。