本發(fā)明涉及文本挖掘及信息抽取領域,具體涉及一種面向專業(yè)文獻知識實體的類型抽取系統(tǒng)和抽取方法。
背景技術:
隨著互聯(lián)網的快速普及和硬件存儲技術的發(fā)展,人們可以輕松的在不同的設備上瀏覽、獲取到各類的數字資源,也可以通過眾多的學術數據庫或學術搜索引擎獲取到所需的專業(yè)文獻,如Google Scholar、百度學術、Cnki、萬方數據等等.。由此看來,從互聯(lián)網上獲取海量的電子資源的確成為了一件輕松簡單的事情,但是隨之出現(xiàn)的問題是,現(xiàn)有的知識服務已經無法滿足人們對信息“快速、簡單、準確”的需求。面對這樣的知識服務需求,我們需要針對這類專業(yè)文獻文本進行實體識別并抽取出實體的類型信息,建立結構化的專業(yè)知識體系,以輔助用戶進行文獻檢索?,F(xiàn)在大部分的類型信息抽取系統(tǒng)和技術都是針對一些日常社交文本,如微博、Facebook、Twitter等,而針對這類有著眾多專業(yè)術語的學術文獻的研究卻較少。
目前,雖然針對專業(yè)文獻領域的信息抽取研究并不多,但其可觀的應用前景和知識服務的需要也引發(fā)了國內外的研究熱潮,并取得了一定的研究成果。例如國外的Google knowledge graph和Google Trends,國內的哈爾濱工業(yè)大學的同義詞詞林,萬方數據的知識脈絡檢索等。其中,Google knowledge graph是把用戶的檢索對象當作一個實體,而不是單純的關鍵詞匹配檢索,可以有效的得到實體相關的一些屬性和具體資料;Google Trends是對用戶的搜索記錄進行分析,得到一些關鍵詞的熱點趨勢;國內的“同義詞詞林”則是利用互聯(lián)網的數據進行實體上下位關系的挖掘從而得到大部分實體的上下位關系,但是卻缺少對專業(yè)文獻知識實體這類特殊的專業(yè)術語進行分析;而萬方數據的知識脈絡檢索是根據相關文獻和參考文獻的關系對文獻的關鍵詞進行關聯(lián),然后按時序排列展示出某段時間與用戶檢索詞最相關的詞匯。
現(xiàn)有的類型抽取技術主要存在以下幾個方面的不足:A)類型需要人工預先定義,帶有局限性;B)需要大量的人工標注,耗時耗力;C)針對專業(yè)領域的類型抽取還少,大部分應用于常用實體信息抽取方法在專業(yè)領域并不適用;D)缺少直觀、形象的樹圖可視化演示,大部分系統(tǒng)仍然是以文字、數據演示為主。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有專業(yè)領域實體類型抽取技術存在的上述不足,提出一種面向專業(yè)文獻知識實體的類型抽取方法及系統(tǒng)。
為實現(xiàn)上述目的,本發(fā)明的技術方案為:
本發(fā)明公開了面向專業(yè)文獻知識實體的類型抽取系統(tǒng),包括以下7個模塊:
(a)查詢及反饋接口,用于用戶的輸入處理和查詢處理,將數據可視化結果反饋給用戶;
(b)在線爬蟲及管理模塊,用于后臺自動化地爬取管理員指定或默認的專業(yè)文獻頁面及進行頁面數據的預處理;
(c)知識實體識別模塊,用于對預處理后的文獻標題及摘要數據進行知識實體識別;
(d)類型標簽抽取模塊,用于實現(xiàn)對模塊(c)中得到的知識實體進行類型標簽抽取及部分實體類型標注,得到類型標簽集合和部分已標注實體;
(e)類型標簽傳播及索引庫建立模塊,以模塊(c)中的未標知識實體集合、模塊(d)的類型標簽集合和部分已標注實體為輸入,進行基于多標簽加權的標簽傳播及建立知識實體及其類型關系索引庫;
(f)知識實體類型關系圖模型構建模塊,根據用戶輸入的關鍵詞對索引庫進行檢索,并構建出不同的知識實體類型關系圖模型;
(g)數據可視化模塊,對模塊(f)中的模型進行Web可視化實現(xiàn)。
本發(fā)明還公開了面向專業(yè)文獻知識實體的類型抽取方法,采用上述抽取系統(tǒng),進行以下步驟:
S1.數據爬取及預處理:管理員設置文獻爬取地址和范圍,在線爬蟲及管理模塊在后臺根據指定的范圍對文獻頁面進行爬取,同時對爬取的頁面數據進行預處理;
S2.知識實體識別提?。褐R實體識別模塊對預處理后的文獻信息進行實體識別并提取出來;
S3.類型抽取和標注:知識實體類型抽取模塊對提取的知識實體進行類型抽取和標注,得到類型標簽集合和部分已標注實體;
S4.建立索引庫:將得到的知識實體及其類型標簽集合和部分已標注實體進行數據庫存儲,進行基于多標簽加權的標簽傳播,得到類型標簽矩陣并建立知識實體及其類型的索引庫;
S5.獲取關鍵字:通過用戶查詢及反饋接口獲取用戶查詢的知識實體關鍵字;
S6.建立類型列表:根據關鍵字在步驟S4中創(chuàng)建的索引庫進行知識實體索引項進行匹配,從而得到與關鍵字相關的知識實體列表,按照相似性排序后得到最終的知識實體及其類型列表;
S7.根據需求建模:根據用戶需求利用知識實體類型關系圖模型構建模塊對獲得的知識實體及其類型列表進行建模;
S8.數據可視化:數據可視化模塊將步驟S7得到的模型進行Web可視化數據處理,返回JSON數據到前端并實現(xiàn)Web前端可視化演示。
使用本發(fā)明的面向專業(yè)文獻知識實體的類型抽取系統(tǒng)及方法,具有以下幾個方面的優(yōu)點:
1)本發(fā)明在類型預定義方面解決了類型人工定義的局限性問題,使用無監(jiān)督的啟發(fā)式規(guī)則方法對全部實體進行類型標簽抽取,獲得最有可能的類型標簽集;由于提出的類型抽取方法是無監(jiān)督與半監(jiān)督方法的結合,因此抽取的過程無需大量的人工標注,而且靈活性和通用性也比一般的有監(jiān)督或半監(jiān)督方法要強。另外,這種方法是通過分析專業(yè)領域知識實體的特性進行改進的,適用于不同的專業(yè)領域知識實體的類型抽取,有助于專業(yè)知識網絡的結構化實現(xiàn)。
2)可以指定爬取文獻頁面。管理員可以指定爬取頁面的地址和范圍,因此本系統(tǒng)可以輕松擴展到其他領域專業(yè)文獻的數據采集,檢索量并不局限在本地數據庫。例如:當在線的論文數據庫有更新時,管理員也可以更新爬取范圍,系統(tǒng)的爬蟲就會自動爬取新數據并更新本地數據庫。
3)檢索到的知識實體類型開放、多樣。本系統(tǒng)并非人工預定義實體類型,而是利用結合摘要的基于啟發(fā)式規(guī)則的方法來進行類型標簽集合抽取,再進行不可靠類型標簽篩選,得到最終的類型標簽集合。這樣得到的標簽集合解決了人工預定義的局限性和主觀性的問題,可以開放、全面、客觀的得到比較合理的類型集合,覆蓋了大部分的知識實體。
4)用戶可以通過可視化界面得到類型相關的知識脈絡圖。本系統(tǒng)利用知識實體類型關系圖模型構建模塊對獲得的知識實體及其類型列表進行建模,分別得到基于同一類型的實體層次關系樹模型、基于類型分組的知識關系圖模型和基于時序的知識熱點跟蹤圖模型,最后使用可視化模型將其反饋給用戶。
5)系統(tǒng)性能高,使用簡便。系統(tǒng)采用MVC架構的思想,前臺的用戶檢索及可視化模塊和后臺的爬取分析模塊是分隔開的,因此,后臺的數據爬取、預處理、抽取和標注等流程并不會拖慢前端的可視化顯示。另外,由于建立了索引庫,所以前端檢索和獲取數據時速度很快,性能較高?;赪eb的可視化也使得用戶使用十分簡單方便,不需要安裝任何客戶端即可使用。
附圖說明
圖1為本發(fā)明的面向專業(yè)文獻知識實體的類型抽取系統(tǒng)架構圖。
圖2為本發(fā)明的面向專業(yè)文獻知識實體的類型抽取方法的流程圖。
圖3為本發(fā)明的基于條件隨機場的知識實體識別步驟的流程圖。
圖4為本發(fā)明的實體類型抽取與標注步驟的實現(xiàn)原理圖。
圖5為本發(fā)明的基于多標簽加權的標簽傳播算法的實現(xiàn)原理圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
圖1示出了本發(fā)明的面向專業(yè)文獻知識實體的類型抽取系統(tǒng)架構圖。
參照圖1,本發(fā)明的實體類型抽取系統(tǒng)包括用戶查詢及反饋接口、在線爬蟲及管理模塊、知識實體識別模塊、知識實體的類型抽取模塊、類型標簽傳播及索引庫建立模塊、知識實體類型關系圖模型構建模塊、數據可視化模塊,共7個模塊。
查詢及反饋接口,用于用戶的輸入處理和查詢處理,將數據可視化結果反饋給用戶;
在線爬蟲及管理模塊,用于后臺自動化地爬取管理員指定或默認的專業(yè)文獻頁面及進行頁面數據的預處理;
知識實體識別模塊,用于對預處理后的文獻標題及摘要數據進行知識實體識別,得到知識實體集合;
知識實體的類型抽取模塊,用于實現(xiàn)對得到的知識實體集合進行類型標簽抽取及部分實體類型標注,得到類型標簽集合和部分已標注實體;
類型標簽傳播及索引庫建立模塊,以未標知識實體集合和類型標簽集合和部分已標注實體為輸入,進行基于多標簽加權的標簽傳播,然后建立知識實體及其類型關系索引庫,進行本地存儲;
知識實體類型關系圖模型構建模塊,根據用戶輸入的關鍵詞對索引庫進行檢索,并構建出不同的知識實體類型關系圖模型;
數據可視化模塊,對構建好樹圖模型進行Web可視化實現(xiàn)。
本發(fā)明還公開了上述實體類型抽取系統(tǒng)的抽取方法,圖2為本發(fā)明的面向專業(yè)文獻的知識實體類型抽取方法的流程圖。以下詳述知識實體類型抽取方法步驟。
S1.數據爬取及預處理
管理員通過管理模塊設置爬取地址和范圍;在線爬蟲模塊在后臺根據指定的范圍對文獻頁面進行爬取;對爬取的頁面數據進行數據預處理,例如中文分詞、去停用詞,特征篩選等。
S2.知識實體識別提取
利用知識實體識別模塊對清理后的文獻標題、摘要、關鍵詞等文獻信息進行實體識別并提取出來。
S3.類型抽取和標注
利用知識實體類型抽取模塊對步驟S2中得到的知識實體進行類型抽取和標注,得到類型標簽集合和部分已標注實體,具體過程如下:
(S3-1)結合文獻摘要信息中知識實體的相關上下文以輔助類型標簽抽取,以抽取到的知識實體為基礎,對文獻的摘要進行知識實體匹配,把在摘要中匹配到的知識實體及其后相鄰的名詞抽取出來,添加到知識實體集合中;
(S3-2)利用基于啟發(fā)式規(guī)則的方法對步驟(S3-1)中得到知識實體集合進行類型標簽抽取,得到候選類型標簽集合,類型抽取的同時獲得部分已標注實體;
(S3-3)篩選掉不可靠的類型標簽,通過統(tǒng)計類型標簽與其所屬知識實體共現(xiàn)的頻次,然后根據頻次特征篩選掉共現(xiàn)頻次低且對應知識實體出現(xiàn)頻次少的類型標簽,輸出篩選后的類型標簽集合。
S4.建立索引庫
將得到的知識實體及其類型標簽集合和標注實體進行數據庫存儲,進行基于多標簽加權的標簽傳播,得到類型標簽矩陣并建立知識實體及其類型的索引庫?;诙鄻撕灱訖嗟臉撕瀭鞑グㄒ韵虏襟E:
(S4-1)構建并初始化轉換概率矩陣T,用于表示知識實體之間的轉換概率。
轉換概率矩陣T按公式1計算。
其中,Tij表示從節(jié)點Xj轉移到節(jié)點Xi的概率,也就是知識實體ej轉移到知識實體ei的概率,轉移概率Wij由下面公式2計算得到。
其中,sij是知識實體ei和ej的相似度,參數用于調整sij的比例,參數為sij的平均值。知識實體間的相似度S使用編輯距離進行度量:編輯距離越大,相似度越小,假設源字符串與目標字符串長度的最大值為Lmax,編輯距離為LD,相似度S利用以下公式3計算。
S=1-LD/Lmax (公式3)
(S4-2)構建并初始化類型標簽矩陣Y,用于表示每個知識實體包含的類型標簽及其類型標簽權重。設第一層抽取中成功抽出類型詞的知識實體個數為l,未能抽出類型詞的知識實體個數為u,則定義類型標簽矩陣Y是一個(l+u)×R的矩陣(R為已抽取類型詞去重詞典個數)。因此,設YL為已標類型矩陣,YU為未標類型矩陣,YN為每次傳播迭代后的新增標注矩陣。類型標簽權重及類型標簽矩陣Y由公式4、5計算得到。
其中,設知識實體ei在第一層類型標注后有K個類型標簽,Cik是第i個實體的k標簽的出現(xiàn)頻次,Wik是知識實體ei擁有類型標簽k的權重,Wik以標簽k在ei中出現(xiàn)的頻率來度量,當知識實體ei擁有類型標簽k時,則Yij=Wik,否則Yij=0。
(S4-3)對于每一個已標實體,循環(huán)對所有未標實體進行轉換概率計算,如果知識實體之間的轉換概率大于閾值(閾值ζ按公式6計算),則進行標簽傳播。一輪傳播結束后,將新標知識實體集合替換原來的已標知識實體集合,得到第t代的新增標注矩陣。
其中,N為的行數,為第t次迭代時的新增標注矩陣。
(S4-4)循環(huán)迭代進行步驟(S4-3)的標簽傳播過程,直到新標知識實體集合為空或未標類型矩陣不再改變,迭代結束,輸出最新的已標類型矩陣(第t+1代標簽傳播迭代完成)。
S5.獲得關鍵字
通過用戶查詢及反饋接口獲取到用戶查詢的知識實體關鍵字。
S6.建立類型形表:
根據用戶輸入的關鍵字在索引庫進行知識實體索引項進行匹配,從而得到與關鍵字相關的知識實體列表,按照相似性排序后得到最終的知識實體及其類型列表;
S7.根據需求建模
根據用戶需求,利用知識實體類型關系圖模型構建模塊對獲得的知識實體及其類型列表進行建模,分別得到基于同一類型的實體層次關系樹模型、基于類型分組的知識關系圖模型和基于時序的知識熱點跟蹤圖模型。具體建模過程如下詳述:
(S7-1)根據用戶輸入的關鍵詞從知識實體索引庫中提取出與該關鍵詞相關的知識實體集合,相關關系包括標題中和摘要中的共現(xiàn)關系、包含關系以及擴展關系。
(S7-2)構建基于同一類型的實體層次關系樹模型,驗證知識實體集合中兩兩個實體之間的擴展或包含關系,如果實體ei包含實體ej,則建立樹圖模型中父子關系R(ei,ej),表示ei是ej的父節(jié)點,依次類推,建立層次關系模型。
(S7-3)構建基于類型分組的知識關系圖模型,對知識實體集合中的知識實體按類型進行分組,統(tǒng)計每個類型分組的權值,分組內的知識實體也按照實體權重降序排序;篩選出權值最高的N個分組,每個分組篩選出排在前M個的知識實體,按照關鍵詞、類型分組、實體的次序構造三層的圖模型。
(S7-4)構建基于時序的知識熱點跟蹤圖模型,根據知識實體的時間進行排序,構建按照半年為周期的時間段分組,分別統(tǒng)計每個時間段出現(xiàn)的相關的知識實體數量,各個時間段分組內的知識實體按照實體權重進行排序,最后以時間分組和對應實體列表構建熱點跟蹤圖模型。
(S7-5)把步驟(S7-2)、(S7-3)、(S7-4)所述的模型轉換成JSON形式的數據并輸出到數據可視化模塊。
S8.數據可視化
利用數據可視化模塊步驟S7中的三個模型進行Web可視化數據處理,返回JSON數據到前端并實現(xiàn)Web前端可視化演示。
如圖3為本發(fā)明的基于條件隨機場的知識實體識別步驟的流程圖。首先,對預處理后的文獻數據集進行特征抽取,包括詞性特征、前后導詞特征、前后綴特征等。下一步把部分標注數據集及抽取到的特征都放進CRF模型進行訓練,得到訓練后的CRF模型。然后使用訓練后的CRF模型對未標數據進行實體標注,得到標注好的數據集后計算其F1值。如果F1值提升幅度大于前一代的F1值,則進行半監(jiān)督迭代過程。半監(jiān)督迭代過程首先把標注數據集分割成10份,分別計算各自的F1值,選擇最好的那一份數據集組合到人工標注數據集中,重新對CRF模型進行訓練。重復上述訓練、標注過程,直到F1值不在提升,迭代過程結束,輸出實體標注集。
圖4為本發(fā)明的實體類型抽取與標注步驟的實現(xiàn)原理圖。流程的第一步是進行實體識別,然后使用結合摘要的基于啟發(fā)式規(guī)則的類型抽取方法進行類型的抽取,得到是全體類型標簽集合和部分已標注的數據(類型詞出現(xiàn)在實體內部)。接著,利用基于多標簽加權的標簽傳播算法進行類型標簽傳播及標注,最后得到類型標注結果。
圖5為本發(fā)明的基于多標簽加權的標簽傳播算法的實現(xiàn)原理圖。該圖主要說明試題類型標注步驟中的基于多標簽加權的標簽傳播算法的實現(xiàn)原理。其中,圖左側的是已標簽的l個實體及其k個標簽數據作為輸入數據,每一個標簽有自身對應的權值Wik,而圖右側的是將進行標簽傳播的n-l-1個未標實體,在標簽傳播之前,最右側的輸出標簽是不存在的。如圖5所示的例子,已標實體e1和e2同時滿足對實體el+1的標簽傳播條件時,實體e1把標簽1-3傳播到實體el+1,而最右側新標簽1-3對應的新權值為Wik*Tij。然后,實體e2把標簽2、4、5傳播到實體el+1,其中標簽4和標簽5的新權值也是Wik*Tij,而標簽2中已經有權值,所以進行權值的累加,因此標簽2中權值為W12*T1,l+1+W22*T2,l+1。
綜上,本發(fā)明的面向專業(yè)文獻知識實體的類型抽取系統(tǒng)及方法,以在線爬蟲爬取的專業(yè)文獻數據為基礎,進行知識實體的識別、實體類型標簽的抽取、類型標注及標簽傳播,得到知識實體的類型及其基于類型的關系,建立索引庫進行本地存儲。然后,根據用戶輸入的關鍵詞從知識實體索引庫中提取出與該關鍵詞相關的知識實體集合,構建基于同一類型的實體層次關系樹模型、基于類型分組的知識關系圖模型、基于時序的知識熱點跟蹤圖模型,最后使用數據可視化技術進行前端繪圖并呈現(xiàn)給用戶,本發(fā)明實施簡單,抽取準確率高,具有很強的實際價值和現(xiàn)實意義。
以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。