面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法與流程

文檔序號(hào)：11830414閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法與流程

技術(shù)特征：

1.面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)，其特征在于，包括以下7個(gè)模塊：

(a)查詢及反饋接口，用于用戶的輸入處理和查詢處理，將數(shù)據(jù)可視化結(jié)果反饋給用戶；

(b)在線爬蟲及管理模塊，用于后臺(tái)自動(dòng)化地爬取管理員指定或默認(rèn)的專業(yè)文獻(xiàn)頁面及進(jìn)行頁面數(shù)據(jù)的預(yù)處理；

(c)知識(shí)實(shí)體識(shí)別模塊，用于對(duì)預(yù)處理后的文獻(xiàn)標(biāo)題及摘要數(shù)據(jù)進(jìn)行知識(shí)實(shí)體識(shí)別；

(d)類型標(biāo)簽抽取模塊，用于實(shí)現(xiàn)對(duì)模塊(c)中得到的知識(shí)實(shí)體進(jìn)行類型標(biāo)簽抽取及部分實(shí)體類型標(biāo)注，得到類型標(biāo)簽集合和部分已標(biāo)注實(shí)體；

(e)類型標(biāo)簽傳播及索引庫建立模塊，以模塊(c)中的未標(biāo)知識(shí)實(shí)體集合、模塊(d)的類型標(biāo)簽集合和部分已標(biāo)注實(shí)體為輸入，進(jìn)行基于多標(biāo)簽加權(quán)的標(biāo)簽傳播及建立知識(shí)實(shí)體及其類型關(guān)系索引庫；

(f)知識(shí)實(shí)體類型關(guān)系圖模型構(gòu)建模塊，根據(jù)用戶輸入的關(guān)鍵詞對(duì)索引庫進(jìn)行檢索，并構(gòu)建出不同的知識(shí)實(shí)體類型關(guān)系圖模型；

(g)數(shù)據(jù)可視化模塊，對(duì)模塊(f)中的模型進(jìn)行Web可視化實(shí)現(xiàn)。

2.面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法，其特征在于，采用權(quán)利要求1所述的抽取系統(tǒng)，進(jìn)行以下步驟，

S1.數(shù)據(jù)爬取及預(yù)處理：管理員設(shè)置文獻(xiàn)爬取地址和范圍，在線爬蟲及管理模塊在后臺(tái)根據(jù)指定的范圍對(duì)文獻(xiàn)頁面進(jìn)行爬取，同時(shí)對(duì)爬取的頁面數(shù)據(jù)進(jìn)行預(yù)處理；

S2.知識(shí)實(shí)體識(shí)別提?。褐R(shí)實(shí)體識(shí)別模塊對(duì)預(yù)處理后的文獻(xiàn)信息進(jìn)行實(shí)體識(shí)別并提取出來；

S3.類型抽取和標(biāo)注：知識(shí)實(shí)體類型抽取模塊對(duì)提取的知識(shí)實(shí)體進(jìn)行類型抽取和標(biāo)注，得到類型標(biāo)簽集合和部分已標(biāo)注實(shí)體；

S4.建立索引庫：將得到的知識(shí)實(shí)體及其類型標(biāo)簽集合和部分已標(biāo)注實(shí)體進(jìn)行數(shù)據(jù)庫存儲(chǔ)，進(jìn)行基于多標(biāo)簽加權(quán)的標(biāo)簽傳播，得到類型標(biāo)簽矩陣并建立知識(shí)實(shí)體及其類型的索引庫；

S5.獲取關(guān)鍵字：通過用戶查詢及反饋接口獲取用戶查詢的知識(shí)實(shí)體關(guān)鍵字；

S6.建立類型列表：根據(jù)關(guān)鍵字在步驟S4中創(chuàng)建的索引庫進(jìn)行知識(shí)實(shí)體索引項(xiàng)進(jìn)行匹配，從而得到與關(guān)鍵字相關(guān)的知識(shí)實(shí)體列表，按照相似性排序后得到最終的知識(shí)實(shí)體及其類型列表；

S7.根據(jù)需求建模：根據(jù)用戶需求利用知識(shí)實(shí)體類型關(guān)系圖模型構(gòu)建模塊對(duì)獲得的知識(shí)實(shí)體及其類型列表進(jìn)行建模；

S8.數(shù)據(jù)可視化：數(shù)據(jù)可視化模塊將步驟S7得到的模型進(jìn)行Web可視化數(shù)據(jù)處理，返回JSON數(shù)據(jù)到前端并實(shí)現(xiàn)Web前端可視化演示。

3.根據(jù)權(quán)利要求2所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法，其特征在于，步驟S3中知識(shí)實(shí)體類型標(biāo)簽抽取的步驟如下：

(S3-1)結(jié)合文獻(xiàn)摘要信息中知識(shí)實(shí)體的相關(guān)上下文以輔助類型標(biāo)簽抽取，以抽取到的知識(shí)實(shí)體為基礎(chǔ)，對(duì)文獻(xiàn)的摘要進(jìn)行知識(shí)實(shí)體匹配，把在摘要中匹配到的知識(shí)實(shí)體及其后相鄰的名詞抽取出來，添加到知識(shí)實(shí)體集合中；

(S3-2)利用基于啟發(fā)式規(guī)則的方法對(duì)步驟(S3-1)中得到知識(shí)實(shí)體集合進(jìn)行類型標(biāo)簽抽取，得到候選類型標(biāo)簽集合，類型抽取的同時(shí)獲得部分已標(biāo)注實(shí)體；

(S3-3)篩選掉不可靠的類型標(biāo)簽，通過統(tǒng)計(jì)類型標(biāo)簽與其所屬知識(shí)實(shí)體共現(xiàn)的頻次，然后根據(jù)頻次特征篩選掉共現(xiàn)頻次低且對(duì)應(yīng)知識(shí)實(shí)體出現(xiàn)頻次少的類型標(biāo)簽，輸出篩選后的類型標(biāo)簽集合。

4.根據(jù)權(quán)利要求2所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法，其特征在于，步驟S4中基于多標(biāo)簽加權(quán)的標(biāo)簽傳播包括以下步驟：

(S4-1)構(gòu)建并初始化轉(zhuǎn)換概率矩陣T，用于表示知識(shí)實(shí)體之間的轉(zhuǎn)換概率；

(S4-2)構(gòu)建并初始化類型標(biāo)簽矩陣Y，用于表示每個(gè)知識(shí)實(shí)體包含的類型標(biāo)簽及其類型標(biāo)簽權(quán)重，其中，設(shè)Y_L為已標(biāo)類型矩陣，Y_U為未標(biāo)類型矩陣，Y_N為每次傳播迭代后的新增標(biāo)注矩陣；

(S4-3)對(duì)于每一個(gè)已標(biāo)實(shí)體，循環(huán)對(duì)所有未標(biāo)實(shí)體進(jìn)行轉(zhuǎn)換概率計(jì)算，如果知識(shí)實(shí)體之間的轉(zhuǎn)換概率大于閾值，則進(jìn)行標(biāo)簽傳播，一輪傳播結(jié)束后，將新標(biāo)知識(shí)實(shí)體集合替換原來的已標(biāo)知識(shí)實(shí)體集合，得到第t代的新增標(biāo)注矩陣

(S4-4)循環(huán)迭代進(jìn)行步驟(S4-3)的標(biāo)簽傳播過程，直到新標(biāo)知識(shí)實(shí)體集合為空或未標(biāo)類型矩陣不再改變，迭代結(jié)束，設(shè)第t+1代標(biāo)簽傳播迭代完成，則輸出最新的已標(biāo)類型矩陣

5.根據(jù)權(quán)利要求4所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法，其特征在于，步驟(S4-1)中，轉(zhuǎn)換概率矩陣T：

$<mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>&RightArrow;</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>,</mo> </mrow>$

其中，T_ij表示從節(jié)點(diǎn)X_j轉(zhuǎn)移到節(jié)點(diǎn)X_i的概率，也就是知識(shí)實(shí)體e_j轉(zhuǎn)移到知識(shí)實(shí)體e_i的概率，轉(zhuǎn)移概率W_ij由下面公式計(jì)算得到：

$<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msubsup> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <msup> <mo>∂</mo> <mn>2</mn> </msup> </mfrac> <mo>)</mo> </mrow> </mrow>$

其中，s_ij是知識(shí)實(shí)體e_i和e_j的相似度，參數(shù)用于調(diào)整s_ij的比例，參數(shù)為s_ij的平均值。

6.根據(jù)權(quán)利要求5所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法，其特征在于，知識(shí)實(shí)體間的相似度S使用編輯距離進(jìn)行度量：編輯距離越大，相似度越小，假設(shè)源字符串與目標(biāo)字符串長度的最大值為L_max，編輯距離為LD，相似度S利用以下公式計(jì)算：

S＝1-LD/L_max。

7.根據(jù)權(quán)利要求5或6所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法，其特征在于，步驟(S4-2)中，設(shè)第一層抽取中成功抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為l，未能抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為u，則定義類型標(biāo)簽矩陣Y是一個(gè)(l+u)×R的矩陣，R為已抽取類型詞去重詞典個(gè)數(shù)，類型標(biāo)簽權(quán)重及類型標(biāo)簽矩陣Y的計(jì)算公式如下：

$<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mrow> <munderover> <mo>Σ</mo> <mn>0</mn> <mrow> <mi>l</mi> <mo>=</mo> <mi>K</mi> </mrow> </munderover> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> </mrow> </mfrac> </mrow>$

$<mrow> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>y</mi> <mi>i</mi> </msub> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>l</mi> <mi>a</mi> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mi> </mi> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> <mo>.</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>$

其中，設(shè)知識(shí)實(shí)體e_i在第一層類型標(biāo)注后有K個(gè)類型標(biāo)簽，C_ik是第i個(gè)實(shí)體的k標(biāo)簽的出現(xiàn)頻次，W_ik是知識(shí)實(shí)體e_i擁有類型標(biāo)簽k的權(quán)重，W_ik以標(biāo)簽k在e_i中出現(xiàn)的頻率來度量，當(dāng)知識(shí)實(shí)體e_i擁有類型標(biāo)簽k時(shí)，則Y_ij＝W_ik，否則Y_ij＝0。

8.根據(jù)權(quán)利要求7所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法，其特征在于，步驟(S4-3)中，轉(zhuǎn)換概率閾值ζ的計(jì)算方法：

$<mrow> <mi>ζ</mi> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>T</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mi>N</mi> </mrow>$

其中，N為的行數(shù)，為第t次迭代后的新增標(biāo)注矩陣。

9.根據(jù)權(quán)利要求2或8所述的面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)的抽取方法，其特征在于：步驟S7中，建模生成三種樹圖模型，分別為基于同一類型的實(shí)體層次關(guān)系樹模型、基于類型分組的知識(shí)關(guān)系圖模型和基于時(shí)序的知識(shí)熱點(diǎn)跟蹤圖模型。

10.根據(jù)權(quán)利要求9所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)，其特征在于，步驟S7中建模的具體方法為：

(S7-1)根據(jù)用戶輸入的關(guān)鍵詞從知識(shí)實(shí)體索引庫中提取出與該關(guān)鍵詞相關(guān)的知識(shí)實(shí)體集合，相關(guān)關(guān)系包括標(biāo)題中和摘要中的共現(xiàn)關(guān)系、包含關(guān)系以及擴(kuò)展關(guān)系；

(S7-2)構(gòu)建基于同一類型的實(shí)體層次關(guān)系樹模型，驗(yàn)證知識(shí)實(shí)體集合中兩兩個(gè)實(shí)體之間的擴(kuò)展或包含關(guān)系，如果實(shí)體e_i包含實(shí)體e_j，則建立樹圖模型中父子關(guān)系R(e_i,e_j),表示e_i是e_j的父節(jié)點(diǎn)，依次類推，建立層次關(guān)系模型；

(S7-3)構(gòu)建基于類型分組的知識(shí)關(guān)系圖模型，對(duì)知識(shí)實(shí)體集合中的知識(shí)實(shí)體按類型進(jìn)行分組，統(tǒng)計(jì)每個(gè)類型分組的權(quán)值，分組內(nèi)的知識(shí)實(shí)體也按照實(shí)體權(quán)重降序排序；篩選出權(quán)值最高的N個(gè)分組，每個(gè)分組篩選出排在前M個(gè)的知識(shí)實(shí)體，按照關(guān)鍵詞、類型分組、實(shí)體的次序構(gòu)造三層的圖模型；

(S7-4)構(gòu)建基于時(shí)序的知識(shí)熱點(diǎn)跟蹤圖模型，根據(jù)知識(shí)實(shí)體的時(shí)間進(jìn)行排序，構(gòu)建按照半年為周期的時(shí)間段分組，分別統(tǒng)計(jì)每個(gè)時(shí)間段出現(xiàn)的相關(guān)的知識(shí)實(shí)體數(shù)量，各個(gè)時(shí)間段分組內(nèi)的知識(shí)實(shí)體按照實(shí)體權(quán)重進(jìn)行排序，最后以時(shí)間分組和對(duì)應(yīng)實(shí)體列表構(gòu)建熱點(diǎn)跟蹤圖模型；

(S7-5)把步驟(S7-2)、(S7-3)、(S7-4)所述的模型轉(zhuǎn)換成JSON形式的數(shù)據(jù)并輸出到數(shù)據(jù)可視化模塊。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

實(shí)體關(guān)系抽取相關(guān)技術(shù)

實(shí)體抽取相關(guān)技術(shù)

命名實(shí)體抽取相關(guān)技術(shù)

中文實(shí)體關(guān)系抽取相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法與流程