欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法與流程

文檔序號(hào):11830414閱讀:來源:國知局

技術(shù)特征:

1.面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng),其特征在于,包括以下7個(gè)模塊:

(a)查詢及反饋接口,用于用戶的輸入處理和查詢處理,將數(shù)據(jù)可視化結(jié)果反饋給用戶;

(b)在線爬蟲及管理模塊,用于后臺(tái)自動(dòng)化地爬取管理員指定或默認(rèn)的專業(yè)文獻(xiàn)頁面及進(jìn)行頁面數(shù)據(jù)的預(yù)處理;

(c)知識(shí)實(shí)體識(shí)別模塊,用于對(duì)預(yù)處理后的文獻(xiàn)標(biāo)題及摘要數(shù)據(jù)進(jìn)行知識(shí)實(shí)體識(shí)別;

(d)類型標(biāo)簽抽取模塊,用于實(shí)現(xiàn)對(duì)模塊(c)中得到的知識(shí)實(shí)體進(jìn)行類型標(biāo)簽抽取及部分實(shí)體類型標(biāo)注,得到類型標(biāo)簽集合和部分已標(biāo)注實(shí)體;

(e)類型標(biāo)簽傳播及索引庫建立模塊,以模塊(c)中的未標(biāo)知識(shí)實(shí)體集合、模塊(d)的類型標(biāo)簽集合和部分已標(biāo)注實(shí)體為輸入,進(jìn)行基于多標(biāo)簽加權(quán)的標(biāo)簽傳播及建立知識(shí)實(shí)體及其類型關(guān)系索引庫;

(f)知識(shí)實(shí)體類型關(guān)系圖模型構(gòu)建模塊,根據(jù)用戶輸入的關(guān)鍵詞對(duì)索引庫進(jìn)行檢索,并構(gòu)建出不同的知識(shí)實(shí)體類型關(guān)系圖模型;

(g)數(shù)據(jù)可視化模塊,對(duì)模塊(f)中的模型進(jìn)行Web可視化實(shí)現(xiàn)。

2.面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,采用權(quán)利要求1所述的抽取系統(tǒng),進(jìn)行以下步驟,

S1.數(shù)據(jù)爬取及預(yù)處理:管理員設(shè)置文獻(xiàn)爬取地址和范圍,在線爬蟲及管理模塊在后臺(tái)根據(jù)指定的范圍對(duì)文獻(xiàn)頁面進(jìn)行爬取,同時(shí)對(duì)爬取的頁面數(shù)據(jù)進(jìn)行預(yù)處理;

S2.知識(shí)實(shí)體識(shí)別提?。褐R(shí)實(shí)體識(shí)別模塊對(duì)預(yù)處理后的文獻(xiàn)信息進(jìn)行實(shí)體識(shí)別并提取出來;

S3.類型抽取和標(biāo)注:知識(shí)實(shí)體類型抽取模塊對(duì)提取的知識(shí)實(shí)體進(jìn)行類型抽取和標(biāo)注,得到類型標(biāo)簽集合和部分已標(biāo)注實(shí)體;

S4.建立索引庫:將得到的知識(shí)實(shí)體及其類型標(biāo)簽集合和部分已標(biāo)注實(shí)體進(jìn)行數(shù)據(jù)庫存儲(chǔ),進(jìn)行基于多標(biāo)簽加權(quán)的標(biāo)簽傳播,得到類型標(biāo)簽矩陣并建立知識(shí)實(shí)體及其類型的索引庫;

S5.獲取關(guān)鍵字:通過用戶查詢及反饋接口獲取用戶查詢的知識(shí)實(shí)體關(guān)鍵字;

S6.建立類型列表:根據(jù)關(guān)鍵字在步驟S4中創(chuàng)建的索引庫進(jìn)行知識(shí)實(shí)體索引項(xiàng)進(jìn)行匹配,從而得到與關(guān)鍵字相關(guān)的知識(shí)實(shí)體列表,按照相似性排序后得到最終的知識(shí)實(shí)體及其類型列表;

S7.根據(jù)需求建模:根據(jù)用戶需求利用知識(shí)實(shí)體類型關(guān)系圖模型構(gòu)建模塊對(duì)獲得的知識(shí)實(shí)體及其類型列表進(jìn)行建模;

S8.數(shù)據(jù)可視化:數(shù)據(jù)可視化模塊將步驟S7得到的模型進(jìn)行Web可視化數(shù)據(jù)處理,返回JSON數(shù)據(jù)到前端并實(shí)現(xiàn)Web前端可視化演示。

3.根據(jù)權(quán)利要求2所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,步驟S3中知識(shí)實(shí)體類型標(biāo)簽抽取的步驟如下:

(S3-1)結(jié)合文獻(xiàn)摘要信息中知識(shí)實(shí)體的相關(guān)上下文以輔助類型標(biāo)簽抽取,以抽取到的知識(shí)實(shí)體為基礎(chǔ),對(duì)文獻(xiàn)的摘要進(jìn)行知識(shí)實(shí)體匹配,把在摘要中匹配到的知識(shí)實(shí)體及其后相鄰的名詞抽取出來,添加到知識(shí)實(shí)體集合中;

(S3-2)利用基于啟發(fā)式規(guī)則的方法對(duì)步驟(S3-1)中得到知識(shí)實(shí)體集合進(jìn)行類型標(biāo)簽抽取,得到候選類型標(biāo)簽集合,類型抽取的同時(shí)獲得部分已標(biāo)注實(shí)體;

(S3-3)篩選掉不可靠的類型標(biāo)簽,通過統(tǒng)計(jì)類型標(biāo)簽與其所屬知識(shí)實(shí)體共現(xiàn)的頻次,然后根據(jù)頻次特征篩選掉共現(xiàn)頻次低且對(duì)應(yīng)知識(shí)實(shí)體出現(xiàn)頻次少的類型標(biāo)簽,輸出篩選后的類型標(biāo)簽集合。

4.根據(jù)權(quán)利要求2所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,步驟S4中基于多標(biāo)簽加權(quán)的標(biāo)簽傳播包括以下步驟:

(S4-1)構(gòu)建并初始化轉(zhuǎn)換概率矩陣T,用于表示知識(shí)實(shí)體之間的轉(zhuǎn)換概率;

(S4-2)構(gòu)建并初始化類型標(biāo)簽矩陣Y,用于表示每個(gè)知識(shí)實(shí)體包含的類型標(biāo)簽及其類型標(biāo)簽權(quán)重,其中,設(shè)YL為已標(biāo)類型矩陣,YU為未標(biāo)類型矩陣,YN為每次傳播迭代后的新增標(biāo)注矩陣;

(S4-3)對(duì)于每一個(gè)已標(biāo)實(shí)體,循環(huán)對(duì)所有未標(biāo)實(shí)體進(jìn)行轉(zhuǎn)換概率計(jì)算,如果知識(shí)實(shí)體之間的轉(zhuǎn)換概率大于閾值,則進(jìn)行標(biāo)簽傳播,一輪傳播結(jié)束后,將新標(biāo)知識(shí)實(shí)體集合替換原來的已標(biāo)知識(shí)實(shí)體集合,得到第t代的新增標(biāo)注矩陣

(S4-4)循環(huán)迭代進(jìn)行步驟(S4-3)的標(biāo)簽傳播過程,直到新標(biāo)知識(shí)實(shí)體集合為空或未標(biāo)類型矩陣不再改變,迭代結(jié)束,設(shè)第t+1代標(biāo)簽傳播迭代完成,則輸出最新的已標(biāo)類型矩陣

5.根據(jù)權(quán)利要求4所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,步驟(S4-1)中,轉(zhuǎn)換概率矩陣T:

<mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>&RightArrow;</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>,</mo> </mrow>

其中,Tij表示從節(jié)點(diǎn)Xj轉(zhuǎn)移到節(jié)點(diǎn)Xi的 概率,也就是知識(shí)實(shí)體ej轉(zhuǎn)移到知識(shí)實(shí)體ei的概率,轉(zhuǎn)移概率Wij由下面公式計(jì)算得到:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msubsup> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <msup> <mo>&part;</mo> <mn>2</mn> </msup> </mfrac> <mo>)</mo> </mrow> </mrow>

其中,sij是知識(shí)實(shí)體ei和ej的相似度,參數(shù)用于調(diào)整sij的比例,參數(shù)為sij的平均值。

6.根據(jù)權(quán)利要求5所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取方法,其特征在于,知識(shí)實(shí)體間的相似度S使用編輯距離進(jìn)行度量:編輯距離越大,相似度越小,假設(shè)源字符串與目標(biāo)字符串長度的最大值為Lmax,編輯距離為LD,相似度S利用以下公式計(jì)算:

S=1-LD/Lmax。

7.根據(jù)權(quán)利要求5或6所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法,其特征在于,步驟(S4-2)中,設(shè)第一層抽取中成功抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為l,未能抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為u,則定義類型標(biāo)簽矩陣Y是一個(gè)(l+u)×R的矩陣,R為已抽取類型詞去重詞典個(gè)數(shù),類型標(biāo)簽權(quán)重及類型標(biāo)簽矩陣Y的計(jì)算公式如下:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mn>0</mn> <mrow> <mi>l</mi> <mo>=</mo> <mi>K</mi> </mrow> </munderover> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>y</mi> <mi>i</mi> </msub> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>l</mi> <mi>a</mi> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mi> </mi> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> <mo>.</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中,設(shè)知識(shí)實(shí)體ei在第一層類型標(biāo)注后有K個(gè)類型標(biāo)簽,Cik是第i個(gè)實(shí)體的k標(biāo)簽的出現(xiàn)頻次,Wik是知識(shí)實(shí)體ei擁有類型標(biāo)簽k的權(quán)重,Wik以標(biāo)簽k在ei中出現(xiàn)的頻率來度量,當(dāng)知識(shí)實(shí)體ei擁有類型標(biāo)簽k時(shí),則Yij=Wik,否則Yij=0。

8.根據(jù)權(quán)利要求7所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)及方法,其特征在于,步驟(S4-3)中,轉(zhuǎn)換概率閾值ζ的計(jì)算方法:

<mrow> <mi>&zeta;</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>T</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mi>N</mi> </mrow>

其中,N為的行數(shù),為第t次迭代后的新增標(biāo)注矩陣。

9.根據(jù)權(quán)利要求2或8所述的面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng)的抽取方法,其特征在于:步驟S7中,建模生成三種樹圖模型,分別為基于同一類型的實(shí)體層次關(guān)系樹模型、基于類型分組的知識(shí)關(guān)系圖模型和基于時(shí)序的知識(shí)熱點(diǎn)跟蹤圖模型。

10.根據(jù)權(quán)利要求9所述面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取系統(tǒng),其特征在于,步驟S7中建模的具體方法為:

(S7-1)根據(jù)用戶輸入的關(guān)鍵詞從知識(shí)實(shí)體索引庫中提取出與該關(guān)鍵詞相關(guān)的知識(shí)實(shí)體集合,相關(guān)關(guān)系包括標(biāo)題中和摘要中的共現(xiàn)關(guān)系、包含關(guān)系以及擴(kuò)展關(guān)系;

(S7-2)構(gòu)建基于同一類型的實(shí)體層次關(guān)系樹模型,驗(yàn)證知識(shí)實(shí)體集合中兩兩個(gè)實(shí)體之間的擴(kuò)展或包含關(guān)系,如果實(shí)體ei包含實(shí)體ej,則建立樹圖模型中父子關(guān)系R(ei,ej),表示ei是ej的父節(jié)點(diǎn),依次類推,建立層次關(guān)系模型;

(S7-3)構(gòu)建基于類型分組的知識(shí)關(guān)系圖模型,對(duì)知識(shí)實(shí)體集合中的知識(shí)實(shí)體按類型進(jìn)行分組,統(tǒng)計(jì)每個(gè)類型分組的權(quán)值,分組內(nèi)的知識(shí)實(shí)體也按照實(shí)體權(quán)重降序排序;篩選出權(quán)值最高的N個(gè)分組,每個(gè)分組篩選出排在前M個(gè)的知識(shí)實(shí)體,按照關(guān)鍵詞、類型分組、實(shí)體的次序構(gòu)造三層的圖模型;

(S7-4)構(gòu)建基于時(shí)序的知識(shí)熱點(diǎn)跟蹤圖模型,根據(jù)知識(shí)實(shí)體的時(shí)間進(jìn)行排序,構(gòu)建按照半年為周期的時(shí)間段分組,分別統(tǒng)計(jì)每個(gè)時(shí)間段出現(xiàn)的相關(guān)的知識(shí)實(shí)體數(shù)量,各個(gè)時(shí)間段分組內(nèi)的知識(shí)實(shí)體按照實(shí)體權(quán)重進(jìn)行排序,最后以時(shí)間分組和對(duì)應(yīng)實(shí)體列表構(gòu)建熱點(diǎn)跟蹤圖模型;

(S7-5)把步驟(S7-2)、(S7-3)、(S7-4)所述的模型轉(zhuǎn)換成JSON形式的數(shù)據(jù)并輸出到數(shù)據(jù)可視化模塊。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
全州县| 白水县| 丰都县| 旬邑县| 古田县| 梨树县| 双城市| 克山县| 宁河县| 龙川县| 福泉市| 华阴市| 盐亭县| 色达县| 外汇| 宕昌县| 九龙县| 治县。| 清流县| 平山县| 青田县| 隆德县| 修武县| 陆良县| 南漳县| 都匀市| 梁平县| 汝南县| 钦州市| 宜阳县| 南昌县| 扎鲁特旗| 寻甸| 谢通门县| 吴旗县| 湖北省| 虞城县| 海阳市| 夏邑县| 兴业县| 慈溪市|