一種基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法與流程

文檔序號：11432228閱讀：603來源：國知局

本發(fā)明屬于互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域，具體涉及一種實體消歧方法，特別涉及一種基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法。

背景技術(shù)：

隨著移動互聯(lián)網(wǎng)的普及，微博、博客、貼吧、論壇、及各大新聞網(wǎng)站、政府工作網(wǎng)站等極大的方便了人民的生活。這些平臺上的數(shù)據(jù)絕大部分都是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在，導致這些數(shù)據(jù)中存在著大量的歧義現(xiàn)象。如果能對這些含有歧義的實體進行準確的消歧，將會為后期利用產(chǎn)生極大的便利。

目前主流的實體消歧算法底層模型多是基于詞袋模型，詞袋模型固有的局限性，導致這些算法都不能夠充分利用上下文的語義信息，導致實體消歧效果還有很大的提升空間。詞嵌入是近年來機器學習的熱點，詞嵌入的核心思想就是為每一個詞語構(gòu)造一個分布式表示，這樣避免了詞匯與詞匯之間的鴻溝。卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)模型的一個分支，可以有效的捕捉局部特征，再全局建模。若能夠采用卷積神經(jīng)網(wǎng)絡(luò)對詞嵌入進行建模，那么能夠得到比詞袋模型更有效的語義特征。而且基于局部感知和權(quán)值共享的思想，卷積神經(jīng)網(wǎng)絡(luò)模型中參數(shù)大大減少，訓練速度較快，谷歌的alphago的核心就是兩個卷積神經(jīng)網(wǎng)絡(luò)。

本發(fā)明將詞向量和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合起來，針對待消歧實體上下文和知識庫實體摘要信息，分別構(gòu)造語義表示，訓練卷積神經(jīng)網(wǎng)絡(luò)，進行預(yù)測。大大提高了實體上下文的語義描述能力。

技術(shù)實現(xiàn)要素：

發(fā)明目的：本發(fā)明針對現(xiàn)有實體消歧方法難以利用上下文的語義信息的現(xiàn)狀，提供一種基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法，旨在捕捉上下文語義信息來幫助實體消歧。

技術(shù)方案：

一種基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法，包括步驟：

步驟1：根據(jù)應(yīng)用場景收集的包含待消歧實體的文本集，并對文本集進行預(yù)處理，確定文本集中每一個待消歧實體及其上下文特征；

步驟2：根據(jù)領(lǐng)域知識構(gòu)建的待消歧實體的知識庫，并搜索知識庫，確定每一個待消歧實體的候選實體集合及集合中每一個候選實體的描述特征；

步驟3：取以待消歧實體為中心的一個固定大小窗口中的名詞的詞向量構(gòu)成一個詞向量矩陣，作為待消歧實體的上下文語義特征；取知識庫中每一個實體的摘要信息在計算tf·idf后權(quán)重比較大的前20個名詞的詞向量構(gòu)成詞向量矩陣，作為知識庫實體的語義特征；

步驟4：將文本中已知的無歧義實體聯(lián)合知識庫目標實體以及候選實體構(gòu)成訓練集合，并輸入到卷積神經(jīng)網(wǎng)絡(luò)模型進行訓練，調(diào)整模型中的參數(shù)；

步驟5：對每一個待消歧的實體和知識庫候選實體集合組成的樣本，輸入到步驟4得到的卷積神經(jīng)網(wǎng)絡(luò)模型，分別得到待消歧實體和知識庫候選實體集合中每一個知識庫實體的語義特征向量；

步驟6：基于語義特征向量，計算待消歧實體和知識庫候選實體集合中每一個實體的余弦相似度；取相似度最大的候選實體即為待消歧實體的最終目標實體。

所述步驟1中的預(yù)處理為用中科院中文分詞程序ictclas對文本集進行詞性標注分詞，然后根據(jù)停用詞表過濾掉停用詞，并且針對一些專有名詞以及比較難識別的實體名創(chuàng)建一個名字字典。

所述步驟2中調(diào)用中文分詞程序ictclas對知識庫中的實體描述進行詞性標注分詞，根據(jù)停用詞表過濾掉停用詞。

所述步驟3中以待消歧實體為中心的一個固定大小窗口中的名詞的詞向量構(gòu)成一個詞向量矩陣具體為：

1)調(diào)用谷歌深度學習程序word2vec對中文維基百科語料庫進行訓練，從而得到詞向量表l，其中的詞向量的長度是200維，每一維都是一個實數(shù)；

2)對待消歧實體e的上下文conetxte＝{w1,w2,…,wi,…,wk}中每一個名詞wi查詢詞向量表l，得到每一個名詞的詞向量vi；

3)根據(jù)待消歧實體e的上下文詞語的詞向量，構(gòu)建待消歧實體e的上下文詞向量矩陣[v1,v2,v3,…vi,…,vk]；

4)結(jié)束。

所述步驟3中取知識庫中每一個實體的摘要信息在計算tf·idf后權(quán)重比較大的前20個名詞的詞向量構(gòu)成詞向量矩陣具體為：

1)對候選實體集合e＝{e1,e2,…,en}中每一個候選實體ei的描述特征中每一個名詞wi查詢詞向量表l，得到每一個名詞的詞向量vi；

2)根據(jù)描述特征中每一個名詞的詞向量，構(gòu)建實體描述的詞向量矩陣；

3)結(jié)束。

所述步驟4卷積神經(jīng)網(wǎng)絡(luò)學習訓練具體為：

1)每個待消歧的語義特征和候選實體集合的語義特征作為一個訓練樣本，輸入到神經(jīng)網(wǎng)絡(luò)模型；

2)對待消歧的語義特征進行卷積，設(shè)定卷積核featuremap的個數(shù)為200個，設(shè)定卷積核featuremap的大小為[2，200]，即長為2、寬為200的矩陣；

3)每個卷積核卷積的結(jié)果采用1-max池化，得到每個卷積核的特征；

4)200個卷積核特征組成中間結(jié)果，再輸入到全連接層，全連接層大小為50，最終得到一個50維的語義特征向量；

5)候選實體集合的語義特征，先求加和平均，然后再輸入到一個全連接層，大小同樣為50，最終得到一個50維的語義特征向量；

6)神經(jīng)網(wǎng)絡(luò)中每一個訓練樣本的損失函數(shù)losse定義為：

losse＝max(0,1-sim(e,eε)+sim(e,e′))

其中：eε表示待消歧實體e的目標實體，e′表示候選實體集合中的任一其它候選實體，意思是最大化目標實體和任一其它候選實體語義特征向量相似度之差；

整體損失函數(shù)定義為：loss＝∑losse；

7)神經(jīng)網(wǎng)絡(luò)中的參數(shù)均采用均勻分布u(-0.01，0.01)初始化；

8)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)均采用tanh雙曲正切激活函數(shù)；

9)神經(jīng)網(wǎng)絡(luò)中的參數(shù)采用隨機梯度下降進行更新；

10)結(jié)束。

所述步驟6實體分類階段具體為：

1)從文件系統(tǒng)中讀取待消歧實體e的語義特征向量a；

2)從文件系統(tǒng)中讀取候選實體集合e＝{e1,e2,…,en}中的語義特征向量集合b＝{b1,b2,…,bn}；

3)遍歷候選實體集合，計算e和e中每一個特征向量的余弦相似度

4)選取相似度最大的實體作為最終預(yù)測結(jié)果；

5)結(jié)束。

有益效果：本發(fā)明基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法分別對待消歧實體和知識庫候選實體構(gòu)造語義表示。利用訓練集合訓練神經(jīng)網(wǎng)絡(luò)模型，在實體消歧時，將待消歧實體輸入到訓練好的神經(jīng)網(wǎng)絡(luò)模型，輸出待消歧實體的最相似候選實體作為最終目標實體。

附圖說明

為了更清楚地說明本發(fā)明，下面將對本發(fā)明所需使用的附圖作簡單的介紹：

圖1為本發(fā)明的基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法。

圖2為卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)圖。

圖3為實體分類階段的流程圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明作更進一步的說明。

本發(fā)明的基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法的流程圖如圖1所示。

步驟0是本發(fā)明的實體消歧方法的起始狀態(tài)；

在實體識別階段(步驟1-6)：

步驟1是根據(jù)應(yīng)用場景收集包含待消歧實體的文本集；

步驟2是根據(jù)領(lǐng)域知識構(gòu)建的待消歧實體的知識庫；

步驟3是調(diào)用中科院中文分詞程序ictclas對文本集進行詞性標注分詞，然后根據(jù)停用詞表過濾掉停用詞，并且針對一些專有名詞以及比較難識別的實體名創(chuàng)建一個名詞字典；

步驟4是調(diào)用中文分詞程序ictclas對知識庫中的實體描述進行詞性標注分詞，根據(jù)停用詞表過濾掉停用詞；

步驟5是根據(jù)應(yīng)用場景確定每一個關(guān)注的待消歧實體及其上下文特征；

步驟6是候選實體的產(chǎn)生，搜索知識庫，比較文本中待消歧實體指稱項與知識庫中實體指稱是否相同，若相同，則將這些實體當做是文本中待消歧實體指稱項的候選實體，確定每一個待消歧實體的候選實體集合及集合中每一個候選實體的描述特征；

在實體語義表示階段(步驟7-10)：

步驟7是取以待消歧實體為中心的一個固定大小窗口中的名詞的詞向量構(gòu)成一個詞向量矩陣；(對文本集進行詞性標注分詞處理后，帶有/n標識的詞)，窗口大小為10；

1)調(diào)用谷歌深度學習程序word2vec對中文維基百科語料庫進行訓練，從而得到詞向量表l，其中的詞向量的長度是200維，每一維都是一個實數(shù)；

2)對待消歧實體e的上下文conetxte＝{w1,w2,…,wi,…,wk}中每一個名詞wi查詢詞向量表l，得到每一個名詞的詞向量vi；

3)根據(jù)待消歧實體e的上下文詞語的詞向量，構(gòu)建待消歧實體e的上下文詞向量矩陣[v1,v2,v3,…vi,…,vk]；

4)結(jié)束。

步驟8是取知識庫中每一個實體的摘要信息在計算tf·idf后權(quán)重比較大的前20個名詞的詞向量構(gòu)成詞向量矩陣；若不夠20個名詞，則取現(xiàn)有的所有名詞；

1)對候選實體集合e＝{e1,e2,…,en}中每一個候選實體ei的描述特征中每一個名詞wi查詢詞向量表l，得到每一個名詞的詞向量vi；

2)根據(jù)描述特征中每一個名詞的詞向量，構(gòu)建實體描述的詞向量矩陣；

3)結(jié)束。

步驟9是將步驟7的詞向量矩陣作為待消歧實體的上下文語義特征；

步驟10是將步驟8的詞向量矩陣作為知識庫實體的語義特征；

在神經(jīng)網(wǎng)絡(luò)學習訓練階段(步驟11-12)：

步驟11是將文本中已知的無歧義實體聯(lián)合知識庫實體構(gòu)成訓練集合；

步驟12針對步驟11中的訓練集合輸入到卷積神經(jīng)網(wǎng)絡(luò)模型進行訓練，調(diào)整模型中的參數(shù)；

1)每個待消歧的語義表示和候選實體集合的語義特征作為一個訓練樣本，輸入到神經(jīng)網(wǎng)絡(luò)模型；

2)對待消歧的語義特征進行卷積，設(shè)定卷積核featuremap的個數(shù)為200個，設(shè)定卷積核featuremap的大小為[2，200]，即長為2、寬為200的矩陣；

3)每個卷積核卷積的結(jié)果采用1-max池化，得到每個卷積核的特征；

4)200個卷積核特征組成中間結(jié)果，再輸入到全連接層，全連接層大小為50，最終得到一個50維的語義特征向量；

5)候選實體集合的語義特征，先求加和平均，然后再輸入到一個全連接層，大小同樣為50，最終得到一個50維的語義特征向量；

6)神經(jīng)網(wǎng)絡(luò)中每一個訓練樣本的損失函數(shù)losse定義為：

losse＝max(0,1-sim(e,eε)+sim(e,e′))

整體損失函數(shù)定義為：loss＝∑losse；

7)神經(jīng)網(wǎng)絡(luò)中的參數(shù)均采用均勻分布u(-0.01，0.01)初始化；

8)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)均采用tanh雙曲正切激活函數(shù)；

9)神經(jīng)網(wǎng)絡(luò)中的參數(shù)采用隨機梯度下降進行更新；

10)結(jié)束。

在實體分類階段(步驟13-14)：

步驟13是讀取文本中待消歧實體和知識庫候選實體的樣本集合；

步驟14遍歷步驟13讀取的樣本集合，將每一個樣本輸入到步驟12訓練得到的卷積神經(jīng)網(wǎng)絡(luò)模型，并輸出分類結(jié)果；

步驟15是本發(fā)明的基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法的結(jié)束步驟；

圖2是對圖1中神經(jīng)網(wǎng)絡(luò)學習訓練階段中的步驟12的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的詳細概括圖，包括下面幾個組成部分：

詞向量矩陣：待消歧實體上下文的詞向量矩陣和知識庫實體描述特征的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入；

卷積層：對待消歧實體上下文詞向量矩陣，通過200個不同的卷積核進行卷積，得到每一個卷積核的特征；

1-max池化層：對卷積層輸出的特征進行1-max池化，得到一個200維的中間結(jié)果；

全連接層：對上述中間結(jié)果連接一個大小為50的全連接層，對知識庫候選實體的詞向量加和平均也連接一個大小為50的全連接層，從而得到兩個50維的語義特征向量；

相似度計算：計算兩個語義特征向量的余弦相似度；

圖3是對圖1中實體分類階段中的步驟14的詳細流程描述：

步驟16是圖3的起始狀態(tài)圖；

步驟17是讀取文件系統(tǒng)中的訓練好的神經(jīng)網(wǎng)絡(luò)模型；

步驟18是讀取文本中待消歧實體和知識庫候選實體的樣本集合；

步驟19是將樣本集合輸入到卷積神經(jīng)網(wǎng)絡(luò)模型，得到語義特征向量后，遍歷知識庫候選實體集合，計算待消歧實體和每一個候選實體的語義特征向量的余弦相似度；

步驟20是輸出相似度最高的實體作為最終目標實體；

步驟21是圖3的結(jié)束狀態(tài)圖；

具體：1)從文件系統(tǒng)中讀取待消歧實體e的語義特征向量a；

2)從文件系統(tǒng)中讀取候選實體集合e＝{e1,e2,…,en}中的語義特征向量集合b＝{b1,b2,…,bn}；

3)遍歷候選實體集合，計算e和e中每一個特征向量的余弦相似度

4)選取相似度最大的實體作為最終預(yù)測結(jié)果；

5)結(jié)束。

綜上所述，本發(fā)明綜合利用詞向量、卷積神經(jīng)網(wǎng)絡(luò)的方法，分別對待消歧實體上下文和知識庫候選實體摘要信息構(gòu)造詞向量矩陣，輸入到卷積神經(jīng)網(wǎng)絡(luò)模型。訓練卷積神經(jīng)網(wǎng)絡(luò)模型，調(diào)整模型中的參數(shù)。在預(yù)測階段，輸出最相似的實體作為目標實體。解決了傳統(tǒng)的詞袋模型中存在詞匯鴻溝，從而語義表示能力不足的問題，進一步提高了實體消歧的準確率。

以上所述僅是本發(fā)明的優(yōu)選實施方式，應(yīng)當指出：對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張雷;高揚;唐馳;謝俊元
技術(shù)所有人：南京大學
我是此專利的發(fā)明人

上一篇：對語音進行翻譯的方法和裝置與流程
上一篇：一種基于個人專屬語料庫主動發(fā)起會話的方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

cnn卷積神經(jīng)網(wǎng)絡(luò)詳解相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)算法相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)代碼相關(guān)技術(shù)

全卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)圖像識別相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法與流程

一種基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)的實體消歧方法與流程