欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實體識別方法與流程

文檔序號:11276301閱讀:272來源:國知局
一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實體識別方法與流程

本發(fā)明涉及網(wǎng)絡(luò)文本的處理及分析,尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實體識別的方法。



背景技術(shù):

網(wǎng)絡(luò)使得信息的采集、傳播的速度和規(guī)模達(dá)到空前的水平,實現(xiàn)了全球的信息共享與交互,它已經(jīng)成為信息社會必不可少的基礎(chǔ)設(shè)施?,F(xiàn)代通信和傳播技術(shù),大大提高了信息傳播的速度和廣度。但與之俱來的問題和“副作用”是:洶涌而來的信息有時使人無所適從,從浩如煙海的信息海洋中迅速而準(zhǔn)確地獲取自己最需要的信息,變得非常困難。如何從海量的網(wǎng)絡(luò)文本中分析出互聯(lián)網(wǎng)用戶所關(guān)注的人物、地點、機(jī)構(gòu)等命名實體,成為網(wǎng)上營銷、群體情感分析等各種上層應(yīng)用提供重要的支持信息。這使得面向網(wǎng)絡(luò)文本的命名實體識別成為網(wǎng)絡(luò)數(shù)據(jù)處理與分析中的一項重要的核心技術(shù)。

人們處理命名實體識別的方法研究主要分為兩類,基于規(guī)則的方法(rule-based)和基于統(tǒng)計的方法(statistic-based)。隨著機(jī)器學(xué)習(xí)理論的不斷完善和計算性能的極大提高,基于統(tǒng)計學(xué)的方法更加受到人們青睞。

目前,命名實體識別應(yīng)用的統(tǒng)計模型方法主要包括:隱馬爾可夫模型、決策樹、最大熵模型、支持向量機(jī)、條件隨機(jī)場以及人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)在命名實體識別方面可以的到比條件隨機(jī)場、最大熵模型等模型取得更好的結(jié)果,但實用仍以條件隨機(jī)場、最大熵模型為主,如專利號cn201310182978.x使用條件隨機(jī)場并結(jié)合命名實體庫提出了對微博文本的命名實體識別方法及裝置、專利號cn200710098635.x提出了一種利用字特征使用最大熵模型建模的命名實體識別方法。人工神經(jīng)網(wǎng)絡(luò)難以實用的原因在于人工神經(jīng)網(wǎng)絡(luò)在命名實體識別領(lǐng)域常需要將詞轉(zhuǎn)化成詞向量空間中的向量,因此對于新生詞匯無法得到對應(yīng)的向量,所以無法得到大規(guī)模的實際應(yīng)用。

基于上述現(xiàn)狀,針對網(wǎng)絡(luò)文本的命名實體識別主要存在以下問題:第一,網(wǎng)絡(luò)文本因存在大量網(wǎng)絡(luò)詞匯、新生詞匯、錯別字,無法訓(xùn)練出包含所有詞的詞向量空間以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。第二,網(wǎng)絡(luò)文本存在的語言形式任意、語法結(jié)構(gòu)不規(guī)范、錯別字多等現(xiàn)象導(dǎo)致其命名實體識別準(zhǔn)確率下降。



技術(shù)實現(xiàn)要素:

發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種增量提取詞特征而不需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)、同時概率消歧識別的基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實體識別方法,該方法通過訓(xùn)練神經(jīng)網(wǎng)絡(luò),獲取神經(jīng)網(wǎng)絡(luò)對詞語所屬命名實體類型的預(yù)測概率矩陣,對神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測矩陣再以概率模型進(jìn)行消歧,提高了網(wǎng)絡(luò)文本命名實體識別的準(zhǔn)確性和準(zhǔn)確率。

技術(shù)方案:為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:

一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實體識別方法,將無標(biāo)簽語料分詞,利用word2vec提取詞向量,將樣本語料轉(zhuǎn)換成詞特征矩陣并窗口化,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在神經(jīng)網(wǎng)絡(luò)的輸出層加入softmax函數(shù)做歸一化處理,得到每個詞對應(yīng)命名實體類別的概率矩陣。將概率矩陣重新窗口化,利用條件隨機(jī)場模型進(jìn)行消歧,得到最后的命名實體標(biāo)注。

具體包括以下步驟:

步驟1,通過網(wǎng)頁爬蟲獲取無標(biāo)簽語料,從語料庫獲取有命名實體標(biāo)注的樣本語料,利用自然語言工具對無標(biāo)簽語料進(jìn)行分詞。

步驟2,對已分詞好的無標(biāo)簽語料和樣本語料通過word2vec工具進(jìn)行詞向量空間的訓(xùn)練。

步驟3,將樣本語料中的文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,并對詞向量窗口化,將窗口w乘詞向量長度d的二維矩陣作為神經(jīng)網(wǎng)絡(luò)的輸入。將樣本語料中的標(biāo)簽轉(zhuǎn)成one-hot形式作為神經(jīng)網(wǎng)絡(luò)的輸出。神經(jīng)網(wǎng)絡(luò)的輸出層采用softmax函數(shù)進(jìn)行歸一化,使神經(jīng)網(wǎng)絡(luò)的分類結(jié)果為詞匯屬于非命名實體及各類命名實體的概率,調(diào)整神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)、深度、節(jié)點數(shù)、步長、激活函數(shù)、初始值參數(shù)以及選取激活函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

步驟4,將神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測矩陣重新窗口化,將待標(biāo)注詞的上下文預(yù)測信息作為條件隨機(jī)場模型中待標(biāo)注詞的實際分類的關(guān)聯(lián)點,根據(jù)訓(xùn)練語料利用em算法,計算出各邊的期望值,訓(xùn)練出對應(yīng)的條件隨機(jī)場模型。

步驟5,識別時,首先將待識別文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,若word2vec模型中不包含對應(yīng)的訓(xùn)練詞匯,則采用增量學(xué)習(xí)、獲取詞向量、回溯詞向量空間的方法將該詞轉(zhuǎn)換為詞向量,并對詞向量窗口化,將窗口w乘詞向量長度d的二維矩陣作為神經(jīng)網(wǎng)絡(luò)的輸入。然后將神經(jīng)網(wǎng)絡(luò)得到的預(yù)測矩陣重新窗口化放入訓(xùn)練好的條件隨機(jī)場模型中進(jìn)行消歧,獲得待識別文本中最終的命名實體標(biāo)注。

優(yōu)選的:所述word2vec工具的參數(shù)如下:詞向量長度選擇200,迭代次數(shù)25次,初始步長0.025,最小步長0.0001,選用cbow模型。

優(yōu)選的:所述神經(jīng)網(wǎng)絡(luò)的參數(shù)如下:隱藏層2層,隱藏節(jié)點數(shù)150個,步長0.01,batchsize選取40,激活函數(shù)使用sigmoid函數(shù)。

優(yōu)選的:將樣本語料中的標(biāo)簽轉(zhuǎn)成one-hot形式的方法:將樣本語料中的”/o”、”/n”、”/p”標(biāo)簽相應(yīng)的轉(zhuǎn)化為命名實體標(biāo)簽”/org-b”、”/org-i”、”/per-b”、”/per-i”、”/loc-b”、”/loc-i”,在轉(zhuǎn)換成one-hot的形式。

優(yōu)選的:詞向量窗口化的窗口大小為5。

優(yōu)選的:神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,從樣本數(shù)據(jù)中抽取十分之一的詞匯不參與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,作為神經(jīng)網(wǎng)絡(luò)的衡量標(biāo)準(zhǔn)。

本發(fā)明相比現(xiàn)有技術(shù),具有以下有益效果:

可以增量提取出不需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)的詞向量,利用神經(jīng)網(wǎng)絡(luò)預(yù)測并用概率模型消歧,使得該方法在網(wǎng)絡(luò)文本的命名實體識別中擁有更好的實用性、準(zhǔn)確性和準(zhǔn)確率。在網(wǎng)絡(luò)文本的命名實體識別任務(wù)中,本發(fā)明根據(jù)其存在網(wǎng)絡(luò)詞匯、新生詞匯的特性,提供了一種不改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的詞向量增量學(xué)習(xí)方法,為應(yīng)對網(wǎng)絡(luò)文本中語法結(jié)構(gòu)不規(guī)范、錯別字多的問題,采用了概率消歧的方法。因此本發(fā)明的方法在網(wǎng)絡(luò)文本命名實體識別任務(wù)中可產(chǎn)生較高的準(zhǔn)確率。

附圖說明

圖1是根據(jù)本發(fā)明訓(xùn)練一個基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實體識別裝置的流程圖。

圖2是根據(jù)本發(fā)明將詞轉(zhuǎn)化為詞特征的流程圖。

圖3是根據(jù)本發(fā)明文本處理以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的示意圖。

具體實施方式

下面結(jié)合附圖和具體實施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。

一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實體識別方法,將無標(biāo)簽語料分詞,利用word2vec提取詞向量,將樣本語料轉(zhuǎn)換成詞特征矩陣并窗口化,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在神經(jīng)網(wǎng)絡(luò)的輸出層加入softmax函數(shù)做歸一化處理,得到每個詞對應(yīng)命名實體類別的概率矩陣。將概率矩陣重新窗口化,利用條件隨機(jī)場模型進(jìn)行消歧,得到最后的命名實體標(biāo)注。

具體包括以下步驟:

步驟1,通過網(wǎng)頁爬蟲無標(biāo)簽網(wǎng)絡(luò)文本,并從各語料庫下載有命名實體標(biāo)注的語料作為樣本語料,利用自然語言工具對無標(biāo)簽語料進(jìn)行分詞。

步驟2,對已分詞好的無標(biāo)簽語料和樣本語料通過word2vec工具進(jìn)行詞向量空間的訓(xùn)練。

步驟3,將樣本語料中的文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,作為神經(jīng)網(wǎng)絡(luò)的輸入。將樣本語料中的標(biāo)簽轉(zhuǎn)成one-hot形式作為神經(jīng)網(wǎng)絡(luò)的輸出,因為在文本處理任務(wù)中,一個命名實體可能被分割成多個詞匯,所以為了保證識別出命名實體具完整性,標(biāo)注形式采用iob模式進(jìn)行標(biāo)注。

詞匯為何類命名實體不能僅憑詞匯本身判定,還需要依靠詞匯所處上下文信息決定,因此在建立神經(jīng)網(wǎng)絡(luò)時,我們引入窗口的概念,即在判斷詞匯的時候,將詞匯及其固定長度上下文的特征信息都作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸入不再是詞特征向量的長度d,而是窗口w乘詞特征長度d的二維矩陣。

神經(jīng)網(wǎng)絡(luò)的輸出層采用softmax函數(shù)進(jìn)行歸一化,使神經(jīng)網(wǎng)絡(luò)的分類結(jié)果為詞匯屬于非命名實體及各類命名實體的概率。調(diào)整神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)、深度、節(jié)點數(shù)、步長、激活函數(shù)、初始值參數(shù)以及選取激活函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

步驟4,將神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測矩陣重新窗口化,將待標(biāo)注詞的上下文預(yù)測信息作為條件隨機(jī)場模型中待標(biāo)注詞的實際分類的關(guān)聯(lián)點,根據(jù)訓(xùn)練語料利用em算法,計算出各邊的期望值,訓(xùn)練出對應(yīng)的條件隨機(jī)場模型。

步驟5,識別時,首先將待識別文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,若word2vec模型中不包含對應(yīng)的訓(xùn)練詞匯,則采用增量學(xué)習(xí)、獲取詞向量、回溯詞向量空間的方法將該詞轉(zhuǎn)換為詞向量。

(1)將待轉(zhuǎn)換詞匯在已訓(xùn)練的詞向量空間中匹配。

(2)若待轉(zhuǎn)換詞匯在詞向量空間中能夠匹配,則直接將詞匯轉(zhuǎn)換成對應(yīng)詞向量。

(3)若word2vec模型中不包含對應(yīng)詞匯,則備份詞向量空間,防止增量學(xué)習(xí)產(chǎn)生的詞空間偏移導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型精度的下降,載入word2vec模型,獲取不匹配詞匯所在句子獲取不匹配詞匯所在句子,將其放入word2vec模型中進(jìn)行增量訓(xùn)練,并獲取詞匯的詞向量,利用備份的詞向量空間,回溯模型。

對詞向量窗口化,將窗口w乘詞向量長度d的二維矩陣作為神經(jīng)網(wǎng)絡(luò)的輸入。然后將神經(jīng)網(wǎng)絡(luò)得到的預(yù)測矩陣重新窗口化放入訓(xùn)練好的條件隨機(jī)場模型中進(jìn)行消歧,獲得待識別文本中最終的命名實體標(biāo)注。

實例

從搜狗新聞網(wǎng)站爬蟲網(wǎng)絡(luò)文本,從數(shù)據(jù)堂語料庫下載有命名實體語料作為樣本語料,利用自然語言工具對爬蟲網(wǎng)絡(luò)文本進(jìn)行分詞,將分好詞的語料與樣本語料利用python中的gensim包通過word2vec模型進(jìn)行詞向量空間的訓(xùn)練,具體參數(shù)如下,詞向量長度選擇200,迭代次數(shù)25次,初始步長0.025,最小步長0.0001,選用cbow模型。

將樣本語料的文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,若word2vec模型中不包含對應(yīng)的訓(xùn)練詞匯,則采用增量學(xué)習(xí)、獲取詞向量、回溯詞向量空間的方法將該詞轉(zhuǎn)換為詞向量。作為每個詞的特征。將數(shù)據(jù)堂提供樣本語料中的”/o”、”/n”、”/p”等標(biāo)簽相應(yīng)的轉(zhuǎn)化為命名實體標(biāo)簽”/org-b”、”/org-i”、”/per-b”、”/per-i”、”/loc-b”、”/loc-i”等,并轉(zhuǎn)換成one-hot的形式作為神經(jīng)網(wǎng)絡(luò)的輸出。

設(shè)定窗口大小為5,即在考慮當(dāng)前詞的命名實體類別時,將其本身和前后各兩個詞的詞特征作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸入為batchsize*1000的向量,從樣本數(shù)據(jù)中抽取十分之一的詞匯不參與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,作為神經(jīng)網(wǎng)絡(luò)的衡量標(biāo)準(zhǔn),神經(jīng)網(wǎng)絡(luò)的輸出層采用softmax函數(shù)進(jìn)行歸一化,使神經(jīng)網(wǎng)絡(luò)的分類結(jié)果為詞匯屬于非命名實體及各類命名實體的概率,暫時取概率最大值作為最終分類結(jié)果。調(diào)整神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)、深度、節(jié)點數(shù)、步長、激活函數(shù)、初始值等參數(shù),使神經(jīng)網(wǎng)絡(luò)取得較為良好的精確度,最終具體參數(shù)如下,隱藏層2層,隱藏節(jié)點數(shù)150個,步長0.01,batchsize選取40,激活函數(shù)使用sigmoid時可以產(chǎn)生良好的分類效果,準(zhǔn)確度可以達(dá)到99.83%,最具代表性的人名、地名、機(jī)構(gòu)名的f值可以達(dá)到93.4%、84.2%、80.4%。

將神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測矩陣取概率最大值作為最終分類結(jié)果的步驟移除,直接將概率矩陣重新窗口化,將待標(biāo)注詞的上下文預(yù)測信息作為條件隨機(jī)場模型中待標(biāo)注詞的實際分類的關(guān)聯(lián)點,根據(jù)訓(xùn)練語料利用em算法,計算出條件隨機(jī)場各邊的期望值,訓(xùn)練出對應(yīng)的條件隨機(jī)場模型,在使用條件隨機(jī)場進(jìn)行消歧后人名、地名、機(jī)構(gòu)名的f值可以提升至94.8%、85.0%、82.0%。

通過上文的具體實施例可以看出,與傳統(tǒng)的有監(jiān)督的命名實體識別方法相比,本發(fā)明提供的基于神經(jīng)網(wǎng)絡(luò)概率消歧的文本命名實體識別方法,使用了一種可增量提取詞特征而不產(chǎn)生詞向量空間偏移的詞向量轉(zhuǎn)換方法,使神經(jīng)網(wǎng)絡(luò)可以應(yīng)用在新詞、錯別字多的網(wǎng)絡(luò)文本中。而且,本發(fā)明對神經(jīng)網(wǎng)絡(luò)輸出的概率矩陣重新窗口化,采用條件隨機(jī)場模型進(jìn)行上下文消歧,可以較好的解決網(wǎng)絡(luò)文本中錯別字多、語法不規(guī)范的現(xiàn)象。

以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
磴口县| 荆门市| 孝昌县| 江都市| 根河市| 荥经县| 海林市| 梓潼县| 凯里市| 江陵县| 普定县| 望都县| 平陆县| 河西区| 霍邱县| 汪清县| 和林格尔县| 河西区| 浦县| 黄浦区| 西贡区| 惠安县| 万宁市| 巧家县| 浮山县| 松原市| 和林格尔县| 婺源县| 濮阳县| 新蔡县| 浮山县| 黑水县| 湄潭县| 饶阳县| 保德县| 屏南县| 仁布县| 齐齐哈尔市| 曲靖市| 中西区| 云南省|