一種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,特別涉及一種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng),所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的企業(yè)名稱標(biāo)注訓(xùn)練樣本來(lái)訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò),所述雙向遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別出待處理文本中的企業(yè)名稱,并將不屬于現(xiàn)有企業(yè)名稱的名稱提取出來(lái)。本發(fā)明系統(tǒng)通過(guò)對(duì)文本的基本元素,比如字、詞、標(biāo)點(diǎn)符號(hào)等進(jìn)行特征的自動(dòng)學(xué)習(xí)并且應(yīng)用了雙向傳播的RNN使得對(duì)待識(shí)別的自然語(yǔ)言序列的分類判斷結(jié)果依賴了上下文信息,提取和判斷的準(zhǔn)備率更高,本發(fā)明系統(tǒng)通過(guò)已有數(shù)據(jù)特點(diǎn)來(lái)發(fā)現(xiàn)新的企業(yè)實(shí)體名稱,在大數(shù)據(jù)分析領(lǐng)域特別是以企業(yè)為分析主體的數(shù)據(jù)分析領(lǐng)域中具有重要的應(yīng)用價(jià)值。
【專利說(shuō)明】
一種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,特別涉及一種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了大量的、公開(kāi)的網(wǎng)頁(yè)數(shù)據(jù),也因此催發(fā)了各種基于 大數(shù)據(jù)技術(shù)的新興產(chǎn)業(yè),比如互聯(lián)網(wǎng)醫(yī)療、互聯(lián)網(wǎng)教育、企業(yè)或者個(gè)人征信等。這些互聯(lián)網(wǎng) 產(chǎn)業(yè)的興起于繁榮離不開(kāi)大量的信息數(shù)據(jù)分析,而信息分析的價(jià)值在于準(zhǔn)確和敏銳,敏銳 的分析要求及時(shí)快速的發(fā)現(xiàn)新的信息;但是直接從網(wǎng)頁(yè)上獲取到數(shù)據(jù)大部分都是非結(jié)構(gòu)化 的,為了使用這些數(shù)據(jù),數(shù)據(jù)清洗工作成了各大公司耗費(fèi)時(shí)間精力最多的地方。而數(shù)據(jù)清洗 當(dāng)中特定信息提取,特別是命名實(shí)體的提取又是經(jīng)常發(fā)生的事情,比如做企業(yè)征信,最常見(jiàn) 的任務(wù)就是從大篇幅文本當(dāng)中提取公司的名字。
[0003] 除了常見(jiàn)的按照"省市+關(guān)鍵字+行業(yè)+組織形式"的規(guī)則來(lái)命名之外,還存在大量 的例外,比如公司名沒(méi)有使用省市作為開(kāi)頭,又或者在非正式文本里,公司名可能以簡(jiǎn)寫(xiě)、 縮寫(xiě)的方式出現(xiàn),這直接導(dǎo)致了使用傳統(tǒng)的方式來(lái)進(jìn)行的信息解析的召回率不高。此外隨 著市場(chǎng)經(jīng)濟(jì)的繁榮,新增加的企業(yè)主體不斷出現(xiàn),新的市場(chǎng)主體的也會(huì)隨之出現(xiàn)在各種各 樣的網(wǎng)絡(luò)數(shù)據(jù)或媒體新聞中,從海量的網(wǎng)頁(yè)資訊中快速準(zhǔn)確的發(fā)現(xiàn)和提取出新的機(jī)構(gòu)名 稱,對(duì)于相關(guān)問(wèn)題分析的及時(shí)性具有特別重要的意義。
[0004] 傳統(tǒng)的自然語(yǔ)言處理方法使用條件隨機(jī)場(chǎng)(CRF)對(duì)文本進(jìn)行序列建模,進(jìn)行文本 分析識(shí)別和發(fā)現(xiàn)公司名。使用條件隨機(jī)場(chǎng),首先需要根據(jù)待識(shí)別實(shí)體的特點(diǎn)來(lái)設(shè)計(jì)構(gòu)建特 征模板,特征模板包括指定窗口大小上下文的一階詞或者多階詞組,詞的前綴、后綴,詞性 標(biāo)注等狀態(tài)特征;特征模板的構(gòu)造非常耗時(shí)耗力,識(shí)別結(jié)果對(duì)特征模板的依賴程度極大,而 手動(dòng)設(shè)置的特征模板往往僅依據(jù)部分樣本的特點(diǎn),通用性差;而且通常只能用到局部的上 下文信息,各個(gè)特征模板的使用也是相互獨(dú)立的,預(yù)測(cè)不能依賴更長(zhǎng)的歷史狀態(tài)信息,也無(wú) 法利用更長(zhǎng)未來(lái)的信息反饋來(lái)糾正可能的歷史錯(cuò)誤;預(yù)測(cè)過(guò)程費(fèi)時(shí)費(fèi)力,預(yù)測(cè)結(jié)果難以實(shí) 現(xiàn)全局最優(yōu)。
[0005] 為了及時(shí)敏銳的在海量信息中分析出新的信息主體,研發(fā)一套可以及時(shí)發(fā)現(xiàn)和搜 集新的企業(yè)名稱的系統(tǒng)是很有價(jià)值的。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,本發(fā)明提供一種企業(yè)實(shí)體 名稱分析識(shí)別系統(tǒng),利用已有的企業(yè)名稱數(shù)據(jù)標(biāo)注樣本來(lái)訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò),通 過(guò)遞歸神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)文本中的企業(yè)主體名稱進(jìn)行預(yù)測(cè),發(fā)現(xiàn)待處理文本中的企業(yè)名稱,并 進(jìn)一步提取出新的企業(yè)名稱。
[0007] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
[0008] -種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng),所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,所述系 統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的企業(yè)名稱標(biāo)注的訓(xùn)練樣本來(lái)訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò), 訓(xùn)練完成后的雙向遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別出待識(shí)別文本中的企業(yè)名稱,并將不屬于現(xiàn)有名稱的 企業(yè)名稱作為新的企業(yè)名稱提取出來(lái)。所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的企業(yè)名 稱標(biāo)注訓(xùn)練樣本時(shí),將樣本中的企業(yè)名稱分段標(biāo)注為:開(kāi)始部分、中間部分和結(jié)束部分,將 不屬于企業(yè)名稱的標(biāo)注為無(wú)關(guān)部分。
[0009] 具體的:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,采用如下向前算法公式:
[0010]
[0011]
[0012]
[0013]
[0014]
[0015]
[0016] I為向量化的字或者詞的維度,Η為隱含層的神經(jīng)元個(gè)數(shù),K是輸出層神經(jīng)元的個(gè) 數(shù),其中4為正向輸入時(shí)t時(shí)刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入,%為反向輸 入時(shí)t時(shí)刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入,$為正向輸入時(shí)t時(shí)刻隱含層神 經(jīng)元的輸出,$為反向輸入時(shí)t時(shí)刻隱含層神經(jīng)元的輸出,θ()為為隱含層神經(jīng)元的非線性 激勵(lì)函數(shù),式為t時(shí)刻輸出層神經(jīng)元的輸入,Μ為t時(shí)刻輸出層神經(jīng)元的輸出,%為一個(gè)概 率值,表示第k個(gè)神經(jīng)元的輸出值相對(duì)于K個(gè)神經(jīng)元輸出值總和的比值;$和6^是各個(gè)維度 值均為〇的向量,其中T為輸入文字序列的長(zhǎng)度。
[0017]所述雙向遞歸神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)各時(shí)刻輸入向量數(shù)據(jù)的分類時(shí),結(jié)合了正反向傳播 時(shí)該時(shí)刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出信號(hào);正反向傳播時(shí)各個(gè)時(shí)刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng) 元的輸入信號(hào)除了包含向量化的字、詞信號(hào)以外還包括上一時(shí)刻隱含層神經(jīng)元的輸出信 號(hào)。
[0018] 所述系統(tǒng)將雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果中相鄰的屬于企業(yè)名稱開(kāi)始部分、K個(gè)中 間部分和結(jié)束部分對(duì)應(yīng)的字詞作為企業(yè)名稱提取出來(lái),其中K為多0的整數(shù)。
[0019] 進(jìn)一步的,所述系統(tǒng)包括分詞模塊,所述分詞模塊對(duì)現(xiàn)有企業(yè)名稱和待處理文本 進(jìn)行分詞,所述待處理文本包括訓(xùn)練樣本和待識(shí)別文本。
[0020] 作為一種優(yōu)選,所述分詞模塊為stanford-segmenter分詞器。
[0021] 進(jìn)一步的,所述系統(tǒng)包括詞典映射模塊,所述詞典映射模塊將待識(shí)別文本中經(jīng)過(guò) 分詞處理后的字、詞或者標(biāo)點(diǎn)轉(zhuǎn)化成向量數(shù)據(jù)后輸入所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中。
[0022] 進(jìn)一步的、所述遞歸神經(jīng)網(wǎng)絡(luò)模塊為加載有上述功能程序的計(jì)算機(jī)、服務(wù)器或者 移動(dòng)智能終立而。
[0023] 進(jìn)一步的、所述系統(tǒng)為加載有上述程序功能的計(jì)算機(jī)、服務(wù)器或者移動(dòng)智能終端。
[0024] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供一種企業(yè)實(shí)體名稱分析識(shí)別系 統(tǒng),利用已有的企業(yè)名稱數(shù)據(jù)標(biāo)注樣本來(lái)訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò),通過(guò)遞歸神經(jīng)網(wǎng)絡(luò) 來(lái)對(duì)文本中的企業(yè)主體名稱進(jìn)行預(yù)測(cè),發(fā)現(xiàn)待處理文本中的企業(yè)名稱,并進(jìn)一步提取出新 的企業(yè)名稱。使用時(shí)在一次向前算法中先將文本序列從頭至尾依次正向輸入所述遞歸神經(jīng) 網(wǎng)絡(luò)中,再?gòu)奈仓令^反向輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中;在正向和反向輸入的過(guò)程中各時(shí)刻 雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號(hào)還包括上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號(hào)。這樣在預(yù)測(cè)企業(yè) 主體名稱時(shí)既依賴了前文信息又依賴了后文信息,預(yù)測(cè)的結(jié)果實(shí)現(xiàn)了全局優(yōu)化,識(shí)別的可 靠性更高。而且通過(guò)雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式,無(wú)需手動(dòng)設(shè)置特征模板,節(jié)省人力且通 用性更好,可以在各種類型的文本中發(fā)現(xiàn)并提取企業(yè)名稱,識(shí)別的召回率較傳統(tǒng)基于規(guī)則 的處理方法顯著提高。本發(fā)明在發(fā)現(xiàn)企業(yè)名稱的基礎(chǔ)上,對(duì)比現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù),將不屬 于現(xiàn)有數(shù)據(jù)的企業(yè)名稱確定為新發(fā)現(xiàn)的企業(yè)名稱,添加到企業(yè)名稱數(shù)據(jù)庫(kù)中,利用本發(fā)明 系統(tǒng)在海量互聯(lián)網(wǎng)數(shù)據(jù)信息中快速的發(fā)現(xiàn)新的企業(yè)名稱,為相關(guān)信息的及時(shí)捕捉提供了有 力工具。
【附圖說(shuō)明】:
[0025] 圖1為本企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng)功能模塊連接示意圖。
[0026] 圖2為本企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng)的實(shí)現(xiàn)企業(yè)實(shí)體名稱識(shí)別的步驟示意圖。
[0027] 圖3為本企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng)實(shí)施例1的實(shí)現(xiàn)信號(hào)流程示意圖。
[0028]應(yīng)該明白本發(fā)明說(shuō)明書(shū)附圖僅為示意性的,不代表真實(shí)的實(shí)施方式。
【具體實(shí)施方式】
[0029] 下面結(jié)合試驗(yàn)例及【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解 為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本
【發(fā)明內(nèi)容】
所實(shí)現(xiàn)的技術(shù)均屬于本 發(fā)明的范圍。
[0030] 提供一種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng)。本發(fā)明系統(tǒng)利用已有的企業(yè)名稱數(shù)據(jù)標(biāo)注 樣本來(lái)訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)文本中的企業(yè)主體名稱進(jìn)行預(yù) 測(cè),發(fā)現(xiàn)待處理文本中的企業(yè)名稱,在分析出企業(yè)名稱的基礎(chǔ)上,對(duì)比現(xiàn)有企業(yè)名稱庫(kù),將 現(xiàn)有企業(yè)名稱中未收錄的名稱作為新的企業(yè)名稱存儲(chǔ)于數(shù)據(jù)庫(kù)中。本發(fā)明系統(tǒng),使用現(xiàn)有 的企業(yè)名稱數(shù)據(jù)庫(kù)中的數(shù)據(jù)來(lái)自動(dòng)標(biāo)注訓(xùn)練樣本,極大的節(jié)省了神經(jīng)網(wǎng)絡(luò)使用過(guò)程中手動(dòng) 標(biāo)注樣本的時(shí)間成本,使得神經(jīng)網(wǎng)絡(luò)的使用過(guò)程更加簡(jiǎn)化。不僅如此本發(fā)明系統(tǒng)通過(guò)雙向 遞歸神經(jīng)網(wǎng)絡(luò)模塊來(lái)預(yù)測(cè)企業(yè)主體名稱時(shí)既依賴了前文信息又依賴了后文信息,預(yù)測(cè)的結(jié) 果實(shí)現(xiàn)了全局優(yōu)化,識(shí)別的可靠性更高,且無(wú)需手動(dòng)設(shè)置特征模板,可以在各種類型的文本 中發(fā)現(xiàn)并提取新的企業(yè)名稱,為相關(guān)信息的及時(shí)分析提供技術(shù)支撐。
[0031] -種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng),所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,所述系 統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的企業(yè)名稱標(biāo)注的訓(xùn)練樣本來(lái)訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò), 訓(xùn)練完成后的雙向遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別出待識(shí)別文本中的企業(yè)名稱,并將不屬于現(xiàn)有名稱的 企業(yè)名稱作為新的企業(yè)名稱提取出來(lái)。所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的企業(yè)名 稱標(biāo)注訓(xùn)練樣本時(shí),將樣本中的企業(yè)名稱分段標(biāo)注為:開(kāi)始部分、中間部分和結(jié)束部分,將 不屬于企業(yè)名稱的標(biāo)注為無(wú)關(guān)部分。所述系統(tǒng)將雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果中將相鄰的屬 于企業(yè)名稱開(kāi)始部分、K個(gè)中間部分和結(jié)束部分對(duì)應(yīng)的字詞作為企業(yè)名稱提取出來(lái),其中K 為彡0的整數(shù)。
[0032]本發(fā)明系統(tǒng)實(shí)現(xiàn)新企業(yè)實(shí)體名稱自動(dòng)分析,包含如圖2所述的以下步驟:
[0033] (1)選取一定數(shù)量(比如5000件)的包含企業(yè)名稱的文本,并利用現(xiàn)有的企業(yè)數(shù)據(jù) 對(duì)文本中的企業(yè)名稱字段進(jìn)行自動(dòng)標(biāo)注,并根據(jù)企業(yè)名稱的具體情況,將企業(yè)名稱分段標(biāo) 注為開(kāi)始部分、中間部分和結(jié)束部分。將其他不屬于企業(yè)名稱的部分標(biāo)注為無(wú)關(guān)部分。具體 的,將文本中的企業(yè)或者組織名稱分段標(biāo)注為B(開(kāi)始部分)、M(中間部分)和E(結(jié)束部分), 將其他不屬于企業(yè)或者組織機(jī)構(gòu)的文字標(biāo)注為N(非企業(yè)名稱),使用字母或者數(shù)字來(lái)標(biāo)記 文字序列,簡(jiǎn)單且易于處理,為后續(xù)相關(guān)序列的操作提供便利。使用現(xiàn)有企業(yè)數(shù)據(jù)來(lái)自動(dòng)標(biāo) 注樣本,進(jìn)而進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,極大的節(jié)省了神經(jīng)網(wǎng)絡(luò)在使用過(guò)程中人工標(biāo)注樣的人 力和時(shí)間成本,簡(jiǎn)化了神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用過(guò)程。
[0034] (2)將經(jīng)過(guò)人工標(biāo)記的訓(xùn)練樣本中的文字序列依次正向和反向輸入到所述雙向遞 歸神經(jīng)網(wǎng)絡(luò)中,訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò);(所述正向輸入是指將序列中的字或者詞,按 照位置的前后順利依次輸入對(duì)應(yīng)時(shí)刻的遞歸神經(jīng)網(wǎng)絡(luò)中,所述反向輸入是指將序列中的字 或者詞倒序依次輸入對(duì)應(yīng)時(shí)刻的遞歸神經(jīng)網(wǎng)中)所述雙向歸神經(jīng)網(wǎng)絡(luò)每個(gè)當(dāng)前時(shí)刻的輸入 信號(hào)還包括上一時(shí)刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號(hào),正向和反向信息傳輸入都結(jié)束 后,停止遞歸。
[0035] (3)將待分析文檔中的文字序列輸入到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)所述雙向 遞歸神經(jīng)網(wǎng)絡(luò)對(duì)輸入的文字序列進(jìn)行分類,分別識(shí)別出待提取文字序列的類型(N、B、M或者 E),將分類結(jié)果中兩個(gè)相鄰N之間的Β Μ E序列對(duì)應(yīng)的文字作為企業(yè)名稱整體提取出來(lái)。
[0036] (4)在實(shí)現(xiàn)待識(shí)別文本企業(yè)名提取的基礎(chǔ)上,將提取出來(lái)的企業(yè)名稱與現(xiàn)有企業(yè) 名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的企業(yè)名稱進(jìn)行對(duì)比,將數(shù)據(jù)庫(kù)中未收錄的企業(yè)名稱作為新的企業(yè)名稱 保存起來(lái),供數(shù)據(jù)分析所用。具體的:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,采用如下向前算法公式:
[0037]
[0038]
[0039]
[0040]
[0041]
[0042]
[0043] I為文字序列中的字或者詞向量化后的維度,Η為隱含層的神經(jīng)元個(gè)數(shù),K是輸出層 神經(jīng)元的個(gè)數(shù),其中%為正向輸入(文字序列正向輸入神經(jīng)網(wǎng)絡(luò))時(shí),t時(shí)刻所述雙向遞歸神 經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入(本發(fā)明系統(tǒng)中所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的時(shí)刻序號(hào)與輸入文 字序列的位置序號(hào)相對(duì)應(yīng),比如所文字序列中處于第3位置的字或者詞,對(duì)應(yīng)輸入第3時(shí)刻 的雙向遞歸神經(jīng)網(wǎng)絡(luò)中),<為反向輸入(文字序列反向輸入神經(jīng)網(wǎng)絡(luò))時(shí),t時(shí)刻所述雙向 ? 遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入,為正向輸入時(shí)t時(shí)刻隱含層神經(jīng)元的輸出,為 h η 反向輸入時(shí)t時(shí)刻隱含層神經(jīng)元的輸出,θ()為為隱含層神經(jīng)元的非線性激勵(lì)函數(shù),ai為t時(shí) 刻輸出層神經(jīng)元的輸入,可以看出4結(jié)合了 t時(shí)刻正向輸入時(shí)隱含層神經(jīng)元的輸出信號(hào)和 反向輸入時(shí)的隱含層神經(jīng)元的輸出信號(hào)),< 的計(jì)算結(jié)果一直向前傳播直到所述雙向遞歸 神經(jīng)網(wǎng)絡(luò)輸出該時(shí)刻的分類結(jié)果;這樣在計(jì)算當(dāng)前時(shí)刻對(duì)應(yīng)字或者詞的分類結(jié)果時(shí)既結(jié)合 了歷史序列信息又結(jié)合了未來(lái)序列信息,依賴了整個(gè)文本的上下文信息而非局部信息,從 而使得預(yù)測(cè)結(jié)果達(dá)到了全局最優(yōu)。>'?為t時(shí)刻輸出層神經(jīng)元的輸出,^為一個(gè)概率值,表示 第k個(gè)神經(jīng)元的輸出值相對(duì)于Κ個(gè)神經(jīng)元輸出值總和的比值,通常取最大的神經(jīng)元對(duì)應(yīng)的 分類為該時(shí)刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的最終分類。3和 6^是各個(gè)維度值均為〇的向 量,τ為輸入序列的長(zhǎng)度。
[0044] 本發(fā)明系統(tǒng)使用雙向遞歸神經(jīng)網(wǎng)絡(luò)的方式在預(yù)測(cè)企業(yè)名稱時(shí),在一次向前算法中 先將文本序列從頭至尾依次正向輸入所述遞歸神經(jīng)網(wǎng)絡(luò)中,再?gòu)奈仓令^反向輸入到所述遞 歸神經(jīng)網(wǎng)絡(luò)中;在正向和反向輸入的過(guò)程中各時(shí)刻雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號(hào)包括該時(shí) 刻向量化的字或者詞信號(hào)和上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號(hào),僅在反向輸入時(shí)所述雙向 遞歸神經(jīng)網(wǎng)絡(luò)才輸出該時(shí)刻對(duì)應(yīng)字或者詞的分類結(jié)果。這樣在預(yù)測(cè)企業(yè)主體名稱時(shí)既依賴 了前文信息又依賴了后文信息,預(yù)測(cè)的結(jié)果為實(shí)現(xiàn)了全局優(yōu)化,識(shí)別的可靠性更高。而且通 過(guò)雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式,無(wú)需手動(dòng)設(shè)置特征模板,節(jié)省人力且通用性更好,可以在 各種類型的文本中發(fā)現(xiàn)并提取企業(yè)名稱,識(shí)別的召回率較傳統(tǒng)基于規(guī)則的處理方法顯著提 尚。
[0045] 進(jìn)一步的,本發(fā)明采用上述向前算法在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中來(lái)逐層傳輸運(yùn)算 數(shù)據(jù),在輸出層獲取到識(shí)別(預(yù)測(cè))數(shù)據(jù),當(dāng)預(yù)測(cè)結(jié)果與訓(xùn)練樣本的標(biāo)注結(jié)果具有偏差時(shí),通 過(guò)神經(jīng)網(wǎng)絡(luò)中經(jīng)典的誤差反向傳播算法來(lái)調(diào)整神經(jīng)網(wǎng)絡(luò)中的各個(gè)權(quán)重,誤差反向傳播方法 將誤差逐級(jí)反向傳播分?jǐn)偟礁鲗拥乃猩窠?jīng)元,獲得各層神經(jīng)元的誤差信號(hào),進(jìn)而修正各 神經(jīng)元的權(quán)重。通過(guò)向前算法逐層傳輸運(yùn)算數(shù)據(jù),并通過(guò)向后算法來(lái)逐漸修改各神經(jīng)元的 權(quán)重的過(guò)程就是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程;重復(fù)上述過(guò)程,直到預(yù)測(cè)結(jié)果的正確率達(dá)到設(shè)定的 閾值,停止訓(xùn)練,此時(shí)可認(rèn)為所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模型已經(jīng)訓(xùn)練完成。
[0046] 進(jìn)一步的,所述系統(tǒng)包括分詞模塊,所述分詞模塊對(duì)現(xiàn)有企業(yè)名稱和待處理文本 進(jìn)行分詞,所述待處理文本包括訓(xùn)練樣本和待識(shí)別文本。
[0047] 作為一種優(yōu)選,所述分詞模塊為stanford-segmenter分詞器。目前可用的分詞工 具很多比如說(shuō):stanford-segmenter分詞器、ICTCLAS、盤(pán)古分詞、庖丁分詞器......通過(guò)分詞 將較長(zhǎng)的文本內(nèi)容分解成相對(duì)獨(dú)立的字詞單元,使待處理文本內(nèi)容離散化、序列化,為遞歸 神經(jīng)網(wǎng)絡(luò)的應(yīng)用提供基礎(chǔ),s tanf or d_s egmen t er分詞器分詞效果較好。
[0048] 進(jìn)一步的,所述系統(tǒng)包括詞典映射模塊,所述詞典映射模塊將待識(shí)別文本中經(jīng)過(guò) 分詞處理后的字、詞或者標(biāo)點(diǎn)轉(zhuǎn)化成向量數(shù)據(jù)后輸入所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中,所述詞典 映射模塊包括詞典映射表,所述詞典映射表為一個(gè)二維矩陣,其中每一個(gè)行向量對(duì)應(yīng)一個(gè) 字、詞或者標(biāo)點(diǎn)符號(hào),行向量與字、詞或者標(biāo)點(diǎn)符號(hào)的對(duì)應(yīng)關(guān)系為構(gòu)建詞典映射表時(shí)所設(shè)置 (本系統(tǒng)可采用如圖1所示的功能模塊連接結(jié)構(gòu))。
[0049] 進(jìn)一步的、所述遞歸神經(jīng)網(wǎng)絡(luò)模塊為加載有上述功能程序的計(jì)算機(jī)、服務(wù)器或者 移動(dòng)智能終立而。
[0050] 進(jìn)一步的、所述系統(tǒng)為加載有上述程序功能的計(jì)算機(jī)、服務(wù)器或者移動(dòng)智能終端。 所述計(jì)算機(jī)、服務(wù)器或者移動(dòng)智能終端為系統(tǒng)功能的實(shí)現(xiàn)提供硬件基礎(chǔ)。
[0051 ] 實(shí)施例1
[0052]本系統(tǒng)的的新企業(yè)名稱發(fā)現(xiàn)過(guò)程如下:比如在網(wǎng)絡(luò)獲取了如下的新聞文本:"ΧΧΧΧ 年3月15日公告,公司第七屆董事會(huì)第五次會(huì)議,審議通過(guò)了《關(guān)于公司及全資子公司投資 成立子公司的議案》,公司擬成立的六家全資子公司分別為ABCD醫(yī)療投資管理有限公司、 ΑΒ⑶醫(yī)藥電子商務(wù)有限公司、ΑΒ⑶投資基金管理有限公司、ΑΒ⑶新能源有限公司、ΑΒ⑶基礎(chǔ) 設(shè)施投資有限公司、ABCD投資有限公司。投資金額:總投資金額折合人民幣約為6.3億元。" 經(jīng)過(guò)分詞得到:"ΧΧΧΧ年/3月/15日/公告/,/公司/第七/屆/董事會(huì)/第五/次/會(huì)議/,/審議/ 通過(guò)了/《/關(guān)于/公司/及/全資/子公司/投資/成立/子公司/的/議案/》/,/公司/擬/成立/ 的/六家/全資/子公司/分別為/AB/CD/醫(yī)療/投資管理/有限公司A/AB/CD/醫(yī)藥/電子商 務(wù)/有限公司A/AB/CD/投資/基金管理/有限公司A/AB/CD/新能源/有限公司A/AB/CD/基 礎(chǔ)設(shè)施/投資/有限公司A/AB/CD/投資/有限公司/。/投資/金額/:/總/投資/金額/折合/人 民幣/約為/6.3億元/。"將上述經(jīng)過(guò)分詞形成的文字序列,輸入到所述雙向遞歸神經(jīng)中,經(jīng) 過(guò)所述遞歸神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè),輸出:"ΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΜΜΜΜΕΝΜΜΜ ΜΕΝΜΜΜΜΕΝΜΜΜΕΝΜΜΜΜΕΝΜΜΜΜΕΝΝΝΝΝΝΝΝΝΝΝΝ" 將分類序列中的 ΜΜΜΜΕ、ΜΜΜΜΕ、ΜΜΜΜΕ、ΜΜΜΕ、 ΜΜΜΜΕ、ΜΜΜΜΕ對(duì)應(yīng)的文字序列:"ABCD醫(yī)療投資管理有限公司"、"ABCD醫(yī)藥電子商務(wù)有限公 司"、"AB⑶投資基金管理有限公司"、"AB⑶新能源有限公司"、"AB⑶基礎(chǔ)設(shè)施投資有限公 司"、"ABCD投資有限公司"作為企業(yè)名稱整體提取出來(lái)。本實(shí)施例實(shí)現(xiàn)企業(yè)名稱提取的信號(hào) 流程如圖3 所不(其中 vec_a、vec-b、vec-c、vec_d、vec_e、vec-f、vec-g、vec_h、vec_i、vec_ j、vec-k、vec-l、vec_m......vec_z等代表詞典映射表中二維矩陣的行向量)將上述提取出來(lái) 的企業(yè)名稱和現(xiàn)有的企業(yè)名稱數(shù)據(jù)庫(kù)進(jìn)行對(duì)比,如果上述企業(yè)名稱不存在與現(xiàn)有的企業(yè)名 稱數(shù)據(jù)庫(kù)中,則將上述企業(yè)名稱作為新的企業(yè)添加進(jìn)入現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中,為相關(guān)的 數(shù)據(jù)分析提供基礎(chǔ)。
【主權(quán)項(xiàng)】
1. 一種企業(yè)實(shí)體名稱分析識(shí)別系統(tǒng),所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,其特征在 于:所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的企業(yè)名稱標(biāo)注的訓(xùn)練樣本來(lái)訓(xùn)練雙向遞歸 神經(jīng)網(wǎng)絡(luò),訓(xùn)練完成后的雙向遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別出待識(shí)別文本中的企業(yè)名稱,并將不屬于 現(xiàn)有名稱的企業(yè)名稱作為新的企業(yè)名稱提取出來(lái)。2. 如權(quán)利要求1所述的系統(tǒng),其特征在于:所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫(kù)中存儲(chǔ)的 企業(yè)名稱標(biāo)注訓(xùn)練樣本時(shí),將樣本中的企業(yè)名稱分段標(biāo)注為:開(kāi)始部分、中間部分和結(jié)束部 分,將不屬于企業(yè)名稱的標(biāo)注為無(wú)關(guān)部分。3. 如權(quán)利要求2所述的系統(tǒng),其特征在于:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊,采用如下向前 算法公式:I為向量化的字或者詞的維度,Η為隱含層的神經(jīng)元個(gè)數(shù),K是輸出層神經(jīng)元的個(gè)數(shù),其 中a;;為正向輸入時(shí)t時(shí)刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入,< 為反向輸入時(shí)t 時(shí)刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入,為正向輸入時(shí)t時(shí)刻隱含層神經(jīng)元 的輸出,6^.為反向輸入時(shí)t時(shí)刻隱含層神經(jīng)元的輸出,θ()為為隱含層神經(jīng)元的非線性激勵(lì) 函數(shù),攻為t時(shí)刻輸出層神經(jīng)元的輸入,為t時(shí)刻輸出層神經(jīng)元的輸出,為一個(gè)概率值, 表示第k個(gè)神經(jīng)元的輸出值相對(duì)于K個(gè)神經(jīng)元輸出值總和的比值;^和^>1是各個(gè)維度值均 為0的向量,其中T為輸入文字序列的長(zhǎng)度。4. 如權(quán)利要求3所述的系統(tǒng),其特征在于:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)各時(shí)刻輸入向 量數(shù)據(jù)的分類時(shí),結(jié)合了正反向傳播時(shí)該時(shí)刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出信號(hào);正反向 傳播時(shí)各個(gè)時(shí)刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸入信號(hào)除了包含向量化的字、詞信號(hào)W外還包 括上一時(shí)刻隱含層神經(jīng)元的輸出信號(hào)。5. 如權(quán)利要求4所述的系統(tǒng),其特征在于:所述系統(tǒng)將雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果中相 鄰的屬于企業(yè)名稱開(kāi)始部分、K個(gè)中間部分和結(jié)束部分對(duì)應(yīng)的字詞作為企業(yè)名稱提取出來(lái)。6. 如權(quán)利要求1至5之一所述的系統(tǒng),其特征在于:所述系統(tǒng)包括分詞模塊,所述分詞模 塊對(duì)現(xiàn)有企業(yè)名稱和待處理文本進(jìn)行分詞,所述待處理文本包括訓(xùn)練樣本和待識(shí)別文本。7. 如權(quán)利要求6所述的系統(tǒng),其特征在于:所述分詞模塊為stanford-segmenter分詞 器。8. 如權(quán)利要求6所述的系統(tǒng),其特征在于:所述系統(tǒng)包括詞典映射模塊,所述詞典映射 模塊將待識(shí)別文本中經(jīng)過(guò)分詞處理后的字、詞或者標(biāo)點(diǎn)轉(zhuǎn)化成向量數(shù)據(jù)后輸入所述雙向遞 歸神經(jīng)網(wǎng)絡(luò)中。9. 如權(quán)利要求8所述的系統(tǒng),其特征在于:所述遞歸神經(jīng)網(wǎng)絡(luò)模塊為加載有如權(quán)利要求 1至4之一所述功能程序的計(jì)算機(jī)、服務(wù)器或者移動(dòng)智能終端。10. 如權(quán)利要求9所述的系統(tǒng),其特征在于:所述系統(tǒng)為加載有權(quán)利要求1至8之一所述 程序功能的計(jì)算機(jī)、服務(wù)器或者移動(dòng)智能終端。
【文檔編號(hào)】G06N3/08GK105975456SQ201610286191
【公開(kāi)日】2016年9月28日
【申請(qǐng)日】2016年5月3日
【發(fā)明人】劉世林, 何宏靖
【申請(qǐng)人】成都數(shù)聯(lián)銘品科技有限公司