欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于層疊式神經(jīng)網(wǎng)絡(luò)的中文模糊限制信息范圍檢測方法與流程

文檔序號(hào):11063577閱讀:483來源:國知局
基于層疊式神經(jīng)網(wǎng)絡(luò)的中文模糊限制信息范圍檢測方法與制造工藝

本發(fā)明涉及一種基于長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory networks,簡稱LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)相結(jié)合的層疊式深度學(xué)習(xí)模型(LSTM-CNN)的中文模糊限制信息范圍檢測系統(tǒng)。涉及專利分類號(hào)G06計(jì)算;推算;計(jì)數(shù)G06F電數(shù)字?jǐn)?shù)據(jù)處理G06F17/00特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法。



背景技術(shù):

模糊限制語這一術(shù)語最早由G.Lakoff提出,意指“把事情弄得模模糊糊的詞語”。由模糊限制語引導(dǎo)的信息稱為模糊限制信息。模糊限制信息的檢測是為了區(qū)分不確定信息和事實(shí),避免模糊信息的干擾,更好的識(shí)別和挖掘事實(shí)信息。模糊限制信息范圍檢測在英文方面的研究已經(jīng)取得了較好的成果,然而中文模糊限制信息范圍檢測的研究還處于起步階段。本發(fā)明的主要研究是通過在長短時(shí)記憶網(wǎng)絡(luò)之上疊加不同窗口大小的卷積神經(jīng)網(wǎng)絡(luò)的方法,進(jìn)行中文模糊限制信息的范圍識(shí)別,能夠在中文模糊限制信息檢測中有效地挖掘深層語義信息。

傳統(tǒng)的主流自然語言處理方法是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,所使用的特征大多數(shù)是基于one-hot形式(0-1向量)表示的各種組合特征,這種離散的特征表示會(huì)產(chǎn)生數(shù)據(jù)稀疏,不能充分捕獲模糊限制信息范圍內(nèi)部詞語間的深層語義信息。近年來,隨著深度學(xué)習(xí)的發(fā)展,基于分布式假設(shè)表示詞語和短語的語義信息在情感分類,關(guān)系抽取等自然語言處理任務(wù)中已經(jīng)取得了巨大的成功。遞歸神經(jīng)網(wǎng)絡(luò)因?yàn)檫m合于處理文本序列,例如LSTM能夠?qū)W習(xí)到長期依賴關(guān)系,在自動(dòng)問答、機(jī)器翻譯等問題上效果非常好。而卷積神經(jīng)網(wǎng)絡(luò)能夠挖掘出句子內(nèi)部的深層語義特征,因此兩者都被廣泛應(yīng)用在很多自然語言處理的任務(wù)上。但是利用長短時(shí)記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法(LSTM-CNN)來進(jìn)行模糊限制信息范圍檢測尚未得到探索和應(yīng)用。Zhou等(Zhou H,Xu J,Yang Y,et al.Chinese Hedge Scope Detection Based on Structure and Semantic Information[M]//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.2016.)利用LSTM捕捉句子的語義信息,進(jìn)行中文模糊限制信息范圍檢測。但他們并沒有探究多種神經(jīng)網(wǎng)絡(luò)的方法來有效捕捉模糊限制信息的深層語義信息。

模糊限制信息范圍檢測任務(wù)比較復(fù)雜,具有依賴于語義的特點(diǎn),單純基于傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,難以挖掘語言內(nèi)部的深層語義信息。因此,需要探索如何利用深度學(xué)習(xí)模型,挖掘語言內(nèi)部深層的語義信息,提高中文模糊限制信息檢測性能。



技術(shù)實(shí)現(xiàn)要素:

鑒于現(xiàn)有方法存在的問題,本發(fā)明公開的一種基于層疊式神經(jīng)網(wǎng)絡(luò)的中文模糊限制信息范圍檢測方法,包括如下步驟:

—對(duì)待分析實(shí)驗(yàn)語料中含有模糊限制語的句子,進(jìn)行分詞處理;

—使用句法解析器對(duì)分詞處理后的句子進(jìn)行句法解析,得到所述句子的短語結(jié)構(gòu)樹;通過基于短語的候選樣例篩選策略找到候選短語,進(jìn)而確定候選短語的邊界詞,包括左邊界詞和右邊界詞;

—使用抽取窗口分別抽取所述的左、右邊界詞和模糊限制語的上下文信息;

—將左、右邊界詞和模糊限制語的上下文信息作為候選樣例詞序列并映射到實(shí)數(shù)向量空間,轉(zhuǎn)換為詞向量形式;輸入基于長短時(shí)記憶網(wǎng)絡(luò)LSTM和卷積神經(jīng)網(wǎng)絡(luò)CNN相結(jié)合的層疊式學(xué)習(xí)模型LSTM-CNN進(jìn)行學(xué)習(xí),得到邊界分類器;

—使用所述的邊界分類器對(duì)測試數(shù)據(jù)進(jìn)行分類,得到左、右邊界的分類結(jié)果,完成中文模糊限制信息范圍的檢測。

作為優(yōu)選的實(shí)施方式,所述的學(xué)習(xí)至少包括如下步驟:

—通過長短時(shí)記憶網(wǎng)絡(luò)LSTM獲得每個(gè)時(shí)間步的隱層表示;

—通過卷積神經(jīng)網(wǎng)絡(luò)CNN對(duì)所述的各個(gè)時(shí)間步的隱層表示進(jìn)行卷積和池化,捕獲上下文的有效信息,得到所述的邊界分類器。

作為優(yōu)選的實(shí)施方式,所述的候選樣例篩選策略為:

除了模糊限制語的祖先節(jié)點(diǎn),將短語樹上所有父親節(jié)點(diǎn)包含模糊限制語的短語和模糊限制語作為模糊限制信息的邊界候選短語;

所述的在短語結(jié)構(gòu)樹中,祖先短語為當(dāng)前模糊限制語節(jié)點(diǎn)的父親節(jié)點(diǎn)、祖父節(jié)及其它上一層級(jí)的節(jié)點(diǎn),這些節(jié)點(diǎn)均帶有短語類型信息,稱為祖先短語。

更進(jìn)一步的,選定左邊界以這個(gè)短語最左邊的詞作為左邊界候選詞,右邊界以這個(gè)短語最右邊的詞作為右邊界候選詞。

作為優(yōu)選的實(shí)施方式,將左邊界上下文信息和模糊限制語上下文信息組合成為左邊界候候選樣例詞序列,將右邊界上下文信息和模糊限制語上下文信息組合成為右邊界候候選樣例詞序列。

作為優(yōu)選的實(shí)施方式,還具有后處理步驟確保每個(gè)句子只有一個(gè)左邊界和一個(gè)右邊界,后處理規(guī)則如下:

—如果分類器識(shí)別出一個(gè)F-scope,一個(gè)L-scope,則范圍開始于標(biāo)注為F-scope的詞,結(jié)束于標(biāo)注為L-scope的詞;

—如果分類器沒有識(shí)別出F-scope,識(shí)別出一個(gè)L-scope,則模糊限制信息范圍開始于模糊限制語,結(jié)束于標(biāo)注為L-scope的詞;

—如果分類器識(shí)別出一個(gè)F-scope,沒有識(shí)別出L-scope,則模糊限制信息范圍開始于標(biāo)注為F-scope的詞,結(jié)束于句子的最后一個(gè)詞(除了句尾標(biāo)點(diǎn));

—如果分類器識(shí)別出一個(gè)F-scope,多個(gè)L-scope,則模糊限制信息范圍開始于標(biāo)注為F-scope的詞,結(jié)束于最后一個(gè)標(biāo)注為L-scope的詞;

—如果分類器識(shí)別出多個(gè)F-scope,一個(gè)L-scope,則模糊限制信息范圍開始于第一個(gè)標(biāo)注為F-scope的詞,結(jié)束于標(biāo)注為L-scope的詞。

作為優(yōu)選的實(shí)施方式,所述的層疊式學(xué)習(xí)模型LSTM-CNN包括:

向量表示層:通過預(yù)訓(xùn)練的詞向量矩陣/字典,將所述的候選樣例詞序列中的每一個(gè)詞映射成為一個(gè)d維的向量形成詞向量序列x={x1,x2,...,xi,...,xn},其中xi表示詞序列中的第i個(gè)詞wi映射而成的d維的詞向量

LSTM層:該層即長短時(shí)記憶網(wǎng)絡(luò)層,該層通過三個(gè)門來控制信息的保存、記憶和更新,分別為忘記門(forget gate),輸入門(input gate)和輸出門(outputgate);

設(shè)W是轉(zhuǎn)移矩陣,b代表一個(gè)偏置,x為詞向量序列,h為LSTM單元的隱層表示,c為LSTM記憶單元的值,σ是sigmoid激活函數(shù)。LSTM單元的更新和記憶過程如下:

首先,決定從細(xì)胞狀態(tài)中丟棄何種信息,由所述的忘記門完成:

ft=σ(Wxf·xt+Whf·ht-1+bf)

然后確定何種新信息保存到細(xì)胞狀態(tài)中,通過所述的輸入門完成:

it=σ(Wxi·xt+Whi·ht-1+bi)

之后通過所述的忘記門和輸入門得到的信息來產(chǎn)生對(duì)細(xì)胞狀態(tài)的更新:

最后,、根據(jù)當(dāng)前的細(xì)胞狀態(tài)來獲得每個(gè)時(shí)間步的隱層表示:

ot=σ(Wxo·xt+Who·ht-1+bo)

ht=ot·tanh(ct)

基于LSTM模型得到的各個(gè)時(shí)間步的隱層表示,將作為下面卷積層的輸入,用于進(jìn)行卷積操作。

卷積層

該層對(duì)于某個(gè)時(shí)刻的窗口,通過神經(jīng)網(wǎng)絡(luò)的非線性變換,將這個(gè)窗口內(nèi)的輸入值轉(zhuǎn)換為某個(gè)特征值ci,隨著窗口不斷往后移動(dòng),這個(gè)filter對(duì)應(yīng)的特征值ci不斷產(chǎn)生,最終得到這個(gè)filter的特征向量(feature map);一個(gè)特征值ci由一個(gè)窗口內(nèi)的多個(gè)時(shí)間步的隱層表示hi:i+j-1產(chǎn)生,其卷積的公式如下所示:

ci=f(w·xi:i+j-1+b)

w是卷積的矩陣,b是代表一個(gè)偏置,j是窗口大小;f是一個(gè)非線性的激活函數(shù),雙曲正切函數(shù);filter被作用于移動(dòng)窗口內(nèi)的LSTM隱層表示{h1:j,h2:j+1,...,hn-j+1:n},產(chǎn)生一個(gè)特征向量(feature map):

c=[c1,c2,...,cn-j+1]

其中

池化層

針對(duì)每種不同的窗口,我們將得到的輸出特征向量feature map c輸入到最大池化層(max pooling層)進(jìn)行降維操作。獲取其中的最大值作為特征,得到每種窗口的最大池化結(jié)果其中m代表filter的個(gè)數(shù)。對(duì)于某個(gè)filter抽取到的若干特征值,只取其中最大的那個(gè)值作為保留值,其它特征值全部拋棄,通過消除非最大值來減少下一層的計(jì)算量;

語義向量表示層

將上一層3種不同窗口的最大池化結(jié)果進(jìn)行拼接,得到深層語義向量表示用于Softmax層進(jìn)行分類;

Softmax層

將語義向量表示作為Softmax層的輸入進(jìn)行分類,得到最終的邊界分類結(jié)果。

附圖說明

為了更清楚的說明本發(fā)明的實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明方法的基本流程圖;

圖2是本發(fā)明實(shí)施例中實(shí)驗(yàn)語料的例句;

圖3是本發(fā)明圖2所示例句經(jīng)過句法解析后得到的短語結(jié)構(gòu)樹示意圖;

圖4是本發(fā)明層疊式神經(jīng)網(wǎng)絡(luò)的LSTM-CNN模型圖。

具體實(shí)施方式

為使本發(fā)明的實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚完整的描述:

如圖1-4所示,本發(fā)明使用Zhou等采用的中文模糊限制信息范圍語料(Zhou H,Xu J,Yang Y,et al.Chinese Hedge Scope Detection Based on Structure and Semantic Information//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.2016.),該語料包含生物醫(yī)學(xué)文獻(xiàn)9385句,我們將其隨機(jī)分成5份,選取其中的四份共7510句作為訓(xùn)練語料,剩余的1875句作為測試語料。

下面結(jié)合附圖1和技術(shù)方案,進(jìn)一步描述本發(fā)明的具體步驟:

步驟一:對(duì)實(shí)驗(yàn)語料進(jìn)行預(yù)處理。使用Stanford-segmenter工具包(http://nlp.stanford.edu/software/segmenter.shtml)進(jìn)行中文分詞。

步驟二:首先,對(duì)分詞之后的語料使用Stanford-parser句法解析器(http://nlp.stanford.edu/software/lex-parser.shtml)進(jìn)行句法解析得到句子的短語結(jié)構(gòu)樹,然后基于短語的候選樣例篩選策略(除了模糊限制語的祖先節(jié)點(diǎn),將短語樹上所有父親節(jié)點(diǎn)包含模糊限制語的短語和模糊限制語作為模糊限制信息的邊界候選短語)找出候選短語并確定候選短語的邊界詞。

考慮到通過篩選策略得到的候選短語在很大程度上不是一個(gè)詞,而是多個(gè)詞的組合,我們這里規(guī)定左邊界以這個(gè)短語最左邊的詞作為左邊界候選詞,右邊界以這個(gè)短語最右邊的詞作為右邊界候選詞。

圖2展示的是語料中一個(gè)包含模糊限制語的句子的標(biāo)注格式和詳細(xì)內(nèi)容。

在這個(gè)句子中,“<ccue>”和“</ccue>”之間標(biāo)注的是模糊限制語“可能”?!?lt;scope>”和“</scope>”之間標(biāo)注了模糊限制語“可能”的控制范圍,即“PCAF可能是一種HCC的抑癌因子”。

圖2語句結(jié)構(gòu)對(duì)應(yīng)的短語結(jié)構(gòu)樹如圖3所示,其中模糊限制語為“可能”。以左邊界為例,可以得到該模糊限制語的左邊界候選短語為“NP11”,“VV31”,“NP61”,以及模糊限制語本身“ADVP71”。

將左邊界候選短語的最左邊的詞作為左邊界候選詞,得到左邊界候選詞“上述”、“提示”、“PCAF”和“可能”。以“提示”作為實(shí)施例,得到候選邊界詞的上下文詞序列和模糊限制語的上下文詞序列。

LSTM-CNN的輸入序列如公式(1)、(2)所示:

xcandidate={實(shí)驗(yàn),數(shù)據(jù),提示,PCAF,可能} (1)

xhedge={提示,PCA,可能,是,一} (2)

步驟三:抽取左、右邊界詞和模糊限制語的上下文信息,窗口大小為(-2,+2)。將左邊界上下文信息和模糊限制語上下文信息組合成為左邊界候候選樣例詞序列,將右邊界上下文信息和模糊限制語上下文信息組合成為右邊界候候選樣例詞序列。

步驟四:使用Google開發(fā)的Word2Vec工具包(https://code.google.com/p/word2vec/)訓(xùn)練詞向量。將左、右邊界詞序列映射到實(shí)數(shù)向量空間,即將左、右邊界詞序列表示成詞向量的形式,

然后通過LSTM學(xué)習(xí)邊界候選詞上下文信息,以及邊界候選詞與模糊限制語之間的語義信息,獲得每個(gè)時(shí)間步的隱層表示。

再基于CNN對(duì)各個(gè)時(shí)間步的隱層表示進(jìn)行卷積和池化,捕獲上下文的有效信息,得到語義向量表示。

最后將語義向量表示傳入Softmax層中進(jìn)行分類,得到左邊界分類器和右邊界分類器。

利用訓(xùn)練獲得的分類器對(duì)測試數(shù)據(jù)進(jìn)行分類,得到左、右邊界的分類結(jié)果。

在詞向量生成過程中,我們訓(xùn)練的詞向量大小為100維,窗口大小為5,訓(xùn)練使用Skip-gram模型,其他參數(shù)均采用默認(rèn)參數(shù)。訓(xùn)練詞向量使用的語料是搜狗實(shí)驗(yàn)室提供的關(guān)于搜狐新聞上2012年6月到7月的新聞?wù)Z料(http://www.datatang.com/data/list/s04-r020-t01-c03-la01-p3),數(shù)據(jù)大小為1.65GB。

模型的主要參數(shù)有:LSTM輸出維度100,特征抽取器(filter)的個(gè)數(shù)為100,窗口的大小分別是2、3、5,詞向量的維數(shù)為100維。

左、右邊界的性能評(píng)測采用準(zhǔn)確率(P),召回率(R),調(diào)和平均值(F值)進(jìn)行評(píng)價(jià)。評(píng)價(jià)計(jì)算的公式如下所示:

其中TP代表模型預(yù)測為正例的正樣本個(gè)數(shù),F(xiàn)P表示模型預(yù)測為正例的負(fù)樣本個(gè)數(shù),F(xiàn)N表示模型預(yù)測為負(fù)例的正樣本個(gè)數(shù)。

步驟五:將左、右邊界分類器的結(jié)果進(jìn)行后處理,合并成最終的句子級(jí)別的結(jié)果。模糊限制信息范圍是一段連續(xù)的字符串,即每個(gè)模糊限制語只有唯一的一個(gè)左邊界、一個(gè)右邊界。然而,范圍檢測結(jié)果并不能確保為每段模糊限制信息只檢測出一個(gè)左邊界和一個(gè)右邊界,即檢測的邊界是一段連續(xù)的字符串。因此,為了建立完整的模糊限制信息序列,我們采用后處理規(guī)則來確保每個(gè)句子只有一個(gè)左邊界和一個(gè)右邊界。

本方法用到的關(guān)鍵后處理規(guī)則如下:

(1)如果分類器識(shí)別出一個(gè)F-scope,一個(gè)L-scope,則范圍開始于標(biāo)注為F-scope的詞,結(jié)束于標(biāo)注為L-scope的詞。

(2)如果分類器沒有識(shí)別出F-scope,識(shí)別出一個(gè)L-scope,則模糊限制信息范圍開始于模糊限制語,結(jié)束于標(biāo)注為L-scope的詞。

(3)如果分類器識(shí)別出一個(gè)F-scope,沒有識(shí)別出L-scope,則模糊限制信息范圍開始于標(biāo)注為F-scope的詞,結(jié)束于句子的最后一個(gè)詞(除了句尾標(biāo)點(diǎn))。

(4)如果分類器識(shí)別出一個(gè)F-scope,多個(gè)L-scope,則模糊限制信息范圍開始于標(biāo)注為F-scope的詞,結(jié)束于最后一個(gè)標(biāo)注為L-scope的詞。

(5)如果分類器識(shí)別出多個(gè)F-scope,一個(gè)L-scope,則模糊限制信息范圍開始于第一個(gè)標(biāo)注為F-scope的詞,結(jié)束于標(biāo)注為L-scope的詞。

對(duì)左、右邊界分類器的結(jié)果使用實(shí)施過程中的后處理規(guī)則,最終得到一段連續(xù)的模糊限制信息范圍并評(píng)價(jià)系統(tǒng)的性能。評(píng)價(jià)指標(biāo)為句子級(jí)別的平均值(Sentence-level F值),計(jì)算過程如公式(6)所示:

其中#system_correct為分類正確的句子數(shù),#system_total為測試語料總的句子數(shù)。

以下部分是LSTM-CNN模型的介紹:

如圖4所示,我們的LSTM-CNN模型主要包括以下六個(gè)部分,向量表示層、LSTM層、卷積層、池化層、語義向量表示層和Softmax層。下面將依次介紹各部分的功能:

向量表示層

考慮一個(gè)輸入的詞序列w={w1,w2,...,wi,...,wn},其中wi表示序列中第i個(gè)詞在字典中的位置下標(biāo),輸入的序列長度為n。向量表示層通過預(yù)訓(xùn)練的詞向量矩陣(字典)把這個(gè)詞序列中的每一個(gè)詞映射成為一個(gè)d維的向量形成詞向量序列x={x1,x2,...,xi,...,xn},其中xi表示詞序列中的第i個(gè)詞wi映射而成的d維的詞向量

LSTM層

LSTM層即長短時(shí)記憶網(wǎng)絡(luò)層。LSTM層有精心設(shè)計(jì)的稱作為“門”的結(jié)構(gòu)來去除或者增加信息到細(xì)胞狀態(tài)的能力。門是一種讓信息選擇式通過的方法,包含一個(gè)sigmoid激活函數(shù)和一個(gè)pointwise乘法操作。Sigmoid層輸出0到1之間的數(shù)值,描述每個(gè)部分有多少量可以通過。0代表“不許任何量通過”,1代表“允許任意量通過”。LSTM通過三個(gè)門來控制信息的保存、記憶和更新,分別是忘記門(forget gate),輸入門(input gate)和輸出門(output gate)。設(shè)W是轉(zhuǎn)移矩陣,b代表一個(gè)偏置,x為詞向量序列,h為LSTM單元的隱層表示,c為LSTM記憶單元的值,σ是sigmoid激活函數(shù)。LSTM單元的更新和記憶過程如下:

首先,LSTM中的第一步是決定我們要從細(xì)胞狀態(tài)中丟棄什么信息,這個(gè)決定通過忘記門完成:

ft=σ(Wxf·xt+Whf·ht-1+bf) (7)

下一步是確定什么樣的新信息保存到細(xì)胞狀態(tài)中,通過輸入門完成:

it=σ(Wxi·xt+Whi·ht-1+bi) (8)

之后通過這兩個(gè)門得到的信息來產(chǎn)生對(duì)細(xì)胞狀態(tài)的更新:

最后我們根據(jù)當(dāng)前的細(xì)胞狀態(tài)來來獲得每個(gè)時(shí)間步的隱層表示:

ot=σ(Wxo·xt+Who·ht-1+bo) (11)

ht=ot·tanh(ct) (12)

基于LSTM模型得到的各個(gè)時(shí)間步的隱層表示,將作為下面卷積層的輸入,用于進(jìn)行卷積操作。

卷積層

卷積層本質(zhì)上是一個(gè)特征抽取層,可以設(shè)定多個(gè)特征抽取器(filter)來獲得不同的特征。對(duì)于其中某個(gè)filter,通過一個(gè)j*d大小的移動(dòng)窗口來滑動(dòng)卷積輸入的詞序列矩陣,其中j是filter的窗口大小,d是詞向量的維度。對(duì)于某個(gè)時(shí)刻的窗口,通過神經(jīng)網(wǎng)絡(luò)的非線性變換,將這個(gè)窗口內(nèi)的輸入值轉(zhuǎn)換為某個(gè)特征值ci,隨著窗口不斷往后移動(dòng),這個(gè)filter對(duì)應(yīng)的特征值ci不斷產(chǎn)生,最終得到這個(gè)filter的特征向量(feature map)。一個(gè)特征值ci由一個(gè)窗口內(nèi)的多個(gè)時(shí)間步的隱層表示hi:i+j-1產(chǎn)生,其卷積的公式如下所示:

ci=f(w·xi:i+j-1+b) (13)

w是卷積的矩陣,b是代表一個(gè)偏置,j是窗口大??;f是一個(gè)非線性的激活函數(shù),雙曲正切函數(shù);filter被作用于移動(dòng)窗口內(nèi)的LSTM隱層表示{h1:j,h2:j+1,...,hn-j+1:n},產(chǎn)生一個(gè)特征向量(feature map):

c=[c1,c2,...,cn-j+1] (14)

其中在本系統(tǒng)中,我們設(shè)置了3種不同的filter,它們的卷積窗口大小分別是2、3、5,filter的個(gè)數(shù)均為100。

池化層

針對(duì)每種不同的窗口,我們將得到的輸出特征向量feature map c輸入到最大池化層(max pooling層)進(jìn)行降維操作。獲取其中的最大值作為特征,得到每種窗口的最大池化結(jié)果其中m代表filter的個(gè)數(shù)。對(duì)于某個(gè)filter抽取到的若干特征值,只取其中最大的那個(gè)值作為保留值,其它特征值全部拋棄,通過消除非最大值來減少下一層的計(jì)算量。

語義向量表示層

將上一層3種不同窗口的最大池化結(jié)果進(jìn)行拼接,得到深層語義向量表示用于Softmax層進(jìn)行分類。

Softmax層

將語義向量表示作為Softmax層的輸入進(jìn)行分類,得到最終的邊界分類結(jié)果。

以下部分詳細(xì)描述了本發(fā)明所構(gòu)建的基于LSTM-CNN的候選邊界檢測系統(tǒng),均以左邊界分類器的方法為例,右邊界同理。

首先,構(gòu)建候選邊界詞的上下文信息的詞序列以及模糊限制語的上下文信息的詞序列。以左邊界為例,將候選邊界詞序列和模糊限制語詞序列映射到實(shí)數(shù)向量空間,表示成詞向量的輸入序列。如公式(15)、(16)所示:

xcandidate={Candidate-2,Candidate-1,Candidate,Candidate1,Candidate2} (15)

xhedge={Hedge-2,Hedge-1,Hedge,Hedge1,Hedge2} (16)

其中Candidate表示邊界候選詞,Hedge代表模糊限制語。然后這兩個(gè)序列連接而成一個(gè)序列x={xcandidate||xhedge}(其中||表示連接操作),用于學(xué)習(xí)邊界詞、模糊限制語以及他們之間的深層語義信息,獲取語義表示。我們將序列x映射到實(shí)數(shù)向量空間,然后輸入到我們定義的LSTM-CNN模型中訓(xùn)練分類器,用以判斷模糊限制信息的范圍。右邊界采用同樣的方法,按照語序右邊界候選樣例序列表示為x={xhedge||xcandidate}。

本系統(tǒng)在生物醫(yī)學(xué)領(lǐng)域語料上進(jìn)行中文模糊限制信息范圍檢測的實(shí)驗(yàn),結(jié)果如下表所示。

實(shí)驗(yàn)結(jié)果表明,我們提出的LSTM-CNN方法比現(xiàn)有的Zhou等LSTM的方法最終Sentence-level F值提高了1.87%,說明我們提出的基于層疊式神經(jīng)網(wǎng)絡(luò)的中文模糊限制信息范圍檢測系統(tǒng)LSTM-CNN能夠有效捕獲候選邊界詞和模糊限制語詞序列的深層語義信息,在中文模糊限制信息范圍檢測中取得更好的結(jié)果。

以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
韩城市| 法库县| 安岳县| 大竹县| 英吉沙县| 平南县| 科技| 红桥区| 怀宁县| 大城县| 丰城市| 明星| 湖南省| 缙云县| 崇明县| 崇明县| 清水县| 兴和县| 义马市| 龙岩市| 应城市| 广汉市| 南木林县| 宜兴市| 仁寿县| 宁明县| 石狮市| 虞城县| 娱乐| 乌拉特后旗| 政和县| 乌什县| 罗田县| 丰台区| 安仁县| 崇明县| 林甸县| 木兰县| 滦南县| 东台市| 孟村|