基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法

文檔序號(hào)：10512165閱讀：465來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法
【專利摘要】本發(fā)明提出了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法，包括：先對(duì)待分析的句子進(jìn)行句法分析處理，得到一個(gè)并列結(jié)構(gòu)的候選集合，然后利用新型的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對(duì)候選集合中的并列結(jié)構(gòu)進(jìn)行打分，從而選出最佳的并列結(jié)構(gòu)作為系統(tǒng)的最終輸出。本方法綜合考慮了并列結(jié)構(gòu)的短語(yǔ)獨(dú)立性和短語(yǔ)之間的相似性，提高了并列結(jié)構(gòu)識(shí)別精度。對(duì)比現(xiàn)有的其他技術(shù)，本方法突出在能夠自動(dòng)識(shí)別出任意的并列結(jié)構(gòu)，而其他技術(shù)只能識(shí)別出特定類型的并列結(jié)構(gòu)，如只有名詞組成的并列結(jié)構(gòu)。本方法提出了一種更有效的并列結(jié)構(gòu)識(shí)別方法，在實(shí)際應(yīng)用中提高了識(shí)別質(zhì)量。
【專利說明】
基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種利用計(jì)算機(jī)自動(dòng)識(shí)別并列結(jié)構(gòu)的方法，特別是基于新型神經(jīng)網(wǎng)絡(luò) 的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法。
【背景技術(shù)】
[0002] 句法分析技術(shù)，自上世紀(jì)90年代以來發(fā)展十分迅速，取得了很大的進(jìn)步，已經(jīng)成為自然語(yǔ)言處理領(lǐng)域中的研究熱點(diǎn)。
[0003] 雖然句法分析處理技術(shù)已經(jīng)有了長(zhǎng)足的進(jìn)步，但目前的句法分析技術(shù)的實(shí)用性和可用性并不非常高，對(duì)復(fù)雜句子的處理結(jié)果還不理想，尤其是對(duì)包含復(fù)雜結(jié)構(gòu)的句子，如并列結(jié)構(gòu)，句法分析的質(zhì)量還有提高。據(jù)統(tǒng)計(jì)，在句法分析中約有10%的錯(cuò)誤是來自于并列結(jié) 構(gòu)。因此，在提升句法分析能力的難度越來越大的情況下，如何通過聚焦處理特殊結(jié)構(gòu)，比如并列結(jié)構(gòu)，來提升句法分析的質(zhì)量成為了一個(gè)重要問題。
[0004]在句法分析技術(shù)中，一種非常高效的方式是基于狀態(tài)轉(zhuǎn)移方法的句法分析技術(shù)，其工作過程如下:輸入待分析的句子，系統(tǒng)按照詞為單位，從左至右一個(gè)接一個(gè)順序讀入詞語(yǔ)，每讀入一個(gè)詞語(yǔ)，就可能對(duì)已讀入的詞語(yǔ)序列進(jìn)行規(guī)約操作，而何時(shí)進(jìn)行規(guī)約和進(jìn)行何種規(guī)約操作將由已經(jīng)訓(xùn)練完畢的打分模型決定。隨著句子中的詞語(yǔ)一個(gè)接一個(gè)地讀入，樹結(jié)構(gòu)將會(huì)越長(zhǎng)越大，當(dāng)把整個(gè)句子都讀入時(shí)，句法樹也就分析完成了。由上可知，何時(shí)進(jìn)行規(guī)約操作、進(jìn)行何種規(guī)約操作都是影響句法分析能力的重要因素。提前自動(dòng)識(shí)別出并列結(jié) 構(gòu)并將這部分信息輸入到句法分析系統(tǒng)中，將會(huì)幫助系統(tǒng)對(duì)上述兩個(gè)因素進(jìn)行正確的判斷，對(duì)于整個(gè)句子的句法分析能力有很大的提升作用，本發(fā)明著重于并列結(jié)構(gòu)的自動(dòng)識(shí)別研究，在實(shí)際使用中將會(huì)提高句法分析的質(zhì)量。
[0005] 在現(xiàn)有的發(fā)明技術(shù)中，均是針對(duì)一些特殊的并列結(jié)構(gòu)進(jìn)行自動(dòng)識(shí)別，比如只由逗號(hào)分隔的并列結(jié)構(gòu)、只由名詞組成的并列結(jié)構(gòu)等，這些方法和技術(shù)都無法做到自動(dòng)識(shí)別出任意一種自然語(yǔ)言中可能出現(xiàn)的并列結(jié)構(gòu)。因此，為了繼續(xù)提高句法分析的能力，需要尋求能夠識(shí)別任意并列結(jié)構(gòu)的新方法。

【發(fā)明內(nèi)容】

[0006] 發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對(duì)目前并列結(jié)構(gòu)的識(shí)別只集中于識(shí)別特殊的并列結(jié)構(gòu)，并沒有足夠的泛化能力，對(duì)句法分析處理沒有起到提高作用的弱點(diǎn)，提出一種利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器自動(dòng)識(shí)別自然語(yǔ)言中任意并列結(jié)構(gòu)的方法。
[0007] 為了解決上述技術(shù)問題，本發(fā)明公開了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法。
[0008] 本發(fā)明所述利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)識(shí)別自然語(yǔ)言句子中并列結(jié)構(gòu)的方法包括以下步驟：
[0009] 步驟1，計(jì)算機(jī)讀取一個(gè)包含待分析的自然語(yǔ)言句子文本文件，對(duì)讀取的句子進(jìn)行針對(duì)并列結(jié)構(gòu)的句法分析，得到并列結(jié)構(gòu)句法樹候選集合并輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器中；
[0010] 步驟2,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對(duì)并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)進(jìn)行打分，從中選出最佳的并列結(jié)構(gòu)。
[0011] 步驟1包括如下步驟：
[0012] 步驟1-1，按照從左到右的順序依次讀取自然語(yǔ)言句子中的每個(gè)詞，利用基于狀態(tài) 轉(zhuǎn)移技術(shù)的句法分析技術(shù)對(duì)輸入的句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析，分析后得到并列結(jié)構(gòu)句法樹候選集合。
[0013 ]步驟1 -2，抽取并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)的左成分短語(yǔ)和右成分短語(yǔ)并進(jìn)行初步打分，將所有并列結(jié)構(gòu)的左成分短語(yǔ)和右成分短語(yǔ)輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí) 器中。
[0014] 所述神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器由兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)和一個(gè)單隱層神經(jīng)網(wǎng)絡(luò)組成，兩個(gè)循環(huán) 神經(jīng)網(wǎng)絡(luò)共享相同的參數(shù)設(shè)置，并且其隱層直接連接到單隱層神經(jīng)網(wǎng)絡(luò)的輸入層，兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)和單隱層神經(jīng)網(wǎng)絡(luò)具有單獨(dú)的輸出層，相互獨(dú)立，互不影響。
[0015] 步驟1-2包括如下步驟：
[0016] 步驟1 -2-1，對(duì)并列結(jié)構(gòu)句法樹候選集合中的每一個(gè)并列結(jié)構(gòu)抽取出并列結(jié)構(gòu)的左成分短語(yǔ)Slef t和右成分短語(yǔ)Sright，Sleft - WQWl· · ·Wnl，Sright - W 0W 1'''W ml，其中，Wnl表/J、/￡成分短語(yǔ)中的第m個(gè)詞語(yǔ)，w' ^表示右成分短語(yǔ)中的第m個(gè)詞語(yǔ)；
[0017] 步驟1-2-2,利用如下公式將左成分短語(yǔ)Sleft和右成分短語(yǔ)Sright輸入到具有相同參數(shù)設(shè)置的兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)中：
[0018] y(t)=g(Vs(t)),
[0019] s(t) =f (Uow(t)+Uio(t)+Ps(t-1)),
[0020] 其中，y(t)是循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出，w表示句子中的詞語(yǔ)，o表示相應(yīng)詞語(yǔ)的詞性標(biāo)記，t表示當(dāng)前處理到第t個(gè)詞語(yǔ);w(t)表示第t個(gè)詞，o(t)表示第t個(gè)詞的詞性標(biāo)記；s (七）、8(卜1)分別表示第七個(gè)詞的向量表示和第卜1個(gè)詞的向量表示;1]〇、1]1、￥和?是已經(jīng)訓(xùn)練好的模型參數(shù)，通常是矩陣的形式，矩陣中的每一個(gè)元素可以任意的實(shí)數(shù)值，具體數(shù)值由系統(tǒng)自動(dòng)學(xué)習(xí)得出；f()和g()分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù)，Vs(t)，U 0W (t)，Uie(t)，Ps(t_l)均是矩陣相乘操作。
[0021] 利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對(duì)Sleft和Sright進(jìn)行打分，將循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出作為左、右短語(yǔ)的得分，分別記作Scor eief t和Scoreright。
[0022] 步驟2包括如下步驟：
[0023]步驟2-1，將左成分短語(yǔ)Sleft、右成分短語(yǔ)Sright及它們共同的上下文信息c同時(shí)輸入到單隱層的神經(jīng)網(wǎng)絡(luò)中，根據(jù)如下公式對(duì)并列結(jié)構(gòu)整體進(jìn)行打分：
[0024] h = f(Rc),
[0025] y = g(Q〇so(n2)+Qisi(m2)+Th)，
[0026] 其中，h是上下文信息的向量表示，y表示單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出，其中R、 Qo、QdPT是已經(jīng)訓(xùn)練好的模型參數(shù)，通常是矩陣的形式，矩陣中的每一個(gè)元素可以任意的實(shí) 數(shù)值，具體數(shù)值由系統(tǒng)自動(dòng)學(xué)習(xí)得出。m、m 2分別表示左成分短語(yǔ)的長(zhǎng)度和右成分短語(yǔ)的長(zhǎng) 度，SQ(n2WP S1(m2)分別表示左成分短語(yǔ)Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成分短語(yǔ)S right經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出就作為當(dāng)前并列結(jié)構(gòu)的得分，記作Score; Rc，Qqsq (Π2)，Qisi (m2)，Th均是矩陣相乘操作；
[0027] 步驟2-2，綜合考慮步驟1-2-2和步驟2-1中的打分，對(duì)Scoreieft，Scoreright，Score 計(jì)算平均值，選出平均分最高的并列結(jié)構(gòu)作為最佳的并列結(jié)構(gòu)。
[0028] 其中，f(z)和g(z)分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)和歸一化函數(shù)，具體形式為：
[0031 ]其中，z是激活函數(shù)和歸一化函數(shù)的輸入?yún)?shù)，e表示自然對(duì)數(shù)，X表示向量的維度， k是對(duì)向量元素的一個(gè)計(jì)數(shù)。
[0032] 有益效果:本發(fā)明同時(shí)綜合考慮了短語(yǔ)的局部信息和全局信息，以此作為基礎(chǔ)選擇最佳的并列結(jié)構(gòu)，提高了并列結(jié)構(gòu)的識(shí)別能力。
【附圖說明】
[0033] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明做更進(jìn)一步的具體說明，本發(fā)明的上述和/或其他方面的優(yōu)點(diǎn)將會(huì)變得更加清楚。
[0034] 圖1和圖2表示實(shí)施例1中句法樹分析過程中可能出現(xiàn)的兩個(gè)不同的句法樹。
[0035]圖3是本發(fā)明的流程圖。
[0036] 圖4和圖5表示實(shí)施例2中句法樹分析過程中可能出現(xiàn)的兩個(gè)不同的句法樹。
【具體實(shí)施方式】
[0037] 本發(fā)明提出了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法。首先利用句法分析技術(shù)找出可能的候選集合，然后使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器從候選集合中找出最佳的并列結(jié)構(gòu)?，F(xiàn)有系統(tǒng)中只能識(shí)別部分的并列結(jié)構(gòu)，比如只由逗號(hào)分隔的并列結(jié)構(gòu)、只由名詞組成的并列結(jié)構(gòu)等，這些方法和技術(shù)都無法做到自動(dòng)識(shí)別出任意一種自然語(yǔ)言中可能出現(xiàn)的并列結(jié)構(gòu)。
[0038] 如圖3所示，本發(fā)明公開了一種基于新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)識(shí)別自然語(yǔ)言中并列結(jié)構(gòu)的方法，基于本發(fā)明的系統(tǒng)統(tǒng)籌考慮了并列結(jié)構(gòu)的局部信息和整體信息，識(shí)別出最佳的并列結(jié)構(gòu)。圖3描述了本發(fā)明中提出的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
[0039] 本發(fā)明所述的識(shí)別自然語(yǔ)言中并列結(jié)構(gòu)的過程包括如下步驟：
[0040] 步驟11，計(jì)算機(jī)讀取一個(gè)包含待分析的自然語(yǔ)言句子文本文件，利用基于狀態(tài)轉(zhuǎn) 移方法的句法分析技術(shù)對(duì)輸入的句子進(jìn)行句法分析，此處的句法分析受到相應(yīng)的文法約束，只能對(duì)并列結(jié)構(gòu)進(jìn)行句法分析，分析得到一個(gè)并列結(jié)構(gòu)句法樹的候選集合。
[0041 ]步驟12，在并列結(jié)構(gòu)句法樹的候選集合中，抽取出所有可能的并列結(jié)構(gòu)候選，將這些候選的并列結(jié)構(gòu)輸入到本發(fā)明提出的新型神經(jīng)網(wǎng)絡(luò)中。
[0042]本發(fā)明所述的新型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器進(jìn)行識(shí)別過程如下：
[0043] 步驟21，系統(tǒng)接收候選并列結(jié)構(gòu)集合，從中抽取出并列結(jié)構(gòu)的左成分短語(yǔ)Sieft: W0Wl."Wn 和右成分短語(yǔ) SrightlW'm/ 1 …W'mo
[0044] 步驟22,將并列結(jié)構(gòu)的左右成分短語(yǔ)同時(shí)輸入到兩個(gè)具有相同參數(shù)的循環(huán)神經(jīng)網(wǎng) 絡(luò)結(jié)構(gòu)中，如圖2中方框內(nèi)結(jié)構(gòu)所示。通過兩個(gè)共享參數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，系統(tǒng)根據(jù)如下公式對(duì)Sleft和Sright打分：
[0045] y(t)=g(Vs(t))
[0046] s(t) =f (Uow(t)+Uio(t)+Ps(t-1))
[0047] 其中，y(t)是神經(jīng)網(wǎng)絡(luò)最終的輸出得分，w表示句子中的詞語(yǔ)，o表示相應(yīng)詞語(yǔ)的詞性標(biāo)記，t表示當(dāng)前處理到第t個(gè)詞語(yǔ);w(t)，o(t)分別表示第t個(gè)詞和它的詞性標(biāo)記;s(t)，s (t-1)分別表示第t個(gè)詞和第t-1個(gè)詞的向量表示，；U^UhV和P是已經(jīng)訓(xùn)練好的模型參數(shù)，通常是矩陣的形式，矩陣中的每一個(gè)元素可以任意的實(shí)數(shù)值，具體數(shù)值由系統(tǒng)自動(dòng)學(xué)習(xí)得出； f和g分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù)。利用該網(wǎng)絡(luò)分別對(duì)Slrft和Sright進(jìn)行打分，將網(wǎng)絡(luò)最終的輸出作為左右短語(yǔ)的得分，分別記作:Scoreirft和Scorerightc^VsU)，Uow (t)，Uie(t)，Ps(t_l)均是矩陣相乘操作。
[0048] 步驟23,將左成分短語(yǔ)Sleft、右成分短語(yǔ)Sright及其共同的上下文信息c同時(shí)輸入到一個(gè)單隱層的神經(jīng)網(wǎng)絡(luò)中，利用如下公式：
[0049] h = f(Rc)
[0050] y = g(Qos〇(n)+Qisi(m)+Th)
[00511對(duì)并列結(jié)構(gòu)整體打分。
[0052]其中，h是上下文信息的向量表示，y表示模型的最終輸出，其中R、Qo、Q^I^Bg 訓(xùn)練好的模型參數(shù)，通常是矩陣的形式，矩陣中的每一個(gè)元素可以任意的實(shí)數(shù)值，具體數(shù)值由系統(tǒng)自動(dòng)學(xué)習(xí)得出。n、m分別表不左成分短語(yǔ)的長(zhǎng)度和右成分短語(yǔ)的長(zhǎng)度，而S〇(n)和Si (m)分別表示左成分短語(yǔ)Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成分短語(yǔ)Sright經(jīng) 過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示；該網(wǎng)絡(luò)的輸出就作為當(dāng)前并列結(jié)構(gòu)的得分，記作 ScoreaRc^QQStKn)，Qisi(m)，Th均是矩陣相乘操作。
[0053] 步驟24,分別對(duì)左右短語(yǔ)和整體結(jié)構(gòu)打分之后，對(duì)這三者（Scoreief t，Scoreright， Score)的得分計(jì)算平均分，作為當(dāng)前并列結(jié)構(gòu)的最終得分。
[0054]步驟25,對(duì)所有候選的并列結(jié)構(gòu)執(zhí)行步驟21到步驟24的操作，從中選出得分最高的并列結(jié)構(gòu)，作為最佳并列結(jié)構(gòu)。
[0055] 實(shí)施例1
[0056] 本實(shí)施例利用新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別自然語(yǔ)言中并列結(jié)構(gòu)運(yùn)行過程如下所示：
[0057] 1.輸入待分析的自然語(yǔ)言句子："上海浦東開發(fā)與法制建設(shè)同步"，其中真正的并列結(jié)構(gòu)是"開發(fā)與法制建設(shè)"。
[0058] 2.系統(tǒng)開始對(duì)輸入的自然語(yǔ)言句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析，得到可能的句法分析樹，如圖1和圖2所示：
[0059 ] 3.對(duì)可能出現(xiàn)的并列結(jié)構(gòu)句法樹，系統(tǒng)抽取其并列結(jié)構(gòu)，對(duì)于圖1來說，抽取的并列結(jié)構(gòu)是"開發(fā)與法制"；對(duì)于圖2來說，抽取的并列結(jié)構(gòu)是"開發(fā)與法制建設(shè)"。
[0060] 4.將抽取出來的并列結(jié)構(gòu)Si= "開發(fā)與法制"和S2= "開發(fā)與法制建設(shè)"輸入到本發(fā) 明中的新型神經(jīng)網(wǎng)絡(luò)中。
[0061] 5.神經(jīng)網(wǎng)絡(luò)接收到輸入的并列結(jié)構(gòu)集合之后，對(duì)每一個(gè)并列結(jié)構(gòu)抽取出其左右短語(yǔ)，對(duì)于S 1來說，它的左短語(yǔ)="開發(fā)〃，右短語(yǔ)是法制w;而對(duì)于S2來說，它的左短語(yǔ)開發(fā)",右短語(yǔ)是法制建設(shè)'
[0062] 6.將同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中，利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分，得分分別為Score^ = 0.9和Score^_ = 0匕將5^和4_同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中，利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分，得分分別為= 0.9和Score^^ = 0.9「
[0063] 7.將S1和S2輸入到單隱層神經(jīng)網(wǎng)絡(luò)中，利用單隱層神經(jīng)網(wǎng)絡(luò)對(duì)并列結(jié)構(gòu)進(jìn)行打分， S1 的得分為 Score1 = 0 · 7，S2 的得分為 Score2 = 0 · 9〇
[0064] 8 .對(duì)Score^t、和Sc0r e1計(jì)算平均值化階1 = 0.733 :對(duì)Score^、 S:core^^PScore2計(jì)算平均彳|'丨.= pi由此判斷，S2的得分最高，因此"開發(fā)與法制建設(shè)"將會(huì)作為系統(tǒng)的最終輸出。
[0065] 實(shí)施例2
[0066] 本實(shí)施例利用新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別自然語(yǔ)言中并列結(jié)構(gòu)運(yùn)行過程如下所示：
[0067] 1.輸入待分析的自然語(yǔ)言句子："遇到過的新情況、新問題"，其中真正的并列結(jié)構(gòu) 是"新情況、新問題"。
[0068] 2.系統(tǒng)開始對(duì)輸入的自然語(yǔ)言句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析，得到可能的句法分析樹，如圖4和圖5所示：
[0069 ] 3.對(duì)可能出現(xiàn)的并列結(jié)構(gòu)句法樹，系統(tǒng)抽取其并列結(jié)構(gòu)，對(duì)于圖4來說，抽取的并列結(jié)構(gòu)是"新情況、新問題"；對(duì)于圖2來說，抽取的并列結(jié)構(gòu)是"情況、新問題"。
[0070] 4.將抽取出來的并列結(jié)構(gòu)Si= "新情況、新問題"和S2= "情況、新問題"輸入到本發(fā) 明中的新型神經(jīng)網(wǎng)絡(luò)中。
[0071] 5.神經(jīng)網(wǎng)絡(luò)接收到輸入的并列結(jié)構(gòu)集合之后，對(duì)每一個(gè)并列結(jié)構(gòu)抽取出其左右短語(yǔ)，對(duì)于S 1來說，它的左短語(yǔ)_4# 新情況'右短語(yǔ)是="新問題";而對(duì)于S2來說，它的左短語(yǔ)="情況"，右短語(yǔ)是="新問題〃。
[0072] 6.將5^和<_同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中，利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分，得分分別為Score^ = 0,85和Score^hf = 0決將5^和<_同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò) 中，利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分，得分分別為= 0.6和Score^^t 0:.9:6
[0073] 7.將S1和S2輸入到單隱層神經(jīng)網(wǎng)絡(luò)中，利用單隱層神經(jīng)網(wǎng)絡(luò)對(duì)并列結(jié)構(gòu)進(jìn)行打分， S1 的得分為 Score1 = 0 · 95，S2 的得分為 Score2 = 0 · 6〇
[0074] 8 ·對(duì) 5core^/t、5'core^t 和 s c。r e 1 計(jì)算平均值細(xì)fe1 = 0,9;對(duì) S_e0re^ft.、Seore二ft)^PIScore2計(jì)算平均值由此判斷， Sl的得分最高，因此"新情況和新問題"將會(huì)作為系統(tǒng)的最終輸出。
[0075]本發(fā)明提供了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法，具體實(shí)現(xiàn) 該技術(shù)方案的方法和途徑有很多，以上所述是本發(fā)明的優(yōu)選實(shí)施方式。本發(fā)明基于一種新型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，利用神經(jīng)網(wǎng)絡(luò)分別對(duì)并列結(jié)構(gòu)的各成分之間及整體進(jìn)行打分，使得系統(tǒng)能夠自動(dòng)識(shí)別出任意類型的并列結(jié)構(gòu)。在具體實(shí)踐中，本發(fā)明提出的方法與其它方式相比，不局限于特殊并列結(jié)構(gòu)，比如由逗號(hào)分隔的并列結(jié)構(gòu)、只有名詞組成的并列結(jié)構(gòu)等，能夠自動(dòng)識(shí)別出任意結(jié)構(gòu)的并列結(jié)構(gòu)。應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。本發(fā)明中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。
【主權(quán)項(xiàng)】
1. 基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法，其特征在于，包括如下步驟：步驟1，計(jì)算機(jī)讀取一個(gè)包含待分析的自然語(yǔ)言句子文本文件，對(duì)讀取的句子進(jìn)行針對(duì) 并列結(jié)構(gòu)的句法分析，得到并列結(jié)構(gòu)句法樹候選集合并輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器中；步驟2,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對(duì)并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)進(jìn)行打分，從中選出最佳的并列結(jié)構(gòu)。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟1包括如下步驟：步驟1-1，按照從左到右的順序依次讀取自然語(yǔ)言句子中的每個(gè)詞，利用基于狀態(tài)轉(zhuǎn)移技術(shù)的句法分析技術(shù)對(duì)輸入的句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析，分析后得到并列結(jié)構(gòu) 句法樹候選集合；步驟1-2,抽取并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)的左成分短語(yǔ)和右成分短語(yǔ)并進(jìn)行初步打分，將所有并列結(jié)構(gòu)的左成分短語(yǔ)和右成分短語(yǔ)輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器中。3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器由兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò) 和一個(gè)單隱層神經(jīng)網(wǎng)絡(luò)組成，兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)共享相同的參數(shù)設(shè)置，并且其隱層直接連接到單隱層神經(jīng)網(wǎng)絡(luò)的輸入層，兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)和單隱層神經(jīng)網(wǎng)絡(luò)具有單獨(dú)的輸出層，相互獨(dú)立，互不影響。4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，步驟1-2包括如下步驟：步驟1 -2-1，對(duì)并列結(jié)構(gòu)句法樹候選集合中的每一個(gè)并列結(jié)構(gòu)抽取出并列結(jié)構(gòu)的左成分短語(yǔ)Sleft和右成分短語(yǔ)Sright，Slef t - W0W1'' "Wnl j Sright - W OW 1'''W ml，其中，Wnl表小左成分" 短語(yǔ)中的第m個(gè)詞語(yǔ)，w' ^表示右成分短語(yǔ)中的第m個(gè)詞語(yǔ)；步驟1-2-2,利用如下公式將左成分短語(yǔ)Slrft和右成分短語(yǔ)Sright輸入到具有相同參數(shù) 設(shè)置的兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)中： y(t) = g(Vs(t)), s(t) = f (Uow(t)+Uio(t)+Ps(t-1)), 其中，y(t)是循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出，w表示句子中的詞語(yǔ)，〇表示相應(yīng)詞語(yǔ)的詞性標(biāo) 記，t表示當(dāng)前處理到第t個(gè)詞語(yǔ);w(t)表示第t個(gè)詞，o(t)表示第t個(gè)詞的詞性標(biāo)記;s(t)、s (t-ι)分別表示第t個(gè)詞的向量表示和第t-ι個(gè)詞的向量表示;UoU和P是已經(jīng)訓(xùn)練好的模型參數(shù);f()和g()分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù)，Vs(t)，U〇 W(t)，Uie (t)，Ps(t-1)均是矩陣相乘操作；利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對(duì)Sleft和Sright進(jìn)行打分，將循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出作為左、右短語(yǔ)的得分，分別記作Scor eief t和Scoreright 〇5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，步驟2包括如下步驟：步驟2-1，將左成分短語(yǔ)Sleft、右成分短語(yǔ)Sright及它們共同的上下文信息c同時(shí)輸入到單隱層的神經(jīng)網(wǎng)絡(luò)中，根據(jù)如下公式對(duì)并列結(jié)構(gòu)整體進(jìn)行打分： h = f(Rc)， y = g(Q〇s〇(n2)+Qisi(m2)+Th), 其中，h是上下文信息的向量表示，y表示單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出，其中R、Qo、QdP T是已經(jīng)訓(xùn)練好的模型參數(shù);n2、m2*別表示左成分短語(yǔ)的長(zhǎng)度和右成分短語(yǔ)的長(zhǎng)度，s〇(n 2) 和81(!112)分別表示左成分短語(yǔ)Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成分短語(yǔ) Sright經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出就作為當(dāng)前并列結(jié)構(gòu)的得分，記作3〇0代;1^，( >)()8()(112)，〇181(1112)，1'11均是矩陣相乘操作；步驟2-2,綜合考慮步驟1-2-2和步驟2-1中的打分，計(jì)算平均值，選出平均分最高的并列結(jié)構(gòu)作為最佳的并列結(jié)構(gòu)。6.根據(jù)權(quán)利要求5所述的方法，其特征在于，f(z)和g(z)分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù)，具體形式為：其中，Z是激活函數(shù)和歸一化函數(shù)的輸入?yún)?shù)，e表示自然對(duì)數(shù)，X表示向量的維度，k是對(duì)向量元素的一個(gè)計(jì)數(shù)。
【文檔編號(hào)】G06N3/08GK105868181SQ201610250258
【公開日】2016年8月17日
【申請(qǐng)日】2016年4月21日
【發(fā)明人】黃書劍, 周逸初, 戴新宇, 陳家駿, 張建兵
【申請(qǐng)人】南京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃書劍;周逸初;戴新宇;陳家駿;張建兵;
技術(shù)所有人：南京大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖相關(guān)技術(shù)

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖相關(guān)技術(shù)

bp神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖相關(guān)技術(shù)

bp神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法