基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法
【專利摘要】本發(fā)明提出了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法,包括:先對(duì)待分析的句子進(jìn)行句法分析處理,得到一個(gè)并列結(jié)構(gòu)的候選集合,然后利用新型的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對(duì)候選集合中的并列結(jié)構(gòu)進(jìn)行打分,從而選出最佳的并列結(jié)構(gòu)作為系統(tǒng)的最終輸出。本方法綜合考慮了并列結(jié)構(gòu)的短語(yǔ)獨(dú)立性和短語(yǔ)之間的相似性,提高了并列結(jié)構(gòu)識(shí)別精度。對(duì)比現(xiàn)有的其他技術(shù),本方法突出在能夠自動(dòng)識(shí)別出任意的并列結(jié)構(gòu),而其他技術(shù)只能識(shí)別出特定類型的并列結(jié)構(gòu),如只有名詞組成的并列結(jié)構(gòu)。本方法提出了一種更有效的并列結(jié)構(gòu)識(shí)別方法,在實(shí)際應(yīng)用中提高了識(shí)別質(zhì)量。
【專利說明】
基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種利用計(jì)算機(jī)自動(dòng)識(shí)別并列結(jié)構(gòu)的方法,特別是基于新型神經(jīng)網(wǎng)絡(luò) 的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法。
【背景技術(shù)】
[0002] 句法分析技術(shù),自上世紀(jì)90年代以來發(fā)展十分迅速,取得了很大的進(jìn)步,已經(jīng)成為 自然語(yǔ)言處理領(lǐng)域中的研究熱點(diǎn)。
[0003] 雖然句法分析處理技術(shù)已經(jīng)有了長(zhǎng)足的進(jìn)步,但目前的句法分析技術(shù)的實(shí)用性和 可用性并不非常高,對(duì)復(fù)雜句子的處理結(jié)果還不理想,尤其是對(duì)包含復(fù)雜結(jié)構(gòu)的句子,如并 列結(jié)構(gòu),句法分析的質(zhì)量還有提高。據(jù)統(tǒng)計(jì),在句法分析中約有10%的錯(cuò)誤是來自于并列結(jié) 構(gòu)。因此,在提升句法分析能力的難度越來越大的情況下,如何通過聚焦處理特殊結(jié)構(gòu),比 如并列結(jié)構(gòu),來提升句法分析的質(zhì)量成為了一個(gè)重要問題。
[0004]在句法分析技術(shù)中,一種非常高效的方式是基于狀態(tài)轉(zhuǎn)移方法的句法分析技術(shù), 其工作過程如下:輸入待分析的句子,系統(tǒng)按照詞為單位,從左至右一個(gè)接一個(gè)順序讀入詞 語(yǔ),每讀入一個(gè)詞語(yǔ),就可能對(duì)已讀入的詞語(yǔ)序列進(jìn)行規(guī)約操作,而何時(shí)進(jìn)行規(guī)約和進(jìn)行何 種規(guī)約操作將由已經(jīng)訓(xùn)練完畢的打分模型決定。隨著句子中的詞語(yǔ)一個(gè)接一個(gè)地讀入,樹 結(jié)構(gòu)將會(huì)越長(zhǎng)越大,當(dāng)把整個(gè)句子都讀入時(shí),句法樹也就分析完成了。由上可知,何時(shí)進(jìn)行 規(guī)約操作、進(jìn)行何種規(guī)約操作都是影響句法分析能力的重要因素。提前自動(dòng)識(shí)別出并列結(jié) 構(gòu)并將這部分信息輸入到句法分析系統(tǒng)中,將會(huì)幫助系統(tǒng)對(duì)上述兩個(gè)因素進(jìn)行正確的判 斷,對(duì)于整個(gè)句子的句法分析能力有很大的提升作用,本發(fā)明著重于并列結(jié)構(gòu)的自動(dòng)識(shí)別 研究,在實(shí)際使用中將會(huì)提高句法分析的質(zhì)量。
[0005] 在現(xiàn)有的發(fā)明技術(shù)中,均是針對(duì)一些特殊的并列結(jié)構(gòu)進(jìn)行自動(dòng)識(shí)別,比如只由逗 號(hào)分隔的并列結(jié)構(gòu)、只由名詞組成的并列結(jié)構(gòu)等,這些方法和技術(shù)都無法做到自動(dòng)識(shí)別出 任意一種自然語(yǔ)言中可能出現(xiàn)的并列結(jié)構(gòu)。因此,為了繼續(xù)提高句法分析的能力,需要尋求 能夠識(shí)別任意并列結(jié)構(gòu)的新方法。
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對(duì)目前并列結(jié)構(gòu)的識(shí)別只集中于識(shí)別 特殊的并列結(jié)構(gòu),并沒有足夠的泛化能力,對(duì)句法分析處理沒有起到提高作用的弱點(diǎn),提出 一種利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器自動(dòng)識(shí)別自然語(yǔ)言中任意并列結(jié)構(gòu)的方法。
[0007] 為了解決上述技術(shù)問題,本發(fā)明公開了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的 自動(dòng)識(shí)別方法。
[0008] 本發(fā)明所述利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)識(shí)別自然語(yǔ)言句子中并列結(jié)構(gòu)的方法包括以 下步驟:
[0009] 步驟1,計(jì)算機(jī)讀取一個(gè)包含待分析的自然語(yǔ)言句子文本文件,對(duì)讀取的句子進(jìn)行 針對(duì)并列結(jié)構(gòu)的句法分析,得到并列結(jié)構(gòu)句法樹候選集合并輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器中;
[0010] 步驟2,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對(duì)并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)進(jìn)行打分, 從中選出最佳的并列結(jié)構(gòu)。
[0011] 步驟1包括如下步驟:
[0012] 步驟1-1,按照從左到右的順序依次讀取自然語(yǔ)言句子中的每個(gè)詞,利用基于狀態(tài) 轉(zhuǎn)移技術(shù)的句法分析技術(shù)對(duì)輸入的句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析,分析后得到并列 結(jié)構(gòu)句法樹候選集合。
[0013 ]步驟1 -2,抽取并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)的左成分短語(yǔ)和右成 分短語(yǔ)并進(jìn)行初步打分,將所有并列結(jié)構(gòu)的左成分短語(yǔ)和右成分短語(yǔ)輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí) 器中。
[0014] 所述神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器由兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)和一個(gè)單隱層神經(jīng)網(wǎng)絡(luò)組成,兩個(gè)循環(huán) 神經(jīng)網(wǎng)絡(luò)共享相同的參數(shù)設(shè)置,并且其隱層直接連接到單隱層神經(jīng)網(wǎng)絡(luò)的輸入層,兩個(gè)循 環(huán)神經(jīng)網(wǎng)絡(luò)和單隱層神經(jīng)網(wǎng)絡(luò)具有單獨(dú)的輸出層,相互獨(dú)立,互不影響。
[0015] 步驟1-2包括如下步驟:
[0016] 步驟1 -2-1,對(duì)并列結(jié)構(gòu)句法樹候選集合中的每一個(gè)并列結(jié)構(gòu)抽取出并列結(jié)構(gòu)的 左成分短語(yǔ)Slef t和右成分短語(yǔ)Sright,Sleft - WQWl· · ·Wnl,Sright - W 0W 1'''W ml,其中,Wnl表/J、/£ 成分短語(yǔ)中的第m個(gè)詞語(yǔ),w' ^表示右成分短語(yǔ)中的第m個(gè)詞語(yǔ);
[0017] 步驟1-2-2,利用如下公式將左成分短語(yǔ)Sleft和右成分短語(yǔ)Sright輸入到具有相同 參數(shù)設(shè)置的兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)中:
[0018] y(t)=g(Vs(t)),
[0019] s(t) =f (Uow(t)+Uio(t)+Ps(t-1)),
[0020] 其中,y(t)是循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出,w表示句子中的詞語(yǔ),o表示相應(yīng)詞語(yǔ)的詞 性標(biāo)記,t表示當(dāng)前處理到第t個(gè)詞語(yǔ);w(t)表示第t個(gè)詞,o(t)表示第t個(gè)詞的詞性標(biāo)記;s (七)、8(卜1)分別表示第七個(gè)詞的向量表示和第卜1個(gè)詞的向量表示;1]〇、1]1、¥和?是已經(jīng)訓(xùn)練 好的模型參數(shù),通常是矩陣的形式,矩陣中的每一個(gè)元素可以任意的實(shí)數(shù)值,具體數(shù)值由系 統(tǒng)自動(dòng)學(xué)習(xí)得出;f()和g()分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù),Vs(t),U 0W (t),Uie(t),Ps(t_l)均是矩陣相乘操作。
[0021] 利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對(duì)Sleft和Sright進(jìn)行打分,將循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出作為 左、右短語(yǔ)的得分,分別記作Scor eief t和Scoreright。
[0022] 步驟2包括如下步驟:
[0023]步驟2-1,將左成分短語(yǔ)Sleft、右成分短語(yǔ)Sright及它們共同的上下文信息c同時(shí)輸 入到單隱層的神經(jīng)網(wǎng)絡(luò)中,根據(jù)如下公式對(duì)并列結(jié)構(gòu)整體進(jìn)行打分:
[0024] h = f(Rc),
[0025] y = g(Q〇so(n2)+Qisi(m2)+Th),
[0026] 其中,h是上下文信息的向量表示,y表示單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出,其中R、 Qo、QdPT是已經(jīng)訓(xùn)練好的模型參數(shù),通常是矩陣的形式,矩陣中的每一個(gè)元素可以任意的實(shí) 數(shù)值,具體數(shù)值由系統(tǒng)自動(dòng)學(xué)習(xí)得出。m、m 2分別表示左成分短語(yǔ)的長(zhǎng)度和右成分短語(yǔ)的長(zhǎng) 度,SQ(n2WP S1(m2)分別表示左成分短語(yǔ)Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成 分短語(yǔ)S right經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出就作 為當(dāng)前并列結(jié)構(gòu)的得分,記作Score; Rc,Qqsq (Π2),Qisi (m2),Th均是矩陣相乘操作;
[0027] 步驟2-2,綜合考慮步驟1-2-2和步驟2-1中的打分,對(duì)Scoreieft,Scoreright,Score 計(jì)算平均值,選出平均分最高的并列結(jié)構(gòu)作為最佳的并列結(jié)構(gòu)。
[0028] 其中,f(z)和g(z)分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)和歸一化函數(shù),具體形 式為:
[0031 ]其中,z是激活函數(shù)和歸一化函數(shù)的輸入?yún)?shù),e表示自然對(duì)數(shù),X表示向量的維度, k是對(duì)向量元素的一個(gè)計(jì)數(shù)。
[0032] 有益效果:本發(fā)明同時(shí)綜合考慮了短語(yǔ)的局部信息和全局信息,以此作為基礎(chǔ)選 擇最佳的并列結(jié)構(gòu),提高了并列結(jié)構(gòu)的識(shí)別能力。
【附圖說明】
[0033] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述 和/或其他方面的優(yōu)點(diǎn)將會(huì)變得更加清楚。
[0034] 圖1和圖2表示實(shí)施例1中句法樹分析過程中可能出現(xiàn)的兩個(gè)不同的句法樹。
[0035]圖3是本發(fā)明的流程圖。
[0036] 圖4和圖5表示實(shí)施例2中句法樹分析過程中可能出現(xiàn)的兩個(gè)不同的句法樹。
【具體實(shí)施方式】
[0037] 本發(fā)明提出了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法。首先利用 句法分析技術(shù)找出可能的候選集合,然后使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器從候選集合中找出最佳的并 列結(jié)構(gòu)?,F(xiàn)有系統(tǒng)中只能識(shí)別部分的并列結(jié)構(gòu),比如只由逗號(hào)分隔的并列結(jié)構(gòu)、只由名詞組 成的并列結(jié)構(gòu)等,這些方法和技術(shù)都無法做到自動(dòng)識(shí)別出任意一種自然語(yǔ)言中可能出現(xiàn)的 并列結(jié)構(gòu)。
[0038] 如圖3所示,本發(fā)明公開了一種基于新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)識(shí)別自然語(yǔ)言中并列 結(jié)構(gòu)的方法,基于本發(fā)明的系統(tǒng)統(tǒng)籌考慮了并列結(jié)構(gòu)的局部信息和整體信息,識(shí)別出最佳 的并列結(jié)構(gòu)。圖3描述了本發(fā)明中提出的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
[0039] 本發(fā)明所述的識(shí)別自然語(yǔ)言中并列結(jié)構(gòu)的過程包括如下步驟:
[0040] 步驟11,計(jì)算機(jī)讀取一個(gè)包含待分析的自然語(yǔ)言句子文本文件,利用基于狀態(tài)轉(zhuǎn) 移方法的句法分析技術(shù)對(duì)輸入的句子進(jìn)行句法分析,此處的句法分析受到相應(yīng)的文法約 束,只能對(duì)并列結(jié)構(gòu)進(jìn)行句法分析,分析得到一個(gè)并列結(jié)構(gòu)句法樹的候選集合。
[0041 ]步驟12,在并列結(jié)構(gòu)句法樹的候選集合中,抽取出所有可能的并列結(jié)構(gòu)候選,將這 些候選的并列結(jié)構(gòu)輸入到本發(fā)明提出的新型神經(jīng)網(wǎng)絡(luò)中。
[0042]本發(fā)明所述的新型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器進(jìn)行識(shí)別過程如下:
[0043] 步驟21,系統(tǒng)接收候選并列結(jié)構(gòu)集合,從中抽取出并列結(jié)構(gòu)的左成分短語(yǔ)Sieft: W0Wl."Wn 和右成分短語(yǔ) SrightlW'm/ 1 …W'mo
[0044] 步驟22,將并列結(jié)構(gòu)的左右成分短語(yǔ)同時(shí)輸入到兩個(gè)具有相同參數(shù)的循環(huán)神經(jīng)網(wǎng) 絡(luò)結(jié)構(gòu)中,如圖2中方框內(nèi)結(jié)構(gòu)所示。通過兩個(gè)共享參數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),系統(tǒng)根據(jù)如下公 式對(duì)Sleft和Sright打分:
[0045] y(t)=g(Vs(t))
[0046] s(t) =f (Uow(t)+Uio(t)+Ps(t-1))
[0047] 其中,y(t)是神經(jīng)網(wǎng)絡(luò)最終的輸出得分,w表示句子中的詞語(yǔ),o表示相應(yīng)詞語(yǔ)的詞 性標(biāo)記,t表示當(dāng)前處理到第t個(gè)詞語(yǔ);w(t),o(t)分別表示第t個(gè)詞和它的詞性標(biāo)記;s(t),s (t-1)分別表示第t個(gè)詞和第t-1個(gè)詞的向量表示,;U^UhV和P是已經(jīng)訓(xùn)練好的模型參數(shù),通 常是矩陣的形式,矩陣中的每一個(gè)元素可以任意的實(shí)數(shù)值,具體數(shù)值由系統(tǒng)自動(dòng)學(xué)習(xí)得出; f和g分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù)。利用該網(wǎng)絡(luò)分別對(duì)Slrft和Sright進(jìn)行 打分,將網(wǎng)絡(luò)最終的輸出作為左右短語(yǔ)的得分,分別記作:Scoreirft和Scorerightc^VsU),Uow (t),Uie(t),Ps(t_l)均是矩陣相乘操作。
[0048] 步驟23,將左成分短語(yǔ)Sleft、右成分短語(yǔ)Sright及其共同的上下文信息c同時(shí)輸入到 一個(gè)單隱層的神經(jīng)網(wǎng)絡(luò)中,利用如下公式:
[0049] h = f(Rc)
[0050] y = g(Qos〇(n)+Qisi(m)+Th)
[00511對(duì)并列結(jié)構(gòu)整體打分。
[0052]其中,h是上下文信息的向量表示,y表示模型的最終輸出,其中R、Qo、Q^I^Bg 訓(xùn)練好的模型參數(shù),通常是矩陣的形式,矩陣中的每一個(gè)元素可以任意的實(shí)數(shù)值,具體數(shù)值 由系統(tǒng)自動(dòng)學(xué)習(xí)得出。n、m分別表不左成分短語(yǔ)的長(zhǎng)度和右成分短語(yǔ)的長(zhǎng)度,而S〇(n)和Si (m)分別表示左成分短語(yǔ)Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成分短語(yǔ)Sright經(jīng) 過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該網(wǎng)絡(luò)的輸出就作為當(dāng)前并列結(jié)構(gòu)的得分,記作 ScoreaRc^QQStKn),Qisi(m),Th均是矩陣相乘操作。
[0053] 步驟24,分別對(duì)左右短語(yǔ)和整體結(jié)構(gòu)打分之后,對(duì)這三者(Scoreief t,Scoreright, Score)的得分計(jì)算平均分,作為當(dāng)前并列結(jié)構(gòu)的最終得分。
[0054]步驟25,對(duì)所有候選的并列結(jié)構(gòu)執(zhí)行步驟21到步驟24的操作,從中選出得分最高 的并列結(jié)構(gòu),作為最佳并列結(jié)構(gòu)。
[0055] 實(shí)施例1
[0056] 本實(shí)施例利用新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別自然語(yǔ)言中并列結(jié)構(gòu)運(yùn)行過程如下所示:
[0057] 1.輸入待分析的自然語(yǔ)言句子:"上海浦東開發(fā)與法制建設(shè)同步",其中真正的并 列結(jié)構(gòu)是"開發(fā)與法制建設(shè)"。
[0058] 2.系統(tǒng)開始對(duì)輸入的自然語(yǔ)言句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析,得到可能的 句法分析樹,如圖1和圖2所示:
[0059 ] 3.對(duì)可能出現(xiàn)的并列結(jié)構(gòu)句法樹,系統(tǒng)抽取其并列結(jié)構(gòu),對(duì)于圖1來說,抽取的并 列結(jié)構(gòu)是"開發(fā)與法制";對(duì)于圖2來說,抽取的并列結(jié)構(gòu)是"開發(fā)與法制建設(shè)"。
[0060] 4.將抽取出來的并列結(jié)構(gòu)Si= "開發(fā)與法制"和S2= "開發(fā)與法制建設(shè)"輸入到本發(fā) 明中的新型神經(jīng)網(wǎng)絡(luò)中。
[0061] 5.神經(jīng)網(wǎng)絡(luò)接收到輸入的并列結(jié)構(gòu)集合之后,對(duì)每一個(gè)并列結(jié)構(gòu)抽取出其左右短 語(yǔ),對(duì)于S 1來說,它的左短語(yǔ)="開發(fā)〃,右短語(yǔ)是法制w;而對(duì)于S2來說,它的左 短語(yǔ)開發(fā)",右短語(yǔ)是法制建設(shè)'
[0062] 6.將同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分, 得分分別為Score^ = 0.9和Score^_ = 0匕將5^和4_同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中, 利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分,得分分別為= 0.9和Score^^ = 0.9「
[0063] 7.將S1和S2輸入到單隱層神經(jīng)網(wǎng)絡(luò)中,利用單隱層神經(jīng)網(wǎng)絡(luò)對(duì)并列結(jié)構(gòu)進(jìn)行打分, S1 的得分為 Score1 = 0 · 7,S2 的得分為 Score2 = 0 · 9〇
[0064] 8 .對(duì)Score^t、和Sc0r e1計(jì)算平均值化階1 = 0.733 :對(duì)Score^、 S:core^^PScore2計(jì)算平均彳|'丨.= pi由此判斷,S2的得分最高,因此"開發(fā)與法制建 設(shè)"將會(huì)作為系統(tǒng)的最終輸出。
[0065] 實(shí)施例2
[0066] 本實(shí)施例利用新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別自然語(yǔ)言中并列結(jié)構(gòu)運(yùn)行過程如下所示:
[0067] 1.輸入待分析的自然語(yǔ)言句子:"遇到過的新情況、新問題",其中真正的并列結(jié)構(gòu) 是"新情況、新問題"。
[0068] 2.系統(tǒng)開始對(duì)輸入的自然語(yǔ)言句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析,得到可能的 句法分析樹,如圖4和圖5所示:
[0069 ] 3.對(duì)可能出現(xiàn)的并列結(jié)構(gòu)句法樹,系統(tǒng)抽取其并列結(jié)構(gòu),對(duì)于圖4來說,抽取的并 列結(jié)構(gòu)是"新情況、新問題";對(duì)于圖2來說,抽取的并列結(jié)構(gòu)是"情況、新問題"。
[0070] 4.將抽取出來的并列結(jié)構(gòu)Si= "新情況、新問題"和S2= "情況、新問題"輸入到本發(fā) 明中的新型神經(jīng)網(wǎng)絡(luò)中。
[0071] 5.神經(jīng)網(wǎng)絡(luò)接收到輸入的并列結(jié)構(gòu)集合之后,對(duì)每一個(gè)并列結(jié)構(gòu)抽取出其左右短 語(yǔ),對(duì)于S 1來說,它的左短語(yǔ)_4# 新情況'右短語(yǔ)是="新問題";而對(duì)于S2來說,它 的左短語(yǔ)="情況",右短語(yǔ)是="新問題〃。
[0072] 6.將5^和<_同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分, 得分分別為Score^ = 0,85和Score^hf = 0決將5^和<_同時(shí)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò) 中,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行打分,得分分別為= 0.6和Score^^t 0:.9:6
[0073] 7.將S1和S2輸入到單隱層神經(jīng)網(wǎng)絡(luò)中,利用單隱層神經(jīng)網(wǎng)絡(luò)對(duì)并列結(jié)構(gòu)進(jìn)行打分, S1 的得分為 Score1 = 0 · 95,S2 的得分為 Score2 = 0 · 6〇
[0074] 8 ·對(duì) 5core^/t、5'core^t 和 s c。r e 1 計(jì)算平均值細(xì)fe1 = 0,9;對(duì) S_e0re^ft.、Seore二ft)^PIScore2計(jì)算平均值由此判斷, Sl的得分最高,因此"新 情況和新問題"將會(huì)作為系統(tǒng)的最終輸出。
[0075]本發(fā)明提供了基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法,具體實(shí)現(xiàn) 該技術(shù)方案的方法和途徑有很多,以上所述是本發(fā)明的優(yōu)選實(shí)施方式。本發(fā)明基于一種新 型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用神經(jīng)網(wǎng)絡(luò)分別對(duì)并列結(jié)構(gòu)的各成分之間及整體進(jìn)行打分,使得系 統(tǒng)能夠自動(dòng)識(shí)別出任意類型的并列結(jié)構(gòu)。在具體實(shí)踐中,本發(fā)明提出的方法與其它方式相 比,不局限于特殊并列結(jié)構(gòu),比如由逗號(hào)分隔的并列結(jié)構(gòu)、只有名詞組成的并列結(jié)構(gòu)等,能 夠自動(dòng)識(shí)別出任意結(jié)構(gòu)的并列結(jié)構(gòu)。應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不 脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明 的保護(hù)范圍。本發(fā)明中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。
【主權(quán)項(xiàng)】
1. 基于新型神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言并列結(jié)構(gòu)的自動(dòng)識(shí)別方法,其特征在于,包括如下步 驟: 步驟1,計(jì)算機(jī)讀取一個(gè)包含待分析的自然語(yǔ)言句子文本文件,對(duì)讀取的句子進(jìn)行針對(duì) 并列結(jié)構(gòu)的句法分析,得到并列結(jié)構(gòu)句法樹候選集合并輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器中; 步驟2,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對(duì)并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)進(jìn)行打分,從中 選出最佳的并列結(jié)構(gòu)。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1包括如下步驟: 步驟1-1,按照從左到右的順序依次讀取自然語(yǔ)言句子中的每個(gè)詞,利用基于狀態(tài)轉(zhuǎn)移 技術(shù)的句法分析技術(shù)對(duì)輸入的句子進(jìn)行只針對(duì)并列結(jié)構(gòu)的句法分析,分析后得到并列結(jié)構(gòu) 句法樹候選集合; 步驟1-2,抽取并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)的左成分短語(yǔ)和右成分短 語(yǔ)并進(jìn)行初步打分,將所有并列結(jié)構(gòu)的左成分短語(yǔ)和右成分短語(yǔ)輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器 中。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器由兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò) 和一個(gè)單隱層神經(jīng)網(wǎng)絡(luò)組成,兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)共享相同的參數(shù)設(shè)置,并且其隱層直接連 接到單隱層神經(jīng)網(wǎng)絡(luò)的輸入層,兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)和單隱層神經(jīng)網(wǎng)絡(luò)具有單獨(dú)的輸出層, 相互獨(dú)立,互不影響。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,步驟1-2包括如下步驟: 步驟1 -2-1,對(duì)并列結(jié)構(gòu)句法樹候選集合中的每一個(gè)并列結(jié)構(gòu)抽取出并列結(jié)構(gòu)的左成 分短語(yǔ)Sleft和右成分短語(yǔ)Sright,Slef t - W0W1'' "Wnl j Sright - W OW 1'''W ml,其中,Wnl表小左成分" 短語(yǔ)中的第m個(gè)詞語(yǔ),w' ^表示右成分短語(yǔ)中的第m個(gè)詞語(yǔ); 步驟1-2-2,利用如下公式將左成分短語(yǔ)Slrft和右成分短語(yǔ)Sright輸入到具有相同參數(shù) 設(shè)置的兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)中: y(t) = g(Vs(t)), s(t) = f (Uow(t)+Uio(t)+Ps(t-1)), 其中,y(t)是循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出,w表示句子中的詞語(yǔ),〇表示相應(yīng)詞語(yǔ)的詞性標(biāo) 記,t表示當(dāng)前處理到第t個(gè)詞語(yǔ);w(t)表示第t個(gè)詞,o(t)表示第t個(gè)詞的詞性標(biāo)記;s(t)、s (t-ι)分別表示第t個(gè)詞的向量表示和第t-ι個(gè)詞的向量表示;UoU和P是已經(jīng)訓(xùn)練好的模 型參數(shù);f()和g()分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù),Vs(t),U〇 W(t),Uie (t),Ps(t-1)均是矩陣相乘操作; 利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對(duì)Sleft和Sright進(jìn)行打分,將循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出作為左、 右短語(yǔ)的得分,分別記作Scor eief t和Scoreright 〇5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟2包括如下步驟: 步驟2-1,將左成分短語(yǔ)Sleft、右成分短語(yǔ)Sright及它們共同的上下文信息c同時(shí)輸入到 單隱層的神經(jīng)網(wǎng)絡(luò)中,根據(jù)如下公式對(duì)并列結(jié)構(gòu)整體進(jìn)行打分: h = f(Rc), y = g(Q〇s〇(n2)+Qisi(m2)+Th), 其中,h是上下文信息的向量表示,y表示單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出,其中R、Qo、QdP T是已經(jīng)訓(xùn)練好的模型參數(shù);n2、m2*別表示左成分短語(yǔ)的長(zhǎng)度和右成分短語(yǔ)的長(zhǎng)度,s〇(n 2) 和81(!112)分別表示左成分短語(yǔ)Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成分短語(yǔ) Sright經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出就作為當(dāng)前 并列結(jié)構(gòu)的得分,記作3〇0代;1^,( >)()8()(112),〇181(1112),1'11均是矩陣相乘操作; 步驟2-2,綜合考慮步驟1-2-2和步驟2-1中的打分,計(jì)算平均值,選出平均分最高的并 列結(jié)構(gòu)作為最佳的并列結(jié)構(gòu)。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,f(z)和g(z)分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活 函數(shù)和歸一化函數(shù),具體形式為:其中,Z是激活函數(shù)和歸一化函數(shù)的輸入?yún)?shù),e表示自然對(duì)數(shù),X表示向量的維度,k是 對(duì)向量元素的一個(gè)計(jì)數(shù)。
【文檔編號(hào)】G06N3/08GK105868181SQ201610250258
【公開日】2016年8月17日
【申請(qǐng)日】2016年4月21日
【發(fā)明人】黃書劍, 周逸初, 戴新宇, 陳家駿, 張建兵
【申請(qǐng)人】南京大學(xué)