專利名稱:可減少運(yùn)算量的cyk算法進(jìn)行語法分析的方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種CYK運(yùn)算方法,尤其是一種可減少運(yùn)算量的CYK算法進(jìn) 行語法分析的方法及其裝置。
背景技術(shù):
語法是一種用來描述語言架構(gòu)的規(guī)則。例如,用來描述人類中文自然語言 的規(guī)則為中文語法;用來描述電子計(jì)算器編程C語言的語法為C語言語法。而 所謂語法分析,就是將一個句子分解成一些小的組成部分,例如詞、詞組或 子句等,并了解這些組成部分之間的關(guān)系,從而幫助我們把握這個句子的意義。
為了使電子計(jì)算器能夠進(jìn)行語法分析及處理,通常必須使用上下文無關(guān)語 法來描述和代表語法規(guī)則。上下文無關(guān)語法是由若干產(chǎn)生式所構(gòu)成,產(chǎn)生式的 形式如下
S -> np vp
叩-〉n
np -> a n
叩-> n c n
vp -> v n
即
句子-〉名詞詞組力n動詞詞組 名詞詞組-> 名詞 名詞詞組-> 形容詞加名詞 名詞詞組-〉名詞力n連詞加名詞 動詞詞組-> 動詞力b名詞
上述產(chǎn)生式即可構(gòu)成上下文無關(guān)語法,并用來描述簡單的中文語法規(guī)則。
其中S、叩及vp被稱作非終結(jié)符號,代表其并非單一詞組;n、 v、 c、 a則被稱 作終結(jié)符號。非終結(jié)符號和終結(jié)符號統(tǒng)稱為語法符號,其中非終結(jié)符號S又被稱為開始符號,它所規(guī)范的一連串語法符號就是符合語法定義的語言。
舉例而言,參見圖l,為由產(chǎn)生式所衍生的符合中文語法規(guī)則的語言,我們 將其稱為語法樹。它描述的是一個符合上文定義的上下文無關(guān)語法的中文語句。 而計(jì)算機(jī)進(jìn)行語法分析的過程就是利用輸入的句子和上下文無關(guān)語法中的產(chǎn)生 式來產(chǎn)生語法樹。由于上下文無關(guān)語法的產(chǎn)生式比較靈活,所以分析起來比較 困難。舉例而言,名詞子句的構(gòu)成成分有形容詞加名詞、副詞加名詞或形容詞 詞組加名詞等組合。
CYK運(yùn)算方法是一種基于Chomsky范式的語法分析方法,且只能對滿足 Chomsky范式的語法進(jìn)行分析,CYK運(yùn)算方法的規(guī)則簡單,不需要回溯處理。 而Chomsky范式則只有兩種類型的產(chǎn)生式
A->BC
D->e
其中A、 D為非終結(jié)符號,B、 C可為終結(jié)符號或非終結(jié)符號,e為終結(jié)符
號
當(dāng)習(xí)知的CYK運(yùn)算方法在進(jìn)行語法分析時,分析過程中的語法符號被保存 在如圖二所示的二維矩陣數(shù)據(jù)架構(gòu)中。矩陣中的每個元素P ( i,j )對應(yīng)到句 子中跨度范圍內(nèi)可能的非終結(jié)符號的集合。其中,i表示跨度左側(cè)第一個詞組的 位置,j表示跨度包含詞組的數(shù)目。
舉例而言,圖2中P (2 , 1)表示"喜歡"中左側(cè)第一個詞組"喜歡"是句 子中第二個詞組,因此1=2;而"喜歡"僅具備詞組,因此j^。同理,P (2,3) 表示"喜歡大房間"中左側(cè)第一個詞組"喜歡"是句子中第二個詞組,所以 i=2;而"喜歡大房間"包含三個詞組,所以j-3。如果最頂層的P (1, 4)可 以規(guī)范成為開始符號"S ",就表示輸入的句子可以產(chǎn)生語法樹,且輸入的句子 符合語法規(guī)則。
由于相同的產(chǎn)生式左側(cè)語法符號,可以對應(yīng)到不同的右側(cè)組成部分。因此, 矩陣每個元素中可能將出現(xiàn)許多重復(fù)的語法符號。在使用規(guī)模(產(chǎn)生式數(shù)量) 龐大的上下文無關(guān)語法進(jìn)行分析時,這種現(xiàn)象尤為突出。當(dāng)計(jì)算機(jī)處理較復(fù)雜 的句子時,參見圖3,參與到分析過程的產(chǎn)生式的數(shù)量將變得非常多,甚至高達(dá)上萬種組合。因此計(jì)算機(jī)需要使用極大容量的二維矩陣來儲存所有可能的產(chǎn)生 式,也使整體的處理速度變得十分緩慢。
有鑒于背景技術(shù)的各項(xiàng)問題,為了能夠兼顧解決,本發(fā)明人基于多年研究 開發(fā)與諸多實(shí)踐經(jīng)驗(yàn),提出一種可減少運(yùn)算量的CYK運(yùn)算方法及其裝置,以作 為改善上述缺點(diǎn)的實(shí)現(xiàn)方式與依據(jù)。
發(fā)明內(nèi)容
本發(fā)明為解決背景技術(shù)中存在的上述技術(shù)問題,而提出一種可減少運(yùn)算量
的CYK算法進(jìn)行語法分析的方法。
本發(fā)明的技術(shù)解決方案是本發(fā)明為一種可減少運(yùn)算量的CYK算法進(jìn)行語
法分析的方法,其特殊之處在于該方法包含下列步驟
1) 對上下文無關(guān)語法的產(chǎn)生式進(jìn)行Chomsky范式轉(zhuǎn)換,得出多個符合 Chomsky形式的產(chǎn)生式;
2) 使用CYK運(yùn)算方法根據(jù)產(chǎn)生式對上下文無關(guān)語法句進(jìn)行分析,并填入 規(guī)約符號表;
3) 檢查這些產(chǎn)生式是否包含機(jī)率信息;是則進(jìn)至步驟4);
4) 根據(jù)機(jī)率信息選擇要填入二維數(shù)組的規(guī)約符號;
5) 將規(guī)約符號填入二維數(shù)組中。 上所述步驟l)的具體步驟如下
1.1) 對上下文無關(guān)語法的產(chǎn)生式執(zhí)行Chomsky范式轉(zhuǎn)換,使其具備符合 Chomsky范式的產(chǎn)生式及虛擬產(chǎn)生式;
1.2) 引入虛擬規(guī)約符號以規(guī)范虛擬產(chǎn)生式;
1.3) 對虛擬產(chǎn)生式重復(fù)執(zhí)行Chomsky范式轉(zhuǎn)換,使上下文無關(guān)語法的產(chǎn)生 式轉(zhuǎn)換為多個符合Chomsky范式的產(chǎn)生式及多個虛擬規(guī)約符號;
1.4) 將多個產(chǎn)生式及多個虛擬規(guī)約符號依序填入儲存數(shù)組。
上述步驟2)中使用CYK運(yùn)算方法根據(jù)產(chǎn)生式對上下文無關(guān)語法句進(jìn)行分 析的具體步驟如下
2.1) 首先在現(xiàn)有的矩陣中加入規(guī)約符號表的數(shù)據(jù)結(jié)構(gòu);
2.2) 此數(shù)據(jù)結(jié)構(gòu)對每個現(xiàn)有的矩陣的元素進(jìn)行擴(kuò)展程序,將先前矩陣元素P (i,j)從底部到頂部依次擴(kuò)展填充符號表L (i,j)而產(chǎn)生新矩陣; 上g述2.2)中的擴(kuò)展程序的具體步驟如下
2.2.1) 擴(kuò)展程序首先檢査矩陣中是否存在產(chǎn)生式左部符號,若否,進(jìn)至步
驟2.2.2),若是則直接步驟2.2.3);
2.2.2) 則添加左部符號到規(guī)約符號表;
2.2.3) 最后再添加產(chǎn)生式到左部符號對應(yīng)的表格中。
上述步驟2)中當(dāng)規(guī)約符號表中加入了新符號時,在特殊產(chǎn)生式集合中尋找 以新符號為右部的產(chǎn)生式,并檢查是否存在符合條件的產(chǎn)生式,若是,則將該 產(chǎn)生式也加入規(guī)約符號表中;
上述步驟4)的具體步驟如下
4.1 )比較待加入的產(chǎn)生式與規(guī)約符號表中已存在的產(chǎn)生式的機(jī)率;
4.2) 并檢查規(guī)約符號表中有無此符號或者有新的產(chǎn)生式機(jī)率更高;若否, 進(jìn)至步驟4.4),若是則直接步驟4.3);
4.3) 添加新的產(chǎn)生式到規(guī)約符號表中,并刪除舊的產(chǎn)生式;
4.4) 刪除新的產(chǎn)生式。
一種實(shí)現(xiàn)上述的可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法的裝置,其 特殊之處在于該置包括輸入單元,用來接收上下文無關(guān)語法及上下文無關(guān) 語法句;儲存單元,用來提供儲存數(shù)組及多個規(guī)約符號;處理單元,用來對上 下文無關(guān)語法的產(chǎn)生式執(zhí)行Chomsky范式轉(zhuǎn)換,使其具備符合Chomsky范式的 產(chǎn)生式及虛擬產(chǎn)生式,并引入虛擬規(guī)約符號以規(guī)范虛擬產(chǎn)生式,以及對虛擬產(chǎn) 生式重復(fù)執(zhí)行Chomsky范式轉(zhuǎn)換,使上下文無關(guān)語法的產(chǎn)生式轉(zhuǎn)換為多個符合 Chomsky范式形式的產(chǎn)生式及多個虛擬規(guī)約符號,再將產(chǎn)生式及虛擬規(guī)約符號 存入儲存數(shù)組,根據(jù)轉(zhuǎn)換后的上下文無關(guān)語法對輸入的上下文無關(guān)語法句進(jìn)行
語法分析,將參與分析的產(chǎn)生式放入規(guī)約符號表,輸入單元接入處理單元,處
理單元與儲存單元相接。
上述儲存單元包括規(guī)約符號表。 上述儲存單元包括產(chǎn)生式機(jī)率統(tǒng)計(jì)表。
本發(fā)明提供的CYK算法進(jìn)行語法分析的方法及其裝置,可減少CYK算法在進(jìn)行語法分析時的運(yùn)算量。
圖1為背景技術(shù)語法樹的示意圖2為背景技術(shù)二維數(shù)組的示意圖3為背景技術(shù)語法樹的另一示意圖4為本發(fā)明可減少運(yùn)算量的上下文無關(guān)語法進(jìn)行Chomsky范式轉(zhuǎn)換運(yùn)算 方法的流程圖5為本發(fā)明的方法的實(shí)施例詳細(xì)流程圖6為本發(fā)明二維數(shù)組的填充符號表示意圖7為本發(fā)明擴(kuò)展程序流程圖8為本發(fā)明符號規(guī)則檢查程序流程圖9為本發(fā)明機(jī)率選擇機(jī)制的流程圖IO為本發(fā)明的裝置功能方塊圖11為本發(fā)明的裝置的實(shí)施例詳細(xì)功能方塊圖。 其中,100-輸入單元,110-上下文無關(guān)語法句,120-上下文無關(guān)語法,200-處理單元,210-執(zhí)行Chomsky范式轉(zhuǎn)換,220-語法分析,230-符號規(guī)則檢查程序, 300-儲存單元,310-儲存數(shù)組,320-規(guī)約符號表,330-產(chǎn)生式機(jī)率統(tǒng)計(jì)表;
具體實(shí)施例方式
參見圖4,如步驟Sll所示,本方法首先對上下文無關(guān)語法的產(chǎn)生式執(zhí)行 Chomsky范式轉(zhuǎn)換,使其具備符合Chomsky范式形式的產(chǎn)生式及虛擬產(chǎn)生式, 然后引入虛擬規(guī)約符號規(guī)范虛擬產(chǎn)生式(步驟S12),再對虛擬產(chǎn)生式重復(fù)執(zhí)行 Chomsky范式轉(zhuǎn)換,使原上下文無關(guān)語法的產(chǎn)生式轉(zhuǎn)換為多個Chomsky范式形 式的產(chǎn)生式及多個虛擬規(guī)約符號(步驟S13),最后,如步驟S14所示,將這些 產(chǎn)生式及虛擬規(guī)約符號依序填入儲存數(shù)組。
參見圖5,如步驟S21所示,本實(shí)施例對上下文無關(guān)語法進(jìn)行Chomsky范 式轉(zhuǎn)換,此上下文無關(guān)語法的產(chǎn)生式可以表示為如下形式
A->B[C〗[D〗[E][F〗[..'〗
產(chǎn)生式的右部由大于或等于一個的任意多個語法符號所構(gòu)成。這些語法符號可以是終結(jié)符號,也可以是非終結(jié)符號。產(chǎn)生式的左部則由一個非終結(jié)符號 所構(gòu)成。
上述的產(chǎn)生式可以由下面這組產(chǎn)生式來表示
A-〉B VI VI -> C V2 V2國> D V3 V3 -〉 E V4 V4 ->F…
其中,新產(chǎn)生的虛擬規(guī)約符號V1,V2,V3,V4…,可稱為虛非終結(jié)符號,這 些虛擬規(guī)約符號與非終結(jié)符號功能相似,用來輔助語法分析。然而,以這些虛 非終結(jié)符號為左部的產(chǎn)生式,本身并沒有實(shí)際意義。例如
叩-> n c n
可以轉(zhuǎn)換成為
叩-> n VI VI -> c n
其中,虛擬規(guī)約符號V1只用來輔助進(jìn)行分析,而產(chǎn)生式Vl-〉cn其實(shí)并 不是符合文法規(guī)則的語法。
如此,任何一個右部符號個數(shù)大于二的產(chǎn)生式都可以被轉(zhuǎn)換成一組具有 Chomsky范式A-〉 B C類型的產(chǎn)生式,且其數(shù)量比原產(chǎn)生式右部符號個數(shù)少一 個。而任何一個右部符號個數(shù)等于二的產(chǎn)生式也都滿足Chomsky范式A -> B C 的形式。且任何一個右部符號個數(shù)等于一的產(chǎn)生式,在實(shí)務(wù)上可分成兩類一 類與Chomsky范式D》e類型相同,即右部為終結(jié)符;另一類產(chǎn)生式的右部符 號為非終結(jié)符,本實(shí)施例先將此類特殊產(chǎn)生式記錄下來,留待后續(xù)處理。
然后,如步驟S22所示,本實(shí)施例使用CYK運(yùn)算方法根據(jù)上述經(jīng)過變換后 的上下文無關(guān)語法對輸入的上下文無關(guān)語法句進(jìn)行分析,并在分析過程中對參 與規(guī)約的產(chǎn)生式建立規(guī)約符號表,用來記錄各規(guī)約符號所代表的意義,即各產(chǎn) 生式的組成成分。分析方法如下參見圖6,首先在背景技術(shù)的矩陣中加入規(guī)約符號表的數(shù)據(jù)結(jié)構(gòu)。此數(shù)據(jù)結(jié) 構(gòu)對每個先前矩陣的元素進(jìn)行擴(kuò)展程序,將先前矩陣元素P (i,j)從底部到頂部 依次擴(kuò)展填充符號表L (i,j)而產(chǎn)生新矩陣。由于新矩陣中每個語法符號只被添 加一次,而具有相同左部符號的產(chǎn)生式都記錄在填充符號表的表格中;因此, 對新矩陣進(jìn)行向上規(guī)約時只需對新矩陣中的符號進(jìn)行規(guī)約即可,這樣就避免了 規(guī)約過程中對相同語法符號的重復(fù)計(jì)算,因而減少耗費(fèi)的時間。
上述擴(kuò)展程序的詳細(xì)步驟,參見圖七。如步驟S31所示,擴(kuò)展程序首先檢
査矩陣中是否存在產(chǎn)生式左部符號,若否,則添加左部符號到符號表(步驟S32), 最后再添加產(chǎn)生式到左部符號對應(yīng)的表格中(步驟S33)。
接下來,參見圖8,由于在上下文無關(guān)語法進(jìn)行轉(zhuǎn)換后,可能存在一些特殊 產(chǎn)生式,即產(chǎn)生式左部和右部均為非終結(jié)符,這一類型的語法將出現(xiàn)在矩陣底 部第一列,所以從矩陣底部第二列開始依次填充符號表時,就必須加以處理。 如步驟S41所示,當(dāng)符號表中加入了新符號時,在特殊產(chǎn)生式集合中尋找以新 符號為右部的產(chǎn)生式,并檢查是否存在符合條件的產(chǎn)生式(步驟S42),若是, 則將該產(chǎn)生式也加入符號表中(步驟S43),這樣可保證分析這些虛擬產(chǎn)生式的 完整性和正確性。
接下來,回到圖五的步驟S23,本實(shí)施例對這些產(chǎn)生式進(jìn)行機(jī)率統(tǒng)計(jì),優(yōu)先 選擇較常出現(xiàn)的產(chǎn)生式,因此本實(shí)施例將檢查這些產(chǎn)生式是否包含機(jī)率信息。 然后進(jìn)行步驟S24,根據(jù)機(jī)率信息選擇要填入二維數(shù)組的規(guī)約符號。此步驟的詳 細(xì)實(shí)施方式參見圖9。
首先,如步驟S51所示,比較待加入的產(chǎn)生式與符號表中已存在的產(chǎn)生式 的機(jī)率。并檢查符號表中有無此符號或者有新的產(chǎn)生式機(jī)率更高(步驟S52)。 若否,則刪除新的產(chǎn)生式(步驟S54);若是,則添加新的產(chǎn)生式到符號表中, 并刪除舊的產(chǎn)生式(步驟S53)。
若每條產(chǎn)生式攜帶有機(jī)率統(tǒng)計(jì)信息,則表示其在語句中出現(xiàn)的頻率強(qiáng)弱。 因此,可應(yīng)用此符號機(jī)率選擇機(jī)制,僅保留最可能出現(xiàn)的產(chǎn)生式,并刪除次要 結(jié)果,可減少分析所需的空間。最后,如步驟S25所示,填入規(guī)約符號到二維 數(shù)組中,即可完成本實(shí)施例的可減少運(yùn)算量的CYK運(yùn)算方法。參見圖10,輸入單元100將上下文無關(guān)語法句110及上下文無關(guān)語法120 傳遞至處理單元200,處理單元300對上下文無關(guān)語法120執(zhí)行Chomsky范式 轉(zhuǎn)換210產(chǎn)生多個符合Chomsky范式形式的產(chǎn)生式及多個虛擬產(chǎn)生式,并利用 虛擬規(guī)約符號來規(guī)范虛擬產(chǎn)生式。然后,處理單元200再對上下文無關(guān)語法句 110進(jìn)行語法分析220過程中的多個產(chǎn)生式及多個規(guī)約符號依次填入儲存單元 300中的儲存數(shù)組310及規(guī)約符號表320中。
參見圖11,其大致運(yùn)作流程與上述相同。為確保上下文無關(guān)語法句110分 析的結(jié)果合理且正確,處理單元200對這些參與分析的產(chǎn)生式進(jìn)行符號規(guī)則檢 查230,以特別處理如本發(fā)明的方法所述的特殊產(chǎn)生式,以及將儲存數(shù)組通過上 述的擴(kuò)展程序,利用填充符號表,整理成精簡的新矩陣。此外,儲存單元300 還包括產(chǎn)生式機(jī)率統(tǒng)計(jì)表,選擇較常被使用的規(guī)約符號來填入儲存數(shù)組310。
權(quán)利要求
1、一種可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法,其特征在于該方法包含下列步驟1)對上下文無關(guān)語法的產(chǎn)生式進(jìn)行Chomsky范式轉(zhuǎn)換,得出多個符合Chomsky形式的產(chǎn)生式;2)使用CYK運(yùn)算方法根據(jù)產(chǎn)生式對上下文無關(guān)語法句進(jìn)行分析,并填入規(guī)約符號表;3)檢查這些產(chǎn)生式是否包含機(jī)率信息;是則進(jìn)至步驟4);4)根據(jù)機(jī)率信息選擇要填入二維數(shù)組的規(guī)約符號;5)將規(guī)約符號填入二維數(shù)組中。
2. 根據(jù)權(quán)利要求1所述的可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法, 其特征在于所述步驟l)的具體步驟如下-1.1) 對上下文無關(guān)語法的產(chǎn)生式執(zhí)行Chomsky范式轉(zhuǎn)換,使其具備符合 Chomsky范式的產(chǎn)生式及虛擬產(chǎn)生式;1.2) 引入虛擬規(guī)約符號以規(guī)范虛擬產(chǎn)生式;1.3) 對虛擬產(chǎn)生式重復(fù)執(zhí)行Chomsky范式轉(zhuǎn)換,使上下文無關(guān)語法的產(chǎn)生 式轉(zhuǎn)換為多個符合Chomsky范式的產(chǎn)生式及多個虛擬規(guī)約符號;1.4) 將多個產(chǎn)生式及多個虛擬規(guī)約符號依序填入儲存數(shù)組。
3. 根據(jù)權(quán)利要求2所述的可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法, 其特征在于所述步驟2)中使用CYK運(yùn)算方法根據(jù)產(chǎn)生式對上下文無關(guān)語法 句進(jìn)行分析的具體步驟2.1) 首先在現(xiàn)有的矩陣中加入規(guī)約符號表的數(shù)據(jù)結(jié)構(gòu);2.2) 此數(shù)據(jù)結(jié)構(gòu)對每個現(xiàn)有的矩陣的元素進(jìn)行擴(kuò)展程序,將先前矩陣元素 P (i,j)從底部到頂部依次擴(kuò)展填充符號表L (i,j)而產(chǎn)生新矩陣。
4. 根據(jù)權(quán)利要求3所述的可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法, 其特征在于所述2.2)中的擴(kuò)展程序的具體步驟如下2.2.1)擴(kuò)展程序首先檢查矩陣中是否存在產(chǎn)生式左部符號,若否,進(jìn)至步 驟2.2.2),若是則直接步驟2.2.3);[2.2.2) 則添加左部符號到規(guī)約符號表;[2.2.3) 最后再添加產(chǎn)生式到左部符號對應(yīng)的表格中。
5、 根據(jù)權(quán)利要求4所述的可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法, 其特征在于所述步驟2)中當(dāng)符號表中加入了新符號時,在特殊產(chǎn)生式集合中 尋找以新符號為右部的產(chǎn)生式,并檢査是否存在符合條件的產(chǎn)生式,若是,則 將該產(chǎn)生式也加入規(guī)約符號表中。
6、 根據(jù)權(quán)利要求1或2或3或4或5所述的可減少運(yùn)算量的CYK算法進(jìn) 行語法分析的方法,其特征在于所述步驟4)的具體步驟如下-[4.1 )比較待加入的產(chǎn)生式與規(guī)約符號表中已存在的產(chǎn)生式的機(jī)率;[4.2) 并檢查規(guī)約符號表中有無此符號或者有新的產(chǎn)生式機(jī)率更高;若否, 進(jìn)至步驟4.4),若是則直接步驟4.3);[4.3) 添加新的產(chǎn)生式到規(guī)約符號表中,并刪除舊的產(chǎn)生式;[4.4) 刪除新的產(chǎn)生式。
7、 一種實(shí)現(xiàn)權(quán)利要求1所述的可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法的裝置,其特征在于該置包括輸入單元,用來接收上下文無關(guān)語法及 上下文無關(guān)語法句;儲存單元,用來提供儲存數(shù)組及多個規(guī)約符號;處理單元, 用來對上下文無關(guān)語法的產(chǎn)生式執(zhí)行Chomsky范式轉(zhuǎn)換,使其具備符合 Chomsky范式的產(chǎn)生式及虛擬產(chǎn)生式,并引入虛擬規(guī)約符號以規(guī)范虛擬產(chǎn)生式, 以及對虛擬產(chǎn)生式重復(fù)執(zhí)行Chomsky范式轉(zhuǎn)換,使上下文無關(guān)語法的產(chǎn)生式轉(zhuǎn) 換為多個符合Chomsky范式形式的產(chǎn)生式及多個虛擬規(guī)約符號,再將產(chǎn)生式及 虛擬規(guī)約符號存入儲存數(shù)組,根據(jù)轉(zhuǎn)換后的上下文無關(guān)語法對輸入的上下文無 關(guān)語法句進(jìn)行語法分析,將參與分析的產(chǎn)生式放入規(guī)約符號表,所述輸入單元 接入處理單元,所述處理單元與儲存單元相接。
8、 根據(jù)權(quán)利要求7所述的裝置,其特征在于所述儲存單元包括規(guī)約符號表。
9、 根據(jù)權(quán)利要求7所述的裝置,其特征在于所述儲存單元包括產(chǎn)生式機(jī) 率統(tǒng)計(jì)表。
全文摘要
本發(fā)明涉及一種可減少運(yùn)算量的CYK算法進(jìn)行語法分析的方法及其裝置。該方法包括以下步驟1)對上下文無關(guān)語法的產(chǎn)生式進(jìn)行Chomsky范式轉(zhuǎn)換,得出多個符合Chomsky形式的產(chǎn)生式;2)使用CYK運(yùn)算方法根據(jù)產(chǎn)生式對上下文無關(guān)語法句進(jìn)行分析,并填入規(guī)約符號表;3)檢查這些產(chǎn)生式是否包含機(jī)率信息;是則進(jìn)至步驟4);4)根據(jù)機(jī)率信息選擇要填入二維數(shù)組的規(guī)約符號;5)將規(guī)約符號填入二維數(shù)組中。本發(fā)明可減少CYK算法在進(jìn)行語法分析時的運(yùn)算量。
文檔編號G06F17/27GK101414293SQ20081023248
公開日2009年4月22日 申請日期2008年11月28日 優(yōu)先權(quán)日2008年11月28日
發(fā)明者閆海紅, 陳淮琰 申請人:無敵科技(西安)有限公司