使用淺層句法分析器自動(dòng)評(píng)估句子的自動(dòng)句子評(píng)估裝置及其錯(cuò)誤檢測(cè)設(shè)備和方法
【專利摘要】本發(fā)明涉及用于自動(dòng)評(píng)估句子的錯(cuò)誤檢測(cè),并提供了一種利用淺層句法分析器來(lái)自動(dòng)評(píng)估句子的自動(dòng)句子評(píng)估裝置及其錯(cuò)誤檢測(cè)設(shè)備和方法,由此通過(guò)針對(duì)撰寫的輸入句子利用n-gram生成詞性串并基于根據(jù)相鄰詞性之間的連接關(guān)系定義的規(guī)則(淺層句法分析)對(duì)所生成的詞性串進(jìn)行句法分析來(lái)檢測(cè)簡(jiǎn)單語(yǔ)法錯(cuò)誤和句子結(jié)構(gòu)分析錯(cuò)誤,并且針對(duì)所檢測(cè)出的錯(cuò)誤提示校正草案,從而增加句子評(píng)估的準(zhǔn)確度。
【專利說(shuō)明】使用淺層句法分析器自動(dòng)評(píng)估句子的自動(dòng)句子評(píng)估裝置及其錯(cuò)誤檢測(cè)設(shè)備和方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及用于自動(dòng)評(píng)估句子撰寫的錯(cuò)誤檢測(cè),更具體地講,涉及一種用于自動(dòng)評(píng)估句子的設(shè)備和方法以及針對(duì)此目的的錯(cuò)誤檢測(cè)設(shè)備,其將撰寫的輸入句子分割成詞素,將詞性(parts of speech)標(biāo)注到所分割出的詞素,檢測(cè)各個(gè)詞性串的簡(jiǎn)單語(yǔ)法英語(yǔ)撰寫錯(cuò)誤,并且基于由彼此相鄰的詞性的連接關(guān)系限定的規(guī)則來(lái)對(duì)它們進(jìn)行句法分析,以提高撰寫評(píng)估的準(zhǔn)確度。
【背景技術(shù)】
[0002]近來(lái),韓國(guó)SAT和企業(yè)分級(jí)評(píng)估已改變?yōu)楦鶕?jù)說(shuō)和寫的實(shí)際英語(yǔ)表現(xiàn)評(píng)估。
[0003]S卩,教育部已開發(fā)出NEAT(國(guó)家英語(yǔ)能力測(cè)試,它是聽(tīng)、閱讀理解、說(shuō)和寫的基于互聯(lián)網(wǎng)的評(píng)估)并通過(guò)示范來(lái)進(jìn)行實(shí)施,并且計(jì)劃取代公務(wù)員考試和SAT的英語(yǔ)測(cè)試。在這些英語(yǔ)表現(xiàn)評(píng)估中,引入自動(dòng)撰寫評(píng)估系統(tǒng)來(lái)評(píng)估寫作能力。
[0004]自動(dòng)撰寫評(píng)估系統(tǒng)從語(yǔ)法上分析撰寫的句子并通過(guò)錯(cuò)誤檢測(cè)來(lái)評(píng)估它是否按照語(yǔ)法撰寫。在這種情況下,在分析撰寫的句子的處理中,必然需要將句子分割成詞素,將詞性標(biāo)注到各個(gè)詞素,并執(zhí)行句法分析的處理。然而,傳統(tǒng)句法分析未復(fù)雜地考慮詞匯、詞性、含義和上下文相關(guān)性,而是僅依賴于詞性串信息,由此存在準(zhǔn)確度顯著降低的問(wèn)題。
[0005]具體地講,由于自然語(yǔ)言中存在上下文具有相互依賴關(guān)系的各種現(xiàn)象,所以通常定義的語(yǔ)法在句法分析方面存在局限。例如,在通過(guò)句法分析(syntax analysis)將詞句法分析(parse)為“動(dòng)詞”的情況下,由于相鄰詞的詞性,可將其句法分析為“名詞”,而非“動(dòng)詞”。在這種情況下,存在通過(guò)句法分析提取兩個(gè)或更多個(gè)句法樹并且其句法分析變得有歧義的問(wèn)題。
[0006]因此,需要一種通過(guò)對(duì)標(biāo)注的輸入句子的相鄰詞性之間的連接關(guān)系執(zhí)行正確的句法分析來(lái)增強(qiáng)自動(dòng)評(píng)估系統(tǒng)的解決方案。
【發(fā)明內(nèi)容】
[0007]技術(shù)問(wèn)題
[0008]根據(jù)一些實(shí)施方式,提供了一種使用淺層句法分析器(shallow parser)的自動(dòng)句子評(píng)估裝置、錯(cuò)誤檢測(cè)設(shè)備及相關(guān)方法,由此通過(guò)針對(duì)撰寫的輸入句子利用n-gram生成詞性串并基于根據(jù)相鄰詞性之間的連接關(guān)系定義的規(guī)則(淺層句法分析)對(duì)所生成的詞性串進(jìn)行句法分析來(lái)檢測(cè)簡(jiǎn)單語(yǔ)法錯(cuò)誤和句子結(jié)構(gòu)錯(cuò)誤,針對(duì)所檢測(cè)出的錯(cuò)誤提示校正草案,從而增加句子評(píng)估的準(zhǔn)確度。
[0009]技術(shù)方案
[0010]根據(jù)一些實(shí)施方式,一種用于自動(dòng)評(píng)估句子的設(shè)備包括輸入句子分割器、詞性標(biāo)注部、句法分析器、句子評(píng)估部和錯(cuò)誤檢測(cè)器。所述輸入句子分割器被構(gòu)造為將撰寫的輸入句子分割成詞素,所述詞素是句子的最小單元。所述詞性標(biāo)注部被構(gòu)造為將詞性標(biāo)注到所分割出的詞素。所述句法分析器被構(gòu)造為基于詞性分析句子的句法結(jié)構(gòu)并輸出句法樹作為分析結(jié)果。所述句子評(píng)估部被構(gòu)造為利用由所述句法分析器輸出的句法樹來(lái)評(píng)估所述句子語(yǔ)法上是否正確。所述錯(cuò)誤檢測(cè)器被構(gòu)造為針對(duì)由所述詞性標(biāo)注部標(biāo)注的各個(gè)詞性利用n-gram生成詞性串,基于根據(jù)彼此相鄰的詞性之間的連接關(guān)系定義的正則語(yǔ)法規(guī)則和上下文無(wú)關(guān)語(yǔ)法規(guī)則分析所生成的詞性串以檢測(cè)句法分析的錯(cuò)誤,并針對(duì)所檢測(cè)出的錯(cuò)誤提供校正。
[0011]根據(jù)一些實(shí)施方式,一種利用淺層句法分析器來(lái)自動(dòng)評(píng)估句子的撰寫的錯(cuò)誤檢測(cè)設(shè)備包括詞性串生成器、淺層句法分析器、錯(cuò)誤檢測(cè)器和錯(cuò)誤校正部。所述詞性串生成器被構(gòu)造為針對(duì)標(biāo)注到輸入句子的各個(gè)詞性,利用n-gram按照特定窗口單位生成詞性串。所述淺層句法分析器被構(gòu)造為基于上下文無(wú)關(guān)語(yǔ)法規(guī)則和正則語(yǔ)法規(guī)則來(lái)對(duì)所述詞性串進(jìn)行句法分析,并且計(jì)算所述詞性串的親密度。所述錯(cuò)誤檢測(cè)器被構(gòu)造為根據(jù)由所述淺層句法分析器計(jì)算出的親密度來(lái)檢測(cè)錯(cuò)誤。所述錯(cuò)誤校正部被構(gòu)造為針對(duì)由所述錯(cuò)誤檢測(cè)器檢測(cè)出的錯(cuò)誤提供校正。
[0012]根據(jù)一些實(shí)施方式,一種利用淺層句法分析器來(lái)自動(dòng)評(píng)估句子的撰寫的錯(cuò)誤檢測(cè)方法包括以下步驟:針對(duì)標(biāo)注到輸入句子的各個(gè)詞性,利用n-gram按照特定窗口單位生成詞性串;基于上下文無(wú)關(guān)語(yǔ)法規(guī)則和正則語(yǔ)法規(guī)則來(lái)對(duì)所述詞性串進(jìn)行句法分析,從而計(jì)算所述詞性串的親密度;根據(jù)所計(jì)算出的親密度來(lái)檢測(cè)錯(cuò)誤;以及針對(duì)所檢測(cè)出的錯(cuò)誤提供校正。
[0013]有益效果
[0014]根據(jù)本文公開的實(shí)施方式,通過(guò)考慮語(yǔ)言的典型規(guī)則以及相鄰詞性之間的依賴關(guān)系分析撰寫的輸入句子,具有這樣的效果:檢測(cè)語(yǔ)法錯(cuò)誤的準(zhǔn)確度增加,以增強(qiáng)自動(dòng)句子評(píng)估的能力。
[0015]另外,通過(guò)根據(jù)預(yù)定模式生成詞性串并以所生成的詞性串為單位執(zhí)行分析,具有這樣的效果:與傳統(tǒng)的全句法分析相比,句法分析的歧義減少,并且能夠詳細(xì)檢測(cè)錯(cuò)誤的類型。
【專利附圖】
【附圖說(shuō)明】
[0016]圖1示出根據(jù)至少一個(gè)實(shí)施方式的用于自動(dòng)撰寫評(píng)估的錯(cuò)誤檢測(cè)設(shè)備的構(gòu)造。
[0017]圖2示出根據(jù)至少一個(gè)實(shí)施方式的錯(cuò)誤檢測(cè)設(shè)備的詳細(xì)構(gòu)造。
[0018]圖3是示出正則語(yǔ)法的示例的表。
[0019]圖4是針對(duì)根據(jù)至少一個(gè)實(shí)施方式的使用錯(cuò)誤檢測(cè)設(shè)備的錯(cuò)誤檢測(cè)方法的方法的流程圖。
[0020]圖5是示出檢測(cè)錯(cuò)誤的具體處理的流程圖。
[0021]圖6是示出通過(guò)圖4的錯(cuò)誤檢測(cè)方法生成詞性串的處理的示例性表。
【具體實(shí)施方式】
[0022]以下描述詳細(xì)參照附圖。然而,本領(lǐng)域普通技術(shù)人員將理解,以下描述不限于以下具體公開的實(shí)施方式,可以按照各種形式實(shí)現(xiàn),并且以下描述的范圍不限于以下實(shí)施方式。公知的技術(shù)、元件、結(jié)構(gòu)和處理將省略,以避免使本公開的主題模糊。[0023]圖1示出根據(jù)至少一個(gè)實(shí)施方式的用于自動(dòng)撰寫評(píng)估的錯(cuò)誤檢測(cè)設(shè)備的構(gòu)造。
[0024]如圖1所示,提供有:自動(dòng)句子評(píng)估裝置100,其分析撰寫的輸入句子并評(píng)估撰寫是否正確;以及錯(cuò)誤檢測(cè)設(shè)備200,其檢測(cè)自動(dòng)評(píng)估句子時(shí)的句法分析錯(cuò)誤,并針對(duì)所檢測(cè)到的錯(cuò)誤提示校正草案。
[0025]在圖1中,為了更好的理解,示出了錯(cuò)誤檢測(cè)構(gòu)造(S卩,錯(cuò)誤檢測(cè)設(shè)備200)獨(dú)立于自動(dòng)句子評(píng)估裝置100來(lái)構(gòu)造的示例。然而,另選地,錯(cuò)誤檢測(cè)設(shè)備200可形成為包含在自動(dòng)句子評(píng)估裝置100中的單個(gè)設(shè)備。
[0026]自動(dòng)句子評(píng)估裝置100接收撰寫的輸入句子作為數(shù)據(jù),并且包括輸入句子分割器110、詞性標(biāo)注部129、句法分析器130、句子評(píng)估部140等作為用于評(píng)估輸入句子的構(gòu)造。
[0027]輸入句子分割器110將撰寫的輸入句子(以下,稱作“輸入句子”)分割成句子和詞素。
[0028]這里,句子的分割表示利用標(biāo)點(diǎn)符號(hào)(例如,句號(hào)、問(wèn)號(hào)、感嘆號(hào)等)將撰寫的輸入句子分割成多個(gè)句子。
[0029]分割成詞素表示將通過(guò)句子的分割所分成的各個(gè)句子分割成詞素,詞素是句子的最小單元。在英語(yǔ)撰寫的情況下,由于語(yǔ)言的特性,單詞后不會(huì)附有后置助詞,因此作為最小單元的詞素可為單詞本身。
[0030]詞性標(biāo)注部120將對(duì)應(yīng)的詞性標(biāo)注到在輸入句子分割器110中分割出的各個(gè)詞素??蓞⒄找呀?jīng)存儲(chǔ)的詞性字典來(lái)進(jìn)行詞性的標(biāo)注。例如,詞性的類型包括名詞、動(dòng)詞、介詞、形容詞、副詞、冠詞、感嘆詞等。
[0031]句法分析器130基于在詞性標(biāo)注部120中標(biāo)注的詞性來(lái)分析各個(gè)句子的句法結(jié)構(gòu),并輸出句法樹作為分析結(jié)果。通常,“句法分析”是指分析句子的句法,“句法分析器”是指使得句法樹輸出以便獲知是否可通過(guò)語(yǔ)法生成字符串的程序。
[0032]在句法分析時(shí),句法分析器130發(fā)送標(biāo)注了詞性的句子以使句法分析的錯(cuò)誤最小化,并從錯(cuò)誤檢測(cè)設(shè)備200接收所檢測(cè)到的錯(cuò)誤的信息以將其應(yīng)用于句法樹。
[0033]句子評(píng)估部140參照在句法分析器130中提取的句法樹,并評(píng)估撰寫是否正確。撰寫的最終結(jié)果可在轉(zhuǎn)換為分?jǐn)?shù)之后輸出,或者可通過(guò)T/F (真/假)標(biāo)記來(lái)輸出。
[0034]錯(cuò)誤檢測(cè)設(shè)備針對(duì)從句法分析器130發(fā)送來(lái)的句子利用n-gram生成詞性串,并基于簡(jiǎn)單語(yǔ)法規(guī)則以及根據(jù)相鄰詞性之間的連接關(guān)系定義的語(yǔ)法規(guī)則來(lái)分析所生成的詞性串,由此檢測(cè)到英語(yǔ)撰寫中的簡(jiǎn)單錯(cuò)誤以及根據(jù)相鄰詞性之間的連接關(guān)系的錯(cuò)誤。
[0035]另外,錯(cuò)誤檢測(cè)設(shè)備200顯示所檢測(cè)到的錯(cuò)誤,并向句法分析器130提示校正草案。
[0036]圖2示出根據(jù)至少一個(gè)實(shí)施方式的錯(cuò)誤檢測(cè)設(shè)備的詳細(xì)構(gòu)造。
[0037]錯(cuò)誤檢測(cè)設(shè)備200包括詞性串生成器210、淺層句法分析器220、錯(cuò)誤檢測(cè)器230、錯(cuò)誤校正部240、形式語(yǔ)法知識(shí)DB250、上下文無(wú)關(guān)語(yǔ)法知識(shí)DB260等,如圖所示。
[0038]詞性串生成器210利用n-gram生成針對(duì)各個(gè)詞性的詞性串,詞性串按照任何窗口大小將在詞性標(biāo)注部120中標(biāo)注的各個(gè)詞性聯(lián)系在一起。
[0039]例如,通過(guò)詞素分割和詞性標(biāo)注將輸入句子“I went to go to school.”提取為“I/名詞”、“went/動(dòng)詞”、“to/介詞”、“go/動(dòng)詞”、“to/介詞”、“school/名詞”,并且在詞性串生成器210中,可通過(guò)應(yīng)用Tr1-gram來(lái)生成“I went to”、“went to go,,、“go toschool”、“to school (null) ”、“school (null) (null) ” 等作為各個(gè)詞性的詞性串。
[0040]詞性串生成器210預(yù)先設(shè)置窗口大小,并在錯(cuò)誤檢測(cè)中通過(guò)生成與所設(shè)置的窗口大小對(duì)應(yīng)的詞性來(lái)使用該窗口大小。為了詳細(xì)檢測(cè),可通過(guò)改變窗口大小(例如,b 1-gram和tr1-gram)來(lái)生成并分析各個(gè)詞性。
[0041]淺層句法分析器220針對(duì)由詞性串生成器210生成的詞性串,基于正則語(yǔ)法規(guī)則和上下文無(wú)關(guān)語(yǔ)法(CFG)規(guī)則來(lái)通過(guò)考慮彼此相鄰的詞性之間的連接關(guān)系對(duì)句法結(jié)構(gòu)進(jìn)行句法分析。
[0042]上下文無(wú)關(guān)語(yǔ)法規(guī)則稱為一般英語(yǔ)語(yǔ)法,包括對(duì)與拼字法、冠詞或時(shí)態(tài)有關(guān)的規(guī)則進(jìn)行規(guī)范化的規(guī)則。
[0043]例如,上下文無(wú)關(guān)語(yǔ)法規(guī)則包括諸如這樣的規(guī)則:時(shí)態(tài)為一般現(xiàn)在時(shí),主語(yǔ)為單數(shù)形式的動(dòng)詞后附加“s”,“an”用于以元音開始的名詞,“a”用于以輔音開始的名詞。
[0044]此上下文無(wú)關(guān)語(yǔ)法規(guī)則存儲(chǔ)在上下文無(wú)關(guān)語(yǔ)法知識(shí)DB260中,并在淺層句法分析器220進(jìn)行句法分析的情況下提供此上下文無(wú)關(guān)語(yǔ)法規(guī)則。
[0045]正則語(yǔ)法規(guī)則定義無(wú)法由一般語(yǔ)法(即,上下文無(wú)關(guān)語(yǔ)法)定義,而是可根據(jù)彼此相鄰的詞性之間的親密度或連接關(guān)系來(lái)進(jìn)一步定義的例外規(guī)則。具體地講,如圖4所示,可參照拼字法、詞之間的空格、冠詞形式、冠詞重疊、主語(yǔ)-動(dòng)詞不一致、詞性混用、動(dòng)詞形式錯(cuò)誤、不正確的搭配、不正確的詞序、介詞缺失、人稱、多余限定詞、多余介詞等來(lái)定義規(guī)則。
[0046]例如,冠詞“a”通常附在輔音前面,而冠詞“an”附在第一音節(jié)不發(fā)音的名詞前面,這是上下文無(wú)關(guān)語(yǔ)法。然而,冠詞“an”附在名詞“hoest”前面,這是正則語(yǔ)法。S卩,增加作為上下文無(wú)關(guān)語(yǔ)法規(guī)則的例外而應(yīng)用的名詞作為單獨(dú)的規(guī)則是正則語(yǔ)法。
[0047]另外,作為正則語(yǔ)法規(guī)則的另一示例,在諸如“beggining”的打字錯(cuò)誤的情況下,分析出不正確地使用了 “beginning”,可檢測(cè)校正草案“beginning”。
[0048]這種正則語(yǔ)法規(guī)則被存儲(chǔ)在正則語(yǔ)法知識(shí)DB250中,并可以被提供用于淺層句法分析器220的句法分析,以作為參考。
[0049]因此,淺層句法分析器200利用所存儲(chǔ)的上下文無(wú)關(guān)語(yǔ)法規(guī)則來(lái)直接分析簡(jiǎn)單語(yǔ)法錯(cuò)誤,并利用正則語(yǔ)法規(guī)則根據(jù)彼此相鄰的詞性之間的連接關(guān)系來(lái)計(jì)算詞性串的親密度。如果詞性的親密度高,則淺層句法分析器220生成具有諸如名詞短語(yǔ)、合成詞、賓語(yǔ)短語(yǔ)和從屬子句的誘生樹(inducement tree)的對(duì)應(yīng)詞性串,如果親密度低,則淺層句法分析器220利用獨(dú)立的詞代替短語(yǔ),來(lái)生成具有形成各個(gè)詞性串的詞的誘生樹。
[0050]確定親密度是高還是低可通過(guò)設(shè)置用于確定的參考值并將親密度與參考值進(jìn)行比較來(lái)進(jìn)行?;蛘?,可通過(guò)計(jì)算可從詞性串誘生出的多個(gè)誘生樹的親密度并確定親密度的相對(duì)大小來(lái)進(jìn)行。在這種情況下,可通過(guò)選擇親密度相對(duì)最高的誘生樹來(lái)檢測(cè)錯(cuò)誤。
[0051]另外,淺層句法分析器220執(zhí)行自下而上圖表(chart)句法分析,其從標(biāo)注的詞性的右側(cè)移位至左側(cè)。由于自下而上圖表句法分析不是用于一般句法分析的句法分析,所以對(duì)整個(gè)對(duì)象造句(S)不是目標(biāo)。即,如果沒(méi)有新形成節(jié)點(diǎn),則句法分析停止。
[0052]錯(cuò)誤檢測(cè)器230基于通過(guò)淺層句法分析器220生成的分析結(jié)果從由句法分析器(圖1的130)分析出的句法樹檢測(cè)錯(cuò)誤。此時(shí),錯(cuò)誤檢測(cè)器230利用n-gram進(jìn)行檢測(cè),其將輸入句子分割成具有特定部分的串,而非搜索整個(gè)輸入句子,由此與針對(duì)整個(gè)句子的分析方法相比,可更快速且準(zhǔn)確地進(jìn)行錯(cuò)誤檢測(cè)。[0053]錯(cuò)誤校正部150基于上下文無(wú)關(guān)語(yǔ)法規(guī)則和正則語(yǔ)法規(guī)則來(lái)對(duì)由錯(cuò)誤檢測(cè)器140檢測(cè)到的錯(cuò)誤提示校正草案。
[0054]圖4是針對(duì)根據(jù)至少一個(gè)實(shí)施方式的使用錯(cuò)誤檢測(cè)設(shè)備的錯(cuò)誤檢測(cè)方法的方法的流程圖。
[0055]首先,為了評(píng)估句子,如果輸入了撰寫的輸入句子,則自動(dòng)句子評(píng)估裝置將輸入句子分割成句子和詞素(S100)。
[0056]接下來(lái),自動(dòng)句子評(píng)估裝置基于詞性字典將詞性標(biāo)注到各個(gè)詞素(S200)。
[0057]接下來(lái),自動(dòng)句子評(píng)估裝置對(duì)分割出的句子執(zhí)行句法分析,并提取句法樹作為分析結(jié)果(S300)。
[0058]另外,自動(dòng)句子評(píng)估裝置利用淺層句法分析器對(duì)各個(gè)詞性生成詞性串以便確定所提取的句法樹中是否存在錯(cuò)誤,并以所生成的詞性串為單位檢測(cè)錯(cuò)誤。
[0059]此后,自動(dòng)句子評(píng)估裝置校正所檢測(cè)到的錯(cuò)誤,并通過(guò)校正的句法樹來(lái)評(píng)估句子(S500、S600)。可利用通過(guò)錯(cuò)誤檢測(cè)處理(S400)獲得的校正草案來(lái)執(zhí)行所述校正。
[0060]圖5是示出錯(cuò)誤檢測(cè)處理(S400)的詳細(xì)方法的流程圖。
[0061 ] 錯(cuò)誤檢測(cè)處理(S400 )可由包括在自動(dòng)句子評(píng)估裝置中的錯(cuò)誤檢測(cè)設(shè)備來(lái)實(shí)現(xiàn),或者由獨(dú)立于自動(dòng)句子評(píng)估裝置而包括的錯(cuò)誤檢測(cè)設(shè)備來(lái)實(shí)現(xiàn)。
[0062]S卩,對(duì)于在詞性標(biāo)注處理(S200)中標(biāo)注的各個(gè)詞性,錯(cuò)誤檢測(cè)設(shè)備按照特定窗口單位生成詞性串(S410)。
[0063]所述特定窗口表示將彼此相鄰的2個(gè)、3個(gè)或更多個(gè)(n個(gè))詞性形成一組。b1-gram是將彼此相鄰的2個(gè)詞性形成一組,而tr1-gram是將彼此相鄰的3個(gè)詞性形成一組。
[0064]錯(cuò)誤檢測(cè)設(shè)備利用n-gram (b1-gram、tr1-gram等)按照設(shè)置的單位生成詞性。
[0065]接下來(lái),錯(cuò)誤檢測(cè)設(shè)備以詞性串為單位執(zhí)行淺層句法分析(S420)。
[0066]淺層句法分析基于存儲(chǔ)的上下文無(wú)關(guān)語(yǔ)法規(guī)則和存儲(chǔ)的正則語(yǔ)法規(guī)則考慮相鄰詞性之間的親密度來(lái)分析句法結(jié)構(gòu)。
[0067]具體地講,利用所存儲(chǔ)的上下文無(wú)關(guān)語(yǔ)法規(guī)則的知識(shí),直接分析簡(jiǎn)單語(yǔ)法錯(cuò)誤,同時(shí),利用所存儲(chǔ)的正則語(yǔ)法規(guī)則的知識(shí),根據(jù)彼此相鄰的詞性之間的連接關(guān)系來(lái)計(jì)算詞性的親密度。如果詞性的親密度高,則可生成具有諸如名詞短語(yǔ)、合成詞、賓語(yǔ)短語(yǔ)和從屬子句的誘生樹的對(duì)應(yīng)詞性串,如果親密度低,則可利用獨(dú)立的詞(而非短語(yǔ))來(lái)生成具有形成各個(gè)詞性串的詞的誘生樹。
[0068]接下來(lái),錯(cuò)誤檢測(cè)設(shè)備基于分析結(jié)果檢測(cè)從句法分析提取出的句法樹的錯(cuò)誤,并針對(duì)所檢測(cè)出的錯(cuò)誤提示校正草案(S430、S440 )。
[0069]圖6是示出通過(guò)圖4的錯(cuò)誤檢測(cè)方法生成詞性串的處理的示例性表。
[0070]盡管已具體示出并描述了各種實(shí)施方式,但是本領(lǐng)域技術(shù)人員將理解,在不脫離本公開的主題和范圍的情況下,可對(duì)其進(jìn)行各種形式和細(xì)節(jié)上的改變。本公開和附圖中使用的特定術(shù)語(yǔ)用于示意性目的,而不應(yīng)被認(rèn)為是對(duì)本公開的限制。本發(fā)明的范圍應(yīng)該由下述的權(quán)利要求請(qǐng)求保護(hù)的范圍來(lái)解釋,并且應(yīng)該解釋為,在與其等同的范圍內(nèi)的所有技術(shù)也應(yīng)該被包含在本發(fā)明的范圍內(nèi)。
[0071]產(chǎn)業(yè)上的可利用性
[0072]如此前充分討論的,在句法分析的情況下,傳統(tǒng)句法分析不復(fù)雜地考慮詞匯、詞性、含義和上下文相關(guān)性,而是僅依賴于詞性串信息,由此存在其準(zhǔn)確度顯著降低的問(wèn)題。通過(guò)針對(duì)撰寫的輸入句子利用n-gram生成詞性串并基于根據(jù)相鄰詞性之間的連接關(guān)系定義的規(guī)則來(lái)分析所生成的詞性串,本文公開的實(shí)施方式可通過(guò)檢測(cè)簡(jiǎn)單語(yǔ)法錯(cuò)誤以及句子結(jié)構(gòu)錯(cuò)誤來(lái)增加針對(duì)句子的句子評(píng)估的準(zhǔn)確度。就這一點(diǎn),所公開的實(shí)施方式可能不應(yīng)用于簡(jiǎn)單評(píng)估算法,而是通過(guò)應(yīng)用于由企業(yè)進(jìn)行的或者大學(xué)入學(xué)考試中的英語(yǔ)能力測(cè)試、作文評(píng)估等來(lái)實(shí)現(xiàn)自動(dòng)評(píng)估。
【權(quán)利要求】
1.一種用于自動(dòng)評(píng)估句子的設(shè)備,該設(shè)備包括: 輸入句子分割器,其被構(gòu)造為將撰寫的輸入句子分割成詞素,所述詞素是句子的最小單元; 詞性標(biāo)注部,其被構(gòu)造為將詞性標(biāo)注到所分割出的詞素; 句法分析器,其被構(gòu)造為基于詞性來(lái)分析句子的句法結(jié)構(gòu)并輸出句法樹作為分析結(jié)果; 句子評(píng)估部,其被構(gòu)造為利用由所述句法分析器輸出的所述句法樹來(lái)評(píng)估所述句子語(yǔ)法上是否正確;以及 錯(cuò)誤檢測(cè)器,其被構(gòu)造為針對(duì)由所述詞性標(biāo)注部標(biāo)注的各個(gè)詞性來(lái)利用n-gram生成詞性串,基于根據(jù)彼此相鄰的詞性之間的連接關(guān)系定義的正則語(yǔ)法規(guī)則和上下文無(wú)關(guān)語(yǔ)法規(guī)則來(lái)分析所生成的詞性串,以檢測(cè)句法分析的錯(cuò)誤,并針對(duì)所檢測(cè)出的錯(cuò)誤,向所述句法分析器提供校正草案。
2.一種利用淺層句法分析器來(lái)自動(dòng)評(píng)估句子的撰寫的錯(cuò)誤檢測(cè)設(shè)備,該錯(cuò)誤檢測(cè)設(shè)備包括: 詞性串生成器,其被構(gòu)造為針對(duì)標(biāo)注到輸入句子的各個(gè)詞性,利用n-gram來(lái)按照預(yù)定窗口單位生成詞性串; 淺層句法分析器,其被構(gòu)造為基于上下文無(wú)關(guān)語(yǔ)法規(guī)則和正則語(yǔ)法規(guī)則來(lái)對(duì)所述詞性串進(jìn)行句法分析,并計(jì)算所述詞性串的親密度; 錯(cuò)誤檢測(cè)器,其被構(gòu)造為 根據(jù)由所述淺層句法分析器計(jì)算出的所述親密度來(lái)檢測(cè)錯(cuò)誤;以及 錯(cuò)誤校正部,其被構(gòu)造為針對(duì)由所述錯(cuò)誤檢測(cè)器檢測(cè)出的錯(cuò)誤提供校正草案。
3.根據(jù)權(quán)利要求2所述的設(shè)備,其中,所述上下文無(wú)關(guān)語(yǔ)法規(guī)則包括對(duì)包括拼字法、冠詞或時(shí)態(tài)的正規(guī)語(yǔ)法進(jìn)行規(guī)范化的規(guī)則。
4.根據(jù)權(quán)利要求2所述的設(shè)備,其中,所述正則語(yǔ)法規(guī)則包括無(wú)法由上下文無(wú)關(guān)語(yǔ)法定義的例外規(guī)則以及能夠根據(jù)彼此相鄰的詞性之間的親密度或連接關(guān)系定義的規(guī)則。
5.根據(jù)權(quán)利要求2所述的設(shè)備,其中,所述淺層句法分析器還被構(gòu)造為,如果針對(duì)詞性計(jì)算出的所述親密度大于參考值,則生成包括名詞短語(yǔ)、合成詞、賓語(yǔ)短語(yǔ)和從屬子句的對(duì)應(yīng)句法樹,如果針對(duì)詞性計(jì)算出的所述親密度小于所述參考值,則利用獨(dú)立的詞代替短語(yǔ)來(lái)生成具有形成各個(gè)詞性串的詞的誘生樹。
6.一種利用淺層句法分析器來(lái)自動(dòng)評(píng)估句子的撰寫的錯(cuò)誤檢測(cè)方法,該錯(cuò)誤檢測(cè)方法包括以下步驟: 針對(duì)標(biāo)注到輸入句子的各個(gè)詞性,利用n-gram來(lái)按照預(yù)定窗口單位生成詞性串; 基于上下文無(wú)關(guān)語(yǔ)法規(guī)則和正則語(yǔ)法規(guī)則來(lái)對(duì)所述詞性串進(jìn)行句法分析,從而計(jì)算所述詞性串的親密度; 根據(jù)所計(jì)算出的親密度來(lái)檢測(cè)錯(cuò)誤;以及 針對(duì)所檢測(cè)出的錯(cuò)誤提供校正草案,以便對(duì)撰寫的句子的句法分析的錯(cuò)誤進(jìn)行校正。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述上下文無(wú)關(guān)語(yǔ)法規(guī)則包括對(duì)包括拼字法、冠詞或時(shí)態(tài)的正規(guī)語(yǔ)法進(jìn)行規(guī)范化的規(guī)則。
8.根據(jù)權(quán)利要求6所述的方法,其中,所述正則語(yǔ)法規(guī)則包括無(wú)法由上下文無(wú)關(guān)語(yǔ)法定義的例外規(guī)則以及能夠根據(jù)彼此相鄰的詞性之間的親密度或連接關(guān)系定義的規(guī)則。
9.根據(jù)權(quán)利要求6所述的方法,其中,計(jì)算所述親密度的步驟包括以下步驟:如果針對(duì)詞性計(jì)算出的所述親密度大于參考值,則生成包括名詞短語(yǔ)、合成詞、賓語(yǔ)短語(yǔ)和從屬子句的對(duì)應(yīng)句法樹,如果針對(duì)詞性計(jì)算出的所述親密度小于所述參考值,則利用獨(dú)立的詞代替短語(yǔ)來(lái)生成具有形成各個(gè)詞性串的詞的誘生樹。
【文檔編號(hào)】G06F17/27GK103493041SQ201280019540
【公開日】2014年1月1日 申請(qǐng)日期:2012年10月24日 優(yōu)先權(quán)日:2011年11月29日
【發(fā)明者】金承煥, 金東南, 李銀淑, 金星 申請(qǐng)人:Sk電信有限公司