本發(fā)明涉及自然語(yǔ)言理解、文本處理技術(shù)領(lǐng)域,具體涉及一種中式英語(yǔ)的發(fā)現(xiàn)方法及系統(tǒng)。
背景技術(shù):
在國(guó)內(nèi),英語(yǔ)作為基礎(chǔ)教學(xué)科目,貫穿每個(gè)涉及英語(yǔ)應(yīng)用者的學(xué)習(xí)生涯。隨著教育信息化技術(shù)的不斷發(fā)展,傳統(tǒng)的教學(xué)模式發(fā)生了較大變化,各種智能教與學(xué)系統(tǒng)已逐漸應(yīng)用在日常教學(xué)中,如自動(dòng)批改、學(xué)情診斷等。英語(yǔ)作文的自動(dòng)批改已成為智能教學(xué)中一個(gè)重要的組成部分,而中式英語(yǔ)作為英語(yǔ)作文中常見(jiàn)的錯(cuò)誤,其檢出的準(zhǔn)確性直接影響整個(gè)作文批改的結(jié)果,因此中式英語(yǔ)的發(fā)現(xiàn)一直是相關(guān)領(lǐng)域人員研究的熱點(diǎn)。
現(xiàn)有的中式英語(yǔ)的發(fā)現(xiàn)多是基于資源的方法,如圖1所示,主要包括:預(yù)先收集網(wǎng)絡(luò)資源,構(gòu)建中式英語(yǔ)集;然后判斷作文中是否存在預(yù)先構(gòu)建的中式英語(yǔ)集中的中式英語(yǔ)。現(xiàn)有方法的可靠性、準(zhǔn)確性完全依賴于預(yù)先構(gòu)建的中式英語(yǔ)集是否涵蓋所有可能出現(xiàn)的中式英語(yǔ),而在現(xiàn)實(shí)應(yīng)用中,因資源的缺乏,以及中式英語(yǔ)錯(cuò)誤也是因人而異、千變?nèi)f化的,想要做到構(gòu)建一個(gè)涵蓋所有可能的中式英語(yǔ)集是不可能的,因而現(xiàn)有的中式英語(yǔ)發(fā)現(xiàn)方法效果不佳。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種中式英語(yǔ)的發(fā)現(xiàn)方法及系統(tǒng),以解決現(xiàn)有技術(shù)基于資源發(fā)現(xiàn)中式英語(yǔ)的方法準(zhǔn)確率低的問(wèn)題。
為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
一種中式英語(yǔ)的發(fā)現(xiàn)方法,包括:
獲取待檢測(cè)英語(yǔ)語(yǔ)句;
獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息;
基于各詞的主題信息生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞;
確定搭配詞中是否存在中式英語(yǔ)搭配詞;
如果是,則確定待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ);
如果否,則確定待檢測(cè)英語(yǔ)語(yǔ)句不包含中式英語(yǔ)。
優(yōu)選地,所述方法還包括:預(yù)先構(gòu)建主題抽取模型;
所述獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息包括:
基于所述主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息。
優(yōu)選地,構(gòu)建主題抽取模型包括:
收集自然英語(yǔ)語(yǔ)料,并對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注;
根據(jù)所述自然英語(yǔ)語(yǔ)料及其主題標(biāo)注信息訓(xùn)練得到主題抽取模型。
優(yōu)選地,所述方法還包括:預(yù)先構(gòu)建搭配詞質(zhì)量判斷模型;
所述確定搭配詞中是否存在中式英語(yǔ)搭配詞包括:
基于所述搭配詞質(zhì)量判斷模型確定各搭配詞的質(zhì)量;
如果所述搭配詞為高質(zhì)量搭配詞,并且預(yù)先構(gòu)建的搭配詞庫(kù)中沒(méi)有與其相匹配的搭配詞,則確定所述搭配詞為中式英語(yǔ)搭配詞。
優(yōu)選地,所述構(gòu)建搭配詞質(zhì)量判斷模型包括:
收集自然英語(yǔ)語(yǔ)料,并對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注;
基于各詞的主題標(biāo)注信息生成自然英語(yǔ)語(yǔ)料中的搭配詞;
提取搭配詞特征,并標(biāo)注搭配詞質(zhì)量,所述搭配詞特征包括以下任意一種或多種:搭配詞的共現(xiàn)頻度、搭配詞中不同詞之間的點(diǎn)互信息、搭配詞中每個(gè)詞的逆向文檔頻率、搭配詞中停用詞的數(shù)量、當(dāng)前搭配詞的共現(xiàn)頻度與頻度最小的子搭配詞的頻度比;
根據(jù)所述搭配詞特征及質(zhì)量標(biāo)注信息訓(xùn)練得到搭配詞質(zhì)量判斷模型。
優(yōu)選地,所述方法還包括:
以視覺(jué)和/或聽(tīng)覺(jué)的形式,展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞;和/或
如果所述待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ),則以視覺(jué)和/或聽(tīng)覺(jué)的形式進(jìn)行提示。
一種中式英語(yǔ)的發(fā)現(xiàn)系統(tǒng),包括:
語(yǔ)句獲取模塊,用于獲取待檢測(cè)英語(yǔ)語(yǔ)句;
主題獲取模塊,用于獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息;
搭配詞生成模塊,用于基于各詞的主題信息生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞;
確定模塊,用于確定搭配詞中是否存在中式英語(yǔ)搭配詞;如果是,則確定待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ);如果否,則確定待檢測(cè)英語(yǔ)語(yǔ)句不包含中式英語(yǔ)。
優(yōu)選地,所述系統(tǒng)還包括:
第一模型構(gòu)建模塊,用于預(yù)先構(gòu)建主題抽取模型;
所述主題獲取模塊具體用于基于所述主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息。
優(yōu)選地,所述第一模型構(gòu)建模塊包括:
第一語(yǔ)料收集單元,用于收集自然英語(yǔ)語(yǔ)料;
第一主題標(biāo)注單元,用于對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注;
第一模型訓(xùn)練單元,用于根據(jù)所述自然英語(yǔ)語(yǔ)料及其主題標(biāo)注信息訓(xùn)練得到主題抽取模型。
優(yōu)選地,所述系統(tǒng)還包括:
第二模型構(gòu)建模塊,用于預(yù)先構(gòu)建搭配詞質(zhì)量判斷模型;
所述確定模塊具體用于基于所述搭配詞質(zhì)量判斷模型確定各搭配詞的質(zhì)量;如果所述搭配詞為高質(zhì)量搭配詞,并且預(yù)先構(gòu)建的搭配詞庫(kù)中沒(méi)有與其相匹配的搭配詞,則確定所述搭配詞為中式英語(yǔ)搭配詞。
優(yōu)選地,所述第二模型構(gòu)建模塊包括:
第二語(yǔ)料收集單元,用于收集自然英語(yǔ)語(yǔ)料;
第二主題標(biāo)注單元,用于對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注;
生成單元,用于基于各詞的主題標(biāo)注信息生成自然英語(yǔ)語(yǔ)料中的搭配詞;
特征提取單元,用于提取搭配詞特征,所述搭配詞特征包括以下任意一種或多種:搭配詞的共現(xiàn)頻度、搭配詞中不同詞之間的點(diǎn)互信息、搭配詞中每個(gè)詞的逆向文檔頻率、搭配詞中停用詞的數(shù)量、當(dāng)前搭配詞的共現(xiàn)頻度與頻度最小的子搭配詞的頻度比;
質(zhì)量標(biāo)注單元,用于標(biāo)注搭配詞質(zhì)量;
第二模型訓(xùn)練單元,用于根據(jù)所述搭配詞特征及質(zhì)量標(biāo)注信息訓(xùn)練得到搭配詞質(zhì)量判斷模型。
優(yōu)選地,所述系統(tǒng)還包括:
展現(xiàn)模塊,用于以視覺(jué)和/或聽(tīng)覺(jué)的形式,展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞;和/或
提示模塊,用于如果所述待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ),則以視覺(jué)和/或聽(tīng)覺(jué)的形式進(jìn)行提示。
本發(fā)明實(shí)施例提供的中式英語(yǔ)的發(fā)現(xiàn)方法及系統(tǒng),通過(guò)獲取待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息,然后基于各詞的主題信息獲取所述待檢測(cè)英語(yǔ)語(yǔ)句的搭配詞,接著判斷各搭配詞是否為中式英語(yǔ)搭配詞,最終根據(jù)待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ)搭配詞來(lái)判斷待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ)。傳統(tǒng)的中式英語(yǔ)集由于中式英語(yǔ)錯(cuò)誤是無(wú)法窮舉的導(dǎo)致該中式英語(yǔ)集難以收集,而本發(fā)明基于搭配詞判斷待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ),自然英語(yǔ)中搭配詞數(shù)量是有限的,因而可以預(yù)先構(gòu)建一個(gè)自然英語(yǔ)搭配詞的語(yǔ)料庫(kù),利用待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞在該語(yǔ)料庫(kù)中進(jìn)行匹配,以判斷各搭配詞是否為中式英語(yǔ)搭配詞,進(jìn)而提高判斷待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ)的正確率。
進(jìn)一步地,本發(fā)明將搭配詞分為質(zhì)量高和質(zhì)量低兩類,然后判斷高質(zhì)量的搭配詞是否為中式英語(yǔ)搭配詞,其中,質(zhì)量高搭配詞指常見(jiàn)的詞組合或常見(jiàn)的詞搭配形式,質(zhì)量低搭配詞指其余搭配詞,這樣可以進(jìn)一步解決由于英語(yǔ)語(yǔ)句或英語(yǔ)語(yǔ)句的詞搭配形式多樣,導(dǎo)致將低質(zhì)量搭配詞誤判為中式英語(yǔ)的問(wèn)題,以提高中式英語(yǔ)發(fā)現(xiàn)的準(zhǔn)確率。
進(jìn)一步地,本發(fā)明可以基于預(yù)先構(gòu)建的主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息,簡(jiǎn)單高效且準(zhǔn)確率高。
進(jìn)一步地,本發(fā)明可以基于預(yù)先構(gòu)建的搭配詞質(zhì)量判斷模型判斷各搭配詞的質(zhì)量,簡(jiǎn)單高效且準(zhǔn)確率高。
進(jìn)一步地,本發(fā)明可以利用所述搭配詞質(zhì)量判斷模型判斷各搭配詞的質(zhì)量,所述搭配詞特征可以包括以下任意一種或多種:搭配詞的共現(xiàn)頻度、搭配詞中不同詞之間的點(diǎn)互信息、搭配詞中每個(gè)詞的逆向文檔頻率、搭配詞中停用詞的數(shù)量、當(dāng)前搭配詞的共現(xiàn)頻度與頻度最小的子搭配詞的頻度比。通過(guò)多種 特征從多個(gè)角度判斷各搭配詞的質(zhì)量,能有效提升判斷各搭配詞的質(zhì)量的準(zhǔn)確度。
進(jìn)一步地,本發(fā)明考慮到人工投入量及效率問(wèn)題,所述訓(xùn)練搭配詞選取原則是涵蓋各種搭配類型,如動(dòng)+名、形容詞+名詞等,在同一類型中優(yōu)先選取詞頻較高的搭配詞進(jìn)行搭配詞質(zhì)量標(biāo)注。這樣可以有效降低人工投入量,提升效率。
進(jìn)一步地,本發(fā)明提供的預(yù)先構(gòu)建的語(yǔ)料庫(kù)為正確語(yǔ)料庫(kù),由于自然英語(yǔ)中搭配詞數(shù)量有限,構(gòu)建該語(yǔ)料庫(kù)更加容易,例如英漢大辭典中出現(xiàn)的搭配詞或者常見(jiàn)的動(dòng)+名詞、形容詞+名詞搭配等可以收入正確語(yǔ)料庫(kù)。
進(jìn)一步地,本發(fā)明還可以以視覺(jué)和/或聽(tīng)覺(jué)的形式,展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞;和/或如果所述待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ),則以視覺(jué)和/或聽(tīng)覺(jué)的形式進(jìn)行提示,并給出一些展現(xiàn)方式,以便審閱者和/或作者發(fā)現(xiàn)錯(cuò)誤,并進(jìn)行糾正。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是現(xiàn)有技術(shù)發(fā)現(xiàn)中式英語(yǔ)的方法的一種流程圖;
圖2是本發(fā)明實(shí)施例提供的中式英語(yǔ)的發(fā)現(xiàn)方法的一種流程圖;
圖3是本發(fā)明實(shí)施例提供的構(gòu)建主題抽取模型的方法的一種流程圖;
圖4是本發(fā)明實(shí)施例提供的確定搭配詞中是否存在中式英語(yǔ)搭配詞的方法的一種流程圖;
圖5是本發(fā)明實(shí)施例提供的構(gòu)建搭配詞質(zhì)量判斷模型的方法的一種流程圖;
圖6是本發(fā)明實(shí)施例提供的中式英語(yǔ)的發(fā)現(xiàn)系統(tǒng)的一種結(jié)構(gòu)示意圖;
圖7是本發(fā)明實(shí)施例提供的第一模型構(gòu)建模塊的一種結(jié)構(gòu)示意圖;
圖8是本發(fā)明實(shí)施例提供的第二模型構(gòu)建模塊的一種結(jié)構(gòu)示意圖;
圖9是本發(fā)明實(shí)施例提供的中式英語(yǔ)的發(fā)現(xiàn)系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。以下實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
本發(fā)明提供的中式英語(yǔ)的發(fā)現(xiàn)方法及系統(tǒng),通過(guò)對(duì)待檢測(cè)英語(yǔ)語(yǔ)句進(jìn)行主題抽取,根據(jù)句子中各主題生成搭配詞,然后基于搭配詞判斷待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ),其中,搭配詞指同一語(yǔ)句中主題相同的詞組合。傳統(tǒng)的中式英語(yǔ)集由于中式英語(yǔ)錯(cuò)誤是無(wú)法窮舉的,導(dǎo)致該中式英語(yǔ)集難以收集;而本發(fā)明基于搭配詞判斷待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ),自然英語(yǔ)中搭配詞數(shù)量是有限的,,因而可以構(gòu)建出一個(gè)英語(yǔ)集涵蓋所有自然英語(yǔ)中搭配詞,能有效提升中式英語(yǔ)發(fā)現(xiàn)的準(zhǔn)確率。此外,還可以對(duì)搭配詞進(jìn)行分類處理,例如將搭配詞分為質(zhì)量高和質(zhì)量低兩類,然后判斷高質(zhì)量的搭配詞是否為中式英語(yǔ)搭配詞,其中,質(zhì)量高的搭配詞可以指常見(jiàn)的詞組合或常見(jiàn)的詞搭配形式,質(zhì)量低的搭配詞可以指其余搭配詞(如不常見(jiàn)搭配詞),這樣可以進(jìn)一步解決由于英語(yǔ)語(yǔ)句或英語(yǔ)語(yǔ)句的詞搭配形式多樣,導(dǎo)致將低質(zhì)量搭配詞誤判為中式英語(yǔ)的問(wèn)題。
為了更好的理解本發(fā)明的技術(shù)方案和技術(shù)效果,以下將結(jié)合流程圖和具體的實(shí)施例進(jìn)行詳細(xì)的描述。
如圖2所示,是本發(fā)明實(shí)施例提供的中式英語(yǔ)的發(fā)現(xiàn)方法的一種流程圖,包括以下步驟:
步驟s01,獲取待檢測(cè)英語(yǔ)語(yǔ)句。
在本實(shí)施例中,所述待檢測(cè)英語(yǔ)語(yǔ)句可以是用戶以文字形式輸入的英語(yǔ)語(yǔ)句,也可以是用戶輸入的英語(yǔ)語(yǔ)音,通過(guò)語(yǔ)音識(shí)別等方法將該英語(yǔ)語(yǔ)音轉(zhuǎn)換為文字形式,此外,還可以是用戶獲取的圖像信息等,然后通過(guò)光學(xué)字符識(shí)別(opticalcharacterrecognition,ocr)等技術(shù)獲取英語(yǔ)語(yǔ)句,在此不做限定。
在一個(gè)具體實(shí)施例中,對(duì)考生的英語(yǔ)考試答案進(jìn)行掃描,獲取考生的英語(yǔ)考試答案圖像,然后通過(guò)ocr技術(shù)獲取答案中各英語(yǔ)語(yǔ)句。
步驟s02,獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息。
在本實(shí)施例中,所述主題信息是自然語(yǔ)言統(tǒng)計(jì)信息。當(dāng)采用詞集的形式對(duì)自然語(yǔ)料進(jìn)行表述時(shí),其維度會(huì)非常高,通過(guò)主題表述自然語(yǔ)料,可以達(dá)到降維的目的;此外,通過(guò)主題信息可以更好的挖掘詞語(yǔ)中的隱含關(guān)系。實(shí)際應(yīng)用中,可以假設(shè)有k種主題,這些主題中每個(gè)主題在其認(rèn)知范圍內(nèi)都有一個(gè)能表達(dá)這個(gè)主題的詞集,而這k個(gè)主題混合在一起形成了各種文檔等。其中,主題數(shù)目可以由大量實(shí)驗(yàn)獲取,該主題數(shù)目達(dá)到最優(yōu)值的指標(biāo)是使得在該主題數(shù)目時(shí)得到的搭配能涵蓋自然語(yǔ)料中所有的搭配;確定主題數(shù)目過(guò)程中也會(huì)利用經(jīng)驗(yàn)等進(jìn)行確定,一般主題數(shù)目設(shè)置為50種。
在實(shí)際應(yīng)用中,可以通過(guò)主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息,具體地,主題抽取模型可以為:文檔主題生成模型(latentdirichletallocation,lda)。
步驟s03,基于各詞的主題信息生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞。
在本實(shí)施例中,所述待檢測(cè)英語(yǔ)語(yǔ)句中主題信息相同的各詞構(gòu)成一個(gè)搭配詞。在實(shí)際應(yīng)用中,將在一個(gè)句子中屬于同一個(gè)主題的各詞,按照其在句子中的順序,生成各搭配詞,每個(gè)搭配詞至少含有兩個(gè)詞。
步驟s04,確定搭配詞中是否存在中式英語(yǔ)搭配詞;如果是,則確定待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ);如果否,則確定待檢測(cè)英語(yǔ)語(yǔ)句不包含中式英語(yǔ)。
在本實(shí)施例中,可以基于預(yù)先構(gòu)建的自然英語(yǔ)搭配詞庫(kù)確定所述搭配詞是否為中式英語(yǔ)搭配詞。具體地,可以預(yù)先構(gòu)建自然英語(yǔ)搭配詞庫(kù),如果當(dāng)前搭配詞在自然英語(yǔ)搭配詞庫(kù)中存在,則確定當(dāng)前搭配詞不是中式英語(yǔ)搭配詞,如果當(dāng)前搭配詞在自然英語(yǔ)搭配詞庫(kù)中不存在,則確定當(dāng)前搭配詞是中式英語(yǔ)搭配詞。此外,也可以預(yù)先構(gòu)建中式英語(yǔ)的搭配詞庫(kù),如果當(dāng)前搭配詞在中式英語(yǔ)的搭配詞庫(kù)中存在,則確定當(dāng)前搭配詞是中式英語(yǔ),如果當(dāng)前搭配詞在中式英語(yǔ)的搭配詞庫(kù)中不存在,則確定當(dāng)前搭配詞不是中式英語(yǔ)。當(dāng)然,還可以同時(shí)構(gòu)建兩個(gè)或多個(gè)搭配詞庫(kù),例如:自然英語(yǔ)搭配詞庫(kù)和中式英語(yǔ)搭配詞庫(kù),如果當(dāng)前搭配詞在自然英語(yǔ)搭配詞庫(kù)中不存在,則繼續(xù)在中式英語(yǔ)搭配詞庫(kù)中進(jìn)行匹配,如果存在匹配結(jié)果,則確定當(dāng)前搭配詞是中式英語(yǔ)搭配詞,如果不存在匹配結(jié)果,則確定當(dāng)前搭配詞不是中式英語(yǔ)搭配詞,這樣可以進(jìn)一步提高 中式英語(yǔ)發(fā)現(xiàn)的準(zhǔn)確率。以上僅是通過(guò)預(yù)先構(gòu)建的搭配詞庫(kù)確定搭配詞中是否存在中式英語(yǔ)搭配詞的示例,還可以存在其它形式的設(shè)定、使用順序或搭配組合,以上示例不能理解為對(duì)本發(fā)明的限定。
進(jìn)一步地,所述方法還可以包括:以視覺(jué)和/或聽(tīng)覺(jué)的形式,展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞;和/或如果所述待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ),則以視覺(jué)和/或聽(tīng)覺(jué)的形式進(jìn)行提示;例如,語(yǔ)音播報(bào):存在中式英語(yǔ)等。在實(shí)際應(yīng)用中,可以采用以下任意一種或多種方式展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞:
采用高亮或區(qū)別于其它展現(xiàn)內(nèi)容的顏色顯示包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞;
展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞對(duì)應(yīng)的候選糾正英語(yǔ)語(yǔ)句和/或英語(yǔ)搭配詞,并標(biāo)記包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞。
當(dāng)然還可以以其它展現(xiàn)方式進(jìn)行展現(xiàn),在此不作限定。
在本發(fā)明實(shí)施例中,通過(guò)獲取待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息,并基于各詞的主題信息生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞,然后判斷各搭配詞是否為中式英語(yǔ)搭配詞,最終通過(guò)判斷待檢測(cè)英語(yǔ)語(yǔ)句中是否包含所述中式英語(yǔ)搭配詞來(lái)確定待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ)。由于基于主題信息生成的搭配詞能表示當(dāng)前主題,且自然英語(yǔ)搭配詞的數(shù)量有限,因而可以構(gòu)建出一個(gè)涵蓋所有自然英語(yǔ)搭配詞的搭配詞庫(kù),利用該搭配詞庫(kù)能有效判斷當(dāng)前搭配詞是否為中式英語(yǔ)搭配詞,最終通過(guò)判斷待檢測(cè)英語(yǔ)語(yǔ)句中是否包含所述中式英語(yǔ)搭配詞來(lái)確定待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ),提高了發(fā)現(xiàn)中式英語(yǔ)的準(zhǔn)確率。
在另一個(gè)實(shí)施例中,所述獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息包括:基于所述主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息。對(duì)此,本發(fā)明還提供了一種構(gòu)建主題抽取模型的方法,如圖3所示,為一種構(gòu)建主題抽取模型的方法的流程圖。構(gòu)建主題抽取模型包括以下步驟:
步驟s31,收集自然英語(yǔ)語(yǔ)料,并對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注。
在本實(shí)施例中,所述自然英語(yǔ)語(yǔ)料,可以為從網(wǎng)絡(luò)上或已有的語(yǔ)料庫(kù)中收 集的自然英語(yǔ)語(yǔ)料,如英語(yǔ)小說(shuō)、英語(yǔ)論文、英語(yǔ)劇本、英語(yǔ)試題標(biāo)準(zhǔn)答案等。此外,還可以針對(duì)不同的需求篩選英語(yǔ)語(yǔ)料,例如美式英語(yǔ)、英式英語(yǔ)等;然后對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注。需要說(shuō)明的是,標(biāo)注信息可以是通過(guò)人工標(biāo)注的方式對(duì)收集的自然英語(yǔ)語(yǔ)料進(jìn)行標(biāo)注,當(dāng)然也可以是直接收集已經(jīng)具有主題標(biāo)注信息的自然英語(yǔ)語(yǔ)料,在此不做限定。
步驟s32,根據(jù)所述自然英語(yǔ)語(yǔ)料及其主題標(biāo)注信息訓(xùn)練得到主題抽取模型。
在本實(shí)施例中,所述主題抽取模型可以為lda模型,所述主題抽取模型的輸入為英語(yǔ)語(yǔ)句,輸出為該英語(yǔ)語(yǔ)句中各詞的主題信息,通過(guò)將步驟s31中收集的自然英語(yǔ)語(yǔ)料輸入所述主題抽取模型,通過(guò)調(diào)整模型參數(shù),使得所述主題抽取模型輸出的結(jié)果趨近于預(yù)先標(biāo)注的各詞的主題信息,以訓(xùn)練所述主題抽取模型。
在一個(gè)具體實(shí)施例中,以ilikethisskateverymuch為例進(jìn)行說(shuō)明,預(yù)先標(biāo)注好主題信息的該英語(yǔ)語(yǔ)句可以為:i:1like:2this:3skate:3very:2much:2,每個(gè)詞后面的數(shù)字則代表該詞所屬的主題,即該詞的主題信息。預(yù)先確定所述主題抽取模型的主題數(shù)目,將ilikethisskateverymuch輸入所述主題抽取模型,通過(guò)調(diào)整模型參數(shù),使得所述主題抽取模型輸出的結(jié)果趨近于i:1like:2this:3skate:3very:2much:2,通過(guò)大量的自然英語(yǔ)語(yǔ)料訓(xùn)練所述主題抽取模型,以獲取訓(xùn)練好的所述主題抽取模型。其中,搭配詞有兩個(gè),分別為:likeverymuch和thisskate。
本發(fā)明實(shí)施例可以基于預(yù)先構(gòu)建的主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息,簡(jiǎn)單高效且準(zhǔn)確率高。
在其它實(shí)施例中,本發(fā)明在生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞之后,還判斷各搭配詞的質(zhì)量,對(duì)質(zhì)量高和質(zhì)量低的搭配詞進(jìn)行區(qū)別處理,以進(jìn)一步提升中式英語(yǔ)搭配詞檢測(cè)的正確率,如圖4所示,為本發(fā)明提供的一種確定搭配詞中是否存在中式英語(yǔ)搭配詞的流程圖,包括:
步驟s41,基于所述搭配詞質(zhì)量判斷模型確定各搭配詞的質(zhì)量。
在本實(shí)施例中,所述搭配詞質(zhì)量判斷模型可以是支持向量機(jī)(supportvectormachine,svm),也可以是基于隨機(jī)森林等算法訓(xùn)練的分類器,在此不 做限定。其中,所述搭配詞質(zhì)量判斷模型的輸入是一維或多維的搭配詞特征,輸出是搭配詞的質(zhì)量:質(zhì)量高、質(zhì)量低。搭配詞的質(zhì)量表征的是該搭配詞是否為常見(jiàn)搭配詞或常見(jiàn)的詞搭配方式,如:動(dòng)詞+名詞、形容詞+名詞的搭配方式等。
需要說(shuō)明的是,還可以基于規(guī)則等方式確定各搭配詞的質(zhì)量,例如,根據(jù)針對(duì)各搭配詞特征設(shè)定對(duì)應(yīng)的閾值,根據(jù)該閾值進(jìn)行質(zhì)量判斷,該閾值可以是根據(jù)經(jīng)驗(yàn)和大量實(shí)驗(yàn)確定的,在此不做限定。
步驟s42,如果所述搭配詞為高質(zhì)量搭配詞,并且預(yù)先構(gòu)建的搭配詞庫(kù)中沒(méi)有與其相匹配的搭配詞,則確定所述搭配詞為中式英語(yǔ)搭配詞。
在本實(shí)施例中,通過(guò)本步驟對(duì)搭配詞進(jìn)行區(qū)別處理,可以進(jìn)一步解決由于英語(yǔ)語(yǔ)句或英語(yǔ)語(yǔ)句的詞搭配形式多樣,導(dǎo)致將低質(zhì)量搭配詞誤判為中式英語(yǔ)的問(wèn)題,以提高中式英語(yǔ)發(fā)現(xiàn)的準(zhǔn)確率。
需要說(shuō)明的是,本實(shí)施例所舉的搭配詞庫(kù)為自然英語(yǔ)的搭配詞庫(kù),即正確語(yǔ)料庫(kù),由于正確搭配詞數(shù)量有限,構(gòu)建該語(yǔ)料庫(kù)更加容易,例如英漢大辭典中出現(xiàn)的搭配詞或者常見(jiàn)的動(dòng)+名詞、形容詞+名詞搭配等可以收入正確語(yǔ)料庫(kù)。當(dāng)然,也可以為中式英語(yǔ)的搭配詞庫(kù),將在該庫(kù)中匹配到的搭配詞作為中式英語(yǔ)搭配詞。還可以是兩個(gè)或兩個(gè)以上搭配詞庫(kù)組合使用以提升使用效果,在此不做限定。
在又一個(gè)實(shí)施例中,本發(fā)明實(shí)施例還提供了一種構(gòu)建搭配詞質(zhì)量判斷模型的方法,如圖5所示,是構(gòu)建搭配詞質(zhì)量判斷模型的方法的一種流程圖,包括:
步驟s51,收集自然英語(yǔ)語(yǔ)料,并對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注。
在本實(shí)施例中,本步驟可以同步驟s31,也可以利用步驟s32訓(xùn)練的主題抽取模型對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注,在此不再詳述。此外,本步驟可以和步驟s31同時(shí)/不同時(shí)進(jìn)行或直接調(diào)用步驟s31的結(jié)果,在此不作限定。
步驟s52,基于各詞的主題標(biāo)注信息生成自然英語(yǔ)語(yǔ)料中的搭配詞。
在本實(shí)施例中,本步驟可以同步驟s03,在此不再詳述。
步驟s53,提取搭配詞特征,并標(biāo)注搭配詞質(zhì)量。
在本實(shí)施例中,所述搭配詞特征包括但不限于以下任意一種或多種:搭配詞的共現(xiàn)頻度、搭配詞中不同詞之間的點(diǎn)互信息、搭配詞中每個(gè)詞的逆向文檔頻率、搭配詞中停用詞的數(shù)量、當(dāng)前搭配詞的共現(xiàn)頻度與頻度最小的子搭配詞的頻度比,以下分別進(jìn)行詳細(xì)說(shuō)明。
1)搭配詞的共現(xiàn)頻度
所述搭配詞的共現(xiàn)頻度指的是搭配詞所有順序的搭配出現(xiàn)頻度的總和,如一個(gè)搭配詞是abc,那么所有順序的搭配有abc、acb、bac、bca、cab、cba,此時(shí)搭配詞abc的共現(xiàn)頻度為上述6個(gè)搭配在自然語(yǔ)料中出現(xiàn)的頻度的和。
2)搭配詞中不同詞之間的pmi(點(diǎn)互信息)
兩個(gè)詞之間的點(diǎn)互信息的計(jì)算公式如式(1)所示:
其中,p(v)為搭配詞v的共現(xiàn)頻度,p(ui)、p(uj)分別為詞ui和詞uj在自然語(yǔ)料中出現(xiàn)的頻度。
3)搭配詞中每個(gè)詞的idf(逆向文檔頻率)
idf=log(d/dt),d為自然語(yǔ)料中英語(yǔ)語(yǔ)句的數(shù)量,dt為當(dāng)前詞出現(xiàn)的語(yǔ)句的數(shù)量。
4)搭配詞中停用詞的數(shù)量
停用詞的判斷可以采用現(xiàn)有的相關(guān)技術(shù),如最簡(jiǎn)單的,預(yù)先構(gòu)建一個(gè)停用詞表,然后通過(guò)匹配判斷是否是停用詞。
5)當(dāng)前搭配詞的共現(xiàn)頻度與頻度最小的子搭配詞的頻度比
頻度最小的子搭配詞的頻度具體指當(dāng)前搭配詞的子搭配在自然語(yǔ)料中頻度最小的子搭配詞的頻度,如當(dāng)前搭配詞abc,則其子搭配詞有ab、ac、bc,則找該3個(gè)子搭配詞中頻度最小的搭配的頻度。
在提取搭配詞特征之后,對(duì)各搭配詞進(jìn)行質(zhì)量標(biāo)注,例如通過(guò)人工進(jìn)行標(biāo)注。一般認(rèn)為在詞典(如英漢大辭典)中出現(xiàn)的搭配詞或者常見(jiàn)的動(dòng)+名詞、形容詞+名詞搭配等是高質(zhì)量的搭配,反之一些從未見(jiàn)過(guò)或者出現(xiàn)頻率過(guò)低或者含信息量少的一些搭配,被標(biāo)注為低質(zhì)量的搭配。
需要說(shuō)明的是,訓(xùn)練語(yǔ)料構(gòu)成的搭配詞,考慮到人工投入量及效率問(wèn)題, 一般選取詞頻較高的搭配詞做標(biāo)注、進(jìn)行特征提取。此外,本實(shí)施例中也可以直接收集具有主題標(biāo)注信息的搭配詞。
步驟s54,根據(jù)所述搭配詞特征及質(zhì)量標(biāo)注信息訓(xùn)練得到搭配詞質(zhì)量判斷模型。
在本實(shí)施例中,將所述搭配詞特征輸入所述搭配詞質(zhì)量判斷模型,通過(guò)調(diào)整模型參數(shù),使得模型輸出趨近于預(yù)先標(biāo)注的質(zhì)量標(biāo)注信息,通過(guò)大量的訓(xùn)練得到所述搭配詞質(zhì)量判斷模型。
在本發(fā)明實(shí)施例中,本發(fā)明可以利用所述搭配詞特征判斷模型判斷各搭配詞的質(zhì)量,通過(guò)多維搭配詞特征從多個(gè)角度判斷各搭配詞的質(zhì)量,能有效提升判斷各搭配詞的質(zhì)量的準(zhǔn)確度。
相應(yīng)地,本發(fā)明還提供了與中式英語(yǔ)的發(fā)現(xiàn)方法對(duì)應(yīng)的中式英語(yǔ)的發(fā)現(xiàn)系統(tǒng),如圖6所示,為中式英語(yǔ)的發(fā)現(xiàn)系統(tǒng)的一種結(jié)構(gòu)示意圖,該系統(tǒng)包括:
語(yǔ)句獲取模塊601,用于獲取待檢測(cè)英語(yǔ)語(yǔ)句;
主題獲取模塊602,用于獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息;
搭配詞生成模塊603,用于基于各詞的主題信息生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞;
確定模塊604,用于確定搭配詞中是否存在中式英語(yǔ)搭配詞;如果是,則確定待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ);如果否,則確定待檢測(cè)英語(yǔ)語(yǔ)句不包含中式英語(yǔ)。
進(jìn)一步地,所述系統(tǒng)還可以包括:第一模型構(gòu)建模塊706,用于預(yù)先構(gòu)建主題抽取模型;所述主題獲取模塊602具體用于基于所述主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息。
如圖7所示,是第一模型構(gòu)建模塊706的一種結(jié)構(gòu)示意圖,包括:
第一語(yǔ)料收集單元7061,用于收集自然英語(yǔ)語(yǔ)料;
第一主題標(biāo)注單元7062,用于對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注;
第一模型訓(xùn)練單元7063,用于根據(jù)所述自然英語(yǔ)語(yǔ)料及其主題標(biāo)注信息訓(xùn)練得到主題抽取模型。
本發(fā)明可以基于預(yù)先構(gòu)建的主題抽取模型獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各 詞的主題信息,簡(jiǎn)單高效且準(zhǔn)確率高。
此外,所述系統(tǒng)還可以包括:第二模型構(gòu)建模塊707,用于預(yù)先構(gòu)建搭配詞質(zhì)量判斷模型;
所述確定模塊604具體用于基于所述搭配詞質(zhì)量判斷模型確定各搭配詞的質(zhì)量;如果所述搭配詞為高質(zhì)量搭配詞,并且預(yù)先構(gòu)建的搭配詞庫(kù)中沒(méi)有與其相匹配的搭配詞,則確定所述搭配詞為中式英語(yǔ)搭配詞。
如圖8所示,是第二模型構(gòu)建模塊707的一種結(jié)構(gòu)示意圖,包括:
第二語(yǔ)料收集單元7071,用于收集自然英語(yǔ)語(yǔ)料;
第二主題標(biāo)注單元7072,用于對(duì)所述自然英語(yǔ)語(yǔ)料中的各詞進(jìn)行主題標(biāo)注;
生成單元7073,用于基于各詞的主題標(biāo)注信息生成自然英語(yǔ)語(yǔ)料中的搭配詞;
特征提取單元7074,用于提取搭配詞特征;
質(zhì)量標(biāo)注單元7075,用于標(biāo)注搭配詞質(zhì)量
第二模型訓(xùn)練單元7076,用于根據(jù)所述搭配詞特征及質(zhì)量標(biāo)注信息訓(xùn)練得到搭配詞質(zhì)量判斷模型。
需要說(shuō)明的是,第二語(yǔ)料收集單元、第二主題標(biāo)注單元可以分別和第一語(yǔ)料收集單元、第一主題標(biāo)注單元為同一個(gè)單元,在此不做限定。
本發(fā)明可以基于預(yù)先構(gòu)建的搭配詞質(zhì)量判斷模型判斷各搭配詞的質(zhì)量,簡(jiǎn)單高效且準(zhǔn)確率高。
在本實(shí)施例中,所述搭配詞特征包括以下任意一種或多種:搭配詞的共現(xiàn)頻度、搭配詞中不同詞之間的點(diǎn)互信息、搭配詞中每個(gè)詞的逆向文檔頻率、搭配詞中停用詞的數(shù)量、當(dāng)前搭配詞的共現(xiàn)頻度與頻度最小的子搭配詞的頻度比。
進(jìn)一步地,所述系統(tǒng)還可以對(duì)包含中式英語(yǔ)搭配詞的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞進(jìn)行展示、提示和/或語(yǔ)音播報(bào),如圖9所示,為中式英語(yǔ)的發(fā)現(xiàn)系統(tǒng)的另一種結(jié)構(gòu)示意圖,所述系統(tǒng)還可以包括:
展現(xiàn)模塊808,用于以視覺(jué)和/或聽(tīng)覺(jué)的形式,展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞;和/或
提示模塊809,用于如果所述待檢測(cè)英語(yǔ)語(yǔ)句包含中式英語(yǔ),則以視覺(jué)和/或聽(tīng)覺(jué)的形式進(jìn)行提示。
通過(guò)展現(xiàn)模塊808和/或提示模塊809提示用戶當(dāng)前英語(yǔ)語(yǔ)句包含中式英語(yǔ),具體地,所述展現(xiàn)模塊808包括以下任意一個(gè)或多個(gè)單元:
高亮展現(xiàn)單元,用于采用高亮或區(qū)別于其它展現(xiàn)內(nèi)容的顏色顯示包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞;
輔助展現(xiàn)單元,用于展現(xiàn)包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞對(duì)應(yīng)的候選糾正英語(yǔ)語(yǔ)句和/或英語(yǔ)搭配詞,并標(biāo)記包含中式英語(yǔ)的英語(yǔ)語(yǔ)句和/或中式英語(yǔ)搭配詞。
此外,該系統(tǒng)還可以進(jìn)一步包括存儲(chǔ)模塊(未圖示),用于保存模型數(shù)據(jù)、搭配詞、搭配詞質(zhì)量等相關(guān)信息。這樣,以方便對(duì)待檢測(cè)英語(yǔ)語(yǔ)句進(jìn)行計(jì)算機(jī)自動(dòng)處理,并存儲(chǔ)最終檢測(cè)結(jié)果。
本發(fā)明實(shí)施例提供的中式英語(yǔ)的發(fā)現(xiàn)系統(tǒng),通過(guò)語(yǔ)句獲取模塊601獲取待檢測(cè)英語(yǔ)語(yǔ)句,然后利用主題獲取模塊602獲取所述待檢測(cè)英語(yǔ)語(yǔ)句中各詞的主題信息,接著通過(guò)搭配詞生成模塊603生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞,然后利用確定模塊604確定待檢測(cè)英語(yǔ)語(yǔ)句中是否包含所述中式英語(yǔ)搭配詞來(lái)確定待檢測(cè)英語(yǔ)語(yǔ)句是否包含中式英語(yǔ)。傳統(tǒng)的中式英語(yǔ)集由于中式英語(yǔ)錯(cuò)誤是無(wú)法窮舉的導(dǎo)致該中式英語(yǔ)集難以收集,而本發(fā)明利用搭配詞生成模塊603基于主題獲取模塊602獲取的各詞的主題信息,來(lái)生成所述待檢測(cè)英語(yǔ)語(yǔ)句中的搭配詞,而自然英語(yǔ)搭配詞的數(shù)量有限,因而可以構(gòu)建出一個(gè)涵蓋所有自然英語(yǔ)搭配詞的搭配詞庫(kù),利用該搭配詞庫(kù)能有效判斷當(dāng)前搭配詞是否為中式英語(yǔ)搭配詞,提高了發(fā)現(xiàn)中式英語(yǔ)的準(zhǔn)確率。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇 其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實(shí)施方式對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及系統(tǒng);同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。