本發(fā)明涉及英語寫作分析領域,尤其是涉及一種基于深度語義分析的學生英語寫作人工智能系統(tǒng)。
背景技術:
對于自然語言處理技術的發(fā)展,無論國內(nèi)國外的商業(yè)市場、科研領域,以及更大范圍的人類社會對于大規(guī)模、大范圍的真實文本內(nèi)容的迅速、精確、深度分析的要求一直都極其迫切。全球科技界目前在處理大規(guī)模真實文本方面的技術手段主要分為(1)早期的自然語言處理技術(nlp)和(2)最近三十年逐漸形成的比之前技術先進了許多的的運用混合方法構(gòu)建的深度語義分析模塊化的處理技術。
早期的自然語言處理技術(nlp)在文字信息處理方面最突出的特點,也是唯一的技術功能是–計算機對于大段文字的語義識別。通過該技術,計算機可以識別一大段話大致的主要意思。比如某一大段文字表達了一個非常復雜的場景和行為,然而通過該技術,計算機可以識別這段話中其實包含的主要信息是:在某個場景和時間段的大致行為。該技術作為實現(xiàn)計算機對文本的識別技術,在近半個世紀的研究和使用過程中,主要運用在機器翻譯、信息檢索,以及信息提取等領域,并已經(jīng)在廣泛的范圍中取得的越來越多的應用成果。從技術實現(xiàn)的角度來說,該技術主要集中在詞法和句法的分析上,基于規(guī)則的和統(tǒng)計相結(jié)合的語言分析。目前較為成熟的句法分析模型中有中心語驅(qū)動的短語結(jié)構(gòu)文法、詞匯功能語法、依存語法等技術。集成多種自然語言處理技術之后,語義識別逐漸發(fā)展成為比較成熟的應用。
目前商業(yè)市場上主流的應用是前端語音識別技術高度集成的產(chǎn)品,如大眾熟知的蘋果公司的siri,以及國內(nèi)比較知名的科大訊飛基于此技術推出的相關語音語義的識別應用。
在當今的語義分析大潮中,大多數(shù)時間和精力都是用在對于自然語言(nlp)的處理上,也就是說基于語義識別技術的應用在現(xiàn)實生活中非常有局限性。畢竟,該技術只能識別簡單基礎的語言信息,然而無論商界、教育界、科學界對于計算機化語義識別的真正需求不是簡單基礎的信息,而是文本文字包含的多維度、深層次信息–而這一點是該技術無法實現(xiàn)的?;诔掷m(xù)增長的社會各界廣泛需求和早期技術無法滿足該需求,更高級的多維語義深度分析才從全球科研學術界自然興起。
所以說,根據(jù)自然語言和大數(shù)據(jù)的推演,行成一種模式,并推導成一個基于結(jié)構(gòu)化自主學習的模塊,這種過程對于人工智能寫作助手來說,無疑是不精確的。原因有以下幾點,第一,時間上的浪費。這種過程是一種本身沒有一個精準模型,這種方法基本是通過大數(shù)據(jù)的模糊匹配,對于數(shù)據(jù)不斷挖掘,找出類似的模型,并通過循環(huán)神經(jīng)網(wǎng)絡(無論是神經(jīng)網(wǎng)絡語言模型,還是lstm模型)的不斷的迭代循環(huán)。先不說精準度會如何,光行成一種模型標準,可能就需要花一段時間了。第二,模型精準性。在辦公軟件都自帶英文校驗的年代里,怎么樣能夠讓機器學習好帶有特定背景需求的大數(shù)據(jù)信息庫,并自動驗算出一種新的模型是一件困難的事情。例如,如何讓機器懂得英文寫作的評判標準,并且學生按此機器得出的模型去寫英文寫作是否真的可以寫出一篇完整的文章?答案是否定的。深究原因,那就是,機器并沒有自主的專家系統(tǒng),例如對于專業(yè)英文寫作,是需要很懂這類評判標準的專家注入信息模型。以此作為基石,動態(tài)調(diào)整評判標準,基于人工智能才能達到最優(yōu)最準確的評判結(jié)果。
技術實現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種基于深度語義分析的學生英語寫作人工智能系統(tǒng)。
本發(fā)明的目的可以通過以下技術方案來實現(xiàn):
一種基于深度語義分析的學生英語寫作人工智能系統(tǒng),包括:
單詞分類模塊,用于對單詞進行詞義統(tǒng)計,劃分詞性,并分類存儲于云知識庫中,同時記錄各個單詞使用頻率情況;
句型分類模塊,用于將句型結(jié)構(gòu)進行分類存儲于云知識庫中,同時記錄各個句型的頻率;
段落分析模塊,用于分析生成每個章節(jié)的中心思想;
標題分析模塊,用于根據(jù)段落分析模塊分析得到的章節(jié)的中心思想,并分析得到章節(jié)和標題的點題度。
所述標題分析模塊工作過程具體包括步驟:
根據(jù)段落分析模塊分析得到的章節(jié)的中心思想,提取章節(jié)的關鍵詞;
提取標題的關鍵詞;
根據(jù)云知識庫存儲的各單詞的詞義,生成章節(jié)的關鍵詞和標題的關鍵詞之間的關聯(lián)度,并將此關聯(lián)度作為該章節(jié)的點題度。
所述章節(jié)的關鍵詞為章節(jié)中詞義與章節(jié)的中心思想最接近的單詞,或詞庫中詞義與章節(jié)的中心思想最接近的單詞,
所述標題的關鍵詞為標題中詞義與標題含義最接近的單詞。
述段落分析模塊工作過程具體包括步驟:
根據(jù)句子的句型,以及句子中各單詞的詞義和詞性,確定該句子中各單詞的含義;
提取句子中詞性為名詞的單詞含義;
根據(jù)章節(jié)中提取的所有的單詞含義確定中心章節(jié)的思想。
所述人工智能系統(tǒng)對英語作文生成的分析報告,報告內(nèi)容包括:出錯率、偏題率、寫作類型以及作文規(guī)范評分。
與現(xiàn)有技術相比,本發(fā)明就有以下優(yōu)點:
1)運用單詞詞性詞義分類,結(jié)合句型對文章的中心思想分析,最終得到對文章的評價,提供一種智能化英語寫作分析方式,可以準確地自動對語義進行分析。
2)而隨著此數(shù)據(jù)大量的沉淀積累,大數(shù)據(jù)和先前設定的高級模型算法進行相互印證與糾正,從而實現(xiàn)模型的改進與原始文字文本信息的修改改進。
3)此過程的運行可以輕松實現(xiàn)模型算法的自動進化。
附圖說明
圖1為本發(fā)明的結(jié)構(gòu)示意圖;
圖2為本發(fā)明中用于機器學習的單詞關系地圖;
圖3為本發(fā)明中機器學習得出的按照詞性分類的單詞列表;
圖4為本發(fā)明中機器學習生成的詞性關系列表;
其中:1、單詞分類模塊,2、句型分類模塊,3、段落分析模塊,4、標題分析模塊。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細說明。本實施例以本發(fā)明技術方案為前提進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。
一種基于深度語義分析的學生英語寫作人工智能系統(tǒng),包括:
單詞分類模塊1,用于對單詞進行詞義統(tǒng)計,劃分詞性,并分類存儲于云知識庫中,同時記錄各個單詞使用頻率情況;
句型分類模塊2,用于將句型結(jié)構(gòu)進行分類存儲于云知識庫中,同時記錄各個句型的頻率;
段落分析模塊3,用于分析生成每個章節(jié)的中心思想;
標題分析模塊4,用于根據(jù)段落分析模塊分析得到的章節(jié)的中心思想,并分析得到章節(jié)和標題的點題度。
標題分析模塊4工作過程具體包括步驟:
根據(jù)段落分析模塊3分析得到的章節(jié)的中心思想,提取章節(jié)的關鍵詞;
提取標題的關鍵詞;
根據(jù)云知識庫存儲的各單詞的詞義,生成章節(jié)的關鍵詞和標題的關鍵詞之間的關聯(lián)度,并將此關聯(lián)度作為該章節(jié)的點題度。
章節(jié)的關鍵詞為章節(jié)中詞義與章節(jié)的中心思想最接近的單詞,或詞庫中詞義與章節(jié)的中心思想最接近的單詞,這里的關鍵詞一般詞性為名詞,
標題的關鍵詞為標題中詞義與標題含義最接近的單詞,優(yōu)選為標題中的名詞。
段落分析模塊3工作過程具體包括步驟:
根據(jù)句子的句型,以及句子中各單詞的詞義和詞性,確定該句子中各單詞的含義;
提取句子中詞性為名詞的單詞含義;
根據(jù)章節(jié)中提取的所有的單詞含義確定中心章節(jié)的思想。
人工智能系統(tǒng)對英語作文生成的分析報告,報告內(nèi)容包括:出錯率、偏題率、寫作類型以及作文規(guī)范評分。
本系統(tǒng)旨在打造一個模式平臺,可以根據(jù)學術英語專家、教學專家的授課以及評判英語寫作的經(jīng)驗,抽取大量的模式,當模式抽取完畢后,系統(tǒng)會自動按此模式自動打造一套數(shù)據(jù)存儲規(guī)格。有了此存儲規(guī)格之后,系統(tǒng)進行模式編譯、模式量化、以及模式迭代更新,智能地構(gòu)建一套有針對性地數(shù)據(jù)模型,并講此數(shù)據(jù)模型存儲到我們的云知識庫中,并基于規(guī)則引擎提煉出相關的規(guī)則數(shù)據(jù)一并存入云規(guī)則庫中。
當系統(tǒng)一切準備就緒,學生即可上傳文章,進入人機交互界面。系統(tǒng)根據(jù)學生的寫作,進行評分。并從云規(guī)則庫中搜索出對應的培訓內(nèi)容以及相關的內(nèi)容推送,以及考試熱點分析,局勢變化,并使用一系列的分析建模與挖掘的技術,來幫助學生更好的改進寫作。
針對我們這套系統(tǒng),重點是需要搭建一套核心模式平臺,并定義好一套完整的數(shù)據(jù)格式。基于這個平臺,智能分類、再聚集相關信息,通過人工智能和深度語義技術,生成多種甚至千百種的模式,即不同學生根據(jù)不同的寫作內(nèi)容生成一條最佳路徑(pathoptimization)。
每個executor是一套我們的標準。同時,每個executor可以被復用,以圖的結(jié)構(gòu)構(gòu)成一系列的node,使之可以輕松的被迭代被調(diào)用,甚至被推演。
本系統(tǒng)還包括對所有學生使用習慣的分析。
本系統(tǒng)還包括對于學生寫作的建議和進一步學習的指導知識庫,以達到學生提高寫作的目的。該模塊在下一章節(jié)中呈現(xiàn)。
本系統(tǒng)該框架的數(shù)據(jù)來源是包含該學生的每次英語寫作內(nèi)容、出錯率、點題率,并分析該學生的寫作長處、短處,喜歡寫哪類文章,和該寫作的指定標準差了多少,等等。這些大數(shù)據(jù),可以很好地為我們后續(xù)實時地幫助學生提供一系列學習計劃以改進寫作能力。
迭代學習框架包括以下步驟:
(1)提供一套背后進程,該進程會基于類似谷歌爬蟲技術,挖掘每個用戶的習慣,并根據(jù)每次用戶習慣推導入云知識庫中。若網(wǎng)絡出現(xiàn)問題,我們會在本地緩存用戶習慣,等網(wǎng)絡通的時候,再進行上傳。保證用戶學習體驗不被受阻。
(2)云知識庫是一套完整的詳細的知識點。每個知識點都被離散并設置了sha-1標簽保證唯一性。每個標簽屬于一個zone。每個zone屬于一個paratition。目的是為了在毫秒級能快速找到對應的知識點。
(3)云規(guī)則引擎,是一套大數(shù)據(jù)集合下的云規(guī)則庫。這個庫里存放著大量的小規(guī)則,這種小規(guī)則例如ifxxxthenyyy的模式存儲。xxx和yyy是非常簡單的判斷。xxx和yyy可以是另一個規(guī)則的入口或者是結(jié)論,之后該系統(tǒng)將通過演算、推導,并計算出一個結(jié)論,這個結(jié)論就是用戶的學習計劃。
區(qū)別于早期技術自然語言處理技術只能實現(xiàn)語義識別功能,當前世界范圍內(nèi)最先進的語言語義分析技術為“復雜語義深度分析技術”。其主要技術特征是運用混合方法(定性和定量方法)對特定領域的文字表達信息進行多維度建模,建成的模型統(tǒng)稱“多維語義算法”。此類高級算法模型可以對文字表達信息進行深度嚴謹分析,同時每一次文本文字信息的分析都形成一次數(shù)據(jù)的沉淀;而隨著此數(shù)據(jù)大量的沉淀積累,大數(shù)據(jù)和先前設定的高級模型算法進行相互印證與糾正,從而實現(xiàn)模型的改進與原始文字文本信息的修改改進。特別有價值的一點是,此過程的運行可以輕松實現(xiàn)模型算法的自動進化,或稱迭代升級–即:實現(xiàn)多維語義深度分析人工智能自主進化。而此過程中原始文字文本信息被自動糾錯與修改的部分已經(jīng)成為了國際學術界非常前沿和有商業(yè)價值的部分。下圖為多維語義分析在產(chǎn)品設計中的應用:
單詞嵌入(wordembeddings)
利用神經(jīng)網(wǎng)絡構(gòu)建深度學習模型可以實現(xiàn)對單個詞匯在近義詞,相關詞等數(shù)據(jù)庫中的關系形成機器學習的訓練模型,從而更準確的做到多位語義分析。
例如:w:words→rn是一個參數(shù)化函數(shù),它把某個語言里的單詞映射成高維向量(大概200到500維)。例如這樣:
“w(“cat”)=(0.2,-0.4,0.7,…)
w(“mat”)=(0.0,0.6,-0.1,…)”
初始化后,w中每個詞對應一個隨機的向量。它會學習出有意義的向量以便執(zhí)行任務。
訓練一個網(wǎng)絡讓其預測一個5元組(5-gram)(連續(xù)的5個詞)是否‘成立’。我們可以隨便選一堆5元組(比如catsatonthemat)然后把其中一個詞隨便換成另外一個詞(比如catsatsongthemat),那么一半的5元組估計都會變得荒謬且沒意義了。
訓練的模型會通過w把5元組中每個詞的表征向量取出來,輸入給另外一個叫r的模塊,模塊r會試圖預測這個5元組是‘成立的’或者是‘破碎的’。然后我們希望看見:
“r(w(“cat”),w(“sat”),w(“on”),w(“the”),w(“mat”))=1
r(w(“cat”),w(“sat”),w(“song”),w(“the”),w(“mat”))=0”
如圖2所示,直觀感受一下單詞嵌入空間,我們可以用t-sne來對它進行可視化。t-sne是一個復雜的高維數(shù)據(jù)可視化技術。
這種單詞構(gòu)成的“地圖”對我們來說更直觀。相似的詞離得近。另一種方法是看對一個給定單詞來說,如圖3所示,哪些其他的單詞離它最近。我們可以再一次看到,這些詞都很相似。
當更復雜的關系被編碼出來之后,多位語義分析的數(shù)據(jù)庫會形成如圖4所示關系詞組。