本發(fā)明涉及英語語料庫領(lǐng)域。更具體地說,本發(fā)明涉及一種基于向量空間模型的英漢語料提取方法。
背景技術(shù):
基于英漢雙語語料庫的前后文建模方法是利用語料庫提供的詞語和詞語間彼此的關(guān)聯(lián)性來對(duì)詞語進(jìn)行向量化建模,向量空間模型也稱為單向向量空間模型,是基于統(tǒng)計(jì)詞語相似度計(jì)算策略中使用廣泛的一種模型,其理論基礎(chǔ)是計(jì)算出源語言中每一個(gè)詞wi的特征詞向量ri,再計(jì)算出目標(biāo)語言中每一個(gè)詞wi的特征詞向量ri則計(jì)算詞wi和wj的相似度就轉(zhuǎn)換成計(jì)算特征詞向量ri與rj的相似度。而單向向量空間模型存在精確度不夠的問題,常常發(fā)生翻譯不準(zhǔn)備或詞不達(dá)意。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的是提供一種基于向量空間模型的英漢語料提取方法,通過構(gòu)建雙向前后文詞語向量空間模型,提高英漢語料翻譯的精確度。
本發(fā)明還有一個(gè)目的是提供一種構(gòu)建雙向前后文詞語向量空間模型的方法,從漢至應(yīng)進(jìn)行正向傳輸,再?gòu)挠⒅翝h反向傳輸,正、反向傳輸通過計(jì)權(quán)等效分析最終確定傳輸效果,提高翻譯的精確度。
為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點(diǎn),提供了一種基于向量空間模型的英漢語料提取方法,包括:
步驟1、分別對(duì)漢語和英語語料庫進(jìn)行預(yù)處理;
步驟2、構(gòu)建雙向前后文詞語向量空間模型;
步驟3、進(jìn)行計(jì)權(quán)等效分析,將第一升序集合{km,k2,k1,k3··ki··k4}中的英語單詞依次進(jìn)行計(jì)權(quán)等效相似度sim(ki)|計(jì)權(quán)計(jì)算,所述計(jì)權(quán)等效相似度sim(ki)|計(jì)權(quán)為:
其中,ωai為第一計(jì)權(quán)因子,ωbi為第二計(jì)權(quán)因子;
步驟4、將sim(k1)|計(jì)權(quán)、sim(k2)|計(jì)權(quán)、…sim(ki)|計(jì)權(quán)、…、sim(km)|計(jì)權(quán)中最大數(shù)值對(duì)應(yīng)的英語單詞確定為漢語語料中心詞語的詞對(duì),建立中英雙語詞表。
優(yōu)選的是,所述雙向前后文詞語向量空間模型構(gòu)建過程包括:步驟2.1、選取漢語語料的中心詞語并構(gòu)建前后文詞語向量s;步驟2.2、進(jìn)行漢至英正向模型構(gòu)建,在進(jìn)行英至漢反向模型構(gòu)建。
優(yōu)選的是,所述正向模型構(gòu)建包括:列舉出全部與中心詞語的具有相同詞義的英語單詞;對(duì)任意一個(gè)英語單詞ki構(gòu)建其前后文詞語向量t,對(duì)前后文詞語向量s和t進(jìn)行相似度計(jì)算;設(shè)定相似度閾值,剔除小于相似度值閾值的英語單詞,其他單詞按照相似度值進(jìn)行升序排列,組成第一升序集合。
優(yōu)選的是,所述反向模型構(gòu)建包括:將第一升序集合中每個(gè)英語單詞作為中心詞語,并建立其前后文詞語向量t′;
列舉出全部與作為中心詞語的英語單詞具有相同詞義的漢語詞,并構(gòu)件每一個(gè)漢語詞的前后文詞語向量s′;
前后文詞語向量s′與t′進(jìn)行相似度計(jì)算,剔除掉小于設(shè)定相似度閾值的漢語詞;
剩余漢語詞按照相似度進(jìn)行升序排列,依次計(jì)算平均相似度
優(yōu)選的是,所述平均相似度為:
其中,sim(s′,t′)i為步驟4中剩余漢語詞中第i個(gè)漢語詞的相似度。
優(yōu)選的是,所述相似度計(jì)算采用余弦相似度計(jì)算方法。
優(yōu)選的是,所述第一計(jì)權(quán)因子ωai為:
其中,li為翻譯單詞ki在集合第一升序中從左至右方向的位次。
本發(fā)明至少包括以下有益效果:基于向量空間模型的英漢語料提取方法基于雙向向量空間模型,大大提高語言在翻譯過程中傳輸?shù)臏?zhǔn)確度。
本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對(duì)本發(fā)明的研究和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。
附圖說明
圖1是本發(fā)明的基于向量空間模型的英漢語料提取方法的流程圖。
圖2是本發(fā)明的基于向量空間模型的英漢語料提取方法中的構(gòu)建雙向前后文詞語向量空間模型的流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。
應(yīng)當(dāng)理解,本文所使用的諸如“具有”、“包含”以及“包括”術(shù)語并不配出一個(gè)或多個(gè)其它元件或其組合的存在或添加。
圖1示出了根據(jù)本發(fā)明的一種實(shí)現(xiàn)形式,一種基于向量空間模型的英漢語料提取方法,包括以下步驟:
步驟1、分別對(duì)漢語和英語語料庫進(jìn)行預(yù)處理,所述預(yù)處理包括分詞、去除停用詞和詞根還原;所述分詞為將連續(xù)語言序列切分成單個(gè)詞語。所述去除停用詞為刪除掉語言系列中的虛詞、冠詞或無實(shí)際信息的詞。所述詞根還原為:將各種形態(tài)的詞語恢復(fù)至原始的詞性。
步驟2、如圖2所示構(gòu)建雙向前后文詞語向量空間模型;
步驟2.1將漢語語料進(jìn)行預(yù)處理,所述預(yù)處理步驟同步驟1。
步驟2.2選取漢語語料的中心詞語,通過中心詞語的前后文環(huán)境來選取前后文詞語,并構(gòu)建前后文詞語向量;
例如:語料“a科研機(jī)構(gòu)和與之相關(guān)的工作人員應(yīng)該遵守相關(guān)規(guī)定”,進(jìn)行預(yù)處理后變成“科研機(jī)構(gòu)和工作人員遵守規(guī)定”;那么選取“工作人員”為中心詞語,根據(jù)前后文環(huán)境來選取的前后文詞語為“機(jī)構(gòu)和”、“遵守規(guī)定”,構(gòu)成的前后文詞語向量為{機(jī)構(gòu)、和、遵守、規(guī)定}。
步驟2.3進(jìn)行相似度度量計(jì)算,選取高于相似度閾值的翻譯單詞集合。
將與中心詞語的具有相同詞義的全部英語單詞k1,k2,k3··ki··kα羅列出來,任意一個(gè)英語單詞ki的前后文詞語向量t,計(jì)算其與漢語詞語的前后文詞語向量s的相似度,本發(fā)明的相似度計(jì)算均采用余弦相似度方法,因余弦相似度方法為通用的計(jì)算詞語的相似度的方法,具體的計(jì)算過程不再進(jìn)行贅述,本文只列出其計(jì)算公式:
中心詞語的前后文詞語向量s為:s=(s1,s2,s3····sn),其翻譯成英文的英語單詞ki的前后文詞語向量t為:t=(t1,t2,t3····tn)。
余弦相似度為:
步驟2.4比較上述步驟計(jì)算的每個(gè)英語單詞的相似度計(jì)算結(jié)果,將相似度閾值設(shè)定為0.75,將高于相似度閾值的英語單詞重新羅列出來組成集合{k1,k2,ki····km},其中,m≤α;
集合中的每個(gè)元素對(duì)應(yīng)的相似度為sim(s,t)1、sim(s,t)2、…sim(s,t)i…sim(s,t)m,進(jìn)一步將集合按照相似度的大小進(jìn)行升序排列,即為第一升序集合{km,k2,k1,k3··ki··k4},英文翻譯單詞k4與中心詞語的相似度最高。
步驟2.3和2.4為正向模型構(gòu)建,下面為反向模型構(gòu)建:
步驟2.5反向前后文詞語向量構(gòu)建過程如下:
步驟2.5.1將集合{k1,k2,ki····km}中的每一英文單詞進(jìn)行預(yù)處理后作為中心詞語,并抽取英語語料中詞語的前后文詞語建立前后文詞語向量,具體過程可參考步驟2.2。
任一翻譯單詞ki進(jìn)行預(yù)處理后作為中心詞語,并抽取英語語料中詞語的前后文詞語建立前后文詞語向量,具體過程可參考步驟2.2。
步驟2.5.2進(jìn)一步將單詞ki翻譯成的全部漢語詞語一一羅列出來,基于每一個(gè)漢語詞語的前后文詞語向量s′,前后文詞語向量s′與英語詞語ki的前后文詞語向量t′進(jìn)行相似度計(jì)算,均采用余弦相似度方法,將相似度閾值設(shè)定為0.75,選取高于相似度閾值的翻譯單詞集合{λ1,λ2,λ3····λn},并按照相似度進(jìn)行升序排列,將集合中的相似度值進(jìn)行相加后取平均,得到平均相似度
步驟3、進(jìn)行計(jì)權(quán)等效分析
將英語單詞第一升序集合{km,k2,k1,k3··ki··k4}中的元素依次進(jìn)行計(jì)權(quán)等效相似度sim(ki)|計(jì)權(quán)計(jì)算,其計(jì)算過程為:
其中,ωbi為第二計(jì)權(quán)因子,通常取值為0.5。ωai為第一計(jì)權(quán)因子,其計(jì)算方法如下:如翻譯單詞ki在第一升序集合{km,k2,k1,k3··ki··k4}的位次為5,那么ωai為:
其中,li為翻譯單詞ki在集合第一升序中從左至右方向的位次,翻譯單詞km的位次為1。
將sim(k1)|計(jì)權(quán)、sim(k2)|計(jì)權(quán)、…sim(ki)|計(jì)權(quán)、…、sim(km)|計(jì)權(quán)中最大數(shù)值對(duì)應(yīng)的英語單詞確定為漢語詞的翻譯,最終將漢語詞和英語單詞組成雙語詞對(duì);
步驟4、按照步驟1-3循環(huán),將所有漢詞語分別組合能夠雙語詞對(duì),從而組成中英雙語詞表。
通過中心詞語的前后文環(huán)境關(guān)聯(lián)詞語來構(gòu)建中心詞的前后文詞語向量,然后比較并選取目標(biāo)語言中相似度最高的一個(gè)或多個(gè)向量,將向量對(duì)應(yīng)的詞語作為源語言的候選翻譯詞語,
步驟3、進(jìn)行計(jì)權(quán)等效分析,建立中英雙語詞表。
盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用。它完全可以被適用于各種適合本發(fā)明的領(lǐng)域。對(duì)于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改。因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。