本發(fā)明涉及翻譯技術(shù)領(lǐng)域,具體是一種PDA翻譯系統(tǒng)的中文分詞方法。
背景技術(shù):
在翻譯系統(tǒng)中,詞是最小的能夠獨(dú)立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此,中文詞語分析是中文信息處理的基礎(chǔ)與關(guān)鍵。
以中文翻譯為其它語言為例,拼音語言文字各單詞之間可通過空格進(jìn)行區(qū)分,而中文有由于句子中每個字都是直接連接在一起的,因此要對輸入的中文句子進(jìn)行分詞。
中文分詞技術(shù)的分類:基于字典、詞庫匹配的分詞方法;基于詞頻度統(tǒng)計的分詞方法和基于知識理解的分詞方法。
基于字典、詞庫匹配的分詞方法,目前常用的有正向匹配和逆向匹配,無論是正向還是逆向,都是在開始的局部范圍內(nèi)的最大匹配,即每個句子的前N個字符或者后N個字符進(jìn)行匹配。翻譯系統(tǒng)中采用雙向匹配方法進(jìn)行分詞還沒有檢索到技術(shù)公開。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種PDA翻譯系統(tǒng)的中文分詞方法,提高分詞的匹配度和精準(zhǔn)性。
本發(fā)明采用的技術(shù)方案如下:
一種PDA翻譯系統(tǒng)的中文分詞方法,所述的翻譯系統(tǒng)包括中文與東盟各國語言的互譯詞典數(shù)據(jù)庫,各個互譯詞典數(shù)據(jù)庫中均設(shè)置有索引,索引字段為定長字段型,索引對應(yīng)的翻譯字段為變長字段型;所述的中文分詞方法包括以下步驟:
(1)正向分詞:設(shè)句子長度為L,句子字?jǐn)?shù)為n,句子分詞的總數(shù)有2n-1,在2n-1分詞方式中,只有唯一的一個正確的分詞;
正向分詞采用中文翻譯為東盟各國語言的中文詞典作為正向分詞詞典;
設(shè)k=1,2,……,n,并設(shè)a1,a2,……,an為句子的單字,將a1作為匹配條件與正向分詞詞典中的單詞比較,若正向分詞詞典中兩有相等的詞,則認(rèn)為a1為一個詞,然后再將a1a2兩個字作為匹配條件在正向分詞詞典中掃描,若正向分詞詞典中兩有相等的詞,則認(rèn)為a1a2為一個詞,不斷增加k(k<=n)的數(shù)值,直至a1a2……ak+1在詞典中無匹配的詞,則認(rèn)為a1a2……ak為切分到的最長單詞,也是最可能的單詞,取a1a2……ak為單詞后對句子中余下的字繼續(xù)分詞,最后完成整個句子的分詞;
(2)逆向分詞:與正向分詞相似,采用逆向最大匹配法從被處理文檔的末端開始匹配掃描,逆向分詞采用東盟各國語言翻譯為中文的中文詞典作為逆向分詞詞典;
先從句子最后一個字an開始分詞,然后按句子逆向取anan-1,取詞后對anan-1進(jìn)行正向處理:將anan-1逆序調(diào)整為an-1an,然后將an-1an按逆向分詞詞典中的中文單詞進(jìn)行分詞,不斷逆向取詞,最后完成逆向分詞;
(3)當(dāng)逆向分詞與正向分詞結(jié)果相同時,此結(jié)果為最后的分詞結(jié)果;當(dāng)逆向分詞與正向分詞結(jié)果不相同時,則進(jìn)入步驟(4);
(4)歧義分析:
設(shè)正向分詞結(jié)果為向量Z=(z1,z2,...,zm);
反向分詞結(jié)果為向量F=(f1,f2,...,fn);
正反向反詞中包含共同相同的分詞為:XTword(Z,F)=Z∩F;
相同詞相同詞序
正向分詞相同詞比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分詞相同詞比率:FSameword=(XTword(Z,F)/n)×100%;
正向分詞詞序相同詞比率:ZCXSameword=(CXZWORD/m)×100%;
反向分詞詞序相同詞比率:FCXSameword=(CXZWODR/n)×100%;
分別計算正向分詞與反向分詞加權(quán)值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2為加權(quán)常數(shù),且λ1+λ2=1;
當(dāng)(SimZSameword>SimFSameword)時,取正向分詞為最后分詞的結(jié)果,否則取反向分詞為最后的分詞結(jié)果。
所述的東盟各國語言包括越南文、泰國文、馬來西亞文及印度尼西亞文。
所述的正向分詞詞典為中文—越南文、中文—印度尼西亞文、中文—馬來西亞文、中文—泰文四個中文詞典。
所述的逆向分詞詞典為越南文—中文、印度尼西亞文—中文、馬來西亞文—中文、泰文—中文四個中文詞典。
本發(fā)明采用雙向匹配法實(shí)現(xiàn)中文分詞,能夠提高分詞匹配的精準(zhǔn)性。
具體實(shí)施方式
以下結(jié)合實(shí)施例對本發(fā)明的技術(shù)方案做進(jìn)一步的說明。
一種PDA翻譯系統(tǒng)的中文分詞方法,所述的翻譯系統(tǒng)包括中文與東盟各國語言的互譯詞典數(shù)據(jù)庫,各個互譯詞典數(shù)據(jù)庫中均設(shè)置有索引,索引字段為定長字段型,索引對應(yīng)的翻譯字段為變長字段型;所述的東盟各國語言包括越南文、泰國文、馬來西亞文及印度尼西亞文;
所述的中文分詞方法包括以下步驟:
(1)正向分詞:設(shè)句子長度為L,句子字?jǐn)?shù)為n,句子分詞的總數(shù)有2n-1,在2n-1分詞方式中,只有唯一的一個正確的分詞;
正向分詞采用中文翻譯為東盟各國語言的中文詞典作為正向分詞詞典;所述的正向分詞詞典為中文—越南文、中文—印度尼西亞文、中文—馬來西亞文、中文—泰文四個中文詞典;
設(shè)k=1,2,……,n,并設(shè)a1,a2,……,an為句子的單字,將a1作為匹配條件與正向分詞詞典中的單詞比較,若正向分詞詞典中兩有相等的詞,則認(rèn)為a1為一個詞,然后再將a1a2兩個字作為匹配條件在正向分詞詞典中掃描,若正向分詞詞典中兩有相等的詞,則認(rèn)為a1a2為一個詞,不斷增加k(k<=n)的數(shù)值,直至a1a2……ak+1在詞典中無匹配的詞,則認(rèn)為a1a2……ak為切分到的最長單詞,也是最可能的單詞,取a1a2……ak為單詞后對句子中余下的字繼續(xù)分詞,最后完成整個句子的分詞;
(2)逆向分詞:與正向分詞相似,采用逆向最大匹配法從被處理文檔的末端開始匹配掃描,逆向分詞采用東盟各國語言翻譯為中文的中文詞典作為逆向分詞詞典;所述的逆向分詞詞典為越南文—中文、印度尼西亞文—中文、馬來西亞文—中文、泰文—中文四個中文詞典;
先從句子最后一個字an開始分詞,然后按句子逆向取anan-1,取詞后對anan-1進(jìn)行正向處理:將anan-1逆序調(diào)整為an-1an,然后將an-1an按逆向分詞詞典中的中文單詞進(jìn)行分詞,不斷逆向取詞,最后完成逆向分詞;
(3)當(dāng)逆向分詞與正向分詞結(jié)果相同時,此結(jié)果為最后的分詞結(jié)果;當(dāng)逆向分詞與正向分詞結(jié)果不相同時,則進(jìn)入步驟(4);
(4)歧義分析:
設(shè)正向分詞結(jié)果為向量Z=(z1,z2,...,zm);
反向分詞結(jié)果為向量F=(f1,f2,...,fn);
正反向反詞中包含共同相同的分詞為:XTword(Z,F)=Z∩F;
相同詞相同詞序
正向分詞相同詞比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分詞相同詞比率:FSameword=(XTword(Z,F)/n)×100%;
正向分詞詞序相同詞比率:ZCXSameword=(CXZWORD/m)×100%;
反向分詞詞序相同詞比率:FCXSameword=(CXZWODR/n)×100%;
分別計算正向分詞與反向分詞加權(quán)值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2為加權(quán)常數(shù),且λ1+λ2=1;
當(dāng)(SimZSameword>SimFSameword)時,取正向分詞為最后分詞的結(jié)果,否則取反向分詞為最后的分詞結(jié)果。