欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于將日文翻譯成中文的設(shè)備和方法以及計算機(jī)程序產(chǎn)品的制作方法

文檔序號:6551587閱讀:202來源:國知局
專利名稱:用于將日文翻譯成中文的設(shè)備和方法以及計算機(jī)程序產(chǎn)品的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及將自然日文句子翻譯成中文句子的日文-中文機(jī)器翻譯設(shè)備和日文-中文機(jī)器翻譯方法,以及使得計算機(jī)執(zhí)行所述方法的計算機(jī)程序產(chǎn)品。
背景技術(shù)
接受自然日文句子以輸出中文翻譯的日文-中文機(jī)器翻譯設(shè)備通常使用日文-中文翻譯字典,在該字典中,漢語與日語逐個詞或逐個詞素地相關(guān)聯(lián)。
由于漢語由大量的中文字符(漢字)組成,因此這樣的日文-中文翻譯字典具有用于翻譯詞的最大的容量,并且具有最大的數(shù)據(jù)量。使用具有有限數(shù)目的翻譯詞的日文-中文翻譯字典,從日文句子的中文機(jī)器翻譯在所接受的日文句子中遇到一些未登記的詞。在日文-中文翻譯字典中沒有登記與未登記的詞相對應(yīng)的中文詞。很好地處理和輸出未登記的詞是日文-中文機(jī)器翻譯的一個主要挑戰(zhàn)。
例如,日本專利申請公開號H04-256171公開了處理所述未登記的詞的翻譯設(shè)備。當(dāng)未登記的詞是漢字,特別是專有名詞,例如人名和地名時,這一日文-中文機(jī)器翻譯設(shè)備使用其中日文漢字與中文漢字相關(guān)聯(lián)的日文-中文匹配數(shù)據(jù),來自動地生成翻譯。這一翻譯設(shè)備還輸出包含在未登記詞中的平假名字符,而不進(jìn)行翻譯(即,作為它們的副本)。
但是,中文句子不包含平假名。因此,具有平假名的中文翻譯輸出產(chǎn)生明顯的翻譯錯誤,并且對用戶產(chǎn)生負(fù)面影響。換句話說,用戶認(rèn)為具有平假名的中文翻譯是不可能的翻譯或錯譯,從而推定機(jī)器翻譯的質(zhì)量是較差的。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,一種日文-中文機(jī)器翻譯設(shè)備包括存儲單元,其存儲日文-中文翻譯字典文件,在該文件中日文單詞與中文詞相關(guān)聯(lián);未登記詞確定單元,其確定日文句子的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞;和未登記詞翻譯生成單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該未登記詞翻譯生成單元將未登記詞劃分成平假名串和非平假名串、參照日文-中文翻譯字典文件生成非平假名串的翻譯、且不生成平假名串的翻譯。
根據(jù)本發(fā)明的一個方面,一種日文-中文機(jī)器翻譯設(shè)備包括存儲單元,其存儲日文-中文翻譯字典文件,在該文件中日文單詞與中文詞相關(guān)聯(lián);未登記詞確定單元,其確定日文句子的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞;和未登記詞翻譯生成單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該未登記詞翻譯生成單元將未登記詞劃分成平假名串和非平假名串,且不生成字符或音節(jié)數(shù)目不大于預(yù)定值的平假名串的翻譯。
根據(jù)本發(fā)明的又一個方面,一種日文-中文機(jī)器翻譯設(shè)備包括存儲單元,其存儲日文-中文翻譯字典文件,在該文件中日文單詞與作為該日文單詞的翻譯的中文詞相關(guān)聯(lián);未登記詞確定單元,其確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞;和未登記詞翻譯生成單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該未登記詞翻譯生成單元將未登記詞劃分成平假名串和非平假名串,且不生成作為可連接到其他日文單詞的附屬詞的平假名串的翻譯。
根據(jù)本發(fā)明的又一個方面,一種日文-中文機(jī)器翻譯方法包括確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,并參照日文-中文翻譯字典文件生成非平假名串的翻譯,而不生成平假名串的翻譯。
根據(jù)本發(fā)明的又一個方面,一種日文-中文機(jī)器翻譯方法包括確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,并且不生成字符或音節(jié)數(shù)目不大于預(yù)定值的平假名串的翻譯。
根據(jù)本發(fā)明的再一個方面,一種日文-中文機(jī)器翻譯方法包括確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,并且不生成作為可連接到其他日文單詞的附屬詞的平假名串的翻譯。
根據(jù)本發(fā)明的再一個方面的計算機(jī)程序產(chǎn)品使得計算機(jī)執(zhí)行根據(jù)本發(fā)明的方法。


圖1是根據(jù)本發(fā)明第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的功能框圖;圖2示出了日文-中文翻譯文件;圖3示出了日文-中文漢字?jǐn)?shù)據(jù)庫;圖4是日文-中文機(jī)器翻譯的整個處理的流程圖;圖5A示出了日文句子,圖5B示出了在處理未登記詞之前的語形學(xué)(morphological)分析表;
圖6是通過未登記詞翻譯生成單元生成未登記詞的翻譯的流程圖;圖7A示出了未登記詞串?dāng)?shù)組,圖7B是未登記詞串?dāng)?shù)組的另一個示例;圖8示出了當(dāng)生成未登記詞的翻譯完成時翻譯緩沖區(qū)的內(nèi)容;圖9示出了當(dāng)生成未登記詞的翻譯完成時的語形學(xué)分析表;圖10A示出了根據(jù)第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的輸出,圖10B示出了傳統(tǒng)日文-中文機(jī)器翻譯設(shè)備的輸出;圖11是通過根據(jù)第二實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的未登記詞翻譯生成單元生成未登記詞的翻譯的處理的流程圖;圖12A示出了包含附屬詞(dependent-word)的日語,圖12B是包含附屬詞的另一個示例日語;圖13是根據(jù)第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的功能框圖;圖14是未登記翻譯生成單元的功能框圖;圖15是附屬詞詞典文件的數(shù)據(jù)結(jié)構(gòu);圖16示出了附屬詞連接表的數(shù)據(jù)結(jié)構(gòu);圖17示出了包含附屬詞串的未登記詞;圖18是通過根據(jù)第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的未登記詞翻譯生成單元生成未登記詞的翻譯的流程圖;圖19是通過附屬詞提取器提取附屬詞的處理的流程圖;圖20示出了附屬詞表的數(shù)據(jù)結(jié)構(gòu);圖21示出了附屬詞索引表的數(shù)據(jù)結(jié)構(gòu);圖22示出了在提取附屬詞的處理中提取的部分串;和圖23是執(zhí)行附屬詞串分析決定的決定功能FUNC的處理的流程圖。
具體實(shí)施例方式
下面將參考附圖描述涉及本發(fā)明的日文-中文機(jī)器翻譯設(shè)備和日文-中文機(jī)器翻譯方法的示例性實(shí)施例。
根據(jù)第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備將接受的日文句子劃分成日文單詞,以顯示每個日文單詞以及中文翻譯。特別的,日文-中文機(jī)器翻譯設(shè)備不輸出未在日文-中文翻譯文件中登記的日文單詞中包含的任何平假名字符。
圖1是根據(jù)本發(fā)明第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的功能框圖。根據(jù)本發(fā)明第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100包括輸入處理單元101、語形學(xué)分析單元102、翻譯單元103、未登記詞確定單元104、未登記詞翻譯生成單元105、輸出處理單元106、輸入裝置107、輸出裝置108、硬盤驅(qū)動器(HDD)110、和隨機(jī)存取存儲器(RAM)120。
輸入處理單元101經(jīng)由諸如鍵盤的輸入裝置107接受日文句子。語形學(xué)分析單元102在參考日文-中文翻譯文件111執(zhí)行公知的語形學(xué)分析時,將由輸入處理單元101接受的日文句子劃分成日文單詞,并在語形學(xué)分析表121中登記劃分的日文單詞,其中每個所述日文單詞是一個詞素。
可以使用不同于語形學(xué)分析的其他分析和處理將日文句子劃分成詞。
未登記詞確定單元104確定在語形學(xué)分析表121中登記的日文單詞是否是未登記的詞。具體來說,確定與日文單詞對應(yīng)的中文詞是否未在日文-中文翻譯文件中登記。
當(dāng)未登記詞確定單元104確定在語形學(xué)分析表121中登記的日文單詞是未登記詞時,未登記詞翻譯生成單元105生成未登記詞的翻譯。具體地,未登記詞翻譯生成單元105進(jìn)一步將作為未登記詞的日文單詞劃分成字符或每種字符類型(漢字、平假名、片假名、字母數(shù)字字符等)的串。參考日文-中文漢字?jǐn)?shù)據(jù)庫112將所述字符中的每個日文漢字指定給相應(yīng)的中文漢字,但是指定不翻譯所述串中的平假名串。例如片假名和字母數(shù)字字符等其他字符的翻譯以他們的原始表記(transcription)來表示。
當(dāng)在語形學(xué)分析表121中登記的日文單詞是登記的詞時,翻譯單元103確定與該日文單詞對應(yīng)的中文詞為其翻譯。
輸出處理單元106將由翻譯單元103和未登記詞翻譯生成單元105生成的翻譯輸出到例如顯示器和打印機(jī)的輸出裝置108。
在HDD 110中存儲日文-中文翻譯文件111和日文-中文漢字?jǐn)?shù)據(jù)庫112。
日文-中文翻譯文件111是字典文件,其中每個日文單詞與日文表記、詞性、以及相應(yīng)的中文翻譯相關(guān)。
圖2示出了日文-中文翻譯文件111的示例。如圖2中所示,日文-中文翻譯文件111包含與每個詞相關(guān)的日文表記、詞性、以及相應(yīng)的中文翻譯。與特定翻譯符號“-”相關(guān)的日文單詞的翻譯不顯示在輸出裝置108上。
日文-中文漢字?jǐn)?shù)據(jù)庫112是在其中登記了每個與日文漢字相對應(yīng)的諸如簡體中文和繁體中文的中文字符的數(shù)據(jù)庫,并且當(dāng)生成未登記詞的翻譯時由未登記詞翻譯生成單元105查閱該數(shù)據(jù)庫。
圖3示出了日文-中文漢字?jǐn)?shù)據(jù)庫112的n個示例。如圖3所示,在日文-中文漢字?jǐn)?shù)據(jù)庫112中登記了日文漢字以及每個與日文漢字相對應(yīng)的諸如簡體中文和繁體中文的中文漢字。
語形學(xué)分析單元102在RAM 120中生成語形學(xué)分析表121。未登記詞翻譯生成單元105在RAM 120中生成翻譯緩沖區(qū)和未登記詞串?dāng)?shù)組123。語形學(xué)分析表121、翻譯緩沖區(qū)122和未登記詞串?dāng)?shù)組124可以在HDD中生成,而不是在RAM 120中生成。
語形學(xué)分析表121由語形學(xué)分析單元102生成,并且是包含日文表記、詞性、和相應(yīng)的逐字翻譯的數(shù)據(jù)文件。
翻譯緩沖區(qū)122和未登記詞串?dāng)?shù)組123由未登記詞翻譯生成單元105生成,并且是在生成未登記詞的翻譯時臨時地存儲例如漢字和平假名等字符的緩沖區(qū)。
下面將描述根據(jù)這一實(shí)施例由日文-中文機(jī)器翻譯設(shè)備進(jìn)行的日文-中文機(jī)器翻譯的整個處理。
圖4是日文-中文機(jī)器翻譯的整個處理的流程圖。
當(dāng)輸入裝置107接收日文句子時,輸入處理單元101接受日文句子(步驟S401)。語形學(xué)分析單元102參考日文-中文翻譯文件111將接受的日文句子劃分成日文單詞(步驟S402)。同時,語形學(xué)分析單元102從日文-中文翻譯文件111獲得對于每個日文單詞的詞性和翻譯。將日文句子劃分成日文單詞可以使用不同于語形學(xué)分析的其他技術(shù)。
語形學(xué)分析單元102在RAM 120中生成語形學(xué)分析表121,并且在語形學(xué)分析表121中為每個日語表記登記日文單詞以及所獲得的詞性和翻譯(步驟S403)。如果日文單詞是未在日文-中文翻譯文件111中登記的未登記詞,則在語形學(xué)分析表121中將詞性登記為“未知”,并將翻譯登記為空白數(shù)據(jù)。
將圖5A中所示的日語句子J1作為由輸入處理單元101接受的示例,用來理解語形學(xué)分析表121。
圖5B示出了在接受日文句子J1之后步驟S403的處理完成時語形學(xué)分析表121的示例。在語形學(xué)分析表121中登記日文單詞編號和單詞以及從日文-中文翻譯文件111獲取的詞性和翻譯。如果日文單詞是未在日文-中文翻譯文件111中登記的未登記詞,例如如圖5A中所示的詞W1,則其詞性被登記為“未知”并且其翻譯被登記為空白數(shù)據(jù)。
翻譯單元103從語形學(xué)分析表121獲取日文單詞(步驟S404)。日文單詞的獲取從語形學(xué)分析表121的頭部開始。未登記詞確定單元104確定在步驟S404中從語形學(xué)分析表121獲取的日文單詞的詞性是否是“未知”(步驟S405)。換句話說,確定是否在日文-中文翻譯文件中登記了獲取的日文單詞。如果該日文單詞的詞性并非指示未知詞(步驟S405否),則確定該日文單詞不是未登記詞,并且翻譯單元103從語形學(xué)分析表121獲取與該日文單詞對應(yīng)的翻譯(步驟S407)。
如果日文單詞的詞性指示未知詞(步驟S405是),則確定日文單詞是未登記詞,并且未登記詞翻譯生成單元105執(zhí)行生成未登記詞翻譯的處理(步驟S406)。下文中將詳細(xì)描述在步驟S406中生成未登記詞翻譯的處理。
在步驟S406之后,重復(fù)從步驟S404到S407的處理,直到處理了在語形學(xué)分析表121中登記的所有的日文單詞(步驟S408)。結(jié)果,生成所有日文單詞的翻譯,并且輸出處理單元106將日文句子和翻譯輸出至輸出裝置108(步驟S409)。
下面將描述在步驟S406中由未登記詞翻譯生成單元105生成未登記詞翻譯的處理。
圖6是由未登記詞翻譯生成單元105生成未登記詞的翻譯的處理的流程圖。
未登記詞翻譯生成單元105將未在日文-中文翻譯文件111中登記的日文單詞劃分成漢字、平假名、片假名和字母數(shù)字字符等每種字符類型的串,然后以出現(xiàn)的順序?qū)⑺龃鎯υ赗AM 120的未登記詞串?dāng)?shù)組123的分離數(shù)組元素中(步驟S601)。
圖7A和7B示出了未登記詞串?dāng)?shù)組123的示例。由于圖5A中所示日文句子J1的詞W1是未在日文-中文翻譯文件111中登記的詞,漢字D1和平假名D2中的每一個存儲在未登記詞串?dāng)?shù)組123的分離數(shù)組元素中,如圖7A所示。如圖7B所示,如果未登記詞是詞W2,漢字D1’和平假名D2’的每一個存儲在未登記詞串?dāng)?shù)組123的分離數(shù)組元素中。
在步驟S601取決于未登記詞串?dāng)?shù)組123中的字符類型對于每個串存儲了未登記詞之后,從未登記詞串?dāng)?shù)組123中獲取存儲在每個數(shù)組元素中的串,以確定所獲得的串是否是日文漢字(步驟S603)。當(dāng)所獲得的串是日文漢字時(步驟S603是),則從日文-中文漢字?jǐn)?shù)據(jù)庫(112)中獲取與日文漢字對應(yīng)的中文漢字(步驟S605),并將其添加到RAM 120的翻譯緩沖區(qū)122(步驟S606)。
當(dāng)在步驟S603中從未登記詞串?dāng)?shù)組123的數(shù)組元素中獲得的串不是中文漢字(步驟S603否),則確定該串是否是平假名(步驟S604)。當(dāng)該串不是平假名時(步驟S604否),則將所獲得的不同于平假名的串(下文中也稱為“非平假名串”)添加到翻譯緩沖區(qū)122中(步驟S606)。
當(dāng)串是平假名時(步驟S604是),則不把該串(即平假名)添加到翻譯緩沖區(qū)122中。換句話說,未登記詞中的平假名處理為不翻譯。
對于存儲在未登記詞串?dāng)?shù)組123的所有數(shù)組元素中的串執(zhí)行從步驟S602到S606的處理(步驟S607),然后將翻譯緩沖區(qū)122的內(nèi)容設(shè)定到語形學(xué)分析表121中(步驟S608)。將語形學(xué)分析表121作為日文句子的翻譯提供至輸出處理單元106,因此只有未登記詞中的漢字處理為未登記詞的翻譯,而平假名不作為翻譯輸出。
圖8示出了在接受了圖5A所示的日文句子J1之后,當(dāng)生成未登記詞翻譯的處理完成時,翻譯緩沖區(qū)122的內(nèi)容的示例。如圖8所示,只有與日文句子的未登記詞W1中的日文漢字D1相對應(yīng)的中文漢字C1被添加到翻譯緩沖區(qū)122中,而平假名D2未被添加到緩沖區(qū)122中。
圖9示出了在接受了圖5A所示的日文句子J1之后,當(dāng)生成未登記詞翻譯的處理完成時,語形學(xué)分析表121中的內(nèi)容的示例。將圖8所示的翻譯緩沖區(qū)122中的內(nèi)容(即僅僅是與日文漢字D1對應(yīng)的中文漢字C1)設(shè)定為未登記詞W1的翻譯,而不設(shè)定平假名字符D2。因此,即使當(dāng)所接受的日文句子包含將要在日文-中文翻譯文件111中登記的未登記詞時,將要輸出到輸出裝置108的中文翻譯不包含平假名。
圖10A示出了在根據(jù)這一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100中接受日文句子J1之后,輸出裝置108的輸出的示例。圖10B示出了在傳統(tǒng)的日文-中文機(jī)器翻譯設(shè)備中接受日文句子J1之后,輸出裝置的輸出的示例。
如圖10B所示的傳統(tǒng)日文-中文機(jī)器翻譯設(shè)備的輸出——未登記詞W1的中文翻譯——包含不是漢語的表記的平假名D2,以及對應(yīng)于日文漢字D1的中文漢字。但是,圖10A所示的根據(jù)這一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的輸出在中文翻譯中不包含這樣的平假名。
根據(jù)第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100將接受的日文句子劃分成日文單詞作為詞素,以便與中文翻譯一起顯示每個日文單詞。特別的,日文-中文機(jī)器翻譯設(shè)備100不輸出未在日文-中文翻譯文件111中登記的日文單詞中包含的任何平假名。結(jié)果,可以對機(jī)器翻譯的質(zhì)量產(chǎn)生一個好的印象。
根據(jù)第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100不輸出未在日文-中文翻譯文件111中登記的日文單詞中包含的任何平假名。但是,平假名有時用來表示專有名詞。
根據(jù)第二實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100僅僅在未登記詞的平假名串的音節(jié)的數(shù)目或字符的數(shù)目不大于預(yù)定的整數(shù)n時,將這樣的平假名串識別為例如變格的假名結(jié)尾,并且不將其作為翻譯輸出。
根據(jù)第二實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100具有與第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備相同的功能結(jié)構(gòu),因此將省略其描述。根據(jù)這一實(shí)施例,當(dāng)未登記詞的平假名串的音節(jié)的數(shù)目或字符的數(shù)目不大于預(yù)定整數(shù)n時,未登記詞翻譯生成單元105不將平假名串添加到翻譯緩沖區(qū)122。此外,當(dāng)平假名串的音節(jié)數(shù)目或字符數(shù)目大于整數(shù)n時,未登記詞翻譯生成單元105將平假名串添加到翻譯緩沖區(qū)122。第二實(shí)施例在這一點(diǎn)上不同于第一實(shí)施例。
由根據(jù)第二實(shí)施例的日文-中文機(jī)器翻譯設(shè)備進(jìn)行的日文-中文機(jī)器翻譯的整個處理與第一實(shí)施例中相同。
圖11是通過根據(jù)第二實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100的未登記詞翻譯生成單元105生成未登記詞的翻譯的處理的流程圖。在這一實(shí)施例中,整數(shù)n代表字符的數(shù)目,但是其也可以代表音節(jié)的數(shù)目。
在從步驟S1101到S1104的處理中,將未登記詞劃分成每種字符類型的串、將所述串存儲在未登記詞串?dāng)?shù)組123中、并確定所存儲的串是否是平假名。所述從步驟S1101到S1104的處理與第一實(shí)施例中從步驟S601到S604的處理相同,當(dāng)所獲得的串不是平假名時(步驟S1104否),將非平假名串添加到翻譯緩沖區(qū)122(步驟S1107)。
當(dāng)所獲得的串是平假名時(步驟S1104是),確定該串(即平假名串)的字符數(shù)目是否大于整數(shù)n。整數(shù)n可以定義為例如未登記詞的變格假名結(jié)尾的統(tǒng)計最大長度,但可以是不同的值。n的值為例如2或3。n的值可以由用戶設(shè)定。
當(dāng)平假名串的字符數(shù)目不大于n時(步驟S1106是),不將平假名串添加到翻譯緩沖區(qū)122。當(dāng)平假名串的字符數(shù)目大于n時(步驟S1106否),將平假名串添加到翻譯緩沖區(qū)122(步驟S1107)。結(jié)果,確定字符數(shù)目不大于n的平假名串是動詞的變格的假名結(jié)尾,并且不將其作為翻譯輸出。此外,確定字符數(shù)目大于n的平假名串是專有名詞,并且將其作為翻譯輸出。
在將所述串添加到翻譯緩沖區(qū)122中之后,對存儲在未登記詞串?dāng)?shù)組123的所有數(shù)組元素中的串重復(fù)執(zhí)行從步驟S1102到S1107的處理(步驟S1108),然后將翻譯緩沖區(qū)122中的內(nèi)容設(shè)定到語義學(xué)分析表121中(步驟S1109)。將語形學(xué)分析表121提供至輸出處理單元106作為日文句子的翻譯,從而將未登記詞中字符數(shù)目大于n的漢字和平假名串處理為未登記詞的翻譯,而字符數(shù)目不大于n的平假名串不作為翻譯輸出。
如上所述,根據(jù)第二實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100不輸出字符或音節(jié)數(shù)目不大于預(yù)定整數(shù)n的平假名串作為翻譯。此外,所有的平假名串總是不輸出,并將具有較長的長度的平假名串(例如專有名詞)輸出作為原始表記。結(jié)果,可以對機(jī)器翻譯的質(zhì)量產(chǎn)生較好的印象。
但是,即使當(dāng)平假名串的字符數(shù)目或音節(jié)數(shù)目大于整數(shù)n時,具有一連串的附屬詞的平假名串可能不是專有名詞。附屬詞是指未識別為單個短語的詞,例如如圖12A中所示助動詞W3中的詞D3,或者如圖12B所示日文W4中的助詞D4。
根據(jù)第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備使用附屬詞詞典和附屬詞連接表。附屬詞詞典包含作為附屬詞的、能夠連接到其他日文單詞的平假名字符和平假名串。該日文-中文機(jī)器翻譯設(shè)備還確定平假名串是否包含可以連接到后續(xù)日文單詞的附屬詞。當(dāng)平假名串的所有附屬詞可相互連接時,確定該平假名串不是專有名詞并且不輸出。
圖13是根據(jù)本發(fā)明第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備的功能框圖。根據(jù)第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備2100包括輸入處理單元101、語形學(xué)分析單元102、翻譯單元103、未登記詞確定單元104、未登記詞翻譯生成單元1205、輸出處理單元106、輸入裝置107、輸出裝置108、HDD 110和RAM 120。
輸入處理單元101、語形學(xué)分析單元102、翻譯單元103、未登記詞確定單元104、未登記詞翻譯生成單元1205、輸出處理單元106、輸入裝置107和輸出裝置108與根據(jù)第一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備100中的那些相同,因此,將省略對這些元件的描述。
當(dāng)未登記詞確定單元104確定在語形學(xué)分析表121中登記的日文單詞是未登記詞時,未登記詞翻譯生成單元1205生成未登記詞的翻譯。根據(jù)這一實(shí)施例,未登記詞翻譯生成單元1205將作為未登記詞的日文單詞劃分成字符或每種字符類型(漢字、平假名、片假名、字母數(shù)字字符等)的串。此外,從平假名串中提取組成一個或多個附屬詞的串,并且當(dāng)所提取的平假名的附屬詞之一不能連接到下一個附屬詞時,確定該平假名串為翻譯。與第一實(shí)施例中未登記詞翻譯生成單元105的情形相同,未登記詞翻譯生成單元1205還參考日文-中文漢字?jǐn)?shù)據(jù)庫111確定對應(yīng)于日文漢字的中文漢字為將要輸出的翻譯。例如片假名和字母數(shù)字字符等其他字符的翻譯以他們的原始表記來表示。
圖14是未登記詞翻譯生成單元1205的功能框圖。如圖14中所示,未登記詞翻譯生成單元1205包括附屬詞提取器1301、附屬詞串分析確定單元1302、和翻譯生成單元1303。
附屬詞提取器1301參照如后面所述的附屬詞字典文件1211從未登記詞的平假名串中提取附屬詞串。附屬詞串分析確定單元1302確定所提取的附屬詞串中的每一個是否能夠連接到隨后的附屬詞,即是否可以參照附屬詞連接表1212分析該附屬詞串。本實(shí)施例中的附屬詞串被稱為由能夠相互連接的附屬詞組成的平假名串。翻譯單元1303不生成下述平假名串的翻譯該平假名串的每個附屬詞能夠連接到下一個附屬詞,并且通過附屬詞串分析確定單元1302確定該平假名串可以分析為附屬詞串。翻譯單元1303還將不能被分析為附屬詞串、并且其一個附屬詞不能連接到下一個附屬詞的平假名串指定為原始表記作為翻譯。
回到圖13,日文-中文漢字?jǐn)?shù)據(jù)庫、日文-中文翻譯文件112、附屬詞字典文件1211、附屬詞連接表1212都存儲在HDD 110中。日文-中文漢字?jǐn)?shù)據(jù)庫111和日文-中文翻譯文件112與第一實(shí)施例中的那些相同,因此將省略對這些元件的描述。
附屬詞字典文件1211是包含平假名字符和平假名串的字典文件,其由附屬詞及它們的詞性組成。
圖15是出了附屬詞字典文件1211的數(shù)據(jù)結(jié)構(gòu)。如圖15所示,在附屬詞字典文件1211中,識別每個附屬詞的附屬詞編號、附屬詞(單詞)、和詞性相互關(guān)聯(lián)。如圖15中所示,附屬詞的詞性主要是助詞、助動詞和活用詞尾。
附屬詞連接表1212是指示可連接附屬詞的數(shù)據(jù)。
圖16示出了附屬詞連接表1212的數(shù)據(jù)結(jié)構(gòu)。如圖16中所示,在附屬詞連接表1212中,每個附屬詞編號與連接列表相關(guān)。聯(lián)接列表包含多個附屬詞編號,每一個所述附屬詞編號指示可以連接到一個附屬詞的下一個附屬詞。
在圖16中,附屬詞編號“2”的附屬詞指示圖15中的單詞WW1,其后面可以跟隨附屬詞編號“29”、“33”或“45”的附屬詞。
如果未登記詞是例如如圖17所示的詞W10,則可將平假名串D10分析為附屬詞串。參見圖15的附屬詞字典文件1211,平假名串D10可以劃分為附屬詞WW2(附屬詞編號“6”)、附屬詞WW3(附屬詞編號“0”)、和附屬詞WW4(附屬詞編號“1”)。參照附屬詞連接表1212,附屬詞編號“6”的附屬詞WW2后可以跟隨附屬詞編號“0”的附屬詞WW3,所述附屬詞編號“0”的附屬詞WW3后可以跟隨附屬詞編號“1”的附屬詞WW4。因此,平假名串D10的附屬詞WW2、WW3和WW4可以順序地相互連接,并且平假名串D10可以分析為附屬詞。因此,不生成平假名串D10的翻譯。
回到圖13,語形學(xué)分析單元102在RAM 120中生成語形學(xué)分析表121。未登記詞翻譯生成單元1205在RAM 120中生成翻譯緩沖區(qū)122和未登記詞串?dāng)?shù)組123。此外,附屬詞提取器1301在RAM 120中生成附屬詞表1221和附屬詞索引表1222。語形學(xué)分析表121、翻譯緩沖區(qū)122、未登記詞串?dāng)?shù)組123、附屬詞表、附屬詞索引表1222可以在HDD110中生成,而不是在RAM 120中生成。
語形學(xué)分析表121、翻譯緩沖區(qū)122、未登記詞串123與在第一實(shí)施例中的那些相同,因此將省略對這些元件的描述。
附屬詞表1221包含在未登記詞的平假名串中包含的附屬詞的數(shù)據(jù),附屬詞索引表1222包含在未登記詞的平假名串中包含的附屬詞的索引數(shù)據(jù)。下文中將詳細(xì)描述附屬詞表1221和附屬詞索引表1222。
下面將描述通過根據(jù)這一實(shí)施例的日文-中文機(jī)器翻譯設(shè)備1200進(jìn)行的日文-中文機(jī)器翻譯的整個處理。通過根據(jù)第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備1200進(jìn)行的日文-中文機(jī)器翻譯的整個處理與第一實(shí)施例中的處理相同。
圖18是通過根據(jù)第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備1200的未登記詞翻譯生成單元1205生成未登記詞的翻譯的處理的流程圖。
從步驟S1601到S1604的處理與第一實(shí)施例中從步驟S601到S604的處理相同,在所述從步驟S1601到S1604的處理中,將未登記詞劃分成每種字符類型的串、將所述串存儲在未登記詞串?dāng)?shù)組123中、并確定所存儲的串是否是平假名。
當(dāng)所述串不是平假名時(步驟S1604否),將獲得的非平假名串添加到翻譯緩沖區(qū)122(步驟S1609)。
當(dāng)所獲得的串是平假名時(步驟S1604是),附屬詞提取器1301執(zhí)行提取附屬詞的處理(步驟S1606)。然后,附屬詞串分析確定單元1302執(zhí)行確定附屬詞串分析的處理,在該處理中確定所提取串的附屬詞是否可以相互連接(步驟S1607)。通過發(fā)出確定函數(shù)FUNC(-1,0)來正確地執(zhí)行這一處理,且該確定函數(shù)FUNC(-1,0)的返回值表示提取串是否可以分析為附屬詞串。具體地,返回值“1”指示該串可以分析為附屬詞串,而返回值“0”指示該串不能分析為附屬詞串。下面將詳細(xì)描述提取附屬詞的處理和確定附屬詞串的處理。
在步驟S1607的確定附屬詞串分析的處理中,確定平假名串是否可以分析為附屬詞串,即確定函數(shù)FUNC(-1,0)的返回值是否是“1”。如果可以分析平假名串(步驟S1608是),則不生成平假名串的翻譯,因?yàn)槲吹怯浽~的平假名串是附屬詞串。
如果確定平假名串不能分析為附屬詞串(步驟S1608否),則將平假名串添加到翻譯緩沖區(qū)122(步驟S1609)。
在將所述串添加到翻譯緩沖區(qū)122中之后,對存儲在未登記詞串?dāng)?shù)組123的所有數(shù)組元素中的串重復(fù)地執(zhí)行從步驟S1602到步驟S1609地處理(步驟S1610),然后將翻譯緩沖區(qū)122中的內(nèi)容設(shè)定到語形學(xué)分析表121中(步驟S1611)。將語形學(xué)分析表121提供到輸出處理單元106,作為日文句子的翻譯,從而確定可以分析為附屬詞串的平假名串為例如變格的假名結(jié)尾或助詞,并且不作為翻譯輸出。但是,如果未登記詞的平假名串不能分析為附屬詞,則確定平假名串為例如專有名詞,并且作為翻譯輸出。
下面將描述在步驟S1606中由附屬詞提取器1301執(zhí)行的提取附屬詞的處理。
圖19是通過附屬詞提取器1301執(zhí)行的提取附屬詞的處理的流程圖。
首先,附屬詞提取器1301將“0”設(shè)定給指針P1,并用未登記詞的平假名串的串長度代替串長度L(步驟S1701)。P1是指示將從平假名串提取的部分串的起點(diǎn)的指針,P1為“0”指示從串的頭部提取了部分串。
然后,起初將指示部分串的終點(diǎn)的指針P2設(shè)定為P1+1(步驟S1702)。這時,當(dāng)沒有后續(xù)字符時,假設(shè)存在后續(xù)字符地改變指針P2的值。
然后,通過搜索附屬詞字典文件1211來確定是否將指針P1處的部分串起點(diǎn)和指針P2處的終點(diǎn)登記為附屬詞(步驟S1703)。并且,確定是否返回了搜索結(jié)果,換句話說,是否將部分串登記為附屬詞(步驟S1704)。當(dāng)返回了搜索結(jié)果時(步驟S1704是),在附屬詞表1221和附屬詞索引表1222中登記作為搜索結(jié)果的附屬詞(部分串)(步驟S1705)。
當(dāng)沒有返回搜索結(jié)果時,換句話說,如果沒有將部分串登記為附屬詞(步驟S1704否),則不在附屬詞表1221和附屬詞索引表1222中登記部分串。
接著,將指針P2遞增一個字符(步驟S1706),重復(fù)從步驟S1703到S1706的處理,直到指示部分串的終點(diǎn)的指針P2變?yōu)槠郊倜拇L度L的值,換句話說,直到指針P2到達(dá)平假名串的結(jié)尾(步驟S1707)。當(dāng)在步驟S1707中指針P2到達(dá)串長度L時,將指針P1遞增一個字符,并重復(fù)從步驟S1702到S1708的處理,直到指示部分串的起點(diǎn)的指針P1變?yōu)槠郊倜拇L度L的值,換句話說,直到指針P1到達(dá)平假名串的結(jié)尾(步驟S1709)。當(dāng)在步驟S1709中指針P1到達(dá)串長度L時,處理結(jié)束。結(jié)果,提取并在附屬詞表1221和附屬詞索引表1222中登記了平假名串中所有的附屬詞。
圖20示出了附屬詞表1221的數(shù)據(jù)結(jié)構(gòu),具體來說,示出了當(dāng)未登記詞是圖17的詞W10,采用圖15的附屬詞字典文件1211時搜索到的附屬詞。圖21示出了附屬詞索引表1222的數(shù)據(jù)結(jié)構(gòu),具體來說示出了圖20所示的附屬詞表1221的索引。
具體的,參見圖22,由于未登記詞的平假名串D10的部分串PS1到PS6中在附屬詞字典文件1211中登記的附屬詞是部分串PS1,PS4和PS6,因此每個部分串(即,附屬詞)PS1,PS4和PS6與附屬詞編號、起點(diǎn)和終點(diǎn)一起登記在附屬詞表1221中,并且被分配了唯一的附屬詞表編號。通過使用起點(diǎn)這一主鍵對在附屬詞表1221中登記的附屬詞進(jìn)行分類,來生成附屬詞索引表1222。參見圖19,對于每個起點(diǎn),在“附屬詞表編號列表”字段中登記一個附屬詞表編號。但是,一個起點(diǎn)可以與多個附屬詞表編號相關(guān)或者可以與附屬詞表編號無關(guān)。
現(xiàn)在將描述步驟S1607中用于確定附屬詞串分析的確定函數(shù)FUNC的處理。
圖23是確定函數(shù)FUNC的處理的流程圖。
確定函數(shù)FUNC使用兩個參數(shù)。第一個參數(shù)是附屬詞表編號,第二個參數(shù)是起點(diǎn)。確定函數(shù)FUNC確定由指示附屬詞表編號的第一參數(shù)識別的附屬詞是否可以連接到(具體地,跟隨有)在指示起點(diǎn)的第二參數(shù)處開始的串的附屬詞。如果兩個附屬詞能夠相互連接,則返回一個返回值“1”。如果兩個附屬詞不能相互連接,則返回一個返回值“0”。首先,附屬詞串分析確定單元1302設(shè)定第一參數(shù)為變量F,并設(shè)定第二參數(shù)為變量S(步驟S2001)。然后,從附屬詞索引表1222中獲取對于起點(diǎn)S的附屬詞表編號列表(步驟S2002)。并且確定是否是附屬詞表編號列表的終點(diǎn)(步驟S2003)。當(dāng)不是列表的終點(diǎn)時(步驟S2003否),從列表中獲取一個附屬詞表編號,并代替變量Fi(步驟S2004)。
接著,參照附屬詞連接表1212確定由對應(yīng)于附屬詞表編號Fi的附屬詞編號標(biāo)識的附屬詞是否可以連接到由對應(yīng)于附屬詞表編號F的附屬詞編號識別的附屬詞(步驟S2005,S2006)。參考附屬詞表1221獲取對應(yīng)于附屬詞表編號的附屬詞編號。注意,除了F是-1的情況之外,對應(yīng)于附屬詞表編號Fi的附屬詞連接到對應(yīng)于附屬詞表編號F的附屬詞,所述F是-1的情況指示在附屬詞表1221中沒有使用的特定ID。
如果由對應(yīng)于附屬詞表編號Fi的附屬詞編號標(biāo)識的附屬詞可以連接到由對應(yīng)于附屬詞表編號F的附屬詞編號識別的附屬詞(S2006是),則確定終點(diǎn)Ei是否到達(dá)平假名串的終點(diǎn)(步驟S2007)。當(dāng)終點(diǎn)Ei到達(dá)平假名串的終點(diǎn)時,則將返回值設(shè)定為一(步驟S2007是),并且處理結(jié)束。
當(dāng)終點(diǎn)Ei沒有到達(dá)平假名串的終點(diǎn)時(步驟S2007否),則將Fi設(shè)定給第一參數(shù),將Ei設(shè)定給第二參數(shù),并且遞歸調(diào)用確定函數(shù)FUNC(步驟S2008)。然后,確定確定函數(shù)FUNC的返回值是否是一(即,可連接)(步驟S2009)。當(dāng)返回值是一時(步驟S2007是),則將返回值設(shè)定為一(步驟S2010),并且處理結(jié)束。
當(dāng)遞歸調(diào)用的FUNC的返回值不是一時(步驟S2009否),從附屬詞表編號列表中獲得隨后的附屬詞表編號,所述附屬詞表編號列表是在步驟S2002中從附屬詞索引表1222中獲取的,并且重復(fù)執(zhí)行從步驟S2003到S2008的處理。當(dāng)所獲得的附屬詞表編號是附屬詞表編號列表的結(jié)尾時,換句話說,如果列表為空,則將返回值設(shè)定為零,并且處理結(jié)束。
當(dāng)附屬詞表1221和附屬詞索引表1222具有與圖20和21中所示的那些相同的內(nèi)容時,換句話說,當(dāng)圖23的流程圖中F=-1且S=0時,只有附屬詞表編號0具有起點(diǎn)“0”。接著,獲取附屬詞表編號,以使得Fi=0。由于F=-1,F(xiàn)i能夠無條件地連接到F。由于Fi的終點(diǎn)Ei(=1)沒有達(dá)到平假名串的終點(diǎn)(=3),因此遞歸地計算FUNC(0,1)。具體來說,當(dāng)F=0且S=1時,再次執(zhí)行圖23中所示的流程圖。僅當(dāng)附屬詞表編號1具有起始點(diǎn)“1”時,使Fi=1。參見圖20,對應(yīng)于F=0的附屬詞編號為6,并且對應(yīng)于Fi=1的附屬詞編號為0,因此附屬詞表編號Fi的附屬詞可以連接到附屬詞表編號F的附屬詞。
由于Fi的終點(diǎn)Ei(=2)還沒有達(dá)到平假名串的終點(diǎn)(=3),因此遞歸地計算FUNC(0,1)。具體來說,當(dāng)F=1和S=2時,再次執(zhí)行圖23中所示的流程圖。僅當(dāng)附屬詞表編號2具有起始點(diǎn)“2”時,使Fi=2。參考圖20中所示的附屬詞表1221,對應(yīng)于F=1的附屬詞編號為0,對應(yīng)于Fi=2的附屬詞編號為1。因此,參考圖16中所示的附屬詞連接表1212,附屬詞表編號Fi的附屬詞可以連接到附屬詞表編號F的附屬詞。當(dāng)Fi的終點(diǎn)Ei(=3)到達(dá)平假名串的終點(diǎn)時,返回返回值1,并且當(dāng)前處理返回到FUNC(-1,0)的嵌套級的步驟S2009。此外,由于返回了返回值1,圖18的步驟S1607中的輸出變?yōu)?。因此,可以將平假名串D10分析為附屬詞串。如上所述,不生成平假名串D10的翻譯。
根據(jù)第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備1200使用包含有可以作為附屬詞連接到其他日文單詞的平假名字符或平假名串的附屬詞字典,和包含有將要被連接的附屬詞的附屬詞連接表。這一日文-中文機(jī)器翻譯設(shè)備1200還確定平假名串是否包含可以連接到后續(xù)日文單詞的附屬詞。如果平假名串的所有附屬詞可以相互連接,則確定該平假名串不是專有名詞并且不進(jìn)行輸出。因此,基于未登記串的平假名串是否是專有名詞的決定來自動確定是將平假名串作為原始表記輸出還是不翻譯的輸出。結(jié)果,可以對機(jī)器翻譯的質(zhì)量產(chǎn)生好的印象。
根據(jù)第一到第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備包括例如CPU的控制器、例如ROM(只讀存儲器)或RAM的存儲器、例如HDD或CD驅(qū)動器的外部存儲裝置、例如CRT或LCD的顯示器、例如鍵盤或鼠標(biāo)的輸入裝置,并且被設(shè)計為包括通用計算機(jī)的硬件系統(tǒng)。
由根據(jù)第一到第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備執(zhí)行的日文-中文機(jī)器翻譯程序作為可安裝或可執(zhí)行文件記錄在計算機(jī)可讀記錄介質(zhì)上,例如CD-ROM、軟盤(FD)、CD-R、和DVD(數(shù)字通用盤)。
由根據(jù)第一到第三實(shí)施例的日文-中文機(jī)器翻譯設(shè)備執(zhí)行的日文-中文機(jī)器翻譯程序可以配置為存儲在與例如因特網(wǎng)的網(wǎng)絡(luò)相連接的計算機(jī)中,從而從網(wǎng)絡(luò)下載。日文-中文機(jī)器翻譯程序可以配置為經(jīng)由網(wǎng)絡(luò)來提供和分發(fā)。
日文-中文機(jī)器翻譯程序可以配置為通過事先嵌入在ROM等等中來提供。
日文-中文機(jī)器翻譯程序被實(shí)現(xiàn)為包含如上所述的部件的模塊,所述部件即輸入處理單元101、語形學(xué)分析單元102、翻譯單元103、未登記詞確定單元104、未登記詞翻譯生成單元105或1205、輸出處理單元106。作為實(shí)際的硬件,CPU(處理器)讀取和執(zhí)行日文-中文機(jī)器翻譯程序,從而將部件載入到主存儲器中,換句話說,輸入處理單元101、語形學(xué)分析單元102、翻譯單元103、未登記詞確定單元104、未登記詞翻譯生成單元1205以及輸出處理單元106都在主存儲器中實(shí)現(xiàn)。
盡管采用日文-中文機(jī)器翻譯設(shè)備作為簡化設(shè)備的示例,其中所接受的日文句子被劃分成詞,并且為每個詞指定一個中文詞,但是根據(jù)本發(fā)明的日文-中文機(jī)器翻譯設(shè)備也可以用來將日文句子翻譯成中文句子。
本領(lǐng)域的技術(shù)人員可以容易地想到其他優(yōu)點(diǎn)和修改。因此,本發(fā)明較寬的方面不限于此處示出和描述的特定的細(xì)節(jié)和代表性實(shí)施例。因此,可以在不背離如所附的權(quán)利要求和他們的等價物所定義的一般發(fā)明概念的精神和范圍的情況下進(jìn)行各種修改。
權(quán)利要求
1.一種日文-中文機(jī)器翻譯設(shè)備,包括存儲單元,其存儲日文-中文翻譯字典文件,在該文件中日文單詞與中文詞相關(guān)聯(lián);未登記詞確定單元,其確定日文句子的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞;和未登記詞翻譯生成單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該未登記詞翻譯生成單元將未登記詞劃分成平假名串和非平假名串、參照日文-中文翻譯字典文件生成非平假名串的翻譯、且不生成平假名串的翻譯。
2.如權(quán)利要求1所述的日文-中文機(jī)器翻譯設(shè)備,其中存儲單元存儲日文-中文漢字?jǐn)?shù)據(jù)庫,在該數(shù)據(jù)庫中,日文漢字字符與對應(yīng)于該日文漢字字符的中文漢字字符的表記相關(guān)聯(lián),其中未登記詞翻譯生成單元參考日文-中文字符數(shù)據(jù)庫,采用對應(yīng)于日文漢字字符的中文漢字字符,作為非平假名串中的日文漢字字符的翻譯。
3.如權(quán)利要求2所述的日文-中文機(jī)器翻譯設(shè)備,其中未登記詞翻譯生成單元采用除了日文漢字字符以外的字符的表記作為非平假名串中除了日文漢字字符以外的字符的翻譯。
4.一種日文-中文機(jī)器翻譯設(shè)備,包括存儲單元,其存儲日文-中文翻譯字典文件,在該文件中日文單詞與中文詞相關(guān)聯(lián);未登記詞確定單元,其確定日文句子的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞;和未登記詞翻譯生成單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該未登記詞翻譯生成單元將未登記詞劃分成平假名串和非平假名串,且不生成字符或音節(jié)數(shù)目不大于預(yù)定值的平假名串的翻譯。
5.如權(quán)利要求4所述的日文-中文機(jī)器翻譯設(shè)備,其中當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,所述未登記詞翻譯生成單元將未登記詞劃分成平假名串,且采用平假名串的表記作為字符或音節(jié)數(shù)目不小于預(yù)定值的平假名串的翻譯。
6.如權(quán)利要求4所述的日文-中文機(jī)器翻譯設(shè)備,其中存儲單元存儲日文-中文漢字?jǐn)?shù)據(jù)庫,在該在該數(shù)據(jù)庫中,日文漢字字符與對應(yīng)于該日文漢字字符的中文漢字字符的表記相關(guān)聯(lián),其中所述未登記詞翻譯生成單元參考日文-中文漢字?jǐn)?shù)據(jù)庫,采用對應(yīng)于日文漢字字符的中文漢字字符作為非平假名串中的日文漢字字符的翻譯。
7.如權(quán)利要求6所述的日文-中文機(jī)器翻譯設(shè)備,其中未登記詞翻譯生成單元采用除了日文漢字字符以外的字符的表記作為非平假名串中除了日文漢字字符以外的字符的翻譯。
8.一種日文-中文機(jī)器翻譯設(shè)備,包括存儲單元,其存儲日文-中文翻譯字典文件,在該文件中日文單詞與作為該日文單詞的翻譯的中文詞相關(guān)聯(lián);未登記詞確定單元,其確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞;和未登記詞翻譯生成單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該未登記詞翻譯生成單元將未登記詞劃分成平假名串和非平假名串,且不生成作為可連接到其他日文單詞的附屬詞的平假名串的翻譯。
9.如權(quán)利要求8所述的日文-中文機(jī)器翻譯設(shè)備,其中存儲單元存儲包含有可連接到平假名串中的其他日文單詞的附屬詞的附屬詞字典數(shù)據(jù)庫,和在其中附屬詞與可連接至附屬詞的其他附屬詞相關(guān)聯(lián)的附屬詞連接數(shù)據(jù),其中未登記詞翻譯生成單元包括附屬詞提取單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該附屬詞提取單元將未登記詞劃分成平假名串和非平假名串,并且從平假名串中提取在附屬詞字典數(shù)據(jù)庫中登記的附屬詞;附屬詞串分析確定單元,其確定所提取的附屬詞是否能夠連接到隨后的附屬詞;和翻譯生成單元,其不生成所提取的附屬詞可以通過附屬詞串分析確定單元連接到隨后的附屬詞的平假名串的翻譯。
10.如權(quán)利要求9所述的日文-中文機(jī)器翻譯設(shè)備,其中翻譯生成單元采用平假名串的表記作為所提取的附屬詞不能通過附屬詞串分析確定單元連接到隨后的附屬詞的平假串的翻譯。
11.如權(quán)利要求8所述的日文-中文機(jī)器翻譯設(shè)備,其中存儲單元存儲日文-中文漢字?jǐn)?shù)據(jù)庫,在該數(shù)據(jù)庫中,日文漢字字符與對應(yīng)于該日文漢字字符的中文漢字字符的表記相關(guān)聯(lián),其中所述未登記詞翻譯生成單元參考日文-中文漢字?jǐn)?shù)據(jù)庫,采用對應(yīng)于日文漢字字符的中文漢字字符作為非平假名串中的日文漢字字符的翻譯。
12.如權(quán)利要求11所述的日文-中文機(jī)器翻譯設(shè)備,其中未登記詞翻譯生成單元采用除了日文漢字字符以外的字符的表記作為非平假名串中除了日文漢字字符以外的字符的翻譯。
13.一種日文-中文機(jī)器翻譯方法,包括確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,參照日文-中文翻譯字典文件生成非平假名串的翻譯,而不生成平假名串的翻譯。
14.一種日文-中文機(jī)器翻譯方法,包括確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,并且不生成字符或音節(jié)數(shù)目不大于預(yù)定值的平假名串的翻譯。
15.一種日文-中文機(jī)器翻譯方法,包括確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,并且不生成作為可連接到其他日文單詞的附屬詞的平假名串的翻譯。
16.一種計算機(jī)程序產(chǎn)品,具有包含有編程的指令的計算機(jī)可讀介質(zhì),其中所述指令在被計算機(jī)執(zhí)行時使得該計算機(jī)執(zhí)行確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,參照日文-中文翻譯字典文件生成非平假名串的翻譯,而不生成平假名串的翻譯。
17.一種計算機(jī)程序產(chǎn)品,具有包含有編程的指令的計算機(jī)可讀介質(zhì),其中所述指令在被計算機(jī)執(zhí)行時使得該計算機(jī)執(zhí)行確定日文句子中包含的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,并且不生成字符或音節(jié)數(shù)目不大于預(yù)定值的平假名串的翻譯。
18.一種計算機(jī)程序產(chǎn)品,具有包含有編程的指令的計算機(jī)可讀介質(zhì),其中所述指令在被計算機(jī)執(zhí)行時使得該計算機(jī)執(zhí)行確定日文句子中所包含的作為詞素的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞,其中在所述日文-中文翻譯字典文件中日文單詞與中文詞相關(guān)聯(lián);和當(dāng)所述日文單詞是未登記詞時,將未登記詞劃分成平假名串和非平假名串,并且不生成作為可連接到其他日文單詞的附屬詞的平假名串的翻譯。
全文摘要
一種日文-中文機(jī)器翻譯設(shè)備,包括未登記詞確定單元,其確定日文句子的日文單詞是否是未在日文-中文翻譯字典文件中登記的未登記詞。日文-中文翻譯字典包含與中文詞相關(guān)的、由日文句子劃分成的日文單詞。所述設(shè)備還包括未登記詞翻譯生成單元,當(dāng)未登記詞確定單元確定日文單詞是未登記詞時,該未登記詞翻譯生成單元將未登記詞劃分成平假名串和非平假名串、生成非平假名串的翻譯、且不生成平假名串的翻譯。
文檔編號G06F17/28GK1702650SQ200510071379
公開日2005年11月30日 申請日期2005年5月27日 優(yōu)先權(quán)日2004年5月28日
發(fā)明者出羽達(dá)也 申請人:株式會社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
通辽市| 海南省| 辛集市| 杭锦旗| 若尔盖县| 昌乐县| 砚山县| 达拉特旗| 遂川县| 伊宁市| 奇台县| 安丘市| 四子王旗| 凉城县| 吴旗县| 平谷区| 达孜县| 逊克县| 拜城县| 平昌县| 锦州市| 高邮市| 孟州市| 丰都县| 高州市| 新竹市| 平山县| 民县| 舞钢市| 从江县| 铅山县| 商都县| 武胜县| 上栗县| 徐州市| 台江县| 江陵县| 锡林郭勒盟| 七台河市| 沙湾县| 龙海市|