欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于人名起源分類的人名音譯方法

文檔序號:6579353閱讀:472來源:國知局
專利名稱:基于人名起源分類的人名音譯方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種翻譯系統(tǒng)。
背景技術(shù)
互聯(lián)網(wǎng)成為人們生活中不可或缺的一部分,它已經(jīng)是人類信息獲取、相互交流、信息傳播的一個最重要的途徑。我們每天都依靠互聯(lián)網(wǎng)從中獲取需要的生活服務(wù)、工作研究等信息。為了能在互聯(lián)網(wǎng)的海量數(shù)據(jù)中更快更準更智能的為用戶提供信息,信息檢索、信息抽取、問答系統(tǒng)等技術(shù)成為近年來研究的重點。隨著互聯(lián)網(wǎng)帶來的信息交流革命,人們的信息交流和獲取已經(jīng)不單單局限在單一語言中,能夠跨語言處理互聯(lián)網(wǎng)信息已經(jīng)成為一種迫切需求,這種需要在新聞、金融等領(lǐng)域中顯得尤為迫切。因此,機器翻譯、跨語言檢索、跨語言問答等技術(shù)的研究變得越來越重要。在這些研究之中,命名實體的翻譯是這些技術(shù)的一個重要且基礎(chǔ)的問題。人名,作為命名實體的一個重要的組成部分,具有相當強的表達能力,是一篇文檔中的關(guān)鍵信息之一。但由于其開放性,人名常常是自然語言處理和機器翻譯中未登陸詞的主要成分。因此,正確地、自動地翻譯人名將是一個有意義的工作,并且對于人工翻譯也有一定的指導(dǎo)作用。人名翻譯主要依據(jù)發(fā)音相似來進行,因此也叫做人名的音譯。音譯在上世紀90年代開始發(fā)展,至今已經(jīng)有十幾年的研究積累,主要有基于音素的和基于字素的兩類方法,前者依賴語音學(xué)的知識,后者則直接在字素之間建模,而綜合使用這兩類方法則稱之為混合音譯方法。具體地,基于音素的音譯方法借助一個統(tǒng)一的語音學(xué)表示方法作為中間轉(zhuǎn)換軸(這個中間軸的表示符號常稱為音素),實現(xiàn)源語言到音素、音素到目標語言的轉(zhuǎn)換,所以該方法也叫中軸法或基于語音的音譯方法?;谡Z音的方法因為需要做字素到音素、音素到字素多步轉(zhuǎn)換,每個轉(zhuǎn)換過程都有可能出錯,會使得錯誤累加。同時該方法依賴于具體的語言,每種語言對用到的中間發(fā)音單元不同,每種語言對都需要構(gòu)建自己的音素表,所以方法是不可擴展的。為了克服基于語音的方法的上述缺點,受到機器翻譯中詞對齊的啟發(fā),研究人員直接對源和目標語言間的字素構(gòu)建音譯模型,這類方法也被稱作直接音譯或者基于字素的音譯方法。后來有研究者綜合利用這兩類方法,提出了混合音譯的方法,將基于字素和語音的音譯方法相結(jié)合,使用線性插值等多種系統(tǒng)融合方法對兩種音譯結(jié)果進行混合。由于基于字素的方法獨立于具體的語言對,并且性能較好,成為音譯的主要研究方法。盡管研究者提出了很多的音譯方法,但在影響音譯效果的諸多因素中,人名起源還尚未引起足夠的重視。以中文人名-英文人名音譯為例,注意這里的中文人名指的用中文漢字書寫的人名,英文人名指的是用英文字母書寫的人名。比如“德川家康”是一個日本起源的人名,它的英文翻譯是“Tokugawa Ieyasu”,韓國起源的人名“盧武鉉”的音譯“RohMoo-hyun”,這些中文人名的音譯(翻譯)與通常說的基于發(fā)音相似的中-英音譯區(qū)別很大。因此,如果對這些人名的起源不加以區(qū)分,而直接使用訓(xùn)練出來的單一模型對這類人名進行互譯則得不到正確結(jié)果,同時他們的存在還會影響模型對中、英起源人名的音譯。綜上,基于人名起源分類的音譯研究是一個十分重要的問題。

發(fā)明內(nèi)容
本發(fā)明的目的是為了解決中英人名音譯中不同起源國家人名的音譯模式不一致問題,提供了一種基于人名起源分類的人名音譯方法?;谌嗣鹪捶诸惖娜嗣糇g方法按照以下步驟進行一、人名起源分類根據(jù)人名起源特征模板采用logistic回歸模型,進行計算
0009
權(quán)利要求
1.基于人名起源分類的人名音譯方法,其人名起源分類特征、方法和多系統(tǒng)融合方法按照以下步驟進行 一、人名起源分類 根據(jù)人名起源特征模板采用logistic回歸模型,進行計算
2.根據(jù)權(quán)利要求1所述的基于人名起源分類的人名音譯方法,其特征在于步驟一所述中文人名起源特征模板中采用SRILM工具訓(xùn)練語言模型,其中每個n-gram都有概率,η為1、2或3,統(tǒng)計所有n-gram概率的一維分布,根據(jù)這個分布劃分出100個區(qū)間,這100個區(qū)間是對n-gram特征的一個聚類,每個區(qū)間代表一個類別,每個區(qū)間內(nèi)的方差和最小,區(qū)間平均值間的方差和最大,利用n-gram的數(shù)據(jù)求100個區(qū)間的分界點
全文摘要
基于人名起源分類的人名音譯方法,它涉及一種翻譯系統(tǒng)。本發(fā)明解決了中英人名音譯中不同起源國家人名的音譯模式不一致問題。本方法如下一、人名起源分類;二、線性插值系統(tǒng)融合。本發(fā)明提出的方法將logistic多分類回歸模型應(yīng)用到人名起源分類中,并根據(jù)人名構(gòu)成用字特征的特征模板進行人名起源分類;對于每一種起源的人名類別訓(xùn)練一個特定的音譯(翻譯)模型,再對多個音譯模型的結(jié)果進行系統(tǒng)融合,實現(xiàn)雙語人名互譯。
文檔編號G06F17/28GK103020046SQ20121056621
公開日2013年4月3日 申請日期2012年12月24日 優(yōu)先權(quán)日2012年12月24日
發(fā)明者趙鐵軍, 李婷婷, 張春越, 曹海龍 申請人:哈爾濱工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
达孜县| 马山县| 乌苏市| 绵竹市| 叶城县| 崇阳县| 兴仁县| 定襄县| 达拉特旗| 郑州市| 界首市| 正镶白旗| 全南县| 扎兰屯市| 辛集市| 元阳县| 资源县| 乐昌市| 晋中市| 霍山县| 望江县| 措美县| 灌云县| 金溪县| 铅山县| 永年县| 南部县| 连州市| 邵阳县| 靖宇县| 都兰县| 滁州市| 隆安县| 渭南市| 吉水县| 青田县| 浦东新区| 汝州市| 华阴市| 通江县| 罗田县|