漢馬雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,尤其是涉及一種漢馬雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]“平行語(yǔ)料” {Parallel Tferts)是指使用不同語(yǔ)言撰寫(xiě)、相互間具有“翻譯關(guān)系”的文本。在計(jì)算語(yǔ)言學(xué)界,它有別于“對(duì)比語(yǔ)料” iComparable Tferts),后者也使用不同的語(yǔ)言撰寫(xiě)、并且針對(duì)同一主題,但相互之間卻不存在直接的“翻譯關(guān)系”。
[0003]人類(lèi)歷史上曾有過(guò)各式各樣的平行語(yǔ)料。埃及出土的羅塞塔石碑,其碑文用兩種語(yǔ)言、三種文字刻成,是頗具盛名的古代的平行語(yǔ)料。通過(guò)比較石碑上的文字,法國(guó)古代語(yǔ)學(xué)者商博良解讀了古埃及的象形文字。此外,用不同語(yǔ)言對(duì)照書(shū)寫(xiě)的契約協(xié)議、宗教經(jīng)典、文學(xué)作品也在不同的時(shí)期和不同的領(lǐng)域影響著人們的生活。20世紀(jì)50年代末,平行語(yǔ)料開(kāi)始出現(xiàn)在機(jī)器翻譯研宄中。由于當(dāng)時(shí)計(jì)算機(jī)的存儲(chǔ)空間和計(jì)算能力有限,而大量文本數(shù)據(jù)的輸入又相當(dāng)困難,平行語(yǔ)料庫(kù)的作用并沒(méi)有得到太多的關(guān)注。70年代末期,翻譯資源的收集工作在Xerox PARC、Brigham Young等研宄中心廣泛地開(kāi)展起來(lái)。1987年,MartinKay和Martin Roscheisen提出了最早的平行語(yǔ)料自動(dòng)對(duì)齊算法。之后各種對(duì)齊方法層出不窮,對(duì)齊后的平行語(yǔ)料也被系統(tǒng)地應(yīng)用到自然語(yǔ)言處理中,包括建立翻譯記憶、編纂詞典和雙語(yǔ)術(shù)語(yǔ)表、跨語(yǔ)言信息檢索、計(jì)算機(jī)輔助教學(xué)、語(yǔ)言對(duì)比研宄等。
[0004]語(yǔ)料庫(kù)的建設(shè)是統(tǒng)計(jì)學(xué)習(xí)方法的重要基礎(chǔ),近年來(lái),語(yǔ)料庫(kù)資源對(duì)于自然語(yǔ)言處理研宄的巨大價(jià)值已經(jīng)得到越來(lái)越多的認(rèn)可。特別是雙語(yǔ)語(yǔ)料庫(kù)(Bilingual Corpus),已經(jīng)成為機(jī)器翻譯、機(jī)器輔助翻譯以及翻譯知識(shí)獲取研宄不可或缺的重要資源。一方面,雙語(yǔ)語(yǔ)料庫(kù)的出現(xiàn)直接推動(dòng)了機(jī)器翻譯新技術(shù)的發(fā)展,像平行語(yǔ)料庫(kù)為統(tǒng)計(jì)機(jī)器翻譯的模型構(gòu)建提供了必不可少的訓(xùn)練數(shù)據(jù)(e.g.,Brown et al.1990; Melamed 2000; Och and Ney2002),基于統(tǒng)計(jì)(Statistic-Based)和基于實(shí)例(Example-Based)等基于語(yǔ)料庫(kù)的翻譯方法為機(jī)器翻譯研宄提供了新的思路,有效改善了翻譯質(zhì)量,在機(jī)器翻譯研宄領(lǐng)域掀起了新的高潮。另一方面,雙語(yǔ)語(yǔ)料庫(kù)又是獲取翻譯知識(shí)的重要來(lái)源,從中可以挖掘?qū)W習(xí)各種細(xì)粒度的翻譯知識(shí),如翻譯詞典(e.g.,Gale and Church 1991; Melamed 1997)和翻譯模板,從而改進(jìn)傳統(tǒng)的機(jī)器翻譯技術(shù)。此外,雙語(yǔ)語(yǔ)料庫(kù)也是跨語(yǔ)言信息檢索(e.g.,Davis andDunning 1995; Jian-Yun Nie, TREC8;),翻譯詞典編撰、雙語(yǔ)術(shù)語(yǔ)自動(dòng)提取以及多語(yǔ)言對(duì)比研宄等的重要基礎(chǔ)資源。雙語(yǔ)平行語(yǔ)料庫(kù)建設(shè)與獲取存在著很大的困難,各國(guó)都投入了大量的人力、物力和財(cái)力,但是雙語(yǔ)平行語(yǔ)料庫(kù)的來(lái)源主要集中在政府報(bào)告、新聞法律等特定領(lǐng)域,不適合真實(shí)文本應(yīng)用。同時(shí),互聯(lián)網(wǎng)上的大規(guī)模雙語(yǔ)文本并且具有很好的時(shí)效性和覆蓋性,這為雙語(yǔ)平行語(yǔ)料庫(kù)的獲取提供了潛在的解決途徑。
加拿大蒙特利爾大學(xué)的研宄者聶建云開(kāi)發(fā)的系統(tǒng)PT Miner (Parallel Text Miner,1999):通過(guò)搜索引擎查找含有特定錨文本的網(wǎng)站構(gòu)成雙語(yǔ)候選網(wǎng)站,再依賴(lài)預(yù)先定義的語(yǔ)言的前后綴表,抽取出具有URL命名相似性的候選網(wǎng)頁(yè)即如果某一 URL含有一種語(yǔ)言的前后綴,則將這些前后綴替換為另一種語(yǔ)言的,構(gòu)建出一個(gè)URL,如果這樣構(gòu)建出來(lái)的URL存在。則找到了一對(duì)候選網(wǎng)頁(yè)對(duì),最后再根據(jù)文本長(zhǎng)度,網(wǎng)頁(yè)的HTML標(biāo)記結(jié)構(gòu),網(wǎng)頁(yè)的語(yǔ)言等特征過(guò)濾掉候選網(wǎng)頁(yè)中不平行的網(wǎng)頁(yè)對(duì)。PT Miner系統(tǒng)在中英平行網(wǎng)頁(yè)文本挑出幾百對(duì)的中英平行網(wǎng)頁(yè)對(duì),經(jīng)過(guò)人工的評(píng)價(jià),有將近90%的準(zhǔn)確率。獲取到的英文文本有137M,中文文本有117M。
美國(guó)馬里蘭大學(xué)的研宄者Resnik開(kāi)發(fā)的系統(tǒng)STRAND (Structural Translat1nRecognit1n, Acquiring Natural Data,2003)也是利用搜索引擎和定義的挑選候選網(wǎng)站的規(guī)則來(lái)得到雙語(yǔ)候選網(wǎng)站。同PT Miner相比,STRAND再利用URL命名相似性來(lái)查找一個(gè)網(wǎng)站內(nèi)的候選網(wǎng)頁(yè)對(duì)時(shí),采取在中、英URL中刪去預(yù)先定義與語(yǔ)言相關(guān)的字符串的方式,如果去除語(yǔ)言相關(guān)的字串后,中、英URL相等,則說(shuō)明當(dāng)前的中英URL是一對(duì)候選雙語(yǔ)平行網(wǎng)頁(yè)。此外,STRAND更加細(xì)致深入的研宄了平行網(wǎng)頁(yè)在結(jié)構(gòu)上具有的相似性,采用了更多的基于網(wǎng)頁(yè)結(jié)構(gòu)的特征來(lái)過(guò)濾掉候選平行網(wǎng)頁(yè)中不是互為翻譯的網(wǎng)頁(yè)對(duì)。人工評(píng)估了大約400對(duì)的中英平行網(wǎng)頁(yè)對(duì),取得了 98%的準(zhǔn)確率和61%的召回率。STRAND系統(tǒng)獲取到大約3,500 對(duì)中英平行網(wǎng)頁(yè)對(duì)。BITS (Bilingual Internet Text Search, Ma and Liberman1999),下載指定域名下的所有網(wǎng)站作為候選網(wǎng)站,定義了一種計(jì)算中英網(wǎng)頁(yè)內(nèi)容之間相似度的計(jì)算方式即互翻譯詞占文本總詞數(shù)的比例,來(lái)進(jìn)行中英平行網(wǎng)頁(yè)對(duì)的確定。澳大利亞莫納什大學(xué)陳紀(jì)艙等人開(kāi)發(fā)的 PTI (The Parallel Text Identificat1n System, 2004)通過(guò)網(wǎng)頁(yè)采集器下載了大量的雙語(yǔ)網(wǎng)頁(yè)之后,首先通過(guò)了文件名比較模型即根據(jù)URL命名的相似性來(lái)得到雙語(yǔ)平行網(wǎng)頁(yè)對(duì),原理同PT Miner,在這一過(guò)程沒(méi)有相應(yīng)對(duì)齊鏈接的網(wǎng)頁(yè)再通過(guò)一個(gè)文件內(nèi)容分析模型,定義了計(jì)算網(wǎng)頁(yè)文本內(nèi)容之間的相似度計(jì)算方式,從而得到雙語(yǔ)平行的網(wǎng)頁(yè)對(duì)。PTI系統(tǒng)總共獲取到193對(duì)的中英平行文本,其中180對(duì)是正確的,正確率為93%,召回率為96%。
亞洲微軟研宄院的吳克等人開(kāi)發(fā)的WPDE (Web Parallel Data Extract1n,2006)在利用搜索引擎獲取候選網(wǎng)站時(shí),不僅利用了錨文本還采用了圖片的ALT信息。在根據(jù)URL命名相似性獲取候選雙語(yǔ)平行網(wǎng)頁(yè)對(duì)時(shí),采用將URL分成pathname和basename,pathname的配對(duì)查找上也利用預(yù)先定義的啟發(fā)式字符串,在具體的查找時(shí)定義了一些匹配規(guī)則;basename的查找配對(duì)不用于前面系統(tǒng)采用的基于預(yù)先定義的字符串形式,而是基于改進(jìn)的最小編輯距離算法,這樣的方式經(jīng)過(guò)試驗(yàn)證明取得了更好的效果。候選雙語(yǔ)平行網(wǎng)頁(yè)對(duì)的過(guò)濾時(shí)除采用了文本長(zhǎng)度,網(wǎng)頁(yè)html結(jié)構(gòu)等特征,還引入了一個(gè)基于網(wǎng)頁(yè)內(nèi)容的特征即候選雙語(yǔ)平行網(wǎng)頁(yè)文本句子對(duì)齊的好壞。在同PTI同樣的測(cè)試集合上,WPDE系統(tǒng)取得了 97%的正確率與94%的召回率。
[0005]隨著網(wǎng)絡(luò)信息時(shí)代的高速發(fā)展,網(wǎng)絡(luò)資源正以爆炸式的方式不斷增長(zhǎng)。互聯(lián)網(wǎng)是現(xiàn)代信息的重要來(lái)源,人們可以通過(guò)互聯(lián)網(wǎng)得到大量的信息資源,但互聯(lián)網(wǎng)中混雜著大量各式各樣的數(shù)據(jù),如何從互聯(lián)網(wǎng)中的海量信息中提取有價(jià)值的雙語(yǔ)數(shù)據(jù),是目前數(shù)據(jù)采集人員和相關(guān)企業(yè)所面臨的重要問(wèn)題。研宄基于Web的大規(guī)模雙語(yǔ)平行語(yǔ)料庫(kù)獲取技術(shù)對(duì)于解決雙語(yǔ)語(yǔ)料庫(kù)獲取難題,推動(dòng)相關(guān)技術(shù)發(fā)展和實(shí)用化具有重要的意義。目前,針對(duì)漢馬雙語(yǔ)平行語(yǔ)料的語(yǔ)料采集工具和方法還非常欠缺,能進(jìn)行自動(dòng)采集的就更寥寥無(wú)幾。所以現(xiàn)急需一種能自動(dòng)采集漢馬雙語(yǔ)平行語(yǔ)料的方法來(lái)解放語(yǔ)料采集人員繁瑣的采集工作和為企業(yè)提供有價(jià)值的語(yǔ)料資源。
【發(fā)明內(nèi)容】
[0006]針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種漢馬雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法,建立了一個(gè)基于Web的雙語(yǔ)語(yǔ)料自動(dòng)獲取系統(tǒng),從互聯(lián)網(wǎng)中自動(dòng)采集網(wǎng)絡(luò)漢馬雙語(yǔ)平行語(yǔ)料,能夠自動(dòng)獲取文本級(jí)漢馬雙語(yǔ)平行語(yǔ)料庫(kù)和句子級(jí)的漢馬雙語(yǔ)平行語(yǔ)料庫(kù),實(shí)現(xiàn)了漢馬雙語(yǔ)平行信息自動(dòng)發(fā)現(xiàn)、自動(dòng)提取、自動(dòng)整理的雙語(yǔ)平行語(yǔ)料采集系統(tǒng)。
[0007]本發(fā)明是采用以下技術(shù)方案實(shí)現(xiàn)的:
一種漢馬雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),包括漢馬雙語(yǔ)平行信息的自動(dòng)發(fā)現(xiàn)模塊、自動(dòng)提取模塊、自動(dòng)整理模塊,其中:
(O自動(dòng)發(fā)現(xiàn)模塊:實(shí)現(xiàn)漢馬雙語(yǔ)平行語(yǔ)料自動(dòng)發(fā)現(xiàn)的功能,制定需要采集語(yǔ)料的關(guān)鍵詞組,通過(guò)搜索引擎搜索網(wǎng)站,采集網(wǎng)頁(yè)得到搜索結(jié)果,對(duì)搜索結(jié)果的信息進(jìn)行過(guò)濾和篩選后,將經(jīng)過(guò)濾得搜索結(jié)果存儲(chǔ)于搜索結(jié)果數(shù)據(jù)庫(kù);
(2)自動(dòng)提取模塊:實(shí)現(xiàn)漢馬雙語(yǔ)平行語(yǔ)料自動(dòng)提取的功能,通過(guò)訪問(wèn)搜索結(jié)果數(shù)據(jù)庫(kù)里的網(wǎng)頁(yè),自動(dòng)提取漢馬雙語(yǔ)平行信息;
(3)自動(dòng)整理模塊:針對(duì)自動(dòng)提取的漢馬雙語(yǔ)平行信息,進(jìn)行數(shù)據(jù)過(guò)濾,并將經(jīng)過(guò)過(guò)濾處理后的漢馬雙語(yǔ)平行數(shù)據(jù)存放到漢馬雙語(yǔ)平行語(yǔ)料庫(kù)。
[0