本發(fā)明涉及語言機(jī)器翻譯系統(tǒng)領(lǐng)域,特指一種數(shù)據(jù)庫交互式在線翻譯系統(tǒng)。
背景技術(shù):
機(jī)器翻譯的研究歷史可以追溯到20世紀(jì)三四十年代。20世紀(jì)30年代初,法國科學(xué)家g.b.阿爾楚尼提出了用機(jī)器來進(jìn)行翻譯的想法。1933年,蘇聯(lián)發(fā)明家特羅揚(yáng)斯基設(shè)計(jì)了把一種語言翻譯成另一種語言的機(jī)器,并在同年9月5日登記了他的發(fā)明,但是,由于30年代技術(shù)水平還很低,他的翻譯機(jī)沒有制成。1946年,第一臺(tái)現(xiàn)代電子計(jì)算機(jī)eniac誕生,隨后不久,信息論的先驅(qū)、美國科學(xué)家w.weaver和英國工程師a.d.booth在討論電子計(jì)算機(jī)的應(yīng)用范圍時(shí),于1947年提出了利用計(jì)算機(jī)進(jìn)行語言自動(dòng)翻譯的想法。1949年,w.weaver發(fā)表《翻譯備忘錄》,正式提出機(jī)器翻譯的思想。走過六十年的風(fēng)風(fēng)雨雨,機(jī)器翻譯經(jīng)歷了一條曲折而漫長的發(fā)展道路。
中國機(jī)器翻譯研究起步于1957年,是世界上第4個(gè)開始搞機(jī)器翻譯的國家,60年代中期以后一度中斷,70年代中期以來有了進(jìn)一步的發(fā)展。中國社會(huì)科學(xué)院語言研究所、中國科學(xué)技術(shù)情報(bào)研究所、中國科學(xué)院計(jì)算技術(shù)研究所、黑龍江大學(xué)、哈爾濱工業(yè)大學(xué)等單位都在進(jìn)行機(jī)器翻譯的研究;上機(jī)進(jìn)行過實(shí)驗(yàn)的機(jī)器翻譯系統(tǒng)已有十多個(gè),翻譯的語種和類型有英漢、俄漢、法漢、日漢、德漢等一對(duì)一的系統(tǒng),也有漢譯英、法、日、俄、德的一對(duì)多系統(tǒng)(fajra系統(tǒng))。此外,還建立了一個(gè)漢語語料庫和一個(gè)科技英語語料庫。中國機(jī)器翻譯系統(tǒng)的規(guī)模正在不斷地?cái)U(kuò)大,內(nèi)容正在不斷地完善。
上述的翻譯系統(tǒng)的工作原理,主要是針對(duì)語料庫的建設(shè)和完善等工作,目前的數(shù)據(jù)庫的建立方法主要采用專家輸入法和互聯(lián)網(wǎng)學(xué)習(xí)法,方法較為單一,出現(xiàn)了翻譯不準(zhǔn)確、語料庫數(shù)據(jù)收集困難,語種單一;尤其是對(duì)文學(xué),古籍以及專業(yè)性的會(huì)議翻譯,由于翻譯資料的匱乏,對(duì)語料庫的建立工作,造成了種種難以預(yù)料的困難。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種與上述現(xiàn)有系統(tǒng)不同的,能克服現(xiàn)有技術(shù)不足,智能快捷、通過由專家輸入、在線學(xué)習(xí)、使用者評(píng)價(jià)、愛好者支持等方法在線自動(dòng)建立數(shù)據(jù)庫、多語種全方位、準(zhǔn)確實(shí)用的自動(dòng)翻譯系統(tǒng)。
本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種數(shù)據(jù)庫交互式翻譯系統(tǒng),其特征在于,包括:在線數(shù)據(jù)庫,翻譯裝置;其中在線數(shù)據(jù)庫由收錄單元、存儲(chǔ)單元、檢索單元、匹配單元、輸出單元構(gòu)成;翻譯裝置由接收器、辨析單元、檢索單元、類型判斷單元、顯示輸出單元、語音輸出單元、評(píng)價(jià)單元、編錄單元構(gòu)成。
進(jìn)一步,所述在線數(shù)據(jù)庫收錄單元,通過收錄自互聯(lián)網(wǎng),書籍,辭典中的詞語,語句雙語或多語種對(duì)照文本建立基礎(chǔ)數(shù)據(jù)庫,并通過不斷收錄新生詞匯和句子,保存翻譯記錄來不斷豐富數(shù)據(jù)庫;數(shù)據(jù)庫對(duì)同一源文本會(huì)收錄多種翻譯文本(假若有),并對(duì)其進(jìn)行大眾評(píng)分確定最佳答案未列為最佳答案的文本仍會(huì)被保留,數(shù)據(jù)庫在翻譯時(shí)可顯示多種翻譯結(jié)果;公開收錄新的文本數(shù)據(jù),任何人皆可輸入新文本以豐富數(shù)據(jù)庫;對(duì)于公眾輸入的譯本,數(shù)據(jù)庫微機(jī)處理器會(huì)通過內(nèi)部機(jī)器翻譯的方法檢驗(yàn)譯本于源本是否對(duì)應(yīng);數(shù)據(jù)庫基于互聯(lián)網(wǎng)建設(shè),任何人在任何地方,任何國家都可以補(bǔ)充數(shù)據(jù)庫數(shù)據(jù)。
進(jìn)一步,所述在線數(shù)據(jù)庫存儲(chǔ)單元:所有以各種途徑被收錄的詞語,語句,文本都會(huì)被存儲(chǔ)至互聯(lián)網(wǎng)上的在線數(shù)據(jù)庫中。
進(jìn)一步,所述在線數(shù)據(jù)庫的檢索單元:任何人可以向數(shù)據(jù)庫中輸入任何語言的源本及任何語言的譯本,數(shù)據(jù)庫會(huì)對(duì)語言進(jìn)行分類并分類儲(chǔ)存,從而豐富數(shù)據(jù)庫;任何已被譯過的源文本,可以直接自數(shù)據(jù)庫中引出,避免出現(xiàn)機(jī)翻時(shí)可能出現(xiàn)的語法錯(cuò)誤;對(duì)古文、詩詞、小說、科幻文學(xué)作品中的特殊詞語或語句,直接自數(shù)據(jù)庫中提取已有雙語或多語種對(duì)照譯本或樣例,避免了對(duì)非辭典收錄詞語或語句無法翻譯的情況,或是由某作者特殊文體風(fēng)格而導(dǎo)致的文體結(jié)構(gòu)無法分析問題。
進(jìn)一步,所述在線數(shù)據(jù)庫的匹配單元:采用數(shù)據(jù)庫中所存數(shù)據(jù)進(jìn)行檢索配對(duì)翻譯,對(duì)已有譯本的文本直接從數(shù)據(jù)庫中提取。
進(jìn)一步,所述在線數(shù)據(jù)庫的輸出單元:經(jīng)過匹配認(rèn)定可以使用的文本會(huì)被輸出至翻譯裝置。
進(jìn)一步,所述翻譯裝置接收器:用于接收用戶終端發(fā)送的在線翻譯請(qǐng)求,所述在線翻譯請(qǐng)求預(yù)先配置在翻譯軟件中,所述在線翻譯請(qǐng)求是所屬用戶無法讀懂通訊信息的情況下發(fā)送的。
進(jìn)一步,所述翻譯裝置辨析單元:用于辨析所述在線翻譯請(qǐng)求中源語言文本的句子組成并將文本分割成基礎(chǔ)文本單元。
進(jìn)一步,所述翻譯裝置檢索單元:于數(shù)據(jù)庫中檢索是否有匹配可用文本,如有,則可直接使用。
進(jìn)一步,所述翻譯裝置類型判斷單元:無法自數(shù)據(jù)庫中檢索出匹配文本的,通過機(jī)翻得出翻譯結(jié)果。由判斷是接受機(jī)翻結(jié)果還是通過人工翻譯得到翻譯結(jié)果。
進(jìn)一步,所述翻譯裝置顯示輸出單元:自數(shù)據(jù)庫檢索所得的、機(jī)器翻譯或人工翻譯所得的結(jié)果會(huì)以源語和目的語對(duì)照的方式以可顯示文本輸出。
進(jìn)一步,所述翻譯裝置語音輸出單元:數(shù)據(jù)庫所產(chǎn)生的譯文既可以文本方式呈現(xiàn)也可通過語音的形式表達(dá)。
進(jìn)一步,所述翻譯裝置評(píng)價(jià)單元:用戶對(duì)翻譯結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)最佳翻譯結(jié)果。并收錄保存最佳評(píng)價(jià)結(jié)果。
進(jìn)一步,所述翻譯裝置編錄單元:數(shù)據(jù)庫會(huì)分類收錄每次翻譯的源語言文本和對(duì)照的目的語文本,做下次查詢使用。
附圖說明
為了清楚的說明本發(fā)明現(xiàn)有技術(shù)中的技術(shù)方案和實(shí)施例,下面將對(duì)現(xiàn)有技術(shù)方案或?qū)嵤├枋鲋兴枰母綀D作簡單的介紹,顯而易見,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他附圖。
附圖1本發(fā)明一種數(shù)據(jù)庫交互式翻譯系統(tǒng)數(shù)據(jù)庫基礎(chǔ)集成方法示意圖。
附圖2本發(fā)明一種數(shù)據(jù)庫交互式翻譯系統(tǒng)實(shí)施流程示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整的描述,雖然所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例,基于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,所獲得的所有其他實(shí)施例,都屬于本發(fā)明的保護(hù)范圍。
如附圖1所示,本翻譯方法中所采用數(shù)據(jù)庫的形成方法示意圖。首先步驟101:自不同渠道收集形成數(shù)據(jù)庫基礎(chǔ)數(shù)據(jù)的特定文本、文體、專有名詞、特殊名詞、詞語、短語、諺語、習(xí)語、成語、歇后語、句式、句型、新生詞匯、網(wǎng)絡(luò)用語、新潮詞匯、古文、古籍、古詩、名言。對(duì)文本的收集內(nèi)容包括文本的源語言文本、目的語文本(或參考文本)。從而形成數(shù)據(jù)庫的基礎(chǔ)集成。
如附圖1所示,形成數(shù)據(jù)庫基礎(chǔ)集成后即為對(duì)數(shù)據(jù)庫的豐富和完善,該進(jìn)程是不間斷的,會(huì)隨每次使用、查詢或時(shí)間的推移而不斷豐富和完善。對(duì)數(shù)據(jù)庫的補(bǔ)充途徑包括自互聯(lián)網(wǎng)實(shí)時(shí)獲取的新生詞匯、網(wǎng)絡(luò)用語、網(wǎng)絡(luò)用詞及其釋義;典籍、詩詞、古文、名言的譯本;用戶也可向數(shù)據(jù)庫中鍵入自創(chuàng)或引用的新詞、用語或語句的譯文文本,這些文本經(jīng)核查或被證實(shí)可用后可被加入數(shù)據(jù)庫。同一源文本可被補(bǔ)充多種不同譯文文本,用戶可對(duì)同一源文本的不同譯文文本進(jìn)行評(píng)價(jià),收取最佳譯文文本作為推薦答案錄入數(shù)據(jù)庫。
如附圖2所示,為本發(fā)明基于數(shù)據(jù)庫和與其互補(bǔ)關(guān)系的數(shù)據(jù)庫式翻譯方法的流程示意圖。首先步驟1:接收需要翻譯的文本。接收方式如下之一:網(wǎng)站、手機(jī)、電話、電腦、pda。需要用戶輸入源語言、源文本、目標(biāo)語種,輸入方式分為文字輸入或語音輸入,語音輸入即將用戶用語音表達(dá)的文本轉(zhuǎn)換為文字形式后輸入。
至步驟2:輸入源文本后,由系統(tǒng)對(duì)句中每一個(gè)基本單元進(jìn)行形態(tài)分析,記錄句子長短,分析句子結(jié)構(gòu),后轉(zhuǎn)步驟3。
步驟3:于數(shù)據(jù)庫中檢索是否有完整可用句式文本,如有,直接采用。例如:來自典籍、古文、著作中的,已有確定相同的來自數(shù)據(jù)庫中的文本,可直接將其譯文文本作為用戶輸入源文本的翻譯結(jié)果呈現(xiàn)。如于數(shù)據(jù)庫中無法直接得到對(duì)應(yīng)的文本,則轉(zhuǎn)步驟4。
步驟4:對(duì)句子基本單元進(jìn)行形態(tài)分析,記錄詞性代碼及其所有可能的釋義,發(fā)現(xiàn)可匹配的專有名詞及特定短語釋義,可直接套用。
步驟5:自數(shù)據(jù)庫中檢索是否有自步驟4得出的基本文本單元的匹配釋義,如有,可直接套用,并轉(zhuǎn)至步驟6。
步驟6:采用機(jī)翻,自數(shù)據(jù)庫中檢索文本中單詞或短語釋義,并確定目的語的句式框架。
步驟7:將單詞或短語的釋義代入已形成的目的語句式框架中形成譯文文本。
步驟8:輸出翻譯結(jié)果;每次輸出的譯文文本可通過文字的形式呈現(xiàn)屏幕。
步驟9:形成結(jié)果后,由用戶決定是否采納,如采納,則作為最終結(jié)果,轉(zhuǎn)步驟15。如未被采納,轉(zhuǎn)步驟10。
步驟10:除機(jī)翻翻譯結(jié)果外,也顯示自數(shù)據(jù)庫中采集的,或是自互聯(lián)網(wǎng)采集的與源語言文本相似文本的翻譯結(jié)果作為參考,或是通過人工翻譯解決。轉(zhuǎn)步驟11。
步驟11:如果用戶對(duì)以上三種翻譯結(jié)果不滿意,可將問題懸置,任何人可輸入待選翻譯結(jié)果,這些結(jié)果將在第二次查詢時(shí)作為參考結(jié)果出現(xiàn)。
步驟12:形成第二次結(jié)果。
步驟13:結(jié)果被采納,則轉(zhuǎn)步驟14:未被采納轉(zhuǎn)步驟5。
步驟14:如未鍵入?yún)⒖甲g文本,則可求助互聯(lián)網(wǎng)真人在線翻譯,形成翻譯結(jié)果,如被采納,轉(zhuǎn)步驟15,未被采納,則轉(zhuǎn)步驟5。
步驟15:即為最終被用戶采納的結(jié)果,該結(jié)果會(huì)被錄入數(shù)據(jù)庫,錄入內(nèi)容包括源語言文本和對(duì)應(yīng)的目的語文本,作下次查詢之用。同時(shí)剔除數(shù)據(jù)庫中與錄入文本相同且未被采納的文本。
步驟16:每次輸出的譯文文本可通過文字的形式呈現(xiàn)屏幕;或即時(shí)轉(zhuǎn)譯成語音的方式從音頻輸出。
步驟17:將結(jié)果,包括:原語和目標(biāo)語對(duì)照的雙語文本或多語種文本,存入數(shù)據(jù)庫,以進(jìn)一步完善語料數(shù)據(jù)。剔除數(shù)據(jù)庫中原有文本重疊的文本和語料數(shù)據(jù)。
本發(fā)明一種數(shù)據(jù)庫交互式翻譯系統(tǒng),其翻譯系統(tǒng)數(shù)據(jù)庫的建立和完善是通過微型計(jì)算器軟件在建立基礎(chǔ)數(shù)據(jù)庫的平臺(tái)上利用互聯(lián)網(wǎng)的優(yōu)勢,通過由專家輸入、在線學(xué)習(xí)、使用者評(píng)價(jià)、愛好者支持等方法在線自動(dòng)成長數(shù)據(jù)庫;形成多語種、全方位、準(zhǔn)確實(shí)用的自動(dòng)翻譯系統(tǒng)。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。