欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

漢維電子辭典及其自動轉譯漢維語的方法

文檔序號:6442079閱讀:444來源:國知局
專利名稱:漢維電子辭典及其自動轉譯漢維語的方法
技術領域
本發(fā)明屬于機器翻譯語言技術領域,涉及利用計算機軟硬件使?jié)h語和維吾爾語相互轉譯的語言轉換技術,特別是漢維電子辭典及其自動轉譯漢維語的方法。
背景技術
在社會信息化的當代,人們對各類語種信息獲取、查詢、翻譯提出了更快、更高的要求,隨之而研制開發(fā)了各類電子辭典產品,大到含幾十萬詞條、上萬個媒體素材的電子多媒體百科全書,小到含幾千詞條的掌上快譯通,受到廣大用戶歡迎,電子辭典被作為學習語言、翻譯和快速查詢的輔助工具。在國外機器翻譯系統(tǒng)和自然語言處理系統(tǒng)的實用化進程中,機器辭典已儼然成為開發(fā)的焦點,越來越多的語言翻譯技術專家把機器辭典的規(guī)模和質量看作是決定機器翻譯系統(tǒng)和自然語言處理系統(tǒng)成敗的關鍵,早在1986年日本通產省就出資I億美元支持電子辭典(EDR)的一個9年的開發(fā)計劃,歐共體也資助多項機器辭典的研究課題,其中包括 ACQUILEX (The Acquisition of Lexical Knowledge)課題,其目標是通過多部機器可讀辭典MRD (Machine Reading Dictionary)來自動獲取詞匯知識,以便建立支持自然語言處理的多語種詞匯知識庫LKB (Lexical Knowledge Base),在此基礎上所開發(fā)的各語種的多部大型機器辭典,其種類包括基本辭典、術語辭典、搭配辭典、概念分類辭典、概念描寫辭典、語法辭典等。目前,產品化的電子辭典種類繁多,如不列顛百科全書、柯普頓百科全書、ENCARTA等。在我國,涉及機器翻譯辭典方面的研究則始于二十世紀50、60年代,在改革開放之后得到了充分重視,二十世紀80年代后期,中文信息處理領域的專家開始了對機器辭典的研究,二十世紀90年代初,面向信息處理的機器辭典的研究正式列入國家七五、八五、九五計劃,開展了諸如《信息處理用現代漢語詞匯研究》、《基于配價的漢語語義辭典》、《現代漢語語法信息辭典》等基礎性研究課題,在此基礎上開發(fā)了《中國大百科全書》、《金山詞霸》、《東方大典》等較成熟的信息產品,受到了廣大用戶的歡迎。近年來,隨著少數民族文字信息化領域的持續(xù)快速發(fā)展,在我國新疆,有關少數民族語言的電子辭典也有了比較大的發(fā)展,但大多數以現有普通的漢維電子辭典為主,并沒有滿足更廣大用戶的實際需求,更多支持少數民族語言翻譯技術的水平存在著較大的缺陷。

發(fā)明內容
本發(fā)明的目的在于提供一種漢維電子辭典,其結構合理,通用性強。本發(fā)明的目的是這樣實現的:一種漢維電子辭典,由語種識別模塊、檢索模塊、檢索組合輸出模塊、顯示模塊、語音識別模塊和語音輸出模塊組成,語種識別模塊通過其相應接口連接顯示模塊的接口和檢索模塊的接口,檢索模塊通過其輸出端接口對應連接檢索組合輸出模塊的輸入端接口,檢索組合輸出模塊的輸出端接口對應連接語音識別模塊的輸入端接口,語音識別模塊通過其輸出端接口連接語音輸出模塊的輸入端接口。
本發(fā)明的目的還在于提供一種漢維電子辭典自動轉譯漢維語的方法,改變原先傳統(tǒng)、普通漢語與維吾爾語互譯的辭典技術,提高漢語和維吾爾語相互轉譯的效率,改進對漢語文字、維吾爾語文字進行語音放送的性能(維吾爾語簡稱為維語或維文)。本發(fā)明的目的是這樣實現的:一種漢維電子辭典自動轉譯漢維語的方法,其按序處理的步驟如下:
(I )由顯示模塊顯示所輸入的文字,構建取詞窗口,語種識別模塊利用取詞窗口通過屏幕取詞的方法,獲取與顯示模塊顯示的所輸入文字相對應的輸入字符編碼區(qū)域,將所輸入的文字與被存儲的UNICODE標準編碼字符集(通用字符集:Universal Multiple-OctetCoded Character Set)中的編碼字符相比對,判斷所輸入文字的語種是漢語或維語,再把已被識別出語種的所輸入文字傳至檢索模塊;
(II )檢索模塊獲取檢索方式將被識別出語種的所輸入文字與在寄存于存儲器的基礎語料庫中并列存儲的漢-維語料庫和維-漢語料庫中所存儲的字符進行比對,以從基礎語料庫中檢索出與被識別出語種的所輸入文字的字符相同或相對應的字符組合,確認被識別出語種的所輸入文字是已被存儲在基礎語料庫中的已知單字或單詞,或進一步主動完整漢語單字組合或單詞字母組合,若不能從漢-維語料庫和維-漢語料庫中檢索出與所輸入文字相同或相對應的字符組合-漢語單字或維語單詞,則檢索模塊判斷被識別出語種的所輸入文字是未知的,不能被語種識別模塊確認、接收;
(III)語種識別模塊接收檢索模塊所檢索出的字符組合,并從基礎語料庫所存儲的漢-維語料庫和維-漢語料庫中調出與由檢索模塊所檢索出的字符組合意思對應的且不同于所輸入文字語種的另一語種字符組合-轉譯成漢語單字、漢語單詞或維語單詞,再把所輸入文字和/或由語種識別模塊從基礎語料庫中所調出的與所輸入文字意思相對應的另一語種字符組合通過檢索模塊或直接傳至檢索組合輸出模塊;
(IV )檢索組合輸出模塊根據所輸入文字和/或由語種識別模塊從基礎語料庫中所調出的與所輸入文字意思相對應的另一語種字符組合,從基礎語料庫中并列存儲的漢-漢語料庫和維-維語料庫中獲取用于解釋被檢索模塊檢索出的字符組合的意思的漢語解釋語句和維語解釋語句,相應對由語種識別模塊從基礎語料庫中所調出的字符組合的意思進行解釋,檢索組合輸出模塊再將其所檢索出的解釋語句輸出至語音識別模塊;
(V )當語音識別模塊判斷其所接收的解釋語句為漢語解釋語句時,語音識別模塊用寄存于存儲器內的語音數據庫所存儲的真人漢語語音庫,相應逐一對其所接收的漢語解釋語句中的每一漢語單字按照漢語發(fā)音語序進行語音匹配,再將暫存有與其所接收漢語解釋語句中的漢語單字按序相匹配的漢語發(fā)音信號依次傳至語音輸出模塊,對應于漢語解釋語句中每一漢語單字的漢語發(fā)音信號被語音輸出模塊逐一按序檢測、讀取后,由語音輸出模塊中的揚聲器依次發(fā)出與其所接收漢語解釋語句中的每一漢語單字對應的漢語語音;當語音識別模塊判斷其所接收的解釋語句為維語解釋語句且其所接收的維語解釋語句是維語單詞時,語音識別模塊用語音數據庫中所存儲的真人維語語音庫,相應逐一對其所接收的維語解釋語句的每一維語單詞按照維語發(fā)音語序進行語音匹配,再將暫存有與其所接收維語解釋語句中的維語單詞按序相匹配的維語發(fā)音信號依次傳至語音輸出模塊,對應于其所接收維語解釋語句中每一維語單詞的維語發(fā)音信號被語音輸出模塊逐一按序檢測、讀取后,由語音輸出模塊中的揚聲器依次發(fā)出與維語解釋語句中每一維語單詞相匹配的維語語音;若語音識別模塊判斷其所接收的解釋語句為維語解釋語句,但不能對該維語解釋語句進行語音匹配時,則推定該維語解釋語句是維語文本,并調用語音數據庫中所存儲的合成維語語音庫對維語文本進行基于音節(jié)的語音合成,通過維語語句單詞與音節(jié)切分法相應將維語文本切分成已知存儲于合成語音庫中的維語單詞,再用真人維語語音庫和/或合成維語語音庫,相應逐一對該維語文本的每一維語單詞按照維語發(fā)音語序進行語音匹配,將暫存有與維語文本被按序所切分成的維語單詞相匹配的維語發(fā)音信號依次傳至語音輸出模塊,維語發(fā)音信號被語音輸出模塊逐一按序檢測、讀取后,由語音輸出模塊中的揚聲器依次發(fā)出與維語文本中每一維語單詞相匹配的維語語音。本發(fā)明是基于計算語言學、人類文化學、社會學、語用學、翻譯學及計算機信息處理科學技術的漢維語雙向多媒體電子辭典,基于UNICODE國際標準的漢維雙語編碼格式,以實現漢維、維漢雙向單詞輸入功能、漢維單詞與文本朗讀功能,具有在不同操作系統(tǒng)下利用屏幕取詞法獲取漢維字符的功能和對國內外維吾爾文字編碼進行轉換的功能,也具有漢維語言的多語種界面,對漢維單詞快速檢索、模糊檢索,可直接輸入維吾爾文,對辭典詞庫進行管理,附帶辭典設置、辭典工具、辭典附錄、在線升級等功能。本發(fā)明提供維吾爾語文字輸入法,但不依賴其它維吾爾(語)文輸入法,提高了可用性,提供屏幕取詞漢維雙向實時翻譯,為使用漢語、維吾爾語的用戶帶來了方便,提供漢維單詞和短語的標準朗誦,是學習漢語、維吾爾語的有力工具,具有海量維吾爾文語料庫和單詞、短語解釋功能,方便其它講非維吾爾語的人員學習維吾爾族語言、維吾爾民族歷史、風俗習慣,為其它講非維吾爾語的人員了解新疆地理信息和區(qū)域、風貌提供了大量實例。本發(fā)明解決了所有以維吾爾語言為母語的國內外維吾爾人民難于獲取現代知識和日常生活中的語言障礙問題,使國內外維吾爾語學習者能快速翻譯進而獲取各種信息,不僅方便維吾爾人民學習漢語,而且方便漢族同志和外國人學習維吾爾語,是維吾爾語、漢語使用者學習漢語、維語翻譯工具,對提高維吾爾人民的漢語說寫水平有著深遠的意義;另一方面對將來漢維(語)機器翻譯辭典庫建設,對烏(烏孜別克文)漢、土(土耳其文)漢雙向電子辭典及輔助機器翻譯系統(tǒng)的開發(fā)打下了堅實的基礎。本發(fā)明的技術特點是:①提供漢語、維吾爾語之間的雙向單詞翻譯服務,在本發(fā)明的漢維電子辭典中輸入上述任意一種語言單詞可以獲得其在另外一種語言中的釋義;②提供支持國際UNICODE標準的維吾爾文組件式輸入法,即用戶沒有安裝任何維語輸入法時,本辭典仍然可以正確輸入標準的維語單詞在當前主流的Windows系列操作系統(tǒng)(Windows XP\ffindows Server\ffindows Vista\ffindows 7)中,可實現對維語進行屏幕取詞的功能;④使用統(tǒng)計學和語音學以實現對維語單詞和文本的朗讀功能,語音朗讀標準、清晰,具有較先進的技術特色;⑤提供辭典在線升級、辭典設置、辭典工具、辭典附錄等附加功能,可根據用戶的需要進行設置提供友好的多語種辭典界面,通過人性化的設置獲得不同語言的辭典界面和方向;⑦實現對輸入文字語言自動識別的功能,分析所輸入文字,自動對所輸入文字進行語種判斷,并對其進行單詞翻譯漢維詞庫內收集有近280萬條詞匯,同時建立了真人語音庫和基于音節(jié)切分技術的語音朗讀合成庫。本發(fā)明的電子詞典其結構合理,通用性強,其方法改變原先傳統(tǒng)、普通漢語與維吾爾語互譯的辭典技術,提高漢語和維吾爾語相互轉譯的效率,改進對漢語文字、維吾爾語文字進行語音放送的性能。


附圖是本發(fā)明的模塊連接示意圖及其自動轉譯漢維語的方法的總流程示意圖。
具體實施例方式一種漢維電子辭典,如附圖所示,由語種識別模塊2、檢索模塊3、檢索組合輸出模塊4、顯示模塊1、語音識別模塊5和語音輸出模塊6組成,語種識別模塊2通過其相應接口連接顯示模塊I的接口和檢索模塊3的接口,檢索模塊3通過其輸出端接口對應連接檢索組合輸出模塊4的輸入端接口,檢索組合輸出模塊4的輸出端接口對應連接語音識別模塊5的輸入端接口,語音識別模塊5通過其輸出端接口連接語音輸出模塊6的輸入端接口。一種漢維電子辭典自動轉譯漢維語的方法,如附圖所示,其按序處理的步驟如下:
(I )由顯示模塊I顯示(由鍵盤)所輸入的文字,依次使所輸入文字混合編排和圖文混合排版,構建取詞窗口,語種識別模塊2利用取詞窗口通過屏幕取詞的方法,獲取與顯示模塊I顯示的所輸入文字相對應的輸入字符編碼區(qū)域,將所輸入的文字與被存儲的UNICODE 標準編碼字符集(通用字符集!Universal Multiple-Octet Coded CharacterSet)中的編碼字符相比對,判斷所輸入文字的語種是漢語或維語,再把已被識別出語種的所輸入文字傳至檢索模塊3 ;注:若語種識別模塊2判斷出其接收到的所輸入文字是漢語拼音文字,則先將所輸入漢語拼音文字的字母組合與寄存于存儲器內的基礎語料庫(取詞數據庫)中的拼音語料庫的所有字母組合逐一比對(若所輸入漢語拼音文字的字母組合與拼音語料庫所存儲的所有字母組合不相同或不對應,則不能從拼音語料庫中獲取與所輸入漢語拼音文字發(fā)音相同的漢語單字,若所輸入漢語拼音文字的字母組合與拼音語料庫所存儲的某一字母組合相同或相對應,則能從拼音語料庫中獲取與所輸入漢語拼音發(fā)音文字對應的漢語單字),以獲取與所輸入漢語拼音文字發(fā)音相同的漢語單字,即從拼音語料庫中調出羅列有與上述漢語拼音文字發(fā)音相同的候選漢語單字的列表,用戶從該列表中選擇某一候選漢語單字,將與漢語拼音文字發(fā)音相同的某一候選漢語單字傳輸至顯示模塊1,由顯示模塊I顯示該某一候選漢語單字,再將與漢語拼音文字發(fā)音相同的漢語單字傳送至檢索模塊3,所述的拼音語料庫存儲有與各個漢語拼音組合字符發(fā)音相同的漢語單字(索引)、漢語單詞(索引),若語種識別模塊2判斷出其直接接收到的所輸入文字是漢語文字,則直接將該漢語文字傳輸至檢索模塊3 ;
(II )檢索模塊3獲取檢索方式將被識別出語種的所輸入文字與在寄存于存儲器的基礎語料庫中并列存儲的漢-維語料庫和維-漢語料庫中所存儲的字符進行比對(所述的字符為漢語單字或維語單詞),以從基礎語料庫中檢索出與被識別出語種的所輸入文字的字符相同或相對應的字符組合,確認被識別出語種的所輸入文字是已被存儲在基礎語料庫中的已知單字或單詞,或進一步主動完整漢語單字組合或單詞字母組合,若不能從漢-維語料庫和維-漢語料庫中檢索出與所輸入文字相同或相對應的字符組合-漢語單字或維語單詞,則檢索模塊3判斷被識別出語種的所輸入文字是未知的,不能被語種識別模塊2確認、接收,所述的漢-維語料庫存儲有與各個漢語單字或漢語單詞匯所對應的維語單詞,所述的維-漢語料庫存儲有與各個維語單詞所對應的漢語單字或漢語單詞;
(III)語種識別模塊2接收檢索模塊3所檢索出的字符組合,并從基礎語料庫所存儲的漢-維語料庫和維-漢語料庫中調出與由檢索模塊3所檢索出的字符組合意思對應的且不同于所輸入文字語種的另一語種字符組合-轉譯成漢語單字、漢語單詞或維語單詞,即將維語單詞轉譯成漢語單字或漢語單詞,或將漢語單字或漢語單詞轉譯成維語單詞,再把所輸入文字和/或由語種識別模塊2從基礎語料庫中所調出的與所輸入文字意思相對應的另一語種字符組合通過檢索模塊3或直接傳至檢索組合輸出模塊4 ;
(IV)檢索組合輸出模塊4根據所輸入文字和/或由語種識別模塊2從基礎語料庫中所調出的與所輸入文字意思相對應的另一語種字符組合,從基礎語料庫中并列存儲的漢-漢語料庫和維-維語料庫中獲取用于解釋被檢索模塊3檢索出的字符組合的意思的漢語解釋語句和維語解釋語句,用上述某一語種文字所作出的解釋語句必是用所輸入文字所屬語種的文字作出的解釋語句,相應對由語種識別模塊2從基礎語料庫中所調出的字符組合的意思進行解釋(如對某一維語單詞用與其意思對應的漢語解釋語句進行解釋,或者對某一漢語單字或單詞用與其意思對應的維語解釋語句進行解釋,或者對某一維語單詞用與其意思對應的維語解釋語句進行解釋,或者對某一漢語單字或單詞用與其意思對應的漢語解釋語句進行解釋),檢索組合輸出模塊4再將其所檢索出的解釋語句(漢語解釋語句和維語解釋語句)輸出至語音識別模塊5 ;例如,所述的漢-漢語料庫存儲有對每個漢語單字或單詞作出解釋的漢語詞句,所述的維-維語料庫存儲有對每個維語單詞作出解釋的維語詞句;
(V )當語音識別模塊5判斷其所接收的解釋語句為漢語解釋語句時,語音識別模塊5用寄存于存儲器內的語音數據庫所存儲的真人漢語語音庫,相應逐一對其所接收的漢語解釋語句中的每一漢語單字按照漢語發(fā)音語序進行語音匹配,再將暫存有與其所接收漢語解釋語句中的漢語單字按序相匹配的漢語發(fā)音信號依次傳至語音輸出模塊6,對應于漢語解釋語句中每一漢語單字的漢語發(fā)音信號被語音輸出模塊6逐一按序檢測、讀取后,由語音輸出模塊6中的揚聲器依次發(fā)出與其所接收漢語解釋語句中的每一漢語單字對應的漢語語音;
當語音識別模塊5判斷其所接收的解釋語句為維語解釋語句且其所接收的維語解釋語句是維語單詞時,語音識別模塊5用語音數據庫中所存儲的真人維語語音庫,相應逐一對其所接收的維語解釋語句的每一維語單詞按照維語發(fā)音語序進行語音匹配,再將暫存有與其所接收維語解釋語句中的維語單詞按序相匹配的維語發(fā)音信號依次傳至語音輸出模塊6,對應于其所接收維語解釋語句中每一維語單詞的維語發(fā)音信號被語音輸出模塊6逐一按序檢測、讀取后,由語音輸出模塊6中的揚聲器依次發(fā)出與維語解釋語句中每一維語單詞相匹配的維語語音;若語音識別模塊5判斷其所接收的解釋語句為維語解釋語句,但不能對該維語解釋語句進行語音匹配時,則推定該維語解釋語句是維語文本,并調用語音數據庫中所存儲的合成維語語音庫對維語文本進行基于音節(jié)的語音合成,通過維語語句單詞與音節(jié)切分法相應將維語文本切分成已知存儲于合成語音庫中的維語單詞,再用真人維語語音庫和/或合成維語語音庫,相應逐一對該維語文本的每一維語單詞按照維語發(fā)音語序進行語音匹配,將暫存有與維語文本被按序所切分成的維語單詞相匹配的維語發(fā)音信號依次傳至語音輸出模塊6,維語發(fā)音信號被語音輸出模塊6逐一按序檢測、讀取后,由語音輸出模塊6中的揚聲器依次發(fā)出與維語文本中每一維語單詞相匹配的維語語音。所述的檢索方式為首部檢索方式、尾部檢索方式或包含檢索方式;首部檢索方式為:A、檢索模塊3從左向右按序逐一錄入所輸入文字中的每個字符,B、將基礎語料庫(漢-維語料庫和維-漢語語料庫)中所存儲的字符組合數據與被錄入的所輸入文字字符組合相比對,若能從基礎語料庫中搜索出與被錄入的文字字符組合相同的字符,則停止檢索,即完成精確匹配出所輸入文字的工作;若不能通過首部檢索方式從基礎語料庫中搜索出與所輸入文字相同的字符組合,則采用如下的尾部檢索方式繼續(xù)檢索所輸入的文字;
尾部檢索方式為:①檢索模塊3從右向左(按照人面對的左邊、右邊)按序逐一錄入所輸入文字中的每個字符,②同上述首部檢索方式的步驟B;若不能通過首部檢索方式從基礎語料庫中搜索出與所輸入文字相同的字符,則采用如下的包含檢索方式繼續(xù)檢索所輸入的文字;
包含檢索方式為從任意方向匹配所輸入文字的字符組合的檢索方式,包括上述首部檢索方式與尾部檢索方式,檢索模塊3通過該包含檢索方式從基礎語料庫中搜索出與所輸入文字相同的字符,最終完成精確匹配所輸入文字的工作。本發(fā)明的檢索流程涉及語種識別模塊2、檢索模塊3、檢索組合輸出模塊4和基礎語料庫,其主要流程為:1)首先,用戶通過漢語或維語輸入法輸入漢語文字或維語文字,輸入所需要查詢的文字,通過輸入數據的UNICODE編碼,判斷所輸入文字(源語言單詞或文本)的語種(漢語或維吾爾語);2)根據用戶設置的檢索方式判斷所輸入文字的語種,檢索模塊3檢索出與所輸入文字(源語言單詞或文本)匹配的漢語和/或維語單詞、文本;3)根據檢索模塊3對所輸入文字檢索的結果,從基礎語料庫中匹配出與所輸入文字相同或相應的漢語單詞和/或維語單詞意思相同的漢語解釋例句和維語解釋例句,并組合生成需要輸出的數據。本發(fā)明屏幕取詞、翻譯流程涉及語種識別模塊2、顯示模塊1、檢索模塊3和取詞數據庫(基礎語料庫),其主要流程為:1)用戶輸入文字(需要翻譯的單詞、文本);2)語種識別模塊2通過輸入數據的UNICODE編碼判斷上述所輸入文字(源語言單詞或文本)的語種(漢語或維吾爾語);3)根據語種識別模塊2對所輸入文字判斷出的不同語種,檢索模塊3從取詞漢語庫或取詞維語詞庫(漢-維語料庫和/或維-漢語料庫)中獲取與所輸入文字相匹配的單詞、文本;4)依據檢索模塊3對所輸入文字最終匹配的結果,顯示模塊I通過文本混合排版技術和圖文混合排版技術,構建屏幕取詞翻譯界面,顯示最終翻譯結果(漢語詞句或維語詞句)。本發(fā)明語音朗誦的流程涉及語種識別模塊2、語音輸出模塊6、檢索組合輸出模塊4和語音數據庫,其主要流程為:1)語種識別模塊2對其接收到檢索組合輸出模塊4所發(fā)出的漢語、維語解釋語句(在屏幕取詞環(huán)節(jié)中所輸入的文字)進行語種判斷,如果所輸入的解釋語句是漢語詞句,則從真人漢語語音庫匹配所輸入的漢語單字,如果所輸入的解釋語句是維語詞句,則繼續(xù)判斷語種識別模塊2所接收的維語解釋語句是否為維語單詞,若是所輸入的文字為維語單詞,則直接從真人維語語音庫匹配出相同或相應的維語單詞,若語音輸出模塊6找不到匹配的維語單詞,則將其轉入文本處理過程,即如果所輸入的解釋語句是維語文本,則利用維語語句音節(jié)切分技術,將維語文本按照維語語言特點切分為維語單詞,并將維語文本中的維語單詞按照維語的特點切分為音節(jié),從合成維語語音庫匹配出維語文本每一維語單詞的所有音節(jié),最終組成完整的維語語音文本;2)通過計算機語音設備檢測,對上述維語文本進行讀取并輸出、播放。使用者通過鍵盤輸入方式在屏幕顯示的輸入框中輸入待查詢的文字(源語言單詞或文本),所輸入的文字經過語種識別環(huán)節(jié)被識別出語言種類(漢語或維語)后,由檢索模塊3利用拼音檢索法、首部檢索法、尾部檢索法、包含檢索法和精確匹配檢索法中的任意一種方法,對所輸入的文字與拼音語料庫、漢維語料庫、維漢語料庫的單詞進行匹配,從基礎語料庫中檢索出與上述所輸入文字相對應或相同的待翻譯的單詞,然后根據檢索模塊3從基礎語料庫中所檢索出的待翻譯的單詞,檢索組合輸出模塊4獲取與所述待翻譯的單詞意思相對應的漢語解釋語句和維語解釋語句,再通過文本混合排版技術、圖文混合排版技術進行編輯,將翻譯的漢語解釋語句或維語解釋語句組合成為輸出的文字數據,顯示在(屏幕)結果顯示區(qū)域內。使用者通過光標定位方式所輸入的待翻譯解釋的文字(單詞或文本),所輸入的文字在經過語種識別環(huán)節(jié)后,語種識別模塊2再從常用取詞漢語庫和常用取詞維語庫(漢-維語料庫和/或維-漢語料庫)中檢索出與所輸入的文字(目標語言或源語言單詞或文本)意思相同或相對應的另一語種單詞(翻譯數據),再通過文本混合排版技術、圖文混合排版技術將翻譯數據(結果)組合成為輸出數據,并以動態(tài)方式構建符合輸出數據大小的顯示界面,顯示最終翻譯結果。使用者輸入文字(源語言單詞或文本)后,所輸入文字經過語種識別環(huán)節(jié)、單詞檢索確認環(huán)節(jié)、漢語和維語轉譯環(huán)節(jié)、維語音節(jié)單詞切分環(huán)節(jié)等后,再調用真人漢語語音庫、真人維語語音庫和合成維語語音庫,將所輸入文字生成相應的漢語或維語語音文件,語音識別模塊5 (語音檢測設備)讀取上述所輸入的文字,并通過其揚聲器依次按音節(jié)發(fā)出所輸入文字的語音。
權利要求
1.一種漢維電子辭典,其特征是:由語種識別模塊(2)、檢索模塊(3)、檢索組合輸出模塊(4)、顯示模塊(I)、語音識別模塊(5)和語音輸出模塊(6)組成,語種識別模塊(2)通過其相應接口連接顯示模塊(I)的接口和檢索模塊(3)的接口,檢索模塊(3)通過其輸出端接口對應連接檢索組合輸出模塊(4)的輸入端接口,檢索組合輸出模塊(4)的輸出端接口對應連接語音識別模塊(5)的輸入端接口,語音識別模塊(5)通過其輸出端接口連接語音輸出模塊(6)的輸入端接口。
2.一種漢維電子辭典自動轉譯漢維語的方法,其按序處理的步驟如下: (I )由顯示模塊(I)顯示所輸入的文字,構建取詞窗口,語種識別模塊(2)利用取詞窗口通過屏幕取詞的方法,獲取與顯示模塊(I)顯示的所輸入文字相對應的輸入字符編碼區(qū)域,將所輸入的文字與被存儲的UNICODE標準編碼字符集中的編碼字符相比對,判斷所輸入文字的語種是漢語或維語,再把已被識別出語種的所輸入文字傳至檢索模塊(3); (II )檢索模塊(3)獲取檢索方式將被識別出語種的所輸入文字與在寄存于存儲器的基礎語料庫中并列存儲的漢-維語料庫和維-漢語料庫中所存儲的字符進行比對,以從基礎語料庫中檢索出與被識別出語種的所輸入文字的字符相同或相對應的字符組合,確認被識別出語種的所輸入文字是已被存儲在基礎語料庫中的已知單字或單詞,或進一步主動完整漢語單字組合或單詞字母組合,若不能從漢-維語料庫和維-漢語料庫中檢索出與所輸入文字相同或相對應的字符組合-漢語單字或維語單詞,則檢索模塊(3)判斷被識別出語種的所輸入文字是未知的,不能被語種識別模塊(2)確認、接收; (III)語種識別模塊(2)接收檢索模塊(3)所檢索出的字符組合,并從基礎語料庫所存儲的漢-維語料庫和維-漢語料庫中調出與由檢索模塊(3)所檢索出的字符組合意思對應的且不同于所輸入文字語種的另一語種字符組合-轉譯成漢語單字、漢語單詞或維語單詞,再把所輸入文字和/ 或由語種識別模塊(2)從基礎語料庫中所調出的與所輸入文字意思相對應的另一語種字符組合通過檢索模塊(3)或直接傳至檢索組合輸出模塊(4); (IV )檢索組合輸出模塊(4)根據所輸入文字和/或由語種識別模塊(2)從基礎語料庫中所調出的與所輸入文字意思相對應的另一語種字符組合,從基礎語料庫中并列存儲的漢-漢語料庫和維-維語料庫中獲取用于解釋被檢索模塊(3)檢索出的字符組合的意思的漢語解釋語句,根據斯拉夫文維語文字與阿拉伯文維語文字映射表,獲取與上述另一語種字符組合意思對應的以斯拉夫字母或阿拉伯字母表達的維語解釋語句,相應對由語種識別模塊(2)從基礎語料庫中所調出的字符組合的意思進行解釋,檢索組合輸出模塊(4)再將其所檢索出的解釋語句輸出至語音識別模塊(5); (V )當語音識別模塊(5)判斷其所接收的解釋語句為漢語解釋語句時,語音識別模塊(5)用寄存于存儲器內的語音數據庫所存儲的真人漢語語音庫,相應逐一對其所接收的漢語解釋語句中的每一漢語單字按照漢語發(fā)音語序進行語音匹配,再將暫存有與其所接收漢語解釋語句中的漢語單字按序相匹配的漢語發(fā)音信號依次傳至語音輸出模塊¢),對應于漢語解釋語句中每一漢語單字的漢語發(fā)音信號被語音輸出模塊(6)逐一按序檢測、讀取后,由語音輸出模塊出)中的揚聲器依次發(fā)出與其所接收漢語解釋語句中的每一漢語單字對應的漢語語音; 當語音識別模塊(5)判斷其所接收的解釋語句為維語解釋語句且其所接收的維語解釋語句是以阿拉伯字母或斯拉夫字母表達的維語單詞時,語音識別模塊(5)用語音數據庫中所存儲的真人維語語音庫,相應逐一對其所接收的維語解釋語句的每一維語單詞按照維語發(fā)音語序進行語音匹配,再將暫存有與其所接收維語解釋語句中的維語單詞按序相匹配的維語發(fā)音信號依次傳至語音輸出模塊¢),對應于其所接收維語解釋語句中每一維語單詞的維語發(fā)音信號被語音輸出模塊(6)逐一按序檢測、讀取后,由語音輸出模塊(6)中的揚聲器依次發(fā)出與維語解釋語句中每一維語單詞相匹配的維語語音;若語音識別模塊(5)判斷其所接收的解釋語句為維語解釋語句,但不能對該維語解釋語句進行語音匹配時,則推定該維語解釋語句是以阿拉伯字母或斯拉夫字母表達的維語文本,并調用語音數據庫中所存儲的合成維語語音庫對維語文本進行基于音節(jié)的語音合成,通過維語語句單詞與音節(jié)切分法相應將維語文本切分成已知存儲于合成語音庫中的維語單詞,再用真人維語語音庫和/或合成維語語音庫,相應逐一對該維語文本的每一維語單詞按照維語發(fā)音語序進行語音匹配,將暫存有與維語文本被按序所切分成的維語單詞相匹配的維語發(fā)音信號依次傳至語音輸出模塊(6),維語發(fā)音信號被語音輸出模塊(6)逐一按序檢測、讀取后,由語音輸出模塊(6)中的揚聲器依次發(fā)出與維語文本中每一維語單詞相匹配的維語語音。
3.根據權利要求2所述的漢維電子辭典自動轉譯漢維語的方法,其特征是:所述的檢索方式為首部檢索方式、尾部檢索方式或包含檢索方式; 首部檢索方式為:A、檢索模塊(3)從左向右按序逐一錄入所輸入文字中的每個字符,B、將基礎語料庫中所存儲的字符組合數據與被錄入的所輸入文字字符組合相比對,若能從基礎語料庫中搜索出與被錄入的文字字符組合相同的字符,則停止檢索,即完成精確匹配出所輸入文字的工作;若不能通過首部檢索方式從基礎語料庫中搜索出與所輸入文字相同的字符組合,則采用如下的尾部檢索方式繼續(xù)檢索所輸入的文字; 尾部檢索方式為:①檢索模塊(3)從右向左(按照人面對的左邊、右邊)按序逐一錄入所輸入文字中的每個字符,②同上述首部檢索方式的步驟B;若不能通過首部檢索方式從基礎語料庫中搜索出與所輸入文字相同的字符,則采用如下的包含檢索方式繼續(xù)檢索所輸入的文字; 包含檢索方式為從任意方向匹配所輸入文字的字符組合的檢索方式,包括上述首部檢索方式與尾部檢索方 式。
全文摘要
本發(fā)明公開了一種漢維電子辭典及其自動轉譯漢維語的方法,具有語種識別模塊、檢索模塊、檢索組合輸出模塊、顯示模塊、語音識別模塊和語音輸出模塊;所輸入的文字被識別出語言種類后,由檢索模塊對所輸入文字與基礎語料庫中的單詞進行匹配,然后根據檢索模塊從基礎語料庫中所檢索出的待翻譯的單詞,語音識別模塊再對由檢索組合輸出模塊獲取的與所述待翻譯的單詞意思相對應的漢語解釋語句和維語解釋語句(經音節(jié)切分環(huán)節(jié))進行有效識別,再調用真人語音庫或合成維語語音庫,語音識別模塊讀取上述所輸入的文字,并通過語音識別模塊的揚聲器依次發(fā)出所輸入文字的語音。本發(fā)明的電子詞典結構合理,改進原先漢維語互譯的辭典技術,提高漢維語相互轉譯的效率,改進對漢維語文字進行語音放送的性能。
文檔編號G06F17/28GK103164398SQ201110426750
公開日2013年6月19日 申請日期2011年12月19日 優(yōu)先權日2011年12月19日
發(fā)明者尼加提·納吉米, 買合木提·買買提, 帕肉克·司地克, 馬斌 申請人:新疆新能信息通信有限責任公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
来凤县| 定安县| 泾阳县| 苗栗县| 西城区| 甘德县| 上杭县| 伽师县| 内江市| 金寨县| 衡东县| 于都县| 饶河县| 高阳县| 永宁县| 洪洞县| 全南县| 固阳县| 马山县| 运城市| 五莲县| 廊坊市| 高州市| 贵定县| 大姚县| 白朗县| 莎车县| 梧州市| 拜泉县| 康平县| 惠水县| 西峡县| 五台县| 衡南县| 双桥区| 个旧市| 鄄城县| 三穗县| 那坡县| 鲁山县| 灌阳县|