欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

提供較小目標(biāo)編碼空間的碼轉(zhuǎn)換方法、計算機裝置和程序產(chǎn)品的制作方法

文檔序號:6498935閱讀:263來源:國知局
提供較小目標(biāo)編碼空間的碼轉(zhuǎn)換方法、計算機裝置和程序產(chǎn)品的制作方法【專利摘要】本發(fā)明涉及提供較小目標(biāo)編碼空間的碼轉(zhuǎn)換的方法、計算機裝置與程序產(chǎn)品。本發(fā)明公開一種提供來源編碼空間(如Unicode)大于目標(biāo)編碼空間(如EBCDIC)時碼轉(zhuǎn)換的方法、計算機裝置與程序產(chǎn)品。該方法包含接收對一來源文件執(zhí)行由一來源編碼空間至一目標(biāo)編碼空間的碼轉(zhuǎn)換的一要求,其中該來源文件依據(jù)一來源編碼空間編碼,且該來源編碼空間大于目標(biāo)編碼空間;及依據(jù)一預(yù)先建立的碼轉(zhuǎn)換的映射表,而對該來源文件分別產(chǎn)生一主要轉(zhuǎn)換文件及一延伸轉(zhuǎn)換文件?!緦@f明】提供較小目標(biāo)編碼空間的碼轉(zhuǎn)換方法、計算機裝置和程序產(chǎn)品【
技術(shù)領(lǐng)域
】[0001]本發(fā)明關(guān)于提供碼轉(zhuǎn)換的機制;尤其是提供來源編碼空間(如Unicode)大于目標(biāo)編碼空間(如EBCDIC)時碼轉(zhuǎn)換的方法與計算機裝置?!?br>背景技術(shù)
】[0002]計算機及其它電子裝置基本上使用文本(text)與使用者互動,而一般顯示在監(jiān)視器或其它類型的顯示屏幕上。由于文本必須以計算機或其它電子裝置內(nèi)部的數(shù)字類型表示(representation),因此必須以字符集編碼(CharacterSetEncoding)。一般,字符集編碼對字符集的每一字符以一唯一的數(shù)字表示編碼。該經(jīng)編碼的字符可以是字母、數(shù)字或各種文本符號。每一字符被指定一數(shù)值碼以供計算機或其它電子裝置使用。不同語言的計算機系統(tǒng)使用不同字符集。以中文為例,可使用BIG5,Unicode字符集。EB⑶IC的已編碼字符集標(biāo)識符(CodedCharacterSetIdentifier,CCSID)00835也指不一代表雙字節(jié)傳統(tǒng)中文的碼頁(codepage)。[0003]然而,在涉及碼頁或字符轉(zhuǎn)換時,將遭遇一問題。當(dāng)轉(zhuǎn)換來自較大碼頁的字符時,較小碼頁將限制碼點(codepoint)的擴充。例如,Unicode與EBCDIC(CCSID=00835)間的轉(zhuǎn)換。與Unicode比較,EB⑶IC碼頁的碼點范圍較小。當(dāng)來源編碼空間(如Unicode)大于目標(biāo)編碼空間(如EBCDIC)時,將耗盡目標(biāo)編碼空間的碼表中所有可用碼點。因此,在目標(biāo)編碼空間中將有來源編碼空間的碼點遺失。如圖1所示,來源編碼空間(如Unicode)中的碼點“坤”(U+5764)在目標(biāo)編碼空間(EBCDIC,CCSID=00835)中,存在一對應(yīng)碼點“坤”(507D),然而Unicode的碼點“崐”(U+872B)在EBCDIC中,并不存在一對應(yīng)碼點。[0004]一般,這些在EB⑶IC中不存在對應(yīng)碼點的Unicode原始碼點系語言中所謂稀有字(rareword)。傳統(tǒng)的解決方式是將這些稀有字映射至目標(biāo)編碼空間的一預(yù)定義特定字符;或在已轉(zhuǎn)換的目標(biāo)編碼文本中保留該要被轉(zhuǎn)換的來源編碼空間稀有字的原始碼(即在來源編碼空間的碼點),雖然它在已轉(zhuǎn)換的目標(biāo)編碼文本中不可讀。然而,對4字節(jié)的Unicode(UCS-4)與2字節(jié)的EBCDIC(CCSID=00835)間轉(zhuǎn)換而言,因EBCDIC(CCSID=00835)僅使用2字節(jié),而Unicode(UCS-4)是4字節(jié),故后者將不可行。關(guān)于前者,雖該特定字符可在目標(biāo)編碼空間或碼頁下識別,但該稀有字的語言特性,都將遺失。以中文為例,該語言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、筆畫(numberofstrokes)、筆順(strokeorder)、字形(glyph)等等。[0005]因此,存在一目標(biāo)編碼空間能讀取稀有字且又能保有該稀有字的語言特性的需求?!?br/>發(fā)明內(nèi)容】[0006]本說明書中所提及的特色、優(yōu)點、或類似表達方式并不暗示本發(fā)明可實現(xiàn)的所有特色及優(yōu)點應(yīng)在本發(fā)明的任何單一的具體實施例內(nèi)。而是應(yīng)明白,有關(guān)特色及優(yōu)點的表達方式是指結(jié)合具體實施例所述的特定特色、優(yōu)點、或特性包含在本發(fā)明的至少一具體實施例內(nèi)。因此,本說明書中對于特色及優(yōu)點、及類似表達方式的論述可與相同具體實施例有關(guān),但也非必要。[0007]此外,可以按照任何合適的方式,在一或多個具體實施例中結(jié)合本發(fā)明所述特色、優(yōu)點、及特性。相關(guān)領(lǐng)域技術(shù)人員應(yīng)明白,在沒有特定具體實施例的一個或多個特定特色或優(yōu)點的情況下,也可實施本發(fā)明。在其它例子中應(yīng)明白,特定具體實施例中的其它特色及優(yōu)點可能未在本發(fā)明的所有具體實施例中出現(xiàn)。[0008]本發(fā)明提供一新的碼轉(zhuǎn)換機制。該機制利用一預(yù)先建立的碼轉(zhuǎn)換的映射表,而對一依據(jù)來源編碼空間編碼的來源文件分別產(chǎn)生一依據(jù)較小目標(biāo)編碼空間編碼的主要轉(zhuǎn)換(mainconverted)文件及一延伸轉(zhuǎn)換文件,以供應(yīng)用程序使用。該映射表利用語言特性建立,其機制利用一些特定語言特性群組化一些來源編碼空間的稀有字,以共享目標(biāo)編碼空間的具有相同或相似的特定語言特性的相同單一碼點。[0009]當(dāng)執(zhí)行數(shù)據(jù)文件轉(zhuǎn)換時,該主要轉(zhuǎn)換文件按照已知方式根據(jù)預(yù)先建立的碼轉(zhuǎn)換映射表建立,而該延伸轉(zhuǎn)換文件也按照該映射表而記錄該稀有字的延伸碼,以區(qū)別共享目標(biāo)編碼空間的相同單一碼點而來自來源編碼空間的不同字符。因此,通過結(jié)合主要轉(zhuǎn)換文件及延伸轉(zhuǎn)換文件,本發(fā)明延伸了目標(biāo)編碼空間的碼區(qū)域,以供使用目標(biāo)編碼空間的程序利用。[0010]對于僅能接受原始目標(biāo)編碼空間的已知應(yīng)用程序而言,對應(yīng)該共享目標(biāo)編碼空間的相同單一碼點而有相同或相似的語言特性的一替代字符,可用來代表該稀有字。由于該替代字符與該稀有字有相同或相似的語言特性,因此也能幫助了解及猜測該數(shù)據(jù)文件的內(nèi)容。至于,能利用本發(fā)明上述結(jié)合主要轉(zhuǎn)換文件及延伸轉(zhuǎn)換文件而建立的目標(biāo)編碼空間延伸碼區(qū)域的新程序而言,可結(jié)合主要轉(zhuǎn)換文件及延伸轉(zhuǎn)換文件以找到該正確的稀有字,而正確呈現(xiàn)。[0011]根據(jù)本發(fā)明一實施例,本發(fā)明公開一種提供在較小目標(biāo)編碼空間的碼轉(zhuǎn)換的的方法,該方法包含:接收對一來源文件執(zhí)行由一來源編碼空間至一目標(biāo)編碼空間之碼轉(zhuǎn)換的一要求,其中該來源文件系依據(jù)一來源編碼空間編碼,且該來源編碼空間大于目標(biāo)編碼空間;及依據(jù)一預(yù)先建立之碼轉(zhuǎn)換之映射表,而對該來源文件分別產(chǎn)生一主要轉(zhuǎn)換文件及一延伸轉(zhuǎn)換文件。[0012]根據(jù)本發(fā)明另一實施例,本發(fā)明公開一種提供在較小目標(biāo)編碼空間之碼轉(zhuǎn)換的計算機裝置,包含:[0013]一主機;該主機包含,[0014]一總線系統(tǒng);[0015]一存儲器,連接到該總線系統(tǒng),其中該存儲器包含一組指令;[0016]一連接到該總線系統(tǒng)的處理單元,其中該處理單元執(zhí)行該組指令,以執(zhí)行前述的碼轉(zhuǎn)換的方法。[0017]根據(jù)本發(fā)明另一實施例,本發(fā)明公開一種儲存在一計算機可用介質(zhì)上的計算機程序產(chǎn)品,包含一計算機可讀程序,供在一計算機上執(zhí)行時,實施前述的碼轉(zhuǎn)換的方法。[0018]參考以下說明及隨附權(quán)利要求書或利用如下文所提的本發(fā)明的實施方式,即可更加明了本發(fā)明的這些特色及優(yōu)點?!緦@綀D】【附圖說明】[0019]為了立即了解本發(fā)明的優(yōu)點,請參考如附圖所示的特定具體實施例,詳細說明上文簡短敘述的本發(fā)明。在了解這些附圖僅描繪本發(fā)明的典型具體實施例并因此不將其視為限制本發(fā)明范疇的情況下,參考附圖以額外的明確性及細節(jié)來說明本發(fā)明,附圖中:[0020]圖1為一種公知在Unicode與EB⑶IC間進行碼轉(zhuǎn)換的例子;[0021]圖2為本發(fā)明的例示性計算機裝置的硬件環(huán)境方塊圖;[0022]圖3為一種依據(jù)本發(fā)明一具體實施例的碼轉(zhuǎn)換模塊的方法流程圖;[0023]圖4顯示一依據(jù)本發(fā)明以建立碼轉(zhuǎn)換的映射表的第一具體實施例;[0024]圖5為一種依據(jù)本發(fā)明以建立碼轉(zhuǎn)換之一第二具體實施例?!揪唧w實施方式】[0025]本說明書中“一具體實施例”或類似表達方式的引用是指結(jié)合該具體實施例所述的特定特色、結(jié)構(gòu)、或特性包括在本發(fā)明的至少一具體實施例中。因此,在本說明書中,“在一具體實施例中”及類似表達方式的用語的出現(xiàn)未必指相同的具體實施例。[0026]本領(lǐng)域技術(shù)人員當(dāng)知,本發(fā)明可實施為計算機裝置、方法或作為計算機程序產(chǎn)品的計算機可讀介質(zhì)。因此,本發(fā)明可以實施為各種形式,例如完全的硬件實施例、完全的軟件實施例(包含固件、常駐軟件、微程序代碼等),或者也可實施為軟件與硬件的實施形式,在以下會被稱為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明也可以按照任何有形的介質(zhì)形式實施為計算機程序產(chǎn)品,其具有計算機可使用程序代碼儲存于其上。[0027]一個或更多個計算機可使用或可讀取介質(zhì)的組合都可以利用。舉例來說,計算機可使用或可讀取介質(zhì)可以是(但并不限于)電子的、磁的、光學(xué)的、電磁的、紅外線的或半導(dǎo)體的系統(tǒng)、裝置、設(shè)備或傳播介質(zhì)。更具體的計算機可讀取介質(zhì)實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電連接、可攜式計算機磁盤、硬盤驅(qū)動、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可抹除程序化只讀存儲器(EPR0M或閃存)、光纖、可攜式光盤片(CD-ROM)、光學(xué)儲存裝置、傳輸介質(zhì)(例如因特網(wǎng)(Internet)或內(nèi)部網(wǎng)絡(luò)(intranet)之基礎(chǔ)連接)、或磁儲存裝置。需注意的是,計算機可使用或可讀取介質(zhì)更可以為紙張或任何可用于將程序行印于其上而使得該程序可以再度被電子化的適當(dāng)介質(zhì),例如通過光學(xué)掃描該紙張或其它介質(zhì),然后再編譯、解譯或其它合適的必要處理方式,然后可再度被儲存于計算機存儲器中。在文本中,計算機可使用或可讀取介質(zhì)可以是任何用于保持、儲存、傳送、傳播或傳輸程序代碼的介質(zhì),以供與其相連接的指令執(zhí)行系統(tǒng)、裝置或設(shè)備來處理。計算機可使用介質(zhì)可包括其中儲存有計算機可使用程序代碼的傳播數(shù)據(jù)訊號,不論是以基帶(baseband)或是部分載波的型態(tài)。計算機可使用程序代碼的傳輸可以使用任何適體的介質(zhì),包括(但并不限于)無線、有線、光纖纜線、射頻(RF)等。[0028]用于執(zhí)行本發(fā)明操作的計算機程序碼可以使用一種或多種程序語言的組合來撰寫,包括對象導(dǎo)向程序語言(例如Java、Smalltalk、C++或其它類似者)以及傳統(tǒng)程序編程語言(例如C編程語言或其它類似的編程語言)。程序代碼可以按照獨立軟件套件的形式完整的在使用者的計算機上執(zhí)行或部分在使用者的計算機上執(zhí)行,或部分在使用者計算機而部分在遠程計算機。[0029]在以下本發(fā)明的相關(guān)敘述會參照依據(jù)本發(fā)明具體實施例的計算機裝置、方法及計算機程序產(chǎn)品的流程圖及/或方塊圖來進行說明。當(dāng)可理解,每一個流程圖及/或方塊圖中的每一個方塊,以及流程圖及/或方塊圖中方塊的任何組合,可以使用計算機程序指令來實施。這些計算機程序指令可供通用型計算機或特殊計算機的處理器或其它可程序化數(shù)據(jù)處理裝置所組成的機器來執(zhí)行,而指令經(jīng)由計算機或其它可程序化數(shù)據(jù)處理裝置處理以便實施流程圖及/或方塊圖中所說明的功能或操作。[0030]這些計算機程序指令也可被儲存在計算機可讀取介質(zhì)上,以便指示計算機或其它可程序化數(shù)據(jù)處理裝置來進行特定的功能,而這些儲存在計算機可讀取介質(zhì)上的指令構(gòu)成一制品,其內(nèi)包括的指令可實施流程圖及/或方塊圖中所說明的功能或操作。[0031]計算機程序指令也可被加載到計算機上或其它可程序化數(shù)據(jù)處理裝置,以便在計算機或其它可程序化裝置上進行一系統(tǒng)操作步驟,而在該計算機或其它可程序化裝置上執(zhí)行該指令時產(chǎn)生計算機實施程序以達成流程圖及/或方塊圖中所說明的功能或操作。[0032]其次,請參照圖2至圖5,在附圖中顯示依據(jù)本發(fā)明各種實施例的計算機裝置、方法及計算機程序產(chǎn)品可實施的架構(gòu)、功能及操作之流程圖及方塊圖。因此,流程圖或方塊圖中的每個方塊可表示一模塊、區(qū)段、或部分的程序代碼,其包含一個或多個可執(zhí)行指令,以實施指定的邏輯功能。另當(dāng)注意,某些其它的實施例中,方塊所述的功能可以不按照圖中所示的順序進行。舉例來說,兩個圖示相連接的方塊事實上也可以同時執(zhí)行,或依據(jù)所牽涉到的功能在某些情況下也可以按照圖標(biāo)相反的順序執(zhí)行。此外也需注意者,每個方塊圖及/或流程圖的方塊,以及方塊圖及/或流程圖中方塊的組合,可通過基于特殊目的硬件的系統(tǒng)來實施,或者通過特殊目的硬件與計算機指令的組合,來執(zhí)行特定的功能或操作。[0033]<計算機裝置>[0034]圖2說明本發(fā)明的例示性計算機裝置202的硬件環(huán)境方塊圖。在一個示范性的實施例中,計算機裝置為一臺通用型的臺式計算機,可具有處理器以執(zhí)行各種應(yīng)用程序;儲存裝置以儲存各種信息及程序代碼;顯示裝置、通訊及輸出/入裝置做為與使用者溝通的接口;以及外圍組件或其它特定用途組件。在其它實施例中,本發(fā)明也可實施為其它的形式,而具有更多或更少的其它裝置或組件。網(wǎng)絡(luò)也可實施為任何類型的聯(lián)機,包括固定連接的局域網(wǎng)絡(luò)(LAN)或廣域網(wǎng)絡(luò)(WAN)聯(lián)機,或利用因特網(wǎng)服務(wù)提供者來暫時撥接至因特網(wǎng),也不限于有線無線等各種連接方式,例如通過GSM、或W1-Fi等無線網(wǎng)絡(luò)與服務(wù)器端計算機通信。然而應(yīng)了解,雖未繪示但其它硬件及軟件組件(例如額外計算機系統(tǒng)、路由器、防火墻等)可包含于網(wǎng)絡(luò)之中。[0035]如圖2所示,計算機裝置202包括一耦合至系統(tǒng)總線206的處理器單元204。一視頻適配器208(其控制一顯示器210)也耦合至系統(tǒng)總線206。系統(tǒng)總線206通過一總線橋212耦合至一輸入/輸出(I/O)總線214。一I/O接口216耦合至I/O總線214。I/O接口216能與各個I/O裝置通信,該I/O裝置包括一鍵盤218、一鼠標(biāo)220、一只讀光驅(qū)(⑶-ROM)222、一軟盤機224及一閃存隨身碟226。I/O裝置還可以是數(shù)字相機模塊用以輸入影像數(shù)據(jù)或是條形碼數(shù)據(jù),或是I/O裝置可與顯示器210整合為觸控屏幕,用以供使用者操作應(yīng)用程序與編寫信息。連接到I/O接口216的端口的規(guī)格,可以是熟悉計算機架構(gòu)技術(shù)者所知的任一種,其包括(但不限于)通用串行總線(USB)端口。[0036]使用一網(wǎng)絡(luò)接口230,計算機裝置202能通過一網(wǎng)絡(luò)228與一服務(wù)器252通信,網(wǎng)絡(luò)接口230耦合至系統(tǒng)總線206。網(wǎng)絡(luò)228可為一外部網(wǎng)絡(luò)(例如,因特網(wǎng))或一內(nèi)部網(wǎng)絡(luò)(例如,一以太網(wǎng)絡(luò)或一虛擬專用網(wǎng)絡(luò)(VPN))。使用網(wǎng)絡(luò)228,計算機裝置202能使用本發(fā)明以與服務(wù)器252互動。[0037]一硬盤驅(qū)動接口232也耦合至系統(tǒng)總線206上。硬盤驅(qū)動接口232與一硬盤驅(qū)動234介接。在一優(yōu)選實施例中,硬盤驅(qū)動234進駐(populates)系統(tǒng)存儲器236,該系統(tǒng)存儲器236也耦合至系統(tǒng)總線206。進駐系統(tǒng)存儲器236的數(shù)據(jù)包括計算機裝置202的操作系統(tǒng)(OS)238及應(yīng)用程序244。[0038]OS238包括一用于供使用者存取諸如應(yīng)用程序244等資源的殼層(shell)240及核心242。殼層240是一可在使用者與操作系統(tǒng)間提供一解譯器與接口的程序。該殼層提供系統(tǒng)提示、解譯由鍵盤、鼠標(biāo)或其它使用者輸入媒介所輸入的命令及向該操作系統(tǒng)的適當(dāng)?shù)妮^低層級(例如,核心242)發(fā)送經(jīng)解譯的命令供進行處理。雖然殼層240—般是以文字為基礎(chǔ)的行導(dǎo)向式使用者接口,但本發(fā)明也能支持其它使用者接口模式,諸如圖形的、語音的、示意動作的模式等。核心242包括OS238的較低層級功能,該較低層級功能包括由OS238的其它部分及應(yīng)用程序244所要求的基本服務(wù),該基本服務(wù)包括:存儲器管理、處理序及任務(wù)管理、磁盤管理及鼠標(biāo)與鍵盤之管理。[0039]服務(wù)器252可以使用與前述計算機裝置202相同或類似的硬件架構(gòu),也或者可以利用其它的基礎(chǔ)架構(gòu),本發(fā)明并不限制。舉例來說,服務(wù)器可以是臺式計算機等。然而圖2所示以及上述的范例均非用于限制本發(fā)明的架構(gòu)。服務(wù)器252可包括一瀏覽器。瀏覽器包括程序模塊及指令,該程序模塊及指令使用超文本傳送協(xié)議(HTTP)消息使萬維網(wǎng)(WWW)客戶端(即:計算機裝置202)能夠發(fā)送及接收網(wǎng)絡(luò)消息至因特網(wǎng)。[0040]應(yīng)用程序244可包括一本發(fā)明的碼轉(zhuǎn)換模塊246及一供碼轉(zhuǎn)換的映射表(mappingtable)248。碼轉(zhuǎn)換模塊246包括程序模塊及指令,該程序模塊及指令能對一來源文件執(zhí)行碼轉(zhuǎn)換,以獲得一轉(zhuǎn)換的目標(biāo)文件。該碼轉(zhuǎn)換模塊246可以是應(yīng)用程序內(nèi)的模塊,或以常駐程序(Daemon)的方式實施。但在其它實施例中,也可以用其它形式的程序型態(tài)來實施。[0041]在計算機裝置202內(nèi)繪示的硬件組件并非意欲包羅萬象,而是代表本發(fā)明所使用的最重要組件。舉例而言,計算機裝置202可以另包括替代存儲器儲存裝置,諸如磁帶(magneticcassette)、多樣化數(shù)字光盤(DVD)、(Bernoulli)卡匣及類似者。這些及其它變化將包含在本發(fā)明的精神及范疇內(nèi)。[0042]<碼轉(zhuǎn)換模塊流程>[0043]圖3配合圖4與圖5以顯示本發(fā)明的碼轉(zhuǎn)換模塊的方法步驟。[0044]圖3為一種依據(jù)本發(fā)明一具體實施例的碼轉(zhuǎn)換模塊的方法流程圖。[0045]步驟310:接收對一來源文件執(zhí)行碼轉(zhuǎn)換的一要求,該來源文件依據(jù)一來源編碼空間編碼。[0046]步驟320:依據(jù)一預(yù)先建立的碼轉(zhuǎn)換的映射表248,而對該來源文件分別產(chǎn)生一主要轉(zhuǎn)換文件及一延伸轉(zhuǎn)換文件。其中該來源編碼空間(如Unicode)大于目標(biāo)編碼空間(如EB⑶IC)。該映射表248則利用語言特性建立,其機制是利用一些特定語言特性群組化(group)一些來源編碼空間的稀有字,以共享目標(biāo)編碼空間的具有相同或相似的特定語言特性的相同單一碼點。更多細節(jié)將參照圖4或圖5在之后描述。該主要轉(zhuǎn)換文件按照公知方式根據(jù)預(yù)先建立的碼轉(zhuǎn)換映射表248建立,而該延伸轉(zhuǎn)換文件也按照該映射表248而記錄該稀有字的延伸碼,以區(qū)別共享目標(biāo)編碼空間的相同單一碼點而來自來源編碼空間的不同字符。[0047]圖4顯示一依據(jù)本發(fā)明以建立碼轉(zhuǎn)換的映射表248的第一具體實施例。如前述的圖1所示,來源編碼空間(如Unicode)中的碼點“坤,,(U+5764)在目標(biāo)編碼空間(EBCDIC,CCSID=00835)中,存在一對應(yīng)碼點“坤”(507D),然而Unicode的碼點“崐”(U+872B)為在EB⑶IC中不存在一對應(yīng)碼點的稀有字。[0048]依據(jù)本發(fā)明圖4的例子,首先,該在EB⑶IC中不存在對應(yīng)碼點的Unicode的碼點將映射至EB⑶IC中之一代表一替代(surrogate)字符的碼點,該替代字符具有與該稀有字相同或相似拼音的語言特性。如圖4所示,Unicode中的碼點“坤”(U+5764)在EBCDIC(CCSID=00835)中,存在一對應(yīng)碼點“坤”(507D)。而有相同拼音的語言特性的Unicode稀有字的碼點“崐”(U+872B)也映射至“坤”(U+5764)在EBCDIC中的該對應(yīng)碼點“坤”(507D)。因此,有相同拼音的稀有字可被歸類為同一群組以共享EBCDIC中的一相同碼點代表的替代字符。[0049]其次,使用一延伸碼,供識別有相同或相似拼音的語言特性而共享目標(biāo)編碼空間的相同單一碼點的稀有字。如圖4所示,有相同拼音的語言特性的Unicode稀有字的碼點“崐”(U+872B)也映射至“坤”(U+5764)在EBCDIC中的該對應(yīng)碼點“坤”(507D),但利用相同的拼音的語言特性,額外記錄一延伸碼(Hl)。延伸碼(Hl)的產(chǎn)生可簡單地依序編碼,如依據(jù)本發(fā)明圖4的例子可簡單地指定Hl=01。因此,通過結(jié)合主要轉(zhuǎn)換文件及延伸轉(zhuǎn)換文件,本發(fā)明延伸了目標(biāo)編碼空間的碼區(qū)域,供使用目標(biāo)編碼空間的程序利用。[0050]圖4的例子僅取拼音的單一語言特性做為群組化稀有字的依據(jù)。事實上,該替代字符可具有與該稀有字至少一個相同或相似的語言特性。以中文為例,該語言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、筆畫(numberofstrokes)、筆順(strokeorder)、字形(glyph)等等。因此,有相同之一個或多個語言特性的稀有字可被歸類為同一群組,以共享EB⑶IC中相同的一單一碼點,即共享相同單一碼點代表的替代字符。此時,延伸碼之建立可利用習(xí)知之哈希(hash)函數(shù),以不同語言特性為輸入,而對每一共享相同碼點的多個字符指定一唯一數(shù)值作為延伸碼。[0051]例如:假設(shè)部首及筆畫的值是[0,255]間的整數(shù),則下述哈希函數(shù)將產(chǎn)生唯一數(shù)值給一特定部首及筆畫的組合。[0052]F(部首,筆畫)=Hex((部首)*256+(筆畫))[0053]該哈希函數(shù)式可逆(reversible),因此能在延伸碼中保有語言特性。[0054]圖5為一種依據(jù)本發(fā)明以建立碼轉(zhuǎn)換的一第二具體實施例。如圖示,其除了對有相同或相似拼音的語言特性,而共享目標(biāo)編碼空間的相同單一碼點的稀有字,指定唯一延伸碼外,對該共享的碼點的替代字符也指定一延伸碼。例如,Unicode中的碼點“昆”(U+6606)在EBCDIC(CCSID=00835)中,存在一對應(yīng)碼點“昆”(50F9)。而有相同拼音的語言特性的Unicode稀有字的碼點“崐”(U+872B)及“昆”(U+5D10)也一并映射至“昆”(U+6606)在EBCDIC中的該對應(yīng)碼點“昆”(50F9),即共享目標(biāo)編碼空間的相同的對應(yīng)碼點“昆”(50F9)。但是,如圖5所示,包含對應(yīng)碼點“昆”(50F9)在內(nèi),共享碼點的所有字符均被指定唯一延伸碼外,H1,H2及H3。相似地,如前述,依據(jù)本發(fā)明本實施例延伸碼(H1,H2及H3)的產(chǎn)生可簡單地依序編碼,即可簡單地分別指定Hl=01、H2=02及H3=03。[0055]依據(jù)前述圖4或圖5實施例,一碼轉(zhuǎn)換的映射表248可被預(yù)先建立。當(dāng)執(zhí)行數(shù)據(jù)文件轉(zhuǎn)換時,依據(jù)一預(yù)先建立的碼轉(zhuǎn)換的映射表248,而對該來源文件分別產(chǎn)生一主要轉(zhuǎn)換文件及一延伸轉(zhuǎn)換文件。該主要轉(zhuǎn)換文件是依公知方式根據(jù)一預(yù)先建立的碼轉(zhuǎn)換映射表248而建立,而該延伸轉(zhuǎn)換文件也依據(jù)該映射表248而記錄該稀有字的延伸碼,以區(qū)別共享目標(biāo)編碼空間的相同單一碼點的不同字符。因此,通過結(jié)合主要轉(zhuǎn)換文件及延伸轉(zhuǎn)換文件,本發(fā)明延伸了目標(biāo)編碼空間的碼區(qū)域,供使用目標(biāo)編碼空間的程序利用。執(zhí)行數(shù)據(jù)文件轉(zhuǎn)換后建立的主要轉(zhuǎn)換文件及一延伸轉(zhuǎn)換文件可以如下列形式呈現(xiàn)。[0056]來源文件:[0057]【權(quán)利要求】1.一種提供在較小目標(biāo)編碼空間的碼轉(zhuǎn)換的方法,該方法包括:接收對來源文件執(zhí)行由來源編碼空間至目標(biāo)編碼空間的碼轉(zhuǎn)換的要求,其中該來源文件依據(jù)來源編碼空間編碼,且該來源編碼空間大于目標(biāo)編碼空間'及依據(jù)預(yù)先建立的碼轉(zhuǎn)換的映射表,而對該來源文件分別產(chǎn)生主要轉(zhuǎn)換文件及延伸轉(zhuǎn)換文件。2.如權(quán)利要求1所述的方法,其中該來源編碼空間是Unicode,而該目標(biāo)編碼空間是EBCDIC。3.如權(quán)利要求1所述的方法,其中該映射表利用語言特性建立,該建立利用至少一個相同或相似的語言特性群組化一些來源編碼空間的稀有字,以共享目標(biāo)編碼空間具有與該稀有字相同或相似的語言特性的替代(surrogate)字符的單一碼點。4.如權(quán)利要求3所述的方法,該稀有字是在目標(biāo)編碼空間中不存在對應(yīng)碼點的來源編碼空間的字符,該稀有字的碼點將映射至目標(biāo)編碼空間中的替代字符的碼點,且該替代字符具有與該稀有字至少一個相同或相似的語言特性。5.如權(quán)利要求4所述的方法,其中該主要轉(zhuǎn)換文件根據(jù)預(yù)先建立的碼轉(zhuǎn)換映射表建立,而該延伸轉(zhuǎn)換文件也根據(jù)該映射表而記錄該稀有字的延伸碼,以區(qū)別共享目標(biāo)編碼空間的相同單一碼點而來自來源編碼空間的不同字符。6.如權(quán)利要求5所述的方法,其中該延伸碼利用哈希(hash)函數(shù),以不同語言特性為輸入,而對每一共享相同碼點的多個字符指定唯一數(shù)值作為延伸碼。7.如權(quán)利要求5所述的方法,其中其除了對有相同或相似拼音的語言特性,而共享目標(biāo)編碼空間的相同單一碼點的稀有字,指定唯一延伸碼外,對該共享的碼點的替代字符也指定延伸碼。8.如權(quán)利要求2所述的方法,其中該語言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、筆畫(numberofstrokes)、筆順(strokeorder)、字形(glyph)等等。9.一種儲存在計算機可用介質(zhì)上的計算機程序產(chǎn)品,包括計算機可讀程序,供在計算機上執(zhí)行時,以實施如權(quán)利要求1至8中任一項所述的方法,以提供在較小目標(biāo)編碼空間的碼轉(zhuǎn)換。10.一種提供在較小目標(biāo)編碼空間的碼轉(zhuǎn)換的裝置,該裝置包括:用于接收對來源文件執(zhí)行由來源編碼空間至目標(biāo)編碼空間的碼轉(zhuǎn)換的要求的裝置,其中該來源文件依據(jù)來源編碼空間編碼,且該來源編碼空間大于目標(biāo)編碼空間;及用于依據(jù)預(yù)先建立的碼轉(zhuǎn)換的映射表,而對該來源文件分別產(chǎn)生主要轉(zhuǎn)換文件及延伸轉(zhuǎn)換文件的裝置。11.如權(quán)利要求9所述的裝置,其中該來源編碼空間是Unicode,而該目標(biāo)編碼空間是EBCDIC。12.如權(quán)利要求9所述的裝置,其中該映射表利用語言特性建立,該建立利用至少一個相同或相似的語言特性群組化一些來源編碼空間的稀有字,以共享目標(biāo)編碼空間具有與該稀有字相同或相似的語言特性的替代(surrogate)字符的單一碼點。13.如權(quán)利要求12所述的裝置,該稀有字是在目標(biāo)編碼空間中不存在對應(yīng)碼點的來源編碼空間的字符,該稀有字的碼點將映射至目標(biāo)編碼空間中的替代字符的碼點,且該替代字符具有與該稀有字至少一個相同或相似的語言特性。14.如權(quán)利要求13所述的裝置,其中該主要轉(zhuǎn)換文件根據(jù)預(yù)先建立的碼轉(zhuǎn)換映射表建立,而該延伸轉(zhuǎn)換文件也根據(jù)該映射表而記錄該稀有字的延伸碼,以區(qū)別共享目標(biāo)編碼空間的相同單一碼點而來自來源編碼空間的不同字符。15.如權(quán)利要求14所述的裝置,其中該延伸碼利用哈希(hash)函數(shù),以不同語言特性為輸入,而對每一共享相同碼點的多個字符指定唯一數(shù)值作為延伸碼。16.如權(quán)利要求14所述的裝置,其中其除了對有相同或相似拼音的語言特性,而共享目標(biāo)編碼空間的相同單一碼點的稀有字,指定唯一延伸碼外,對該共享的碼點的替代字符也指定延伸碼。17.如權(quán)利要求11所述的裝置,其中該語言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、筆畫(numberofstrokes)、筆順(strokeorder)、字形(glyph)等等?!疚臋n編號】G06F17/22GK103914436SQ201310008670【公開日】2014年7月9日申請日期:2013年1月9日優(yōu)先權(quán)日:2013年1月9日【發(fā)明者】謝志毅,廖怡翔,林志遠,林佩儀申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
娄底市| 庆元县| 鸡泽县| 德庆县| 博客| 侯马市| 云霄县| 杭州市| 抚顺市| 广宁县| 文登市| 宜章县| 裕民县| 彰化县| 墨江| 大丰市| 阜城县| 北票市| 安福县| 莲花县| 内江市| 阿鲁科尔沁旗| 景宁| 金秀| 汤原县| 新龙县| 通海县| 汪清县| 延寿县| 阳城县| 安康市| 江城| 屯昌县| 南昌县| 内江市| 安泽县| 竹北市| 滦平县| 朝阳市| 恩平市| 桃源县|