欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

字符轉(zhuǎn)換系統(tǒng)和字符轉(zhuǎn)換方法

文檔序號:6511318閱讀:275來源:國知局
字符轉(zhuǎn)換系統(tǒng)和字符轉(zhuǎn)換方法
【專利摘要】本發(fā)明提供了一種字符轉(zhuǎn)換系統(tǒng),包括:解析單元,解析接收到的數(shù)據(jù),確定數(shù)據(jù)所包含的至少一個字符,并獲取至少一個字符中每個字符對應(yīng)的屬性信息;判斷單元,對于每個字符,根據(jù)屬性信息確定字符的字形位圖,判斷字形位圖是否滿足預(yù)設(shè)條件;轉(zhuǎn)換單元,在判斷單元判定滿足預(yù)設(shè)條件的情況下,根據(jù)屬性信息確定字符的初始內(nèi)碼,并根據(jù)初始內(nèi)碼對字符進行轉(zhuǎn)換,在判斷單元判定不滿足預(yù)設(shè)條件的情況下,根據(jù)字形位圖識別字符的實際內(nèi)碼,并根據(jù)實際內(nèi)碼對字符進行轉(zhuǎn)換。本發(fā)明還提出了一種字符轉(zhuǎn)換方法。通過本發(fā)明的技術(shù)方案,能夠在字符轉(zhuǎn)換過程中自動修正內(nèi)碼錯誤,避免了鑒定錯誤文檔與修復(fù)或重建文檔而耗費時間,減輕了字符轉(zhuǎn)換時系統(tǒng)的負擔。
【專利說明】字符轉(zhuǎn)換系統(tǒng)和字符轉(zhuǎn)換方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文字處理【技術(shù)領(lǐng)域】,具體而言,涉及一種字符轉(zhuǎn)換系統(tǒng)和一種字符轉(zhuǎn) 換方法。

【背景技術(shù)】
[0002] 中文文字有簡體字與繁體字之分,然而因為簡體字與繁體字之間的差異甚大,造 成了這兩種文字的使用者在交流信息上的隔閡。不僅是簡體字的使用者在閱讀繁體字上 有一定的困難,對于沒接觸過簡體字的繁體字使用者來說,閱讀一份簡體字文件也只能理 解其中的部分內(nèi)容。另外,簡體字與繁體字所使用的編碼也不相同,簡體字是用GB (國標) 編碼,繁體字則是使用Big5碼,因此如果使用者所在的本地端沒有裝設(shè)相應(yīng)的編解碼設(shè)備 時,就會有顯示亂碼的情形發(fā)生。
[0003] 簡繁轉(zhuǎn)換工具正是根據(jù)此需求產(chǎn)生,無論是網(wǎng)站或文字編輯軟件幾乎都附有這類 的簡繁轉(zhuǎn)化工具,但要正確無誤的轉(zhuǎn)換一份簡體字或繁體字文件,卻并不輕松。通常的簡繁 轉(zhuǎn)換是根據(jù)簡/繁體文字的內(nèi)碼查找相對應(yīng)的繁/簡體文字內(nèi)碼來進行轉(zhuǎn)換,但當遇到內(nèi) 碼錯誤的情況就會出現(xiàn)轉(zhuǎn)換出的內(nèi)容與實際大相徑庭的情況。這種文字內(nèi)碼與其字形不匹 配的現(xiàn)象稱作亂碼現(xiàn)象。
[0004] 亂碼現(xiàn)象通常存在于含有內(nèi)嵌字體數(shù)據(jù)格式的文檔中,比如PDF或ePub等格式的 文檔。含有亂碼(錯誤內(nèi)碼)的文檔通常是顯示正確,而在提取或復(fù)制文字時卻出現(xiàn)亂碼,這 是由于文檔在被制作時使用了特殊的字體或內(nèi)嵌的字體數(shù)據(jù)經(jīng)過了非常規(guī)的改動,導(dǎo)致文 檔無法提供正確的文字內(nèi)碼。另一方面,一部分特殊字體其字形的度量也與一般字體存在 差異,這將導(dǎo)致使用一般字體繪制轉(zhuǎn)換后的文字時可能出現(xiàn)字符大小顯示異常的問題。由 于歷史原因,這類含有亂碼的文檔是大量存在的。
[0005] 為了轉(zhuǎn)換含有亂碼的文檔,只能重新制作文檔,或采用OCR (光學(xué)字符識別)的技 術(shù)手段將文檔逐頁識別出文字再進行轉(zhuǎn)換,而這兩種方法都需要消耗額外的人力資源。
[0006] 因此,需要一種新的字符轉(zhuǎn)換技術(shù),能夠在字符轉(zhuǎn)換過程中自動修正內(nèi)碼錯誤,降 低人力消耗,并避免了鑒定錯誤文檔與修復(fù)或重建文檔而耗費時間,減輕了字符轉(zhuǎn)換時系 統(tǒng)的負擔。


【發(fā)明內(nèi)容】

[0007] 本發(fā)明正是基于上述問題,提出了一種字符轉(zhuǎn)換技術(shù),能夠在字符轉(zhuǎn)換過程中自 動修正內(nèi)碼錯誤,降低人力消耗,并避免了鑒定錯誤文檔與修復(fù)或重建文檔而耗費時間,減 輕了字符轉(zhuǎn)換時系統(tǒng)的負擔。
[0008] 有鑒于此,本發(fā)明提出了一種字符轉(zhuǎn)換系統(tǒng),包括:解析單元,用于解析接收到的 數(shù)據(jù),確定所述數(shù)據(jù)所包含的至少一個字符,并獲取所述至少一個字符中每個字符對應(yīng)的 屬性信息;判斷單元,對于所述每個字符,根據(jù)所述屬性信息確定所述字符的字形位圖,判 斷所述字形位圖是否滿足預(yù)設(shè)條件;轉(zhuǎn)換單元,用于在所述判斷單元判定滿足所述預(yù)設(shè)條 件的情況下,根據(jù)所述屬性信息確定所述字符的初始內(nèi)碼,并根據(jù)所述初始內(nèi)碼對所述字 符進行轉(zhuǎn)換,在所述判斷單元判定不滿足所述預(yù)設(shè)條件的情況下,根據(jù)所述字形位圖識別 所述字符的實際內(nèi)碼,并根據(jù)所述實際內(nèi)碼對所述字符進行轉(zhuǎn)換。
[0009] 在該技術(shù)方案中,可以通過判斷待轉(zhuǎn)換字符的位圖是否滿足預(yù)設(shè)條件,來確定待 轉(zhuǎn)換字符的字體內(nèi)碼是否正確,并在字體內(nèi)碼不正確時,可以識別待轉(zhuǎn)換字符的實際內(nèi)碼 作為轉(zhuǎn)換依據(jù),對待轉(zhuǎn)換字符進行轉(zhuǎn)換,從而實現(xiàn)了在字符轉(zhuǎn)換過程中自動修復(fù)內(nèi)碼錯誤, 減少了鑒定錯誤文檔與修復(fù)或重建文檔所耗費的時間,達到減輕系統(tǒng)負擔的技術(shù)功效。 [0010] 本發(fā)明還提出了一種字符轉(zhuǎn)換方法,包括:解析接收到的數(shù)據(jù),確定所述數(shù)據(jù)所包 含的至少一個字符,并獲取所述至少一個字符中每個字符對應(yīng)的屬性信息;對于所述每個 字符,根據(jù)所述屬性信息確定所述字符的字形位圖,判斷所述字形位圖是否滿足預(yù)設(shè)條件, 若滿足所述預(yù)設(shè)條件,則根據(jù)所述屬性信息確定所述字符的初始內(nèi)碼,并根據(jù)所述初始內(nèi) 碼對所述字符進行轉(zhuǎn)換,若不滿足所述預(yù)設(shè)條件,則根據(jù)所述字形位圖識別所述字符的實 際內(nèi)碼,并根據(jù)所述實際內(nèi)碼對所述字符進行轉(zhuǎn)換。
[0011] 在該技術(shù)方案中,可以通過判斷待轉(zhuǎn)換字符的位圖是否滿足預(yù)設(shè)條件,來確定待 轉(zhuǎn)換字符的字體內(nèi)碼是否正確,并在字體內(nèi)碼不正確時,可以識別待轉(zhuǎn)換字符的實際內(nèi)碼 作為轉(zhuǎn)換依據(jù),對待轉(zhuǎn)換字符進行轉(zhuǎn)換,從而實現(xiàn)了在字符轉(zhuǎn)換過程中自動修復(fù)內(nèi)碼錯誤, 減少了鑒定錯誤文檔與修復(fù)或重建文檔所耗費的時間,達到減輕系統(tǒng)負擔的技術(shù)功效。
[0012] 通過以上技術(shù)方案,能夠在字符轉(zhuǎn)換過程中自動修正內(nèi)碼錯誤,降低人力消耗,并 避免了鑒定錯誤文檔與修復(fù)或重建文檔而耗費時間,減輕了字符轉(zhuǎn)換時系統(tǒng)的負擔。

【專利附圖】

【附圖說明】
[0013] 圖1示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換系統(tǒng)的框圖;
[0014] 圖2示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換方法的流程圖;
[0015] 圖3示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換系統(tǒng)的結(jié)構(gòu)圖;
[0016] 圖4示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換方法的具體流程圖;
[0017] 圖5示出了根據(jù)本發(fā)明的實施例的判斷字形相似度的流程圖;
[0018] 圖6A和圖6B示出了根據(jù)本發(fā)明的實施例的字形轉(zhuǎn)換的示意圖。

【具體實施方式】
[0019] 為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實 施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施 例及實施例中的特征可以相互組合。
[0020] 在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可 以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開 的具體實施例的限制。
[0021] 圖1示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換系統(tǒng)的框圖。
[0022] 如圖1所示,根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換系統(tǒng)100包括:解析單元102,用于 解析接收到的數(shù)據(jù),確定所述數(shù)據(jù)所包含的至少一個字符,并獲取所述至少一個字符中每 個字符對應(yīng)的屬性信息;判斷單元104,對于所述每個字符,根據(jù)所述屬性信息確定所述字 符的字形位圖,判斷所述字形位圖是否滿足預(yù)設(shè)條件;轉(zhuǎn)換單元106,用于在所述判斷單元 104判定滿足所述預(yù)設(shè)條件的情況下,根據(jù)所述屬性信息確定所述字符的初始內(nèi)碼,并根據(jù) 所述初始內(nèi)碼對所述字符進行轉(zhuǎn)換,在所述判斷單元104判定不滿足所述預(yù)設(shè)條件的情況 下,根據(jù)所述字形位圖識別所述字符的實際內(nèi)碼,并根據(jù)所述實際內(nèi)碼對所述字符進行轉(zhuǎn) 換。
[0023] 在上述技術(shù)方案中,優(yōu)選地,還包括:相似度確定單元108,用于將所述字形位圖 與標準位圖進行比較得到字形相似度,根據(jù)所述字形相似度確定平均相似度,其中,所述判 斷單元104用于判斷平均相似度是否大于或等于預(yù)設(shè)閾值,所述轉(zhuǎn)換單元106,用于在判斷 單元104判定平均相似度大于或等于預(yù)設(shè)閾值時,根據(jù)屬性信息確定字符的初始內(nèi)碼,根 據(jù)初始內(nèi)碼將字符轉(zhuǎn)化為第一目標字符,以及在判斷單元104判定平均相似度小于預(yù)設(shè)閾 值時,根據(jù)字形位圖識別字符的實際內(nèi)碼,并根據(jù)實際內(nèi)碼將字符轉(zhuǎn)化為第二目標字符。
[0024] 可以通過計算待轉(zhuǎn)換字符的位圖與標準位圖的相似度,再判斷相似度與預(yù)設(shè)閾值 的關(guān)系,來確定待轉(zhuǎn)換字符的字體內(nèi)碼是否正確,并在字體內(nèi)碼不正確時,可以識別待轉(zhuǎn)換 字符的實際內(nèi)碼作為轉(zhuǎn)換依據(jù),將待轉(zhuǎn)換字符轉(zhuǎn)換為第二目標字符,從而實現(xiàn)了在字符轉(zhuǎn) 換過程中自動修復(fù)內(nèi)碼錯誤,減少了鑒定錯誤文檔與修復(fù)或重建文檔所耗費的時間,達到 減輕系統(tǒng)負擔的技術(shù)功效。
[0025] 需要說明的是,上述第一目標字符和第二目標字符可以是相同類型的字符,也可 以是不同類型的字符。
[0026] 優(yōu)選地,判斷單元104用于根據(jù)所述屬性信息確定所述字符分別對應(yīng)的字體,并 獲取每種字體對應(yīng)的預(yù)設(shè)數(shù)目字符的字形位圖,以及獲取所述預(yù)設(shè)數(shù)目字符基于標準字體 的標準位圖。
[0027] 可以根據(jù)待轉(zhuǎn)換字符的字體,獲取其中若干個字符的字形位圖,再根據(jù)屬性信息 中的內(nèi)碼(即初始內(nèi)碼)獲取上述若干個字符基于標準字體(比如宋體)的標準位圖,然后每 個字符的字形位圖與其標準位圖的進行字形對比為確定字形相似度,再根據(jù)每個字符的字 形相似度,計算平均相似度,從而可以準確地判斷待轉(zhuǎn)換字符的字形相似度與預(yù)設(shè)閾值的 大小關(guān)系,進而準確地判斷待轉(zhuǎn)換字符的字體的內(nèi)碼是否正確。
[0028] 優(yōu)選地,還包括:內(nèi)碼類別判斷單元110,用于根據(jù)屬性信息判斷字符的初始內(nèi)碼 屬于預(yù)設(shè)類別;其中,在內(nèi)碼類別判斷單元110的判斷結(jié)果為是的情況下,所述判斷單元 104根據(jù)屬性信息確定字符分別對應(yīng)的字體。
[0029] 當進行字符轉(zhuǎn)換時,只有在待轉(zhuǎn)換字符的內(nèi)碼屬于特定類別的時,才進行轉(zhuǎn)換,t匕 如在將簡體字轉(zhuǎn)換為繁體字時,可以檢測待轉(zhuǎn)換字符的內(nèi)碼為簡體字內(nèi)碼,屬于漢字的內(nèi) 碼類別,則可以進行轉(zhuǎn)換,但是如果檢測到待轉(zhuǎn)換字符中存在內(nèi)碼為數(shù)字內(nèi)碼的字符時,則 不對該字符進行轉(zhuǎn)換。
[0030] 優(yōu)選地,還包括:調(diào)整度確定單元112,用于將字形位圖的高度和寬度中較大的 值,與標準位圖的高度和寬度中較大的值進行比較,得到字形調(diào)整度;字符繪制單元114, 用于根據(jù)所述第一目標字符對應(yīng)的字形調(diào)整度調(diào)整所述第一目標字符的第一字號,根據(jù)校 準后的第一字號繪制所述第一目標字符,根據(jù)所述第二目標字符對應(yīng)的字形調(diào)整度校準所 述第二目標字符的第二字號,并根據(jù)校準后的第二字號繪制所述第二目標字符,和/或根 據(jù)未轉(zhuǎn)換的字符的字號繪制未轉(zhuǎn)換的字符。
[0031] 在繪制轉(zhuǎn)換后的字符之前,如果待繪制的字符的內(nèi)碼被糾正過(即以實際內(nèi)碼替 換過),則使用字形調(diào)整度調(diào)整該字符的字號,使其在轉(zhuǎn)換后的字號可以與轉(zhuǎn)換前的字號相 匹配。
[0032] 優(yōu)選地,轉(zhuǎn)換單元106通過光學(xué)字符識別技術(shù)識別字形位圖以得到實際內(nèi)碼。
[0033] 圖2示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換方法的流程圖。
[0034] 如圖2所示,根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換方法包括:解析接收到的數(shù)據(jù),確定 所述數(shù)據(jù)所包含的至少一個字符,并獲取所述至少一個字符中每個字符對應(yīng)的屬性信息; 對于所述每個字符,根據(jù)所述屬性信息確定所述字符的字形位圖,判斷所述字形位圖是否 滿足預(yù)設(shè)條件,若滿足所述預(yù)設(shè)條件,則根據(jù)所述屬性信息確定所述字符的初始內(nèi)碼,并根 據(jù)所述初始內(nèi)碼對所述字符進行轉(zhuǎn)換,若不滿足所述預(yù)設(shè)條件,則根據(jù)所述字形位圖識別 所述字符的實際內(nèi)碼,并根據(jù)所述實際內(nèi)碼對所述字符進行轉(zhuǎn)換。
[0035] 優(yōu)選地,斷所述字形位圖是否滿足所述預(yù)設(shè)條件的過程包括:將字形位圖與標準 位圖進行比較得到字形相似度,根據(jù)每個字符的字形相似度確定平均相似度,并將所述平 均相似度與預(yù)設(shè)閾值進行比較;若平均相似度大于或等于預(yù)設(shè)閾值,則根據(jù)屬性信息確定 字符的初始內(nèi)碼,根據(jù)初始內(nèi)碼將字符轉(zhuǎn)化為第一目標字符;若平均相似度小于預(yù)設(shè)閾值, 則根據(jù)字形位圖識別字符的實際內(nèi)碼,并根據(jù)實際內(nèi)碼將字符轉(zhuǎn)化為第二目標字符。
[0036] 可以通過計算待轉(zhuǎn)換字符的位圖與標準位圖的相似度,再判斷相似度與預(yù)設(shè)閾值 的關(guān)系,來確定待轉(zhuǎn)換字符的字體內(nèi)碼是否正確,并在字體內(nèi)碼不正確時,可以識別待轉(zhuǎn)換 字符的實際內(nèi)碼作為轉(zhuǎn)換依據(jù),將待轉(zhuǎn)換字符轉(zhuǎn)換為第二目標字符,從而實現(xiàn)了在字符轉(zhuǎn) 換過程中自動修復(fù)內(nèi)碼錯誤,減少了鑒定錯誤文檔與修復(fù)或重建文檔所耗費的時間,達到 減輕系統(tǒng)負擔的技術(shù)功效。
[0037] 優(yōu)選地,根據(jù)所述屬性信息確定所述字符的字形位圖的過程包括:根據(jù)所述屬性 信息確定所述字符分別對應(yīng)的字體,并獲取每種字體對應(yīng)的預(yù)設(shè)數(shù)目字符的字形位圖,以 及獲取所述預(yù)設(shè)數(shù)目字符基于標準字體的標準位圖。
[0038] 可以根據(jù)待轉(zhuǎn)換字符的字體,獲取其中若干個字符的字形位圖,再根據(jù)屬性信息 中的內(nèi)碼(即初始內(nèi)碼)獲取上述若干個字符基于標準字體(比如宋體)的標準位圖,然后每 個字符的字形位圖與其標準位圖的進行字形對比為確定字形相似度,再根據(jù)每個字符的字 形相似度,計算平均相似度,從而可以準確地判斷待轉(zhuǎn)換字符的字形相似度與預(yù)設(shè)閾值的 大小關(guān)系,進而準確地判斷待轉(zhuǎn)換字符的字體的內(nèi)碼是否正確。
[0039] 優(yōu)選地,還包括:根據(jù)屬性信息判斷字符的初始內(nèi)碼屬于預(yù)設(shè)類別,若屬于,則對 字符進行轉(zhuǎn)換,若不屬于,則不對字符進行轉(zhuǎn)換。
[0040] 當進行字符轉(zhuǎn)換時,只有在待轉(zhuǎn)換字符的內(nèi)碼屬于特定類別的時,才進行轉(zhuǎn)換,t匕 如在將簡體字轉(zhuǎn)換為繁體字時,可以檢測待轉(zhuǎn)換字符的內(nèi)碼為簡體字內(nèi)碼,屬于漢字的內(nèi) 碼類別,則可以進行轉(zhuǎn)換,但是如果檢測到待轉(zhuǎn)換字符中存在內(nèi)碼為數(shù)字內(nèi)碼的字符時,則 不對該字符進行轉(zhuǎn)換。
[0041] 優(yōu)選地,還包括:將字形位圖的高度和寬度中較大的值,與標準位圖的高度和寬度 中較大的值進行比較,得到字形調(diào)整度;字符轉(zhuǎn)換方法還包括:根據(jù)所述第一目標字符對 應(yīng)的字形調(diào)整度調(diào)整所述第一目標字符的第一字號,根據(jù)校準后的第一字號繪制所述第一 目標字符,根據(jù)所述第二目標字符對應(yīng)的字形調(diào)整度校準所述第二目標字符的第二字號, 并根據(jù)校準后的第二字號繪制所述第二目標字符,和/或根據(jù)未轉(zhuǎn)換的字符的字號繪制未 轉(zhuǎn)換的字符。
[0042] 在繪制轉(zhuǎn)換后的字符之前,如果待繪制的字符的內(nèi)碼被糾正過(即以實際內(nèi)碼替 換過),則使用字形調(diào)整度調(diào)整該字符的字號,使其在轉(zhuǎn)換后的字號可以與轉(zhuǎn)換前的字號相 匹配。
[0043] 優(yōu)選地,還包括:通過光學(xué)字符識別技術(shù)識別字形位圖以得到實際內(nèi)碼。
[0044] 下面以將簡體字轉(zhuǎn)化為繁體字為例,來說明本發(fā)明的【具體實施方式】。
[0045] 圖3示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換系統(tǒng)的結(jié)構(gòu)圖。
[0046] 如圖3所示,根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換系統(tǒng)100可以包括:解析模塊302, 評估模塊304,修正模塊306,轉(zhuǎn)換模塊308,顯示模塊310。
[0047] 簡體到繁體內(nèi)碼轉(zhuǎn)換數(shù)據(jù)庫儲存有所有中文簡體字的內(nèi)碼及其對應(yīng)的中文繁體 字內(nèi)碼;繁體到簡體內(nèi)碼轉(zhuǎn)換數(shù)據(jù)庫儲存有所有中文繁體字的內(nèi)碼及其對應(yīng)的中文簡體字 內(nèi)碼。
[0048] 解析模塊302用于將接收的數(shù)據(jù)內(nèi)容解析為字體資源與文字內(nèi)容;
[0049] 評估模塊304用于評估各個字體,以確定需要進行糾錯處理的字體,并計算出各 字體字形度量的調(diào)整值;
[0050] 修正模塊306用于修正使用了含有錯誤內(nèi)碼的字體的文字內(nèi)容;
[0051] 轉(zhuǎn)換模塊308用于把文字內(nèi)容中的字符逐一轉(zhuǎn)換為對應(yīng)的繁/簡體字符;
[0052] 顯示模塊310用于將轉(zhuǎn)換后的文字內(nèi)容繪制到輸出設(shè)備上,如屏幕或打印機。
[0053] 圖4示出了根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換方法的具體流程圖。
[0054] 如圖4所示,根據(jù)本發(fā)明的實施例的字符轉(zhuǎn)換方法具體包括:
[0055] 步驟402,建立包含有多個簡體字內(nèi)碼及其對應(yīng)的繁體字內(nèi)碼的轉(zhuǎn)換數(shù)據(jù)庫和包 含有多個繁體字內(nèi)碼及其對應(yīng)的簡體字內(nèi)碼的轉(zhuǎn)換數(shù)據(jù)庫;
[0056] 步驟404,接收一數(shù)據(jù)內(nèi)容(比如PDF格式的文檔),并解析出其中包含的各個字體 資源以及所有文字內(nèi)容,其中文字內(nèi)容包含了其所屬的字體名稱或編號(系統(tǒng)為字體分配 的編號,用于標識字體)、字號(用于描述字符被繪制時的尺寸大小)、其對應(yīng)的字形編碼以 及對應(yīng)的字符內(nèi)碼;
[0057] 步驟406,對每種字體進行評估,從解析出的文字內(nèi)容中選取一定數(shù)量的字符樣 本,這些字符樣本都使用正被評估的字體,且它們的內(nèi)碼在中文簡體字內(nèi)碼范圍內(nèi),對這些 字符樣本分別獲取同一字號的被評估字體的對應(yīng)的字形位圖與標準字體(如宋體)的對應(yīng) 字形位圖,將兩個字形位圖進行字形對比(OCR中常見的一個處理步驟)得到字形相似度,再 將兩個位圖邊長(此邊長為位圖寬度和高度其中的較大值)相除得到字形度量調(diào)整度,最后 統(tǒng)計字符樣本的相似度平均值和字形度量調(diào)整度平均值;
[0058] 步驟408,判斷相似度平均值是否小于預(yù)先設(shè)定的閾值,若大于或等于,則進入步 驟 412 ;
[0059] 步驟410,若小于,則判定字符的當前字體內(nèi)碼錯誤,需要被修正,通過OCR功能識 別字符對應(yīng)的字形位圖,進而得到正確的字符內(nèi)碼(即實際內(nèi)碼),并替換該文字內(nèi)容中的 內(nèi)碼;
[0060] 步驟412,判斷字符內(nèi)碼是否屬于中文漢字內(nèi)碼范圍內(nèi),若不屬于,則無須轉(zhuǎn)換此 字符;
[0061] 步驟414,若屬于,則在簡體到繁體內(nèi)碼轉(zhuǎn)換數(shù)據(jù)庫中查找與此字符內(nèi)碼相對應(yīng)的 繁體字內(nèi)碼,并且將其所屬的字體名稱或編號改為某一默認繁體字體(如明流);
[0062] 步驟416,依次繪制所有文字內(nèi)容,對于轉(zhuǎn)換過的字符可通過內(nèi)碼獲取其對應(yīng)的字 形位圖進行繪制,在繪制前使用字形調(diào)整度來校準當前字符的字號;
[0063] 步驟418,對于未轉(zhuǎn)換過的字符可通過字形編碼獲取其對應(yīng)的字形位圖進行繪制。
[0064] 通過上述的技術(shù)手段,本發(fā)明減少了鑒定錯誤文檔與修復(fù)或重建文檔所耗費的時 間,達到減輕系統(tǒng)負擔的技術(shù)功效。
[0065] 圖5示出了根據(jù)本發(fā)明的實施例的判斷字形相似度的流程圖。
[0066] 如圖5所示,判斷字形相似度的方法包括:
[0067] 步驟502,獲取待轉(zhuǎn)換字符中的一個字符;
[0068] 步驟504,判斷該字符的字體是否為當前被評估的字體,若不是,則返回步驟502, 獲取下一個字符;
[0069] 步驟506,若是當前被評估的字體,則判斷該字符的內(nèi)碼是否在簡體字內(nèi)碼范圍 內(nèi),若不在,則返回步驟502,獲取下一字符;
[0070] 步驟508,若在簡體字內(nèi)碼范圍內(nèi),則獲取該字符基于當前字體的字形位圖和基于 標準字體的標準位圖;
[0071] 步驟510,比較字形位圖和標準位圖的字形相似度,并獲取字形位圖中長和寬中的 較大值,與標準位圖中長和寬的較大值相比,得到字形調(diào)整度;
[0072] 步驟512,計算若干個字符的字形相似度平均值和字形調(diào)整度平均值;
[0073] 步驟514,判斷字形相似度平均值是否小于預(yù)設(shè)閾值;
[0074] 步驟516,若小于,則判定字符的當前字體為使用錯誤內(nèi)碼的字體,記錄相應(yīng)的字 形調(diào)整度;
[0075] 步驟518,若大于,則判定字符的當前字體為使用正確內(nèi)碼的字體,記錄相應(yīng)的字 形調(diào)整度。
[0076] 圖6A和圖6B示出了根據(jù)本發(fā)明的實施例的字形轉(zhuǎn)換的示意圖。
[0077] 比如有一篇如圖6A所示的文檔,需要對其做簡體到繁體的轉(zhuǎn)換。其中第一行字符 內(nèi)容使用字體A,內(nèi)碼正確,其余字符內(nèi)容使用字體B,內(nèi)碼錯誤。
[0078] 那么首先建立包含有多個簡體字內(nèi)碼及其對應(yīng)的繁體字內(nèi)碼的轉(zhuǎn)換數(shù)據(jù)庫和包 含有多個繁體字內(nèi)碼及其對應(yīng)的簡體字內(nèi)碼的轉(zhuǎn)換數(shù)據(jù)庫,解析出文檔使用的兩種字體以 及其中所有的文字內(nèi)容,其中字體中包含了大量字形描述信息,通過字形編碼能夠獲取特 定的字形描述信息進而得到字符位圖,而文字內(nèi)容是由每個字符所屬的字體名稱或ID、其 對應(yīng)的字形編碼以及對應(yīng)的字符內(nèi)碼組成,具體的文字內(nèi)容如表1所示:

【權(quán)利要求】
1. 一種字符轉(zhuǎn)換系統(tǒng),其特征在于,包括: 解析單元,用于解析接收到的數(shù)據(jù),確定所述數(shù)據(jù)所包含的至少一個字符,并獲取所述 至少一個字符中每個字符對應(yīng)的屬性信息; 判斷單元,對于所述每個字符,根據(jù)所述屬性信息確定所述字符的字形位圖,判斷所述 字形位圖是否滿足預(yù)設(shè)條件; 轉(zhuǎn)換單元,用于在所述判斷單元判定滿足所述預(yù)設(shè)條件的情況下,根據(jù)所述屬性信息 確定所述字符的初始內(nèi)碼,并根據(jù)所述初始內(nèi)碼對所述字符進行轉(zhuǎn)換,在所述判斷單元判 定不滿足所述預(yù)設(shè)條件的情況下,根據(jù)所述字形位圖識別所述字符的實際內(nèi)碼,并根據(jù)所 述實際內(nèi)碼對所述字符進行轉(zhuǎn)換。
2. 根據(jù)權(quán)利要求1所述的字符轉(zhuǎn)換系統(tǒng),其特征在于,還包括: 相似度確定單元,用于將所述字形位圖與標準位圖進行比較得到字形相似度,根據(jù)所 述字形相似度確定平均相似度, 其中,所述判斷單元用于判斷所述平均相似度是否大于或等于預(yù)設(shè)闊值,所述轉(zhuǎn)換單 元在所述判斷單元判定所述平均相似度大于或等于所述預(yù)設(shè)闊值時,根據(jù)所述屬性信息確 定所述字符的初始內(nèi)碼,根據(jù)所述初始內(nèi)碼將所述字符轉(zhuǎn)化為第一目標字符,W及在所述 判斷單元判定所述平均相似度小于所述預(yù)設(shè)闊值時,根據(jù)所述字形位圖識別所述字符的實 際內(nèi)碼,并根據(jù)所述實際內(nèi)碼將所述字符轉(zhuǎn)化為第二目標字符。
3. 根據(jù)權(quán)利要求2所述的字符轉(zhuǎn)換系統(tǒng),其特征在于,所述判斷單元用于根據(jù)所述屬 性信息確定所述字符分別對應(yīng)的字體,并獲取每種字體對應(yīng)的預(yù)設(shè)數(shù)目字符的字形位圖, W及獲取所述預(yù)設(shè)數(shù)目字符基于標準字體的標準位圖。
4. 根據(jù)權(quán)利要求2所述的字符轉(zhuǎn)換系統(tǒng),其特征在于,還包括: 調(diào)整度確定單元,用于將所述字形位圖的高度和寬度中較大的值,與所述標準位圖的 高度和寬度中較大的值進行比較,得到字形調(diào)整度; 字符繪制單元,用于根據(jù)所述第一目標字符對應(yīng)的字形調(diào)整度調(diào)整所述第一目標字符 的第一字號,根據(jù)校準后的第一字號繪制所述第一目標字符,根據(jù)所述第二目標字符對應(yīng) 的字形調(diào)整度校準所述第二目標字符的第二字號,并根據(jù)校準后的第二字號繪制所述第二 目標字符,和/或根據(jù)所述未轉(zhuǎn)換的字符的字號繪制所述未轉(zhuǎn)換的字符。
5. 根據(jù)權(quán)利要求1至4中任一項所述的字符轉(zhuǎn)換系統(tǒng),其特征在于,所述轉(zhuǎn)換單元通過 光學(xué)字符識別技術(shù)識別所述字形位圖W得到所述實際內(nèi)碼。
6. -種字符轉(zhuǎn)換方法,其特征在于,包括: 解析接收到的數(shù)據(jù),確定所述數(shù)據(jù)所包含的至少一個字符,并獲取所述至少一個字符 中每個字符對應(yīng)的屬性信息; 對于所述每個字符,根據(jù)所述屬性信息確定所述字符的字形位圖,判斷所述字形位圖 是否滿足預(yù)設(shè)條件,若滿足所述預(yù)設(shè)條件,則根據(jù)所述屬性信息確定所述字符的初始內(nèi)碼, 并根據(jù)所述初始內(nèi)碼對所述字符進行轉(zhuǎn)換,若不滿足所述預(yù)設(shè)條件,則根據(jù)所述字形位圖 識別所述字符的實際內(nèi)碼,并根據(jù)所述實際內(nèi)碼對所述字符進行轉(zhuǎn)換。
7. 根據(jù)權(quán)利要求6所述的字符轉(zhuǎn)換方法,其特征在于,斷所述字形位圖是否滿足所述 預(yù)設(shè)條件的過程包括:將所述字形位圖與標準位圖進行比較,W得到字形相似度;根據(jù)所 述字形相似度確定平均相似度,并將所述平均相似度與預(yù)設(shè)闊值進行比較; 若所述平均相似度大于或等于所述預(yù)設(shè)闊值,則根據(jù)所述屬性信息確定所述字符的初 始內(nèi)碼,根據(jù)所述初始內(nèi)碼將所述字符轉(zhuǎn)化為第一目標字符; 若所述平均相似度小于所述預(yù)設(shè)闊值,則根據(jù)所述字形位圖識別所述字符的實際內(nèi) 碼,并根據(jù)所述實際內(nèi)碼將所述字符轉(zhuǎn)化為第二目標字符。
8. 根據(jù)權(quán)利要求7所述的字符轉(zhuǎn)換方法,其特征在于,根據(jù)所述屬性信息確定所述字 符的字形位圖的過程包括;根據(jù)所述屬性信息確定所述字符分別對應(yīng)的字體,并獲取每種 字體對應(yīng)的預(yù)設(shè)數(shù)目字符的字形位圖,W及獲取所述預(yù)設(shè)數(shù)目字符基于標準字體的標準位 圖。
9. 根據(jù)權(quán)利要求7所述的字符轉(zhuǎn)換方法,其特征在于,還包括:將所述字形位圖的高度 和寬度中較大的值,與所述標準位圖的高度和寬度中較大的值進行比較,得到字形調(diào)整度; 根據(jù)所述第一目標字符對應(yīng)的字形調(diào)整度調(diào)整所述第一目標字符的第一字號,根據(jù)校準后 的第一字號繪制所述第一目標字符,根據(jù)所述第二目標字符對應(yīng)的字形調(diào)整度校準所述第 二目標字符的第二字號,并根據(jù)校準后的第二字號繪制所述第二目標字符,和/或根據(jù)所 述未轉(zhuǎn)換的字符的字號繪制所述未轉(zhuǎn)換的字符。
10. 根據(jù)權(quán)利要求6至9中任一項所述的字符轉(zhuǎn)換方法,其特征在于,還包括;通過光 學(xué)字符識別技術(shù)識別所述字形位圖W得到所述實際內(nèi)碼。
【文檔編號】G06F17/28GK104462068SQ201310415209
【公開日】2015年3月25日 申請日期:2013年9月12日 優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】徐劍波, 孫浩鵬, 丁力, 王海濤, 耿蕾蕾 申請人:北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司, 方正信息產(chǎn)業(yè)控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
文山县| 岳西县| 平南县| 高碑店市| 西林县| 呼图壁县| 耿马| 景泰县| 马关县| 介休市| 周口市| 松滋市| 河西区| 滦南县| 六安市| 增城市| 梓潼县| 呼图壁县| 高阳县| 光泽县| 双辽市| 乐清市| 邯郸市| 利辛县| 花莲市| 广汉市| 高清| 江安县| 盘锦市| 楚雄市| 南通市| 九寨沟县| 襄汾县| 彰武县| 磴口县| 甘谷县| 望奎县| 武宁县| 赤水市| 鹤峰县| 林芝县|