本發(fā)明涉及一種用于四值圖像文檔的壓縮處理方法,屬于數(shù)字圖像處理技術(shù)領(lǐng)域。。
2、
背景技術(shù):
八十年代中期,美國國防部開始實施CALS計劃——持續(xù)采辦和全生命周期支持(CALS-Continuous Acquisition and Life-cycle Support),其關(guān)鍵技術(shù)之一是標(biāo)準(zhǔn)化的交互數(shù)字化技術(shù)文檔,它是一種黑白圖像文件格式,支持CCITT 4組的壓縮編碼(也就是二值壓縮算法),大多用于美國政府的文檔處理應(yīng)用程序,以及圖像處理應(yīng)用程序的數(shù)據(jù)信息交換。中國特色的公務(wù)文書是“白紙黑字紅頭紅印章”,有四種顏色(包括黑字上蓋章顏色),因此,其壓縮處理方法就需要創(chuàng)新,以獲得較高壓縮比,形成適合中國文檔的專用壓縮處理方法。
3、
技術(shù)實現(xiàn)要素:
(1)定義顏色設(shè)計
1)組織位圖數(shù)據(jù)串。將一個位圖,按照標(biāo)準(zhǔn)的像素(RGB)讀取方法,順序讀取并組織成一個數(shù)據(jù)串。
2)定義四種顏色。從數(shù)據(jù)串左到右,依次取一個像素BIT長度,定義為第一種顏色,標(biāo)識為“00”;再取一個像素BIT長度,相同的丟棄,不一樣的定義為第二種顏色,標(biāo)識為“01”;再取一個像素BIT長度,與前面定義的兩種顏色相同的丟棄,不一樣的定義為第三種顏色,標(biāo)識為“10”;再取一個像素BIT長度,與前面定義的三種顏色相同的丟棄,不一樣的定義為第四種顏色,標(biāo)識為“11”。
理論上講,中國電子文檔的位圖就只有四種顏色。因為種種原因,產(chǎn)生超過四種顏色的事件發(fā)生,就采用一種色值歸類算法,將位圖中的多種顏色“歸類”為四種顏色。再做位圖顏色定義。
(2)四值壓縮算法
按照一個像素BIT長度,從位圖數(shù)據(jù)串中截取一個像素顏色數(shù)據(jù)串,比較定義顏色,轉(zhuǎn)換成2個BIT數(shù)據(jù)串。順序轉(zhuǎn)換,直至元數(shù)據(jù)串全部轉(zhuǎn)換成新的數(shù)據(jù)串,說明壓縮完成。壓縮后的數(shù)據(jù)串不滿一個字節(jié),余數(shù)(BIT)補“0”,最后四個字節(jié)是原位圖長度。
(3)疊加無損壓縮算法
由于電子文檔中有大量的白色和黑色,而紅色和黑紅色非常少,因此,僅僅通過四值無損壓縮,還有很大的壓縮空間。我們經(jīng)常采用LZW字典壓縮算法,對第一次四值壓縮處理過數(shù)據(jù)串,進(jìn)行第二次壓縮處理,取得很好的壓縮效果。
本發(fā)明將上述兩次無損壓縮整合,統(tǒng)稱為“四值圖像壓縮算方法”。
(4)四值(解)壓縮方法硬件化
四值無損壓縮方法的實時性單靠軟件實現(xiàn),有響應(yīng)不及時技術(shù)問題。例如:上海市公積金結(jié)存單,一個月內(nèi)要制作并分發(fā)1200萬份;上海市財政非稅收入每年有2.5億張電子票據(jù)要驗證入庫,這些業(yè)務(wù)過程都需要對電子票據(jù)進(jìn)行四值壓縮和解壓縮處理。因此,需要將我們創(chuàng)新的四值無損(解)壓縮方法固化成專用芯片,將它們設(shè)計在專門硬件板卡上,插入計算機使用。
用硬件實現(xiàn)四值無損壓縮方法,將大大提高四值(解)壓縮方法的時效性,有益于批量電子憑證的(解)壓縮處理。這樣,電子票據(jù)處理量少的采用軟體實現(xiàn),處理量多的采用硬體實現(xiàn)。
4、附圖說明
無。
5、具體實施方式
無損壓縮與無損解壓縮是一個互為逆轉(zhuǎn)換過程。本處只描述壓縮過程。而四值壓縮過程只是電子文本文件轉(zhuǎn)換成電子文檔過程中的一個環(huán)節(jié),以下描述具體實施過程:
(1)將電子文本文件(WORD、EXCEL、PDF等)都轉(zhuǎn)換成TIFF格式的圖像文件。
(2)從TIFF格式文檔中取出位圖數(shù)據(jù)串。
(3)根據(jù)位圖數(shù)據(jù)串定義四種顏色。
(4)采用四值壓縮算法,將TIFF格式文檔位圖數(shù)據(jù)串壓縮成一個新的數(shù)據(jù)串。
(5)采用LZW無損壓縮算法,對新數(shù)據(jù)串進(jìn)行壓縮。
(6)將壓縮后的數(shù)據(jù)串裝回TIFF圖像文件。
本發(fā)明用軟件更新用戶計算機操作系統(tǒng)的配置文件,同時,將(解)壓縮算法函數(shù)加載在系統(tǒng)自動調(diào)用函數(shù)目錄下。這樣,操作系統(tǒng)就能夠自動壓縮和解壓縮TIFF格式圖像文件,讓用戶沒有“感覺”。