專利名稱:一種基于圖像識(shí)別的文件壓縮及解壓縮處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文件信息處理技術(shù)領(lǐng)域,特別是涉及一種基于圖像識(shí) 別的文件壓縮及解壓縮處理方法。
背景技術(shù):
壓縮文件的基本原理是査找文件內(nèi)的重復(fù)字節(jié),并建立一個(gè)相同 字節(jié)的"詞典"文件,并用一個(gè)代碼表示,比如在文件里有幾處有一 個(gè)相同的詞"中華人民共和國(guó)"用 一個(gè)代碼表示并寫(xiě)入"詞典"文件, 這樣就可以達(dá)到縮小文件的目的。
通過(guò)合理的數(shù)學(xué)計(jì)算公式,文件的體積都能夠被大大壓縮以達(dá)到 "數(shù)據(jù)無(wú)損稠密"的效果??偟膩?lái)說(shuō),壓縮可以分為有損和無(wú)損壓縮 兩種。有損壓縮廣泛應(yīng)用于動(dòng)畫(huà)、聲音和圖像文件中,典型的代表就
是影碟文件格式mpeg、音樂(lè)文件格式mp3和圖像文件格式j(luò)pg。但 是更多情況下壓縮數(shù)據(jù)必須準(zhǔn)確無(wú)誤,人們便設(shè)計(jì)出了無(wú)損壓縮格 式,比如常見(jiàn)的zip、 rar等。
壓縮軟件(compressionsoftware)自然就是利用壓縮原理壓縮數(shù) 據(jù)的工具,壓縮后所生成的文件稱為壓縮包(archive),體積只有原 來(lái)的幾分之一甚至更小。當(dāng)然,壓縮包己經(jīng)是另一種文件格式了,如 果你想使用其中的數(shù)據(jù),首先得用壓縮軟件把數(shù)據(jù)還原,這個(gè)過(guò)程稱作解壓縮。常見(jiàn)的壓縮軟件有winzip、 winrar等。
由于解壓縮是壓縮的逆向過(guò)程, 一般的解壓縮過(guò)程也是一次性將 文件讀入內(nèi)存,并通過(guò)逆向的算法過(guò)程,將文件整個(gè)進(jìn)行還原。為了 節(jié)省空間, 一般文檔采用壓縮后的存儲(chǔ)方式,當(dāng)文檔內(nèi)容很多,特別 是存在大量圖片的時(shí)候, 一次性的解壓縮過(guò)程將需要占用很大的時(shí) 間,造成了瀏覽上的不便。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有文件壓縮及解壓縮處理上的不足,提 出 一種基于圖像識(shí)別的文件壓縮及解壓縮處理方法。
為了實(shí)現(xiàn)發(fā)明目的,采用的技術(shù)方案如下
一種基于圖像識(shí)別的文件壓縮處理方法,包括了以下的步驟
1) 將文件進(jìn)行內(nèi)容識(shí)別,并劃分為文本區(qū)和圖片區(qū);
2) 圖片以標(biāo)簽的形式存儲(chǔ)在文本區(qū),其圖像像素信息存儲(chǔ)在對(duì)應(yīng)的 圖片區(qū);
3) 文本區(qū)和圖片區(qū)進(jìn)行壓縮,文本區(qū)采用無(wú)損壓縮的方法,圖片區(qū) 可采用有損壓縮的方法,然后把將壓縮后的文本區(qū)和圖片區(qū)合并成新 的文件。
步驟1)和2)所述的文件內(nèi)容識(shí)別,通過(guò)解析文件的數(shù)據(jù),如 果是文本信息,則將文件中的文本信息存儲(chǔ)到文本區(qū),如果解析的是 圖片信息,則生成一個(gè)圖片的文本標(biāo)簽,并將該圖片標(biāo)簽存儲(chǔ)到文本 區(qū),此外,生成該圖片的圖像像素信息,與圖片標(biāo)簽相對(duì)應(yīng),保存到文件的圖片區(qū)。
步驟3)所述的壓縮方法中,文本區(qū)的內(nèi)容,由于文本信息的重 要性,采用的是無(wú)損壓縮的方法,由于在壓縮圖片時(shí),采用無(wú)損壓縮 一般壓縮效果不明顯,因此可以將圖片進(jìn)行轉(zhuǎn)化,如將BMP的圖片 轉(zhuǎn)化成JPG格式的圖片,然后再進(jìn)行壓縮,增大壓縮量。
一種基于圖像識(shí)別的文件解壓縮處理方法,包括以下步驟
1) 對(duì)文本區(qū)進(jìn)行解壓縮;
2) 解析瀏覽信息內(nèi)容;
3) 如果信息內(nèi)容包含有圖片標(biāo)簽,則進(jìn)行下一步,否則返回步驟 2);
4) 找到該圖片標(biāo)簽對(duì)應(yīng)圖片區(qū)的數(shù)據(jù)塊;
5) 解壓縮壓縮后的圖片信息;
6) 返回圖片的詳細(xì)信息并返回步驟2)。 本發(fā)明的有益效果是該發(fā)明不僅可以有效降低文檔的存儲(chǔ)空
間,并且在解壓縮過(guò)程中采用了分步解壓縮的過(guò)程,用戶在需要査看 某些圖片時(shí),才對(duì)該圖片進(jìn)行解壓縮。
圖l為文件的存儲(chǔ)結(jié)構(gòu)劃分圖; 圖2為文件的壓縮過(guò)程的流程圖; 圖3為瀏覽文件的解壓縮的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步闡述
如圖l所示,本發(fā)明中的文件的存儲(chǔ)結(jié)構(gòu)主要有文件頭,文本區(qū) 和圖片區(qū)。
文件頭包含了本次壓縮方法的版本號(hào),文本編碼類型的信息,便 于對(duì)文件進(jìn)行識(shí)別。
文本區(qū)包含的是文件的正文信息。其中正文部分是文本信息,則 將其放入文本區(qū),否則,如果正文部分含有圖片,則創(chuàng)建一個(gè)圖片標(biāo) 簽,如〈IMG1 , offset = 0x0000000O,將圖片標(biāo)簽添加到相應(yīng)的文本區(qū)。 同時(shí)在圖片區(qū)創(chuàng)建相應(yīng)的圖片塊,將圖片的像素信息保存在圖片區(qū)。
用戶在瀏覽文本區(qū)中的圖片標(biāo)簽時(shí),可以通過(guò)標(biāo)簽中的位移 offset的位置,到圖片區(qū)的對(duì)應(yīng)偏移位置提取相關(guān)的像素信息。并且, 圖片區(qū)中的每一張圖片對(duì)應(yīng)的信息塊都是按照?qǐng)D片的格式采用不同 的壓縮算法進(jìn)行了壓縮。
本發(fā)明的壓縮過(guò)程如圖2所示,首先通過(guò)解析文件中的數(shù)據(jù)信 息,并將信息劃分成文本區(qū)和圖片區(qū)。
圖片區(qū)中, 一張圖片對(duì)應(yīng)圖片區(qū)的一段信息塊。信息塊內(nèi)根據(jù)圖 片的格式采用不同的壓縮算法進(jìn)行了壓縮,并且把壓縮后形成的偏移 位移反饋給所對(duì)應(yīng)的文本區(qū)的圖片標(biāo)簽,更新文本區(qū)中的圖片標(biāo)簽的 數(shù)據(jù)。
在圖片區(qū)的壓縮過(guò)程中,如果對(duì)圖片的顯示格式不作具體的要求,還可以采用轉(zhuǎn)化圖片格式的方法進(jìn)行一步壓縮。例如,同一張圖
片采用BMP格式的存儲(chǔ)量要遠(yuǎn)遠(yuǎn)高于采用JPG格式的存儲(chǔ)量。因此, 我們可以首先將BMP格式轉(zhuǎn)化成JPG格式,并用JPG的格式進(jìn)行進(jìn) 一步的壓縮,提高文件的壓縮效果。
在圖片區(qū)內(nèi)所有的圖片都完成了壓縮后,我們對(duì)文本區(qū)的文本信 息進(jìn)行壓縮,由于文本信息是文件的正文,為體現(xiàn)數(shù)據(jù)的準(zhǔn)確性,我 們?cè)趬嚎s文本區(qū)時(shí)采用了無(wú)損壓縮的方式。
最后我們將文件頭和分別壓縮后的文本區(qū)、圖片區(qū)進(jìn)行合成形成 新的壓縮文件。
本發(fā)明的解壓縮過(guò)程如圖3所示,文件首先對(duì)文本區(qū)進(jìn)行解壓 縮,由于用戶瀏覽的信息一般為文本區(qū)中的部分內(nèi)容,因此,可以對(duì) 瀏覽內(nèi)容進(jìn)行解析,如果瀏覽內(nèi)容不包含圖片標(biāo)簽,則無(wú)操作返回。 否則如果瀏覽內(nèi)容含有圖片標(biāo)簽,則根據(jù)圖片標(biāo)簽的offset屬性,進(jìn) 行圖片區(qū)提取對(duì)應(yīng)的圖片信息塊。
根據(jù)圖片信息塊中的數(shù)據(jù)信息進(jìn)行解壓縮過(guò)程,并把其圖片的像 素信息反饋到圖片標(biāo)簽,并代替瀏覽標(biāo)簽在屏幕上顯示出來(lái)。
權(quán)利要求
1、一種基于圖像識(shí)別的文件壓縮及解壓縮處理方法,其特征在于,文件壓縮處理方法主要步驟包括1)將文件進(jìn)行內(nèi)容識(shí)別,并劃分為文本區(qū)和圖片區(qū);2)圖片以標(biāo)簽的形式存儲(chǔ)在文本區(qū),其圖像像素信息存儲(chǔ)在對(duì)應(yīng)的圖片區(qū);3)文本區(qū)和圖片區(qū)進(jìn)行壓縮,文本區(qū)采用無(wú)損壓縮的方法,圖片區(qū)可采用有損壓縮的方法,然后把將壓縮后的文本區(qū)和圖片區(qū)合并成新的文件;文件解壓縮處理方法主要步驟包括1)對(duì)文本區(qū)進(jìn)行解壓縮;2)解析瀏覽信息內(nèi)容;3)如果信息內(nèi)容包含有圖片標(biāo)簽,則進(jìn)行下一步,否則返回步驟2);4)找到該圖片標(biāo)簽對(duì)應(yīng)圖片區(qū)的數(shù)據(jù)塊;5)解壓縮壓縮后的圖片信息;6)返回圖片的詳細(xì)信息并返回步驟2)。
2、根據(jù)權(quán)利要求1所述的一種基于圖像識(shí)別的文件壓縮及解壓縮處 理方法,其特征在于,用戶在瀏覽文本區(qū)中的圖片標(biāo)簽時(shí),通過(guò)標(biāo)簽 中的位移offset的位置, 圖片區(qū)的對(duì)應(yīng)偏移位置提取相關(guān)的像素信 息,圖片區(qū)中的每一張圖片對(duì)應(yīng)的信息塊都是按照?qǐng)D片的格式采用不 同的壓縮方法進(jìn)行壓縮。
全文摘要
本發(fā)明公開(kāi)了一種基于圖像識(shí)別的文件壓縮及解壓縮處理方法,它定義一種文件的存儲(chǔ)結(jié)構(gòu),包括了文本區(qū)和圖片區(qū)。文檔中的圖片以圖片標(biāo)簽的形式存儲(chǔ)在文本區(qū),并以像素信息的形式存儲(chǔ)在圖片區(qū)。壓縮時(shí),文本區(qū)采用無(wú)損壓縮,圖片區(qū)根據(jù)具體格式采用相應(yīng)的最佳壓縮方案。在瀏覽的時(shí)候,首先對(duì)文本區(qū)進(jìn)行解壓縮,如果瀏覽內(nèi)容包含圖片標(biāo)簽,才在圖片區(qū)提取相應(yīng)的圖片信息塊并解壓縮后反饋到屏幕中。本方法不僅可以有效的減少文件的存儲(chǔ)空間,還提高了文件的打開(kāi)速度,降低了內(nèi)存的消耗空間。
文檔編號(hào)G06T9/00GK101630415SQ20091004217
公開(kāi)日2010年1月20日 申請(qǐng)日期2009年8月26日 優(yōu)先權(quán)日2009年8月26日
發(fā)明者允 文, 羅笑南, 曉 郝 申請(qǐng)人:中山大學(xué)