一種基于硬件的可配置的數(shù)據(jù)壓縮系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)壓縮技術(shù),尤其涉及一種基于硬件的可配置的數(shù)據(jù)壓縮系統(tǒng)。
【背景技術(shù)】
[0002]在網(wǎng)絡(luò)通信技術(shù)高速發(fā)展的時代,數(shù)據(jù)無損壓縮技術(shù)逐漸體現(xiàn)出其獨特的重要性,使其廣泛應(yīng)用在云存儲、互聯(lián)網(wǎng)通信中,如壓縮文件系統(tǒng)、數(shù)據(jù)備份、網(wǎng)頁前端服務(wù)等。數(shù)據(jù)無損壓縮技術(shù)能夠在不影響數(shù)據(jù)重構(gòu)質(zhì)量的前提下降低數(shù)據(jù)冗余度、減少信息在存儲中占用的資源,客觀上提高數(shù)據(jù)傳輸效率。
[0003]無損數(shù)據(jù)壓縮技術(shù)主要分為兩類,分別是基于字典的無損數(shù)據(jù)壓縮技術(shù)以及基于統(tǒng)計的無損數(shù)據(jù)壓縮技術(shù);基于字典的無損數(shù)據(jù)壓縮的代表為LZ77壓縮算法,因為該算法不僅有著適中的壓縮率同時與基于統(tǒng)計的無損壓縮算法相比有著更快的壓縮速率;另外LZ77算法作為基于字典的無損壓縮算法的基礎(chǔ),有著不錯的靈活性,如經(jīng)過LZ77壓縮算法處理過的數(shù)據(jù),再次經(jīng)過Huffman編碼可以實現(xiàn)Gzip壓縮,經(jīng)過區(qū)間編碼可以得到LZMA壓縮,經(jīng)過特定格式輸出可以實現(xiàn)LZO壓縮等等,而且這些壓縮算法性能的好壞很大程度上收到LZ77壓縮效果的影響。
[0004]當前,數(shù)據(jù)壓縮一般通過軟件算法的實現(xiàn)方式進行數(shù)據(jù)的壓縮處理,但是軟件算法進行壓縮處理的效率較低,而且會占用大量的CPU資源,那么在處理大量數(shù)據(jù)時,軟件算法的劣勢將更加明顯。
[0005]為了減少信息存儲所消耗的資源以及處理壓縮時所消耗的CPU資源,提高數(shù)據(jù)傳輸效率,使用硬件電路來實現(xiàn)數(shù)據(jù)的壓縮有著極大的優(yōu)勢。一方面硬件電路在工作時有著高度并行性,能夠極大的提升壓縮速率;另一方面能夠大量減少CPU資源的消耗,只需要在傳輸數(shù)據(jù)時使用占用CPU資源;加之,通過配置相應(yīng)的參數(shù)來調(diào)整壓縮率和壓縮速率之間的平衡點,同軟件實現(xiàn)相比壓縮性能有著極大的提升。
[0006]綜上所述,實現(xiàn)一種基于硬件的可配置的數(shù)據(jù)壓縮系統(tǒng)在提高數(shù)據(jù)傳輸效率,減少存儲資源、CPU資源消耗上面有著廣泛的應(yīng)用前景。并且該系統(tǒng)今后可以和Huffman編碼系統(tǒng),區(qū)間編碼系統(tǒng)等級聯(lián),作為專用的硬件壓縮系統(tǒng),實現(xiàn)硬件與軟件的兼容。
【發(fā)明內(nèi)容】
[0007]本發(fā)明要解決的一個技術(shù)問題是提供一種基于硬件的可配置的數(shù)據(jù)壓縮系統(tǒng),能夠有效地解決執(zhí)行無損數(shù)據(jù)壓縮時的效率問題,提高壓縮性能。
[0008]為了實現(xiàn)上述目的,本發(fā)明提供一種基于硬件的可配置的數(shù)據(jù)壓縮系統(tǒng),包括:
[0009]字典維護模塊,包括若干個Ram,構(gòu)成字典以及字典緩沖區(qū);所述字典緩沖區(qū)用于存放待壓縮文件的數(shù)據(jù)塊;
[0010]數(shù)據(jù)請求模塊,向待壓縮文件請求新的待壓縮文件的數(shù)據(jù)塊并將新的數(shù)據(jù)塊寫入字典維護模塊的字典緩沖區(qū)中;
[0011 ] 壓縮配置模塊,根據(jù)不同的壓縮級別配置壓縮偏好;能夠根據(jù)不同的壓縮偏好選擇相應(yīng)的Hash(哈希)函數(shù),調(diào)整壓縮率與壓縮速率之間的平衡點;
[0012]Hash計算模塊,從字典維護模塊的字典緩沖區(qū)中獲取待壓縮文件的數(shù)據(jù)塊,將待壓縮文件的數(shù)據(jù)塊每3個字符的字符串作為當前字符串;根據(jù)壓縮配置模塊配置的壓縮偏好計算當前字符串對應(yīng)的Hash值并產(chǎn)生該Hash值在字典維護模塊的字典緩沖區(qū)中的地址;并根據(jù)該Hash值判斷字典維護模塊的字典中是否存在與之具有相同Hash值的匹配串并輸出相應(yīng)的匹配結(jié)果;
[0013]匹配計算模塊,接收Hash計算模塊輸出的匹配結(jié)果;若存在匹配字符串,從字典維護模塊的字典緩沖區(qū)中獲取相互匹配的當前字符串與匹配字符串并進行匹配比較;若匹配,則發(fā)送匹配信息給數(shù)據(jù)輸出模塊;若未匹配,則發(fā)送未匹配字符串給數(shù)據(jù)輸出模塊;若不存在未匹配字符串,從字典維護模塊的字典緩沖區(qū)中獲取未匹配字符串并發(fā)送給數(shù)據(jù)輸出模塊;在輸出字符串時,可以同時執(zhí)行匹配計算工作,兩項工作可以并行執(zhí)行。
[0014]數(shù)據(jù)輸出模塊,接收匹配計算模塊的匹配信息以及未匹配字符串數(shù)據(jù)并輸出到指定的緩沖FIFO中。
[0015]所述的字典維護模塊進一步包括:
[0016]Ram狀態(tài)檢測模塊,用于檢測每個Ram的使用狀態(tài);
[0017]字典緩沖模塊,采用4個16KB的Block Ram構(gòu)成字典緩沖區(qū),用于存放待壓縮文件的數(shù)據(jù);當LZ77的字典窗口不再占用使用過的Ram時,向該Ram寫入新數(shù)據(jù),保證文件連續(xù)地輸入系統(tǒng);
[0018]讀寫仲裁模塊,規(guī)定匹配計算模塊在讀取數(shù)據(jù)時match讀信號、literal讀信號、hash讀信號的優(yōu)先級,并按照讀寫優(yōu)先級順序發(fā)送對應(yīng)的讀寫信號。
[0019]所述字典緩沖模塊最多占用3個Ram,最少占用I個Ram。所以能夠保證剩余一個Ram在獲取新的數(shù)據(jù),這樣使得文件連續(xù)讀入字典緩沖區(qū)內(nèi),有利于壓縮率的提升,避免了文件切塊這種方法在重新構(gòu)建字典時壓縮率的損失。
[0020]所述的數(shù)據(jù)請求模塊進一步包括:
[0021]請求信號控制模塊,根據(jù)每個Ram的使用狀態(tài),為已使用過的Ram發(fā)送獲得新數(shù)據(jù)的請求信號,并將新數(shù)據(jù)塊寫入該Ram中;在當前數(shù)據(jù)塊處理的同時,通過不斷為已使用過的Ram請求新的數(shù)據(jù)塊,避免了等待新數(shù)據(jù)塊所帶來的時間消耗;
[0022]數(shù)據(jù)塊計數(shù)模塊,用于計算已輸入的數(shù)據(jù)塊個數(shù)并判斷最后一個數(shù)據(jù)塊存放于哪個Ram當中。
[0023]所述的壓縮配置模塊配置的壓縮偏好為5種:壓縮率最優(yōu)、壓縮率較好、默認、速率較好、速率最優(yōu)。不同的壓縮級別對應(yīng)不同的參數(shù)配置,不同的參數(shù)配置又會影響壓縮處理時對壓縮率和壓縮速率的偏好。
[0024]所述的Hash計算模塊進一步包括:hash讀數(shù)據(jù)模塊、地址產(chǎn)生模塊、hash模塊以及hash鏈更新模塊;
[0025]hash讀數(shù)據(jù)模塊,從字典維護模塊的字典緩沖區(qū)中獲取新的數(shù)據(jù),以每3個字符一組作為當前字符串輸出給hash模塊計算其hash值;
[0026]地址產(chǎn)生模塊,產(chǎn)生每組當前字符串輸出時對應(yīng)的字典內(nèi)的地址;
[0027]hash模塊,接收hash讀數(shù)據(jù)模塊讀取的當前字符串并計算每組當前字符串的hash 值;
[0028]hash鏈更新模塊,以當前字符串的hash值為地址從字典維護模塊的字典中的head ram中獲取數(shù)據(jù),若head ram中有數(shù)據(jù)則說明字典中存在匹配串并輸出匹配結(jié)果。
[0029]所述hash模塊計算每組字符的Hash值根據(jù)不同的壓縮偏好選擇雙hash函數(shù)或者單hash函數(shù)進行計算,產(chǎn)生兩個15位的hash值或者一個15位的hash值。Hash計算模塊提供的雙hash函數(shù)可以極大的消除偽匹配信息。
[0030]所述的匹配計算模塊進一步包括:
[0031]match讀數(shù)據(jù)模塊,用于根據(jù)Hash計算模塊中相互匹配的當前串地址和匹配串地址發(fā)送讀信號,從字典維護模塊的字典緩沖區(qū)中獲取當前字符串以及匹配字符串;
[0032]match接收數(shù)據(jù)模塊,用于接收match讀數(shù)據(jù)模塊獲取的當前字符串或者匹配字符串數(shù)據(jù),并根據(jù)起始地址進行微調(diào),使得當前字符串和匹配字符串數(shù)據(jù)頭對齊;
[0033]匹配模塊,用于計算當前字符串和匹配字符串的匹配長度和匹配距離并發(fā)送;匹配信息發(fā)送模塊,用于存儲匹配模塊計算出的最大匹配長度和其對應(yīng)的匹配距離,待所有匹配工作完成后發(fā)送匹配信息;
[0034]literal讀數(shù)據(jù)模塊,用于根據(jù)Hash計算模塊中產(chǎn)生的未匹配字符串的起始地址和結(jié)束地址發(fā)送讀信號,從字典緩沖區(qū)中獲取待輸出的未匹配字符串;
[0035]literal發(fā)送模塊,用于發(fā)送literal讀數(shù)據(jù)模塊獲取的未匹配的字符串以及所有數(shù)據(jù)處理完成后的EOB標志位。
[0036]本發(fā)明提供一種基于硬件的可配置的數(shù)據(jù)壓縮系統(tǒng)與現(xiàn)有技術(shù)相比具有如下優(yōu)占.V.
[0037]1、本發(fā)明使用可編程邏輯器件(FPGA)來實現(xiàn)數(shù)據(jù)壓縮功能,附加相關(guān)與PC機通信的模塊來實現(xiàn)該數(shù)據(jù)壓縮系統(tǒng),通過采用LZ77無損壓縮算法,并根據(jù)該算法設(shè)計合理的硬件電路結(jié)構(gòu),從而有