一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法

文檔序號(hào)：6546308閱讀：219來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法
【專利摘要】本發(fā)明提出一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，一方面針對(duì)數(shù)據(jù)的存儲(chǔ)，通過冗余檢測(cè)、削減重復(fù)的數(shù)據(jù)，利用有限的空間資源存儲(chǔ)和管理更多的數(shù)據(jù)；另一方面，本發(fā)明的系統(tǒng)模型通過調(diào)度和重排去重后的數(shù)據(jù)塊的分布，將常用的文件數(shù)據(jù)塊預(yù)取到去重包中數(shù)據(jù)片段的前端，將隨機(jī)離散分布的數(shù)據(jù)塊和相應(yīng)的指紋數(shù)據(jù)聚合在去重包中存儲(chǔ)，以減少文件數(shù)據(jù)恢復(fù)過程中磁盤上的尋道時(shí)間，從而提高在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建性能，提高系統(tǒng)響應(yīng)時(shí)間和數(shù)據(jù)恢復(fù)效率。
【專利說明】一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及了一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，更具體的說涉及了基于文件的訪問頻度進(jìn)行去重包中數(shù)據(jù)塊重排的技術(shù)和去重包中數(shù)據(jù)塊的尋址、恢復(fù)與重構(gòu)的技術(shù)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)和各種平臺(tái)系統(tǒng)的不斷發(fā)展，現(xiàn)代社會(huì)成為了數(shù)據(jù)的海洋。每天溝通人們生活的各種身份信息、網(wǎng)站交互產(chǎn)生的瀏覽信息、各種電子商務(wù)的訂單數(shù)據(jù)、學(xué)習(xí)研究和辦公的文檔數(shù)據(jù)等等，每個(gè)電腦用戶既是數(shù)據(jù)的生產(chǎn)者，也是數(shù)據(jù)的消費(fèi)者。信息處理系統(tǒng)每天需要面對(duì)和處理龐大的數(shù)據(jù)源。在海量數(shù)據(jù)的面前，如何有效存儲(chǔ)和管理，挖掘數(shù)據(jù)中有用的信息成為了現(xiàn)代化智能技術(shù)的熱點(diǎn)。數(shù)據(jù)的有效存儲(chǔ)歸根結(jié)底就是利用同樣的空間資源存儲(chǔ)更多的數(shù)據(jù)量。其中涉及的操作可以很多，但作用于數(shù)據(jù)本身的方法就是數(shù)據(jù)壓縮和冗余數(shù)據(jù)刪除。針對(duì)數(shù)據(jù)本身的去重和壓縮技術(shù)是最直接，也是目前運(yùn)用最廣的研究領(lǐng)域。
[0003]重復(fù)數(shù)據(jù)刪除技術(shù)在工業(yè)界和學(xué)術(shù)界有著多年的應(yīng)用和研究基礎(chǔ)。從該技術(shù)的發(fā)展來看，模型框架不變的都是進(jìn)行數(shù)據(jù)的比對(duì)，消除重復(fù)的數(shù)據(jù)片段，建立元數(shù)據(jù)維護(hù)，其中去重率和時(shí)間效率是該技術(shù)關(guān)注的重點(diǎn)。從初始文件到去重后數(shù)據(jù)的生成，再到數(shù)據(jù)還原為初始文件，關(guān)注的重點(diǎn)不同，重復(fù)數(shù)據(jù)刪除技術(shù)在其本身存儲(chǔ)運(yùn)用層面以外，得到不同程度的擴(kuò)充。
[0004]縱觀數(shù)據(jù)壓縮和數(shù)據(jù)去重，無論哪種處理手段，需要進(jìn)行數(shù)據(jù)的處理、信息的挖掘離不開的都是將存儲(chǔ)處理后的文件數(shù)據(jù)進(jìn)行恢復(fù)。除此之外，存儲(chǔ)系統(tǒng)只是用于大數(shù)據(jù)的保存，客戶端需要請(qǐng)求訪問，或者系統(tǒng)服務(wù)器需要進(jìn)行數(shù)據(jù)驗(yàn)證和比較時(shí)，都要將系統(tǒng)的文件數(shù)據(jù)從存儲(chǔ)介質(zhì)中恢復(fù)出來。這樣一來，文件恢復(fù)成為了數(shù)據(jù)處理的另一關(guān)鍵技術(shù)點(diǎn)。有效的文件恢復(fù)技術(shù)能快速地響應(yīng)系統(tǒng)的請(qǐng)求，提高系統(tǒng)計(jì)算和處理大數(shù)據(jù)的能力。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是實(shí)現(xiàn)一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，處理的對(duì)象是經(jīng)過重復(fù)數(shù)據(jù)刪除之后的數(shù)據(jù)包，去重后的數(shù)據(jù)在去重包中的分布直接影響系統(tǒng)響應(yīng)客戶端的應(yīng)答時(shí)間，通過優(yōu)化存儲(chǔ)結(jié)構(gòu)，系統(tǒng)可以更實(shí)時(shí)地反饋用戶的訪問請(qǐng)求。
[0006]本發(fā)明的目的通過以下的技術(shù)方案實(shí)現(xiàn):
[0007]—種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，包括下述步驟:
[0008](I)、在線重復(fù)數(shù)據(jù)刪除系統(tǒng)對(duì)初始文件進(jìn)行數(shù)據(jù)去重之后，生成去重包，去重系統(tǒng)響應(yīng)用戶對(duì)基于文件級(jí)別的數(shù)據(jù)的訪問請(qǐng)求，通過文件恢復(fù)實(shí)現(xiàn)用戶的存儲(chǔ)訪問，在線重復(fù)數(shù)據(jù)刪除系統(tǒng)會(huì)在一段預(yù)設(shè)定長度的時(shí)間內(nèi)統(tǒng)計(jì)去重包中各個(gè)文件的訪問次數(shù)，將訪問頻度高于一定值的文件歸類為常用文件集，訪問頻度低于該臨界值的文件歸為非常用文件集，然后執(zhí)行步驟(2)操作；[0009](2)、暫停重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)訪問請(qǐng)求，進(jìn)行基于文件級(jí)別的數(shù)據(jù)塊重排，常用文件過濾器根據(jù)步驟(1)得到的常用文件集對(duì)去重包中的文件實(shí)體進(jìn)行分流處理；處理過程是:按照去重包中初始文件的排列順序，逐個(gè)讀取去重包中的文件實(shí)體，比較文件實(shí)體記錄對(duì)應(yīng)文件的元數(shù)據(jù)信息段的文件名和文件類型，如果該文件名存在于步驟(1)生成的常用文件集中，則執(zhí)行步驟(3)操作；
[0010](3)、讀取文件實(shí)體的唯一數(shù)據(jù)塊編號(hào)區(qū)，根據(jù)數(shù)據(jù)塊映射規(guī)則，找到每個(gè)對(duì)應(yīng)編號(hào)的唯一數(shù)據(jù)塊在去重包中的存放位置，將對(duì)應(yīng)的唯一數(shù)據(jù)塊寫入到將要恢復(fù)的文件中，并且把文件實(shí)體中的最后一個(gè)唯一數(shù)據(jù)塊也寫入到要恢復(fù)的文件中，如果步驟(2)全部完成之后，則執(zhí)行步驟(4)，否則繼續(xù)返回執(zhí)行步驟(2);
[0011](4)、將常用集中的文件重新進(jìn)行數(shù)據(jù)塊切分和指紋計(jì)算，并生成新的邏輯數(shù)據(jù)塊單元和文件描述元信息，將新生成的數(shù)據(jù)信息寫入到新的去重包中，然后執(zhí)行步驟(5)操作；
[0012](5)、將舊的去重包中的非常用文件集對(duì)應(yīng)的唯一數(shù)據(jù)塊進(jìn)行基于文件級(jí)別的數(shù)據(jù)恢復(fù)，將非常用文件集中文件追加到新的去重包中，放到新的去重包中數(shù)據(jù)片段的后端，完成后刪除舊的去重包；
[0013](6)、新生成的去重包中的數(shù)據(jù)分布是基于對(duì)常用文件所包含的數(shù)據(jù)塊和文件元數(shù)據(jù)的預(yù)取和集中，重復(fù)數(shù)據(jù)刪除系統(tǒng)恢復(fù)響應(yīng)用戶對(duì)數(shù)據(jù)訪問的請(qǐng)求。
[0014]優(yōu)選的，步驟(2)中，進(jìn)行基于文件重排數(shù)據(jù)塊的前提步驟是找到將單個(gè)文件所包含的全部數(shù)據(jù)塊,將對(duì)應(yīng)的數(shù)據(jù)塊作統(tǒng)一的調(diào)度,查找文件相應(yīng)的數(shù)據(jù)塊之前需要對(duì)去重包中的文件進(jìn)行恢復(fù)，文件恢復(fù)是一個(gè)讀取數(shù)據(jù)塊和寫入文件的過程，通過讀取去重包中各個(gè)文件實(shí)體包含的文件元數(shù)據(jù)信息和數(shù)據(jù)塊信息，恢復(fù)初始的文件數(shù)據(jù)；基于文件級(jí)別的數(shù)據(jù)塊重排，不但將唯一數(shù)據(jù)塊集中預(yù)取到去重包中的數(shù)據(jù)片段的前端，而且數(shù)據(jù)塊指紋和邏輯數(shù)據(jù)塊等相關(guān)的描述信息也一并預(yù)取到相應(yīng)數(shù)據(jù)片段的前端。
[0015]優(yōu)選的，步驟(2)中，所述常用文件過濾器用于實(shí)現(xiàn)文件數(shù)據(jù)塊分布管理，通過改變文件進(jìn)入重復(fù)數(shù)據(jù)刪除系統(tǒng)的順序，實(shí)現(xiàn)基于常用文件集的數(shù)據(jù)塊重排，文件過濾器首先將去重包中的文件按系統(tǒng)文件的順序進(jìn)行掃描，當(dāng)掃描到的文件在常用文件集時(shí)，就直接進(jìn)行文件所對(duì)應(yīng)的數(shù)據(jù)塊、指紋、邏輯數(shù)據(jù)和文件實(shí)體的檢索，檢索過程包括數(shù)據(jù)塊的尋址和恢復(fù)，以及新去重包中數(shù)據(jù)區(qū)的寫入，所有文件都掃描完畢之后，剩下的不在常用文件集中的文件就按原有順序排列在去重包中常用文件集的數(shù)據(jù)片段之后。
[0016]優(yōu)選的，步驟(3)中，數(shù)據(jù)塊在去重包中的存儲(chǔ)格式是一個(gè)副本，多個(gè)索引，數(shù)據(jù)塊的尋址單位是字節(jié)，去重包中唯一數(shù)據(jù)塊的物理信息記錄在對(duì)應(yīng)的邏輯數(shù)據(jù)塊中，每個(gè)邏輯數(shù)據(jù)塊的大小相同，唯一數(shù)據(jù)塊的編號(hào)從O開始，依次遞增。
[0017]優(yōu)選的，數(shù)據(jù)塊尋址包括兩個(gè)映射過程，首先，根據(jù)文件實(shí)體中數(shù)據(jù)塊的編號(hào)找到對(duì)應(yīng)的邏輯數(shù)據(jù)塊，因?yàn)槊總€(gè)邏輯塊的大小都相同，尋址的運(yùn)算過程是:數(shù)據(jù)塊的編號(hào)乘以邏輯塊的大小，然后就得出對(duì)應(yīng)邏輯數(shù)據(jù)塊的物理地址；然后，第二次尋址是根據(jù)讀出的邏輯數(shù)據(jù)塊中記錄的唯一數(shù)據(jù)塊的物理位移和塊大小，找到相應(yīng)的數(shù)據(jù)塊，數(shù)據(jù)塊的尋址和物理映射實(shí)際上是“索引一唯一數(shù)據(jù)塊”的轉(zhuǎn)換。
[0018] 優(yōu)選的，文件過濾器對(duì)去重包中初始文件數(shù)據(jù)基于常用文件集篩選恢復(fù)之后，需要重新將文件包含的數(shù)據(jù)塊和對(duì)應(yīng)的元數(shù)據(jù)存儲(chǔ)到去重包中，具體步驟是進(jìn)行文件切分、指紋生成、建立維護(hù)數(shù)據(jù)，系統(tǒng)切分文件后，對(duì)數(shù)據(jù)塊的處理是先計(jì)算數(shù)據(jù)塊的hash值，接著進(jìn)行hash比較，最后就是對(duì)去重后的數(shù)據(jù)進(jìn)行存儲(chǔ)，系統(tǒng)的存儲(chǔ)管理模塊對(duì)新的唯一數(shù)據(jù)塊的處理過程是一個(gè)可并發(fā)執(zhí)行的調(diào)度。
[0019]優(yōu)選的，數(shù)據(jù)恢復(fù)是針對(duì)單個(gè)文件內(nèi)包含的所有唯一數(shù)據(jù)塊、邏輯數(shù)據(jù)塊、數(shù)據(jù)塊指紋和文件元數(shù)據(jù)的統(tǒng)一恢復(fù)。
[0020]優(yōu)選的，將經(jīng)過重復(fù)數(shù)據(jù)刪除技術(shù)處理之后的文件所包含的數(shù)據(jù)塊處理過程分為四個(gè)并行處理的線程:唯一數(shù)據(jù)塊存儲(chǔ)、邏輯數(shù)據(jù)塊存儲(chǔ)、數(shù)據(jù)塊指紋存儲(chǔ)和文件元數(shù)據(jù)存儲(chǔ)，線程運(yùn)用的編程機(jī)制是openMP。
[0021]優(yōu)選的，常用文件過濾器掃描去重包中的文件是按初始文件進(jìn)入重復(fù)數(shù)據(jù)刪除系統(tǒng)的時(shí)間順序，逐個(gè)比較去重包中文件實(shí)體的文件名是否存在于常用文件集，對(duì)訪問頻度不同的文件分流處理。
[0022]優(yōu)選的，改變重復(fù)數(shù)據(jù)刪除系統(tǒng)的去重包中的初始文件按文件進(jìn)入系統(tǒng)的時(shí)間順序離散分布的特征，重新將去重包中的數(shù)據(jù)內(nèi)容包括唯一數(shù)據(jù)塊、邏輯數(shù)據(jù)塊、數(shù)據(jù)塊指紋和文件元數(shù)據(jù)按文件的訪問頻度，以單個(gè)文件為基本單位統(tǒng)一集中調(diào)度到去重包中相應(yīng)數(shù)據(jù)片段的前端。
[0023]本發(fā)明與現(xiàn)有技術(shù)相比，具有如下優(yōu)點(diǎn)和有益效果:
[0024](I)本發(fā)明基于常用文件的數(shù)據(jù)重排，以文件為處理單位，對(duì)單個(gè)文件內(nèi)所包含的所有數(shù)據(jù)塊和數(shù)據(jù)塊相對(duì)應(yīng)的數(shù)據(jù)信息進(jìn)行統(tǒng)一調(diào)度和分配，這與用戶層面的訪問請(qǐng)求內(nèi)容和方式一致。
[0025](2)本發(fā)明對(duì)常用文件和非常用文件的數(shù)據(jù)進(jìn)行分流，將常用的文件數(shù)據(jù)集中預(yù)取到去重包中的數(shù)據(jù)片段前端，節(jié)省系統(tǒng)對(duì)文件實(shí)體尋找的時(shí)間開銷。
[0026](3)文件恢復(fù)終止機(jī)制，本發(fā)明基于常用文件重排后的去重包中對(duì)文件恢復(fù)的過程加入終止判斷，即當(dāng)文件集中所有文件都從數(shù)據(jù)包中恢復(fù)出來之后，系統(tǒng)不再掃描去重包中的其他文件實(shí)體。這可以節(jié)省不必要的文件檢索時(shí)間。
【專利附圖】

【附圖說明】
[0027]圖1為本發(fā)明系統(tǒng)模型結(jié)構(gòu)示意圖；
[0028]圖2為本發(fā)明基于文件重排數(shù)據(jù)塊的工作流示意圖；
[0029]圖3為本發(fā)明去重包中數(shù)據(jù)塊映射與尋址示意圖；
[0030]圖4為本發(fā)明數(shù)據(jù)流存儲(chǔ)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0031]下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述，但本發(fā)明的實(shí)施方式不限于此。
[0032]實(shí)施例
[0033]如圖1所示，本發(fā)明一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，應(yīng)用的場(chǎng)景模型是在線的重復(fù)數(shù)據(jù)刪除系統(tǒng)，包括服務(wù)器端和客戶端兩部分:
[0034]客戶端主要實(shí)現(xiàn)的功能是對(duì)文件進(jìn)行切塊，計(jì)算數(shù)據(jù)塊的hash值，存儲(chǔ)hash值，并作為該數(shù)據(jù)塊的指紋。通過比較各個(gè)數(shù)據(jù)塊的指紋，判斷該數(shù)據(jù)塊是不是重復(fù)的塊，系統(tǒng)只存儲(chǔ)唯一的數(shù)據(jù)塊，并記錄各個(gè)數(shù)據(jù)塊的ID。每個(gè)文件會(huì)建立一個(gè)文件實(shí)體，文件實(shí)體用于保存原文件的元數(shù)據(jù)，包括文件名、數(shù)據(jù)塊數(shù)量、數(shù)據(jù)塊ID大小、最后一個(gè)數(shù)據(jù)塊的大小和一組唯一數(shù)據(jù)塊的編號(hào)，以及文件的最后一個(gè)數(shù)據(jù)塊(由于這個(gè)數(shù)據(jù)塊大小通常比正常數(shù)據(jù)塊小，重復(fù)概率非常小，所以單獨(dú)存儲(chǔ))。唯一數(shù)據(jù)塊、數(shù)據(jù)塊指紋、所有的文件實(shí)體會(huì)保存在一個(gè)去重包，去重包中數(shù)據(jù)以文件的形式發(fā)送到服務(wù)器端。
[0035]服務(wù)器解析去重包中的數(shù)據(jù)，并保存唯一數(shù)據(jù)塊、數(shù)據(jù)塊指紋表、邏輯數(shù)據(jù)和文件實(shí)體，基于文件重排數(shù)據(jù)塊的工作區(qū)間就是服務(wù)器上的這四類數(shù)據(jù)的讀和寫。基于文件重排是通過重新組織去重包中數(shù)據(jù)的先后順序，以獲得系統(tǒng)更優(yōu)的文件檢索和恢復(fù)時(shí)間效率。
[0036]為了更清晰地闡明本發(fā)明的具體實(shí)施模型，以下結(jié)合基于文件重排數(shù)據(jù)塊的工作流示意圖(圖2)、去重包中數(shù)據(jù)塊映射與尋址示意圖(圖3)和數(shù)據(jù)流存儲(chǔ)結(jié)構(gòu)示意圖(圖4)再作詳細(xì)分析。
[0037]如圖2所示，系統(tǒng)對(duì)文件進(jìn)行重排分為兩個(gè)階段。第一個(gè)階段是文件恢復(fù)，處理的對(duì)象是去重包?；谖募臄?shù)據(jù)恢復(fù)，首先，讀取去重包中的文件實(shí)體，文件實(shí)體包含了相應(yīng)文件對(duì)應(yīng)的唯一數(shù)據(jù)塊的編號(hào)；然后，根據(jù)數(shù)據(jù)塊編號(hào)找到對(duì)應(yīng)的邏輯數(shù)據(jù)塊，讀取邏輯數(shù)據(jù)塊的位移和大小信息，找到去重包中的唯一數(shù)據(jù)塊；最后，基于文件實(shí)體的數(shù)據(jù)塊排列順序，將唯一數(shù)據(jù)塊寫入到對(duì)應(yīng)的文件中。第二個(gè)階段是文件重排，文件重排有三個(gè)順序執(zhí)行的模塊。(I)文件過濾器，(2)數(shù)據(jù)塊切分，(3)數(shù)據(jù)塊處理，各部分的功能圍繞的處理單位都是文件，數(shù)據(jù)處理的基本單位是數(shù)據(jù)塊。
[0038]如圖3所示，文件過濾器將常用文件集中的數(shù)據(jù)以文件為基本單位進(jìn)行檢索，文件在去重包中的檢索是根據(jù)文件實(shí)體進(jìn)行相應(yīng)的數(shù)據(jù)塊尋址和操作的。數(shù)據(jù)塊在去重包中的存儲(chǔ)格式是一個(gè)副本，多個(gè)索引。所以在重復(fù)數(shù)據(jù)刪除系統(tǒng)中，需要建立數(shù)據(jù)塊的邏輯描述信息，以方便不同文件之間共享唯一數(shù)據(jù)塊的索引建立。數(shù)據(jù)塊的尋址單位是字節(jié)，去重包中唯一數(shù)據(jù)塊的物理信息記錄在對(duì)應(yīng)的邏輯數(shù)據(jù)塊中。每個(gè)邏輯數(shù)據(jù)塊的大小相同，唯一數(shù)據(jù)塊的編號(hào)從O開始，依次遞增。數(shù)據(jù)塊尋址包括兩個(gè)映射過程，首先，根據(jù)文件實(shí)體中數(shù)據(jù)塊的編號(hào)找到對(duì)應(yīng)的邏輯數(shù)據(jù)塊，因?yàn)槊總€(gè)邏輯塊的大小都相同，尋址的運(yùn)算過程是:數(shù)據(jù)塊的編號(hào)乘以邏輯塊的大小，然后就得出對(duì)應(yīng)邏輯數(shù)據(jù)塊的物理地址。然后，第二次尋址是根據(jù)讀出的邏輯數(shù)據(jù)塊中記錄的唯一數(shù)據(jù)塊的物理位移和塊大小，找到相應(yīng)的數(shù)據(jù)塊。數(shù)據(jù)塊的尋址和物理映射實(shí)際上是“索引一唯一數(shù)據(jù)塊”的轉(zhuǎn)換。
[0039]如圖4所示，文件過濾器對(duì)去重包中初始文件數(shù)據(jù)基于常用文件集篩選恢復(fù)之后，需要重新將文件包含的數(shù)據(jù)塊和對(duì)應(yīng)的元數(shù)據(jù)存儲(chǔ)到去重包中。具體步驟是進(jìn)行文件切分、指紋生成、建立維護(hù)數(shù)據(jù)。系統(tǒng)切分文件后，對(duì)數(shù)據(jù)塊的處理是先計(jì)算數(shù)據(jù)塊的hash值，接著進(jìn)行hash比較，最后就是對(duì)去重后的數(shù)據(jù)進(jìn)行存儲(chǔ)。系統(tǒng)的存儲(chǔ)管理模塊對(duì)新的唯一數(shù)據(jù)塊的處理過程是一個(gè)可并發(fā)執(zhí)行的調(diào)度。為了提高數(shù)據(jù)塊的處理效率，本發(fā)明提出的模型用Open MP多線程技術(shù)將存儲(chǔ)過程分為四個(gè)并發(fā)執(zhí)行的線程:hash值插入hash表、唯一數(shù)據(jù)塊處理、邏輯數(shù)據(jù)塊處理和元數(shù)據(jù)處理。因?yàn)槊總€(gè)線程在去重包中的不同位置寫入數(shù)據(jù)，所以并發(fā)的存儲(chǔ)管理不但能提高系統(tǒng)的輸出效率，而且一定程度上維護(hù)了數(shù)據(jù)的獨(dú)立性。
[0040]上述實(shí)施例為本發(fā)明較佳的實(shí)施方式，但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制，其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化，均應(yīng)為等效的置換方式，都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，包括下述步驟: (1)、在線重復(fù)數(shù)據(jù)刪除系統(tǒng)對(duì)初始文件進(jìn)行數(shù)據(jù)去重之后，生成去重包，去重系統(tǒng)響應(yīng)用戶對(duì)基于文件級(jí)別的數(shù)據(jù)的訪問請(qǐng)求，通過文件恢復(fù)實(shí)現(xiàn)用戶的存儲(chǔ)訪問，在線重復(fù)數(shù)據(jù)刪除系統(tǒng)會(huì)在一段預(yù)設(shè)定長度的時(shí)間內(nèi)統(tǒng)計(jì)去重包中各個(gè)文件的訪問次數(shù)，將訪問頻度高于一定值的文件歸類為常用文件集，訪問頻度低于該臨界值的文件歸為非常用文件集，然后執(zhí)行步驟(2)操作； (2)、暫停重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)訪問請(qǐng)求，進(jìn)行基于文件級(jí)別的數(shù)據(jù)塊重排，常用文件過濾器根據(jù)步驟(1)得到的常用文件集對(duì)去重包中的文件實(shí)體進(jìn)行分流處理；處理過程是:按照去重包中初始文件的排列順序，逐個(gè)讀取去重包中的文件實(shí)體，比較文件實(shí)體記錄對(duì)應(yīng)文件的元數(shù)據(jù)信息段的文件名和文件類型，如果該文件名存在于步驟(1)生成的常用文件集中，則執(zhí)行步驟(3)操作； (3)、讀取文件實(shí)體的唯一數(shù)據(jù)塊編號(hào)區(qū)，根據(jù)數(shù)據(jù)塊映射規(guī)則，找到每個(gè)對(duì)應(yīng)編號(hào)的唯一數(shù)據(jù)塊在去重包中的存放位置，將對(duì)應(yīng)的唯一數(shù)據(jù)塊寫入到將要恢復(fù)的文件中，并且把文件實(shí)體中的最后一個(gè)唯一數(shù)據(jù)塊也寫入到要恢復(fù)的文件中，如果步驟(2)全部完成之后，則執(zhí)行步驟(4)，否則繼續(xù)返回執(zhí)行步驟(2); (4)、將常用集中的文件重新進(jìn)行數(shù)據(jù)塊切分和指紋計(jì)算，并生成新的邏輯數(shù)據(jù)塊單元和文件描述元信息，將新生成的數(shù)據(jù)信息寫入到新的去重包中，然后執(zhí)行步驟(5)操作； (5)、將舊的去重包中的非常用文件集對(duì)應(yīng)的唯一數(shù)據(jù)塊進(jìn)行基于文件級(jí)別的數(shù)據(jù)恢復(fù)，將非常用文件集中文件追加到新的去重包中，放到新的去重包中數(shù)據(jù)片段的后端，完成后刪除舊的去重包； (6)、新生成的去重包中的數(shù)據(jù)分布是基于對(duì)常用文件所包含的數(shù)據(jù)塊和文件元數(shù)據(jù)的預(yù)取和集中，重復(fù)數(shù)據(jù)刪除系統(tǒng)恢復(fù)響應(yīng)用戶對(duì)數(shù)據(jù)訪問的請(qǐng)求。
2.根據(jù)權(quán)利要求1所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，步驟(2)中，進(jìn)行基于文件重排數(shù)據(jù)塊的前提步驟是找到將單個(gè)文件所包含的全部數(shù)據(jù)塊，將對(duì)應(yīng)的數(shù)據(jù)塊作統(tǒng)一的調(diào)度，查找文件相應(yīng)的數(shù)據(jù)塊之前需要對(duì)去重包中的文件進(jìn)行恢復(fù)，文件恢復(fù)是一個(gè)讀取數(shù)據(jù)塊和寫入文件的過程，通過讀取去重包中各個(gè)文件實(shí)體包含的文件元數(shù)據(jù)信息和數(shù)據(jù)塊信息，恢復(fù)初始的文件數(shù)據(jù)；基于文件級(jí)別的數(shù)據(jù)塊重排，不但將唯一數(shù)據(jù)塊集中預(yù)取到去重包中的數(shù)據(jù)片段的前端，而且數(shù)據(jù)塊指紋和邏輯數(shù)據(jù)塊相關(guān)的描述信息也一并預(yù)取到相應(yīng)數(shù)據(jù)片段的前端。
3.根據(jù)權(quán)利要求1所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，步驟(2)中，所述常用文件過濾器用于實(shí)現(xiàn)文件數(shù)據(jù)塊分布管理，通過改變文件進(jìn)入重復(fù)數(shù)據(jù)刪除系統(tǒng)的順序，實(shí)現(xiàn)基于常用文件集的數(shù)據(jù)塊重排，文件過濾器首先將去重包中的文件按系統(tǒng)文件的順序進(jìn)行掃描，當(dāng)掃描到的文件在常用文件集時(shí)，就直接進(jìn)行文件所對(duì)應(yīng)的數(shù)據(jù)塊、指紋、邏輯數(shù)據(jù)和文件實(shí)體的檢索，檢索過程包括數(shù)據(jù)塊的尋址和恢復(fù)，以及新去重包中數(shù)據(jù)區(qū)的寫入，所有文件都掃描完畢之后，剩下的不在常用文件集中的文件就按原有順序排列在去重包中常用文件集的數(shù)據(jù)片段之后。
4.根據(jù)權(quán)利要求1所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，步驟(3)中，數(shù)據(jù)塊在去重包中的存儲(chǔ)格式是一個(gè)副本，多個(gè)索引，數(shù)據(jù)塊的尋址單位是字節(jié)，去重包中唯一數(shù)據(jù)塊的物理信息記錄在對(duì)應(yīng)的邏輯數(shù)據(jù)塊中，每個(gè)邏輯數(shù)據(jù)塊的大小相同，唯一數(shù)據(jù)塊的編號(hào)從O開始，依次遞增。
5.根據(jù)權(quán)利要求4所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，數(shù)據(jù)塊尋址包括兩個(gè)映射過程，首先，根據(jù)文件實(shí)體中數(shù)據(jù)塊的編號(hào)找到對(duì)應(yīng)的邏輯數(shù)據(jù)塊，因?yàn)槊總€(gè)邏輯塊的大小都相同，尋址的運(yùn)算過程是:數(shù)據(jù)塊的編號(hào)乘以邏輯塊的大小，然后就得出對(duì)應(yīng)邏輯數(shù)據(jù)塊的物理地址；然后，第二次尋址是根據(jù)讀出的邏輯數(shù)據(jù)塊中記錄的唯一數(shù)據(jù)塊的物理位移和塊大小，找到相應(yīng)的數(shù)據(jù)塊，數(shù)據(jù)塊的尋址和物理映射實(shí)際上是“索引一唯一數(shù)據(jù)塊”的轉(zhuǎn)換。
6.根據(jù)權(quán)利要求1所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，文件過濾器對(duì)去重包中初始文件數(shù)據(jù)基于常用文件集篩選恢復(fù)之后，需要重新將文件包含的數(shù)據(jù)塊和對(duì)應(yīng)的元數(shù)據(jù)存儲(chǔ)到去重包中，具體步驟是進(jìn)行文件切分、指紋生成、建立維護(hù)數(shù)據(jù)，系統(tǒng)切分文件后，對(duì)數(shù)據(jù)塊的處理是先計(jì)算數(shù)據(jù)塊的hash值，接著進(jìn)行hash比較，最后就是對(duì)去重后的數(shù)據(jù)進(jìn)行存儲(chǔ)，系統(tǒng)的存儲(chǔ)管理模塊對(duì)新的唯一數(shù)據(jù)塊的處理過程是一個(gè)可并發(fā)執(zhí)行的調(diào)度。
7.根據(jù)權(quán)利要求1所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，文件恢復(fù)是針對(duì)單個(gè)文件內(nèi)包含的所有唯一數(shù)據(jù)塊、邏輯數(shù)據(jù)塊、數(shù)據(jù)塊指紋和文件元數(shù)據(jù)的統(tǒng)一‘陜復(fù)。
8.根據(jù)權(quán)利要求1所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于:將經(jīng)過重復(fù)數(shù)據(jù)刪除技術(shù)處理之后的文件所包含的數(shù)據(jù)塊處理過程分為四個(gè)并行處理的線程:唯一數(shù)據(jù)塊存儲(chǔ) 、邏輯數(shù)據(jù)塊存儲(chǔ)、數(shù)據(jù)塊指紋存儲(chǔ)和文件元數(shù)據(jù)存儲(chǔ)，線程運(yùn)用的編程機(jī)制是openMP。
9.根據(jù)權(quán)利要求3所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法，其特征在于，常用文件過濾器掃描去重包中的文件是按初始文件進(jìn)入重復(fù)數(shù)據(jù)刪除系統(tǒng)的時(shí)間順序，逐個(gè)比較去重包中文件實(shí)體的文件名是否存在于常用文件集，對(duì)訪問頻度不同的文件分流處理。
10.根據(jù)權(quán)利要求1所述的在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)訪問優(yōu)化的方法，其特征在于，改變重復(fù)數(shù)據(jù)刪除系統(tǒng)的去重包中的初始文件按文件進(jìn)入系統(tǒng)的時(shí)間順序離散分布的特征，重新將去重包中的數(shù)據(jù)內(nèi)容包括唯一數(shù)據(jù)塊、邏輯數(shù)據(jù)塊、數(shù)據(jù)塊指紋和文件元數(shù)據(jù)按文件的訪問頻度，以單個(gè)文件為基本單位統(tǒng)一集中調(diào)度到去重包中相應(yīng)數(shù)據(jù)片段的前端。
【文檔編號(hào)】G06F17/30GK103955530SQ201410198679
【公開日】2014年7月30日申請(qǐng)日期:2014年5月12日優(yōu)先權(quán)日:2014年5月12日
【發(fā)明者】鄧玉輝, 岑大慰, 黃戰(zhàn) 申請(qǐng)人:暨南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄧玉輝;岑大慰;黃戰(zhàn)
技術(shù)所有人：暨南大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

excel刪除重復(fù)數(shù)據(jù)相關(guān)技術(shù)

刪除重復(fù)數(shù)據(jù)保留一條相關(guān)技術(shù)

刪除重復(fù)數(shù)據(jù)相關(guān)技術(shù)

oracle刪除重復(fù)數(shù)據(jù)相關(guān)技術(shù)

sql刪除重復(fù)數(shù)據(jù)相關(guān)技術(shù)

sql如何刪除重復(fù)數(shù)據(jù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種在線重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)重建優(yōu)化方法