欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種快速去重的文件數(shù)據(jù)復(fù)制方法

文檔序號:6341106閱讀:384來源:國知局
專利名稱:一種快速去重的文件數(shù)據(jù)復(fù)制方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)復(fù)制方法,特別涉及一種快速去重的文件數(shù)據(jù)復(fù)制方法。
技術(shù)背景
對于現(xiàn)有的文件數(shù)據(jù)復(fù)制方法主要有兩種一種是對整體文件進行去重,另一種 是對文件內(nèi)部數(shù)據(jù)塊進行去重。前者是指針對整體文件去重算法進行的改進。傳統(tǒng)的算法 叫做完全文件檢測(whole file detection,WFD)WFS技術(shù)是以文件為粒度查找重復(fù)數(shù)據(jù), 首先對整個文件進行指紋計算(hash計算),然后將該值與已存儲的其他文件的hash值進 行比較,如果檢測到相同的值,則僅將文件用指針替換,如果不同則將整個文件進行傳送, 后者,將文件拆分為更小的數(shù)據(jù)段,對數(shù)據(jù)段的內(nèi)容進行指紋計算,然后對每個段進行指紋 對比,檢測出內(nèi)容相同的數(shù)據(jù)段,重復(fù)的段只傳送指針,不同的數(shù)據(jù)段傳輸該數(shù)據(jù)段的全部 內(nèi)容。與前者相比,實際傳送的數(shù)據(jù)量決定于備份或復(fù)制間隔內(nèi)所產(chǎn)生的數(shù)據(jù)變化量,因 此,比前者所需要傳輸?shù)臄?shù)據(jù)量要少很多。然而其文件對比所需要的檢測時間確是相同的, 均為對所有文件的所有內(nèi)容進行比對檢測。
然而,對于某些文件,經(jīng)處理前后的內(nèi)容完全一樣,然而其指紋信息確發(fā)生了變 化,如果只對全文件進行指紋計算,來確定前后是否一致,進而來決定是否對全文件進行復(fù) 制,很可能造成具有完全一樣內(nèi)容的文件被再次傳輸,增加了傳輸?shù)呢撦d,也沒有達到去復(fù) 的目的。如果對于一些本來就沒有被修改過的文件來說,采用上述數(shù)據(jù)段去復(fù)的方法進行 去重復(fù)制,那么需要將該文件分成若干段,將每段內(nèi)容指紋計算,然后將每個數(shù)據(jù)段的指紋 進行對比,最終確定復(fù)制策略,這樣一來,大大增加了對文件內(nèi)容一致性的檢測時間。另外, 即便文件內(nèi)容有改動,然而,對于一些行業(yè)來說,比如影視行業(yè),IT業(yè)等他們需要定期復(fù)制 的文件數(shù)量很大,且單一文件大小也很大,通常被修改的部分較大,且被修改的位置在文件 中的分布也不一定,比如,經(jīng)大量修改后的內(nèi)容存在于整個文件的中部或末尾,如果采用現(xiàn) 有技術(shù)中上述數(shù)據(jù)段去重的方法的去重文件數(shù)據(jù)復(fù)制方法,對文件數(shù)據(jù)的進行備份,需要 對所有的內(nèi)容進行對比,因此,很多沒有修改的信息都被提取出進行對比,其前期的檢測時 間大大增加了,使復(fù)制的效率大大降低,更嚴(yán)重的甚至?xí)斐晒I(yè)生產(chǎn)的停滯,進而造成較 大的經(jīng)濟損失。發(fā)明內(nèi)容
為此,本發(fā)明要解決的技術(shù)問題在于,提出一種能夠顯著減少重復(fù)文件數(shù)據(jù)檢測 時間,又能很好地保證重復(fù)性文件檢測精度的,高效的快速去重的文件數(shù)據(jù)復(fù)制方法。
為此,本發(fā)明的一種快速去重的文件數(shù)據(jù)復(fù)制方法,包括
指紋獲取步驟
在對存儲介質(zhì)中的第一目標(biāo)文件進行第一次全文件復(fù)制到目標(biāo)文件目錄下以前, 處理器對所述第一目標(biāo)文件的元數(shù)據(jù)信息進行指紋計算形成IDl文件,和對所述第一目標(biāo) 文件根據(jù)預(yù)定間隔尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID2文件,并將所述IDl文件和所述ID2文件存儲在數(shù)據(jù)庫中; 在對所述第一目標(biāo)文件進行第一次全文件復(fù)制到所述目標(biāo)文件目錄下以后,并在 對所述存儲介質(zhì)中的第二目標(biāo)文件進行復(fù)制到所述目標(biāo)文件目錄下以前,處理器對所述第 二目標(biāo)文件元數(shù)據(jù)信息進行指紋計算形成ID3文件,和對所述第二目標(biāo)文件根據(jù)預(yù)定間隔 尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID4文件,并將所述ID3文件和 所述ID4文件存儲在數(shù)據(jù)庫中;指紋對比和文件復(fù)制執(zhí)行步驟將所述IDl文件與所述ID3文件進行對比若所述IDl文件與所述ID3文件相同,則無需將所述第二目標(biāo)文件復(fù)制到所述目 標(biāo)文件目錄下;若所述IDl文件與所述ID3文件不相同,且所述ID2文件與所述ID4文件相同,則 傳輸所述ID3文件更新所述第一目標(biāo)文件相應(yīng)的元數(shù)據(jù);若所述IDl文件與所述ID3文件不相同,且所述ID2與所述ID4文件不相同,則將 所述第二目標(biāo)文件全文件復(fù)制到所述目標(biāo)文件目錄下。上述的文件數(shù)據(jù)復(fù)制方法,所述第一目標(biāo)文件的元數(shù)據(jù)信息包括所述第一目標(biāo)文 件的按特定順序組合而成的文件名、文件類型、文件大小和文件最后修改時間;所述第二目 標(biāo)文件的元數(shù)據(jù)信息包括所述第二目標(biāo)文件的文件名、文件類型、文件大小和文件最后修 改時間。上述的文件數(shù)據(jù)復(fù)制方法,所述指紋計算為Rabin計算、MD5計算、SHA-I計算、 SHA-224 計算、SHA-256 計算、SHA-384 和 SHA-512 計算中的一種。上述的文件數(shù)據(jù)復(fù)制方法,所述預(yù)定間隔尺度為512B-5KB ;上述的文件數(shù)據(jù)復(fù)制方法,其特征在于通過間隔提取的文件數(shù)據(jù)段大小為 512-2KB。上述的文件數(shù)據(jù)復(fù)制方法,所述第一目標(biāo)文件的元數(shù)據(jù)信息還包括所述第一目標(biāo) 文件的父目錄信息和層次信息,所述第二目標(biāo)文件的元數(shù)據(jù)信息還包括所述第二目標(biāo)文件 的父目錄信息和層次信息。上述的文件數(shù)據(jù)復(fù)制方法,在每一次復(fù)制步驟完成后對備份文件分配同一個版本 號,作為文件恢復(fù)的索引。上述的文件數(shù)據(jù)復(fù)制方法,所述預(yù)定間隔尺度為1KB。上述的文件數(shù)據(jù)復(fù)制方法,所述間隔提取的文件數(shù)據(jù)段大小為1KB。上述文件數(shù)據(jù)復(fù)制方法,所述文件類型包括壓縮文件類、音視頻文件類、圖像文 件類、可執(zhí)行文件類、文檔類和數(shù)據(jù)文件類中的一種或幾種。本發(fā)明具有以下優(yōu)點1、快速去重的文件數(shù)據(jù)復(fù)制方法包括在對存儲介質(zhì)中的第一目標(biāo)文件進行第一 次全文件復(fù)制到目標(biāo)文件目錄下以前,處理器對所述第一目標(biāo)文件的元數(shù)據(jù)信息進行指紋 計算形成IDl文件,和對所述第一目標(biāo)文件根據(jù)預(yù)定間隔尺度間隔提取其若干文件數(shù)據(jù)段 的內(nèi)容進行指紋計算形成ID2文件,并將所述IDl文件和所述ID2文件存儲在數(shù)據(jù)庫中; 在對所述第一目標(biāo)文件進行第一次全文件復(fù)制到所述目標(biāo)文件目錄下以后,并在對所述存 儲介質(zhì)中的第二目標(biāo)文件進行復(fù)制到所述目標(biāo)文件目錄下以前,處理器對所述第二目標(biāo)文件元數(shù)據(jù)信息進行指紋計算形成ID3文件,和對所述第二目標(biāo)文件根據(jù)預(yù)定間隔尺度間隔 提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID4文件,并將所述ID3文件和所述ID4 文件存儲在數(shù)據(jù)庫中;將所述IDl文件與所述ID3文件進行對比;若所述IDl文件與所述 ID3文件相同,則無需將所述第二目標(biāo)文件復(fù)制到所述目標(biāo)文件目錄下;若所述IDl文件與 所述ID3文件不相同,則將所述ID2文件與所述ID4文件進行對比,若所述ID2文件與所述 ID4文件相同,則傳輸所述ID3文件更新所述第一目標(biāo)文件相應(yīng)的元數(shù)據(jù),若所述ID2與所 述ID4文件不相同,則將所述第二目標(biāo)文件全文件復(fù)制到所述目標(biāo)文件目錄下。以上處理 過程在備份文件即第一目標(biāo)文件和待備份文件即第二目標(biāo)文件的元數(shù)據(jù)相同的情況下,只 需要對比他們的元數(shù)據(jù)信息,無需對比其實質(zhì)內(nèi)容,由于元數(shù)據(jù)信息的數(shù)據(jù)量很小,因此其 檢測時間大大提高了,另外,當(dāng)備份文件和待備份文件元數(shù)據(jù)相同的情況下,將備份文件經(jīng) 預(yù)定間隔尺度間隔提取的內(nèi)容經(jīng)過指紋計算的ID2文件和將待備份文件經(jīng)預(yù)定間隔尺度 間隔提取的內(nèi)容經(jīng)過指紋計算的ID4文件進行對比判斷其相同性,由于在備份文件即第一 目標(biāo)文件和待備份文件即第二目標(biāo)文件元數(shù)據(jù)不相同的情況下,它們的文件實質(zhì)內(nèi)容也有 可能相同,通過間隔提取內(nèi)容計算指紋用于指紋對比,可以快速發(fā)現(xiàn)分布于文件不同位置 的修改處,無須對所有內(nèi)容進行對比即可發(fā)生文件是否被修改過,可以大大減小其對比的 時間,最終保證了相同文件數(shù)據(jù)的去重,又大大提高文件數(shù)據(jù)復(fù)制的效率。
2.通常情況下,對于一些大文件,其修改部分較多,且修改部分在文件中所處的位 置又不一定,采用間隔尺度為512B-5KB可以較好的減少對文件相似度檢測的時間,間隔提 取的數(shù)據(jù)段大小為512-2KB能較好地提高檢測準(zhǔn)確度。
3.間隔尺度為1KB,間隔提取的數(shù)據(jù)段大小為1KB,既可以大大減少對大文件相似 度檢測的時間,又可以很好地確保檢測精度。
4.在每一次復(fù)制步驟完成后對備份文件分配同一個版本號,作為文件恢復(fù)的索 引,其中每次文件恢復(fù)時都以最高的版本號為恢復(fù)索引,可以確保每次文件恢復(fù)時都將最 新的文件內(nèi)容進行恢復(fù)。


為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施例并結(jié)合 附圖,對本發(fā)明作進一步詳細的說明。
圖1為快速去重的文件復(fù)制方法的流程圖;具體實施方式
如圖1所示的,一種快速去重的文件數(shù)據(jù)復(fù)制方法,包括
指紋獲取步驟
在對存儲介質(zhì)中的第一目標(biāo)文件進行第一次全文件復(fù)制到目標(biāo)文件目錄下以前, 處理器對所述第一目標(biāo)文件的元數(shù)據(jù)信息進行指紋計算形成IDl文件,和對所述第一目標(biāo) 文件根據(jù)預(yù)定間隔尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID2文件,并 將所述IDl文件和所述ID2文件存儲在數(shù)據(jù)庫中。
在對所述第一目標(biāo)文件進行第一次全文件復(fù)制到所述目標(biāo)文件目錄下以后,并在 對所述存儲介質(zhì)中的第二目標(biāo)文件進行復(fù)制到所述目標(biāo)文件目錄下以前,處理器對所述第二目標(biāo)文件元數(shù)據(jù)信息進行指紋計算形成ID3文件,和對所述第二目標(biāo)文件根據(jù)預(yù)定間隔 尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID4文件,并將所述ID3文件和 所述ID4文件存儲在數(shù)據(jù)庫中。
其中,IDl是第一元數(shù)據(jù)經(jīng)過指紋計算產(chǎn)生的一個字符串,而ID2是若數(shù)據(jù)段內(nèi)容 經(jīng)過指紋計算產(chǎn)生的一個組合字符串。
指紋對比和文件復(fù)制執(zhí)行步驟
將所述IDl文件與所述ID3文件進行對比;若所述IDl文件與所述ID3文件相同, 則無需將所述第二目標(biāo)文件復(fù)制到所述目標(biāo)文件目錄下;若所述IDl文件與所述ID3文件 不相同,則將所述ID2文件與所述ID4文件進行對比,若所述ID2文件與所述ID4文件相同, 則傳輸所述ID3文件更新所述第一目標(biāo)文件相應(yīng)的元數(shù)據(jù),若所述ID2與所述ID4文件不 相同,則將所述第二目標(biāo)文件全文件復(fù)制到所述目標(biāo)文件目錄下。
其中,所述第一目標(biāo)文件的元數(shù)據(jù)信息包括所述第一目標(biāo)文件的按特定順序組合 而成的文件名、文件類型、文件大小和文件最后修改時間;所述第二目標(biāo)文件的元數(shù)據(jù)信息 包括所述第二目標(biāo)文件的文件名、文件類型、文件大小和文件最后修改時間。所述指紋計算 為 Rabin 計算、MD5 計算、SHA-I 計算、SHA-2M 計算、SHA-256 計算、SHA-384 和 SHA-512 計 算中的一種。所述預(yù)定間隔尺度為512B-5KB,最優(yōu)選為1KB ;通過間隔提取的文件數(shù)據(jù)段大 小為512-2KB,最優(yōu)選為1KB ;所述第一目標(biāo)文件的元數(shù)據(jù)信息還包括所述第一目標(biāo)文件的 父目錄信息和層次信息,所述第二目標(biāo)文件的元數(shù)據(jù)信息還包括所述第二目標(biāo)文件的父目 錄信息和層次信息。上述文件數(shù)據(jù)復(fù)制方法,所述文件類型包括壓縮文件類、音視頻文件 類、圖像文件類、可執(zhí)行文件類、文檔類和數(shù)據(jù)文件類中的一種或幾種。
具體文件類型包括
壓縮文件類*. arc*, cab*, ddi壓縮文件,diskdupe的壓縮文件,可由hd-copy還 Hi.氺· Ice,氺· zip,氺· gz,氺· tar
ii^^kSCi^^x.氺· avi,氺· cmf,氺· fli,氺· ins,氺· m3u,氺· mp3,氺· mov氺· mpeg,氺· vol, 氺.wav,氺.swf ;
圖像文件類*. bmp, bgi Borland公司的圖形界面文件cda, cd文件icn,氺· ico,氺· iff,氺· jpg,氺· Ibm,氺· pbm,氺· pgm,氺· png,氺· caj,氺· tif ;
:氺· doc,氺· fmt,氺· fnt,氺· mbd,氺· wps,氺· xls ;
ηΤ Α^Τ^^^Ι 氺· com,氺· dll,氺· drv,氺· exe,氺· fox,氺· fxp,氺· frm,氺· obj ;
數(shù)據(jù)文件類*. dat, dbf, idx, img, mem, ndx ;
當(dāng)需要將多個文件同時復(fù)制到所述目標(biāo)文件目錄下時,已存在在所述目標(biāo)文件目 錄下的文件為所述第一目標(biāo)文件,待復(fù)制到所述目標(biāo)文件目錄下的文件為第二目標(biāo)文件。
實施例2
一種快速去重的文件數(shù)據(jù)復(fù)制方法,包括
指紋獲取步驟
在對存儲介質(zhì)中的第一目標(biāo)文件進行第一次全文件復(fù)制到目標(biāo)文件目錄下以前, 處理器對所述第一目標(biāo)文件的元數(shù)據(jù)信息進行指紋計算形成IDl文件,和對所述第一目標(biāo) 文件根據(jù)預(yù)定間隔尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID2文件,并 將所述IDl文件和所述ID2文件存儲在數(shù)據(jù)庫中。
在對所述第一目標(biāo)文件進行第一次全文件復(fù)制到所述目標(biāo)文件目錄下以后,并在對所述存儲介質(zhì)中的第二目標(biāo)文件進行復(fù)制到所述目標(biāo)文件目錄下以前,處理器對所述第 二目標(biāo)文件元數(shù)據(jù)信息進行指紋計算形成ID3文件,和對所述第二目標(biāo)文件根據(jù)預(yù)定間隔 尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID4文件,并將所述ID3文件和 所述ID4文件存儲在數(shù)據(jù)庫中。其中,IDl是第一元數(shù)據(jù)經(jīng)過指紋計算產(chǎn)生的一個字符串,而ID2是若數(shù)據(jù)段內(nèi)容 經(jīng)過指紋計算產(chǎn)生的一個組合字符串。指紋對比和文件復(fù)制執(zhí)行步驟將所述IDl文件與所述ID3文件進行對比;若所述IDl文件與所述ID3文件相同, 則將所述第二目標(biāo)文件全文件復(fù)制到所述目標(biāo)文件目錄下;若所述IDl文件與所述ID3文 件不相同,則將所述ID2文件與所述ID4文件進行對比,若所述ID2文件與所述ID4文件相 同,則傳輸所述ID3文件更新所述第一目標(biāo)文件相應(yīng)的元數(shù)據(jù),若所述ID2與所述ID4文件 不相同,則將所述第二目標(biāo)文件全文件復(fù)制到所述目標(biāo)文件目錄下。其中,所述第一目標(biāo)文件的元數(shù)據(jù)信息包括所述第一目標(biāo)文件的按特定順序組合 而成的文件名、文件類型、文件大小和文件最后修改時間;所述第二目標(biāo)文件的元數(shù)據(jù)信息 包括所述第二目標(biāo)文件的文件名、文件類型、文件大小和文件最后修改時間。所述指紋計算 為 Rabin 計算、MD5 計算、SHA-I 計算、SHA-224 計算、SHA-256 計算、SHA-384 和 SHA-512 計 算中的一種。所述預(yù)定間隔尺度為512B-5KB,最優(yōu)選為1KB ;通過間隔提取的文件數(shù)據(jù)段大 小為512-2KB,最優(yōu)選為1KB ;所述第一目標(biāo)文件的元數(shù)據(jù)信息還包括所述第一目標(biāo)文件的 父目錄信息和層次信息,所述第二目標(biāo)文件的元數(shù)據(jù)信息還包括所述第二目標(biāo)文件的父目 錄信息和層次信息。上述文件數(shù)據(jù)復(fù)制方法,所述文件類型包括壓縮文件類、音視頻文件 類、圖像文件類、可執(zhí)行文件類、文檔類和數(shù)據(jù)文件類一種或幾種。具體文件類型包括壓縮文件類*. arc*, cab*, ddi壓縮文件,diskdupe的壓縮文件,可由hd-copy還 Hi.*· Ice,*· zip,*· gz,*· tar音視頻文件類*· avi,*· cmf,*· fli,*· ins,*· m3u,*· mp3,*· mov*· mpeg,*· vol, *.wav,*.swf ;圖像文件類*. bmp, *· bgi Borland公司的圖形界面文件*· cda, cd文件*· icn,
*· ico,*· iff,*· jpg,*· Ibm,*· pbm,*· pgm,*· png,*· caj,*· tif ;文檔類 *· doc,*· fmt,*· fnt,*· mbd,*· wps,*· xls ;可執(zhí)行文件類 *· com,*· dll,*· drv,*· exe,*· fox,*· fxp,*· frm,*· obj ;數(shù)據(jù)文件類 :*· dat, dbf, idx, img, mem, ndx ;在每一次復(fù)制步驟完成后對備份文件分配同一個版本號,作為文件恢復(fù)的索引, 其中每次文件恢復(fù)時都以最高的版本號為恢復(fù)索引。當(dāng)需要將多個文件同時復(fù)制到所述目標(biāo)文件目錄下時,已存在在所述目標(biāo)文件件 目錄下的文件為所述第一目標(biāo)文件,待復(fù)制到所述目標(biāo)文件目錄下的文件為第二目標(biāo)文 件。顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定。對 于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以根據(jù)設(shè)備的大小不同做出其它不同形式的變化 或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出 的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護范圍之中。
權(quán)利要求
1.一種快速去重的文件數(shù)據(jù)復(fù)制方法,其特征在于包括指紋獲取步驟在對存儲介質(zhì)中的第一目標(biāo)文件進行第一次全文件復(fù)制到目標(biāo)文件目錄下以前,處理 器對所述第一目標(biāo)文件的元數(shù)據(jù)信息進行指紋計算形成IDl文件,和對所述第一目標(biāo)文件 根據(jù)預(yù)定間隔尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID2文件,并將所 述IDl文件和所述ID2文件存儲在數(shù)據(jù)庫中;在對所述第一目標(biāo)文件進行第一次全文件復(fù)制到所述目標(biāo)文件目錄下以后,并在對所 述存儲介質(zhì)中的第二目標(biāo)文件進行復(fù)制到所述目標(biāo)文件目錄下以前,處理器對所述第二目 標(biāo)文件元數(shù)據(jù)信息進行指紋計算形成ID3文件,和對所述第二目標(biāo)文件根據(jù)預(yù)定間隔尺度 間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID4文件,并將所述ID3文件和所述 ID4文件存儲在數(shù)據(jù)庫中;指紋對比和文件復(fù)制執(zhí)行步驟將所述IDl文件與所述ID3文件進行對比若所述IDl文件與所述ID3文件相同,則無需將所述第二目標(biāo)文件復(fù)制到所述目標(biāo)文 件目錄下;若所述IDl文件與所述ID3文件不相同,且所述ID2文件與所述ID4文件相同,則傳輸 所述ID3文件更新所述第一目標(biāo)文件相應(yīng)的元數(shù)據(jù);若所述IDl文件與所述ID3文件不相同,且所述ID2與所述ID4文件不相同,則將所述 第二目標(biāo)文件全文件復(fù)制到所述目標(biāo)文件目錄下。
2.根據(jù)權(quán)利要求1所述的文件數(shù)據(jù)復(fù)制方法,其特征在于所述第一目標(biāo)文件的元數(shù) 據(jù)信息包括所述第一目標(biāo)文件的按特定順序組合而成的文件名、文件類型、文件大小和文 件最后修改時間;所述第二目標(biāo)文件的元數(shù)據(jù)信息包括所述第二目標(biāo)文件的文件名、文件 類型、文件大小和文件最后修改時間。
3.根據(jù)權(quán)利要求2所述的文件數(shù)據(jù)復(fù)制方法,其特征在于所述指紋計算為Rabin計 算、MD5計算、SHA-I計算、SHA-2M計算、SHA-256計算、SHA-384和SHA-512計算中的一種。
4.根據(jù)權(quán)利要求1-3任一所述的文件數(shù)據(jù)復(fù)制方法,其特征在于所述預(yù)定間隔尺度 為 512B-5KBo
5.根據(jù)權(quán)利要求4所述的文件數(shù)據(jù)復(fù)制方法,其特征在于通過間隔提取的文件數(shù)據(jù) 段大小為512-2KB。
6.根據(jù)權(quán)利要求5所述的文件數(shù)據(jù)復(fù)制方法,其特征在于所述第一目標(biāo)文件的元數(shù) 據(jù)信息還包括所述第一目標(biāo)文件的父目錄信息和層次信息,所述第二目標(biāo)文件的元數(shù)據(jù)信 息還包括所述第二目標(biāo)文件的父目錄信息和層次信息。
7.根據(jù)權(quán)利要求6所述的文件數(shù)據(jù)復(fù)制方法,其特征在于在每一次復(fù)制步驟完成后 對備份文件分配同一個版本號,作為文件恢復(fù)的索引。
8.根據(jù)權(quán)利要求7所述的文件數(shù)據(jù)復(fù)制方法,其特征在于所述預(yù)定間隔尺度為1KB。
9.根據(jù)權(quán)利要求8所述的文件數(shù)據(jù)復(fù)制方法,其特征在于所述間隔提取的文件數(shù)據(jù) 段大小為1KB。
10.根據(jù)權(quán)利要求9所述文件數(shù)據(jù)復(fù)制方法,其特征在于所述文件類型包括壓縮文 件類、音視頻文件類、圖像文件類、可執(zhí)行文件類、文檔類和數(shù)據(jù)文件類中的一種或幾種。
全文摘要
本發(fā)明的一種快速去重的文件數(shù)據(jù)復(fù)制方法,包括在對存儲介質(zhì)中的第一目標(biāo)文件進行第一次全文件復(fù)制到目標(biāo)文件目錄下以前,處理器對所述第一目標(biāo)文件的元數(shù)據(jù)信息進行指紋計算形成ID1,和對所述第一目標(biāo)文件根據(jù)預(yù)定間隔尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID2,對所述第二目標(biāo)文件元數(shù)據(jù)信息進行指紋計算形成ID3,和對所述第二目標(biāo)文件根據(jù)預(yù)定間隔尺度間隔提取其若干文件數(shù)據(jù)段的內(nèi)容進行指紋計算形成ID4;將所述ID1與所述ID3進行對比;若所述ID1與所述ID3相同,則無需復(fù)制;若所述ID1與所述ID3不相同,且所述ID2與所述ID4相同,則更新所述第一目標(biāo)文件的元數(shù)據(jù),若所述ID2與所述ID4不相同,則將所述第二目標(biāo)文件全文件進行復(fù)制。
文檔編號G06F17/30GK102033962SQ20101062007
公開日2011年4月27日 申請日期2010年12月31日 優(yōu)先權(quán)日2010年12月31日
發(fā)明者朱立谷, 李強 申請人:中國傳媒大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
罗源县| 石泉县| 仙居县| 方正县| 宁都县| 周口市| 宜兰市| 福建省| 伊川县| 霍城县| 西丰县| 陆川县| 龙岩市| 崇义县| 永善县| 新绛县| 岳普湖县| 镇安县| 尚义县| 平远县| 大新县| 军事| 鸡西市| 华池县| 阿拉善左旗| 抚州市| 北宁市| 云霄县| 长葛市| 花垣县| 分宜县| 普兰店市| 苏尼特左旗| 寻乌县| 健康| 上饶市| 乌审旗| 顺义区| 枣庄市| 木兰县| 波密县|