專利名稱:一種集群存儲(chǔ)系統(tǒng)內(nèi)部的數(shù)據(jù)在線分級(jí)存儲(chǔ)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用技術(shù),具體地說(shuō)是一種應(yīng)用于集群網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)中數(shù)據(jù)的在線分級(jí)存儲(chǔ)管理方法。
背景技術(shù):
集群存儲(chǔ)系統(tǒng)中存放著海量的數(shù)據(jù),使用了大量的磁盤,如果集群存儲(chǔ)系統(tǒng)中都使用高性
能的磁盤,消耗的費(fèi)用是相當(dāng)可觀的。但是,數(shù)據(jù)是具有生命周期的,在數(shù)據(jù)剛生成的數(shù)日內(nèi),訪問(wèn)頻率最高,為企業(yè)產(chǎn)生效益和收入,帶來(lái)的價(jià)值也最高;隨著時(shí)間的推移,訪問(wèn)頻率降低,數(shù)據(jù)的價(jià)值也隨之下降。所以,可以在集群存儲(chǔ)系統(tǒng)內(nèi)添加性能不同的磁盤,基于數(shù)據(jù)訪問(wèn)的局部性,將訪問(wèn)頻率低的數(shù)據(jù)存放到低性能的磁盤上,釋放出較高成本的存儲(chǔ)空間給更頻繁訪問(wèn)的數(shù)據(jù)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種集群存儲(chǔ)系統(tǒng)內(nèi)部的數(shù)據(jù)在線分級(jí)存儲(chǔ)方法。本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,根據(jù)數(shù)據(jù)的訪問(wèn)頻率,把數(shù)據(jù)存放到不同性能的存儲(chǔ)池,從而減少的存儲(chǔ)成本,提高了系統(tǒng)的整體性能,方法包括存儲(chǔ)池模型、數(shù)據(jù)的掃描與遷移模型,其中
存儲(chǔ)池模型通過(guò)在集群文件系統(tǒng)內(nèi)部創(chuàng)建存儲(chǔ)池,實(shí)現(xiàn)數(shù)據(jù)的在線分級(jí)存儲(chǔ)保證在數(shù)據(jù)遷移之后,只改變數(shù)據(jù)存放的存儲(chǔ)池,并不改變數(shù)據(jù)的存放目錄,從而實(shí)現(xiàn)對(duì)用戶和應(yīng)用的透明遷移;對(duì)于在線遷移,利用文件系統(tǒng)內(nèi)部的鎖機(jī)制有效屏蔽在文件遷移時(shí)保證數(shù)據(jù)一致性,與文件系統(tǒng)間數(shù)據(jù)遷移相比,文件系統(tǒng)內(nèi)部的數(shù)據(jù)遷移速度要快很多;
數(shù)據(jù)的掃描與遷移模型給出了數(shù)據(jù)分級(jí)存儲(chǔ)的詳細(xì)方法,包括設(shè)定掃描策略;設(shè)定基于多指標(biāo)的數(shù)據(jù)遷移策略和回遷策略;基于掃描策略,并行掃描集群文件系統(tǒng)中的文件, 獲取文件信息和文件訪問(wèn)情況;監(jiān)控高性能存儲(chǔ)池的空間使用率,當(dāng)使用率低于設(shè)定的高閾值時(shí),將訪問(wèn)頻率低的數(shù)據(jù)自動(dòng)遷移到下一級(jí)存儲(chǔ)池,直到使用率低于低閾值;執(zhí)行遷移,利用多線程技術(shù)并行執(zhí)行數(shù)據(jù)遷移操作和回遷操作; 數(shù)據(jù)在線分級(jí)存儲(chǔ)步驟如下
1)數(shù)據(jù)節(jié)點(diǎn)與后端存儲(chǔ)通過(guò)光纖連接;數(shù)據(jù)節(jié)點(diǎn),控制節(jié)點(diǎn),客戶端和分級(jí)存儲(chǔ)服務(wù)器通過(guò)IB交換機(jī)相連,設(shè)置好文件系統(tǒng)內(nèi)部的LNET網(wǎng)絡(luò),把集群文件系統(tǒng)掛載到分級(jí)存儲(chǔ)服務(wù)器上;
2)使用集群文件系統(tǒng)的內(nèi)部命令創(chuàng)建存儲(chǔ)池; 3)編寫文件系統(tǒng)掃描模塊,基于掃描策略掃描文件系統(tǒng)中的文件信息和文件訪問(wèn)情況,并把掃描到的信息更新到數(shù)據(jù)庫(kù)中;4)編寫存儲(chǔ)池監(jiān)控模塊,實(shí)時(shí)檢測(cè)存儲(chǔ)池的使用率;
5)編寫數(shù)據(jù)遷移模塊,基于遷移策略查詢掃描數(shù)據(jù)庫(kù),確定滿足遷移條件的文件列表, 多線程執(zhí)行數(shù)據(jù)遷移;
6)編寫數(shù)據(jù)回遷模塊,基于回遷策略查詢掃描數(shù)據(jù)庫(kù),確定滿足回遷條件的文件列表, 多線程執(zhí)行數(shù)據(jù)回遷。在存儲(chǔ)池模型中,數(shù)據(jù)的在線分級(jí)存儲(chǔ)不是在文件系統(tǒng)間實(shí)現(xiàn)的,而是在集群文件系統(tǒng)內(nèi)部利用存儲(chǔ)池實(shí)現(xiàn)的,主流的集群文件系統(tǒng)都支持存儲(chǔ)池的創(chuàng)建。在數(shù)據(jù)的掃描與遷移中,數(shù)據(jù)的掃描與遷移都是基于掃描策略和多指標(biāo)的數(shù)據(jù)遷移策略和回遷策略策略,都采用多線程技術(shù)的并行執(zhí)行,這樣不僅管理靈活,縮小掃描和遷移數(shù)據(jù)的范圍,而且執(zhí)行速度更快,效率更高。本發(fā)明的優(yōu)異效果,數(shù)據(jù)具有生命周期,不同時(shí)期尤其存在的不同意義,集群存儲(chǔ)系統(tǒng)中存儲(chǔ)著海量數(shù)據(jù),但其中只有20%為關(guān)鍵數(shù)據(jù),訪問(wèn)頻率較高;而80%為非關(guān)鍵數(shù)據(jù), 訪問(wèn)頻率低下,通常一個(gè)月甚至一年都不被訪問(wèn),集群存儲(chǔ)系中存放著海量的數(shù)據(jù),針對(duì)數(shù)據(jù)具有生命周期的特點(diǎn),根據(jù)數(shù)據(jù)的訪問(wèn)頻率把數(shù)據(jù)分級(jí)存放,節(jié)省存儲(chǔ)成本。本發(fā)明基于數(shù)據(jù)的生命周期,在集群存儲(chǔ)系統(tǒng)內(nèi)部創(chuàng)建性能不同的存儲(chǔ)池,利用掃描軟件和遷移軟件實(shí)現(xiàn)集群存儲(chǔ)系統(tǒng)內(nèi)部的在線分級(jí)存儲(chǔ),不僅節(jié)省了存儲(chǔ)成本,而且提高了系統(tǒng)整體性能。
圖1集群文件系統(tǒng)分級(jí)存儲(chǔ)實(shí)施圖。
具體實(shí)施例方式參照說(shuō)明書(shū)附圖對(duì)本發(fā)明的方法作以下詳細(xì)地說(shuō)明。本發(fā)明提出一種在集群存儲(chǔ)系統(tǒng)內(nèi)部的數(shù)據(jù)在線分級(jí)存儲(chǔ)方法,其核心內(nèi)容就是利用存儲(chǔ)池實(shí)現(xiàn)數(shù)據(jù)在集群存儲(chǔ)系統(tǒng)內(nèi)部的在線分級(jí)存儲(chǔ)。數(shù)據(jù)在存儲(chǔ)池間遷移,只是改變的了數(shù)據(jù)存放的物理磁盤,并沒(méi)有改變其存放目錄,所以數(shù)據(jù)遷移是對(duì)用戶和應(yīng)用透明的。對(duì)于在線遷移,利用集群文件系統(tǒng)內(nèi)部的鎖機(jī)制可以有效的保障數(shù)據(jù)在遷移過(guò)程中的一致性。由于數(shù)據(jù)的遷移實(shí)在存儲(chǔ)池間進(jìn)行,并采用并發(fā)執(zhí)行,所以遷移速度得到了保障。 該方法把訪問(wèn)頻率高的數(shù)據(jù)存放在高性能存儲(chǔ)池,訪問(wèn)頻率低的數(shù)據(jù)存放在低性能存儲(chǔ)池,這樣不僅大大降低了存儲(chǔ)成本,而且把集群存儲(chǔ)系統(tǒng)的性能發(fā)揮到最大。存儲(chǔ)池模型是本發(fā)明的關(guān)鍵。數(shù)據(jù)的遷移不在集群文件系統(tǒng)間進(jìn)行,而是在集群文件系統(tǒng)內(nèi)部的存儲(chǔ)池間進(jìn)行。系統(tǒng)啟動(dòng)后,使用集群文件系統(tǒng)的內(nèi)部命令創(chuàng)建多個(gè)存儲(chǔ)池,使用命令把性能相近的OST添加到同一個(gè)存儲(chǔ)池,這樣就獲得了不同性能的存儲(chǔ)池。對(duì)于用戶新寫入的數(shù)據(jù),默認(rèn)的存放在高性能的存儲(chǔ)池,當(dāng)高性能存儲(chǔ)池的使用率超過(guò)高閾值時(shí),自動(dòng)觸發(fā)遷移,系統(tǒng)會(huì)將訪問(wèn)頻率低數(shù)據(jù)遷移到下一級(jí)的存儲(chǔ)池,當(dāng)高性能存儲(chǔ)池的使用率下降到低閾值時(shí),終止遷移。數(shù)據(jù)的掃描與遷移模型是在創(chuàng)建存儲(chǔ)池的基礎(chǔ)上對(duì)滿足遷移條件的文件執(zhí)行遷移操作。首先創(chuàng)建一個(gè)遷移任務(wù),指定高性能存儲(chǔ)池和低性能存儲(chǔ)池;設(shè)定掃描策略,確定掃描的對(duì)象;設(shè)定基于多指標(biāo)的數(shù)據(jù)遷移策略和回遷策略,確定文件的遷移條件與回遷條件;根據(jù)掃描策略多線程地并行掃描整個(gè)文件系統(tǒng),獲取文件信息和文件的訪問(wèn)情況,更新到文件信息數(shù)據(jù)庫(kù);基于遷移策略,在文件信息數(shù)據(jù)庫(kù)中篩選滿足遷移條件的文件,確定遷移文件列表,對(duì)遷移列表中的文件執(zhí)行多線程并發(fā)遷移,釋放出高成本的存儲(chǔ)空間給更頻繁訪問(wèn)的數(shù)據(jù);基于回遷策略,在文件信息數(shù)據(jù)庫(kù)中篩選滿足回遷條件的文件,確定回遷文件列表,對(duì)遷回遷列表中的文件執(zhí)行多線程并發(fā)回遷。
實(shí)施例數(shù)據(jù)在線分級(jí)存儲(chǔ)步驟如下
數(shù)據(jù)節(jié)點(diǎn)與后端存儲(chǔ)通過(guò)光纖連接;數(shù)據(jù)節(jié)點(diǎn),控制節(jié)點(diǎn),客戶端和分級(jí)存儲(chǔ)服務(wù)器通過(guò)IB交換機(jī)相連。設(shè)置好文件系統(tǒng)內(nèi)部的LNET網(wǎng)絡(luò),把集群文件系統(tǒng)掛載到分級(jí)存儲(chǔ)服務(wù)器上。使用集群文件系統(tǒng)的內(nèi)部命令創(chuàng)建存儲(chǔ)池。編寫文件系統(tǒng)掃描模塊,基于掃描策略掃描文件系統(tǒng)中的文件信息和文件訪問(wèn)情況,并把掃描到的信息更新到數(shù)據(jù)庫(kù)中。編寫存儲(chǔ)池監(jiān)控模塊,實(shí)時(shí)檢測(cè)存儲(chǔ)池的使用率。編寫數(shù)據(jù)遷移模塊,基于遷移策略查詢掃描數(shù)據(jù)庫(kù),確定滿足遷移條件的文件列表,多線程執(zhí)行數(shù)據(jù)遷移。編寫數(shù)據(jù)回遷模塊,基于回遷策略查詢掃描數(shù)據(jù)庫(kù),確定滿足回遷條件的文件列表,多線程執(zhí)行數(shù)據(jù)回遷。除說(shuō)明書(shū)所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
權(quán)利要求
1.一種集群存儲(chǔ)系統(tǒng)內(nèi)部的數(shù)據(jù)在線分級(jí)存儲(chǔ)方法,其特征在于根據(jù)數(shù)據(jù)的訪問(wèn)頻率,把數(shù)據(jù)存放到不同性能的存儲(chǔ)池,從而減少的存儲(chǔ)成本,提高了系統(tǒng)的整體性能,方法包括存儲(chǔ)池模型、數(shù)據(jù)的掃描與遷移模型,其中存儲(chǔ)池模型通過(guò)在集群文件系統(tǒng)內(nèi)部創(chuàng)建存儲(chǔ)池,實(shí)現(xiàn)數(shù)據(jù)的在線分級(jí)存儲(chǔ)保證在數(shù)據(jù)遷移之后,只改變數(shù)據(jù)存放的存儲(chǔ)池,并不改變數(shù)據(jù)的存放目錄,從而實(shí)現(xiàn)對(duì)用戶和應(yīng)用的透明遷移;對(duì)于在線遷移,利用文件系統(tǒng)內(nèi)部的鎖機(jī)制有效屏蔽在文件遷移時(shí)保證數(shù)據(jù)一致性,與文件系統(tǒng)間數(shù)據(jù)遷移相比,文件系統(tǒng)內(nèi)部的數(shù)據(jù)遷移速度要快很多;數(shù)據(jù)的掃描與遷移模型給出了數(shù)據(jù)分級(jí)存儲(chǔ)的詳細(xì)方法,包括設(shè)定掃描策略;設(shè)定基于多指標(biāo)的數(shù)據(jù)遷移策略和回遷策略;基于掃描策略,并行掃描集群文件系統(tǒng)中的文件, 獲取文件信息和文件訪問(wèn)情況;監(jiān)控高性能存儲(chǔ)池的空間使用率,當(dāng)使用率低于設(shè)定的高閾值時(shí),將訪問(wèn)頻率低的數(shù)據(jù)自動(dòng)遷移到下一級(jí)存儲(chǔ)池,直到使用率低于低閾值;執(zhí)行遷移,利用多線程技術(shù)并行執(zhí)行數(shù)據(jù)遷移操作和回遷操作,數(shù)據(jù)在線分級(jí)存儲(chǔ)步驟如下1)數(shù)據(jù)節(jié)點(diǎn)與后端存儲(chǔ)通過(guò)光纖連接;數(shù)據(jù)節(jié)點(diǎn),控制節(jié)點(diǎn),客戶端和分級(jí)存儲(chǔ)服務(wù)器通過(guò)IB交換機(jī)相連,設(shè)置好文件系統(tǒng)內(nèi)部的LNET網(wǎng)絡(luò),把集群文件系統(tǒng)掛載到分級(jí)存儲(chǔ)服務(wù)器上;2)使用集群文件系統(tǒng)的內(nèi)部命令創(chuàng)建存儲(chǔ)池;3)編寫文件系統(tǒng)掃描模塊,基于掃描策略掃描文件系統(tǒng)中的文件信息和文件訪問(wèn)情況,并把掃描到的信息更新到數(shù)據(jù)庫(kù)中;4)編寫存儲(chǔ)池監(jiān)控模塊,實(shí)時(shí)檢測(cè)存儲(chǔ)池的使用率;5)編寫數(shù)據(jù)遷移模塊,基于遷移策略查詢掃描數(shù)據(jù)庫(kù),確定滿足遷移條件的文件列表, 多線程執(zhí)行數(shù)據(jù)遷移;6)編寫數(shù)據(jù)回遷模塊,基于回遷策略查詢掃描數(shù)據(jù)庫(kù),確定滿足回遷條件的文件列表, 多線程執(zhí)行數(shù)據(jù)回遷。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于在存儲(chǔ)池模型中,數(shù)據(jù)的在線分級(jí)存儲(chǔ)不是在文件系統(tǒng)間實(shí)現(xiàn)的,而是在集群文件系統(tǒng)內(nèi)部利用存儲(chǔ)池實(shí)現(xiàn)的,主流的集群文件系統(tǒng)都支持存儲(chǔ)池的創(chuàng)建。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于在數(shù)據(jù)的掃描與遷移中,數(shù)據(jù)的掃描與遷移都是基于掃描策略和多指標(biāo)的數(shù)據(jù)遷移策略和回遷策略策略,都采用多線程技術(shù)的并行執(zhí)行,這樣不僅管理靈活,縮小掃描和遷移數(shù)據(jù)的范圍,而且執(zhí)行速度更快,效率更高。
全文摘要
本發(fā)明提供一種集群存儲(chǔ)系統(tǒng)內(nèi)部的數(shù)據(jù)在線分級(jí)存儲(chǔ)方法,數(shù)據(jù)具有生命周期,不同時(shí)期尤其存在的不同意義,集群存儲(chǔ)系統(tǒng)中存儲(chǔ)著海量數(shù)據(jù),但其中只有20%為關(guān)鍵數(shù)據(jù),訪問(wèn)頻率較高;而80%為非關(guān)鍵數(shù)據(jù),訪問(wèn)頻率低下,通常一個(gè)月甚至一年都不被訪問(wèn),集群存儲(chǔ)系中存放著海量的數(shù)據(jù),針對(duì)數(shù)據(jù)具有生命周期的特點(diǎn),根據(jù)數(shù)據(jù)的訪問(wèn)頻率把數(shù)據(jù)分級(jí)存放,節(jié)省存儲(chǔ)成本。本發(fā)明基于數(shù)據(jù)的生命周期,在集群存儲(chǔ)系統(tǒng)內(nèi)部創(chuàng)建性能不同的存儲(chǔ)池,利用掃描軟件和遷移軟件實(shí)現(xiàn)集群存儲(chǔ)系統(tǒng)內(nèi)部的在線分級(jí)存儲(chǔ),不僅節(jié)省了存儲(chǔ)成本,而且提高了系統(tǒng)整體性能。
文檔編號(hào)H04L29/08GK102291450SQ20111022581
公開(kāi)日2011年12月21日 申請(qǐng)日期2011年8月8日 優(yōu)先權(quán)日2011年8月8日
發(fā)明者張立強(qiáng), 郭秋雨 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司