本發(fā)明涉及數(shù)據(jù)管理,尤其涉及一種基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在金融領(lǐng)域,隨著業(yè)務(wù)的快速發(fā)展和數(shù)據(jù)量的爆炸式增長(zhǎng),金融機(jī)構(gòu)面臨著如何高效存儲(chǔ)和處理海量數(shù)據(jù)的挑戰(zhàn)。為了應(yīng)對(duì)這一問(wèn)題,許多金融機(jī)構(gòu)采用了分布式數(shù)據(jù)處理框架hadoop。hadoop作為一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的可擴(kuò)展軟件框架,廣泛應(yīng)用于金融領(lǐng)域的數(shù)據(jù)分析、風(fēng)險(xiǎn)管理、客戶行為預(yù)測(cè)等應(yīng)用場(chǎng)景。
2、hadoop框架中包含了多個(gè)關(guān)鍵組件,其中hdfs(hadoop?distributed?filesystem)用于為海量數(shù)據(jù)提供高效的分布式存儲(chǔ),yarn(yetanother?resourcenegotiator)則負(fù)責(zé)為各種計(jì)算框架提供資源管理和調(diào)度服務(wù)。在傳統(tǒng)的hadoop集群部署中,為了最大限度地利用計(jì)算資源的本地性,計(jì)算和存儲(chǔ)節(jié)點(diǎn)通常部署在同一臺(tái)機(jī)器上。通過(guò)這種方式,可以減少數(shù)據(jù)傳輸?shù)拈_(kāi)銷,提高數(shù)據(jù)處理的效率。
3、然而,這種部署方式在金融行業(yè)中面臨一些實(shí)際問(wèn)題。隨著業(yè)務(wù)需求的增加,金融機(jī)構(gòu)需要頻繁擴(kuò)展hadoop集群的規(guī)模,以滿足不斷增長(zhǎng)的計(jì)算和存儲(chǔ)需求。通常情況下,通過(guò)增加機(jī)器來(lái)橫向擴(kuò)展hadoop集群,可以較為容易地提升系統(tǒng)的性能。然而,這種擴(kuò)展方式要求主機(jī)的計(jì)算和存儲(chǔ)資源達(dá)到相對(duì)均衡的配置,例如cpu、內(nèi)存、網(wǎng)卡和存儲(chǔ)資源的配置需要相互匹配。由于這些資源必須同時(shí)擴(kuò)展,導(dǎo)致單臺(tái)機(jī)器的整體成本較高,且在一些情況下會(huì)產(chǎn)生資源浪費(fèi)。
4、具體而言,hdfs中存儲(chǔ)的數(shù)據(jù)遵循二八原則,即80%的數(shù)據(jù)都是訪問(wèn)頻率極低的冷數(shù)據(jù)。這些冷數(shù)據(jù)雖然占據(jù)了大量存儲(chǔ)空間,但由于訪問(wèn)頻率低,導(dǎo)致存儲(chǔ)這些數(shù)據(jù)的機(jī)器在實(shí)際運(yùn)行中對(duì)cpu和內(nèi)存等計(jì)算資源的需求較低,造成了計(jì)算資源的浪費(fèi)。在金融行業(yè)中,這種資源浪費(fèi)的問(wèn)題尤為突出,因?yàn)槔鋽?shù)據(jù)占用了大量昂貴的計(jì)算資源,而這些資源卻沒(méi)有得到充分利用,影響了整體資源的利用效率。
5、因此,如何在保證數(shù)據(jù)高效處理的同時(shí),優(yōu)化計(jì)算和存儲(chǔ)資源的利用率,降低資源浪費(fèi),成為金融行業(yè)在使用hadoop框架進(jìn)行大數(shù)據(jù)處理時(shí)急需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決現(xiàn)有技術(shù)無(wú)法有效識(shí)別和管理分布式文件系統(tǒng)中的冷數(shù)據(jù),導(dǎo)致冷數(shù)據(jù)占用計(jì)算資源,造成系統(tǒng)資源浪費(fèi)和性能低下的技術(shù)問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理方法,包括:
3、提取分布式文件系統(tǒng)中的元數(shù)據(jù),將所述元數(shù)據(jù)導(dǎo)入到分布式數(shù)據(jù)處理平臺(tái)的元數(shù)據(jù)存儲(chǔ)庫(kù)中;
4、通過(guò)分布式數(shù)據(jù)處理平臺(tái)的離線分析任務(wù),分析所述元數(shù)據(jù)存儲(chǔ)庫(kù)中元數(shù)據(jù)的文件信息,并識(shí)別出冷數(shù)據(jù),并將冷數(shù)據(jù)的文件路徑信息存儲(chǔ)于數(shù)據(jù)庫(kù)中;
5、基于識(shí)別出的冷數(shù)據(jù),生成數(shù)據(jù)遷移計(jì)劃,所述數(shù)據(jù)遷移計(jì)劃包括遷移目標(biāo)位置、遷移優(yōu)先級(jí)排序和遷移時(shí)間安排;
6、根據(jù)所述數(shù)據(jù)遷移計(jì)劃,將所述冷數(shù)據(jù)從原始存儲(chǔ)位置遷移至目標(biāo)遠(yuǎn)端存儲(chǔ),并更新元數(shù)據(jù)存儲(chǔ)庫(kù)中的表分區(qū)路徑,以指向遷移后的新存儲(chǔ)位置;
7、在完成數(shù)據(jù)遷移后,刪除原始存儲(chǔ)位置中的已遷移的冷數(shù)據(jù)。
8、在一個(gè)實(shí)施例中,分析所述元數(shù)據(jù)存儲(chǔ)庫(kù)中元數(shù)據(jù)的文件信息,并識(shí)別出冷數(shù)據(jù),包括:
9、分析所述元數(shù)據(jù)存儲(chǔ)庫(kù)中的元數(shù)據(jù),提取與文件相關(guān)的文件信息,所述文件信息包括文件路徑、最后訪問(wèn)時(shí)間、最后修改時(shí)間、文件大小和創(chuàng)建時(shí)間;
10、設(shè)定用于識(shí)別冷數(shù)據(jù)的訪問(wèn)頻率閾值和時(shí)間點(diǎn)閾值;
11、基于文件信息,統(tǒng)計(jì)文件的訪問(wèn)頻率,將文件的訪問(wèn)頻率與訪問(wèn)頻率閾值進(jìn)行比較,若文件的訪問(wèn)頻率低于所述訪問(wèn)頻率閾值,則將文件標(biāo)記為冷數(shù)據(jù);
12、將文件的最后訪問(wèn)時(shí)間與時(shí)間點(diǎn)閾值進(jìn)行比較,若文件的最后訪問(wèn)時(shí)間早于所述時(shí)間點(diǎn)閾值,則將文件標(biāo)記為冷數(shù)據(jù);
13、根據(jù)文件大小對(duì)文件進(jìn)行分級(jí),并結(jié)合文件的訪問(wèn)頻率和最后訪問(wèn)時(shí)間的結(jié)果進(jìn)行綜合評(píng)估,若滿足綜合評(píng)估標(biāo)準(zhǔn),則將文件標(biāo)記為冷數(shù)據(jù)。
14、在一個(gè)實(shí)施例中,提取分布式文件系統(tǒng)中的元數(shù)據(jù),將所述元數(shù)據(jù)導(dǎo)入到分布式數(shù)據(jù)處理平臺(tái)的元數(shù)據(jù)存儲(chǔ)庫(kù)中,包括:
15、從分布式文件系統(tǒng)導(dǎo)出當(dāng)前的fsimage文件,所述fsimage文件包含文件系統(tǒng)中所有文件和目錄的元數(shù)據(jù);
16、將導(dǎo)出的fsimage文件轉(zhuǎn)換為符合分布式數(shù)據(jù)處理平臺(tái)表結(jié)構(gòu)規(guī)范的文件格式,所述轉(zhuǎn)換包括將元數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的表格形式;
17、選擇分布式數(shù)據(jù)處理平臺(tái)中的目標(biāo)表,并按指定的分區(qū)規(guī)則,將轉(zhuǎn)換后的元數(shù)據(jù)文件導(dǎo)入到目標(biāo)表的分區(qū)中,所述分區(qū)規(guī)則基于日期或文件類型;
18、將導(dǎo)入的元數(shù)據(jù)文件存儲(chǔ)在分布式數(shù)據(jù)處理平臺(tái)的元數(shù)據(jù)存儲(chǔ)庫(kù)中,供數(shù)據(jù)分析任務(wù)使用。
19、在一個(gè)實(shí)施例中,基于識(shí)別出的冷數(shù)據(jù),生成數(shù)據(jù)遷移計(jì)劃,包括:
20、確定冷數(shù)據(jù)的遷移目標(biāo)位置,所述遷移目標(biāo)位置包括遠(yuǎn)端存儲(chǔ)、云存儲(chǔ)或歸檔存儲(chǔ)設(shè)備;
21、基于文件大小、最后訪問(wèn)時(shí)間和訪問(wèn)頻率,計(jì)算冷數(shù)據(jù)的遷移優(yōu)先級(jí);
22、按照遷移優(yōu)先級(jí)將冷數(shù)據(jù)分為多個(gè)遷移批次,并為每個(gè)遷移批次制定遷移時(shí)間安排;
23、基于冷數(shù)據(jù)的遷移目標(biāo)位置、遷移優(yōu)先級(jí)和遷移時(shí)間安排,生成數(shù)據(jù)遷移計(jì)劃。
24、在一個(gè)實(shí)施例中,基于文件大小、最后訪問(wèn)時(shí)間和訪問(wèn)頻率,計(jì)算冷數(shù)據(jù)的遷移優(yōu)先級(jí),包括:
25、根據(jù)文件大小占用的存儲(chǔ)資源量、最后訪問(wèn)時(shí)間對(duì)數(shù)據(jù)使用頻率的反映和訪問(wèn)頻率反映的數(shù)據(jù)使用情況,設(shè)定文件大小、最后訪問(wèn)時(shí)間和訪問(wèn)頻率的權(quán)重;
26、對(duì)文件大小、最后訪問(wèn)時(shí)間和訪問(wèn)頻率的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將不同尺度的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)值范圍;
27、基于標(biāo)準(zhǔn)化后的文件大小、最后訪問(wèn)時(shí)間和訪問(wèn)頻率的數(shù)據(jù),按照設(shè)定的權(quán)重,計(jì)算每個(gè)冷數(shù)據(jù)文件的遷移優(yōu)先級(jí)評(píng)分,優(yōu)先級(jí)評(píng)分由文件大小、最后訪問(wèn)時(shí)間和訪問(wèn)頻率按各自權(quán)重加權(quán)求和得到;
28、根據(jù)優(yōu)先級(jí)評(píng)分對(duì)冷數(shù)據(jù)文件進(jìn)行排序,并為冷數(shù)據(jù)文件分配對(duì)應(yīng)的遷移順序。
29、在一個(gè)實(shí)施例中,刪除原始存儲(chǔ)位置中的已遷移的冷數(shù)據(jù)之后,還包括:
30、監(jiān)控已遷移冷數(shù)據(jù)的訪問(wèn)情況,記錄冷數(shù)據(jù)文件的訪問(wèn)時(shí)間和訪問(wèn)頻率;
31、依據(jù)預(yù)設(shè)的活躍閾值判斷冷數(shù)據(jù)是否重新變得活躍;
32、若冷數(shù)據(jù)的訪問(wèn)頻率達(dá)到設(shè)定的活躍閾值,則生成數(shù)據(jù)回遷計(jì)劃;
33、執(zhí)行所述數(shù)據(jù)回遷計(jì)劃,將重新活躍的冷數(shù)據(jù)遷移至原始存儲(chǔ)位置或高頻存儲(chǔ)區(qū)域;
34、更新元數(shù)據(jù)存儲(chǔ)庫(kù)中的文件路徑信息,將回遷文件的新存儲(chǔ)位置更新至相應(yīng)的表分區(qū)記錄中;
35、完成數(shù)據(jù)回遷后,更新緩存內(nèi)容,并記錄回遷操作的具體信息。
36、在一個(gè)實(shí)施例中,根據(jù)所述數(shù)據(jù)遷移計(jì)劃,將所述冷數(shù)據(jù)從原始存儲(chǔ)位置遷移至目標(biāo)遠(yuǎn)端存儲(chǔ),包括:
37、讀取所述數(shù)據(jù)遷移計(jì)劃,獲取冷數(shù)據(jù)文件列表、遷移目標(biāo)位置、遷移優(yōu)先級(jí)和遷移時(shí)間安排;
38、檢查遷移目標(biāo)位置的可用性,驗(yàn)證存儲(chǔ)空間是否滿足遷移需求,并驗(yàn)證網(wǎng)絡(luò)連接的穩(wěn)定性;
39、根據(jù)數(shù)據(jù)遷移計(jì)劃中的遷移優(yōu)先級(jí)排序和遷移時(shí)間安排,依次啟動(dòng)冷數(shù)據(jù)文件的遷移任務(wù);
40、在遷移過(guò)程中,將超過(guò)預(yù)設(shè)大小閾值的冷數(shù)據(jù)文件進(jìn)行分割并逐部分進(jìn)行傳輸;
41、實(shí)時(shí)監(jiān)控傳輸進(jìn)度、傳輸速率和網(wǎng)絡(luò)連接的穩(wěn)定性,記錄傳輸數(shù)據(jù)和狀態(tài);
42、完成數(shù)據(jù)遷移后,進(jìn)行數(shù)據(jù)校驗(yàn),檢查數(shù)據(jù)在傳輸過(guò)程中是否完整無(wú)損,并詳細(xì)記錄遷移過(guò)程的日志信息。
43、進(jìn)一步地,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理設(shè)備,所述基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理設(shè)備包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理程序,所述基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理方法的步驟。
44、進(jìn)一步地,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理程序,所述基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理方法的步驟。
45、有益效果:本發(fā)明涉及一種基于冷數(shù)據(jù)遷移的數(shù)據(jù)管理方法,通過(guò)提取分布式文件系統(tǒng)中的元數(shù)據(jù),導(dǎo)入至分布式數(shù)據(jù)處理平臺(tái)的元數(shù)據(jù)存儲(chǔ)庫(kù)中。通過(guò)離線分析任務(wù),分析元數(shù)據(jù)存儲(chǔ)庫(kù)中的文件信息,識(shí)別出冷數(shù)據(jù),并將其文件路徑信息存儲(chǔ)于數(shù)據(jù)庫(kù)中。根據(jù)識(shí)別出的冷數(shù)據(jù),生成包括遷移目標(biāo)位置、遷移優(yōu)先級(jí)排序和遷移時(shí)間安排的數(shù)據(jù)遷移計(jì)劃。根據(jù)該計(jì)劃,將冷數(shù)據(jù)從原始存儲(chǔ)位置遷移至目標(biāo)遠(yuǎn)端存儲(chǔ),并更新元數(shù)據(jù)存儲(chǔ)庫(kù)中的表分區(qū)路徑以指向新存儲(chǔ)位置。遷移完成后,刪除原始存儲(chǔ)位置中的冷數(shù)據(jù)。本發(fā)明實(shí)現(xiàn)了冷數(shù)據(jù)與計(jì)算資源的有效分離,優(yōu)化了存儲(chǔ)資源的利用效率,降低了系統(tǒng)的整體資源消耗,同時(shí)提高了系統(tǒng)的擴(kuò)展性和性能。