技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于Hive的數(shù)據(jù)處理的方法、系統(tǒng)及終端設(shè)備。所述基于Hive的數(shù)據(jù)處理的方法,包括:將Hadoop集群數(shù)據(jù)中的源頭數(shù)據(jù)通過(guò)Hive映射為源表,源表包括源頭數(shù)據(jù)中用于描述行數(shù)據(jù)標(biāo)記的第一主鍵字段;將Hadoop集群數(shù)據(jù)中的由所述源頭數(shù)據(jù)產(chǎn)生的中間數(shù)據(jù)通過(guò)Hive映射為中間表,中間表包括中間數(shù)據(jù)從源頭數(shù)據(jù)繼承的所述第一主鍵字段;將欲清理的中間數(shù)據(jù)所對(duì)應(yīng)的中間表中的所述第一主鍵字段備份到備份表;清理所述欲清理的中間數(shù)據(jù)及其所對(duì)應(yīng)的中間表。本發(fā)明在不刪除源頭數(shù)據(jù)的情形下,對(duì)中間數(shù)據(jù)進(jìn)行有效的備份,既能存儲(chǔ)更長(zhǎng)時(shí)間的源頭數(shù)據(jù),又能從備份表快速恢復(fù)所述已清理的中間數(shù)據(jù),保證中間數(shù)據(jù)的有效利用。
技術(shù)研發(fā)人員:陶勝
受保護(hù)的技術(shù)使用者:廣州虎牙信息科技有限公司
技術(shù)研發(fā)日:2017.06.09
技術(shù)公布日:2017.11.07