欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法及系統(tǒng)的制作方法

文檔序號:10655263閱讀:287來源:國知局
一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法及系統(tǒng),其方法包括以下步驟:將數(shù)據(jù)源關(guān)聯(lián)到關(guān)系型數(shù)據(jù)庫中;在關(guān)系型數(shù)據(jù)庫中將數(shù)據(jù)源中的源數(shù)據(jù)抽取到Hive中;判斷抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù),若是則在Hive中按日期建立時間分區(qū)外部表,每天將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的增量抽取到對應(yīng)的時間分區(qū)外部表中;若不是則將Hive中已有的數(shù)據(jù)刪除,并將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的全量抽取到Hive中形成Hive原始數(shù)據(jù)外部表;將存儲有原始數(shù)據(jù)增量的時間分區(qū)外部表和Hive原始數(shù)據(jù)外部表組合形成Hive數(shù)據(jù)倉庫。本發(fā)明將不同關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)集中到一點,可以按照全量進行操作也可以按照日期進行增量操作,減少人工干預(yù)。
【專利說明】
一種基于關(guān)系型數(shù)據(jù)庫形成H i ve數(shù)據(jù)倉庫的方法及系統(tǒng)
技術(shù)領(lǐng)域
[〇〇〇1]本發(fā)明涉及一種形成Hive數(shù)據(jù)倉庫的方法及系統(tǒng),具體的涉及一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法及系統(tǒng)?!颈尘凹夹g(shù)】
[0002]隨著核心業(yè)務(wù)系統(tǒng)的解耦以及外圍平臺的不斷擴展,系統(tǒng)間數(shù)據(jù)一致性和系統(tǒng)內(nèi)各處理環(huán)節(jié)與接口的數(shù)據(jù)一致性問題日趨重要,如何快速發(fā)現(xiàn)、定位數(shù)據(jù)差異,并進行針對性處理修復(fù)數(shù)據(jù),是目前數(shù)據(jù)一致性管理中的重要工作。隨著核心業(yè)務(wù)系統(tǒng)的解耦以及外圍平臺的不斷擴展,生成數(shù)據(jù)的數(shù)據(jù)源越來越多,對于數(shù)據(jù)的統(tǒng)計、分析造成了不方便性, 同時對在生成庫上進行統(tǒng)計分析容易造成對生產(chǎn)庫的影響,現(xiàn)將數(shù)據(jù)進行統(tǒng)一形成數(shù)據(jù)倉庫。現(xiàn)在的處理模式存在以下缺陷:對于抽取語句的配置與變更與人工干預(yù),對于hive表的變更需要人工參與,對于hive表增加字段則修改表結(jié)構(gòu)之前的數(shù)據(jù)無該字段信息,同時無法進行增加,如歷史數(shù)據(jù)需要該字段則需要重新進行抽取數(shù)據(jù)。
【發(fā)明內(nèi)容】

[0003]本發(fā)明所要解決的技術(shù)問題是提供一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法及系統(tǒng),減少人工干預(yù),可實現(xiàn)全量和增量的抽取數(shù)據(jù)。
[0004]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,包括以下步驟:
[0005]S1,通過配置數(shù)據(jù)源的網(wǎng)絡(luò)配置信息與抽取配置信息將數(shù)據(jù)源關(guān)聯(lián)到關(guān)系型數(shù)據(jù)庫中;
[0006]S2,在關(guān)系型數(shù)據(jù)庫中通過網(wǎng)絡(luò)配置信息和抽取配置信息將數(shù)據(jù)源中的源數(shù)據(jù)抽取到Hive中;
[0007]S3,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù),
[0008]若是則在Hive中按日期建立時間分區(qū)外部表,每天將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的增量抽取到對應(yīng)的時間分區(qū)外部表中;
[0009]若不是則將Hive中已有的數(shù)據(jù)刪除,并將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的全量抽取到 Hive中形成Hive原始數(shù)據(jù)外部表;
[0010]S4,將存儲有原始數(shù)據(jù)增量的時間分區(qū)外部表和Hive原始數(shù)據(jù)外部表組合形成 Hive數(shù)據(jù)倉庫。
[0011]本發(fā)明的有益效果是:本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法采用兩層體系進行異常分析定位,基于抽取全量的,每天hive中的數(shù)據(jù)進行刪除,然后原始數(shù)據(jù)抽取到對應(yīng)的hive表中;按天抽取增量的,hive按照日期建立分區(qū)外部表,每天將增量抽取到對應(yīng)的分區(qū)中;這樣可以將不同關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)集中到一點,可以對全量數(shù)據(jù)進行統(tǒng)計分析,同時可以按照全量進行操作也可以按照日期進行增量操作,減少人工干預(yù)。
[0012]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
[0013]進一步,所述網(wǎng)路配置信息包括IP、用戶名和密碼。
[0014]進一步,所述抽取配置信息包括sql語句的屬主、sql語句和抽取周期。
[0015]進一步,在步驟S3中,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù)的判斷標(biāo)準(zhǔn)為:抽取配置信息中的抽取周期是否為按天抽取。
[0016]進一步,在步驟S3中,在Hive中按日期建立時間分區(qū)外部表具體為:時間分區(qū)外部表按照年、月、日建立。
[0017]基于上述一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,本發(fā)明還提供一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng)。
[0018]—種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),包括關(guān)聯(lián)模塊、抽取模塊、判斷執(zhí)行模塊和成型模塊,
[0019]所述關(guān)聯(lián)模塊,其用于通過配置數(shù)據(jù)源的網(wǎng)絡(luò)配置信息與抽取配置信息將數(shù)據(jù)源關(guān)聯(lián)到關(guān)系型數(shù)據(jù)庫中;
[0020]所述抽取模塊,其用于在關(guān)系型數(shù)據(jù)庫中通過網(wǎng)絡(luò)配置信息和抽取配置信息將數(shù)據(jù)源中的源數(shù)據(jù)抽取到Hive中;
[0021]所述判斷執(zhí)行模塊,其用于判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù),
[0022]若是則在Hive中按日期建立時間分區(qū)外部表,每天將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的增量抽取到對應(yīng)的時間分區(qū)外部表中;[〇〇23]若不是則將Hive中已有的數(shù)據(jù)刪除,并將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的全量抽取到 Hive中形成Hive原始數(shù)據(jù)外部表;
[0024]所述成型模塊,其用于將存儲有原始數(shù)據(jù)增量的時間分區(qū)外部表和Hive原始數(shù)據(jù)外部表組合形成Hi ve數(shù)據(jù)倉庫。[〇〇25]本發(fā)明的有益效果是:本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng)采用兩層體系進行異常分析定位,基于抽取全量的,每天hive中的數(shù)據(jù)進行刪除,然后原始數(shù)據(jù)抽取到對應(yīng)的hive表中;按天抽取增量的,hive按照日期建立分區(qū)外部表,每天將增量抽取到對應(yīng)的分區(qū)中;這樣可以將不同關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)集中到一點,可以對全量數(shù)據(jù)進行統(tǒng)計分析,同時可以按照全量進行操作也可以按照日期進行增量操作,減少人工干預(yù)。
[0026]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
[0027]進一步,所述網(wǎng)路配置信息包括IP、用戶名和密碼。[〇〇28]進一步,所述抽取配置信息包括sql語句的屬主、sql語句和抽取周期。
[0029]進一步,在所述判斷執(zhí)行模塊中,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù)的判斷標(biāo)準(zhǔn)為:抽取配置信息中的抽取周期是否為按天抽取。
[0030]進一步,在所述判斷執(zhí)行模塊中,在Hive中按日期建立時間分區(qū)外部表具體為:時間分區(qū)外部表按照年、月、日建立。【附圖說明】
[0031]圖1為本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法的流程圖;[〇〇32]圖2為本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng)的框圖;[〇〇33]圖3為本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng)執(zhí)行的原理圖?!揪唧w實施方式】
[0034]以下結(jié)合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。[〇〇35]如圖1所示,一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,包括以下步驟:
[0036]S1,通過配置數(shù)據(jù)源的網(wǎng)絡(luò)配置信息與抽取配置信息將數(shù)據(jù)源關(guān)聯(lián)到關(guān)系型數(shù)據(jù)庫中。所述網(wǎng)路配置信息包括IP、用戶名和密碼;所述抽取配置信息包括sql語句的屬主、 sql語句和抽取周期。
[0037]S2,在關(guān)系型數(shù)據(jù)庫中通過網(wǎng)絡(luò)配置信息和抽取配置信息將數(shù)據(jù)源中的源數(shù)據(jù)抽取到Hive中。
[0038]S3,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù),[〇〇39]若是則在Hi ve中按日期建立時間分區(qū)外部表,每天將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的增量抽取到對應(yīng)的時間分區(qū)外部表中;
[0040]若不是則將Hive中已有的數(shù)據(jù)刪除,并將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的全量抽取到 Hive中形成Hive原始數(shù)據(jù)外部表。
[0041]S4,將存儲有原始數(shù)據(jù)增量的時間分區(qū)外部表和Hive原始數(shù)據(jù)外部表組合形成 Hive數(shù)據(jù)倉庫。
[0042]在步驟S3中,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù)的判斷標(biāo)準(zhǔn)為:抽取配置信息中的抽取周期是否為按天抽取。在Hive中按日期建立時間分區(qū)外部表具體為:時間分區(qū)外部表按照年、月、日建立。[〇〇43]本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法提出通過按天抽取關(guān)系型數(shù)據(jù)庫增量數(shù)據(jù)形成Hive數(shù)據(jù)倉庫,用于對數(shù)據(jù)進行進一步的加工以及對數(shù)據(jù)的應(yīng)用、 分析。抽取數(shù)據(jù)分的方法為在hive中按天建立原始數(shù)據(jù)的外部表;第一次抽取時按照全量進行抽取放入當(dāng)天的分區(qū)內(nèi);每天定時抽取增量,放入對應(yīng)的日期分區(qū)內(nèi)。對于對已有數(shù)據(jù)更新的問題,因hive不支持DML語句,即不支持UPDATE、DELETE語句,需要對已有數(shù)據(jù)進行去重工作,根據(jù)操作時間和唯一標(biāo)識符取得該條語句最后一條語句。需要注意的是,因抽取數(shù)據(jù)的數(shù)據(jù)源不同,針對抽取的語句也會不同,要保證不同的抽取數(shù)據(jù)源的抽取語句的字段數(shù)保持一致,并相對應(yīng)的字段表達的意思應(yīng)為相同類型,現(xiàn)在配置抽取語句為人工配置,需要對抽取數(shù)據(jù)源的有足夠的了解,另外,如需要在hive表中增加字段,需通過人工手動添加,同時要在抽取語句上進行字段的增加,在以后的數(shù)據(jù)中會出現(xiàn)增加的字段值,以前的數(shù)據(jù)無該字段值。本發(fā)明的方法引入數(shù)據(jù)倉庫來解決基于生產(chǎn)庫產(chǎn)生的數(shù)據(jù)進行數(shù)據(jù)分析, 將數(shù)據(jù)抽取到HIVE倉庫,按照hive中生成的表進行全量數(shù)據(jù)的查詢與分析。[〇〇44]通過對原始數(shù)據(jù)的歸類以及綜合維護人員的實際處理經(jīng)驗,目前整理出來的針對原始數(shù)據(jù)的定位方式包括:
[0045]1、原始數(shù)據(jù)只在一個關(guān)系型數(shù)據(jù)庫中存在。
[0046]2、原始數(shù)據(jù)在不同的關(guān)系型數(shù)據(jù)庫中存在,但是表結(jié)構(gòu)相同,存儲的數(shù)據(jù)類型也相同。
[0047]3、原始數(shù)據(jù)在不同的關(guān)系型數(shù)據(jù)庫中存在,表結(jié)構(gòu)不相同。[〇〇48]4、按天取原始數(shù)據(jù)的增量。
[0049]5、全量抽取原始數(shù)據(jù)。
[0050]通過對上述五種情況的分析,第一種與第二種通過維護源數(shù)據(jù)管理庫和數(shù)據(jù)抽取管理庫,sql語句寫成一致即可,第三種情況比較復(fù)雜,需要業(yè)務(wù)人員對不同的生成庫的業(yè)務(wù)有一定的了解,同時sql語句每列的定義要一致才可以。第四種在hive中按天建立分區(qū), 將增量數(shù)據(jù)抽取到對應(yīng)的分區(qū)中,第五種每天都抽取全量,hive表不按照分區(qū)建表。
[0051]基于上述分析結(jié)果,本發(fā)明的方法采用兩層體系進行異常分析定位:[〇〇52]1、基于抽取全量的,每天hive中的數(shù)據(jù)進行刪除,然后原始數(shù)據(jù)抽取到對應(yīng)的hive表中。
[0053]2、按天抽取增量的,hive按照日期建立分區(qū)外部表,每天將增量抽取到對應(yīng)的分區(qū)中。[〇〇54]本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法采用兩層體系進行異常分析定位,基于抽取全量的,每天hive中的數(shù)據(jù)進行刪除,然后原始數(shù)據(jù)抽取到對應(yīng)的hive 表中;按天抽取增量的,hive按照日期建立分區(qū)外部表,每天將增量抽取到對應(yīng)的分區(qū)中; 這樣可以將不同關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)集中到一點,可以對全量數(shù)據(jù)進行統(tǒng)計分析,同時可以按照全量進行操作也可以按照日期進行增量操作,減少人工干預(yù)。
[0055]基于上述一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,本發(fā)明還提供一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng)。[〇〇56]如圖2所示,一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),包括關(guān)聯(lián)模塊、抽取模塊、判斷執(zhí)行模塊和成型模塊,所述關(guān)聯(lián)模塊,其用于通過配置數(shù)據(jù)源的網(wǎng)絡(luò)配置信息與抽取配置信息將數(shù)據(jù)源關(guān)聯(lián)到關(guān)系型數(shù)據(jù)庫中;所述抽取模塊,其用于在關(guān)系型數(shù)據(jù)庫中通過網(wǎng)絡(luò)配置信息和抽取配置信息將數(shù)據(jù)源中的源數(shù)據(jù)抽取到Hive中;所述判斷執(zhí)行模塊,其用于判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù),若是則在Hi ve中按日期建立時間分區(qū)外部表,每天將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的增量抽取到對應(yīng)的時間分區(qū)外部表中;若不是則將Hive中已有的數(shù)據(jù)刪除,并將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的全量抽取到Hive中形成Hive原始數(shù)據(jù)外部表;所述成型模塊,其用于將存儲有原始數(shù)據(jù)增量的時間分區(qū)外部表和Hive原始數(shù)據(jù)外部表組合形成Hive數(shù)據(jù)倉庫。[〇〇57]所述網(wǎng)路配置信息包括IP、用戶名和密碼。所述抽取配置信息包括sql語句的屬主、sql語句和抽取周期。
[0058]在所述判斷執(zhí)行模塊中,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù)的判斷標(biāo)準(zhǔn)為:抽取配置信息中的抽取周期是否為按天抽取。在所述判斷執(zhí)行模塊中,在Hive中按日期建立時間分區(qū)外部表具體為:時間分區(qū)外部表按照年、月、日建立。[〇〇59]在本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),系統(tǒng)執(zhí)行的原理如圖 3所示。
[0060]整個Hive數(shù)據(jù)倉庫可分為4個部分:源數(shù)據(jù)管理庫:集中管理需要抽取的關(guān)系型數(shù)據(jù)庫的配置信息;數(shù)據(jù)抽取管理庫:集中管理抽取數(shù)據(jù)的sql語句的配置信息;Hive源數(shù)據(jù)管理庫:集中管理hive中表結(jié)構(gòu)信息的配置信息。任務(wù)調(diào)度:負責(zé)各個結(jié)果分析任務(wù)的調(diào)度工作,同時負責(zé)關(guān)聯(lián)規(guī)則和特征規(guī)則的執(zhí)行順序控制。
[0061]本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng)采用兩層體系進行異常分析定位,基于抽取全量的,每天hive中的數(shù)據(jù)進行刪除,然后原始數(shù)據(jù)抽取到對應(yīng)的hive 表中;按天抽取增量的,hive按照日期建立分區(qū)外部表,每天將增量抽取到對應(yīng)的分區(qū)中; 這樣可以將不同關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)集中到一點,可以對全量數(shù)據(jù)進行統(tǒng)計分析,同時可以按照全量進行操作也可以按照日期進行增量操作,減少人工干預(yù)。
[0062]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,其特征在于,包括以下步驟:S1,通過配置數(shù)據(jù)源的網(wǎng)絡(luò)配置信息與抽取配置信息將數(shù)據(jù)源關(guān)聯(lián)到關(guān)系型數(shù)據(jù)庫 中;52,在關(guān)系型數(shù)據(jù)庫中通過網(wǎng)絡(luò)配置信息和抽取配置信息將數(shù)據(jù)源中的源數(shù)據(jù)抽取到 Hive 中;53,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù),若是則在Hive中按日期建立時間分區(qū)外部表,每天將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的增量抽 取到對應(yīng)的時間分區(qū)外部表中;若不是則將Hive中已有的數(shù)據(jù)刪除,并將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的全量抽取到Hive中 形成Hive原始數(shù)據(jù)外部表;54,將存儲有原始數(shù)據(jù)增量的時間分區(qū)外部表和Hive原始數(shù)據(jù)外部表組合形成Hive數(shù) 據(jù)倉庫。2.根據(jù)權(quán)利要求1所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,其特征在 于:所述網(wǎng)路配置信息包括IP、用戶名和密碼。3.根據(jù)權(quán)利要求1或2所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,其特征 在于:所述抽取配置信息包括sql語句的屬主、sql語句和抽取周期。4.根據(jù)權(quán)利要求3所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,其特征在 于,在步驟S3中,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的原始數(shù)據(jù)的 判斷標(biāo)準(zhǔn)為:抽取配置信息中的抽取周期是否為按天抽取。5.根據(jù)權(quán)利要求4所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的方法,其特征在 于,在步驟S3中,在Hive中按日期建立時間分區(qū)外部表具體為:時間分區(qū)外部表按照年、月、 日建立。6.—種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),其特征在于:包括關(guān)聯(lián)模塊、抽取 模塊、判斷執(zhí)行模塊和成型模塊,所述關(guān)聯(lián)模塊,其用于通過配置數(shù)據(jù)源的網(wǎng)絡(luò)配置信息與抽取配置信息將數(shù)據(jù)源關(guān)聯(lián) 到關(guān)系型數(shù)據(jù)庫中;所述抽取模塊,其用于在關(guān)系型數(shù)據(jù)庫中通過網(wǎng)絡(luò)配置信息和抽取配置信息將數(shù)據(jù)源 中的源數(shù)據(jù)抽取到Hive中;所述判斷執(zhí)行模塊,其用于判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量 的原始數(shù)據(jù),若是則在Hive中按日期建立時間分區(qū)外部表,每天將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的增量抽 取到對應(yīng)的時間分區(qū)外部表中;若不是則將Hive中已有的數(shù)據(jù)刪除,并將關(guān)系型數(shù)據(jù)庫中源數(shù)據(jù)的全量抽取到Hive中 形成Hive原始數(shù)據(jù)外部表;所述成型模塊,其用于將存儲有原始數(shù)據(jù)增量的時間分區(qū)外部表和Hive原始數(shù)據(jù)外部 表組合形成Hive數(shù)據(jù)倉庫。7.根據(jù)權(quán)利要求6所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),其特征在 于:所述網(wǎng)路配置信息包括IP、用戶名和密碼。8.根據(jù)權(quán)利要求6或7所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),其特征在于:所述抽取配置信息包括sql語句的屬主、sql語句和抽取周期。9.根據(jù)權(quán)利要求8所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),其特征在 于,在所述判斷執(zhí)行模塊中,判斷在關(guān)系型數(shù)據(jù)庫中抽取的源數(shù)據(jù)是否為按天抽取增量的 原始數(shù)據(jù)的判斷標(biāo)準(zhǔn)為:抽取配置信息中的抽取周期是否為按天抽取。10.根據(jù)權(quán)利要求9所述的一種基于關(guān)系型數(shù)據(jù)庫形成Hive數(shù)據(jù)倉庫的系統(tǒng),其特征在 于,在所述判斷執(zhí)行模塊中,在Hive中按日期建立時間分區(qū)外部表具體為:時間分區(qū)外部表 按照年、月、日建立。
【文檔編號】G06F17/30GK106021422SQ201610319933
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】張森威
【申請人】北京思特奇信息技術(shù)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
娄烦县| 阿瓦提县| 咸阳市| 黄梅县| 郴州市| 永平县| 巴林右旗| 新巴尔虎左旗| 喀什市| 杭锦后旗| 蓬莱市| 庆安县| 池州市| 云和县| 略阳县| 调兵山市| 汨罗市| 香河县| 松原市| 开远市| 蒙城县| 临海市| 临桂县| 重庆市| 恩施市| 永康市| 临安市| 盘山县| 元江| 嘉峪关市| 三河市| 化隆| 广河县| 德江县| 溧阳市| 石楼县| 克什克腾旗| 开平市| 连平县| 成武县| 通化县|