欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法和建模裝置制造方法

文檔序號:6639093閱讀:217來源:國知局
基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法和建模裝置制造方法
【專利摘要】本發(fā)明提供了一種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法和一種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置,所述方法包括:步驟102,設(shè)置業(yè)務(wù)變化頻度區(qū)間;步驟104,根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的所述業(yè)務(wù)變化頻度;步驟106,根據(jù)所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間個數(shù)設(shè)置所述數(shù)據(jù)庫表數(shù)量;步驟108,對每個數(shù)據(jù)庫表添加哈希字段,以判斷所述數(shù)據(jù)庫表是否發(fā)生改變;步驟110,根據(jù)所有所述數(shù)據(jù)庫表建立對應的數(shù)據(jù)倉庫模型。通過本發(fā)明的技術(shù)方案,在保證數(shù)據(jù)歷史完整性的同時,可以有效地減少數(shù)據(jù)冗余或變化頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化對整個數(shù)據(jù)倉庫的影響,同時提高數(shù)據(jù)抽取性能,進而保證數(shù)據(jù)倉庫的穩(wěn)定性。
【專利說明】基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法和建模裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機【技術(shù)領(lǐng)域】,具體而言,涉及一種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫 建模方法和一種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置。

【背景技術(shù)】
[0002] 數(shù)據(jù)倉庫有一個很重要的特性就是數(shù)據(jù)穩(wěn)定性,因為數(shù)據(jù)倉庫數(shù)據(jù)發(fā)生變化,依 賴數(shù)據(jù)倉庫的上層建筑都要變化來保持數(shù)據(jù)一致。
[0003] 當遇到一個很長的業(yè)務(wù)庫表,業(yè)務(wù)庫表的字段變化很不一致時,如果采用簡單的 建模方式不做任何處理,就會導致數(shù)據(jù)倉庫表頻繁的變化(或者頻繁做拉鏈),對存儲空間 和上層建筑來說,都是災難性的。
[0004] 對于需要做拉鏈的業(yè)務(wù)單據(jù)而言,目前處理方式為:
[0005] (1)直接添加開始時間,結(jié)束時間做拉鏈
[0006] 在這種方案中,一條訂單會由于執(zhí)行情況的變化生成多條記錄,但是不同記錄中 的訂單基礎(chǔ)屬性和訂單金額是相同的,由于時間戳的變化,所有基于訂單基礎(chǔ)屬性和訂單 金額的上層分析都要做相應處理。結(jié)果,數(shù)據(jù)倉庫的存儲空間有很大的浪費,上層建筑頻繁 做沒必要的更新。
[0007] (2)業(yè)務(wù)表根據(jù)變化頻度和相關(guān)性拆分成多個小表
[0008] 通過拆分,如果訂單由于執(zhí)行情況發(fā)生變化,業(yè)務(wù)表的時間戳會改變,訂單記錄會 被ETL (Extract-Transform-load,萃取-轉(zhuǎn)置-加載)增量抽取抓取過來,抓取過來的記 錄去和訂單基礎(chǔ)信息和金額表最新記錄的訂單基礎(chǔ)屬性訂單金額字段做比對,如果發(fā)現(xiàn)訂 單的基礎(chǔ)屬性和訂單金額沒有發(fā)生變化,則跳過,繼續(xù)去和訂單執(zhí)行情況表的訂單執(zhí)行情 況字段做比對,當發(fā)現(xiàn)訂單執(zhí)行情況發(fā)生改變時,為該訂單在訂單執(zhí)行情況表增加一條拉 鏈記錄。這種方案,可以極大減小部分屬性(或全部屬性)的記錄變化頻度,從而減少拉 鏈記錄數(shù),由于表做了拆分,記錄更短,從而能顯著減小存儲空間,能減小數(shù)據(jù)倉庫對上層 建筑的影響。但是,在判斷記錄是否更新時,必須做全字段比對,SQL (Structured Query Language,結(jié)構(gòu)化查詢語言)寫起來很麻煩,性能不好,也不通用。
[0009] 因此,需要一種新的數(shù)據(jù)倉庫建模方法,在保證數(shù)據(jù)歷史完整性的同時,可以有效 地減少數(shù)據(jù)冗余或變化頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化對整個數(shù)據(jù)倉庫的影響,同時 提高數(shù)據(jù)抽取性能,進而保證數(shù)據(jù)倉庫的穩(wěn)定性。


【發(fā)明內(nèi)容】

[0010] 本發(fā)明所要解決的技術(shù)問題在于,需要一種新的數(shù)據(jù)倉庫建模方法,在保證數(shù)據(jù) 歷史完整性的同時,可以有效地減少數(shù)據(jù)冗余或變化頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化 對整個數(shù)據(jù)倉庫的影響,同時提高數(shù)據(jù)抽取性能,進而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0011] 根據(jù)本發(fā)明的一個方面,提供了一種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法,使 用計算機系統(tǒng)實現(xiàn)所述數(shù)據(jù)庫倉庫建模,包括:步驟102,設(shè)置業(yè)務(wù)變化頻度區(qū)間;步驟 104,根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變化頻度;步 驟106,根據(jù)所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的個數(shù)設(shè)置數(shù)據(jù)庫表的數(shù)量, 其中,所述數(shù)據(jù)庫表的數(shù)量等于所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的個數(shù); 步驟108,對每個所述數(shù)據(jù)庫表添加哈希字段,以判斷所述數(shù)據(jù)庫表是否發(fā)生改變;步驟 110,根據(jù)所有所述數(shù)據(jù)庫表建立對應的數(shù)據(jù)倉庫模型。
[0012] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間,將數(shù)據(jù)庫源數(shù)據(jù)表拆分成多個數(shù) 據(jù)庫表,其中數(shù)據(jù)庫表數(shù)量等于業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變化頻度所在的業(yè) 務(wù)變化頻度區(qū)間個數(shù),并在每個數(shù)據(jù)庫表中添加哈希字段,可以減小部分屬性或全部屬性 的變化頻度,以減少拉鏈記錄數(shù)和長度,實現(xiàn)數(shù)據(jù)倉庫減小存儲空間,進而減少數(shù)據(jù)倉庫對 上層建筑的影響,即可以在保證數(shù)據(jù)歷史完整性的同時,可以有效地減少數(shù)據(jù)冗余或變化 頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化對整個數(shù)據(jù)倉庫的影響,同時提高數(shù)據(jù)比對性能、抽取 性能和SQL簡便性,并且數(shù)據(jù)倉庫建模和ETL數(shù)據(jù)抽取可以分塊迭代進行,各個數(shù)據(jù)庫表之 間互相獨立互不影響,從而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0013] 在上述技術(shù)方案中,優(yōu)選地,所述步驟102具體包括:設(shè)置所述業(yè)務(wù)變化頻度區(qū)間 的區(qū)間類別、區(qū)間描述、變化概率起始值和變化概率終止值,以及設(shè)置所述區(qū)間類別、所述 區(qū)間描述、所述變化概率起始值和所述變化概率終止值的數(shù)據(jù)類型。
[0014] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間的區(qū)間類別(比如,區(qū)間A),即該業(yè) 務(wù)變化頻度區(qū)間的唯一標識,并設(shè)置區(qū)間類別的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū) 間的區(qū)間描述(比如,基本無變化),即對該業(yè)務(wù)變化頻度區(qū)間的分類描述,并設(shè)置區(qū)間描 述的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū)間的變化概率起始值和變化概率終止值(比 如,起始值20%,終止值100% ),即該區(qū)間類別的變化區(qū)間的起始和終止百分比,如此完成 業(yè)務(wù)變化頻度區(qū)間的設(shè)置,可以為數(shù)據(jù)庫源數(shù)據(jù)表的拆分提供了有利前提保障和基準,進 而有利于減少數(shù)據(jù)冗余或變化頻度,從而減少拉鏈記錄數(shù)。
[0015] 在上述技術(shù)方案中,優(yōu)選地,所述步驟104具體包括:根據(jù)所述業(yè)務(wù)變化頻度區(qū)間 分析所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名、所述屬性和所述業(yè)務(wù)變化頻度,以及所述業(yè)務(wù) 表名、所述屬性和所述業(yè)務(wù)變化頻度的數(shù)據(jù)類型。
[0016] 在該技術(shù)方案中,通過根據(jù)業(yè)務(wù)變化頻度區(qū)間對業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名 進行分析,保證業(yè)務(wù)表名的唯一性,并明確其數(shù)據(jù)類型比如,為字符串),同時對屬性和對應 的業(yè)務(wù)變化頻度進行分析,并明確數(shù)據(jù)類型(比如,分別為字符串和整型),從而確定業(yè)務(wù) 數(shù)據(jù)庫源數(shù)據(jù)表的屬性的業(yè)務(wù)變化頻度所在的業(yè)務(wù)變化頻度區(qū)間數(shù),進而確定將該數(shù)據(jù)庫 源數(shù)據(jù)表拆分成幾個數(shù)據(jù)庫表,如此,可以有效地實現(xiàn)數(shù)據(jù)倉庫減少存儲空間,并減小過濾 業(yè)務(wù)數(shù)據(jù)變化對數(shù)據(jù)倉庫上層建筑的沖擊,進而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0017] 在上述技術(shù)方案中,優(yōu)選地,所述步驟106還包括:確定所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表 的業(yè)務(wù)主鍵,并設(shè)置每個所述數(shù)據(jù)庫表中包括所述業(yè)務(wù)主鍵,其中,所述屬性包括所述業(yè)務(wù) 主鍵。
[0018] 在該技術(shù)方案中,通過確定數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)主鍵,并將該業(yè)務(wù)主鍵添加到 每個數(shù)據(jù)庫表中,可以實現(xiàn)各個數(shù)據(jù)庫表的相互關(guān)聯(lián),進而有利于保證數(shù)據(jù)歷史的完整性。
[0019] 在上述技術(shù)方案中,優(yōu)選地,所述步驟108具體包括:根據(jù)哈希算法對每個所述數(shù) 據(jù)庫表包括的所述屬性的屬性值進行計算得到所述哈希字段,以及對每個所述數(shù)據(jù)表添加 開始時間段和結(jié)束時間段。
[0020] 在該技術(shù)方案中,通過哈希算法對每個數(shù)據(jù)庫表的所有屬性的屬性值進行計算得 到哈希字段,并對每個數(shù)據(jù)表添加開始時間段和結(jié)束時間段,可以有效地提高數(shù)據(jù)比對和 抽取的效率,相較于在判斷業(yè)務(wù)數(shù)據(jù)是否有更新時需要進行屬性字段比對,大大節(jié)省了時 間成本。
[0021] 根據(jù)本發(fā)明的一方面,還提供了一種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置,使 用計算機系統(tǒng)實現(xiàn)所述數(shù)據(jù)庫倉庫建模,包括:設(shè)置模塊,用于設(shè)置業(yè)務(wù)變化頻度區(qū)間;分 析模塊,用于根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變化 頻度;以及所述設(shè)置模塊還用于:根據(jù)所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的 個數(shù)設(shè)置數(shù)據(jù)庫表的數(shù)量,其中,所述數(shù)據(jù)庫表的數(shù)量等于所述業(yè)務(wù)變化頻度所在的所述 業(yè)務(wù)變化頻度區(qū)間的個數(shù);添加模塊,用于對每個所述數(shù)據(jù)庫表添加哈希字段,以判斷所述 數(shù)據(jù)庫表是否發(fā)生改變;創(chuàng)建模塊,用于根據(jù)所有所述數(shù)據(jù)庫表建立對應的數(shù)據(jù)倉庫模型。
[0022] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間,將數(shù)據(jù)庫源數(shù)據(jù)表拆分成多個數(shù) 據(jù)庫表,其中數(shù)據(jù)庫表數(shù)量等于業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變化頻度所在的業(yè) 務(wù)變化頻度區(qū)間個數(shù),并在每個數(shù)據(jù)庫表中添加哈希字段,可以減小部分屬性或全部屬性 的變化頻度,以減少拉鏈記錄數(shù)和長度,實現(xiàn)數(shù)據(jù)倉庫減小存儲空間,進而減少數(shù)據(jù)倉庫對 上層建筑的影響,即可以在保證數(shù)據(jù)歷史完整性的同時,可以有效地減少數(shù)據(jù)冗余或變化 頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化對整個數(shù)據(jù)倉庫的影響,同時提高數(shù)據(jù)比對性能、抽取 性能和SQL簡便性,并且數(shù)據(jù)倉庫建模和ETL數(shù)據(jù)抽取可以分塊迭代進行,各個數(shù)據(jù)庫表之 間互相獨立互不影響,從而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0023] 在上述技術(shù)方案中,優(yōu)選地,所述設(shè)置模塊具體用于:設(shè)置所述業(yè)務(wù)變化頻度區(qū)間 的區(qū)間類別、區(qū)間描述、變化概率起始值和變化概率終止值,以及設(shè)置所述區(qū)間類別、所述 區(qū)間描述、所述變化概率起始值和所述變化概率終止值的數(shù)據(jù)類型。
[0024] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間的區(qū)間類別(比如,區(qū)間A),即該業(yè) 務(wù)變化頻度區(qū)間的唯一標識,并設(shè)置區(qū)間類別的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū) 間的區(qū)間描述(比如,基本無變化),即對該業(yè)務(wù)變化頻度區(qū)間的分類描述,并設(shè)置區(qū)間描 述的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū)間的變化概率起始值和變化概率終止值(比 如,起始值20%,終止100%值),即該區(qū)間類別的變化區(qū)間的起始和終止百分比,如此完成 業(yè)務(wù)變化頻度區(qū)間的設(shè)置,可以為數(shù)據(jù)庫源數(shù)據(jù)表的拆分提供了有利前提保障和基準,進 而有利于減少數(shù)據(jù)冗余或變化頻度,從而減少拉鏈記錄數(shù)。
[0025] 在上述技術(shù)方案中,優(yōu)選地,所述分析模塊具體用于:根據(jù)所述業(yè)務(wù)變化頻度區(qū)間 分析所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名、所述屬性和所述業(yè)務(wù)變化頻度,以及所述業(yè)務(wù) 表名、所述屬性和所述業(yè)務(wù)變化頻度的數(shù)據(jù)類型。
[0026] 在該技術(shù)方案中,通過根據(jù)業(yè)務(wù)變化頻度區(qū)間對業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名 進行分析,保證業(yè)務(wù)表名的唯一性,并明確其數(shù)據(jù)類型比如,為字符串),同時對屬性和對應 的業(yè)務(wù)變化頻度進行分析,并明確數(shù)據(jù)類型(比如,分別為字符串和整型),從而確定業(yè)務(wù) 數(shù)據(jù)庫源數(shù)據(jù)表的屬性的業(yè)務(wù)變化頻度所在的業(yè)務(wù)變化頻度區(qū)間數(shù),進而確定將該數(shù)據(jù)庫 源數(shù)據(jù)表拆分成幾個數(shù)據(jù)庫表,如此,可以有效地實現(xiàn)數(shù)據(jù)倉庫減少存儲空間,并減小過濾 業(yè)務(wù)數(shù)據(jù)變化對數(shù)據(jù)倉庫上層建筑的沖擊,進而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0027] 在上述技術(shù)方案中,優(yōu)選地,所述設(shè)置模塊還用于:確定所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表 的業(yè)務(wù)主鍵,并設(shè)置每個所述數(shù)據(jù)庫表中包括所述業(yè)務(wù)主鍵,其中,所述屬性包括所述業(yè)務(wù) 主鍵。
[0028] 在該技術(shù)方案中,通過確定數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)主鍵,并將該業(yè)務(wù)主鍵添加到 每個數(shù)據(jù)庫表中,可以實現(xiàn)各個數(shù)據(jù)庫表的相互關(guān)聯(lián),進而有利于保證數(shù)據(jù)歷史的完整性。
[0029] 在上述技術(shù)方案中,優(yōu)選地,所述添加模塊還用于:根據(jù)哈希算法對每個所述數(shù)據(jù) 庫表包括的所述屬性的屬性值進行計算得到所述哈希字段,以及對每個所述數(shù)據(jù)表添加開 始時間段和結(jié)束時間段。
[0030] 在該技術(shù)方案中,通過哈希算法對每個數(shù)據(jù)庫表的所有屬性的屬性值進行計算得 到哈希字段,并對每個數(shù)據(jù)表添加開始時間段和結(jié)束時間段,可以有效地提高數(shù)據(jù)比對和 抽取的效率,相較于在判斷業(yè)務(wù)數(shù)據(jù)是否有更新時需要進行屬性字段比對,大大節(jié)省了時 間成本。
[0031] 通過上述技術(shù)方案,在保證數(shù)據(jù)歷史完整性的同時,可以有效地減少數(shù)據(jù)冗余或 變化頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化對整個數(shù)據(jù)倉庫的影響,同時提高數(shù)據(jù)抽取性能, 進而保證數(shù)據(jù)倉庫的穩(wěn)定性。

【專利附圖】

【附圖說明】
[0032] 圖1示出了根據(jù)本發(fā)明的一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法 的流程示意圖;
[0033] 圖2示出了根據(jù)本發(fā)明的一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置 的框圖;
[0034] 圖3示出了根據(jù)本發(fā)明的另一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方 法的流程示意圖。

【具體實施方式】
[0035] 為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實 施方式對本發(fā)明進行進一步的詳細描述。
[0036] 在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可 以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明并不限于下面公開的具體實 施例的限制。
[0037] 圖1示出了根據(jù)本發(fā)明的一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法 的流程示意圖。
[0038] 如圖1所示,根據(jù)本發(fā)明的一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方 法,使用計算機系統(tǒng)實現(xiàn)所述數(shù)據(jù)庫倉庫建模,包括:步驟102,設(shè)置業(yè)務(wù)變化頻度區(qū)間;步 驟104,根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變化頻度; 步驟106,根據(jù)所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的個數(shù)設(shè)置數(shù)據(jù)庫表的數(shù) 量,其中,所述數(shù)據(jù)庫表的數(shù)量等于所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的個 數(shù);步驟108,對每個所述數(shù)據(jù)庫表添加哈希字段,以判斷所述數(shù)據(jù)庫表是否發(fā)生改變;步 驟110,根據(jù)所有所述數(shù)據(jù)庫表建立對應的數(shù)據(jù)倉庫模型。
[0039] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間,將數(shù)據(jù)庫源數(shù)據(jù)表拆分成多個數(shù) 據(jù)庫表,其中數(shù)據(jù)庫表數(shù)量等于業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變化頻度所在的業(yè) 務(wù)變化頻度區(qū)間個數(shù),并在每個數(shù)據(jù)庫表中添加哈希字段,可以減小部分屬性或全部屬性 的變化頻度,以減少拉鏈記錄數(shù)和長度,實現(xiàn)數(shù)據(jù)倉庫減小存儲空間,進而減少數(shù)據(jù)倉庫對 上層建筑的影響,即可以在保證數(shù)據(jù)歷史完整性的同時,可以有效地減少數(shù)據(jù)冗余或變化 頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化對整個數(shù)據(jù)倉庫的影響,同時提高數(shù)據(jù)比對性能、抽取 性能和SQL簡便性,并且數(shù)據(jù)倉庫建模和ETL數(shù)據(jù)抽取可以分塊迭代進行,各個數(shù)據(jù)庫表之 間互相獨立互不影響,從而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0040] 在上述技術(shù)方案中,優(yōu)選地,所述步驟102具體包括:設(shè)置所述業(yè)務(wù)變化頻度區(qū)間 的區(qū)間類別、區(qū)間描述、變化概率起始值和變化概率終止值,以及設(shè)置所述區(qū)間類別、所述 區(qū)間描述、所述變化概率起始值和所述變化概率終止值的數(shù)據(jù)類型。
[0041] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間的區(qū)間類別(比如,區(qū)間A),即該業(yè) 務(wù)變化頻度區(qū)間的唯一標識,并設(shè)置區(qū)間類別的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū) 間的區(qū)間描述(比如,基本無變化),即對該業(yè)務(wù)變化頻度區(qū)間的分類描述,并設(shè)置區(qū)間描 述的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū)間的變化概率起始值和變化概率終止值(比 如,起始值20%,終止值100% ),即該區(qū)間類別的變化區(qū)間的起始和終止百分比,如此完成 業(yè)務(wù)變化頻度區(qū)間的設(shè)置,可以為數(shù)據(jù)庫源數(shù)據(jù)表的拆分提供了有利前提保障和基準,進 而有利于減少數(shù)據(jù)冗余或變化頻度,從而減少拉鏈記錄數(shù)。
[0042] 在上述技術(shù)方案中,優(yōu)選地,所述步驟104具體包括:根據(jù)所述業(yè)務(wù)變化頻度區(qū)間 分析所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名、所述屬性和所述業(yè)務(wù)變化頻度,以及所述業(yè)務(wù) 表名、所述屬性和所述業(yè)務(wù)變化頻度的數(shù)據(jù)類型。
[0043] 在該技術(shù)方案中,通過根據(jù)業(yè)務(wù)變化頻度區(qū)間對業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名 進行分析,保證業(yè)務(wù)表名的唯一性,并明確其數(shù)據(jù)類型比如,為字符串),同時對屬性和對應 的業(yè)務(wù)變化頻度進行分析,并明確數(shù)據(jù)類型(比如,分別為字符串和整型),從而確定業(yè)務(wù) 數(shù)據(jù)庫源數(shù)據(jù)表的屬性的業(yè)務(wù)變化頻度所在的業(yè)務(wù)變化頻度區(qū)間數(shù),進而確定將該數(shù)據(jù)庫 源數(shù)據(jù)表拆分成幾個數(shù)據(jù)庫表,如此,可以有效地實現(xiàn)數(shù)據(jù)倉庫減少存儲空間,并減小過濾 業(yè)務(wù)數(shù)據(jù)變化對數(shù)據(jù)倉庫上層建筑的沖擊,進而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0044] 在上述技術(shù)方案中,優(yōu)選地,所述步驟106還包括:確定所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表 的業(yè)務(wù)主鍵,并設(shè)置每個所述數(shù)據(jù)庫表中包括所述業(yè)務(wù)主鍵,其中,所述屬性包括所述業(yè)務(wù) 主鍵。
[0045] 在該技術(shù)方案中,通過確定數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)主鍵,并將該業(yè)務(wù)主鍵添加到 每個數(shù)據(jù)庫表中,可以實現(xiàn)各個數(shù)據(jù)庫表的相互關(guān)聯(lián),進而有利于保證數(shù)據(jù)歷史的完整性。
[0046] 在上述技術(shù)方案中,優(yōu)選地,所述步驟108具體包括:根據(jù)哈希算法對每個所述數(shù) 據(jù)庫表包括的所述屬性的屬性值進行計算得到所述哈希字段,以及對每個所述數(shù)據(jù)表添加 開始時間段和結(jié)束時間段。
[0047] 在該技術(shù)方案中,通過哈希算法對每個數(shù)據(jù)庫表的所有屬性的屬性值進行計算得 到哈希字段,并對每個數(shù)據(jù)表添加開始時間段和結(jié)束時間段,可以有效地提高數(shù)據(jù)比對和 抽取的效率,相較于在判斷業(yè)務(wù)數(shù)據(jù)是否有更新時需要進行屬性字段比對,大大節(jié)省了時 間成本。
[0048] 圖2示出了根據(jù)本發(fā)明的一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置 的框圖。
[0049] 如圖2所示,根據(jù)本發(fā)明的一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置 200,使用計算機系統(tǒng)實現(xiàn)所述數(shù)據(jù)庫倉庫建模,包括:設(shè)置模塊202,用于設(shè)置業(yè)務(wù)變化頻 度區(qū)間;分析模塊204,用于根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個 屬性的業(yè)務(wù)變化頻度;以及所述設(shè)置模塊202還用于:根據(jù)所述業(yè)務(wù)變化頻度所在的所述 業(yè)務(wù)變化頻度區(qū)間的個數(shù)設(shè)置數(shù)據(jù)庫表的數(shù)量,其中,所述數(shù)據(jù)庫表的數(shù)量等于所述業(yè)務(wù) 變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的個數(shù);添加模塊206,用于對每個所述數(shù)據(jù)庫表 添加哈希字段,以判斷所述數(shù)據(jù)庫表是否發(fā)生改變;創(chuàng)建模塊208,用于根據(jù)所有所述數(shù)據(jù) 庫表建立對應的數(shù)據(jù)倉庫模型。
[0050] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間,將數(shù)據(jù)庫源數(shù)據(jù)表拆分成多個數(shù) 據(jù)庫表,其中數(shù)據(jù)庫表數(shù)量等于業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變化頻度所在的業(yè) 務(wù)變化頻度區(qū)間個數(shù),并在每個數(shù)據(jù)庫表中添加哈希字段,可以減小部分屬性或全部屬性 的變化頻度,以減少拉鏈記錄數(shù)和長度,實現(xiàn)數(shù)據(jù)倉庫減小存儲空間,進而減少數(shù)據(jù)倉庫對 上層建筑的影響,即可以在保證數(shù)據(jù)歷史完整性的同時,可以有效地減少數(shù)據(jù)冗余或變化 頻度,并有效地屏蔽業(yè)務(wù)數(shù)據(jù)的變化對整個數(shù)據(jù)倉庫的影響,同時提高數(shù)據(jù)比對性能、抽取 性能和SQL簡便性,并且數(shù)據(jù)倉庫建模和ETL數(shù)據(jù)抽取可以分塊迭代進行,各個數(shù)據(jù)庫表之 間互相獨立互不影響,從而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0051] 在上述技術(shù)方案中,優(yōu)選地,所述設(shè)置模塊202具體用于:設(shè)置所述業(yè)務(wù)變化頻度 區(qū)間的區(qū)間類別、區(qū)間描述、變化概率起始值和變化概率終止值,以及設(shè)置所述區(qū)間類別、 所述區(qū)間描述、所述變化概率起始值和所述變化概率終止值的數(shù)據(jù)類型。
[0052] 在該技術(shù)方案中,通過設(shè)置業(yè)務(wù)變化頻度區(qū)間的區(qū)間類別(比如,區(qū)間A),即該業(yè) 務(wù)變化頻度區(qū)間的唯一標識,并設(shè)置區(qū)間類別的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū) 間的區(qū)間描述(比如,基本無變化),即對該業(yè)務(wù)變化頻度區(qū)間的分類描述,并設(shè)置區(qū)間描 述的數(shù)據(jù)類型為字符串;設(shè)置業(yè)務(wù)變化頻度區(qū)間的變化概率起始值和變化概率終止值(比 如,起始值20%,終止值100% ),即該區(qū)間類別的變化區(qū)間的起始和終止百分比,如此完成 業(yè)務(wù)變化頻度區(qū)間的設(shè)置,可以為數(shù)據(jù)庫源數(shù)據(jù)表的拆分提供了有利前提保障和基準,進 而有利于減少數(shù)據(jù)冗余或變化頻度,從而減少拉鏈記錄數(shù)。
[0053] 在上述技術(shù)方案中,優(yōu)選地,所述分析模塊204具體用于:根據(jù)所述業(yè)務(wù)變化頻度 區(qū)間分析所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名、所述屬性和所述業(yè)務(wù)變化頻度,以及所述 業(yè)務(wù)表名、所述屬性和所述業(yè)務(wù)變化頻度的數(shù)據(jù)類型。
[0054] 在該技術(shù)方案中,通過根據(jù)業(yè)務(wù)變化頻度區(qū)間對業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表名 進行分析,保證業(yè)務(wù)表名的唯一性,并明確其數(shù)據(jù)類型比如,為字符串),同時對屬性和對應 的業(yè)務(wù)變化頻度進行分析,并明確數(shù)據(jù)類型(比如,分別為字符串和整型),從而確定業(yè)務(wù) 數(shù)據(jù)庫源數(shù)據(jù)表的屬性的業(yè)務(wù)變化頻度所在的業(yè)務(wù)變化頻度區(qū)間數(shù),進而確定將該數(shù)據(jù)庫 源數(shù)據(jù)表拆分成幾個數(shù)據(jù)庫表,如此,可以有效地實現(xiàn)數(shù)據(jù)倉庫減少存儲空間,并減小過濾 業(yè)務(wù)數(shù)據(jù)變化對數(shù)據(jù)倉庫上層建筑的沖擊,進而保證數(shù)據(jù)倉庫的穩(wěn)定性。
[0055] 在上述技術(shù)方案中,優(yōu)選地,所述設(shè)置模塊202還用于:確定所述業(yè)務(wù)數(shù)據(jù)庫源數(shù) 據(jù)表的業(yè)務(wù)主鍵,并設(shè)置每個所述數(shù)據(jù)庫表中包括所述業(yè)務(wù)主鍵,其中,所述屬性包括所述 業(yè)務(wù)主鍵。
[0056] 在該技術(shù)方案中,通過確定數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)主鍵,并將該業(yè)務(wù)主鍵添加到 每個數(shù)據(jù)庫表中,可以實現(xiàn)各個數(shù)據(jù)庫表的相互關(guān)聯(lián),進而有利于保證數(shù)據(jù)歷史的完整性。
[0057] 在上述技術(shù)方案中,優(yōu)選地,所述添加模塊206還用于:根據(jù)哈希算法對每個所述 數(shù)據(jù)庫表包括的所述屬性的屬性值進行計算得到所述哈希字段,以及對每個所述數(shù)據(jù)表添 加開始時間段和結(jié)束時間段。
[0058] 在該技術(shù)方案中,通過哈希算法對每個數(shù)據(jù)庫表的所有屬性的屬性值進行計算得 到哈希字段,并對每個數(shù)據(jù)表添加開始時間段和結(jié)束時間段,可以有效地提高數(shù)據(jù)比對和 抽取的效率,相較于在判斷業(yè)務(wù)數(shù)據(jù)是否有更新時需要進行屬性字段比對,大大節(jié)省了時 間成本。
[0059] 圖3示出了根據(jù)本發(fā)明的另一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方 法的流程示意圖。
[0060] 如圖3所示,根據(jù)本發(fā)明的另一個實施例的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方 法,具體流程包括:
[0061 ] 步驟302,設(shè)置業(yè)務(wù)變化頻度區(qū)間;
[0062] 步驟304,根據(jù)業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)單據(jù)歷史數(shù)據(jù)(數(shù)據(jù)庫源數(shù)據(jù)表)屬性 的變化頻度,確認拆分方案;
[0063] 步驟306,拆分為小表(數(shù)據(jù)庫表),并為每個小表添加哈希字段、開始時間段和結(jié) 束時間段;
[0064] 步驟308,初始化數(shù)據(jù)倉庫模型。
[0065] 首先設(shè)置變化頻度區(qū)間,根據(jù)變化頻度區(qū)間分析業(yè)務(wù)單據(jù)所有屬性字段的變化頻 度,根據(jù)變化頻度來確定拆分方案,即設(shè)置幾個變化頻度區(qū)間就拆分為幾個小表,然后對每 個拆分的小表添加哈希字段、開始時間段和結(jié)束時間字段,用于后續(xù)的數(shù)據(jù)比對和抽取。
[0066] 配置變化頻度區(qū)間的數(shù)據(jù)結(jié)構(gòu)設(shè)計,如下表所示:
[0067]

【權(quán)利要求】
1. 一種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法,使用計算機系統(tǒng)實現(xiàn)所述數(shù)據(jù)庫倉庫 建模,其特征在于,包括: 步驟102,設(shè)置業(yè)務(wù)變化頻度區(qū)間; 步驟104,根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè)務(wù)變 化頻度; 步驟106,根據(jù)所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的個數(shù)設(shè)置數(shù)據(jù)庫表 的數(shù)量,其中,所述數(shù)據(jù)庫表的數(shù)量等于所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間 的個數(shù); 步驟108,對每個所述數(shù)據(jù)庫表添加哈希字段,W判斷所述數(shù)據(jù)庫表是否發(fā)生改變; 步驟110,根據(jù)所有所述數(shù)據(jù)庫表建立對應的數(shù)據(jù)倉庫模型。
2. 根據(jù)權(quán)利要求1所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法,其特征在于,所述 步驟102具體包括;設(shè)置所述業(yè)務(wù)變化頻度區(qū)間的區(qū)間類別、區(qū)間描述、變化概率起始值和 變化概率終止值,W及設(shè)置所述區(qū)間類別、所述區(qū)間描述、所述變化概率起始值和所述變化 概率終止值的數(shù)據(jù)類型。
3. 根據(jù)權(quán)利要求1所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法,其特征在于,所述 步驟104具體包括;根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表 名、所述屬性和所述業(yè)務(wù)變化頻度,W及所述業(yè)務(wù)表名、所述屬性和所述業(yè)務(wù)變化頻度的數(shù) 據(jù)類型。
4. 根據(jù)權(quán)利要求1所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法,其特征在于,所述 步驟106還包括;確定所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)主鍵,并設(shè)置每個所述數(shù)據(jù)庫表中 包括所述業(yè)務(wù)主鍵,其中,所述屬性包括所述業(yè)務(wù)主鍵。
5. 根據(jù)權(quán)利要求1至3中任一項所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模方法,其特 征在于,所述步驟108具體包括;根據(jù)哈希算法對每個所述數(shù)據(jù)庫表包括的所述屬性的屬 性值進行計算得到所述哈希字段,W及對每個所述數(shù)據(jù)表添加開始時間段和結(jié)束時間段。
6. -種基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置,使用計算機系統(tǒng)實現(xiàn)所述數(shù)據(jù)庫倉庫 建模,其特征在于,包括: 設(shè)置模塊,用于設(shè)置業(yè)務(wù)變化頻度區(qū)間; 分析模塊,用于根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的每個屬性的業(yè) 務(wù)變化頻度;W及 所述設(shè)置模塊還用于;根據(jù)所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變化頻度區(qū)間的個數(shù)設(shè) 置數(shù)據(jù)庫表的數(shù)量,其中,所述數(shù)據(jù)庫表的數(shù)量等于所述業(yè)務(wù)變化頻度所在的所述業(yè)務(wù)變 化頻度區(qū)間的個數(shù); 添加模塊,用于對每個所述數(shù)據(jù)庫表添加哈希字段,W判斷所述數(shù)據(jù)庫表是否發(fā)生改 變; 創(chuàng)建模塊,用于根據(jù)所有所述數(shù)據(jù)庫表建立對應的數(shù)據(jù)倉庫模型。
7. 根據(jù)權(quán)利要求6所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置,其特征在于,所述 設(shè)置模塊具體用于;設(shè)置所述業(yè)務(wù)變化頻度區(qū)間的區(qū)間類別、區(qū)間描述、變化概率起始值和 變化概率終止值,W及設(shè)置所述區(qū)間類別、所述區(qū)間描述、所述變化概率起始值和所述變化 概率終止值的數(shù)據(jù)類型。
8. 根據(jù)權(quán)利要求6所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置,其特征在于,所述 分析模塊具體用于;根據(jù)所述業(yè)務(wù)變化頻度區(qū)間分析所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)表 名、所述屬性和所述業(yè)務(wù)變化頻度,W及所述業(yè)務(wù)表名、所述屬性和所述業(yè)務(wù)變化頻度的數(shù) 據(jù)類型。
9. 根據(jù)權(quán)利要求6所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置,其特征在于,所述 設(shè)置模塊還用于;確定所述業(yè)務(wù)數(shù)據(jù)庫源數(shù)據(jù)表的業(yè)務(wù)主鍵,并設(shè)置每個所述數(shù)據(jù)庫表中 包括所述業(yè)務(wù)主鍵,其中,所述屬性包括所述業(yè)務(wù)主鍵。
10. 根據(jù)權(quán)利要求6至9中任一項所述的基于業(yè)務(wù)變化頻度的數(shù)據(jù)倉庫建模裝置,其特 征在于,所述添加模塊還用于:根據(jù)哈希算法對每個所述數(shù)據(jù)庫表包括的所述屬性的屬性 值進行計算得到所述哈希字段,W及對每個所述數(shù)據(jù)表添加開始時間段和結(jié)束時間段。
【文檔編號】G06F17/30GK104462462SQ201410784872
【公開日】2015年3月25日 申請日期:2014年12月16日 優(yōu)先權(quán)日:2014年12月16日
【發(fā)明者】靳海彬, 胡沛蘭 申請人:用友軟件股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
海南省| 永胜县| 桦川县| 莎车县| 石泉县| 文安县| 沛县| 汝阳县| 花莲市| 南召县| 阿拉善右旗| 开封县| 内黄县| 聂荣县| 华容县| 铜鼓县| 武清区| 阳西县| 望都县| 公安县| 麻城市| 巍山| 佛冈县| 剑河县| 铜川市| 晋城| 南江县| 华蓥市| 汉中市| 鄂伦春自治旗| 新巴尔虎左旗| 湖南省| 青浦区| 九江市| 武强县| 汉沽区| 班玛县| 监利县| 宁安市| 页游| 安龙县|