本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)加載清洗引擎、調(diào)度與存儲(chǔ)系統(tǒng)。
背景技術(shù):
大數(shù)據(jù)技術(shù)的迅猛發(fā)展和信息化的推進(jìn),使得人類社會(huì)所積累的數(shù)據(jù)量已經(jīng)超過了過去5000年的總和,海量數(shù)據(jù)的采集、存儲(chǔ)、處理和傳播的數(shù)量也與日俱增。企業(yè)實(shí)現(xiàn)數(shù)據(jù)共享,可以使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用。但是,在實(shí)施數(shù)據(jù)共享的過程當(dāng)中,由于不同用戶提供的數(shù)據(jù)可能來自不同的途徑,其數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別,有時(shí)甚至?xí)龅綌?shù)據(jù)格式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后,丟失信息等棘手問題,嚴(yán)重阻礙了數(shù)據(jù)在各部門和各軟件系統(tǒng)中的流動(dòng)與共享。因此,如何對(duì)海量數(shù)據(jù)進(jìn)行有效的集成管理已成為增強(qiáng)商業(yè)銀行競(jìng)爭(zhēng)力的必然選擇。
近幾年來,隨著Hadoop、Spark等大數(shù)據(jù)處理技術(shù)的發(fā)展,數(shù)據(jù)已經(jīng)引起人們重視,成為與水、石油同等重要的戰(zhàn)略資源。當(dāng)前大量數(shù)據(jù)主要存儲(chǔ)在傳統(tǒng)的SQL數(shù)據(jù)庫(kù)中,與大數(shù)據(jù)技術(shù)使用的NoSQL數(shù)據(jù)庫(kù)有很大的不同,同時(shí)由于數(shù)據(jù)的多樣性特點(diǎn),使用大數(shù)據(jù)平臺(tái)處理數(shù)據(jù)前,需要把數(shù)據(jù)導(dǎo)入大數(shù)據(jù)平臺(tái)自己的存儲(chǔ)系統(tǒng),且在導(dǎo)入時(shí)一般需要進(jìn)行ETL處理,完成各類數(shù)據(jù)的抽取,清洗,裝載等過程。傳統(tǒng)ETL系統(tǒng)主要運(yùn)行的單機(jī)上,也有分布式ETL處理,但主要是面向多任務(wù)場(chǎng)景。這些傳統(tǒng)的ETL系統(tǒng)功能已經(jīng)發(fā)展的較為完善,但是在應(yīng)對(duì)大數(shù)據(jù)量的場(chǎng)景時(shí),在處理速度上難以滿足處理需求,功能對(duì)接上存在很多偏差,導(dǎo)致傳統(tǒng)的ETL處理方式難堪重負(fù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的在于解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,提供一種數(shù)據(jù)加載清洗引擎、調(diào)度與存儲(chǔ)系統(tǒng),具有實(shí)用性強(qiáng),數(shù)據(jù)管理便捷,靈活性高,易于推廣,高效能數(shù)據(jù)處理,大吞吐量,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求的優(yōu)點(diǎn)。
為了解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
一種數(shù)據(jù)加載清洗引擎、調(diào)度與存儲(chǔ)系統(tǒng),其特征在于:包括數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)和用戶展現(xiàn)模塊,數(shù)據(jù)倉(cāng)庫(kù)連接有ETL管理模塊,ETL管理模塊包括ETL調(diào)度模塊、ETL監(jiān)控模塊、數(shù)據(jù)質(zhì)量模塊和ETL任務(wù)模塊,ETL調(diào)度模塊用于控制所有ETL任務(wù)的運(yùn)行,ETL監(jiān)控模塊用于跟蹤監(jiān)控ETL任務(wù)的運(yùn)行,數(shù)據(jù)質(zhì)量模塊用于跟蹤數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量,ETL任務(wù)模塊用于完成具體的數(shù)據(jù)ETL工作;數(shù)據(jù)倉(cāng)庫(kù)包括接口文件區(qū)、細(xì)節(jié)數(shù)據(jù)暫存區(qū)SSA、細(xì)節(jié)數(shù)據(jù)SOR、數(shù)據(jù)集市、數(shù)據(jù)總結(jié)模塊、反饋模塊和元數(shù)據(jù)存儲(chǔ)MDR,細(xì)節(jié)數(shù)據(jù)SOR連接數(shù)據(jù)總結(jié)模塊,數(shù)據(jù)總結(jié)模塊連接反饋模塊,文件接口區(qū)用于存儲(chǔ)和處理接口文件,文件接口區(qū)連接有權(quán)限設(shè)定模塊,權(quán)限設(shè)定模塊用于按照特定的目錄結(jié)構(gòu)組織起來,對(duì)每個(gè)目錄按照其特定的用途設(shè)定對(duì)不同用戶的訪問權(quán)限,ETL管理模塊以元數(shù)據(jù)為中心進(jìn)行交互和協(xié)作,從數(shù)據(jù)源中抽取數(shù)據(jù),然后進(jìn)行傳轉(zhuǎn)換、清洗和加載,按照定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中,很好地滿足數(shù)據(jù)集成的續(xù)期,實(shí)現(xiàn)各業(yè)務(wù)之間的數(shù)據(jù)的匯總和分發(fā);
細(xì)節(jié)數(shù)據(jù)暫存區(qū)SSA連接有驗(yàn)證模塊,驗(yàn)證模塊連接有查找模塊,查找模塊連接細(xì)節(jié)數(shù)據(jù)SOR,驗(yàn)證模塊連接有處理模塊,處理模塊連接細(xì)節(jié)數(shù)據(jù)SOR,細(xì)節(jié)數(shù)據(jù)SOR連接有交換分區(qū)模塊,元數(shù)據(jù)存儲(chǔ)MDR用來保存關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中的過程和數(shù)據(jù)的信息,元數(shù)據(jù)存儲(chǔ)MDR連接有元數(shù)據(jù)管理模塊;數(shù)據(jù)集市連接有多維立方體模塊,多維立方體模塊用于存儲(chǔ)多維數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市存儲(chǔ)在一個(gè)TDH數(shù)據(jù)群內(nèi),各個(gè)不同的數(shù)據(jù)在TDH數(shù)據(jù)群內(nèi)按不同的私有區(qū)域來區(qū)分,數(shù)據(jù)集市存儲(chǔ)在三維視覺區(qū)域內(nèi),用于分析多維數(shù)據(jù),多維立方體模塊存儲(chǔ)在集成區(qū)域內(nèi);交換分區(qū)模塊采用“分區(qū)忽略”和“分而治之”兩種分區(qū)機(jī)制,可以減少導(dǎo)入數(shù)據(jù)操作對(duì)用戶實(shí)時(shí)訪問數(shù)據(jù)的影響,操作模式就像使用可熱插拔的硬盤一樣,使用方便,在性能上,由于系統(tǒng)中存儲(chǔ)了海量數(shù)據(jù),可以通過“分區(qū)忽略”能夠有效地提高查詢性能,可以提高數(shù)據(jù)的可管理性和可用性,如數(shù)據(jù)刪除、數(shù)據(jù)備份等,采取“分而治之”進(jìn)行更加完善快捷的管理,可以將任務(wù)產(chǎn)生的故障局限在分區(qū)中,并且可以有效地縮短恢復(fù)時(shí)間;由于各個(gè)工具和系統(tǒng)都會(huì)生成自己的元數(shù)據(jù),利用元數(shù)據(jù)管理模塊把這些元數(shù)據(jù)盡可能的集中存儲(chǔ)到元數(shù)據(jù)存儲(chǔ)MDR內(nèi),元數(shù)據(jù)存儲(chǔ)MDR只是一個(gè)共享元數(shù)據(jù)供用戶集中訪問的地方,真正元數(shù)據(jù)的維護(hù)地還是在生成這些元數(shù)據(jù)的系統(tǒng)和工具內(nèi);用戶展現(xiàn)模塊連接有查詢模塊,查詢模塊用于根據(jù)用戶需求展現(xiàn)業(yè)務(wù)內(nèi)容。該系統(tǒng)具有實(shí)用性強(qiáng),數(shù)據(jù)管理便捷,靈活性高,易于推廣,高效能數(shù)據(jù)處理,大吞吐量,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求的優(yōu)點(diǎn)。
進(jìn)一步,ETL調(diào)度模塊連接有時(shí)間設(shè)定模塊,每個(gè)任務(wù)都可以設(shè)定在什么時(shí)候執(zhí)行,使得每個(gè)任務(wù)都能夠在指定的時(shí)刻自動(dòng)運(yùn)行,任務(wù)的執(zhí)行周期具有很大的差異性,有的定義了時(shí)間間隔,有的定義了確定時(shí)間,通過時(shí)間設(shè)定模塊在系統(tǒng)中建立了一個(gè)調(diào)度鏈表,鏈表中的每個(gè)結(jié)點(diǎn)包含了“任務(wù)的調(diào)度信息”和“下次執(zhí)行時(shí)刻”,并始終按照“下次執(zhí)行時(shí)刻”從小到大進(jìn)行排序,提高了調(diào)度效率,以應(yīng)對(duì)大數(shù)量的任務(wù)。
進(jìn)一步,ETL監(jiān)控模塊連接有故障處理模塊,故障處理模塊連接ETL調(diào)度模塊,當(dāng)出現(xiàn)任務(wù)運(yùn)行錯(cuò)誤或是故障時(shí),故障處理模塊會(huì)重新分配任務(wù),保證系統(tǒng)繼續(xù)運(yùn)行。
進(jìn)一步,ETL任務(wù)模塊連接有圖形轉(zhuǎn)化模塊,圖形轉(zhuǎn)化模塊將任務(wù)的運(yùn)行情況轉(zhuǎn)化為可視化的圖形,直觀清楚。
進(jìn)一步,接口文件區(qū)的數(shù)據(jù)處理工具主要是Kettle,接口文件區(qū)在Unix系統(tǒng)下按照特定的目錄結(jié)構(gòu)組織起來,通過權(quán)限設(shè)定模塊對(duì)每個(gè)目錄按照其特定的用途設(shè)定對(duì)不同用戶的訪問權(quán)限,相互獨(dú)立,分區(qū)明確。
進(jìn)一步,細(xì)節(jié)數(shù)據(jù)SOR是基于BDW開發(fā)的一套符合3NF范式規(guī)范的表結(jié)構(gòu),細(xì)節(jié)數(shù)據(jù)SOR存儲(chǔ)了數(shù)據(jù)倉(cāng)庫(kù)內(nèi)最細(xì)節(jié)層次的數(shù)據(jù),通過交換分區(qū)模塊按照不同的主題域進(jìn)行分類組織,細(xì)節(jié)數(shù)據(jù)SOR作為企業(yè)數(shù)據(jù)模型,是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的核心,具有足夠的靈活性,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求,擴(kuò)大了系統(tǒng)的適用范圍。
進(jìn)一步,細(xì)節(jié)數(shù)據(jù)SOR連接有BDW升級(jí)更新模塊,通過BDW升級(jí)更新模塊可支持BDW的進(jìn)一步升級(jí)和更新。
進(jìn)一步,ETL管理模塊采用微軟的DTS組件,通過標(biāo)準(zhǔn)接口OLE DB或ODBC定義ETL過程的數(shù)據(jù)源連接,通過DTS自帶的抽取規(guī)則或使用T-SQL腳本語言定義數(shù)據(jù)抽取、清洗和轉(zhuǎn)換方法,使用微軟SQL Server的DTS工具設(shè)計(jì)并完成所有的數(shù)據(jù)倉(cāng)庫(kù)中的ETL操作。
進(jìn)一步,數(shù)據(jù)集市呈星型或雪花型結(jié)構(gòu),數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,可以稱作"小數(shù)據(jù)倉(cāng)庫(kù)",數(shù)據(jù)集市的應(yīng)用是對(duì)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的補(bǔ)充,數(shù)據(jù)集市為面向分析的多維數(shù)據(jù),為特定用戶存儲(chǔ)預(yù)先計(jì)算好的數(shù)據(jù),從而滿足用戶特殊的需求,具有獨(dú)立性,訪問快速且方便,不受系統(tǒng)進(jìn)行中的更新的影響。
本發(fā)明由于采用了上述技術(shù)方案,具有以下有益效果:
本發(fā)明快速地實(shí)現(xiàn)了自動(dòng)、可靠的數(shù)據(jù)采集、傳輸、轉(zhuǎn)換和加載,ETL處理速度快,能夠完成大數(shù)據(jù)量的處理加工,使得ETL任務(wù)執(zhí)行起來更加容易實(shí)現(xiàn),并能支持多任務(wù)執(zhí)行,相互獨(dú)立,互不影響,且降低了ETL數(shù)據(jù)處理的成本,提高了ETL數(shù)據(jù)處理的性能,提高了數(shù)據(jù)的可管理性和可用性,細(xì)節(jié)數(shù)據(jù)SOR作為企業(yè)數(shù)據(jù)模型,是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的核心,具有足夠的靈活性,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求,系統(tǒng)的適用范圍大大增強(qiáng)。本發(fā)明具有實(shí)用性強(qiáng),數(shù)據(jù)管理便捷,靈活性高,易于推廣,高效能數(shù)據(jù)處理,大吞吐量,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求的優(yōu)點(diǎn)。
附圖說明
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明:
圖1為本發(fā)明一種數(shù)據(jù)加載清洗引擎、調(diào)度與存儲(chǔ)系統(tǒng)的流程示意圖;
圖2為本發(fā)明中數(shù)據(jù)倉(cāng)庫(kù)的流程示意圖。
具體實(shí)施方式
如圖1至圖2所示,為本發(fā)明一種數(shù)據(jù)加載清洗引擎、調(diào)度與存儲(chǔ)系統(tǒng),包括數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)和用戶展現(xiàn)模塊,數(shù)據(jù)倉(cāng)庫(kù)連接有ETL管理模塊,ETL管理模塊包括ETL調(diào)度模塊、ETL監(jiān)控模塊、數(shù)據(jù)質(zhì)量模塊和ETL任務(wù)模塊,ETL調(diào)度模塊用于控制所有ETL任務(wù)的運(yùn)行,ETL調(diào)度模塊連接有時(shí)間設(shè)定模塊,每個(gè)任務(wù)都可以設(shè)定在什么時(shí)候執(zhí)行,使得每個(gè)任務(wù)都能夠在指定的時(shí)刻自動(dòng)運(yùn)行,任務(wù)的執(zhí)行周期具有很大的差異性,有的定義了時(shí)間間隔(如每隔3分鐘執(zhí)行一次),有的定義了確定時(shí)間(如每周的星期五晚上21:00開始執(zhí)行),對(duì)于確定時(shí)間,又可以分為按年、月、周、日等很多方式,通過時(shí)間設(shè)定模塊在系統(tǒng)中建立了一個(gè)調(diào)度鏈表,鏈表中的每個(gè)結(jié)點(diǎn)包含了“任務(wù)的調(diào)度信息”和“下次執(zhí)行時(shí)刻”,并始終按照“下次執(zhí)行時(shí)刻”從小到大進(jìn)行排序,提高了調(diào)度效率,以應(yīng)對(duì)大數(shù)量的任務(wù)。ETL監(jiān)控模塊用于跟蹤監(jiān)控ETL任務(wù)的運(yùn)行,ETL監(jiān)控模塊連接有故障處理模塊,故障處理模塊連接ETL調(diào)度模塊,當(dāng)出現(xiàn)任務(wù)運(yùn)行錯(cuò)誤或是故障時(shí),故障處理模塊會(huì)重新分配任務(wù),保證系統(tǒng)繼續(xù)運(yùn)行。數(shù)據(jù)質(zhì)量模塊用于跟蹤數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量,ETL任務(wù)模塊用于完成具體的數(shù)據(jù)ETL工作,ETL任務(wù)模塊連接有圖形轉(zhuǎn)化模塊,圖形轉(zhuǎn)化模塊將任務(wù)的運(yùn)行情況轉(zhuǎn)化為可視化的圖形,直觀清楚。
ETL管理模塊采用微軟的DTS組件,通過標(biāo)準(zhǔn)接口OLE DB或ODBC定義ETL過程的數(shù)據(jù)源連接,通過DTS自帶的抽取規(guī)則或使用T-SQL腳本語言定義數(shù)據(jù)抽取、清洗和轉(zhuǎn)換方法,使用微軟SQL Server的DTS工具設(shè)計(jì)并完成所有的數(shù)據(jù)倉(cāng)庫(kù)中的ETL操作,用DTS組件設(shè)計(jì)完DTS包后,可以對(duì)包進(jìn)行一次性執(zhí)行,也可以把包設(shè)置為自動(dòng)調(diào)度,使包的執(zhí)行過程無需人工干預(yù)。為了給系統(tǒng)管理員提供方便,將后臺(tái)的DTS包的執(zhí)行和調(diào)度通過ASP技術(shù)實(shí)現(xiàn)為B/S模式用戶界面,這樣系統(tǒng)管理員無須在服務(wù)器上對(duì)數(shù)據(jù)倉(cāng)庫(kù)的ETL進(jìn)行管理和維護(hù),管理員可以在其他任何一個(gè)地方完成管理和維護(hù)操作,管理方便,提高工作效率。ETL管理模塊以元數(shù)據(jù)為中心進(jìn)行交互和協(xié)作,從數(shù)據(jù)源中抽取數(shù)據(jù),然后進(jìn)行傳轉(zhuǎn)換、清洗和加載,按照定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中,很好地滿足數(shù)據(jù)集成的續(xù)期,實(shí)現(xiàn)各業(yè)務(wù)之間的數(shù)據(jù)的匯總和分發(fā)。
數(shù)據(jù)倉(cāng)庫(kù)包括接口文件區(qū)、細(xì)節(jié)數(shù)據(jù)暫存區(qū)SSA、細(xì)節(jié)數(shù)據(jù)SOR、數(shù)據(jù)集市、數(shù)據(jù)總結(jié)模塊、反饋模塊和元數(shù)據(jù)存儲(chǔ)MDR,細(xì)節(jié)數(shù)據(jù)SOR連接數(shù)據(jù)總結(jié)模塊,數(shù)據(jù)總結(jié)模塊連接反饋模塊,文件接口區(qū)用于存儲(chǔ)和處理接口文件,文件接口區(qū)連接有權(quán)限設(shè)定模塊,文件接口區(qū)在Unix系統(tǒng)下按照特定的目錄結(jié)構(gòu)組織起來,通過權(quán)限設(shè)定模塊對(duì)每個(gè)目錄按照其特定的用途設(shè)定對(duì)不同用戶的訪問權(quán)限,接口文件區(qū)的數(shù)據(jù)處理工具主要是Kettle,相互獨(dú)立,互不影響,分區(qū)明確,保證訪問的有效性。細(xì)節(jié)數(shù)據(jù)暫存區(qū)SSA連接有驗(yàn)證模塊,驗(yàn)證模塊連接有查找模塊,查找模塊連接細(xì)節(jié)數(shù)據(jù)SOR,驗(yàn)證模塊連接有處理模塊,處理模塊連接細(xì)節(jié)數(shù)據(jù)SOR,細(xì)節(jié)數(shù)據(jù)暫存區(qū)SSA用于數(shù)據(jù)的暫存,把支持的接口文件裝載到數(shù)據(jù)庫(kù),驗(yàn)證模塊根據(jù)查找模塊到的細(xì)節(jié)數(shù)據(jù)SOR內(nèi)已有的數(shù)據(jù)與新加載的數(shù)據(jù)進(jìn)行比較,通過驗(yàn)證則由出處理模塊將這些新加載的數(shù)據(jù)整合到細(xì)節(jié)數(shù)據(jù)SOR內(nèi)。
細(xì)節(jié)數(shù)據(jù)SOR是基于BDW開發(fā)的一套符合3NF范式規(guī)范的表結(jié)構(gòu),細(xì)節(jié)數(shù)據(jù)SOR存儲(chǔ)了數(shù)據(jù)倉(cāng)庫(kù)內(nèi)最細(xì)節(jié)層次的數(shù)據(jù),細(xì)節(jié)數(shù)據(jù)SOR連接有交換分區(qū)模塊,通過交換分區(qū)模塊按照不同的主題域進(jìn)行分類組織,交換分區(qū)模塊采用“分區(qū)忽略”和“分而治之”兩種分區(qū)機(jī)制,可以減少導(dǎo)入數(shù)據(jù)操作對(duì)用戶實(shí)時(shí)訪問數(shù)據(jù)的影響,操作模式就像使用可熱插拔的硬盤一樣,使用方便,在性能上,由于系統(tǒng)中存儲(chǔ)了海量數(shù)據(jù),可以通過“分區(qū)忽略”能夠有效地提高查詢性能,可以提高數(shù)據(jù)的可管理性和可用性,如數(shù)據(jù)刪除、數(shù)據(jù)備份等,采取“分而治之”進(jìn)行更加完善快捷的管理,可以將任務(wù)產(chǎn)生的故障局限在分區(qū)中,并且可以有效地縮短恢復(fù)時(shí)間,細(xì)節(jié)數(shù)據(jù)SOR作為企業(yè)數(shù)據(jù)模型,是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的核心,具有足夠的靈活性,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求,擴(kuò)大了系統(tǒng)的適用范圍。細(xì)節(jié)數(shù)據(jù)SOR連接有BDW升級(jí)更新模塊,通過BDW升級(jí)更新模塊可支持BDW的進(jìn)一步升級(jí)和更新。
元數(shù)據(jù)存儲(chǔ)MDR用來保存關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中的過程和數(shù)據(jù)的信息,數(shù)據(jù)的信息包括日志、數(shù)據(jù)詞典和配置信息等,元數(shù)據(jù)存儲(chǔ)MDR連接有元數(shù)據(jù)管理模塊,由于各個(gè)工具和系統(tǒng)都會(huì)生成自己的元數(shù)據(jù),利用元數(shù)據(jù)管理模塊把這些元數(shù)據(jù)盡可能的集中存儲(chǔ)到元數(shù)據(jù)存儲(chǔ)MDR內(nèi),元數(shù)據(jù)存儲(chǔ)MDR只是一個(gè)共享元數(shù)據(jù)供用戶集中訪問的地方,真正元數(shù)據(jù)的維護(hù)地還是在生成這些元數(shù)據(jù)的系統(tǒng)和工具內(nèi)。數(shù)據(jù)集市連接有多維立方體模塊,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市存儲(chǔ)在一個(gè)TDH數(shù)據(jù)群內(nèi),各個(gè)不同的數(shù)據(jù)在TDH數(shù)據(jù)群內(nèi)按不同的私有區(qū)域來區(qū)分,數(shù)據(jù)集市存儲(chǔ)在三維視覺區(qū)域內(nèi),用于分析多維數(shù)據(jù),多維立方體模塊存儲(chǔ)在集成區(qū)域內(nèi),用于存儲(chǔ)多維數(shù)據(jù)。數(shù)據(jù)集市呈星型或雪花型結(jié)構(gòu),數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,可以稱作"小數(shù)據(jù)倉(cāng)庫(kù)",數(shù)據(jù)集市的應(yīng)用是對(duì)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的補(bǔ)充,數(shù)據(jù)集市為面向分析的多維數(shù)據(jù),為特定用戶存儲(chǔ)預(yù)先計(jì)算好的數(shù)據(jù),從而滿足用戶特殊的需求,具有獨(dú)立性,訪問快速且方便,不受系統(tǒng)進(jìn)行中的更新的影響。數(shù)據(jù)總結(jié)模塊設(shè)計(jì)為反規(guī)范化,用來更新多維數(shù)據(jù),反饋模塊以數(shù)據(jù)挖掘結(jié)果為主。用戶展現(xiàn)模塊連接有查詢模塊,查詢模塊用于根據(jù)用戶設(shè)定的需求展現(xiàn)相應(yīng)的業(yè)務(wù)內(nèi)容,包括業(yè)務(wù)的辦理時(shí)間,業(yè)務(wù)的截止時(shí)間,業(yè)務(wù)的詳細(xì)內(nèi)容參數(shù)等。特定用戶可快速查詢到自己需求的業(yè)務(wù)的詳細(xì)內(nèi)容。
本發(fā)明快速地實(shí)現(xiàn)了自動(dòng)、可靠的數(shù)據(jù)采集、傳輸、轉(zhuǎn)換和加載,ETL處理速度快,能夠完成大數(shù)據(jù)量的處理加工,使得ETL任務(wù)執(zhí)行起來更加容易實(shí)現(xiàn),并能支持多任務(wù)執(zhí)行,相互獨(dú)立,互不影響,且降低了ETL數(shù)據(jù)處理的成本,提高了ETL數(shù)據(jù)處理的性能,提高了數(shù)據(jù)的可管理性和可用性,細(xì)節(jié)數(shù)據(jù)SOR作為企業(yè)數(shù)據(jù)模型,是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的核心,具有足夠的靈活性,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求,系統(tǒng)的適用范圍大大增強(qiáng)。本發(fā)明具有實(shí)用性強(qiáng),數(shù)據(jù)管理便捷,靈活性高,易于推廣,高效能數(shù)據(jù)處理,大吞吐量,能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求的優(yōu)點(diǎn)。
以上僅為本發(fā)明的具體實(shí)施例,但本發(fā)明的技術(shù)特征并不局限于此。任何以本發(fā)明為基礎(chǔ),為解決基本相同的技術(shù)問題,實(shí)現(xiàn)基本相同的技術(shù)效果,所作出的簡(jiǎn)單變化、等同替換或者修飾等,皆涵蓋于本發(fā)明的保護(hù)范圍之中。