欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于sca的etl架構(gòu)管理方法_2

文檔序號(hào):8512594閱讀:來源:國知局
rmer的對象是具體的列,所以需要兩個(gè)接口來對應(yīng)抽象的數(shù)據(jù),而Transformer中定義了兩個(gè)方法,一個(gè)是用來獲取輸出列的getOutputColumn,另一個(gè)是用來實(shí)現(xiàn)轉(zhuǎn)換的transform方法。InputRow中包含多個(gè)InputColumn,InputColumn定義為泛型結(jié)構(gòu),因?yàn)椴淮_定傳入的數(shù)據(jù)到底是什么類型的,有可能是從數(shù)據(jù)源中導(dǎo)入進(jìn)來的原始數(shù)據(jù),也可能是經(jīng)過了 Transformer之后轉(zhuǎn)換的數(shù)據(jù)類型。
[0034]步驟4、完成維度建模過程,把加載到數(shù)據(jù)倉庫中的數(shù)據(jù)最終轉(zhuǎn)化為用戶感興趣的服務(wù)。該步驟包括:
[0035]步驟4.1、生成滿足需求的維度表,維度表分為三種,第一種是不發(fā)生變化的維度表,第二種是需要記錄歷史變化的維度表,第三種則是不記錄歷史變化的維度表,而在這三種類型中,第二種漸變維度相對復(fù)雜些,由于數(shù)據(jù)集市中一般采用星型模式,故需要處理從雪花型到星型的轉(zhuǎn)換。
[0036]步驟4.2、處理事實(shí)表查找代理鍵的問題,在SCA組件中,調(diào)用對應(yīng)的數(shù)據(jù)庫函數(shù)和存儲(chǔ)過程,從SCA的裝配模型的角度看,關(guān)系數(shù)據(jù)庫是一個(gè)提供服務(wù)的外部應(yīng)用,SCA組件只需按照數(shù)據(jù)庫的規(guī)范來進(jìn)行調(diào)用即可。
[0037]上述步驟的一個(gè)具體實(shí)例為:
[0038]步驟1、對元數(shù)據(jù)信息的訪問,和文本文件,關(guān)系數(shù)據(jù)庫等存儲(chǔ)元數(shù)據(jù)信息的存儲(chǔ)介質(zhì)進(jìn)行交互。
[0039]1.1)首先需要把數(shù)據(jù)源抽取到緩存數(shù)據(jù)庫Stage庫中;
[0040]1.2) IVR系統(tǒng)和CTI系統(tǒng)使用是Oracle數(shù)據(jù)庫,SSIS定義DataSources提供了.NetProvidersforOleDb 里的 MircosoftOLEDBProviderforOracle,配置好數(shù)據(jù)連接后需要把所需要的業(yè)務(wù)數(shù)據(jù)先不做任何轉(zhuǎn)換的抽取過來。
[0041]1.3)另一個(gè)數(shù)據(jù)源是Excel文件,微軟在其數(shù)據(jù)流任務(wù)(DataFlowTask)中提供了ExcelSource來支持對Excel文件的讀取。
[0042]步驟2、解決不同數(shù)據(jù)源之間的交互,提供多源支持。
[0043]2.1)通用數(shù)據(jù)源組件的實(shí)現(xiàn)是使用的開源軟件MetaModel。
[0044]2.2)按照關(guān)系數(shù)據(jù)庫的模型對非關(guān)系數(shù)據(jù)庫型的數(shù)據(jù)源(DataContext)提供統(tǒng)一的模式(Schemas),表(tables),列(columns)和關(guān)聯(lián)(relat1nships),為那些非關(guān)系型的數(shù)據(jù)源提供同樣的查詢功能。
[0045]步驟3、處理各種各樣的數(shù)據(jù)質(zhì)量問題,對多源異構(gòu)下的數(shù)據(jù)源進(jìn)行清洗與轉(zhuǎn)換操作。
[0046]3.1)在項(xiàng)目的實(shí)現(xiàn)中用來解決實(shí)例級(jí)的數(shù)據(jù)質(zhì)量問題的組件是AnalyzerBeans,提供了多種用于數(shù)據(jù)分析轉(zhuǎn)換的功能組件
[0047]3.2)在該項(xiàng)目應(yīng)用中,SSIS實(shí)現(xiàn)了簡單的模式級(jí)轉(zhuǎn)換,而對于Excel餐表的解析,通過數(shù)據(jù)詞典來實(shí)現(xiàn)校驗(yàn)過程。
[0048]步驟4、完成維度建模過程,把加載到數(shù)據(jù)倉庫中的數(shù)據(jù)最終轉(zhuǎn)化為用戶感興趣的服務(wù)。
[0049]4.1)復(fù)用SSIS的實(shí)現(xiàn),生成對應(yīng)的維度表,完成事實(shí)表的代理鍵轉(zhuǎn)換。
[0050]步驟5、組件裝配及相互訪問。
[0051]5.1) SCA支持不同的編程語言構(gòu)建功能單元或組件,然后將它們通過SOAP,JMS,RMI,REST或者其他協(xié)議暴露為服務(wù),這些組件在內(nèi)部被連在一起形成更高級(jí)別的服務(wù)或組合,服務(wù)以分布式的方式運(yùn)行。
[0052]5.2)通過本實(shí)現(xiàn)中選擇的SCA的容器ApacheTuscany,用Tuscany可以把這些按照不同技術(shù)實(shí)現(xiàn)的ETL模塊及組件按照SCA裝備模型方便的封裝發(fā)布為Web服務(wù),供相互調(diào)用以及復(fù)用。
【主權(quán)項(xiàng)】
1.一種基于SCA的ETL架構(gòu)管理方法,其特征在于,包括以下步驟: 步驟1、對元數(shù)據(jù)信息的訪問,和存儲(chǔ)元數(shù)據(jù)信息的存儲(chǔ)介質(zhì)進(jìn)行交互; 步驟2、解決不同數(shù)據(jù)源之間的交互,提供多源支持,包括以下步驟: 步驟2.1、對數(shù)據(jù)格式良好的文本數(shù)據(jù)源直接導(dǎo)入到對應(yīng)的表中; 步驟2.2、把基于文本的數(shù)據(jù)源和基于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)源都看成是統(tǒng)一的數(shù)據(jù)源DataStore,一個(gè)數(shù)據(jù)源DataStore包含一到多個(gè)數(shù)據(jù)模式Schema,每個(gè)數(shù)據(jù)模式Schema包含多個(gè)一到多個(gè)數(shù)據(jù)表Table,每個(gè)數(shù)據(jù)表Table包含一到多個(gè)數(shù)據(jù)列Column ; 步驟2.3、當(dāng)要在不同的數(shù)據(jù)源之間進(jìn)行數(shù)據(jù)讀寫操作時(shí),提供足夠的信息給數(shù)據(jù)源DataStore,能夠找到對應(yīng)的DataContext、數(shù)據(jù)集合Schema、數(shù)據(jù)表Table的對應(yīng)實(shí)現(xiàn)類,然后在程序級(jí)別則是Column接口的數(shù)據(jù)介入到Column接口中,最后寫入到對應(yīng)的物理存儲(chǔ)介質(zhì)上; 步驟3、處理各種各樣的數(shù)據(jù)質(zhì)量問題,對多源異構(gòu)下的數(shù)據(jù)源進(jìn)行清洗與轉(zhuǎn)換操作,包括數(shù)據(jù)模式級(jí)別和數(shù)據(jù)實(shí)例級(jí)別; 步驟4、完成維度建模過程,把加載到數(shù)據(jù)倉庫中的數(shù)據(jù)最終轉(zhuǎn)化為用戶感興趣的服務(wù)。
2.如權(quán)利要求1所述的一種基于SCA的ETL架構(gòu)管理方法,其特征在于,所述步驟I包括: 步驟1.1、讀寫元數(shù)據(jù),包括對不同的元數(shù)據(jù)存儲(chǔ)介質(zhì)的訪問; 步驟1.2、實(shí)現(xiàn)解析輸入?yún)?shù)的功能,處理不同的業(yè)務(wù)邏輯所需要特定功能。
3.如權(quán)利要求1所述的一種基于SCA的ETL架構(gòu)管理方法,其特征在于,所述步驟3包括: 步驟3.1、單源模式級(jí)的數(shù)據(jù)質(zhì)量問題的處理,找到從源到目的的映射規(guī)則,做一些簡單的轉(zhuǎn)換; 步驟3.2、多源模式下,把數(shù)據(jù)從一個(gè)值轉(zhuǎn)成另一個(gè)值,這里面包含了數(shù)據(jù)一個(gè)抽象對象和一個(gè)轉(zhuǎn)換抽象動(dòng)作,由此抽象出來三個(gè)接口,分別對應(yīng)InputRow,InputCoIumn>Transformer, Transformer的對象是具體的列,所以需要兩個(gè)接口來對應(yīng)抽象的數(shù)據(jù),而Transformer中定義了兩個(gè)方法,一個(gè)是用來獲取輸出列的getOutputColumn,另一個(gè)是用來實(shí)現(xiàn)轉(zhuǎn)換的transform方法,InputRow中包含多個(gè)InputColumn,InputColumn定義為泛型結(jié)構(gòu),因?yàn)椴淮_定傳入的數(shù)據(jù)到底是什么類型的,有可能是從數(shù)據(jù)源中導(dǎo)入進(jìn)來的原始數(shù)據(jù),也可能是經(jīng)過了 Transformer之后轉(zhuǎn)換的數(shù)據(jù)類型。
4.如權(quán)利要求1所述的一種基于SCA的ETL架構(gòu)管理方法,其特征在于,所述步驟4包括: 步驟4.1、生成滿足需求的維度表,維度表分為三種:第一種是不發(fā)生變化的維度表,第二種是需要記錄歷史變化的維度表,第三種則是不記錄歷史變化的維度表; 步驟4.2、處理事實(shí)表查找代理鍵的問題,在SCA組件中,調(diào)用對應(yīng)的數(shù)據(jù)庫函數(shù)和存儲(chǔ)過程,從SCA的裝配模型的角度看,關(guān)系數(shù)據(jù)庫是一個(gè)提供服務(wù)的外部應(yīng)用,SCA組件只需按照數(shù)據(jù)庫的規(guī)范來進(jìn)行調(diào)用即可。
【專利摘要】本發(fā)明提供了一種基于SCA的ETL架構(gòu)管理方法。本發(fā)明針對企業(yè)數(shù)據(jù)倉庫建設(shè)周期中ETL瓶頸的問題,設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)基于SCA的ETL架構(gòu),該架構(gòu)能夠方便地復(fù)用已有的ETL工具、已有的組件功能,同時(shí)提高定制開發(fā)組件的復(fù)用性。本發(fā)明的特點(diǎn)為復(fù)用當(dāng)前已有的滿足ETL需求的組件和系統(tǒng),提高開發(fā)的ETL組件的復(fù)用性和擴(kuò)展性,基于SCA的粗粒度、平臺(tái)無關(guān)、松耦合等優(yōu)良特性,達(dá)到縮短ETL開發(fā)周期和降低復(fù)雜度的目的。
【IPC分類】G06F17-30
【公開號(hào)】CN104834742
【申請?zhí)枴緾N201510259646
【發(fā)明人】李繼云, 孫莉, 孫健, 易先海, 樂嘉錦, 施巍, 呂俊濤
【申請人】東華大學(xué)
【公開日】2015年8月12日
【申請日】2015年5月20日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
呼和浩特市| 曲周县| 吉林市| 望城县| 大竹县| 晋城| 共和县| 大余县| 霍州市| 岚皋县| 微博| 酒泉市| 东城区| 安远县| 乌鲁木齐县| 成武县| 宝丰县| 霍州市| 晋江市| 阿坝| 七台河市| 绥宁县| 桃园市| 新民市| 石楼县| 桑日县| 克拉玛依市| 伊宁县| 聂拉木县| 武邑县| 焉耆| 温州市| 台南市| 时尚| 象州县| 鹤庆县| 荔波县| 荣昌县| 武鸣县| 桦甸市| 博客|