本發(fā)明涉及企業(yè)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種自助取數(shù)工具和取數(shù)方法。
背景技術(shù):
企業(yè)的運(yùn)營(yíng)及業(yè)務(wù)分析人員由于專業(yè)的限制,不能隨時(shí)的對(duì)企業(yè)在商業(yè)運(yùn)營(yíng)過程中產(chǎn)生的大量復(fù)雜數(shù)據(jù)進(jìn)行整合、提取,往往需要技術(shù)人員協(xié)助,提出大量的緊急取數(shù)需求,從而導(dǎo)致數(shù)據(jù)獲取周期長(zhǎng)、數(shù)據(jù)使用成本較高、效率低,難以及時(shí)利用企業(yè)數(shù)據(jù)進(jìn)行分析決策幫助企業(yè)在競(jìng)爭(zhēng)中贏得優(yōu)勢(shì);數(shù)據(jù)開發(fā)人員日常工作被這些可復(fù)用性低的緊急臨時(shí)取數(shù)需求所填充,難以發(fā)揮更高的工作價(jià)值。
自助取數(shù)工具提供了一種企業(yè)數(shù)據(jù)自助提取分析的解決方案,很好的解決了業(yè)務(wù)運(yùn)營(yíng)人員使用企業(yè)數(shù)據(jù)的障礙問題;讓重復(fù)、簡(jiǎn)單的取數(shù)工作通過工具實(shí)現(xiàn),使數(shù)據(jù)開發(fā)人員從繁忙的日常取數(shù)工作中釋放出來去做更有挑戰(zhàn)性的工作;同時(shí)提供一套數(shù)據(jù)安全管理策略,達(dá)到了取數(shù)方便性和安全性的平衡
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種自助取數(shù)工具和取數(shù)方法,能夠輕松便捷獲取數(shù)據(jù),降低數(shù)據(jù)的使用門檻,提高企業(yè)數(shù)據(jù)使用效率而研發(fā)的數(shù)據(jù)產(chǎn)品。
為了實(shí)現(xiàn)上述目的,本發(fā)明提出了一種自助取數(shù)工具,包括:數(shù)據(jù)存儲(chǔ)/執(zhí)行層、語義定義/存儲(chǔ)層、自助取數(shù)引擎、web訪問控制層及后臺(tái)管理,其中,所述數(shù)據(jù)存儲(chǔ)/執(zhí)行層從源數(shù)據(jù)庫(kù)中抽取數(shù)據(jù);所述語義定義/存儲(chǔ)層為建立在數(shù)據(jù)庫(kù)之上的業(yè)務(wù)邏輯層,通過對(duì)數(shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)項(xiàng)定義,把數(shù)據(jù)庫(kù)中的數(shù)據(jù)定義成為相應(yīng)的業(yè)務(wù)名稱;所述web訪問控制層包括自助取數(shù)和模版取數(shù);所述自助取數(shù)或模版取數(shù)通過所述自助取數(shù)引擎查看數(shù)據(jù)范圍,選擇結(jié)果字段,在提交查詢后顯示出數(shù)據(jù)列表;所述后臺(tái)管理包括數(shù)據(jù)內(nèi)容配置管理和數(shù)據(jù)安全管理,數(shù)據(jù)內(nèi)容配置管理能簡(jiǎn)單靈活地完成數(shù)據(jù)的擴(kuò)充;數(shù)據(jù)安全管理使用用戶、角色和權(quán)限的權(quán)限控制模型,對(duì)權(quán)限管控細(xì)分為模塊訪問權(quán)限管控、字段訪問權(quán)限管控、數(shù)據(jù)行級(jí)權(quán)限管控和敏感數(shù)據(jù)權(quán)限管控。
進(jìn)一步的,在所述的自助取數(shù)工具中,所述數(shù)據(jù)存儲(chǔ)/執(zhí)行層使用分布式大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)工具和分布式大數(shù)據(jù)執(zhí)行引擎。
在本發(fā)明中,還提出了一種自助取數(shù)方法,包括步驟:
數(shù)據(jù)存儲(chǔ)/執(zhí)行層從源數(shù)據(jù)庫(kù)中抽取數(shù)據(jù);
語義定義/存儲(chǔ)層通過對(duì)數(shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)項(xiàng)定義,把數(shù)據(jù)庫(kù)中的數(shù)據(jù)定義成為相應(yīng)的業(yè)務(wù)名稱;
web訪問控制層的自助取數(shù)或模版取數(shù)通過自助取數(shù)引擎進(jìn)行取數(shù);
所述取數(shù)包括步驟如下:
第一步:設(shè)置過濾條件,限定查看的數(shù)據(jù)范圍;
第二步:選擇結(jié)果字段;
第三步:提交查詢;
第四步:顯示列表。
進(jìn)一步的,在所述的自助取數(shù)方法中,所述數(shù)據(jù)存儲(chǔ)/執(zhí)行層使用分布式大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)工具和分布式大數(shù)據(jù)執(zhí)行引擎,所述分布式大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)工具從源數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),針對(duì)業(yè)務(wù)主題對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化及集成,統(tǒng)一指標(biāo)模型,確保數(shù)據(jù)口徑一致。
進(jìn)一步的,在所述的自助取數(shù)方法中,將取數(shù)步驟和取數(shù)條件保存為模板。
進(jìn)一步的,在所述的自助取數(shù)方法中,通過所述web訪問控制層對(duì)所述模板進(jìn)行增加、刪除、修改及復(fù)制。
進(jìn)一步的,在所述的自助取數(shù)方法中,所述自助取數(shù)引擎根據(jù)web訪問界面中用戶的操作,讀取語義層定義,將用戶的查詢轉(zhuǎn)換成一個(gè)或多個(gè)星型模型,并根據(jù)星型模型關(guān)系自動(dòng)構(gòu)建聚合sql,并提交至分布式大數(shù)據(jù)執(zhí)行引擎進(jìn)行執(zhí)行,獲取執(zhí)行結(jié)果數(shù)據(jù)集,并返回至web訪問應(yīng)用界面。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果主要體現(xiàn)在:自助取數(shù)工具從集成的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)出發(fā),通過已構(gòu)建的多維數(shù)據(jù)模型對(duì)信息從多種可能的角度進(jìn)行快速讀取;基于開源的大數(shù)據(jù)處理技術(shù)hive+presto搭建數(shù)據(jù)存儲(chǔ)執(zhí)行引擎,能高效完成清單級(jí)數(shù)據(jù)的查看以及匯總級(jí)數(shù)據(jù)的多維度實(shí)時(shí)聚合;通過可視化處理技術(shù)以及自助取數(shù)引擎封裝,使用語義層技術(shù)將數(shù)據(jù)執(zhí)行的技術(shù)語言轉(zhuǎn)化為業(yè)務(wù)人員日常使用的業(yè)務(wù)語言,用戶在web訪問界面上進(jìn)行拖拉拽就能輕松靈活地自助完成企業(yè)數(shù)據(jù)的提??;通過配置化的后臺(tái)數(shù)據(jù)內(nèi)容管理工具,讓開發(fā)人員通過簡(jiǎn)單的配置即可簡(jiǎn)單的完成數(shù)據(jù)內(nèi)容的擴(kuò)展,此工作無附加開發(fā)成本,且對(duì)用戶透明;通過覆蓋全方位的數(shù)據(jù)權(quán)限管控策略,加上可視化的數(shù)據(jù)權(quán)限管控配置界面,讓系統(tǒng)管理人員可輕松實(shí)現(xiàn)模塊級(jí)、字段級(jí)、數(shù)據(jù)行級(jí)以及敏感信息的管控配置,保障數(shù)據(jù)的使用安全。
附圖說明
圖1為本發(fā)明一實(shí)施例中自助取數(shù)工具的結(jié)構(gòu)框圖;
圖2為本發(fā)明一實(shí)施例中自助取數(shù)方法的流程圖;
圖3為本發(fā)明一實(shí)施例中的數(shù)據(jù)權(quán)限管理策略圖。
具體實(shí)施方式
下面將結(jié)合示意圖對(duì)本發(fā)明的自助取數(shù)工具和取數(shù)方法進(jìn)行更詳細(xì)的描述,其中表示了本發(fā)明的優(yōu)選實(shí)施例,應(yīng)該理解本領(lǐng)域技術(shù)人員可以修改在此描述的本發(fā)明,而仍然實(shí)現(xiàn)本發(fā)明的有利效果。因此,下列描述應(yīng)當(dāng)被理解為對(duì)于本領(lǐng)域技術(shù)人員的廣泛知道,而并不作為對(duì)本發(fā)明的限制。
為了清楚,不描述實(shí)際實(shí)施例的全部特征。在下列描述中,不詳細(xì)描述公知的功能和結(jié)構(gòu),因?yàn)樗鼈儠?huì)使本發(fā)明由于不必要的細(xì)節(jié)而混亂。應(yīng)當(dāng)認(rèn)為在任何實(shí)際實(shí)施例的開發(fā)中,必須做出大量實(shí)施細(xì)節(jié)以實(shí)現(xiàn)開發(fā)者的特定目標(biāo),例如按照有關(guān)系統(tǒng)或有關(guān)商業(yè)的限制,由一個(gè)實(shí)施例改變?yōu)榱硪粋€(gè)實(shí)施例。另外,應(yīng)當(dāng)認(rèn)為這種開發(fā)工作可能是復(fù)雜和耗費(fèi)時(shí)間的,但是對(duì)于本領(lǐng)域技術(shù)人員來說僅僅是常規(guī)工作。
在下列段落中參照附圖以舉例方式更具體地描述本發(fā)明。根據(jù)下面說明和權(quán)利要求書,本發(fā)明的優(yōu)點(diǎn)和特征將更清楚。需說明的是,附圖均采用非常簡(jiǎn)化的形式且均使用非精準(zhǔn)的比例,僅用以方便、明晰地輔助說明本發(fā)明實(shí)施例的目的。
自助取數(shù)工具是一種基于數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)數(shù)據(jù)提取分析的解決方案,有助于解決業(yè)務(wù)分析人員和數(shù)據(jù)開發(fā)技術(shù)人員在數(shù)據(jù)模型上的知識(shí)鴻溝,融合雙方的價(jià)值,將數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值最大化。
具體的,自助取數(shù)工具的基本架構(gòu)由四層結(jié)構(gòu)組成:數(shù)據(jù)存儲(chǔ)/執(zhí)行層、語義定義/存儲(chǔ)層、自助取數(shù)引擎、web訪問控制層及后臺(tái)管理,如圖1所示。
所述數(shù)據(jù)存儲(chǔ)/執(zhí)行層使用分布式大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)工具h(yuǎn)ive和分布式大數(shù)據(jù)執(zhí)行引擎presto。分布式大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)工具h(yuǎn)ive從源數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),針對(duì)業(yè)務(wù)主題對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化及集成,統(tǒng)一指標(biāo)模型,保證數(shù)據(jù)口徑一致,使原始數(shù)據(jù)不再雜亂無章,基于優(yōu)化查詢的組織形式,有效提高數(shù)據(jù)獲取、統(tǒng)計(jì)和分析的效率,數(shù)據(jù)倉(cāng)庫(kù)擁有業(yè)務(wù)數(shù)據(jù)庫(kù)所無法擁有的高效的數(shù)據(jù)組織形式,更加完整的數(shù)據(jù)體系,清晰的數(shù)據(jù)分類和分層機(jī)制,實(shí)現(xiàn)各種不同數(shù)據(jù)的關(guān)聯(lián)并使多維分析更加方便,為從多角度多層次地?cái)?shù)據(jù)分析和決策制定提供的可能。
所述語義定義/存儲(chǔ)層是建立在數(shù)據(jù)庫(kù)之上的業(yè)務(wù)邏輯層,通過對(duì)數(shù)據(jù)庫(kù)里的有關(guān)數(shù)據(jù)項(xiàng)定義,把數(shù)據(jù)庫(kù)中的數(shù)據(jù)定義成有明確的業(yè)務(wù)含義的名稱。業(yè)務(wù)人員所面對(duì)的不再是表、字段和它們之間復(fù)雜的關(guān)聯(lián)、計(jì)算關(guān)系,而是業(yè)務(wù)人員所熟悉的業(yè)務(wù)術(shù)語和指標(biāo)名稱。
所述后臺(tái)管理包括數(shù)據(jù)內(nèi)容配置管理和數(shù)據(jù)安全管理,數(shù)據(jù)內(nèi)容配置管理能簡(jiǎn)單靈活地完成數(shù)據(jù)的擴(kuò)充;數(shù)據(jù)安全管理使用用戶、角色和權(quán)限的權(quán)限控制模型,對(duì)權(quán)限管控細(xì)分為模塊訪問權(quán)限管控、字段訪問權(quán)限管控、數(shù)據(jù)行級(jí)權(quán)限管控和敏感數(shù)據(jù)權(quán)限管控。
請(qǐng)參考圖2,在本實(shí)施例中,還包括一種自助取數(shù)方法,包括步驟:
數(shù)據(jù)存儲(chǔ)/執(zhí)行層從源數(shù)據(jù)庫(kù)中抽取數(shù)據(jù);
語義定義/存儲(chǔ)層通過對(duì)數(shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)項(xiàng)定義,把數(shù)據(jù)庫(kù)中的數(shù)據(jù)定義成為相應(yīng)的業(yè)務(wù)名稱;
web訪問控制層的自助取數(shù)或模版取數(shù)通過自助取數(shù)引擎進(jìn)行取數(shù);
所述取數(shù)包括步驟如下:
第一步:設(shè)置過濾條件,限定查看的數(shù)據(jù)范圍;
第二步:選擇結(jié)果字段;
第三步:提交查詢;
第四步:顯示列表。
具體的,所述web訪問控制層目前包含兩個(gè)模塊:自助取數(shù)和模版取數(shù)。
其中,自助取數(shù)通過四步完成取數(shù):
第一步,選擇條件,用于設(shè)置過濾條件,限定查看的數(shù)據(jù)范圍;第二步,選擇結(jié)果字段,確定最終結(jié)果需要的字段,確定在限定的范圍內(nèi)具體看哪些數(shù)據(jù),既可設(shè)置結(jié)果字段的展示順序,也可指定結(jié)果數(shù)據(jù)的排序字段;第三步,提交查詢,確認(rèn)選擇條件和結(jié)果正確后,提交查詢;第四步,查看列表,可預(yù)覽100條數(shù)據(jù)記錄,完整數(shù)據(jù)通過導(dǎo)出結(jié)果查看,可查看生成數(shù)據(jù)的sql腳本,可將取數(shù)操作保存為模版。
所述模版取數(shù)通過預(yù)先保存好的模版進(jìn)行取數(shù),方便周期性的取數(shù),模版取數(shù)模塊還包含對(duì)模版的管理,能對(duì)模版進(jìn)行增加、刪除、修改、復(fù)制,還能將模版分享給其他的用戶,以達(dá)到知識(shí)共享傳承的目的。
所述自助取數(shù)引擎根據(jù)web訪問界面中用戶的操作,讀取語義層定義,將用戶的查詢轉(zhuǎn)換成一個(gè)至多個(gè)星型模型,并根據(jù)星型模型關(guān)系自動(dòng)構(gòu)建聚合sql,并提交到數(shù)據(jù)執(zhí)行引擎presto執(zhí)行,獲取presto執(zhí)行結(jié)果數(shù)據(jù)集,返回至web訪問應(yīng)用界面。
所述自助取數(shù)工具從集成的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)出發(fā),通過已構(gòu)建的多維數(shù)據(jù)模型對(duì)信息從多種可能的角度進(jìn)行快速讀??;基于開源的大數(shù)據(jù)處理技術(shù)hive+presto搭建數(shù)據(jù)存儲(chǔ)執(zhí)行引擎,能高效完成清單級(jí)數(shù)據(jù)的查看以及匯總級(jí)數(shù)據(jù)的多維度實(shí)時(shí)聚合;通過可視化處理技術(shù)以及自助取數(shù)引擎封裝,使用語義層技術(shù)將數(shù)據(jù)執(zhí)行的技術(shù)語言轉(zhuǎn)化為業(yè)務(wù)人員日常使用的業(yè)務(wù)語言,用戶在web訪問界面上進(jìn)行拖拉拽就能輕松靈活地自助完成企業(yè)數(shù)據(jù)的提取。
例如,以“2016年熱卷事業(yè)部各個(gè)區(qū)域的商城銷售情況,包含訂單數(shù)、客戶數(shù)、聯(lián)系人數(shù)、預(yù)提重量、預(yù)提金額”為例。
第一步、選擇結(jié)果字段:
選擇查看的結(jié)果字段,分別為“下單年份”、“交易員所在事業(yè)部”、“交易員所在城市”、“訂單數(shù)”、“客戶數(shù)”、“聯(lián)系人數(shù)”、“預(yù)提重量”、“預(yù)提金額”。在左側(cè)選擇結(jié)果欄中分別將這些字段選中,然后點(diǎn)擊下一步。
第二步、選擇條件:
限制“下單年份”為“2016”,“交易員所在的事業(yè)部”為“熱卷事業(yè)部”,“訂單類型”為“商城”,限制完成后點(diǎn)擊下一步。
第三步、提交查詢:
核對(duì)已選條件和已選結(jié)果,提交查詢。
第四步、查看列表:
結(jié)果預(yù)覽只查詢100條記錄,完整的數(shù)據(jù)通過“導(dǎo)出結(jié)果”導(dǎo)出到文件查看??蓪⑷?shù)保存為模版,下次直接點(diǎn)擊模版名稱就可以查詢。
將常用業(yè)務(wù)場(chǎng)景固化為模版,方便周期性提取數(shù)據(jù)。
在“我的模板”中查看保存的模板。點(diǎn)擊“模版名稱”就能使用模版進(jìn)行查詢。
可以對(duì)模版進(jìn)行復(fù)制、修改、刪除、分享,也可增加一個(gè)新模版。
(1)新增:新增模版與從自助取數(shù)保存模版流程一樣;
(2)復(fù)制:選擇需要復(fù)制的模版,點(diǎn)擊“復(fù)制”。
(3)修改:選中需要修改的模版,點(diǎn)擊“修改”。對(duì)“2016年熱卷事業(yè)部各個(gè)區(qū)域的商城銷售情況”的取數(shù)修改為“2016年熱卷事業(yè)部各個(gè)區(qū)域的商城每個(gè)月的銷售情況”,需要在結(jié)果列表中把下單年月也添加進(jìn)去。點(diǎn)擊上一步,返回到“step1選擇結(jié)果字段”,增加“下單年月”,然后提交查詢,點(diǎn)擊“step4查看列表”中的“修改模板”,完成模板的修改。
(4)刪除:選中需要?jiǎng)h除的模版,點(diǎn)擊“刪除”。
(5)共享:選中需要共享的模版,點(diǎn)擊“共享”。可將模板共享給多人。
后臺(tái)配置化實(shí)現(xiàn)數(shù)據(jù)字段內(nèi)容的擴(kuò)充,后續(xù)增加字段內(nèi)容時(shí),無需做二次開發(fā),成本低廉;自助取數(shù)降低了數(shù)據(jù)提取門檻,帶來的是數(shù)據(jù)安全的風(fēng)險(xiǎn)。為此,實(shí)現(xiàn)了模塊級(jí)別、字段級(jí)別、數(shù)據(jù)行級(jí)別和敏感數(shù)據(jù)的獨(dú)立管控,以求達(dá)到方便易用和數(shù)據(jù)安全的平衡;上述所有工作均通過權(quán)限管理模型,通過配置簡(jiǎn)單完成。
請(qǐng)參考圖3,在本實(shí)施例中,還可以設(shè)置權(quán)限管控,例如模塊權(quán)限設(shè)置,可以設(shè)置銷售權(quán)限;數(shù)據(jù)列(字段)權(quán)限設(shè)置,可以限制訂單數(shù)字段權(quán)限;數(shù)據(jù)行權(quán)限,可以限制某個(gè)客戶的數(shù)據(jù)權(quán)限;敏感數(shù)據(jù)權(quán)限設(shè)置,限制客戶一些敏感數(shù)據(jù)權(quán)限等。
自助取數(shù)是個(gè)極度重視數(shù)據(jù)處理的工具,需要依據(jù)企業(yè)現(xiàn)狀提供企業(yè)數(shù)據(jù)解決方案,很多功能需要根據(jù)企業(yè)數(shù)據(jù)的特點(diǎn)量身定做,自助取數(shù)強(qiáng)調(diào)關(guān)聯(lián)查詢的實(shí)時(shí)分析能力,傳統(tǒng)的自助取數(shù)工具基于ioe,性能和可擴(kuò)展性的瓶頸很難解決,不能適應(yīng)海量數(shù)據(jù)對(duì)計(jì)算能力的巨大需求。找鋼網(wǎng)自助取數(shù)工具主要是面向業(yè)務(wù)運(yùn)營(yíng),實(shí)現(xiàn)取數(shù)工具化,滿足業(yè)務(wù)人員可自助的進(jìn)行數(shù)據(jù)探索和分析?;陂_源的大數(shù)據(jù)處理技術(shù),使用hadoop集群+presto計(jì)算架構(gòu),搭建自助取數(shù)計(jì)算引擎,能高效完成清單級(jí)和匯總級(jí)的取數(shù)查詢;通過對(duì)鋼鐵產(chǎn)業(yè)鏈業(yè)務(wù)和數(shù)據(jù)的深入理解,建立面向b2b電商業(yè)務(wù)取數(shù)數(shù)據(jù)模型,做好業(yè)務(wù)和數(shù)據(jù)的映射,使用可視化處理技術(shù)和sql拼接計(jì)算,將數(shù)據(jù)執(zhí)行的技術(shù)語言轉(zhuǎn)化為業(yè)務(wù)人員日常使用的業(yè)務(wù)語言,使用戶能輕松靈活地自助完成企業(yè)數(shù)據(jù)的提取和分析;通過后臺(tái)數(shù)據(jù)配置快速完成數(shù)據(jù)內(nèi)容的擴(kuò)充,無需任何二次開發(fā)成本;在保證業(yè)務(wù)人員取數(shù)便利性的同時(shí),通過數(shù)據(jù)模塊訪問權(quán)限、字段訪問權(quán)限管控、數(shù)據(jù)行級(jí)權(quán)限管控和敏感數(shù)據(jù)權(quán)限管控來保證企業(yè)數(shù)據(jù)安全可控。
上述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不對(duì)本發(fā)明起到任何限制作用。任何所屬技術(shù)領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的技術(shù)方案的范圍內(nèi),對(duì)本發(fā)明揭露的技術(shù)方案和技術(shù)內(nèi)容做任何形式的等同替換或修改等變動(dòng),均屬未脫離本發(fā)明的技術(shù)方案的內(nèi)容,仍屬于本發(fā)明的保護(hù)范圍之內(nèi)。