一種基于數據倉庫的異構大數據整合方法和系統的制作方法【專利摘要】本發(fā)明提出了一種基于數據倉庫的異構大數據整合方法和系統,建立結構化數據、半結構化數據及非結構化數據的關聯關系,結合關系型數據庫、分布式數據庫以及內存數據庫的各自的優(yōu)勢,整合各類數據,基于數據倉庫做深層次數據分析,不斷深化數據挖掘,實現高效、高質量的異構大數據分析處理。本發(fā)明對互聯網應用中的結構化數據、半結構化數據、非結構化數據進行關聯,通過Map/Reduce分布式處理和數據挖掘處理,把處理結果和相關數據以數據庫結構的方式寫入內存,形成簡易內存數據庫,便于高速計算和快速響應?!緦@f明】一種基于數據倉庫的異構大數據整合方法和系統【
技術領域:
】[0001]本發(fā)明主要涉及互聯網領域,尤其涉及一種基于數據倉庫的異構大數據整合方法和系統?!?br>背景技術:
】[0002]商業(yè)智能(BI,BusinessIntelligence)綜合利用數據倉庫、ETL技術、OLAP分析以及數據挖掘技術對數據進行有效的整合和存儲,并對數據進行分析,提取出其中蘊藏的知識,從而幫助企業(yè)進行決策分析,在企業(yè)中得到了越來越廣泛的應用。[0003]隨著互聯網的快速發(fā)展,使互聯網的應用越來越豐富,這些應用讓互聯網留存了海量的數據信息,包括用戶的瀏覽記錄,交易記錄、日志文件、網絡頁面信息以及超鏈接。如何在海量的、動態(tài)的互聯網信息數據中獲取有用的知識,是商業(yè)智能的價值所在。[0004]但是傳統的商業(yè)智能架構移植到互聯網應用領域會產生嚴重的“水土不服”現象,因為如下幾種情況限制了傳統的商業(yè)智能架構的作用:[0005]?互聯網應用中數據源多種多樣,包含各種關系型數據庫保存的數據,社交網絡產生的數據,網絡日志數據、圖片文件、文本文件等。但傳統的商業(yè)智能都是以處理各種關系型數據庫中的數據見長。[0006]籲互聯網數據量巨大。目前各類網站,特別是運營時間比較長的電子商務網站,都會產生了巨大的網絡日志,而且在數據庫中也存儲了大量的各類數據,包括產品數據、商情數據、詢盤數據等,另外,還有大量的各類數據文件保存在服務器中,在處理這么大規(guī)模的數據都出現了很多新的問題,而傳統的關系型數據庫目前已經無法滿足處理如此大規(guī)模數據的要求。[0007]?電子商務對于數據分析的實時性要求極高,有很大部分的數據只在短時間內才能體現數據的價值,處理數據速度的快慢就顯得尤為重要。[0008]?用戶量巨大,互聯網特別是電子商務的BI應用很大一部分是面向網站的用戶群體的,這個群體數目巨大。傳統的BI展現工具設計的時候是為了企業(yè)的中高層用戶設計,移植到互聯網應用中,無論從用戶體驗,交互效率都存在巨大差距。[0009]以上四個問題就是傳統的BI解決方案在互聯網領域屢屢失敗的根本原因。[0010]目前針對大數據的處理方法,已經有一些研究和應用成果。[0011]專利“一種分布式數據流處理方法及其系統”(專利申請?zhí)?201110378247.3),它提出的方法是:將原始數據流分割成實時數據流和歷史數據流,并行處理實時數據流和歷史數據流,并對他們的處理結果進行整合。這種方法通過對數據按時間進行分類,實時數據流的運算能夠最大限度地以分布式并行處理,保證了大數據量的處理和高實時性。但這種方法沒有解決異構數據之間關系問題,對于異構大數據如何協調之間的關聯關系,并進行整合處理方面,還沒有提出解決方法。[0012]專利“一種大數據量的數據查詢方式”(專利申請?zhí)?201210075512.5),此方法先定義增量數據捕獲方式,以及增量捕獲調度執(zhí)行計劃,然后執(zhí)行增量數據定期歸集,最后執(zhí)行數據統計結果查詢。此方法把復雜的數據統計查詢過程包分解成兩個過程:統計計算歸集和實時查詢;將統計計算歸集過程放在后臺運行,并且歸集過程只歸集增量數據,提高了大數據量統計查詢的執(zhí)行效率。此方法主要是針對關系型數據數據庫提出的,沒有涉及到異構數據的處理?!?br/>發(fā)明內容】[0013]為了解決上述問題,本發(fā)明提出了一種基于數據倉庫的異構大數據整合方法和系統,建立結構化數據、半結構化數據及非結構化數據的關聯關系,結合關系型數據庫、分布式數據庫以及內存數據庫的各自的優(yōu)勢,整合各類數據,基于數據倉庫做深層次數據分析,不斷深化數據挖掘,實現高效、高質量的異構大數據分析處理。[0014]本發(fā)明技術方案如下:[0015]一種基于數據倉庫的異構大數據整合方法,包括:[0016]數據源分為兩部分存儲,一部分存儲在關系型數據庫中,另一部分存儲在文件系統中。其中,存儲在關系型數據庫中的數據主要是各個業(yè)務系統產生的數據,包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據等結構化數據,也包括關于社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容等非結構化數據;存儲在文件系統中的數據主要是以網絡日志文件為主的半結構化數據,以及各類圖片文件和文檔文件等非結構化數據。[0017]各個業(yè)務系統中的數據,經過標準數據接口,通過ETL,加載到0DS,再從ODS通過ETL加載到數據倉庫中。[0018]存儲在文件系統中的各類圖片文件和文檔文件,首先加載到Hadoop分布式文件系統(簡稱:hdfs)中,再利用Map/Reduce對這些文件進行處理,使之能夠被Hive所使用。[0019]Hive是基于Hadoop的一個數據倉庫工具,它將存儲在hdfs中的網絡日志文件這種半結構化文件映射到一張數據庫表中,并提供完整的SQL語言進行數據的查詢、處理等功能,Hive將SQL語言解析成Map/Reduce任務進行分布式運行處理。同時,Hive將存儲在hdfs中的圖片文件、文檔文件等這種非結構化文件的屬性映射到一張數據庫表中。[0020]在這些數據庫表中,包含有半結構化數據和非結構化數據,在其中存在有隱性的各種屬性數據,包括隱性的行為數據等。通過將庫表中的字段與數據倉庫中的知識庫建立關聯關系,從而建立了隱性數據與數據倉庫中顯性業(yè)務數據之間的聯系,為異構數據的整合做好準備。[0021]確定與網絡日志、圖片文件、文檔文件等有關聯的業(yè)務數據后,將他們從數據倉庫提取出來,這其中包含有注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據等結構化數據,也包括關于社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容等文本型的非結構化數據。[0022]使之與網絡日志信息、圖片文件、文檔文件中的相應數據對應后,存儲在HBase分布式數據庫中,其中,HBase是一個分布式的、面向列的開源數據庫,HBase在Hadoop之上提供了類似于Bigtable的能力,它是一個適合于非結構化數據存儲的數據庫。[0023]這樣在HBase存有大量的各類異構數據,根據業(yè)務需要,利用Map/Reduce對HBase中存儲的大量相關聯數據進行分布式運算處理,包括數據分組、數據排序、數據統計、數據異常檢測等,從而完成對大量數據的預處理,實現異構數據間的初步整合。計算后的結果作為中間結果保存在HBase中。其中,MapReduce是一種編程模型,用于大規(guī)模數據集的并行運算。[0024]其中,Hive把一部分部分關聯數據以及計算得出的中間結果,通過ETL再加載到數據倉庫中,從而可以分享給所有的數據集市使用。另一部分按照不同數據集市的主題需要,通過ETL,加載到各個不同主題的數據集市中。[0025]那么在數據倉庫和這些數據集市中包含有:各個業(yè)務系統包含的注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據等結構化數據,以及關于社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容等文本型的非結構化數據,還有網絡日志中的數據、圖片文件和文檔文件中包含的屬性數據、以及這些數據初步整合的中間數據結果等。[0026]這些異構數據進行上述處理后,以結構化的形式存儲在各個數據集市和數據倉庫中。[0027]在各個不同主題的數據集市中,依照各自的數據挖掘算法對數據集市中的數據進行挖掘計算,形成各自主題領域內的局部知識結果,然后數據集市將各自的局部知識結果回寫到數據倉庫中。[0028]數據倉庫對各個業(yè)務主題的局部知識結果進行統一存儲并整理,形成數據倉庫中的知識層,得到全局知識結果。這樣,每個數據集市就可以分享到整體業(yè)務的知識,并利用知識層的數據進一步挖掘更多的數據知識。這個過程不斷循環(huán)進行,形成一個有效的知識信息閉環(huán),提高了知識的重復利用以及數據挖掘的性能。[0029]在數據集市中,常用數據以類似數據庫的結構寫入內存,這些數據一直駐留內存,形成了簡易便捷的內存數據庫,網站活動事務數據可以和內存數據庫中的數據進行交互處理。通過內存數據庫,用戶通過在線分析實時監(jiān)控網上訪問情況,詢盤數據等實時信息。由于節(jié)省了內存中的數據和關系型數據庫中的數據同步的過程,實現了實時查詢。另外使用了內存數據庫技術后,整體提高了數據集市常用數據的處理速度,大大緩解了訪問磁盤數據庫的壓力,提高數據查詢,加載,修改,刪除的性能,為在線實時分析提供了可能。[0030]一種基于數據倉庫的異構大數據整合系統,包括:[0031]本系統由業(yè)務系統、標準數據接口模塊、ODS模塊、數據倉庫模塊、數據集市模塊、內存數據庫模塊、通用文件系統、Hadoop分布式文件系統、Hive模塊、HBase分布式數據庫模塊組成。其中,業(yè)務系統、標準數據接口模塊、ODS模塊、數據倉庫模塊、數據集市模塊、內存數據庫模塊依次連接;通用文件系統、Hadoop分布式文件系統、Hive模塊、HBase分布式數據庫模塊依次連接;數據倉庫模塊與Hive模塊連接;數據集市模塊與HBase分布式數據庫豐吳塊連接。[0032]業(yè)務系統模塊,用于實現企業(yè)的業(yè)務信息化功能,通過此模塊,收集管理大量的用戶各方面信息數據,包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據等,這些數據是結構化數據,還有社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容等,這些數據是非結構化數據,也保存在關系型數據庫中。[0033]標準數據接口模塊,用于對業(yè)務系統的數據進行統一規(guī)范處理。[0034]ODS(OperationalDataStore)模塊是數據倉庫體系結構中的一個可選部分,ODS具備數據倉庫的部分特征和OLTP系統的部分特征,它是“面向主題的、集成的、當前或接近當前的、不斷變化的”數據。ODS用于存放從業(yè)務系統直接抽取出來的數據,這些數據從數據結構、數據之間的邏輯關系上都與業(yè)務系統基本保持一致,因此在抽取過程中極大降低了數據轉化的復雜性。[0035]數據倉庫模塊,從ODS中加載數據,所需數據從ODS中抽取出來,進行加工與集成,統一與綜合之后才能進入數據倉庫,并形成多個業(yè)務數據之間的關聯,數據倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。[0036]數據集市模塊,數據是從數據倉庫和HBase分布式數據庫中抽取出來的。每個數據集市包括來自數據倉庫的歷史數據的子集,另外還包括與這些數據關聯的來自HBase的數據。[0037]在數據集市模塊中,可以對加載的數據進行數據挖掘和OLAP分析,并把得出的局部知識結果回寫到數據倉庫中,數據倉庫對各個業(yè)務主題的局部知識結果統一存儲并管理,形成數據倉庫中的知識層,得到全局知識結果。每個數據集市就可以分享到全局知識結果,并利用全局知識結果挖掘出更多的數據知識。這個過程不斷循環(huán)進行,形成一個有效的知識信息閉環(huán),提高了知識的重復利用以及數據挖掘的性能,進一步提高整個系統的分析質量。[0038]內存數據庫模塊,將數據集市中的數據及通過數據挖掘和OLAP分析得到的結果,以數據庫結構的方式寫入內存,快速形成便捷簡易內存數據庫,方便對用戶的訪問進行快速計算、快速響應。通過內存數據庫,網站活動事務數據可以和內存數據庫中的數據進行交互處理,可以實時監(jiān)控網上訪問及關注情況、詢盤數據等,省去了內存中的數據和傳統數據庫中的數據同步的過程,能夠實時查詢,另外使用了內存數據庫后,提高了常用數據的處理速度,緩解了訪問關系型數據庫的壓力,提高數據查詢,加載,修改,刪除的性能,提高了在線實時分析的性能和質量。[0039]Hadoop分布式文件系統,用于存儲大量的半結構化數據以及非結構化數據,其中半結構化數據主要包括網絡日志,非結構化數據主要包括圖片文件、文檔文件。[0040]Hive模塊,用于將存儲在Hadoop分布式文件系統中的半結構化數據以及非結構化數據,與存儲在數據倉庫中的數據進行關聯,并調用Map/Reduce對這些數據進行分布式處理,得到中間計算結果。然后,把關聯的各種異構數據以及中間計算結果,保存到HBase分布式數據庫中。同時,一部分數據通過ETL加載到數據倉庫中。[0041]HBase分布式數據庫模塊,通過ETL,把其中的各類數據按照不同的主題,加載到相應的數據集市中。[0042]一種數據倉庫持續(xù)共享知識的方法,包括:[0043]ODS把經過處理后的業(yè)務數據通過ETL傳送給數據倉庫,數據倉庫應Hive的需求,把其中相關聯的數據傳遞給Hive。[0044]Hive對關聯的異構數據進行Map/Reduce分布式處理,通過分布式處理后,得到了處理的中間結果,在一定程度上減少了待處理的數據量。把部分關聯數據及處理的中間結果通過ETL的方式傳遞給數據倉庫。[0045]數據倉庫根據不同主題的需要,把這些數據分別傳送不同的數據集市。[0046]數據集市獲得數據倉庫的數據,以及HBase傳遞過來的關聯數據及中間結果數據,在數據集市中通過各自的數據挖掘算法進行計算處理,并把得到的局部知識結果回寫到數據倉庫。[0047]數據倉庫獲得各個數據集市傳遞過來的局部知識結果,進行整合處理,通過數據寬表形成全局知識結果,并把全局知識結果傳遞給各個數據集市進行共享。[0048]數據集市結合獲得的數據寬表中的數據,通過新的數據挖掘算法進行計算,不斷深化知識結果,再把深化的局部知識結果回寫到數據倉庫。其中,新的數據挖掘算法是通過研發(fā)人員根據更新后的知識結果,加入到數據集市的挖掘算法。[0049]數據倉庫獲得數據集市新的局部知識結果,并不斷整合多個數據集市的局部知識結果,形成新的全局知識結果,再傳遞給各個數據集市共享,此過程不斷循環(huán)。[0050]本發(fā)明的有益效果如下:[0051](I)結合了關系型數據庫、分布式數據庫、內存數據庫的各自優(yōu)勢,優(yōu)化了異構大數據的處理。[0052](2)運用了分布式計算來進行大數據分布式處理,實現了對大數據量、計算簡單這2個特性的需求,并且運用了經典的數據挖掘方式來實現數據的深度分析,使本方法既有大數據的廣度處理,又有對大數據的深度處理。同時,通過大數據分布式處理,得到了中間結果,減少了待處理的數據量,有利于提高數據倉庫和數據集市的運行效率。[0053](3)在數據集市中,把對數據的挖掘結果以及OLAP的分析結果形成的局部知識結果,回寫到數據倉庫,通過數據倉庫整合,形成全局知識結果,分享到各個數據集市,這個過程不斷循環(huán),可以持續(xù)提高數據的處理分析的質量。[0054](4)研發(fā)人員根據知識結果不斷增加新的數據挖掘算法,使挖掘的知識結果更加全面,更加準確,挖掘的效果更好。[0055](5)將結果數據以及相關數據,以數據庫結構的方式寫入內存,這些數據一直駐留內存中,能夠進行高速計算、快速響應用戶訪問?!緦@綀D】【附圖說明】[0056]圖1本發(fā)明實施例數據處理流程圖;[0057]圖2本發(fā)明實施例系統結構示意圖;[0058]圖3本發(fā)明實施例數據倉庫持續(xù)共享知識的流程圖?!揪唧w實施方式】[0059]在本發(fā)明中,結合了關系型數據庫、分布式數據庫、內存數據庫的各自優(yōu)勢,對互聯網應用中的結構化數據、半結構化數據、非結構化數據進行關聯,通過Map/Reduce分布式處理和數據挖掘處理,把處理結果和相關數據以數據庫結構的方式寫入內存,形成簡易內存數據庫,便于高速計算和快速響應。[0060]參閱圖1所示,本發(fā)明實施例的數據處理流程,具體步驟為:[0061]步驟100:從數據源獲取數據。其中一部分結構化數據通過各個業(yè)務系統中收集,存儲在關系型數據庫中,包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據等。另外,業(yè)務系統中的社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容等非結構化數據,也存儲在關系型數據庫中;網絡日志文件作為半結構化數據,圖片文件和文檔文件等作為非結構化數據,都存儲在通用文件系統中。[0062]步驟101:業(yè)務數據通過ETL加載到數據倉庫中。各個業(yè)務系統的數據通過標準數據接口,加載到ODS中,再通過ETL加載到數據倉庫中。[0063]步驟102:通用文件系統中的圖片文件和文檔文件據,先加載到hdfs中,并通過Map/Reduce處理,轉換成Hive模塊能夠處理的格式,Hive從存儲在hdfs的文件中取出半結構化數據和非結構化數據,其中,網絡日志中包含有半結構化數據,圖片文件和文檔文件中包含有非結構化數據。[0064]步驟103=Hive模塊對取得的半結構化數據和非結構化數據,與數據倉庫中的知識庫數據進行關聯,建立結構化數據與半結構化數據、非結構化數據的對應關系。[0065]例如,網絡日志中的訪問IP信息與數據倉庫中的地址信息字段建立關聯關系,地址信息里含有國家、地區(qū)等信息。另外,圖片文件的屬性信息與數據倉庫中的產品ID信息建立對應的關聯關系。[0066]步驟104:建立關聯關系后,把相關聯的業(yè)務數據從數據倉庫取出,與包含在圖片文件和文檔文件中的半結構化數據和非結構化數據按照對應關系一起存儲在分布式數據庫HBase中。同時對于要處理的數據,用Map/Reduce進行分布式計算處理,并把中間計算結果也保存在HBase中。其中這種分布式處理包含數據分組、數據排序、數據統計、數據異常檢測等,從而完成對大量數據的預處理,實現異構數據間的初步整合。[0067]步驟105:通過ETL,把初步把部分關聯的數據及中間結果數據加載到數據倉庫中,同時按照不同的主題把關聯的數據及中間結果數據加載到各個相應的數據集市中。[0068]步驟106:各個數據集市根據自身的數據,按照數據挖掘算法進行挖掘計算,以及根據需要進行OLAP處理,形成局部知識結果。把這些局部知識結果回寫到數據倉庫,數據倉庫對這些局部知識結果,進行整理,形成數據寬表,得到全局知識結果,再共享給各個數據集市,數據集市根據全局知識結果,再結合相應的新的數據挖掘算法進行計算,不斷深化知識,此過程不斷循環(huán)。[0069]步驟107:在數據集市中,將常用數據以數據庫結構的形式寫入內存,形成簡易、便捷的內存數據庫,數據可以在內存在進行快速計算,以及對用戶的訪問進行快速響應,實現實時查詢和實時分析。[0070]參閱圖2所示,本發(fā)明實施例的系統結構,包括[0071]本系統由業(yè)務系統模塊200、標準數據接口模塊201、ODS模塊202、數據倉庫模塊203、數據集市模塊204、內存數據庫模塊205、通用文件系統206、Hadoop分布式文件系統207,Hive模塊208、HBase分布式數據庫模塊209組成。其中,業(yè)務系統模塊200、標準數據接口模塊201、ODS模塊202、數據倉庫模塊203、數據集市模塊204、內存數據庫模塊205依次連接;通用文件系統106、Hadoop分布式文件系統207、Hive模塊208、HBase分布式數據庫模塊209依次連接;數據倉庫模塊203與Hive模塊208連接;數據集市模塊204與HBase分布式數據庫模塊209連接。[0072]業(yè)務系統模塊200,用于實現企業(yè)的業(yè)務信息化功能,通過此模塊,收集管理大量的用戶各方面信息數據,包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據等,這些數據是結構化數據,以及社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容等文本型的非結構化數據,都保存在關系型數據庫中。[0073]標準數據接口模塊201,用于對業(yè)務系統的數據進行統一規(guī)范處理。[0074]ODS(OperationalDataStore)模塊202是數據倉庫體系結構中的一個可選部分,ODS具備數據倉庫的部分特征和OLTP系統的部分特征,它是“面向主題的、集成的、當前或接近當前的、不斷變化的”數據。ODS用于存放從業(yè)務系統直接抽取出來的數據,這些數據從數據結構、數據之間的邏輯關系上都與業(yè)務系統基本保持一致,因此在抽取過程中極大降低了數據轉化的復雜性。[0075]數據倉庫模塊203,從ODS模塊202中加載數據,所需數據從ODS中抽取出來,進行加工與集成,統一與綜合之后才能進入數據倉庫,并形成多個業(yè)務數據之間的關聯,數據倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。[0076]數據集市模塊204,數據是從數據倉庫模塊203和HBase分布式數據庫108中抽取出來的。它根據用戶群體的特殊需求,每個數據集市包括來自數據倉庫的歷史數據的子集,用以滿足特定部門、團隊、客戶或應用程序分析和報告需求。在數據集市模塊204中,可以對加載的數據進行數據挖掘和OLAP分析,并把得出的知識回寫到數據倉庫中,數據倉庫對各個業(yè)務主題的知識信息進行統一存儲并管理,形成數據倉庫中的知識層。這樣,每個數據集市就可以分享到全局知識結果,并利用全局知識結果挖掘出更多的數據知識。這個過程不斷循環(huán)進行,形成一個有效的知識信息閉環(huán),極大的提高了知識的重復利用以及數據挖掘的性能,進一步提高整個系統的分析質量。[0077]內存數據庫模塊205,將數據集市中的數據及通過數據挖掘和OLAP分析得到的結果,以數據庫結構的方式寫入內存,快速形成便捷簡易內存數據庫,方便對用戶的訪問進行快速計算、快速響應,并提供內存數據庫數據的快速修改更新。[0078]通用文件系統206,用于存儲大量的半結構化數據以及非結構化數據,其中半結構化數據主要包括網絡日志,非結構化數據主要包括圖片文件、文檔文件等。[0079]Hadoop分布式文件系統207,從通用文件系統206加載大量的半結構化數據以及非結構化數據,其中半結構化數據主要包括網絡日志,非結構化數據主要包括圖片文件、文檔文件。[0080]Hive模塊208,用于將存儲在Hadoop分布式文件系統207中的半結構化數據以及非結構化數據,與存儲在數據倉庫中的結構化數據進行關聯,并調用Map/Reduce對這些數據進行分布式處理,得到中間計算結果。同時,Hive把部分關聯的各種異構數據以及中間計算結果通過ETL加載到數據倉庫,然后,把關聯的各種異構數據以及中間計算結果,保存到HBase分布式數據庫模塊209中。[0081]HBase分布式數據庫模塊209,用于保存通過ETL,把其中的各類數據及中間計算結果按照不同的主題,加載到相應的數據集市模塊204中。[0082]參閱圖3所示,本發(fā)明實施例數據倉庫持續(xù)共享知識的流程,包括:[0083]步驟301:數據倉庫從ODS獲得業(yè)務數據,其中包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據等,這些數據是結構化數據,以及業(yè)務系統中的社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容等文本型的非結構化數據作為非結構化數據。[0084]步驟302:根據關聯關系,數據倉庫把相關聯的數據傳遞給Hive。[0085]步驟303:Hive對關聯數據進行Map/Reduce分布式處理,得到中間計算結果,把關聯的數據及中間計算結果通過ETL傳遞給數據倉庫。其中這些中間結果已經融合了結構化數據、半結構化數據、以及非結構化數據。[0086]步驟304:數據倉庫把數據按照不同的主題,通過ETL傳遞給數據集市。[0087]步驟305:數據集市接收到數據倉庫的數據,結合從HBase傳遞給數據集市的數據,利用數據挖掘算法進行計算,形成局部知識結果。這對結構化數據、半結構化數據、以及非結構化數據融合后的數據又進行了深化整合。[0088]步驟306:各個數據集市把挖掘計算后得到局部知識結果回寫到數據倉庫。[0089]步驟307:數據倉庫對各個數據集市回寫的知識結果進行整合,形成數據寬表,得到全局知識結果,并共享給各個數據集市。這樣,每個數據集市都獲得了全局知識結果。[0090]步驟308:各個數據集市獲得全局知識結果后,根據需要,一些數據集市采用新的數據挖掘算法進行計算,獲得進一步的新的局部知識結果,并把這些新的局部知識結果返回給數據倉庫處理。其中,系統根據研發(fā)人員是否加入新的數據挖掘算法進行循環(huán)計算。[0091]本領域技術人員可以對本發(fā)明的實施例進行各種改動和變型而不會脫離本發(fā)明的精神和范圍。倘若本發(fā)明實施例中的這些修改和變型屬于本發(fā)明權利要求及其等同的范圍之內,則本發(fā)明中的實施例也包含這些改動和變型在內。【權利要求】1.一種基于數據倉庫的異構大數據整合方法,其特征在于:數據源分為兩部分存儲,一部分存儲在關系型數據庫中,另一部分存儲在文件系統中;其中,存儲在關系型數據庫中的數據是各個業(yè)務系統產生的數據,包括結構化數據和非結構化數據;存儲在文件系統中的數據是以網絡日志文件為主的半結構化數據,以及各類圖片文件和文檔文件非結構化數據;各個業(yè)務系統中的數據,經過標準數據接口,通過ETL,加載到ODS,再從ODS通過ETL加載到數據倉庫中;存儲在文件系統中的各類圖片文件和文檔文件,首先加載到Hadoop分布式文件系統中,再利用Map/Reduce對這些文件進行處理,使之能夠被Hive所使用;確定與網絡日志、圖片文件、文檔文件有關聯的業(yè)務數據后,將他們從數據倉庫提取出來,這其中包含結構化數據和文本型的非結構化數據;使之與網絡日志信息、圖片文件、文檔文件中的相應數據對應后,存儲在HBase分布式數據庫中;在HBase存有大量的各類異構數據,根據業(yè)務需要,利用Map/Reduce對HBase中存儲的大量相關聯數據進行分布式運算處理,從而完成對大量數據的預處理,實現異構數據間的初步整合;計算后的結果作為中間結果保存在HBase中;Hive把一部分關聯數據以及計算得出的中間結果,通過ETL再加載到數據倉庫中,從而分享給所有的數據集市使用;另一部分按照不同數據集市的主題需要,通過ETL,加載到各個不同主題的數據集市中;這些異構數據進行處理后,以結構化的形式存儲在各個數據集市和數據倉庫中;在各個不同主題的數據集市中,依照各自的數據挖掘算法對數據集市中的數據進行挖掘計算,形成各自主題領域內的局部知識結果,然后數據集市將各自的局部知識結果回寫到數據倉庫中;數據倉庫對各個業(yè)務主題的局部知識結果進行統一存儲并整理,形成數據倉庫中的知識層,得到全局知識結果;每個數據集市能夠分享到整體業(yè)務的知識,并利用知識層的數據進一步挖掘更多的數據知識;這個過程不斷循環(huán)進行,形成一個有效的知識信息閉環(huán),提高了知識的重復利用以及數據挖掘的性能;在數據集市中,常用數據以類似數據庫的結構寫入內存,這些數據一直駐留內存,形成簡易便捷的內存數據庫,網站活動事務數據和內存數據庫中的數據進行交互處理;通過內存數據庫,用戶通過在線分析實時監(jiān)控網上訪問情況,詢盤數據實時信息。2.根據權利要求1所述的方法,其特征在于:存儲在關系型數據庫中數據,包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據結構化數據,也包括關于社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容非結構化數據。3.根據權利要求1所述的方法,其特征在于:Hive將存儲在Hadoop分布式文件系統中的圖片文件、文檔文件等這種非結構化文件的屬性映射到一張數據庫表中;在這些數據庫表中,包含有半結構化數據和非結構化數據,在其中存在有隱性的各種屬性數據,包括隱性的行為數據等。通過將數據庫表中的字段與數據倉庫中的知識庫建立關聯關系,從而建立了隱性數據與數據倉庫中顯性業(yè)務數據之間的聯系,為異構數據的整合做好準備。4.根據權利要求1所述的方法,其特征在于:分布式運算處理,包括數據分組、數據排序、數據統計、數據異常檢測。5.根據權利要求1所述的方法,其特征在于,這些異構數據進行上述處理后,以結構化的形式加載到各個數據集市和數據倉庫中,這時,在數據倉庫和數據集市中包含有:各個業(yè)務系統包含的注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據結構化數據,以及關于社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容文本型的非結構化數據,還有網絡日志中的數據、圖片文件和文檔文件中包含的屬性數據、以及這些數據初步整合的中間數據結果。6.一種基于數據倉庫的異構大數據整合系統,其特征在于:它由業(yè)務系統模塊、標準數據接口模塊、ODS模塊、數據倉庫模塊、數據集市模塊、內存數據庫模塊、通用文件系統、Hadoop分布式文件系統、Hive模塊、HBase分布式數據庫模塊組成;其中,業(yè)務系統模塊、標準數據接口模塊、ODS模塊、數據倉庫模塊、數據集市模塊、內存數據庫模塊依次連接;通用文件系統、Hadoop分布式文件系統、Hive模塊、HBase分布式數據庫模塊依次連接;數據倉庫模塊與Hive模塊連接;數據集市模塊與HBase分布式數據庫模塊連接;業(yè)務系統模塊,用于實現企業(yè)的業(yè)務信息化功能,通過此模塊,收集管理大量的用戶各方面信息數據,包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據,這些數據是結構化數據,還有社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容,這些數據是非結構化數據,也保存在關系型數據庫中;標準數據接口模塊,用于對業(yè)務系統的數據進行統一規(guī)范處理;ODS模塊具備數據倉庫的部分特征和OLTP系統的部分特征,它是“面向主題的、集成的、當前或接近當前的、不斷變化的”數據;0DS模塊用于存放從業(yè)務系統直接抽取出來的數據,這些數據從數據結構、數據之間的邏輯關系上都與業(yè)務系統基本保持一致;數據倉庫模塊,從ODS模塊`中加載數據,所需數據從ODS模塊中抽取出來,進行加工與集成,統一與綜合之后才能進入數據倉庫,并形成多個業(yè)務數據之間的關聯,數據倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性;數據集市模塊,數據是從數據倉庫和HBase分布式數據庫中抽取出來的;每個數據集市包括來自數據倉庫的歷史數據的子集,另外還包括與這些數據關聯的來自HBase的數據;內存數據庫模塊,將數據集市中的數據及通過數據挖掘和OLAP分析得到的結果,以數據庫結構的方式寫入內存,快速形成便捷簡易內存數據庫,方便對用戶的訪問進行快速計算、快速響應;通過內存數據庫,網站活動事務數據和內存數據庫中的數據進行交互處理,實時監(jiān)控網上訪問及關注情況、詢盤數據;Hadoop分布式文件系統,用于存儲大量的半結構化數據以及非結構化數據,其中半結構化數據包括網絡日志,非結構化數據包括圖片文件、文檔文件;Hive模塊,用于將存儲在Hadoop分布式文件系統中的半結構化數據以及非結構化數據,與存儲在數據倉庫中的數據進行關聯,并調用Map/Reduce對這些數據進行分布式處理,得到中間計算結果;然后,把關聯的各種異構數據以及中間計算結果,保存到HBase分布式數據庫中;同時,一部分數據通過ETL加載到數據倉庫中;HBase分布式數據庫模塊,通過ETL,把其中的各類數據按照不同的主題,加載到相應的數據集市中。7.根據權利要求6所述的系統,其特征在于:在數據集市模塊中,對加載的數據進行數據挖掘和OLAP分析,并把得出的局部知識結果回寫到數據倉庫中,數據倉庫對各個業(yè)務主題的局部知識結果統一存儲并管理,形成數據倉庫中的知識層,得到全局知識結果;每個數據集市能夠分享到全局知識結果,并利用全局知識結果挖掘出更多的數據知識;這個過程不斷循環(huán)進行,形成一個有效的知識信息閉環(huán),提高了知識的重復利用以及數據挖掘的性能,進一步提高整個系統的分析質量。8.一種數據倉庫持續(xù)共享知識的方法,包括:ODS把經過處理后的業(yè)務數據通過ETL傳送給數據倉庫,數據倉庫應Hive的需求,把其中相關聯的數據傳遞給Hive;Hive對關聯的異構數據進行Map/Reduce分布式處理,通過分布式處理后,得到了處理的中間結果,在一定程度上減少待處理的數據量;把部分關聯數據及處理的中間結果通過ETL的方式傳遞給數據倉庫;數據倉庫根據不同主題的需要,把這些數據分別傳送不同的數據集市;數據集市獲得數據倉庫的數據,以及HBase傳遞過來的關聯數據及中間結果數據,在不同數據集市中通過各自的數據挖掘算法進行計算處理,并把得到的局部知識結果回寫到數據倉庫;數據倉庫獲得各個數據集市傳遞過來的局部知識結果,進行整合處理,通過數據寬表形成全局知識結果,并把全局知識結果傳遞給各個數據集市進行共享;數據集市結合獲得的數據寬表中的數據,通過新的數據挖掘算法進行計算,不斷深化知識結果,再把深化的局部知識結果回寫到數據倉庫;其中,新的數據挖掘算法是根據更新后的知識結果,加入到數據集市的挖掘算法;數據倉庫獲得數據集市新的局部知識結果,并不斷整合多個數據集市的局部知識結果,形成新的全局知識結果,再傳遞給各個數據集市共享,此過程不斷循環(huán)。【文檔編號】G06F17/30GK103678665SQ201310723548【公開日】2014年3月26日申請日期:2013年12月24日優(yōu)先權日:2013年12月24日【發(fā)明者】徐曉冬,鄒鐵鵬,何昌桃,黃建鵬申請人:焦點科技股份有限公司