欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于大數(shù)據(jù)技術的空間數(shù)據(jù)存儲處理中間件框架的制作方法

文檔序號:11063568閱讀:365來源:國知局
本發(fā)明涉及一種基于大數(shù)據(jù)技術的空間數(shù)據(jù)存儲處理中間件框架,該框架可提供給用戶一種對現(xiàn)有多源異構的結構化數(shù)據(jù)與非結構化數(shù)據(jù)混合的數(shù)據(jù)內容進行快速獲取的方法,并采用主流的大數(shù)據(jù)存取工具來提高分布式存儲效率。
背景技術
::空間數(shù)據(jù)是指用來表示空間實體的位置、形狀、大小及其分布特征諸多方面信息的數(shù)據(jù),它可以用來描述來自現(xiàn)實世界的目標,它具有定位、定性、時間和空間關系等特性??臻g數(shù)據(jù)是一種用點、線、面以及實體等基本空間數(shù)據(jù)結構來表示人們賴以生存的自然世界的數(shù)據(jù)。大數(shù)據(jù)(bigdata),指在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關注。大數(shù)據(jù)(Bigdata)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。Hadoop是一個開源的框架,可編寫和運行分布式應用處理大規(guī)模數(shù)據(jù)。分布式計算如今已經(jīng)應用領域很寬泛并且變化,但與眾不同之處在于Hadoop:(1)方便:在一般商用機器構成的大型集群上,或者像亞馬遜彈性計算云(EC2)等云計算服務上,Hadoop都能支持運行。(2)健壯:在一般商用硬件上運行,硬件可能會出錯,從而影響程序運行,但是Hadoop很好的避免的這類故障的發(fā)生。(3)可擴展:通過不斷的增加計算節(jié)點可以很方便的擴展Hadoop集群,因此也能更好的處理大規(guī)模數(shù)據(jù)集。(4)編寫有效率的并行代碼,在Hadoop上變得方便快捷。由于Hadoop的這些天然的優(yōu)勢,讓它在編寫分布式大型程序方面優(yōu)勢明顯。無論是公司還是個人,都能用很廉價的PC搭建出屬于自己的Hadoop集群,用于研究分布式并行計算。也正是因為這些特性,在學術界和企業(yè)界大家都很青睞Hadoop。HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術來源于FayChang所撰寫的Google論文“Bigtable:一個結構化數(shù)據(jù)的分布式存儲系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)(FileSystem)所提供的分布式數(shù)據(jù)存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數(shù)據(jù)庫,它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PCServer上搭建起大規(guī)模結構化存儲集群。Hadoop分布式文件系統(tǒng)(HDFS)被設計成適合運行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS支持傳統(tǒng)的層次型文件組織結構。用戶或者應用程序可以根據(jù)需要創(chuàng)建目錄,然后將文件保存在這些目錄里。文件系統(tǒng)名字空間的層次結構和現(xiàn)有的大多數(shù)文件系統(tǒng)類似:用戶可以對文件創(chuàng)建、刪除、移動或重命名。目前,HDFS還不支持用戶磁盤配額和訪問權限的控制,也不支持文件硬鏈接和軟鏈接,但是HDFS架構能很好的彌補這些特性。HDFS具有能夠在一個大集群中跨機器可靠地存儲超大文件的特點。它將每個文件拆分成一系列的數(shù)據(jù)塊,除了最后一個,其它的數(shù)據(jù)塊都是同樣大小。為了保證容錯能力,文件的所有數(shù)據(jù)塊都會有副本文件。每個文件的數(shù)據(jù)塊大小和副本系數(shù)都是可配置的。應用程序可以指定任意某個文件的副本數(shù)目。副本系數(shù)既可以在文件創(chuàng)建的開始指定,也可以在之后改變。ApacheAmbari是一種基于Web的工具,支持ApacheHadoop集群的供應、管理和監(jiān)控。Ambari目前已支持大多數(shù)Hadoop組件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。ZooKeeper是一個分布式的,開放源碼的分布式應用程序協(xié)調服務,是Google的Chubby一個開源的實現(xiàn),是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。ETL,是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。ETL是構建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。Sqoop(發(fā)音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進行數(shù)據(jù)的傳遞,可以將一個關系型數(shù)據(jù)庫(例如:MySQL,Oracle,Postgres等)中的數(shù)據(jù)導進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中。Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。技術實現(xiàn)要素:本發(fā)明要解決的技術問題是:在分布式計算機集群環(huán)境中,提供一種基于大數(shù)據(jù)技術的空間數(shù)據(jù)存儲處理中間件框架,通過對多源異構空間數(shù)據(jù)進行提取、轉換、加載,構建多樣化碎片化非結構化數(shù)據(jù)分布式虛擬化存儲框架,為后續(xù)的空間大數(shù)據(jù)分析、挖掘提供可直接讀取的數(shù)據(jù)內容。為了解決上述技術問題,本發(fā)明的一種基于大數(shù)據(jù)技術的空間數(shù)據(jù)存儲處理中間件框架,其不同之處在于:其包括以下模塊:數(shù)據(jù)源模塊101:空間大數(shù)據(jù)的數(shù)據(jù)源包括空間數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、日志流數(shù)據(jù)、本地數(shù)據(jù)文件、關系數(shù)據(jù),上述數(shù)據(jù)源的數(shù)據(jù)格式包括GIS數(shù)據(jù)、文檔數(shù)據(jù)、影像數(shù)據(jù),上述數(shù)據(jù)以分散的方式存儲在關系型數(shù)據(jù)庫、空間數(shù)據(jù)庫等不同種類的數(shù)據(jù)庫節(jié)點中;ETL工具模塊102:ETL工具將分散存儲的各種格式的數(shù)據(jù)源進行提取、轉換、加載;其中,ETL工具包括實時數(shù)據(jù)轉換工具、自定義數(shù)據(jù)轉換工具、空間數(shù)據(jù)轉換工具三類;這三類工具分別將數(shù)據(jù)源中對應的數(shù)據(jù)提取出來,轉換為統(tǒng)一的可讀取的格式;關系型數(shù)據(jù)使用Sqoop工具來進行存取,空間數(shù)據(jù)使用空間數(shù)據(jù)轉換工具進行存取;HDFS分布式文件系統(tǒng)模塊103:ETL工具提取并轉換的部分數(shù)據(jù)如文件上載數(shù)據(jù)將分布式存儲在HDFS分布式文件系統(tǒng)中;HBase分布式數(shù)據(jù)庫模塊104:ETL工具提取并轉換的部分數(shù)據(jù)如空間數(shù)據(jù)、實時數(shù)據(jù)等將分布式存儲在HBase分布式數(shù)據(jù)庫中;數(shù)據(jù)關聯(lián)RDF圖數(shù)據(jù)庫模塊105:ETL工具提取轉換數(shù)據(jù)源的數(shù)據(jù)并存儲至分布式數(shù)據(jù)庫的同時,將建立數(shù)據(jù)索引及語義目錄,存儲在數(shù)據(jù)關聯(lián)圖譜RDF里;ZooKeeper協(xié)同服務模塊106:協(xié)同管理分布式環(huán)境下的多個節(jié)點的HBaseregionserver的分布;Ambari集群節(jié)點管理監(jiān)控模塊107:對分布式環(huán)境下集群中的節(jié)點進行可視化安裝和監(jiān)控。按以上方案,ETL工具模塊102中的數(shù)據(jù)提取轉換步驟為:MapGIS數(shù)據(jù)存儲在MapGIS數(shù)據(jù)庫中,通過MapGIS轉換工具將MapGIS數(shù)據(jù)庫中的MapGIS數(shù)據(jù)導進到HBase分布式數(shù)據(jù)庫中,同時,也可以將HBase的數(shù)據(jù)導進到MapGIS數(shù)據(jù)庫中;HDFS分布式文件系統(tǒng)模塊103中的數(shù)據(jù)分布式存儲步驟為:通過MapGISConversiontoolsforHadoop工具將空間數(shù)據(jù)庫中的MapGIS格式數(shù)據(jù)轉換為Hadoop管理的文件格式MapGISConversiontoolsforHadoop工具,將經(jīng)過轉換的MapGIS空間數(shù)據(jù)存儲在分布式數(shù)據(jù)庫HBase里,將上述工具提取MapGIS格式的地理范圍、注記文本內容存儲到內容庫(HBase)中,注記文本內容的提取使得根據(jù)內容檢索圖件成為可能,區(qū)別于非矢量圖件只能按文件名的檢索方式,GIS圖件信息成為內容庫的組成部分,與成果資料內容一起,用于支撐著空間大數(shù)據(jù)數(shù)據(jù)挖掘。按以上方案,數(shù)據(jù)關聯(lián)RDF圖數(shù)據(jù)庫模塊105中的數(shù)據(jù)關聯(lián)RDF步驟:建立空間數(shù)據(jù)的索引及語義目錄,存儲在數(shù)據(jù)關聯(lián)圖譜RDF里;其中,實體和數(shù)據(jù)之間的關聯(lián)是基于圖譜的概念,數(shù)據(jù)關聯(lián)圖譜可將空間地理實體和大量結構化或非結構化數(shù)據(jù)關聯(lián)起來。按以上方案,所述數(shù)據(jù)關聯(lián)RDF的具體步驟包括:語義關聯(lián)樹步驟301:在語義關聯(lián)樹中存儲實體及其關系;在語義關聯(lián)樹中存儲三元組數(shù)據(jù),三元組記錄了實體與實體之間的關系,以及實體資源所在的URL地址信息;資源URI步驟302:步驟301的實體和步驟303的空間數(shù)據(jù)由資源URI相互連接,可互相訪問;HBase分布式存儲步驟303:HBase是一個面向列、稀疏的、分布式的多維排序映射表,每個列族中的數(shù)據(jù)都存放在一起,在讀寫時有效降低I/O開銷,并且類似的數(shù)據(jù)放在一起;其中HBase分布式存儲數(shù)據(jù)庫是采用KeyValue的列存儲,Rowkey是行的主鍵,表示唯一一行,表中記錄按照RowKey排序;在此以數(shù)據(jù)檔案URL為主鍵;所有數(shù)據(jù)都是通過Rowkey(主鍵)進行訪問,一個寬行可以容下一個主鍵相關的所有數(shù)據(jù);KeyValue是列的列名和列值組成的鍵值對,多個KeyValue組成一個Column-family列族;Column-family列族,包含多個邏輯屬性組的任意屬性值(列),一個table在水平方向有一個或者多個列族,列族可由任意多個Column組成,列族支持動態(tài)擴展,無須預定義數(shù)量及類型,二進制存儲,用戶需自行進行類型轉換;Column-family列族能盡量不丟失原始資料信息量,從而可以真實的組織和描述數(shù)據(jù);以文件檔案編號和名稱為主鍵的表,其中包含檔案報告的屬性,從而形成分布式內容庫。與現(xiàn)有技術對比,本發(fā)明的有益效果是:本發(fā)明的空間大數(shù)據(jù)提取轉換及分布式存儲方法提供給用戶一種對現(xiàn)有多源異構的結構化數(shù)據(jù)與非結構化數(shù)據(jù)混合的數(shù)據(jù)內容進行快速獲取的方法,并采用主流的大數(shù)據(jù)存取工具來提高分布式存儲效率。在HBase中的內容以列族的方式進行存儲,每個列族中的數(shù)據(jù)都存放在一起,在讀寫時有效降低I/O開銷,并且類似的數(shù)據(jù)放在一起,經(jīng)過壓縮后極大節(jié)省了存儲空間。采用Hadoop技術,對非結構化空間數(shù)據(jù)進行面向內容模式的存儲、組織,解決非結構化空間數(shù)據(jù)的同質化和面向數(shù)據(jù)挖掘的組織的問題,使多樣化、碎片化的數(shù)據(jù)同質化和整體化;非結構化數(shù)據(jù)釆用Key/Value、大字段等進行存儲,方便后續(xù)對空間數(shù)據(jù)進行快速有效地獲取、利用。附圖說明圖1是本發(fā)明的數(shù)據(jù)存儲處理中間件框架示意圖;圖2是本發(fā)明的空間數(shù)據(jù)提取轉換及分布式存儲的實現(xiàn)方法的一個具體實施例流程示意圖;圖3是本發(fā)明的空間實體與數(shù)據(jù)間關聯(lián)圖譜;圖41:50萬地層單元數(shù)據(jù);圖51:50萬地層單元數(shù)據(jù)大小及分塊大小;圖61:50萬地層單元數(shù)據(jù)分塊存儲詳情。具體實施方案下面結合附圖1-圖6和具體實施例對本發(fā)明作進一步說明,以使本領域的技術人員可以更好的理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的限定。本發(fā)明提供了一種基于大數(shù)據(jù)技術的空間數(shù)據(jù)存儲、處理的方法,包括以下步驟:步驟A)針對大數(shù)據(jù)量的多源異構空間數(shù)據(jù)及系統(tǒng)數(shù)據(jù),采用ETL工具數(shù)據(jù)提取轉換工具將這些數(shù)據(jù)提取出來,轉換為通用格式的數(shù)據(jù);步驟B)將這些數(shù)據(jù)虛擬化存放在空間大數(shù)據(jù)分布式存儲框架中,進行統(tǒng)一管理。進一步地,多源異構數(shù)據(jù)源包括本地文件系統(tǒng),關系數(shù)據(jù)庫,空間數(shù)據(jù)管理平臺到大數(shù)據(jù)系統(tǒng)之間互相導入導出數(shù)據(jù),用戶自定義關聯(lián)數(shù)據(jù),將空間結構化數(shù)據(jù)和大數(shù)據(jù)系統(tǒng)中的非結構化數(shù)據(jù)關聯(lián)起來,為后續(xù)數(shù)據(jù)分析奠定基礎。進一步地,所述ETL工具是數(shù)據(jù)提取、轉換、加載工具,從數(shù)據(jù)源中提取多結構化數(shù)據(jù),快速、高效將原始數(shù)據(jù)加載到大數(shù)據(jù)容器,使空間大數(shù)據(jù)存儲和傳統(tǒng)的存儲方式之間能互相轉換數(shù)據(jù),根據(jù)不同的數(shù)據(jù)類型,分為三個工具,分別為:實時數(shù)據(jù)轉換工具,通過網(wǎng)絡爬蟲和Flume進行實時數(shù)據(jù)導入;自定義數(shù)據(jù)轉換工具,采用Sqoop大數(shù)據(jù)存取工具來提高存儲效率,同時可以根據(jù)特定的業(yè)務數(shù)據(jù)類型自定義轉換工具,并提供文件上載功能;空間數(shù)據(jù)轉換工具,將空間數(shù)據(jù)格式的空間數(shù)據(jù)轉換為通用格式。進一步地,所述分布式存儲框架包括五個工具,分別為:數(shù)據(jù)關聯(lián)RDF圖數(shù)據(jù)庫,支持地理空間數(shù)據(jù)與其他類型數(shù)據(jù)之間的關系的存儲;分布式文件系統(tǒng)(HDFS),存放原始空間數(shù)據(jù)及資料文檔。基于HDFS框架系統(tǒng)提供分布式文件的存儲,以應對大量非結構化數(shù)據(jù),如多媒體文件等,通過自定義擴展其存儲插件,使之支持GIS空間數(shù)據(jù)的存儲;HBase分布式數(shù)據(jù)庫,通過整合HBase數(shù)據(jù)庫以支持常規(guī)數(shù)據(jù)表的方式存儲結構化或半結構化的數(shù)據(jù)類型,基于其開發(fā)接口規(guī)范,實現(xiàn)GIS空間數(shù)據(jù)的存儲,同時在表中建立結構化數(shù)據(jù)和非結構化數(shù)據(jù)的關聯(lián)關系,為后續(xù)數(shù)據(jù)查詢提供豐富的查詢結果,對文件數(shù)據(jù)進行快速獲取,將原始文檔重新組織后存放在分布式實時訪問數(shù)據(jù)庫HBase中。其中,附圖、附表、附件等文件均單獨存放,主文件則按章節(jié)分開存儲。同時對存儲在HBase中的內容建立索引,存放到分布式緩存Memcached或Redis中,這樣只需從內存中獲取索引進行查找;ZooKeeper協(xié)同服務,一種集中服務,用于保持配置信息和命名,并提供分布式同步和組服務;Ambari集群節(jié)點管理監(jiān)控,作用是創(chuàng)建、管理、監(jiān)視Hadoop的集群,是為了讓Hadoop以及相關的大數(shù)據(jù)軟件更容易使用的一個工具,Ambari自身也是一個分布式架構的軟件,主要由兩部分組成:AmbariServer和AmbariAgent。簡單來說,用戶通過AmbariServer通知AmbariAgent安裝對應的軟件;Agent會定時地發(fā)送各個機器每個軟件模塊的狀態(tài)給AmbariServer,最終這些狀態(tài)信息會呈現(xiàn)在Ambari的GUI,方便用戶了解到集群的各種狀態(tài),并進行相應的維護。如圖1所示,本發(fā)明的數(shù)據(jù)存儲處理中間件模塊框架示意圖包括以下模塊:數(shù)據(jù)源模塊101:空間大數(shù)據(jù)的數(shù)據(jù)源包括空間數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、日志流數(shù)據(jù)、本地數(shù)據(jù)文件、關系數(shù)據(jù)等,這些數(shù)據(jù)源的數(shù)據(jù)格式有GIS數(shù)據(jù)、文檔數(shù)據(jù)、影像數(shù)據(jù)等,這些數(shù)據(jù)以分散的方式存儲在關系型數(shù)據(jù)庫、空間數(shù)據(jù)庫等不同種類的數(shù)據(jù)庫節(jié)點中。ETL工具模塊102:ETL工具將分散存儲的各種格式的數(shù)據(jù)源進行提取、轉換、加載;其中,ETL工具包括實時數(shù)據(jù)轉換工具、自定義數(shù)據(jù)轉換工具、空間數(shù)據(jù)轉換工具三類;這三類工具分別將數(shù)據(jù)源中對應的數(shù)據(jù)提取出來,轉換為統(tǒng)一的可讀取的格式;如關系型數(shù)據(jù)使用Sqoop工具來進行存取,空間數(shù)據(jù)使用空間數(shù)據(jù)轉換工具進行存取。HDFS分布式文件系統(tǒng)模塊103:ETL工具提取并轉換的部分數(shù)據(jù)如文件上載數(shù)據(jù)將分布式存儲在HDFS分布式文件系統(tǒng)中。HBase分布式數(shù)據(jù)庫模塊104:ETL工具提取并轉換的部分數(shù)據(jù)如空間數(shù)據(jù)、實時數(shù)據(jù)等將分布式存儲在HBase分布式數(shù)據(jù)庫中。數(shù)據(jù)關聯(lián)RDF圖數(shù)據(jù)庫模塊105:ETL工具提取轉換數(shù)據(jù)源的數(shù)據(jù)并存儲至分布式數(shù)據(jù)庫的同時,將建立數(shù)據(jù)索引及語義目錄,存儲在數(shù)據(jù)關聯(lián)圖譜RDF里。ZooKeeper協(xié)同服務模塊106:協(xié)同管理分布式環(huán)境下的多個節(jié)點的HBaseregionserver的分布。Ambari集群節(jié)點管理監(jiān)控模塊107:對分布式環(huán)境下集群中的節(jié)點進行可視化安裝和監(jiān)控。如圖2所示,本發(fā)明的空間數(shù)據(jù)提取轉換及分布式存儲的實現(xiàn)方法的一個具體實施例包括以下步驟:數(shù)據(jù)提取轉換步驟201:空間數(shù)據(jù)主要存儲在空間數(shù)據(jù)庫中,如MapGIS數(shù)據(jù)存儲在MapGIS數(shù)據(jù)庫中,通過MapGIS轉換工具將MapGIS數(shù)據(jù)庫中的MapGIS數(shù)據(jù)導進到HBase分布式數(shù)據(jù)庫中,同時,也可以將HBase的數(shù)據(jù)導進到MapGIS數(shù)據(jù)庫中。數(shù)據(jù)分布式存儲步驟202:通過MapGISConversiontoolsforHadoop工具將空間數(shù)據(jù)庫中的MapGIS格式數(shù)據(jù)轉換為Hadoop管理的文件格式MapGISConversiontoolsforHadoop工具,將經(jīng)過轉換的MapGIS空間數(shù)據(jù)存儲在分布式數(shù)據(jù)庫HBase里,這些工具提取MapGIS格式的地理范圍、注記文本內容存儲到內容庫(HBase)中,注記文本內容的提取使得根據(jù)內容檢索圖件成為可能,區(qū)別于非矢量圖件只能按文件名的檢索方式,GIS圖件信息成為內容庫的組成部分,與成果資料內容一起,支撐著空間大數(shù)據(jù)以后的數(shù)據(jù)挖掘。下面開始進行數(shù)據(jù)關聯(lián)RDF步驟:建立空間數(shù)據(jù)的索引及語義目錄,存儲在數(shù)據(jù)關聯(lián)圖譜RDF里。其中,實體和數(shù)據(jù)之間的關聯(lián)是基于圖譜的概念,數(shù)據(jù)關聯(lián)圖譜可將空間地理實體和大量結構化或非結構化數(shù)據(jù)關聯(lián)起來,為后續(xù)統(tǒng)一分析及應用打下基礎。如圖3所示,本發(fā)明的空間實體與數(shù)據(jù)間關聯(lián)圖譜的一個具體實施例包括以下步驟;語義關聯(lián)樹步驟301:在語義關聯(lián)樹中存儲實體及其關系;在語義關聯(lián)樹中存儲三元組數(shù)據(jù),三元組記錄了實體與實體之間的關系,以及實體資源所在的URL地址等信息。資源URI步驟302:步驟301的實體和步驟303的空間數(shù)據(jù)由資源URI(數(shù)據(jù)的唯一標示符)相互連接,可互相訪問。HBase分布式存儲步驟303:HBase是一個面向列、稀疏的、分布式的多維排序映射表,每個列族中的數(shù)據(jù)都存放在一起,在讀寫時有效降低I/O開銷,并且類似的數(shù)據(jù)放在一起,經(jīng)過壓縮后極大節(jié)省了存儲空間;其中HBase分布式存儲數(shù)據(jù)庫是采用KeyValue的列存儲,Rowkey是行的主鍵,表示唯一一行,表中記錄按照RowKey排序;在此以數(shù)據(jù)檔案URL為主鍵;所有數(shù)據(jù)都是通過Rowkey(主鍵)進行訪問,一個寬行可以容下一個主鍵相關的所有數(shù)據(jù);KeyValue是列的列名和列值組成的鍵值對,多個KeyValue組成一個Column-family列族;Column-family列族,包含多個邏輯屬性組的任意屬性值(列),一個table在水平方向有一個或者多個列族,列族可由任意多個Column組成,列族支持動態(tài)擴展,無須預定義數(shù)量及類型,二進制存儲,用戶需自行進行類型轉換。Column-family列族能盡量不丟失原始資料信息量,從而可以真實的組織和描述數(shù)據(jù)。以文件檔案編號和名稱為主鍵的表,其中包含檔案報告的屬性(例如檔案名稱、地理空間范圍、附件圖表)形成分布式內容庫。以下進一步描述語義關聯(lián)樹的算法:步驟1)、開始;步驟2)、預定義根節(jié)點,設置關系為RowKey和GeomID的子節(jié)點為空;步驟3)、讀取內容庫中主鍵Key,空間屬性URI和指定的特征屬性;步驟4)、若空間屬性URI為空,則執(zhí)行步驟5,否則,執(zhí)行步驟6;步驟5)、在空間數(shù)據(jù)中匹配對應的特征屬性,構建相應記錄的URI,保存到內容庫對應的屬性列中;步驟6)、對特征屬性文本分詞,取根節(jié)點為父節(jié)點;步驟7)、按次序從分詞結果集中取值,然后執(zhí)行步驟8、步驟9、步驟10;步驟8)、在語義關聯(lián)樹中查找關系為SubNode對應的節(jié)點,若不存在此節(jié)點,則執(zhí)行步驟9、步驟10,否則回到步驟7;步驟9)、若URI為空,則在空間數(shù)據(jù)中匹配對應的特征屬性,構建相應記錄的URI;步驟10)、以此值創(chuàng)建節(jié)點Node,創(chuàng)建關系為RowKey的子節(jié)點Key,即三元組[Node,RowKey,Key],創(chuàng)建關系為GeomID的子節(jié)點URI,即三元組[Node,GeomID,URI],以Node節(jié)點為子節(jié)點,與父節(jié)點建立SubNode關系;步驟11)、結束。三元組是數(shù)據(jù)結構里的概念,主要是用來存儲稀疏矩陣的一種壓縮方式,是指形如((x,y),z)的集合,常簡記為(x,y,z)。本技術方案中的三元組記錄了實體與實體之間的關系,以及實體資源所在的URL地址等信息。當前第1頁1 2 3 當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
河东区| 桑植县| 彰武县| 洛隆县| 无棣县| 财经| 株洲县| 白沙| 天气| 突泉县| 鄱阳县| 纳雍县| 高唐县| 怀柔区| 东乡| 莱西市| 瓦房店市| 习水县| 华坪县| 泽普县| 岳普湖县| 潼关县| 灵川县| 铜梁县| 鹿泉市| 隆昌县| 澄江县| 永仁县| 宜良县| 西充县| 安远县| 长汀县| 古浪县| 宜州市| 汾西县| 长乐市| 宣恩县| 沅陵县| 沅陵县| 定远县| 沽源县|