欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于s-plus的大數(shù)據(jù)平臺的構(gòu)建方法

文檔序號:8257998閱讀:644來源:國知局
基于s-plus的大數(shù)據(jù)平臺的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于S-PLUS的大數(shù)據(jù)平臺的構(gòu)建方法,結(jié)合云計(jì)算、虛擬化和Hadoop等技術(shù),集成了 S-PLUS語言,適用于處理城市管理、城市信息系統(tǒng)服務(wù)、社會(huì)監(jiān)管、公共安全等數(shù)據(jù)集,允許用戶通過Web界面的方式進(jìn)行數(shù)據(jù)挖掘、分析。
【背景技術(shù)】
[0002]隨著信息化的推進(jìn)和智慧城市的建設(shè),以城市為單位的數(shù)據(jù)量日益上升,智慧城市每天會(huì)產(chǎn)生0.3PB-6.7PB左右的視頻數(shù)據(jù)。在城市系統(tǒng)應(yīng)用中,收集了大量的海量的業(yè)務(wù)數(shù)據(jù),其中蘊(yùn)藏著大量未知的、潛在的信息。數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),在銀行、電信、保險(xiǎn)、交通、零售等領(lǐng)域得到了普遍的應(yīng)用。通過對大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,可提取輔助做出正確而關(guān)鍵的決策。面對的數(shù)據(jù)量越來越大,針對大數(shù)據(jù)的挖掘、分析日趨得到關(guān)注。但是,受限于內(nèi)存容量和計(jì)算能力,傳統(tǒng)的基于單機(jī),單區(qū)域范圍內(nèi)的數(shù)據(jù)分析已經(jīng)開始在大數(shù)據(jù)時(shí)代顯得力不從心;傳統(tǒng)的數(shù)據(jù)挖掘、分析方法在大數(shù)據(jù)環(huán)境下不再有效。
[0003]云計(jì)算的出現(xiàn),為解決大數(shù)據(jù)問題提供了有效的途徑。云計(jì)算、虛擬化技術(shù)可以有效地整合基礎(chǔ)設(shè)施資源,為大數(shù)據(jù)的挖掘、分析提供了計(jì)算和存儲能力。Hadoop可以讓用戶在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲,為大數(shù)據(jù)的計(jì)算和存儲提供了可用框架。商業(yè)軟件S-PLUS是當(dāng)今相當(dāng)流行的數(shù)據(jù)分析、統(tǒng)計(jì)制圖語言,具有豐富的分析模塊和實(shí)用工具,在業(yè)界已得到廣泛應(yīng)用。為了充分挖掘、分析大數(shù)據(jù)的價(jià)值,為用戶提供功能強(qiáng)大的數(shù)據(jù)挖掘、分析功能,設(shè)計(jì)一個(gè)集成了商業(yè)軟件S-PLUS語言、易用的大數(shù)據(jù)挖掘平臺,具有很好的應(yīng)用價(jià)值。

【發(fā)明內(nèi)容】

[0004]發(fā)明目的:本發(fā)明提供一種基于S-PLUS的大數(shù)據(jù)平臺的構(gòu)建方法,集成S-PLUS語言作為數(shù)據(jù)分析引擎,設(shè)計(jì)了一個(gè)能夠處理大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘平臺。利用該平臺進(jìn)行數(shù)據(jù)挖掘,用戶可以解決一些典型的數(shù)據(jù)挖掘問題,如處理城市管理、城市信息系統(tǒng)服務(wù)、社會(huì)監(jiān)管、公共安全等問題。
[0005]為了實(shí)現(xiàn)上述目的,所構(gòu)建系統(tǒng)的體系結(jié)構(gòu)如下:
物理層:由服務(wù)器、PC機(jī)、網(wǎng)絡(luò)設(shè)備等硬件組成,為大數(shù)據(jù)處理提供必需的硬件基礎(chǔ)。
[0006]虛擬化層:采用開源云平臺解決方案Eucalyptus搭建虛擬機(jī)集群,整合基礎(chǔ)設(shè)施資源,為整個(gè)系統(tǒng)提供了可擴(kuò)展的、易管理的計(jì)算和存儲能力;然后,在虛擬機(jī)上部署Hadoop環(huán)境和MySQL集群,用于支持大數(shù)據(jù)的讀寫和存儲。
[0007]服務(wù)層:部署Hadoop環(huán)境,使得S-PLUS語言引擎能夠運(yùn)行在Hadoop集群之上,既可以充分發(fā)揮S-PLUS語言在統(tǒng)計(jì)計(jì)算和繪圖方面的強(qiáng)大功能,同時(shí)可以利用Hadoop在并行計(jì)算和擴(kuò)展性方面的能力彌補(bǔ)S-PLUS語言在處理大數(shù)據(jù)時(shí)的不足;開發(fā)服務(wù),在服務(wù)中封裝通常用到的數(shù)據(jù)挖掘方法實(shí)現(xiàn)的功能。
[0008]應(yīng)用層:以Web界面的方式向用戶服務(wù)層實(shí)現(xiàn)的各種功能。用戶可以建立分析流程,包括:設(shè)置數(shù)據(jù)來源、選擇分析方法、設(shè)置分析參數(shù)、數(shù)據(jù)挖掘與分析、得出分析結(jié)果并展示。
[0009]技術(shù)方案:一種基于S-PLUS的大數(shù)據(jù)平臺的構(gòu)建方法,包括如下幾個(gè)步驟:
步驟1:基礎(chǔ)設(shè)施虛擬化。采用虛擬化技術(shù)將設(shè)施虛擬化,包括物理層的服務(wù)器虛擬化、存儲虛擬化和網(wǎng)絡(luò)虛擬化,形成虛擬化層;其中建立兩個(gè)虛擬化池即計(jì)算虛擬化池和存儲虛擬化池是最重要的兩個(gè)部分;計(jì)算虛擬化池主要實(shí)現(xiàn)計(jì)算資源層面的虛擬化,其中又包括服務(wù)器虛擬化和應(yīng)用中間件虛擬化;存儲虛擬化池主要實(shí)現(xiàn)存儲數(shù)據(jù)虛擬化,其中又包括存儲硬件架構(gòu)虛擬化和存儲軟件虛擬化。本發(fā)明按照上述思路搭建主機(jī)、管理節(jié)點(diǎn)、多臺計(jì)算節(jié)點(diǎn)以及網(wǎng)絡(luò)設(shè)備等硬件,為大數(shù)據(jù)處理提供必需的硬件基礎(chǔ)。
[0010]步驟2:虛擬機(jī)實(shí)例化。此流程大致分為以下幾個(gè)步驟:
(O選擇虛擬機(jī)并定制化;
(2)保存定制化參數(shù)文件;
(3)選擇部署的目標(biāo)物理機(jī)服務(wù)器;
(4)拷貝虛擬機(jī)的相關(guān)文件;
(5)在目標(biāo)機(jī)上啟動(dòng)部署后的虛擬機(jī)。
[0011]步驟3:開源云計(jì)算解決方案Eucalyptus的安裝;使用Eucalyptus作為基礎(chǔ),搭建虛擬機(jī)集群,用戶可以快速方便地在現(xiàn)有的基礎(chǔ)架構(gòu)上創(chuàng)建私有的云計(jì)算平臺,其安裝過程主要包含以下幾步:
(1)安裝Linux操作系統(tǒng);
(2)配置Yum安裝源;
(3)配置安裝腳本;
(4)安裝其他節(jié)點(diǎn)操作系統(tǒng);
(5)搭建Cobbler服務(wù);
(6)PXE方式安裝節(jié)點(diǎn)OS ;
(7)配置安全策略、網(wǎng)橋、防火墻、NFS共享。
[0012]步驟4:服務(wù)層:部署S-PLUS環(huán)境,使得S-PLUS語言引擎能夠運(yùn)行在Hadoop集群之上;配置動(dòng)態(tài)鏈接庫,使得實(shí)際的計(jì)算過程是通過在底層調(diào)用S-PLUS語言來實(shí)現(xiàn)的。
[0013]步驟5:處理關(guān)系型數(shù)據(jù)庫中的海量數(shù)據(jù);結(jié)合S-PLUS和Hadoop來實(shí)現(xiàn)對關(guān)系型數(shù)據(jù)庫中大規(guī)模數(shù)據(jù)的操作:通過商業(yè)工具S-PLUS將大量待分析數(shù)據(jù)輸出為文本數(shù)據(jù)文件,并將文本數(shù)據(jù)文件上傳到HDFS中,然后轉(zhuǎn)化為對文本數(shù)據(jù)集進(jìn)行分布式處理。
[0014]步驟6:流程化的操作方法;在應(yīng)用層以Web界面的方式向用戶服務(wù)層實(shí)現(xiàn)的各種功能;用戶可以操縱數(shù)據(jù)的輸入和輸出,可實(shí)現(xiàn)分支、循環(huán),并可自定義功能,功能包括但不限于城市管理、城市信息系統(tǒng)服務(wù)、社會(huì)監(jiān)管、公共安全等智慧交通系統(tǒng)需關(guān)注的目標(biāo),設(shè)置內(nèi)容包括:設(shè)置數(shù)據(jù)來源、選擇分析方法、設(shè)置分析參數(shù)、數(shù)據(jù)挖掘與分析、得出分析結(jié)果并展不。
[0015]本發(fā)明采用上述技術(shù)方案,具有以下效果:
(I)利用云計(jì)算虛擬化和大數(shù)據(jù)技術(shù),整合基礎(chǔ)設(shè)施資源,為平臺提供便于統(tǒng)一管理、具備高可擴(kuò)展性的計(jì)算和存儲能力。
[0016](2)針對不同規(guī)模數(shù)據(jù)集采用最優(yōu)的數(shù)據(jù)處理模式,當(dāng)數(shù)據(jù)規(guī)模單機(jī)模式不能處理時(shí)候,利用Hadoop集群提供支持。并且,Hadoop存儲的多備份策略、任務(wù)執(zhí)行時(shí)的心跳機(jī)制、以及數(shù)據(jù)庫集群和復(fù)制技術(shù)保證了平臺具備較高容錯(cuò)能力。
[0017](3)為解決數(shù)據(jù)挖掘算法的可擴(kuò)展性,使用多種設(shè)計(jì)模式優(yōu)化接口設(shè)計(jì),表示層的參數(shù)配置界面和S-PLUS語言分析數(shù)據(jù)的邏輯松耦合。
[0018](4)提供了主流的數(shù)據(jù)挖掘算法,支持處理結(jié)構(gòu)化(MySQL、SQLServer、txt、csv和xls等格式文件)、半結(jié)構(gòu)化(XML、HTML等格式文件)、非結(jié)構(gòu)化(jpg、bmp和GIS底圖、MPG等圖像視頻文件)三大類數(shù)據(jù)。
[0019](5)提供了將原來的垂直擴(kuò)展的關(guān)系型數(shù)據(jù)庫轉(zhuǎn)變?yōu)樗綌U(kuò)展的分布型數(shù)據(jù)庫,從而緩解智慧交通所帶來的數(shù)據(jù)暴增問題。
【附圖說明】
[0020]圖1是基于S-PLUS的大數(shù)據(jù)平臺的構(gòu)建方法的體系架構(gòu)圖。
【具體實(shí)施方式】
[0021]下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價(jià)形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0022]基于S-PLUS的大數(shù)據(jù)平臺的構(gòu)建方法的體系架構(gòu),如圖1所示,包括如下幾個(gè)步驟:
步驟1:基礎(chǔ)設(shè)施虛擬化。采用虛擬化技術(shù)能實(shí)現(xiàn)主機(jī)和存儲資源的一體化整合和共享利用,既能提高資源利用率,降低成本,又能降低管理的復(fù)雜性。將設(shè)施虛擬化,包括服務(wù)器虛擬化、存儲虛擬化、網(wǎng)絡(luò)虛擬化。本發(fā)明主要從兩個(gè)方面進(jìn)行虛擬化,建立兩個(gè)虛擬化池即計(jì)算虛擬化池和存儲虛擬化池。計(jì)算虛擬化池主要實(shí)現(xiàn)應(yīng)用虛擬化,在計(jì)算資源層面包括服務(wù)器虛擬化和應(yīng)用中間件虛擬化。存儲虛擬化池主要實(shí)現(xiàn)數(shù)據(jù)存儲虛擬化,在存儲層面包括存儲硬件架構(gòu)虛擬化和存儲軟件虛擬化。本發(fā)明按照上述思路搭建主機(jī)、管理節(jié)點(diǎn)、多臺計(jì)算節(jié)點(diǎn)以及網(wǎng)絡(luò)設(shè)備等硬件,為大數(shù)據(jù)處理提供必需的硬件基礎(chǔ)。
[0023]步驟2:虛擬機(jī)實(shí)例化的階段。此流程大致分為以下幾個(gè)步驟:
(O選擇虛擬機(jī)并定制化;
(2)保存定制化參數(shù)文件;
(3)選擇部署的目標(biāo)物理機(jī)服務(wù)器;
(4)拷貝虛擬機(jī)的相關(guān)文件;
(
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
河津市| 宾川县| 托里县| 浦县| 巨鹿县| 福清市| 东至县| 西贡区| 象州县| 来安县| 百色市| 密山市| 万盛区| 隆子县| 嘉峪关市| 柘城县| 田东县| 锡林浩特市| 天长市| 安岳县| 饶河县| 永兴县| 汉中市| 张北县| 讷河市| 扎赉特旗| 石棉县| 奉贤区| 德惠市| 全南县| 富宁县| 镇安县| 上饶市| 仪征市| 保德县| 宁南县| 台江县| 望谟县| 万年县| 永昌县| 潼关县|