一種大數(shù)據(jù)處理方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體涉及一種大數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002]近幾年來,隨著計(jì)算機(jī)和信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長。動輒達(dá)到數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模的行業(yè)/企業(yè)大數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了現(xiàn)有傳統(tǒng)的計(jì)算技術(shù)和信息系統(tǒng)的處理能力,因此,尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段已經(jīng)成為現(xiàn)實(shí)世界的迫切需求。“大數(shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。
[0003]大數(shù)據(jù)處理的目的,是為了讓用戶能夠及時、有效地獲取所需的大數(shù)據(jù)資源。在互聯(lián)網(wǎng)的云計(jì)算、分布式計(jì)算等場景下有大量的需求,然而現(xiàn)有技術(shù)還缺乏有效的大數(shù)據(jù)處理方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種大數(shù)據(jù)處理方法,可以使用戶能夠及時、有效地獲得所需的大數(shù)據(jù)資源;并能夠進(jìn)行有效的數(shù)據(jù)分析和處理。
[0005]本發(fā)明的目的主要通過以下技術(shù)方案實(shí)現(xiàn):
[0006]—種大數(shù)據(jù)處理方法,其特征在于,包括以下步驟:
[0007]步驟1:接收用戶輸入的資源請求信息;
[0008]步驟2:根據(jù)所述資源請求信息,從云端獲得與所述資源請求信息相關(guān)的大數(shù)據(jù)資源;
[0009]步驟3:用戶從云端下載所獲得的大數(shù)據(jù)資源;
[0010]步驟4:對下載的所述大數(shù)據(jù)資源進(jìn)行分類;
[0011 ]步驟5:對分類后的大數(shù)據(jù)資源進(jìn)行存儲。
[0012]可選地,所述步驟2包括以下步驟:
[0013]步驟2.1:由計(jì)算管理節(jié)點(diǎn)從云端獲取所述資源請求信息;
[0014]步驟2.2:所述計(jì)算管理節(jié)點(diǎn)指定多個分布式計(jì)算節(jié)點(diǎn)根據(jù)所述資源請求信息進(jìn)行分布式計(jì)算,使得每個分布式計(jì)算節(jié)點(diǎn)各自生成一個局部計(jì)算結(jié)果;
[0015]步驟2.3:所述計(jì)算管理節(jié)點(diǎn)將每個分布式計(jì)算節(jié)點(diǎn)的局部計(jì)算結(jié)果進(jìn)行整合,獲得一個全局計(jì)算結(jié)果,并將所述全局計(jì)算結(jié)果發(fā)送至云端。
[0016]可選地,所述步驟2.3包括以下步驟:
[0017]步驟2.3.1:所述計(jì)算管理節(jié)點(diǎn)依據(jù)所述多個分布式計(jì)算節(jié)點(diǎn)的綜合評分值K,對每個分布式計(jì)算節(jié)點(diǎn)的各自的局部計(jì)算結(jié)果進(jìn)行排序,并將排序結(jié)果合并后去除重復(fù)數(shù)據(jù)和噪聲數(shù)據(jù),得到全局計(jì)算結(jié)果;
[0018]其中,對于每個分布式計(jì)算節(jié)點(diǎn),設(shè)其綜合評分值為K,信任度評分值為K1,計(jì)算能力評分值為
[0019]其中,A、B都是正整數(shù),K1、K2都大于零;
[0020]步驟2.3.2:所述計(jì)算管理節(jié)點(diǎn)按照固定的時間間隔,以增量數(shù)據(jù)的方式將所述全局計(jì)算結(jié)果發(fā)送至云端。
[0021]可選地,所述步驟3包括以下步驟:
[0022]步驟3.1:數(shù)據(jù)轉(zhuǎn)發(fā)服務(wù)器將從云端獲得的所述全局計(jì)算結(jié)果分為若干個獨(dú)立的數(shù)據(jù)塊,并記錄每個數(shù)據(jù)塊的容量,同時將所述數(shù)據(jù)塊依次按時間順序存儲到一個數(shù)據(jù)存儲節(jié)點(diǎn)集合中,所述數(shù)據(jù)存儲節(jié)點(diǎn)集合包括Μ個獨(dú)立的數(shù)據(jù)存儲節(jié)點(diǎn),即:數(shù)據(jù)存儲節(jié)點(diǎn)1、數(shù)據(jù)存儲節(jié)點(diǎn)2、……、數(shù)據(jù)存儲節(jié)點(diǎn)Ν、……、數(shù)據(jù)存儲節(jié)點(diǎn)Μ;
[0023]步驟3.2:所述數(shù)據(jù)轉(zhuǎn)發(fā)服務(wù)器將當(dāng)前數(shù)據(jù)塊存儲到數(shù)據(jù)存儲節(jié)點(diǎn)Ν后,數(shù)據(jù)存儲節(jié)點(diǎn)Ν向數(shù)據(jù)轉(zhuǎn)發(fā)服務(wù)器返回其剩余容量信息,當(dāng)數(shù)據(jù)存儲節(jié)點(diǎn)Ν的剩余容量信息小于下一個數(shù)據(jù)塊的容量時,轉(zhuǎn)發(fā)服務(wù)器開始向數(shù)據(jù)存儲節(jié)點(diǎn)Ν+1存儲數(shù)據(jù)塊;依次類推,直到全局計(jì)算結(jié)果全部存儲完成后結(jié)束;其中,NSM,且Μ、Ν都為正整數(shù);
[0024]步驟3.3:用戶從云端的數(shù)據(jù)轉(zhuǎn)發(fā)服務(wù)器將下載所述全局計(jì)算結(jié)果,所述全局計(jì)算結(jié)果即為所獲得的大數(shù)據(jù)資源。
[0025]可選地,,所述步驟4包括以下步驟:
[0026]步驟4.1:對下載的所述大數(shù)據(jù)資源的屬性進(jìn)行隨機(jī)采樣,得到多個大類數(shù)據(jù)集;
[0027]步驟4.2:對每個大類數(shù)據(jù)集的屬性進(jìn)行隨機(jī)采樣,得到多個小類數(shù)據(jù)集;
[0028]步驟4.3:對每個大類數(shù)據(jù)集進(jìn)行聚類分析,得到多個大類聚類結(jié)果及相應(yīng)的大類標(biāo)簽;
[0029]步驟4.4:對每個小類數(shù)據(jù)集進(jìn)行聚類分析,得到多個小類聚類結(jié)果及相應(yīng)的小類標(biāo)簽;
[0030]步驟4.5:輸出所述大類聚類結(jié)果及大類標(biāo)簽、小類聚類結(jié)果及小類標(biāo)簽,完成所述大數(shù)據(jù)資源的分類。
[0031 ]本發(fā)明的有益效果在于:通過對大數(shù)據(jù)資源的分布式存儲與處理計(jì)算,提高了大數(shù)據(jù)處理的計(jì)算效率,成本低,數(shù)據(jù)存儲連續(xù)性好,安全性高。
【具體實(shí)施方式】
[0032]下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明,但本發(fā)明的實(shí)施方式不限于此。
[0033]一種大數(shù)據(jù)處理方法,其特征在于,包括以下步驟:
[0034]步驟1:接收用戶輸入的資源請求信息;
[0035]步驟2:根據(jù)所述資源請求信息,從云端獲得與所述資源請求信息相關(guān)的大數(shù)據(jù)資源;
[0036]步驟3:用戶從云端下載所獲得的大數(shù)據(jù)資源;
[0037]步驟4:對下載的所述大數(shù)據(jù)資源進(jìn)行分類;
[0038]步驟5:對分類后的大數(shù)據(jù)資源進(jìn)行存儲。
[0039]可選地,所述步驟2包括以下步驟:
[0040]步驟2.1:由計(jì)算管理節(jié)點(diǎn)從云端獲取所述資源請求信息;
[0041 ]步驟2.2:所述計(jì)算管理節(jié)點(diǎn)指定多個分布式計(jì)算節(jié)點(diǎn)根據(jù)所述資源請求信息進(jìn)行分布式計(jì)算,使得每個分布式計(jì)算節(jié)點(diǎn)各自生成一個局部計(jì)算結(jié)果;
[0042]步驟2.3:所述計(jì)算管理節(jié)點(diǎn)將每個分布式計(jì)算節(jié)點(diǎn)的局部計(jì)算結(jié)果進(jìn)行整合,獲得一個全局計(jì)算結(jié)果,并將所述全局計(jì)算結(jié)果發(fā)送至云端。
[0043]可選地,所述步驟2.3包括以下步驟:
[0044]步驟2.3.1:所述計(jì)算管理節(jié)點(diǎn)依據(jù)所述多個分布式計(jì)算節(jié)點(diǎn)的綜合評分值K,對每個分布式計(jì)算節(jié)點(diǎn)的各自的局部計(jì)算結(jié)果進(jìn)行排序,并將排序結(jié)果合并后去除重復(fù)數(shù)據(jù)和噪聲數(shù)據(jù),得到全局計(jì)算結(jié)果;
[0045]其中,對于每個分布式計(jì)算節(jié)點(diǎn),設(shè)其綜合評分值為K,信任度評分值為K