專利名稱:一種基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)處理系統(tǒng),更具體地,涉及一種基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,數(shù)據(jù)的傳播速度日益加快,網(wǎng)絡(luò)上各種各樣信息的數(shù)據(jù)量也越來(lái)越多,網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)成為人們獲取知識(shí)和信息的一個(gè)重要來(lái)源。在各行各業(yè)中,通過網(wǎng)絡(luò)來(lái)查找需要的信息來(lái)為工作提供幫助和支持已經(jīng)被廣泛的使用和接受,并且,由于網(wǎng)絡(luò)數(shù)據(jù)的及時(shí)性、快捷性和無(wú)地域性限制等優(yōu)點(diǎn),網(wǎng)絡(luò)信息的使用正在深刻地改變著人們的生活和工作。隨著網(wǎng)絡(luò)信息的日益膨脹,對(duì)用戶根據(jù)自己的需要獲得準(zhǔn)確、全面和有用的信息提出了不小的挑戰(zhàn),由于網(wǎng)絡(luò)信息量的急速增長(zhǎng),個(gè)人已經(jīng)很難通過簡(jiǎn)單的終端設(shè)備來(lái)快速有效地獲取更加全面的信息和數(shù)據(jù)。近年來(lái)興起的云計(jì)算技術(shù)為這一問題的解決提供了一種有效的解決途徑,云計(jì)算平臺(tái)是一種不同于用戶終端設(shè)備的新型計(jì)算模式,其可以將大量的終端設(shè)備通過云計(jì)算的方式連接起來(lái),為某個(gè)或者某些特定的用戶提供高效的計(jì)算服務(wù)。目前,已經(jīng)有很多公司開始提供云計(jì)算服務(wù),對(duì)于普通用戶來(lái)說(shuō),通過相應(yīng)的云計(jì)算平臺(tái),就可以擺脫個(gè)人終端設(shè)備計(jì)算能力的局限,依靠云計(jì)算平臺(tái)中的強(qiáng)大硬件資源和軟件資源來(lái)快速、高效和準(zhǔn)確地得到自己想要的信息,這對(duì)于需要在海量的網(wǎng)絡(luò)信息中獲取及時(shí)、準(zhǔn)確信息的用戶來(lái)說(shuō)具有非常強(qiáng)的吸引力,已經(jīng)正在被越來(lái)越多的用戶所認(rèn)可,也已經(jīng)成為未來(lái)網(wǎng)絡(luò)信息技術(shù)發(fā)展的一個(gè)趨勢(shì)。在云計(jì)算平臺(tái)中,很多時(shí)候,會(huì)有很多用戶同時(shí)通過云計(jì)算平臺(tái)來(lái)進(jìn)行網(wǎng)絡(luò)信息的查找,如何能夠使得云計(jì)算平臺(tái)同時(shí)滿足眾多用戶的使用需求,并且保證云計(jì)算平臺(tái)的高效運(yùn)行,及時(shí)快速地為用戶提供數(shù)據(jù)處理服務(wù),已經(jīng)成為制約云計(jì)算平臺(tái)發(fā)展的一個(gè)重要瓶頸。因此,提高利用云計(jì)算平臺(tái)進(jìn)行數(shù)據(jù)處理的效率,為用戶提高更好的使用體驗(yàn),已經(jīng)成為一個(gè)急待解決的問題。
發(fā)明內(nèi)容
基于上述問題,本發(fā)明提出了一種新型的基于云計(jì)算的數(shù)據(jù)處理系統(tǒng),其能夠使得用戶高效快捷地利用云計(jì)算平臺(tái)進(jìn)行數(shù)據(jù)的挖掘和處理,并通過在數(shù)據(jù)挖掘的過程中進(jìn)行數(shù)據(jù)檢查、數(shù)據(jù)統(tǒng)計(jì)等,為用戶提供更好的數(shù)據(jù)處理服務(wù)。本發(fā)明的基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)包括云計(jì)算平臺(tái)和數(shù)據(jù)處理服務(wù)器,所述云計(jì)算平臺(tái)包括數(shù)據(jù)挖掘模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)發(fā)送模塊,所述數(shù)據(jù)處理服務(wù)器包括數(shù)據(jù)接收模塊、數(shù)據(jù)處理模塊和數(shù)據(jù)傳輸模塊;其中,所述云計(jì)算平臺(tái)的數(shù)據(jù)挖掘模塊包括任務(wù)拆分單元、多個(gè)挖掘操作單元和挖掘整合單元,所述任務(wù)拆分單元用于將發(fā)起的挖掘任務(wù)拆分成多個(gè)并行的子任務(wù),并將每個(gè)子任務(wù)按照相應(yīng)的邏輯順序發(fā)送到相應(yīng)的挖掘操作單元,挖掘操作單元將挖掘到的相應(yīng)數(shù)據(jù)發(fā)送給挖掘整合單元,挖掘整合單元根據(jù)保存的并行算法將多個(gè)挖掘單元發(fā)送的數(shù)據(jù)進(jìn)行整合;所述云計(jì)算平臺(tái)的數(shù)據(jù)處理模塊對(duì)挖掘得到的數(shù)據(jù)進(jìn)行處理后,通過數(shù)據(jù)發(fā)送模塊將數(shù)據(jù)發(fā)送至數(shù)據(jù)處理服務(wù)器;所述數(shù)據(jù)處理服務(wù)器的數(shù)據(jù)接收模塊接收到云計(jì)算平臺(tái)發(fā)送的數(shù)據(jù)后,通過其數(shù)據(jù)處理模塊對(duì)獲取的數(shù)據(jù)進(jìn)行處理,所述數(shù)據(jù)傳輸模塊用于將處理后的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)庫(kù)中。其中,所述云計(jì)算平臺(tái)還包括數(shù)據(jù)檢查模塊和數(shù)據(jù)統(tǒng)計(jì)模塊,所述數(shù)據(jù)檢查模塊用于根據(jù)數(shù)據(jù)中的校驗(yàn)信息來(lái)對(duì)獲取的數(shù)據(jù)進(jìn)行文件級(jí)檢查;所述數(shù)據(jù)統(tǒng)計(jì)模塊用于對(duì)獲取的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)的內(nèi)容包括:數(shù)據(jù)的來(lái)源、數(shù)據(jù)的發(fā)布日期、數(shù)據(jù)的類型等。其中,所述數(shù)據(jù)檢查模塊在對(duì)所述數(shù)據(jù)進(jìn)行文件級(jí)檢查之后,生成文件級(jí)檢查報(bào)告,并將該檢查報(bào)告發(fā)送給用戶。其中,所述云計(jì)算平臺(tái)還包括數(shù)據(jù)量控制模塊,所述數(shù)據(jù)量控制模塊計(jì)算數(shù)據(jù)挖掘模塊獲取到的數(shù)據(jù)總量,并根據(jù)預(yù)先設(shè)定的閾值來(lái)進(jìn)行判斷,如果判斷的結(jié)果是獲取的數(shù)據(jù)量大于該閾值,那么將會(huì)按照一定的規(guī)則拋棄相應(yīng)的數(shù)據(jù)量,從而使得待處理的總數(shù)據(jù)量與該閾值保持一致。其中,所述數(shù)據(jù)挖掘模塊接收用戶發(fā)送的數(shù)據(jù)挖掘請(qǐng)求,根據(jù)該用戶的數(shù)據(jù)挖掘請(qǐng)求與數(shù)據(jù)挖掘任務(wù)的對(duì)應(yīng)關(guān)系獲取該數(shù)據(jù)挖掘請(qǐng)求對(duì)應(yīng)的數(shù)據(jù)挖掘任務(wù),將獲取的該數(shù)據(jù)挖掘任務(wù)拆分為多個(gè)子任務(wù),并將每個(gè)子任務(wù)的參數(shù)配置信息發(fā)送給用戶。
圖1是本發(fā)明的基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)的組成結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面,將會(huì)結(jié)合附圖1對(duì)本發(fā)明的基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)及其工作原理進(jìn)行詳細(xì)的描述。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)能夠理解的是,附圖1所示的數(shù)據(jù)處理系統(tǒng)僅是本發(fā)明的一個(gè)示例而已,其并不是對(duì)本發(fā)明的限制,本發(fā)明的保護(hù)范圍應(yīng)當(dāng)由權(quán)利要求書所限定。本發(fā)明的基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)包括云計(jì)算平臺(tái)I和數(shù)據(jù)處理服務(wù)器2,其中,云計(jì)算平臺(tái)I包括數(shù)據(jù)挖掘模塊11、數(shù)據(jù)處理模塊12、數(shù)據(jù)發(fā)送模塊13,數(shù)據(jù)處理服務(wù)器2包括數(shù)據(jù)接收模塊21、數(shù)據(jù)處理模塊22和數(shù)據(jù)傳輸模塊23。其中,云計(jì)算平臺(tái)I的數(shù)據(jù)挖掘模塊11包括任務(wù)拆分單元111、多個(gè)挖掘操作單元112和挖掘整合單元113,任務(wù)拆分單元111用于將用戶發(fā)起的挖掘任務(wù)拆分成多個(gè)并行的子任務(wù),并將每個(gè)子任務(wù)按照相應(yīng)的邏輯順序發(fā)送到相應(yīng)的多個(gè)挖掘操作單元112,挖掘操作單元112將挖掘到的相應(yīng)數(shù)據(jù)發(fā)送給挖掘整合單元113,挖掘整合單元113根據(jù)保存的并行算法將多個(gè)挖掘單元發(fā)送的數(shù)據(jù)進(jìn)行整合。一般來(lái)說(shuō),本發(fā)明的基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)是由特定的網(wǎng)絡(luò)供應(yīng)商提供的,用戶可以在自己的終端設(shè)備中安裝相應(yīng)的客戶端,通過客戶端來(lái)對(duì)該數(shù)據(jù)處理系統(tǒng)進(jìn)行訪問,并通過客戶端向該數(shù)據(jù)處理系統(tǒng)發(fā)送請(qǐng)求,該數(shù)據(jù)處理系統(tǒng)在對(duì)用戶發(fā)出的請(qǐng)求進(jìn)行檢查和驗(yàn)證后,才會(huì)開始數(shù)據(jù)挖掘和處理操作;在實(shí)際使用過程中,提供商會(huì)對(duì)用戶使用該數(shù)據(jù)處理系統(tǒng)提出一定的要求和限制,如使用時(shí)間、請(qǐng)求數(shù)量等。云計(jì)算平臺(tái)I的數(shù)據(jù)處理模塊12對(duì)挖掘得到的數(shù)據(jù)進(jìn)行處理后,通過數(shù)據(jù)發(fā)送模塊13將數(shù)據(jù)發(fā)送至數(shù)據(jù)處理服務(wù)器2 ;數(shù)據(jù)處理服務(wù)器2的數(shù)據(jù)接收模塊21接收到云計(jì)算平臺(tái)I發(fā)送的數(shù)據(jù)后,通過其數(shù)據(jù)處理模塊22對(duì)獲取的數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)傳輸模塊23用于將處理后的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)庫(kù)中。數(shù)據(jù)處理服務(wù)器2對(duì)數(shù)據(jù)的處理一般可包括:對(duì)數(shù)據(jù)進(jìn)行整理、分類、生成相應(yīng)信息列表等,這里的數(shù)據(jù)存儲(chǔ)庫(kù)是提供商設(shè)置的數(shù)據(jù)存儲(chǔ)系統(tǒng),其能夠按照用戶的需求來(lái)為數(shù)據(jù)提供不同時(shí)間的存儲(chǔ)服務(wù),并且考慮到存儲(chǔ)空間的限制等問題,還對(duì)定期地對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行刪除等。為了更好地對(duì)通過云計(jì)算平臺(tái)挖掘到的數(shù)據(jù)進(jìn)行規(guī)范,以便于下一步的處理,并提高下一步數(shù)據(jù)處理的效率,云計(jì)算平臺(tái)I還包括數(shù)據(jù)檢查模塊14和數(shù)據(jù)統(tǒng)計(jì)模塊15,數(shù)據(jù)檢查模塊14用于根據(jù)數(shù)據(jù)中的校驗(yàn)信息來(lái)對(duì)獲取的數(shù)據(jù)進(jìn)行文件級(jí)檢查;數(shù)據(jù)統(tǒng)計(jì)模塊15用于對(duì)獲取的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)的內(nèi)容包括:數(shù)據(jù)的來(lái)源、數(shù)據(jù)的發(fā)布日期、數(shù)據(jù)的類型等。對(duì)數(shù)據(jù)進(jìn)行文件級(jí)檢查是必要的和優(yōu)選的,通過文件級(jí)檢查,可以對(duì)獲取數(shù)據(jù)中的一些無(wú)效、非法信息進(jìn)行清理,并保證所有數(shù)據(jù)的一致性,這對(duì)大大提高后續(xù)數(shù)據(jù)處理的效率。數(shù)據(jù)檢查模塊14在對(duì)數(shù)據(jù)進(jìn)行文件級(jí)檢查之后,還可以生成文件級(jí)檢查報(bào)告,并將該檢查報(bào)告發(fā)送給用戶,供用戶參考和使用。由于目前網(wǎng)絡(luò)上的數(shù)據(jù)和信息過于龐雜,為了使得云計(jì)算平臺(tái)的正常允許,防止在某些特殊情況下由于數(shù)據(jù)量過大而導(dǎo)致整個(gè)云計(jì)算平臺(tái)的低效運(yùn)行甚至停止工作,云計(jì)算平臺(tái)I還包括數(shù)據(jù)量控制模塊16,數(shù)據(jù)量控制模塊16計(jì)算數(shù)據(jù)挖掘模塊獲取到的數(shù)據(jù)總量,并根據(jù)預(yù)先設(shè)定的閾值來(lái)進(jìn)行判斷,如果判斷的結(jié)果是獲取的數(shù)據(jù)量大于該閾值,那么將會(huì)按照一定的規(guī)則拋棄相應(yīng)的數(shù)據(jù)量,從而使得待處理的總數(shù)據(jù)量與該閾值保持一致。通過這樣的數(shù)據(jù)量限制操作,會(huì)有效地防止整個(gè)云計(jì)算平臺(tái)在某些極端情況下發(fā)生崩潰的可能。數(shù)據(jù)挖掘模塊11相應(yīng)用戶的請(qǐng)求進(jìn)行數(shù)據(jù)挖掘的具體過程是這樣的:數(shù)據(jù)挖掘模塊11接收用戶通過客戶端發(fā)送的數(shù)據(jù)挖掘請(qǐng)求,根據(jù)該用戶的數(shù)據(jù)挖掘請(qǐng)求與數(shù)據(jù)挖掘任務(wù)的對(duì)應(yīng)關(guān)系獲取該數(shù)據(jù)挖掘請(qǐng)求對(duì)應(yīng)的數(shù)據(jù)挖掘任務(wù),將獲取的該數(shù)據(jù)挖掘任務(wù)拆分為多個(gè)子任務(wù),并將每個(gè)子任務(wù)的參數(shù)配置信息發(fā)送給用戶。數(shù)據(jù)挖掘模塊會(huì)根據(jù)所述對(duì)應(yīng)關(guān)系來(lái)得到數(shù)據(jù)挖掘任務(wù)量的大小,并根據(jù)預(yù)先設(shè)定的規(guī)則將該數(shù)據(jù)挖掘任務(wù)拆分成適當(dāng)數(shù)量的子任務(wù),該規(guī)則可以是不同的,只要能夠保證每個(gè)子任務(wù)的大小合適即可。由此可見,本發(fā)明的數(shù)據(jù)處理系統(tǒng)通過采用云計(jì)算平臺(tái)來(lái)高效地進(jìn)行挖掘和處理,能夠滿足眾多用戶對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)信息進(jìn)行挖掘查找的需求,將會(huì)有力地促進(jìn)云計(jì)算平臺(tái)在數(shù)據(jù)處理系統(tǒng)中的應(yīng)用。
權(quán)利要求
1.一種基于云計(jì)算的數(shù)據(jù)處理系統(tǒng),其包括云計(jì)算平臺(tái)和數(shù)據(jù)處理服務(wù)器,其中,所述云計(jì)算平臺(tái)包括數(shù)據(jù)挖掘模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)發(fā)送模塊,所述數(shù)據(jù)處理服務(wù)器包括數(shù)據(jù)接收模塊、數(shù)據(jù)處理模塊和數(shù)據(jù)傳輸模塊,其特征在于: 所述云計(jì)算平臺(tái)的數(shù)據(jù)挖掘模塊包括任務(wù)拆分單元、多個(gè)挖掘操作單元和挖掘整合單元,所述任務(wù)拆分單元用于將發(fā)起的挖掘任務(wù)拆分成多個(gè)并行的子任務(wù),并將每個(gè)子任務(wù)按照相應(yīng)的邏輯順序發(fā)送到相應(yīng)的挖掘操作單元,挖掘操作單元將挖掘到的相應(yīng)數(shù)據(jù)發(fā)送給挖掘整合單元,挖掘整合單元根據(jù)保存的并行算法將多個(gè)挖掘單元發(fā)送的數(shù)據(jù)進(jìn)行整合;所述云計(jì)算平臺(tái)的數(shù)據(jù)處理模塊對(duì)挖掘得到的數(shù)據(jù)進(jìn)行處理后,通過數(shù)據(jù)發(fā)送模塊將數(shù)據(jù)發(fā)送至數(shù)據(jù)處理服務(wù)器;所述數(shù)據(jù)處理服務(wù)器的數(shù)據(jù)接收模塊接收到云計(jì)算平臺(tái)發(fā)送的數(shù)據(jù)后,通過其數(shù)據(jù)處理模塊對(duì)獲取的數(shù)據(jù)進(jìn)行處理,所述數(shù)據(jù)傳輸模塊用于將處理后的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)庫(kù)中。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其中,所述云計(jì)算平臺(tái)還包括數(shù)據(jù)檢查模塊和數(shù)據(jù)統(tǒng)計(jì)模塊,所述數(shù)據(jù)檢查模塊用于根據(jù)數(shù)據(jù)中的校驗(yàn)信息來(lái)對(duì)獲取的數(shù)據(jù)進(jìn)行文件級(jí)檢查;所述數(shù)據(jù)統(tǒng)計(jì)模塊用于對(duì)獲取的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)的內(nèi)容包括:數(shù)據(jù)的來(lái)源、數(shù)據(jù)的發(fā)布日期、數(shù)據(jù)的類型等。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理系統(tǒng),其中,所述數(shù)據(jù)檢查模塊在對(duì)所述數(shù)據(jù)進(jìn)行文件級(jí)檢查之后,生成文件級(jí)檢查報(bào)告,并將該檢查報(bào)告發(fā)送給用戶。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其中,所述云計(jì)算平臺(tái)還包括數(shù)據(jù)量控制模塊,所述數(shù)據(jù)量控制模塊計(jì)算數(shù)據(jù)挖掘模塊獲取到的數(shù)據(jù)總量,并根據(jù)預(yù)先設(shè)定的閾值來(lái)進(jìn)行判斷,如果判斷的結(jié)果是獲取的數(shù)據(jù)量大于該閾值,那么將會(huì)按照一定的規(guī)則拋棄相應(yīng)的數(shù)據(jù)量,從而使得待處理的總數(shù)據(jù)量與該閾值保持一致。
5.根據(jù)權(quán)利要求1一 4中任一項(xiàng)所述的數(shù)據(jù)處理系統(tǒng),其中,所述數(shù)據(jù)挖掘模塊接收用戶發(fā)送的數(shù)據(jù)挖掘請(qǐng)求,根據(jù)該用戶的數(shù)據(jù)挖掘請(qǐng)求與數(shù)據(jù)挖掘任務(wù)的對(duì)應(yīng)關(guān)系獲取該數(shù)據(jù)挖掘請(qǐng)求對(duì)應(yīng)的數(shù)據(jù)挖掘任務(wù),將獲取的該數(shù)據(jù)挖掘任務(wù)拆分為多個(gè)子任務(wù),并將每個(gè)子任務(wù)的參數(shù)配置信息發(fā)送給用戶。
全文摘要
一種數(shù)據(jù)處理系統(tǒng)包括云計(jì)算平臺(tái)和數(shù)據(jù)處理服務(wù)器,所述云計(jì)算平臺(tái)包括數(shù)據(jù)挖掘模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)發(fā)送模塊,所述數(shù)據(jù)處理服務(wù)器包括數(shù)據(jù)接收模塊、數(shù)據(jù)處理模塊和數(shù)據(jù)傳輸模塊。所述數(shù)據(jù)挖掘模塊包括任務(wù)拆分單元、多個(gè)挖掘操作單元和挖掘整合單元,所述任務(wù)拆分單元用于將挖掘任務(wù)拆分成多個(gè)子任務(wù)并將每個(gè)子任務(wù)發(fā)送到相應(yīng)的挖掘操作單元,挖掘操作單元將挖掘到的數(shù)據(jù)發(fā)送給挖掘整合單元,挖掘整合單元根據(jù)保存的并行算法將多個(gè)挖掘單元發(fā)送的數(shù)據(jù)進(jìn)行整合;所述數(shù)據(jù)處理服務(wù)器的數(shù)據(jù)接收模塊接收云計(jì)算平臺(tái)發(fā)送的數(shù)據(jù),并通過數(shù)據(jù)處理模塊對(duì)獲取的數(shù)據(jù)進(jìn)行處理,所述數(shù)據(jù)傳輸模塊用于將處理后的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)庫(kù)中。
文檔編號(hào)G06F17/30GK103095800SQ20121052221
公開日2013年5月8日 申請(qǐng)日期2012年12月7日 優(yōu)先權(quán)日2012年12月7日
發(fā)明者宗競(jìng) 申請(qǐng)人:江蘇樂買到網(wǎng)絡(luò)科技有限公司