欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法

文檔序號(hào):6400335閱讀:337來(lái)源:國(guó)知局
專利名稱:一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法
技術(shù)領(lǐng)域
本發(fā)明涉及物聯(lián)網(wǎng)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法。
背景技術(shù)
隨著傳感器、射頻識(shí)別(RFID)、全球定位系統(tǒng)、紅外感應(yīng)器、激光掃描器、氣體感應(yīng)器等各種裝置與技術(shù)的發(fā)展,現(xiàn)實(shí)中的一切事物將可能通過(guò)實(shí)時(shí)采集任何需要監(jiān)控、連接、互動(dòng)的物體或過(guò)程中,采集其聲、光、熱、電、力學(xué)、化學(xué)、生物、位置等各種需要的信息,與互聯(lián)網(wǎng)結(jié)合形成的一個(gè)巨大網(wǎng)絡(luò),這樣的一種巨型網(wǎng)絡(luò)稱之為物聯(lián)網(wǎng)。
由于物聯(lián)網(wǎng)的以上特性,在采集數(shù)據(jù)的過(guò)程中,產(chǎn)生大量各種格式相異、意義不同的海量數(shù)據(jù),而如何從這些數(shù)據(jù)中根據(jù)用戶的需要對(duì)數(shù)據(jù)進(jìn)行清洗,以達(dá)到數(shù)據(jù)有效利用的目的成為物聯(lián)網(wǎng)信息處理的重點(diǎn)。
傳統(tǒng)的數(shù)據(jù)清洗方式,絕大多數(shù)基于磁盤(pán)數(shù)據(jù)文件,在清洗過(guò)程中伴隨著大量對(duì)磁盤(pán)的I/o操作,盡管查詢優(yōu)化會(huì)在一定程度上改善效率,但是當(dāng)面對(duì)海量數(shù)據(jù)時(shí),頻繁的I/o操作還是直接成為影響性能的瓶頸。本發(fā)明針對(duì)以上的問(wèn)題,發(fā)明了一種新的數(shù)據(jù)清洗方法,將物聯(lián)網(wǎng)數(shù)據(jù)加載至服務(wù)器內(nèi)存中,然后統(tǒng)一數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)(Uniform-Delicate B-Tree),利用數(shù)據(jù)結(jié)構(gòu)針對(duì)的清洗算法,在多臺(tái)服務(wù)器上,按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗,最大程度的減少I/O操作,從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。發(fā)明內(nèi)容
本發(fā)明針對(duì)以上的問(wèn)題,發(fā)明了一種新的數(shù)據(jù)清洗方法,將物聯(lián)網(wǎng)數(shù)據(jù)加載至服務(wù)器內(nèi)存中,然后統(tǒng)一數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)(Uniform-Delicate B-Tree),利用數(shù)據(jù)結(jié)構(gòu)針對(duì)的清洗算法,在多臺(tái)服務(wù)器上,按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗,最大程度的減少I/O操作,從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案:一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,包括以下步驟:第一步:實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù);第二步:實(shí)施人員將原始數(shù)據(jù)重構(gòu)后,將其存儲(chǔ)在內(nèi)存中;第三步:實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù);第四步:讀取預(yù)先設(shè)定的規(guī)則,進(jìn)行數(shù)據(jù)清洗。
優(yōu)選方案:第一步的詳細(xì)過(guò)程包括如下步驟:利用Web Service的方式,對(duì)外提供數(shù)據(jù)服務(wù)接口,將數(shù)據(jù)統(tǒng)一傳輸至中心數(shù)據(jù)庫(kù),中心數(shù)據(jù)庫(kù)采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),為每種類型的設(shè)備創(chuàng)建各自的數(shù)據(jù)表,設(shè)備編號(hào)作為唯一識(shí)別號(hào),所有采集的原始數(shù)據(jù)將存儲(chǔ)在各自的數(shù)據(jù)表中。
優(yōu)選方案:第二步的詳細(xì)過(guò)程包括如下步驟:從中心數(shù)據(jù)庫(kù)獲得所有數(shù)據(jù)后,實(shí)施人員將這些原始數(shù)據(jù)組裝成為數(shù)據(jù)塊;在完成數(shù)據(jù)重構(gòu)后,再將這些數(shù)據(jù)塊加載至內(nèi)存中。
優(yōu)選方案:第三步的詳細(xì)過(guò)程包括如下步驟:利用UDB查詢算法,將第二步中的數(shù)據(jù)塊按照關(guān)鍵字開(kāi)始索引,在找到相應(yīng)的位置后,再按照UDB插入算法將數(shù)據(jù)塊插入相應(yīng)的節(jié)點(diǎn)。
優(yōu)選方案:第四步的詳細(xì)過(guò)程包括如下步驟:在數(shù)據(jù)清洗時(shí),操作人員可以通過(guò)軟件配置,或者利用配置文件,對(duì)清洗規(guī)則進(jìn)行定義,在整個(gè)數(shù)據(jù)清洗過(guò)程中,將在清洗規(guī)則約定的條件下進(jìn)行清洗,且清洗時(shí),可以分為一個(gè)及以上個(gè)步驟,每個(gè)步驟都可以制定不同清洗規(guī)則。
優(yōu)選方案:第二步中所述內(nèi)存為計(jì)算機(jī)集群組成的內(nèi)存。
優(yōu)選方案:當(dāng)內(nèi)存不足以容納所有的數(shù)據(jù)時(shí),原始數(shù)據(jù)將保留在磁盤(pán)中,每次只將部分的數(shù)據(jù)組裝為數(shù)據(jù)塊并加載至內(nèi)存,內(nèi)存中的數(shù)據(jù)塊完成處理后,再?gòu)拇疟P(pán)中加載剩余的數(shù)據(jù)。
優(yōu)選方案:所述的清洗規(guī)則可以使用數(shù)據(jù)庫(kù)查詢語(yǔ)言或者腳本語(yǔ)言進(jìn)行創(chuàng)建和編輯。
綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的具體有益效果是:充分利用內(nèi)存的容量存儲(chǔ)基礎(chǔ)數(shù)據(jù),從而減少了 I/o開(kāi)銷,提高了訪問(wèn)效率;使用統(tǒng)一的數(shù)據(jù)格式,有利于數(shù)據(jù)快速解析,雖然在統(tǒng)一數(shù)據(jù)格式的過(guò)程中會(huì)消耗較多時(shí)間,但在解析數(shù)據(jù)時(shí),將會(huì)大大提高速度,從而提高整體速度;使用針對(duì)物聯(lián)網(wǎng)的數(shù)據(jù)結(jié)構(gòu),利用針對(duì)性強(qiáng)的搜索算法,提高檢索速度;利用計(jì)算機(jī)集群的優(yōu)勢(shì),并行進(jìn)行數(shù)據(jù)清洗過(guò)程,從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。


圖1為中間節(jié)點(diǎn)示意圖2為數(shù)據(jù)節(jié)點(diǎn)示意圖3為數(shù)據(jù)塊示意圖4為UDB樹(shù)不意圖:
圖5數(shù)據(jù)清洗流程圖6為數(shù)據(jù)清洗流程圖。
具體實(shí)施方式
本說(shuō)明書(shū)中公開(kāi)的所有特征,或公開(kāi)的所有方法或過(guò)程中的步驟,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。
本說(shuō)明書(shū)(包括任何附加權(quán)利要求、摘要和附圖)中公開(kāi)的任一特征,除非特別敘述,均可被其他等效或具有類似目的的替代特征加以替換。即,除非特別敘述,每個(gè)特征只是一系列等效或類似特征中的一個(gè)例子而已。
由于在具體實(shí)施步驟中需要使用一些針對(duì)本發(fā)明新建立的數(shù)據(jù)結(jié)構(gòu)及其涉及的算法,故先闡述這些數(shù)據(jù)結(jié)構(gòu)及其涉及的算法。
概念1.UDB(Uniform-Delicate B-Tree)樹(shù),
定義:這是一種類B-樹(shù),符合B-樹(shù)結(jié)構(gòu)的一般定義,由于B-樹(shù)是本領(lǐng)域達(dá)成共識(shí)的一種數(shù)據(jù)結(jié)構(gòu),故不詳細(xì)闡述,本發(fā)明只針對(duì)UDB的特殊結(jié)構(gòu)進(jìn)行詳細(xì)描述:
UDB樹(shù)包含有2種節(jié)點(diǎn),它們的定義如下:
第一種節(jié)點(diǎn)為中間節(jié)點(diǎn),如圖1所示,這種節(jié)點(diǎn)只包含有分類信息,構(gòu)建中間節(jié)點(diǎn)的目的是為了方便檢索數(shù)據(jù),本身并沒(méi)有包含數(shù)據(jù)。中間節(jié)點(diǎn)的結(jié)構(gòu)含有N,指針和Key關(guān)鍵字:
N:節(jié)點(diǎn)個(gè)數(shù),即為本節(jié)點(diǎn)中包含有的節(jié)點(diǎn)個(gè)數(shù)。
*:指針,即為節(jié)點(diǎn)間用于連接的數(shù)據(jù)結(jié)構(gòu)。
Key:關(guān)鍵字,即為標(biāo)示節(jié)點(diǎn)的唯一識(shí)別號(hào)。即為類型編號(hào)。
中間節(jié)點(diǎn)的標(biāo)識(shí)號(hào),需要做到類型上的全局唯一,例如,手機(jī)設(shè)備和電子標(biāo)簽,則手機(jī)設(shè)備和電子標(biāo)簽2類不同的設(shè)備,必須用唯一的編號(hào)區(qū)分,編號(hào)不能重復(fù),如SJ、BQ,而手機(jī)設(shè)備下的具體手機(jī)設(shè)備和電子標(biāo)簽下的具體設(shè)備,則可以有相同的編號(hào),如SJ下面的001和BQ下面的001。
第二種節(jié)點(diǎn)為數(shù)據(jù)節(jié)點(diǎn),又稱為終端節(jié)點(diǎn)、葉子節(jié)點(diǎn),如圖2所示。終端節(jié)點(diǎn)含有一個(gè)HASH散列表,HASH散列表利用關(guān)鍵字的散列值快速檢索數(shù)據(jù)塊。
數(shù)據(jù)塊的結(jié)構(gòu)如圖3所示,其中:
Key (關(guān)鍵字)是數(shù)據(jù)塊的標(biāo)識(shí),同一 HASH散列值下的數(shù)據(jù)塊Key不可以重復(fù),且按照字典順序數(shù)據(jù)塊使用指針進(jìn)行有序連接,一般為類型。
Data表示數(shù)據(jù)塊存儲(chǔ)的真實(shí)數(shù)據(jù)。
*表示指針,即為數(shù)據(jù)塊間用于連接的數(shù)據(jù)結(jié)構(gòu)。
以上兩種節(jié)點(diǎn)組成了 UDB樹(shù)的結(jié)構(gòu),如圖4所示。具體歸納如下:UDB樹(shù)包括中間節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn),所述中間節(jié)點(diǎn)包括根節(jié)點(diǎn)和非葉子節(jié)點(diǎn),所述數(shù)據(jù)節(jié)點(diǎn)為葉子節(jié)點(diǎn),所述中間節(jié)點(diǎn)包括第一結(jié)構(gòu)和所述第一結(jié)構(gòu)的個(gè)數(shù),所述第一結(jié)構(gòu)具體包括用于表示分類關(guān)系的指針及編號(hào);所述數(shù)據(jù)節(jié)點(diǎn)包括數(shù)據(jù)塊鏈和用于檢索所述數(shù)據(jù)塊鏈的HASH散列表,所述數(shù)據(jù)塊鏈具體包括若干個(gè)有鏈接關(guān)系的數(shù)據(jù)塊,所述數(shù)據(jù)塊包括數(shù)據(jù)塊數(shù)據(jù)、用于表示數(shù)據(jù)同級(jí)關(guān)系的指針及編號(hào)。
由于在建立UDB樹(shù)的過(guò)程中,需要用到相應(yīng)的查詢算法和插入算法,現(xiàn)將這2種算法描述如下:
算法1.UDB樹(shù)查詢算法。
I)按照節(jié)點(diǎn)的KEY值,在整棵樹(shù)中,從頭結(jié)點(diǎn)中的所有節(jié)點(diǎn)開(kāi)始起,在這些內(nèi)中間節(jié)點(diǎn)中進(jìn)行檢索,根據(jù)節(jié)點(diǎn)內(nèi)的查詢結(jié)果,進(jìn)入相應(yīng)的區(qū)域內(nèi)進(jìn)行區(qū)間查詢。
2)在得到節(jié)點(diǎn)內(nèi)分區(qū)的查詢結(jié)果之后,需要根據(jù)分區(qū)頭部存放的子節(jié)點(diǎn)指針,力口上存放在索引節(jié)點(diǎn)數(shù)據(jù)塊中的相對(duì)偏移量,此偏移量即是相對(duì)首節(jié)點(diǎn)的節(jié)點(diǎn)編號(hào)。循環(huán)直至峨到被索引的節(jié)點(diǎn)。
3)利用設(shè)置好的HASH函數(shù),計(jì)算出對(duì)應(yīng)的HASH值后,再訪問(wèn)數(shù)據(jù)塊鏈。
最后找到要找的數(shù)據(jù)塊。
算法2.UDB樹(shù)插入算法。
向UDB樹(shù)插入新的節(jié)點(diǎn)時(shí)。
查詢KEY所應(yīng)插入的葉子節(jié)點(diǎn)。當(dāng)葉子節(jié)點(diǎn)被定位后,需要判斷該節(jié)點(diǎn)是否有足夠的空間來(lái)容納新的索引項(xiàng)。如果空間不足,則需要分裂葉子節(jié)點(diǎn)。
當(dāng)葉子節(jié)點(diǎn)需要分裂時(shí),需要考慮父節(jié)點(diǎn)時(shí)候有足夠的空間。如果父節(jié)點(diǎn)P有足夠的空間,f是P中某一個(gè)分區(qū)上的子節(jié)點(diǎn)組指針。g是f所指的子節(jié)點(diǎn)組。在g中的某個(gè)節(jié)點(diǎn)分裂時(shí),需要分配比g更大的子節(jié)點(diǎn)組g’中的所有節(jié)點(diǎn)都被復(fù)制到g中,同時(shí)包括被分裂產(chǎn)生的新節(jié)點(diǎn)。然后f將指向新的子節(jié)點(diǎn)組g’而g的空間將被釋放。新節(jié)點(diǎn)對(duì)應(yīng)的索引項(xiàng)被插入到父節(jié)點(diǎn)P中。
如果父節(jié)點(diǎn)沒(méi)有多余空間,那么它本事也要被分裂。假設(shè)P為父節(jié)點(diǎn),f是P中某一個(gè)分區(qū)上的子節(jié)點(diǎn)組指針,g是f所指的子節(jié)點(diǎn)組。分裂時(shí),分配新的子節(jié)點(diǎn)組g,并從g中復(fù)制所有的子節(jié)點(diǎn)和新分裂節(jié)點(diǎn)。P本身也要被分裂,生成新的節(jié)點(diǎn)P’,并從P中復(fù)制一半的索引項(xiàng)。同時(shí),P所在的節(jié)點(diǎn)組也需要重新分配空間并復(fù)制節(jié)點(diǎn)數(shù)據(jù)來(lái)容納P’。如果需要,還將要繼續(xù)分裂P的父親節(jié)點(diǎn)。同時(shí),每次節(jié)點(diǎn)的分裂還需要調(diào)整節(jié)點(diǎn)內(nèi)索引。
Web Service:是一種構(gòu)建應(yīng)用程序的普遍模型,可以在任何支持網(wǎng)絡(luò)通信的操作系統(tǒng)中實(shí)施運(yùn)行;它是一種新的Web應(yīng)用程序分支,是自包含、自描述、模塊化的應(yīng)用,可以發(fā)布、定位、通過(guò)web調(diào)用。Web Service是一個(gè)應(yīng)用組件,它邏輯性的為其他應(yīng)用程序提供數(shù)據(jù)與服務(wù)。各應(yīng)用程序通過(guò)網(wǎng)絡(luò)協(xié)議和規(guī)定的一些標(biāo)準(zhǔn)數(shù)據(jù)格式(Http,XML, Soap)來(lái)訪問(wèn)Web Service,通過(guò)Web Service內(nèi)部執(zhí)行得到所需結(jié)果。Web Service可以執(zhí)行從簡(jiǎn)單的請(qǐng)求到復(fù)雜商務(wù)處理的任何功能。一旦部署以后,其他Web Service應(yīng)用程序可以發(fā)現(xiàn)并調(diào)用它部署的服務(wù)。
在充分理解上述專用的概念和算法后,進(jìn)一步的介紹本發(fā)明中涉及的具體實(shí)施過(guò)程,整體流程圖如圖5:
第一步:實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù)。由于物聯(lián)網(wǎng)的數(shù)據(jù)量巨大,物聯(lián)網(wǎng)數(shù)據(jù)的將存儲(chǔ)在不同的網(wǎng)絡(luò)節(jié)點(diǎn),且這些數(shù)據(jù)的數(shù)據(jù)類型差異巨大,如關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、非結(jié)構(gòu)數(shù)據(jù)(如XMUExcel等),這些數(shù)據(jù)將部署在網(wǎng)絡(luò)節(jié)點(diǎn)上,利用Web Service的方式,對(duì)外提供數(shù)據(jù)服務(wù)接口,將數(shù)據(jù)統(tǒng)一傳輸至中心數(shù)據(jù)庫(kù),中心數(shù)據(jù)庫(kù)采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),為每種類型的設(shè)備創(chuàng)建各自的數(shù)據(jù)表,設(shè)備編號(hào)作為唯一識(shí)別號(hào),所有采集的原始數(shù)據(jù)將存儲(chǔ)在各自的數(shù)據(jù)表中。為了保證數(shù)據(jù)實(shí)時(shí)性的同時(shí),不給網(wǎng)絡(luò)帶寬帶來(lái)性能瓶頸,傳輸數(shù)據(jù)的頻率為一天一次。
第二步:實(shí)施人員將原始數(shù)據(jù)重構(gòu)后,將其存儲(chǔ)在內(nèi)存中。從中心數(shù)據(jù)庫(kù)獲得所有數(shù)據(jù)后,實(shí)施人員將這些原始數(shù)據(jù)組裝成為概念I(lǐng)中提及的數(shù)據(jù)塊,此時(shí),數(shù)據(jù)塊中的指針為空,data為數(shù)據(jù),可以成為Key關(guān)鍵字的有:
1.設(shè)備類型,即為采集數(shù)據(jù)設(shè)備的類型。
2.節(jié)點(diǎn)編號(hào),即為網(wǎng)絡(luò)節(jié)點(diǎn)的編號(hào)。
3.數(shù)據(jù)格式,即為同一種數(shù)據(jù)格式的數(shù)據(jù)作為一類。
在完成數(shù)據(jù)重構(gòu)后,再將這些數(shù)據(jù)塊加載至一臺(tái)、多臺(tái)、甚至計(jì)算機(jī)集群組成的內(nèi)存中。但考慮到物聯(lián)網(wǎng)的海量數(shù)據(jù)可能使得內(nèi)存不足,將使用“磁盤(pán)-內(nèi)存”的緩沖機(jī)制進(jìn)行處理,即:當(dāng)內(nèi)存不足以容納所有的數(shù)據(jù)時(shí),原始數(shù)據(jù)將保留在磁盤(pán)中,每次只將一定量的數(shù)據(jù)組裝為數(shù)據(jù)塊并加載至內(nèi)存,內(nèi)存中的數(shù)據(jù)塊完成處理后,再?gòu)拇疟P(pán)中加載剩余的數(shù)據(jù)。
第三步:實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù),該UDB樹(shù)即是概念I(lǐng)所述的數(shù)據(jù)結(jié)構(gòu)。利用算法I描述的UDB查詢算法,將第二步中的數(shù)據(jù)塊按照關(guān)鍵字開(kāi)始索引,在找到相應(yīng)的位置后,再按照算法2描述的UDB插入算法、將數(shù)據(jù)塊插入相應(yīng)的節(jié)點(diǎn),把需要的數(shù)據(jù)塊插入到相應(yīng)的位置后,這些數(shù)據(jù)塊便組建為UDB樹(shù)。其中,根節(jié)點(diǎn)表示總類型,中間節(jié)點(diǎn)表示分類型,每個(gè)中間節(jié)點(diǎn)內(nèi)部的數(shù)據(jù)表示同級(jí)別的種類數(shù)目,終端節(jié)點(diǎn)表示此類型的真實(shí)數(shù)據(jù)。
第四步:讀取預(yù)先設(shè)定的規(guī)則,進(jìn)行數(shù)據(jù)清洗。在數(shù)據(jù)清洗時(shí),操作人員可以通過(guò)軟件配置,或者利用配置文件,對(duì)清洗規(guī)則進(jìn)行定義,該規(guī)則可以使用數(shù)據(jù)庫(kù)查詢語(yǔ)言(SQL)、腳本語(yǔ)言(如JavaScript)進(jìn)行創(chuàng)建和編輯。在整個(gè)數(shù)據(jù)清洗過(guò)程中,將在清洗規(guī)則約定的條件下進(jìn)行清洗,且清洗時(shí),可以分為多個(gè)步驟,每個(gè)步驟都可以制定清洗規(guī)則,如圖6。
以上顯示和描述了本發(fā)明的基本原理、主要特征和優(yōu)點(diǎn)。以上實(shí)施實(shí)例僅用以描述本發(fā)明的技術(shù)方案而不是對(duì)技術(shù)方法進(jìn)行限制,本發(fā)明在應(yīng)用上可延伸為其他的修改、變化和應(yīng)用,并且認(rèn)為所有這樣的修改、變化和應(yīng)用都落入要求保護(hù)的本發(fā)明范圍內(nèi)。
權(quán)利要求
1.一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:包括以下步驟: 第一步:實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù); 第二步:實(shí)施人員將原始數(shù)據(jù)重構(gòu)后,將其存儲(chǔ)在內(nèi)存中; 第三步:實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù); 第四步:讀取預(yù)先設(shè)定的規(guī)則,進(jìn)行數(shù)據(jù)清洗。
2.根據(jù)權(quán)利要求1所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:第一步的詳細(xì)過(guò)程包括如下步驟:利用Web Service的方式,對(duì)外提供數(shù)據(jù)服務(wù)接口,將數(shù)據(jù)統(tǒng)一傳輸至中心數(shù)據(jù)庫(kù),中心數(shù)據(jù)庫(kù)采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),為每種類型的設(shè)備創(chuàng)建各自的數(shù)據(jù)表,設(shè)備編號(hào)作為唯一識(shí)別號(hào),所有采集的原始數(shù)據(jù)將存儲(chǔ)在各自的數(shù)據(jù)表中。
3.根據(jù)權(quán)利要求1或2所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:第二步的詳細(xì)過(guò)程包括如下步驟:從中心數(shù)據(jù)庫(kù)獲得所有數(shù)據(jù)后,實(shí)施人員將這些原始數(shù)據(jù)組裝成為數(shù)據(jù)塊;在完成數(shù)據(jù)重構(gòu)后,再將這些數(shù)據(jù)塊加載至內(nèi)存中。
4.根據(jù)權(quán)利要求1或2所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:第三步的詳細(xì)過(guò)程包括如下步驟:利用UDB查詢算法,將第二步中的數(shù)據(jù)塊按照關(guān)鍵字開(kāi)始索引,在找到相應(yīng)的位置后,再按照UDB插入算法將數(shù)據(jù)塊插入相應(yīng)的節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1或2所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:第四步的詳細(xì)過(guò)程包括如下步驟:在數(shù)據(jù)清洗時(shí),操作人員可以通過(guò)軟件配置,或者利用配置文件,對(duì)清洗規(guī)則進(jìn)行定義,在整個(gè)數(shù)據(jù)清洗過(guò)程中,將在清洗規(guī)則約定的條件下進(jìn)行清洗,且清洗時(shí),可以分為一個(gè)及以上個(gè)步驟,每個(gè)步驟都可以制定不同清洗規(guī)則。
6.根據(jù)權(quán)利要求3所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:第二步中所述內(nèi)存為計(jì)算機(jī)集群組成的內(nèi)存。
7.根據(jù)權(quán)利要求6所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:當(dāng)內(nèi)存不足以容納所有的數(shù)據(jù)時(shí),原始數(shù)據(jù)將保留在磁盤(pán)中,每次只將部分的數(shù)據(jù)組裝為數(shù)據(jù)塊并加載至內(nèi)存,內(nèi)存中的數(shù)據(jù)塊完成處理后,再?gòu)拇疟P(pán)中加載剩余的數(shù)據(jù)。
8.根據(jù)權(quán)利要求5所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,其特征在于:所述的清洗規(guī)則可以使用數(shù)據(jù)庫(kù)查詢語(yǔ)言或者腳本語(yǔ)言進(jìn)行創(chuàng)建和編輯。
全文摘要
本發(fā)明公開(kāi)了一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,涉及物聯(lián)網(wǎng)數(shù)據(jù)處理領(lǐng)域,包括以下步驟第一步實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù);第二步實(shí)施人員將原始數(shù)據(jù)重構(gòu)后,將其存儲(chǔ)在內(nèi)存中;第三步實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù);第四步讀取預(yù)先設(shè)定的規(guī)則,進(jìn)行數(shù)據(jù)清洗。本發(fā)明按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗,最大程度的減少I/O操作,從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。
文檔編號(hào)G06F17/30GK103177094SQ20131008163
公開(kāi)日2013年6月26日 申請(qǐng)日期2013年3月14日 優(yōu)先權(quán)日2013年3月14日
發(fā)明者唐雪飛, 陳科, 石礫 申請(qǐng)人:成都康賽電子科大信息技術(shù)有限責(zé)任公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
合江县| 年辖:市辖区| 司法| 高要市| 安丘市| 凭祥市| 莱州市| 大名县| 溧阳市| 景洪市| 兴安县| 凤翔县| 桂林市| 巴林右旗| 响水县| 吉木乃县| 从化市| 喀喇沁旗| 新蔡县| 宜兰市| 柳林县| 大厂| 南和县| 甘肃省| 桐柏县| 通城县| 永城市| 手机| 南昌县| 祁连县| 罗田县| 岳西县| 南阳市| 常德市| 罗田县| 阳江市| 浮山县| 竹北市| 合川市| 宝应县| 浦城县|