一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法

文檔序號(hào)：6400335閱讀：337來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法
技術(shù)領(lǐng)域：
本發(fā)明涉及物聯(lián)網(wǎng)數(shù)據(jù)處理領(lǐng)域，尤其涉及一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法。
背景技術(shù)：
隨著傳感器、射頻識(shí)別(RFID)、全球定位系統(tǒng)、紅外感應(yīng)器、激光掃描器、氣體感應(yīng)器等各種裝置與技術(shù)的發(fā)展，現(xiàn)實(shí)中的一切事物將可能通過(guò)實(shí)時(shí)采集任何需要監(jiān)控、連接、互動(dòng)的物體或過(guò)程中，采集其聲、光、熱、電、力學(xué)、化學(xué)、生物、位置等各種需要的信息，與互聯(lián)網(wǎng)結(jié)合形成的一個(gè)巨大網(wǎng)絡(luò)，這樣的一種巨型網(wǎng)絡(luò)稱之為物聯(lián)網(wǎng)。
由于物聯(lián)網(wǎng)的以上特性，在采集數(shù)據(jù)的過(guò)程中，產(chǎn)生大量各種格式相異、意義不同的海量數(shù)據(jù)，而如何從這些數(shù)據(jù)中根據(jù)用戶的需要對(duì)數(shù)據(jù)進(jìn)行清洗，以達(dá)到數(shù)據(jù)有效利用的目的成為物聯(lián)網(wǎng)信息處理的重點(diǎn)。
傳統(tǒng)的數(shù)據(jù)清洗方式，絕大多數(shù)基于磁盤(pán)數(shù)據(jù)文件，在清洗過(guò)程中伴隨著大量對(duì)磁盤(pán)的I/o操作，盡管查詢優(yōu)化會(huì)在一定程度上改善效率，但是當(dāng)面對(duì)海量數(shù)據(jù)時(shí)，頻繁的I/o操作還是直接成為影響性能的瓶頸。本發(fā)明針對(duì)以上的問(wèn)題，發(fā)明了一種新的數(shù)據(jù)清洗方法，將物聯(lián)網(wǎng)數(shù)據(jù)加載至服務(wù)器內(nèi)存中，然后統(tǒng)一數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)(Uniform-Delicate B-Tree),利用數(shù)據(jù)結(jié)構(gòu)針對(duì)的清洗算法,在多臺(tái)服務(wù)器上,按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗，最大程度的減少I/O操作，從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。發(fā)明內(nèi)容
本發(fā)明針對(duì)以上的問(wèn)題，發(fā)明了一種新的數(shù)據(jù)清洗方法，將物聯(lián)網(wǎng)數(shù)據(jù)加載至服務(wù)器內(nèi)存中，然后統(tǒng)一數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)(Uniform-Delicate B-Tree),利用數(shù)據(jù)結(jié)構(gòu)針對(duì)的清洗算法，在多臺(tái)服務(wù)器上，按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗，最大程度的減少I/O操作，從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。
為實(shí)現(xiàn)上述目的，本發(fā)明采取以下技術(shù)方案:一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，包括以下步驟:第一步:實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù)；第二步:實(shí)施人員將原始數(shù)據(jù)重構(gòu)后，將其存儲(chǔ)在內(nèi)存中；第三步:實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù)；第四步:讀取預(yù)先設(shè)定的規(guī)則，進(jìn)行數(shù)據(jù)清洗。
優(yōu)選方案:第一步的詳細(xì)過(guò)程包括如下步驟:利用Web Service的方式,對(duì)外提供數(shù)據(jù)服務(wù)接口，將數(shù)據(jù)統(tǒng)一傳輸至中心數(shù)據(jù)庫(kù)，中心數(shù)據(jù)庫(kù)采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)，為每種類型的設(shè)備創(chuàng)建各自的數(shù)據(jù)表，設(shè)備編號(hào)作為唯一識(shí)別號(hào)，所有采集的原始數(shù)據(jù)將存儲(chǔ)在各自的數(shù)據(jù)表中。
優(yōu)選方案:第二步的詳細(xì)過(guò)程包括如下步驟:從中心數(shù)據(jù)庫(kù)獲得所有數(shù)據(jù)后，實(shí)施人員將這些原始數(shù)據(jù)組裝成為數(shù)據(jù)塊；在完成數(shù)據(jù)重構(gòu)后，再將這些數(shù)據(jù)塊加載至內(nèi)存中。
優(yōu)選方案:第三步的詳細(xì)過(guò)程包括如下步驟:利用UDB查詢算法，將第二步中的數(shù)據(jù)塊按照關(guān)鍵字開(kāi)始索引，在找到相應(yīng)的位置后，再按照UDB插入算法將數(shù)據(jù)塊插入相應(yīng)的節(jié)點(diǎn)。
優(yōu)選方案:第四步的詳細(xì)過(guò)程包括如下步驟:在數(shù)據(jù)清洗時(shí)，操作人員可以通過(guò)軟件配置，或者利用配置文件，對(duì)清洗規(guī)則進(jìn)行定義，在整個(gè)數(shù)據(jù)清洗過(guò)程中，將在清洗規(guī)則約定的條件下進(jìn)行清洗，且清洗時(shí)，可以分為一個(gè)及以上個(gè)步驟，每個(gè)步驟都可以制定不同清洗規(guī)則。
優(yōu)選方案:第二步中所述內(nèi)存為計(jì)算機(jī)集群組成的內(nèi)存。
優(yōu)選方案:當(dāng)內(nèi)存不足以容納所有的數(shù)據(jù)時(shí)，原始數(shù)據(jù)將保留在磁盤(pán)中，每次只將部分的數(shù)據(jù)組裝為數(shù)據(jù)塊并加載至內(nèi)存，內(nèi)存中的數(shù)據(jù)塊完成處理后，再?gòu)拇疟P(pán)中加載剩余的數(shù)據(jù)。
優(yōu)選方案:所述的清洗規(guī)則可以使用數(shù)據(jù)庫(kù)查詢語(yǔ)言或者腳本語(yǔ)言進(jìn)行創(chuàng)建和編輯。
綜上所述，由于采用了上述技術(shù)方案，本發(fā)明的具體有益效果是:充分利用內(nèi)存的容量存儲(chǔ)基礎(chǔ)數(shù)據(jù)，從而減少了 I/o開(kāi)銷，提高了訪問(wèn)效率；使用統(tǒng)一的數(shù)據(jù)格式，有利于數(shù)據(jù)快速解析，雖然在統(tǒng)一數(shù)據(jù)格式的過(guò)程中會(huì)消耗較多時(shí)間，但在解析數(shù)據(jù)時(shí)，將會(huì)大大提高速度，從而提高整體速度；使用針對(duì)物聯(lián)網(wǎng)的數(shù)據(jù)結(jié)構(gòu)，利用針對(duì)性強(qiáng)的搜索算法，提高檢索速度；利用計(jì)算機(jī)集群的優(yōu)勢(shì)，并行進(jìn)行數(shù)據(jù)清洗過(guò)程，從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。

圖1為中間節(jié)點(diǎn)示意圖2為數(shù)據(jù)節(jié)點(diǎn)示意圖3為數(shù)據(jù)塊示意圖4為UDB樹(shù)不意圖:
圖5數(shù)據(jù)清洗流程圖6為數(shù)據(jù)清洗流程圖。
具體實(shí)施方式
本說(shuō)明書(shū)中公開(kāi)的所有特征，或公開(kāi)的所有方法或過(guò)程中的步驟，除了互相排斥的特征和/或步驟以外，均可以以任何方式組合。
本說(shuō)明書(shū)(包括任何附加權(quán)利要求、摘要和附圖)中公開(kāi)的任一特征，除非特別敘述，均可被其他等效或具有類似目的的替代特征加以替換。即，除非特別敘述，每個(gè)特征只是一系列等效或類似特征中的一個(gè)例子而已。
由于在具體實(shí)施步驟中需要使用一些針對(duì)本發(fā)明新建立的數(shù)據(jù)結(jié)構(gòu)及其涉及的算法，故先闡述這些數(shù)據(jù)結(jié)構(gòu)及其涉及的算法。
概念1.UDB(Uniform-Delicate B-Tree)樹(shù)，
定義:這是一種類B-樹(shù)，符合B-樹(shù)結(jié)構(gòu)的一般定義，由于B-樹(shù)是本領(lǐng)域達(dá)成共識(shí)的一種數(shù)據(jù)結(jié)構(gòu)，故不詳細(xì)闡述，本發(fā)明只針對(duì)UDB的特殊結(jié)構(gòu)進(jìn)行詳細(xì)描述:
UDB樹(shù)包含有2種節(jié)點(diǎn)，它們的定義如下:
第一種節(jié)點(diǎn)為中間節(jié)點(diǎn)，如圖1所示，這種節(jié)點(diǎn)只包含有分類信息，構(gòu)建中間節(jié)點(diǎn)的目的是為了方便檢索數(shù)據(jù)，本身并沒(méi)有包含數(shù)據(jù)。中間節(jié)點(diǎn)的結(jié)構(gòu)含有N，指針和Key關(guān)鍵字:
N:節(jié)點(diǎn)個(gè)數(shù)，即為本節(jié)點(diǎn)中包含有的節(jié)點(diǎn)個(gè)數(shù)。
*:指針，即為節(jié)點(diǎn)間用于連接的數(shù)據(jù)結(jié)構(gòu)。
Key:關(guān)鍵字，即為標(biāo)示節(jié)點(diǎn)的唯一識(shí)別號(hào)。即為類型編號(hào)。
中間節(jié)點(diǎn)的標(biāo)識(shí)號(hào)，需要做到類型上的全局唯一，例如，手機(jī)設(shè)備和電子標(biāo)簽，則手機(jī)設(shè)備和電子標(biāo)簽2類不同的設(shè)備，必須用唯一的編號(hào)區(qū)分，編號(hào)不能重復(fù)，如SJ、BQ，而手機(jī)設(shè)備下的具體手機(jī)設(shè)備和電子標(biāo)簽下的具體設(shè)備，則可以有相同的編號(hào)，如SJ下面的001和BQ下面的001。
第二種節(jié)點(diǎn)為數(shù)據(jù)節(jié)點(diǎn)，又稱為終端節(jié)點(diǎn)、葉子節(jié)點(diǎn)，如圖2所示。終端節(jié)點(diǎn)含有一個(gè)HASH散列表，HASH散列表利用關(guān)鍵字的散列值快速檢索數(shù)據(jù)塊。
數(shù)據(jù)塊的結(jié)構(gòu)如圖3所示，其中:
Key (關(guān)鍵字)是數(shù)據(jù)塊的標(biāo)識(shí)，同一 HASH散列值下的數(shù)據(jù)塊Key不可以重復(fù)，且按照字典順序數(shù)據(jù)塊使用指針進(jìn)行有序連接，一般為類型。
Data表示數(shù)據(jù)塊存儲(chǔ)的真實(shí)數(shù)據(jù)。
*表示指針，即為數(shù)據(jù)塊間用于連接的數(shù)據(jù)結(jié)構(gòu)。
以上兩種節(jié)點(diǎn)組成了 UDB樹(shù)的結(jié)構(gòu)，如圖4所示。具體歸納如下:UDB樹(shù)包括中間節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)，所述中間節(jié)點(diǎn)包括根節(jié)點(diǎn)和非葉子節(jié)點(diǎn)，所述數(shù)據(jù)節(jié)點(diǎn)為葉子節(jié)點(diǎn)，所述中間節(jié)點(diǎn)包括第一結(jié)構(gòu)和所述第一結(jié)構(gòu)的個(gè)數(shù)，所述第一結(jié)構(gòu)具體包括用于表示分類關(guān)系的指針及編號(hào)；所述數(shù)據(jù)節(jié)點(diǎn)包括數(shù)據(jù)塊鏈和用于檢索所述數(shù)據(jù)塊鏈的HASH散列表，所述數(shù)據(jù)塊鏈具體包括若干個(gè)有鏈接關(guān)系的數(shù)據(jù)塊，所述數(shù)據(jù)塊包括數(shù)據(jù)塊數(shù)據(jù)、用于表示數(shù)據(jù)同級(jí)關(guān)系的指針及編號(hào)。
由于在建立UDB樹(shù)的過(guò)程中，需要用到相應(yīng)的查詢算法和插入算法，現(xiàn)將這2種算法描述如下:
算法1.UDB樹(shù)查詢算法。
I)按照節(jié)點(diǎn)的KEY值，在整棵樹(shù)中，從頭結(jié)點(diǎn)中的所有節(jié)點(diǎn)開(kāi)始起，在這些內(nèi)中間節(jié)點(diǎn)中進(jìn)行檢索，根據(jù)節(jié)點(diǎn)內(nèi)的查詢結(jié)果，進(jìn)入相應(yīng)的區(qū)域內(nèi)進(jìn)行區(qū)間查詢。
2)在得到節(jié)點(diǎn)內(nèi)分區(qū)的查詢結(jié)果之后，需要根據(jù)分區(qū)頭部存放的子節(jié)點(diǎn)指針，力口上存放在索引節(jié)點(diǎn)數(shù)據(jù)塊中的相對(duì)偏移量，此偏移量即是相對(duì)首節(jié)點(diǎn)的節(jié)點(diǎn)編號(hào)。循環(huán)直至峨到被索引的節(jié)點(diǎn)。
3)利用設(shè)置好的HASH函數(shù)，計(jì)算出對(duì)應(yīng)的HASH值后，再訪問(wèn)數(shù)據(jù)塊鏈。
最后找到要找的數(shù)據(jù)塊。
算法2.UDB樹(shù)插入算法。
向UDB樹(shù)插入新的節(jié)點(diǎn)時(shí)。
查詢KEY所應(yīng)插入的葉子節(jié)點(diǎn)。當(dāng)葉子節(jié)點(diǎn)被定位后，需要判斷該節(jié)點(diǎn)是否有足夠的空間來(lái)容納新的索引項(xiàng)。如果空間不足，則需要分裂葉子節(jié)點(diǎn)。
當(dāng)葉子節(jié)點(diǎn)需要分裂時(shí)，需要考慮父節(jié)點(diǎn)時(shí)候有足夠的空間。如果父節(jié)點(diǎn)P有足夠的空間，f是P中某一個(gè)分區(qū)上的子節(jié)點(diǎn)組指針。g是f所指的子節(jié)點(diǎn)組。在g中的某個(gè)節(jié)點(diǎn)分裂時(shí)，需要分配比g更大的子節(jié)點(diǎn)組g’中的所有節(jié)點(diǎn)都被復(fù)制到g中，同時(shí)包括被分裂產(chǎn)生的新節(jié)點(diǎn)。然后f將指向新的子節(jié)點(diǎn)組g’而g的空間將被釋放。新節(jié)點(diǎn)對(duì)應(yīng)的索引項(xiàng)被插入到父節(jié)點(diǎn)P中。
如果父節(jié)點(diǎn)沒(méi)有多余空間，那么它本事也要被分裂。假設(shè)P為父節(jié)點(diǎn)，f是P中某一個(gè)分區(qū)上的子節(jié)點(diǎn)組指針，g是f所指的子節(jié)點(diǎn)組。分裂時(shí)，分配新的子節(jié)點(diǎn)組g，并從g中復(fù)制所有的子節(jié)點(diǎn)和新分裂節(jié)點(diǎn)。P本身也要被分裂，生成新的節(jié)點(diǎn)P’，并從P中復(fù)制一半的索引項(xiàng)。同時(shí)，P所在的節(jié)點(diǎn)組也需要重新分配空間并復(fù)制節(jié)點(diǎn)數(shù)據(jù)來(lái)容納P’。如果需要，還將要繼續(xù)分裂P的父親節(jié)點(diǎn)。同時(shí)，每次節(jié)點(diǎn)的分裂還需要調(diào)整節(jié)點(diǎn)內(nèi)索引。
Web Service:是一種構(gòu)建應(yīng)用程序的普遍模型，可以在任何支持網(wǎng)絡(luò)通信的操作系統(tǒng)中實(shí)施運(yùn)行；它是一種新的Web應(yīng)用程序分支，是自包含、自描述、模塊化的應(yīng)用，可以發(fā)布、定位、通過(guò)web調(diào)用。Web Service是一個(gè)應(yīng)用組件，它邏輯性的為其他應(yīng)用程序提供數(shù)據(jù)與服務(wù)。各應(yīng)用程序通過(guò)網(wǎng)絡(luò)協(xié)議和規(guī)定的一些標(biāo)準(zhǔn)數(shù)據(jù)格式(Http，XML, Soap)來(lái)訪問(wèn)Web Service,通過(guò)Web Service內(nèi)部執(zhí)行得到所需結(jié)果。Web Service可以執(zhí)行從簡(jiǎn)單的請(qǐng)求到復(fù)雜商務(wù)處理的任何功能。一旦部署以后，其他Web Service應(yīng)用程序可以發(fā)現(xiàn)并調(diào)用它部署的服務(wù)。
在充分理解上述專用的概念和算法后，進(jìn)一步的介紹本發(fā)明中涉及的具體實(shí)施過(guò)程，整體流程圖如圖5:
第一步:實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù)。由于物聯(lián)網(wǎng)的數(shù)據(jù)量巨大，物聯(lián)網(wǎng)數(shù)據(jù)的將存儲(chǔ)在不同的網(wǎng)絡(luò)節(jié)點(diǎn)，且這些數(shù)據(jù)的數(shù)據(jù)類型差異巨大，如關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、非結(jié)構(gòu)數(shù)據(jù)(如XMUExcel等)，這些數(shù)據(jù)將部署在網(wǎng)絡(luò)節(jié)點(diǎn)上，利用Web Service的方式，對(duì)外提供數(shù)據(jù)服務(wù)接口，將數(shù)據(jù)統(tǒng)一傳輸至中心數(shù)據(jù)庫(kù)，中心數(shù)據(jù)庫(kù)采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)，為每種類型的設(shè)備創(chuàng)建各自的數(shù)據(jù)表，設(shè)備編號(hào)作為唯一識(shí)別號(hào)，所有采集的原始數(shù)據(jù)將存儲(chǔ)在各自的數(shù)據(jù)表中。為了保證數(shù)據(jù)實(shí)時(shí)性的同時(shí)，不給網(wǎng)絡(luò)帶寬帶來(lái)性能瓶頸，傳輸數(shù)據(jù)的頻率為一天一次。
第二步:實(shí)施人員將原始數(shù)據(jù)重構(gòu)后，將其存儲(chǔ)在內(nèi)存中。從中心數(shù)據(jù)庫(kù)獲得所有數(shù)據(jù)后，實(shí)施人員將這些原始數(shù)據(jù)組裝成為概念I(lǐng)中提及的數(shù)據(jù)塊，此時(shí)，數(shù)據(jù)塊中的指針為空，data為數(shù)據(jù),可以成為Key關(guān)鍵字的有:
1.設(shè)備類型，即為采集數(shù)據(jù)設(shè)備的類型。
2.節(jié)點(diǎn)編號(hào)，即為網(wǎng)絡(luò)節(jié)點(diǎn)的編號(hào)。
3.數(shù)據(jù)格式，即為同一種數(shù)據(jù)格式的數(shù)據(jù)作為一類。
在完成數(shù)據(jù)重構(gòu)后，再將這些數(shù)據(jù)塊加載至一臺(tái)、多臺(tái)、甚至計(jì)算機(jī)集群組成的內(nèi)存中。但考慮到物聯(lián)網(wǎng)的海量數(shù)據(jù)可能使得內(nèi)存不足，將使用“磁盤(pán)-內(nèi)存”的緩沖機(jī)制進(jìn)行處理，即:當(dāng)內(nèi)存不足以容納所有的數(shù)據(jù)時(shí)，原始數(shù)據(jù)將保留在磁盤(pán)中，每次只將一定量的數(shù)據(jù)組裝為數(shù)據(jù)塊并加載至內(nèi)存，內(nèi)存中的數(shù)據(jù)塊完成處理后，再?gòu)拇疟P(pán)中加載剩余的數(shù)據(jù)。
第三步:實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù)，該UDB樹(shù)即是概念I(lǐng)所述的數(shù)據(jù)結(jié)構(gòu)。利用算法I描述的UDB查詢算法，將第二步中的數(shù)據(jù)塊按照關(guān)鍵字開(kāi)始索引，在找到相應(yīng)的位置后，再按照算法2描述的UDB插入算法、將數(shù)據(jù)塊插入相應(yīng)的節(jié)點(diǎn)，把需要的數(shù)據(jù)塊插入到相應(yīng)的位置后，這些數(shù)據(jù)塊便組建為UDB樹(shù)。其中，根節(jié)點(diǎn)表示總類型，中間節(jié)點(diǎn)表示分類型，每個(gè)中間節(jié)點(diǎn)內(nèi)部的數(shù)據(jù)表示同級(jí)別的種類數(shù)目，終端節(jié)點(diǎn)表示此類型的真實(shí)數(shù)據(jù)。
第四步:讀取預(yù)先設(shè)定的規(guī)則，進(jìn)行數(shù)據(jù)清洗。在數(shù)據(jù)清洗時(shí)，操作人員可以通過(guò)軟件配置，或者利用配置文件，對(duì)清洗規(guī)則進(jìn)行定義，該規(guī)則可以使用數(shù)據(jù)庫(kù)查詢語(yǔ)言(SQL)、腳本語(yǔ)言(如JavaScript)進(jìn)行創(chuàng)建和編輯。在整個(gè)數(shù)據(jù)清洗過(guò)程中，將在清洗規(guī)則約定的條件下進(jìn)行清洗，且清洗時(shí)，可以分為多個(gè)步驟，每個(gè)步驟都可以制定清洗規(guī)則，如圖6。
以上顯示和描述了本發(fā)明的基本原理、主要特征和優(yōu)點(diǎn)。以上實(shí)施實(shí)例僅用以描述本發(fā)明的技術(shù)方案而不是對(duì)技術(shù)方法進(jìn)行限制，本發(fā)明在應(yīng)用上可延伸為其他的修改、變化和應(yīng)用，并且認(rèn)為所有這樣的修改、變化和應(yīng)用都落入要求保護(hù)的本發(fā)明范圍內(nèi)。
權(quán)利要求
1.一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:包括以下步驟: 第一步:實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù)；第二步:實(shí)施人員將原始數(shù)據(jù)重構(gòu)后，將其存儲(chǔ)在內(nèi)存中；第三步:實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù)；第四步:讀取預(yù)先設(shè)定的規(guī)則，進(jìn)行數(shù)據(jù)清洗。
2.根據(jù)權(quán)利要求1所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:第一步的詳細(xì)過(guò)程包括如下步驟:利用Web Service的方式，對(duì)外提供數(shù)據(jù)服務(wù)接口，將數(shù)據(jù)統(tǒng)一傳輸至中心數(shù)據(jù)庫(kù)，中心數(shù)據(jù)庫(kù)采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)，為每種類型的設(shè)備創(chuàng)建各自的數(shù)據(jù)表，設(shè)備編號(hào)作為唯一識(shí)別號(hào)，所有采集的原始數(shù)據(jù)將存儲(chǔ)在各自的數(shù)據(jù)表中。
3.根據(jù)權(quán)利要求1或2所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:第二步的詳細(xì)過(guò)程包括如下步驟:從中心數(shù)據(jù)庫(kù)獲得所有數(shù)據(jù)后，實(shí)施人員將這些原始數(shù)據(jù)組裝成為數(shù)據(jù)塊；在完成數(shù)據(jù)重構(gòu)后，再將這些數(shù)據(jù)塊加載至內(nèi)存中。
4.根據(jù)權(quán)利要求1或2所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:第三步的詳細(xì)過(guò)程包括如下步驟:利用UDB查詢算法，將第二步中的數(shù)據(jù)塊按照關(guān)鍵字開(kāi)始索引，在找到相應(yīng)的位置后，再按照UDB插入算法將數(shù)據(jù)塊插入相應(yīng)的節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1或2所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:第四步的詳細(xì)過(guò)程包括如下步驟:在數(shù)據(jù)清洗時(shí)，操作人員可以通過(guò)軟件配置，或者利用配置文件，對(duì)清洗規(guī)則進(jìn)行定義，在整個(gè)數(shù)據(jù)清洗過(guò)程中，將在清洗規(guī)則約定的條件下進(jìn)行清洗，且清洗時(shí)，可以分為一個(gè)及以上個(gè)步驟，每個(gè)步驟都可以制定不同清洗規(guī)則。
6.根據(jù)權(quán)利要求3所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:第二步中所述內(nèi)存為計(jì)算機(jī)集群組成的內(nèi)存。
7.根據(jù)權(quán)利要求6所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:當(dāng)內(nèi)存不足以容納所有的數(shù)據(jù)時(shí)，原始數(shù)據(jù)將保留在磁盤(pán)中，每次只將部分的數(shù)據(jù)組裝為數(shù)據(jù)塊并加載至內(nèi)存，內(nèi)存中的數(shù)據(jù)塊完成處理后，再?gòu)拇疟P(pán)中加載剩余的數(shù)據(jù)。
8.根據(jù)權(quán)利要求5所述的一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，其特征在于:所述的清洗規(guī)則可以使用數(shù)據(jù)庫(kù)查詢語(yǔ)言或者腳本語(yǔ)言進(jìn)行創(chuàng)建和編輯。
全文摘要
本發(fā)明公開(kāi)了一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法，涉及物聯(lián)網(wǎng)數(shù)據(jù)處理領(lǐng)域，包括以下步驟第一步實(shí)施人員通過(guò)Web Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù)；第二步實(shí)施人員將原始數(shù)據(jù)重構(gòu)后，將其存儲(chǔ)在內(nèi)存中；第三步實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹(shù)；第四步讀取預(yù)先設(shè)定的規(guī)則，進(jìn)行數(shù)據(jù)清洗。本發(fā)明按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗，最大程度的減少I/O操作，從而在根本上解決傳統(tǒng)的性能瓶頸問(wèn)題。
文檔編號(hào)G06F17/30GK103177094SQ20131008163
公開(kāi)日2013年6月26日申請(qǐng)日期2013年3月14日優(yōu)先權(quán)日2013年3月14日
發(fā)明者唐雪飛, 陳科, 石礫申請(qǐng)人:成都康賽電子科大信息技術(shù)有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐雪飛;陳科;石礫
技術(shù)所有人：成都康賽電子科大信息技術(shù)有限責(zé)任公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)的方法相關(guān)技術(shù)

物聯(lián)網(wǎng)與大數(shù)據(jù)相關(guān)技術(shù)

物聯(lián)網(wǎng)數(shù)據(jù)處理相關(guān)技術(shù)

工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)

物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)

物聯(lián)網(wǎng)數(shù)據(jù)采集相關(guān)技術(shù)

物聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法