Rfid數(shù)據(jù)清洗方法
【專利摘要】本發(fā)明披露一種RFID數(shù)據(jù)清洗方法,包括通過(guò)基于動(dòng)態(tài)標(biāo)簽的清洗方法動(dòng)態(tài)SMURF對(duì)原始數(shù)據(jù)流進(jìn)行平滑過(guò)濾清洗;通過(guò)EPC過(guò)濾器濾掉硬件設(shè)備產(chǎn)生的標(biāo)簽ID不符合EPC編碼規(guī)則的編碼錯(cuò)誤數(shù)據(jù)組;判斷緩沖器中是否已經(jīng)存在所述數(shù)據(jù)組,若不存在則存入緩沖器中,若存在則丟棄;對(duì)緩沖器設(shè)置一個(gè)固定時(shí)間段,為一個(gè)滑動(dòng)窗口的大??;超過(guò)所述時(shí)間段規(guī)定的時(shí)間,則將緩沖器內(nèi)的數(shù)據(jù)組輸出。
【專利說(shuō)明】
RF ID數(shù)據(jù)清洗方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種適用于物聯(lián)網(wǎng)環(huán)境的RFID數(shù)據(jù)清洗方法。
【背景技術(shù)】
[0002] RFID(Radio Frequency Identification,無(wú)線射頻識(shí)別技術(shù))是一種自動(dòng)識(shí)別的 通信技術(shù),通過(guò)檢測(cè)、識(shí)別和監(jiān)控帶有電磁信號(hào)的物體,并讀寫(xiě)相關(guān)數(shù)據(jù),實(shí)現(xiàn)識(shí)別系統(tǒng)與 特定目標(biāo)之間無(wú)接觸地進(jìn)行信息傳遞,達(dá)到自動(dòng)識(shí)別目標(biāo)的目的。
[0003] RFID無(wú)線射頻識(shí)別技術(shù)具備遠(yuǎn)距離讀取、高儲(chǔ)存量等特性,廣泛應(yīng)用于物聯(lián)網(wǎng)供 應(yīng)鏈中對(duì)象的跟蹤與追溯等,應(yīng)用前景備受矚目。比如,通過(guò)使無(wú)線射頻識(shí)別和無(wú)線傳感器 成為一體,讓無(wú)線射頻識(shí)別標(biāo)簽和其他設(shè)備間的通信成為可能。RFID無(wú)線射頻識(shí)別技術(shù)不 僅可以幫助一個(gè)企業(yè)大幅提高信息管理的效率,還可以進(jìn)行企業(yè)間互聯(lián),銷售企業(yè)與制造 企業(yè)間更好地進(jìn)行溝通,從而更加準(zhǔn)確地接收控制需求信息,反饋信息,最終實(shí)現(xiàn)優(yōu)化整個(gè) 供應(yīng)鏈。
[0004] 隨著RFID技術(shù)應(yīng)用范圍的不斷擴(kuò)大,對(duì)業(yè)務(wù)數(shù)據(jù)的可靠性要求越來(lái)越高,為了達(dá) 到滿足上層應(yīng)用需要的程度,數(shù)據(jù)清洗工作對(duì)上層應(yīng)用來(lái)說(shuō)至關(guān)重要,數(shù)據(jù)清洗工作的好 壞直接影響著業(yè)務(wù)數(shù)據(jù)的正確性和完整性,所以對(duì)數(shù)據(jù)清洗工作的處理不能停留在簡(jiǎn)單的 過(guò)濾、篩選層面。
[0005] RFID數(shù)據(jù)流特點(diǎn):流式,每個(gè)標(biāo)簽數(shù)據(jù)總是源源不斷地大量產(chǎn)生,在某個(gè)時(shí)間段內(nèi) 連續(xù)被讀寫(xiě)器集中捕獲;批量,多個(gè)標(biāo)簽數(shù)據(jù)總是同時(shí)被某一個(gè)或多個(gè)閱讀器批量捕獲;具 有語(yǔ)義性,標(biāo)簽數(shù)據(jù)代表某個(gè)觀察時(shí)刻的被觀察對(duì)象的位置信息和狀態(tài)信息;具有不可靠 性,RFID閱讀器與電子標(biāo)簽的各種各樣的交互方式?jīng)Q定了 RFID產(chǎn)生的數(shù)據(jù)不可靠,這些錯(cuò) 誤數(shù)據(jù)種類特點(diǎn)各不相同,而且造成這些錯(cuò)誤的外部原因(例如環(huán)境因素等)也各不相同, 需要在特定條件下針對(duì)具體問(wèn)題具體分析。
[0006] 針對(duì)不可靠性常見(jiàn)的錯(cuò)誤類型:漏讀(False Negative),無(wú)線射頻信號(hào)極易受環(huán) 境干擾,特別地,當(dāng)大量標(biāo)簽突然進(jìn)入閱讀器讀取的范圍內(nèi),信號(hào)的碰撞、干擾等,造成閱讀 器對(duì)某些標(biāo)簽漏讀,并且這種漏讀現(xiàn)象十分普遍,閱讀器并不能完全無(wú)誤差地讀取到它讀 寫(xiě)范圍內(nèi)的所有標(biāo)簽數(shù)據(jù);多讀(False Positive),閱讀器意外捕獲了其讀寫(xiě)范圍外的標(biāo) 簽;冗余讀,冗余讀可分為時(shí)間榮冗余和空間冗余。一個(gè)標(biāo)簽長(zhǎng)時(shí)間停留在一個(gè)閱讀器內(nèi), 則該閱讀器就會(huì)不斷地對(duì)標(biāo)簽進(jìn)行讀取,從而導(dǎo)致大量的冗余信息,稱為時(shí)間冗余;一個(gè)空 間區(qū)域被多個(gè)閱讀器所覆蓋,位于閱讀器交叉區(qū)域的標(biāo)簽就會(huì)同時(shí)被多個(gè)閱讀器讀取,稱 為空間冗余。
[0007] 據(jù)統(tǒng)計(jì),原始RFID數(shù)據(jù)的準(zhǔn)確率僅為60%~70%,為了提高數(shù)據(jù)的可靠性、正確性 與完整性,滿足上層應(yīng)用需求,RFID系統(tǒng)中需要自帶清洗模塊來(lái)處理海量的標(biāo)簽數(shù)據(jù),盡可 能使閱讀器所讀取的標(biāo)簽數(shù)據(jù)與原始數(shù)據(jù)相一致。RFID系統(tǒng)中錯(cuò)誤數(shù)據(jù)類型一般為拒真、 納偽和數(shù)據(jù)冗余,數(shù)據(jù)清洗的基本步驟思想是通過(guò)分析數(shù)據(jù)錯(cuò)誤產(chǎn)生的原因、過(guò)程和形式, 并對(duì)其進(jìn)行分類,對(duì)特定的錯(cuò)誤使用特定的清洗策略實(shí)現(xiàn)優(yōu)化數(shù)據(jù)質(zhì)量最終滿足上層應(yīng)用 的要求。通過(guò)對(duì)錯(cuò)誤數(shù)據(jù)產(chǎn)生的過(guò)程反過(guò)來(lái)進(jìn)行倒推分析,從源頭開(kāi)始對(duì)數(shù)據(jù)進(jìn)行逐一提 取與優(yōu)化。最大化實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗,是得到的數(shù)據(jù)盡可能的滿足上層應(yīng)用。
[0008] 近年來(lái),關(guān)于RFID數(shù)據(jù)清洗技術(shù)已經(jīng)有很多的研究成果。在最初的數(shù)據(jù)清洗系統(tǒng) 中,UCLA大學(xué)的Y. Bai提出使用時(shí)間滑動(dòng)窗口技術(shù)來(lái)平滑過(guò)濾數(shù)據(jù)流的機(jī)制,用于清洗RFID 原始標(biāo)簽數(shù)據(jù)流。R. Jef frey等人針對(duì)RFID數(shù)據(jù)流特性,通過(guò)引入時(shí)間粒度和空間粒度的定 義,介紹了 一種基于管道結(jié)構(gòu)的數(shù)據(jù)清洗模型ESP,也稱為可擴(kuò)展數(shù)據(jù)流清洗模型。ESP可以 根據(jù)各類型錯(cuò)誤數(shù)據(jù)的特點(diǎn),清洗來(lái)自不同接收器的數(shù)據(jù),但是時(shí)間粒度和空間粒度的準(zhǔn) 確設(shè)置是存在一定的困難的。H.Gonzalez等人提出基于動(dòng)態(tài)Bayesian網(wǎng)絡(luò)的RFID數(shù)據(jù)清洗 算法DBN,通過(guò)獲得數(shù)據(jù)清洗結(jié)果的準(zhǔn)確率和需要付出的代價(jià)間的平衡來(lái)實(shí)現(xiàn)清洗代價(jià)最 優(yōu)化,具體體現(xiàn)為在保證清洗結(jié)果準(zhǔn)確率的前提下利用最少的資源來(lái)清洗最多的原始標(biāo)簽 數(shù)據(jù)。DBN利用了一個(gè)叫做隱模式的指標(biāo)來(lái)決定標(biāo)簽的真實(shí)位置,隱模式的實(shí)際值是噪聲 值,然后通過(guò)觀察歷史數(shù)據(jù)來(lái)預(yù)測(cè)標(biāo)簽數(shù)據(jù),計(jì)算出一個(gè)概率值作為衡量標(biāo)簽是否存在的 標(biāo)準(zhǔn)。M. Garofalakis、S. R. Jef fery等人介紹了基于時(shí)間相關(guān)性的數(shù)據(jù)清洗策略,該算法基 于概率模型,動(dòng)態(tài)改變窗口大小,主要用來(lái)解決數(shù)據(jù)漏讀的問(wèn)題。這就是第一個(gè)定義的自適 應(yīng)平滑過(guò)濾的RFID數(shù)據(jù)清洗方法--"SMURF"。該方法將RFID數(shù)據(jù)流當(dāng)做概率統(tǒng)計(jì)學(xué)中的 隨機(jī)事件,通過(guò)概率論的方法對(duì)漏讀的數(shù)據(jù)進(jìn)行填補(bǔ)。優(yōu)點(diǎn)是可以根據(jù)標(biāo)簽閱讀率的大小, 自適應(yīng)決定窗口尺寸,改善因?yàn)榇翱诖笮∵x擇不合理而產(chǎn)生的漏讀和多讀問(wèn)題。SMURF算法 對(duì)于靜態(tài)標(biāo)簽數(shù)據(jù)的清洗有很好的準(zhǔn)確率,但是對(duì)于動(dòng)態(tài)標(biāo)簽數(shù)據(jù),比如,當(dāng)運(yùn)動(dòng)著的標(biāo)簽 快速離開(kāi)閱讀器的讀取范圍時(shí),會(huì)使閱讀準(zhǔn)確率突然降低,這時(shí)SMURF方法反而用大窗口平 滑,這將會(huì)導(dǎo)致更多納偽(多讀)。同時(shí),由于SMURF方法也是基于滑動(dòng)窗口的,所以滑動(dòng)窗口 不能完全消除漏讀和多讀的缺點(diǎn)依然不可避免。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明克服SMURF算法的不足,提出一種基于動(dòng)態(tài)標(biāo)簽"動(dòng)態(tài)SMURF"算法的RFID數(shù) 據(jù)清洗方法,該方法的技術(shù)方案是,
[0010] 一種RFID數(shù)據(jù)清洗方法,包括以下步驟,
[0011]步驟1、通過(guò)基于動(dòng)態(tài)標(biāo)簽的清洗方法動(dòng)態(tài)SMURF對(duì)原始數(shù)據(jù)流進(jìn)行平滑過(guò)濾清 洗;
[0012] 步驟2、通過(guò)EPC(Electronic Product Code,產(chǎn)品電子碼)過(guò)濾器濾掉硬件設(shè)備產(chǎn) 生的標(biāo)簽ID不符合EPC編碼規(guī)則的編碼錯(cuò)誤數(shù)據(jù)組;
[0013] 步驟3、判斷過(guò)濾后的數(shù)據(jù)組是否存入到了緩沖器中,若沒(méi)有則存入緩沖器,已有 則執(zhí)行步驟4;
[0014] 步驟4、對(duì)緩沖器設(shè)置一個(gè)固定時(shí)間段[t^ts],時(shí)長(zhǎng)為一個(gè)滑動(dòng)窗口的大小W1,即 窗口內(nèi)包含W 1個(gè)閱讀周期,設(shè)整個(gè)數(shù)據(jù)流的周期時(shí)長(zhǎng)為t,則滑動(dòng)窗口的大小的范圍W1=U-Wi,t);
[0015] 步驟5、超過(guò)所述時(shí)間段[t^ts]規(guī)定的時(shí)長(zhǎng),則將緩沖器內(nèi)的數(shù)據(jù)組輸出至數(shù)據(jù)倉(cāng) 庫(kù)。所述動(dòng)態(tài)SMURF包括:
[0016] 設(shè)單個(gè)標(biāo)簽的速度為V,閱讀器的時(shí)隙即閱讀周期為T(mén),閱讀器的通信范圍半徑為 R,則標(biāo)簽被讀取次數(shù)為
[0017] 參數(shù)δ與讀取次數(shù)成反比,故標(biāo)簽不被讀取的概率為<(Aflli7/),兩邊同時(shí) 取對(duì)數(shù) 得到Wi >
[0018] 其中δ為閾值,δε (〇,1);標(biāo)簽i的平均閱讀率
P1為在每個(gè)閱讀周期標(biāo) 簽被閱讀到的概率,標(biāo)簽被讀到的閱讀周期的集合為S1。
[0019] 本發(fā)明針對(duì)原有SMURF算法的不足提出改進(jìn),動(dòng)態(tài)地改變閾值δ的大小,提高了處 理動(dòng)態(tài)標(biāo)簽時(shí)結(jié)果的準(zhǔn)確率,同時(shí)對(duì)數(shù)據(jù)流存在的時(shí)間冗余問(wèn)題提出清洗框架,節(jié)約了空 間成本。
【附圖說(shuō)明】
[0020] 圖1為滑動(dòng)窗口的大小對(duì)數(shù)據(jù)平滑的影響示意圖;
[0021 ]圖2為基于動(dòng)態(tài)標(biāo)簽的RFID數(shù)據(jù)清洗方法實(shí)施例的流程圖;
[0022]圖3為圖2實(shí)施例的仿真數(shù)據(jù)生成模型圖。
【具體實(shí)施方式】
[0023]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0024] 如圖1所示,由于射頻信號(hào)碰撞或外部環(huán)境的影響,原始數(shù)據(jù)無(wú)法得到理想環(huán)境下 的實(shí)際數(shù)據(jù),原始數(shù)據(jù)通過(guò)窗口平滑過(guò)濾,窗口設(shè)置過(guò)小不能保證數(shù)據(jù)完整出現(xiàn)漏讀現(xiàn)象, 設(shè)置過(guò)大雖然解決了漏讀錯(cuò)誤卻無(wú)法檢測(cè)標(biāo)簽離開(kāi)閱讀器這一事件的發(fā)生,不能保證標(biāo)簽 數(shù)據(jù)的動(dòng)態(tài)性引發(fā)多讀錯(cuò)誤。
[0025] 因此,在圖2的實(shí)施例中,先通過(guò)"動(dòng)態(tài)SMURF"對(duì)原始數(shù)據(jù)流進(jìn)行平滑過(guò)濾清洗,再 通過(guò)EPC過(guò)濾器過(guò)濾掉因?yàn)殚喿x器等硬件設(shè)備產(chǎn)生的標(biāo)簽ID不符合編碼規(guī)則的編碼錯(cuò)誤數(shù) 據(jù)組,然后查看判斷緩沖器中是否已經(jīng)存在這些新的數(shù)據(jù)組,沒(méi)有則存入緩沖器中,已有則 丟棄。且對(duì)于緩沖器設(shè)置一個(gè)固定時(shí)間段,即為一個(gè)滑動(dòng)窗口的大小,超過(guò)時(shí)間,則將緩沖 器內(nèi)數(shù)據(jù)組輸出至數(shù)據(jù)倉(cāng)庫(kù)。
[0026] 圖3是本實(shí)施例仿真數(shù)據(jù)生成模型,通過(guò)該模型來(lái)產(chǎn)生大量的仿真數(shù)據(jù)。閱讀器通 過(guò)天線發(fā)出的射頻信號(hào)與標(biāo)簽進(jìn)行通信,閱讀器會(huì)產(chǎn)生一個(gè)標(biāo)簽編碼列表,記錄了在其范 圍內(nèi)被檢測(cè)到的標(biāo)簽。假設(shè)所有標(biāo)簽射頻范圍是恒定的,參照實(shí)際應(yīng)用中的檢測(cè)效果,把每 個(gè)閱讀器的射頻范圍劃分為兩個(gè)區(qū)域:主要閱讀區(qū)域和次要閱讀區(qū)域,主要閱讀區(qū)域?yàn)殚?讀器的正前方區(qū)域,從主要檢測(cè)區(qū)到閱讀器最大識(shí)別范圍邊緣這個(gè)區(qū)域?yàn)榇我喿x區(qū)域, 在次要閱讀區(qū)域內(nèi)標(biāo)簽的檢測(cè)率線性衰減,直至在閱讀器最大識(shí)別范圍邊緣處衰減至〇。
[0027]本發(fā)明方案所公開(kāi)的技術(shù)手段不僅限于上述實(shí)施方式所公開(kāi)的技術(shù)手段,還包括 由以上技術(shù)特征任意組合所組成的技術(shù)方案。
【主權(quán)項(xiàng)】
1. 一種RFID數(shù)據(jù)清洗方法,其特征在于,包括以下步驟, 步驟1、通過(guò)基于動(dòng)態(tài)標(biāo)簽的清洗方法動(dòng)態(tài)SMURF對(duì)原始數(shù)據(jù)流進(jìn)行平滑過(guò)濾清洗; 步驟2、通過(guò)EPC過(guò)濾器濾掉硬件設(shè)備產(chǎn)生的標(biāo)簽ID不符合EPC編碼規(guī)則的編碼錯(cuò)誤數(shù) 據(jù)組; 步驟3、判斷過(guò)濾后的數(shù)據(jù)組是否在緩沖器中已經(jīng)存在,若不存在則存入緩沖器,若存 在則丟棄; 步驟4、對(duì)緩沖器設(shè)置一個(gè)固定時(shí)間段[t^ts],時(shí)長(zhǎng)為一個(gè)滑動(dòng)窗口的大小Wl,即窗口 內(nèi)包含個(gè)閱讀周期,設(shè)整個(gè)數(shù)據(jù)流的周期時(shí)長(zhǎng)為t,則滑動(dòng)窗口的大小的范圍Wi = (t-Wl, t); 步驟5、超過(guò)所述時(shí)間段[t^ts]規(guī)定的時(shí)長(zhǎng),則將緩沖器內(nèi)的數(shù)據(jù)組輸出至數(shù)據(jù)倉(cāng)庫(kù)。2. 根據(jù)權(quán)利要求1所述的RFID數(shù)據(jù)清洗方法,其特征在于,所述動(dòng)態(tài)SMURF包括: 設(shè)單個(gè)標(biāo)簽的速度為V,閱讀器的時(shí)隙即閱讀周期為T(mén),閱讀器的通信范圍半徑為R,則 標(biāo)簽被讀取次數(shù)為參數(shù)S與讀取次數(shù)成反比,故標(biāo)簽不被讀取的概率為<〇?;#//),兩邊同時(shí)取 對(duì)數(shù),得 u) X In(卜,,廠" < 1η(/;Γ V/);因(卜其中S為閾值,δε (〇,1);標(biāo)簽i的平均閱讀率,Pl為在每個(gè)閱讀周期標(biāo)簽被 閱讀到的概率,標(biāo)簽被讀到的閱讀周期的集合為Si。
【文檔編號(hào)】G06K17/00GK106056177SQ201610370415
【公開(kāi)日】2016年10月26日
【申請(qǐng)日】2016年5月30日
【發(fā)明人】徐鶴, 李薇, 李鵬, 王汝傳, 朱楓, 何濤, 韓崇, 沈瑋瑋
【申請(qǐng)人】南京郵電大學(xué)