欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

增量式地更新統(tǒng)計的制作方法_3

文檔序號:8947465閱讀:來源:國知局
|τ|的〇. 1%大很多, 則可根據(jù)本文描述的原理使用布隆過濾器實現(xiàn)方式。
[0048] 在某些示例中,可將列X的值分為多個直方圖的區(qū)間,并且該可用于增量式地估 計唯一條目數(shù)計數(shù)的方案可應用于單個區(qū)間。例如,直方圖區(qū)間可以包括200個區(qū)間,所以 估計器僅與樣本大小的1/200 -起工作。可以通過統(tǒng)計測試確定置信度水平。可以使用直 方圖、布隆過濾器、另一機制或其組合執(zhí)行測試??梢允褂眯杏嫈?shù)、唯一條目計數(shù)、其他統(tǒng)計 數(shù)據(jù)或其組合確定置信度水平。統(tǒng)計測試可以包括參數(shù)測試、非參數(shù)測試、其他類型的測試 或其組合。
[0049] 比較包括在更新(插入和刪除)前的時間段(t-Ι)采樣,以及在更新后的時間段 ⑴采樣。考慮到在連續(xù)的兩個時間段中的隨機樣本S 1 i和and S i,使得仁i和f i表示如 下定義的頻率:正好出現(xiàn)了 "i"次的觀測數(shù)據(jù)(可為認為是"類")的跟蹤的頻率的量。唯 一條目計數(shù)計算與頻率(f)的分布相關(guān)。量的變化引起分布中出現(xiàn)偏斜度。置信引擎估計 偏斜度變化程度,以確定是否批準重新計算唯一條目計數(shù)。在置信引擎的實現(xiàn)方式中,做出 了下列假設(shè):1)在時段h i,h,中發(fā)生刪除和插入;2)采樣的數(shù)據(jù)為高斯分布;3)提取獨 立的樣本。
[0050] 針對參數(shù)的測試,使xn,x21,....,Xnl是來自大小為η的正態(tài)分布的隨機 樣本,并且是來自大小為m的正態(tài)分布Λ^2,σ〗)的隨機樣本,其中g(shù)和σ!是未知的,來自 時段ttl,tt。還假設(shè)樣本是獨立的。
[0051] 提出假設(shè)H。: P1= μ 2 versus H1: μ# μ 2。測試可被修改以測試是否Η。: μ「μ2 =0 versus H1: P1-μ 2辛0。由于總體方差是未知的,我們可以通過他們的樣本替換他們 估計4詳Pg??梢允褂孟铝泄接嬎銟颖痉讲睿?br>[0053]用于測試假設(shè)的邏輯統(tǒng)計為由用_說給定的統(tǒng)計平均值之差。平均值之差的方差 是:
[0055] 假設(shè)總體方差是相向等,即=d = 樣本方差被合并以產(chǎn)生對總體方差的綜 合估計。
。方差σ 2通過綜合樣本方差 估計:
[0057] 測試統(tǒng)計被給出為:
[0059] 兩個樣本的t -測試適用于小樣本大小。在總體方差σ?與Cr!相等時,可使用t_統(tǒng) 計是適當?shù)?。該假設(shè)的驗證涉及執(zhí)行方差齊性檢驗測試。如果兩個總體的方差是不相等 的,則修改t -測試。該測試也被公認為貝倫斯-費舍爾(Behrens-Fisher)測試。t -測 試對于比較獨立的樣本也是有效的。
[0060] 成對的t -測試是用于比較兩個不同時間分布變化的統(tǒng)計測試,假設(shè)樣本在這兩 個時段相關(guān)。測試典型地包括獲采樣本變化之前和之后時段對象上的測量結(jié)果。假設(shè)可以 被表達為H。: yb= μ aversus H1: μ# μ a。在一些示例中,測試可以被重寫為H。: yD = Oversus H1: μ 0,其中μ D= μ 。用于測試假設(shè)的測試統(tǒng)計是:
[0062] 其中Xj0 - 并且sD是之前的統(tǒng)計平均值和之后的統(tǒng)計平 均值之間的差值的標準偏差。由于之前和之后的平均值是相關(guān)的,因此
[0063] 兩個正相關(guān)的隨機變量的差的方差小于兩個獨立的隨機變量的差的方差,并且類 似的,如果隨機變量是負相關(guān)的,那么差的方差將趨向于更大。因此成對差的t_統(tǒng)計調(diào)整 測量結(jié)果之間的相關(guān)性。為了確定與頻率相關(guān)的樣本之間的統(tǒng)計顯著性,將計算的t_統(tǒng)計 數(shù)據(jù)的絕對值與tn u α/2給出的理論t_分布的百分點相比較。如果t < _t α/2或者t彡t α/2, 則指示兩面測試的變化存在巨大的差異。對于單面測試,可適當?shù)恼{(diào)整否定區(qū)域以得出相 關(guān)推論。
[0064] 可替代地,不依賴于采樣數(shù)據(jù)的正常假設(shè)的非參數(shù)測試可被稱為柯爾莫哥洛 夫-斯米爾諾夫測試(Kolmogorov-Smirnov,K-S測試),其用來確定兩個數(shù)據(jù)集是否存在 顯著差異。KS測試具有關(guān)于數(shù)據(jù)分布不用進行假設(shè)的優(yōu)點。兩個樣本的KS測試是非參數(shù) 假設(shè)測試,其可用來估計在每個數(shù)據(jù)集的數(shù)據(jù)范圍內(nèi)兩個樣本數(shù)據(jù)向量S 1 i和S 布的累 積分布函數(shù)(CDF)的差異。其中數(shù)據(jù)是數(shù)據(jù)集的元組。
[0065] 兩面測試使用了兩個數(shù)據(jù)向量分布的CDF之間的最大絕對差值。其中測試統(tǒng)計為
[0067] 其中/V?為X1值小于或等于X的比例。鳥W為X2值小于或等于x(分布中的一 個元組)的比例。測試統(tǒng)計數(shù)據(jù)用于計算樣本S1 JP S1差異顯著性的置信度水平。上 面描述的這些測試可以被很容易的應用到考慮中的直方圖區(qū)間的行計數(shù)(RC)。
[0068] 雖然已經(jīng)參照具體測試對確定置信度水平進行了描述,但是根據(jù)本文描述的原 理,可以使用任何適當?shù)臏y試。進一步的,雖然已經(jīng)參照使用具體的統(tǒng)計對確定置信度水平 進行了描述,但是可以使用任何適當?shù)慕y(tǒng)計。
[0069] 圖10是根據(jù)本文描述的原理的更新系統(tǒng)(1000)的示例的示意圖。更新系統(tǒng) (1000)包括采樣引擎(1002)、確定引擎(1004)以及更新引擎(1006)。在此示例中,所述更 新系統(tǒng)(1000)進一步包括置信度引擎(1008)、布隆過濾器引擎(1010),減量引擎(1012) 以及增量引擎(1014)。引擎(1002、1004、1006、1008、1010、1012、1014)指的是執(zhí)行指定功 能的硬件和程序指令組合。每個引擎(1002、1004、1006、1008、1010、1012、1014)可以包括 處理器和內(nèi)存。所述程序指令存儲在存儲器中,并且使處理器執(zhí)行引擎的指定功能。
[0070] 采樣引擎(1002)對數(shù)據(jù)庫列進行采樣,或者對數(shù)據(jù)庫列的一部分進行采樣,以生 成樣本。所述確定引擎(1004)確定在不同的時間采樣的樣本之間是否發(fā)生了統(tǒng)計分布變 化。如果確定引擎(1004)確定存在分布變化,則更新引擎(1006)更新關(guān)于數(shù)據(jù)庫列的至 少一個統(tǒng)計,例如唯一條目計數(shù)。否則,所述更新系統(tǒng)(1000)將基于最新的樣本估計統(tǒng)計 數(shù)據(jù)。
[0071] 更新系統(tǒng)具有分布變化存在的確定,置信度引擎(1008)確定置信度水平。只有在 置信度水平高于預定閾值時的情況下,例如95%的置信度水平,更新引擎(1006)才可更新 統(tǒng)計。
[0072] 布隆過濾器引擎(1010)基于最初的樣本建立布隆過濾器并且填充布隆過濾器的 寄存器。減量引擎(1012)減去布隆過濾器的計數(shù)器,以反映數(shù)據(jù)庫列的刪除的行。增量引 擎(1014)增加對應于樣本中的插入的行的計數(shù)器。
[0073] 圖11是根據(jù)本文描述的原理的更新系統(tǒng)(1100)的示例的示意圖。在此示例中,所 述更新系統(tǒng)(1100)包括與存儲器資源(1104)通信的處理資源(1102)。處理資源(1102) 包括至少一個處理器,以及用于處理程序化指令的其他資源。存儲器資源(1104)通常表 示能夠存儲數(shù)據(jù)(例如更新系統(tǒng)(1100)使用的程序化指令或數(shù)據(jù)結(jié)構(gòu))的任何存儲器。 存儲在存儲器資源(1104)中示出的程序化指令包括列采樣器(1106)、唯一條目計數(shù)估計 器(1108)、布隆過濾器生成器(1110)、布隆過濾器填充器(1112)、刪除行確定器(1114)、 修改的行采樣器(1116)、插入跟蹤器(1118)、布隆過濾器減量器(1120)、布隆過濾器增量 器(1122)、偏斜度比較器(1124)、唯一條目計數(shù)更新器(1126)以及搜索查詢計劃優(yōu)化器 (1128)〇
[0074] 存儲器資源(1104)包括計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)包含使任務(wù) 由處理資源(1102)執(zhí)行的計算機可讀程序代碼。計算機可讀存儲介質(zhì)可以是有形的和/或 非瞬態(tài)的存儲介質(zhì)。計算機可讀存儲介質(zhì)可以是非傳輸存儲介質(zhì)的任何適當?shù)拇鎯橘|(zhì)。 計算機可讀存儲介質(zhì)類型的非窮盡列表包括:非易失性存儲器、易失性存儲器、隨機存取存 儲器、基于憶阻器的存儲器、只寫存儲器、快閃存儲器、電可擦除可編程只讀存儲器、磁存儲 介質(zhì)、其它類型的存儲器或其組合。
[0075] 列采樣器(1106)表示程序化指令,在執(zhí)行時,使處理資源(1102)對數(shù)據(jù)庫的列進 行采樣。唯一條目計數(shù)估計器(1108)表示程序化指令,在執(zhí)行時,使處理資源(1102)基于 用列采樣器(1106)提取的樣本估計唯一條目計數(shù)。
[0076] 布隆過濾器生成器(1110)表示程序化指令,在執(zhí)行時,使處理資源(1102)建立布 隆過濾器。布隆過濾器填充器(1112)表示程序化指令,在執(zhí)行時,使處理資源(1102)基 于樣本的總數(shù),填充布隆過濾器的寄存器。刪除行確定器(1114)表示程序化指令,在執(zhí)行 時,使處理資源(1102)確定反映在樣本中的從數(shù)據(jù)庫列中刪除的行的數(shù)量。修改行采樣器 (1116)表示程序化指令,在執(zhí)行時,使處
當前第3頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
封开县| 新建县| 佛教| 荆门市| 铁岭市| 神木县| 全州县| 西丰县| 佛冈县| 忻州市| 全州县| 铁岭市| 上饶县| 东安县| 武定县| 浦县| 云安县| 崇阳县| 鹰潭市| 巴青县| 汝南县| 米泉市| 长泰县| 偃师市| 利辛县| 英超| 崇信县| 汤阴县| 鹤岗市| 红桥区| 天镇县| 舒城县| 建始县| 房产| 宁乡县| 且末县| 比如县| 留坝县| 林西县| 田东县| 绥江县|