按多個(gè)時(shí)間維度的聚類事件數(shù)據(jù)的制作方法
【專利摘要】提供了用于處理記錄數(shù)據(jù)的系統(tǒng)和方法。確定數(shù)據(jù)組塊的集合。每個(gè)數(shù)據(jù)組塊與事件的集合相關(guān)聯(lián),所述事件是根據(jù)事件的集合中的每個(gè)事件的主要時(shí)間維度字段來成組的。針對數(shù)據(jù)組塊中的每一個(gè)確定元數(shù)據(jù)結(jié)構(gòu)。元數(shù)據(jù)結(jié)構(gòu)包括數(shù)據(jù)組塊中所有事件的主要時(shí)間維度字段的范圍和數(shù)據(jù)組塊中所有事件的次要時(shí)間維度字段的范圍。選擇所述數(shù)據(jù)組塊的子集。根據(jù)至少一個(gè)事件的次要時(shí)間維度字段來生成與多個(gè)事件中的至少一個(gè)事件相關(guān)聯(lián)的數(shù)據(jù)組塊。
【專利說明】按多個(gè)時(shí)間維度的聚類事件數(shù)據(jù)
[0001] 交叉引用 本申請要求2011年11月28日遞交的、名稱為"CLUSTERING OF EVENT DATA BY MULTIPLE --ΜΕ DMENSIONS"、序號為61/564, 207(代理人檔案號82899659)的共同未決美國臨時(shí)專利 申請的優(yōu)先權(quán),其出于各種目的通過引用合并于此,就像完全在這個(gè)文檔中闡述一樣。本申 請通過引用以其整體合并2009年9月4日遞交的、名稱為"STORINGLOGDATAEFFICIENTLY WHILE SUPPORTING QUERYING"、序號為 12/554, 541 的美國申請以及 2007 年 12 月 28 日遞 交的、名稱為 "STORING LOG DATA EFFICIENTLY WHILE SUPPORTING QUERYING TO ASSIST IN COMPUTER NETWORK SECURITY"、序號為 11/966, 078 的美國申請。
【背景技術(shù)】
[0002] 安全信息/事件管理(SM或SIEM)領(lǐng)域通常與下述各項(xiàng)相關(guān):1)從網(wǎng)絡(luò)和聯(lián)網(wǎng)設(shè) 備收集反映網(wǎng)絡(luò)活動(dòng)和/或設(shè)備操作的數(shù)據(jù);以及2)分析該數(shù)據(jù)以增強(qiáng)安全性。例如,可 以分析該數(shù)據(jù)以識別對網(wǎng)絡(luò)或聯(lián)網(wǎng)設(shè)備的攻擊并且確定哪個(gè)用戶或機(jī)器負(fù)責(zé)。如果攻擊正 在進(jìn)行,則可以執(zhí)行對抗措施以阻止攻擊或減輕由攻擊引起的損壞。所收集的數(shù)據(jù)通常起 源于由聯(lián)網(wǎng)設(shè)備生成的消息(諸如事件、警告或警報(bào))或記錄文件中的條目。典型的聯(lián)網(wǎng)設(shè) 備包括防火墻、侵入檢測系統(tǒng)和服務(wù)器。
[0003] 每個(gè)消息或記錄文件條目("事件")被存儲以供未來使用。所存儲的事件可以按各 種方式加以組織。當(dāng)涉及到寫入事件數(shù)據(jù)、搜索事件數(shù)據(jù)和刪除事件數(shù)據(jù)時(shí),每種組織方法 具有其自身的優(yōu)勢和劣勢。
【專利附圖】
【附圖說明】
[0004] 通過參考附圖,可以更好地理解本公開并且使其許多特征和優(yōu)勢變得顯而易見。
[0005] 圖1是根據(jù)實(shí)施例的具有信息/事件管理系統(tǒng)的環(huán)境的拓?fù)淇驁D。
[0006] 圖2是根據(jù)實(shí)施例的信息/事件管理系統(tǒng)的記錄系統(tǒng)的拓?fù)淇驁D。
[0007] 圖3A是根據(jù)實(shí)施例的基于事件發(fā)生時(shí)間生成事件組塊的過程流程圖。
[0008] 圖3B是根據(jù)實(shí)施例的基于事件發(fā)生時(shí)間把事件聚類成組塊的過程流程圖。
[0009] 圖4A是根據(jù)實(shí)施例的聚類稀疏事件流的過程流程圖。
[0010] 圖4B是根據(jù)實(shí)施例的查詢的過程流程圖。
[0011] 圖5圖示了可在其中實(shí)施實(shí)施例的計(jì)算機(jī)系統(tǒng)。
【具體實(shí)施方式】
[0012] 事件管理系統(tǒng)正變成實(shí)時(shí)事件管理系統(tǒng)的重要組件。這樣的系統(tǒng)可以用于獲得有 價(jià)值的洞察,諸如實(shí)時(shí)安全狀態(tài)、網(wǎng)絡(luò)狀態(tài)或市場信息。
[0013] 記錄系統(tǒng)高效地存儲數(shù)據(jù)(諸如安全信息/事件)同時(shí)支持針對不同事件屬性的查 詢。記錄系統(tǒng)可以是事件管理系統(tǒng)或用于進(jìn)一步分析記錄數(shù)據(jù)的其它系統(tǒng)的組件或者可以 與事件管理系統(tǒng)或用于進(jìn)一步分析記錄數(shù)據(jù)的其它系統(tǒng)結(jié)合使用。記錄數(shù)據(jù)可以由各種源 (包括設(shè)備和應(yīng)用)生成,并可以采用任何格式。記錄數(shù)據(jù)由稱為"事件"的數(shù)據(jù)實(shí)例組成, 該數(shù)據(jù)實(shí)例由至少一個(gè)基于時(shí)間的屬性或維度表征。事件可以例如是記錄文件中的條目、 系統(tǒng)記錄服務(wù)器中的條目、警告、警報(bào)、網(wǎng)絡(luò)分組、電子郵件或通知頁面。
[0014] 時(shí)間是任何記錄系統(tǒng)的重要屬性。通常,存在與事件關(guān)聯(lián)的多個(gè)時(shí)間維度。一個(gè) 維度可以是事件實(shí)際發(fā)生時(shí)的時(shí)間(即,事件發(fā)生時(shí)間)。另一維度可以是事件實(shí)際被事件 處理系統(tǒng)和/或記錄系統(tǒng)接收時(shí)的時(shí)間(即,接收時(shí)間)。
[0015] 事件發(fā)生時(shí)間("et")和接收時(shí)間("rt")之間的不一致可以由各種條件引起,例 如,通過網(wǎng)絡(luò)的傳輸期間的延遲和在防止故障節(jié)點(diǎn)向中央記錄系統(tǒng)發(fā)送事件的某個(gè)時(shí)間段 內(nèi)的安全網(wǎng)絡(luò)中節(jié)點(diǎn)(例如代理)的失效。因?yàn)槭录赡鼙谎舆t或批處理,所以時(shí)間維度可 以彼此不同步。在涉及更嚴(yán)重的延遲條件的情況下,et和rt之間的不一致可以是從數(shù)秒 到數(shù)天的任何程度。
[0016] 可以創(chuàng)建多個(gè)索引以用于存儲事件,例如,針對每個(gè)時(shí)間維度的索引。在具有兩個(gè) 時(shí)間維度的事件的情境中,使用這個(gè)技術(shù),把事件例如存儲在數(shù)據(jù)文件中。通過沿時(shí)間維度 之一聚類事件來創(chuàng)建聚類索引。更具體地,聚類索引被鍵入到事件沿其而被聚類的時(shí)間維 度("聚類維度")。次要索引在次要時(shí)間維度上被創(chuàng)建。
[0017] 經(jīng)常,用戶向事件管理系統(tǒng)或記錄系統(tǒng)提出的查詢包括時(shí)間維度。因?yàn)榭赡艽嬖?多個(gè)時(shí)間維度,所以用戶可以查詢所有那些維度。多個(gè)索引的使用可以用于確保跨多個(gè)時(shí) 間維度的查詢效率。
[0018] 然而,在許多具有大量事件的系統(tǒng)部署中,構(gòu)建聚類索引和次要索引兩者是過分 昂貴的。索引增加了歸因于針對要求大數(shù)據(jù)存儲的環(huán)境的索引的大小而需要的存儲量。
[0019] 另外,存在顯著的維護(hù)開銷。例如,在rt上鍵入聚類索引,并且在et上鍵入次要 索引。聚類索引的每個(gè)條目包括與存儲組塊的數(shù)據(jù)文件相關(guān)聯(lián)的唯一標(biāo)識符和該數(shù)據(jù)文件 內(nèi)存儲該組塊的位置(例如,作為偏移)。次要索引的每個(gè)條目包括對聚類索引中的至少一 個(gè)條目的指針或其它參考,因?yàn)槊總€(gè)事件與事件時(shí)間和接收時(shí)間兩者都關(guān)聯(lián)。維持這些參 考的完整性可能是處理器密集和時(shí)間密集的。
[0020] 此外,除聚類維度外的任何維度上的搜索操作可能是低效的。例如,在rt上鍵入 聚類索引并且在et上鍵入次要索引的情況下,基于et的查詢可能涉及在這兩個(gè)索引上搜 索以便識別可包括具有與查詢相匹配的事件時(shí)間的事件的所有聚類。更具體地,基于et來 首先搜索次要索引。滿足這個(gè)首先搜索的條目用于識別相關(guān)rt條目,因?yàn)榇我饕械拿?個(gè)條目均包括對聚類索引中的條目的參考。在確定哪些rt對應(yīng)于次要索引中的條目之后, 聚類索引中的相關(guān)條目被訪問以識別相關(guān)組塊,該相關(guān)組塊是如下組塊:其可能能夠包含 具有滿足查詢的事件時(shí)間的事件。然后,所識別的組塊被分解成其組成事件。最終,搜索這 些事件中的每一個(gè)的et屬性以確定哪些事件滿足查詢。
[0021] 這樣的搜索方法可能導(dǎo)致低于最優(yōu)的搜索性能。在rt中對事件成組塊的情況下, et上的查詢可能涉及對組塊的大子集的掃描,尤其是在組塊包括具有大范圍的事件發(fā)生時(shí) 間的事件的情況下。被識別為對于滿足查詢來說可能相關(guān)的許多組塊可能結(jié)果是不相關(guān), 艮P,通過不包括滿足查詢的元素。
[0022] 在一個(gè)實(shí)施例中,可以通過下列操作來最小化掃描:在多個(gè)維度上聚類數(shù)據(jù),例如 針對事件數(shù)據(jù)的整個(gè)集合在rt上聚類,并且,也在et上聚類,但在事件數(shù)據(jù)的子集上。更 具體地,組塊中的事件的et和rt的范圍被最小化,同時(shí)最大化組塊大小(S卩,組塊中事件的 數(shù)量)。
[0023] 如本文中描述的,提供了用于處理記錄數(shù)據(jù)的系統(tǒng)和方法。確定數(shù)據(jù)組塊的集合。 每個(gè)數(shù)據(jù)組塊與事件的集合相關(guān)聯(lián),事件是根據(jù)事件集合中的每個(gè)事件的第一時(shí)間維度字 段來成組的。針對每個(gè)數(shù)據(jù)組塊確定元數(shù)據(jù)結(jié)構(gòu)。元數(shù)據(jù)結(jié)構(gòu)包括數(shù)據(jù)組塊中的所有事件 的主要時(shí)間維度字段的范圍和數(shù)據(jù)組塊中的所有事件的次要時(shí)間維度字段的范圍。數(shù)據(jù)組 塊的子集被選擇且分解成多個(gè)事件。根據(jù)該至少一個(gè)事件的次要時(shí)間維度字段來生成與該 多個(gè)事件中的至少一個(gè)事件相關(guān)聯(lián)的數(shù)據(jù)組塊。
[0024] 記錄系統(tǒng)包括事件接收器和存儲管理器。事件接收器接收記錄數(shù)據(jù),處理它,并輸 出基于行和/或基于列的數(shù)據(jù)"組塊"。存儲管理器接收數(shù)據(jù)組塊并存儲它以使得它可以被 查詢。接收器包括緩存器,該緩存器存儲事件和元數(shù)據(jù)結(jié)構(gòu),元數(shù)據(jù)結(jié)構(gòu)存儲關(guān)于緩存器的 內(nèi)容的信息。
[0025] 元數(shù)據(jù)包括與接收器和緩存器中事件的數(shù)量相關(guān)聯(lián)的唯一標(biāo)識符。對于所關(guān)注 的作為接收時(shí)間的字段,元數(shù)據(jù)包括反映在緩存器中的所有事件上該字段的值的范圍的最 小值和最大值。對于所關(guān)注的作為事件發(fā)生時(shí)間的字段,元數(shù)據(jù)包括反映在緩存器中的事 件子集上該字段的值的范圍的最小值和最大值。組塊包括元數(shù)據(jù)結(jié)構(gòu)和緩存器內(nèi)容的壓縮 版本。當(dāng)查詢事件數(shù)據(jù)時(shí),元數(shù)據(jù)結(jié)構(gòu)中包括接收時(shí)間范圍的部分充當(dāng)搜索索引(即,聚類 索引)。當(dāng)查詢事件數(shù)據(jù)時(shí),元數(shù)據(jù)結(jié)構(gòu)中包括事件發(fā)生時(shí)間范圍的部分充當(dāng)另一搜索索引 (即,次要索引)。照此,如果在任一時(shí)間維度上發(fā)起搜索,則在元數(shù)據(jù)上執(zhí)行查找并且高效 地且以可縮放的方式搜索事件。記錄系統(tǒng)可以與信息/事件管理系統(tǒng)結(jié)合使用。
[0026] 信息/事件管理架構(gòu) 圖1是根據(jù)實(shí)施例的具有信息/事件管理系統(tǒng)1〇〇的環(huán)境的拓?fù)淇驁D。系統(tǒng)1〇〇包 括(一個(gè)或多個(gè))數(shù)據(jù)源110。數(shù)據(jù)源110是網(wǎng)絡(luò)節(jié)點(diǎn),其可以是設(shè)備或軟件應(yīng)用。數(shù)據(jù)源 110包括侵入檢測系統(tǒng)(IDS)、侵入防止系統(tǒng)(IPS)、漏洞評價(jià)工具、防火墻、反病毒工具、反 垃圾郵件工具、加密工具、應(yīng)用審查記錄和物理安全記錄。事件數(shù)據(jù)可以例如由警告、警報(bào)、 網(wǎng)絡(luò)分組、電子郵件或通知頁面來提供。
[0027] 數(shù)據(jù)源110的類型包括安全檢測和代理系統(tǒng)、訪問和策略控制、核心服務(wù)記錄和 記錄匯集器、網(wǎng)絡(luò)硬件、加密設(shè)備和物理安全。通常,安全檢測和代理系統(tǒng)包括IDS、IPS、多 用途安全裝置、漏洞評價(jià)和管理、反病毒、蜜罐、威脅響應(yīng)技術(shù)和網(wǎng)絡(luò)監(jiān)控。典型的訪問和策 略控制系統(tǒng)包括訪問和標(biāo)識管理、虛擬專用網(wǎng)(VPN)、高速緩存引擎、防火墻和安全策略管 理。核心服務(wù)記錄和記錄匯集器包括操作系統(tǒng)記錄、數(shù)據(jù)庫審查記錄、應(yīng)用記錄、記錄匯集 器、web服務(wù)器記錄和管理控制臺。典型的網(wǎng)絡(luò)硬件包括路由器和交換機(jī)。典型的加密設(shè) 備包括數(shù)據(jù)安全性和完整性。典型的物理安全系統(tǒng)包括卡-密鑰讀取器、生物計(jì)量、防盜警 報(bào)和火災(zāi)警報(bào)。
[0028] 在所圖示的實(shí)施例中,系統(tǒng)100包括(一個(gè)或多個(gè))代理120、(一個(gè)或多個(gè))管理器 130、(一個(gè)或多個(gè))數(shù)據(jù)庫140、(一個(gè)或多個(gè))在線存檔150、(一個(gè)或多個(gè))用戶接口 160和 (一個(gè)或多個(gè))記錄系統(tǒng)170。在一些實(shí)施例中,這些模塊被組合在單個(gè)平臺中或被分布在 兩個(gè)、三個(gè)或更多平臺中(諸如在圖1中)。隨著計(jì)算機(jī)網(wǎng)絡(luò)或系統(tǒng)的發(fā)展,這個(gè)多層架構(gòu)的 使用支持可縮放性。
[0029] 代理120提供面向數(shù)據(jù)源110的接口。具體來說,代理120收集來自數(shù)據(jù)源110 的數(shù)據(jù)("原始事件")、處理該數(shù)據(jù)并把經(jīng)處理的數(shù)據(jù)("事件")發(fā)送到管理器130。代理120 可以在任何地方操作,諸如在經(jīng)由諸如簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)陷阱之類的協(xié)議通信的分 離設(shè)備處、在網(wǎng)絡(luò)內(nèi)的匯集點(diǎn)處或者在數(shù)據(jù)源110處。例如,如果數(shù)據(jù)源110是軟件應(yīng)用, 則代理120可以在托管數(shù)據(jù)源的設(shè)備上被共同托管。
[0030] 處理可以包括歸一化、聚集和濾波。例如,個(gè)體原始事件被解析和歸一化以供管理 器130使用。歸一化可以涉及把值(諸如嚴(yán)重性、優(yōu)先級和時(shí)區(qū))歸一化成公共格式和/或 把數(shù)據(jù)結(jié)構(gòu)歸一化成公共模式。可以使用公共的、人類可讀的格式來對事件進(jìn)行分類。這 個(gè)格式使得用戶更容易理解該事件并使得更容易使用濾波器、規(guī)則、報(bào)告和數(shù)據(jù)監(jiān)控器來 分析事件。在一個(gè)實(shí)施例中,公用格式是公共事件格式(CEF)記錄管理標(biāo)準(zhǔn)。
[0031] 聚集和濾波減少了被發(fā)送給管理器130的事件的量,這節(jié)省了網(wǎng)絡(luò)帶寬和存儲空 間,增加了管理器的效率和準(zhǔn)確度,并減少了事件處理時(shí)間。代理120基于時(shí)間段的到期或 基于所達(dá)到的事件的閾值數(shù)量把事件成批地發(fā)送到管理器130。
[0032] 代理120還可以把命令發(fā)送到數(shù)據(jù)源110和/或在本地主機(jī)上執(zhí)行命令,諸如指 示掃描器運(yùn)行掃描。這些動(dòng)作可以手動(dòng)地或通過來自規(guī)則和數(shù)據(jù)監(jiān)控器的自動(dòng)動(dòng)作而執(zhí) 行。另外,代理120可以把信息添加到其已收集的數(shù)據(jù),諸如通過查找因特網(wǎng)協(xié)議(IP)地 址和/或主機(jī)名以便在管理器130處解析IP/主機(jī)名查找,或者通過確定定時(shí)相關(guān)數(shù)據(jù)(例 如事件發(fā)生時(shí)間等)。
[0033] 經(jīng)由關(guān)聯(lián)的配置文件(未示出)來配置代理120。代理120可以包括(一個(gè)或多個(gè)) 軟件模塊,該軟件模塊包括歸一化組件、時(shí)間校正組件、聚集組件、批處理組件、解析器組 件、傳送組件和/或附加組件。這些組件可以通過配置文件中的適當(dāng)命令而激活和/或去 激活。在配置期間,代理120被注冊到管理器130且被配置有基于其數(shù)據(jù)源110和期望行 為的特性??赏ㄟ^手動(dòng)和自動(dòng)過程兩者來進(jìn)一步配置代理120。例如,管理器130可以把命 令或配置更新發(fā)送到代理120。
[0034] 管理器130提供分析能力、案例管理工作流程能力和服務(wù)能力。管理器130和代 理120之間的通信可以是雙向的(例如使管理器130能夠把命令傳輸?shù)酵泄艽?20的平 臺)和加密的。在一些裝置中,管理器130可以充當(dāng)多個(gè)代理120的集中器,且可以把信息 轉(zhuǎn)發(fā)到其它管理器130 (例如在公司總部處部署的管理器)。為了執(zhí)行其任務(wù),管理器130 使用各種濾波器、規(guī)則、報(bào)告、數(shù)據(jù)監(jiān)控器、儀表板和網(wǎng)絡(luò)模型。
[0035] 分析可以包括檢測、相關(guān)和逐步升級。例如,管理器130使用規(guī)則引擎(未示出)來 使從代理120接收的事件交叉相關(guān),該規(guī)則引擎評估具有網(wǎng)絡(luò)模型的每個(gè)事件和漏洞信息 以開發(fā)出實(shí)時(shí)威脅概要。關(guān)于案例管理,管理器130可以維持關(guān)于安全事故及其解決的狀 態(tài)的報(bào)告。管理器130還可以提供對知識庫的訪問。
[0036] 隨著事件被管理器130接收到,事件被存儲在數(shù)據(jù)庫140中。存儲事件使它們稍 后能夠被用于分析和參考。在一個(gè)實(shí)施例中,數(shù)據(jù)庫140是數(shù)據(jù)庫管理系統(tǒng)(例如柱狀的、 關(guān)系的、混合的等)。
[0037] 用戶經(jīng)由用戶接口 160與管理器130交互。用戶接口 160使用戶能夠?qū)Ш焦芾砥?130的特征和功能。單個(gè)管理器130可以支持多個(gè)用戶接口實(shí)例。對用戶來說可用的特征 和功能可以取決于用戶的作用和許可和/或管理器的配置。在一個(gè)實(shí)施例中,訪問控制列 表使多個(gè)安全專業(yè)人員能夠使用相同管理器130和數(shù)據(jù)庫140,但是每個(gè)專業(yè)人員具有其 自身的適于其責(zé)任的視圖、相關(guān)性規(guī)則、警告、報(bào)告和知識庫。管理器130和用戶接口 160之 間的通信是雙向的且可以被加密。用戶接口 160可以用于接收要對記錄數(shù)據(jù)執(zhí)行的查詢。
[0038] 在一個(gè)實(shí)施例中,記錄系統(tǒng)170是針對極高事件吞吐量而優(yōu)化的事件數(shù)據(jù)存儲裝 置。記錄系統(tǒng)170存儲事件(有時(shí)稱為"記錄數(shù)據(jù)"),諸如安全事件。在一個(gè)實(shí)施例中,事件 以壓縮形式被存儲。然而,記錄系統(tǒng)170可以按需求檢索這些事件,并把它們恢復(fù)到針對取 證質(zhì)量數(shù)據(jù)的其原始的未修改的形式。多個(gè)記錄系統(tǒng)170可以一起工作以擴(kuò)大,從而當(dāng)存 儲事件時(shí)支持高的持續(xù)的輸入速率。事件查詢可以跨記錄系統(tǒng)170的對等網(wǎng)絡(luò)而分布。用 戶可以配置記錄系統(tǒng)170并經(jīng)由用戶接口(未示出)提供查詢。
[0039] 記錄系統(tǒng)170可以接收經(jīng)處理的事件(例如遵循公共事件格式的事件)和原始事件 兩者。在一個(gè)實(shí)施例中,原始事件是直接從數(shù)據(jù)源110 (諸如系統(tǒng)記錄消息和記錄文件)接 收的,并且經(jīng)處理的事件是從代理120或管理器130接收的。記錄系統(tǒng)170還可以發(fā)送原 始事件和經(jīng)處理的事件兩者。在一個(gè)實(shí)施例中,原始事件作為系統(tǒng)記錄消息而被發(fā)送(到任 何設(shè)備;未示出),并且經(jīng)處理的事件被發(fā)送到管理器130。
[0040] 記錄系統(tǒng)170包括事件聚類模塊172。事件聚類模塊172被配置為接收組塊形式的 事件數(shù)據(jù),該事件數(shù)據(jù)包括元數(shù)據(jù)結(jié)構(gòu)和事件集合的壓縮版本??梢酝ㄟ^接收時(shí)間("rt") 來對事件集合成組。換句話說,事件可以被認(rèn)為是根據(jù)rt來聚類的。當(dāng)查詢事件數(shù)據(jù)時(shí), 元數(shù)據(jù)結(jié)構(gòu)可以充當(dāng)搜索索引(例如聚類索引)。事件聚類模塊172被配置為識別供進(jìn)一步 處理的組塊,并根據(jù)事件的發(fā)生的時(shí)間("et")來聚類來自這些所識別的組塊的事件。組塊 針對重新聚類的事件而被生成且例如被存儲在讀取優(yōu)化系統(tǒng)("R0S")中。下面將關(guān)于圖2 來進(jìn)一步描述記錄系統(tǒng)170。
[0041] 通過上面描述的架構(gòu),系統(tǒng)100可以支持集中式或分散式環(huán)境。這是有用的,因?yàn)?組織可能想要實(shí)施系統(tǒng)100的單個(gè)實(shí)例并使用訪問控制列表來劃分用戶。替代地,組織可 以選擇以針對多個(gè)組中的每一個(gè)組部署分離的系統(tǒng)100并匯集處于"主"級別的結(jié)果。這 樣的部署還可以實(shí)現(xiàn)"跟隨太陽"布置,其中通過把主要監(jiān)督責(zé)任傳遞給當(dāng)前工作標(biāo)準(zhǔn)業(yè)務(wù) 時(shí)間的組,地理上分散的對等組彼此合作。還可以在企業(yè)層級中部署系統(tǒng)100,在該企業(yè)層 級中,業(yè)務(wù)部門分離地工作并支持到集中式管理功能的匯總。
[0042] 事件數(shù)據(jù) 存儲在數(shù)據(jù)存儲系統(tǒng)中的數(shù)據(jù)的類型的示例是事件數(shù)據(jù)。事件是被收集且存儲在數(shù) 據(jù)存儲系統(tǒng)處的數(shù)據(jù)的實(shí)例。事件可以與已執(zhí)行的活動(dòng)或動(dòng)作相關(guān)聯(lián)或者描述已執(zhí)行的活 動(dòng)或動(dòng)作。通常,事件被一次生成且之后不改變。事件數(shù)據(jù)包括(一個(gè)或多個(gè))事件。事件 數(shù)據(jù)可以由記錄數(shù)據(jù)組成,該記錄數(shù)據(jù)可以由各種源(包括設(shè)備和應(yīng)用)生成并可以采用任 何格式。事件可以例如是記錄文件中的條目、系統(tǒng)記錄服務(wù)器中的條目、警告、警報(bào)、網(wǎng)絡(luò)分 組、電子郵件、通知等。
[0043] 事件數(shù)據(jù)可以被相關(guān)和分析以識別網(wǎng)絡(luò)安全威脅。安全事件是事件類型且是可被 分析以確定其是否與安全威脅相關(guān)聯(lián)的任何活動(dòng)。該活動(dòng)可以與用戶(還稱為行動(dòng)者)相關(guān) 聯(lián)以識別安全威脅和安全威脅的起因?;顒?dòng)可以包括登入、登出、通過網(wǎng)絡(luò)發(fā)送數(shù)據(jù)、發(fā)送 電子郵件、訪問應(yīng)用、讀取或?qū)懭霐?shù)據(jù)等。安全威脅包括被確定為指示可疑或不適當(dāng)行為的 活動(dòng),其可以通過網(wǎng)絡(luò)而被執(zhí)行或在連接到網(wǎng)絡(luò)的系統(tǒng)上被執(zhí)行。通過示例的方式,公共安 全威脅是用戶試圖通過網(wǎng)絡(luò)獲得對機(jī)密信息(諸如社會安全號碼、信用卡號碼等)的未授權(quán) 訪問。
[0044] 事件的數(shù)據(jù)源可以包括網(wǎng)絡(luò)設(shè)備、應(yīng)用、或下面描述的可操作以提供可用于識別 網(wǎng)絡(luò)安全威脅的事件數(shù)據(jù)的其它類型的數(shù)據(jù)源。事件數(shù)據(jù)是描述事件的數(shù)據(jù)。事件數(shù)據(jù) 可以在由數(shù)據(jù)源生成的記錄或消息中被捕獲。例如,侵入檢測系統(tǒng)(IDS)、侵入防止系統(tǒng) (IPS)、漏洞評價(jià)工具、防火墻、反病毒工具、反垃圾郵件工具和加密工具可以生成描述由源 執(zhí)行的活動(dòng)的記錄。事件數(shù)據(jù)可以例如由記錄文件或系統(tǒng)記錄服務(wù)器中的條目、警告、警 報(bào)、網(wǎng)絡(luò)分組、電子郵件或通知頁面來提供。
[0045] 事件數(shù)據(jù)包括隱式元數(shù)據(jù)和消息。隱式元數(shù)據(jù)可以包括關(guān)于生成了該事件的設(shè)備 或應(yīng)用的信息(例如,生成了該事件的設(shè)備或應(yīng)用("事件源")和何時(shí)從事件源接收到該事 件("接收時(shí)間"))。在一個(gè)實(shí)施例中,接收時(shí)間是日期/時(shí)間戳,并且事件源是網(wǎng)絡(luò)端點(diǎn)標(biāo) 識符(例如,IP地址或媒體接入控制(MAC)地址)和/或?qū)υ吹拿枋?,可能包括關(guān)于產(chǎn)品的 供應(yīng)商和版本的信息。時(shí)間屬性、源信息和其它信息用于把事件與用戶進(jìn)行相關(guān)并針對安 全威脅分析事件。時(shí)間屬性還可以被用作用于識別滿足查詢的事件的鍵。
[0046] 消息表示從事件源接收了什么,并可以采用任何形式(二進(jìn)制數(shù)據(jù)、字母數(shù)字?jǐn)?shù)據(jù) 等)。在一個(gè)實(shí)施例中,消息是自由形式的文本,其描述值得注意的場景或改變。在另一實(shí) 施例中,消息還包括顯式元數(shù)據(jù)。顯式元數(shù)據(jù)例如通過解析消息而獲得。當(dāng)事件源生成事 件時(shí),該事件通常包括指示該事件何時(shí)發(fā)生的信息("et")。事件發(fā)生時(shí)間(其通常是日期/ 時(shí)間戳)是顯式元數(shù)據(jù)的示例且頻繁地用于分析。
[0047] 在一個(gè)實(shí)施例中,如果事件不包括發(fā)生時(shí)間,則由事件接收器在它接收到該事件 時(shí)生成的隱式時(shí)間戳(下面描述的)被視為原始發(fā)生時(shí)間戳。隨著事件被處理且潛在地通過 各種系統(tǒng)而被轉(zhuǎn)發(fā),每個(gè)系統(tǒng)可以具有事件接收時(shí)間的隱式標(biāo)記。
[0048] 在一個(gè)實(shí)施例中,事件表示包括(一個(gè)或多個(gè))字段的數(shù)據(jù)結(jié)構(gòu),其中每個(gè)字段可 以包含值(有時(shí)稱為"屬性")。如果不同的事件包括相同類型的字段,則事件可以被組織在 表格中。表格的每行將表不不同的事件,并且表格的每列將表不不同的字段。
[0049] 記錄系統(tǒng)架構(gòu) 圖2是根據(jù)實(shí)施例的信息/事件管理系統(tǒng)的記錄系統(tǒng)200的拓?fù)淇驁D。在所圖示的實(shí) 施例中,記錄系統(tǒng)200包括事件接收器210、存儲管理器220和通信機(jī)構(gòu)230。雖然為了清 晰而示出了一個(gè)事件接收器210,但是系統(tǒng)200可以利用許多事件接收器210支持大量的并 發(fā)會話。在一個(gè)實(shí)施例中,每個(gè)事件接收器210與唯一標(biāo)識符相關(guān)聯(lián)。
[0050] 事件接收器210接收記錄數(shù)據(jù)240,處理記錄數(shù)據(jù)240并輸出數(shù)據(jù)"組塊"250。事 件數(shù)據(jù)可以以流的形式被接收。記錄數(shù)據(jù)可以包括事件。事件接收器210包括控制系統(tǒng) 255、緩存器260的集合和元數(shù)據(jù)結(jié)構(gòu)265??刂葡到y(tǒng)255通信地耦合到(一個(gè)或多個(gè))緩存 器260的集合和元數(shù)據(jù)結(jié)構(gòu)265。控制系統(tǒng)255控制事件接收器210的操作,把記錄數(shù)據(jù)分 離成一個(gè)或多個(gè)事件并確定每個(gè)事件何時(shí)被事件接收器210接收到??刂葡到y(tǒng)255在緩存 器260中存儲事件以及針對每個(gè)事件存儲反映事件何時(shí)被接收到的時(shí)間/日期戳,且還更 新元數(shù)據(jù)結(jié)構(gòu)265??刂葡到y(tǒng)255基于元數(shù)據(jù)結(jié)構(gòu)265和緩存器260的內(nèi)容生成數(shù)據(jù)組塊 250,如下面進(jìn)一步描述的,數(shù)據(jù)組塊250包括關(guān)于事件的信息。在一個(gè)實(shí)施例中,組塊包括 元數(shù)據(jù)結(jié)構(gòu)265和緩存器260內(nèi)容的壓縮版本。不同的組塊可以具有不同的大小,并且,可 以指定最大的大小。例如當(dāng)緩存器260被填滿時(shí)或者當(dāng)特定時(shí)間段("超時(shí)窗口")已經(jīng)過去 時(shí),最終生成組塊,在該特定時(shí)間段期間,緩存器260沒有接收到事件。
[0051] 每個(gè)緩存器260存儲關(guān)于一個(gè)或多個(gè)事件的信息。緩存器260的集合存儲基于行 的組塊和/或基于列的組塊。在一個(gè)實(shí)施例中,緩存器的大小是固定的,但該大小自身是可 配置的。如果不同的事件包括相同類型的字段,則事件可以被組織在表格中。表格的每行 可以表示不同的事件,并且表格的每列可以表示不同的字段。在一個(gè)實(shí)施例中,每個(gè)緩存 器260與特定字段相關(guān)聯(lián)且包括來自該字段("屬性")的值,該字段來自一個(gè)或多個(gè)事件。 在另一實(shí)施例中,每個(gè)緩存器260還包括指示哪個(gè)字段與該緩存器相關(guān)聯(lián)的標(biāo)識符("索引 ID")。
[0052] 例如,假設(shè)事件包括稱為源IP地址的字段,其值反映發(fā)起了由事件表示的動(dòng)作的 設(shè)備的IP地址。與源IP地址字段相關(guān)聯(lián)的緩存器260將包含一個(gè)或多個(gè)IP地址(針對作 為記錄數(shù)據(jù)240的一部分而被事件接收器210接收和處理的每個(gè)事件,一個(gè)IP地址)。緩 存器260還可能包含索引ID值" 100",其指示源IP地址字段。
[0053] 在另一實(shí)施例中,緩存器的集合還包括接收時(shí)間緩存器,其針對每個(gè)事件存儲反 映事件何時(shí)被事件接收器210接收到的時(shí)間/日期戳。
[0054] 元數(shù)據(jù)結(jié)構(gòu)265存儲關(guān)于緩存器260的集合的內(nèi)容的元數(shù)據(jù)。在一個(gè)實(shí)施例中, 這個(gè)元數(shù)據(jù)包括與接收了該事件的事件接收器210相關(guān)聯(lián)的唯一標(biāo)識符、緩存器的集合中 事件的數(shù)量、以及針對每個(gè)所關(guān)注的字段(例如,接收時(shí)間、事件發(fā)生時(shí)間)的反映在緩存器 的集合中的所有事件上該字段的值的范圍(例如時(shí)間范圍)的最小值和最大值。更具體地, 與其它信息一起,組塊的元數(shù)據(jù)可以包括用于標(biāo)示接收時(shí)間范圍的開始和結(jié)束的start_rt 和end_rt。另外,元數(shù)據(jù)可以包括用于標(biāo)示事件發(fā)生時(shí)間范圍的開始和結(jié)束的start_et和 end_et。當(dāng)查詢事件數(shù)據(jù)時(shí),元數(shù)據(jù)結(jié)構(gòu)265充當(dāng)索引(即,聚類索引)。
[0055] 在一個(gè)實(shí)施例中,接收時(shí)間("rt")是所關(guān)注的字段。在這個(gè)實(shí)施例中,元數(shù)據(jù)結(jié) 構(gòu)265存儲反映在緩存器的集合中的所有事件上接收時(shí)間的值的范圍的最小值和最大值。 rt的最小值是首次接收的緩存器260的集合中的事件的接收時(shí)間。rt的最大值是最后接 收的緩存器260的集合中的事件的接收時(shí)間。
[0056] 此外,事件發(fā)生時(shí)間("et")也是所關(guān)注的字段。因此,在這個(gè)實(shí)施例中,元數(shù)據(jù)結(jié) 構(gòu)265還存儲反映在緩存器的集合中的所有事件上事件發(fā)生時(shí)間的值的范圍的最小值和 最大值。et的最小值是所有事件中首次發(fā)生的事件的事件發(fā)生時(shí)間。et的最大值是所有 事件中最后發(fā)生的事件的事件發(fā)生時(shí)間。
[0057] 存儲管理器220接收(一個(gè)或多個(gè))數(shù)據(jù)組塊250并存儲它們以使得它們可以被查 詢。在一個(gè)實(shí)施例中,存儲管理器220以流傳輸?shù)姆绞讲僮鲝亩鴾p小存儲器開銷。存儲管 理器220包括控制系統(tǒng)270、數(shù)據(jù)文件表格275、組塊表格280、寫入優(yōu)化系統(tǒng)("W0S")283中 的數(shù)據(jù)文件285的集合以及讀取優(yōu)化系統(tǒng)("R0S")284中的數(shù)據(jù)文件286的集合。W0S 283 可以是以下各項(xiàng)中的任一個(gè):基于行的存儲系統(tǒng)、基于列的存儲系統(tǒng)、或混合行/列存儲系 統(tǒng)。同樣地,R0S 284可以是以下各項(xiàng)中的任一個(gè):基于行的存儲系統(tǒng)、基于列的存儲系統(tǒng)、 或混合行/列存儲系統(tǒng)。控制系統(tǒng)270通信地耦合到數(shù)據(jù)文件表格275、組塊表格280、以 及數(shù)據(jù)文件285和數(shù)據(jù)文件286的集合。
[0058] 控制系統(tǒng)270控制存儲管理器220的操作并包括聚類模塊276。聚類模塊276被 配置為確定組塊形式的事件數(shù)據(jù),其包括根據(jù)事件的接收時(shí)間("rt")而聚類的事件。經(jīng)由 WOS 283來訪問這個(gè)事件數(shù)據(jù)。事件聚類模塊276進(jìn)一步被配置為識別稀疏或重疊的組塊 并根據(jù)事件發(fā)生時(shí)間("et")來聚類來自那些所識別的組塊的事件。組塊252針對重新聚 類的事件而被生成且存儲在ROS 284中。
[0059] 數(shù)據(jù)文件表格275存儲關(guān)于數(shù)據(jù)文件285和數(shù)據(jù)文件286的集合的信息。在一個(gè) 實(shí)施例中,數(shù)據(jù)文件表格275中的每個(gè)條目表示已針對其分配空間的一個(gè)數(shù)據(jù)文件285或 一個(gè)數(shù)據(jù)文件286,并且該條目包括與數(shù)據(jù)文件相關(guān)聯(lián)的唯一標(biāo)識符和數(shù)據(jù)文件的位置(例 如,文件系統(tǒng)、其中的路徑和文件名)。在數(shù)據(jù)文件表格275中列出的數(shù)據(jù)文件285和數(shù)據(jù) 文件286可以或可以不包含數(shù)據(jù)(例如組塊250)。數(shù)據(jù)文件表格275例如被存儲在數(shù)據(jù)庫 (未示出)中。在一個(gè)實(shí)施例中,數(shù)據(jù)文件285和數(shù)據(jù)文件286在被需要之前被分配。在這 個(gè)實(shí)施例中,這些預(yù)分配的數(shù)據(jù)文件285和數(shù)據(jù)文件286的列表(稱為"自由列表")被維持。 數(shù)據(jù)文件表格275可以包括多個(gè)表格,例如具有與數(shù)據(jù)文件285相關(guān)聯(lián)的表格和與數(shù)據(jù)文 件286相關(guān)聯(lián)的另一表格。
[0060] 組塊表格280存儲并維持關(guān)于被存儲在存儲管理器220中(具體地,被存儲在(一 個(gè)或多個(gè))數(shù)據(jù)文件285和(一個(gè)或多個(gè))數(shù)據(jù)文件286中)的(一個(gè)或多個(gè))組塊250和組 塊252的信息。在一個(gè)實(shí)施例中,對于每個(gè)組塊250和組塊252,這個(gè)信息包括存儲在組塊 中的元數(shù)據(jù)和組塊的位置(例如,與存儲組塊的數(shù)據(jù)文件相關(guān)聯(lián)的唯一標(biāo)識符和數(shù)據(jù)文件 內(nèi)存儲組塊的位置(例如,作為偏移))。組塊表格280例如被存儲在數(shù)據(jù)庫(未示出)中。組 塊表格280可以包括多個(gè)表格,例如具有與數(shù)據(jù)文件285相關(guān)聯(lián)的表格和與數(shù)據(jù)文件286 相關(guān)聯(lián)的另一表格。
[0061] 數(shù)據(jù)文件285存儲多個(gè)組塊250。在一個(gè)實(shí)施例中,所有數(shù)據(jù)文件是相同大小的 (例如1千兆字節(jié))且按時(shí)間順序被組織。數(shù)據(jù)文件286存儲多個(gè)組塊252。在一個(gè)實(shí)施例 中,所有數(shù)據(jù)文件按時(shí)間順序被組織,其中數(shù)據(jù)文件285按接收時(shí)間的順序被組織,并且數(shù) 據(jù)文件286按事件發(fā)生時(shí)間的順序被組織。數(shù)據(jù)文件285和數(shù)據(jù)文件286例如存儲在原始 磁盤上或存儲在數(shù)據(jù)存儲系統(tǒng)(諸如文件系統(tǒng)(未示出))中。
[0062] 通信機(jī)構(gòu)230通信地耦合事件接收器210和存儲管理器220。在一個(gè)實(shí)施例中,通 信機(jī)構(gòu)230包括部分公用或完全公用的網(wǎng)絡(luò),諸如因特網(wǎng)。在其它實(shí)施例中,通信機(jī)構(gòu)230 包括專用網(wǎng)絡(luò)或一個(gè)或多個(gè)有區(qū)別的或邏輯的專用網(wǎng)絡(luò)(例如,虛擬專用網(wǎng)或局域網(wǎng))。通 往和來自通信機(jī)構(gòu)230的通信鏈路可以是有線的或無線的(例如基于陸地或基于衛(wèi)星的收 發(fā)器)。在一個(gè)實(shí)施例中,通信機(jī)構(gòu)230是分組交換網(wǎng)絡(luò),諸如使用以太網(wǎng)協(xié)議的基于IP的 廣域網(wǎng)或城域網(wǎng)。
[0063] 在另一實(shí)施例中,通信機(jī)構(gòu)230對單個(gè)計(jì)算機(jī)系統(tǒng)來說是本地的(例如,如果事件 接收器210的部分和存儲管理器220的部分在相同設(shè)備上執(zhí)行)。在這個(gè)實(shí)施例中,通信機(jī) 構(gòu)230例如通過本地的、僅軟件的環(huán)回設(shè)備而實(shí)施。例如,數(shù)據(jù)被復(fù)制到存儲器中的各個(gè)位 置,并且,經(jīng)由API來進(jìn)行通信。
[0064] 在又一實(shí)施例中,通信機(jī)制230對單個(gè)過程來說是本地的(例如,如果事件接收器 210的部分和存儲管理器220的部分在相同設(shè)備上且在相同過程中執(zhí)行)。在這個(gè)實(shí)施例 中,通信機(jī)構(gòu)230例如通過共享的存儲器和/或指向其的指針而實(shí)施。
[0065] 檢查點(diǎn) 為了確??煽啃?,存儲管理器220成批(例如1000個(gè)組塊)處理事件并在處理每個(gè)組塊 批次之后創(chuàng)建檢查點(diǎn)。檢查點(diǎn)被創(chuàng)建所依照的頻率是可配置的。檢查點(diǎn)可以被認(rèn)為是指示 數(shù)據(jù)已被處理直到特定時(shí)間點(diǎn)的標(biāo)志。在系統(tǒng)崩潰發(fā)生時(shí),系統(tǒng)可以從該標(biāo)志被設(shè)置之后 的時(shí)間點(diǎn)重新開始處理數(shù)據(jù)。
[0066] 基于事件發(fā)生時(shí)間的聚類 圖3A是根據(jù)實(shí)施例的基于事件發(fā)生時(shí)間生成事件組塊的過程流程圖。所描繪的過程 流程300可以通過對可執(zhí)行指令序列的執(zhí)行而實(shí)施。在另一實(shí)施例中,過程流程300的各 個(gè)部分由信息/事件管理系統(tǒng)、硬件邏輯的布置(例如專用集成電路(ASIC))等的組件來實(shí) 施。例如,過程流程300的框可以通過信息/事件管理系統(tǒng)的聚類模塊中可執(zhí)行指令序列 的執(zhí)行而執(zhí)行。
[0067] 沿多個(gè)時(shí)間維度來聚類事件,并且針對每個(gè)相關(guān)時(shí)間維度維持索引。在一個(gè)實(shí)施 例中,所有事件沿主要時(shí)間維度而被聚類,并且這些事件的子集沿次要時(shí)間維度而被重新 聚類。被重新聚類的事件是作為(沿主要時(shí)間維度的)聚類的一部分的那些事件,該聚類不 具有針對相關(guān)時(shí)間維度的最小化范圍和/或最大化組塊大小。如本文中使用的,組塊大小 指代組塊中事件的數(shù)量。
[0068] 在一個(gè)實(shí)施例中,事件是通過接收時(shí)間("rt")來聚類的,該接收時(shí)間("rt")是主 要時(shí)間維度,并且,所產(chǎn)生的組塊被保存在寫入優(yōu)化存儲器中。次要時(shí)間維度可以是事件發(fā) 生時(shí)間("et")。如下面描述的,步驟305-315描述了確定組塊的密度級別的過程。密度級 別用來標(biāo)識用于重新聚類(即,根據(jù)次要時(shí)間維度的聚類)的事件的子集。確定密度級別可 以在組塊被生成、接收或存儲(例如在數(shù)據(jù)文件中)之后被離線執(zhí)行。替代地,隨著密度級別 被接收到,以流傳輸?shù)姆绞酱_定該密度級別。
[0069] 在步驟305,將與組塊相關(guān)聯(lián)的元數(shù)據(jù)讀取到例如存儲器。除了其它信息之外,組 塊的元數(shù)據(jù)包括用于標(biāo)示被成組在特定組塊中的事件的開始和結(jié)束時(shí)間范圍的start_rt、 end_rt、start_et和end_et。每個(gè)組塊包括基于關(guān)聯(lián)的接收時(shí)間而聚類的事件的集合。關(guān) 聯(lián)的元數(shù)據(jù)可以被存儲在組塊中且因此從組塊中被提取。當(dāng)組塊被生成、接收時(shí)或者在組 塊已被存儲(例如在數(shù)據(jù)文件中)之后,可以提取元數(shù)據(jù)。在另一實(shí)施例中,元數(shù)據(jù)被與數(shù)據(jù) 文件分離地存儲且例如從組塊表格中檢索。如前面描述的,元數(shù)據(jù)結(jié)構(gòu)充當(dāng)索引。照此,與 每個(gè)聚類關(guān)聯(lián)的元數(shù)據(jù)結(jié)構(gòu)可以包括針對(通過接收時(shí)間而聚類的)組塊的接收時(shí)間的范 圍的索引和針對相同組塊的事件發(fā)生時(shí)間的范圍的另一索引。
[0070] 在步驟310,基于組塊中的事件的事件發(fā)生時(shí)間的范圍來確定組塊的密度級別。事 件發(fā)生時(shí)間的范圍是從關(guān)聯(lián)的元數(shù)據(jù)確定的??梢酝ㄟ^將組塊中事件的總數(shù)除以事件發(fā)生 時(shí)間的范圍來確定密度級別,例如 :
【權(quán)利要求】
1. 一種用于處理記錄數(shù)據(jù)的方法,所述方法包括: 通過計(jì)算設(shè)備確定數(shù)據(jù)組塊的集合,每個(gè)數(shù)據(jù)組塊包括事件的集合,所述事件是根據(jù) 事件的集合中的每個(gè)事件的主要時(shí)間維度字段來聚類的; 對于數(shù)據(jù)組塊的集合中的每個(gè)數(shù)據(jù)組塊,確定元數(shù)據(jù)結(jié)構(gòu),所述元數(shù)據(jù)結(jié)構(gòu)包括數(shù)據(jù) 組塊中所有事件的主要時(shí)間維度字段的范圍和數(shù)據(jù)組塊中所有事件的次要時(shí)間維度字段 的范圍; 選擇所述數(shù)據(jù)組塊的子集; 把所述數(shù)據(jù)組塊的子集分解成多個(gè)事件;以及 生成包括所述多個(gè)事件中的至少一個(gè)事件的數(shù)據(jù)組塊,該事件是根據(jù)所述至少一個(gè)事 件的次要時(shí)間維度字段而被聚類在所述數(shù)據(jù)組塊中的。
2. 根據(jù)權(quán)利要求1的方法,其中所述主要時(shí)間維度字段的范圍包括數(shù)據(jù)組塊中所有事 件的主要時(shí)間維度字段的最小值和數(shù)據(jù)組塊中所有事件的主要時(shí)間維度字段的最大值,并 且其中次要時(shí)間維度字段的范圍包括數(shù)據(jù)組塊中所有事件的次要時(shí)間維度字段的最小值 和數(shù)據(jù)組塊中所有事件的次要時(shí)間維度字段的最大值。
3. 根據(jù)權(quán)利要求1的方法,其中選擇子集包括:針對所述數(shù)據(jù)組塊的集合中的每個(gè)數(shù) 據(jù)組塊: 確定組塊的密度級別;以及 如果所述數(shù)據(jù)組塊是稀疏組塊或密集組塊,則基于組塊的密度級別,確定所述子集包 括所述數(shù)據(jù)組塊。
4. 根據(jù)權(quán)利要求3的方法,其中確定密度級別包括: 確定與組塊相關(guān)聯(lián)的事件的數(shù)量;以及 將所述事件的數(shù)量除以組塊的事件的次要時(shí)間維度字段的范圍。
5. 根據(jù)權(quán)利要求3的方法,還包括: 將組塊的次要時(shí)間維度字段的范圍與密集時(shí)間范圍閾值相比較; 如果該范圍滿足所述密集時(shí)間范圍閾值,則確定組塊是密集組塊; 將組塊的次要時(shí)間維度字段的范圍與稀疏時(shí)間范圍閾值相比較;以及 如果該范圍滿足所述稀疏時(shí)間范圍閾值,則確定組塊是稀疏組塊。
6. 根據(jù)權(quán)利要求5的方法,還包括: 將組塊的次要時(shí)間維度字段的范圍與所述稀疏組塊的次要時(shí)間維度字段的范圍相比 較;以及 如果組塊的范圍與所述稀疏組塊的范圍重疊,則確定組塊是重疊組塊。
7. 根據(jù)權(quán)利要求1的方法,其中多個(gè)數(shù)據(jù)組塊被生成,并且其中所述數(shù)據(jù)組塊的密度 級別在多個(gè)所生成的數(shù)據(jù)組塊之間被平衡。
8. 根據(jù)權(quán)利要求1的方法,其中所述主要時(shí)間維度字段是事件接收時(shí)間。
9. 根據(jù)權(quán)利要求1的方法,其中所述次要時(shí)間維度字段是事件發(fā)生時(shí)間。
10. 根據(jù)權(quán)利要求1的方法,還包括: 把所生成的組塊存儲在讀取優(yōu)化存儲器中的數(shù)據(jù)文件中;以及 把所述元數(shù)據(jù)結(jié)構(gòu)更新成包括關(guān)于所生成的組塊的信息。
11. 根據(jù)權(quán)利要求1的方法,其中所述元數(shù)據(jù)結(jié)構(gòu)還包括寫入優(yōu)化存儲器中組塊的集 合中的每個(gè)組塊的位置和讀取優(yōu)化存儲器中所生成的組塊的位置。
12. 根據(jù)權(quán)利要求1的方法,還包括: 接收搜索查詢,所述搜索查詢包括搜索項(xiàng)的集合; 從所述搜索項(xiàng)的集合中識別涉及被包含在所述元數(shù)據(jù)結(jié)構(gòu)中的事件時(shí)間信息的至少 一個(gè)搜索項(xiàng);以及 通過把所識別的搜索項(xiàng)與所述主要時(shí)間維度字段的最小值以及與所述次要時(shí)間維度 字段的最小值相比較來搜索所述元數(shù)據(jù)結(jié)構(gòu)。
13. 根據(jù)權(quán)利要求12的方法,還包括: 識別滿足所述搜索項(xiàng)的數(shù)據(jù)組塊;以及 從讀取優(yōu)化存儲器中檢索所識別的數(shù)據(jù)組塊。
14. 一種用于處理記錄數(shù)據(jù)的系統(tǒng),包括: 接收模塊,用于生成數(shù)據(jù)組塊的集合,每個(gè)數(shù)據(jù)組塊包括事件的集合,所述事件是根據(jù) 事件的集合中的每個(gè)事件的主要時(shí)間維度字段來聚類的; 組塊表格,用于對于數(shù)據(jù)組塊的集合中的每個(gè)數(shù)據(jù)組塊維持元數(shù)據(jù)結(jié)構(gòu),所述元數(shù)據(jù) 結(jié)構(gòu)包括數(shù)據(jù)組塊中所有事件的主要時(shí)間維度字段的范圍和數(shù)據(jù)組塊中所有事件的次要 時(shí)間維度字段的范圍; 讀取優(yōu)化存儲器,用于存儲所述數(shù)據(jù)組塊的子集; 寫入優(yōu)化存儲器;以及 聚類模塊,用于選擇所述數(shù)據(jù)組塊的子集,并使用所述子集的事件生成數(shù)據(jù)組塊,其中 所述子集的事件是根據(jù)次要時(shí)間維度字段來成組的。
15. -種非瞬變計(jì)算機(jī)可讀介質(zhì),存儲用于控制數(shù)據(jù)處理器處理記錄數(shù)據(jù)的多個(gè)指令, 所述多個(gè)指令包括使所述數(shù)據(jù)處理器執(zhí)行如下操作的指令: 確定數(shù)據(jù)組塊的集合,每個(gè)數(shù)據(jù)組塊包括事件的集合,所述事件是根據(jù)事件的集合中 的每個(gè)事件的主要時(shí)間維度字段來聚類的; 對于數(shù)據(jù)組塊的集合中的每個(gè)數(shù)據(jù)組塊,確定元數(shù)據(jù)結(jié)構(gòu),所述元數(shù)據(jù)結(jié)構(gòu)包括數(shù)據(jù) 組塊中所有事件的主要時(shí)間維度字段的范圍和數(shù)據(jù)組塊中所有事件的次要時(shí)間維度字段 的范圍; 選擇所述數(shù)據(jù)組塊的子集; 把所述數(shù)據(jù)組塊的子集分解成多個(gè)事件;以及 生成包括所述多個(gè)事件中的至少一個(gè)事件的數(shù)據(jù)組塊,所述至少一個(gè)事件是根據(jù)所述 至少一個(gè)事件的次要時(shí)間維度字段而被聚類在所述數(shù)據(jù)組塊中的。
【文檔編號】G06F21/55GK104067281SQ201280068235
【公開日】2014年9月24日 申請日期:2012年1月26日 優(yōu)先權(quán)日:2011年11月28日
【發(fā)明者】D.達(dá)什, W.唐, M.奧拉亞尼 申請人:惠普發(fā)展公司,有限責(zé)任合伙企業(yè)