專利名稱:用于多處理環(huán)境中的數(shù)據(jù)聚合的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及在分布式處理環(huán)境中的數(shù)據(jù)管理,特別是,涉及用于以容錯方式從分布式處理環(huán)境的多個處理單元收集(collection)和聚合(aggregation)數(shù)據(jù)。
背景技術(shù):
在分布式處理環(huán)境(例如,集群環(huán)境)中,從環(huán)境的多個處理單元收集和聚合(aggregate)數(shù)據(jù)。該聚合數(shù)據(jù)能在許多任務(wù)中使用,這些任務(wù)包括但不限于在處理環(huán)境內(nèi)的工作負(fù)荷管理。
在以前,為了收集該數(shù)據(jù),由處理單元將數(shù)據(jù)發(fā)送到環(huán)境的中央管理器。然后,中央管理器負(fù)責(zé)將數(shù)據(jù)聚合。然而,在處理單元與中央管理器之間的通信介質(zhì)是非可靠的,因此,會丟失數(shù)據(jù)和/或反復(fù)發(fā)送數(shù)據(jù)。這導(dǎo)致數(shù)據(jù)聚合的不準(zhǔn)確。
發(fā)明內(nèi)容
基于以上描述,需要一種用于從環(huán)境的多個處理單元收集和聚合數(shù)據(jù)的增強(qiáng)型設(shè)備。特別是,需要一種用于數(shù)據(jù)收集和聚合的容錯設(shè)備,其中,中央管理器能夠容許數(shù)據(jù)的丟失和重復(fù)。
通過提供一種用于在多處理環(huán)境中進(jìn)行數(shù)據(jù)聚合的方法,克服現(xiàn)有技術(shù)的缺點(diǎn),并提供額外的優(yōu)點(diǎn)。該方法包括例如由處理環(huán)境的中央管理器對處理環(huán)境的多個處理單元的多個處理單元中每個處理單元的本地聚合數(shù)據(jù)進(jìn)行跟蹤,其中,處理單元的本地聚合數(shù)據(jù)是關(guān)于該處理單元的數(shù)據(jù),且其中,跟蹤確保重復(fù)的本地聚合數(shù)據(jù)和過時的本地聚合數(shù)據(jù)被丟棄;和由中央管理器聚合該多個處理單元的本地聚合數(shù)據(jù),以獲得多處理環(huán)境的總聚合數(shù)據(jù)。
在另一實(shí)施例中,提供了一種在多處理環(huán)境中聚合數(shù)據(jù)的方法。該方法包括例如由多處理環(huán)境的多個處理單元的多個處理單元中每個處理單元對數(shù)據(jù)進(jìn)行本地聚合,本地聚合確保不會丟失要聚合的任何數(shù)據(jù),其中,處理單元的本地聚合數(shù)據(jù)包括與該處理單元有關(guān)的數(shù)據(jù);由該多處理單元的每個處理單元將其本地聚合數(shù)據(jù)通過一個或多個非可靠連接轉(zhuǎn)發(fā)到中央管理器,其中,該轉(zhuǎn)發(fā)容許零或更多次失敗的轉(zhuǎn)發(fā)嘗試;由中央管理器對每個處理單元的本地聚合數(shù)據(jù)進(jìn)行跟蹤,其中,跟蹤確保重復(fù)的本地聚合數(shù)據(jù)和過時的本地聚合數(shù)據(jù)被丟棄;和由中央管理器對該多個處理單元的本地聚合數(shù)據(jù)進(jìn)行聚合,以獲得多處理環(huán)境的可靠總聚合數(shù)據(jù)。
此外,此處還描述和要求保護(hù)對應(yīng)于上述方法的系統(tǒng)和計算機(jī)程序產(chǎn)品。
通過本發(fā)明的技術(shù),可實(shí)現(xiàn)更多特征和優(yōu)點(diǎn)。此處,更詳細(xì)地描述本發(fā)明的其他實(shí)施例和方面,并將其視為所要求保護(hù)的發(fā)明的一部分。
下面,將具體指出本發(fā)明的一個或多個方面,其被明確聲明作為說明書結(jié)束后權(quán)利要求范圍內(nèi)的示例。結(jié)合附圖,通過下面的詳細(xì)描述,會明白本發(fā)明的上述及其他目的、特征和優(yōu)點(diǎn),其中圖1表示包含并使用本發(fā)明的一個或多個方面的處理環(huán)境的一個實(shí)施例;圖2根據(jù)本發(fā)明的方面表示如圖所示處理單元的更多細(xì)節(jié);圖3根據(jù)本發(fā)明的方面表示與按照容錯方式收集和聚合數(shù)據(jù)相關(guān)聯(lián)的邏輯的一個實(shí)施例;圖4根據(jù)本發(fā)明的方面表示響應(yīng)在處理環(huán)境內(nèi)重新啟動,與收集和聚合數(shù)據(jù)相關(guān)聯(lián)的邏輯的一個實(shí)施例;圖5根據(jù)本發(fā)明的方面表示中央管理器收集數(shù)據(jù)、聚合數(shù)據(jù)和處理丟失數(shù)據(jù)的一個具體實(shí)例;和圖6表示包含本發(fā)明的一個或多個方面的計算機(jī)程序產(chǎn)品的一個示例。
具體實(shí)施例方式
根據(jù)本發(fā)明的方面,提供一種容錯功能,以便可靠地收集和聚合來自多個處理單元的不同數(shù)據(jù)。在一處理單元處,對該處理單元的數(shù)據(jù)進(jìn)行收集和本地聚合。存儲本地聚合數(shù)據(jù),并將其定期轉(zhuǎn)發(fā)到中央管理器。響應(yīng)于接收數(shù)據(jù),中央管理器確定在處理環(huán)境的數(shù)據(jù)總聚合中是否應(yīng)包括該數(shù)據(jù)。如果確定應(yīng)包括該數(shù)據(jù),則中央管理器將該數(shù)據(jù)添加到總聚合中。然后,中央管理器可在若干種情形(包括例如份額調(diào)度情形)中使用總聚合。
下面,參照圖1,描述包括和使用本發(fā)明的一個或多個方面的處理環(huán)境的一個實(shí)施例。在一個示例中,處理環(huán)境為分布式處理環(huán)境,例如,集群環(huán)境,在其中,共享環(huán)境資源以執(zhí)行系統(tǒng)任務(wù)。盡管此處將集群環(huán)境描述成包括和使用本發(fā)明的一個或多個方面,不過,其他類型的環(huán)境,包括非集群環(huán)境,也可從本發(fā)明的一個或多個方面受益。
圖1表示包括例如多個處理單元102的集群環(huán)境100,該多個處理單元102通過一個或多個連接106與至少一個其他處理單元104相連。連接106例如為非可靠的連接,包括但不限于有線連接、無線連接或任何類型的網(wǎng)絡(luò)連接,例如局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、令牌環(huán)、以太網(wǎng)連接等?;蛘撸部赏ㄟ^一個或多個連接將處理單元102與一個或多個其他處理單元102相連接。
在一個示例中,處理單元包括例如個人計算機(jī)、膝上型計算機(jī)、工作站、主機(jī)、小型機(jī)或任何其他類型的處理單元。作為一個具體示例,每個處理單元為國際商用機(jī)器公司(紐約Armonk)提供的pSeries服務(wù)器?!皃Series”為國際商用機(jī)器公司(紐約Armonk)的注冊商標(biāo)。每個處理單元可以是與另一單元類型相同或不同的處理單元。在一個示例中,每個處理單元都執(zhí)行操作系統(tǒng),例如,Linux,或國際商用機(jī)器公司提供的AIX?!癆IX”為國際商用機(jī)器公司(紐約Armonk)的注冊商標(biāo)。一個處理單元的操作系統(tǒng)可以與另一處理單元的操作系統(tǒng)相同或不同。此外,在其他示例中,一個或多個處理單元可以不包括操作系統(tǒng)。
根據(jù)本發(fā)明的方面,每個處理單元102(或其子集)為數(shù)據(jù)的收集器,因此,此處將其稱為收集器或收集器機(jī)器。例如,當(dāng)在處理單元上執(zhí)行的作業(yè)終止時,或以定期間隔,收集器收集關(guān)于在該處理單元上進(jìn)行處理的作業(yè)的資源利用信息。然后,將收集器收集的信息轉(zhuǎn)發(fā)到處理單元104,此處將處理單元104稱為中央管理器。中央管理器負(fù)責(zé)對處理環(huán)境的各種任務(wù)進(jìn)行全局管理。例如,中央管理器包括用于在環(huán)境內(nèi)進(jìn)行公平份額調(diào)度的作業(yè)調(diào)度器,并將收集的信息用于公平份額調(diào)度。特別是,在該示例中,每個收集器收集數(shù)據(jù),該數(shù)據(jù)對于由中央管理器(例如,作業(yè)調(diào)度器)用于調(diào)度要執(zhí)行的作業(yè)的合成數(shù)據(jù)聚合形成貢獻(xiàn)。
下面,參照圖2,描述關(guān)于收集器和中央管理器的更多細(xì)節(jié)。在一個實(shí)施例中,每個收集器102包括有存儲器200,用于存儲所收集數(shù)據(jù)的本地聚合202。該數(shù)據(jù)對收集它的收集器而言是惟一的,這是由于該數(shù)據(jù)與執(zhí)行在該收集器上的作業(yè)相關(guān)聯(lián)。在一個示例中,數(shù)據(jù)包括或具有與其關(guān)聯(lián)的時間戳,用于表明數(shù)據(jù)最近何時被聚合。收集器102還包括數(shù)據(jù)庫204或與數(shù)據(jù)庫204相連接,在數(shù)據(jù)庫204中,存儲有本地聚合數(shù)據(jù)的持久性(persistent)拷貝。數(shù)據(jù)庫204例如存儲在與收集器102相連的存儲介質(zhì)(例如,磁盤)上。
每個收集器102將其本地聚合數(shù)據(jù)發(fā)送到中央管理器104,中央管理器104保持有收集器的數(shù)據(jù)的本地拷貝210。中央管理器104還包括數(shù)據(jù)結(jié)構(gòu),例如表212,表212具有列表214,其中具有針對每個收集器的表項。列表中的每個表項存儲有從相應(yīng)收集器接收的最新聚合值的本地拷貝及其時間戳。表212也包括總聚合值216,總聚合值216為來自列表的所有本地拷貝的聚合。
下面,參照圖3,描述與多個收集器收集和聚合數(shù)據(jù)相關(guān)聯(lián)的邏輯的一個實(shí)施例。最初,當(dāng)收集器上處理的作業(yè)終止時,或以定期間隔,收集器收集與該作業(yè)相關(guān)的新數(shù)據(jù),并本地聚合該數(shù)據(jù)。例如,收集器可收集所報告的該作業(yè)所用CPU時間的量,并將該時間與已收集的CPU時間聚合。將該本地聚合數(shù)據(jù)保存在收集器的存儲器中,或保存在數(shù)據(jù)庫中以進(jìn)行持久保存。這確保不會丟失任何新數(shù)據(jù)。
之后,例如以定期間隔(例如,每2分鐘)或當(dāng)作業(yè)終止時,收集器將其本地聚合數(shù)據(jù)和表明數(shù)據(jù)何時被聚合的時間戳發(fā)送到中央管理器,步驟302。在一個示例中,該信息通過非可靠的通信連接發(fā)送。
當(dāng)中央管理器從收集器接收本地聚合數(shù)據(jù)時,它確定數(shù)據(jù)是否過時,質(zhì)詢304。在一個示例中,通過將與數(shù)據(jù)一起發(fā)送的時間戳與在中央管理器處已存儲的針對該收集器的數(shù)據(jù)的時間戳或缺省值進(jìn)行比較,來實(shí)現(xiàn)該確定。如果在輸入數(shù)據(jù)上的時間戳早先于表項中的數(shù)據(jù),則丟棄輸入數(shù)據(jù),步驟306。否則,中央管理器更新該收集器的本地聚合數(shù)據(jù),步驟308。在一個示例中,用新數(shù)據(jù)代替在表中與發(fā)送該數(shù)據(jù)的收集器相關(guān)聯(lián)的聚合值。此外,例如,通過以新數(shù)據(jù)代替在舊總聚合數(shù)據(jù)中的舊數(shù)據(jù),或通過將本地拷貝加在一起以得到新總聚合數(shù)據(jù),對總聚合數(shù)據(jù)進(jìn)行更新,步驟310。
通過以上述方式收集和聚合數(shù)據(jù),能夠容許失序(out-of-order)更新和/或丟失數(shù)據(jù)。此外,如有必要重新啟動收集器和/或中央管理器,則保留該數(shù)據(jù)。下面,將參照圖4對此進(jìn)行更詳細(xì)的描述。
當(dāng)重新啟動(或啟動)收集器時,中央管理器104請求收集器向中央管理器發(fā)送其本地聚合數(shù)據(jù),步驟400。在另一實(shí)施例中,收集器在不被提示的條件下發(fā)送信息。收集器從其本地數(shù)據(jù)庫讀取數(shù)據(jù),步驟402,并將本地聚合數(shù)據(jù)及其從本地數(shù)據(jù)庫恢復(fù)的時間戳發(fā)送到中央管理器,步驟404。數(shù)據(jù)通過或許并不可靠的通信介質(zhì)發(fā)送。從而,在收集器重試和發(fā)送重復(fù)更新的情形中,中央管理器容許多次接收相同數(shù)據(jù)的情形,這是因為它僅替換列表中合適本地表項中的數(shù)據(jù),并重新計算總聚合值。如果中央管理器接收失序更新,它忽略/丟棄時間戳舊于相應(yīng)本地表項上時間戳的任何更新。由于較遲更新(從收集器角度看,由中央管理器在較早更新之前接收)已包括較舊更新,相應(yīng)本地聚合是有效的。在因不可靠連接而使來自收集器的一個或多個更新丟失的情形中,由于數(shù)據(jù)在收集器上是持久的,下一個成功的更新包括丟失更新的所有貢獻(xiàn)。
如果中央管理器失效并重新啟動,步驟406,則用來自被請求的更新的數(shù)據(jù)填充表中的本地表項,步驟408。由于數(shù)據(jù)在收集器處是持久的,從而不會丟失任何數(shù)據(jù)。在另一實(shí)施例中,可將中央管理器處的本地數(shù)據(jù)保持在持久存儲狀態(tài),如果重新啟動中央管理器則可使用該數(shù)據(jù)。
下面,參照圖5,描述收集器收集和存儲數(shù)據(jù),以及通過收集器對中央管理器進(jìn)行更新的一個具體示例。圖5還表示出處理丟失數(shù)據(jù)的示例。在該示例中,使用聚合算子“+”,給定數(shù)據(jù)A和B構(gòu)成A+B。已知“+”算子是服從結(jié)合律的,從而,(A+B)+C等于A+(B+C)。此外,“+”可為時間相關(guān)操作。例如,(r1,t1)+(r2,t2)=(r,t2),且r=r1*exp(-k*(t2-t1))+r2,其中,k為延遲常數(shù)。
作為具體示例,對于在一組分布式機(jī)器上執(zhí)行的作業(yè),收集的數(shù)據(jù)為作業(yè)資源利用數(shù)據(jù),例如,作業(yè)CPU數(shù)據(jù)。數(shù)據(jù)的聚合將由工作負(fù)荷管理系統(tǒng)的調(diào)度器使用。也可存在其他示例和變型例。
參照圖5,在步驟500中,在時間t1(例如,時間0-當(dāng)前時間)收集器1接收新數(shù)據(jù)片r1(例如,100CPU分鐘)。在步驟502,收集器1更新其本地聚合R1為r1,將T1更新為t1,從而,R1=100,T1=0。在步驟504,收集器1使用新R1/T1值更新其本地數(shù)據(jù)庫DB1。在步驟506,收集器1將其新本地聚合R1=100/T1=0發(fā)送到中央管理器104。在步驟508處,中央管理器接收更新,并利用R1/T1對收集器1的表項509進(jìn)行更新,并重新計算總聚合為R=r1=100,T=t1=0(510)。
在步驟511中,在時間t2(例如,50秒)收集器2接收新數(shù)據(jù)片r2(例如,200CPU分鐘)。在步驟512,收集器2更新其本地聚合R2為r2,將T2更新為t2,從而,R2=200,T2=50。在步驟514,收集器2使用新R2=200/T2=50值更新其本地數(shù)據(jù)庫DB2。然后,在步驟516,收集器2將其新本地聚合R2/T2發(fā)送到中央管理器。但在該情形中,事務(wù)出現(xiàn)丟失。
在步驟518中,在時間t3(例如,150秒)收集器2接收新數(shù)據(jù)片r3(例如,120CPU分鐘)。在步驟520,收集器2更新其本地聚合R2為r2+r3,將T2更新為t3。該更新有益地包括在步驟516處丟失的更新。從而,R2=r2+r3=320,T2=r3=150。在步驟522,收集器2使用新R2/T2值更新其本地數(shù)據(jù)庫DB2。然后,在步驟524,收集器2將其新本地聚合R2=320/T2=150發(fā)送到中央管理器。在步驟526處,中央管理器104利用R2/T2對收集器2的表項進(jìn)行更新,并重新計算總聚合為R=r1+r2+r3=420,T=t3=150。
以上詳細(xì)描述了能夠以容錯方式從多個處理單元收集和聚合數(shù)據(jù)的收集和聚合功能。
可將本發(fā)明的一個或多個方面包括在例如具有計算機(jī)可用介質(zhì)的制造產(chǎn)品(例如,一個或多個計算機(jī)程序產(chǎn)品)中。此處,介質(zhì)例如具有用于提供和實(shí)現(xiàn)本發(fā)明的一個或多個方面的功能的計算機(jī)可讀程序代碼裝置或邏輯(例如,指令、代碼、命令等)??蓪⒅圃飚a(chǎn)品作為計算機(jī)系統(tǒng)的一部分包括在內(nèi),或單獨(dú)將其出售。
下面,參照圖6,描述包括本發(fā)明的一個或多個方面的制造產(chǎn)品或計算機(jī)程序產(chǎn)品的一個示例。計算機(jī)程序產(chǎn)品600例如包括一個或多個計算機(jī)可用介質(zhì)602,以便在其上存儲用于提供和實(shí)現(xiàn)本發(fā)明的一個或多個方面的計算機(jī)可讀程序代碼裝置或邏輯604。該介質(zhì)可為電子、磁、光、電磁、紅外或半導(dǎo)體系統(tǒng)(或裝置或設(shè)備)或傳播介質(zhì)。計算機(jī)可讀介質(zhì)的示例包括半導(dǎo)體或固態(tài)存儲器、磁帶、可移動計算機(jī)磁盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、硬磁盤和光盤。光盤的示例包括只讀光盤(CD-ROM)、可擦寫光盤(CD-R/W)和DVD。
由一個或多個計算機(jī)可讀程序代碼裝置或邏輯定義的程序指令序列或一個或多個相關(guān)模塊的邏輯組件,控制著本發(fā)明的一個或多個方面的執(zhí)行。
可將此處所述功能的一個或多個方面包括在多個產(chǎn)品中,這些產(chǎn)品包括但不限于工作負(fù)荷管理產(chǎn)品,如國際商用機(jī)器公司提供的Tivoli Workload Scheduler LoadLeveler?!癓oadLeveler”是國際商用機(jī)器公司(紐約Armonk)的注冊商標(biāo)。其他產(chǎn)品包括但不限于其他工作負(fù)荷管理產(chǎn)品,能夠包括本發(fā)明的一個或多個方面。
有利的是,本發(fā)明的一個或多個方面能夠?qū)崿F(xiàn)自多個處理單元的容錯數(shù)據(jù)收集和聚合。重復(fù)數(shù)據(jù)、失序數(shù)據(jù)和丟失數(shù)據(jù)都能被容許。每個收集器保持有本地聚合數(shù)據(jù)的數(shù)據(jù)庫,其在收集器失效的情形中是持久的。此外,中央管理器也保持有收集器的本地聚合數(shù)據(jù)的存儲器拷貝或者持久性拷貝,并使用時間戳確定是否將接收的本地聚合數(shù)據(jù)包括在環(huán)境的總聚合數(shù)據(jù)中。
盡管在此提供了一個或多個示例,但它們僅作為示例。在不偏離本發(fā)明精神的條件下,可對這些示例進(jìn)行多種變型。例如,除此處所提供示例之外的處理環(huán)境也可包括和/或受益于本發(fā)明的一個或多個方面。例如,環(huán)境可以不是集群環(huán)境和/或其可包括比此處所述或多或少的處理單元。此外,該環(huán)境可包括除Linux或AIX之外的操作系統(tǒng)。此外,還可使用除此處所述之外的其他網(wǎng)絡(luò)和/或連接。此外,一個或多個處理單元可不同于pSeries服務(wù)器。存在多種其他變型。
例如,適用于存儲和/或執(zhí)行程序代碼的數(shù)據(jù)處理系統(tǒng)用于包括通過系統(tǒng)總線與存儲器單元直接或間接相連的至少一個處理器。存儲器單元包括例如在程序代碼實(shí)際執(zhí)行期間采用的本地存儲器、大容量存儲器和為至少某些程序代碼提供臨時存儲以便減少在執(zhí)行期間必須從大容量存儲器檢索代碼次數(shù)的高速緩沖存儲器。
可將輸入/輸出或I/O設(shè)備(包括但不限于鍵盤、顯示器、指點(diǎn)設(shè)備等)直接或通過中間I/O控制器與系統(tǒng)連接。此外,還可將網(wǎng)絡(luò)適配器與系統(tǒng)連接,以便使數(shù)據(jù)處理系統(tǒng)變?yōu)橥ㄟ^中間專用或公用網(wǎng)絡(luò)與其他數(shù)據(jù)處理系統(tǒng)或遠(yuǎn)程打印機(jī)或存儲設(shè)備連接。調(diào)制解調(diào)器、電纜調(diào)制解調(diào)器和以太網(wǎng)卡僅是可用類型的網(wǎng)絡(luò)適配器中的一些。
作為其他變型例,還可使用多于一個的中央管理器,和/或可收集和聚合除資源利用數(shù)據(jù)之外的數(shù)據(jù)。存在多種其他變型。
可將本發(fā)明的一個或多個方面的功能實(shí)現(xiàn)于軟件、固件、硬件或其組合中??商峁C(jī)器可讀取的、包括機(jī)器可執(zhí)行的至少一個指令程序的至少一個程序存儲設(shè)備。
此處所示流程圖僅作為示例。在不偏離本發(fā)明精神的條件下,此處所述這些圖例和步驟(或操作)存在多種變型。例如,這些步驟可按不同的順序執(zhí)行,或可對步驟進(jìn)行添加、刪除或修改。所有這些變型都被考慮作為所要求保護(hù)的發(fā)明的一部分。
盡管此處詳細(xì)表示和描述了優(yōu)選實(shí)施例,但該相關(guān)領(lǐng)域的技術(shù)人員應(yīng)該理解,在不偏離本發(fā)明的精神的條件下,可進(jìn)行多種修改、添加、替換等,因此,將其考慮在本發(fā)明的范圍內(nèi),本發(fā)明的范圍由下面的權(quán)利要求來定義。
權(quán)利要求
1.一種用于在多處理環(huán)境中進(jìn)行數(shù)據(jù)聚合的方法,所述方法包括由處理環(huán)境的中央管理器對處理環(huán)境的多個處理單元的多個處理單元中每個處理單元的本地聚合數(shù)據(jù)進(jìn)行跟蹤,其中,處理單元的本地聚合數(shù)據(jù)是關(guān)于該處理單元的數(shù)據(jù),且其中,該跟蹤確保重復(fù)的本地聚合數(shù)據(jù)和過時的本地聚合數(shù)據(jù)被丟棄;和由中央管理器聚合該多個處理單元的本地聚合數(shù)據(jù),以獲得多處理環(huán)境的總聚合數(shù)據(jù)。
2.根據(jù)權(quán)利要求1的方法,其中,該跟蹤包括在數(shù)據(jù)結(jié)構(gòu)中保持多處理環(huán)境的一個或多個處理單元的列表,以及針對該一個或多個處理單元中至少一個處理單元的每個處理單元,保持該處理單元的本地聚合數(shù)據(jù)。
3.根據(jù)權(quán)利要求1的方法,其中,對處理單元的本地聚合數(shù)據(jù)的跟蹤包括由中央管理器從該處理單元接收本地聚合數(shù)據(jù);將所接收的本地聚合數(shù)據(jù)的時間戳與中央管理器所保持的該處理單元的本地聚合數(shù)據(jù)的時間戳以及缺省值之一進(jìn)行比較;和響應(yīng)于比較表明要跟蹤該本地聚合數(shù)據(jù),存儲該本地聚合數(shù)據(jù)。
4.根據(jù)權(quán)利要求3的方法,其中聚合包括響應(yīng)于比較表明要包括該本地聚合數(shù)據(jù),重新計算總聚合數(shù)據(jù)以包括該本地聚合數(shù)據(jù)。
5.根據(jù)權(quán)利要求1的方法,還包括由多處理環(huán)境的處理單元收集該處理單元的數(shù)據(jù);在該處理單元處聚合所收集的數(shù)據(jù),以獲得該處理單元的本地聚合數(shù)據(jù);以及將本地聚合數(shù)據(jù)轉(zhuǎn)發(fā)到中央管理器,以用于中央管理器的跟蹤。
6.根據(jù)權(quán)利要求5的方法,還包括,將該處理單元的本地聚合數(shù)據(jù)存儲在該處理單元的數(shù)據(jù)庫中,以提供該本地聚合數(shù)據(jù)的持久性拷貝。
7.根據(jù)權(quán)利要求5的方法,其中,該處理單元的本地聚合數(shù)據(jù)具有與之相關(guān)聯(lián)的時間戳,所述時間戳被轉(zhuǎn)發(fā)到中央管理器,并且在跟蹤時用于確保忽略過時的數(shù)據(jù)。
8.根據(jù)權(quán)利要求1的方法,還包括,重新啟動該多個處理單元的處理單元,并且響應(yīng)于此,將重新啟動的處理單元的本地聚合數(shù)據(jù)和與之相關(guān)聯(lián)的時間戳轉(zhuǎn)發(fā)到中央管理器,用于中央管理器的跟蹤。
9.根據(jù)權(quán)利要求1的方法,其中,重新啟動中央管理器,并且響應(yīng)于重新啟動,中央管理器從多處理環(huán)境的一個或多個處理單元獲得本地聚合數(shù)據(jù),并由獲得的本地聚合數(shù)據(jù)確定總聚合數(shù)據(jù)。
10.一種在多處理環(huán)境中聚合數(shù)據(jù)的方法,所述方法包括由多處理環(huán)境的多個處理單元的多個處理單元中每個處理單元對數(shù)據(jù)進(jìn)行本地聚合,該本地聚合確保不丟失要聚合的任何數(shù)據(jù),其中,處理單元的本地聚合數(shù)據(jù)包括與該處理單元有關(guān)的數(shù)據(jù);由該多個處理單元的每個處理單元將其本地聚合數(shù)據(jù)通過一個或多個非可靠連接轉(zhuǎn)發(fā)到中央管理器,其中,該轉(zhuǎn)發(fā)容許零或更多次失敗的轉(zhuǎn)發(fā)嘗試;由中央管理器對每個處理單元的本地聚合數(shù)據(jù)進(jìn)行跟蹤,其中,跟蹤確保重復(fù)的本地聚合數(shù)據(jù)和過時的本地聚合數(shù)據(jù)被丟棄;和由中央管理器對該多個處理單元的本地聚合數(shù)據(jù)進(jìn)行聚合,以獲得多處理環(huán)境的可靠總聚合數(shù)據(jù)。
11.一種用于多處理環(huán)境中的數(shù)據(jù)聚合的系統(tǒng),所述系統(tǒng)包括處理環(huán)境的中央管理器,用于跟蹤處理環(huán)境的多個處理單元的多個處理單元中每個處理單元的本地聚合數(shù)據(jù),其中,處理單元的本地聚合數(shù)據(jù)為與該處理單元相關(guān)的數(shù)據(jù),且其中,跟蹤確保重復(fù)的本地聚合數(shù)據(jù)和過時的本地聚合數(shù)據(jù)被丟棄;以及中央管理器,用于將該多個處理單元的本地聚合數(shù)據(jù)聚合,以獲得多處理環(huán)境的總聚合數(shù)據(jù)。
12.根據(jù)權(quán)利要求11的系統(tǒng),還包括數(shù)據(jù)結(jié)構(gòu),所述數(shù)據(jù)結(jié)構(gòu)包括多處理環(huán)境的一個或多個處理單元的列表,以及針對該一個或多個處理單元中至少一個處理單元的每個處理單元,該列表保持該處理單元的本地聚合數(shù)據(jù)。
13.根據(jù)權(quán)利要求11的系統(tǒng),還包括多處理環(huán)境的處理單元,用于收集該處理單元的數(shù)據(jù),并在該處理單元處將收集的數(shù)據(jù)聚合,以獲得該處理單元的本地聚合數(shù)據(jù);以及該處理單元將本地聚合數(shù)據(jù)轉(zhuǎn)發(fā)到中央管理器,用于中央管理器的跟蹤。
全文摘要
公開了在多處理環(huán)境中用于數(shù)據(jù)聚合的方法和系統(tǒng)。容錯功能用于可靠地收集和聚合來自多個處理單元的不同數(shù)據(jù)。在處理單元處,對該處理單元的數(shù)據(jù)進(jìn)行收集和本地聚合。將本地聚合數(shù)據(jù)存儲在本地數(shù)據(jù)庫中,并將其定期轉(zhuǎn)發(fā)到中央管理器。當(dāng)接收數(shù)據(jù)時,中央管理器確定在處理環(huán)境的數(shù)據(jù)總聚合是否應(yīng)包括該數(shù)據(jù)。
文檔編號G06F9/46GK101063973SQ20071000542
公開日2007年10月31日 申請日期2007年2月8日 優(yōu)先權(quán)日2006年4月27日
發(fā)明者戴維·P.·布里爾斯福德, 理查德·J.·庫彭格, 亞歷山大·杜拉雅恩, 鐘恩慈 申請人:國際商業(yè)機(jī)器公司