專利名稱:伺服器機柜系統(tǒng)與其電源管理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種伺服器機柜系統(tǒng)及其電源管理方法。
背景技術(shù):
刀鋒型伺服器已廣泛地應(yīng)用。將為數(shù)眾多的刀鋒型伺服器集合在機柜系統(tǒng)中,稱為伺服器機柜系統(tǒng)(rack server system),可提升操作便利性。在伺服器機柜系統(tǒng)中的各刀鋒型伺服器可視為一臺功能完整的計算機。換言之,各個刀鋒型伺服器除了設(shè)置核心電路(例如包括中央處理器、主機板、隨機存取存儲器及硬盤等),還配置諸如電源供應(yīng)器及散熱裝置等周邊裝置。萬一發(fā)生市電不穩(wěn)定或是伺服器機柜系統(tǒng)內(nèi)部的電源供應(yīng)器(power supply)故障,將可能導(dǎo)致伺服器的操作不穩(wěn)定(例如死機),甚至可能迫使伺服器被強迫關(guān)機,進(jìn)而甚至可能使得儲存于伺服器內(nèi)的寶貴數(shù)據(jù)受到毀損。故而,本發(fā)明提出一種伺服器機柜系統(tǒng)及其電源負(fù)載方法,當(dāng)發(fā)生市電不穩(wěn)定或是伺服器機柜系統(tǒng)內(nèi)部的電源供應(yīng)器故障時,其將伺服器以低效能狀態(tài)運作以維持伺服器機柜系統(tǒng)的正常運作,或是將某(某些)伺服器關(guān)機以維持其他伺服器的正常運作。
發(fā)明內(nèi)容
本發(fā)明實施例涉及一種伺服器機柜系統(tǒng)與其電源管理方法,當(dāng)發(fā)生電源不穩(wěn)定或是電源供應(yīng)器故障時,其降低伺服器節(jié)點的運作狀態(tài)(以降低伺服器節(jié)點的耗電)或是將伺服器節(jié)點強制關(guān)機。根據(jù)本發(fā)明的一實施例,提出一種伺服器機柜系統(tǒng),包括:多個電源供應(yīng)器;一監(jiān)控電路,監(jiān)控這些電源供應(yīng)器;一機柜管理控制器,監(jiān)控這些電源供應(yīng)器;以及多個伺服器節(jié)點。當(dāng)該監(jiān)控電路和/或該機柜管理控制器監(jiān)控到這些電源供應(yīng)器中的至少一電源供應(yīng)器無法輸出一正常電壓時,這些伺服器節(jié)點的一運作狀態(tài)被降低或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。根據(jù)本發(fā)明的另一實施例,提出一種伺服器機柜系統(tǒng)的電源管理方法,該伺服器機柜系統(tǒng)包括一監(jiān)控電路、一機柜管理控制器與多個伺服器節(jié)點。該伺服器機柜系統(tǒng)的電源管理方法包括:如果該監(jiān)控電路監(jiān)控到無法輸出一正常電壓的至少一電源供應(yīng)器的一第一數(shù)量超過一第一閾值,則回應(yīng)于該監(jiān)控電路的一監(jiān)控結(jié)果,降低這些伺服器節(jié)點的一運作狀態(tài)或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機;如果該監(jiān)控電路監(jiān)控到無法輸出一正常電壓的至少一電源供應(yīng)器的該第一數(shù)量并未超過該第一閾值,則由該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的一第二數(shù)量是否超過一第二閾值;以及如果該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的該第二數(shù)量超過該第二閾值,則回應(yīng)于該機柜管理控制器的一判斷結(jié)果,降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。為了對本發(fā)明的上述及其他方面有更佳的了解,下文特舉實施例,并結(jié)合附圖詳 細(xì)說明如下:
圖1顯示根據(jù)本發(fā)明一實施例的伺服器機柜系統(tǒng)的功能方塊圖。圖2顯示圖1的伺服器機柜系統(tǒng)的電源管理方法的流程圖。圖3顯示根據(jù)本發(fā)明另一實施例的伺服器機柜系統(tǒng)的功能方塊圖。附圖符號說明100、300:伺服器機柜系統(tǒng)110、310:電源供應(yīng)器120、320:電源分配板130、330:機柜管理控制器140、340:背板控制器141,341:背板150、350:機柜121,321:監(jiān)控電路151,351:伺服器節(jié)點210 280:步驟
具體實施例方式現(xiàn)請參考圖1,其顯示根據(jù)本發(fā)明實施例的伺服器機柜系統(tǒng)的功能方塊圖。本發(fā)明實施例的伺服器機柜系統(tǒng)100包括:多個電源供應(yīng)器(power supply,PSU) 110、電源分配板(power distribution board, PDB) 120、機柜管理控制器(rack management controller,RMC) 130、背板控制器(backplane controller) 140、多個背板141與機柜150。電源分配板120具有監(jiān)控電路121。機柜150包括多個伺服器節(jié)點(server node) 151,或者說,伺服器節(jié)點151乃是滑入至機柜150內(nèi)而插入至背板141上。在本發(fā)明說明書中,伺服器節(jié)點151例如包括:中央處理器(CPU)、南北橋、操作系統(tǒng)等。原則上,伺服器節(jié)點151乃是指一個可以獨立運作的節(jié)點。電源供應(yīng)器110可以是交流(AC)/直流(DC)電源供應(yīng)器。在此實施例中,電源供應(yīng)器110將輸入電源AC轉(zhuǎn)換成適合于機柜150的電壓。輸入電源AC例如可以為市電。電源分配板120接收由所有電源供應(yīng)器110所轉(zhuǎn)換出的輸出電壓以進(jìn)行電源分配。電源分配板120中的監(jiān)控電路121可即時監(jiān)控所有電源供應(yīng)器110的操作狀態(tài)。如果監(jiān)控電路121監(jiān)控到無法輸出正常電壓的電源供應(yīng)器110的數(shù)量超過閾值,則監(jiān)控電路121會輸出指示信號給背板控制器140,以將所有或一部份的伺服器節(jié)點151的運作狀態(tài)由正常運作狀態(tài)降低為低負(fù)載運作狀態(tài)以降低伺服器節(jié)點的耗電(例如但不受限于,將伺服器節(jié)點151中的CPU降頻),或者是將至少一伺服器節(jié)點151強制關(guān)機。其細(xì)節(jié)將于下面詳述。在本發(fā)明說明書中,電源供應(yīng)器110無法輸出所需電壓的原因可能是因為(I)輸入電源AC發(fā)生不穩(wěn)定/故障或者是(2)電源供應(yīng)器110的本身故障。機柜管理控制器130耦接至電源分配板120。機柜管理控制器130亦會讀取所有電源供應(yīng)器110的狀態(tài)訊號。如果機柜管理控制器130判斷無法輸出正常電壓的電源供應(yīng)器Iio的數(shù)量持續(xù)超過閾值甚至更惡化,則機柜管理控制器130會設(shè)定背板控制器140,以將所有或一部份的伺服器節(jié)點151的運作狀態(tài)由正常運作狀態(tài)降低為低負(fù)載運作狀態(tài),或者是將至少一伺服器節(jié)點151強制關(guān)機。背板控制器140控制背板141。如上述,如果發(fā)生電源供應(yīng)器110無法供應(yīng)正常電壓,則監(jiān)控電路121和/或機柜管理控制器130會通知背板控制器140,背板控制器140控制背板141以將所有或一部份的伺服器節(jié)點151的運作狀態(tài)由正常運作狀態(tài)降低為低負(fù)載運作狀態(tài),或者是將至少一伺服器節(jié)點151強制關(guān)機。通常來講,一個背板141對應(yīng)至一個伺服器節(jié)點?,F(xiàn)請參考圖2,其顯示根據(jù)圖1的伺服器機柜系統(tǒng)100的電源管理方法的流程圖。于步驟210中,監(jiān)控電路121監(jiān)控到無法輸出正常電壓的電源供應(yīng)器110的數(shù)量超過閾值(PSU_fail彡Tl),則監(jiān)控電路121設(shè)定背板控制器(步驟220)。在圖2中,符號PSU_fail代表的是無法輸出正常電壓的電源供應(yīng)器110的數(shù)量。閾值Tl則可依設(shè)計者需求/經(jīng)驗而設(shè)定。例如,如果伺服器機柜系統(tǒng)屬于輕負(fù)載,則閾值Tl可設(shè)得較高,也就是說,輕負(fù)載伺服器機柜系統(tǒng)可以允許較多的電源供應(yīng)器無法輸出正常電壓,因為輕負(fù)載伺服器機柜系統(tǒng)在此狀況下仍有可能維持正常操作。相反地,如果伺服器機柜系統(tǒng)屬于重負(fù)載,則閾值Tl可設(shè)得較低,也就是說,重負(fù)載伺服器機柜系統(tǒng)無法允許太多的電源供應(yīng)器無法輸出正常電壓,因為重負(fù)載伺服器機柜系統(tǒng)在此狀況下很可能會面臨整個系統(tǒng)被強迫關(guān)機的可能性。于步驟220中,監(jiān)控電路設(shè)定背板控制器。例如,監(jiān)控電路輸出一通知信號給背板控制器?;貞?yīng)于此通知信號,背板控制器設(shè)定相關(guān)的跳線(jumper)。其方式例如為,監(jiān)控電路輸出通知信號給背板控制器,以將背板控制器上的某一訊號線拉低?;貞?yīng)于相關(guān)的跳線被設(shè)定,背板141會控制其相關(guān)的伺服器節(jié)點。例如,所有背板141控制所有或一部份的伺服器節(jié)點151的運作被降低(例如,其CPU被降頻),如步驟230所示?;蛘?,回應(yīng)于跳線被設(shè)定,背板141控制至少一伺服器節(jié)點151被強制關(guān)機,如步驟240所示。于步驟210中 ,如果監(jiān)控電路121監(jiān)控到無法輸出正常電壓的電源供應(yīng)器110的數(shù)量(PSU_fail)并未超過閾值Tl,則由機柜管理控制器(RMC)判斷無法輸出正常電壓的電源供應(yīng)器110的數(shù)量(PSU_fail)是否超過閾值T2,如步驟250所示。閾值T2的設(shè)定也可以有關(guān)于伺服器機柜系統(tǒng)的負(fù)載情況。閾值T2例如可以高于或等于閾值Tl。如果步驟250的判斷結(jié)果為否,則代表此時的所有電源供應(yīng)器的供電情況足以使得伺服器機柜系統(tǒng)100的運作不致落于不正常情況,則流程回至步驟210。相反地,如果步驟250的判斷結(jié)果為是,則代表機柜管理控制器判斷電源供應(yīng)器無法輸出正常電壓的數(shù)量可能更加惡化,則流程接續(xù)至步驟260。于步驟260中,機柜管理控制器設(shè)定背板控制器。例如,機柜管理控制器設(shè)定背板控制器的方式可以不通過跳線的設(shè)定。機柜管理控制器送出訊號至背板控制器上的集成電路(1C),回應(yīng)于此,IC的設(shè)定值被改變,使得相關(guān)背板進(jìn)行相對應(yīng)的操作。同樣地,在機柜管理控制器設(shè)定背板控制器(步驟260)后,可以降低所有或一部份的伺服器節(jié)點的運作(步驟230)或是強迫至少一伺服器節(jié)點關(guān)機(步驟240)。步驟250 260的用意在于,另外再設(shè)定一個閾值,如果監(jiān)控電路并未檢測到有電源供應(yīng)器無法輸出正常電壓,通過步驟250 260來由機柜管理控制器來監(jiān)控/判斷是否有電源供應(yīng)器無法輸出正常電壓,以可降低伺服器節(jié)點的運作或是將伺服器節(jié)點強迫關(guān)機。至于回應(yīng)于機柜管理控制器的判斷結(jié)果,伺服器節(jié)點的降頻程度或被強迫關(guān)機的伺服器節(jié)點數(shù)量則由設(shè)計者依經(jīng)驗/需求而定。此外,于步驟210中,如果監(jiān)控電路判斷無法輸出正常電壓的電源供應(yīng)器110的數(shù)量超過閾值(PSU_fail彡Tl),則機柜管理控制器亦可判斷無法輸出正常電壓的電源供應(yīng)器110的數(shù)量是否超過閾值T3(PSU_fail彡T3),如步驟270。閾值T3的設(shè)定也可以有關(guān)于伺服器機柜系統(tǒng)的負(fù)載情況。閾值T3例如可以高于或等于閾值Tl,或者是可以高于或等于閾值T2。步驟270的用意在于,在于當(dāng)電源供應(yīng)器無法輸出正常電壓的情況更加惡化,通過步驟270 280可更進(jìn)一步降低伺服器節(jié)點的運作或是將更多的伺服器節(jié)點強迫關(guān)機。上述實施例乃是應(yīng)用于單一輸入電源。本發(fā)明另一實施例的伺服器機柜系統(tǒng)則可應(yīng)用于雙輸入電源或多重輸入電源。圖3顯示根據(jù)本發(fā)明另一實施例的伺服器機柜系統(tǒng)的功能方塊圖。本發(fā)明另一實施例的伺服器機柜系統(tǒng)300包括:多個電源供應(yīng)器310、電源分配板320、機柜管理控制器330、背板控制器340、多個背板341與機柜350。電源分配板320具有監(jiān)控電路321。機柜350包括多個伺服器節(jié)點351。這些電源供應(yīng)器310的一部份接收第一輸入電源AC1,而其余的則接收第二輸入電源AC2。第一輸入電源ACl例如可以為市電,而第二輸入電源AC2則例如可以是其他種類的電源(例如為太陽能/汽電共生等)。
圖3的操作原則上相同或相似于圖1的操作,故其細(xì)節(jié)在此不重述。由上述可知,于本發(fā)明上述兩個實施例中,如果檢測到電源供應(yīng)器無法輸出正常電壓的數(shù)量超過閾值,則將伺服器節(jié)點降頻或是將伺服器節(jié)點強迫關(guān)機。如此,可以避免整個伺服器機柜系統(tǒng)被強迫關(guān)機。綜上所述,雖然本發(fā)明已以實施例揭示如上,然其并非用以限定本發(fā)明。本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的精神和范圍的前提下,可作各種的更動與潤飾。因此,本發(fā)明的保護(hù)范圍是以本發(fā)明的權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種伺服器機柜系統(tǒng),包括: 多個電源供應(yīng)器; 一監(jiān)控電路,監(jiān)控這些電源供應(yīng)器; 一機柜管理控制器,監(jiān)控這些電源供應(yīng)器;以及 多個伺服器節(jié)點; 其中,當(dāng)該監(jiān)控電路和/或該機柜管理控制器監(jiān)控到這些電源供應(yīng)器中的至少一電源供應(yīng)器無法輸出一正常電壓時,這些伺服器節(jié)點的一運作狀態(tài)被降低或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
2.如權(quán)利要求1所述的伺服器機柜系統(tǒng),其中, 如果該監(jiān)控電路監(jiān)控到無法輸出一正常電壓的至少一電源供應(yīng)器的一第一數(shù)量超過一第一閾值,該監(jiān)控電路設(shè)定一背板控制器,該背板控制器控制多個背板,以由這些背板降低這些伺服器節(jié)點的該運作狀態(tài)或這些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
3.如權(quán)利要求2所述的伺服器機柜系統(tǒng),其中, 如果該第一數(shù)量并未超過該第一閾值,該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的一第二數(shù)量是否超過一第二閾值;以及 如果該機柜管理控制器判斷該第二數(shù)量超過該第二閾值,則該機柜管理控制器設(shè)定一背板控制器,該背板控制器控制多個背板,以由這些背板降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
4.如權(quán)利要求1所述的 伺服器機柜系統(tǒng),還包括: 如果該第一數(shù)量超過該第一閾值,該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的一第三數(shù)量是否超過一第三閾值;以及 如果該第三數(shù)量超過該第三閾值,該機柜管理控制器設(shè)定一背板控制器,該背板控制器控制多個背板,以由這些背板降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點的至少一伺服器節(jié)點強迫關(guān)機。
5.如權(quán)利要求1所述的伺服器機柜系統(tǒng),其中,該第一閾值與該第二閾值的設(shè)定有關(guān)于該伺服器機柜系統(tǒng)的一負(fù)載情況。
6.如權(quán)利要求4所述的伺服器機柜系統(tǒng),其中,該第三閾值的設(shè)定有關(guān)于該伺服器機柜系統(tǒng)的一負(fù)載情況。
7.—種伺服器機柜系統(tǒng)的電源管理方法,該伺服器機柜系統(tǒng)包括一監(jiān)控電路、一機柜管理控制器與多個伺服器節(jié)點,該伺服器機柜系統(tǒng)的電源管理方法包括: 如果該監(jiān)控電路監(jiān)控到無法輸出一正常電壓的至少一電源供應(yīng)器的一第一數(shù)量超過一第一閾值,則回應(yīng)于該監(jiān)控電路的一監(jiān)控結(jié)果,降低這些伺服器節(jié)點的一運作狀態(tài)或?qū)⑦@些伺服器節(jié)點的至少一伺服器節(jié)點強迫關(guān)機; 如果該監(jiān)控電路監(jiān)控到無法輸出一正常電壓的至少一電源供應(yīng)器的該第一數(shù)量并未超過該第一閾值,則由該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的一第二數(shù)量是否超過一第二閾值;以及 如果該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的該第二數(shù)量超過該第二閾值,則回應(yīng)于該機柜管理控制器的一判斷結(jié)果,降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點的至少一伺服器節(jié)點強迫關(guān)機。
8.如權(quán)利要求7所述的伺服器機柜系統(tǒng)的電源管理方法,其中, 如果該監(jiān)控電路監(jiān)控到無法輸出該正常電壓的至少一電源供應(yīng)器的該第一數(shù)量超過該第一閾值,該監(jiān)控電路設(shè)定一背板控制器;以及 該背板控制器控制多個背板,以由這些背板降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
9.如權(quán)利要求8所述的伺服器機柜系統(tǒng)的電源管理方法,其中,該監(jiān)控電路發(fā)出一通知信號給該背板控制器以設(shè)定該背板控制器中的至少一跳線。
10.如權(quán)利要求7所述的伺服器機柜系統(tǒng)的電源管理方法,其中, 如果該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的該第二數(shù)量超過該第二閾值,則該機柜管理控制器設(shè)定一背板控制器;以及 該背板控制器控制多個背板,以由這些背板降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
11.如權(quán)利要求7所述的伺服器機柜系統(tǒng)的電源管理方法,還包括: 如果該監(jiān)控電路監(jiān)控到無法輸出一正常電壓的至少一電源供應(yīng)器的該第一數(shù)量超過該第一閾值,該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的一第三數(shù)量是否超過一第三閾值;以及 如果該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的該第三數(shù)量超過該第三閾值,則回應(yīng)于該機柜管理控制器的該判斷結(jié)果,降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
12.如權(quán)利要求11所述的伺服器機柜系統(tǒng)的電源管理方法,其中, 如果該機柜管理控制器判斷無法輸出該正常電壓的這些電源供應(yīng)器的該第三數(shù)量超過該第三閾值,則該機柜管理控制器設(shè)定一背板控制器;以及 該背板控制器控制多個背板,以由這些背板降低這些伺服器節(jié)點的該運作狀態(tài)或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
13.如權(quán)利要求7所述的伺服器機柜系統(tǒng)的電源管理方法,其中,該第一閾值與該第二閾值的設(shè)定有關(guān)于該伺服器機柜系統(tǒng)的一負(fù)載情況。
14.如權(quán)利要 求11所述的伺服器機柜系統(tǒng)的電源管理方法,其中,該第三閾值的設(shè)定有關(guān)于該伺服器機柜系統(tǒng)的一負(fù)載情況。
全文摘要
本發(fā)明涉及伺服器機柜系統(tǒng)與其電源管理方法。該伺服器機柜系統(tǒng)包括多個電源供應(yīng)器;一監(jiān)控電路,監(jiān)控這些電源供應(yīng)器;一機柜管理控制器,監(jiān)控這些電源供應(yīng)器;以及多個伺服器節(jié)點。當(dāng)該監(jiān)控電路和/或該機柜管理控制器監(jiān)控到這些電源供應(yīng)器中的至少一電源供應(yīng)器無法輸出一正常電壓時,這些伺服器節(jié)點的一運作狀態(tài)被降低或?qū)⑦@些伺服器節(jié)點中的至少一伺服器節(jié)點強迫關(guān)機。
文檔編號G06F1/28GK103197748SQ20121002142
公開日2013年7月10日 申請日期2012年1月31日 優(yōu)先權(quán)日2012年1月10日
發(fā)明者趙茂贊, 朱威嶧, 柯廷錚, 紀(jì)麗卿, 趙威凱 申請人:廣達(dá)電腦股份有限公司