集群伺服器功耗管理要求與即時監控分析

來源:互聯網
上載者:User
關鍵字 伺服器 可以 機房 即時監控 實現

集群伺服器獲得廣泛應用的主要原因在於其較高的性價比,通過數量上的優勢來彌補節點處理性能的不足。 節點數量大幅增長的同時不可避免的帶來電力消耗的快速增長,IDC(international data corporation)研究資料表明,在2007年中國用於伺服器的電源和冷卻的總開支達到了19億美元, 僅在北京和廣東兩個地區,這部分的投入就達到了3.2和3.6億美元,占到了全國的35.8%。 據統計,中國2007年全年IT產品總耗電量在300億到500億度,相當於三峽電站一年的總發電量。 巨大的耗能引來了各方的關注。

集群節點數量在快速增長,但其使用效率卻在低水準徘徊不前,以應用最普遍的X86伺服器集群為例,普遍認為其利用率低於30%,IBM更是稱Intel伺服器平均利用率只有10%,從而造成大量電力資源的浪費。

集群功耗管理的要求

功耗管理屬於集群基礎設施管理的範疇,主要關心兩個方面的情況,一方面是怎樣把集群的實際負載與功耗聯繫起來;另一方面是怎樣在不影回應用的前提下最小化集群的總功耗,最終目的是實現電力能源的量化與最優化調度。 由於是從集群的角度分析功耗,所以不涉及單節點的絕對功率的大小,例如為節點更換更節能的CPU就不在考慮之中。

現代機房的功耗分佈

集群伺服器一般安裝在專用機房中,一般採用高架地板,標準機櫃,UPS(Uninterruptible Power Supply),精密空調等設備。

可以明顯看出,伺服器與冷卻設備在機房總功耗中共占到了80%以上的份額,顯而易見,冷卻設備的功耗是和伺服器運行時產生的熱量密切相關的,如何更好的進行集群功耗管理就成為了關鍵。

基於上述思路,可以將集群功耗管理歸納為如下幾點功能:

熱量分佈與冷卻設備控制

從上文對機房功耗分佈的分析中可以看出冷卻系統的功耗僅次於IT設備,但事實上這部分功耗中的大部分被浪費掉了。 圖一是現有機房進行的三維溫度分佈類比,從中可以看出,由於負載在機房中空間上與時間上是分佈不均的,造成溫度的分佈也是不均勻的,有熱點(圖中紅色部分)與冷點(圖中藍色部分),是典型的非穩態熱力學系統! 現有機房的散熱設計一般是基於熱力學穩態系統進行的,造成了大量的能源浪費,有研究表明,有效製冷量不足50%。 因此,通過建立熱力學散熱模型,基於集群功耗的即時監控資料與功耗分配策略進行精確製冷是必然的發展方向。

集群功耗管理的發展趨勢

現有資料中心的各種設備大多是單獨進行管理的,例如盤陣,伺服器,UPS,空調等,筆者認為其管理模式將向兩個方向發展,一方面要根據外部環境變化和負載的波動進行統一任務調度並調節各種設備,實現更廣泛意義上的最優化調度;另一方面 ,管理的細微性會更細,例如對每節點的任務進行調整,對每個CPU內核的主頻進行單獨調整,進行分區冷卻等。

集群功耗的即時監控與分析

對集群功耗的監控是實現功耗管理的基礎,可以通過兩種手段來實現:通過在伺服器電源模組上增加功率感應器(功率計)使用主機板的帶外管理模組(BMC)直接讀取。 該方式的優點是簡單直接,缺點是精度受限,目前只能達到+-10%,而且必須將功率感應器佈置在電源AC端,由於刀片伺服器採用共用電源無法探測每個刀片的功率,所以不能支援刀片伺服器。 另一種手段是伺服器生產廠家在伺服器生產之後標定各種負載條件下的伺服器功率,使用者使用時打開節點上的監視軟體,就能夠估算出節點的功率,只要廠家標定的負載樣本足夠多就可以實現較高的精度,同時,由於採用軟硬體結合的方式, 無論是機架式還是刀片伺服器均可支援。

在準確的集群即時功耗監控基礎之上可以計算應用的功耗與能耗,通過對不同負載狀況集群功耗的分析可以得到應用的有效功耗與無效功耗,如果使用了作業調度系統,更可以直接計算作業的能耗。 集群峰值功耗的控制

主要是基於三方面的考量:第一,集群的UPS與冷卻單元所能支撐IT設備最大功耗是決對不能超越的,因此使用者往往需要配置較多的冗余設備,而其利用率很低,如果能夠對集群功耗上限進行控制,可以相應的減少冗余設備數量,減少無效投資。 第二,UPS與冷卻單元還對機櫃的功耗密度有相應要求,設計功耗密度太高會使成本大幅提升,設計密度過低又會造成空間利用率低下,因此需要選擇一個合適的功耗密度。 以前,功耗密度只能根據伺服器的額定功率確定,而這個值幾乎很難在實際應用中達到,據此進行設計就不可避免的造成空間的浪費以及供電與冷卻設備的過度投資。 準確地進行工作組級別,機櫃級別和集群級別的功耗上限調整可以明顯提升設備使用率。 第三,不同種類的應用負載特點是不同的,例如高性能計算通常CPU利用率較高,對節點間通訊延遲敏感,而互聯網應用往往更關心資料的快速讀寫,CPU利用率並不很高。 即便是同一應用,其負載往往也會有大幅度的波動,下圖左側是某公司內部郵件伺服器的負載情況,右側是負載的自相關函數,可以看出負載有較明顯的週期性,根據應用的負載特點進行功耗上限的調整會明顯提升伺服器的能效。

歷史負載分析與功耗分配策略

伺服器運行的應用一般不會頻繁改變,可以將負載與功耗的即時資料保存下來形成歷史資料,監控系統據此可以自動分析負載的特點與發展趨勢並做出相應調整。 現有的自動控制技術可以給出多種策略,其細節超出本文範圍,不再一一贅述,但原則上既要保證功耗分配對負載波動的快速回應,又要避免過於頻繁的調整造成電力資源的浪費。 完善的功耗分配策略可以使管理員將精力集中在對負載特點的分析上,而不用為其具體數值以及調整時間等細節耗費大量精力。 如果使用了作業調度系統,使用者可以引入新的演算法,根據集群的功耗分佈對作業進行調度,提升系統的能效。

這兩方面是相輔相成的,統一管理是精細管理的基礎,精細管理是統一管理的實現手段。

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.