雲計算管理三大利器:Nagios、Ganglia和Splunk

來源:互聯網
上載者:User
關鍵字 雲計算平臺 我們 利器

綜合利用Nagios、Ganglia和Splunk搭建起的雲計算平臺監控體系,具備錯誤報警、性能調優、問題追蹤和自動生成運維報表的功能。 有了這套系統,就可輕鬆管理Hadoop/HBase雲計算平臺。

雲計算早已不是停留在概念階段了,各大公司都購買了大量的機器,開始正式的部署和運營。 而動輒上百台的性能強勁的伺服器,為運營管理帶來了巨大的挑戰。

如果沒有方便的監控報警平臺,對於管理員而言猶如噩夢,每天都將如救火隊員一樣,飛快地敲擊鍵盤,用原始的Unix命令在多台機器中疲於奔命。

如果沒有好的日誌管理平臺,對於開發者Troubleshooting更是一件淚流滿面的事情。

而如果你是運維團隊的總負責人,簡潔清晰的Report則非常重要。 Stakeholder們動不動就可能問起系統的SLA、機器的利用率等諸多問題,畢竟,公司為此投入了巨大的資金和人力。

朋友們,當我們管理起公司寄予厚望的雲計算平臺時,當我們面對如此多充滿挑戰的實際問題時,該怎麼辦?

概述

我們在搭建趨勢雲計算平臺時,遇到了很多的問題和挑戰。 開始搭建時,第一次來了那麼多性能強勁的機器,我們在感到興奮的同時,也不免有些顧慮。 大家坐在一起討論,問題就列了滿滿一白板。

出了問題怎麼辦,有沒有預警機制?

有沒有視覺化的管理介面?

管理平臺需要自己開發嗎? 開發難度有多大?

有沒有開源的管理工具?

那麼多日誌分佈在各個機器上,有沒有更有效的方法管理?

能否生成好的報表?

機器宕機,管理員能否收到短信通知?

如何做性能調優?

擴容升級時,能否給出依據?

帶著這些問題,我們開始了自己的雲計算平臺管理和運營之旅,一路走來,收穫頗豐。 現在基本上形成了如圖1所示的一整套雲計算平臺監控體系。

圖1 雲計算平臺監控架構

在這個系統中,我們綜合利用了Nagios、Ganglia和Splunk,搭建起雲計算平臺監控體系,使其具備錯誤報警、性能調優、問題追蹤和自動生成運維報表的功能。 有了這套系統,我們終於能夠輕鬆管理Hadoop/HBase雲計算平臺了。 接下來將簡單介紹它們的特點和功能。

(責任編輯:蒙遺善)

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.