Hadoop營運那些事

來源:互聯網
上載者:User

在實際的生產環境營運一個Hadoop叢集有一些必須要關注的事情。

1、Namenode的高可靠性

2、節點配置與管理

3、Mapreduce的記憶體配置

4、啟用trash

首要的是保證資料安全可靠,其次再去考慮儲存效率、計算效率、營運效率的最佳化與提高,當你覺得Hadoop叢集的效能太差太差的時候,其實是你對Hadoop的瞭解太少,Hadoop的效率沒有被發揮出來。

資料的可靠性,可以通過高可用、高可靠的NameNode,以及具體資料多副本來實現。啟用Trash可以讓你在誤刪除資料之後快要絕望的時候給你反悔的機會,這個一定要啟動的,就算你設定的時間短一點都沒有關係,後悔藥就靠它了。

節點的配置就太多了,最為重要當屬不同配置的機器要有自己個人化的配置了,尤其是記憶體的配置最為重要。

參考文獻:

http://www.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/

MapReduce: 提高MapReduce效能的七點建議[譯] 

Hadoop學習總結之五:Hadoop的運行痕迹 

Hadoop管理員的十個最佳實務

Hadoop平台最佳化綜述(一)

Hadoop維護管理

hadoop叢集管理之 Namenode恢複

hadoop叢集管理之 添加節點datanode

hadoop叢集管理之 刪除節點

hadoop叢集管理之 Hadoop資源回收筒trash

2012華東營運技術大會的資料--hadoop營運經驗分享

Hadoop-0.20.2 作業記憶體控制策略

Hadoop-0.21.0公平調度器演算法分析

Apache hadoop的mail list

Cloudera CDH google group

http://wiki.apache.org/hadoop/

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.