想轉行大資料,如何開始學習 Hadoop?

來源:互聯網
上載者:User

標籤:一點   shell   建議   bubuko   機器   全分布   java基礎   pre   完全   

 

學習大資料首先要瞭解大資料的學習路線,首先搞清楚先學什麼,再學什麼,大的學習架構知道了,剩下的就是一步一個腳印踏踏實實從最基礎的開始學起。這裡給大家普及一下學習路線:hadoop生態圈——Strom——Spark——演算法。所以學習hadoop是第一步,在這裡聲明一下,在學習hadoop之前需要有java基礎,因為hadoop底層全是用java寫的;還需要系統層面學會使用linux的基本shell命令,因為你學習hadoop得首先會安裝hadoop。Hadoop在大資料技術體系中的地位至關重要,Hadoop是大資料技術的基礎,對Hadoop基礎知識的掌握的紮實程度,會決定在大資料技術道路上走多遠。大資料學習群142973723

下面談談一談如何開始學習hadoop。本文的思路是:以安裝部署Apache Hadoop2.x版本為主線,來介紹Hadoop2.x的架構組成、各模組協同工作原理、技術細節。安裝不是目的,通過安裝認識Hadoop才是目的。

Hadoop環境搭建

第一部分:Linux環境安裝

Hadoop是運行在Linux,雖然藉助工具也可以運行在Windows上,但是建議還是運行在Linux系統上,第一部分介紹Linux環境的安裝、配置、Java JDK安裝等。

第二部分:Hadoop本地模式安裝

Hadoop本地模式只是用於本地開發調試,或者快速安裝體驗Hadoop,這部分做簡單的介紹。

第三部分:Hadoop偽分布式模式安裝

學習Hadoop一般是在偽分布式模式下進行。這種模式是在一台機器上各個進程上運行Hadoop的各個模組,偽分布式的意思是雖然各個模組是在各個進程上分開啟動並執行,但是只是運行在一個作業系統上的,並不是真正的分布式。

第四部分:完全分布式安裝

完全分布式模式才是生產環境採用的模式,Hadoop運行在伺服器叢集上,生產環境一般都會做HA,以實現高可用。

第五部分:Hadoop HA安裝

HA是指高可用,為瞭解決Hadoop單點故障問題,生產環境一般都做HA部署。這部分介紹了如何配置Hadoop2.x的高可用,並簡單介紹了HA的工作原理。

安裝過程中,會穿插簡單介紹涉及到的知識。希望能對大家有所協助。

上面環境的搭建只是講了一下架構,由於時間有限,具體如何操作可以留言與我交流。

環境搭建好後,然後嘗試編寫mapreduce進行打包運行。當你對hadoop應用編程層面沒有疑問的時候,可以嘗試去深入瞭解mapreduce的核心思想,尤其是map,shuffle,join,reduce等。

對於新手來說入門會遇到很多問題,這是正常的,不過遇到問題不可怕,只要想辦法解決了自己的能力就會一點一點的提高,在這裡預祝在大資料之路上求仙的夥伴們學有所成.大資料學習群142973723

 

想轉行大資料,如何開始學習 Hadoop?

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.