Hadoop大資料平台構建

來源:互聯網
上載者:User

標籤:

基礎:linux常用命令、Java編程基礎
大資料:科學資料、金融資料、物聯網資料、交通資料、社交網路資料、零售資料等等。

Hadoop: 一個開源的分布式儲存、分散式運算平台.(基於Apache)


Hadoop的組成:
  HDFS:Distributed File System,儲存海量的資料。
  MapReduce:平行處理架構,實現任務分解和調度。

Hadoop的用處:

  搭建大型資料倉儲,PB級資料的儲存、處理、分析、統計等業務。

  比如搜尋引擎、網頁的資料處理,各種商業智慧、風險評估、預警,還有一些日誌的分析、資料採礦的任務。

Hadoop優勢:高擴充、低成本、成熟的生態圈(Hadoop Ecosystem Map)

 

Hadoop開源工具:

Hive:將SQL語句轉換成一個hadoop任務去執行,降低了使用Hadoop的門檻。
HBase:儲存結構化資料的分散式資料庫,habase提供資料的隨機讀寫和即時訪問,實現對錶資料的讀寫功能。
zookeeper:就像動物管理員一樣,監控hadoop叢集裡面每個節點的狀態,管理整個叢集的配置,維護節點針之間資料的一次性等等。

hadoop的版本盡量選穩定版本,即較老版本。

===============================================

Hadoop的安裝與配置:
1)在Linux中安裝JDK,並設定環境變數
   安裝jdk: >> sudo apt-get install openjdk-7-jdk
   設定環境變數:

  >> vim  /etc/profile

  >> :wq

2)下載Hadoop,並設定Hadoop環境變數
   下載hadoop解壓縮:

>> cd /opt/hadoop-1.2.1/

>> ls

>> vim /etc/profile

>>:wq


3)修改4個設定檔
(a)修改hadoop-env.sh,設定JAVA_HOME
(b)修改core-site.xml,設定hadoop.tmp.dir, dfs.name.dir, fs.default.name
(c)修改mapred-site.xml, 設定mapred.job.tracker
(d)修改hdfs-site.xml,設定dfs.data.dir

>> cd conf
>> ls

>> vim mapred-site.xml

>> :wq

>> vim core-site.xml

第一部分

第二部分


>> :wq

>> vim hdfs-site.xml


>> :wq

>> vim hadoop-env.sh


>> :wq

# hadoop格式化
>> hadoop namenode -format
# hadoop啟動
>> start-all.sh
# 通過jps命令查看當前運行進程
>> jps
看見以下進程即說明hadoop安裝成功

Hadoop大資料平台構建

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.