標籤:
基礎:linux常用命令、Java編程基礎
大資料:科學資料、金融資料、物聯網資料、交通資料、社交網路資料、零售資料等等。
Hadoop: 一個開源的分布式儲存、分散式運算平台.(基於Apache)
Hadoop的組成:
HDFS:Distributed File System,儲存海量的資料。
MapReduce:平行處理架構,實現任務分解和調度。
Hadoop的用處:
搭建大型資料倉儲,PB級資料的儲存、處理、分析、統計等業務。
比如搜尋引擎、網頁的資料處理,各種商業智慧、風險評估、預警,還有一些日誌的分析、資料採礦的任務。
Hadoop優勢:高擴充、低成本、成熟的生態圈(Hadoop Ecosystem Map)
Hadoop開源工具:
Hive:將SQL語句轉換成一個hadoop任務去執行,降低了使用Hadoop的門檻。
HBase:儲存結構化資料的分散式資料庫,habase提供資料的隨機讀寫和即時訪問,實現對錶資料的讀寫功能。
zookeeper:就像動物管理員一樣,監控hadoop叢集裡面每個節點的狀態,管理整個叢集的配置,維護節點針之間資料的一次性等等。
hadoop的版本盡量選穩定版本,即較老版本。
===============================================
Hadoop的安裝與配置:
1)在Linux中安裝JDK,並設定環境變數
安裝jdk: >> sudo apt-get install openjdk-7-jdk
設定環境變數:
>> vim /etc/profile
>> :wq
2)下載Hadoop,並設定Hadoop環境變數
下載hadoop解壓縮:
>> cd /opt/hadoop-1.2.1/
>> ls
>> vim /etc/profile
>>:wq
3)修改4個設定檔
(a)修改hadoop-env.sh,設定JAVA_HOME
(b)修改core-site.xml,設定hadoop.tmp.dir, dfs.name.dir, fs.default.name
(c)修改mapred-site.xml, 設定mapred.job.tracker
(d)修改hdfs-site.xml,設定dfs.data.dir
>> cd conf
>> ls
>> vim mapred-site.xml
>> :wq
>> vim core-site.xml
第一部分
第二部分
>> :wq
>> vim hdfs-site.xml
>> :wq
>> vim hadoop-env.sh
>> :wq
# hadoop格式化
>> hadoop namenode -format
# hadoop啟動
>> start-all.sh
# 通過jps命令查看當前運行進程
>> jps
看見以下進程即說明hadoop安裝成功
Hadoop大資料平台構建