大資料學習筆記1--hadoop簡介和入門

來源:互聯網
上載者:User

標籤:hadoop   大資料   人民日報   

Hadoop簡介:

  • 分布式、可擴充、可靠的、分散式運算架構。

組件:

  • common:公用組件

  • hdfs:Distributed File System

  • yarn:運行環境

  • mapreduce:mr計算模型

生態系統:

  • Ambari:操作介面

  • avro:通用的序列化機制、與語言無關

  • cassandra:資料庫

  • chukwa:Tlog

  • hbase:分布式大表資料庫

  • hive:基於sql的分析系統

  • matout:機器學習演算法庫

  • pig:指令碼語言

  • spark:快速通用的計算引擎,主要用於迭代計算

  • tez:資料流架構

  • zookeeper:高效能的協調服務

海量資料分析:

  • 原始方式?空間限制|效能限制|單節點故障| 細節實現問題
  • hdfs?提供統一介面|大檔案切分|分布式儲存|平行擴充|高可靠

HDFS

  • hadoop生態系統Distributed File System,用來解決大資料存放區問題。

  • hdfs是在本地檔案系統之上抽象出的檔案系統,提供統一的提供者(分類樹),實際的檔案經過切分和負載平衡演算法之後,儲存在本地的檔案系統中,通過一個主節點(Namenode)統一管理。

  • 為了提高資料存放區的可靠性,檔案的block會被儲存多個副本(預設3個)第一個在本機,第二個在本機所在地同一個機架上,第三個在不同的機架上。

  • 檔案系統:提供一套統一的提供者,屏蔽底層實現細節的系統。

hadoop目錄結構:

  • bin:可執行指令碼

  • etc:系統配置

  • lib:本地庫

  • sbin:系統的可執行指令碼

  • share:共用目錄,存放的jar包

hdfs檔案操作:

  • 使用hdfs dfs命令操作
  • put:上傳檔案
  • get:下載檔案
  • ls:顯示檔案
  • cat:顯示檔案內容
  • tail:查看檔案末尾
  • count:統計檔案數
  • cp:hdfs的拷貝
  • df:查看磁碟容量
  • du:查看檔案大小
  • mkdir:建立檔案夾 -p建立父資料夾
  • rm:刪除
  • mv:移動
  • createSnapshot:建立快照
  • chown:修改所有者
  • chomd:修改許可權

hdfs檔案儲存體

  • 檔案儲存體在tmp/data/子檔案夾下面,大檔案會被切分為128M大小的block,檔案只是被簡單的切分,不做任何操作,可以手動拼接為完整的檔案。

大資料學習筆記1--hadoop簡介和入門

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.