大資料筆記01:大資料之Hadoop簡介

來源:互聯網
上載者:User

標籤:

1. 背景

隨著大資料時代來臨,人們探索資料越來越多。但是如何對大資料進行儲存與分析呢?

  單機PC儲存和分析資料存在很多瓶頸,包括儲存容量、讀寫速率、計算效率等等,這些單機PC無法滿足要求。

2. 為解決這些儲存容量、讀寫速率、計算效率等等問題,google大資料技術開發了三大革命性技術解決這些問題,這三大技術為:

(1)MapReduce

(2)BigTable

(3)GFS

技術革命性:

   革命性變化01:成本降低,能使用PC,就不用大型主機和高端儲存。

   革命性變化02:軟體容錯硬體故障視為常態,通過軟體保證可靠性。

   革命性變化03:簡化並行分散式運算,無須控制節點同步和資料交換。

但是google只是發表了相關的技術論文,沒有開放原始碼。

3.幸運的是,一個模仿了Google大資料技術的開源實現來了,他就是:

Hadoop

那麼我們有必要說明一下Hadoop的功能與優勢:

(1)首先Hadoop是什嗎?

Hadoop是一個開源的分布式儲存 和 分散式運算的平台。

(2)為什麼Hadoop可以進行分布式儲存 和 分散式運算?

這是因為Hadoop裡麵包括兩個核心的組成:

• HDFS :Distributed File System,儲存海量的資料

• MapReduce :平行處理的架構,實現任務分解和調度

(3)Hadoop可以用來做什麼呢?

搭建大型資料倉儲,PB級資料存放區、處理、分析、統計等業務。

 

(4)Hadoop的優勢

• 優勢1:高擴充(理論上無限)

• 優勢2:低成本

• 優勢3:成熟的生態圈(非常豐富的工具鏈)

 

這些大量的工具是圍繞Hadoop衍生出來的,它們的存在使得Hadoop變得更加高效和方便。

 

(5)Hadoop的應用情況

 

目前國內和國外很多大公司都是使用Hadoop搭建這個大資料平台。

(6)Hadoop已經成為業界大資料平台搭建的首選,同時Hadoop的人才的需求也越來越大。

大資料筆記01:大資料之Hadoop簡介

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.