標籤:
1. 背景
隨著大資料時代來臨,人們探索資料越來越多。但是如何對大資料進行儲存與分析呢?
單機PC儲存和分析資料存在很多瓶頸,包括儲存容量、讀寫速率、計算效率等等,這些單機PC無法滿足要求。
2. 為解決這些儲存容量、讀寫速率、計算效率等等問題,google大資料技術開發了三大革命性技術解決這些問題,這三大技術為:
(1)MapReduce
(2)BigTable
(3)GFS
技術革命性:
革命性變化01:成本降低,能使用PC,就不用大型主機和高端儲存。
革命性變化02:軟體容錯硬體故障視為常態,通過軟體保證可靠性。
革命性變化03:簡化並行分散式運算,無須控制節點同步和資料交換。
但是google只是發表了相關的技術論文,沒有開放原始碼。
3.幸運的是,一個模仿了Google大資料技術的開源實現來了,他就是:
Hadoop
那麼我們有必要說明一下Hadoop的功能與優勢:
(1)首先Hadoop是什嗎?
Hadoop是一個開源的分布式儲存 和 分散式運算的平台。
(2)為什麼Hadoop可以進行分布式儲存 和 分散式運算?
這是因為Hadoop裡麵包括兩個核心的組成:
• HDFS :Distributed File System,儲存海量的資料
• MapReduce :平行處理的架構,實現任務分解和調度
(3)Hadoop可以用來做什麼呢?
搭建大型資料倉儲,PB級資料存放區、處理、分析、統計等業務。
(4)Hadoop的優勢
• 優勢1:高擴充(理論上無限)
• 優勢2:低成本
• 優勢3:成熟的生態圈(非常豐富的工具鏈)
這些大量的工具是圍繞Hadoop衍生出來的,它們的存在使得Hadoop變得更加高效和方便。
(5)Hadoop的應用情況
目前國內和國外很多大公司都是使用Hadoop搭建這個大資料平台。
(6)Hadoop已經成為業界大資料平台搭建的首選,同時Hadoop的人才的需求也越來越大。
大資料筆記01:大資料之Hadoop簡介