選擇Hadoop的原因主要有以下三點:1.降低成本;2.生態圈成熟;3.可以HTTP://www.aliyun.com/zixun/aggregation/7432.html">解決問題。
一、可以説明我們解決什麼問題
現在不管是在國內外的大公司,對於大資料都是非常的渴望,會想盡所有的辦法搜集一切的資料,由於現代資訊的不對稱從而導致不斷的資料變化,大量的資訊是可以通過資料分析獲取。
資料的來源有非常多的途徑,大資料的格式也將會越來越複雜,時間的推移產生的資料也會越來越大。 所以在資料的存儲上和基於資料上的計算會讓傳統的資料庫進入一個瓶頸。
而Hadoop的誕生就是為了解決這個問題。 讓其底層的分散式檔具有非常強大的拓展性,通過資料沉余對於資料不會丟失,同時還會將計算的效率給提高,同時還可以將各式各樣的資料存儲。 對於多種計算的框架也支援,不但可以離線進行計算也可以線上進行即時計算。
二、生態圈成熟
生態圈的成熟意味著未來發展的前景,意味著未來美好的市場,同時也代表著一份更有錢途的工作。
三、為什麼可以降低成本
在我們遇到問題後確定可以解決,那就首先要考慮下成本的問題了。
1.硬體成本
由於Hadoop的架構是基於價格較低的伺服器,所以支撐伺服器的硬體並不需要太昂貴。
2.軟體成本
基本上開源的產品都是免費的,在開源的協定上,可以進行自由的修改,可控將會更大。
3.開發成本
由於屬於二次開發,所以對於開發人員的工作要求並不是很高。
4.維護成本
當大規模的集群時候,開發的成本和維護的成本就會直接凸顯出來。 但是對於新開發的系統來說,還算是便宜很多。
5.其他成本
Hadoop伺服器是社區伺服器,成本非常低,基本上所有人都可以用。 可以將雜亂無章PB級別的資料進行處理,在處理失敗後存儲資料的話則可以使用分散式進行處理。 另Hadoop的高擴充性:電腦集群間進行分配資料並且完成計算任務,這些都可以非常方便的擴展到其他各個類型的節點當中。
高效性:可以在節點之間自由的移動資料,並且可以讓各個動態的節點保持平衡,所以處理速度很快。
高容錯性:資料的多個副本可以自動儲存,並且還能夠紫江將各個失敗的資料進行任務重新分配。