Hadoop:直面大資料的挑戰

來源:互聯網
上載者:User

HTTP://www.aliyun.com/zixun/aggregation/14417.html">Apache Hadoop通過簡化資料密集、高度並行的分散式應用的實現來應對大資料帶來的挑戰。 全球諸多企業、大學和其他組織都在使用Hadoop,它允許把分析任務劃分為工作片段,並分派到上千台電腦上,提供快速的分析時間和海量資料的分散式存儲。 Hadoop為存儲海量資料提供了一種經濟的方式。 它提供了一種可擴展且可靠的機制,用一個商用硬體集群來處理大量資料。 而且它提供新穎的和更先進的分析技術,允許對不同結構的資料進行複雜的分析處理。

Hadoop從以下幾個方面區別于之前的分散式方案:

資料預先就是分散式的。

為了保證可靠性和可用性,資料在整個電腦集群中進行備份。

資料處理力圖在資料存儲的位置進行,從而避免產生頻寬瓶頸。

此外,Hadoop提供一種簡單的程式設計方式,將之前分散式實現中存在的複雜性進行抽象。 其結果是,Hadoop為數據分析提供了一種強大的機制,包含以下幾個方面:

海量存儲——Hadoop允許應用使用成千上萬的電腦和PB數量級的資料。 在過去的十年裡,電腦專家已經意識到廉價的「商用」系統可以一起用於高性能計算應用,而這些運算以前只能由超級電腦來處理。 將數以百計的「小型」電腦配置為集群,就能以相對低廉的價格獲得總體上遠遠超過單個超級電腦的計算能力。 Hadoop可以利用超過數千台機器的集群,以企業可以接受的價格提供龐大的存儲和處理能力。

支援快速資料訪問的分散式處理——Hadoop集群提供高效存儲海量資料能力的同時,還提供快速的資料訪問。 在Hadoop之前,平行計算應用在集群中的機器之間分佈執行任務時面臨著困難。 這是因為此種集群執行模型依賴于需要極高I/O性能的共用資料存儲。 Hadoop把程式執行移向資料。 將應用移向資料緩解了許多高性能挑戰。 此外,Hadoop應用通常被設計為順序地處理資料。 這避免了亂數據訪問(磁片尋道操作),進一步降低了I/O負載。

可靠性、失效轉移和可擴充性——過去,當使用機器集群時,並行應用的實現者們需要費盡心思來處理可靠性問題。 儘管單一機器的可靠性相當高,但隨著集群規模的增長,失效概率也在增加。 在一個大集群(成千上萬台機器)中,每天出現失效並不鮮見。 鑒於Hadoop的設計和實現方式,一台機器失效(或者一組機器失效)將不會導致不一致的結果。 Hadoop檢測失效並重試執行(使用不同的節點)。 此外,Hadoop內置的可擴充性允許無縫地向集群添加額外的 (修理好的)伺服器,並且將它們用於資料存儲和程式執行。

對於多數Hadoop使用者來說,Hadoop最重要的特性是業務邏輯程式與框架支援代碼的清晰分離。 對於想要關注業務邏輯的使用者,Hadoop隱藏了框架的複雜性,為解決困難問題需要進行的複雜的、分散式的計算提供了一個簡單易用的平臺。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.