Hadoop——你不得不了解的大資料工具

來源:互聯網
上載者:User
關鍵字 的大資料 大資料 你不 同時 這種

如今Apache Hadoop已成為大資料行業發展背後的驅動力。 Hive和Pig等技術也經常被提到,但是他們都有什麼功能,為什麼會需要奇怪的名字(如Oozie,ZooKeeper、Flume)。

Hadoop帶來了廉價的處理大資料(大資料的資料容量通常是10-100GB或更多,同時資料種類多種多樣,包括結構化、非結構化等)的能力。 但這與之前有什麼不同?

現今企業資料倉儲和關聯式資料庫擅長處理結構化資料,並且可以存儲大量的資料。 但成本上有些昂貴。 這種對資料的要求限制了可處理的資料種類,同時這種慣性所帶的缺點還影響到資料倉儲在面對海量異構資料時對於敏捷的探索。 這通常意味著有價值的資料來源在組織內從未被挖掘。 這就是Hadoop與傳統資料處理方式最大的不同。

本文就重點探討了Hadoop系統的組成部分,並解釋各個組成部分的功能。

MapReduce——Hadoop的核心

Google的網路搜尋引擎在得益于演算法發揮作用的同時,MapReduce在後臺發揮了極大的作用。 MapReduce框架成為當今大資料處理背後的最具影響力的「發動機」。 除了Hadoop,你還會在MapReduce上發現MPP(Sybase IQ推出了列示資料庫)和NoSQL(如Vertica和MongoDB)。

MapReduce的重要創新是當處理一個大資料集查詢時會將其任務分解並在運行的多個節點中處理。 當資料量很大時就無法在一台伺服器上解決問題,此時分散式運算優勢就體現出來。 將這種技術與Linux伺服器結合可獲得性價比極高的替代大規模計算陣列的方法。 Yahoo在2006年看到了Hadoop未來的潛力,並邀請Hadoop創始人Doug Cutting著手發展Hadoop技術,在2008年Hadoop已經形成一定的規模。 Hadoop專案再從初期發展的成熟的過程中同時吸納了一些其他的元件,以便進一步提高自身的易用性和功能。

(責任編輯:杜慶先)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.