架構大資料解決方案的軟體工程師們都知道,業務分析有一項技術跨越了SQL資料庫、NoSQL資料庫,非結構化資料、面向文檔資料存儲及大型處理。 如果你猜到了Hadoop,那你回答正確。 Hadoop也是許多巨頭公司具有的一個共性,如亞馬遜、雅虎、AOL、Netflix、eBay、微軟、谷歌、Twitter和Facebook。 IBM甚至是走在時常的前沿,促進Hadoop進行企業分析。 此開源模型無處不在,它在這個舞臺上停留的五年,是一個真的角色,我們不得不為此感到驚訝。
Hadoop的未來
為了瞭解過去幾年發生了什麼,我們走訪了Chuck Lam,《Hadoop在行動(Hadoop in Action)》一書的作者。 Chuck說Hadoop還沒有停下來休息。 「整個生態系確實是進化,而且改變了許多。 現在甚至出現了官方1.0版本。 更重要的是,MapReduce的基礎程式設計模型已經重新修訂,且做了不少的改變。 」一般來說,這些改變都向著有利的方面發展的。 開發方向已經使得這個框架易於部署在企業中,並解決一系列的問題,如對於風險規避公司是問題之首的安全問題。
好處越來越多,包括高水準的可擴充性。 此框架中的分散式運算意味著添加越來越多的資料,而不必改變添加它的方式。 沒有必要去改變格式,或打亂工作編輯的方式或決定哪一個應用完成的此工作。 你只是隨著工作的進行添加更的節點即可。 你不必挑剔你存儲的資料類型或它來源。 無模式是此遊戲的名稱。 該框架的平行計算能力還使商品伺服器存儲究竟的利用率更高。 這意味著企業可以保存,使用更多的資料。 無論哪個節點出現故障,它都沒事。 即使系統出現故障,也不會遺失資料,降低性能。
助力Hadoop技術
Hadoop現在也更加的靈活,允許業務做更的事情,處理更多的資料類型。 如此強大的功能源于Hadoop的許多同伴專案,包括像Pig這樣的語言,以及如下的可擴展解決方案:
1. Hive (資料倉儲)
2.Mahout (機器學習和資料採礦)
3.HBase (大型表格的結構化存儲)
4.Cassandra (多主機資料庫)
當然,此類型的解決方案並不一直都是美好好。 Lam說主要的陷阱就是處理做出的假設。 換言之,錯不在我們的系統而在我們自己。 「新技術並不是所有問題的靈丹妙藥。 正如NoSQL這類的一樣簡單,但你必須要更深一層地弄清楚你要解決的問題。 」這可能意味著慎重地查看你的演算法,而不是只是把你的員工扔給MapReduce,然後期望Hadoop自動擴展。 使用模式的資料會影響你的擴展模式——尤其是當使用不平均是。 然後線性擴展可能就不起作用了。 再一次,這個並不是Hadoop本身的問題。 Lam相信有工具在手的企業已經足夠成熟了。 這只是確保IT管理員熟悉這些工具,確保使用Hadoop的軟體架構師知道怎樣更有效地使用用這項技術。