Hadoop將無法獨自處理大資料
Sriram說,「Hadoop和MapReduce模式絕對是解決大資料問題的方式之一。 但你需要記住的是,按照目前的情況來看,Hadoop僅僅是對於批次處理來說比較好。 相信很快,我們同時需要能夠即時處理這些資料。 」作為一名Hadoop顧問的Sriram並不是說這種無處不在的平臺速度緩慢。 使用這樣一個強大的框架,大量資料可能在一分鐘之內就處理完,但是那並不總是足夠好。 如何解決這個問題呢?
Hortonworks公司戰略副總裁Shaun Connolly指出, Hadoop一直不斷的變得更快更靈活。 「我們現在越來越明確的要求優化Hadoop使用的NoSQL資料庫。 它可以利用記憶體處理,這樣請求就能更快的返回,而不使用批量處理。 如果使用YARN,你其實可以基於記憶體做更多的互動式查詢。 」除此之外,還有一個熱潮興起的流式分析工具或過程依賴于像Storm這樣的技術,開發人員就可以使用YARN這樣的架構嵌入到Hadoop裡面去。 如今使用Hadoop的大資料使用者都在研究近即時性能。 然而,這並不是100%的即時,一個重要的區別在於,當組織使用電腦來做瞬間快速決定的時候,必須參照很久以前的分析報告,而這些可能已經被人為破壞。
這個時候LAMBDA架構就有了用武之地。 它允許企業組織從他們大量資料中分離出增量資料進行單獨處理。 大部分的資料都進入到批次處理系統中,而一個叫做「速度層」的對資料進行即時處理。 NoSQL資料庫(他們中的大部分)都有自己的生態系統,因為它們提供了專門的工具來管理資料,以適應特定案例。
整合將至關重要,但沒有一個工具對大家都有效
說到向Hadoop提供援助之手,精心設計的工具正在以驚人的速度在大資料空降急劇增加。 ElasticSearch,Pentaho,以及許多其他工具覆蓋了整個大資料生態系統不同市場區隔。 但下一個重要階段是如何讓他們能夠更好的協同工作。 直到這個階段的到來,大資料的管理還將比較隨意。
當然,這並不意味著一個整合式產品將永遠適合所有的商業模式。 資料以多種形式出現,並且每個企業組織都希望利用這些資訊做不同的事情。 企業組織將需要使用各種不同的方式來處理他們的資料,根據資料的來源,格式,他們為什麼收集,他們希望如何存儲,他們想如何分析,還有他們需要以多快的速度來處理。 我們希望在整合的同時仍然保持模組化。 這將允許企業為自己獨有的使用案例創建合適的工具時無需每次都重新開發。
熟悉大資料技術的軟體工程師將會有很大的需求
Mohan指出,在大資料空間最顯著的挑戰之一,應該是與微乎其微的人才庫相關。 「擁有這方面經驗的人才數量並不多。 」這並不意味著軟體工程師需要去上學並獲得博士學位。 技術工人並不需要一個博士學位來理解大資料。 然而,他們確實需要掌握知識和專業技能。 Sriram說,這個目標是任何一個願意投入時間和精力的軟體工程師都可以實現的。 課堂上不一定是唯一的起點。 經歷努力實現關聯式資料庫規模並且過渡到非關聯式資料庫,讓其都為掌握大資料問題奠定堅實的基礎。
Mohan博士正在做的是,為當今的軟體工程師準備未來的工作世界。 他將在波士頓的Big Data TechCon提供兩個教育機會:Hadoop的資料傳輸工具和MapReduce介紹。 對於那些想要在未來幾年成為就業市場高需求人才的人,現在就是開始時間。