據相關資料顯示,2013年上半年中國手機線民規模已經突破5億大關,預計14年第一季度,國內手機線民規模將超PC端,手機使用者超過10億,3G 使用者持續增長,以及4G的強勢勁頭,都催生移動大資料的爆發。 大量新資料無時無刻不在湧現,移動互聯網正影響著人類生活的方方面面。
這將是一個前所未有的時代。 所有的公司和機構都已經或者正在成為移動互聯網組織。 所有的公司和機構也終將是雲計算大資料組織。 移動互聯網及雲計算大資料的浪潮正在並將最終徹底的變革所有的公司和機構的架構模式、生產模式、服務模式以及管理模式。
Spark-新一代全能大資料計算平臺崛起
隨著大資料相關技術和產業的逐漸成熟,單個組織內往往需要同時進行多種類型的大資料分析作業:傳統Hadoop MapReduce最為擅長的是離線海量資料的統計分析,由於Hadoop本身的特性, 導致使用Hadoop處理大資料的結果的獲取往往是要延遲在幾分鐘甚至是幾個小時,這在很多場景下都是不可接受的。 更為重要的是在Spark出現前,要在一個組織內同時完成各種機器學習演算法為代表的反覆運算型計算、流式計算、社交網路中常用的圖計算、SQL關係查詢、互動式即席查詢等數種大資料分析任務,就不得不與多套獨立的系統打交道, 一方面引入了不容小覷的運維複雜性,另一方面還免不了要在多個系統間頻繁進行代價高昂的資料轉儲。
Spark是基於記憶體,是雲計算領域的繼Hadoop之後的下一代的最熱門的通用的平行計算框架開源專案,尤其出色的支援Interactive Query、流計算、圖計算等。
Spark在機器學習方面有著無與倫比的優勢,特別適合需要多次反覆運算計算的演算法。 同時Spark的擁有非常出色的容錯和調度機制,確保系統的穩定運行,Spark目前的發展理念是通過一個計算框架組合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個專案中,具有非常好的易用性。
Spark無可比擬的優勢,佔據雲計算大資料領域霸主地位
Spark是發源于美國加州大學伯克利分校AMPLab的集群計算平臺,它立足于記憶體計算,性能超過Hadoop百倍,從多反覆運算批量處理出發,兼收並蓄資料倉儲、流處理和圖計算等多種計算范式,是罕見的全能選手。 Spark當下已成為Apache基金會的頂級開源專案,擁有著龐大的社區支援(活躍開發者人數已超過Hadoop MapReduce),技術也逐漸走向成熟。
作為下一代雲計算及大資料的核心技術,Spark是可以革命Hadoop的目前唯一替代者,能夠做Hadoop做的一切事情,同時速度比Hadoop快了 100倍以上。 甚至在Hadoop最擅長的離線資料統計分析領域,Spark比Hadoop也至少快了一個幾何級數; Spark另外一個無可取代的優勢是:「One Stack to rule them all」,Spark採用一個統一的技術堆疊解決了雲計算大資料包括如流處理、圖技術、機器學習、NoSQL查詢等方面的所有核心問題,具有完善的生態系統 ;這直接奠定了其一統雲計算大資料領域的霸主地位;
Spark應用現狀及未來發展
目前SPARK已經構建了自己的整個大資料處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有自己的技術,並且是Apache頂級Project, 可以預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增長。
國外一些大型互聯網公司已經部署了Spark.甚至連Hadoop的早期主要貢獻者Yahoo現在也在多個專案中部署使用Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用Spark技術用於自己的商業生產系統中, 國內外的應用開始越來越廣泛。
前段時間,mahout宣佈了一個重大的消息,mahout社區表示從現在起,他們將不再接受任何以MapReduce形式實現的演算法,但是他們仍然將維護那些常用演算法的MapReduce實現。 另一方面,mahout宣佈新的演算法將基於Spark實現,他們相信Spark更豐富的程式設計模型及更優秀的性能將對mahout有著至關重要的作用。 另一方面,Cloudera的機器學習框架oryx的執行引擎也會替換成Spark,之前oryx也是使用 mapreduce.種種跡象表明,Spark已經開始各種屠殺了,非常有希望成為新一代分散式機器學習事實上的標準。 讓我們拭目以待。 Spark正在逐漸走向成熟,並在這個領域扮演更加重要的角色。