2014HTTP://www.aliyun.com/zixun/aggregation/13383.html">Spark峰會在美國三藩市舉行,與會資料庫平臺供應商DataStax宣佈, 與Spark供應商Databricks合作,在它的旗艦產品 DataStax Enterprise 4.5 (DSE)中,將Cassandra NoSQL資料庫與Apache Spark開源引擎相結合, 為使用者提供基於記憶體處理的即時分析。
Databricks是一家由Apache Spark創始人成立的公司。 談到這次合作,DataStax副總裁John Glendenning表示:「將Spark與Cassandra集成,這還是資料庫行業內的第一次合作。 」
Cassandra是一個分散式、高可擴展的資料庫,使用者可以創建線上應用程式,即時處理大量資料。
Apache Spark是應用於Hadoop集群的處理引擎,在記憶體條件下可以為Hadoop加速100倍,在磁片上運行時也能實現十倍的加速。 Spark還提供SQL、流資料處理、機器學習和圖型計算等功能。
Cassandra與Spark的結合,讓端到端的分析工作流的實現更為容易。 另外,交易型資料庫的分析性能也能得到很大的提升,企業可以更快地回應客戶需求。
對於需要向客戶提供即時推薦和個人化的線上體驗的公司,Cassandra與Spark的結合堪稱福音。
視頻分析公司的Cassandra/Spark應用先例
Cassandra+Spark架構的使用早有先例,Ooyala就是其中之一。 Ooyala是一家視頻分析供應商。 Ooyala每天要處理20億個視頻事件,在大約220個節點上有約28TB的資料要處理。 但是Ooyala的技術團隊負責人 Harry Robertson還是能夠自信地說:「我們不是僅僅告訴客戶,你的視頻幾天播放了100遍,我們會提供更詳細的資訊,比如有80次播放來自于北京,20次來自于Yahoo.com。 」而支撐這一切的正是Cassandra集群。
但是,只擁有大資料的處理能力還不夠,Ooyala需要將「堆積如山」的原始事件轉變成小的、可操作的事件。 公司之前考慮過Hadoop,但Hadoop擴充性有餘,即時性不足。 也考慮過Storm這樣的即時流處理框架,但它只有處理固定的流程時才具有優勢,彈性查詢能力欠佳。 最終,Ooyala選擇了記憶體分散式運算框架Spark。
現在Ooyala正在運行的就是Spark/Cassandra架構。