標籤:
2014Spark峰會在美國舊金山舉行,與會資料庫平台供應商DataStax宣布,與Spark供應商Databricks合作,在它的旗艦產 品 DataStax Enterprise 4.5 (DSE)中,將Cassandra NoSQL資料庫與Apache Spark開源引擎相結合,為使用者提供基於記憶體處理的即時分析。
Databricks是一家由Apache Spark創始人成立的公司。談到這次合作,DataStax副總裁John Glendenning表示:“將Spark與Cassandra整合,這還是資料庫行業內的第一次合作。”
Cassandra是一個分布式、高可擴充的資料庫,使用者可以建立線上應用程式,即時處理大量資料。
Apache Spark是應用於Hadoop叢集的處理引擎,在記憶體條件下可以為Hadoop加速100倍,在磁碟上運行時也能實現十倍的加速。Spark還提供SQL、流資料處理、機器學習和圖型計算等功能。
Cassandra與Spark的結合,讓端到端的分析工作流程的實現更為容易。另外,交易型資料庫的分析效能也能得到很大的提升,企業可以更快地響應客戶需求。
對於需要向客戶提供即時推薦和個人化的線上體驗的公司,Cassandra與Spark的結合堪稱福音。
視頻分析公司的Cassandra/Spark應用先例
Cassandra+Spark架構的使用早有先例,Ooyala就是其中之一。Ooyala是一家視頻分析供應商。Ooyala每天要處理20億 個視頻事件,在大約220個節點上有約28TB的資料要處理。但是Ooyala的技術團隊負責人 Harry Robertson還是能夠自信地說:“我們不是僅僅告訴客戶,你的視頻幾天播放了100遍,我們會提供更詳細的資訊,比如有80次播放來自於北京,20 次來自於Yahoo.com。”而支撐這一切的正是Cassandra叢集。
但是,只擁有大資料的處理能力還不夠,Ooyala需要將“堆積如山”的原始事件轉變成小的、可操作的事件。公司之前考慮過Hadoop,但 Hadoop擴充性有餘,即時性不足。也考慮過Storm這樣的即時資料流處理架構,但它只有處理固定的流程時才具有優勢,彈性查詢能力欠佳。最 終,Ooyala選擇了記憶體分散式運算架構Spark。
現在Ooyala正在啟動並執行就是Spark/Cassandra架構。
Cassandra聯手Spark 大資料分析將迎來哪些改變?