Cassandra聯手Spark 大資料分析將迎來哪些改變?

來源:互聯網
上載者:User

標籤:

2014Spark峰會在美國舊金山舉行,與會資料庫平台供應商DataStax宣布,與Spark供應商Databricks合作,在它的旗艦產 品 DataStax Enterprise 4.5 (DSE)中,將Cassandra NoSQL資料庫與Apache Spark開源引擎相結合,為使用者提供基於記憶體處理的即時分析。

 

Databricks是一家由Apache Spark創始人成立的公司。談到這次合作,DataStax副總裁John Glendenning表示:“將Spark與Cassandra整合,這還是資料庫行業內的第一次合作。”

 

Cassandra是一個分布式、高可擴充的資料庫,使用者可以建立線上應用程式,即時處理大量資料。

 

Apache Spark是應用於Hadoop叢集的處理引擎,在記憶體條件下可以為Hadoop加速100倍,在磁碟上運行時也能實現十倍的加速。Spark還提供SQL、流資料處理、機器學習和圖型計算等功能。

 

Cassandra與Spark的結合,讓端到端的分析工作流程的實現更為容易。另外,交易型資料庫的分析效能也能得到很大的提升,企業可以更快地響應客戶需求。

 

對於需要向客戶提供即時推薦和個人化的線上體驗的公司,Cassandra與Spark的結合堪稱福音。

 

視頻分析公司的Cassandra/Spark應用先例

Cassandra+Spark架構的使用早有先例,Ooyala就是其中之一。Ooyala是一家視頻分析供應商。Ooyala每天要處理20億 個視頻事件,在大約220個節點上有約28TB的資料要處理。但是Ooyala的技術團隊負責人 Harry Robertson還是能夠自信地說:“我們不是僅僅告訴客戶,你的視頻幾天播放了100遍,我們會提供更詳細的資訊,比如有80次播放來自於北京,20 次來自於Yahoo.com。”而支撐這一切的正是Cassandra叢集。

 

但是,只擁有大資料的處理能力還不夠,Ooyala需要將“堆積如山”的原始事件轉變成小的、可操作的事件。公司之前考慮過Hadoop,但 Hadoop擴充性有餘,即時性不足。也考慮過Storm這樣的即時資料流處理架構,但它只有處理固定的流程時才具有優勢,彈性查詢能力欠佳。最 終,Ooyala選擇了記憶體分散式運算架構Spark。

 

現在Ooyala正在啟動並執行就是Spark/Cassandra架構。

 

Cassandra聯手Spark 大資料分析將迎來哪些改變?

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.