【互動問答分享】第12期決勝雲端運算大資料時代Spark亞太地區研究院公益大講堂

來源:互聯網
上載者:User

標籤:雲端運算   大資料   spark   spark技術   spark熱點   spark互動問答   

“決勝雲端運算大資料時代”

Spark亞太地區研究院100期公益大講堂 【第12期互動問答分享】

 

Q1:jobserver 企業使用方式如何?

  • 中國有一家視頻網站已經使用超過JobServer超過半年的時間;

  • 2013年和2014年Spark Summit均大力推薦使用JobServer;

     


Q2:請問,jobserver是適合企業內部還是供外部客戶使用(可能並發、安全有要求),還是兩者ok?

  • 目前可見的企業使用案例均是用在企業內部;

  • 如果是企業外部可以作為雲端服務或者大資料資源集區使用;


 

Q3:請問,spark 跑1T資料需要多少記憶體才能很快跑完

  • 這首先和程式運行時候在每台Worker上使用的記憶體和CPU有關,提交程式的時候可以手動設定;

  • 其次是和頻寬有關係,Shuffle的要盡量減少資料;

  • Driver所在的機器的配置也是極為重要的,一般而言Driver所在的Client的記憶體和CPU根據實際情況要儘可能的更高的配置,同時,也是至關重要的Driver和Spark叢集要在同一個網路環境,應為Driver要不斷的task給Worker上的Executor,同時接受Driver的資料;


 

Q4:我目前是解決stackoverflow Error 是用checkPoint解決lineage過長的問題 但是這樣會影響效率 怎樣在效率和error之間均衡呢?

  • :StackOverflow可以通過配置BlockManager記憶體管理原則來緩解;

  • 對於checkpoint,要根據實際情況調整,例如對於Spark Streaming 預設是在記憶體有兩份資料副本,此時如果處理能力無法及時消費即時資料流資料,就會極為容易產生StackOverflow的情況,此時就要根據實際情況調整時間視窗和進行checkpoint;



本文出自 “Spark亞太地區研究院” 部落格,請務必保留此出處http://rockyspark.blog.51cto.com/2229525/1555110

【互動問答分享】第12期決勝雲端運算大資料時代Spark亞太地區研究院公益大講堂

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.