大資料架構之:Spark

來源:互聯網
上載者:User

標籤:

Spark是UC Berkeley AMP 實驗室基於map reduce演算法實現的分散式運算架構,輸出和結果儲存在記憶體中,不需要頻繁讀寫HDFS,資料處理效率更高
Spark適用於近線或准即時、資料採礦與機器學習應用情境

 

Spark和Hadoop

  • Spark是一個針對超大資料集合的低延遲的叢集分散式運算系統,比MapReducer快40倍左右。   
  • Spark是hadoop的升級版本,Hadoop作為第一代產品使用HDFS,第二代加入了Cache來儲存中間計算結果,並能適時主動推Map/Reduce任務,第三代就是Spark倡導的流Streaming。   
  • Spark相容Hadoop的APi,能夠讀寫Hadoop的HDFS HBASE 循序檔等。

容錯     

–基於血統的容錯,資料恢複     

–checkpoint

 

     checkpoint是一個內部事件,這個事件啟用以後會觸發資料庫寫進程(DBWR)將資料緩衝(DATABUFFER CACHE)中的髒資料區塊寫出到資料檔案中。

     在資料庫系統中,寫日誌和寫資料檔案是資料庫中IO消耗最大的兩種操作,在這兩種操作中寫資料檔案屬於分散寫,寫記錄檔是順序寫,因此為了保證資料庫的效能,通常資料庫都是保證在提交(commit)完成之前要先保證日誌都被寫入到記錄檔中,而髒資料區塊則儲存在資料緩衝(buffer cache)中再不週期性分批寫入到資料檔案中。也就是說日誌寫入和提交操作是同步的,而資料寫入和提交操作是不同步的。這樣就存在一個問題,當一個資料庫崩潰的時候並不能保證緩衝裡面的髒資料全部寫入到資料檔案中,這樣在執行個體啟動的時候就要使用記錄檔進行恢複操作,將資料庫恢複到崩潰之前的狀態,保證資料的一致性。檢查點是這個過程中的重要機制,通過它來確定,恢複時哪些重做日誌應該被掃描並應用於恢複。

     一般所說的checkpoint是一個資料庫事件(event),checkpoint事件由checkpoint進程(LGWR/CKPT進程)發出,當checkpoint事件發生時DBWn會將髒塊寫入到磁碟中,同時資料檔案和控制檔案的檔案頭也會被更新以記錄checkpoint資訊。

 

SparkStreaming

 什麼是SparkStreaming:     

      Spark是一個類似於Hadoop的MapReduce分散式運算架構,其核心是彈性分布式資料集(RDD,一個在記憶體中的資料集合),提供了比MapReduce更豐富的模型,可以在快速在記憶體中對資料集進行多次迭代,以支援複雜的資料採礦演算法和圖形計算演算法。 Spark擁有Hadoop MapReduce所具有的優點;但不同於Hadoop MapReduce的是計算任務中間輸出和結果可以儲存在記憶體中,從而不再需要讀寫HDFS,節省了磁碟IO耗,號稱效能比Hadoop快100倍。 Spark Streaming是一種構建在Spark上的即時計算架構,它擴充了Spark處理大規模流式資料的能力。即SparkStreaming 是基於Spark的流式計算架構。

Spark Streaming的優勢在於:  

1、能運行在100+的結點上,並達到秒級延遲。  

2、使用基於記憶體的Spark作為執行引擎,具有高效和容錯的特性。  

3、能整合Spark的批處理和互動查詢。  

4、為實現複雜的演算法提供和批處理類似的簡單介面。

SparkStreaming原理

      Spark Streaming是將流式計算分解成一系列短小的批次工作。這裡的批處理引擎是Spark,也就是把Spark Streaming的輸入資料按照batch size(如1秒)分成一段一段的資料(Discretized Stream),每一段資料都轉換成Spark中的RDD(Resilient Distributed Dataset),然後將Spark Streaming中對DStream的Transformation操作變為針對Spark中對RDD的Transformation操作。

 

 

大資料架構之:Spark

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.