標籤:
Spark是UC Berkeley AMP 實驗室基於map reduce演算法實現的分散式運算架構,輸出和結果儲存在記憶體中,不需要頻繁讀寫HDFS,資料處理效率更高
Spark適用於近線或准即時、資料採礦與機器學習應用情境
Spark和Hadoop
- Spark是一個針對超大資料集合的低延遲的叢集分散式運算系統,比MapReducer快40倍左右。
- Spark是hadoop的升級版本,Hadoop作為第一代產品使用HDFS,第二代加入了Cache來儲存中間計算結果,並能適時主動推Map/Reduce任務,第三代就是Spark倡導的流Streaming。
- Spark相容Hadoop的APi,能夠讀寫Hadoop的HDFS HBASE 循序檔等。
容錯
–基於血統的容錯,資料恢複
–checkpoint
checkpoint是一個內部事件,這個事件啟用以後會觸發資料庫寫進程(DBWR)將資料緩衝(DATABUFFER CACHE)中的髒資料區塊寫出到資料檔案中。
在資料庫系統中,寫日誌和寫資料檔案是資料庫中IO消耗最大的兩種操作,在這兩種操作中寫資料檔案屬於分散寫,寫記錄檔是順序寫,因此為了保證資料庫的效能,通常資料庫都是保證在提交(commit)完成之前要先保證日誌都被寫入到記錄檔中,而髒資料區塊則儲存在資料緩衝(buffer cache)中再不週期性分批寫入到資料檔案中。也就是說日誌寫入和提交操作是同步的,而資料寫入和提交操作是不同步的。這樣就存在一個問題,當一個資料庫崩潰的時候並不能保證緩衝裡面的髒資料全部寫入到資料檔案中,這樣在執行個體啟動的時候就要使用記錄檔進行恢複操作,將資料庫恢複到崩潰之前的狀態,保證資料的一致性。檢查點是這個過程中的重要機制,通過它來確定,恢複時哪些重做日誌應該被掃描並應用於恢複。
一般所說的checkpoint是一個資料庫事件(event),checkpoint事件由checkpoint進程(LGWR/CKPT進程)發出,當checkpoint事件發生時DBWn會將髒塊寫入到磁碟中,同時資料檔案和控制檔案的檔案頭也會被更新以記錄checkpoint資訊。
SparkStreaming
什麼是SparkStreaming:
Spark是一個類似於Hadoop的MapReduce分散式運算架構,其核心是彈性分布式資料集(RDD,一個在記憶體中的資料集合),提供了比MapReduce更豐富的模型,可以在快速在記憶體中對資料集進行多次迭代,以支援複雜的資料採礦演算法和圖形計算演算法。 Spark擁有Hadoop MapReduce所具有的優點;但不同於Hadoop MapReduce的是計算任務中間輸出和結果可以儲存在記憶體中,從而不再需要讀寫HDFS,節省了磁碟IO耗,號稱效能比Hadoop快100倍。 Spark Streaming是一種構建在Spark上的即時計算架構,它擴充了Spark處理大規模流式資料的能力。即SparkStreaming 是基於Spark的流式計算架構。
Spark Streaming的優勢在於:
1、能運行在100+的結點上,並達到秒級延遲。
2、使用基於記憶體的Spark作為執行引擎,具有高效和容錯的特性。
3、能整合Spark的批處理和互動查詢。
4、為實現複雜的演算法提供和批處理類似的簡單介面。
SparkStreaming原理
Spark Streaming是將流式計算分解成一系列短小的批次工作。這裡的批處理引擎是Spark,也就是把Spark Streaming的輸入資料按照batch size(如1秒)分成一段一段的資料(Discretized Stream),每一段資料都轉換成Spark中的RDD(Resilient Distributed Dataset),然後將Spark Streaming中對DStream的Transformation操作變為針對Spark中對RDD的Transformation操作。
大資料架構之:Spark