大資料架構師:hadoop、Storm該選哪一個

來源:互聯網
上載者:User

首先整體認識:Hadoop是磁片級計算,進行計算時,資料在磁片上,需要讀寫磁片;HTTP://www.aliyun.com/zixun/aggregation/13431.html">Storm是記憶體級計算, 資料直接通過網路導入記憶體。 讀寫記憶體比讀寫磁片速度快n個數量級。 根據Harvard CS61課件,磁片訪問延遲約為記憶體訪問延遲的75000倍。 所以Storm更快。

注釋:

1. 延時 , 指資料從產生到運算產生結果的時間,「快」應該主要指這個。

2. 吞吐, 指系統單位時間處理的資料量。

storm的網路直傳、記憶體計算,其時延必然比hadoop的通過hdfs傳輸低得多;當計算模型比較適合流式時,storm的流式處理,省去了批次處理的收集資料的時間;因為storm是服務型的作業,也省去了作業調度的時延。 所以從時延上來看,storm要快于hadoop。

從原理角度來講:

Hadoop M/R基於HDFS,需要切分輸入資料、產生中間資料檔案、排序、資料壓縮、多份複製等,效率較低。

Storm 基於ZeroMQ這個高性能的消息通訊庫,不持久化資料。

為什麼storm比hadoop快,下面舉一個應用場景

說一個典型的場景,幾千個日誌生產方產生日誌檔,需要進行一些ETL操作存入一個資料庫。

假設利用hadoop,則需要先存入hdfs,按每一分鐘切一個檔的細微性來算(這個細微性已經極端的細了,再小的話hdfs上會一堆小檔),hadoop 開始計算時,1分鐘已經過去了,然後再開始調度任務又花了一分鐘, 然後作業運行起來,假設機器特別多,幾鈔鐘就算完了,然後寫資料庫假設也花了很少的時間,這樣,從資料產生到最後可以使用已經過去了至少兩分多鐘。

而流式計算則是資料產生時,則有一個程式去一直監控日誌的產生,產生一行就通過一個傳輸系統發給流式計算系統,然後流式計算系統直接處理,處理完之後直接寫入資料庫,每條資料從產生到寫入資料庫,在資源充足時可以在毫秒級別完成。

同時說一下另外一個場景:

如果一個大檔的wordcount,把它放到storm上進行流式的處理,等所有已有資料處理完才讓storm輸出結果,這時候,你再把它和hadoop比較快慢,這時,其實比較的不是時延,而是比較的吞吐了。

--------------------------------------------------------------------------------------------------------------- -----------------------------------

最主要的方面:Hadoop使用磁片作為中間交換的介質,而storm的資料是一直在記憶體中流轉的。

兩者面向的領域也不完全相同,一個是批量處理,基於任務調度的;另外一個是即時處理,基於流。

以水為例,Hadoop可以看作是純淨水,一桶桶地搬;而Storm是用水管,預先接好(Topology),然後打開水龍頭,水就源源不斷地流出來了。

--------------------------------------------------------------------------------------------------------------- ------------------------------------

Storm 的主工程師Nathan Marz表示: Storm可以方便地在一個電腦集群中編寫與擴展複雜的即時計算,Storm之于即時處理,就好比Hadoop之于批次處理。 Storm保證每個消息都會得到處理,而且它很快——在一個小集群中,每秒可以處理數以百萬計的消息。 更棒的是你可以使用任意程式設計語言來做開發。

Storm的主要特點如下:

1.簡單的程式設計模型。 類似于MapReduce降低了並行批次處理複雜性,Storm降低了進行即時處理的複雜性。

2.可以使用各種程式設計語言。 你可以在Storm之上使用各種程式設計語言。 預設支援Clojure、JAVA、Ruby和Python。 要增加對其他語言的支援,只需實現一個簡單的Storm通訊協定即可。

3.容錯性。 Storm會管理工作進程和節點的故障。

4.水準擴展。 計算是在多個執行緒、進程和伺服器之間並行進行的。

5.可靠的消息處理。 Storm保證每個消息至少能得到一次完整處理。 任務失敗時,它會負責從訊息源重試消息。

6.快速。 系統的設計保證了消息能得到快速的處理,使用ØMQ作為其底層訊息佇列。

7.本地模式。 Storm有一個「本地模式」,可以在處理過程中完全類比Storm集群。 這讓你可以快速進行開發和單元測試。

--------------------------------------------------------------------------------------------------------------- ------------------------------------------------

在消耗資源相同的情況下,一般來說storm的延時低於mapreduce。 但是吞吐也低於mapreduce。 storm是典型的流計算系統,mapreduce是典型的批次處理系統。 下面對流計算和批次處理系統流程

這個個資料處理流程來說大致可以分三個階段:

1. 資料獲取與準備

2. 資料計算(涉及計算中的中間存儲), 題主中的「那些方面決定」應該主要是指這個階段處理方式。

3. 資料結果展現(回饋)

1)資料獲取階段,目前典型的處理處理策略:資料的產生系統一般出自頁面打點和解析DB的log,流計算將資料獲取中訊息佇列(比如 kafaka,metaQ,timetunle)等。 批次處理系統一般將資料獲取進分散式檔案系統(比如HDFS),當然也有使用訊息佇列的。 我們暫且把訊息佇列和檔案系統稱為預處理存儲。 二者在延時和吞吐上沒太大區別,接下來從這個預處理存儲進入到資料計算階段有很大的區別,流計算一般在即時的讀取訊息佇列進入流計算系統(storm)的資料進行運算,批次處理一系統一般會攢一大批後大量匯入到計算系統(hadoop) ,這裡就有了延時的區別。

2)資料計算階段,流計算系統(storm)的延時低主要有一下幾個方面(針對題主的問題)

A: storm 進程是常駐的,有資料就可以進行即時的處理

mapreduce 資料攢一批後由作業管理系統啟動任務,Jobtracker計算任務分配,tasktacker啟動相關的運算進程

B: stom每個計算單元之間資料之間通過網路(zeromq)直接傳輸。

mapreduce map任務運算的結果要寫入到HDFS,在於reduce任務通過網路拖過去運算。 相對來說多了磁片讀寫,比較慢

C: 對於複雜運算

storm的運算模型直接支援DAG(有向無環圖)

mapreduce 需要肯多個MR過程組成,有些map操作沒有意義的

3)資料結果展現

流計算一般運算結果直接回饋到最終結果集中(展示頁面,資料庫,搜尋引擎的索引)。 而mapreduce一般需要整個運算結束後將結果大量匯入到結果集中。

實際流計算和批次處理系統沒有本質的區別,像storm的trident也有批概念,而mapreduce可以將每次運算的資料集縮小(比如幾分鐘啟動一次),facebook的puma就是基於hadoop做的流計算系統。

      原文連結:HTTP://doc.okbase.net/sphl520/archive/98505.html

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.