大資料流式處理一個不能忽視的問題

來源:互聯網
上載者:User

標籤:大資料   串流   儲存處理   記憶體   硬碟   

       我的上一篇BLOG《大資料處理的兩種模式》,談了大資料基於記憶體的串流和基於硬碟的儲存處理。比較這兩種處理模式,因為記憶體的處理效能是硬碟的N個量級,所以串流效率要遠遠高於儲存處理,但是串流本身有一個缺點,或者說是隱憂,上次沒有提到,今天來說一下。
      這要從資料處理的基本面:記憶體、儲存、資料談起。
      大家都知道,一個大資料集群是由很多台電腦連上網路組成的。電腦裡面都有CPU、記憶體、硬碟,電腦通過網路交換資料執行分布計算工作。叢集會按照規則,同時運行著一批執行不同工作的分布計算任務,每次分布計算任務處理的資料容量也不盡相同,少的幾十幾百M,多的幾十幾百G,更大的有時候會達到TB的規模(我們在各地部署的Laxcus叢集時常處理TB級的資料)。如果當叢集中某個時刻迸發出一個超大資料容量的計算任務,這些資料要分散到不同的電腦上去執行計算工作,這個總的資料容量超過叢集的記憶體容量的時候,怎麼辦?
      在儲存模式下,這個問題很容易解決:拿硬碟來做緩衝過渡。資料進來,檢查一下它的尺寸,如果太大,或者一時半會兒處理過不來,就先放到硬碟儲存起來。畢竟現在硬碟都已經做到TB級,不差錢的話,一台電腦還可以多配幾個。能夠利用的儲存空間比記憶體大得多。
      放到了串流模式下,這個問題就糾結了。如果資料進入後硬碟再處理,就和儲存模式沒啥區別了。如果不是這樣,資料就會太多而記憶體不足,記憶體就要溢出,資料就要丟失。叢集裡任何一台電腦出現這樣的故障,整個分布計算任務就是失敗。
      緩解這個問題的一個辦法是升級電腦,CPU換成64位的,然後裝更多的記憶體。原因是32位電腦記憶體上限是4G,一個叢集裡,如果都是32位電腦,同時出現幾個TB計算任務,那得要多少台電腦?64位電腦可以裝更多記憶體,這樣電腦數量可以少些。還順帶提醒一下,雖然記憶體的價格現在比以前是大大便宜了,但是和硬碟相比,單位容量還是貴得多!這樣的成本問題一般電訊廠商會比較在意。另外,這隻是暫時的解決辦法,誰也不知道下一次的超大資料計算任務啥時候發生,和同時會有幾個這樣的超大計算任務發生。
      比較靠譜的解決辦法是在任務計算前,在資料量和叢集記憶體之間做一個評估。當計算任務進來的時候,判斷一下它攜帶資料的最大尺寸,如果叢集的記憶體足夠,就把這些記憶體"預分配"給這個計算任務(這個工作要細划到每一台電腦)。如果不夠,就讓它等著,直到其它計算任務完成工作,記憶體被回收,新的記憶體足夠時,才放它執行工作。第二種辦法和儲存模式差不多,資料先放在硬碟裡存著,然後也是等到記憶體足夠了,再執行它的工作。當然,這兩種辦法都會降低串流的計算效率,但也是沒有辦法的辦法,總比出現記憶體溢出、計算任務失敗這樣的故障好吧。
       綜上所述,串流是一種成本和效費比都高的計算模式。如果你是土豪,像BAT一樣,有足夠的銀子,只關注資料處理的高效能,不在乎往基礎設施上多撒幾個錢,盡可以配上強勁的CPU、超大的記憶體和硬碟或者固態盤,萬兆的光纖網路,這時候加上串流是上選。如果你是一窮人,缺銀子,電腦的效能差,手上一把的32位老式電腦(我們有一個Laxcus叢集現在還在用PentiumIII圖拉丁晶片,就因為這傢伙省電,老而彌堅!),記憶體有限,網路也不咋的,掏不起太多的電費,不計較資料計算的快和慢,那麼湊合湊合,還是考慮儲存模式吧。

大資料流式處理一個不能忽視的問題

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.