老李分享大資料生態圈 2

來源:互聯網
上載者:User

標籤:

 

        那如果我要更高速的處理呢?

 

        如果我是一個類似微博的公司,我希望顯示不是24小時熱博,我想看一個不斷變化的熱播榜,更新延遲在一分鐘之內,上面的手段都將無法勝任。於是又一種計算模型被開發出來,這就是Streaming(流)計算。                Storm是最流行的StreamCompute平台。StreamCompute的思路是,如果要達到更即時的更新,我何不在資料流進來的時候就處理了?比如還是詞頻統計的例子,我的資料流是一個一個的詞,我就讓他們一邊流過我就一邊開始統計了。StreamCompute很牛逼,基本無延遲,但是它的短處是,不靈活,你想要統計的東西必須預Crowdsourced Security Testing道,畢竟資料流過就沒了,你沒算的東西就無法補算了。因此它是個很好的東西,但是無法替代上面資料倉儲和批處理系統。

        還有一個有些獨立的模組是KV Store,比如Cassandra,HBase,MongoDB以及很多很多很多很多其他的(多到無法想象)。所以KV Store就是說,我有一堆索引值,我能很快速滴擷取與這個Key繫結資料。比如我用社會安全號碼,能取到你的身份資料。這個動作用MapReduce也能完成,但是很可能要掃描整個資料集。而KV Store專用來處理這個操作,所有存和取都專門為此最佳化了。從幾個P的資料中尋找一個社會安全號碼,也許只要零點幾秒。這讓大資料公司的一些專門操作被大大最佳化了。比如我網頁上有個根據訂單號尋找訂單內容的頁面,而整個網站的訂單數量無法單機資料庫儲存,我就會考慮用KV Store來存。KV Store的理念是,基本無法處理複雜的計算,大多沒法JOIN,也許沒法彙總,沒有強一致性保證(不同資料分布在不同機器上,你每次讀取也許會讀到不同的結果,也無法處理類似銀行轉賬那樣的強一致性要求的操作)。但是丫就是快。極快。

        每個不同的KV Store設計都有不同取捨,有些更快,有些容量更高,有些可以支援更複雜的操作。必有一款適合你。

除此之外,還有一些更特製的系統/組件,比如Mahout是分布式機器學習庫,Protobuf是資料交換的編碼和庫,ZooKeeper是高一致性的分布存取協同系統,等等。

        有了這麼多亂七八糟的工具,都在同一個叢集上運轉,大家需要互相尊重有序工作。所以另外一個重要組件是,調度系統。現在最流行的是Yarn。你可以把他看作中央管理,好比你媽在廚房監工,哎,你妹妹切菜切完了,你可以把刀拿去殺雞了。只要大家都服從你媽分配,那大家都能愉快滴燒菜。

        你可以認為,大資料生態圈就是一個廚房工具生態圈。為了做不同的菜,中國菜,日本菜,法國菜,你需要各種不同的工具。而且客人的需求正在複雜化,你的廚具不斷被發明,也沒有一個萬用的廚具可以處理所有情況,因此它會變的越來越複雜。

老李分享大資料生態圈 2

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.