漫談大資料之Hadoop部署前的思考

來源:互聯網
上載者:User

Hadoop的應用前提是」資料是有價值的!」,當然,這一點已經得到了幾乎所有人的認可,並且在實際環境中,也都是這樣在做的,我們都希望從系統日誌,網路資料,社交資訊等海量資料中發掘出有價值的資訊,比如,使用者的行為,習慣等, 而這些是做下一步市場行銷的有效決策依據。 在Hadoop出現後,對於資料的發掘更是體現的淋漓盡致,尤其是從知名的互聯網公司開始,都已經在使用或部署Hadoop環境。

面對如此誘惑,很多傳統的企業使用者都想參考互聯網企業的做法,非常快速的部署Hadoop,從而快速整合和發掘既有資料的價值。 但現實情況卻正應了」理想很豐滿,現實太骨感「那句網路流行語,想快速部署Hadoop,卻沒那麼容易。 為什麼會出現這樣的問題呢,我想到的原因大概有幾點:

1. Hadoop提供給我們的只是一個框架,而不是一套完整的解決方案。

就像購買一套房子,建築商交付的永遠那都是一個基礎結構,整體裝修部分還是要靠戶主自己按照自己的風格和喜好進行設計和實施,而且,每個戶主對於裝修部分都會有自己的定義。 Hadoop的部署恰是如此,每個企業中的Hadoop環境都可以說是唯一的,需要企業使用者對自己的資料環境有一個非常好的梳理和認知。 我需要分析哪些資料?需要得到什麼樣的資訊?這些資訊我用來做什麼?只有想明白這些問題後,Hadoop部署才會體現出它的價值。 而這些,不僅僅是技術層面的問題,還要有管理層的認知甚至是業務層面的配合。

2. 人力上的問題。

Hadoop屬於開源架構,而開源有它先天不足或無法解決的問題,例如,由於場景的的唯一性導致的開源架構下的開發和維護問題。 Hadoop同樣會面對這樣的問題,而且,市場上當前Hadoop方面的人才相對比較少,這些對於企業而言,都會增加不少部署和應用上的難度。 大量的開發工作需要大量的開發人員,個體的稀缺性又加重了開發方面的成本和難度。

3. 只有適合分散式架構解決的問題才可以由Hadoop解決。

Hadoop不是」仙丹」,不能解決一切資料分析問題。 面向結構化的資料查詢和分析,傳統資料庫結構還有它特有的優勢。 Hadoop是一個分散式架構,而分散式架構決定了其」只有適合分散式架構解決的問題才可以由Hadoop解決」。 例如,一個孕婦,需要10月懷胎才會有一個baby,而不是通過10個孕婦在1個月內擁有一個baby。 說到底,只有問題可以被拆分成若干子問題,且子問題是獨立的,也就是可以適用用 「key-value」的反覆運算方式進行處理,最終可以推匯出我們需要的結果。 這樣的問題才是Haodop可以去解決的問題。

4. Hadoop不適合處理小檔。

其實大和小只是一個相對的概念,不存在絕對值的對比,之所以說Hadoop不適合處理小檔是由HDFS中的namenode局限性決定的,每個檔都會在namenode中保存相應的中繼資料資訊,為了提升效率, 這些資訊在使用的過程中都是被保存在記憶體中的,如果小檔很多,則會消耗大量的 namenode節點的記憶體,而對於單節點來講,記憶體的擴展是有其上限的。 反之,如果是相對較大,例如上GB或更大的檔,相對消耗的記憶體則會比較少。 同時,在資料處理的過程中,系統開銷的占比會小很多。 這些架構上的特點和限制,決定了Hadoop更適合於處理「大」資料。 當然在技術實現上來看,殺雞用牛刀也是可以的,就看值不值得而已。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.