大資料不單單只是Hadoop

來源:互聯網
上載者:User

這段時間接觸大資料相關專案比較多,自然有些體會和感觸。 感覺到自己之前對於這個領域的認識並不全面,甚至有點盲目,然後在具體專案或者概念認證階段走了不少彎路。 但好在在這些專案過程中認識接觸了不少合作夥伴的兄弟姐妹們,從他們那裡學到了不少東西。 現在試著把這些心得整理下分享給大家,希望對於各位對大資料感興趣的童鞋們有點説明吧。 這篇PPT主要有兩個部分:一個部分是講大資料應用場景以及和傳統方案的區別等等,還有一個部分是介紹國內大資料一些解決方案供應商和一些實際應用案例的。 這裡只貼出第一部分,希望能夠幫大家理清些大資料的概念性問題。

  

上圖中,精確資料是指每條資料都有著準確的含義和確定的價值,表達很明確的資訊。 比如,製造業的一條生產記錄。 傳統關聯式資料庫以處理這類資料。 並基於此類資料通過複雜邏輯分析推演出業務價值為強項。

大資料時代資料的特點是大量模糊資料。 單條資料沒有確定的價值和明確的含義。 比如,一個網頁的點擊記錄。 Hadoop的優勢是能對海量模糊資料進行匯總排序比對等操作,把他們變成有意義的資料,再通過海量的樣本比對等方式歸納產生業務價值。

所以,從本質上說這是兩種針對不同場景不同物件的不同技術。 如果要採用Hadoop去取代RISC架構的資料庫,BI應用。 那麼必須打破原來企業經典的沿用幾十年的資料結構,重新定義資料模型,表結構等等。 還是我以前提過的,就是要重新從頭練另一門武功。 但那樣下來效率是否一定就會比以前高,效果是否一定比以前好,從我幾個專案試驗的結果來看也並不樂觀。

但是,在某些情況下大資料技術也能比RISC架構更好的解決一些傳統的結構化資料問題,比如ETL。 在一些行業裡,ETL工作往往需要一個很長的處理流程。 利用Map/Reduce技術可以大大縮短ETL的工作流程,提高效率,而且隨著資料量的不斷增長,這種優勢會越來越明顯。 所以說,是否用Hadoop去嘗試替代原先的RISC架構,關鍵還是看資料量是否夠大以及資料類型是否多樣化。

以上這張圖取自BI Reasrch。 以資料查詢的延遲性需求為縱軸,資料量和結構化程度為橫軸列出了Hadoop技術和傳統關聯式即RDBMS的應用場景區別。 Hadoop之所以會出現其實就是為了應付海量的非結構化資料的離線分析的。 所以其應用場景也基本是以此類為強項,即資料量大,結構化程度低,分析的即時性要求不高。 當然隨著其技術的發展,外沿通過不同元件如Hive的補充有所拓展。 但要其完全取代原先的RDBMS基本是不可能的事情。

正如第一張圖所說,大資料時代,沒有一種方案是可以包打天下的。 企業內部未來也必將是多種方案並存來處理各類不同類型資料的環境。 下面試著將目前資料庫的幾類應用場景分分類,同時列出了每一類國內外的一些解決方案名字。 國外的方案我為了簡單起見,只列出特性比較鮮明的。 沒有寫Exadata是因為它有點屬於混合方案,把它簡單定位在一個領域有點不太合適。 而且國內可以和它具備相同類型的方案也沒有,就先不提了。 改天有空我再整理下我對於Exadata的一些粗淺認識給大家來噴一下。 關於國內方案,我列出的是僅限於我知道的或是合作過的方案供應商,當然還有很多遺漏的。 當然也有些我認為特色不鮮明沒有什麼核心技術的也就不提了。 這裡只列出他們的名字和專注領欄位型別,詳細的一些介紹就不在這裡貼出來了,反正他們都可以在新浪微博裡找到,呵呵。

當然,上圖所列出的場景所針對的解決方案也不是唯一的。 一些場景是多個方案都可以勝任的。

比如Mongo DB也可以做MAP/Reduce的工作。 Hive能夠為Hadoop體系提供SQL的介面等等

最後,再談一下我對國內大資料解決方案供應商的一些總體感覺。 當然,還是那句話,這些觀點只是在我接觸過的幾個方案中得出的,並不代表國內總體的情況,我沒有這麼多的精力去瞭解,也沒有這個能力。 這些感覺僅供參考。

  

關於適宜客戶群,我上面說的也只是我個人的一些建議。 我覺得,這些國內解決方案的供應商,需要通過一些實際企業應用案例實施的磨練,以及一些合作夥伴的説明,才能真正走向成熟,走向商用,去挑戰那些國外的知名產品。 我覺得從目前來看,技術不是問題,路線方向也沒有什麼錯誤。 關鍵是對自身的規劃和技術走向商用,走向產品化流程化的運作能力。 我也真心希望國內的那些大企業大公司能夠給國內的這些有技術有想法的方案供應商一些機會,讓他們能夠積累經驗,成長壯大。

先寫這些吧。 還有一部分關於國內那些大資料方案同國外方案的對比,以及intel Hadoop方案同Cloudera的對比,目前我寫的主要還是針對我們公司內部分享的用途,就不對外公開了。 有興趣的朋友我們下次可以口頭討論。 還有幾個我自己親身參與的行業案例,回頭如果得到那些公司許可了再公開給大家分享吧。 最後祝大家週末愉快,哈哈!

原文連接:HTTP://blog.sina.com.cn/s/blog_62242b8d01014d1w.html

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.