今天參加了3個keynotes,42個session中的8個,和一大堆廠商討論技術,真是資訊大爆炸的一天。
Hadoop從誕生到今年已經有7個年頭,今年出現了很多新的變化:
1、Hadoop被公認是一套行業大資料標準開源軟體,在分散式環境下提供了海量資料的處理能力(Gartner)。 幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟體、商業化工具和技術服務。 今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明顯增加了Hadoop方面的投入,Teradata還公開展示了一個一體機;另一方面創業型Hadoop公司層出不窮, 這次看到的幾個是Sqrrl、Wandisco、GridGain、InMobi等等,都推出了開源的或者商用的軟體。
2、Hadoop生態系統豐富多彩,但是核心已經被Cloudera、HortonWorks牢牢掌控,基本上沒有撼動之可能。 今年Hortonworks的宣傳是100% open source,Cloudera只好乾著急,誰叫他不開放Cloudera Enterprise Manager的原始程式碼呢? Hortonworks介紹Ambari的時候,會場至少5個Cloudera的工程師在仔細聆聽,有個小夥不停地在iPad上面速記,競爭可見一斑,個人估計,Cloudera早晚將Enterprise Manager開源。 Hortonworks目前Ambari的committer是20+,Contributor 50+,後一個數位可能有些水,但是第一個是沒有問題的。 目前每天有update,1.25版本比1.0x版本明顯好用了。 其他大小廠商的生存之道就是搞外掛程式,如Wandisco、vmware、mellanox、GridGain,而且外掛程式均是不用修改內核的外掛 – 這些廠商是沒有能力動內核的,持續投入可能會有一些作用,如vmware, 但是一線hadoop廠商是絕不會鬆手的。
3、Hadoop 2.0轉型基本上無可阻擋。 Hortonworks的VPArun在介紹Tez的時候,給出了很多有趣的ppt,主旨就是一個:MapReduce已經是昨日黃花,Yarn將是未來平行計算的基礎設施。 我自己還沒有使用Yarn,但是Hortonworks已經圍繞Yarn開發了很多工具,尤其是Tez,這個玩意可以提升查詢計劃的執行時間,PIG和Hive將被改寫並重裝上陣。 Hortonworks雖然沒有搞出來Impala,但是從更底層的技術上包圍Impala,兩個老大的佈局和較量始終沒有停止。
4、SQL over Hadoop是一個重要的技術趨勢。 去年Hadoop World時,MPP還吹噓自己如何牛X。 但是Google發佈了Dremel和PowerDrill,EMC搞出來HAWQ,Cloudera搞出來Impala之後,所有的MPP都開始反思自己的技術路線。 和Parccel技術人員(感覺是售前)討論了一下,她找出一張卡片說Parccel速度是Hive的100X,領先Impala10年。 我感覺這個說話很快就會失靈,首先是Hive的優化一直沒有停止,Hortonworks搞出來Tez、Stinger(與Facebook合作)。 雖然MPP領先Hadoop很多年,根據80:20原則,如果hadoopSQL只做使用者需要的20%特性,那麼這個差距最多2年,2年內,hadoopSQL將在部分領域超越MPP。 MPP企業的出路就是學習HAWQ。 列存儲也是推陳出新,近期主要是ORC(MS和Hortonworks合作)、Parquet(Twitter和Cloudera合作),有木有看出來兩個巨頭PK的身影? 有木有看到抱團PK? 這些技術在測試中均顯示出很大的優勢
5、IT和開源單位合作廣泛。 這個不僅僅存在IT廠商和開源之間,實際上開源之間也在密切合作。 不太清楚合作的內部資訊,但是基本上有兩種模式:產品/軟體交叉集成(含管理系統集成);合作開發和推廣。 在技術方面就要求軟體有很好的架構,提供開放的介面,這一點Ambari的設計和俺對HT的要求一模一樣,可以俺未能如願,而Amabri已經開發了好幾個版本。
6、技術上看,大資料和雲的整合也是一個選項(注意,不是趨勢,而是選項)。 今年新增了OpenStack相關議題,一些集成商和廠商也提出了雲上Hadoop的適用場景。 這個並不是適用于所有人,但是部分使用者可以因此獲益。 Netflix是一個典型的例子,他們的實例都在AWS上面,顯然他們的hadoop是基於虛擬機器的,和一個Netflix小夥子(日本人)交流,他們大約有2000個虛擬實例,基於EMR,並開發了Gennie管理系統。
要睡覺了,4小時後還有一場資訊大爆炸! 貼一張在賓館小院乘涼,看到的小松鼠吧,也就距離我5米不到,真要贊一聲美帝的環境!