開啟大資料學習之路 路漫漫其修遠兮

來源:互聯網
上載者:User

標籤:

用大資料分析大資料超市

現今科技界紅到發紫的大資料革命的代表性技術就是Hadoop(註:一個分布式系統基礎架構)。Hadoop是一個由一系列不同的技術組成的生態系統。做 Hadoop相關產品的公司有很多,其中也有很多不一樣的選擇和變種,比如Cloudera,Hortonworks,亞馬遜EMR,Storm和 Spark都是其中的一部分。 而Hadoop作為一個整體來說仍然是採用量最多,討論最火爆的大資料技術。

然而通過我們的資料分析發現在世界上前50萬個公司中,只有很少的一部分真正的使用了Hadoop技術。有人會說我們仍然處在這個技術被福士所接 受最初始的階段。我們假設用Hadoop的實用情況來代表整個大資料的發展現狀,通過資料分析我們發現了一些很有意思的市場現狀。

當剛看到這些未經處理資料的時候,我們會發現大資料超市還有非常大的潛在空間。但是現在真正的使用者非常少,而這方面的公司又多如牛毛,意味著大資料科技公司中會被併購。簡單地講,大資料超市會慢慢的變得更加成熟。

現況一覽

我們分析了幾十億條網上公布的資訊,包括新聞稿、論壇文章、招聘啟事、微博和專利等等。我們用這些大量的文檔進行機器學習,從而得到一些關於大公司都技術採用情況的非常精確的資訊。

我們想通過分析瞭解什麼樣的趨勢呢?舉個例子,通過統計公司員工的技能就可以瞭解他們所在的公司這正在使用什麼樣的技術;有哪些公司在找會 Spark的人;哪些公司在招資料科學家,招多少個。如果把關注點放在Hadoop上我們可以找到一個公司或者組織的人有沒有在討論Hadoop相關問 題,有沒有需要Hadoop的職位正在招聘,都有誰去了當地關於Hadoop的興趣小組,還有網上誰在問關於Hadoop的技術問題。我們甚至用了關於 Hadoop的每一條微博,部落格和展示稿。

總的來說,我們發現只有2680個公司在某種程度上使用Hadoop,在這些公司裡面,1636個的技術採用成熟度等級是非常低的,這些人只是剛剛開 始嘗試新技術,參加興趣小組和技術會議來學習大資料或者嘗試做一些入門探索性的項目。另外552個在更高的一個層級,他們已經開始在內部比較小型的項目中 用Hadoop(部門的項目或者公司本身就是一個初創公司)。只有492個是在進階的技術狀態,這些公司有一個比較大型的項目投入產品並且有員工對 Hadoop有一定的經驗。

大公司更愛大資料

我們驚訝的發現, 大型公司(5000人以上)開始使用大資料技術的速度要遠遠高於小型公司。 一般人很可能會猜小型或者曆史比較短的公司會更願意採用新技術。但是對於大資料,現實情況正好相反。我們發現大型公司中有300個對於Hadoop非常重 視已經進行了技術投資,而相對比之下只有300個5000人以下的公司是Hadoop使用者。考慮到中小公司的總數目是大公司的10倍,這也就是說 Hadoop在大公司市場的佔有率是中小型公司市場的10倍。

大多數用Hadoop的公司自己就是高科技資料導向的公司。但是我們不知道為什麼小公司遲遲沒有迎頭趕上。這是因為他們買不起大資料軟體支援嗎?還是因為他們請不起高薪的資料科學家和工程師?還是他們根本就沒有太多的資料?

石油和醫藥行業落後金融行業領先

油氣公司和醫藥公司一般來說都有非常多的資料集,但是我們的分析表明他們並沒有很多在使用Hadoop。然而金融行業雖然傳統上並不是可以快速採用新技術的行業,卻很快地使用了大資料技術。

這也許是因為金融行業受到了一些早期使用者(比如美國運通公司)的影響。或者是因為他們直接從IBM大型電腦飛躍到Hadoop,中間直接跳過了好幾代的技術更迭。甚至現在已經出現了專門提供這種技術升級服務的創業公司(比如Paxata和Syncsort)。

即時分析也不能阻擋

Hadoop的腳步

令人不解的是,一些需要即時分析的行業更快的採用了Hadoop技術。這些行業包括零售行業、IT安全、電信和保險。這個非常讓人困惑,因為Hadoop 最開始的基礎MapReduce(映射-歸納)模型採用的是批量處理,這種方法在即時資料分析和處理中非常低效。為瞭解決這個問題,市場中已經出現了一些 即時處理Hadoop的公司(比如Datatorrent、VoltDB和Splice Machine)。

未來展望

即使是那些準備好了進入Hadoop的公司也要面臨人才的缺失的問題。在撰寫文章的這天光美國就有1萬6千個需要Hadoop經驗的崗位在招人。如果 Hadoop市場走向成熟,那業界需要找到一個可以利用那些沒有Hadoop技術經驗人才的方法。那些瞭解SQL的人才數目要比懂Hadoop的多100 倍。類似Splice Machne, Presto,IBM大資料,甲骨文大資料SQL之類(這些公司都提供用SQL來查詢大資料的方法)的解決方案將會因為相關人才的數量而更加有吸引力。

即便人才問題可以得到解決,技術本身仍然存在著實用和維護成本非常昂貴的問題。雖然使用了免費開源的Hadoop系統,你仍然需要找到非常稀少開價很高的 系統管理員。另外雖然在備份,恢複和高使用性方面的解決方案越來越多,但是管理Hadoop系統仍然比SQL資料庫要複雜的多得多。

當今的Hadoop市場可以說是比較小的,並容不下這麼多的創業公司在裡面競爭。我們的分析表明真正在為大資料買單的公司集中在少量的大型公司 中,所以最後勝出的應該會是那些在市場中已經站穩腳跟的技術。我們從最近Hortonworks在股市中的表現也可以看到這一點(註:目前股價$11,市 值自上市以來已經蒸發了一半還多)。

這會直接導致一些Hadoop公司被收購或者合并。最後併購的公司如果不僅可以支援最基本的MapReduce,還可以採用公用雲端定價模式,事 務,純記憶體處理,即時分析和SQL等等,那麼客戶可以不再為了有很多不同的一次性系統而煩惱。最終就像是以前的關係型資料庫公司那樣被應用型公司所取代 (比如甲骨文),這些公司直接提供一些大資料驅動的解決方案,可以直接應用在物聯網、客戶關係管理、供應鏈甚至一些行業特定的應用上,比如物流管理甚至金 融欺詐檢測。

前路漫漫

如你所見,大資料超市還有非常多增長和改變的空間。我們的分析表明下面的幾個方面可以協助這些增長成為現實。首先Hadoop可以進軍更多的垂直 市場和中型公司,其次Hadoop方面人才的數量需要增長,然後通過改善分析系統可以讓更多已經瞭解SQL的人更好地使用Hadoop工具。最後是併購之 後的公司如果可以轉型成為應用為主體產品的公司應該會是笑到最後的贏家。

開啟大資料學習之路 路漫漫其修遠兮

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.