從火種到核心,淺析Hadoop大資料使用者的演變

來源:互聯網
上載者:User

在Hadoop發展的8年時間裡,我們看到一種「使用浪潮」——一代又一代使用者在相同的時間和類似的環境下使用Hadoop。 每一個在資料處理時使用了Hadoop的使用者,都面臨著類似的挑戰,為了讓一切正常運轉,要麼被迫協同工作,要麼乾脆隔離。 接下來我們就討論這些客戶,看他們彼此之間有何不同。

第0代——火種

這是開頭:在谷歌2000年中的研究論文的基礎上,一些信徒奠定了廉價存儲和計算能力的商品化基礎。

Doug Cutting是教父。 他跟Mike Cafarella一起,實現了谷歌檔案系統和MapReduce的一個開源版本,它也是Apache Nutch專案的一部分。 這兩者一起演繹出無處不在的Apache Hadoop,一個蓬勃發展的大資料生態系統。 令人吃驚的是,沒有其他競爭專案或商業實體看到這項技術的潛力,並開發出與之競爭的產品。

第一代——早期

Hadoop建立後迅速吸引了一些早期使用者,包括web2.0及其後的公司Yahoo!、Facebook、Powerset、Rapleaf等,他們中的一些人比如後兩者更關注Hadoop的NoSQL元件,Hadoop的資料庫( 又名HBase)。 他們都需要一個能説明他們應對現有及正在快速增長的使用者基礎平臺。 他們賭一個能讓Google正常運轉的東西也能滿足他們的需求。 Hadoop做到了,然後才有了今天。

更重要的是這些公司都有強大的工程背景,擁有比一般企業更多的開發人員。 他們的技術專家能在公司內使用Hadoop,開發搭建于Hadoop之上的解決方案。 對工程師來說,技術道路從這裡開始分化:要麼開始深入挖掘代碼並最終構建一個Hadoop生態系統內的專案,要麼被歸到既做開發又做集群的那一類裡... 我們見證了Hadoop發展規則的誕生——參與其中的人員應該具備多種技能、能一肩挑起所有重擔。 這很有用,因為這些孤獨戰鬥的武士們都是有天賦的傢伙,能夠完成他們的工作。

這兩組工程師最終都促進了Hadoop代碼庫的發展,並因此被選入Hadoop提交團隊,他們被允許檢查提交到開源庫中的代碼。 我們談論的是一隻約200人的團隊,他們在世界範圍內推動Hadoop的發展。

現在,其中的一些工程師已經轉到其他專案或跳到其他公司,但他們中的絕大多數仍然活躍在Hadoop圈子裡。 特別值得一提的是Yahoo!公司,它在最開始的時候推動了Hadoop的發展。

第二代——追隨者

在早期使用Hadoop的公司裡,Hadoop成功對一批新使用者留下深刻的印象,他們通常被現在蓬勃發展的Web 3.0和社交網路的公司雇傭。 這些使用者是Hadoop的形成和時代到來的主因(雖然一個比一個年輕)。 他們通常沒有你積累豐富的JAVA代碼,但是這些用Python, Ruby 或Scala標識著「我們寫代碼快」的傢伙們,在能量飲料和無盡的時間説明下能夠破解任何代碼,唯獨不包括java。 因此,他們建立一個偉大的網站,如Last.fm、Spotify,網站把Hadoop缺乏的東西迅速彙集到一起,例如一個叫Dumbo(Last.fm)的Python MapReduce橋,或Luigi (Spotify) 的新作業調度系統。

現在,這種缺乏Hadoop元件而引發的模組化開發方式不僅發生在年輕的創業者身上,也出現在其他公司,這些公司不願意介入Hadoop核心開發者社區裡日益增長的政治化問題。 LinkedIn就是一個例子,它圍繞Hadoop的核心服務開發了很多工具,它還建立輔助系統以説明收集事件、進行佇列處理等。 LinkedIn將這些專案開源,以便説明有興趣的使用者建立新社區。

第三代——大器晚成

到目前為止,對所有Hadoop專案感興趣的下一代使用者是所謂的企業公司。 他們的規模從小到大都有,他們是純粹的IT使用者,他們購買需要的軟硬體許可,架構師會將這些東西揉到解決方案、產品或服務中。 但他們不會雇用一批核心開發者打補丁或建立Hadoop堆疊。 事實上這些使用者大多數採用分散式安裝Hadoop,如用Cloudra的CDH以讓Hadoop運行得更快。 這與在不同作業系統下做事兒是一樣的,你可以將精力集中于Hadoop之上的業務邏輯,如果遇到問題或缺乏元件,你跟供應商溝通,然後升級到新版本。

有趣的是這些使用者對年輕的Hadoop很滿意,其應用缺乏更多的企業特徵。 Hadoop集群被從網路中分離並由少數幾個人管理,通常一個集群只跑一個應用,所以遇到多使用者或多負載的任務時自然會被安全地推遲。

第四代——新浪潮

我們現在看到的應用Hadoop的公司,他們等待了很長時間,因為Hadoop缺點太多所以乾脆推遲上Hadoop。 但隨著企業級資料中心的出現,企業也為Hadoop的運行做好了準備。 等待的時間並非空等,他們認真研究Hadoop功能,花時間測試系統的各個部分,明確知道自己想要一個安全的、多使用者、多負載的資料平臺,能與現有的IT系統集成到一起,並帶有資料管理、安全審計和綜合管理功能。

我想指出的另一個重要發展是,隨著時間的推移從最開始到現在的新浪潮使用者,Hadoop專案本身已經是許多使用者共同努力的結果,現在的Hadoop已經沒有了哪怕一絲一毫初始成員的印記, 在所有太常見以至於無人能夠代表的行業裡Hadoop只是其中之一,唯一值得一提的有且只有Doug Cutting。

現在越來越多的企業級產品在向Hadoop轉,拉裡·埃裡森可不喜歡這種趨勢,因為這無益于Oracle資料庫的銷售。 這其實已經成為一種讓Doug對Hadoop使用者來解釋大資料的縮水版請求。 事實上大量使用者根本不了解這個圈子裡最初的那批傢伙。 時代還在繼續進步。

第1.1代——週期性波動

這個圈子看起來封閉的地方,用我個人最喜歡的詞來形容就是:技術債務。 讓我們回到第一代、、但更多成長為第二代的使用者。 我們能夠看到,他們積累了大量的遺留系統,對不斷進化的Hadoop生態圈而言這些系統需要不斷維護和使用。 在實際商業應用中這需要投入人力資本,比如開發產品、提供服務以增加收入。 與最初創建它相反的是,當時看上去偉大的想法如今卻成為一種不斷花錢的負擔。 對第一代公司而言Hadoop的運行已經成為常態,他們修改代碼庫的版本以保證自己的Hadoop正常運行。 對第二代公司來說,他們現在有非常豐富的工具可供選擇,這些工具不需要他們自己去開發,但仍然需要自己去維護。

所以我預測,最終這些前幾代的使用者將廢除其先前的努力,遷移到Hadoop發行版本,這將説明他們專注于自己業務,比如成功地開發資料驅動的產品和服務,而選擇Hadoop的供應商將確保他們總是有這樣做所需的資料中心。 這裡有一個偉大的未來!

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.