與迪士尼這樣的娛樂巨頭公司相比,很多小公司,依靠堅強的意志和不凡的智慧,憑藉一個小小的團隊,使用Hadoop、NoSQL資料庫和其他開源技術,完全能夠創造出一個特有的大資料平臺。 而對迪士尼而言,一旦涉及到大資料平臺,這位娛樂巨頭看起來更像是一個初創公司。 這樣的大公司在進軍大資料領域,結果好壞我們尚且無從論斷,但至少意味著一種完全不同規則的「玩法」。
迪士尼大資料技術和服務解決方案團隊的負責人Arun Jacob,在上週四的波士頓的IE集團大資料創新峰會上,介紹了迪士尼的大資料平臺。 不像其他的公司,迪士尼選擇打造大資料平臺是從零開始,絕對不是從一個軟體供應商那裡購買軟體。 雖然高昂的成本是一個很重要的因素,但是最關鍵的還是靈活性的問題,這是作出最終決定的根本原因。
減量化,重複利用,再迴圈
為了保證給公司帶來最大的價值,迪士尼大資料平臺,凝結了每個員工的心血,它是每個人的一切,這是一項艱巨的任務。 最初的時候,Jacob表示,「我們把我們自己當做是一個小型的諮詢機構,僅僅是我們有東西要賣。 」不過當一個部門想要使用該平臺開發一個特定功能的時候,Jacob立刻行動了起來。
從架構上來說,通過這個平臺和具有特定目的的元件,它能夠對路徑資料進行重構,或者說能夠非常容易地替換元件,如果有更好的話。 迪士尼大資料平臺是基於Hadoop,Cassandra和MongoDB進行開發的。 運營團隊可以使用該平臺來進行查看、分析和索引的錯誤訊息,應用程式開發人員可以得到他們需要的高輸送量,低延遲的資料訪問,而分析團隊有他們需要的高延遲資料的訪問。
然而,儘管Jacob也想使用一套開源軟體來降低成本,他確實有資本可以奢侈一下,這是大多數創業公司玩不起的——外包和不週期性新產品的預算。 當他需要Hadoop集群的支援,他完全可以打電話給Cloudera。 當需要部署Solandra(基於Solr和Cassandra的一個開放的原始程式碼搜尋引擎),他完全可以購買的企業版的DataStax基於Cassandra的產品,但是他沒有這麼做。
靈活性是不是免費的
Solandra的事件,實際上是為了權衡是不是需要使用免費的開源軟體。 「你可以為開源專案工作到深夜,你可以通過學習來運行它們,但是這沒有任何任何意義。 」Jacob表示,如果你願意投入時間和精力,這些東西是完全可以克服的。
然而迪士尼這種規模的公司,有更多的問題必須要被克服。 Jacob表示,在部署的過程中,雖然可以按自己的方式來解決容錯、高可用性和安全性的問題,但是最終還是需要找出一種方式來實現這些東西。
適合大眾的才是最好的
雖然可以把系統建立在所有的人都能夠使用的開源軟體上,不過這也意味著沒有一個足夠的框架來構建一個可擴展的和穩定的系統,而且該系統還必須滿足成千上萬的各種類型和各種水準的內部開發人員的需求。 Jacob表示,對一個擁有六個人的創業公司來說,大家學習Hadoop的一個月,然後開始使用它進行部署大資料平臺,這是非常容易實現的。 但是對於一個大企業來說,這絕對是不可行的。
他的團隊讓部署變得容易
為了消除企業使用者不能載入他們的資料到系統中的藉口,他們只需要把檔以指向使用者定制的介面。 Jacob表示,迪士尼的資料平臺,雖然以每天5TB的資料劇增,但是仍然有很多其他類型的資料需要存儲。 因為他們已經對技術進行了封裝,Jacob的團隊並沒有談及過多關於Hadoop和MongoDB的問題,僅僅是提及了分析和查詢的部分。 資料平臺使用很多種的程式設計語言來構建用戶端的框架結構,所以開發者可以跟平臺進行交互,就無需編寫REST風格的API調用。
不過,在做足了所有的準備工作之後,Jacob開始把精力投入在迪士尼的大資料平臺之上,Jacob不希望這是一個其他資料平臺過程的重複。 隨著大資料管理的工具也越來越好,Jacob表示,他現在依然在分析,是構建一個新的工具還購買一個工具,目前還有時間來做出改變。 當沒有選擇餘地的時候,構建一個自訂工具固然是一個不錯的選擇,但它並不總是明智的做法,而購買現成的東西可以節約無數的時間和精力。