導讀:儘管還存在安全等問題,但Hadoop已經為部署在大企業中的大型專案做好準備。 Hadoop作為Apache的頂級開源專案,主要被應用於分析大資料集,現今已被包括eBay、Facebook、Yahoo、AOL和Twitter等互聯網公司廣泛採用。 而就在上個月微軟、IBM和甲骨文也都紛紛擁抱Hadoop。
越來越多的企業已經開始摸索Hadoop技術,目的就是為處理博客、點擊所帶來的資料流程和社交媒體所帶來的資料。 Hadoop可以供存儲和分析的能力,以便在大資料中為客戶提升業務洞察力。
大資料在企業中迅速擴張 相關人才短缺
目前相關人才短缺的問題相當嚴重。 來自JP摩根大通公司以及eBay的IT高管們在本月于紐約舉行的Hadoop全球大會都表達了同樣的觀點。 eBay公司搜索與平臺部門副總裁Hugh Williams就在大會上表示目前他們正在誠招Hadoop專業人員。 而JP摩根大通公司總經理Larry Feinsmith則半開玩笑的表示,他們不僅願意聘用合格的專業人士,還會提供比eBay高出10%的優厚待遇。
Larry Feinsmith表示現今JP摩根大通仍然嚴重的依賴傳統的關係資料庫系統進行交易處理。 但隨著越來越多的欺詐檢測以及IT風險管理和自我服務等,過去的系統已經不能滿足現有的需求,而Hadoop技術的特性恰好能夠適應當今企業的業務。
JP摩根大通現在擁有150PB線上存儲的資料,30000個資料庫。 使用者客戶紀錄的總金額達到350億美元。 這些資料充分說明瞭資料是JP摩根大通的命脈。 Hadoop的優勢就是適合存儲海量的非結構資料,這使得企業能夠有效收集和存儲網路日誌,以及交易資料和社交媒體的資料。 Larry Feinsmith說到。
而eBay搜索和平臺副總裁Hugh Williams表示eBay現在正在使用Hadoop技術和HBase資料庫。 以便進行即時的資料分析。 同時還利用Hadoop技術為其網站構建了新的搜尋引擎。 據他透露eBay活躍買家和賣家超過了9700萬,網站每天有接近20億次的頁面流覽量,同時帶來每天2.5億次的搜索或查詢和數百億的資料庫調用。 他還表示eBay現在有9PB的資料存儲在Hadoop和Teradata集群之中,並且資料量還在迅速的增長。
Hadoop存在硬性標準 資料採礦等領域人才為潛在物件
Forrester研究公司分析師James Kobielus認為在當今的企業中,Hadoop就是新一代的資料倉儲,並應被看作是新的資料來源。 比起當今傳統關係資料庫管理系統,Hadoop使企業具有存儲、管理海量結構化資料和非結構化資料卷的能力。
James Kobielus表示越來越多的企業對諸如Hadoop分析技術需求的增加導致Hadoop相關從業人員炙手可熱。 能夠駕馭Hadoop的人對企業貢獻極大,他們理應獲取相應的薪酬。 Hadoop需要從業者具備高級分析領域的相關工作經驗,例如像具備使用MapReduce及R語言等新一代技術解決方案處理預測及統計建模的能力。 而具備多元統計分析、資料採礦、預測建模、自然語言處理、內容分析、文本分析及社交領域分析等領域技術背景的相關人員都是從事Hadoop的潛在物件。
Hadoop受到企業廣泛關注的同時也帶來了對Hadoop平臺專業管理人員的硬性需求。 他們的工作職責包括Hadoop集群、安全及管理,並對其進行優化以確保集群對企業的可用性。 之前負責管理Teradata及Oracle Exadata的資料庫管理員現在正試圖向Hadoop集群管理的角色轉變。 他們會意識到這是一個全新的天地。 同時,存儲管理專業人員也是不可或缺,他們現在要做的就是説明Hadoop環境與現有傳統資料庫技術相結合。
Hadoop專業人員主要分三類
Karmasphere公司總裁 Martin Hall表示目前對Hadoop專業人員的需求主要分三大類:資料分析師(又稱資料科學家)、資料工程師以及IT資料管理專家。 Karmasphere現主要經營專案正是為Hadoop環境開發軟體產品。
Martin Hall認為,資料管理專家的職責在於選擇、安裝、管理、規範以及擴展大規模的Hadoop集群。 這些專業人員決定了Hadoop是否應立足于雲還是採取預置模式,包括供應商該如何選擇以及使用那款Hadoop分佈方案、集群規模以及被用於運行生產應用程式還是用於進行品質測試等。 此職位應具備的技能與以往負責傳統關係資料庫與資料庫環境類的任務頗為相似。
同時,Hadoop資料工程師還要負責創建資料處理工作以及建立分散式MapReduce演算法,以便資料分析師使用。 從事JAVA和C++等領域技能水準能力較為突出的專業人士更便於在企業大規模部署Hadoop的浪潮中得到更多的機會。
而第三類專業需求則是在SAS、SPSS以及以R語言為代表的程式設計語言等方面具備豐富經驗的資料科學家。 這些專業人士能夠將建立、分析、共用以及智慧整合加以集中,並存儲于Hadoop環境中。
就目前來看,Hadoop領域的人才短缺意味著企業會更加依賴于服務供應商提供的部署技術。 支撐這一論點的一大跡象是在專業的諮詢及系統集成行業內,專攻Hadoop實際應用帶來的收入要遠遠大於Hadoop產品銷售所帶來的收入。
如今Cloudera、MapR、Hortonworks以及IBM這樣的企業如今已經在提供Hadoop的相關培訓課程,人們應該充分利用這些資源,通過建立Hadoop卓越中心使自己的企業獲得最大收益。
(責任編輯:呂光)