標籤:
大資料技術自出現以來以一種異常火熱的速度發展著,且種種跡象表明這種發展趨勢在2015年將會繼續持續下去。MapR聯合創始人兼首席執行官John Schroeder預測,2015年將有五大發展趨勢主導大資料技術,MapR是致力於Hadoop分發版的專業公司。
僅僅幾年時間裡,大資料技術就從之前的炒作階段逐漸發展成為新數字時代中的核心技術之一。2014年,企業內部的大資料計劃慢慢地從測試階段走向研發和生產。Schroeder表示,2015年,企業的大資料技術將會進一步推進,並向前發展,甚至會產生更多的使用者案例,尤其是即時使用者案例。
Schroeder說:“明年,企業和相關的組織機構將進行大資料的部署工作,並推進到實際的應用中。這主要是由目前業界所發生的一個重大轉變所推動的結果,即當前這個行業裡的領導者,以及即將成為這個行業裡新的領導者都已經將新的大資料平台同他們的“運行”資料分析進行了整合,以便對其業務產生一定的影響。”
2015年主宰大資料技術的五大發展趨勢如下:
1. 資料的靈活性成為焦點
隨著傳統資料庫(database)和資料倉儲(data warehouse)的運行越來越緩慢,並很難滿足企業業務的發展需要,資料的靈活性就成為了推動大資料技術發展的一個重要推動力。Schroeder指出,2015年,隨著企業逐漸從簡單地收集和管理資料過渡到真正使用這些資料,資料靈活性將越來越重要。
Schroeder說:“傳統資料庫和資料倉儲運行成本很高,因此DBA(資料庫管理員)資源需要對資料進行扁平化和結構化處理。高DBA的預付成本阻礙了對新資料資源的接入,同時這種嚴格的架構短時間內很難改變,其最終的結果導致傳統資料庫變得不夠靈活,不能滿足當前大多數企業或組織機構的需求。”
早期的大資料項目專註於對目標資料資源的儲存,而對於有多少資料被管理則並不是非常在意,對此企業在今後需要將其注意力轉移到測評資料的靈活性上。如何處理或分析資料,以便對運營產生一定的影響?當使用者偏好,或市場情況、競爭趨勢,以及運營狀態發生變化時,企業該如何調整和應對?這些問題都將引領2015 年大資料項目的投資和發展範圍。
2.企業逐漸從資料湖轉向資料處理平台發展
某種情況來說,2014年的大資料領域實際上就是一種“資料湖(data lake)”的狀態,一種基於對象的資料存放區方式將收集來的資料以其最原生的格式(結構化的、非結構化的或半結構化的)儲存下來留作日後使用。“資料湖” 具有很高的價值定位,它代表了一種可擴充的基礎架構,非常經濟且超級靈活。
Schroeder表示,隨著多計算和執行能力的加強,將推動企業從大量收集資料轉變為適當地處理資料,2015年“資料湖”將會繼續演化。這不僅會帶來更大的效率,同時也產生了單點管理和單點安全。
明年,隨著企業資料的分批處理到即時處理的變化,以及企業整合Hadoop和資料庫到其大規模處理平台上,“資料湖”會得到進一步的發展。換句話說,這一趨勢並不是指“資料湖”裡大規模用來支援更大的查詢和報告的資料存放區,而是對資料的持續訪問和處理,同時企業將會更多地關注即時資料,並採取主動措施。
3. 自助服務大資料成為主流
Schroeder指出,隨著大資料工具和服務的發展,2015年,IT行業將逐漸緩解發展瓶頸的局面,許多商業使用者和資料科學家將會藉助相關工具和服務訪問大量資料。
2015年,自助服務大資料將成為IT行業的一種趨勢,它允許商業使用者可以通過自助服務接觸大資料。自助服務還可以協助開發人員、資料科學家和資料分析師直接進行資料探索和處理工作。
在此之前,IT行業要求建立一種集中的資料結構,但是這非常消耗時間和成本。針對某些使用者案例,Hadoop可以協助企業適應structure-on- read這種結構模式。一些先進的組織機構將會通過資料繫結的運行模式而非集中的結構來滿足持續的需求。這種自助服務模式將促進企業更好地利用新的資料資源,同時又能夠抓住新的市場機遇,應對問題和挑戰。
4. Hadoop供應商整合 新商業模式出現
2013年,英特爾發布了其Hadoop的分發版,這在業界引起了不小的轟動。英特爾表示,在這個分發版中,他們採用了一種全新的方法,可以直接將Hadoop整合到晶片中。但是僅僅一年之後,英特爾就放棄這一分發版,並迅速被Hadoop分發版供應商Cloudera替代。
那時候,英特爾表示,使用者都在關注Hadoop市場將如何發展、發展成什麼樣。而Hadoop產品的供應商也是多種多樣、魚龍混雜。Schroeder相信,隨著失敗的企業不再繼續發展和推出其Hadoop分發版,轉而關注其他領域,在2015年Hadoop供應商整合將會成為一種趨勢(+關注網路世界),持續進行。
Schroeder說:“開源軟體(OSS)的使用到目前為止已經有20年的時間了,而且它給整個市場也帶來了巨大價值。”技術的發展成熟需要幾個階段。技術的生命週期是以創新和開發高度差異化產品為開始,再以產品最終走向商業化為結束。被譽為“關聯式資料庫之父”的Edgar Frank Codd在1969年提出了“關聯式資料庫”的概念,1986年,甲骨文藉助這一創新概念的發展成功上市。同時,這一創新概念也促進了1995年第一個 MySQL發放版的商業化進程。所以,從曆史的角度來看,資料庫平台技術從最初的創新到最後的商業化,經曆了26年的時間走向成熟。
Schroeder表示:“目前,Hadoop還處於技術成熟周期的早期階段,從Google發布富有影響力的MapReduce白皮書至今僅僅過去了10年的時間。自最初的概念提出發展到現在的10年裡,Hadoop得到了全球範圍內的部署和使用,並大大的超過了其他資料平台。”目前,Hadoop還是處於創新階段,所以供應商錯誤地採取“Red Hat for Hadoop”策略的這種現象在市場也仍然存在,其中最明顯的是英特爾,其次是EMC Pivotal。
Schroeder認為,2015年業界將會看到一個新的、更加微妙的OSS模式的演化,這一新模式的演化和發展將社區發展與深度創新結合到了一起。開源社區是建立標準和達成共識的一個重要地區,而競爭則是促進Hadoop從最初的分析處理器向全功能資料平台發展、演變的加速器。
5. 企業架構師不再炒作大資料
2015年,隨著企業架構師對Hadoop技術堆棧不斷深入地瞭解,他們也慢慢地發揮著重要的作用,即對大資料應用的需求進行了更好地的定義和更加複雜的陳述,其中的一些因素包含了高可用性和商務持續性。
Schroeder說:“隨著企業在資料中心中迅速地從實驗階段走向實際部署階段,企業架構師開始走到前台來,並在大資料部署的道路上發揮著重要作用。”IT領導者選擇基礎架構方面也發揮著至關重要的作用,所選擇的基礎架構需要滿足SLA的要求,並具備高可靠性、商務持續性,同時滿足重要的業務需求。在2014年,Hadoop生態系統一直蓬勃發展,併產生大量的應用、工具和組件。預計2015年,該市場將關注跨平台之間的差異性,同時企業的基礎架構中也將整合Hadoop到資料中心中去,併產生一定的商業價值。
(來源:中國指數網)
2015年主宰大資料技術的五大發展趨勢