電子商務、社交媒體和移動互聯網等的興起和移動智慧設備的普及,觸發了大資料的爆炸式增長。 大資料的真正價值,讓很多傳統企業也希望在思維、工作模式、技術等方面,得到大資料浪潮的洗禮。 但是,相關人才的缺乏仍然成為傳統企業馴服大資料的掣肘。
2014年中秋佳節降至,不管是饋贈親朋好友還是自己食用,選擇什麼品牌的月餅都成為很多人重點考慮的問題。 8月底,中國統計資訊服務中心 (CSISC)大資料研究實驗室發佈了《2014年中國月餅品牌口碑研究報告》。 該報告從品牌知名度、消費者互動度、品質認可度、企業美譽度、產品好評度、品牌健康度等6個維度評析今年月餅品牌口碑的優劣。
不得不說,CSISC這份在大資料架構下統計出來的報告為人們購買月餅提供了重要的參考,而從月餅企業的角度來說也為其品牌聲譽管理提供了很好的參考方向。 很顯然,從前幾年「尿布和啤酒」的案例到現在月餅品牌口碑的報告,大資料技術正從外來的概念走向更實際的本地應用。
大資料技術背後的推動力
幾年前還有很多人心存擔憂,大資料會不會又是一次IT概念的炒作。 而現在,記者發現,以Hadoop為代表的大資料技術HDFS和 Mapreduce,還有其開源元件Hbase和Hive等一些大資料開源技術逐漸被開發者廣泛學習和應用起來。 IDC發佈的Hadoop軟體生態系統預測報告顯示,Hadoop市場正在以60%的年複合增長率高速擴張。 IDC預計,到2016年,該市場規模將快速增長至8.13億美元。
事實上,大資料存在於人們日常消費、溝通和使用移動互聯網的過程。 人們不斷製造資料,然後消費資料,從資料中獲得價值,再不斷推動大資料技術需求突飛猛進的發展。 可以說,大資料技術是資料驅動的,與此同時,大資料分析的結果反過來又在不斷地製造資料。
之所以以Hadoop為代表的大資料技術獲得廣泛關注主要是因為其技術上的先進性。 這類技術較好地解決了大規模系統的擴充性、高性能和高可用性難題,這是大型公司特別是大規模互聯網公司急需解決的問題。
從技術角度來看,推動這些大資料技術從誕生到成熟的主要驅動力還是企業的真實需求。 從商業角度來看,互聯網時代知識傳播速度的加快讓更多的人獲知這些新技術,開源社區的發展也讓更多人可以參與到新技術的發展過程中來,同時,資本的力量也在推動這些新技術快速地走向成熟並商業化。
雲基地大資料公司高級諮詢經理馮大志提出兩點看法。 一方面,Hadoop突出的分散式存儲和計算能力,對於傳統企業而言,增加了其資料採礦所能處理的資料規模和效率。 馮大志舉例說,國內某知名保險公司,針對近一億客戶實現了全量的客戶分群、客戶流失模型的建立,針對保險產品相關性的分析,都建立在全量資料的分析基礎上。 另外,相對於傳統的存儲、小型機、關聯式資料庫的組合中,在不考慮維護成本的前提下,以Hadoop為代表的大資料技術確實具備了一定的性能優勢和價格優勢。
據馮大志透露,國內某省移動公司的經分系統是一套由幾十台小型機構成具有近百個節點的大型資料倉儲系統,不論系統本身的造價還是運維成本都相當高昂。 馮大志認為,這麼龐大的系統對於傳統的技術體系和價格體系是個雙重挑戰。
大資料的價值不止是技術
大資料對於輿情分析的意義,首先是從思維和工作模式上的改變,其次才是技術上的改進。
管是政府還是企業都應該從互聯網公司身上學習對輿情的管理,對線民的意見進行分析,以互聯網思維對輿情進行管理。 在工作模式上,利用大資料分析技術,政府和企業可以獲取更多的資料並進行視覺化展現,也能夠變革現有輿情的管理模式。
基於自己在工作中的親身體驗,上海證交所總工程師白碩提出,大資料開創了「去貴族化」的資料處理解決方案的先河。
傳統企業的IT系統往往存在「貴族化」特性:採購成本昂貴、維護成本昂貴、平臺遷移成本更加昂貴。 過去,傳統企業在安全運行的巨大壓力下,只能在這種「貴族化」和那種「貴族化」間進行選擇,用「貴族化」的解決方案來彰顯程式的價值。
大資料技術的真正有價值,既能不斷衝擊資料處理的極限,又能普遍降低非極限情況下資料處理的性價比。
相比較來看,一些傳統企業的IT人員已經用慣了IOE(IBM、Oracle和EMC)的產品,忽然間讓他們在開源技術基礎上做開發和操作,往往會覺得不熟悉、不習慣。 而且,傳統企業原有資料處理的系統已經運作了十幾年了,IT人員的技術範疇都還是以原有IT系統為核心打造的,最為主要的是各種基礎設施的生命週期還非常長,新技術必須兼顧它們。 從這個角度來看,大資料有利於祛除傳統企業身上的「貴族病」,更加有利於整合機構的業務、資料等資源,調動相關人員的積極性都能夠朝著價值最大化努力。
人是大資料的第一推動力
如果說,以Hadoop為代表的大資料是一頭小象,那麼企業必須有能夠馴服它的馴獸師。 在很多企業熱烈擁抱這類大資料技術時,精通大資料技術的相關人才也成為一個大缺口。 英特爾中國研究院首席工程師吳甘沙就曾經在一次演講中提出,人是大資料的第一推動力。
Forrester最新報告顯示,大多數公司只分析了已有資料的12%,剩餘88%還沒有被充分利用。 究其原因,大資料分析能力的缺乏是造成這種局面的主要原因。 在這裡,傳統企業與一些創新型和互聯網公司相比,資料分析的包袱更為沉重,大資料相關的技術人才更為缺乏。
中國民族證券資訊技術部總經理顏陽在一次沙龍上表示,該公司在2008年利用輕型化的通用硬體平臺,結合開源系統Greenplum構建了一個「去貴族化」的資料倉儲,成為業界的典範。 但是,與此同時,顏陽也發出「累」的感歎。
孫元浩表示,目前市場上能夠熟練運用Spark的人才都比較稀缺,因此公司不得不自己培養Scala程式師和Spark開發者。 而劉政也表示,SAS需要複合型人才:一方面要有Hadoop領域的技術,另一方面公司強化分析和統計領域的專業知識,所以SAS只能堅持在專案中培養自己的人才。
與傳統企業不同,很多初創型公司或互聯網公司,它們沒有太多歷史資料,核心團隊多為技術高手,因此在利用大資料技術時具有優勢。
Teradata天睿公司大中華區大資料事業部總監孔宇華在與多家傳統企業溝通時發現,很多公司都表示已經在用Hadoop做研究和應用,不過,還只限于存儲、預處理和一些基本的網頁分析。
而且,現在Hadoop技術發展得很快,使用者經常會碰到新技術、新問題,需要到Hadoop開源社區去解決具體的問題,這樣,對傳統企業的業務需求來說進展就有些慢了。
因此,現在已經有很多企業開始意識到,要想真正在Hadoop平臺上做資料分析、資料採礦的應用,有兩種選擇,要麼就是彙聚一個懂資料、懂分析、懂程式設計又要有技巧的技術團隊來操作,要麼就是選擇某家商業公司推出的成熟的大資料平臺。