開始于部分web服務商所進行的分析大資料的浪潮正在波及到一般企業。 這是因為,即使目前條件還不完善,但是為了保持競爭力並維持正常的營業狀態,要充分利用大資料。 在此情況下,下面本文將介紹企業的情報最高負責人所要必須掌握的有關大資料的5項內容。
▲畫面1:Hortonworks Web <HTTP://hortonworks.com/>)
第一,形勢要求企業,抓緊掌握好大資料。
分析大資料,最初是由google、雅虎及twitter等美國的web服務供應商開始做起來。 這是因為上述這些企業有必要最大限度地利用來自使用者的資訊資源。 但是,從目前趨勢看,我們認為,即便是一般企業也為了保持競爭力並使企業運營正常進行,將來有一天就要把大資料很好地利用起來。
在美國GigaOM調研主管Jo Maitland 指出美國目前有些企業儘管其企業規模小,但它卻擁有大量的資料,比如對沖基金公司就擁有大量的資料。 另外,美國的諮詢公司McKinsey and Company最近預測,認為再過幾年,包括公共機構、健康管理、零售業、製造商圈在內的廣泛的各業界通過對大資料進行分析,將會獲取相應的財務利潤。
提供HadoopLinux發行版本的美國雅虎Hortonworks最高技術責任者(CTO)Eric Baldeschwieler也說,目前正在形成一種高潮,要認識到掌握大資料乃是企業的必備專案。 這種趨勢具有普遍意義,它適用于諸多領域的顧客。 這是因為,收集交易資訊並對它進行分析,將會使企業更深入地瞭解顧客的消費趨勢走向。 因為這些資料除了可以運用於新產品開發和新型服務外,也對用最快的速度來解決今後可能發生的問題,提供方便。
第二,對企業有用的資訊和資料,普遍存在於任何事物中。
可能有的人覺得,目前手頭裡還沒有一個最重要的可參考的大量資料;但是,我們可以說,你就可以掌握這些資料的日子很快就會到來。 上述Baldeschwieler指出,你所要的大資料,其實不過是通過「收集各處分散的資料而形成」。
比如說,server上的電腦動作記錄資料夾(log file)可能就是大資料。 Server就會告訴每個人他所要查閱的不同領域的不同部門的內容。 通過跟蹤這些資料即可知道顧客究竟需要什麼。 分析動作記錄這件事本身雖然很早就有,但是,在新形勢下,它將在更高的水準上進行分析,其分析精密度將會進一步得到提高。
與此同時,取自于感應器上的資料也將會成為大資料。 最近幾年來,有些證券分析師也早已開始談論那些廉價的感應器如何同網路連接起來,連續發出資料資訊,以便了解「物」的流通和消耗過程,即「物」的網路化現象。 現在,我們就可以設想一下,這些資料可以來自于車輛、橋樑以及飲料的自動售貨機所提供的資訊。 美國微軟Kevin Dallas指出,IT行業設備的真正價值在於,使它收集資料並對所收集的資訊進行分析,以便提高商業效率。
第三,要具備有關大資料的新的專業知識。
美國Forrester Research分析師James Kobielus說,在引進大資料分析系統時最重要的一件事,是要招募那些通曉分析資料工具的使用方法的專業人才。
大資料對實體資料(solid deta)的模型有著相互依存關係。 正因為如此,上述James Kobielus又指出,企業必須把企業工作的重心放在資料科學上。 關於這方面的人才,我們需要的是統計學挖掘方面以及文本挖掘專業和心理專業的人才。 因為,即便是那些熟悉商業智慧工具的證券分析師,也未必能具有這些上述技能。
當然,也有可能目前缺乏掌握這些技能的專業人才。 據悉,截止2018年,美國具有高度分析技能的專業人才將會缺少14萬到19萬人。 除此以外,還會缺少具有分析並充分利用大資料,高效決策的經理人和證券分析師,其空缺人數將會達到150萬人
另外,還有一項必備的技能是,為了保存和分類資料,要具備對所需要的大量的硬體進行管理的能力。 前述James Kobielus還指出,管理100台伺服器和管理10台伺服器是兩碼事,不可同日而語。 我們建議,雇用若干各當地大學和研究所出身的電腦管理人才。
第四,大資料沒有必要事前編制。
▲畫面2:MapR Web <HTTP://www.mapr.com/>)
假如CIO能熟練地掌握一項技術,即針對商業智慧資料倉儲EDW,制訂一套嚴密的詳細計畫,那麼,對他來說運用大資料將並非是難事。 換而言之,大資料的相關法則即為首先收集好資料,而後再考慮如何運用和充分利用這些資料。
而關於與商業智慧資料庫相關的資料,在收集資料之前,則有必要設計出資料日誌來。 關於這一點,美國MapR主管銷售的Jack Norris認為,它意味著有必要事先掌握所要尋找的物件。 他又指出,之所以這樣做,是為了防止使資料一般化,從而失去資料。 如果自己原來的想法有了變化,那麼事後要對資料進行分析,那就為時已晚了。
Jack Norris進一步指出,我們可以把大資料的知識庫當做一種廢棄物存放地來理解,而必要時可以再拿過來進行分析,有許多企業甚至並不知道需要找什麼內容,只有等到收集資料之後才開始明白要做什麼。
第五,大資料並不等同于Hadoop。
有不少人認為,大資料即是對Hadoop進行資料分析的平臺。 而上述James Kobielus則認為,毫無疑問,Hadoop即為多數企業所重視的與企業預算和人才招聘相關的軟體技術;但是,企業也有可能最終使用另外一種產品。
美國的法律諮詢的大公司LexusNexus最近將本公司的分析平臺-HPCC Systems公開。 我們要知道LexusNexus這家企業非常擅長大資料分析。 而且,美國企業MarkLogic也把自己用於非結構性資料的資料庫-MarkLogic Server,同大資料聯結起來。 而且最近,比如像伺服器系統日誌檔,用於對機器所產生的資料進行搜索和分析的Splunk也是目前人氣很高的。 美國企業Monash Research的Curt Monash也指出,Splunk將有可能可以利用取自伺服器系統日誌檔的任何一項資料。