無論您青睞還是拒絕,大資料都已經成為一種事實。 現在我們要追溯事實,探索真相...
大資料是當今一個最熱門的話題,我們每一個人都無法置身其外。 就像幾年前出現的雲計算一樣,大資料已經引起市場的廣泛關注;同樣,企業迫切需要對大資料下定義。 大資料缺少一個標準且普及性的定義,至少不像NIST 對雲的定義那樣,能被人們廣泛接受。
調研公司IDC 的定義可能比較容易被人們所接受。 它對大資料的定義是:一種新一代的技術和架構,具備高效率的捕捉、發現和分析能力,能夠經濟地從類型繁雜、數量龐大的資料中挖掘出色價值。
大資料已經成為各類大會的重要議題,管理人士們都不願錯過這一新興趨勢。 毫無疑問,當未來企業嘗試分析現有海量資訊以推動業務價值增值時,必定會採用大資料技術。
另一方面,正如其它新興趨勢一樣,也有很多人懷疑大資料的效用。 事實上,當一種技術成為廣泛爭論的焦點時,必定會招致一些質疑和批評。
關於大資料的重要價值有兩種截然不同的觀點。 不過雙方的共同之處在于,兩種觀點都對大資料存在一些誤解,並對大資料的本質模糊不清。
誤解
誤解1:大資料僅意味著數量龐大
「大資料」的名稱本身就帶有誤導性,好像資料庫的大小就是問題所在。 但是這並非唯一的因素。 英特爾歐洲、中東與非洲地區(EMEA)戰略市場推廣總 監Alan Priestley 認為,大資料還有其它要素,最明顯的是資料類型繁雜,且資料要求快速交付。 此外,企業還需要第一時間瞭解資料是否準確。
誤解2:社交媒體最重要
很多關於大資料的討論都集中在社交媒體資料對企業的影響。 人們持有這種觀點並不難理解:多數媒體的關注重點是獲取客戶最新資訊這一傳統業務。 而現 在,則意味著查找社交媒體互動,諸Twitter、Facebook、Insta-gram 等等。 但是,Priestley指出,企業最常見的還是機器生成的資料,包括網路日誌、資料中心日誌以及其它資訊等。
他表示:「如今航空業也可以借助大資料的強大力量。 例如,他們可以利用並分析航空旅行
資料以預測可能存在的問題。 而在過去,他們只能在數小時的飛行或發生故障之後檢查引擎。 誰也不希望故障發生,但要是等到故障發生以後才檢查引擎,就已經太晚了。 「借助大資料分析,他們可以跟蹤引擎的振動。 通過檢查生成的資料,他們能夠在資料發現異常時及時發出告警,安排檢查引擎。 」
作為示例,Priestley還介紹了寶馬公司是如何成功利用大資料的。 寶馬公司的大量汽車均可以通過3G技術接入互聯網。 通過使用大資料和相關分析能 力,寶馬公司可以跟蹤這些汽車並聯系車主。 當然,相關示例還有很多,例如信用卡公司可以即時核對詐騙交易,確保遠端購買交易合法,而所有這些操作僅需數秒 鐘。 英特爾自身也是大資料技術的重要使用者。 公司使用大資料控制晶圓製造工廠的效益,大幅地降低了成本,減少浪費。
誤解3:大資料就是Hadoop
很多大資料的討論都集中在Hadoop。 Apache專案的知名度當然最高,它也是首個能夠分析並存儲非結構化資料,以從中獲取價值的工具。 但是, 它並不是唯一的工具。 Priestley表示:「有人認為只要開始使用Hadoop就萬事無憂了,其實不然,傳統資料倉儲依然有存在的空間。 人們需要保留 現有的IT基礎設施。 」
Priestley 指出Hadoop 的吸引力在於,企業只需比較小的開銷就可以獲得大量資訊。 他補充說:「你可以在Apache 下載Hadoop,它是一款免費軟體並可在標準伺服器上運行。 其它替代方案就是購買Oracle或Teradata 等公司的集成解決方案。 但對於很多企業而言,這可能不是一個可行的選擇,除非他們能夠充分意識到通過分析資料可獲得的優勢。 」
誤解4:希望量化投資回報(ROI)
企業都喜歡硬性數位。 首席資訊官(CIO)一般喜歡這樣說:遷移至大資料的成本是 X,將能夠在三年內節省Y。 事實上,大資料並非如此。 從大通話方案中獲得清晰的投資回報(ROI)是非常難的。 正如Priestley 指出的,大量的大資料實施是「假設資訊」,很難界定。
客戶關係管理(CRM)等對企業的影響可以快速測量得出。 但與此不同的是,計畫採用大資料的企業必須接受這一差別。 此外,企業針對重大專案的投資回 報(ROI)的思維方式也似乎正在發生變化。 以前企業認為ROI始終是一種可以輕鬆測量的有形資產,並且業務優勢必定會超過支出成本。 但現在情況開始有所 轉變。
最近,Claranet針對企業的雲遷移方式進行了一項調查。 調查結果表明,超過四分之一的受訪者視ROI為決策因素之一,而79%的受訪者認為 ROI計算並不能真實反映業務優勢。 雖然該調查主要針對雲遷移,但是由此可以合理推測,大資料移轉的情形也不會有太大差別。 這二者均代表著一次未來的技術 飛躍。
誤解5:結果不可保證
大資料是個未知數。 您正在做的就是分析無法估量、難以確定的數位。 從本質上來說,大資料是不容易理解或者是抽象的。 否則,您也就無需大資料技術了。 因此,企業必須認識到他們無法保證結果的準確性。 企業試圖獲得結果和找到假設的支援資料是徒勞無益的。 在上述示例中,航空公司可能希望飛機每50萬飛行小 時維護一次,但是如果飛機每20萬飛行小時就從空中墜落的話,航空公司的設想就將毫無意義。
如果說人們對大資料存在一些誤解,那麼,有關大資料的一些關鍵事實則需要不太看好大資料的企業去認真理解。
關鍵事實
關鍵事實1:需要不同技能
多數觀察家都認同資料科學家短缺這一點。 麥肯錫公司預測,到2019年,全球將缺少高達19萬可處理大資料的科學家。 原因不難發現。 處理大資料項目目需要完全不同于處理現有資料倉儲實
施的技能。 而且它還不僅僅限於資料處理,還要求能夠將資料轉換為可執行檔建議。
「Hadoop 中有一個稱為Map Reduce 的工具。 它需要JAVA 程式設計技能,而這並不是當今很多資料分析師具有的技能。 」Priestley舉例說到。 而事情還不止如此。 處理大資料的理想人員還需要瞭解業務流程、JAVA和統計知識,甚至還可能需要一些SQL技能。 這是個大問題,因此很多人也認為資料科學家的短缺將成為大資料技術採用的一個重要阻礙。
關鍵事實2:明確您的目標
雖然企業不應當試圖探究確定的結果,但是他們應當明確企業目標,一個需要實現的目標。 例
如,大資料可提高績效的途徑之一是收集更加準確的資訊,包括個人資料、客戶行為和購買決
策等。
麥肯錫公司發現,數位之大令人震驚。 這家企業諮詢公司聲稱,如果美國醫療產業採用大資料
,全美醫療費用將削減8%。 另外,麥肯錫公司提到,通過減少詐騙訴訟和增加稅收,歐洲公共
部門在運行效率方面可節省一千億歐元。
關鍵事實3:人是推動因素
大資料項目目需要有人推動。 技術並非關鍵問題。 這不是指那些具有上述資料科學家技能的一些人,而是指那些能提出明確目標與需求,並能執行決策的一些人。
這些人並不需要特殊的管理技能。 這些責任可能落在首席財務官(CFO)、首席資訊(CIO)\甚至首席執行官(CEO)的肩上,但最終,需要有一個人擔 負此重任。 正如Priestley所指出的:「大資料不僅僅是技術挑戰,它還是業務挑戰。 企業需要瞭解這一點。 對此,使用模式很重要。 而在此方面,企業可 以有很多種模式,並以不同方式進行建模。 」
關鍵事實4:不僅僅是資料
大資料分析有三大要素:資料本身,資料分析,以及結果的呈現。 擁有資料本身並沒有實際意義。 資料本身就已存在。 重要的是如何處理、分析資料並呈現重 要資訊,以將資料轉變為重要價值。 開展大資料項目目需要周密規劃。 最好是從小規模起步,先實施單個專案,然後逐步擴展規模。 資料獲取之後需要進行詳細的結果 分析。
關鍵事實5:大資料涉及所有人
很多關於大資料的討論都聚焦在大型組織上,對於這些龐大的官僚機構來說,令人窒息的海量資料已經制約了組織的有效運行。 很多率先採用大資料技術的組織都屬於這一範疇,不過它們並不是唯一的受益者。
各類企業都希望獲得評估隱藏資料並歸納模式的技能。 有些小型企業需要處理大量工業資料。 例如,FormulaOne設計公司的規模不大,但是管理的資料量十分龐大,因此即使是很小的企業也可以通過在日常工作中使用大資料而獲益。
這些公司可能希望超越Excel進行客戶分析,尋找客戶購買模式。 例如,如果您的飯店功能表上曾經有一道特色魚,但後來取消了。 那麼當這道菜再次出現 在功能表上可供顧客點用的時候,您就可以使用電子郵件通知之前曾經點過這道菜的所有顧客。 或者,如果您是一個酒商,您的庫存裡有某種葡萄酒正在釀造期,當它 們即將出庫時,您可以提醒這種酒的愛好者。