翻譯:Cady Wang(王楠楠)
你想瞭解大資料,卻對生澀的術語毫不知情? 你想瞭解大資料的市場和應用,卻又沒有好的案例和解說? 別擔心,這本來自Wikibon社區的小書想要幫你。
是的,這是一本小書而不是一篇文章,因為它詳實細緻的讓你從一個完全不了解大資料技術及相關應用的門外漢,變成一個熟知其概念和意義的「內行人」,所以它很棒!
譯者Cady王楠楠花費了很多心血翻譯這本小書,不足之處也請朋友們多指正。 我們分成數篇連載。
——世界大資料觀察,宋星
主要內容
· 1來自Wikibon社區的大資料宣言· 2資料處理與分析:傳統方式· 3大資料性質的變化· 4大資料處理和分析的新方法4.1 Hadoop4.2 NoSQL4.3大規模並行分析資料庫· 5大資料方法的互補· 6大資料供應商發展狀況· 7大資料:實際使用案例· 8大資料技能差距· 9 大資料:企業和供應商的下一步動作來自Wikibon社區的大資料宣言
為公司提供有效的業務分析工具和技術是首席資訊官的首要任務。 有效的業務分析 (從基本報告到高級的資料採礦和預測分析)使得資料分析人員和業務人員都可以從資料中獲得見解,當這些見解轉化為行動,會給公司帶來更高的效率和盈利能力。
所有業務分析都是基於資料的。 傳統意義上,這意味著企業自己創建和存儲的結構化資料,如CRM系統中的客戶資料,ERP系統中的運營資料,以及會計資料庫中的財務資料。 得益于社交媒體和網路服務(如Facebook,Twitter),資料感應器以及網路設備,機器和人類產生的網上交易,以及其他來源的非結構化和半結構化的資料的普及, 企業現有資料的體積和類型以及為追求最大商業價值而產生的近即時分析的需求正在迅速增加。 我們稱這些為大資料。
傳統的資料管理和業務分析工具及技術都面臨大資料的壓力,與此同時説明企業獲得來自大資料分析見解的新方法不斷湧現。 這些新方法採取一種完全不同于傳統工具和技術的方式進行資料處理、分析和應用。 這些新方法包括開源框架Hadoop,NoSQL資料庫(如Cassandra和Accumulo)以及大規模並行分析資料庫(如EMC的Greenplum,惠普的Vertica 和Teradata ASTER Data)。 這意味著,企業也需要從技術和文化兩個角度重新思考他們對待業務分析的方式。
對於大多數企業而言,這種轉變並不容易,但對於接受轉變並將大資料作為業務分析實踐基石的企業來說,他們會擁有遠遠超過膽小對手的顯著競爭優勢。 大資料助力複雜的業務分析可能為企業帶來前所未有的關於客戶行為以及動盪的市場環境的深入洞察,使得他們能夠更快速的做出資料驅動業務的決策,從而比競爭對手更有效率。
從存儲及支援大資料處理的伺服器端技術到為終端使用者帶來鮮活的新見解的前端資料視覺化檢視,大資料的出現也為硬體、軟體和服務供應商提供了顯著的機會。 這些説明企業過渡到大資料實踐者的供應商,無論是提供增加商業價值的大資料用例,還是發展讓大資料變為現實的技術和服務,都將得到茁壯成長。
大資料是所有行業新的權威的競爭優勢。 認為大資料是曇花一現的企業和技術供應商很快就會發現自己需要很辛苦才能跟上那些提前思考的競爭對手的步伐。 在我們看來,他們是非常危險的。 對於那些理解並擁抱大資料現實的企業,新創新,高靈活性,以及高盈利能力的可能性幾乎是無止境的。
資料處理和分析:傳統方式
傳統上,為了特定分析目的進行的資料處理都是基於相當靜態的藍圖。 通過常規的業務流程,企業通過CRM、ERP和財務系統等應用程式,創建基於穩定資料模型的結構化資料。 資料整合工具用於從企業應用程式和事務型資料庫中擷取、轉換和下載資料到一個臨時區域,在這個臨時區域進行資料品質檢查和資料標準化,資料最終被模式化到整齊的行和表。 這種模型化和清洗過的資料被載入到企業級資料倉儲。 這個過程會週期性發生 ,如每天或每週,有時會更頻繁。
圖1 – 傳統的資料處理/分析 資料來源:Wikibon 2011
在傳統資料倉儲中,資料倉儲管理員創建計畫,定期計算倉庫中的標準化資料,並將產生的報告分配到各營業單位。 他們還為管理人員創建儀表板和其他功能有限的視覺化檢視。
同時,商務分析師利用資料分析工具在資料倉儲進行高級分析,或者通常情況下,由於資料量的限制,將樣本資料導入到本機資料庫中。 非專業使用者通過前端的商業智慧工具(SAP的BusinessObjects和IBM的Cognos) 對資料倉儲進行基礎的資料視覺化和有限的分析。 傳統資料倉儲的資料量很少超過幾TB,因為大容量的資料會佔用資料倉儲資源並且降低性能。
大資料性質的變化
Web、行動裝置和其他技術的出現導致資料性質的根本性變化。 大資料具有重要而獨特的特性,這種特性使得它與「傳統」企業資料區分開來。 不再集中化、高度結構化並且易於管理,與以往任何時候相比,現在的資料都是高度分散的、結構鬆散 (如果存在結構的話)並且體積越來越大。
具體來說:
· 體積 -通過Web、行動裝置、IT基礎設施和其他來源產生的企業內部和防火牆外的資料量每年都在成倍增加。· 類型 -資料類型的多樣性增加,包括非結構化文本資料以及半結構化資料(如社交媒體資料,基於位置的資料和日誌檔資料)。· 速度 -得益于數位化交易、移動計算以及互聯網和行動裝置的高使用者量,新資料被創建的速度以及即時分析的需求正在增加。
廣義地說,大資料由多個來源產生,包括:
· 社交網路和媒體: 目前有超過7億Facebook使用者,2.5億Twitter使用者和1.56億面向公眾開放的博客。 Facebook上的每個更新、Tweet和博客上文章的發佈及評論都會創建多個新的資料點(包含結構化、半結構化和非結構化的),這些資料點有時被稱為「資料廢氣」。· 行動裝置: 全球有超過50億正在使用中的行動電話。 每次呼叫、短信和即時消息都被記錄為數據。 行動裝置(尤其是智慧手機和平板電腦)讓使用社交媒體等應用程式更容易,而社會媒體的使用會產生大量資料。 行動裝置也收集和傳送位置資料。· 網上交易: 數十億的網上購物、股票交易等每天都在發生,包括無數的自動交易。 每次交易都產生了大量資料點,這些資料點會被零售商、銀行、信用卡、信貸機構和其他機構收集。· 網路設備和感應器: 各種類型的電子設備(包括伺服器和其他IT硬體、智慧電錶和溫度感應器)都會創建半結構化的日誌資料記錄每一個動作。
圖2 – 傳統資料 v.大資料 資料來源:Wikibon 2011
從時間或成本效益上看,傳統的資料倉儲等資料管理工具都無法實現大資料的處理和分析工作。 也就是說,必須將資料組織成關係表(整齊的行和列資料),傳統的企業級資料倉儲才可以處理。 由於需要的時間和人力成本,對海量的非結構化資料應用這種結構是不切實際的。 此外,擴展傳統的企業級資料倉儲使其適應潛在的PB級資料需要在新的專用硬體上投資巨額資金。 而由於資料載入這一個瓶頸,傳統資料倉儲性能也會受到影響。
因此,需要處理和分析大資料的新方法。
未完待續,請見第二部分:必讀! 大資料:Hadoop,業務分析及更多(2)