一直以來,資料分析都在利用電子儲存資訊獲益方面發揮著重要作用。 一些組織利用資料分析解決方案提供可增加收入、提高市場份額、降低成本和取得科學突破的洞察。
如今,隨著業務流程的日益自動化,資料分析的版圖也在不斷擴張。 之前存儲于獨立線上和離線存儲庫中的各種格式的資訊,現在都能以數位格式進行存儲,隨時進行合併和分析。 因此,企業高管對資料的要求越來越高,期待更迅速、更有效的解決方案。 組織也更加重視資料分析活動,這無疑給現有的商務分析師和 IT 團隊帶來更大的壓力。
大資料的定義
從某種程度上說,大資料是資料分析的前沿技術。 對「大資料 (Big Data)」這個術語的最早引用可追溯到 Apache.org 的開源專案 Nutch。 大資料是指為更新網路搜索索引需要同時進行批量處理或分析的大量資料集,比如大小為數十到數百 TB 的博客。 隨著谷歌的關於 MapReduce 和 Google File System (GFS) 的發佈(後者發展成了 Apache Hadoop 開源專案),大資料不再僅僅是指大量的資料,還涵蓋了處理資料的速度。 隨著全新的、結構化的、非結構化和多結構化資料類型的出現,大資料還包含一個複雜性元素。
企業戰略集團 (ESG) 發現,供應商理解的「大資料」只是字面上的意思,即大量的資料。 這種趨勢在提供某些解決方案的供應商中尤為明顯,這些供應商提供了分散式並行檔案系統(如 GPFS 和 Luster)、特定于工作負載的存儲解決方案(如 EMCIsilon 和 Panasas)和專為複雜分析而設計的資料庫(包括 Teradata 的 Aster、HP 的 Vertica、IBM的Netezza 和 EMC 的Greenplum)。 如表 1 所示,ESG 更新了大資料的定義來反映當前使用方式。
大資料是指超出正常處理範圍和大小、迫使使用者採用非傳統處理方法的資料集。
表1. 大資料的定義
評估大資料對資料分析的影響
ESG 認為大資料不是市場炒作。 對於許多跨多個垂直行業的組織而言,大資料是真實存在的,而且它正在改變資料中心的架構。 隨著資料量,資料處理速度和資料類型的複雜度以遠超標準前端和後臺資料處理能力的速度增長,大資料在不斷增長,這迫使 IT 團隊考慮採用非常規的方式處理業務需求。
在緩解提高績效的壓力的同時,如何利用當前的分析平臺和基礎 IT 架構處理不斷增長的資料量? 這是很多組織都在嘗試解決的問題。 為更好的理解組織如何應對大資料帶來的挑戰,以及他們想通過部署新的分析平臺來滿足大資料需求並從中獲得哪些利益,ESG 近期針對 270 位決策者和影響者展開了一項調查。 (調查結果如下)
據 ESG 的調查結果顯示,如果一些組織擁有大量的資料和不斷增長的資料庫容量,而且這些資料來源自多個來源,那麼他們面臨大資料挑戰的可能性就更高。 隨著越來越多的資料來源集成到業務智慧和資料處理任務中,通常的資料分析流程已經無法滿足需求。 這些組織認識到,提高資料分析能力同樣非常重要。
超過半數的調查物件將提高資料分析能力列為未來 12-18 個月內最重要的五個 IT 優先考慮事項之一(參見表 2)。 另外,只有 5% 的人認為資料分析不是他們最重要的 20 個 IT 優先考慮事項之一。 超過半數 (54%) 的企業(雇員超過 1000 人)認為資料分析是最重要的五大 IT 優先考慮事項之一,而只有 42% 的大中型企業(雇員為 500-999 人)持這樣的觀點。
表2. 資料分析的相對重要性
目前,主導的資料分析平臺尚未出現。 半數以上的組織仍在使用自訂資料分析解決方案。 通用資料庫針對特定工作負載進行了調優,也被廣泛用於執行資料分析活動。 至少需處理 100 TB 資料的組織更傾向使用基於雲的資料分析服務,以及大規模並行處理 (MPP) 或對稱處理 (SMP) 分析資料庫。 儘管早幾年就已經出現特定于工作負載的設備(即將分析資料庫與軟體、存儲、伺服器和網路資源綁定在一起),但是只有 6% 的組織將這些解決方案當作其主要的資料分析平臺。 這個比例之所以這麼小,主要是因為供應商可以選擇的設備有限,而且這個局限性在未來 12-18 個月內會一直存在。 調查結果表明,組織一直在挑戰其分析平臺的極限,同時也在努力尋找更好的架構,以便更好地完成日益增長的資料分析任務。
資料整合是最常見的資料分析挑戰,超過三分之一 (39%) 的調查物件認為資料整合過程太費時,資料量太大 (35%),或兩種情況同時存在。 隨著企業資料整合的資料來源的增多,這些問題也會變得更加嚴重。