公有雲不只是改變了計算和存儲的價格結構,而且還擴展了分析企業IT可以執行的範圍。 在同大資料集工作時尤為明顯,沒有彈性計算和存儲的訪問就不會有實踐。
「大資料」的寬鬆定義是過大而不能用傳統資料管理技術和基礎架構處理的資料集。 詳細的伺服器日誌、點選流資料、社交網路資料和行動裝置資料都是資料倉儲中和商業智慧系統中交易型資料類型的補充。 此外,公有雲資料存儲庫和協力廠商加速器也提供了大資料集話題,從Twitter流和Meetup博文到經濟和人口普查資料。
合併這些資料來源可以進行更加詳細和精密的分析。 獲得客戶如何在在你的網站上流覽以及他們就不同產品流覽多長時間的細節資訊,獲取更多關於客戶偏好的洞察力,而不僅僅是追蹤產品購買。
大資料檢索:三源頭
在你能夠處理大資料之前,確定你要處理哪種類型的資料至關重要。 大資料來源分成三個廣泛的分類:內部生成資料、資料集市場和協力廠商資料產生器。
內部生成大資料通常是IT運營的副產品。 包括網路流量、點選流資料和應用日誌。 在過去,企業針對重要事件捕捉有限的資訊,比如購買東西的客戶。 現在我們可以捕捉更多更為重要的資訊,用你的業務應用就客戶的交互分析低級別的細節資訊。 用資料採礦演算法結合這些詳細資訊,你會發現更多的洞察力,像介面的可用性、和低利潤交易相關的模式或者意外客戶類型群集。
資料集市場,比如Infochimps、亞馬遜Web服務(AWS)的公有資料集和Windows Azure Marketplace,將提供範圍廣泛的資料集訪問補充你的內部資料。 如果你對於處方藥使用、零售資料、交易資料或者更廣泛的其他話題感興趣,你可以在這些資料超市中找到資料。 很多資料超市提供雲資料分析,因此你可以直接用虛擬機器在雲端進行工作。
協力廠商產生器是關注收集和為客戶提供資料或者供公共使用的組織。 美國聯邦政府和歐盟都是這樣,生成大量的人口統計、經濟和公共健康資料。 私有公司,比如Hoover也提供增值服務,比如為客戶提供市場和風險管理資料。
企業工具挖掘大資料潛能
很難結合大量非結構化和半結構化資料到關聯式資料庫中。 雲資料分析工具給企業提供所有規格能夠分析這種資料。
如果資料結構化很好,你可能希望繼續做關聯式資料庫,比如甲骨文或者微軟SQL Server,二者對於AWS、微軟Windows Azure以及其他的雲供應商都可用。
當你開始處理億萬行資料時,是時候考慮Hadoop或者谷歌BigQuery了。 AWS有一個Hadoop服務,稱之為彈性MapReduce,節省了安裝和配置Hadoop集群的時間。 Hadoop很好的符合面向包的分析,但是BigQuery更適合互動式分析。 BigQuery使用類SQL查詢語言,並支援Tableau Software的視覺化檢視,這是對專業分析的兩個重要考慮物件。
資料整合和管理
在資料倉儲進行大資料分析的很多工中,和抽取、轉換和載入(ETL)操作相關聯。 跨多個資料集耦合實體是資料集使用唯一識別符時的挑戰;資料格式需要表轉化。
關注聚集級別的不同之處。 比如,一些資料何以在日常級別聚集,其他的資料則只能夠看作是普通的追蹤級別。
最重要的,要知道資料傳輸成本,通常都要伴隨著大資料出現。 可能的話,在你存儲資料相同的雲中使用虛擬機器。 在處理谷歌BigQuery時,記住你要根據潮汛處理的資料量付費,因此只查詢你需要的行和列。
(責任編輯:施柏鵬)