大資料:另類「V字仇殺隊」
在這春節期間,大家都見證了全球最大的「人類遷移」車流、物流、人流,它們流淌的同時也是資料,是商機。 而大資料,就是這樣一種需要借助專有平臺實現價值提煉説明決策分析的海量資料集。 鑒於大資料在雲計算、移動、社交等多個發展趨勢中都具有普遍性和重要性,本文將為廣大讀者介紹有關大資料的基本內容,以期説明更多人瞭解大資料,並從中挖掘更多商機活躍市場。
另類「V字仇殺隊」
談到大資料,就自然而然會想到大資料的4V特點:Volume(資料量大)、Velocity(即時性強)、 Variety(種類多樣)、Veracity(真實性)。 另外,通常還大資料還具有Value(價值)的特點,這 也是人們紛紛關注大資料的主要驅動力之一。 這裡的「V字仇殺隊」指的是大資料時代下價值的重新定義和挖掘,讓資料價值充斥在社會的每個角落。
大資料是多維的,而且極具複雜性。 大資料帶來的價值包括但不限於:資料的組織和管理,基礎架構,決策支援和自動化介面和分析。 隨著社交資料、企業內容、交易與應用資料等新資料來源的興起,傳統資料來源的局限性被打破,企業愈發需要有效的資訊治理以確保其真實性及安全性。
大資料的四大要素及挑戰
Volume
資料體量巨大。 從TB級別,增長到PB級別。 截至目前,人類生產的所有印刷材料的資料量是200PB(1PB=1024TB),而歷史上全人類說過的所有的話的資料量大約是5EB(1EB=1024PB)。 當前,典型個人電腦硬碟的容量為TB量級,而一些大企業的資料量已經接近EB量級。
Velocity
處理速度快,1秒定律。 根據IDC的「數位宇宙」的報告,預計到2020年,全球資料使用量將達到35.2ZB。 在如此海量的資料面前,處理資料的效率就是企業的生命。
Variety
資料類型繁多,絡日誌、視頻、圖片、地理位置資訊等等。 類型的多樣性也讓資料被分為結構化資料和非結構化資料。 相對於以往便於存儲的以文本為主的結構化資料,非結構化資料越來越多,這些多類型的資料對資料的處理能力提出了更高要求。
Veracity
只有真實而準確的資料才能讓對資料的管控和治理真正有意義。
大資料的4V特點(來源:f5)
Value
價值密度低。 價值密度的高低與資料總量的大小成反比。 如何通過強大的機器演算法更迅速地完成資料的價值「提純」成為目前大資料背景下亟待解決的難題。 隨著社交資料、企業內容、交易與應用資料等新資料來源的興起,傳統資料來源的局限性被打破,企業愈發需要有效的資訊治理以確保其真實性及安全性。
(責任編輯:呂光)