大資料到底是什麼?

來源:互聯網
上載者:User

如果用非IT類媒體的報導次數或關注度,來去衡量一個IT詞彙的熱度,我相信「大資料」絕對可以算得上是當前最熱的IT詞彙,雲計算肯定不是它的對手。

大資料之所以這麼火熱,是因為它與普通大眾的生活之間,相較其他IT術語似乎有著更為重大,或者說更具傳奇色彩更為深厚的關係。 從定向行銷,到助力美國總統大選,大資料迅速披上了神奇的外衣。 而也正是因為它對於人類生活的這種顯性的影響力,讓它成為了每個生活于資訊世界中的人,或多或少都要關注的方向。

僅以企業與客戶者之間的關係而言,企業主希望借助大資料來分析客戶行為規律、興趣愛好、找到目標的客戶,向潛在的客戶推送他們可能想要的資訊,但另一方面消費者也會因為一些不靠譜的資訊推送,來揣測相關企業的大資料的水準。 除此之外,通過大資料來改變自身運營效率的企業案例,似乎也正在飛速增加著...... 因此,從哪個方面看,大資料也越來越有成為公從談資的資本。 然而,大資料到底是什麼,可能這些參與其中的人又會給出不同的說法,有技術層面上的解讀,有理念層面上的解讀,有從使用效果上的事後總結...... 但實話實說,與其他IT術語相比,大資料在解釋上更具多樣性與不確定性色彩。

大資料是噱頭嗎?

今天我們來談「大資料到底是什麼」,並不想從技術或理念上深究,而希望能一種淺顯的描述,來最大限度的達成一種對大資料的共識。 其實,大資料這一概念最早成型于IDC與EMC合作的調研報告中,可是那個調研報告的側重點還在於對互聯網、物聯網、雲計算等大趨勢下的資料積累、保存與管理的警示,隨後不同的廠商在這一基礎上不斷擴展、 豐富並最終延伸出一個業界公認的4V屬性理論(體量Volume、種類Variety、速度Velocity、價值Value,IBM的4V理念將最後一個V定義為真實Veracity),從而形成了一個閉合的大資料體系, 從縱向上又總結出從硬體基礎設施到資料管理,再到資料分析,最後是資料呈現等4層架構。 歸根結底,大家最後的共識都認為大資料最終要用服務于社會的,這是它的終極用途,之前所說的積累、保存、管理、分析都是為這一目的服務的。

這麼說來,對大資料的認識似乎又統一了,但也因此也使很多人對大資料概念嗤之以鼻。 如果僅就大資料最終要體現出應用的價值為社會服務的話,與以前的資料採礦、商業智慧理念又有怎樣的區別呢? 大資料中的體量,可能在很多場合也並不能體現出來,可能就是幾TB的資料也能把人搞得焦頭爛額,無非就是資料類型擴展而已。 所以,說「大資料只是一個噱頭」並無道理。

但是,當前的一些大資料的應用案例,也的確與以往的資料倉儲應用不同,這其中可能有非結構化與結構化資料的原因,但也有一新的理念、處理模型與手段的變化。 至於哪些新東西是因大資料引發的,我們在此也沒必要去糾纏,只需要解答一個核心的問題即可:資料到底是什麼?

資料能源?

如果說很多人追捧大資料的神奇在於,它可以將原本不起眼的歷史資料化腐朽為神奇,那麼我們是不是可以將大資料比作一種通過加工而來的一種能源? 如果可以,我們放眼地球上的能源,就會發現其與大資料有著太多相似之處。

地球上的能源有很多種,但是它們之所以是能源的前提在於人類對它們的認知。 在遠古時期,人類因雷電引火,發現了火和木材這兩種能源,前者可用來取暖、驅獸、加工食品,後者可用來生火。 在此之後,隨著人類文明的進步,科技的發達,逐漸發現了越來越多的能源,比如煤、天然氣、石油、太陽能等等,但是在人類還不能認知它們時,它們就不存在了嗎? 顯然不是,在沒有人類的時候,它們就已經在地球上靜靜的等候了成萬上億年,只是人類掌握了相應的科技與工具之後,它們才得以登堂入室。

資料也是一樣,如果資料有著一個生成/採集——應用/加工——保存/管理——分析/挖掘——再保存或刪除這樣的一個週期的話,那麼在其生成的那一刻起,它就存在著應有的價值,只是在於你是否有能力去發現它們。 這需要新的理念、知識、技術與相應的工具。 原始人即使知道地下幾十公里有石油,他們也無法開採,所謂的資料分析,道理也是一樣的。

從人類發展的歷史來看,不斷發現新的能源,是一種公理似的註定。 當我們掌握了越來越先進的理念基礎,並依此開發出越來越先進的工具,出現新的驚喜可以說理所當然。 就像剛發明汽車時,誰也不會想到電、水會成為汽車可行的能源。 從這個角度講,當前的大資料所帶來的種種神奇,只是人類在資料收集、管理、分析等領域的一次進步而已,它有出現的必然,而非人類的一種「頓悟」。

我們再來看看地球能源的4V屬性:

圖注:大資料的4V屬性:Volume、Variety 、Velocity和Value。

1、Volume——儲量:現在已經探明的,或新探明的煤、天然氣、石油、風、太陽能等能源的儲量是相當驚人的,但遍佈于多種地形、地貌中,就看人類有沒有本事都能獲取到了。

2、Variety——類別:隨著人類技術水準的進步,所獲得的能源種類也就越來越多,並且越來越多以前認為不行的資源,後來也慢慢成為了能源,放射性元素就是典型的例子,而若技術成熟,海水將成為人類用之不竭的新能源。 曾經有一篇科幻論文說得好「也許未來只需要一把泥土,就能把火箭送上月球」。 另一方面,不同能源所需要的開採技術與工具也各不相同,這就好比結構化資料與非結構化資料的處理手段的差別。 因此,人類面對的能源類別越來越多,它也需要人類具備越來越多種類的能源開採能力。

3、Velocity——開採/轉換效率:很難想像一口一天只產一加侖的油井有什麼價值,如果一個太陽能的光電轉換效率不到1%,還有使用它的必要嗎? 因此,人類在能源上的開採/轉換的效率將決定這種能源的可利用性,就如果做資料分析,今天的銷售資料分析,一個月後才能出來,那不分析也罷了。

4、Value——價值:能源的價值取決於它所能提供的能量與貢獻,誰都知道95號汽油比92號汽油好,但也更貴;煤很便宜,但能提供的能量也相對較低;電能,在目前仍要通過其他能源轉換得來,這都是價值之所在。 它決定于自身的屬性,與相應的資料採礦與提煉的能力,前者相當於汽油與煤的不同,後者相當於煉油廠在95與92號之間的提煉工藝不同。 它們都最終決定了資料的價值——並且像某些大資料宣傳中所鼓吹的那樣,好像任何資料用大資料分析後,就能黃土變黃金一樣,這是不可能的,除非你自己對某類資料的認知就有偏差(原本就是土,和原本就是金子,有著本質不同)

IBM所提倡的Veracity,我認為可以理解為能源的提煉水準,就算是95號汽油,中國產的能和歐美產的相提並論嗎? 這就是所謂的真95與假95號的區別。 另一個典型的例子就是濃縮鈾,豐度為3%的鈾235的低濃縮鈾可用於核發電,而豐度高於90%的鈾235則可以用來製造核武器,兩者的價值肯定不一樣? 所以,這種提煉品質與能力上的區別也最終會體現在能源的價值上。 因此,IBM強調資料分析的準確與真實,可以與能源提煉過程中的純度相對應,體現了對資料分析的一種質的要求。

圖注:IBM把大資料第4個V定義為Veracity。

說完理念的對比,再看縱向技術架構上的相似之處,大家可以想想大資料中所談到的資料獲取、匯總、保存、管理、分析、呈現是不是與能源的勘探、開採、彙聚、保管、提煉、使用有著一一對應的關係呢?

特別需要指出的是,現在物聯網的一大分支——工業互聯網越來越熱,而大資料就是其最後的重要支撐(前不久通用電氣還專門為此投資了Pivotal),其理念在於將各種感應器、致動器也納入整體的資訊採集體系,借助工業設備管控平臺, 分析出存在於工業設備內有價值的資訊,以便於管理、精度調校以及健康預警。 想想看,這是不是像地質勘探中,將不同炸點的傳感資訊匯總起來,再通過震盪波分析軟體,來呈現出地下的礦產分佈與結構視圖?

大資料到底是什麼?

話說至此,我們應該可以總結一下了——在某種角度上講,大資料其實就是人類能源開拓歷史在IT領域的一種再現與映射。

無論從理念還是實現手法上,大資料的種種說辭,都可以在人類悠久的能源勘探、開採、利用的經驗中到對應的關係,因此,從根本上講它並不新鮮。

但關鍵就在於,在IT領域,對於「資料能源」的認知水準,遠不如人類對其他類別能源的認知,所以當我們有一天終於完善了相關理念基礎,開發出相應的工具,看到了資料內部的能源之後,可能就一種當初發現石油一樣的衝動,進而將其誇大、 神話。 但是,仔細想想,對於已經經歷過太多這類驚喜的人類來說(火、電、煤、油、氣、核能、太陽能,哪個不給我們一個驚喜? ),應該不必如此大驚小怪。

我認為,在資料利用的願景方面,大資料與原來的資料倉儲、資料採礦、商業智慧等概念是同出一轍、一脈相承的。 大資料其實是對人類在資料利用方面進入的一個新階段,它代表了一種理念(資料能源)、一種思路(從資料收集到資料分析再到資料呈現的整體構想)和一種新工具(將結構化與非結構化資料、語義與機器化資料彙聚、統一處理、 分析與呈現的工具)的集合。 它賦予了人類對資料認知的新能力,也進一步打開了人類的資料利用方面的想像空間。 就這一點來說,全盤否定大資料,一概以噱頭蔽之,也是不可取的。

總之,我們必須明白大資料並非是從天上掉下來的,是人類IT水準發展到一定階段的必然結果,就像PC、智慧手機等出現一樣,是很多相關技術互動過程中自然而然的產物。 我們要從一個整體去看它,不能一上來只看到某些誘人的東西,而將這些原本很平實的資訊變成了一種「傳說」。 顯然,大資料現在有這種傾向,它似乎無所不能,無所不包。 就像我們上文所說的那樣,如果資料本身的價值就在泥土一級的,也就不用指望它能提煉出黃金,大資料分做的只是將原本就存在的各種等級的「資料能源」真實的呈現出來而已。 在可預計的未來,它將成為一種常態,一種基本的能力,就像現在的汽油一樣,每輛車不用因為燒汽油而會自豪,會成為傳奇。

所以,我認為當前的大資料熱潮應該有針對性的降降溫,讓其回歸本色,還原其實質,並將精力放在一個能源開採者所應投放的地方——資料獲取的管道是不是不夠廣? 資料彙聚的能力是不是不夠強? 資料管理是不是太過複雜? 資料處理能力是不是太弱? 資料分析太是不是不智慧? 資料的呈現是不是易用性與友好度不同? ——其實當一件事,到最後大家都要做的時候,當一種能力,大家都要具備的時候,它也就不是神話與傳奇了,大資料即是如此。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.