忘記「大資料」,從「中資料」開始

來源:互聯網
上載者:User

對於很多市場研究人員來說, 「中資料」才是真正能夠提供ROI價值回報的分析目標。 而所謂「大資料」分析, 則會呈現遞減的ROI。

業界對「大資料」這一概念的質疑聲從來就沒有停止過,很多人認為它只是一個過度炒作的行銷泡沫。 確實,單就資料的體量而言,大多數企業並沒有Google, Facebook那樣的PB級資料。 那麼, 大資料究竟有沒有意義呢? 資料分析專家Tom Anderson最近給出了一個概念叫「中資料」,根據他的劃分, 資料集資料量在10萬以下的稱為「小資料」, 資料集在1000萬以上的稱為「大資料」,而在二者之間的稱為「中」資料。 Tom Anderson認為, 企業進行資料分析的投資收益率在「中」資料範圍內是最高的。 以下是IT經理網編譯Tom Anderson的博文:

在我參加了這個星期的美國行銷協會的第一屆大資料的研討會後,我更加堅信了我這幾年與許多財富1000強企業的行銷人員溝通後的一個看法。 那就是:

很少有公司能夠分析到所謂「大」資料的量級,而事實上它們也並不需要。 其實, 大部分公司應該開始考慮如何從「中」資料開始。

大資料,大資料, 大資料, 人們到處在談它, 其實我發現, 真正處理「大」資料的研究者其實很少。 我認為我們應該把「大資料」的概念範圍縮小。 引入一個新的更有意義的名詞:「中」資料來描述我們目前的大資料熱潮。

要瞭解什麼是「中」資料,進而理解大資料, 我們得先知道什麼是「小」資料。

「小資料」

上面的圖簡單地按照資料記錄的規模或者說樣本的規模對資料的「大」「中」「小」進行了劃分

小資料可以包括從定性研究的某個訪談到幾千個調查問卷的結果。 在這個規模上, 定性分析和定量分析可以從技術上結合起來。 而這兩者都不能稱之為現在定義的「大資料」。 目前對大資料的定義隨著企業對資料的處理水準的不同而不同。 通常的的大資料定義指的是用現有普通軟體很難分析的資料量。

而這個定義是從IT或者軟體供應商的角度來說的。 它描述了企業無法利用現有能力, 必須進行大量硬體軟體升級進行有價值的資料分析的情況。

中資料

那麼,什麼是中資料呢? 進入大資料時代, 有些我們認為是小資料的資料集可能會迅速成長為大資料。 比如 3萬到5萬條使用者滿意度調查記錄可以用類似IBM的SPSS軟體分析。 可是, 如果把這些資料集中加入了使用者的評論這樣的文本資料, 同樣的分析可能就會變得緩慢了。 這同樣的資料集現在需要更長的時間來分析,甚至可能導致分析軟體崩潰。

如果我們把同樣的文本資料用文本挖掘的方式處理的話,新加入資料集的資料將會極大地增加資料量。 這常常就會被認為是大資料, 需要更加強大的軟體來處理它。 不過, 我認為, 一個更準確的描述應該是「中」資料, 它其實只是真正大資料的起步階段(這與IT經理網之前的文章「大資料需大處著眼,小處著手」中的觀點不謀而合)。 而且對於這個規模的資料量, 其實還是有很多簡單的處理手段的。

大資料

好了,我們把大資料的一部分切出來叫做「中」資料。 現在, 我們可以重新定義「大」資料了。

為了理解「大」資料與「中」資料的區別, 我們需要考慮一些不同的維度。 Gartner的分析師Doug Laney曾經對大資料有一個著名的描述, 把大資料分為3個維度:規模(Volume), 種類(Variety)和 速度(Velocity), 通常叫做3V模型。

在理解「中」資料與「大」資料的區別時, 我們只需要考慮兩個因素, 成本與價值。

成本(以時間計量或者按照金錢計量)與期望價值構成了所謂的投資收益率(ROI)。 這也可以應用於大資料項目目的可行性研究。

我們知道, 有些資料天然的比其他資料具有更高的價值。 (100個客戶投訴郵件可能比1000個微博上提到你的產品比起來, 對你的運營分析更有價值。 ) 當然, 有一點是肯定的: 沒有經過分析的資料是沒有價值的。

相對於「中」資料來說, 「大」資料或者說「真正的大」資料量的分界點在於, 對於分析進行的投入, 相對成本(包括可能從中發現不了什麼的風險)來說,並不具有吸引力。 比「中」資料更大的資料量來說, 大資料分析要麼並不現實, 要麼對企業來說ROI太低。

而「中」資料則是正好在資料分析的最佳範圍內, 可以在相對可控的預算前提下進行有價值的分析。

對於很多市場研究人員來說, 「中」資料才是一個真正能夠提供有價值, 有足夠ROI的分析目標。 而真正「大」資料分析, 則會呈現遞減的ROI。

在最近我去德國的一次出差中, 我有幸遇到了一位在歐洲核子研究中心從事大型對撞機專案的科學家。 相對於大型核子對撞機來說, 普通的商業企業不需要像那樣的軟體和硬體來進行那個規模的大資料分析。 對撞機的1億5千萬個感應器每秒鐘產生4000萬條資料。 而實際上, 即使是歐洲核子研究中心的科學家們, 也不會去分析如此打規模的資料量。 他們在分析前過濾掉來99.999%的粒子對撞資料!

對我們普通企業來說, 對消費者的分析相對簡單得多。 對於資料或者文本挖掘, 我們不需要EB或者PB級別的處理能力或者在數以千計的伺服器上跑大型併發軟體, 目前其實有一些很好的軟體能夠處理我們一般企業的「中」資料需求。 一提到大資料, 媒體常常提到的是亞馬遜, 谷歌或者Facebook。 就算是這些案例中(很多 聽上去更像是IT銷售鼓吹的科幻小說), 也並沒有提到這些公司在資料分析中實際使用的樣本的量。

就像歐洲核子研究中心的科學家發現的那樣, 相對一股腦處理全部資料的做法, 更重要的是能夠正確的分析對研究相關的那部分重要資料。

那麼, 讀者可能會問「既然‘中’資料比‘大’資料更加具有吸引力, 為什麼我們分析‘小’資料不是更好嗎?」

這裡的關鍵是, 隨著資料量的增加, 我們不但可以對分析結果更加具有信心, 而且可能會發現一些傳統的「小」資料所不能發現的現象。 對市場分析來說, 這可能意味著發現了一個新的細分產品市場或者競爭對手的新動向, 對藥物研究來說, 可能意味著發現一些小的人群細分與某些癌症的高風險關聯從而拯救生命。

「中」資料應該被更加明確的定義, 而且也需要更多的最佳實踐。 不幸的是, 經常有一些企業的CEO或者CIO會要求IT人員「採集所有的資料, 全面分析資料」。 這樣的過程, 他們其實在製造真正的「大」資料, 這種資料量常常是超過需要的。 這就產生了我一直在提的ROI的問題。 追求真正的「大」資料常常不能給你帶來任何優勢。 經驗豐富的「小」資料或者「中」資料的分析人員知道, 對於「大」資料的分析常常是沒有滿意結果的。 而相對投入的成本來說, 從ROI的角度是不值得的。

因此, 對於「大」資料分析而言, 「中」資料才應該是我們真正需要瞄準的目標。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.