關於大資料的常見誤解

來源:互聯網
上載者:User
關鍵字 我們 我們 這些 我們 這些 我們 這些 大資料 我們 這些 大資料 誤解

我時常聽創業者說自己的公司每天會生產/記錄很多的資料,雖然他們暫時還沒想明白怎麼用這些資料,但把這些資料都先存起來了。 他們經常還說,通過這些資料他們的產品/服務將得到很大的提升,仿佛這些資料就是公司的救世主一樣。 我不想討論這種觀點正確與否,但想在這裡解釋兩個關於大資料的常見誤解:

一、資料不等於資訊

經常有人把資料和資訊當作同義字來用。 其實不然,資料指的是一個原始的資料點(無論是通過數位,文字,圖片還是視頻等等),資訊則直接與內容掛鉤,需要有資訊性(informative)。 資料越多,不一定就能代表資訊越多,更能不能代表資訊就會成比例增多。 我們來看兩個簡單的例子:

備份。 很多人如今已經會週期性對自己的硬碟進行備份。 這個沒什麼好多解釋的,每次備份都會創造出一組新的資料,但資訊並沒有增多。

多個社交網站上的資訊。 我們當中的很多人在多個社交網站上活躍,隨著我們上的社交網站越多,我們獲得的資料就會成比例的增多,我們獲得的資訊雖然也會增多,但卻不會成比例的增多。 不單單因為我們會互相轉發好友的微博(或者其他社交網站上的內容),更因為很多內容會十分類似,有些微博雖然具體文字不同,但表達的內容十分相似。

二、資訊不等於智慧(Insight)

好吧,現在我們去除了資料中所有重複的部分,也整合了內容類別似的資料,現在我們剩下的全是資訊了,這對我們就一定有用嗎? 不一定,資訊要能轉化成智慧,至少要滿足一下三個標準:

可破譯性。 這可能是個大資料時代特有的問題,越來越多的企業每天都會生產出大量的資料,卻還沒想好怎麼用,因此,他們就將這些資料暫時非結構化(unstructured)的存儲起來。 這些非結構化的資料卻不一定可破譯。 比如說,你記錄了某客戶在你網站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標注這三個時間到底代表了什麼,這些資料是資訊(非重複性),卻不可破譯,因此不可能成為智慧。

關聯性。 我們曾經對關聯性的重要性進行過解釋。 這裡不再贅述了,無關的資訊,至多隻是噪音。

新穎性。 這個和我前文舉的那個社交網站的例子類似,不同的是,這裡的新穎性很多時候無法僅僅根據我們手上的資料和資訊進行判斷。 舉個例子,某HTTP://www.aliyun.com/zixun/aggregation/8002.html">電子商務公司通過一組資料/資訊,分析出了客戶願意為當天送貨的產品多支付10塊錢, 然後又通過另一組完全獨立的資料/資訊得到了同樣的內容,這樣的情況下,後者就不具備新穎性。 不幸的是,很多時候,我們只有在處理了大量的資料和資訊以後,才能判斷它們的新穎性。

說了這麼多,是想表達,其實我們手上有用的資料並沒有我們想像的那麼多——大資料本身就是個耍噱頭的詞。 在如今這個年代,一個普通的創業公司每天就能生產1GB以上的資料,稍微大一點的公司每天生產的資料都以TB來技術。 但在花錢進行大資料分析之前,我們要意識到,資料不代表資訊,更不代表智慧。

(責任編輯:施柏鵬)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.