HTTP://www.aliyun.com/zixun/aggregation/13814.html">BigData——大資料,無疑是近年來互聯網上的熱詞。 越來越多企業開始熱衷大資料,我們也享受著大資料帶來的便利。
在隨意瀏覽時,我們總能看到切中自己興趣的產品推薦;打開一個網頁,網頁中的廣告是近期有購買計畫的產品;在網站上搜索,返回的搜尋網頁面有很多有價值的「相關推薦」...... 在我們根本未意識到時,智慧設備便處於聯網之中,相關資料被悄然發送到協力廠商。 這一切的背後,是網路服務商對使用者的上網行為進行深度分析的結果,這都離不開大資料的技術支援。 然而,大資料帶來方便快捷的同時,其弱點也逐漸凸顯,那就是越來越為人所關注的隱私問題。 通過資料採礦,人類所表現出的資料整合與控制力量遠超以往。
1995年,歐盟出臺的隱私法例將「個人資料 」 定義為可以直接或間接識別一個人的資訊。 很顯然,當時立法者考慮的是那些帶有身份標識號的檔資料等。 如今,「個人資料 」這一定義所包含的內容已經遠遠超出當年那些立法官員的想像,甚至可以輕易地超過19年前他們通過這項法例時整個世界的資料量。 這期間到底發生了什麼?
首先,這個世界每年所創造的資料量在以指數形式增長,去年,這一數位則達到了2.8ZB,聽起來就很可怕的數位,而且據知名資訊行業諮詢服務商IDC 稱,這一數位將在2015年翻一番。 其次,這些資料中的3/4是由個體人在創造或移動數位檔時貢獻的。 舉例來說,一個標準的美國上班族每年可以貢獻 180萬MB的資料量。 儘管這其中的大部分資料都是不可見的,似乎也並不攜帶任何個人資訊,但事實並非如此。 現代資料科學已經發現幾乎任何類型的資料都能用來識別創造它的人,每一個現實中的人在資訊世界總能被刻畫出來。 毫無疑問,可以獲得的個人資料量越多,其中的資訊量就越大。 只要擁有了足夠多的資料,我們甚至可能發現有關于一個人的未來資訊。
去年,來自美國羅徹斯特大學的亞當·薩迪克和來自微軟實驗室的工程師約翰·克拉姆發現他們可以大致預測一個人未來可能到達的位置,最多可以預測到80周後,其準確度高達80%。 為此,他們收集了32000天裡307個人和396輛車的GPS資料並建造了一個「大規模資料集」。
兩人想像了一下這一研究成果的商業應用,他們說到時候會出現這樣的廣告:「需要理髮嗎?4天后你就會在這家髮廊周圍100米內,屆時它將會有優惠活動哦!」 大資料帶來了很多便利,影響決策,也改變了生活。 但大資料分析和應用,有時候往往偏離了其精神實質。 人類不是機器,生活有時候並不需要十分精確,未知也是一種美好。