標籤:大資料
隨著科技的發展,資訊的收集也越來越容易,再加上摩爾定律,大的資料量處理也成為了可能。
什麼是大資料,也許你有幾千個人的基本資料、也許你有數百條購物記錄,但這都不不是大資料,大資料至少在千萬的資料量上。
大資料有什麼作用?其實資料中是包含各種規律的,互連網時代的資料以不在那麼直觀,再加上超大的資料量,人工已經很難從中找到規律或者關聯了,但這並不意味著這些規律聯絡永遠無法被發掘出來,事實上,電腦的飛速發展和機器學習資料採礦相關理論的發展為挖掘其規律帶來了可能,建立適當的模型,我們就可以發掘出其中一部分關聯規律,但我相信並不是所有的,可能任何資料中都有其隱藏的深層規律。理論在逐步完善,科技也在飛速發展,我相信未來這些問題都會被一一解決的。
也許很多人對大資料的作用沒有直觀的瞭解,舉幾個簡單的例子。看過《大資料時代》的人可能都知道這個例子,如果你有超市所有的購物記錄的話,你可能會發現,很多人在買尿布時都會買啤酒,你將這兩者擺在一起,很容易提升其銷量。另外,還有好多類似的例子,這裡我再說一下推薦系統,如果你常在噹噹或者亞馬遜買書的話,你會看到網站會推薦一些書,很多時候,你要買的下一本書就在其中,這並不是網站猜的准,其實是根據大量的資料進行分析得來的。比如1萬個買了《機器學習》的使用者中有1000個又買了《機器學習導論》,這要比買其它書的比例高的多,那麼如果你買了《機器學習》,系統就會認為你非常有可能會買《機器學習導論》,這時候就把這本書推薦給你。 這隻是根據使用者購買行為進行分析的推薦方法,還有對商品類別進行分析的推薦方法,可能準確率會更高些。事實上,亞馬遜有三分之一的訂單來著於它的推薦系統。
我感覺,大資料會變革非常多的行業,實際上已經變革了很多行業了。
傳統的交通行業首先應當被變革。你應該注意到街上的紅綠燈了,每天每個時段間隔時間都是一樣的,但事實上,每天不同手段過往的車流量並不是一樣的,適當改變紅綠間隔時間,也許會大大降低汽車尾氣的排放量並節省能源。這並不是很難實現,只要在現有紅綠燈上加裝感應器統計不同時段的車流量即可。統計所有易發交通事故的地方,然後在那些易發地適當的做些措施,可能會挽救很多人的生命。聽說智能交通已經有人在做了。 另外,大資料也可以用來做基礎設施的選址的依據,可節約很多成本,甚至規劃大眾運輸路線,這也不是不可能。
現在人們所能收集的資料只佔所有資料中非常小的一部分,能發掘的資訊也是少部分,以後可能隨著感應器的大量應用,我們會擷取的前所未有的資料,這些資料將協助我們過上更優的生活,甚至解決一些人類目前沒有解決的問題,我感覺以後就是人工智慧和大資料的天下了。
我知道的大資料