深刻認識大資料
來源:互聯網
上載者:User
當下,大資料可謂人盡皆知。 但是,什麼是大資料? 大資料的準確定義又是什麼? 大資料能夠給我們帶來什麼? 這些我們目前還都不確定。 現在我們深刻認識大資料。
你能夠獲得所有的資料
在許多方面,我們正生活在一個前所未有的時代當中。 我們從來都沒有像現在這樣能夠獲得如此多的資料。 此前一直被人們所忽視的百萬位元組、拍位元組和艾位元組資料如今已經出現了。 在如今的工業化社會中,平均每個人一天所消費的資訊量超過了生活在十五世紀的人一生所消費的資訊量。
目前還沒有一個人或一家公司能夠存儲和檢索關於某一特定主題的全部資料,更不要說是所有資料了,包括谷歌在內。 谷歌索引的只是表層網中的資訊,而不是深層網中的資訊。 專家估測,後者的規模是前者的25倍。 因此,在我們進行搜索時,我們所獲得的資訊量僅僅是HTTP://www.aliyun.com/zixun/aggregation/5742.html">互聯網資訊量中的4%~6%。
你需要所有的資料
毫無疑問,資料越多説明越大,但這並不意味著在做商業決策時你需要所有的資料。 正在高效利用大資料的公司已經認識到,他們不需要獲得所有的相關資訊。
幾乎每天都會湧現出大量新的資料來源,但是並不是所有的資料都有價值。 例如,電子郵件資訊常常為我們提供了洞察企業狀況的寶貴資訊。 精明的公司正在挖掘個人資訊,以評估員工的情緒,以及誰可能會辭職。 但這並不是說所有的電子郵件都具有相同的價值。 因為分析垃圾郵件沒有任何意義。 你並不需要所有的資料。 資料當然是越多越好,但是請不要浪費時間嘗試做這一不可能實現的事情。
大資料會給我們明確的答案
我們經常聽到這樣一句商業格言是「處理你能夠處理的資料,並從中獲得更多資訊。 」我們在利用所獲資訊做商業決策時會遇到許多問題。 實際上,我們根本無法利用這些資訊完全準確地預測出公司的並購、產品的發佈、新的風險投資,以及員工入職等情況。
但這並不是說,存在不確定性,大資料就不能為我們提供説明了。 請不要將減少不確定性和消除不確定性混為一談。 大資料能夠説明我們消除不確定性的這一天還沒有到來,可能這一天永遠也不會到來。 對海量非結構性資料進行分析或許能夠説明公司更好的理解客戶的情緒。 但是請不要誤認為大資料能夠為我們排除所有的可能性。 生命的無常和業務的起伏將會破壞我們制訂出的完美計畫。
大資料只是曇花一現
Nate Silver可以說是大資料領域中的代表人物,至少在他離開《紐約時報》之前是這樣。 在2012年的美國總統大選中,儘管許多人預測奧巴馬和羅姆尼在得票率方面將旗鼓相當,但是身為統計學家的Silver卻預測,奧巴馬將以90%的選舉人票贏得2012年的美國總統大選。 由於Silver的預測模型極為精准,以至於如今許多人在遇到事情後都來向他尋求説明。
雖然大資料和資料科學的定義在今後幾年仍然不會確定下來,但是可以肯定的是,人們在2013年消費的資料量超過了2012年所消費的資料量。 許多公司已經認識到了大資料的重要性,拒絕大資料可能將會導致公司在競爭中被淘汰出局。