大資料之我見

來源:互聯網
上載者:User

標籤:大資料

現在大資料是個熱詞(buzzword),我也湊個熱鬧。現在前面不加個“大”字都不好意思說資料,大確實是大資料的特點之一。以前也有資料,為什麼最近變大了呢?資訊技術的發展,硬體的發展,網路技術的發展使海量資料的擷取、儲存、處理變得容易,所以資料變大了。”大“只是現在資料的一個特點,有mapreduce, hadoop, spark等工具來應對資料的大。 言必稱hadoop等工具的人不見得真的懂資料分析,畢竟大資料之前我們也做資料分析,當時我們用採樣的方法(Sample)。


資料分析需要三個方面的知識,IT技能、數學和領域知識。 IT技能包括前面提到的hadoop,mapreduce等新工具的使用,還包括資料庫、SQL等舊工具的使用,相對來說我認為不是最關鍵的技術。數學方面知識包括機率論數理統計、線性代數等數學分支,這些反而是我認為相對更重要的,一個資料科學家可以不會用hadoop,mapreduce等工具,但這些數學知識必知必會。做資料分析,資料不是最重要的,我們想由資料回答什麼問題更重要。領域知識是用來提這些問題的。分析電子商務的商品資料,分析生物資訊學的蛋白質和基因,分析行為經濟學,需要不同的領域知識。所以說大資料分析團隊需要具備這三個方面能力的成員。


資料分析有描述(Descriptive Statistics),推論(Statistics Inference),應用等幾個層面。描述相對簡單,推論、預測和應用起來就難了。所以說宣稱自己是大資料專家的人,還要看他處於哪個層面。 

我覺得下面三句話對從事資料分析的人會很有用。

(1)相關不代表因果。

(2)洞察力比工具重要。

(3)問題比資料重要。


我看了公眾號CSDN大資料、資料客、親密數(qinmishu.org)上的幾篇文章,還有霍普金斯大學關於資料科學的一門介紹性的公開課,歸納出上面的觀點,自己對資料分析還是門外漢,目的是給自己繪個大的藍圖,而不是一開始就糾結到具體的工具上去。




 



大資料之我見

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.