如何迅速成為一名資料分析師?

來源:互聯網
上載者:User

資料分析最重要的可能並不是你熟悉的編程工具、分析軟體,或者統計學知識,而是清楚你所使用的統計知識(統計學、計量、時間序列、非參數等等)背後的原理、假設及其局限性,知道各種資料分析工具(例如資料採礦)能帶來什麼,不能帶來什麼,看到一組統計檢驗的結果你能言說什麼,不能言說什麼。

這一切的背後,需要一套完整的「科學」邏輯架構,讓你瞭解自己手中的工具的本質,你才能從資料中「正確地」發現有效資訊,而不是胡亂地使用一大堆自己都搞不清楚的工具來堆砌分析結果,這樣得到分析結果不僅無用,而且有害。

知道了這些後,希望成長為「資料分析師」,就需要著手訓練自己的能力和洞察力。既然是「資料分析師」,那就分別從「資料」和「分析」兩方面入手。

「資料」當然包含了資料收集、處理、可視化等內容,每個環節對於最後的結果都有關鍵性的影響。其中涉及的技術性內容只是一部分而已,更重要的是你要理解資料收集(是否存在採樣偏差?如何糾正或者改進?)、處理(是否有漏洞或異常情況沒有考慮?)背後的邏輯。

例如:如果分析股票資料用於設計交易策略,那麼你不僅需要明白資料處理本身的問題,還要清楚金融市場的基本知識。例如,使用股票價格時,到底要用收盤價,還是複權價;複權價的話要用前複權價還是後複權價。這些選擇與資料分析沒有太大的關係,純粹決定於你分析的目的是什麼。因此你要充分瞭解這些概念背後的邏輯、動機是什麼,才能正確地根據自己的目的作出選擇。

資料視覺效果更多的是一門藝術:如何把資訊以最恰當的方式呈現給希望獲得這些資訊的人。首先,你要充分理解這些資訊究竟是什麼,有什麼特點,你才能較為恰當的選擇採用的視覺化檢視。

另外一部分就是「分析」。當然就是各種分析模型,還是需要瞭解這些模型背後的邏輯,要放到整個項目的上下文中去看,而不是單純地在模型中看。

總而言之,「理解」資料以及其中的資訊是非常重要的,這決定了你的分析和呈現的方法是否合適,決定了最後的結論是否可靠。

現在可以回答題主的問題了:成長為一個資料分析師,要注意「理解」你的知識,形成一個系統,而不是像機器人一樣機械地胡亂套用模型。在這個理念下訓練你的編程能力,瞭解你所分析對象的原理和儘可能多的細節。在這個基礎上,才能談資料分析。

想從事大資料工作,如何自學打基礎本文將介紹幾本書籍,供各位想從事大資料、海量資料處理相關的工作的同學學習。


海量資料分成兩塊,一是系統建設技術,二,海量資料應用。

先說系統建設,現在主流的技術是HADOOP,主要基於mapreduce的分布式架構。目前可以先學習這個。但是我的觀點,在分布式系統出來之前,主要是集中式架構,如DB2,oracle。為什麼現在用分布式架構,那是因為現在集中式架構受限於IO效能,出來速度慢,如果又一種硬體技術,可以很快地處理海量資料,效能上能滿足需求,那麼集中式架構優於分布式架構,因為集中式架構穩定,營運壓力小。現在的集中式架構要麼效能達不到要求,要麼就是過於昂貴。我期待一種技術出現,可以非常快地傳輸和處理資料,那麼集中式架構將再次進入人們眼球。再說海量資料應用。海量資料應用主要是資料採礦和機器演算法。具體有不同的應用情境,如個人化搜尋和推薦,社交網路發現,精準營銷,精準廣告,即時最優路徑,人工智慧等等。看你想做系統支撐技術還是與業務結合的應用技術。

如果現在學系統建設技術,可以讀下如下書籍:

如果學資料採礦和機器演算法,推薦先看資料採礦導論,統計分析原理,Mahout,R,MATLAB



相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.