大資料vs電腦

最後更新：2016-06-08 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：

大資料有兩個方向，一個是偏電腦的，另一個是偏經濟的。你學過Java，所以你可以偏將電腦

基礎
1. 讀書《Introduction to Data Mining》，這本書很淺顯易懂，沒有複雜高深的公式，很合適入門的人。
另外可以用這本書做參考《Data Mining : Concepts and Techniques》。第二本比較厚，也多了一些資料倉儲方面的知識。
如果對演算法比較喜歡，可以再閱讀《Introduction to Machine Learning》。
當然，還有《機器學習：實用案例解析》

2. 實現經典演算法。有幾個部分：
a. 關聯規則挖掘 (Apriori, FPTree, etc.)
b. 分類 (C4.5, KNN, Logistic Regression, SVM, etc.)
c. 聚類 (Kmeans, DBScan, Spectral Clustering, etc.)
d. 降維 (PCA, LDA, etc.)
e. 推薦系統 (基於內容的推薦，協同過濾，如矩陣分解等)
然後在公開資料集上測試，看實現的效果。可以在下面的網站找到大量的公開資料集：UCI Machine Learning Repository/

3. 熟悉幾個開源的工具: Weka (用於上手); LibSVM, scikit-learn, Shogun

4. 到 Kaggle: Go from Big Data to Big Analytics/ 上參加幾個101的比賽，學會如何將一個問題抽象成模型，並從未經處理資料中構建有效特徵 (Feature Engineering).

到這一步的話基本幾個國內的大公司都會給你面試的機會。

進階篇：

1. 讀書，下面幾部都是大部頭，但學完進步非常大。
a.《Pattern Recognition and Machine Learning》
b.《The Elements of Statistical Learning》
c.《Machine Learning: A Probabilistic Perspective》
第一本比較偏Bayesian；第二本比較偏Frequentist；第三本在兩者之間，但我覺得跟第一本差不多，不過加了不少新內容。當然除了這幾本大而全的，還有很多介紹不同領域的書，例如《Boosting Foundations and Algorithms》，《Probabilistic Graphical Models Principles and Techniques》；以及理論一些的《Foundations of Machine Learning》，《Optimization for Machine Learning》等等。這些書的課後習題也非常有用，做了才會在自己寫Paper的時候推公式。

2. 讀論文。包括幾個相關會議：KDD，ICML，NIPS，IJCAI，AAAI，WWW，SIGIR，ICDM；以及幾個相關的期刊：TKDD，TKDE，JMLR，PAMI等。跟蹤新技術跟新的熱點問題。當然，如果做相關research，這一步是必須的。例如我們組的風格就是上半年讀Paper，暑假找問題，秋天做實驗，春節左右寫/投論文。

3. 跟蹤熱點問題。例如最近幾年的Recommendation System，Social Network，Behavior Targeting等等，很多公司的業務都會涉及這些方面。以及一些熱點技術，例如現在很火的Deep Learning。

4. 學習大規模並行計算的技術，例如MapReduce、MPI，GPU Computing。基本每個大公司都會用到這些技術，因為現實的資料量非常大，基本都是在計算叢集上實現的。

5. 參加實際的資料採礦的競賽，例如KDDCUP，或 Kaggle: Go from Big Data to Big Analytics/ 上面的競賽。這個過程會訓練你如何在一個短的時間內解決一個實際的問題，並熟悉整個資料採礦項目的全過程。

6. 參與一個開源項目，如上面提到的Shogun或scikit-learn還有Apache的Mahout，或為一些流行演算法提供更加有效快速的實現，例如實現一個Map/Reduce平台下的SVM。這也是鍛煉Coding的能力。（轉）

以下回答出自我之前的一個總結：想從事大資料、海量資料處理相關的工作，如何自學打基礎？
想做資料處理尤其是大資料量處理的相關工作必須兼具 電腦科學基礎和統計基礎。

如果你有機會在學校學習這些課程或者自學，會對你的職業目標有協助。

基礎中的基礎：
線性代數，機率論

核心知識：
數理統計
預測模型
機器學習

電腦：

數學軟體：強大矩陣運算和最佳化功能的matlab，專而精的mathematica。
語言：fortran（強大的計算語言，充分最佳化的現成代碼），R（相比於matlab，java，c，R是個高富帥），python．
可視化

統計：時間序列分析
應用迴歸分析
多元統計分析

強烈推薦：Distance Education § Harvard University Extension School 和哈佛的學生一起學習Data Science。

課後問題的材料：CS109 Data Science

相關問題：

Data Science: What are some good free resources to learn data science?
Where can I learn pandas or numpy for data analysis?
What are some good resources for learning about statistical analysis?
Data Science: How do I become a data scientist?
What are some good resources for learning about machine learning?

另外，這是我的知乎專欄，會不斷更新資料科學的文章，歡迎關注。Introduction to DαΓαSciεηce - DαΓαSciεηce - 知乎專欄

大資料vs電腦

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

大資料vs電腦

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support