約翰霍普金斯大學資料科學系列課程——導論,約翰霍普金斯大學

來源:互聯網
上載者:User

約翰霍普金斯大學資料科學系列課程——導論,約翰霍普金斯大學

這幾個月我以斯坦福大學Andrew Ng(中文譯作吳恩達,他也是Coursera網站的創始人)的機器學習講義為參考,在CSDN部落格上寫了一些機器學習和資料採礦相關的總結筆記(還有獨立成分分析和強化學習兩章沒有完成),通過學習和總結,對以前學過的統計學和資料採礦等有了一些新的認識(很多公式最好自己去推導,這樣能夠真正的加深認識、記憶深刻)。但在學習時,也感覺自己主要有兩大不足:1、理論不夠紮實。如在前幾天總結貝葉斯機器學習的相關概念,才發現自己根本沒吃透貝葉斯學派的本質思想,而僅僅是知道個貝葉斯公式而已;2、缺乏實際應用的經驗。在面對實際問題,設計具體方案時就會糾結於各種方法的選擇,資料採礦不僅是理論科學,更是一種經驗科學。

前幾天在著名的免費公開課網站Coursera新出爐了一系列的專項課程,其中有一門就是約翰霍普金斯大學布隆伯格公用衛生學院開設的資料科學(Data Science)系列課程。驚歎老外將全世界最好的教育無私分享給大家之餘,更加不解為何國內很多專家教授連講座的PPT都不肯與學員分享(相信大家都有聽過講座後索要PPT被拒的經曆)。

既然有這麼好的課程,希望能夠通過對課程的學習,提高自己的能力,彌補不足,下面我就根據該課程的官網,將這門課的目的和內容進行一個簡要的介紹:

一、  您將學到什嗎?

(1)制定與研究背景相關的問題和假設,以驅動資料科學的研究;

(2)識別、擷取以及轉換資料,形成統計學證據,使其適合書面交流;

(3)基於新的資料類型、實驗設計和統計推斷建立模型。

二、  課程內容

這個系列課程以R語言為工具,共分為9個部分:

(1)   資料科學家的工具箱(The Data Scientists’ Toolbox)

(2)   R語言編程(R Programming)

(3)   擷取和清理資料(Getting and Cleaning Data)

(4)   探索性資料分析(Exploratory Data Analysis)

(5)   可重複性研究(Reproducible Research)

(6)   推斷統計(Statistical Inference)

(7)   迴歸模型(Regression Models)

(8)   實用機器學習(Practical Machine Learning)

(9)   開發資料產品(Developing Data Products)

三、  總體要求

是課程講義給出的資料科學需要具備的能力,可以看出:成為一個資料需要同時電腦技能、數理統計知識以及專業能力。

最後再附上一個成為一個資料科學家的成長路線圖,並不屬於這個課程的講義,但是給出了一個資料科學家需要掌握的具體知識和技能。從這個圖可以看出,成為一個資料科學家,路漫漫其修遠兮。


既然希望進步,就需要堅持,我會以這個課程為基礎,堅持學習,堅持記錄。


相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.