標籤:
對於資料科學來說,現在是發展的黃金時期。這是個新領域,但增長迅速,同時資料科學家的缺口也很大,據說他們的平均年薪可以達到10萬美元。哪裡有高薪,哪裡就吸引人們,但是資料科學技能的差距意味著許多人需要努力學習。
第一步當然是詢問“我怎麼學習資料科學”,這個問題的答案往往是一長串的課程和書籍閱讀,從線性代數到統計資料,這幾年我也是這樣學習過來的。我沒有編程背景,但我知道我喜歡處理資料。
我比較不能理解在完全沒有理解別人的背景時就給他一份長長的書單或者技能表。這就類似於一個老師給你一堆教科書然後告訴你“把這些都讀完吧”。在學校的時候我就質疑這種方法,當我學習資料科學的時候,我絕不會這樣做。
有些人可以通過書來很好的學習,但是我認為最好的學習方法是通過實踐,知道自己真的需要學習什麼,最重要的是,當你通過這種方式學習,你可以獲得立刻就可以用到的技能。這也是我和很多初學者分享的觀點。
這就是為什麼我不認為你的第一個目標應該是學習線性代數或是統計。如果你想學習大資料,你的第一個目標應該是學會愛資料。
1
學會愛資料
沒有人談論在學習動機。 資料科學是一個廣泛而模糊的領域,這使得它很難學習。 沒有動力,你最終會中途停止對自己失去信心。
你需要些東西來激勵你不斷學習,即使是在半夜公式已經開始變的模糊,你還是想探究關於神經網路的意義。你需要些動力來讓你發現統計、線性代數和神經網路之間的聯絡,當你在困惑“下一步我該學習什嗎?”的時候。
我學習的入口是用資料來預測股市,儘管當時我完全不熟悉。我編碼的第一批項目用於預測股票幾乎沒有統計,但是我知道它們表現的並不好,所以我日以繼夜的工作讓它們變的更好。
我癡迷於改善程式的效能,我癡迷於股票市場,我學習去愛資料。我去學習一切能讓這個項目結果更好的技能。
並不是每個人都會癡迷於股市預測,但重要的是要發現你想學習的東西。
關於全世界行動裝置使用方式的地圖
資料可以計算出關於你的城市很多新鮮有趣的事情,比如所有裝置在互連網上的映射、找到真正的NBA球員的位置,今年又哪些地方有難民,或者是其他事情。資料科學的偉大之處是有無限有趣的東西可以發現——那就是問問題然後找到一個方法來得到答案。
2
在實踐中學習
學習神經網路、Image Recognition和其他尖端技術是很重要的,但大多數資料科學工作不涉及這些:
90%的工作將是資料清理。
精通幾個演算法比知道一點許多演算法要好。
如果你知道線性迴歸、k–means聚類和羅吉斯迴歸,可以解釋和詮釋他們的研究結果,並可以用這些完成一個項目,你將比如果你知道每一個演算法,但不使用它們更優秀。
大多數時候,當你使用一種演算法,它將是庫中的一個版本(你很少會自己編碼支援向量機實現——這需要太長時間)。
所有這些意味著最好的學習方法是在項目工作中學習,通過項目,你可以獲得有用的技能。
一種方法是在一個項目中先找到一個你喜歡的資料集,回答一個有趣的問題。
這裡有一些好的地方:
100+有趣的資料集的統計資料http://rs.io/100-interesting-data-sets-for-statistics/
資料集 subreddit https://www.reddit.com/r/datasets
UCI機器學習庫 http://archive.ics.uci.edu/ml/
另一種方法是找到一個深層次的問題,例如預測股票市場,然後分解成小步驟。 我第一次串連到雅虎財經的API,並爬下每日價格資料。然後我建立了一些指標,比如在過去的幾天裡的平均價格,並用它們來預測未來(這裡沒有真正的演算法,只是技術分析)。這個效果不太好,所以我學會了一些統計知識,然後用線性迴歸。 然後串連到另一個API,清理每一分鐘的資料,並儲存在一個SQL資料庫,等等,直到演算法效果很好。
這樣做的好處是我在一個學習環境中學習。我不僅僅學習了SQL文法,用它來儲存價格資料,還比僅僅學習文法多學習了十倍的東西。學習而不應用的知識很難被保留,當你做實際的工作的時候也不會準備好。
3
學會溝通
資料科學家需要不斷展示他們的分析結果。這個過程可以區別資料科學家的水平。
交流的一部分是對主題的理解和理論, 另一個是理解如何組織你的結果。最後一部分是能夠清楚地解釋您的分析。
我很難找到關於有效溝通的概念,但有些事情你該嘗試一下:
開始寫部落格。 展示你的資料分析的結果。
試著教那些對資料科學技術知識並沒有什麼概念的人,比如你的朋友和家人這可以可以協助您理解概念。
試著在聚會上演講。
使用github管理你所有的分析。
在一些社區中活躍,比如Quora , DataTau , machine learning subreddit。
4
向同行學習
你根本想不到你會從同行身上學到多少東西,在資料工作中,團隊合作非常重要。
5
不斷增加學習的難度
你完全熟悉這個項目的工作了? 你最後一次使用一個新概念是在一周前? 那麼是時候做些更加困難的挑戰了。如果你停止攀登,那麼不進則退。
如果你發現自己太舒適,這裡有一些建議:
處理更大的資料集。 學習使用spark。
看看你能不能讓你的演算法更快。
你將如何將演算法擴充到多個處理器? 你能做到嗎?
理解更多的理論演算法並使用。這會改變你的假設嗎?
試圖教一個新手去做你現在正在做同樣的事情。
6
總結
上面這些至少是一個思路告訴你在開始學習資料科學的時候到底要做什麼。如果你完成了這些,你將發現你的能力自然而然就提升了。
我不喜歡那些“一個清單”這樣的建議,因為這讓我很難按部就班去做。我發現很多人在跟著書單或者mooc的課程學習中半途而廢。我個人相信如果你有正確的目標任何人都可以學習資料科學。
我還是Dataquest的創始人。這是一個協助你學習大資料的網站,其中包括了很多優秀的學習經驗和討論。你可以分析一些有趣的資料集,比如美國中央情報局的檔案和球員統計。還可以完成一些項目,比如建立一個投資組合。如果你不知道如何分析,這也不是問題,我們會教你python。我們教Python因為它是最初級的友好語言,用於大量生產資料的科學工作,可用於各種各樣的應用。
-END-
GMT
|
檢測語言阿爾巴尼亞語阿拉伯語阿塞拜疆語愛爾蘭語愛沙尼亞語巴斯克語白俄羅斯語保加利亞語冰島語波蘭語波斯尼亞語波斯語布爾語(南非荷蘭語)丹麥語德語俄語法語菲律賓語芬蘭語高棉語格魯吉亞語古吉拉特語哈薩克語海地克裡奧爾語韓語豪薩語荷蘭語加利西亞語加泰羅尼亞語捷克語卡納達語克羅地亞語拉丁語拉脫維亞語寮國語立陶宛語羅馬尼亞語馬爾加什語馬爾他語馬拉地語馬拉雅拉姆語馬來語馬其頓語毛利語蒙古語孟加拉語緬甸語苗語南非祖魯語尼泊爾語挪威語旁遮普語葡萄牙語齊切瓦語日語瑞典語塞爾維亞語塞索托語僧伽羅語世界語斯洛伐克語斯洛文尼亞語斯瓦希裡語宿務語索馬里語塔吉克語泰盧固語泰米爾語泰語土耳其語威爾士語烏爾都語烏克蘭語烏茲別克語希伯來語希臘語西班牙語匈牙利語亞美尼亞語伊博語意大利語意第緒語印地語印尼巽他語印尼語印尼爪哇語英語約魯巴語越南語中文簡體中文繁體 |
|
阿爾巴尼亞語阿拉伯語阿塞拜疆語愛爾蘭語愛沙尼亞語巴斯克語白俄羅斯語保加利亞語冰島語波蘭語波斯尼亞語波斯語布爾語(南非荷蘭語)丹麥語德語俄語法語菲律賓語芬蘭語高棉語格魯吉亞語古吉拉特語哈薩克語海地克裡奧爾語韓語豪薩語荷蘭語加利西亞語加泰羅尼亞語捷克語卡納達語克羅地亞語拉丁語拉脫維亞語寮國語立陶宛語羅馬尼亞語馬爾加什語馬爾他語馬拉地語馬拉雅拉姆語馬來語馬其頓語毛利語蒙古語孟加拉語緬甸語苗語南非祖魯語尼泊爾語挪威語旁遮普語葡萄牙語齊切瓦語日語瑞典語塞爾維亞語塞索托語僧伽羅語世界語斯洛伐克語斯洛文尼亞語斯瓦希裡語宿務語索馬里語塔吉克語泰盧固語泰米爾語泰語土耳其語威爾士語烏爾都語烏克蘭語烏茲別克語希伯來語希臘語西班牙語匈牙利語亞美尼亞語伊博語意大利語意第緒語印地語印尼巽他語印尼語印尼爪哇語英語約魯巴語越南語中文簡體中文繁體 |
|
|
|
|
|
|
|
語言功能限100個字元 選項 : 歷史 : 幫助 : 反饋關閉
自學成才的資料科學家告訴你5個學習大資料的正確姿勢!