很多企業都紛紛開始關注大資料和資料分析,但是人才難尋啊! 事實上,要把一個程式設計新人訓練成一個能力卓越的資料科學家是一件很簡單的事,只需要幾台雲計算伺服器,然後再跟資料專家在網上學上幾周機器學習就可以了。
最著名的資料科學家培養案例要數「企業預測解決方案平臺」Kaggle上最近的一次大獎得主Carter S。 這名Kaggle使用者利用簡單但是效率非常高的方法開發出了一款「過度殺傷型」分析工具來預測保險行業的風險。
這是一款讓人感到驚奇的工具,Carter將自己在網路課堂上學到的內容用於保險行業風險預測,並以此找到了好工作。 他之前學過自然語言處理和社交網路分析,所以大資料分析根本就難不倒他。 但是怎麼把那些幹剛走出大學校園而且還沒有經驗的畢業生培養成大資料科學家呢? 網路課堂速成即可!
Luis Tandalla在Coursera等網路課堂上學習了一些免費課程之後,就利用自己所學的知識在Kaggle的比賽上獲了獎,他的作品可以説明教師批改簡單題並評分。 而他此前根本就不知道人工智慧和機器學習是什麼東西。
Luis Tandalla說要做資料科學家,首先要有學習的激情。 所以他就在Coursera上選修了自然語言處理和概率模版課程,然後邊學邊在Kaggle上實踐自己的觀點。 他將于明年畢業,取得機械工程學士學位,而非大家想像中的電腦科學專業。 他說自己畢業後想創立一家自己的預測軟體服務公司。
Tandalla可能不是唯一的例子。 Kaggle上的獲獎者大都在Coursera上學習了機器學習課程。 新加坡人Xavier Conort去年決心轉型資料科學家,他通過在網路課堂學習,僅僅用了一年的時間久成了Kaggle上數一數二的資料科學家。
資料分析領路人
Andrew Ng,斯坦福大學教授、Coursera聯合創始人之一。 他在Coursera上教授的機器學期課程是所有網路選修課程中完成度最高,這不僅僅是一個巧合。 如果你想進跟大資料步伐,成為一個資料科學家,在本國沒有優勢資源的情況下,可以考慮Coursera、Udacity、EdX等網路課堂,免費進行學習。 在中國,許多資料採礦企業應該會非常喜歡這樣的課程,可以省下一大筆培訓費用。
Ng說,要成為一個資料科學家,首先要對代數、概率非常瞭解,前提條件還包括對程式設計有基本的瞭解。
他還提到:「機器學習正成為矽谷最受追捧的技術之一。 」許多企業的人事官員說,因為企業目前急缺此類資料分析人才,所以只要一名員工能夠按時保質完成網路課程就可以顯著提高他的工資和職業展望。
為什麼此類網路課程會風靡? 為什麼資料分析能夠改變世界?
Ng認為當前之所以這些網路課程如此受歡迎,就是因為它將已有的、成熟的理論變成可以應用的技術,讓已經學會前提條件的學生有施展才能的機會,而不是只會程式設計和寫程式、寫應用。 除此以外,學生可以根據自己的學習能力調整學習步伐,論壇上的資訊也可以説明他們完成課程。
Ng說,如果不是有幸在矽谷與那些全球最聰明的電腦專家混在一起的話,他也不可能講出這麼出色的機器學習課程。 在他的課程中,他很少談及演算法,說的更多地還是如何將機器學習應用於實踐。 他認為學會應用比學會知識更重要。 這就好比學程式設計和學程式設計語言,一個是實踐,一個只是理論知識而已。
好好學習,你可能就是下一個愛因斯坦
其實,成為一個資料科學家並不是終極目標,即使是Kaggle比賽的冠軍也不能將其視作自己職業生涯的重點。 通過網路課程還可以學到更多知識,讓有能力的人學到真正有用的知識,創造更多成果。
「這事讓我感到疑惑,」Ng說,「說不定下一個愛因斯坦就是一個坐在電腦前看教學視頻的阿富汗小女孩。 」
文章來源:GigaOM
(責任編輯:蒙遺善)