標籤:img isp arc display kaggle 機器 code 查看 發布
Kaggle大資料競賽平台入門
大資料競賽平台,國內主要是天池大資料競賽和DataCastle,國外主要就是Kaggle.Kaggle是一個資料採礦的競賽平台,網站為:https://www.kaggle.com/.很多的機構,企業將問題,描述,期望發布在Kaggle上,以競賽的方式向廣大的資料科學家徵集解決方案,體現了集體智慧這一思想.每個人在網站上註冊後,都可以下載感興趣項目的資料集,分析資料,構造模型,解決問題提交結果.按照結果的好壞會有一個排名,成績優異者還可能獲得獎金/面試機會等.
圖1展示了進入Kaggle官網後顯示的進行中的比賽,這些比賽的類型是不同的,可以進行篩選顯示,有All Categories,Faatured,Recruitment,Research,Playground,Getting Started,In Class這7個選項.顯示為Featured的比賽(左側有粉紅色條條)一般獎金比較豐厚,競爭也比較大;顯示為Research的比賽(左側有黃色條條),獎金少一些;顯示為Recruitment的比賽,雖然沒有獎金,但是卻可以獲得發布項目公司的實習/面試機會,這也給企業招聘人才提供了另外一種方式.顯示為Playground的為練習賽,主要用於初學者練手,對於初學者,建議從這裡開始.Getting Started裡面手把手教你一步一步地進行資料採礦,是很好的入門教程.除了這些公開比賽,Kaggle還會想活躍的參與者提供私下的比賽,以及為大學團體提供Kaggle-In-Class項目.Kaggle的部落格No Free Hunch也是一個好的學習去處,提供了Data Science News,Kaggle News,Kernels,Tutorials,以及Winner‘s Interviews這些欄目.
圖1 Kaggle首頁
比賽流程:
1.進去感興趣的競賽項目,下載資料集(csv格式),資料集中一般包括訓練資料集和測試資料集,查看資料描述和任務描述,明確需求;
2.用你擅長的任何語言或者演算法來構建模型,用訓練集來訓練,然後用訓練好的模型推測測試集的labels,產生一個測試集labels作為最終的提交檔案;
3.系統會從所提交檔案中選取25%的資料進行初評,根據評測結果得到準確率和排名.在比賽結束時,採用剩下的75%的資料進行終評,作為最後的準確率.
Kernels:
Kernels提供了資料分析的環境,資料集,代碼和輸出樣式,點擊進去是下面這樣的: 這類似於Jupyper Notebook.在這裡面可以直接編譯python,可以在code和markdown之間自由切換,可以很方便地複現和分享.還有一點就是你可能不需要將資料集下載下來,也不需要配置本地的python以及各種庫(比如pandas,numpy等),直接在網頁上進行資料採礦.Kernel上還可以分享代碼(初學者好的學習去處),在Forum(論壇)回答問題還可以積分.
參考文獻:
[1] Kaggle機器學習競賽冠軍及優勝者的原始碼匯總: http://suanfazu.com/t/kaggle/230
[2] Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur
Kaggle大資料競賽平台入門