標籤:http os io strong 資料 ar 演算法 log
機器學習演算法需要作用於資料,而資料的本質則決定了應用的機器學習演算法是否合適,而資料的品質也會決定演算法表現的好壞程度。所以會研究資料,會分析資料很重要。本文作為學習研究資料數列博文的開篇,列舉了4個最流行的機器學習資料集。
Iris
Iris也稱鳶尾花卉資料集,是一類多重變數分析的資料集。通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類。
資料集特徵: |
多變數 |
記錄數: |
150 |
領域: |
生活 |
屬性特徵: |
實數 |
屬性數目: |
4 |
捐贈日期 |
1988-07-01 |
相關應用: |
分類 |
缺失值? |
無 |
網網站擊數: |
563347 |
Adult
該資料從美國1994年人口普查資料庫抽取而來,可以用來預測居民收入是否超過50K$/year。該資料集類變數為年度營收是否超過50k$,屬性變數包含年齡,工種,學曆,職業,人種等重要訊息,值得一提的是,14個屬性變數中有7個類型變數。
資料集特徵: |
多變數 |
記錄數: |
48842 |
領域: |
社會 |
屬性特徵: |
類型,整數 |
屬性數目: |
14 |
捐贈日期 |
1996-05-01 |
相關應用: |
分類 |
缺失值? |
有 |
網網站擊數: |
393977 |
Wine
這份資料集包含來自3種不同起源的葡萄酒的共178條記錄。13個屬性是葡萄酒的13種化學成分。通過化學分析可以來推斷葡萄酒的起源。值得一提的是所有屬性變數都是連續變數。
資料集特徵: |
多變數 |
記錄數: |
178 |
領域: |
物理 |
屬性特徵: |
整數,實數 |
屬性數目: |
13 |
捐贈日期 |
1991-07-01 |
相關應用: |
分類 |
缺失值? |
無 |
網網站擊數: |
337319 |
Car Evaluation
這是一個關於汽車測評的資料集,類別變數為汽車的測評,(unacc,ACC,good,vgood)分別代表(不可接受,可接受,好,非常好),而6個屬性變數分別為「買入價」,「維護費」,「車門數」,「可容納人數」,「後備箱大小」,「安全性」。值得一提的是6個屬性變數全部是有序類別變數,比如「可容納人數」值可為「2,4,more」,「安全性」值可為「low, med, high」。
資料集特徵: |
多變數 |
記錄數: |
1728 |
領域: |
N/A |
屬性特徵: |
類型 |
屬性數目: |
6 |
捐贈日期 |
1997-06-01 |
相關應用: |
分類 |
缺失值? |
無 |
網網站擊數: |
272901 |
小結
通過比較以上4個資料集的差異,簡單地總結:當需要實驗較大量的資料時,我們可以想到「Adult」;當想研究變數之間的相關性時,我們可以選擇變數值只為整數或實數的「Iris」和「Wine」;當想研究logistic迴歸時,我們可以選擇類變數值只有兩種的「Adult」;當想研究類別變數轉換時,我們可以選擇屬性變數為有序類別的「Car Evaluation」。更多的嘗試還需要對這些資料集瞭解更多才行。
以上資料集:http://archive.ics.uci.edu/ml/