最流行的4個機器學習資料集【轉】

來源:互聯網
上載者:User

標籤:http   os   io   strong   資料   ar   演算法   log   

機器學習演算法需要作用於資料,而資料的本質則決定了應用的機器學習演算法是否合適,而資料的品質也會決定演算法表現的好壞程度。所以會研究資料,會分析資料很重要。本文作為學習研究資料數列博文的開篇,列舉了4個最流行的機器學習資料集。

Iris

Iris也稱鳶尾花卉資料集,是一類多重變數分析的資料集。通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類。

資料集特徵: 多變數 記錄數: 150 領域: 生活
屬性特徵: 實數 屬性數目: 4 捐贈日期 1988-07-01
相關應用: 分類 缺失值? 網網站擊數: 563347
Adult

該資料從美國1994年人口普查資料庫抽取而來,可以用來預測居民收入是否超過50K$/year。該資料集類變數為年度營收是否超過50k$,屬性變數包含年齡,工種,學曆,職業,人種等重要訊息,值得一提的是,14個屬性變數中有7個類型變數。

資料集特徵: 多變數 記錄數: 48842 領域: 社會
屬性特徵: 類型,整數 屬性數目: 14 捐贈日期 1996-05-01
相關應用: 分類 缺失值? 網網站擊數: 393977
Wine

這份資料集包含來自3種不同起源的葡萄酒的共178條記錄。13個屬性是葡萄酒的13種化學成分。通過化學分析可以來推斷葡萄酒的起源。值得一提的是所有屬性變數都是連續變數。

資料集特徵: 多變數 記錄數: 178 領域: 物理
屬性特徵: 整數,實數 屬性數目: 13 捐贈日期 1991-07-01
相關應用: 分類 缺失值? 網網站擊數: 337319
Car Evaluation

這是一個關於汽車測評的資料集,類別變數為汽車的測評,(unacc,ACC,good,vgood)分別代表(不可接受,可接受,好,非常好),而6個屬性變數分別為「買入價」,「維護費」,「車門數」,「可容納人數」,「後備箱大小」,「安全性」。值得一提的是6個屬性變數全部是有序類別變數,比如「可容納人數」值可為「2,4,more」,「安全性」值可為「low, med, high」。

資料集特徵: 多變數 記錄數: 1728 領域: N/A
屬性特徵: 類型 屬性數目: 6 捐贈日期 1997-06-01
相關應用: 分類 缺失值? 網網站擊數: 272901
小結

通過比較以上4個資料集的差異,簡單地總結:當需要實驗較大量的資料時,我們可以想到「Adult」;當想研究變數之間的相關性時,我們可以選擇變數值只為整數或實數的「Iris」和「Wine」;當想研究logistic迴歸時,我們可以選擇類變數值只有兩種的「Adult」;當想研究類別變數轉換時,我們可以選擇屬性變數為有序類別的「Car Evaluation」。更多的嘗試還需要對這些資料集瞭解更多才行。

以上資料集:http://archive.ics.uci.edu/ml/

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.