k-means & isodata 聚類方法

來源:互聯網
上載者:User

k-means 方法和 isodata 方法應該是兩種比較基本的聚類方法了。顧名思義, k-means 就是指定有 k 個類,然後通過初始中心迭代得到最後的 k 個中心。這個初始中心可以隨便選也可以隨機選,也可以只取前 k 個樣本作為初始中心。聚類最後的結果與初始聚類中心的關係還是比較密切的,不同的初始中心可能會得到完全不同的結果。解決初始值問題的一種方法是 k-means++ 方法,這裡就不再解釋了,有興趣的朋友可以參考本文最後的幾個連結。

k-means 的一個缺點就是必須指定聚類的個數,這個有些時候並不太行得通。於是就要求最好這個類別的個數也可以改變,這就形成了 isodata 方法,通過設定一些類別分裂和合并的條件,在聚類的過程中自動增減類別的數目。當然這也帶來了一個問題,就是這個條件有時候並不那麼好給出。當然 isodata 在很多情況下還是可以得到比較靠譜的結果。

下面的圖是這兩種聚類方法的對比:

本文為原創,轉載文章或圖片請註明,本文地址:http://blog.csdn.net/houston11235/article/details/8511379

K-Means


ISODATA



通過上面兩張圖還是能看出一些區別的,我個人的感受就是初始的聚類中心如果靠近整個資料集的中心的話,結果可能會好一些。還有就是這種聚類受初始中心影響比較大,要想得到穩定的結果最好還是多運行幾次,把每次都在一個類別裡面的資料歸為一個類。


參考連結:

1、K-Means演算法

2、K-Means++

3、K-Means Wiki

4、K-Means Matlab code

5、ISODATA Matlab code

6、Another ISODATA's Matlab implementation, can hold N dimensional data

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.