k-means & isodata 聚類方法

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

k-means 方法和 isodata 方法應該是兩種比較基本的聚類方法了。顧名思義， k-means 就是指定有 k 個類，然後通過初始中心迭代得到最後的 k 個中心。這個初始中心可以隨便選也可以隨機選，也可以只取前 k 個樣本作為初始中心。聚類最後的結果與初始聚類中心的關係還是比較密切的，不同的初始中心可能會得到完全不同的結果。解決初始值問題的一種方法是 k-means++ 方法，這裡就不再解釋了，有興趣的朋友可以參考本文最後的幾個連結。

k-means 的一個缺點就是必須指定聚類的個數，這個有些時候並不太行得通。於是就要求最好這個類別的個數也可以改變，這就形成了 isodata 方法，通過設定一些類別分裂和合并的條件，在聚類的過程中自動增減類別的數目。當然這也帶來了一個問題，就是這個條件有時候並不那麼好給出。當然 isodata 在很多情況下還是可以得到比較靠譜的結果。

下面的圖是這兩種聚類方法的對比：

本文為原創，轉載文章或圖片請註明，本文地址：http://blog.csdn.net/houston11235/article/details/8511379

K-Means

ISODATA

通過上面兩張圖還是能看出一些區別的，我個人的感受就是初始的聚類中心如果靠近整個資料集的中心的話，結果可能會好一些。還有就是這種聚類受初始中心影響比較大，要想得到穩定的結果最好還是多運行幾次，把每次都在一個類別裡面的資料歸為一個類。

參考連結：

1、K-Means演算法

2、K-Means++

3、K-Means Wiki

4、K-Means Matlab code

5、ISODATA Matlab code

6、Another ISODATA's Matlab implementation, can hold N dimensional data

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

k-means & isodata 聚類方法

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support