Kmeans 聚類及其python實現

最後更新：2018-08-10 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：介紹 __name__ 載入 ras block clu name enc 維數

主要參考 K-means 聚類演算法及 python 代碼實現還有《機器學習實戰》這本書，當然前面那個連結的也是參考這本書，懂原理，會用就行了。

1、概述

K-means 演算法是集簡單和經典於一身的基於距離的聚類演算法

採用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似性就越大。

該演算法認為類簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作為最終目標。

說白了就是無監督的聚類，大家都是同一個標註，或者沒有標註，然後這一堆資料是一類，那一堆又是一類，你人為的設定好幾個類，演算法自動幫你分好各個類，只要每個類的樣本儘可能的緊湊即可。

2、核心思想

通過迭代尋找 k 個類簇的一種劃分方案，使得用這 k 個類簇的均值來代表相應各類樣本時所得的總體誤差最小。

k 個聚類具有以下特點：各聚類本身儘可能的緊湊，而各聚類之間儘可能的分開。

k-means 演算法的基礎是最小誤差平方和準則,

其代價函數是：

式中，μc(i) 表示第 i 個聚類的均值。

各類簇內的樣本越相似，其與該類均值間的誤差平方越小，對所有類所得到的誤差平方求和，即可驗證分為 k 類時，各聚類是否是最優的。

上式的代價函數無法用解析的方法最小化，只能有迭代的方法。

3、演算法步驟圖解

展示了對 n 個樣本點進行 K-means 聚類的效果，這裡 k 取 2。

4、演算法實現步驟

k-means 演算法是將樣本聚類成 k 個簇（cluster），其中 k 是使用者給定的，其求解過程非常直觀簡單，具體演算法描述如下：

1) 隨機選取 k 個聚類質心點

2) 重複下面過程直到收斂 {

對於每一個範例 i，計算其應該屬於的類：

對於每一個類 j，重新計算該類的質心：

}

其虛擬碼如下：

******************************************************************************

建立 k 個點作為初始的質心點（隨機播放）

當任意一個點的簇分配結果發生改變時

對資料集中的每一個資料點

對每一個質心

計算質心與資料點的距離

將資料點分配到距離最近的簇

對每一個簇，計算簇中所有點的均值，並將均值作為質心

********************************************************

5、K-means 聚類演算法 python 實戰

這個就是書上的代碼。

需求：對給定的資料集進行聚類

本案例採用二維資料集，共 80 個樣本，有 4 個類。

$ wc -l testSet.txt;head testSet.txt
80 testSet.txt
1.6589854.285136
-3.4536873.424321
4.838138-1.151539
-5.379713-3.362104
0.9725642.924086
-3.5679191.531611
0.450614-3.302219
-3.487105-1.724432
2.6687591.594842
-3.1564853.191137

#!/usr/bin/env python# -*- coding: utf-8 -*-# Time    : 18-8-8 下午2:17# Author  : dahu# File    : kmeans2.py# Software: PyCharm#from :  https://www.cnblogs.com/ahu-lichang/p/7161613.htmlimport sysreload(sys)sys.setdefaultencoding(‘UTF-8‘)from numpy import *import matplotlib.pyplot as plt# 載入資料def loadDataSet(fileName):  # 解析檔案，按tab分割欄位，得到一個浮點數字類型的矩陣    dataMat = []              # 檔案的最後一個欄位是類別標籤    fr = open(fileName)    for line in fr.readlines():        curLine = line.strip().split(‘\t‘)        fltLine = map(float, curLine)    # 將每個元素轉成float類型        dataMat.append(fltLine)    return dataMat# 計算歐幾裡得距離def distEclud(vecA, vecB):    return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離# 構建聚簇中心，取k個(此例中k=4)隨機質心def randCent(dataSet, k):    n = shape(dataSet)[1]    centroids = mat(zeros((k,n)))   # 每個質心有n個座標值，總共要k個質心    for j in range(n):        minJ = min(dataSet[:,j])        maxJ = max(dataSet[:,j])        rangeJ = float(maxJ - minJ)        centroids[:,j] = minJ + rangeJ * random.rand(k, 1)    return centroids# k-means 聚類演算法def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):    ‘‘‘    :param dataSet:  沒有lable的資料集  (本例中是二維資料)    :param k:  分為幾個簇    :param distMeans:    計算距離的函數    :param createCent:   擷取k個隨機質心的函數    :return: centroids： 最終確定的 k個 質心            clusterAssment:  該樣本屬於哪類  及  到該類質心距離    ‘‘‘    m = shape(dataSet)[0]   #m=80,樣本數量    clusterAssment = mat(zeros((m,2)))    # clusterAssment第一列存放該資料所屬的中心點，第二列是該資料到中心點的距離，    centroids = createCent(dataSet, k)    clusterChanged = True   # 用來判斷聚類是否已經收斂    while clusterChanged:        clusterChanged = False;        for i in range(m):  # 把每一個資料點劃分到離它最近的中心點            minDist = inf; minIndex = -1;            for j in range(k):                distJI = distMeans(centroids[j,:], dataSet[i,:])                if distJI < minDist:                    minDist = distJI; minIndex = j  # 如果第i個資料點到第j個中心點更近，則將i歸屬為j            if clusterAssment[i,0] != minIndex:                clusterChanged = True  # 如果分配發生變化，則需要繼續迭代            clusterAssment[i,:] = minIndex,minDist**2   # 並將第i個資料點的分配情況存入字典        # print centroids        for cent in range(k):   # 重新計算中心點            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]   # 去第一列等於cent的所有列            centroids[cent,:] = mean(ptsInClust, axis = 0)  # 算出這些資料的中心點    return centroids, clusterAssment# --------------------測試----------------------------------------------------# 用測試資料及測試kmeans演算法if __name__ == ‘__main__‘:    datMat = mat(loadDataSet(‘testSet.txt‘))    # print min(datMat[:,0])    # print max(datMat[:,1])    # print randCent(datMat,4)    myCentroids,clustAssing = kMeans(datMat,4)    print myCentroids    # print clustAssing,len(clustAssing)    plt.figure(1)    x=array(datMat[:,0]).ravel()    y=array(datMat[:,1]).ravel()    plt.scatter(x,y, marker=‘o‘)    xcent=array(myCentroids[:,0]).ravel()    ycent=array(myCentroids[:,1]).ravel()    plt.scatter( xcent, ycent, marker=‘x‘, color=‘r‘, s=50)    plt.show()

運行結果：

代碼不是特別的難，看下都可以看得明白，發現都有點不會numpy的操作了，裡面有一些是基於numpy的布爾型數組操作，要補一補。第 04 章 NumPy 基礎：數組和向量計算

簡單說下各個函數的作用：

loadDataSet ：載入資料的

distEclud ： 計算距離的，注釋說是計算歐幾裡德距離，其實就是計算  每個樣本 到 每個聚類質心的距離，這是用來確定質心座標的。

kMeans ： 主函數了，實現了kmeans 演算法

注釋已經比較詳細了，就不再細說了。 書上後面還有一個對kmeans最佳化的地方，這裡就不介紹了。

Kmeans 聚類及其python實現

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Kmeans 聚類 及其python實現

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support

Kmeans 聚類及其python實現