標籤:介紹 __name__ 載入 ras block clu name enc 維數
主要參考 K-means 聚類演算法及 python 代碼實現 還有 《機器學習實戰》 這本書,當然前面那個連結的也是參考這本書,懂原理,會用就行了。
1、概述
K-means 演算法是集簡單和經典於一身的基於距離的聚類演算法
採用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似性就越大。
該演算法認為類簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。
說白了就是無監督的聚類,大家都是同一個標註,或者沒有標註,然後這一堆資料是一類,那一堆又是一類,你人為的設定好幾個類,演算法自動幫你分好各個類,只要每個類的樣本儘可能的緊湊即可。
2、核心思想
通過迭代尋找 k 個類簇的一種劃分方案,使得用這 k 個類簇的均值來代表相應各類樣本時所得的總體誤差最小。
k 個聚類具有以下特點:各聚類本身儘可能的緊湊,而各聚類之間儘可能的分開。
k-means 演算法的基礎是最小誤差平方和準則,
其代價函數是:
式中,μc(i) 表示第 i 個聚類的均值。
各類簇內的樣本越相似,其與該類均值間的誤差平方越小,對所有類所得到的誤差平方求和,即可驗證分為 k 類時,各聚類是否是最優的。
上式的代價函數無法用解析的方法最小化,只能有迭代的方法。
3、演算法步驟圖解
展示了對 n 個樣本點進行 K-means 聚類的效果,這裡 k 取 2。
4、演算法實現步驟
k-means 演算法是將樣本聚類成 k 個簇(cluster),其中 k 是使用者給定的,其求解過程非常直觀簡單,具體演算法描述如下:
1) 隨機選取 k 個聚類質心點
2) 重複下面過程直到收斂 {
對於每一個範例 i,計算其應該屬於的類:
對於每一個類 j,重新計算該類的質心:
}
其虛擬碼如下:
******************************************************************************
建立 k 個點作為初始的質心點(隨機播放)
當任意一個點的簇分配結果發生改變時
對資料集中的每一個資料點
對每一個質心
計算質心與資料點的距離
將資料點分配到距離最近的簇
對每一個簇,計算簇中所有點的均值,並將均值作為質心
********************************************************
5、K-means 聚類演算法 python 實戰
這個就是書上的代碼。
需求: 對給定的資料集進行聚類
本案例採用二維資料集,共 80 個樣本,有 4 個類。
$ wc -l testSet.txt;head testSet.txt
80 testSet.txt
1.6589854.285136
-3.4536873.424321
4.838138-1.151539
-5.379713-3.362104
0.9725642.924086
-3.5679191.531611
0.450614-3.302219
-3.487105-1.724432
2.6687591.594842
-3.1564853.191137
#!/usr/bin/env python# -*- coding: utf-8 -*-# Time : 18-8-8 下午2:17# Author : dahu# File : kmeans2.py# Software: PyCharm#from : https://www.cnblogs.com/ahu-lichang/p/7161613.htmlimport sysreload(sys)sys.setdefaultencoding(‘UTF-8‘)from numpy import *import matplotlib.pyplot as plt# 載入資料def loadDataSet(fileName): # 解析檔案,按tab分割欄位,得到一個浮點數字類型的矩陣 dataMat = [] # 檔案的最後一個欄位是類別標籤 fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split(‘\t‘) fltLine = map(float, curLine) # 將每個元素轉成float類型 dataMat.append(fltLine) return dataMat# 計算歐幾裡得距離def distEclud(vecA, vecB): return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離# 構建聚簇中心,取k個(此例中k=4)隨機質心def randCent(dataSet, k): n = shape(dataSet)[1] centroids = mat(zeros((k,n))) # 每個質心有n個座標值,總共要k個質心 for j in range(n): minJ = min(dataSet[:,j]) maxJ = max(dataSet[:,j]) rangeJ = float(maxJ - minJ) centroids[:,j] = minJ + rangeJ * random.rand(k, 1) return centroids# k-means 聚類演算法def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent): ‘‘‘ :param dataSet: 沒有lable的資料集 (本例中是二維資料) :param k: 分為幾個簇 :param distMeans: 計算距離的函數 :param createCent: 擷取k個隨機質心的函數 :return: centroids: 最終確定的 k個 質心 clusterAssment: 該樣本屬於哪類 及 到該類質心距離 ‘‘‘ m = shape(dataSet)[0] #m=80,樣本數量 clusterAssment = mat(zeros((m,2))) # clusterAssment第一列存放該資料所屬的中心點,第二列是該資料到中心點的距離, centroids = createCent(dataSet, k) clusterChanged = True # 用來判斷聚類是否已經收斂 while clusterChanged: clusterChanged = False; for i in range(m): # 把每一個資料點劃分到離它最近的中心點 minDist = inf; minIndex = -1; for j in range(k): distJI = distMeans(centroids[j,:], dataSet[i,:]) if distJI < minDist: minDist = distJI; minIndex = j # 如果第i個資料點到第j個中心點更近,則將i歸屬為j if clusterAssment[i,0] != minIndex: clusterChanged = True # 如果分配發生變化,則需要繼續迭代 clusterAssment[i,:] = minIndex,minDist**2 # 並將第i個資料點的分配情況存入字典 # print centroids for cent in range(k): # 重新計算中心點 ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]] # 去第一列等於cent的所有列 centroids[cent,:] = mean(ptsInClust, axis = 0) # 算出這些資料的中心點 return centroids, clusterAssment# --------------------測試----------------------------------------------------# 用測試資料及測試kmeans演算法if __name__ == ‘__main__‘: datMat = mat(loadDataSet(‘testSet.txt‘)) # print min(datMat[:,0]) # print max(datMat[:,1]) # print randCent(datMat,4) myCentroids,clustAssing = kMeans(datMat,4) print myCentroids # print clustAssing,len(clustAssing) plt.figure(1) x=array(datMat[:,0]).ravel() y=array(datMat[:,1]).ravel() plt.scatter(x,y, marker=‘o‘) xcent=array(myCentroids[:,0]).ravel() ycent=array(myCentroids[:,1]).ravel() plt.scatter( xcent, ycent, marker=‘x‘, color=‘r‘, s=50) plt.show()
運行結果:
代碼不是特別的難,看下都可以看得明白,發現都有點不會numpy的操作了,裡面有一些是基於numpy的 布爾型數組操作 ,要補一補。 第 04 章 NumPy 基礎:數組和向量計算
簡單說下各個函數的作用:
loadDataSet :載入資料的
distEclud : 計算距離的,注釋說是計算歐幾裡德距離,其實就是計算 每個樣本 到 每個聚類質心的距離,這是用來確定質心座標的。
kMeans : 主函數了,實現了kmeans 演算法
注釋已經比較詳細了,就不再細說了。 書上後面還有一個對kmeans最佳化的地方,這裡就不介紹了。
Kmeans 聚類 及其python實現