模式識別：群集

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

1. 群集中距離函數的有效性

群集採用距離函數作為相似性測量的依據，此種方法是否有效，取決於特徵向量的分布。如果向量點是一群一群出現的，同一群樣本密集，不同群樣遠離，則方法有效。如果所有樣本的向量分布成一團，那麼就很難做群集。

2. 群集中的特徵選取

做群集時，選取的特徵向量是否合適非常關鍵。例如許多不同品牌的醬油和可樂混雜放在一起，要將醬油和可樂分開來。如果以“味道”作為識別分類的特徵，很容易就大道目的。如果以“顏色”作為識別分類的特徵，那麼就很難分別。

3. 相似性測度，距離是一種相似性的測度

（1）歐式（Euclid）距離：距離越小，越相似

D(X1, X2) = ||X1-X2||，應該注意物理量的單位，同樣物理意義的量要使用同樣的單位，以免單位不統一造成不同分類結果。一般使用特徵資料標準化的方法，使得特徵與單位無關，此時描述的是一種相對的位置關係，只要相對位置關係不變，就不會影響分類。（特徵資料標準化方法是怎樣的？）

（2）馬氏（Maharanobis）距離：距離越小，越相似

D = [(X-M)^T] * [C^(-1)] * [(X-M]，其中X為向量，M為某類模式的均值向量，C為該類模式總體的共變數矩陣。

C=E{(X-M) * (X-M)^T}，其中E是期望，共變數矩陣的對角線上的元素是每個分量的方差，非對角線上的元素兩個不同分量的共變數，共變數矩陣的物理意義就是各分量到均值的距離。方差或者共變數越大，則距離值越遠。

優點：派出了模式樣本之間的相關性影響。例如我們取的是相關特徵，比如9個分量反映特徵A，1個分量反映特徵B，如果用歐式距離計算，則主要反映了特徵A，如果用馬氏距離計算，則可以避免這個缺點。

（3）明氏（Minkowaki）距離

D(X1,X2) = [累加|X1(k)-X2(k)|^m ] ^ (1/m)，m=2時，為歐式距離，當m=1時，為“街坊”距離。例如，在二維空間中，D(X1, X2) = |X1(1)-X2(1)| + |X1(2)-X2(2)| ，即對應直角三角形的兩條直角邊之和。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

模式識別：群集

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support