模式識別:群集

來源:互聯網
上載者:User

1. 群集中距離函數的有效性

    群集採用距離函數作為相似性測量的依據,此種方法是否有效,取決於特徵向量的分布。如果向量點是一群一群出現的,同一群樣本密集,不同群樣遠離,則方法有效。如果所有樣本的向量分布成一團,那麼就很難做群集。

 

2. 群集中的特徵選取

    做群集時,選取的特徵向量是否合適非常關鍵。例如許多不同品牌的醬油和可樂混雜放在一起,要將醬油和可樂分開來。如果以“味道”作為識別分類的特徵,很容易就大道目的。如果以“顏色”作為識別分類的特徵,那麼就很難分別。

 

3. 相似性測度,距離是一種相似性的測度

(1)歐式(Euclid)距離:距離越小,越相似

          D(X1, X2) = ||X1-X2||,應該注意物理量的單位,同樣物理意義的量要使用同樣的單位,以免單位不統一造成不同分類結果。一般使用特徵資料標準化的方法,使得特徵與單位無關,此時描述的是一種相對的位置關係,只要相對位置關係不變,就不會影響分類。(特徵資料標準化方法是怎樣的?)

 

(2)馬氏(Maharanobis)距離:距離越小,越相似

          D = [(X-M)^T] * [C^(-1)] * [(X-M],其中X為向量,M為某類模式的均值向量,C為該類模式總體的共變數矩陣。

          C=E{(X-M) * (X-M)^T},其中E是期望,共變數矩陣的對角線上的元素是每個分量的方差,非對角線上的元素兩個不同分量的共變數,共變數矩陣的物理意義就是各分量到均值的距離。方差或者共變數越大,則距離值越遠。

          優點:派出了模式樣本之間的相關性影響。例如我們取的是相關特徵,比如9個分量反映特徵A,1個分量反映特徵B,如果用歐式距離計算,則主要反映了特徵A,如果用馬氏距離計算,則可以避免這個缺點。

 

(3)明氏(Minkowaki)距離

          D(X1,X2) = [累加|X1(k)-X2(k)|^m ] ^ (1/m),m=2時,為歐式距離,當m=1時,為“街坊”距離。例如,在二維空間中,D(X1, X2) = |X1(1)-X2(1)| + |X1(2)-X2(2)| ,即對應直角三角形的兩條直角邊之和。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.