1. 群集中距離函數的有效性
群集採用距離函數作為相似性測量的依據,此種方法是否有效,取決於特徵向量的分布。如果向量點是一群一群出現的,同一群樣本密集,不同群樣遠離,則方法有效。如果所有樣本的向量分布成一團,那麼就很難做群集。
2. 群集中的特徵選取
做群集時,選取的特徵向量是否合適非常關鍵。例如許多不同品牌的醬油和可樂混雜放在一起,要將醬油和可樂分開來。如果以“味道”作為識別分類的特徵,很容易就大道目的。如果以“顏色”作為識別分類的特徵,那麼就很難分別。
3. 相似性測度,距離是一種相似性的測度
(1)歐式(Euclid)距離:距離越小,越相似
D(X1, X2) = ||X1-X2||,應該注意物理量的單位,同樣物理意義的量要使用同樣的單位,以免單位不統一造成不同分類結果。一般使用特徵資料標準化的方法,使得特徵與單位無關,此時描述的是一種相對的位置關係,只要相對位置關係不變,就不會影響分類。(特徵資料標準化方法是怎樣的?)
(2)馬氏(Maharanobis)距離:距離越小,越相似
D = [(X-M)^T] * [C^(-1)] * [(X-M],其中X為向量,M為某類模式的均值向量,C為該類模式總體的共變數矩陣。
C=E{(X-M) * (X-M)^T},其中E是期望,共變數矩陣的對角線上的元素是每個分量的方差,非對角線上的元素兩個不同分量的共變數,共變數矩陣的物理意義就是各分量到均值的距離。方差或者共變數越大,則距離值越遠。
優點:派出了模式樣本之間的相關性影響。例如我們取的是相關特徵,比如9個分量反映特徵A,1個分量反映特徵B,如果用歐式距離計算,則主要反映了特徵A,如果用馬氏距離計算,則可以避免這個缺點。
(3)明氏(Minkowaki)距離
D(X1,X2) = [累加|X1(k)-X2(k)|^m ] ^ (1/m),m=2時,為歐式距離,當m=1時,為“街坊”距離。例如,在二維空間中,D(X1, X2) = |X1(1)-X2(1)| + |X1(2)-X2(2)| ,即對應直角三角形的兩條直角邊之和。