在做Face Service的時候經常與共變數矩陣打交道,但一直也只是知道其形式,而對其意義卻比較模糊,現在我根據單變數的共變數給出共變數矩陣的詳細推導以及在不同應用背景下的不同形式。
變數說明:
設為一組隨機變數,這些隨機變數構成隨機向量
,每個隨機變數有m個樣本,則有樣本矩陣
(1)
其中
對應著每個隨機向量X的樣本向量,
對應著第i個隨機單變數的所有樣本值構成的向量。
單隨機變數間的共變數:
隨機變數
之間的共變數可以表示為
(2)
根據已知的樣本值可以得到共變數的估計值如下:
(3)
可以進一步地簡化為:
(4)
共變數矩陣:
(5)
其中
,從而得到了共變數矩陣運算式。
如果所有樣本的均值為一個零向量,則式(5)可以表達成:
(6)
補充說明:
1、共變數矩陣中的每一個元素是表示的隨機向量X的不同分量之間的共變數,而不是不同樣本之間的共變數,如元素Cij就是反映的隨機變數Xi,
Xj的共變數。
2、共變數是反映的變數之間的二階統計特性,如果隨機向量的不同分量之間的相關性很小,則所得的共變數矩陣幾乎是一個對角矩陣。對於一些特殊的應用場合,為了使隨機向量的長度較小,可以採用主成分分析的方法,使變換之後的變數的共變數矩陣完全是一個對角矩陣,之後就可以捨棄一些能量較小的分量了(對角線上的元素反映的是方差,也就是交流能量)。特別是在模式識別領域,當模式向量的維數過高時會影響識別系統的泛化效能,經常需要做這樣的處理。
3、必須注意的是,這裡所得到的式(5)和式(6)給出的只是隨機向量共變數矩陣真實值的一個估計(即由所測的樣本的值來表示的,隨著樣本取值的不同會發生變化),故而所得的共變數矩陣是依賴於採樣樣本的,並且樣本的數目越多,樣本在總體中的覆蓋面越廣,則所得的共變數矩陣越可靠。
4、如同共變數和相關係數的關係一樣,我們有時為了能夠更直觀地知道隨機向量的不同分量之間的相關性究竟有多大,還會引入相關係數矩陣。
轉自:http://blog.csdn.net/faceRec/article/details/1697362