語音辨識一些機率知識–似然估計/最大似然估計/高斯混合模型

來源:互聯網
上載者:User
文章目錄
  • 1.1原理
  • 1.2例子
  • 2.1原理
  • 2.2例子
  • 3.1原理
  • 3.2例子

在語音辨識中,機率模型佔了至關重要的地位,在學習語音辨識技術前,自己還是好好整理一下相關的機率知識。

1.似然估計1.1原理

在數理統計學中,似然函數是一種關於統計模型中的參數的函數,表示模型參數中的似然性。似然函數在統計推斷中有重大作用,如在最大似然估計和費雪資訊之中的應用等等。“似然性”與“或然性”或“機率”意思相近,都是指某種事件發生的可能性,但是在統計學中,“似然性”和“或然性”或“機率”又有明確的區分。機率用於在已知一些參數的情況下,預測接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物的性質的參數進行估計。

在這種意義上,似然函數可以理解為條件機率的逆反。在已知某個參數B時,事件A會發生的機率寫作:

利用貝葉斯定理,

因此,我們可以反過來構造表示似然性的方法:已知有事件A發生,運用似然函數,我們估計參數B的可能性。形式上,似然函數也是一種條件機率函數,但我們關注的變數改變了:

注意到這裡並不要求似然函數滿足歸一性:。一個似然函數乘以一個正的常數之後仍然是似然函數。對所有,都可以有似然函數:

1.2例子

 

兩次投擲都正面朝上時的似然函數

 

考慮投擲一枚硬幣的實驗。通常來說,已知投出的硬幣正面朝上和反面朝上的機率各自是,便可以知道投擲若干次後出現各種結果的可能性。比如說,投兩次都是正面朝上的機率是0.25。用條件機率表示,就是:

其中H表示正面朝上。

在統計學中,我們關心的是在已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的資訊。
我們可以建立一個統計模型:假設硬幣投出時會有 的機率正面朝上,而有
的機率反面朝上。
這時,條件機率可以改寫成似然函數:

也就是說,對於取定的似然函數,在觀測到兩次投擲都是正面朝上時, 的似然性是0.25(這並不表示當觀測到兩次正面朝上時
機率是0.25)。

如果考慮,那麼似然函數的值也會改變。

三次投擲中頭兩次正面朝上,第三次反面朝上時的似然函數

注意到似然函數的值變大了。
這說明,如果參數 的取值變成0.6的話,結果觀測到連續兩次正面朝上的機率要比假設
時更大。也就是說,參數 取成0.6 要比取成0.5 更有說服力,更為“合理”。總之,似然函數的重要性不是它的具體取值,而是當參數變化時函數到底變小還是變大。對同一個似然函數,如果存在一個參數值,使得它的函數值達到最大的話,那麼這個值就是最為“合理”的參數值。

在這個例子中,似然函數實際上等於:

, 其中。

如果取,那麼似然函數達到最大值1。也就是說,當連續觀測到兩次正面朝上時,假設硬幣投擲時正面朝上的機率為1是最合理的。

類似地,如果觀測到的是三次投擲硬幣,頭兩次正面朝上,第三次反面朝上,那麼似然函數將會是:

, 其中 T表示反面朝上,。

這時候,似然函數的最大值將會在的時候取到。也就是說,當觀測到三次投擲中前兩次正面朝上而後一次反面朝上

2最大後驗估計2.1原理

最大後驗估計是根據經驗資料獲得對難以觀察的量的點估計。與最大似然估計類似,但是最大的不同時,最大後驗估計的融入了要估計量的先驗分布在其中。故最大後驗估計可以看做規則化的最大似然估計。

    首先,我們回顧上篇文章中的最大似然估計,假設x為獨立同分布的採樣,θ為模型參數,f為我們所使用的模型。那麼最大似然估計可以表示為:

    

現在,假設θ的先驗分布為g。通過貝葉斯理論,對於θ的後驗分布如下式所示:

    

最後驗分布的目標為:

    

    註:最大後驗估計可以看做貝葉斯估計的一種特定形式。

2.2例子

假設有五個袋子,各袋中都有無限量的餅乾(櫻桃口味或檸檬口味),已知五個袋子中兩種口味的比例分別是

    櫻桃 100%

    櫻桃 75% + 檸檬 25%

    櫻桃 50% + 檸檬 50%

    櫻桃 25% + 檸檬 75%

    檸檬 100%

  如果只有如上所述條件,那問從同一個袋子中連續拿到2個檸檬餅乾,那麼這個袋子最有可能是上述五個的哪一個?

      我們首先採用最大似然估計來解這個問題,寫出似然函數。假設從袋子中能拿出檸檬餅乾的機率為p(我們通過這個機率p來確定是從哪個袋子中拿出來的),則似然函數可以寫作

  

  由於p的取值是一個離散值,即上面描述中的0,25%,50%,75%,1。我們只需要評估一下這五個值哪個值使得似然函數最大即可,得到為袋子5。這裡便是最大似然估計的結果。

上述最大似然估計有一個問題,就是沒有考慮到模型本身的機率分布,下面我們擴充這個餅乾的問題。

假設拿到袋子1或5的機率都是0.1,拿到2或4的機率都是0.2,拿到3的機率是0.4,那同樣上述問題的答案呢?這個時候就變MAP了。我們根據公式

   

寫出我們的MAP函數。

   

根據題意的描述可知,p的取值分別為0,25%,50%,75%,1,g的取值分別為0.1,0.2,0.4,0.2,0.1.分別計算出MAP函數的結果為:0,0.0125,0.125,0.28125,0.1.由上可知,通過MAP估計可得結果是從第四個袋子中取得的最高。

  上述都是離散的變數,那麼連續的變數呢?假設為獨立同分布的,μ有一個先驗的機率分布為。那麼我們想根據來找到μ的最大後驗機率。根據前面的描述,寫出MAP函數為:

   

  此時我們在兩邊取對數可知。所求上式的最大值可以等同於求

  

  的最小值。求導可得所求的μ為

   

  以上便是對於連續變數的MAP求解的過程。

在MAP中我們應注意的是:

    MAP與MLE最大區別是MAP中加入了模型參數本身的機率分布,或者說。MLE中認為模型參數本身的機率的是均勻的,即該機率為一個固定值。

 3 最大似然估計3.1原理

給定一個機率分布,假定其機率密度函數(連續分布)或機率聚集合函式(離散分布)為,以及一個分布參數,我們可以從這個分布中抽出一個具有個值的採樣,通過利用,我們就能計算出其機率:

但是,我們可能不知道的值,儘管我們知道這些採樣資料來自於分布。那麼我們如何才能估計出呢?一個自然的想法是從這個分布中抽出一個具有個值的採樣,然後用這些採樣資料來估計.

一旦我們獲得,我們就能從中找到一個關於的估計。最大似然估計會尋找關於的最可能的值(即,在所有可能的取值中,尋找一個值使這個採樣的“可能性”最大化)。這種方法正好同一些其他的估計方法不同,如的非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估的值。

要在數學上實現最大似然估計法,我們首先要定義似然函數:

並且在的所有取值上,使這個函數最大化(一階導數)。這個使可能性最大的值即被稱為的最大似然估計

注意
  • 這裡的似然函數是指不變時,關於的一個函數。
  • 最大似然估計函數不一定是惟一的,甚至不一定存在。
3.2例子離散分布,離散有限參數空間[編輯]

考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(即,我們擷取一個採樣並把正面的次數記下來,正面記為H,反面記為T)。並把拋出一個正面的機率記為,拋出一個反面的機率記為(因此,這裡的即相當於上邊的)。假設我們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的機率分別為,
,
.這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大似然估計,通過這些實驗資料(即採樣資料),我們可以計算出哪個硬幣的可能性最大。這個似然函數取以下三個值中的一個:

\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000 \\
&&\\
\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012 \\
&&\\
\mathbb{P}(\mbox{H=49, T=31 }\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054 \\
\end{matrix}" src="http://upload.wikimedia.org/math/a/1/f/a1f3c94ed5790e61ee9a07c99a81ac43.png">

我們可以看到當時,似然函數取得最大值。這就是的最大似然估計。

離散分布,連續參數空間[編輯]

現在假設例子1中的盒子中有無數個硬幣,對於中的任何一個,
都有一個拋出正面機率為的硬幣對應,我們來求其似然函數的最大值:

\mbox{lik}(\theta) & = & f_D(\mbox{H=49,T=80-49}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\
\end{matrix}" src="http://upload.wikimedia.org/math/5/b/7/5b78074d235f091606ac223c08c805d3.png">

其中. 我們可以使用微分法來求最值。方程兩邊同時對取微分,並使其為零。

0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\
& & \\
& \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\
& & \\
& = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\
\end{matrix}" src="http://upload.wikimedia.org/math/f/4/3/f43c984e21445732edf403445fe32ea9.png">

在不同比例參數值下一個二項式過程的可能性曲線t = 3, n = 10;其最大似然估計值發生在其眾數並在曲線的最大值處。

其解為,
,以及.使可能性最大的解顯然是(因為和這兩個解會使可能性為零)。因此我們說最大似然估計值為.

這個結果很容易一般化。只需要用一個字母代替49用以表達伯努利實驗中的被觀察資料(即樣本)的“成功”次數,用另一個字母代表伯努利實驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:

對於任何成功次數為,實驗總數為的伯努利實驗。

連續分布,連續參數空間[編輯]

最常見的連續機率分布是常態分佈,其機率密度函數如下:

現在有個正態隨機變數的採樣點,要求的是一個這樣的常態分佈,這些採樣點分布到這個常態分佈可能性最大(也就是機率密度積最大,每個點更靠近中心點),其個正態隨機變數的採樣的對應密度函數(假設其獨立並服從同一分布)為:

或:

,

這個分布有兩個參數:.有人可能會擔心兩個參數與上邊的討論的例子不同,上邊的例子都只是在一個參數上對可能性進行最大化。實際上,在兩個參數上的求最大值的方法也差不多:只需要分別把可能性在兩個參數上最大化即可。當然這比一個參數麻煩一些,但是一點也不複雜。使用上邊例子同樣的符號,我們有.

最大化一個似然函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函數的範圍內嚴格遞增的上凸函數。[注意:可能性函數(似然函數)的自然對數跟資訊熵以及Fisher資訊聯絡緊密。]求對數通常能夠一定程度上簡化運算,比如在這個例子中可以看到:

0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\
& = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\
& = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\
\end{matrix}" src="http://upload.wikimedia.org/math/4/8/2/48202b92b3b70c4594ec868f7eb26b76.png">

這個方程的解是.這的確是這個函數的最大值,因為它是裡頭惟一的一階導數等於零的點並且二階導數嚴格小於零。

同理,我們對求導,並使其為零。

0 & = & \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\
& = & \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\
& = & -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3}
\\
\end{matrix}" src="http://upload.wikimedia.org/math/f/1/2/f1222744f148d3c19a35abc7ec571d95.png">

這個方程的解是.

因此,其關於的最大似然估計為:

 

 

 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.