語音辨識一些機率知識–似然估計/最大似然估計/高斯混合模型

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

文章目錄

1.1原理
1.2例子
2.1原理
2.2例子
3.1原理
3.2例子

在語音辨識中，機率模型佔了至關重要的地位，在學習語音辨識技術前，自己還是好好整理一下相關的機率知識。

1.似然估計1.1原理

在數理統計學中，似然函數是一種關於統計模型中的參數的函數，表示模型參數中的似然性。似然函數在統計推斷中有重大作用，如在最大似然估計和費雪資訊之中的應用等等。“似然性”與“或然性”或“機率”意思相近，都是指某種事件發生的可能性，但是在統計學中，“似然性”和“或然性”或“機率”又有明確的區分。機率用於在已知一些參數的情況下，預測接下來的觀測所得到的結果，而似然性則是用於在已知某些觀測所得到的結果時，對有關事物的性質的參數進行估計。

在這種意義上，似然函數可以理解為條件機率的逆反。在已知某個參數B時，事件A會發生的機率寫作：

利用貝葉斯定理，

因此，我們可以反過來構造表示似然性的方法：已知有事件A發生，運用似然函數，我們估計參數B的可能性。形式上，似然函數也是一種條件機率函數，但我們關注的變數改變了：

注意到這裡並不要求似然函數滿足歸一性：。一個似然函數乘以一個正的常數之後仍然是似然函數。對所有，都可以有似然函數：

1.2例子

兩次投擲都正面朝上時的似然函數

考慮投擲一枚硬幣的實驗。通常來說，已知投出的硬幣正面朝上和反面朝上的機率各自是，便可以知道投擲若干次後出現各種結果的可能性。比如說，投兩次都是正面朝上的機率是0.25。用條件機率表示，就是：

其中H表示正面朝上。

在統計學中，我們關心的是在已知一系列投擲的結果時，關於硬幣投擲時正面朝上的可能性的資訊。
我們可以建立一個統計模型：假設硬幣投出時會有的機率正面朝上，而有
的機率反面朝上。
這時，條件機率可以改寫成似然函數：

也就是說，對於取定的似然函數，在觀測到兩次投擲都是正面朝上時，的似然性是0.25（這並不表示當觀測到兩次正面朝上時
的機率是0.25）。

如果考慮，那麼似然函數的值也會改變。

三次投擲中頭兩次正面朝上，第三次反面朝上時的似然函數

注意到似然函數的值變大了。
這說明，如果參數的取值變成0.6的話，結果觀測到連續兩次正面朝上的機率要比假設
時更大。也就是說，參數取成0.6 要比取成0.5 更有說服力，更為“合理”。總之，似然函數的重要性不是它的具體取值，而是當參數變化時函數到底變小還是變大。對同一個似然函數，如果存在一個參數值，使得它的函數值達到最大的話，那麼這個值就是最為“合理”的參數值。

在這個例子中，似然函數實際上等於：

，其中。

如果取，那麼似然函數達到最大值1。也就是說，當連續觀測到兩次正面朝上時，假設硬幣投擲時正面朝上的機率為1是最合理的。

類似地，如果觀測到的是三次投擲硬幣，頭兩次正面朝上，第三次反面朝上，那麼似然函數將會是：

，其中 T表示反面朝上，。

這時候，似然函數的最大值將會在的時候取到。也就是說，當觀測到三次投擲中前兩次正面朝上而後一次反面朝上

2最大後驗估計2.1原理

最大後驗估計是根據經驗資料獲得對難以觀察的量的點估計。與最大似然估計類似，但是最大的不同時，最大後驗估計的融入了要估計量的先驗分布在其中。故最大後驗估計可以看做規則化的最大似然估計。

首先，我們回顧上篇文章中的最大似然估計，假設x為獨立同分布的採樣，θ為模型參數,f為我們所使用的模型。那麼最大似然估計可以表示為：

現在，假設θ的先驗分布為g。通過貝葉斯理論，對於θ的後驗分布如下式所示：

最後驗分布的目標為：

　　　　註：最大後驗估計可以看做貝葉斯估計的一種特定形式。

2.2例子

假設有五個袋子，各袋中都有無限量的餅乾(櫻桃口味或檸檬口味)，已知五個袋子中兩種口味的比例分別是

　　　　櫻桃 100%

　　　　櫻桃 75% + 檸檬 25%

　　　　櫻桃 50% + 檸檬 50%

　　　　櫻桃 25% + 檸檬 75%

　　　　檸檬 100%

　　如果只有如上所述條件，那問從同一個袋子中連續拿到2個檸檬餅乾，那麼這個袋子最有可能是上述五個的哪一個？

我們首先採用最大似然估計來解這個問題，寫出似然函數。假設從袋子中能拿出檸檬餅乾的機率為p(我們通過這個機率p來確定是從哪個袋子中拿出來的)，則似然函數可以寫作

　　由於p的取值是一個離散值，即上面描述中的0,25%，50%，75%，1。我們只需要評估一下這五個值哪個值使得似然函數最大即可，得到為袋子5。這裡便是最大似然估計的結果。

上述最大似然估計有一個問題，就是沒有考慮到模型本身的機率分布，下面我們擴充這個餅乾的問題。

假設拿到袋子1或5的機率都是0.1，拿到2或4的機率都是0.2，拿到3的機率是0.4，那同樣上述問題的答案呢？這個時候就變MAP了。我們根據公式

寫出我們的MAP函數。

根據題意的描述可知，p的取值分別為0,25%，50%，75%，1，g的取值分別為0.1，0.2,0.4,0.2,0.1.分別計算出MAP函數的結果為：0,0.0125,0.125,0.28125,0.1.由上可知，通過MAP估計可得結果是從第四個袋子中取得的最高。

　　上述都是離散的變數，那麼連續的變數呢？假設為獨立同分布的，μ有一個先驗的機率分布為。那麼我們想根據來找到μ的最大後驗機率。根據前面的描述，寫出MAP函數為：

　　此時我們在兩邊取對數可知。所求上式的最大值可以等同於求

　　的最小值。求導可得所求的μ為

　　以上便是對於連續變數的MAP求解的過程。

在MAP中我們應注意的是：

MAP與MLE最大區別是MAP中加入了模型參數本身的機率分布，或者說。MLE中認為模型參數本身的機率的是均勻的，即該機率為一個固定值。

3 最大似然估計3.1原理

給定一個機率分布，假定其機率密度函數（連續分布）或機率聚集合函式（離散分布）為，以及一個分布參數，我們可以從這個分布中抽出一個具有個值的採樣，通過利用，我們就能計算出其機率：

但是，我們可能不知道的值，儘管我們知道這些採樣資料來自於分布。那麼我們如何才能估計出呢？一個自然的想法是從這個分布中抽出一個具有個值的採樣，然後用這些採樣資料來估計.

一旦我們獲得，我們就能從中找到一個關於的估計。最大似然估計會尋找關於的最可能的值（即，在所有可能的取值中，尋找一個值使這個採樣的“可能性”最大化）。這種方法正好同一些其他的估計方法不同，如的非偏估計，非偏估計未必會輸出一個最可能的值，而是會輸出一個既不高估也不低估的值。

要在數學上實現最大似然估計法，我們首先要定義似然函數:

並且在的所有取值上，使這個函數最大化(一階導數)。這個使可能性最大的值即被稱為的最大似然估計。

注意

這裡的似然函數是指不變時，關於的一個函數。
最大似然估計函數不一定是惟一的，甚至不一定存在。

3.2例子離散分布，離散有限參數空間[編輯]

考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次（即，我們擷取一個採樣並把正面的次數記下來，正面記為H，反面記為T）。並把拋出一個正面的機率記為，拋出一個反面的機率記為（因此，這裡的即相當於上邊的）。假設我們拋出了49個正面，31個反面，即49次H，31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的機率分別為,
,
.這些硬幣沒有標記，所以我們無法知道哪個是哪個。使用最大似然估計，通過這些實驗資料（即採樣資料），我們可以計算出哪個硬幣的可能性最大。這個似然函數取以下三個值中的一個：

\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000 \\
&&\\
\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012 \\
&&\\
\mathbb{P}(\mbox{H=49, T=31 }\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054 \\
\end{matrix}" src="http://upload.wikimedia.org/math/a/1/f/a1f3c94ed5790e61ee9a07c99a81ac43.png">

我們可以看到當時，似然函數取得最大值。這就是的最大似然估計。

離散分布，連續參數空間[編輯]

現在假設例子1中的盒子中有無數個硬幣，對於中的任何一個，
都有一個拋出正面機率為的硬幣對應，我們來求其似然函數的最大值：

\mbox{lik}(\theta) & = & f_D(\mbox{H=49,T=80-49}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\
\end{matrix}" src="http://upload.wikimedia.org/math/5/b/7/5b78074d235f091606ac223c08c805d3.png">

其中. 我們可以使用微分法來求最值。方程兩邊同時對取微分，並使其為零。

0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\
& & \\
& \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\
& & \\
& = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\
\end{matrix}" src="http://upload.wikimedia.org/math/f/4/3/f43c984e21445732edf403445fe32ea9.png">

在不同比例參數值下一個二項式過程的可能性曲線t = 3, n = 10；其最大似然估計值發生在其眾數並在曲線的最大值處。

其解為,
，以及.使可能性最大的解顯然是（因為和這兩個解會使可能性為零）。因此我們說最大似然估計值為.

這個結果很容易一般化。只需要用一個字母代替49用以表達伯努利實驗中的被觀察資料（即樣本）的“成功”次數，用另一個字母代表伯努利實驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:

對於任何成功次數為，實驗總數為的伯努利實驗。

連續分布，連續參數空間[編輯]

最常見的連續機率分布是常態分佈，其機率密度函數如下：

現在有個正態隨機變數的採樣點，要求的是一個這樣的常態分佈，這些採樣點分布到這個常態分佈可能性最大（也就是機率密度積最大，每個點更靠近中心點），其個正態隨機變數的採樣的對應密度函數（假設其獨立並服從同一分布）為：

或：

這個分布有兩個參數：.有人可能會擔心兩個參數與上邊的討論的例子不同，上邊的例子都只是在一個參數上對可能性進行最大化。實際上，在兩個參數上的求最大值的方法也差不多：只需要分別把可能性在兩個參數上最大化即可。當然這比一個參數麻煩一些，但是一點也不複雜。使用上邊例子同樣的符號，我們有.

最大化一個似然函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函數的範圍內嚴格遞增的上凸函數。[注意：可能性函數（似然函數）的自然對數跟資訊熵以及Fisher資訊聯絡緊密。]求對數通常能夠一定程度上簡化運算，比如在這個例子中可以看到：

0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\
& = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\
& = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\
\end{matrix}" src="http://upload.wikimedia.org/math/4/8/2/48202b92b3b70c4594ec868f7eb26b76.png">

這個方程的解是.這的確是這個函數的最大值，因為它是裡頭惟一的一階導數等於零的點並且二階導數嚴格小於零。

同理，我們對求導，並使其為零。

0 & = & \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\
& = & \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\
& = & -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3}
\\
\end{matrix}" src="http://upload.wikimedia.org/math/f/1/2/f1222744f148d3c19a35abc7ec571d95.png">

這個方程的解是.

因此，其關於的最大似然估計為：

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

語音辨識一些機率知識–似然估計/最大似然估計/高斯混合模型

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support