最大似然估計

最後更新：2018-12-05 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

文章目錄

注意
漸近線行為
偏差

最大似然估計概述

　　 最大似然估計
是一種統計方法
，它用來求一個樣本集的相關機率密度函數的參數。這個方法最早是遺傳學家以及統計學家羅納德·費雪
爵士在1912年至1922年間開始使用的。

　　“似然”是對likelihood
的一種較為貼近文言文的翻譯，“似然”用現代的中文來說即“可能性”。故而，若稱之為“最大可能性估計”則更加通俗易懂。

　　最大似然法明確地使用機率模型，其目標是尋找能夠以較高機率產生觀察資料的系統發生樹。最大似然法是一類完全基於統計
的
系統發生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的機率。

　　例如，轉換出現的機率大約是顛換的三倍。在一個三條序列的比對中，如果發現其中有一列為一個C，一個T和一個G，我們有理由認為，C和
T所在的序列之間的關係很有可能更接近。由於被研究序列的共同祖先序列是未知的，機率的計算變得複雜；又由於可能在一個位點或多個位點發生多次替換，並且
不是所有的位點都是相互獨立，機率計算的複雜度進一步加大。儘管如此，還是能用客觀標準來計算每個位點的機率，計算表示序列關係的每棵可能的樹的機率。然
後，根據定義，機率總和最大的那棵樹最有可能是反映真實情況的系統發生樹。

最
大似然估計的原理

　　給定一個機率分布D

，假定其機率密度函數（連續分布）或機率聚集函
數（離散分布）為f
D

，以及一個分布參
數θ
，我們可以從這個分布中抽出一個具有n

個
值的採樣
，通過利用f
D

，
我們就能計算出其機率：

　　但是，我們可能不知道θ
的值，儘管我們知道這些採樣資料來自於分布D

。那麼我們如何才能估計出θ
呢？
一個自然的想法是從這個分布中抽出一個具有n

個值的採樣X
1
,X
2
,...,X
n

，
然後用這些採樣資料來估計θ
.

　　一旦我們獲得
，我們就能從中找到一個關於θ
的
估計。最大似然估計會尋找關於 θ
的最可能的值（即，在所有可能的θ
取值中，尋找一個值使這個採樣的“可能性”最大化）。這種方法正好同一些其他的估計方法不同，如θ
的非偏估計，非偏估計未必會輸出一個最可能的值，而是會輸出一個既不高估也不低估
的θ
值。

　　要在數學上實現最大似然估計法
，我們首先要定義可能性
:

　　並且在θ
的所有取值上，使這個[[函數最大化。這個使可能性最大的
值即被稱為θ
的最大似然估計
。

注意

這裡的可能性是指
不變時，關於θ
的一個函數。
最大似然估計函數不一定是惟一的，甚至不一定存在。

最
大似然估計的例子離
散分布，離散有限參數空間

　　考慮一個拋硬幣
的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次（即，我們擷取一個採樣
並把正面的次數記下來，正面
記為H，反面記為T）。並把拋出一個正面的機率記為p

，拋出一個反面的機率記
為1 − p

（因此，這裡的p

即
相當於上邊的θ
）。假設我們拋出了49個正面，31
個反面，即49次H，31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的機率分別為p
= 1 / 3
, p
=
1 / 2
, p
= 2 / 3
.
這些硬幣沒有標記，所以我們無法知道哪個是哪個。使用最大似然估計
，通過這些實驗資料（即採樣資料），我們可以計算出哪個硬幣的可能性最
大。這個可能性函數取以下三個值中的一個：

& /binom{80}{49}(1/3)^{49}(1-1/3)^{31} /approx 0.000 // &&//
/mathbb{P}(/mbox{H=49, T=31 }/mid p=1/2) & = &
/binom{80}{49}(1/2)^{49}(1-1/2)^{31} /approx 0.012 // &&//
/mathbb{P}(/mbox{H=49, T=31 }/mid p=2/3) & = &
/binom{80}{49}(2/3)^{49}(1-2/3)^{31} /approx 0.054 // /end{matrix}">

　　我們可以看到當
時，可能性函數取得最大值。這就是p

的最
大似然估計
.

離
散分布，連續參數空間

　　現在假設例子1中的盒子中有無數個硬幣，對於
中的任何一個p

，
都有一個拋出正面機率為p

的硬幣對應，我們來求其可能性函數的最大值：

f_D(/mbox{H=49,T=80-49}/mid p) = /binom{80}{49} p^{49}(1-p)^{31} //
/end{matrix}">

　　其中
.
我們可以使用微分法來求最值。方程兩邊同時對p

取微分，並使其為零。

p^{49}(1-p)^{31} /right) // & & // & /propto &
49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} // & & // & =
& p^{48}(1-p)^{30}/left[ 49(1-p) - 31p /right] // /end{matrix}">

　　在不同比例參數值下一個二項式過程的可能性曲線 t
= 3, n
= 10；其最大似然估計值發生在其眾數
(數
學)並在曲線的最大值處。

　　其解為p
= 0
, p
= 1
，以及p
=
49 / 80
. 使可能性最大的解顯然是p
= 49 / 80
（因
為p
= 0
和p
= 1
這兩個解會使可能性為零）。因此我們說最大似然估計值
為
.

　　這個結果很容易一般化。只需要用一個字母t

代替49用以表
達伯努利實驗中的被觀察資料（即樣本
）的'成功'次數，用另一個字母n

代表伯
努利實驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值
:

　　對於任何成功次數為t

，實驗總數為n

的伯努利實驗。

連
續分布，連續參數空間

　　最常見的連續機率分布是常態分佈
，其機率密度函數如下：

e^{-/frac{(x-/mu)^2}{2/sigma^2}}">

　　其n

個正態隨機變數的採樣的對應密度函數（假設其獨立並服從同一分
布）為：

/frac{1}{2/pi/sigma^2} /right)^/frac{n}{2} e^{-/frac{
/sum_{i=1}^{n}(x_i-/mu)^2}{2/sigma^2}}">

　　或：

/frac{1}{2/pi/sigma^2} /right)^{n/2} /exp/left(-/frac{
/sum_{i=1}^{n}(x_i-/bar{x})^2+n(/bar{x}-/mu)^2}{2/sigma^2}/right)">
,

　　這個分布有兩個參數：μ,σ2
.
有人可能會擔心兩個參數與上邊的討論的例子不同，上邊的例子都只是在一個參數上對可能性進行最大化。實際上，在兩個參數上的求最大值的方法也差不多：只需
要分別把可能性
在兩
個參數上最大化即可。當然這比一個參數麻煩一些，但是一點也不複雜。使用上邊例子同樣的符號，我們有θ =
(μ,σ2
)
.

　　最大化一個似然函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函數的範圍內嚴格遞增的函數。[注意：可能性
函數（似然函數）的自然對數跟資訊熵以及Fisher資訊聯絡緊密。求對數通常能夠一定程度上簡化運算，比如在這個例子中可以看到：

/left( /left( /frac{1}{2/pi/sigma^2} /right)^/frac{n}{2} e^{-/frac{
/sum_{i=1}^{n}(x_i-/bar{x})^2+n(/bar{x}-/mu)^2}{2/sigma^2}} /right) //
& = & /frac{/partial}{/partial /mu} /left( /log/left(
/frac{1}{2/pi/sigma^2} /right)^/frac{n}{2} - /frac{
/sum_{i=1}^{n}(x_i-/bar{x})^2+n(/bar{x}-/mu)^2}{2/sigma^2} /right) //
& = & 0 - /frac{-2n(/bar{x}-/mu)}{2/sigma^2} // /end{matrix}">

　　這個方程的解是
. 這的確是這個函數的最大值，因為它是μ
裡頭惟一的拐點並且二階導數嚴格小於零。

　　同理，我們對σ
求導，並使其為零。

/log /left( /left( /frac{1}{2/pi/sigma^2} /right)^/frac{n}{2} e^{-/frac{
/sum_{i=1}^{n}(x_i-/bar{x})^2+n(/bar{x}-/mu)^2}{2/sigma^2}} /right) //
& = & /frac{/partial}{/partial /sigma} /left(
/frac{n}{2}/log/left( /frac{1}{2/pi/sigma^2} /right) - /frac{
/sum_{i=1}^{n}(x_i-/bar{x})^2+n(/bar{x}-/mu)^2}{2/sigma^2} /right) //
& = & -/frac{n}{/sigma} + /frac{
/sum_{i=1}^{n}(x_i-/bar{x})^2+n(/bar{x}-/mu)^2}{/sigma^3} //
/end{matrix}">

這個方程的解是
.

因此，其關於θ = (μ,σ2
)
的最大似然估
計
為：

(/bar{x},/sum_{i=1}^n(x_i-/bar{x})^2/n)">
.

性質泛
函不變性（Functional invariance）

　　如果
是 θ
的一個最大似然估計，那麼α = g
(θ)
的最大似然估計是
. 函數 g
無需是一個——映射。

漸近線行為

　　最大似然估計函數在採樣樣本總數趨於無窮的時候達到最小方差
（其
證明可見於Cramer-Rao lower
bound）。當最大似然估計非偏時，等價的，在極限的情況下我們可以稱其有最小的均方差。對於獨立的觀察來說，最大似然估計函數經常趨於常態分佈。

偏差

　　最大似然估計的非偏估計偏差是非常重要的。考慮這樣一個例子，標有1
到n
的n
張票放在一個盒子中。
從盒子中隨機抽取票。如果n
是未知的話，那麼n
的最大似然估計值就是抽出的票上標有的n
，儘管其期望值的只有(n
+ 1) / 2
. 為了估計出最高的n
值，我們能確定的只能是n
值
不小於抽出來的票上的值。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

最大似然估計

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support