MLAPP——機器學習的機率知識總結

來源:互聯網
上載者:User

標籤:機器學習   機率分布   

《機器學習》課程使用的是Kevin P. Murphy所著的《Machine Learning A Probabilistic Perspective》這本英文原版教材,這本書從機率論這個數學角度獨特闡述了機器學習的所有問題,需要較強的數學基礎。因為是英文教材,特開一個專題在此記錄自己的學習過程和各種問題,以供備忘和舉一反三之用。

在講解了機器學習的概述之後,第二章緊接著就開始講述機率論的知識,通過後續的學習會發現,這些機率論知識有部分在本科的機率論課程中學習過,但是有很多其他部分是沒有在現有的本科階段甚至研究生階段也很少涉及的知識點,在此做一個總結。

1、機率學派

頻率學派:機率代表的是對一個實驗重複執行N次,所關注的事件發生的頻率。這裡要求的是需要進行重複實驗,這對於一般可重複執行的實驗是比較好的標識方式,這也成為實驗機率。

貝葉斯學派:機率代表的是人們對一個未知事件發生的不確定性一種表徵,這裡不要求對這個事件進行重複實驗。同時對於任何未知的事件,都可以用一個機率來表徵人們對它的認識。

通過上述比較可以發現,對於某些不能重複實驗的事件(比如產生燈管的工廠產生的燈管的平均使用壽命,進行重複實驗是不現實的),使用貝葉斯機率的解釋更加合理。因此在整個學習中都以貝葉斯學派為準。

2、基本知識

機率:事件空間Ω到實數域R的映射,對於每個事件A,都有一個實數p(A)與之對應,同時滿足:(1)非負性,p(A)>=0;(2)規範性,p(Ω)=1;(3)可列可加性:p(A1+A2+…An) = p(A1)+p(A2)+…p(An)其中A1、A2…An都是互補相容的事件。

基本機率公式:


全機率公式和貝葉斯公式:


通用的貝葉斯分類器:

(θ為模型的參數)

3、離散型分布

(1)二項分布Binomial

K為每次實驗可能出現的結果,n為進行實驗的次數。貝努利實驗就是K={0,1}且n=1的實驗,對於n(n>1)的n重貝努利實驗就是二項分布,分布函數如下:


mean=θ,variance=nθ(1-θ)。二項分布描述的典型實驗就是拋硬幣,每次出現正面或者反面兩種結果。這在機器學習的分類演算法中用於描述二值的特徵,也就是每個資料的特徵的取值是兩個狀態(一般是0和1),用來表徵當前資料是否有這個特徵,因此可以使用二項分布來描述當前特徵的分布。

(2)多項分布Multinormial

當每次實驗出現的結果可能有K(K>2)種時,也就是一個特徵的不僅僅是表徵是否出現,而是需要用一個具體數值來表徵該特徵的影響大小,此時可以用多項分布進行描述。


此處,當K=2時也就是兩種狀態,可以看出多項分布就退化到了二項分布,可以看出x1=k,x2=n-k,x1+x2=n條件滿足。其中,當n=1時,也就是只進行一次實驗,此時的分布稱為多維貝努利分布,因為每次的可能狀態有K(K>2)個,也成為離散分布(discrete distribution)或者分類分布(categorical distribution),記為Cat(x|θ):


(3)泊松分布Poisson

變數X={0,1,2.....},λ>0,分布如下:


泊松分布可以用來類比以時間序列發送的事件,具有無記憶性。

4、連續型分布

(1)常態分佈Gaussian(Normal)


mean=u,mode=u,variance=σ^2。在統計學中應用非常廣泛,首先兩個參數非常好理解,分別是均值和標準差,同時,中心極限定理得到相互獨立的隨機變數的和的分布近似為高斯分布,可以用來類比雜訊資料;第三,高斯分布使用了最小的假設也就是擁有最大熵;第四,數學形式相對簡單,非常利於實現。

(2)Student t分布


mean=u,mode=u,variance=νσ^2/(ν-2),ν>0為自由度,方差在ν>2時有定義,均值在ν>1時有定義。此分布形式上與高斯分布類似,彌補了高斯分布的一個不足,就是高斯分布對離群的資料非常敏感,但是Student t分布更魯棒。一般設定ν=4,在大多數實際問題中都有很好的效能,當ν大於等於5時將會是去魯棒性,同時會迅速收斂到高斯分布。

特別的,當ν=1時,被稱為柯西分布(Cauchy)。

(3)拉普拉斯分布Laplace


mean=u,mode=u,variance=2b^2。也被稱為雙側指數分布,引出了絕對值的指數次方,因此在x=u處不可導。b(b>0)為縮放因子,用來調節資料的分散程度。拉普拉斯分布對離群資料的魯棒性更好。同時,在x=u處給予了比高斯分布更大的機率密度,這個性質可以用來修正模型中稀疏的資料。

(4)Gamma分布


mean=a / b,mode=(a-1) / b,variance=a / b^2,mean在a>1時有定義,variance在a>2時有定義。其中變數T的範圍為T>0,a>0稱為形狀參數,b>0稱為速率參數。

  • Exponential分布:a=1,b=λ時,Expon(x|λ)=Ga(x|1,λ),這個分布描述了連續的泊松過程,與離散型的泊松分布共軛。
  • ErLang分布:ErLang(x|λ)=Ga(x|2,λ)
  • Chi-Squared分布(卡方分布):ChiSq(x|v)=Ga(x|v/2,1/2),這是N個高斯分布的隨機變數的平方和所服從的分布。
當使用1/x代替Gamma分布中的變數時,得到的是反Gamma分布,即:

mean=b / (a-1),mode=b / (a+1),variance=b^2 / (a-1)^2(a-2),其中mean在a>1時定義,variance在a>2時定義。

(5)Beta分布


定義在[0,1]區間上,要求a>0,b>0,當a=b=1時就是[0,1]上的均勻分布。mean=a / (a+b), mode=(a-1) / (a+b-2), variance = ab / (a+b)^2(a+b+1)。這個分布與離散的二項分布是共軛的,在樸素貝葉斯分類應用中,當似然分布為二項分布時,選擇Beta分布為共軛先驗分布,則後驗分布也為Beta分布,非常便於實際操作和計算。

(6)Pareto分布


mean=km/(k-1)(k>1),mode=m,variance=mk^2 / (k-1)^2(k-2)(k>2),這個分布對應有一個Zipf‘s 定律,用來描述單詞的排名和其出現的頻率的關係。x必須比一個常數m要大,但是不能超過k,當k為無窮大時,這個分布會趨於δ(x-m)。上述分布在資訊檢索中對索引構建中的詞頻估計很有效。

(7)狄利克雷分布Dirichlet


mean(Xk)=ak/a0, mode(Xk) = (ak - 1) / (a0 - K), variance(Xk) = ak(a0-ak) / a0^2(a0+1)。這是beta分布在多維條件下的分布,對應的參數和變數都是一個向量,這個分布與離散的多項分布時共軛的,在樸素貝葉斯分類應用中,似然使用多項分布時,選擇Dirichlet分布為先驗分布,得到後驗分布也為Dirichlet分布。

以上對機器學習中使用到的機率分布做了一個總結,供後續學習時備忘和複習。

MLAPP——機器學習的機率知識總結

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.